Kapitel 10 Stichproben und statistische Fehler 10.1 Verfahren zur Auswahl von Stichproben Stichprobenauswahl als Bestandteil von Teilerhebungen: Aus dem Ergebnis der Untersuchung der Stichprobe soll dann auf die Grundgesamtheit geschlossen werden. Ziel: 10.1.1 Ergebnis der Untersuchung der Stichprobe = Ergebnis der Untersuchung der Grundgesamtheit, wenn sie exakt durchgeführt werden könnte, bis auf einen abschätzbaren Fehler, dessen Grenzen vor der Untersuchung festgelegt werden sollten. Zufällige Auswahlverfahren Def. 10.1.1: Eine (streng) zufällige Auswahl einer Stichprobe liegt vor, wenn bei jeder Ziehung gilt: Jedes Element der Grundgesamtheit (bei ”m. Z.”) bzw. des Restes der Grundges. (bei ”o. Z.”) hat die gleiche Chance, gezogen zu werden. Wichtiges Hilfsmittel: Zufallszahlen. Def. 10.1.2: (zi ) heißt eine Folge von Zufallsziffern, wenn jedes zi eine Realisierung einer ZV Zi ist, für die gilt: a) Zi nimmt die Werte 0, 1, . . . , 9 jeweils mit der Wahrscheinlichkeit 0.1 an. b) Die Zi bilden eine Folge von unabhängigen ZV. Def. 10.1.3: k ∈IN sei eine feste Zahl. (xi ) heißt eine Folge von Zufallszahlen (mit Stellenzahl ≤ k), wenn jedes xi eine Realisierung einer ZV Xi ist, für die gilt: a) Xi nimmt die Werte 0, 1, 2, . . . , 10k − 1 jeweils mit der Wahrsch. 10−k an. b) Die Xi bilden eine Folge von unabhängigen ZV. Die xi erhält man durch Zusammenfassung von je k Zufallsziffern, wobei Lücken und Überlappungen vermieden werden sollten. Bei der Verwendung von Zufallszahlentabellen sollte die Anfangsstelle zufällig ausgewählt werden. Def. 10.1.4 (xi ) heißt eine Folge von z.B. reellen, auf (0, 1] gleichverteilten Zufallszahlen, wenn jedes xi Realisierung einer ZV Xi ist, für die gilt: a) Xi ist auf (0, 1] gleichverteilt, d.h. es gilt: 0 < Xi ≤ 1 und P (a < Xi ≤ b) = b − a für 0 ≤ a ≤ b ≤ 1. b) Die Xi bilden eine Folge von unabhängigen ZV. 73 Statt “echter” Zufallszahlen verwendet man meist Pseudo-Zufallszahlen. Dies sind von Rechenprogrammen erzeugte Zahlen, die deshalb keine Zufallszahlen sein können, aber in ausreichender Näherung die gleichen Eigenschaften wie “echte” Zufallszahlen haben. So werden z.B. in Basic mit dem Befehl “rnd” auf [0, 1] gleichverteilte Pseudo-Zufallszahlen erzeugt. Allg. Verf. zur (streng) zufälligen Auswahl einer Stichprobe vom Umfang n: Annahme: Die Elemente der Grundgesamtheit sind registriert und durchnumeriert mit den Nummern 1, 2, . . . , N . Ziehe n auf (0, 1] gleichverteilte (Pseudo-)Zufallszahlen xi . Bilde daraus zunächst die Zahlen yi := xi · N. Diese Zahlen sind auf (0, N ] gleichverteilte (Pseudo-)Zufallszahlen. Bestimme daraus für jedes i = 1, . . . , n die Zahl ui als nächst größere ganze Zahl, d.h. ui ist die kleinste ganze Zahl mit der Eigenschaft ui ≥ yi . Die Elemente mit den Nummern u1 , u2 , . . . un bilden dann eine (streng) zufälligen Stichprobe vom Umfang n m.Z. Will man eine (streng) zufälligen Stichprobe vom Umfang n o.Z., so muß man die jedes ui , das zum zweitenmal vorkommt, streichen, und wenn nötig weitere auf (0, 1] gleichverteilte (Pseudo-)Zufallszahlen xi ziehen und verarbeiten. Quellen für Folgen von Zufallsziffern und –zahlen: a) Tabellen in Statistik–Lehrbüchern b) The Rand Corporation: A Million Random Digits with 100,000 Normal Deviates, Glencoe (Illinois), 1955 c) Feste Unterprogramme in Rechenanlagen 10.1.2 Andere Auswahlverfahren Gründe für nicht streng zufällige Auswahlverfahren: Streng zuf. Verf. sind nicht immer möglich oder zu aufwendig, Vorkenntnisse bleiben unberücksichtigt, Vereinfachungen erwünscht. Geschichtete Stichprobe: Aufteilung der Grundgesamtheit in Schichten (z.B. Arbeitnehmer, Freiberufliche ...). Zufällige Stichprobe aus jeder Schicht o.Z. Bezeichnungen der relevanten Größen: k Schichten Ni (keine ZV) Umfang der Schicht i (i = 1, 2, . . . , k) ! ni (≥ 1) µi ei σ µ e σ Umfang der auf Schicht i entfallenden Teilstichprobe arithmetisches Mittel der Merkmalswerte aller statistischen Elemente in Schicht i modifizierte Standardabweichung aller statistischen Elemente in Schicht i arithmetisches Mittel der Merkmalswerte aller statistischen Elemente in der Grundgesamtheit modifizierte Standardabweichung der Merkmalswerte aller statistischen Elemente in der Grundgesamtheit 74 n := k P i=1 k P N := ni i=1 xij Ni Gesamtstichprobenumfang Umfang der Grundgesamtheit Merkmalswert von dem statistischen Element Nummer j aus der Schicht i Ai Menge der Nummern der statistischen Elemente aus Schicht i, die für die Teilstichprobe ausgewählt werden. Die Auswahl aus einer Schicht geschieht unabhängig von der Auswahl aus jeder anderen Schicht. Definitionen und Eigenschaften: card Ai = ni Ni X N µi := 1 Ni µ Ni k X 1 X := N j=1 ei2 := xij , σ xij = i=1 j=1 1 Xi (xij − µi )2 Ni − 1 j=1 k 1 X µ i · Ni N i=1 N e2 = σ = k X i 1 X (xij − µ)2 N − 1 i=1 j=1 N k X i 1 X (xij − µi + µi − µ)2 N − 1 i=1 j=1 N = k X i 1 X (xij − µi )2 N − 1 i=1 j=1 N + k X i 1 X 2(xij − µi )(µi − µ) N − 1 i=1 j=1 | N + = {z =0 k X i 1 X (µi − µ)2 N − 1 i=1 j=1 k X Ni − 1 i=1 N −1 ei2 σ + k X i=1 } 1 Ni (µi − µ)2 N −1 1 X xij ist ZV, da die Elemente j ∈ Ai zufällig ausgewählt Jedes Teilstichprobenmittel Y i := ni j∈A i werden. Y 1 , . . . Y k sind unabhängig. Die Realisierung y i der ZV Y i (nach der Auswahl der Stichprobe) ist eine erwartungstreue Schätzung für µi : E(Y i ) = µi k k 1 X 1 X Die Realisierung z := Ni y i der ZV Z := Ni Y i ist eine erwartungstreue Schätzung N i=1 N i=1 für µ: k k 1 X 1 X E(Z) = Ni E(Y i ) = Ni µ i = µ N i=1 N i=1 75 Was ist nun überhaupt der Vorteil der Schichtung? Dies sehen wir, wenn wir die Varianzen der ZV bilden: Aus der Unabhängigkeit der Y i folgt: V (Z) = k X Ni2 i=1 N V (Y i ) = 2 k X ei2 Ni2 σ i=1 N2 ni (1 − ni ) Ni Zum Vergleich: A sei eine Zufallsauswahl (ohne Berücksichtigung der Schichten) aus {1, . . . , N } vom Umfang n, d.h. card A = n Y := 1X eℓ , x e1 := x11 , x e2 := x12 , . . . , x en1 := x1n1 , x en1 +1 := x21 , . . . , x en1 +n2 := x2n2 x n ℓ∈A E(Y ) = µ e2 n σ (1 − ) V (Y ) = n N ei bekannt, so würde V (Z) minimal für Sind die σ ni = n · ei Ni · σ k P ℓ=1 eℓ Nℓ · σ Eine eventuell nicht–ganzzahlige rechte Seite ist auf eine ganze Zahl zu runden und führt zu einem neuen (vom alten höchstens geringfügig abweichenden) Umfang nneu = k X ni i=1 Dies liefert die optimale Stichprobe. ei nicht bekannt, so wählt man am besten Sind die σ Ni N Dies liefert die proportionale Stichprobe (wobei bei evtl. nicht–ganzzahliger rechter Seite wie bei der optimale Stichprobe zu verfahren ist.) Schon bei der proportionalen Stichprobe gilt mindestens im Fall, daß alle rechten Seiten ganzzahlig sind und daß alle Ni groß gegenüber n sind, für den Vergleich der Varianz der ZV Y ohne Schichtung mit der Varianz der ZV Z mit Schichtung: ni = n · k X ni e2 + σ 2 i k X ni (µi − µ)2 2 n n i=1 i=1 > falls nicht alle µi gleich sind k X ei2 ni · σ V (Z) ≈ n2 i=1 V (Y ) ≈ Def. 10.1.5: Beim Quotenverfahren (z. B. bei Umfragen) muß ein Interviewer Quoten (= Anteile, rel. Hf. en) bei der Auswahl der befragten Personen beachten. Ist z. B. der Anteil der freiberuflich Tätigen in der Grundges. p%, so müssen auch p% der befragten Personen freiberuflich tätig sein. Sonst ist dem Interviewer die Auswahl in seinem Bereich freigestellt. Unterschied zu Def. 10.1.4: Keine zufällige Stichprobe in den einzelnen Gruppen, trotzdem häufig 76 gute Ergebnisse. Def. 10.1.6: Eine Grundges. werde in kleinere Einheiten aufgeteilt. Dann wird bei dem Verf. der Klumpenstichprobe a) eine zufällige Stichprobe von kleineren Einheiten gezogen, b) bei jeder gezogenen kleineren Einheit eine zufällige Stichprobe von Elementen aus dieser kleineren Einheit gezogen. Häufig werden auch alle stat. Elemente aus der kleineren Einheit untersucht. Ein Beispiel für ein Auswahlverfahren einer systematischen Stichprobe vom Umfang n aus einer Grundgesamtheit von N Elementen, wobei N durch n teilbar sein soll, ist das folgende: a) Wähle zufällig eine Zahl aus 1, 2, . . . , i := N n. Das Ergebnis sei k. b) Die Elemente mit den Nummern: k, k + i, k + 2i, . . . , k + (n − 1)i kommen in die Stichprobe. Vorteile: Vereinfachung, Ähnlichkeit mit geschichteter Stichprobe Nachteil: Mögliche Gefahr durch Regelmäßigkeit, Abhilfe: Statt einer Zufallszahl k werden n Zufallszahlen k0 , k2 , . . . , kn−1 (m. Z.) gezogen. Die Elemente mit den Nummern: k0 , k1 + i, k2 + 2i, . . . , kn−1 + (n − 1)i kommen in die Stichprobe. 10.2 Zufällige und systematische Fehler Bei einer Messung treten nur zufällige Fehler auf, wenn die Meßwerte gleichmäßig um den richtigen Wert streuen. Den richtigen Wert kann man dann nach den in Kap.7 besprochenen Verfahren schätzen. Ist aber z. B. das Meßinstrument falsch adjustiert, so käme zu dem zufälligen Fehler auch ein systematischer: Die einzelnen Werte würden nicht um den richtigen Wert streuen, sondern um einen davon verschiedenen. Ein weiteres Beispiel für einen zufälligen Fehler ist der Rundungsfehler, d. h. jener Fehler, der durch das Runden von Zahlen entsteht. Wird z. B. auf ganze Zahlen gerundet, so wird der Rundungsfehler in der Regel im Intervall ±0.5 gleichverteilt sein, d. h. die Verteilungsdichte der zugehörigen ZV ist = 1 zwischen -0.5 und +0.5 und = 0 sonst. Die Ursache für zufällige Stichprobenfehler liegt in der Untersuchung der Stichprobe statt der Grundgesamtheit. Dieser Fehler ist mit Hilfe der Stichprobe der Wahrscheinlichkeitsrechnung (vgl. Kap.7,8,11) kontrollierbar und z. B. durch Erhöhung des Stichprobenumfangs und durch Berücksichtigung von Vorkenntnissen reduzierbar. Ursachen für systematische Stichprobenfehler sind (z. T. unvermeidbare) Fehler bei der Auswahl der Stichprobe, der Datenerfassung, der Aufbereitung der Daten u. s. w. 10.3 Das Rechnen mit fehlerbehafteten Zahlen Gegeben seien zwei Zahlen x und y, die mit gewissen Fehlern ∆x und ∆y behaftet sind. (x+∆x) und (y + ∆y) seien also die zugehörigen (unbekannten) exakten Werte. ∆x und ∆y werden als absolute, ∆x/x und ∆y/y als relative Fehler bezeichnet. Wir interessieren uns dafür, mit welchem Fehler ein aus x und y berechneter Funktionswert f (x, y) behaftet ist. Wenn wir annehmen, daß die relativen Fehler dem Betrage nach klein gegen 1 sind (d. h. |∆x| ist klein gegen |x|, und |∆y| ist klein gegen |y|), gilt: 77 ∆f (x, y) := f (x + ∆x, y + ∆y) − f (x, y) (10.3.1) ≈ fx (x, y)∆x + fy (x, y)∆y . Dabei sind fx und fy die partiellen Ableitungen von f nach x bzw. y. Spezialfälle: a) f (x, y) = x ± y ∆(x ± y) := [(x + ∆x) ± (y + ∆y)] − [x ± y] = ∆x ± ∆y Für den relativen Fehler gilt also ∆(x ± y) ∆x ± ∆y = x±y x±y . Dieser relative Fehler kann dem Betrage nach sehr groß werden und den Zahlenwert (x±y) sogar unbrauchbar machen, wenn zwar die relativen Fehler von x und y dem Betrage nach klein gegen 1 sind, aber andererseits |x ± y| klein gegen |x| und gegen |y| ist. b) f (x, y) = x · y. Es gilt: fx (x, y) = y ∧ fy (x, y) = x. Daraus folgt: ∆(x · y) ≈ y · ∆x + x · ∆y ∆y ∆x und ∆(x·y) x·y ≈ x + y . c) f (x, y) = xy , Es gilt: fx (x, y) = ∆ 10.4 x y / x y ≈ ∆x x − ∆y y . 1 y ∧ fy (x, y) = − yx2 . Daraus folgt: ∆ x y ≈ ∆x y − yx2 ∆y und Bestimmung des Stichprobenumfangs Je höher der Stichprobenumfang ist, desto genauer, aber auch desto teurer ist ein statistisches Verfahren. Es empfiehlt sich also, den für eine bestimmte Genauigkeitsforderung nötigen Stichprobenumfang – wenn möglich – zu bestimmen oder wenigstens abzuschätzen. Als Beispiel dazu nehmen wir an, daß wir ein 90%–Konfidenzintervall für µ bei einer N (µ, σ)–verteilten ZV bestimmen wollen, wobei σ = 0.5 bekannt sei. Wie groß muß der Stichprobenumfang gewählt werden, damit das Konfidenzintervall höchstens die Länge 0.3 hat, d. h. die Abweichung höchstens 0.15 beträgt? Da Φ streng monoton wachsend ist, gilt: √ 0.15 n ) − 1 ≥ 0.9 = 2Φ(1.65) − 1 P (|X n − µ| ≤ 0.15) = 2Φ( 0.5 √ ⇔ 0.3 n ≥ 1.65 ⇔ n ≥ 5.52 = 30.25 Der Stichprobenumfang sollte also 31 sein. Allgemein erhält man als Faustregel für die Bestimmung des Stichprobenumfangs bei einer Grundgesamtheit vom Umfang N , die im wesentlichen auf der Näherung durch die Normalverteilung beruht und nur als grobe Orientierung dienen kann: ! P (|Schätz–ZV für den Parameter θ − θ| ≤ d) ≥ γ, wobei d und γ vorgegeben seien. Wir bestimmen ε aus der Formel Φ(ǫ) = (1+γ) 2 , wobei σ etwa aufgrund von früheren Untersuchungen bekannt sei. Der Stichprobenumfang wird dann 78 näherungsweise nach der folgenden Formel bestimmt: n≈ 1 d 2 ) ( εσ + 1 N oder, wenn N sehr groß ist und damit praktisch eine fast ”unendliche” Grundgesamtheit vorliegt, n≈ εσ d 79 2 . Kapitel 11 Weitere Testverfahren statistischer Hypothesen 11.1 Varianzanalyse Mit Hilfe der Varianzanalyse soll untersucht werden, ob man aus vorliegendem Datenmaterial über k Mess– oder Beobachtungsgrößen mit ausreichender Sicherheit schließen kann, dass sie unterschiedliche Erwartungswerte haben. Bei jeder Größe seien n0 Messungen oder Beobachtungen gemacht worden: xj,1 , . . . , xj,n0 seien die Ergebnisse bei der j–ten Größe. Wir nehmen nun an, dass jedes dieser Messergebnisse xj,i (j = 1, 2, . . . , k; i = 1, 2, . . . , n0 ) eine Realisierung einer normalverteilten ZV Xj,i ist, wobei alle diese ZV unabhängig sind. Die Standardabweichung sei bei allen ZV gleich, aber unbekannt. Die Erwartungswerte sind bei den ZV Xj,i für jedes feste j unabhängig von i, da diese ZV mit je einer Messgröße zusammenhängen. Unter diesen Annahmen ist Xj,i also N (µj , σ)–verteilt. Es soll getestet werden, ob die Erwartungswerte µ1 , µ2 , . . . , µk unterschiedlich sind. Trifft das zu, so wird die Summe k P (11.1.1) (µj − µ)2 µ := >0 j=1 1 k k P j=1 µj ! sein. Je mehr sich die Werte µ1 , . . . , µk unterscheiden, desto größer wird diese Summe. Setzen wir für µj und µ geeignte Schätzungen ein, so erhalten wir folgenden Ausdruck: (11.1.2) k P (xj − x)2 mit xj := j=1 1 n0 n0 P i=1 xj,i und x := 1 k k P j=1 xj Um die o. g. Hypothese zu prüfen, stellen wir die gegenteilige Hypothese, nämlich (11.1.3) H0 : µ1 = µ2 = . . . = µk =: µ als Nullhypothese auf und prüfen, ob wir aus den Ergebnissen xj,i der Untersuchung H0 mit ausreichender Sicherheit verwerfen können. Das hängt offenbar davon ab, wie groß der Ausdruck in (11.1.2) ist. Um aber Wahrscheinlichkeitsaussagen machen zu können, müssten wir die Vertei√ lung der zu (11.1.2) gehörenden ZV kennen. Nun ist E(X j ) = µj = µ = µ und σ(X j ) = σ/ n0 . 80 Außerdem sind die ZV X 1 , . . . , X k unabhängig. Damit ist nach Satz 7.4.6 die ZV (11.1.4) Z := k P j=1 X j −X √ σ/ n0 2 n0 σ2 = k P (X j − X)2 j=1 χ2 –verteilt mit(k − 1) Freiheitsgraden. Da wir aber die Varianz σ 2 nicht kennen, müssen wir eine geeignete Schätzung verwenden: (11.1.5) c2 = σ 1 k k P [ n01−1 j=1 n0 P i=1 (xj,i − xj )2 ] Dabei ist der Ausdruck in der eckigen Klammer die erwartungstreue (vgl. Satz 7.3.1b) Schätzung für σ 2 , bei der nur die Daten der j–ten Messgröße verwendet werden. Zur Verbesserung der Schätzung wurde dann noch über diese Ausdrücke gemittelt. Wegen der Unabhängigkeit der den Ausdrücken in der eckigen Klammer zugeordneten ZV ist auch die Schätzfunktion in (11.1.5) c2 gehörende ZV, so erhalten insgesamt erwartungstreu. Ersetzen wir in (11.1.4) σ 2 durch die zu σ wir unter Einführung eines geeigneten Normierungsfaktors, nämlich 1/(k − 1), die ZV n0 k−1 (11.1.6) Y := 1 no k−k k P (X j −X)2 j=1 k n0 PP . (Xj,i −X j )2 j=1 i=1 Diese ZV besitzt unter der Hypothese H0 eine Verteilung, die in den statistischen Tabellen mit F–Verteilung mit (k − 1,n0 k − k)–Freiheitsgraden bezeichnet wird. Mit Hilfe der Tabellen zu dieser Verteilung lässt sich dann der Test in folgender Weise durchführen: Lege n0 und das Signifikanzniveau α vor der Untersuchung der Stichprobe fest. Bestimme d > 0 aus (11.1.7) ! P (Y ≥ d|H0 ) = α (Y vgl.(11.1.6)) (Dieser Wert d ist direkt aus den Tabellen für die F–Verteilung zu bestimmen.) Untersuche für jede der k Messgrößen eine Stichprobe vom Umfang n0 und berechne aus deren Daten xj,i die Zahl y als Realisierung von Y aus (11.1.6). Ist y ≥ d, so ist H0 abzulehnen. Ist y < d, so kann man aus dem Datenmaterial nicht mit ausreichender Sicherheit (hier: Wahrsch. (1-α)) schließen, dass H0 falsch ist. Bem.: Statt einer festen Zahl n0 nimmt man häufig auch verschiedene Zahlen nj (j = 1, 2, . . . , k), wobei die Formeln entsprechend zu verändern sind (vgl. z.B. J.Pfanzagl: Allgemeine Methodenlehre der Statistik II, Abschn. 9.10). In diesem Fall ist also die Anzahl der Messungen bei den einzelnen Messgrößen u. U. verschieden, und zwar = nj bei der j–ten Messgröße. 11.2 Kontingenztafeln Problemstellung: X und Y seien zwei ZV, die zwei Merkmale beschreiben, z. B. Kinderzahl und Familieneinkommen. Kann man auf Grund von vorliegenden Daten auf die Abhängigkeit bzw. Unabhängigkeit schließen ? Fall 1: X und Y seien ZV, die nur endlich viele Werte annehmen können. Die möglichen Werte von X seien x1 , x2 , . . . , xr , die möglichen Werte von Y seien y1 , y2 , . . . , ys . Für X und Y wird dann eine Stichprobe vom Umfang n gezogen. Dabei ist zu beachten, dass 81 die Werte xi und yj hier die gleiche Bedeutung wie im Abschnitt 7.7 und damit eine andere Bedeutung als xi und yj in den Kapiteln 8 und 9 haben. Unter einer Kontingenztafel versteht man nun das folgende, der gemeinsamen Verteilung (vgl. 7.7) analoge Schema: ↓ X| Y → x1 x2 .. . y1 f1,1 f2,1 .. . y2 f1,2 f2,2 .. . y3 f1,3 f2,3 .. . ... ... ... ys f1,s f2,s .. . xr fr,1 f∗,1 fr,2 f∗,2 fr,3 f∗,3 ... ... fr,s f∗,s fi,j ) = r X Es gilt: r X s X ( i=1 j=1 f f Dabei bedeuten: fi,j := absolute Häufigkeit des gemeinsamen Auftretens von xi und yj in der Stichprobe, f1,∗ f2,∗ .. . fr,∗ n fi,∗ = i=1 fi,∗ := s X j=1 s P j=1 fi,j , f∗,j := r P i=1 fi,j . f∗,j = n(Stichpr. umf.) f ∗,j Die rel. Häufigkeiten ni,j , i,∗ n bzw. n sind als Schätzwerte für pi,j , pi,∗ bzw. p∗,j zu verwenden. Es werden dann die ZV Ni,j , Ni,∗ bzw. N∗,j eingeführt, deren Realisierungen fi,j , fi,∗ bzw. f∗,j sind. Dann gilt: W := r X i=1 s X (n · Ni,j − Ni,∗ N∗,j )2 nNi,∗ N∗,j j=1 ist unter der Hyp. H0 (vgl. u.) und unter den u.g. Näherungsbedingungen näherungsweise χ2 – verteilt mit (r − 1) · (s − 1) Freiheitsgraden. f ·f i,∗ ∗,j ≥ 5 ( für alle i = 1, . . . , r; j = 1, . . . , s) (Diese Näherungsbedingungen: n ≥ 50, n Bedingung lässt sich noch etwas abschwächen (vgl. J.Pfanzagl: Allgemeine Methodenlehre der Statistik II, Abschn. 8.3). Der Stichprobenumfang n sollte also nicht zu klein gewählt werden. Test auf Unabhängigkeit zum Niveau α (α und n vor der Untersuchung festlegen): Hypothese H0 : X, Y sind unabhängig. ! Bestimme d > 0 so, dass P (W ≥ d) ≈ 1 − Fχ2 (d) = α ist ((r − 1) · (s − 1) Freiheitsgrade). Eine Stichprobe vom Umfang n liefert dann die Häufigkeiten fi,j , aus denen dann – wie oben beschrieben – die Häufigkeiten fi,∗ und f∗,j zu bestimmen sind. Dann sind die o.g. Näherungsbedingungen zu prüfen. Sind sie nicht beide erfüllt, kann der Test nicht durchgeführt werden. Ist r s 2 X X (n · fi,j − fi,∗ · f∗,j ) ≥ d, w= n · fi,∗ · f∗,j i=1 j=1 so ist H0 abzulehnen, d. h. es besteht ein Zusammenhang zwischen X und Y . Die Irrtumswahrscheinlichkeit ist ≤ α. Ist w < d, so kann H0 auf Grund des Testes nicht mit ausreichender Sicherheit abgelehnt werden. Fall 2: Vergleich zweier qualitativer Merkmale (nicht häufbar): Ersetze xi bzw. yj durch die Merkmalsausprägungen des 1. bzw. 2. Merkmals. fi,j bezeichnet dann die Häufigkeit des gemeinsamen Auftretens der i–ten Merkmalsausprägung beim 1. und der j–ten Merkmalsausprägung beim 2. Merkmal. fi,∗ , f∗,j und w sind dann genau wie im Fall 1 zu bilden, und der Test ist ebenfalls wie im 82 Fall 1 durchzuführen. Ablehnung von H0 bedeutet: Es kann (mit ausreichender Sicherheit) ein Zusammenhang zwischen den beiden Merkmalen angenommen werden. Fall 3: X und Y nicht–diskrete ZV (u. a.): Ersetze xi und yj in der Kontingenztafel durch geeignete Intervalle. Die absolute Häufigkeiten in der Tafel sind dann wie folgt zu bilden: fi,j := Anzahl der Messwertpaare (x, y) in der Stichprobe mit xi−1 ≤ x < xi und yj−1 ≤ y < yj . fi,∗ , f∗,j und w sind dann genau wie in Fall 1 zu bilden, und der Test ist ebenfalls wie in Fall 1 durchzuführen. Bemerkung: Die zweite o.g. Näherungsbedingung ist in Fall 3 bei der Wahl der Intervalle zu berücksichtigen. In Fall 2 sind dazu mehrere Merkmalsausprägungen zusammenzufassen, wenn die zweite o.g. Näherungbedingung zunächst nicht erfüllt war. Ähnlich ist im Fall 1 vorzugehen, d.h. man nimmt dann nicht z.B. die Ereignisse “X = x1 ” und “X = x2 ”, sondern das Ereignis ”X ∈ {x1 , x2 }”. 11.3 χ2 –Test für allgemeine Verteilungen Wir sind bei den bisherigen stat. Untersuchungen mit Ausnahme von Abschn. 11.2 davon ausgegangen, dass wir den Typ der Verteilung kennen, etwa Binomialvert., Normalvert. o. ä.. Konfidenzintervalle und Tests bezogen sich auf die jeweiligen Verteilungsparameter. Sie ergeben keine Aussage darüber, ob der angenommene Verteilungstyp gerechtfertigt ist oder nicht, ob also z. B. eine ZV überhaupt normalverteilt ist oder eine andere Art von Verteilung besitzt. In diesem Abschnitt sollen Fragen dieser Art behandelt werden. Wie in den Kapiteln 7 und 8 gehen wir von einem Satz von n unabhängigen ZV X1 , . . . , Xn aus, die alle die gleiche Verteilung besitzen. Dieser Satz ist wie bisher als Mess– oder Beobachtungsreihe aufzufassen. Fall 1: Die ZV Xi können nur die Werte k = 1, . . . , m annehmen. Über die Verteilung der Xi wird dann folg. Hypothese aufgestellt: (11.3.1) H0 : P (Xi = k) = pk , k = 1, . . . , m (i = 1, . . . , n) , wobei die pk vorgegebene (hypothetische) Wahrscheinlichkeiten sind und damit die Bedingungen 0 ≤ pk ≤ 1 f. a. k und m P k=1 pk = 1 erfüllen müssen. Diese Hypothese H0 soll geprüft werden. Dazu wird eine Stichprobe vom Umfang n gezogen mit den Mess– oder Beobachtungsergebnissen x1 , . . . , xn als Realisierungen der ZV X1 , . . . , Xn . Die Häufigkeit des Wertes k bezeichnen wir dann wie bisher mit fk , d. h. (11.3.2) fk := Anzahl der i mit xi = k . Um die Hypothese H0 testen zu können, müssen wir aus den Häufigkeiten fk eine geignete Testgröße bestimmen. Nun ist die relative Häufigkeit fk /n ein Schätzwert für pk , und damit kommt es offenbar wesentlich auf die Differenzen zwischen den relativen Häufigkeiten und den Wahrscheinlichkeiten pk an. Ist Nk wie in 11.2 die ZV, deren Realisierung fk ist, so sind offenbar die ZV (11.3.3) Zk := N √k −npk npk qk (qk := 1 − pk , k = 1, . . . , m) von entscheidender Bedeutung. Nk ist nämlich eine binomialvert. ZV mit den Parametern n, pk 83 und qk . Die ZV Zk hat damit den Erwartungswert 0 und die Standardabweichung 1 und ist also näherungsweise N (0, 1)–verteilt, wobei die Bedingungen n ≥ 50 und npk ,nqk ≥ 5 erfüllt sein sollten. Es ist nun naheliegend, analog zu Satz 7.4.5 oder besser noch zu Satz 7.4.6 die ZV m X Zk2 = k=1 m X (Nk − npk )2 npk qk k=1 als Test–ZV zu verwenden und von ihr anzunehmen, dass sie näherungsweise χ2 –verteilt ist. Eine genauere Untersuchung, für die in dieser Vorlesung aber die Hilfsmittel fehlen, zeigt jedoch, dass stattdessen die entsprechende ZV ohne die qk , nämlich (11.3.4) Y := m P k=1 (Nk −npk )2 npk , näherungsweise χ2 –verteilt ist mit (m − 1) Freiheitsgraden. Das liegt u. a. an der besonderen Art der Abhängigkeit von N1 , . . . , Nm . Der Test ist dann in folgender Weise durchzuführen: χ2 –Test für die Hypothese H0 (vgl. (11.3.1)) Schritt 1: Lege ein Signifikanzniveau α und einen Stichprobenumfang n fest. Schritt 2: Bestimme eine kritische Größe y0 > 0 mit ! P (Y ≥ y0 ) ≈ 1 − Fχ2 (y0 ) = α , χ2 –Vert. mit (m-1) Freiheitsgraden. Schritt 3: Werte eine Stichprobe vom Umfang n aus, bestimme aus den Ergebnissen die Häufigkeiten fk (vgl. (11.3.2)) und daraus eine Realisierung der ZV Y aus (11.3.4): (11.3.5) y := m P k=1 y ≥ y0 ⇒ Ablehnung von H0 . y < y0 ⇒ Annahme von H0 mit Vorbehalt. (fk −npk )2 npk Hier ist der Vorbehalt in noch viel stärkerem Maße als in 8.1 gerechtfertigt; denn die Negation von H0 aus (11.3.1) ist noch viel weiter gefasst als die Negation von H0 aus 8.1, nämlich µ 6= µ0 . Fall 2: Über die ZV Xi wird als Hypothese H0 aufgestellt, dass sie eine bestimmte Vert. fkt. F besitzen (z. B. F = Φ). Der Test soll analog zu Fall 1 durchgeführt werden. Dazu wird die Menge überhaupt möglicher Werte (z. B. IR =] − ∞, ∞[ oder [0, ∞[) in Intervalle mit folgenden Randstellen aufgeteilt: (11.3.6) a0 := −∞ < a1 < . . . < am−1 < am := +∞ (Aufteil. v. IR) Für diese Intervalle erhalten wir folg. hypothetische Wahrscheinlichkeiten: (11.3.7) H0 =⇒ P (ak−1 < Xi ≤ ak ) = F (a1 ) − 0 =: p1 F (ak ) − F (ak−1 ) =: pk 1 − F (am−1 ) =: pm 84 für k = 1 für k = 2, . . . , m − 1 für k = m Diesen Wahrscheinlichkeiten werden die Häufigkeiten für die Intervalle gegenübergestellt: (11.3.8) fk := Anzahl der i mit xi ∈]ak−1 , ak ] Mit diesen Größen ist dann der Test genauso durchzuführen wie in Fall 1. Bem.: In beiden Fällen sollten folgende Bedingungen beobachtet werden, damit die verwendeten Näherungen gerechtfertigt sind (vgl. Erläuterung zu (11.3.3)): (11.3.9) n ≥ 50, n · pk ≥ 5 für alle k = 1, . . . , m (⇒ n · qk ≥ 5) Ist die 2. Bedingung im Fall 2 nicht erfüllt, so ist die Intervallaufteilung geeignet zu verändern, indem man die betroffenen Intervalle vergrößert oder evtl. (zwei oder mehr) benachbarte Intervalle zusammenfasst. Ist die 2. Bedingung im Fall 1 verletzt, sollte man u. U. mehrere benachbarte Werte von k zusammenfassen. Bei Fall 2 ist noch zu beachten, dass verschiedene Verteilungsfunktionen und damit verschiedene Ausgangshypothesen auf die gleichen Wahrscheinlichkeiten pk führen können. Deshalb ist eine Annahme von H0 im Fall 2 noch problematischer als im Fall 1. 11.4 Vorzeichentest Die Ergebnisse einer Beobachtungsreihe, die durch einen Satz X1 , . . . , Xn unabh. ZV mit der gleichen Verteilung gekennzeichnet ist, soll mit der Ergebnissen einer zweiten Beobachtungsreihe, die in gleicher Weise durch Y1 , . . . , Yn gekennzeichnet ist, verglichen werden. xi kann z.B. der Ertrag der Hälfte des i-ten Versuchsfeldes sein, die mit einem konventionellen Düngemittel behandelt wurde, während yi der Ertrag der anderen Hälfte ist, die mit einem neu entwickelten Düngemittel behandelt wurde. Mit Hilfe der Beobachtungsergebnissen soll überprüft werden, ob die Erträge des neuen Düngemittels besser sind als die des alten. Allgemein läuft das auf die Fragestellung hinaus, ob folgendes gilt: (11.4.1) p+ := P (Xi < Yi ) > p− := P (Xi > Yi ) Wegen der Gleichheit der Verteilungen der Xi untereinander und der Yi untereinander sind p+ und p− von i unabhängig. Zum Test der Hypothese (11.4.1) gehen wir von der gegenteiligen Hypothese aus und haben also folg. Gegenüberstellung: (11.4.2) H0 : p+ ≤ p− gegen H1 : p+ > p− Der Test selbst ist recht einfach : Man überprüft, bei wievielen Wertepaaren xi < yi gilt, wie oft also yi − xi > 0 ist, d.h. positives Vorzeichen hat. Man prüft dann nach, ob das Ergebnis gegen H0 oder gegen H1 spricht, wobei die Fehler 1. bzw. 2. Art höchstens die Wahrscheinlichkeiten α bzw. β haben sollen. Bei einer Beobachtungsreihe der oben beschriebenen Art erhielt man folgende Differenzen ( yi − xi ) ( i = 1, . . . , 10 ), wobei α = β = 0.05 vorher festgelegt wurde: (yi − xi ) : 2.4, 1.0, 0.7, 0.0, 1.1, 1.6, 1.1, −0.4, 0.1, 0.7 (11.4.3) Vorzeichen : + + + + + + − + + Dieses Ergebnis scheint klar gegen H0 zu sprechen. Zur genaueren Untersuchung berücksichtigt man nur die Differenzen 6= 0, also 9 statt 10 Differenzen. Man erhält dann : 85 P ( Mindestens 8-mal (Yi − Xi ) > 0|H0 ∧ genau 9-mal (Yi − Xi ) 6= 0) 9 X = ⊗ (11.4.4) k=8 9 k ! p+ p+ + p− k p− p+ + p− 9−k p+ ≤p− ⇔ p ! ! 9 X 9 9 (vgl. 8.2.2) X 1 9 9 1 k 1 9−k = ≤ 2 2 2 k=8 k k k=8 p+ ≤ 12 + +p− 2−9 (9 + 1) = 0.0195 < α = 0.05 = Dabei ist ⊗ so zu erklären (kein vollständiger Beweis!): P ((Yi − Xi ) > 0|(Yi − Xi ) 6= 0) = P (Xi < Yi |Xi 6= Yi ) := P (Xi < Yi ) p+ P (Xi < Yi ∧ Xi 6= Yi ) = = P (Xi 6= Yi ) P (Xi < Yi ) + P (Xi > Yi ) p+ + p− P (Xi > Yi |Xi 6= Yi ) = p− p+ + p− Auf Grund von (11.4.3) (8-mal ( yi − xi ) > 0) kann man H0 mit einer Irrtumswahrsch. von höchstens α = 0.05 ablehnen, was durch (11.4.4) teilweise, aber noch nicht vollständig begründet wird. Zuvor aber soll des Test allgemein beschrieben werden: Vorzeichentest von H0 gegen H1 (vgl. (11.4.2) und (11.4.1)): Schritt 1: Lege die Wahrscheinlichkeiten α, β für den Fehler 1. bzw. 2. Art und den Stichprobennumfang n fest. Schritt 2: Ziehe zwei Stichproben vom Umfang n . Bei diesen Stichproben sei ( yi − xi ) genau m-mal 6= 0 und genau km -mal > 0 (positives Vorzeichen) (0 ≤ km ≤ m ≤ n). Dann sind folgende Entscheidungen zu treffen: (11.4.5a) km m X m −m und 2 ≥ 2 k=k m (11.4.5b) km m k km X m m und 2−m ≤ 2 k k=0 ! ≤ α ⇒ Ablehnung v.H0 ( wie etwa im ob. Bsp. ) ! ≤ β ⇒ Ablehnung v.H1 In allen übrigen Fällen ist keine Entscheidung mit ausreichender Sicherheit möglich. Begründung der Entscheidungsvorschrift (11.4.5a): ′ der kleinste der Werte k , die die Voraussetzungen in (11.4.5a) erfüllen. Dann gilt analog Sei km m zu (11.4.4) : P (Ablehn.v.H0 |H0 ∧ genau m-mal(Yi − Xi ) 6= 0) 86 = P (Km := (Anzahl der i mit(Yi − Xi ) > 0) erfüllt d. Voraussetzungen in (11.4.5a)|H0 ∧ genau m-mal(Yi − Xi ) 6= 0) ′ P (Km ≥ km |H0 ∧ genau m-mal(Yi − Xi ) 6= 0) = ′ P (Mindestens km -mal(Yi − Xi ) > 0|H0 ∧ genau m-mal(Yi − Xi ) 6= 0) = (vgl.(11.4.4)) −m ≤ 2 m X ′ k=km m k ! ≤α =⇒ (11.4.6) P(Ablehn. v H0 |H0 ) (Wahrsch. f. e. irrtümliche Ablehn. v. H0 ) n P P(Ablehn. v. H0 ∧ genau m-mal (Yi − Xi ) 6= 0|H0 ) = m=m0 n P = P(Ablehn. v. H0 |H0 ∧ genau m-mal (Yi − Xi ) 6= 0) P(genau m-mal (Yi − Xi ) 6= 0) m=m0 n P ≤α P(genau m-mal (Yi − Xi ) 6= 0) ≤ α · 1 m=m0 m0 ist dabei die kleinste Zahl m, für die überhaupt ein km existiert, das die Voraussetzungen in (11.4.5a) erfüllt. Ist m < m0 , so ist damit die Zahl der für den Test tatsächlich verwendbaren Wertepaare ( xi , yi ) zu klein, um Entscheidungen treffen zu können. Deshalb werden in (11.4.6) nur Summanden m ≥ m0 berücksichtigt. Damit es überhaupt ein m0 ≤ n gibt, sollte 2−n (11.4.7a) und möglichst auch 2−n (11.4.7b) n P n k = 2−n ≤ α 0 P n k = 2−n ≤ β k=n k=0 gelten. Sonst kommen wir beim Stichprobenumfang n nie zu einer Entscheidung gegen H0 bzw. gegen H1 mit ausreichender Sicherheit. Die Entsch.regel (11.4.5b) ist analog zu begründen. Bem.: a) Bei der Durchführung des Tests werden keine Voraussetzungen über die Art der Vert. der Xi bzw. der Yi gemacht wie etwa in Kap.8 od.Abschn. 11.1 ; daher ist der Vorzeichentest ein Bsp. für einem verteilungsfreien oder nicht-parametrischen Test. Kennt man den Verteilungstyp der Xi und der Yi , etwa Normalverteilung, so sind u.U. andere Tests anzuwenden. b) Ähnlich wie in 8.2.2 wäre manchmal folg. Gegenüberstellung zweckmäßiger: H0 : p+ ≤ p− d.h. p+ p+ +p− ≤ 1 2 gegen H1 : p+ p+ +p− ≥ p1 > 1 2 Dann ist (11.4.5b) durch folg. Entsch.regel zu ersetzen: (11.4.8) km ≤ q1 · m und kP m k=0 m k m−k (q1 k p1 q 1 87 := 1 − p1 ) ⇒ Ablehn.v.H1 c) Bei einem Signifikanztest über die Hypothese H0 : p+ = p− gibt es folgende Entscheidungsregel: Sei lm := −m 2 , falls km < m − km ist ( weniger ”+” als ”−” ) km sonst m − km lm X k=0 + m X k=m−lm m k ! ≤ α ⇒ Ablehn. v.H0 Eine Entsch. gegen p+ 6= p− kann nicht mit ausr. Sicherheit getroffen werden. H0 trifft zu, wenn die Vert. der Xi mit der Vert. der Yi übereinstimmt. Eine Ablehn. v. H0 bedeutet dann auch, dass die Vert. der Xi mit ausreichender Sicherheit als verschieden von der Vert. der Yi angenommen werden kann. Es gilt aber nicht, dass aus p+ = p− auch die Gleichheit d. Verteilungen der Xi und Yi folgt. 88