Prof. Dr. Roland Füss Statistik II SS 2008 4. Testtheorie 4.1. Nullhypothese, Gegenhypothese und Entscheidung Hypothesen – Annahmen über die Verteilung oder über einzelne Parameter der Verteilung eines Merkmals in einer Grundgesamtheit. Es kann durch Testen nicht festgestellt werden, ob eine Hypothese richtig oder falsch ist, sondern nur ob sie beibehalten oder verworfen werden kann. „Annahme“ einer statistischen Hypothese bedeutet immer 1 Prof. Dr. Roland Füss Statistik II SS 2008 nur: Die vorliegende statistische Evidenz reicht nicht aus, um die Hypothese zu verwerfen. Beim Testen stehen sich zwei Behauptungen gegenüber – die Nullhypothese (H0) und die Gegenhypothese oder Alternativhypothese (H1). H 0 : θ = θ0 H1 : θ ≠ θ0 Der Test führt zur Entscheidung über die Annahme oder Ablehnung der Nullhypothese. Dabei sind vier Fälle des Zusammentreffens von Realität und Test- entscheidung möglich: 2 Prof. Dr. Roland Füss Realität SS 2008 Statistik II H0 ist richtig H0 ist falsch H0 beibehalten o.k. Fehler 2. Art β-Fehler H0 verworfen Fehler 1. Art α-Fehler o.k. Testentscheidung Quelle: Schira (2003), S. 474. Fehler 1. Art: Die Nullhypothese wird verworfen, obwohl sie richtig ist. Fehler 2. Art: Die Nullhypothese wird angenommen, obwohl sie falsch ist. 3 Prof. Dr. Roland Füss Statistik II SS 2008 4.2 Tests für Mittel- und Anteilswerte (Ein-Stichproben-Fall) 4.2.1. Heterograder Fall (Erwartungswerte) H 0 : µ = µ0 H 1 : µ ≠ µ 0 ( zweiseitige Fragestellung ) µ > µ0 ⎫ ⎬ (einseitige Fragestellung ) µ < µ0 ⎭ Aufgrund einer Stichprobe soll entschieden werden, ob die Nullhypothese zu verwerfen ist. Meistens wird man einen Stichprobenmittelwert finden, der von dem hypothetischen Wert µ0 abweicht. Dies bedeutet 4 Prof. Dr. Roland Füss Statistik II SS 2008 jedoch nicht, dass die Nullhypothese gleich verworfen werden soll. Die Abweichung könnte auch zufällig sein, d.h. durch ungünstige Auswahl der Stichprobenelemente beeinflusst werden. Erst wenn die Abweichung einen bestimmten kritischen Wert überschreitet, kann sie als signifikant von Null verschieden angesehen werden, die Nullhypothese wird dann verworfen zu Gunsten von Alternativhypothese. Zur Testentscheidung wird die Verteilung des Stichprobenmittelwertes herangezogen: 5 Prof. Dr. Roland Füss Statistik II SS 2008 Die Nullhypothese wird beibehalten, solange das mit dieser Stichprobe geschätzte Konfidenzintervall um den Stichprobenmittelwert den hypothetischen Wert µ0 enthält. Mit der Verteilung des Stichprobenmittelwertes X bei Gültigkeit von H0 kann für x ein Annahmebereich und ein Ablehnungsbereich so bestimmt werden, dass die Wahrscheinlichkeit, mit der der Stichprobenmittelwert in den Ablehnungsbereich fällt (bei Gültigkeit der Nullhypothese), höchstens α beträgt. 6 Prof. Dr. Roland Füss Statistik II SS 2008 Die Wahrscheinlichkeit des Fehlers 1. Art α heißt auch Signifikanzniveau des Tests. Prüfgröße (Teststatistik): T = | x − µ0 | σX Die Prüfgröße T ist bei kleinen Stichproben t-verteilt mit n-1 Freiheitsgraden und bei großen Stichproben (n > 30) standardnormalverteilt. 7 Prof. Dr. Roland Füss Statistik II SS 2008 Bei kleinen Stichproben wird die t-Verteilung dann herangezogen, wenn die Varianz geschätzt werden muss. Voraussetzung dafür ist aber, dass man eine Normalverteilung des Merkmals in der Grundgesamtheit annehmen kann. Die Entscheidungsregel lautet - bei großen Stichproben: | x − µ0 | ⎫ > z [1 − α / 2 ] bei zweiseitigenTests ⎪ σX ⎪ ⎬ ⇒ H 0 verwerfen ! | x − µ0 | ⎪ T= > z [1 − α ] bei einseitigenTests ⎪⎭ σX T= 8 Prof. Dr. Roland Füss Statistik II SS 2008 - bei kleinen Stichproben: | x − µ0 | ⎫ > t n −1 [1 − α / 2] bei zweiseitig en Tests ⎪ σˆ X ⎪ ⎬ ⇒ H 0 verwerfen ! | x − µ0 | ⎪ T= > t n −1 [1 − α ] bei einseitige n Tests ⎪⎭ σˆ X T= 4.2.2. Homograder Fall (Anteilswerte) In der Nullhypothese wird behauptet, dass der Anteilswert einer Grundgesamtheit (P) gleich dem hypothetischen Anteilswert P0 ist: 9 Prof. Dr. Roland Füss Statistik II SS 2008 H 0 : P = P0 H1 : P ≠ P0 ( zweiseitige Fragestellung ) P > P0 ⎫ ⎬ (einseitige Fragestellung ) P < P0 ⎭ Die Entscheidungsregel: | h − P0 | ⎫ > z [1 − α / 2] bei zweiseitig en Tests ⎪ σH ⎪ ⎬ ⇒ H 0 verwerfen! | h − P0 | ⎪ T= > z [1 − α ] bei einseitige n Tests ⎪⎭ σH T= h: Anteilswert der Stichprobe 10 Prof. Dr. Roland Füss Statistik II SS 2008 Anmerkung: die Standardabweichung darf nicht mit dem Anteilswert der Stichproben (h) geschätzt werden, sondern ist mit dem hypothetischen Wert P0 zu berechnen. σH = P0 (1 − P0 ) n Bei großen Stichproben kann die Standardnormalverteilung verwendet werden. Bei kleinen Stichproben sollte man die Binomialverteilung nehmen. 11 Prof. Dr. Roland Füss Statistik II SS 2008 Der Binomialtest 1. linksseitiger Test: H 0 : P ≥ P0 H 1 : P ≤ P0 Die Nullhypothese wird verworfen, wenn ein kritischer Wert xunten unterschritten wird: P( X < xunten ) ≤ α 2. rechtsseitiger Test: H 0 : P ≤ P0 H 1 : P ≥ P0 12 Prof. Dr. Roland Füss Statistik II SS 2008 Die Nullhypothese wird verworfen, wenn ein kritischer Wert xoben überschritten wird. P( X > xoben ) ≤ α 3. zweiseitiger Test: H 0 : P = P0 H 1 : P ≠ P0 In diesem Fall braucht man zwei kritische Werte. Die Irrtumswahrscheinlichkeit wird aufgeteilt. P( X < xunten ) ≤ α / 2 und P( X > xoben ) ≤ α / 2 13 Prof. Dr. Roland Füss SS 2008 Statistik II 4.3 Tests für Varianzen 2 Nullhypothese: die Varianz einer Grundgesamtheit σ weicht nicht von einem vorgegebenen hypothetischen Wert σ 2 0 ab. H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02 ( zweiseitig e Fragestell ung ) σ 2 > σ 02 ⎫⎪ ⎬ (einseitige Fragestell ung ) σ < σ ⎪⎭ 2 2 0 14 Prof. Dr. Roland Füss n⋅S2 Die Testgröße σ 02 = χ n2−1 Statistik II SS 2008 ist Chi-Quadrat-verteilt mit n-1 Freiheits- graden, wenn das Merkmal in der Grundgesamtheit normalverteilt ist. Die Entscheidungsregel: 2 n ⋅ S 2 ⎧⎪< χ n −1 [α / 2 ] oder ⎫⎪ T = ⎨ ⎬ ⇒ H 0 verwerfen ! 2 2 σ 0 ⎪⎩ > χ n −1 [1 − α / 2 ] ⎪⎭ 1 n S = ∑ ( xi − x ) 2 (Stichprobenvarianz) mit n i =1 2 15 Prof. Dr. Roland Füss Statistik II SS 2008 Die Nullhypothese wird verworfen, wenn die Testgröße das untere Quantil unterschreitet oder das obere überschreitet. 4.4 Vergleich zweier Erwartungswerte (Zwei-Stichproben-Fall, heterograd) Seien x1 und x 2 Mittelwerte aus zwei unabhängigen Stichproben. Es soll getestet werden, ob die beiden Stichproben aus derselben Grundgesamtheit stammen (oder wenigstens aus Grundgesamtheiten mit gleichem Mittelwert). 16 Prof. Dr. Roland Füss Statistik II SS 2008 H 0 : µ1 = µ 2 H1 : µ1 ≠ µ 2 ( zweiseitige Fragestellung ) µ1 > µ 2 ⎫ ⎬ (einseitige Fragestellung ) µ1 < µ 2 ⎭ Bei großen Stichproben (n1 und n2 müssen groß sein) gilt der zentrale Grenzwertsatz und man kann die Normalverteilung anwenden. 17 Prof. Dr. Roland Füss Statistik II SS 2008 Die Entscheidungsregel lautet: | x1 − x2 | ⎫ > z [1 − α / 2] bei zweiseitig en Tests ⎪ σ∆ ⎪ ⎬ ⇒ H 0 verwerfen! | x − x2 | ⎪ T= 1 > z [1 − α ] bei einseitige n Tests ⎪⎭ σ∆ T= 2 2 σ = σ / n + σ mit ∆ 1 2 /n 18 Prof. Dr. Roland Füss Statistik II Bei kleinen Stichproben (wenn Testgröße t-verteilt mit σ∆ n1+n2-2 SS 2008 geschätzt werden muss) ist die Freiheitsgraden. Voraussetzung: σ1 = σ 2 = σ . | x1 − x2 | ⎫ > tn1 + n2 −2 [1 − α / 2] bei zweiseitigenTests ⎪ σˆ ∆ ⎪ ⎬ ⇒ H 0 verwerfen ! |x −x | ⎪ T = 1 2 > tn1 + n2 −2 [1 − α ] bei einseitigenTests ⎪⎭ σˆ ∆ T= 2 2 ˆ ˆ ˆ σ = σ / n + σ mit ∆ 1 2 /n 19 Prof. Dr. Roland Füss Statistik II SS 2008 4.5 Vergleich zweier Anteilswerte (homograd) Hypothesen: H 0 : P1 = P2 H1 : P1 ≠ P2 ( zweiseitige Fragestellung ) P1 > P2 ⎫ ⎬ (einseitige Fragestellung ) P1 < P2 ⎭ Die Entscheidungsregel: | p1 − p2 | ⎫ > z [1 − α / 2] bei zweiseitig en Tests ⎪ σˆ R ⎪ ⎬ ⇒ H 0 verwerfen ! | p − p2 | ⎪ T= 1 > z [1 − α ] bei einseitige n Tests ⎪⎭ σˆ R T= 20 Prof. Dr. Roland Füss mit σˆ R = Statistik II SS 2008 p(1 − p)(1 / n1 + 1 / n2 ) 4.6. F-Verteilung Seien Qn und Qm zwei unabhängige Chi-Quadrat-verteilte Zufallsvariablen. Die Verteilung des Quotienten Z nennt man dann F-Verteilung mit n und m Freiheitsgraden: 21 Prof. Dr. Roland Füss Qn Z = n Q m ~ Fn,m m Statistik II SS 2008 mit n: Anzahl der Zählerfreiheitsgrade und m: Anzahl der Nennerfreiheitsgrade Der Erwartungswert und die Varianz werden wie folgt bestimmt: m E [Z ] = m−2 falls m ≥ 3 22 Prof. Dr. Roland Füss SS 2008 Statistik II 2 m 2 ( n + m − 2) V [Z ] = n ( m − 2) 2 ( m − 4) falls m ≥ 5 Die F-Verteilung ist eine stetige Verteilung. Sie ist asymmetrisch rechtsschief (linkssteil). 23 Prof. Dr. Roland Füss Statistik II SS 2008 Für große m lässt sich die F-Verteilung durch die Chi-Quadrat-Verteilung approximieren. 24 Prof. Dr. Roland Füss Statistik II SS 2008 Die F-Verteilung wird zum Vergleich von Streuungen verwendet. 4.7 Vergleich zweier Varianzen 2 2 Annahme: die Stichprobenvarianzen s1 und s 2 stammen aus zwei ver- schiedenen unabhängigen Stichproben. In der Nullhypothese wird behauptet, dass die beiden Stichproben aus derselben Grundgesamtheit stammen: H 0 : σ12 = σ 22 = σ 2 Die Testgröße ist F-verteilt mit den Freiheitsgraden n1 – 1 und n2 – 2. 25 Prof. Dr. Roland Füss Statistik II SS 2008 Voraussetzung: das Merkmal ist in der Grundgesamtheit normalverteilt 2 mit der Varianz σ . Die Nullhypothese wird verworfen, wenn die Testgröße das untere α/2Quantil unterschreitet oder das obere (1- α/2)-Quantil überschreitet. Die Entscheidungsregel: n1 2 s1 n −1 T= 1 n2 2 s2 n2 − 1 ⎧< F [α / 2] oder ⎫ ⎨ ⎬ ⇒ H 0 verwerfen! ⎩> F [1 − α / 2] ⎭ 26 Prof. Dr. Roland Füss Statistik II SS 2008 Im Zähler und im Nenner sind erwartungstreue Schätzwerte der Varianzen. 4.8 Signifikanzniveau und Überschreitungswahrscheinlichkeit Bisher: das Signifikanzniveau α wurde immer vor dem Testen festgelegt. Nachteil: für die Testentscheidung spielt es dann keine Rolle, ob die Teststatistik (Prüfgröße T) weit im Annahmebereich oder nur knapp an der kritischen Grenze liegt. 27 Prof. Dr. Roland Füss Statistik II SS 2008 Alternative Möglichkeit wäre die Abweichung zwischen hypothetischem Wert des Parameters und dem Stichprobenergebnis zu berücksichtigen und die Wahrscheinlichkeit anzugeben, mit der das Stichprobenergebnis bei Gültigkeit der Nullhypothese den kritischen Wert überoder unterschreiten würde. Vorteil: Vermeidung der „willkürlichen“ Festlegung eines Signifikanzniveaus und effizientere Nutzung der Stichprobeninformationen. 28 Prof. Dr. Roland Füss Statistik II SS 2008 Definition: Die Überschreitungswahrscheinlichkeit (P-Wert, probability value) ist das Signifikanzniveau, bei dem die Testgröße T auf den kritischen Wert fällt. P-Wert wird auch als empirisches Signifikanzniveau bezeichnet. Je kleiner der P-Wert, desto eher wird man die Nullhypothese verwerfen. 29 Prof. Dr. Roland Füss Statistik II SS 2008 4.9 Macht und Trennschärfe eines Tests Ein Test ist umso trennschärfer, je zuverlässiger man mit ihm erkennen kann, ob eine Hypothese richtig oder falsch ist. Idealer Test: α = 0 = β. Nur in diesem Fall könnte die Nullhypothese mit Wahrscheinlichkeit Eins verworfen oder angenommen werden. In der Realität ist jedoch ein solcher Test unmöglich! 30 Prof. Dr. Roland Füss Statistik II SS 2008 Ist für den Test ein kleines Signifikanzniveau α (z.B. von 1%) gewählt, wird es immer problematisch die Nullhypothese zu verwerfen, wenn θ nur wenig größer als θ0 ist. Wie schnell bei einem konkreten Test die Ablehnungswahrscheinlichkeit zunimmt, ist für seine Brauchbarkeit ganz entscheidend, deswegen wird diese Eigenschaft die Macht oder die Güte eines Tests genannt. 31 Prof. Dr. Roland Füss Statistik II SS 2008 Definition: Die Funktion G(θ) = P(H0 verwerfen| θ), welche die Wahrscheinlichkeit die Nullhypothese zu verwerfen in Abhängigkeit vom wahren Parameter θ angibt, heißt Machtfunktion oder Gütefunktion des Tests. Die Machtfunktion G hängt von den Parametern µ, µ0, σ, n und α ab. 32