5.4. Signifikanztests Beispiel zum Gauß-Test Bei einer Serienfertigung eines bestimmten Typs von Messgeräten werden vor der Auslieferung eines jeden Gerätes 10 Kontrollmessungen durchgeführt um festzustellen, ob das Gerät korrekt geeicht ist. Dabei liegt es in der Natur dieses Messvorganges, dass der tatsächliche Wert nur bis auf einen zufälligen Messfehler bestimmt werden kann. Die Varianz dieses Messfehlers betrage σ 2 = 0, 1. Wie soll der Gütekontrolleur entscheiden? Wann soll er ein Gerät zur Auslieferung freigeben, wann soll er es zur Nachbesserung in die Eichabteilung zurückschicken? Vorgehen: 1. Stochastisches Modell, mit Modellannahmen (die ggf. ebenfalls getestet werden können bzw. sollten): • Die Zufallsvariable X beschreibe den Fehler eines Messvorganges, der sich zusammensetzt aus dem – (nicht zufälligen) Eichfehler µ des kontrollierten Gerätes und dem – (zufälligen) Fehler der Messung. • X sei normalverteilt (Zentraler Grenzwertsatz). Also X ∼ N (µ; 0, 1), µ unbekannt. 1 2. Formulieren von Hypothesen Nullhypothese: H0 : µ = 0 ”Gerät exakt geeicht” Alternativhypothese: hier: zweiseitige Alternative HA : µ 6= 0 ”Gerät schlecht geeicht” 3. Festlegung der Irrtumswahrscheinlichkeit, Signifikanzniveau: α Üblich: Werte zwischen 0,1 und 0,005 z. B.: α = 0, 05, α = 0, 01 . . . (vgl. Konfidenzintervalle) Wir wählen α = 0, 05. 4. Aufstellen einer Testgröße T X̄ − µ0 √ T = n σ hier: µ0 = 0, σ 2 = 0, 1, n = 10. Wenn H0 richtig ist, dann gilt T ∼ N (0; 1) allgemein: H0 und T sind so zu wählen, dass die Verteilung von T unter der Annahme, dass H0 gilt, bekannt ist. 2 5. Festlegen des Ablehnungsbereiches, kritischer Bereich K (bzw. Kα ) Gilt H0, so sollte die konkrete Stichprobe einen Wert der Testgröße in der Nähe von 0 ergeben. Also Ablehnung von H0, wenn der Wert ”weit weg” von 0 liegt (”in Richtung auf HA”). K wird so gewählt, dass eine wahre Nullhypothese nur mit Wahrscheinlichkeit α abgelehnt wird. P µ0 ( T ∈ K α ) = α Im Beispiel interessant, ob für das kontrollierte Gerät µ 6= 0 oder µ = 0, deshalb zweiseitigen kritischen Bereich wählen: Kα = ( −∞, zα/2 ) ∪ ( z1 − α/2, ∞ ) Bei Werten von T ∈ Kα wird H0 abgelehnt und das Gerät zur Nachjustierung zurückgeschickt: ”Die Messergebnisse weichen signifikant vom exakten Wert ab.” Aber: Auch für ein exakt geeichtes Gerät kann T einen Wert in K annehmen. Das passiert aber nur mit einer Wahrscheinlichkeit von (höchstens) α = 0, 05. z0,025 = −1, 96 , z0,975 = 1, 96 K0,05 = ( −∞ , −1, 96 ) ∪ ( 1, 96, ∞ ) 3 Entscheidungsregel: Weicht für ein Gerät der Wert x̄ √ x̄ t = √ 10 = q = 10 · x̄ , 0, 1 0,1 10 betragsmäßig um mehr als 1,96 von Null ab, so wird das Gerät zurückgewiesen (also wenn |x̄| > 0, 196). ”Anderenfalls ist auf der Grundlage der Stichprobe (zehn konkrete Messwerte) gegen die Nullhypothese µ = 0 (Gerät i.O.) nichts einzuwenden.” Mögliche Fehlentscheidungen beim Testen: Fehler erster Art: Eine wahre Nullhypothese wird abgelehnt. Im Beispiel: Ein exakt geeichtes Gerät wird zurückgewiesen. Die Wahrscheinlichkeit hierfür ist gleich α. Fehler zweiter Art: Eine falsche Nullhypothese wird nicht abgelehnt. Im Beispiel: Fehlgeeichtes Gerät wird verkauft. Die Wahrscheinlichkeit hierfür im Allgemeinen nur sehr schwierig oder gar nicht bestimmbar (weil die Verteilung dann nicht bekannt ist). Hängt im Beispiel davon ab, um wieviel die Eichung falsch ist. Problem: Reduziert man die Wkt. für Fehler erster Art (durch kleineres α) vergrößert sich die Wkt. für Fehler zweiter Art und umgekehrt (in welchem Maße das geschieht, ist im Allgemeinen unbekannt). sehr kleines α → nur zurückweisen, wenn man sich sehr sicher ist, dass Gerät fehlgeeicht. Dann hat man mehr Reklamationen = Fehler 2. Art. 4 Gauß-Test • Anliegen: Überprüfen von Hypothesen über den Erwartungswert einer normalverteilten Zufallsvariablen (ein Mittelwert in der Grundmenge, Population), parametrischer Test • Voraussetzung : X ∼ N (µ; σ 2), • Hypothese: σ 2 bekannt H0 : µ = µ0 • Testgröße: X̄ − µ0 √ T = n σ • Ablehnung von H0, falls bei zweiseitiger Alternative HA : µ 6= µ0 |t| > z1− α2 einseitiger Alternative HA : µ < µ0 t < −z1−α HA : µ > µ0 t > z1−α 5 Ist die Aufgabenstellung wie zuvor, aber σ 2 unbekannt, so benutzt man die Testgröße T = X̄ − µ0 √ · n S T ist dann t - verteilt mit n − 1 Freiheitsgraden. Einfacher t -Test • Anliegen: Überprüfen von Hypothesen über den Erwartungswert einer normalverteilten Zufallsvariablen (ein Mittelwert in der Grundmenge, Population), parametrischer Test • Voraussetzung X ∼ N (µ; σ 2) oder großer Stichprobenumfang (n ≥ 30) • Hypothese: H0 : µ = µ0, • Testgröße X̄ − µ0 √ n S • Ablehnung von H0, falls bei T = HA : µ 6= µ0 |t| > tn−1,1− α2 , HA : µ > µ 0 t > tn−1,1−α , HA : µ < µ 0 t < −tn−1,1−α . 6 Beispiel: alles wie oben, aber σ 2 unbekannt. Wir nehmen an, dass x̄ = 0, 2 und s2 = 0, 1 aus 10 Kontrollmessungen für ein Gerät geschätzt wurden. Dann: t = 0, 2 − 0 √ √ 10 = 2, 0 0, 1 t10−1 , 1−0,05/2 = t 9, 0,975 = 2, 26 ⇒ keine Ablehnung von H0 Bemerkung: Beim Gauß–Test hätte ein Mittelwert von 0,2 für eine Zurückweisung des Gerätes genügt. Interpretation! 7 Im Unterschied zur ”Handrechnung” ist das Vorgehen bei der Durchführung von Tests am Computer etwas anders. ”Handrechnung”: ∧....... ↓t ↓t . K . α/2 α/2 α/2 α/2 ∧....... .. p p p p p p p p p ........p p p p p p p p p p p p p p p p p p p p p p ppppp .... ppppp pp ppp ... ppp p ... ppppp p . p . p p ppppp .. p p . p p p p p p p ......... .... ...... pppp ...... p p p.p p p . . .. p p p p...... ..p..p..p p .. . . p . . . p p...p..p.p..p..p.p..p..p.p..p.........................................................................................................................................................................................p.p..p..p.p..p..p..p.p..p..p.p..p..p.> ..... .. p p p p p p p p p ........p p p p p p p p p p p p p p p p p p p p p p ppppp .... ppppp pp ppp ... ppp p ... ppppp p . p . p p ppppp .. p p . p p p p p p p ......... .... ...... pppp ...... p p p.p p p . . .. p p p p...... ..p..p..p p .. . . p . . . p p...p..p.p..p..p.p..p..p.p..p.........................................................................................................................................................................................p.p..p..p.p..p..p..p.p..p..p.p..p..p.> ..... K K H0 ablehnen K H0 nicht ablehnen Am Computer: ∧...... .. ... .. ... ... ... ... .. ... ... ... ... ... ... ... ... .... ... ... ... .. ... ... ... ... . ... .. ..... .. ... . . . . . .................................................................................................................................................................................................................... ppppppppp pp pppppp ppppppppppppp ppp pp ppppp p p p p ppppp pp pp ppppp p p p p p pppppp p p p p p p pppppppp p p pppp ppppppppppppp ppppppppppp ppp > Sig./2 ∧...... .. . p p p p p p p p...p p p p p p p p p p p p p p ....... p p p p p p p p p p p p p p ppppp ..... .. .... ..... p ppp ..... ..... ... ...p p p ..... ..... p p p p....... ..... ... ... p p p p p ..... ..... p . . . . p p ..... . . . . p p . p p p.p...p..p..... ..... p p p p .... ... .... ..p. . p ... ... ..... p p p p p p p p p p p p p p ....... ..... . . p...p..p.p..p..p.p..p..p.p..p...p..p.p...........................................................................................................................................................................p.p..p..p.p..p..p..p.p..p..p.p..p..p..> .... Sig./2 Sig./2 ↑t Sig./2 ↑t Computer liefert Sig. = ”Signifikanz”, p-Wert, die Wahrscheinlichkeit, dass die Testgröße unter H0 solche und ”noch untypischere”, ”extremere” Werte als das konkrete t annimmt. (Vorsicht: einseitige ↔ zweiseitige Sig.) Vergleich mit dem vorgegebenen α: Sig. < α Sig. > α H0 ablehnen H0 nicht ablehnen 8