Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population) auf der Basis vorliegender Stichproben, die aus dieser Grundgesamtheit gezogen wurden. Hypothesen über die Verteilungen in der Grundgesamtheit beziehen sich z.B. auf – Parameter (z.B. Durchschnittswert, Median, Varianz), – die Verteilungsfunktion insgesamt (z.B. deren Form), – die Unabhängigkeit, – die Stärke bzw. die Form einer Abhängigkeit ... 1 Beispiel (Körpergröße von 10–jährigen Kindern): Merkmal(e) Annahme für die Grundgesamtheit Körpergröße Die mittlere Körpergröße ist gleich 145 cm. Körpergröße Die mittlere Körpergröße ist kleiner als 145 cm. Körpergröße Die Körpergröße lässt sich durch eine normalverteilte Zufallsvariable beschreiben. Körpergröße, Geschlecht Die beiden Merkmale sind unabhängig. Körpergröße, Alter Die Körpergröße hängt vom Alter ab, wobei die Abhängigkeit durch eine Funktion der Art Körpergröße = a · Alter + b (lineare Funktion) beschrieben wird. 2 Fiktiver Dialog: A: Ich glaube, dass Kinder in diesem Alter im Durchschnitt ” 145 cm groß sind.“ B: Wir haben Ergebnisse einer Erhebung mit Angaben von ” 200 Kindern in diesem Alter, und da lag die durchschnittliche gemessene Größe bei 143.7 cm.“ A: Na und? Das war bestimmt Zufall! Nimm andere Kinder in ” diesem Alter, und dann erhältst Du etwa den Wert 145 cm.“ Frage: Sind die 1.3 cm Differenz nun Resultat einer geringeren mittleren Körpergröße in der Grundgesamtheit oder sind sie nur zufälliges Resultat der Stichprobenziehung aus der Grundgesamtheit? 3 Wir wollen also folgende Hypothese auf der Basis der uns vorliegenden Daten von 200 Kindern überprüfen: Die durchschnittliche Körpergröße aller Kinder in der Grundgesamtheit beträgt 145 cm. 1. Formulierung der Hypothesen: Vergleich des Durchschnittswertes (Erwartungswertes) µX der Zufallsvariable X, die die Körpergröße von – rein zufällig ausgewählten – 10–jährigen Kindern aus der Grundgesamtheit beschreibt, mit einem hypothetisch unterstellten Durchschnittswert µ0 = 145. 4 Formulieren zweier sich gegenseitig ausschließender Hypothesen: H0 HA H0 : ... ... Nullhypothese [null hypothesis] Alternativhypothese [alternative hypothesis] µX = µ0 = 145 (Nullhypothese) mögliche Alternativhypothesen HA zur Nullhypothese H0 sind z.B.: HA : µX 6= µ0 = 145 (zweiseitige Alternative) HA : µX < µ0 = 145 (einseitige Alternative) Eine einseitige Alternative wird benutzt, wenn es eine interessierende Richtung der Abweichung von H0 gibt. 5 2. Festlegung des Signifikanzniveaus [level of significance] α: Wir legen die Irrtumswahrscheinlichkeit fest, mit der wir die Nullhypothese fälschlicherweise ablehnen, obwohl sie wahr ist. Übliche Werte: α zwischen 0.1 und 0.005 Wir wählen im Beispiel α = 0.05. 6 3. Aufstellen einer Testgröße [test statistic] T : Die Testgröße ist eine Stichprobenfunktion, deren Verteilung unter der Annahme, dass H0 wahr ist, (zumindest näherungsweise) bekannt sein muss. Für AnwenderInnen: – bekannte Tests aus der Literatur. – Fragen Sie Ihre Statistikerin oder Ihren Statistiker. Wichtig: Auswahl eines für die Daten (Skalenniveau) und die Fragestellung geeigneten Testverfahrens. Häufig setzt die Anwendung eines Testverfahrens weitere Modellannahmen voraus, über die nachzudenken ist, und die zunächst untersucht und evtl. auch getestet werden sollten. 7 Im Beispiel: Anwendung des einfachen t–Tests (SPSS: Analysieren → Mittelwerte vergleichen → T–Test bei einer Stichprobe). Testvoraussetzungen: – X normalverteilt oder – Stichprobenumfang n hinreichend groß (n > 30) Testgöße T für einfachen t–Test: X̄ − µ0 √ · n T = SX 8 Wenn die Voraussetzungen erfüllt sind und H0 richtig ist, dann gilt (zumindest näherungsweise) für eine entsprechende mathematische Stichprobe: T ist t–verteilt mit n − 1 Freiheitsgraden. Für die konkrete Stichprobe erhalten wir x̄ = 143.7 sX = 7.223 n = 200 Unter der gewählten Nullhypothese H0 gilt µ0 = 145, und für die konkrete Testgröße ergibt sich demnach t = −2.545 9 4. Ermittlung der Überschreitungswahrscheinlichkeit [p-value] (p–Wert): Ist H0 wahr (ist µ0 also der wahre Erwartungswert), so sollte die konkrete Stichprobe einen Wert t der Testgröße in der Nähe von 0 ergeben (x̄ ≈ µ0 ). Daher ist H0 abzulehnen, wenn der Wert t weit weg“ von 0 ” in Richtung auf HA liegt. 10 Wird die zweiseitige Alternativhypothese HA : µX 6= µ0 = 145 verwendet, dann sind Abweichungen des beobachteten Durchschnittswerts x̄ von µ0 = 145 nach oben und nach unten zu berücksichtigen, und die Überschreitungswahrscheinlichkeit P (|T | ≥ |t|) = P (T ≤ −|t|) + P (T ≥ |t|) muss ermittelt werden. Auf Grund der Symmetrie der t–Verteilung gilt P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|) 11 Wird die einseitige Alternativhypothese HA : µX < µ0 = 145 verwendet, dann ist nur die Abweichung des beobachteten Durchschnittswerts x̄ von µ0 = 145 nach unten zu berücksichtigen und P (T ≤ t) zu ermitteln. 12 SPSS berechnet beim einfachen t–Test die Überschreitungswahrscheinlichkeit P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|) für die zweiseitige Alternative HA : µX 6= µ0 unter der Bezeichnung Sig. (2-seitig). Im Beispiel erhalten wir P (|T | ≥ |−2.545|) = P (|T | ≥ 2.545) = 0.012 13 Will man die einseitige Alternative HA : µX < µ0 = 145 verwenden, so ist zur Ermittlung der zugehörigen Überschreitungswahrscheinlichkeit P (T ≤ t) der von SPSS ausgegebene Wert zu halbieren, falls t negativ ist. Ist t positiv, so gilt P (T ≤ t) ≥ 0.5. Im Beispiel erhalten wir wegen t = −2.545 < 0 P (T ≤ −2.545) = = 1 · P (|T | ≥ 2.545) 2 1 · 0.012 2 = 0.006 14 Allgemein: Ablehnung von H0 , wenn der Wert der Testgröße t weit ” weg“ (im Hinblick auf HA ) von den unter H0 typischen Werten von T liegt. Typische Werte der Verteilung der Testgröße haben große Einzelwahrscheinlichkeiten bzw. große Werte der Dichte. 15 5. Anwendung der Entscheidungsregel: Ist die ermittelte Überschreitungswahrscheinlichkeit (p–Wert) kleiner oder gleich dem gewählten Signifikanzniveau α, so wird die Nullhypothese H0 abgelehnt. Im anderen Falle ist gegen H0 nichts einzuwenden. 16 Damit wird H0 : µX = µ0 = 145 bei Verwendung der zweiseitigen Alternativhypothese HA : µX 6= µ0 = 145 und des Signifikanzniveaus α = 0.05 abgelehnt, denn für den p–Wert gilt P (|T | ≥ |t|) = 0.012 ≤ 0.05 = α H0 wird natürlich auch bei Verwendung der einseitigen Alternativhypothese HA : µX < µ0 = 145 abgelehnt, denn für den zugehörigen p–Wert gilt P (T ≤ t) = 1 · 0.012 = 0.006 ≤ 0.05 = α 2 17 Im betrachteten Beispiel ist also die Wahrscheinlichkeit zufällig in einer Stichprobhe eine Abweichung von mindestens 1.3 cm nach oben oder nach unten vom hypothetisch unterstellten Durchschnittswert µ0 = 145 zu erleben nur 0.012. Wenn also die Nullhypothese gilt, ist das nur in 1.2% aller Fälle bei mathematischen Stichproben vom Umfang n = 200 zu erwarten. Bei dem gewählten Signifikanzniveau von α = 0.05 führt das zur Ablehnung der Nullhypothese. Hätten wir dagegen ein Signifikanzniveau α = 0.01 – also eine kleinere Irrtumwahrscheinlichkeit – verwendet, so würde das nicht zur Ablehnung von H0 führen. 18 6. Mögliche Fehlentscheidungen: Bei der Verwendung der Nullhypothese H0 und der Alternativhypothese HA gibt es zwei mögliche Fehlentscheidungen. Fehler erster Art [type I error]: Die Nullhypothese H0 wird abgelehnt, obwohl sie richtig ist. Fehler zweiter Art [type II error]: Die Nullhypothese H0 wird nicht abgelehnt, obwohl die Alternativhypothese HA richtig ist. 19 Die verwendete Entscheidungsregel für einen Signifikanztest zum Signifikanzniveau α sichert, dass eine wahre Nullhypothese H0 höchstens mit Wahrscheinlichkeit α abgelehnt wird. Die Wahrscheinlichkeit für einen Fehler erster Art ist also stets kleiner oder gleich α, denn die Überschreitungswahrscheinlichkeit wird unter der Annahme berechnet, dass H0 wahr ist. 20 Die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen ist bei einem Signifikanztest i.a. nur sehr schwierig oder gar nicht ermittelbar, denn die Verteilung von T ist unter der Alternativhypothese in vielen Fällen nicht bekannt. Problem: Reduziert man die Wahrscheinlichkeit für den Fehler erster Art (durch ein kleineres α), so vergrößert sich die Wahrscheinlichkeit für Fehler zweiter Art, und umgekehrt. In welchem Maße dies geschieht, ist i.a. unbekannt. 21 Bei einem sehr kleinen α wird H0 nur abgelehnt, wenn man sich sehr sicher ist, dass die Ablehnung richtig ist. Dann haben wir jedoch eine große Wahrscheinlichkeit für den Fehler 2. Art. Mit einem hinreichend kleinem α lässt sich demnach jede Nullhypothese retten“. ” 22 Will man bei Nichtablehnung von H0 eine Entscheidung formulieren, dann z.B. Auf der Basis der Stichprobe ist ” gegen H0 nichts einzuwenden“. Fehlentscheidungen bei Signifikanztests lassen sich nur für den Fall der Ablehnung der Nullhypothese quantifizieren. Der Fehler 1. Art ist dann höchstens α. Aus diesem Grunde wird häufig die eigentlich zu untersuchende Arbeitshypothese als Alternativhypothese formuliert. Wird dann die Nullhypothese abgelehnt, so wird die verfolgte Arbeitshypothese ”indirekt bestätigt”. 23 Einfacher t–Test Anliegen: Überprüfung von Hypothesen über das Zusammenfallen des Erwartungswertes µX einer Zufallsvariable X mit einem vorgegebenen Wert bei unbekannter Varianz (mindestens Intervallskala erforderlich). Voraussetzungen: (X1 , . . . , Xn ) mathematische Stichprobe aus einer normalverteilten Grundgesamtheit oder mit hinreichend großem Stichpobenumfang (n > 30). 24 Hypothesen: H0 : µX = µ0 HA : µX 6= µ0 (1) HA : µX < µ0 (2) HA : µX > µ0 (3) Testgröße: X̄ − µ0 √ T = · n SX Unter H0 ist T (näherungsweise) t–verteilt mit n − 1 Freiheitsgraden. 25 p–Wert: p = P (|T | ≥ |t|) bei (1) p = P (T ≤ t) bei (2) p = P (T ≥ t) bei (3) Entscheidungsregel: Ablehnung von H0 , falls p ≤ α. Bemerkung: Ist die Varianz von X bekannt, kommt der weitgehend äquivalente Gauß–Test zur Anwendung. 26