Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests)
[testing statistical hypothesis]
Prüfen und Bewerten von Hypothesen (Annahmen,
Vermutungen) über die Verteilungen von Merkmalen in einer
Grundgesamtheit (Population) auf der Basis vorliegender
Stichproben, die aus dieser Grundgesamtheit gezogen wurden.
Hypothesen über die Verteilungen in der Grundgesamtheit
beziehen sich z.B. auf
– Parameter (z.B. Durchschnittswert, Median, Varianz),
– die Verteilungsfunktion insgesamt (z.B. deren Form),
– die Unabhängigkeit,
– die Stärke bzw. die Form einer Abhängigkeit ...
1
Beispiel (Körpergröße von 10–jährigen Kindern):
Merkmal(e)
Annahme für die Grundgesamtheit
Körpergröße
Die mittlere Körpergröße ist gleich 145 cm.
Körpergröße
Die mittlere Körpergröße ist kleiner als 145 cm.
Körpergröße
Die Körpergröße lässt sich durch eine
normalverteilte Zufallsvariable beschreiben.
Körpergröße,
Geschlecht
Die beiden Merkmale sind unabhängig.
Körpergröße,
Alter
Die Körpergröße hängt vom Alter
ab, wobei die Abhängigkeit durch eine
Funktion der Art
Körpergröße = a · Alter + b
(lineare Funktion) beschrieben wird.
2
Fiktiver Dialog:
A:
Ich glaube, dass Kinder in diesem Alter im Durchschnitt
”
145 cm groß sind.“
B:
Wir haben Ergebnisse einer Erhebung mit Angaben von
”
200 Kindern in diesem Alter, und da lag die durchschnittliche
gemessene Größe bei 143.7 cm.“
A:
Na und? Das war bestimmt Zufall! Nimm andere Kinder in
”
diesem Alter, und dann erhältst Du etwa den Wert 145 cm.“
Frage: Sind die 1.3 cm Differenz nun Resultat einer
geringeren mittleren Körpergröße in der Grundgesamtheit
oder sind sie nur zufälliges Resultat der Stichprobenziehung
aus der Grundgesamtheit?
3
Wir wollen also folgende Hypothese auf der Basis der uns
vorliegenden Daten von 200 Kindern überprüfen:
Die durchschnittliche Körpergröße aller Kinder in
der Grundgesamtheit beträgt 145 cm.
1. Formulierung der Hypothesen:
Vergleich des Durchschnittswertes (Erwartungswertes) µX der
Zufallsvariable X, die die Körpergröße von – rein zufällig
ausgewählten – 10–jährigen Kindern aus der
Grundgesamtheit beschreibt, mit einem hypothetisch
unterstellten Durchschnittswert µ0 = 145.
4
Formulieren zweier sich gegenseitig ausschließender Hypothesen:
H0
HA
H0 :
...
...
Nullhypothese [null hypothesis]
Alternativhypothese [alternative hypothesis]
µX = µ0 = 145
(Nullhypothese)
mögliche Alternativhypothesen HA zur Nullhypothese H0
sind z.B.:
HA :
µX 6= µ0 = 145
(zweiseitige Alternative)
HA :
µX < µ0 = 145
(einseitige Alternative)
Eine einseitige Alternative wird benutzt, wenn es eine
interessierende Richtung der Abweichung von H0 gibt.
5
2. Festlegung des Signifikanzniveaus [level of
significance] α:
Wir legen die Irrtumswahrscheinlichkeit fest, mit der wir die
Nullhypothese fälschlicherweise ablehnen, obwohl sie wahr ist.
Übliche Werte: α zwischen 0.1 und 0.005
Wir wählen im Beispiel α = 0.05.
6
3. Aufstellen einer Testgröße [test statistic] T :
Die Testgröße ist eine Stichprobenfunktion, deren Verteilung
unter der Annahme, dass H0 wahr ist, (zumindest
näherungsweise) bekannt sein muss.
Für AnwenderInnen:
– bekannte Tests aus der Literatur.
– Fragen Sie Ihre Statistikerin oder Ihren Statistiker.
Wichtig: Auswahl eines für die Daten (Skalenniveau)
und die Fragestellung geeigneten Testverfahrens.
Häufig setzt die Anwendung eines Testverfahrens weitere
Modellannahmen voraus, über die nachzudenken ist, und die
zunächst untersucht und evtl. auch getestet werden sollten.
7
Im Beispiel: Anwendung des einfachen t–Tests
(SPSS: Analysieren → Mittelwerte vergleichen
→ T–Test bei einer Stichprobe).
Testvoraussetzungen:
– X normalverteilt oder
– Stichprobenumfang n hinreichend groß (n > 30)
Testgöße T für einfachen t–Test:
X̄ − µ0 √
· n
T =
SX
8
Wenn die Voraussetzungen erfüllt sind und H0 richtig ist,
dann gilt (zumindest näherungsweise) für eine entsprechende
mathematische Stichprobe:
T ist t–verteilt mit n − 1 Freiheitsgraden.
Für die konkrete Stichprobe erhalten wir
x̄ = 143.7
sX
= 7.223
n = 200
Unter der gewählten Nullhypothese H0 gilt µ0 = 145, und für
die konkrete Testgröße ergibt sich demnach
t = −2.545
9
4. Ermittlung der Überschreitungswahrscheinlichkeit
[p-value] (p–Wert):
Ist H0 wahr (ist µ0 also der wahre Erwartungswert), so sollte
die konkrete Stichprobe einen Wert t der Testgröße in der
Nähe von 0 ergeben (x̄ ≈ µ0 ).
Daher ist H0 abzulehnen, wenn der Wert t weit weg“ von 0
”
in Richtung auf HA liegt.
10
Wird die zweiseitige Alternativhypothese HA : µX 6= µ0 = 145
verwendet, dann sind Abweichungen des beobachteten
Durchschnittswerts x̄ von µ0 = 145 nach oben und nach
unten zu berücksichtigen, und die Überschreitungswahrscheinlichkeit
P (|T | ≥ |t|) = P (T ≤ −|t|) + P (T ≥ |t|)
muss ermittelt werden.
Auf Grund der Symmetrie der t–Verteilung gilt
P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)
11
Wird die einseitige Alternativhypothese HA : µX < µ0 = 145
verwendet, dann ist nur die Abweichung des beobachteten
Durchschnittswerts x̄ von µ0 = 145 nach unten zu
berücksichtigen und
P (T ≤ t)
zu ermitteln.
12
SPSS berechnet beim einfachen t–Test die
Überschreitungswahrscheinlichkeit
P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)
für die zweiseitige Alternative HA : µX 6= µ0 unter der
Bezeichnung Sig. (2-seitig).
Im Beispiel erhalten wir
P (|T | ≥ |−2.545|) = P (|T | ≥ 2.545)
= 0.012
13
Will man die einseitige Alternative HA : µX < µ0 = 145
verwenden, so ist zur Ermittlung der zugehörigen
Überschreitungswahrscheinlichkeit P (T ≤ t) der von SPSS
ausgegebene Wert zu halbieren, falls t negativ ist.
Ist t positiv, so gilt P (T ≤ t) ≥ 0.5.
Im Beispiel erhalten wir wegen t = −2.545 < 0
P (T ≤ −2.545) =
=
1
· P (|T | ≥ 2.545)
2
1
· 0.012
2
= 0.006
14
Allgemein:
Ablehnung von H0 , wenn der Wert der Testgröße t weit
”
weg“ (im Hinblick auf HA ) von den unter H0 typischen
Werten von T liegt.
Typische Werte der Verteilung der Testgröße haben große
Einzelwahrscheinlichkeiten bzw. große Werte der Dichte.
15
5. Anwendung der Entscheidungsregel:
Ist die ermittelte Überschreitungswahrscheinlichkeit (p–Wert)
kleiner oder gleich dem gewählten Signifikanzniveau α, so
wird die Nullhypothese H0 abgelehnt.
Im anderen Falle ist gegen H0 nichts einzuwenden.
16
Damit wird H0 : µX = µ0 = 145 bei Verwendung der zweiseitigen Alternativhypothese HA : µX 6= µ0 = 145 und des
Signifikanzniveaus α = 0.05 abgelehnt, denn für den
p–Wert gilt
P (|T | ≥ |t|) = 0.012 ≤ 0.05 = α
H0 wird natürlich auch bei Verwendung der einseitigen
Alternativhypothese HA : µX < µ0 = 145 abgelehnt, denn für
den zugehörigen p–Wert gilt
P (T ≤ t) =
1
· 0.012 = 0.006 ≤ 0.05 = α
2
17
Im betrachteten Beispiel ist also die Wahrscheinlichkeit
zufällig in einer Stichprobhe eine Abweichung von mindestens
1.3 cm nach oben oder nach unten vom hypothetisch
unterstellten Durchschnittswert µ0 = 145 zu erleben nur
0.012.
Wenn also die Nullhypothese gilt, ist das nur in 1.2% aller
Fälle bei mathematischen Stichproben vom Umfang n = 200
zu erwarten.
Bei dem gewählten Signifikanzniveau von α = 0.05 führt das
zur Ablehnung der Nullhypothese. Hätten wir dagegen ein
Signifikanzniveau α = 0.01 – also eine kleinere
Irrtumwahrscheinlichkeit – verwendet, so würde das nicht zur
Ablehnung von H0 führen.
18
6. Mögliche Fehlentscheidungen:
Bei der Verwendung der Nullhypothese H0 und der
Alternativhypothese HA gibt es zwei mögliche
Fehlentscheidungen.
Fehler erster Art [type I error]:
Die Nullhypothese H0 wird abgelehnt, obwohl sie richtig ist.
Fehler zweiter Art [type II error]:
Die Nullhypothese H0 wird nicht abgelehnt, obwohl die
Alternativhypothese HA richtig ist.
19
Die verwendete Entscheidungsregel für einen
Signifikanztest zum Signifikanzniveau α
sichert, dass eine wahre Nullhypothese H0 höchstens mit
Wahrscheinlichkeit α abgelehnt wird.
Die Wahrscheinlichkeit für einen Fehler erster Art ist
also stets kleiner oder gleich α,
denn die Überschreitungswahrscheinlichkeit wird unter der
Annahme berechnet, dass H0 wahr ist.
20
Die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen
ist bei einem Signifikanztest i.a. nur sehr schwierig oder gar
nicht ermittelbar, denn die Verteilung von T ist unter der
Alternativhypothese in vielen Fällen nicht bekannt.
Problem: Reduziert man die Wahrscheinlichkeit für den
Fehler erster Art (durch ein kleineres α), so vergrößert sich
die Wahrscheinlichkeit für Fehler zweiter Art, und umgekehrt.
In welchem Maße dies geschieht, ist i.a. unbekannt.
21
Bei einem sehr kleinen α wird H0 nur abgelehnt, wenn man
sich sehr sicher ist, dass die Ablehnung richtig ist. Dann
haben wir jedoch eine große Wahrscheinlichkeit für den
Fehler 2. Art.
Mit einem hinreichend kleinem α lässt sich demnach jede
Nullhypothese retten“.
”
22
Will man bei Nichtablehnung von H0 eine Entscheidung
formulieren, dann z.B. Auf der Basis der Stichprobe ist
”
gegen H0 nichts einzuwenden“.
Fehlentscheidungen bei Signifikanztests lassen sich nur für
den Fall der Ablehnung der Nullhypothese quantifizieren.
Der Fehler 1. Art ist dann höchstens α.
Aus diesem Grunde wird häufig die eigentlich zu
untersuchende Arbeitshypothese als
Alternativhypothese formuliert. Wird dann die
Nullhypothese abgelehnt, so wird die verfolgte
Arbeitshypothese ”indirekt bestätigt”.
23
Einfacher t–Test
Anliegen: Überprüfung von Hypothesen über das
Zusammenfallen des Erwartungswertes µX einer
Zufallsvariable X mit einem vorgegebenen Wert bei
unbekannter Varianz (mindestens Intervallskala erforderlich).
Voraussetzungen: (X1 , . . . , Xn ) mathematische Stichprobe
aus einer normalverteilten Grundgesamtheit oder mit
hinreichend großem Stichpobenumfang (n > 30).
24
Hypothesen:
H0 : µX = µ0
HA : µX 6= µ0
(1)
HA : µX < µ0
(2)
HA : µX > µ0
(3)
Testgröße:
X̄ − µ0 √
T =
· n
SX
Unter H0 ist T (näherungsweise) t–verteilt mit n − 1
Freiheitsgraden.
25
p–Wert:
p = P (|T | ≥ |t|)
bei (1)
p = P (T ≤ t)
bei (2)
p = P (T ≥ t)
bei (3)
Entscheidungsregel:
Ablehnung von H0 , falls p ≤ α.
Bemerkung: Ist die Varianz von X bekannt, kommt der
weitgehend äquivalente Gauß–Test zur Anwendung.
26