Statistische Tests (Signifikanztests)

Werbung
Statistische Tests (Signifikanztests)
[testing statistical hypothesis]
Prüfen und Bewerten von Hypothesen (Annahmen,
Vermutungen) über die Verteilungen von Merkmalen in einer
Grundgesamtheit (Population) auf der Basis vorliegender
Stichproben, die aus dieser Grundgesamtheit gezogen wurden.
Hypothesen über die Verteilungen in der Grundgesamtheit
beziehen sich z.B. auf
– Parameter (z.B. Durchschnittswert, Median, Varianz),
– die Verteilungsfunktion insgesamt (z.B. deren Form),
– die Unabhängigkeit,
– die Stärke bzw. die Form einer Abhängigkeit ...
1
Beispiel (Körpergröße von 10–jährigen Kindern):
Merkmal(e)
Annahme für die Grundgesamtheit
Körpergröße
Die mittlere Körpergröße ist gleich 145 cm.
Körpergröße
Die mittlere Körpergröße ist kleiner als 145 cm.
Körpergröße
Die Körpergröße lässt sich durch eine
normalverteilte Zufallsvariable beschreiben.
Körpergröße,
Geschlecht
Die beiden Merkmale sind unabhängig.
Körpergröße,
Alter
Die Körpergröße hängt vom Alter
ab, wobei die Abhängigkeit durch eine
Funktion der Art
Körpergröße = a · Alter + b
(lineare Funktion) beschrieben wird.
2
Fiktiver Dialog:
A:
Ich glaube, dass Kinder in diesem Alter im Durchschnitt
”
145 cm groß sind.“
B:
Wir haben Ergebnisse einer Erhebung mit Angaben von
”
200 Kindern in diesem Alter, und da lag die durchschnittliche
gemessene Größe bei 143.7 cm.“
A:
Na und? Das war bestimmt Zufall! Nimm andere Kinder in
”
diesem Alter, und dann erhältst Du etwa den Wert 145 cm.“
Frage: Sind die 1.3 cm Differenz nun Resultat einer
geringeren mittleren Körpergröße in der Grundgesamtheit
oder sind sie nur zufälliges Resultat der Stichprobenziehung
aus der Grundgesamtheit?
3
Wir wollen also folgende Hypothese auf der Basis der uns
vorliegenden Daten von 200 Kindern überprüfen:
Die durchschnittliche Körpergröße aller Kinder in
der Grundgesamtheit beträgt 145 cm.
1. Formulierung der Hypothesen:
Vergleich des Durchschnittswertes (Erwartungswertes) µX der
Zufallsvariable X, die die Körpergröße von – rein zufällig
ausgewählten – 10–jährigen Kindern aus der
Grundgesamtheit beschreibt, mit einem hypothetisch
unterstellten Durchschnittswert µ0 = 145.
4
Formulieren zweier sich gegenseitig ausschließender Hypothesen:
H0
HA
H0 :
...
...
Nullhypothese [null hypothesis]
Alternativhypothese [alternative hypothesis]
µX = µ0 = 145
(Nullhypothese)
mögliche Alternativhypothesen HA zur Nullhypothese H0
sind z.B.:
HA :
µX 6= µ0 = 145
(zweiseitige Alternative)
HA :
µX < µ0 = 145
(einseitige Alternative)
Eine einseitige Alternative wird benutzt, wenn es eine
interessierende Richtung der Abweichung von H0 gibt.
5
2. Festlegung des Signifikanzniveaus [level of
significance] α:
Wir legen die Irrtumswahrscheinlichkeit fest, mit der wir die
Nullhypothese fälschlicherweise ablehnen, obwohl sie wahr ist.
Übliche Werte: α zwischen 0.1 und 0.005
Wir wählen im Beispiel α = 0.05.
6
3. Aufstellen einer Testgröße [test statistic] T :
Die Testgröße ist eine Stichprobenfunktion, deren Verteilung
unter der Annahme, dass H0 wahr ist, (zumindest
näherungsweise) bekannt sein muss.
Für AnwenderInnen:
– bekannte Tests aus der Literatur.
– Fragen Sie Ihre Statistikerin oder Ihren Statistiker.
Wichtig: Auswahl eines für die Daten (Skalenniveau)
und die Fragestellung geeigneten Testverfahrens.
Häufig setzt die Anwendung eines Testverfahrens weitere
Modellannahmen voraus, über die nachzudenken ist, und die
zunächst untersucht und evtl. auch getestet werden sollten.
7
Im Beispiel: Anwendung des einfachen t–Tests
(SPSS: Analysieren → Mittelwerte vergleichen
→ T–Test bei einer Stichprobe).
Testvoraussetzungen:
– X normalverteilt oder
– Stichprobenumfang n hinreichend groß (n > 30)
Testgöße T für einfachen t–Test:
X̄ − µ0 √
· n
T =
SX
8
Wenn die Voraussetzungen erfüllt sind und H0 richtig ist,
dann gilt (zumindest näherungsweise) für eine entsprechende
mathematische Stichprobe:
T ist t–verteilt mit n − 1 Freiheitsgraden.
Für die konkrete Stichprobe erhalten wir
x̄ = 143.7
sX
= 7.223
n = 200
Unter der gewählten Nullhypothese H0 gilt µ0 = 145, und für
die konkrete Testgröße ergibt sich demnach
t = −2.545
9
4. Ermittlung der Überschreitungswahrscheinlichkeit
[p-value] (p–Wert):
Ist H0 wahr (ist µ0 also der wahre Erwartungswert), so sollte
die konkrete Stichprobe einen Wert t der Testgröße in der
Nähe von 0 ergeben (x̄ ≈ µ0 ).
Daher ist H0 abzulehnen, wenn der Wert t weit weg“ von 0
”
in Richtung auf HA liegt.
10
Wird die zweiseitige Alternativhypothese HA : µX 6= µ0 = 145
verwendet, dann sind Abweichungen des beobachteten
Durchschnittswerts x̄ von µ0 = 145 nach oben und nach
unten zu berücksichtigen, und die Überschreitungswahrscheinlichkeit
P (|T | ≥ |t|) = P (T ≤ −|t|) + P (T ≥ |t|)
muss ermittelt werden.
Auf Grund der Symmetrie der t–Verteilung gilt
P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)
11
Wird die einseitige Alternativhypothese HA : µX < µ0 = 145
verwendet, dann ist nur die Abweichung des beobachteten
Durchschnittswerts x̄ von µ0 = 145 nach unten zu
berücksichtigen und
P (T ≤ t)
zu ermitteln.
12
SPSS berechnet beim einfachen t–Test die
Überschreitungswahrscheinlichkeit
P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)
für die zweiseitige Alternative HA : µX 6= µ0 unter der
Bezeichnung Sig. (2-seitig).
Im Beispiel erhalten wir
P (|T | ≥ |−2.545|) = P (|T | ≥ 2.545)
= 0.012
13
Will man die einseitige Alternative HA : µX < µ0 = 145
verwenden, so ist zur Ermittlung der zugehörigen
Überschreitungswahrscheinlichkeit P (T ≤ t) der von SPSS
ausgegebene Wert zu halbieren, falls t negativ ist.
Ist t positiv, so gilt P (T ≤ t) ≥ 0.5.
Im Beispiel erhalten wir wegen t = −2.545 < 0
P (T ≤ −2.545) =
=
1
· P (|T | ≥ 2.545)
2
1
· 0.012
2
= 0.006
14
Allgemein:
Ablehnung von H0 , wenn der Wert der Testgröße t weit
”
weg“ (im Hinblick auf HA ) von den unter H0 typischen
Werten von T liegt.
Typische Werte der Verteilung der Testgröße haben große
Einzelwahrscheinlichkeiten bzw. große Werte der Dichte.
15
5. Anwendung der Entscheidungsregel:
Ist die ermittelte Überschreitungswahrscheinlichkeit (p–Wert)
kleiner oder gleich dem gewählten Signifikanzniveau α, so
wird die Nullhypothese H0 abgelehnt.
Im anderen Falle ist gegen H0 nichts einzuwenden.
16
Damit wird H0 : µX = µ0 = 145 bei Verwendung der zweiseitigen Alternativhypothese HA : µX 6= µ0 = 145 und des
Signifikanzniveaus α = 0.05 abgelehnt, denn für den
p–Wert gilt
P (|T | ≥ |t|) = 0.012 ≤ 0.05 = α
H0 wird natürlich auch bei Verwendung der einseitigen
Alternativhypothese HA : µX < µ0 = 145 abgelehnt, denn für
den zugehörigen p–Wert gilt
P (T ≤ t) =
1
· 0.012 = 0.006 ≤ 0.05 = α
2
17
Im betrachteten Beispiel ist also die Wahrscheinlichkeit
zufällig in einer Stichprobhe eine Abweichung von mindestens
1.3 cm nach oben oder nach unten vom hypothetisch
unterstellten Durchschnittswert µ0 = 145 zu erleben nur
0.012.
Wenn also die Nullhypothese gilt, ist das nur in 1.2% aller
Fälle bei mathematischen Stichproben vom Umfang n = 200
zu erwarten.
Bei dem gewählten Signifikanzniveau von α = 0.05 führt das
zur Ablehnung der Nullhypothese. Hätten wir dagegen ein
Signifikanzniveau α = 0.01 – also eine kleinere
Irrtumwahrscheinlichkeit – verwendet, so würde das nicht zur
Ablehnung von H0 führen.
18
6. Mögliche Fehlentscheidungen:
Bei der Verwendung der Nullhypothese H0 und der
Alternativhypothese HA gibt es zwei mögliche
Fehlentscheidungen.
Fehler erster Art [type I error]:
Die Nullhypothese H0 wird abgelehnt, obwohl sie richtig ist.
Fehler zweiter Art [type II error]:
Die Nullhypothese H0 wird nicht abgelehnt, obwohl die
Alternativhypothese HA richtig ist.
19
Die verwendete Entscheidungsregel für einen
Signifikanztest zum Signifikanzniveau α
sichert, dass eine wahre Nullhypothese H0 höchstens mit
Wahrscheinlichkeit α abgelehnt wird.
Die Wahrscheinlichkeit für einen Fehler erster Art ist
also stets kleiner oder gleich α,
denn die Überschreitungswahrscheinlichkeit wird unter der
Annahme berechnet, dass H0 wahr ist.
20
Die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen
ist bei einem Signifikanztest i.a. nur sehr schwierig oder gar
nicht ermittelbar, denn die Verteilung von T ist unter der
Alternativhypothese in vielen Fällen nicht bekannt.
Problem: Reduziert man die Wahrscheinlichkeit für den
Fehler erster Art (durch ein kleineres α), so vergrößert sich
die Wahrscheinlichkeit für Fehler zweiter Art, und umgekehrt.
In welchem Maße dies geschieht, ist i.a. unbekannt.
21
Bei einem sehr kleinen α wird H0 nur abgelehnt, wenn man
sich sehr sicher ist, dass die Ablehnung richtig ist. Dann
haben wir jedoch eine große Wahrscheinlichkeit für den
Fehler 2. Art.
Mit einem hinreichend kleinem α lässt sich demnach jede
Nullhypothese retten“.
”
22
Will man bei Nichtablehnung von H0 eine Entscheidung
formulieren, dann z.B. Auf der Basis der Stichprobe ist
”
gegen H0 nichts einzuwenden“.
Fehlentscheidungen bei Signifikanztests lassen sich nur für
den Fall der Ablehnung der Nullhypothese quantifizieren.
Der Fehler 1. Art ist dann höchstens α.
Aus diesem Grunde wird häufig die eigentlich zu
untersuchende Arbeitshypothese als
Alternativhypothese formuliert. Wird dann die
Nullhypothese abgelehnt, so wird die verfolgte
Arbeitshypothese ”indirekt bestätigt”.
23
Einfacher t–Test
Anliegen: Überprüfung von Hypothesen über das
Zusammenfallen des Erwartungswertes µX einer
Zufallsvariable X mit einem vorgegebenen Wert bei
unbekannter Varianz (mindestens Intervallskala erforderlich).
Voraussetzungen: (X1 , . . . , Xn ) mathematische Stichprobe
aus einer normalverteilten Grundgesamtheit oder mit
hinreichend großem Stichpobenumfang (n > 30).
24
Hypothesen:
H0 : µX = µ0
HA : µX 6= µ0
(1)
HA : µX < µ0
(2)
HA : µX > µ0
(3)
Testgröße:
X̄ − µ0 √
T =
· n
SX
Unter H0 ist T (näherungsweise) t–verteilt mit n − 1
Freiheitsgraden.
25
p–Wert:
p = P (|T | ≥ |t|)
bei (1)
p = P (T ≤ t)
bei (2)
p = P (T ≥ t)
bei (3)
Entscheidungsregel:
Ablehnung von H0 , falls p ≤ α.
Bemerkung: Ist die Varianz von X bekannt, kommt der
weitgehend äquivalente Gauß–Test zur Anwendung.
26
Herunterladen