Statistik II

Werbung
Prof. Dr. Roland Füss
Statistik II
SS 2008
4. Testtheorie
4.1. Nullhypothese, Gegenhypothese und Entscheidung
Hypothesen – Annahmen über die Verteilung oder über einzelne Parameter der Verteilung eines Merkmals in einer Grundgesamtheit.
Es kann durch Testen nicht festgestellt werden, ob eine Hypothese
richtig oder falsch ist, sondern nur ob sie beibehalten oder verworfen
werden kann. „Annahme“ einer statistischen Hypothese bedeutet immer
1
Prof. Dr. Roland Füss
Statistik II
SS 2008
nur: Die vorliegende statistische Evidenz reicht nicht aus, um die Hypothese zu verwerfen.
Beim Testen stehen sich zwei Behauptungen gegenüber – die Nullhypothese (H0) und die Gegenhypothese oder Alternativhypothese (H1).
H
0
: θ = θ0
H1 : θ ≠ θ0
Der Test führt zur Entscheidung über die Annahme oder Ablehnung der
Nullhypothese.
Dabei sind vier Fälle des Zusammentreffens von Realität und Test-
entscheidung möglich:
2
Prof. Dr. Roland Füss
Realität
SS 2008
Statistik II
H0
ist richtig
H0
ist falsch
H0
beibehalten
o.k.
Fehler 2. Art
β-Fehler
H0
verworfen
Fehler 1. Art
α-Fehler
o.k.
Testentscheidung
Quelle: Schira (2003), S. 474.
Fehler 1. Art:
Die Nullhypothese wird verworfen, obwohl sie richtig ist.
Fehler 2. Art:
Die Nullhypothese wird angenommen, obwohl sie falsch ist.
3
Prof. Dr. Roland Füss
Statistik II
SS 2008
4.2 Tests für Mittel- und Anteilswerte (Ein-Stichproben-Fall)
4.2.1. Heterograder Fall (Erwartungswerte)
H 0 : µ = µ0
H 1 : µ ≠ µ 0 ( zweiseitige Fragestellung )
µ > µ0 ⎫
⎬ (einseitige Fragestellung )
µ < µ0 ⎭
Aufgrund einer Stichprobe soll entschieden werden, ob die Nullhypothese zu verwerfen ist. Meistens wird man einen Stichprobenmittelwert
finden, der von dem hypothetischen Wert µ0 abweicht. Dies bedeutet
4
Prof. Dr. Roland Füss
Statistik II
SS 2008
jedoch nicht, dass die Nullhypothese gleich verworfen werden soll. Die
Abweichung könnte auch zufällig sein, d.h. durch ungünstige Auswahl
der Stichprobenelemente beeinflusst werden.
Erst wenn die Abweichung einen bestimmten kritischen Wert überschreitet, kann sie als signifikant von Null verschieden angesehen werden, die
Nullhypothese wird dann verworfen zu Gunsten von Alternativhypothese.
Zur Testentscheidung wird die Verteilung des Stichprobenmittelwertes
herangezogen:
5
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die Nullhypothese wird beibehalten, solange das mit dieser Stichprobe
geschätzte Konfidenzintervall um den Stichprobenmittelwert den hypothetischen Wert µ0 enthält.
Mit der Verteilung des Stichprobenmittelwertes X bei Gültigkeit von H0
kann für x ein Annahmebereich und ein Ablehnungsbereich so
bestimmt werden, dass die Wahrscheinlichkeit, mit der der Stichprobenmittelwert in den Ablehnungsbereich fällt (bei Gültigkeit der Nullhypothese), höchstens α beträgt.
6
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die Wahrscheinlichkeit des Fehlers 1. Art α heißt auch Signifikanzniveau des Tests.
Prüfgröße (Teststatistik):
T =
| x − µ0 |
σX
Die Prüfgröße T ist bei kleinen Stichproben t-verteilt mit n-1 Freiheitsgraden und bei großen Stichproben (n > 30) standardnormalverteilt.
7
Prof. Dr. Roland Füss
Statistik II
SS 2008
Bei kleinen Stichproben wird die t-Verteilung dann herangezogen, wenn
die Varianz geschätzt werden muss. Voraussetzung dafür ist aber, dass
man eine Normalverteilung des Merkmals in der Grundgesamtheit annehmen kann.
Die Entscheidungsregel lautet
- bei großen Stichproben:
| x − µ0 |
⎫
> z [1 − α / 2 ] bei zweiseitigenTests ⎪
σX
⎪
⎬ ⇒ H 0 verwerfen !
| x − µ0 |
⎪
T=
> z [1 − α ] bei einseitigenTests
⎪⎭
σX
T=
8
Prof. Dr. Roland Füss
Statistik II
SS 2008
- bei kleinen Stichproben:
| x − µ0 |
⎫
> t n −1 [1 − α / 2] bei zweiseitig en Tests ⎪
σˆ X
⎪
⎬ ⇒ H 0 verwerfen !
| x − µ0 |
⎪
T=
> t n −1 [1 − α ] bei einseitige n Tests
⎪⎭
σˆ X
T=
4.2.2. Homograder Fall (Anteilswerte)
In der Nullhypothese wird behauptet, dass der Anteilswert einer Grundgesamtheit (P) gleich dem hypothetischen Anteilswert P0 ist:
9
Prof. Dr. Roland Füss
Statistik II
SS 2008
H 0 : P = P0
H1 : P ≠ P0 ( zweiseitige Fragestellung )
P > P0 ⎫
⎬ (einseitige Fragestellung )
P < P0 ⎭
Die Entscheidungsregel:
| h − P0 |
⎫
> z [1 − α / 2] bei zweiseitig en Tests ⎪
σH
⎪
⎬ ⇒ H 0 verwerfen!
| h − P0 |
⎪
T=
> z [1 − α ] bei einseitige n Tests
⎪⎭
σH
T=
h: Anteilswert der Stichprobe
10
Prof. Dr. Roland Füss
Statistik II
SS 2008
Anmerkung: die Standardabweichung darf nicht mit dem Anteilswert der
Stichproben (h) geschätzt werden, sondern ist mit dem hypothetischen
Wert P0 zu berechnen.
σH =
P0 (1 − P0 )
n
Bei großen Stichproben kann die Standardnormalverteilung verwendet werden.
Bei kleinen Stichproben sollte man die Binomialverteilung nehmen.
11
Prof. Dr. Roland Füss
Statistik II
SS 2008
Der Binomialtest
1. linksseitiger Test:
H 0 : P ≥ P0
H 1 : P ≤ P0
Die Nullhypothese wird verworfen, wenn ein kritischer Wert xunten unterschritten wird: P( X < xunten ) ≤ α
2. rechtsseitiger Test:
H 0 : P ≤ P0
H 1 : P ≥ P0
12
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die Nullhypothese wird verworfen, wenn ein kritischer Wert xoben überschritten wird.
P( X > xoben ) ≤ α
3. zweiseitiger Test:
H 0 : P = P0
H 1 : P ≠ P0
In diesem Fall braucht man zwei kritische Werte. Die Irrtumswahrscheinlichkeit wird aufgeteilt.
P( X < xunten ) ≤ α / 2 und P( X > xoben ) ≤ α / 2
13
Prof. Dr. Roland Füss
SS 2008
Statistik II
4.3 Tests für Varianzen
2
Nullhypothese: die Varianz einer Grundgesamtheit σ weicht nicht von
einem vorgegebenen hypothetischen Wert σ
2
0
ab.
H 0 : σ 2 = σ 02
H 1 : σ 2 ≠ σ 02 ( zweiseitig e Fragestell ung )
σ 2 > σ 02 ⎫⎪
⎬ (einseitige Fragestell ung )
σ < σ ⎪⎭
2
2
0
14
Prof. Dr. Roland Füss
n⋅S2
Die Testgröße
σ 02
= χ n2−1
Statistik II
SS 2008
ist Chi-Quadrat-verteilt mit n-1 Freiheits-
graden, wenn das Merkmal in der Grundgesamtheit normalverteilt ist.
Die Entscheidungsregel:
2
n ⋅ S 2 ⎧⎪< χ n −1 [α / 2 ] oder ⎫⎪
T =
⎨
⎬ ⇒ H 0 verwerfen !
2
2
σ 0 ⎪⎩ > χ n −1 [1 − α / 2 ] ⎪⎭
1 n
S = ∑ ( xi − x ) 2
(Stichprobenvarianz)
mit
n i =1
2
15
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die Nullhypothese wird verworfen, wenn die Testgröße das untere Quantil unterschreitet oder das obere überschreitet.
4.4 Vergleich zweier Erwartungswerte
(Zwei-Stichproben-Fall, heterograd)
Seien
x1 und x 2 Mittelwerte aus zwei unabhängigen Stichproben. Es
soll getestet werden, ob die beiden Stichproben aus derselben Grundgesamtheit stammen (oder wenigstens aus Grundgesamtheiten mit
gleichem Mittelwert).
16
Prof. Dr. Roland Füss
Statistik II
SS 2008
H 0 : µ1 = µ 2
H1 : µ1 ≠ µ 2 ( zweiseitige Fragestellung )
µ1 > µ 2 ⎫
⎬ (einseitige Fragestellung )
µ1 < µ 2 ⎭
Bei großen Stichproben (n1 und n2 müssen groß sein) gilt der zentrale
Grenzwertsatz und man kann die Normalverteilung anwenden.
17
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die Entscheidungsregel lautet:
| x1 − x2 |
⎫
> z [1 − α / 2] bei zweiseitig en Tests ⎪
σ∆
⎪
⎬ ⇒ H 0 verwerfen!
| x − x2 |
⎪
T= 1
> z [1 − α ] bei einseitige n Tests
⎪⎭
σ∆
T=
2
2
σ
=
σ
/
n
+
σ
mit ∆
1
2 /n
18
Prof. Dr. Roland Füss
Statistik II
Bei kleinen Stichproben (wenn
Testgröße
t-verteilt
mit
σ∆
n1+n2-2
SS 2008
geschätzt werden muss) ist die
Freiheitsgraden.
Voraussetzung:
σ1 = σ 2 = σ .
| x1 − x2 |
⎫
> tn1 + n2 −2 [1 − α / 2] bei zweiseitigenTests ⎪
σˆ ∆
⎪
⎬ ⇒ H 0 verwerfen !
|x −x |
⎪
T = 1 2 > tn1 + n2 −2 [1 − α ] bei einseitigenTests
⎪⎭
σˆ ∆
T=
2
2
ˆ
ˆ
ˆ
σ
=
σ
/
n
+
σ
mit ∆
1
2 /n
19
Prof. Dr. Roland Füss
Statistik II
SS 2008
4.5 Vergleich zweier Anteilswerte (homograd)
Hypothesen:
H 0 : P1 = P2
H1 : P1 ≠ P2 ( zweiseitige Fragestellung )
P1 > P2 ⎫
⎬ (einseitige Fragestellung )
P1 < P2 ⎭
Die Entscheidungsregel:
| p1 − p2 |
⎫
> z [1 − α / 2] bei zweiseitig en Tests ⎪
σˆ R
⎪
⎬ ⇒ H 0 verwerfen !
| p − p2 |
⎪
T= 1
> z [1 − α ] bei einseitige n Tests
⎪⎭
σˆ R
T=
20
Prof. Dr. Roland Füss
mit σˆ R =
Statistik II
SS 2008
p(1 − p)(1 / n1 + 1 / n2 )
4.6. F-Verteilung
Seien Qn und Qm zwei unabhängige Chi-Quadrat-verteilte Zufallsvariablen. Die Verteilung des Quotienten Z nennt man dann F-Verteilung mit n und m Freiheitsgraden:
21
Prof. Dr. Roland Füss
Qn
Z = n
Q m ~ Fn,m
m
Statistik II
SS 2008
mit n: Anzahl der Zählerfreiheitsgrade und m: Anzahl
der Nennerfreiheitsgrade
Der Erwartungswert und die Varianz werden wie folgt bestimmt:
m
E [Z ] =
m−2
falls m ≥ 3
22
Prof. Dr. Roland Füss
SS 2008
Statistik II
2 m 2 ( n + m − 2)
V [Z ] =
n ( m − 2) 2 ( m − 4)
falls m ≥ 5
Die F-Verteilung ist eine stetige Verteilung. Sie ist asymmetrisch rechtsschief (linkssteil).
23
Prof. Dr. Roland Füss
Statistik II
SS 2008
Für große m lässt sich die F-Verteilung durch die Chi-Quadrat-Verteilung
approximieren.
24
Prof. Dr. Roland Füss
Statistik II
SS 2008
Die F-Verteilung wird zum Vergleich von Streuungen verwendet.
4.7 Vergleich zweier Varianzen
2
2
Annahme: die Stichprobenvarianzen s1 und s 2 stammen aus zwei ver-
schiedenen unabhängigen Stichproben.
In der Nullhypothese wird behauptet, dass die beiden Stichproben aus
derselben Grundgesamtheit stammen:
H 0 : σ12 = σ 22 = σ 2
Die Testgröße ist F-verteilt mit den Freiheitsgraden n1 – 1 und n2 – 2.
25
Prof. Dr. Roland Füss
Statistik II
SS 2008
Voraussetzung: das Merkmal ist in der Grundgesamtheit normalverteilt
2
mit der Varianz σ .
Die Nullhypothese wird verworfen, wenn die Testgröße das untere α/2Quantil unterschreitet oder das obere (1- α/2)-Quantil überschreitet.
Die Entscheidungsregel:
n1 2
s1
n −1
T= 1
n2 2
s2
n2 − 1
⎧< F [α / 2] oder ⎫
⎨
⎬ ⇒ H 0 verwerfen!
⎩> F [1 − α / 2] ⎭
26
Prof. Dr. Roland Füss
Statistik II
SS 2008
Im Zähler und im Nenner sind erwartungstreue Schätzwerte der
Varianzen.
4.8 Signifikanzniveau und Überschreitungswahrscheinlichkeit
Bisher: das Signifikanzniveau α wurde immer vor dem Testen festgelegt.
Nachteil:
für die Testentscheidung spielt es dann keine Rolle, ob die Teststatistik
(Prüfgröße T) weit im Annahmebereich oder nur knapp an der kritischen
Grenze liegt.
27
Prof. Dr. Roland Füss
Statistik II
SS 2008
Alternative Möglichkeit wäre die Abweichung zwischen hypothetischem Wert des Parameters und dem Stichprobenergebnis zu berücksichtigen und die Wahrscheinlichkeit anzugeben, mit der das Stichprobenergebnis bei Gültigkeit der Nullhypothese den kritischen Wert überoder unterschreiten würde.
Vorteil:
Vermeidung der „willkürlichen“ Festlegung eines Signifikanzniveaus und
effizientere Nutzung der Stichprobeninformationen.
28
Prof. Dr. Roland Füss
Statistik II
SS 2008
Definition:
Die Überschreitungswahrscheinlichkeit (P-Wert, probability value) ist
das Signifikanzniveau, bei dem die Testgröße T auf den kritischen Wert
fällt.
P-Wert wird auch als empirisches Signifikanzniveau bezeichnet.
Je kleiner der P-Wert, desto eher wird man die Nullhypothese verwerfen.
29
Prof. Dr. Roland Füss
Statistik II
SS 2008
4.9 Macht und Trennschärfe eines Tests
Ein Test ist umso trennschärfer, je zuverlässiger man mit ihm erkennen
kann, ob eine Hypothese richtig oder falsch ist.
Idealer Test: α = 0 = β.
Nur in diesem Fall könnte die Nullhypothese mit Wahrscheinlichkeit Eins
verworfen oder angenommen werden.
In der Realität ist jedoch ein solcher Test unmöglich!
30
Prof. Dr. Roland Füss
Statistik II
SS 2008
Ist für den Test ein kleines Signifikanzniveau α (z.B. von 1%) gewählt,
wird es immer problematisch die Nullhypothese zu verwerfen, wenn θ
nur wenig größer als θ0 ist.
Wie schnell bei einem konkreten Test die Ablehnungswahrscheinlichkeit
zunimmt, ist für seine Brauchbarkeit ganz entscheidend, deswegen wird
diese Eigenschaft die Macht oder die Güte eines Tests genannt.
31
Prof. Dr. Roland Füss
Statistik II
SS 2008
Definition:
Die Funktion G(θ) = P(H0 verwerfen| θ), welche die Wahrscheinlichkeit
die Nullhypothese zu verwerfen in Abhängigkeit vom wahren Parameter
θ angibt, heißt Machtfunktion oder Gütefunktion des Tests.
Die Machtfunktion G hängt von den Parametern µ, µ0, σ, n und α ab.
32
Herunterladen