Kapitel 3 Schließende Statistik

Werbung
Kapitel 3
Schließende Statistik
Beschreibende Statistik:
Analyse von Meßreihen
Wahrscheinlichkeitstheorie:
Mathematische Beschreibung von Zufallsexperimenten; dabei wurde stets angenommen, daß die Verteilungsfunktion F , die das Zustandekommen der Ergebnisse beschreibt, vollständig bekannt ist.
Schließende Statistik:
Es wird davon ausgegangen, daß die Verteilungsfunktion F (das Zufallsgesetz) nicht
vollständig bekannt ist.
Ziel: Rückschlüsse ziehen auf F auf der Basis vorliegender Beobachtungsdaten (Meßreihen).
Beispiel
Es sei p der relative Anteil der Individuen einer Population, die an einer ganz bestimmten
Krankheit leiden. Wegen des zu großen Populationsumfangs ist ein Untersuchen aller Individuen
nicht möglich. Zur Bestimmung des unbekannten relativen Anteils p wird daher folgendermaßen
vorgegangen: Der Gesamtpopulation wird eine Stichprobe von n Individuen entnommen und
es wird festgestellt, wieviele Individuen innerhalb der Stichprobe an der Krankheit leiden.
Fragen:
• Wie groß ist p ?
−→
Schätzproblem
• Zwischen welchen Grenzen liegt p ?
• Gilt p = 1% ?
−→
Testproblem
−→
Konfidenzintervall
3.1
Empirische Verteilungsfunktion
Meßreihe bzw. Stichprobe
x1 , . . . , x n
wobei
n = Stichprobenumfang
Stochastisches Modell
x1 , . . . , x n
Realisation von Zufallsvariablen X1 , . . . , Xn
X1 , . . . , Xn
unabhängig
X1 , . . . , Xn
identisch verteilt mit Verteilungsfunktion F , also
F (x) = P (Xi ≤ x) , i = 1, . . . , n
Problem:
Ziel:
3.1.1
F unbekannt !
Rückschlüsse auf F auf der Basis der vorliegenden Stichprobe !
Zentralsatz der Statistik
Bilde aus der Meßreihe x1 , . . . , xn die empirische Verteilungsfunkion
Fn ( · ; x1 , . . . , xn ) : R → [0, 1]
mit
1
Fn (z; x1 , . . . , xn ) =
(Anzahl der Meßwerte ≤ z)
| {z }
n
vorliegende
Meßreihe
= rel. Häufigkeit der Meßwerte ≤ z
1.0
r
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ..
......................................................................................................
...........................
.
...............
. ..................
.
.
.
.
.
.
.
.
......
....... .
......
.
......
......
.
.
.
.
.
.....
.
.....
.
.
.
.
. ....
.
.
.
.......
.
.....
....
..... .
..... .
....
.
.
.
.
.
...
.
...
. .....
. .....
.
.
.
...
....
...
... .
... .
.
.
..
.
...
. .....
. ........
.
.....
....
..... .
.....
.... .
.
.
.
.
.....
.....
.
.....
.
.....
.....
.
.
.
.
.
.
...
.
.
.
.
.
.
......
.
........
........ .
.........
..........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............
....................................................................................................
.
F (z)
r
0.8
F5 (z; x1 , . . . , x5 )
r
0.6
r
0.4
r
0.2
0.0
-
x2
x4
x1
x5
z
x3
Idee
Fn ( · ; x1 , . . . , xn ) ≈
F( · )
| {z }
unbekannte
Verteilungsfunktion
betrachte
Fn ( · ;
X1 , . . . , Xn )
| {z }
Zufallsvariablen
zufällige Funktion“
”
Frage: Zusammenhang Fn ( · ; X1 , . . . , Xn ) ←→ F (z) ?
Zentralsatz der Statistik (Satz von Glivenko/Cantelli)
zufälliger maximaler Unterschied“ zwischen empirischer Verteilungsfunktion und wahrer Ver”
teilungsfunktion:
Dn (X1 , . . . , Xn ) = sup |Fn (z; X1 , . . . , Xn ) − F (z)| ,
n = 1, 2, . . .
z∈R
Es gilt:
P
lim Dn (X1 , . . . , Xn ) = 0 = 1
n→∞
(n = Stichprobenumfang)
Interpretation:
Für geeignet lange Meßreihen x1 , . . . , xn ist die empirische Verteilungsfunktion
Fn ( · ; x1 , . . . , xn ) eine beliebig gute Approximation für die wahre Verteilungsfunktion F .
Problemstellung
Können die Meßwerte x1 , . . . , xn als Realisation von normalverteilten Zufallsvariablen angesehen werden ?
Graphische Prüfmethode: Wahrscheinlichkeitspapier
Quantitative Prüfmethode: Kolmogoroff–Smirnov–Test
3.1.2
Wahrscheinlichkeitspapier
Φ = Verteilungsfunktion der N(0,1)– Verteilung
Es gilt
1
y = Φ(x) = √
2π
Z
x
t2
e− 2 dt
−∞
Graph von Φ:
100% =
1.0
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ................................................................................................................
.....
..............
..........
........
.......
.
.
.
.
.
......
......
.....
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..........
.
.
.
.
.
.....
.... .
.....
.
...
.
...
.
.
.
.
...........................................................................................................................................................................................................................
...
.
.
.
.. ...
.
.
.
.. ...
.
.
.
.. ...
.
.
.
...
....
...
.
.
.
.
.
.
..
.
.
.
.
.
..
..
.
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...
.
..
.
.
.
.. .
....
... .
.
.
.
.
.
.
..
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
..
.
.
.
.
.
.
...
....
...
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
..
.
.
.
.
.
.
..
...
.
.
.
.
...
....
....
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
..
. . . . . . . . . . . . . . . . . . . . . ..........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..... .
....
...... .
.
.
.
.
.
.
.
.
.
.
....
.
.
.
.
.
.
.
.
.
.
.
....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.................................................................................
.
.
..
.
84.1% = 0.841
y
50% =
0.5
15.9% = 0.159
0% =
0.0
-
−3.0
−2.0
−1.0
0.0 x 1.0
2.0
3.0
Idee
Änderung der Skala der y–Achse so, daß sich der Graph von Φ im
neuen Koordinatensystem zu einer Geraden streckt.
Skalaänderung:
v = Φ−1 (y) ,
0<y<1
wobei
Φ−1 = Umkehrfunktion von Φ
Damit gilt für den Graph von Φ im x − v–Koordinatensystem:
v = Φ−1 (Φ(x)) = x
| {z }
=y
also: Graph von Φ im x − v–Koordinatensystem = 1. Winkelhalbierende
Das x − v–Koordinatensystem bezeichnet man als Wahrscheinlichkeitsnetz
v6
84.1% →
1
50% →
0
15.9% → −1
......
........
........
.........
........
.
.
.
.
.
.
.
....
.........
........
........
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................
.
.
.
.
.
.
.
...
.
.........
.
........
........
.
.........
........
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
....
. . . . . . . . . . . . . . . . . . . . . . . . . . . ...................
.
.
.
.
.
.
..
.
.
.........
........
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.....
.
.
. . . . . . . . . . . . . ..................
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
..
.
.
.
.........
........
.
.
.
.
.
.
.
.
.
.
......
.
.
.
−2.0 −1.5 −1.0 −0.5
0.0
x
0.5
1.0
1.5
v=x
2.0
Achtung
Im Wahrscheinlichkeitsnetz wird die v–Achse mit den entsprechenden
Prozentzahlen beschriftet !
Allgemein
Fµ,σ2 = Verteilungsfunktion einer N (µ, σ 2 )–Verteilung
Im x-y–Koordinatensystem:
y = Fµ,σ2 (x) = Φ
x−µ
σ
Im x-v–Koordinatensystem:
v=Φ
−1
x−µ
x−µ
=
Φ
σ
σ
Fazit:
Die Verteilungsfunktion einer Normalverteilung ist also im Wahrscheinlichkeitsnetz stets eine Gerade !
Näherungswerte für die Parameter µ und σ 2 einer Normalverteilung:
setze v = 0 (entspricht 50%–Linie)
=⇒ x = µ
setze v = 1 (entspricht 84.1%–Linie) =⇒ x = µ + σ
v
6
84.1%
50%
....
..............
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..............................
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
.
...............
..............
.
...............
...............
.
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......................
.
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..........
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
...............
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...............
.
.
.
.
.
.
.
.
.
.
Fµ,σ2
←−−−−−−− σ −−−−−−−→
µ
µ+σ
-
x
Vorgehen
1. Den Graphen der empirischen Verteilungsfunktion zur Meßreihe x1 , . . . , xn in das x − v–
Koordinatensystem (Wahrscheinlichkeitsnetz) eintragen.
2. Die approximierende Näherungsgerade einzeichnen
3. Falls die Abweichungen zwischen dem Graphen der empirischen Verteilungsfunktion (Treppenfunktion) und der Näherungsgeraden nicht zu groß sind: Näherungswerte für µ und σ
bestimmen.
Hinweis:
Bei klassierten Daten müssen die summierten relativen Klassenhäufigkeiten als
Punkte über den rechten Klassengrenzen in das Wahrscheinlichkeitsnetz eingetragen werden. Dann Gerade durch diesen Punkteschwarm legen.
3.1.3
Kolmogoroff–Smirnov–Test
Hypothese H0 :
F = F0
wobei
F0 beliebige stetige Verteilungsfunktion, F0 vorgegeben
Beispiel
F0 = Verteilungsfunktion einer Normalverteilung
Also insbesondere
µ und σ 2 vorgegeben
Vorgehen
Berechne
Dn (x1 , . . . , xn ) = sup |Fn (z; x1 , . . . , xn ) − F0 (z)|
z∈R














= max |Fn (x(i) ; x1 , . . . , xn ) − F0 (x(i) )| , |Fn ( x(i) − 0 ; x1 , . . . , xn ) − F0 (x(i) )| , i = 1, . . . , n


| {z }






linksseitiger




Grenzwert
Dabei ist
x(1) , . . . , x(n)
die geordnete Meßreihe.
1.0
r
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ..
..........................................................................................................
........................
.
..............
. .................
.....
.
.
.
.
.
.
.
.......
...... .
......
.
......
.
.....
.
.
.
.
..
.
.....
. .........
.........
.
.
.
.....
....
..... .
..... .
....
.
.
.
...
.
...
. .....
.
. ....
......
.
....
...
... .
... .
.
.
.
.
...
. .....
. ........
.
.
.
....
....
..... .
..... .
..... .
.
.
.
.
.....
.
.....
.....
.
.....
. ...........
............
.....
........
........ .
..........
............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
....................................................................................................
.
F (z)
r
0.8
F5 (z; x1 , . . . , x5 )
r
0.6
r
0.4
0.2
r
0.0
-
x2
x4
x1
x5
x3
z
Falls alle Meßwerte verschieden sind, gilt
i
Dn (x1 , . . . , xn ) = max − F0 (x(i) )
n
i − 1
, − F0 (x(i) ) , i = 1, . . . , n
n
Entscheidung:
Hypothese F = F0“ verwerfen, falls
”
Dn (x1 , . . . , xn )
zu groß“ ,
”
d. h. falls
Dn (x1 , . . . , xn ) > c
Problem:
Vorgehen:
Wahl von c ?
Bei Gültigkeit der Hypothese H0 (also F = F0 ) soll gelten
P (Dn (X1 , . . . , Xn ) > c) ≈ α ,
wobei 0 < α < 1 vorgegeben.
Interpretation:
Die Wahrscheinlichkeit dafür, die Hypothese zu verwerfen, obwohl
sie wahr ist, d. h. die Wahrscheinlichkeit dafür, die Hypothese
fälschlicherweise zu verwerfen (Fehlentscheidung !), soll ≈ α betragen
Die festzulegende Konstante c hängt also vom gewählten α ab:
c = cα
Da α die Wahrscheinlichkeit für eine Fehlentscheidung ist, wird α in der Regel klein gewählt:
α = 1%
oder
α = 5%
Man bezeichnet α als Signifikanzniveau des Tests.
Zur Festlegung von cα benötigt man die Verteilung von Dn (X1 , . . . , Xn ), falls F = F0 gilt.
Satz (Kolmogoroff)
X1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit stetiger Verteilungsfunktion F . Dann gilt:
lim P
√
n→∞
n · Dn (X1 , . . . , Xn ) ≤ y = K(y) ,
wobei K : R −→ [0, 1] gegeben durch

∞
X

2 2

 1+2
(−1)k e−2k y
K(y) =
k=1



0
y>0
y∈R
Kolmogoroffsche
Verteilungsfunktion
y≤0
Werte von K in Tabellen !
Kolmogoroffsche Verteilungsfunktion
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Bestimmung von cα :
P (Dn (X1 , . . . , Xn ) > cα ) = 1 − P (Dn (X1 , . . . , Xn ) ≤ cα )
√
√
= 1−P
n · Dn (X1 , . . . , Xn ) ≤ n · cα
√
≈ 1 − K( n · cα )
!
= α
Daraus folgt:
√
K( n · cα ) = 1 − α
Vorgehen: α vorgeben, 1−α berechnen, der Tabelle den Wert für
cα ermitteln
√
n·cα entnehmen und daraus
Beispiel
Vorgabe: α = 5%
√
K( n · cα ) = 1 − 0.05 = 0.95
Der Tabelle entnimmt man:
√
Man erhält:
n · cα = 1.36
1.36
cα = √
n
Im Falle n = 100 gilt also cα = 0.136.
Die Entscheidung bei der Durchführung des Kolmogoroff–Smirnov–Tests zum Signifikanzniveau α = 5% lautet also: Falls
1.36
Dn (x1 , . . . xn ) > cα = √
n
wird die Hypothese F = F0“ verworfen, sonst kann gegen H0 nichts eingewendet werden.
”
Beachte:
F0 muß vollständig bekannt sein !
3.2
Schätzverfahren
Gegeben: Stichprobe x1 , . . . , xn ; n = Stichprobenumfang ;
Modell:
• Realisierung von unabhängigen Zufallsvariablen X1 , . . . , Xn ;
• alle Zufallsvariablen identisch wie X verteilt mit einer Verteilungsfunktion Fθ , θ ∈ Θ ;
• Θ = Indexmenge“ (Menge der möglichen Parameterwerte)
”
Ziel:
Angabe eines Schätzwerts für θ bzw. für τ (θ), wobei τ : Θ → R ,
also τ (θ) ein reellwertiger Parameter“
”
Beispiel
Es sei X ∼ N (µ, σ 2 ), also
θ = (µ, σ 2 )
Θ = R × R+
und
• Schätzen des Erwartungswertes
τ (θ) = µ
• Schätzen der Varianz
τ (θ) = σ 2
Schätzer
Tn : Rn −→ R
Zuordnung
(x , . . . , x ) 7−→ Tn (x1 , . . . , xn )
| 1 {z n}
|
{z
}
Stichprobe
Schätzwert für τ (θ)
Schätzvariable
Tn (X1 , . . . , Xn )
(Zufallsvariable)
Schreibweisen:
Eθ (X) ,
V arθ (X) ,
Pθ (X ≤ x) ,
Eθ (Tn ) = Eθ (Tn (X1 , . . . , Xn )) ,
...
Index θ bedeutet: Der Wert der jeweiligen Größe hängt davon ab, welches θ ∈ Θ das zutreffende
ist !
Beispiele
• Das arithmetische Mittel
n
Tn (x1 , . . . , xn ) = x(n) =
1X
xi
n i=1
ist ein Schätzer für
τ (θ) = Eθ (X)
• Die Stichprobenvarianz
n
Tn (x1 , . . . , xn ) =
s2(n)
2
1 X
=
xi − x(n)
n − 1 i=1
ist ein Schätzer für
τ (θ) = V arθ (X)
Frage: Welche speziellen Eigenschaften sollten vernünftige Schätzer besitzen ?
3.2.1
Erwartungstreue
Beispiel
Schießen mit einem Gewehr
normale Streuung !
systematischer Fehler !
Idee:
T
T
τ(θ)
τ(θ)
Schätzer soll im Mittel richtig schätzen !“
”
Der Schätzer Tn heißt erwartungstreu, falls für alle θ ∈ Θ gilt:
Eθ (Tn (X1 , . . . , Xn )) = τ (θ)
Beispiele
• Es sei
τ (θ) = Eθ (X)
und
Tn (X1 , . . . , Xn ) = X (n)
Dann gilt:
n
1X
Xi
n i=1
Eθ (Tn (X1 , . . . , Xn )) = Eθ
n
1X
=
Eθ (Xi )
n i=1 | {z }
τ (θ)
1
· n · τ (θ)
n
= τ (θ)
=
d. h. X (n) ist erwartungstreu für τ (θ) = Eθ (X) .
!
• Es sei
τ (θ) = V arθ (X)
und
n
Tn (X1 , . . . , Xn ) =
2
S(n)
1 X
=
(Xi − X (n) )2
n − 1 i=1
Es gilt mit µ = Eθ (X):
n
X
2
(Xi − X (n) )
i=1
n
X
2
=
(Xi − µ) − (X (n) − µ)
=
i=1
n
X
(Xi − µ)2 − 2
n
X
(Xi − µ)(X (n) − µ) + n(X (n) − µ)2
(Xi − µ)2 − 2
n
X
(Xi X (n) − µXi − µX (n) + µ2 )
i=1
=
n
X
i=1
i=1
i=1
2
+ n(X (n) − µ)
n
X
2
=
(Xi − µ)2 − 2[nX (n) − 2nµX (n) + nµ2 ] + n(X (n) − µ)2
i=1
=
=
n
X
i=1
n
X
(Xi − µ)2 − 2n(X (n) − µ)2 + n(X (n) − µ)2
(Xi − µ)2 − n(X (n) − µ)2
i=1
Daraus erhält man:
2
Eθ S(n)
= Eθ
1
n−1
1
Eθ
=
n−1

n
X
(Xi − X (n) )2
!
i=1
n
X
(Xi − µ)2 − n(X (n) − µ)2
!
i=1

n
X

1 
2 
2

=
E
[(X
−
µ)
]
−
n
E
[(X
−
µ)
]
θ
i
θ
(n)
{z
}
n − 1  i=1 |
|
{z
} 
V arθ (Xi )
1
=
n−1
1
n−n·
n
1
V arθ (X (n) )= n
V arθ (X)
V arθ (X)
= V arθ (X)
2
d. h. S(n)
ist erwartungstreu für τ (θ) = V arθ (X) .
Für den Schätzer
n
n−1 2
1X
Tn (X1 , . . . , Xn ) =
· S(n) =
(Xi − X (n) )2
n
n i=1
gilt:
Eθ (Tn (X1 , . . . , Xn )) = Eθ
n−1 2
· S(n)
n
=
n−1
n−1
2
· Eθ S(n)
=
V arθ (X)
n
n }
| {z
<1
Dieser Schätzer ist also nicht erwartungstreu für τ (θ) = V arθ (X) ( wahre Varianz wird
”
im Mittel unterschätzt“).
Deshalb
3.2.2
1
1
und nicht als Faktor !
n−1
n
Konsistenz
Idee: Wenn n groß genug wird, schätzt man beliebig genau.“
”
Gegeben sei für jedes n ∈ N ein Schätzer Tn : Rn → R für τ (θ).
Eine Schätzerfolge T1 , T2 , T3 , . . . heißt konsistent für τ : Θ → R , falls für jedes > 0 und für
jedes θ ∈ Θ gilt:
lim Pθ (|Tn (X1 , . . . , Xn ) − τ (θ)| > ) = 0
n→∞
Kriterium zum Prüfen, ob Konsistenz vorliegt:
Sind die Schätzer T1 , T2 , T3 , . . . erwartungstreu für τ : Θ → R und gilt
lim V arθ (Tn (X1 , . . . , Xn )) = 0 für alle θ ∈ Θ ,
n→∞
so ist die Schätzerfolge T1 , T2 , T3 , . . . konsistent für τ : Θ → R.
Beispiel
Es sei
τ (θ) = Eθ (X)
Schätzen des Erwartungswertes
Der Schätzer
Tn (X1 , . . . , Xn ) = X (n)
ist erwartungstreu für τ (θ) (siehe oben).
arithmetisches Mittel
Wegen
n
V arθ (Tn (X1 , . . . , Xn )) = V arθ
1
=
n2
1X
Xi
n i=1
n
X
!
!
V arθ (Xi )
i=1
1
=
· n · V arθ (X)
n2
1
=
V arθ (X)
n
gilt
1
V arθ (X) = 0 ,
n→∞
n→∞ n
d. h. das arithmetische Mittel ist konsistent für τ (θ) = Eθ (X) .
lim V arθ (Tn (X1 , . . . , Xn )) = lim
Problem:
Wie kann man Schätzer bestimmen, wenn Fθ , θ ∈ Θ , gegeben ist ?
3.2.3
Momentenmethode
k–tes Moment der Zufallsvariable X (siehe Abschnitt 2.4.1 bzw. 2.4.2):
m(k) (θ) = Eθ (X k )
Betrachte den Schätzer
n
Tn(k) (x1 , . . . , xn )
(k)
Tn
1X k
=
x
n i=1 i
k–tes Stichprobenmoment“
”
ist ein erwartungstreuer Schätzer für das k–te Moment von X:
!
n
X
1
Eθ Tn(k) (X1 , . . . , Xn ) = Eθ
Xk
n i=1 i
1
· n · m(k) (θ)
n
= m(k) (θ)
=
Es sei
θ ∈ Θ ⊂ Rl
l–dimensionaler Parameter
Prinzip:
Wähle als Schätzwert θ̂ denjenigen Parameterwert aus
Θ, für den gilt:
n
m(k) (θ̂) =
1X k
x
n i=1 i
für k = 1, . . . , l
Beispiele
• X exponentialverteilt mit Parameter θ
Θ = R+ ,
also l = 1
1. Moment (= Erwartungswert) von X:
m(1) (θ) = Eθ (X) =
1
θ
Gleichung zur Bestimmung von θ̂:
1
θ̂
n
=
1X
xi =: x(n)
n i=1
Es folgt:
θ̂ =
1
x(n)
Man erhält also als Schätzer für den Parameter θ einer Exponentialverteilung:
Tn (x1 , . . . , xn ) =
1
x(n)
• X normalverteilt mit Parametern µ und σ 2
θ = (µ, σ 2 ) ,
Θ = R × R+ ⊂ R2 ,
also l = 2
1. und 2. Moment von X:
m(1) (θ) = Eθ (X) = µ
m(2) (θ) = Eθ (X 2 ) = V arθ (X) + [Eθ (X)]2 = σ 2 + µ2
Es sei
θ̂ = (µ̂, σb2 )
Man erhält zunächst:
n
µ̂ = m(1) (θ̂) =
1X
xi = x(n)
n i=1
Die zweite Gleichung
n
1X 2
σb2 + µ̂2 = m(2) (θ̂) =
x
n i=1 i
liefert
n
n
2
2
1X 2
1X
σb2 =
xi − x(n) =
xi − x(n)
n i=1
n i=1
Bei Anwendung der Momentenmethode erhält man also folgende Schätzer:
Tn (x1 , . . . , xn ) = x(n)
und
für µ
n
2
1X
Tn (x1 , . . . , xn ) =
xi − x(n)
n i=1
für σ 2
• X ∼ B(1, θ) , Schätzen der Erfolgswahrscheinlichkeit θ
Θ = [0, 1] ⊂ R ,
also l = 1
1. Moment (= Erwartungswert) von X:
m(1) (θ) = Eθ (X) = θ
Nach der Momentenmethode erhält man folgenden Schätzwert für θ:
n
θ̂ = m(1) (θ̂) =
1X
xi
n i=1
Es sei k die Anzahl der Versuche mit xi = 1 (Anzahl Erfolge). Dann gilt:
θ̂ =
k
n
relative Häufigkeit der Erfolge
Die zugehörige Schätzvariable hat also folgende Gestalt:
K
Tn (X1 , . . . , Xn ) =
n
wobei K =
n
X
Xi
i=1
Frage: Ist dieser Schätzer erwartungstreu für θ ?
Die Zufallsvariable K ist B(n, θ) verteilt. Daraus folgt:
K
1
1
= · Eθ (K) = · n · θ = θ
Eθ
n
n
n
Der Schätzer ist also erwartungstreu für θ.
Frage: Ist die Schätzerfolge konsistent für θ ?
Wegen
V arθ
K
n
=
1
1
θ · (1 − θ)
· V arθ (K) = 2 · n · θ · (1 − θ) =
2
n
n
n
gilt
lim V arθ
n→∞
Die Schätzerfolge ist also konsistent für θ.
K
n
=0
3.2.4
Maximum–Likelihood–Methode
Beispiel
Gegeben sei eine Urne mit 10 Kugeln (schwarze und weiße). Die Anzahl θ der schwarzen Kugeln
in der Urne ist nicht bekannt. Es gilt
θ ∈ Θ = {0, . . . , 10}
Es wird aus der Urne dreimal ohne Zurücklegen eine Kugel gezogen. Unter den gezogenen
Kugeln befinden sich 2 schwarze Kugeln. Wie kann man mit dieser Information einen geeigneten
Schätzwert für θ gewinnen ?
Es sei
X = Anzahl der gezogenen schwarzen Kugeln
Frage: Welche Verteilung besitzt die Zufallsvariable X ?
Hypergeometrische Verteilung
Gegeben sei eine Population von N Individuen. M der Individuen seien markiert“. Es werden
”
der Population insgesamt n Individuen entnommen (Ziehen ohne Zurücklegen). Die Zufallsvariable Y beschreibe die Anzahl der markierten“ Individuen in der Stichprobe. Es gilt:
”
M
N −M
·
k
n−k
P (Y = k) =
, k = max(M − (N − n), 0), . . . , min(M, n)
N
n
hypergeometrische Verteilung“
”
Schreibweise: Y ∼ H(n, N, M )
Die Verteilung der Zufallsvariable X, die die Anzahl der gezogenen schwarzen Kugeln beschreibt, hängt natürlich vom zutreffenden, jedoch unbekannten, θ ∈ Θ ab. Es gilt:
X ∼ H(3, 10, θ)
Idee: Es wurde das Ereignis {X = 2} beobachtet. Jenes θ paßt am besten zu diesem Ereignis,
für das die Wahrscheinlichkeit des Eintretens dieses Ereignisses am größten ausfällt. Das ist das
plausibelste θ !
Maximum–Likelihood–Prinzip = Prinzip der größten Plausibilität
Zu bestimmen ist also jenes θ ∈ Θ, für das die Wahrscheinlichkeit Pθ (X = 2) am größten ist.
Es gilt für θ = 0, 1, 10:
Pθ (X = 2) = 0
sowie für θ = 2, . . . , 9 (hypergeometrische Verteilung):
θ
10 − θ
·
1
2
Pθ (X = 2) =
10
3
Die Berechnung der Werte ergibt folgende Tabelle:
θ
Pθ (X = 2)
0 1
2
3
4
5
6
7
8
9
0 0 0.067 0.175 0.300 0.417 0.500 0.525 0.467 0.300
10
0
Die größte Wahrscheinlichkeit ergibt sich für θ = 7. Man erhält also als Maximum–Likelihood–
Schätzwert für θ:
θ̂ = 7
Allgemeines Vorgehen:
1. Fall: X diskret verteilt
Betrachte die Likelihood–Funktion zur Stichprobe x1 , . . . , xn :
L(θ ; x1 , . . . , xn ) = Pθ (X1 = x1 ) · Pθ (X2 = x2 ) · . . . · Pθ (Xn = xn ) ,
| {z }
|
{z
}
Stichprobe
Wahrscheinlichkeit dafür, daß die beobachtete Stichprobe auftritt, falls θ zutrifft
Prinzip:
Wähle als Schätzwert θ̂ denjenigen Parameterwert aus
Θ, bei dem die Likelihood–Funktion L(θ ; x1 , . . . , xn ) ihr
Maximum annimmt !
Der zugehörige Schätzer
Tn (x1 , . . . , xn ) = θ̂(x1 , . . . , xn )
heißt Maximum–Likelihood–Schätzer (ML–Schätzer).
Beispiel
θ∈Θ
X sei B(1, θ) verteilt mit Parameter θ ∈ [0, 1].
Als Likelihood–Funktion zu einer Stichprobe (x1 , . . . , xn ) ∈ {0, 1})n erhält man:
L(θ ; x1 , . . . , xn ) = θx1 · (1 − θ)1−x1 · . . . · θxn · (1 − θ)1−xn = θ
Pn
i=1
xi
· (1 − θ)n−
Pn
i=1
xi
Man betrachtet die sogenannte Log–Likelihood–Funktion ln L(θ ; x1 , . . . , xn ), welche die
gleichen Maximalstellen wie die Likelihood–Funktion besitzt:
ln L(θ ; x1 , . . . , xn ) = ln θ ·
n
X
xi + ln(1 − θ) · (n −
i=1
n
X
xi )
i=1
Nullsetzen der 1. Ableitung der Log–Likelihood–Funktion ergibt:
Pn
P
n − ni=1 xi ) !
d ln L
i=1 xi
=
−
=0
dθ
θ
1−θ
Auflösen der Gleichung liefert folgenden Schätzwert für θ:
θ̂ =
1
(x1 + . . . + xn ) = x(n)
n
arithmetisches Mittel
Die 2. Ableitung der Log–Likelihood–Funktion ist < 0 an der Stelle θ̂, so daß die Funktion an
dieser Stelle tatsächlich ihr Maximum annimmt !
2. Fall: X stetig verteilt
Die Verteilungsfunktion Fθ sei gegeben durch eine Dichte fθ .
Man verwendet folgenden Übergang:
Pθ (Xi = xi ) −→ fθ (xi )
Die Likelihood–Funktion zur Stichprobe x1 , . . . , xn ist hier also folgendermaßen definiert:
L(θ ; x1 , . . . , xn ) = fθ (x1 ) · fθ (x2 ) · . . . · fθ (xn ) ,
Die weitere prinzipielle Vorgehensweise ist die gleiche wie im 1. Fall.
Beispiel
X ∼ Ex(θ) , θ > 0.
θ∈Θ
Es gilt also (siehe Abschnitt 2.3.5):

 0
fθ (x) =
 θe−θx
für x < 0
für x ≥ 0
Die Likelihood–Funktion zur Stichprobe x1 , . . . , xn , wobei xi > 0 für alle i, ist gegeben durch:
L(θ ; x1 , . . . , xn ) = θe−θx1 · θe−θx2 · . . . · θe−θxn
= θn · e−θ(x1 +...+xn )
Die Log–Likelihood–Funktion lautet:
ln L(θ ; x1 , . . . , xn ) = n ln θ − θ(x1 + . . . + xn )
Nullsetzen der 1. Ableitung ergibt:
d ln L
n
!
= − (x1 + . . . + xn ) = 0
dθ
θ
Daraus folgt:
n
= (x1 + . . . + xn )
θ
Man erhält also als Maximum–Likelihood–Schätzer für θ:
θ̂(x1 , . . . , xn ) =
n
1
=
x1 + . . . + xn
x(n)
(Kehrwert des arithmetischen Mittels)
Die 2. Ableitung der Log–Likelihood–Funktion ist an der Stelle θ̂ negativ, so daß die Funktion
an dieser Stelle ihr Maximum annimmmt.
Hinweis: Die Momentenmethode und die Maximum–Likelihood–Methode führen im Falle der
Exponentialverteilung zum gleichen Schätzer.
3.3
Konfidenzintervalle
Gegeben: Stichprobe x1 , . . . , xn ; n = Stichprobenumfang ;
Modell:
• Realisierung von unabhängigen Zufallsvariablen X1 , . . . , Xn ;
• alle Zufallsvariablen identisch wie X verteilt mit einer Verteilungsfunktion Fθ , θ ∈ Θ ;
• Θ = Indexmenge“ (Menge der möglichen Parameterwerte)
”
Frage: In welchen Grenzen liegt θ bzw. τ (θ) ?
Ziel: Angabe eines Schätzintervalls für θ bzw. τ (θ)
I(x1 , . . . , xn ) = [ U (x1 , . . . , xn ) , O(x1 , . . . , xn ) ]
|
{z
}
Stichprobe
gesucht: Funktionen
U : Rn → R
untere Grenze des Schätzintervalls
O : Rn → R
obere Grenze des Schätzintervalls
und
Problem: Intervall muß θ nicht enthalten !
8. Stichprobe
7. Stichprobe
!
6. Stichprobe
5. Stichprobe
4. Stichprobe
3. Stichprobe
!
2. Stichprobe
1. Stichprobe
θ
Θ
Es soll gelten:
(∗) Pθ ( U (X1 , . . . , Xn ) ≤ θ ≤ O(X1 , . . . , Xn ) ) ≥ 1 − α
für alle θ ∈ Θ
mit α vorgegeben (α klein, z. B. α = 0.05 , 5% oder α = 0.01 , 1%).
Das zufällige Intervall
I(X1 , . . . , Xn ) = [ U (X1 , . . . , Xn ) , O(X1 , . . . , Xn ) ]
mit der Eigenschaft (∗) heißt Konfidenzintervall für θ bzw. τ (θ) zum Konfidenzniveau
1 − α ( Konfidenzschätzverfahren“).
”
I(x1 , . . . , xn ) = [ U (x1 , . . . , xn ) , O(x1 , . . . , xn ) ] ist ein konkretes Schätzintervall zur Stichprobe x1 , . . . , xn .
Interpretation: α = 0.05 bedeutet, daß höchstens ungefähr 5% der entstehenden konkreten
Schätzintervalle θ nicht enthalten.
3.3.1
Konfidenzintervalle bei Binomialverteilungsannahme
X1 , . . . , Xn unabhängig, identisch B(1, θ)–verteilt, θ ∈ Θ = (0, 1).
Es gilt
Y = X1 + . . . + Xn ∼ B(n, θ)
Grenzwertsatz von Moivre–Laplace (siehe Abschnitt 2.5):
Y − nθ
p
nθ(1 − θ)
∼ N (0, 1)
(näherungsweise)
Dichte der N(0,1)-Verteilung
α
2
u α2 = −u1− α2
α
2
u1− α2
Es gilt also für alle θ ∈ Θ:
Pθ
−u1− α2
Y − nθ
≤ u1− α2
≤p
nθ(1 − θ)
!
≈ 1−α
Die Ungleichung
Y − nθ
−c ≤ p
≤c ,
nθ(1 − θ)
wobei c = u1− α2 , ist für folgende Werte von θ erfüllt:
1
n + c2
|
!
r
c2
Y (n − Y ) c2
1
Y + −c
≤θ≤
+
n
4
2
n + c2
|
{z
}
=: U (Y ) = U (X1 , . . . , Xn )
!
r
Y (n − Y ) c2
c2
Y + +c
+
2
n
4
{z
}
=: O(Y ) = O(X1 , . . . , Xn )
Für dieses zufällige Intervall gilt also:
Pθ ( U (X1 , . . . , Xn ) ≤ θ ≤ O(X1 , . . . , Xn ) ) ≈ 1 − α
für alle θ ∈ Θ
Das zufällige Intervall
I(X1 , . . . , Xn ) = [ U (X1 , . . . , Xn ) , O(X1 , . . . , Xn ) ]
ist somit ein approximatives Konfidenzintervall für θ, das für großes n näherungsweise mit dem
Intervall
"
!
!#
r
r
1
Y
(n
−
Y
)
1
Y
(n
−
Y
)
Y − u1− α2
I 0 (X1 , . . . , Xn ) =
,
Y + u1− α2
n
n
n
n
=
"
X (n) − u1− α2
r
1
X (n) (1 − X (n) ) , X (n) + u1− α2
n
r
1
X (n) (1 − X (n) )
n
übereinstimmt.
Hinweise:
• X (n) ist ein erwartungstreuer Schätzer für θ.
q
1
•
n X (n) (1 − X (n) ) ist ein Schätzer für die Streuung von X (n) , denn
1
V arθ X (n) = · θ · (1 − θ)
n
#
3.3.2
χ2 –Verteilung
Die Zufallsvariablen X1 , . . . , Xn seien unabhängig und identisch N(0,1) verteilt. Für die Zufallsvariable Y gelte:
P (Y ≤ y) = P (X12 + . . . + Xn2 ≤ y) , y ∈ R
Dann heißt Y χ2 –verteilt mit n Freiheitsgraden, kurz:
Y ∼ χ2n
Dichten von χ2n –verteilten Zufallsvariablen:
Dichte der Chi-Quadrat-Verteilung mit n Freiheitsgraden
0.5
n=2
0.4
0.3
0.2
n=3
n=6
0.1
n = 10
0
0
2
4
6
8
10
12
14
16
18
20
Hinweise:
• Negative Werte treten nicht auf.
• Es gilt
E(Y ) = n
und
V ar(Y ) = 2n
• Für großes n ist nach dem Zentralen Grenzwertsatz Y näherungsweise N (n, 2n)–verteilt.
Es gilt dann:
Y −n
≤ y ≈ Φ(y) , y ∈ R
P √
2n
• Für 0 < α < 1 sind die α–Quantile χ2n;α bzw. χ2n;1−α der χ2 –Verteilung mit n Freiheitsgraden in Tabellen gegeben.
Dichte der Chi-Quadrat-Verteilung mit n Freiheitsgraden
α
α
χ2n;1−α
χ2n;α
• Für großes n gilt näherungsweise:
χ2n;α ≈ n + uα ·
√
2n
Dabei ist uα das entsprechende α–Quantil der N(0,1)–Verteilung.
3.3.3
t–Verteilung
Es sei X ∼ N (0, 1) sowie Y ∼ χ2n . Ferner seien die Zufallsvariablen X und Y unabhängig. Für
die Zufallsvariable Z gelte:


 X


P (Z ≤ z) = P 
 r 1 ≤ z
Y
n
Dann heißt Z t–verteilt mit n Freiheitsgraden, kurz:
Z ∼ tn
Dichten von tn –verteilten Zufallsvariablen:
,
z∈R
Dichte der t-Verteilung mit n Freiheitsgraden
0.4
n = 20
0.35
n=5
0.3
0.25
0.2
0.15
n=1
0.1
0.05
0
-4
-3
-2
-1
0
1
2
3
4
Hinweise:
• Es gilt
E(Z) = 0
n
V ar(Z) = n −
2
für
n≥2
für
n≥3
• Für großes n ist Z näherungsweise N (0, 1)–verteilt, d.h. es gilt
P (Z ≤ z) ≈ Φ(z) ,
Grund: Für den Nenner
q
y∈R
1
Y
n
gilt
1
E
Y =1
n
sowie
V ar
1
Y
n
=
2
n
und X ∼ N (0, 1).
Vergleich der t-Verteilung mit der N(0,1)-Verteilung
0.4
N(0,1)-Verteilung
0.35
0.3
0.25
0.2
0.15
0.1
n=2
0.05
0
-4
-3
-2
-1
0
1
2
3
4
• Für 0 < α < 0.5 sind die 1 − α–Quantile tn;1−α der t–Verteilung mit n Freiheitsgraden in
Tabellen gegeben. Die Quantile tn;α für 0 < α < 0.5 erhält man aus der Beziehung
tn;α = − tn;1−α
Dichte der t-Verteilung mit n Freiheitsgraden
α
α
tn;α = −tn;1−α
tn;1−α
0
• Für großes n gilt näherungsweise:
tn;1−α ≈ u1−α
Dabei ist u1−α das entsprechende (1 − α)–Quantil der N(0,1)–Verteilung.
3.3.4
Konfidenzintervalle bei Normalverteilungsannahmen
Die Zufallsvariablen X1 , . . . , Xn seien unabhängig und identisch N (µ, σ 2 )–verteilt.
θ = (µ, σ 2 )
und
Θ = R × R+
1. Fall: Konfidenzintervall für τ (θ) = µ, wobei σ 2 = σ02 bekannt
Es gilt:
n
X (n)
1X
=
Xi ∼ N
n i=1
σ02
µ,
n
Daraus folgt:
X (n) − µ
σ0
√
n
∼
N (0, 1)
Dichte der N(0,1)-Verteilung
α
2
α
2
u1− α2
u α2 = −u1− α2
Man erhält also für alle θ ∈ Θ:

1 − α = Pθ −u1− α2 ≤

X (n) − µ
≤ u1− α2 
σ0
√
n
= Pθ X (n) − u1− α2
σ0
σ0
· √ ≤ µ ≤ X (n) + u1− α2 · √
n
n
Hinweise:
• X (n) ist ein erwartungstreuer Schätzer für τ (θ) = µ.
σ0
• √ ist die Streuung von X (n) .
n
Das zufällige Intervall
σ0
σ0
I(X1 , . . . , Xn ) = X (n) − u1− α2 · √ , X (n) + u1− α2 · √
n
n
ist also ein Konfidenzintervall für µ zum Konfidenzniveau 1 − α bei bekannter Varianz σ02 .
2. Fall: Konfidenzintervall für τ (θ) = µ, wobei σ 2 unbekannt
Idee: σ 2 durch
n
2
S(n)
2
1 X
=
Xi − X (n)
n − 1 i=1
schätzen.
Es gilt:
X (n) − µ
r
2
S(n)
n
∼
tn−1
Dichte der t-Verteilung mit n-1 Freiheitsgraden
α
2
α
2
−tn−1;1− α2
tn−1;1− α2
0
Man erhält also für alle θ ∈ Θ:




X (n) − µ
α
α ≤
r
≤
t
1 − α = Pθ 
−t
n−1;1−
n−1;1−

2
2
2
S(n)
n
Hinweise:
• X (n) ist ein erwartungstreuer Schätzer für τ (θ) = µ.
s
2
S(n)
•
ist ein Schätzer für die Streuung von X (n) .
n
Das zufällige Intervall

I(X1 , . . . , Xn ) = X (n) − tn−1;1− α2
s
2
S(n)
n
, X (n) + tn−1;1− α2
s
2
S(n)

n

ist also ein Konfidenzintervall für µ zum Konfidenzniveau 1 − α bei unbekannter Varianz σ 2 .
3. Fall: Konfidenzintervall für τ (θ) = σ 2 , wobei µ = µ0 bekannt
Es sei
Q(n) =
n
X
(Xi − µ0 )2
i=1
Es gilt:
Q(n)
σ2
∼
χ2n
Dichte der Chi-Quadrat-Verteilung mit n Freiheitsgraden
α
2
α
2
χ2n; α
χ2n;1− α
2
2
Man erhält also für alle θ ∈ Θ:
1 − α = Pθ
= Pθ
Q(n)
2
≤ 2 ≤ χn;1− α
2
σ
!
Q
Q(n)
(n)
≤ σ2 ≤ 2
χ2n;1− α
χn; α
χ2n; α
2
2
2
Das zufällige Intervall
"
Q(n)
Q(n)
I(X1 , . . . , Xn ) =
, 2
2
χn;1− α χn; α
2
#
2
2
ist also ein Konfidenzintervall für σ zum Konfidenzniveau 1−α bei bekanntem Erwartungswert
µ0 .
4. Fall: Konfidenzintervall für τ (θ) = σ 2 , wobei µ unbekannt
Es sei
n
2
S(n)
2
1 X
=
Xi − X (n)
n − 1 i=1
Stichprobenvarianz
Es gilt:
(n − 1) 2
· S(n)
σ2
∼
χ2n−1
Dichte der Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden
α
2
α
2
χ2n−1; α
χ2n−1;1− α
2
2
Man erhält also für alle θ ∈ Θ:
1 − α = Pθ
= Pθ
(n − 1) 2
≤
· S(n) ≤ χ2n−1;1− α
2
σ2
!
2
2
(n − 1)S(n)
(n
−
1)S
(n)
≤ σ2 ≤
2
2
α
α
χn−1;1−
χn−1;
χ2n−1; α
2
2
2
Das zufällige Intervall
I(X1 , . . . , Xn ) =
"
2
(n − 1)S(n)
χ2n−1;1− α
2
,
2
(n − 1)S(n)
χ2n−1; α
#
2
ist also ein Konfidenzintervall für σ 2 zum Konfidenzniveau 1 − α bei unbekanntem Erwartungswert µ.
3.4
Tests bei Normalverteilungsannahmen
Problem:
Paßt eine Stichprobe x1 , . . . , xn zu einer bestimmten Verteilungsannahme (Nullhypothese) ?
3.4.1
Einstichprobentests
Gegeben: Stichprobe x1 , . . . , xn ; n = Stichprobenumfang ;
Modell:
• Realisierung von unabhängigen Zufallsvariablen X1 , . . . , Xn ;
• alle Zufallsvariablen identisch N (µ, σ 2 )–verteilt
Gauß–Test
µ unbekannt, aber σ 2 = σ02 bekannt. µ0 vorgegeben.
Nullhypothese H0
Alternative
H1

: µ = µ0 
: µ 6= µ0 
zweiseitige Fragestellung
Idee:
Vergleiche X (n) (erwartungstreuer Schätzer für µ) mit µ0 .
Testgröße:
√
T (X1 , . . . , Xn ) =
n
σ0
(X (n) − µ0 )
Verteilung von T bei Gültigkeit von H0 :
T ∼ N (0, 1)
Es sei α ∈ (0, 1) das Signifikanzniveau“ des Tests.
”
Idee:
Nullhypothese verwerfen, falls der Wert von T zu klein“ oder zu groß“ ist.
”
”
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
√
n
|x(n) − µ0 | > u1− α2 ,
|T (x1 , . . . , xn )| =
σ0
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Dichte der N(0,1)-Verteilung
α
2
α
2
u α2 = −u1− α2
u1− α2
Interpretation:
Das Signifikanzniveau α beschreibt die Wahrscheinlichkeit dafür, die Nullhypothese H0 fälschlicherweise zu
verwerfen.
Den Fehler, die Nullhypothese H0 fälschlicherweise zu verwerfen, bezeichnet man als den Fehler 1. Art. Somit beschreibt α die Wahrscheinlichkeit dafür, daß dieser Fehler auftritt.
Also: α klein wählen (α = 0.05 , α = 0.01)
Einseitige Fragestellungen
• Nullhypothese H0 : µ ≤ µ0 ,
Alternative H1 : µ > µ0
Testgröße (wie vorher):
√
T (X1 , . . . , Xn ) =
n
σ0
(X (n) − µ0 )
Man erkennt, daß große Werte von T gegen die Hypothese H0 sprechen.
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
√
n
T (x1 , . . . , xn ) =
x(n) − µ0 > u1−α ,
σ0
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Dichte der N(0,1)-Verteilung
α
u1−α
• Nullhypothese H0 : µ ≥ µ0 ,
Alternative H1 : µ < µ0
Testgröße (wie vorher):
√
T (X1 , . . . , Xn ) =
n
σ0
(X (n) − µ0 )
Man erkennt, daß kleine Werte von T gegen die Hypothese H0 sprechen.
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
√
n
T (x1 , . . . , xn ) =
x(n) − µ0 < uα = −u1−α ,
σ0
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Dichte der N(0,1)-Verteilung
α
uα = −u1−α
Merke:
Bei einseitigen
Fragestellungen werden die α– bzw. (1 − α)–Quantile anstelle der
α
α
– bzw. 1 −
–Quantile verwendet !
2
2
Allgemeines Vorgehen beim Signifikanztest“
”
• Verteilungsannahmen spezifizieren
• Nullhypothese H0 und Alternativhypothese H1 formulieren
• Wahl der Testgröße T
• Bestimmung der Verteilung von T unter H0
• Entscheidungsregel angeben in Abhängigkeit vom Signifikanzniveau α
t–Test
µ und σ 2 unbekannt, µ0 vorgegeben.
Nullhypothese H0
Alternative
H1

: µ = µ0 
: µ 6= µ0 
zweiseitige Fragestellung
2
schätzen, wobei
Idee: σ 2 durch S(n)
n
2
S(n)
=
2
1 X
Xi − X (n)
n − 1 i=1
Stichprobenvarianz
Testgröße:
T (X1 , . . . , Xn ) =
√
n·
X (n) − µ0
q
2
S(n)
Verteilung von T bei Gültigkeit von H0 :
T ∼ tn−1
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
|T (x1 , . . . , xn )| =
√
n·
|x(n) − µ0 |
q
> tn−1;1− α2 ,
s2(n)
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Dichte der t-Verteilung mit n-1 Freiheitsgraden
α
2
α
2
−tn−1;1− α2
0
tn−1;1− α2
Einseitige Fragestellungen
• Nullhypothese H0 : µ ≤ µ0 ,
Alternative H1 : µ > µ0
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
T (x1 , . . . , xn ) =
√
x(n) − µ0
> tn−1;1−α ,
n· q
s2(n)
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
• Nullhypothese H0 : µ ≥ µ0 ,
Alternative H1 : µ < µ0
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
T (x1 , . . . , xn ) =
√
x(n) − µ0
n· q
< tn−1;α = −tn−1;1−α ,
s2(n)
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
χ2 –Streuungstest
µ und σ 2 unbekannt, σ02 vorgegeben.
2
σ02
2
σ02
Nullhypothese H0 : σ =
H1 : σ 6=
Alternative


zweiseitige Fragestellung

Idee:
2
Vergleich von S(n)
(erwartungstreuer Schätzer für σ 2 ) mit σ02
Testgröße:
T (X1 , . . . , Xn ) =
n−1 2
· S(n)
σ02
Verteilung von T bei Gültigkeit von H0 :
T ∼ χ2n−1
Dichte der Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden
α
2
α
2
χ2n−1; α
2
χ2n−1;1− α
2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
T (x1 , . . . , xn ) =
n−1 2
· s(n) < χ2n−1; α
2
σ02
oder
n−1 2
· s(n) > χ2n−1;1− α ,
2
2
σ0
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
T (x1 , . . . , xn ) =
Einseitige Fragestellungen
• Nullhypothese H0 : σ 2 ≤ σ02 ,
Alternative H1 : σ 2 > σ02
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
T (x1 , . . . , xn ) =
n−1 2
· s(n) > χ2n−1;1−α ,
σ02
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
• Nullhypothese H0 : σ 2 ≥ σ02 ,
Alternative H1 : σ 2 < σ02
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
T (x1 , . . . , xn ) =
n−1 2
· s(n) < χ2n−1;α ,
σ02
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
3.4.2
Operationscharakteristik und Gütefunktion
Einstichprobenfall, d. h. gegeben ist eine Stichprobe x1 , . . . , xn , wobei n = Stichprobenumfang
Modell:
• Realisierung von unabhängigen Zufallsvariablen X1 , . . . , Xn ;
• alle Zufallsvariablen identisch wie X verteilt mit einer Verteilungsfunktion Fθ , θ ∈ Θ ;
• Θ = Indexmenge“ (Menge der möglichen Parameterwerte)
”
Disjunkte Zerlegung der Indexmenge Θ:
Θ = Θ0 ∪ Θ1
,
wobei Θ0 ∩ Θ1 = ∅
Bezeichnung:
Θ0 = Nullhypothese
Θ1 = Alternativhypothese (Alternative)
Sprechweisen:
• θ ∈ Θ0 :
Nullhypothese trifft zu“
”
• θ ∈ Θ1 :
Alternative trifft zu“
”
Ein statistischer Test zur Prüfung des Vorliegens der Nullhypothese Θ0 ist gegeben durch
den kritischen Bereich
K ⊂ Rn
Entscheidungsregel: Gilt für die vorliegende Stichprobe
(x1 , . . . , xn ) ∈ K
,
so wird die Nullhypothese verworfen, andernfalls wird gegen Θ0 nichts eingewendet.
Bemerkung: Der kritische Bereich K wird meist mit Hilfe einer sogenannten Testgröße T festgelegt.
Beispiel
Einstichproben–t–Test
Verteilungsannahme:
X ∼ N (µ, σ 2 ) ,
also
Θ = R × R+
Nullhypothese beim einseitigen Einstichproben–t–Test:
Θ0 = {µ : µ ≤ µ0 } × R+
Alternative:
Θ1 = {µ : µ > µ0 } × R+
Dabei ist µ0 ein vorgegebener Wert.
Testgröße:
T (X1 , . . . , Xn ) =
√
n·
X (n) − µ0
q
2
S(n)
Kritischer Bereich bei festgelegtem α ∈ (0, 1):
Kα = {(x1 , . . . , xn ) : T (x1 , . . . , xn ) > tn−1;1−α }
Situation:
θ ∈ Θ0
θ ∈ Θ1
(x1 , . . . , xn ) ∈
/K
OK
Fehler
2. Art
(x1 , . . . , xn ) ∈ K
Fehler
1. Art
OK
Operationscharakteristik (OC–Funktion) des Tests:
β : Θ −→ [0, 1]
β(θ) = Pθ ((X1 , . . . , Xn ) ∈
/ K)
Gütefunktion des Tests:
g : Θ −→ [0, 1]
g(θ) = 1 − β(θ) = Pθ ((X1 , . . . , Xn ) ∈ K)
An der OC–Funktion bzw. der Gütefunktion können die Wahrscheinlichkeiten für das Auftreten
eines Fehlers 1. Art bzw. 2. Art abgelesen werden.
• θ ∈ Θ0 :
g(θ) = Wahrscheinlichkeit für das Auftreten eines Fehlers 1. Art
• θ ∈ Θ1 :
β(θ) = Wahrscheinlichkeit für das Auftreten eines Fehlers 2. Art
Es sei α ∈ (0, 1).
Ein statistischer Test heißt Niveau–α–Test, falls
g(θ) ≤ α
für alle θ ∈ Θ0
Fazit:
Bei einem Niveau–α–Test beträgt die Wahrscheinlichkeit für einen Fehler 1. Art höchstens α.
Bezeichnung: α = Signifikanzniveau des Tests
Bei allen in diesem Abschnitt betrachteten Tests werden zu vorgegebenem α (α klein) die
kritischen Bereiche so gewählt, daß die resultierenden Verfahren Niveau–α–Tests darstellen,
d. h. man orientiert sich bei der Festlegung ausschließlich an der Wahrscheinlichkeit für einen
Fehler 1. Art.
3.4.3
Zweistichprobentests
Liegen zwei verschiedene Meßreihen x1 , . . . , xm und y1 , . . . , yn vor, stellt sich oft die Frage,
ob für die zugrundeliegenden Zufallsvariablen gleiche Erwartungswerte oder gleiche Varianzen
angenommen werden können.
Gegeben: Stichprobe x1 , . . . , xm , m = Stichprobenumfang der x–Stichprobe ;
Stichprobe y1 , . . . , yn , n = Stichprobenumfang der y–Stichprobe ;
Modell:
• x–Stichprobe Realisierung von Zufallsvariablen X1 , . . . , Xm
• alle Zufallsvariablen Xi identisch N (µ1 , σ12 )–verteilt
• y–Stichprobe Realisierung von Zufallsvariablen Y1 , . . . , Yn
• alle Zufallsvariablen Yj identisch N (µ2 , σ22 )–verteilt
• alle Zufallsvariablen X1 , . . . , Xm , Y1 , . . . , Yn unabhängig
Zweistichproben–Gauß–Test
µ1 und µ2 unbekannt, aber σ12 und σ22 bekannt.
Nullhypothese H0
Alternative
H1

: µ1 = µ2 
: µ1 6= µ2 
zweiseitige Fragestellung
Idee:
Vergleich der arithmetischen Mittel X (m) (erwartungstreuer Schätzer für µ1 ) und
Y (n) (erwartungstreuer Schätzer für µ2 )
Testgröße:
Y (n) − X (m)
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = r
σ12 σ22
+
m
n
Verteilung von T bei Gültigkeit von H0 :
T ∼ N (0, 1)
Dichte der N(0,1)-Verteilung
α
2
α
2
u α2 = −u1− α2
u1− α2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
|y (n) − x(m) |
|T (x1 , . . . , xm , y1 , . . . , yn )| = r
> u1− α2 ,
σ12 σ22
+
m
n
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Einseitige Fragestellungen
• Nullhypothese H0 : µ1 ≤ µ2 ,
Alternative H1 : µ1 > µ2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
y (n) − x(m)
< uα = −u1−α ,
T (x1 , . . . , xm , y1 , . . . , yn ) = r
σ12 σ22
+
m
n
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
• Nullhypothese H0 : µ1 ≥ µ2 ,
Alternative H1 : µ1 < µ2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
y (n) − x(m)
> u1−α ,
T (x1 , . . . , xm , y1 , . . . , yn ) = r
σ12 σ22
+
m
n
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Zweistichproben–t–Test
σ12 = σ22 = σ 2 , σ 2 unbekannt.
Beachte:
Gleiche unbekannte Varianz σ 2 !
Nullhypothese H0
Alternative
H1

: µ1 = µ2 
: µ1 6= µ2 
Idee: Unbekannte Varianz σ 2 schätzen durch
m
2
1 X
2
S(m) =
Xi − X (m)
m − 1 i=1
bzw.
zweiseitige Fragestellung
Stichprobenvarianz der x–Werte
n
2
S̃(n)
=
2
1 X
Yi − Y (n)
n − 1 i=1
Stichprobenvarianz der y–Werte
Testgröße:
T (X1 , . . . , Xm , Y1 , . . . , Yn ) =
r
Y (n) − X (m)
mn(m + n − 2)
·q
m+n
2
2
(m − 1) · S(m)
+ (n − 1) · S̃(n)
Verteilung von T bei Gültigkeit von H0 :
T ∼ tm+n−2
Dichte der t-Verteilung mit m+n-2 Freiheitsgraden
α
2
α
2
−tm+n−2;1− α2
0
tm+n−2;1− α2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
r
|y (n) − x(m) |
mn(m + n − 2)
·q
|T (x1 , . . . , xm , y1 , . . . , yn )| =
m+n
(m − 1) · s2 + (n − 1) · s̃2
(m)
(n)
> tm+n−2;1− α2 ,
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Einseitige Fragestellungen
• Nullhypothese H0 : µ1 ≤ µ2 ,
Alternative H1 : µ1 > µ2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
T (x1 , . . . , xm , y1 , . . . , yn ) < tm+n−2;α = −tm+n−2;1−α ,
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
• Nullhypothese H0 : µ1 ≥ µ2 ,
Alternative H1 : µ1 < µ2
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
T (x1 , . . . , xm , y1 , . . . , yn ) > tm+n−2;1−α ,
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Problem:
Wie kann die Annahme gleicher Varianzen, die beim Zweistichproben–t–Test getroffen wird, mit einem vorgeschalteten Test überprüft werden ?
F –Verteilung
Es sei X ∼ χ2r sowie Y ∼ χ2s . Ferner seien die Zufallsvariablen X und Y unabhängig. Für die
Zufallsvariable Z gelte:


1
X


P (Z ≤ z) = P  r
≤ z , z ∈ R
1
Y
s
Dann heißt Z F –verteilt mit r und s Freiheitsgraden, kurz:
Z ∼ Fr,s
Dichten von Fr,s –verteilten Zufallsvariablen:
Dichte der F-Verteilung mit r und s Freiheitsgraden
0.9
r = 10 , s = 20
0.8
0.7
r = 6 , s = 12
0.6
0.5
0.4
r=5,s=5
0.3
0.2
0.1
0
0.5
1
1.5
2
2.5
3
Hinweise:
• Es gilt
E(Z) =
V ar(Z) =
s
s−2
für
s≥3
2s2 · (r + s − 2)
r · (s − 2)2 · (s − 4)
für
s≥5
• Der wesentliche Teil der Verteilung liegt in der Nähe von 1, da
1
1
E
X =1
und
E
Y =1
r
s
• Ist Z ∼ Fr,s , so gilt
1
∼ Fs,r
Z
• Für 0 < α < 0.5 sind die (1 − α)–Quantile Fr,s;1−α der F –Verteilung mit r und s Freiheitsgraden in Tabellen gegeben.
• Die Quantile Fr,s;α für 0 < α < 0.5 erhält man aus der Beziehung
Fr,s;α =
1
Fs,r;1−α
Dichte der F-Verteilung mit r und s Freiheitsgraden
6
α
α
-
Fr,s;α
Fr,s;1−α
1
F–Test
µ1 und µ2 sowie σ12 und σ22 unbekannt.
Nullhypothese H0 :
σ12
Alternative
σ12
H1 :
=
σ22
6=
σ22


zweiseitige Fragestellung

Idee:
2
2
Vergleich der Stichprobenvarianzen S(m)
(erwartungstreuer Schätzer für σ12 ) und S̃(n)
(erwartungstreuer Schätzer für σ22 )
Testgröße:
T (X1 , . . . , Xm , Y1 , . . . , Yn ) =
2
S(m)
2
S̃(n)
Verteilung von T bei Gültigkeit von H0 :
T ∼ Fm−1,n−1
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
T (x1 , . . . , xm , y1 , . . . , yn ) =
s2(m)
s̃2(n)
< Fm−1,n−1; α2
oder
T (x1 , . . . , xm , y1 , . . . , yn ) =
s2(m)
s̃2(n)
> Fm−1,n−1;1− α2
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Dichte der F-Verteilung mit m-1 und n-1 Freiheitsgraden
6
α
2
α
2
-
Fm−1,n−1; α2
Fm−1,n−1;1− α2
1
Hinweis:
Falls der F –Test bei zwei Meßreihen zu einer Ablehnung der Nullhypothese H0 :
σ12 = σ22 führt, kann der Zweistichproben–t–Test nicht zur Überprüfung der Nullhypothese H0 : µ1 = µ2 herangezogen werden.
Einseitige Fragestellungen
• Nullhypothese H0 : σ12 ≤ σ22 ,
Alternative H1 : σ12 > σ22
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
T (x1 , . . . , xm , y1 , . . . , yn ) =
s2(m)
s̃2(n)
> Fm−1,n−1;1−α
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
• Nullhypothese H0 : σ12 ≥ σ22 ,
Alternative H1 : σ12 < σ22
Entscheidungsregel: Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet mit
T (x1 , . . . , xm , y1 , . . . , yn ) =
s2(m)
s̃2(n)
< Fm−1,n−1;α
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
3.5
χ2–Anpassungstests
Gegeben: Stichprobe x1 , . . . , xn ; n = Stichprobenumfang ;
Modell:
• Realisierung von unabhängigen Zufallsvariablen X1 , . . . , Xn
• alle Zufallsvariablen identisch wie X verteilt mit der Verteilungsfunktion F
Ziel:
Prüfen einer Annahme über die Verteilung von X (vgl. Kolmogoroff–
Smirnov–Test, Abschnitt 3.1.3)
3.5.1
Prüfen bei endlich vielen Merkmalswerten
Historisches Beispiel
Mendels Erbgesetz
Kreuzungsversuch von weißblühenden mit rotblühenden Pflanzen; r = 3 verschiedene Phänotypen bei den Nachkommen: weiß, rosa, rot;
Nach Mendels Erbgesetz gilt:
Verhältnis
1:2:1
Es sei
p1 = Wahrscheinlichkeit für weiß
p2 = Wahrscheinlichkeit für rosa
p3 = Wahrscheinlichkeit für rot
Nach Mendels Erbgesetz lautet also die Hypothese H0 :
(p1 , p2 , p3 ) = p01 , p02 , p03
mit
p01 =
1
4
,
p02 =
1
2
,
p03 =
Alternative H1 :
(p1 , p2 , p3 ) 6= p01 , p02 , p03
1
4
Daten: n = 112 Kreuzungen;
Phänotyp weiß“ : n1 = 22 mal
”
Phänotyp rosa“ : n2 = 53 mal
”
Phänotyp rot“ : n3 = 37 mal
”
Daraus ergibt sich:
Phänotyp
beobachtete
Häufigkeit
nj
Wahrscheinlichkeit
pj
unter H0
erwartete
Häufigkeit
n · p0j
22
0.25
28
53
0.50
56
37
0.25
28
weiß“
”
rosa“
”
rot“
”
Idee:
Die Daten sprechen nicht gegen das Erbgesetz (die Hypothese), falls
nj ≈ n · p0j
Betrachte die χ2 –Abstandsfunktion (Testgröße):
(22 − 28)2 (53 − 56)2 (37 − 28)2
T =
+
+
28
56
28
=
2 · 36 + 9 + 2 · 81
56
=
243
≈ 4.339
56
Frage:
Ist das zu groß“, d. h. soll die Hypothese bei diesem Wert verworfen werden ?
”
Allgemeines Vorgehen
Wertebereich von X: {i1 , i2 , . . . , ir } (r verschiedene Werte insgesamt)
n = Stichprobenumfang (Anzahl der Beobachtungen)
Es sei
pj = P (X = ij ) ,
j = 1, . . . , r
Hypothese:
(p1 , p2 , . . . , pr ) = (p01 , p02 , . . . , p0r )
|
{z
}
vorgegebene
Werte
mit
r
X
p0j = 1
j=1
Alternative:
(p1 , p2 , . . . , pr ) 6= (p01 , p02 , . . . , p0r )
Testgröße: Es sei Nj die zufällige Anzahl des Auftretens von ij innerhalb der Stichprobe, j =
1, . . . , r. Es gilt
r
X
Nj = n
j=1
χ2 –Abstandsfunktion:
r
X
Nj − n · p0j
T (N1 , N2 , . . . , Nr ) =
n · p0j
j=1
2
=
r
X
Nj 2
n · p0j
j=1
!
−n
Verteilung von T bei Gültigkeit der Nullhypothese H0 : Die exakte Verteilung von T ist schwierig
zu bestimmen. Es gilt näherungsweise:
T ∼ χ2r−1
Anmerkung: Die Näherung ist nach einer vielfach zitierten Faustregel als gut zu bezeichnen,
falls n · p0j ≥ 5 für j = 1, . . . , r gilt.
Es sei α ∈ (0, 1) das vorgegebene Signifikanzniveau des Tests.
Entscheidungsregel: Große“ Werte von T sprechen gegen die Hypothese.
”
Dichte der Chi-Quadrat-Verteilung mit r − 1 Freiheitsgraden
6
α
χ2r−1;1−α
-
Also: Wird eine Stichprobe x1 , . . . , xn beobachtet mit
!
2
r
r
X
X
nj − n · p0j
nj 2
=
− n > χ2r−1;1−α ,
T (n1 , n2 , . . . , nr ) =
0
0
n
·
p
n
·
p
j
j
j=1
j=1
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Historisches Beispiel
Mendels Erbgesetz
Für r = 3 und α = 5% ergibt sich:
χ23−1;1−0.05 = χ22;0.95 = 5.991
Wegen
T = 4.339 < 5.991
wird gegen H0 nichts eingewendet, d. h. die Beobachtungen stehen nicht im Widerspruch zu
dem Erbgesetz.
3.5.2
Prüfen auf eine bestimmte Verteilung
Hypothese:
F = F0
(F0 vorgegeben)
Alternative:
F 6= F0
Es sei
R = I1 ∪ I2 ∪ . . . ∪ Ir
eine Zerlegung des Wertebereichs von X in r disjunkte Teilintervalle und Halbachsen und
pj = P (X ∈ Ij ) ,
....
..
....
...
..
....
..
....
...
..
I1
I2
q
j = 1, . . . , r
q
....
..
....
...
..
q
I3
....
..
....
...
..
...........
......
Ir−1
R
Ir
Hypothese:
(p1 , p2 , . . . , pr ) = (p01 , p02 , . . . , p0r )
wobei
p0j =
...
....
.. ...
P0 (X ∈ Ij )
| {z }
Berechnung unter
Zugrundelegung von F0
,
j = 1, . . . , r
F0 (x)
1 ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ...........................................................................................................................................................................................................
...
.................
..............
............
.........
.
.
.
.
.
.
.....
.....
.....
.....
.....
.
.
.
.
.....
....
.....
.......................
.....
....
..................
.
.
.
..................
....
....
..................
....
..................
.....
....
..................
.
.
.
.
..................
....
....
....
.......................
....
....
..................
....
.
.
.
....
.....
.....
.....
.....
.
.
.
....
......
......
......
.......
.
.
.
.
.
.
.......
.......
........
........
.........
.
.
.
.
.
.
.
.
.
.
.................................
F0
p0j
I1
Ij
...........
......
Ir
Alternative:
(p1 , p2 , . . . , pr ) 6= (p01 , p02 , . . . , p0r )
Es gilt:
r
X
j=1
p0j = 1
x
jetzt:
Nj = Anzahl Meßwerte in Ij
,
j = 1, . . . , r
Testgröße T, Verteilung von T bei Gültigkeit von H0 sowie Entscheidungsregel wie im vorangegangenen Abschnitt.
Beispiel
1000 Zufallszahlen zwischen 0 und 1 aus einem Taschenrechner.
Hypothese: Gleichverteilung im Intervall [0,1], d. h. die Verteilungsfunktion F0 ist gegeben
durch folgende Dichte f0 (vgl. Abschnitt 2.3.4):
......
... ..
f0 (x)
1
.
.
.
.
.
.
.
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0.5
1
Daten:
j
Ij
nj
1
(−∞, 0.1]
68
2
(0.1, 0.2]
116
3
(0.2, 0.3]
101
4
(0.3, 0.4]
107
5
(0.4, 0.5]
92
6
(0.5, 0.6]
100
7
(0.6, 0.7]
136
8
(0.7, 0.8]
101
9
(0.8, 0.9]
79
10
(0.9, ∞]
100
1000
..........
......
x
Berechnung der Testgröße T :
(nj − n · p0j )2
n · p0j
p0j
n · p0j
0.1
100
10.24
0.1
100
2.56
0.1
100
0.01
0.1
100
0.49
0.1
100
0.64
0.1
100
0.00
0.1
100
12.96
0.1
100
0.01
0.1
100
4.41
0.1
100
0.00
1.0
1000
31.32
Entscheidung: Für r = 10 und α = 5% erhält man
χ29;0.95 = 16.919
Wegen
T = 31.32 > 16.919
ist die Nullhypothese daher zu verwerfen.
3.6
3.6.1
Verteilungsunabhängige Tests
Zweistichprobentest von Wilcoxon–Mann–Whitney
Bezeichnungen: U–Test von Mann–Whitney“
”
Wilcoxon Rangsummentest“
”
2 Meßreihen
x 1 , x2 , . . . , x m
und
y 1 , y2 , . . . , y n
Frage:
So
oder
so ?
x 1 , x2 , . . . , x m
x 1 , x2 , . . . , x m
y 1 , y2 , . . . , y n
y 1 , y2 , . . . , y n
Modell (Verteilungsannahmen):
Stichprobe x1 , . . . , xm ;
Realisierung von Zufallsvariablen X1 , . . . , Xm ;
alle Zufallsvariablen Xi identisch verteilt mit stetiger Verteilungsfunktion F
Stichprobe y1 , . . . , yn ;
Realisierung von Zufallsvariablen Y1 , . . . , Yn ;
alle Zufallsvariablen Yj identisch verteilt mit stetiger Verteilungsfunktion G
alle Zufallsvariablen X1 , . . . , Xm , Y1 , . . . , Yn unabhängig
Nullhypothese H0 :
F =G
......
... ..
..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... .....
........................................................................................
........................
................
.............
...........
.
.
.
.
.
.
.
......
......
.....
.....
.....
.
.
.
.
.....
....
.....
....
...
.
...
...
...
..
.
...
...
...
..
.
..
..
...
..
..
.
...
...
...
....
.
.
...
....
.....
....
....
.
.
.
.
...
.....
.....
.....
.....
.
.
.
.
.
.....
......
.......
...........
............................................................................................................
...........
......
1
F=G
Alternative H1 :
F <G
.
.....
... ...
..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ........................................ ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ............................................ ..... ..... ..... ..... .....
................
...............
...........................
............................
..........
..........
.....
.....
....
....
....
....
.
.
.
.
.
.
.
.
...
...
...
...
...
...
..
..
.
.
..
..
..
..
..
..
...
...
..
..
.
.
..
..
..
..
..
..
...
...
..
..
.
.
...
...
...
...
...
...
..
..
.
.
...
...
...
...
...
...
..
..
.
.
...
...
...
...
...
...
..
..
.
.
.
.
...
...
...
...
..
..
..
..
.
.
.
.
.
.
...
...
..
..
..
..
...
...
.
.
.
.
.
.
.
.
....
....
....
....
.....
.....
.....
.....
................................
...............................
...........
......
......................................................
.....................................................
......................................................
.....................................................
...........................
...........................
1
G
y-Werte
F
<
x-Werte
oder
F >G
.
.....
... ...
..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ....................................... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ..... ............................................. ..... ..... ..... ..... .....
................
................
..................................
..................................
......
......
.....
.....
....
....
.
.
.
.
.
.
.
.
....
....
...
...
...
...
..
..
.
.
.
..
...
..
..
..
..
..
..
..
..
.
.
...
...
...
...
..
..
...
...
.
.
...
...
...
...
...
...
..
..
.
.
...
...
...
...
...
...
..
..
.
.
...
...
...
...
...
...
..
..
.
.
...
...
...
...
...
...
...
...
.
.
...
...
...
...
...
...
...
...
.
.
.
.
.
.
....
....
.....
.....
.....
.....
.....
.....
...............................
...............................
...........
......
......................................................
.....................................................
......................................................
.....................................................
...........................
...........................
1
F
G
x-Werte
<
y-Werte
Idee: Vergleiche jeden y–Wert mit jedem x–Wert und zähle die Anzahl Inversionen y vor x“
”
Testgröße: Es sei

 1
Zij =
 0
falls Yj < Xi
Inversion“
”
i = 1, 2, . . . , m
j = 1, 2, . . . , n
sonst
Damit:
T (X1 , . . . , Xm , Y1 , . . . , Yn ) =
m X
n
X
Zij
i=1 j=1
Verteilung von T unter H0 :
• T ist diskret verteilt mit Werten in {0, 1, 2, . . . , m · n}
• T ist symmetrisch verteilt mit
E(T ) =
m·n
2
• Bestimmung der exakten Verteilung von T unter H0 aufgrund kombinatorischer Überle
gungen (jede der m+n
x–y–Folgen tritt mit gleicher Wahrscheinlichkeit auf !)
m
• Es gilt näherungsweise
T ∼N
m·n 1
,
m · n(m + n + 1)
2
12
Entscheidungsregel: Bei Gültigkeit von H0 sind die x– und y–Werte in der gemeinsamen
Stichprobe gut durchmischt“. Also: Nullhypothese H0 verwerfen, falls T zu klein“ oder T zu
”
”
”
groß“.
Es sei α das Signifikanzniveau des Tests. Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet
mit
r
m·n
1
T (x1 , . . . , xm , y1 , . . . , yn ) <
− u1− α2 ·
m · n(m + n + 1)
2
12
oder
r
m·n
1
m · n(m + n + 1)
T (x1 , . . . , xm , y1 , . . . , yn ) >
+ u1− α2 ·
12
2
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Beispiel: Vergleich zweier Therapien für eine fiebrige Erkrankung;
Therapie
Anzahl
Patienten
1
4
89.75 94.50 98.75 101.50
2
6
89.00 91.00 94.00
Behandlungsdauer bis zur Fieberfreiheit [h]
96.75 99.50 102.25
Frage: Sind beide Therapien gleich wirksam ?
Bilden der gemeinsamen Stichprobe und Ordnen aller Werte:
Wert
Stichprobe
89.00 89.75 91.00 94.00 94.50 96.75 98.75 99.50 101.50 102.25
y
x
y
y
x
y
x
y
Gesamtzahl Inversionen (Wert der Testgröße T ):
T = 1 · 4 + 2 · 3 + 1 · 2 + 1 · 1 = 13
Signifikanzniveau α = 0.05. Man erhält
u1− α2 = u0.975 = 1.96
sowie
m·n
= 12
2
und
1
24 · 11
m · n(m + n + 1) =
= 22
12
12
Entscheidung: Gegen die Hypothese H0 ist nichts einzuwenden, da
√
√
12 − 1.96 · 22 = 2.8 < T < 21.2 = 12 + 1.96 · 22
x
y
3.6.2
Run–Test von Wald und Wolfowitz
Fragestellung: wie Zweistichprobentest von Wilcoxon-Mann-Whitney.
Modell (Verteilungsannahmen):
Stichprobe x1 , . . . , xm ;
Realisierung von Zufallsvariablen X1 , . . . , Xm ;
alle Zufallsvariablen Xi identisch verteilt mit stetiger Verteilungsfunktion F
Stichprobe y1 , . . . , yn ;
Realisierung von Zufallsvariablen Y1 , . . . , Yn ;
alle Zufallsvariablen Yj identisch verteilt mit stetiger Verteilungsfunktion G
alle Zufallsvariablen X1 , . . . , Xm , Y1 , . . . , Yn unabhängig
Nullhypothese H0 :
F =G
Alternative H1 :
F 6= G
Idee: Sortiere die beobachteten Werte x1 , . . . , xm , y1 , . . . , yn der Größe nach, so daß eine Folge
aus m + n Werten entsteht. Zähle die Anzahl der Teilfolgen, die nur aus x–Werten bzw. nur
aus y Werten bestehen.
Beispiel:
xxxyyxyyxxyxxxxyy
wird wie folgt unterteilt:
xxx|yy|x|yy|xx|y|xxxx|yy
Im Beispiel ergeben sich also 8 Teilfolgen, sog. Runs.
Jede Teilfolge in dieser Folge, die nur aus x–Werten besteht und bei der vor dem ersten x–Wert
ein y–Wert (oder gar kein Wert) steht sowie nach dem letzten x–Wert ein y–Wert (oder gar
kein Wert) steht, heißt x–Run. Ein y–Run ist entsprechend erklärt. Die Anzahl der Runs ist
die Summe der Anzahl der x–Runs und der Anzahl der y–Runs.
Testgröße:
T (X1 , . . . , Xm , Y1 , . . . , Yn ) = zufällige Anzahl der Runs
Verteilung von T unter H0 :
• T ist diskret verteilt mit Werten in {2, . . . , 2 · min(m, n) + 1}
• Bestimmung der exakten Verteilung von T unter H0 aufgrund kombinatorischer Überlegungen.
• Es gilt
P (T = 2i) =
und
P (T = 2i + 1) =
m−1
· n−1
i−1
i−1
m+n
m
2·
m−1
i−1
·
n−1
i
m−1
i
+
m+n
m
·
n−1
i−1
für i = 1, 2, . . . min(m, n).
• Es gilt näherungsweise
T ∼ N (µ, σ 2 )
mit
µ=1+
2mn
m+n
und
σ2 =
2mn(2mn − m − n)
(m + n)2 (m + n − 1)
Entscheidungsregel: Bei Gültigkeit von H0 sind die x– und y–Werte in der gemeinsamen Stichprobe gut durchmischt“, d.h. die Folge besitzt viele Runs. Also: Nullhypothese H0 verwerfen,
”
falls T zu klein“
”
Es sei α das Signifikanzniveau des Tests. Wird eine Stichprobe x1 , . . . , xm , y1 , . . . , yn beobachtet
mit
T (x1 , . . . , xm , y1 , . . . , yn ) < rm,n;α
bzw. (nährungsweise)
2mn
T (x1 , . . . , xm , y1 , . . . , yn ) < 1 +
+ uα ·
m+n
s
2mn(2mn − m − n)
(m + n)2 (m + n − 1)
so wird die Nullhypothese H0 verworfen, sonst wird gegen H0 nichts eingewendet.
Beispiel: Vergleich zweier Therapien für eine fiebrige Erkrankung; (s. Zweistichprobentest von
Wilcoxon–Mann–Whitney)
Frage: Sind beide Therapien gleich wirksam ?
Bilden der gemeinsamen Stichprobe und Ordnen aller Werte:
y|x|yy|x|y|x|y|x|y
Wert der Testgröße T (Anzahl der Runs): 9
Signifikanzniveau α = 0.05.
Es ist (m = 4, n = 6)
2
= 0.0095
210
5+3
8
P (T = 3) =
=
= 0.038095
210
210
2·5·3
P (T = 4) =
= 0.14286,
210
P (T = 2) =
2
10
4
=
d.h. P (T ≤ 3) = 0.048 und P (T ≤ 4) = 0.19.
Entscheidung: Gegen die Hypothese H0 ist nichts einzuwenden, da T > 3 (und sogar T > 4).
Herunterladen