Definition 1. X = (X1,...,Xn) heißt Stichprobe vom Umfang n wenn X1

Werbung
Definition 1. X = (X1, . . . , Xn) heißt Stichprobe vom Umfang n wenn
X1, . . . , Xn stochastisch unabhängig und alle identisch so wie eine Zufallsvariable
Y verteilt sind. x = (x1, . . . , xn) heißt Realisierung.
Verteilungsfunktion von Y bis auf deren Parameter θ bekannt. Unbekannten
Parameter werden mittels der Stichprobe geschätzt.
Definition 2. Die Zufallsvariable T = T (X1, . . . , Xn) heißt Schätzfunktion
(Schätzer) und die Realisation t = t(x1, . . . , xn) Schätzwert.
Gütekriterien für eine Folge von Schätzern (Tn)n∈N für θ:
• (asymptotische) Erwartungstreue:
( lim )E(Tn) = θ,
n→∞
b(T, θ) := E(T ) − θ den Bias.
1
• Konsistenz: Tn heißt konsistent, falls
lim P (|Tn − θ| > ²) = 0
n→∞
gilt.
• Effizienz: T ist wirksamster (effektiver) Schätzer für θ, wenn für alle anderen
Schätzer T 0 gilt:
E((T − θ)2) ≤ E((T 0 − θ)2),
d.h. T hat den kleinsten mittleren quadratischen Fehler (MSE). Unter allen
erwartungstreuen Schätzern hat der wirksamste Schätzer die kleinste Varianz.
2
Schätzmethoden
• Die Momentenmethode liefert erwartungstreue und konsistente Schätzer.
• Die Maximum–Likelihood (ML) Methode liefert keinesfalls immer erwartungstreue Schätzer. Existiert jedoch ein effektiver Schätzer, so wird dieser
durch die ML Methode bestimmt.
3
Momente und Quantile
1. Moment um Null:
Z
µ = E(X) :=
Empirische Mittel X =
1
n
P
xdF (x)
Xi ist erwartungstreu für E(Xi) = µ.
X ist konsistent und effektivster linearer Schätzer.
Falls var(Xi) = σ 2, dann var(X) = σ 2/n.
¡
¢
iid
2
2
Xi ∼ N (µ, σ ) impliziert X ∼ N µ, σ /n .
4
2. zentrales Moment:
σ 2 = var(X) := E((X − µ)2).
2
S =
1
n−1
P
(Xi − X)2 ist erwartungstreu und konsistent für σ 2.
iid
Xi ∼ N (µ, σ 2), so sind X und S 2 unabhängig und es gilt
n−1 2
2
S
∼
χ
n−1 ,
σ2
S12
=
1
n
P
sowie
(Xi − X)2 ist wegen E(S12) =
X −µ
√ ∼ tn−1.
S/ n
n−1 2
n σ
Er ist aber effektiver Schätzer für σ 2.
5
nicht erwartungstreu.
k-tes zentrales Moment:
µk = E((X − µ)k ).
I.a. standardisierte Formen verwendet
• Schiefe α3 = µ3/σ 3 mit Schätzer
α̂3 =
1
n
P
(Xi − X)3
,
3
S1
var(α̂3) ≈ 6/n
• Kurtosis (Exzeß, Schwänzigkeit) α4 = µ4/σ 4 − 3 mit Schätzer
α̂4 =
1
n
P
(Xi − X)4
− 3,
S14
6
var(α̂4) ≈ 24/n
Momente einiger ausgewählter Verteilungen.
Verteilung
Normal(0, 1)
Uniform(−1, 1)
DoppelExp(1)
Exponential(1)
χ210
E(X)
0
0
0
1
10
var(X)
1
1/3
2
1
20
7
α3
0
0
0
2
0.894
α4
0
-1.2
3
6
1.2
Geordnete Stichprobe:
Definition 3. Sei g(x1, . . . , xn) = (x(1), . . . , x(n)) mit x(1) ≤ · · · ≤ x(n).
x(.) = (x(1), . . . , x(n)) ist die geordnete Stichprobe zu x = (x1, . . . , xn).
X(.) = (X(1), . . . , X(n)) ist die geordnete Statistik (Ordnungsstatistik) und
X(i) die i-te geordnete Statistik.
Quantile:
Definition 4. xp für (0 < p < 1) mit P (X < xp) ≤ p ≤ P (X ≤ xp) heißt
theoretisches p-tes Quantil von X. Das empirische p-tes Quantil
½
Q(p) =
1
2 (X(np) +
X([np]+1)
X(np+1))
für ganzzahliges np
sonst
ist ein asymptotisch erwartungstreuer und konsistenter Schätzer für xp.
8
1
P(X < xp) ≤ p
P(X ≤ xp) ≥ p
0
P(X ≤ xp) ≥ p
0
0
P(X < xp) ≤ p
xp
F(x|θ)
p
1
F(x|θ)
p
p
1
F(x|θ)
xp
9
xp
xp
Empirische Quantile schätzen die (unbekannten) theoretischen Quantile. Aussagen
über deren Güte liefert der folgende Satz.
Satz 1. Sei X1, . . . , Xn eine Stichprobe für eine stetig verteilte Population mit
Dichte f (x|θ) und Verteilungsfunktion F (x|θ). Für 0 < p < 1 sei xp das p-te
Quantil zu F (x|θ). Ist k = [np] + 1 und f (x) in xp stetig und positiv, so gilt
µ
as
X(k) ∼ N
xp ,
1
p(1 − p)
f 2(xp|θ)
n
¶
.
X(k) ist also asymptotisch erwartungstreuer und konsistenter Schätzer für xp.
10
Beispiel 1. Empirische Median X̃ = Q(0.5) hat also asymptotische Varianz
var(X̃) = 1/(4nf 2(x0.5|θ)).
√
iid
2
2
Falls Xi ∼ N (µ, σ ), folgt f (x0.5|µ, σ ) = 1/ 2πσ 2 und damit
2π σ 2
σ2
var(X̃) ≈
= 1.5708 .
4 n
n
Da var(X) = σ 2/n < var(X̃) = 1.5708σ 2/n, ist X effizienter als X̃.
Die asymptotische relative Effizienz von X gegenüber X̃ ist somit
are(X, X̃) = var(X̃)/var(X) = π/2 = 1.5708 .
Um var(X̃) oder var(X) zu schätzen benötigt man einen Schätzer für σ 2.
• Momentenschätzer hat Nachteil, dass X̃ auf ordinalen Aspekt beruht, S 2 aber
auf einen intervallskalierten.
11
• Daher verwendet man einen auf Quantile beruhenden Schätzer für σ 2. Üblich
ist die Verwendung des Inter-Quartile Range IQR = Q(0.75) − Q(0.25).
iid
Unter Xi ∼ N (µ, σ 2) gilt
iqr = x0.75 − x0.25 = (µ + z0.75σ) − (µ + z0.25σ) = 2z0.75σ
mit zp dem p-ten Quantil der N (0, 1)-Verteilung. Wegen z0.75 = 0.6745 folgt
hierfür σ = iqr/(2 · 0.6745), was den robusten Varianzschätzer
2
IQR
2
σ̂IQR
=
1.3492
motiviert. Dieser liefert schließlich
c X̃) = 1.5708
var(
2
σ̂IQR
n
12
IQR2
= 0.8639
.
n
iid
Gleichverteilung: Xi ∼ U (−a, a), 0 < a. Da E(X) = 0, var(X) = a2/3 folgt
var(X̃) = 4a2/(4n) = a2/n ,
var(X) = a2/(3n) ,
also var(X) < var(X̃).
iid
Doppel-Exponential- (Laplace-)verteilung: Xi ∼ DExp(µ, σ 2) mit Dichte
f (x|µ, σ 2) = 1/(2σ) exp(−|x − µ|/σ),
x, µ ∈ R, σ > 0 .
Da E(X) = µ, var(X) = 2σ 2 folgt
var(X̃) = 4σ 2/(4n) = σ 2/n ,
var(X) = 2σ 2/n ,
also var(X) > var(X̃) mit asymptotisch relativer Effizienz 1/2.
13
Variationskoeffizient
Momenten-Verhältnis von Standardabweichung zu Erwartung, also
θ = σ/µ .
Ist somit ein relatives (dimensionsloses) Streuungsmaß mit Einheit µ.
Empirischer Variationskoeffizient
θ̂ = S/X .
Für eine normalverteilte Stichprobe gilt var(θ̂) = θ2/2n.
Für eine exponentialverteilte Stichprobe mit E(X) = λ und var(X) = λ2 erhält
man θ = λ/λ = 1, d.h. der Variationskoeffizient ist konstant.
Liegt eine √
Stichprobe √
aus einer Poissonverteilung vor mit E(X) = var(X) = λ,
so ist θ = λ/λ = 1/ λ.
14
Konfidenzintervalle
iid
Annahme: X1, . . . , Xn ∼ Fθ .
Gesucht: U = U (X1, . . . , Xn), O = O(X1, . . . , Xn), sodass für das wahre θ gilt
Pθ (U ≤ θ ≤ O) = 1 − α,
α ∈ (0, 1).
Das Intervall [U, O] ist ein Konfidenzintervall (KIV) für θ zum Niveau 1 − α.
Intuitive Bedeutung: KIV ist ein Intervall, das mit Wahrscheinlichkeit 1 − α
(groß) den unbekannten Parameter θ überdeckt.
Aber: Sei (x1, . . . , xn) eine Realisation, dann enthält [u, o] den wahren Parameter
θ oder eben nicht.
Zu sagen, dass θ ∈ [u, o] mit W! 1 − α ist somit unsinnig!
15
Und trotzdem: Sei [Ur , Or ], r = 1, . . . , R, eine Folge iid KIVs für θ zum Niveau
1 − α, dann resultiert mit dem Starken Gesetz der großen Zahlen (SLLN)
R
1X
f.s.
I[Ur ,Or ](θ) → 1 − α.
R r=1
iid
Hierbei gilt für die Indikatoren I[Ur ,Or ](θ) ∼ Bernoulli(1 − α), also
³
´
E I[Ur ,Or ](θ) = 1 − α .
Das heißt ?
16
iid
Konfidenzintervalle bei Normalverteilung: Xi ∼ N (µ, σ 2)
1. Für µ (σ bekannt):
µ
X∼N
P (zα/2
σ2
µ,
n
¶
⇒
X −µ
√ ∼ N (0, 1)
Z :=
σ/ n
¶
µ
σ
σ
≤ Z ≤ z1−α/2) = P X − √ z1−α/2 ≤ µ ≤ X + √ z1−α/2
n
n
= 1 − α.
17
2. Für µ (σ unbekannt):
X −µ
√ ∼ tn−1
T :=
S/ n
P (tn−1;α/2 ≤ T ≤ tn−1;1−α/2) =
µ
¶
S
S
√
√
P X−
tn−1;1−α/2 ≤ µ ≤ X +
tn−1;1−α/2 = 1 − α .
n
n
18
3. Für σ 2 (µ unbekannt):
Y :=
(n − 1) 2
2
S
∼
χ
n−1
σ2
Ã
P (χ2n−1;α/2
≤Y ≤
χ2n−1;1−α/2)
= P
(n − 1)S 2
(n − 1)S 2
2
≤σ ≤ 2
2
χn−1;1−α/2
χn−1;α/2
= 1 − α.
19
!
Für eine beliebige Verteilung F mit E(Xi) = µ und var(Xi) = σ 2 folgt mit ZGWS
X − µ as
√ ∼ N (0, 1) .
σ/ n
KIVs wie zuvor, aber mit asymptotischer Überdeckungwahrscheinlichkeit 1 − α.
20
Nichtparametrische KIVs
iid
X1, . . . , Xn ∼ F , F streng monoton und stetig, somit xp eindeutig.
Ansatz:
P (X(k) < xp < X(`)) = 1 − α
mit k < `. (X(k), X(`)) ein Konfidenzintervall für xp zum Niveau 1 − α. Sei dazu
½
Yi(x) =
0
1
falls Xi > x
falls Xi < x ,
iid
so ist Yi(x) ∼ Binomial(1, F (x)) und T (x) =
21
P
i Yi (x)
∼ Binomial(n, F (x)).
Damit folgt
P (X(k) < xp < X(`)) = P (X(k) < xp, X(`) > xp)
= P (#(Xi < xp) ≥ k, #(Xi < xp) ≤ ` − 1)
= P (k ≤ T (xp) ≤ ` − 1) = 1 − α .
• Exakte Berechnung mittels Binomial-Verteilung, da T (xp) ∼ Binomial(n, p)
• Approximation durch DeMoivre-Laplace:
P (X(k) < xp < X(`)) = P (k ≤ T (xp) ≤ ` − 1)
!
Ã
!
Ã
k − np − 1/2
` − 1 − np + 1/2
p
−Φ p
≈ 1 − α.
≈ Φ
np(1 − p)
np(1 − p)
|
{z
} |
{z
}
1−α/2
22
α/2
• Bei n groß wird Verteilung des Medians durch die Normal approximiert. Dafür
ist
IQR2
c X̃) = 0.8639
var(
.
n
Als alternatives approximatives Konfidenzintervall für den theoretischen Median
resultiert
µ
¶
q
q
c X̃) ≤ x0.5 ≤ X̃ + z1−α/2 var(
c X̃) ≈ 1 − α .
P X̃ − z1−α/2 var(
23
0.0
−0.2
−0.4
CIV(median)
0.2
0.4
0.6
R = 100 , N(0,1): alpha.mc = 0.08
0
20
40
60
repetition
24
80
100
Hypothesentests
Zweck: Aussagen oder Hypothesen über Verteilung einer ZV’en Y anhand der
Stichprobe X1, . . . , Xn zu untermauern.
Ein Hypothesentest beinhaltet:
• Testproblem: Nullhypothese H0 und Alternativhypothese H1.
• Teststatistik: T = T (X1, . . . , Xn).
• Entscheidungsregel: Jeder Realisation von T wird Entscheidung für oder gegen
die vorliegende Hypothese zugeordnet:
(a) Entscheidung für H0, falls T nicht in C realisiert.
(b) Entscheidung für H1, falls T in C realisiert.
C heißt kritischer Bereich.
25
Parametrische Statistik: Hypothesen über Werte eines Parameters θ.
Bezeichne Ω0 die unter H0 zulässigen Parameterwerte und Ω1 die unter H1
zulässigen. Je nach Gestalt dieser Mengen unterscheiden wir
(a) einfache
(b) zusammengesetzte Testprobleme.
Bei univariaten Testproblemen gibt es im wesentlichen
(a) einseitige und
(b) zweiseitige Fragestellungen.
26
Die Entscheidung für H0 oder H1 kann richtig oder falsch sein:
H0
richtig
falsch
Entscheidung
annehmen ablehnen
1−α
α
1−β
β
Ziel: α und 1 − β möglichst klein halten. (Widersprüchliche Forderung!!)
Üblich: α vorgegeben, Annahmebereich bestimmen und Fehler 1 − β berechnen.
1 − β kann groß werden. Da der wahre Wert des Parameters unbekannt, kann
man über Fehler 2. Art keine genaue Auskunft geben. Nur Fehler 1. Art ist unter
Kontrolle und damit nur die damit verbundene Entscheidung: “H0 verwerfen”.
Richtige Entscheidungen:
(a) P (T ∈
/ C|H0 richtig) = 1 − α (durch Niveau bestimmt!!)
(b) P (T ∈ C|H1 richtig) = β (Macht des Tests).
27
f(x|H0)
f(x|H1)
1−β
µ0
α
tc
28
µ1
Parametrische Tests bei Normalverteilung
1. Test auf µ bei σ bekannt (Gaußtest):
H0
H1
µ = µ0
µ 6= µ0
Entscheidung
gegen H0, falls
X < c3 oder X > c4
µ ≤ µ0
µ ≥ µ0
µ > µ0
µ < µ0
X > c1
X < c2
29
kritische Werte
c3
c4
c1
c2
√
= µ0 − z1−α/2 σ/√n
= µ0 + z1−α/2 σ/ n
√
= µ0 + z1−α σ/ n
√
= µ0 − z1−α σ/ n
2. Test auf µ bei σ unbekannt (t–Test):
H0
H1
µ = µ0
µ 6= µ0
Entscheidung
gegen H0, falls
X < c3 oder X > c4
µ ≤ µ0
µ ≥ µ0
µ > µ0
µ < µ0
X > c1
X < c2
2
−1
mit S = (n − 1)
n
P
i=1
(Xi − X)2.
30
kritische Werte
c3
c4
c1
c2
√
= µ0 − tn−1;1−α/2 S/√n
= µ0 + tn−1;1−α/2 S/ n
√
= µ0 + tn−1;1−α S/ n
√
= µ0 − tn−1;1−α S/ n
3. Test auf σ 2 bei µ bekannt (χ2-Test):
H0
H1
σ 2 = σ02
σ 2 6= σ02
Entscheidung
gegen H0, falls
T < c3 oder T > c4
σ 2 ≤ σ02
σ 2 ≥ σ02
σ 2 > σ02
σ 2 < σ02
T > c1
T < c2
mit T =
n
P
i=1
(Xi − µ)2.
31
kritische Werte
c3
c4
c1
c2
= σ02χ2n;α/2
= σ02χ2n;1−α/2
= σ02χ2n;1−α
= σ02χ2n;α
4. Test auf σ 2 bei µ unbekannt (χ2-Test):
H0
H1
σ 2 = σ02
σ 2 6= σ02
Entscheidung
gegen H0, falls
T < c3 oder T > c4
σ 2 ≤ σ02
σ 2 ≥ σ02
σ 2 > σ02
σ 2 < σ02
T > c1
T < c2
mit T =
n
P
i=1
(Xi − X)2.
32
kritische Werte
c3
c4
c1
c2
= σ02χ2n−1;α/2
= σ02χ2n−1;1−α/2
= σ02χ2n−1;1−α
= σ02χ2n−1;α
p-Wert
Für Tests liefern Computerprogramme keine logische Entscheidung sondern den
p-Wert. Dieser ist die anhand der Stichprobe beobachtete Type I Error Rate.
Satz 2. [Probability Integral Transformation] Habe X stetige Verteilungsfunktion FX (x) und sei Y = FX (X). Dann ist Y gleichverteilt auf (0, 1), d.h.
P (Y ≤ y) = y ,
0 < y < 1.
Beweis:
−1
−1
P (Y ≤ y) = P (FX (X) ≤ y) = P (FX
(FX (X)) ≤ FX
(y))
−1
−1
= P (X ≤ FX
(y)) = FX (FX
(y)) = y .
Bemerkung: Ist X diskret, so gilt: P (Y ≤ y) ≤ y, für 0 ≤ y ≤ 1.
33
Definition 5. FX ist stochastisch größer als FY , falls FX (t) ≤ FY (t) für alle t
gilt. Für X ∼ FX und Y ∼ FY folgt P (X ≤ t) = FX (t) ≤ FY (t) = P (Y ≤ t)
und für alle t gilt
P (X > t) ≥ P (Y > t) .
Nach dem Test wird Ergebnis mitgeteilt. Eine Möglichkeit ist es α und damit die
Entscheidung bzgl. H0 zu berichten. Alternativ kann p-Wert übermittelt werden.
Definition 6. Der p-Wert p(X) ist eine Teststatistik mit 0 ≤ p(x) ≤ 1. Kleine
Werte von p(X) weisen auf die Richtigkeit von H1 hin. Ein p-Wert ist gültig, falls
für jedes θ ∈ Θ0 und jedes 0 ≤ α ≤ 1 gilt
Pθ (p(X) ≤ α) ≤ α .
Ist p(X) gültig, kann damit ein Level α Test konstruiert werden. Der Test, der
H0 genau dann verwirft wenn p(X) ≤ α ist ein Level α Test.
Wie kann nun ein gültiger p-Wert definiert werden?
34
Satz 3. Sei W (X) eine Teststatistik. Große Werte von W sprechen gegen H0.
Definiere für einen beliebigen Stichprobenpunkt x
p(x) = sup Pθ (W (X) ≥ W (x)) .
θ∈Θ0
Damit ist p(X) ein gültiger p-Wert.
Beweis: Fixiere ein θ ∈ Θ0. Sei dafür Fθ (w) die cdf von −W (X). Definiere dafür
pθ (x) = Pθ (W (X) ≥ W (x)) = Pθ (−W (X) ≤ −W (x)) = Fθ (−W (x)) .
Für dieses θ entspricht die ZV’e pθ (X) dem Fθ (−W (X)). Mit Satz 2 folgt, dass
die Verteilung von pθ (X) stochastisch größer oder gleich einer Uniform(0, 1) ist.
D.h. für jedes 0 ≤ α ≤ 1 gilt Pθ (pθ (X) ≤ α) ≤ α.
35
Nun ist der p-Wert definiert über alle θ ∈ Θ0, und es gilt dafür für jedes x
p(x) = sup pθ0 (x) ≥ pθ (x) ,
θ 0 ∈Θ0
da der größte p-Wert für alle Elemente in Θ0 zumindest so groß ist als für unseren
Wert θ. Somit gilt auch für jedes θ ∈ Θ0 und jedes 0 ≤ α ≤ 1
Pθ (p(X) ≤ α) ≤ Pθ (pθ (X) ≤ α) ≤ α
und p(X) ist daher ein gültiger p-Wert.
36
Beispiel: Sei X1, . . . , Xn Zufallsstichprobe aus N (µ, σ 2) und teste H0: µ = µ0
gegen H1: µ 6= µ0.
√
LRT verwirft H0 für große Werte von W (X) = |X − µ0|/(S/ n).
√
Für µ = µ0 folgt (X − µ0)/(S/ n) einer tn−1-Verteilung, unabhängig von σ.
Deshalb gilt hierfür
³
√ ´
p(x) = Pθ0 (W (X) ≥ W (x)) = 2P Tn−1 ≥ (x − µ0)/(s/ n) .
37
Tests auf Güte der Anpassung
Zweck: Prüfe ob beobachtetes Merkmal aus bestimmter Verteilung stammt.
Definition 7. Sei X1, . . . , Xn Zufallsstichprobe aus der Verteilungsfunktion F .
1
Fn(x) = (Anzahl der Xi ≤ x) ,
n
−∞ < x < ∞
nennt man die empirische Verteilungsfunktion der Xi, d.h. jedem Xi wird
die Wahrscheinlichkeit 1/n zugeordnet.
38
Eigenschaften von Fn
Als Realisation:
• monoton steigende Treppenfunktion mit Unstetigkeitsstellen in x(1), . . . , x(n).
• ungebundene Beobachtung: Sprung der Höhe 1/n;
Bindung von k Beobachtungen: Höhe des Treppensprungs k/n.
• Für jede Realisation x1, . . . , xn ist Fn(x) eine Verteilungsfunktion.
39
Als Zufallsvariable:
• Für jedes x ist Fn(x) eine Zufallsvariable.
• Fn(x) ist diskret mit den Realisationen i/n, i = 0, . . . , n.
Genauer gilt: Für alle x ∈ R gilt, dass nFn(x) ∼ Binomial(n, F (x)).
• Es gilt der sogenannte Zentralsatz der Statistik (Satz von Glivenko-Cantelli)
iid
Satz 4. Sei X1, . . . , Xn ∼ F dann gilt
f.s.
sup |Fn(x) − F (x)| → 0 ,
x∈R
also die fast sichere gleichmäßige Konvergenz.
40
(n → ∞),
iid
Satz 5. Seien X1, . . . , Xn ∼ F . Dann gilt für jedes feste x ∈ R
µ
¶ µ ¶
n
i
=
F i(x)(1 − F (x))n−i ,
P Fn(x) =
n
i
i = 0, . . . , n .
Es gilt also nFn(x) ∼ Binomial(n, F (x)), und daher E(Fn(x)) = F (x) sowie
var(Fn(x)) = F (x)(1 − F (x))/n.
41
Der Kolmogorov-Smirnov Test (1933)
iid
X1, . . . , Xn ∼ F , stetig jedoch unbekannt.
Testproblem: F = F0, wobei F0 vollständig spezifiziert ist. Alternative: F 6= F0.
Teststatistik: Zentralsatz der Statistik (Glivenko-Cantelli) legt als KS-Statistik
(für die zweiseitige Fragestellung) Kn = supx∈R |Fn(x) − F0(x)| nahe.
Entscheidungsregel: Unter H0 sollte Kn klein sein. Daher wird bei großen
Realisationen H0 abgelehnt.
Bei Verletzung der Voraussetzungen, z.B. F0 diskret, oder nur bis auf die
Parameter vollständig spezifiziert, ist der KS-Test konservativ.
42
Hypothesen
• Test A: H0 : F (x) = F0(x) ∀x ∈ R,
H1 : ∃x ∈ R : F (x) 6= F0(x)
• Test B: H0 : F (x) ≤ F0(x) ∀x ∈ R,
H1 : ∃x ∈ R : F (x) > F0(x)
• Test C: H0 : F (x) ≥ F0(x) ∀x ∈ R,
H1 : ∃x ∈ R : F (x) < F0(x)
KS-Teststatistiken
• Test A: Kn = supx∈R |F0(x) − Fn(x)|
• Test B: Kn− = supx∈R(Fn(x) − F0(x))
• Test C: Kn+ = supx∈R(F0(x) − Fn(x))
43
Entscheidungsregel: H0 wird abgelehnt, wenn
• Test A: kn ≥ kn;1−α; P (Kn ≥ kn;1−α) = α
−
−
; P (Kn− ≥ kn;1−α
)=α
• Test B: kn− ≥ kn;1−α
+
+
• Test C: kn+ ≥ kn;1−α
; P (Kn+ ≥ kn;1−α
)=α
44
Begriff: Verteilungsfreiheit
Lemma 1. Unter der Annahme der Stetigkeit von F0 sind Kn, Kn+ und Kn−
unter H0 verteilungsfrei, d.h. unabhängig vom konkreten F0.
Beweis: Betrachte streng monotones F0, dann gilt
³
´
F0−1(y) = y ,
∃ F0−1 mit F0
³
´
P F0(X) ≤ u = u ,
y ∈ (0, 1)
(1)
d.h. F0(X) ∼ U (0, 1) .
(2)
Damit folgt unter H0
Kn
¯ ³
´
³
´¯
¯
¯
= sup |F0(x) − Fn(x)| = sup ¯F0 F0−1(y) − Fn F0−1(y) ¯
(1)
x∈R
y∈(0,1)
¯
¯
¯
¯
n
n
¯
¯
¯
¯
1X
1X
¯
¯
¯
¯
I(−∞,F −1(y)](Xi)¯ = sup ¯y −
I(0,y](F0(Xi))¯
=
sup ¯y −
0
¯ y∈(0,1) ¯
¯
n
n
y∈(0,1) ¯
i=1
i=1
45
Satz 6. Ist F0 stetig, so gilt für alle z > 0
µ
¶
∞
X
z
k−1 −2k2 z 2
(1)
lim P Kn ≤ √
= L(z) = 1 − 2
(−1) e
,
n→∞
n
k=1
¶
µ
z
+
−2z 2
+
√
= L (z) = 1 − e
.
(2)
lim P Kn ≤
n→∞
n
Aus Punkt (2) folgt
µ
lim P
n→∞
z
+
Kn ≤ √
n
¶
µ
= lim P
n→∞
4nKn+2
z2
≤ 4n
n
¶
=1−e
Mit Vn = 4nKn+2 und v = 4z 2 folgt weiters
lim P (Vn ≤ v) = 1 − e−v/2 = Fχ2 (v) .
n→∞
2
46
−2z 2
.
Daher ist Vn = 4nKn+2 asymptotisch χ22-verteilt. Also resultiert asymptotisch
P
¡
Kn+
≤
+
kn;α
¢
¡
= α ≈ P Vn ≤
d.h.
+2
4nkn;α
¢
¡
= P Vn ≤
χ22;α
¢
s
+
kn;α
≈
Für 1 − α = 0.95 gilt χ22;0.95 = 5.99, also
χ22;α
.
4n
+
kn;0.95
q
√
2
≈ χ2;0.95/4n = 1.22/ n.
Quantile kn;α sind für n ≤ 40 exakt tabelliert. Für n > 40 kann auf Quantile der
asymptotischen Verteilung zurückgegriffen werden.
Beispiel: Bezinverbrauch ∼ N (12, 1). Stichprobe vom Umfang n = 10.
Testproblem: H0 : F (x) = Φ(x|12, 1) gegen H1 : F (x) 6= Φ(x|12, 1).
Entscheidung zum Niveau α = 0.05.
47
Daten:
i
1
2
3
4
5
6
7
8
9
10
x(i)
11.5
11.8
12.0
12.4
12.5
12.6
12.8
12.9
13.0
13.2
Φ(x(i))
0.309
0.421
0.500
0.655
0.691
0.726
0.788
0.816
0.841
0.885
Fn+
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
48
Fn−
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
d+
n
0.209
0.221
0.200
0.255
0.191
0.126
0.088
0.016
0.059
0.115
d−
n
0.309
0.321
0.300
0.355
0.291
0.226
0.188
0.116
0.041
0.015
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(milage)
10
11
12
13
x
49
14
15
Folgerung: In x(4) = 12.4 realisiert Kn in k10 = 0.355. Wegen k10;0.95 = 0.409
kann H0 nicht abgelehnt werden.
> milage <- c(11.5,11.8,12.0,12.4,12.5,12.6,12.8,12.9,13.0,13.2)
> ks.test(milage, "pnorm", 12, 1)
One-sample Kolmogorov-Smirnov test
data: milage
D = 0.3554, p-value = 0.1598
alternative hypothesis: two.sided
50
Der χ2-Test, Pearson 1900
Anpassungstest der auf Häufigkeiten basiert. Daten daher beliebig skaliert.
Prinzip: Beobachtungen x1, . . . , xn in k disjunkte Klassen einteilen. Teststatistik
erfasst Abweichungen der beobachteten Häufigkeiten nj von den theoretischen
Häufigkeiten npj unter H0.
Klasse
Anzahl d. Beobachtungen
1
n1
2
n2
Testproblem A: Falls F0 vollständig spezifiziert
Teste H0 : F (x) = F0(x) gegen H1 : F (x) 6= F0(x),
51
...
...
k
nk
Teststatistik:
Tχ2 =
k
X
(Nj − npj )2
j=1
npj
as
∼ χ2k−1.
Entscheidungsregel: H0 kann abgelehnt werden, falls tχ2 ≥ χ2k−1;1−α.
Beispiel: Würfel 120 mal werfen. Teste Hypothese Würfel ist fair (k = 6
Klassen)
H0 : pj = 1/6 ,
j = 1, . . . , 6 ;
52
H1 : pj 6= 1/6 .
Daten
Klasse
nj
npj
(nj − npj )2
npj
1
20
20
2
30
20
3
20
20
4
25
20
5
15
20
6
10
20
Summe
120
120
0
5
0
5/4
5/4
5
12.5
Folgerung: Für α = 0.01 ist χ25,0.99 = 15.08 > tχ2 der Würfel als fair zu werten.
Bei α = 0.05 wegen χ25,0.95 = 11.07 < tχ2 jedoch als unfair.
> dice <- c(20, 30, 20, 25, 15, 10)
> chisq.test(dice, p = rep(1/6, 6))
Chi-squared test for given probabilities
data: dice
X-squared = 12.5, df = 5, p-value = 0.02854
53
Testproblem B: Unbekannte Parameter θ1, . . . , θr in F0, modifizierter χ2-Test:
H0 : F (x) = F0(x|θ1, . . . , θr ) gegen H1 : F (x) 6= F0(x|θ1, . . . , θr ).
Teststatistik:
³
Tχm2 =
´2
k
Nj − npj (θ̂1, . . . , θ̂r )
X
npj (θ̂1, . . . , θ̂r )
j=1
as
∼ χ2k−r−1 ,
falls θ1, . . . , θr nach der ML-Methode bzgl. gruppierter Daten geschätzt wurden,
d.h.
max
θ1 ,...,θr
k
Y
pj (θ1, . . . , θr )nj ,
j=1
oder nach der Minimum-χ2 Methode, bei der θ̂1, . . . , θ̂r so bestimmt werden, dass
Tχm2 minimal.
54
Frage nach der Klasseneinteilung:
Für welches n und für welche pj ist die Approximation der Verteilung von Tχ2
durch die χ2-Verteilung gerechtfertigt?
Faustregel: npj ≥ 5.
> breaks <- c(-Inf, seq(-2, 2), +Inf); breaks
[1] -Inf
-2
-1
0
1
2
Inf
> p0 <- 2:length(breaks) # init
> mean <- 0; sd <- 1
> for (k in 2:length(breaks))
p0[k-1] <- pnorm(breaks[k], mean, sd) - pnorm(breaks[k-1], mean, sd)
> p0
[1] 0.02275 0.13591 0.34134 0.34134 0.13591 0.02275
> 5/p0[1]
[1] 219.7789
> x <- rnorm(250, mean=0.3, sd=1)
55
> n <- table(cut(x, b=breaks));
(-Inf,-2]
(-2,-1]
(-1,0]
5
20
82
n
(0,1]
89
(1,2]
48
(2,Inf]
6
> (n-p0*250)^2/(p0*250)
(-Inf,-2]
(-2,-1]
(-1,0]
(0,1]
(1,2]
(2,Inf]
0.08311189 5.74919955 0.13042697 0.15730172 5.78829424 0.01716661
> chisq.test(n, p=p0)
Chi-squared test for given probabilities
data: n
X-squared = 11.9255, df = 5, p-value = 0.03582
> plot(seq(-3,3,0.05), dnorm(seq(-3,3,0.05)), xlab="x", ylab="N(0,1) Dichte")
> e <- round(p0*250)
> for (k in 2:length(breaks)) {
text(-4.7+k, 0, n[k-1])
text(-4.3+k, 0, e[k-1]) }
56
0.4
0.3
N(0,1) Dichte
0.2
0.1
0.0
5
−3
6
20 34
−2
82 85
−1
89 85
0
x
57
48 34
1
6
2
6
3
Vergleich KS-Test mit χ2-Test
• KS-Test ist exakt für kleine n ≤ 40. Der χ2-Test ist ein approximativer Test.
• χ2-Test: Klasseneinteilung ⇒ Informationsverlust.
• Der KS-Test basiert auf Annahme einer stetigen Verteilung, der χ2-Test nicht.
• Bei Schätzung der Parameter in F0(x) hat K̂n (Schätzer für die Parameter
substituiert) nicht dieselbe Verteilung wie Kn; Fehler ist nicht unter Kontrolle.
Beim χ2-Test verringert sich in diesem Fall die Anzahl der Freiheitsgrade um
die Anzahl der geschätzten Parameter.
• χ2-Test nur zweiseitig anwendbar, KS-Test auch einseitig.
58
Shapiro-Wilk Test
Erkennt Abweichungen von der Normalverteilung:
H0 : Xi ∼ N (µ, σ 2) gegen H1 : Xi 6∼ N (µ, σ 2)
KS-Test und auch χ2-Test dafür nicht geeignet. Die Shapiro-Wilk W Statistik
vergleicht 2 Schätzungen für die Varianz unter Normalverteilung
£Pn
W = Pn
i=1 ai X(i)
i=1 (Xi
−
¤2
X)2
.
Zähler ist proportional dem Quadrat des besten (minimale Varianz, unbiased)
linearen Schätzers für die Standardabweichung. Nenner ist die Quadratsumme
der Abweichungen der Beobachtungen vom Mittel. Die Koeffizienten ai werden
approximiert.
59
Beispiel: Benzinverbrauch: µ = 12 und σ 2 = 1 verwendet, jedoch
> mean(milage)
[1] 12.47
> var(milage)
[1] 0.3045556
> shapiro.test(milage)
Shapiro-Wilk normality test
data: milage
W = 0.9529, p-value = 0.7026
KS-Test lieferte p-Wert von 0.16. KS-Test mit geschätzter Hypothese liefert
> ks.test(milage, "pnorm", mean(milage), sd(milage))
One-sample Kolmogorov-Smirnov test
data: milage
D = 0.1495, p-value = 0.9787
alternative hypothesis: two.sided
60
Binomial-Test: Für k = 2 Klassen.
Aufteilung der X1, . . . , Xn in zwei Klassen K1, K2.
Sei P (Xi ∈ K1) = p (für alle i gleich, da Xi identisch verteilt).
Testproblem: H0 : p = p0 gegen H1 : p 6= p0
H
Teststatistik: T = Anzahl (Xi ∈ K1) ∼0 Binomial(n, p0).
Testprozedur: Da T diskret gibt es für bel. α kein tα mit P (T ≤ tα) = α exakt.
Deshalb Ungleichungen der Form P (T ≤ tα) ≤ α verwenden.
Seien t1−α1 = mint {t|P (T ≥ t) ≤ α1}, und tα2 = maxt {t|P (T ≤ t) ≤ α2} mit
α1 + α2 = α.
H0 ablehnen, falls t ≥ t1−α1 oder t ≤ tα2
61
Beispiel: Es wird behauptet, dass Maschine maximal 5% defekte Geräte produziert. In Stichprobe (n = 20) sind 3 defekte Stücke. Kann damit die Behauptung
widerlegt werden (α = 0.10)?
Teste H0 : p ≤ 0.05 gegen H1 : p > 0.05
Bestimme kritisches Quantil t1−α ∈ {0, 1, . . . , n} wofür gilt
max Pp(T ≥ t1−α) = P0.05(T ≥ t1−α) ≤ α .
p≤0.05
> n <- 20; p <- 0.05; 1 - pbinom(seq(0, n), n, p)
[1] 6.415141e-01 2.641605e-01 7.548367e-02 1.590153e-02 ...
P (T ≥ 2) = 1 − P (T ≤ 1) = 0.2642 > α
P (T ≥ 3) = 1 − P (T ≤ 2) = 0.0755 < α
somit t1−α = 3. Folgerung: Lehne H0 auf exaktem Niveau α∗ = 0.0755 ab.
62
> binom.test(x=3, n=20, p=0.05, alternative="greater")
Exact binomial test
data: 3 and 20
number of successes = 3, number of trials = 20, p-value = 0.07548
alternative hypothesis: true probability of success is greater than 0.05
95 percent confidence interval:
0.04216941 1.00000000
sample estimates:
probability of success
0.15
> binom.test(x=3, n=20, p=0.05, alt="greater", conf.level=0.90)$conf.int
[1] 0.0564179 1.0000000
attr(,"conf.level")
[1] 0.9
63
Normalverteilungsapproximation
Für n groß verwende DeMoivre-Laplace. Für T ∼ Binomial(n, p) gilt approximativ
Ã
P (t1−α ≤ T ) ≈ 1 − Φ
t1−α − np − 1/2
p
np(1 − p)
Approximation umso besser, je näher p bei 1/2 liegt.
64
!
= α.
Tests für Quantile
Teste nichtparametrisch mit Vorzeichentest auf ein beliebiges Quantil und mit
Wilcoxon Vorzeichen-Rangtest auf den Median.
Die Wilcoxon-Statistik verwendet Ränge der Stichprobenvariablen.
Definition 8. Seien X1, . . . , Xn ∼ F stetig. Der Rang Ri = R(Xi) gibt die
Anzahl aller Xj an die Xi nicht übertreffen
R(Xi) = ](Xj ≤ Xi) ,
j = 1, . . . , n .
R(Xi) ist diskretverteilt mit den Realisationen 1, 2, . . . , n.
Beispiel: Zu (8, 4, 2, 6, 10) gehören die Ränge (4, 2, 1, 3, 5).
65
• Da F stetig gilt P (Xi = Xj ) = 0 für i 6= j. Bindungen treten mit W! 0 auf.
• R(Xi) legt die Position von Xi in der geordneten Statistik fest. Der Index j
von X(j) ist der Rang von Xi, das diesem X(j) entspricht.
> d <- rnorm(10); d
[1] 0.1699 -1.0629 0.4213 -1.0949 -2.1660 -0.0686 0.6761 1.3970 0.7524 0.6316
> rank(d)
[1] 5 3
6
2
1
4
> order(d)
[1] 5 4
2
6
1
3 10
8 10
7
9
7
9
8
> d[order(d)]
[1] -2.1660 -1.0949 -1.0629 -0.0686 0.1699 0.4213 0.6316 0.6761 0.7524 1.3970
> sort(d)
[1] -2.1660 -1.0949 -1.0629 -0.0686 0.1699 0.4213 0.6316 0.6761 0.7524 1.3970
66
Satz 7. Seien X1, . . . , Xn ∼ F stetig. Dann gilt:
1. P (R1 = r1, . . . , Rn = rn) = 1/n!,
wobei r1, . . . , rn eine Permutation der Zahlen 1, . . . , n ist
2. P (Ri = ri) = 1/n, für i = 1, . . . , n
3. P (Ri = ri, Rj = rj ) = 1/(n(n − 1)), für i 6= j
4. E(Ri) = (n + 1)/2
5. var(Ri) = (n2 − 1)/12
6. cov(Ri, Rj ) = −(n + 1)/12
7. cor(Ri, Rj ) = −1/(n − 1)
67
Dieser Satz zeigt:
• Die Verteilungseigenschaften der Ränge sind unabhängig von der Verteilung der
Grundgesamtheit F .
• Mit zunehmendem n streuen die Ränge mehr während die Korrelationen
abnehmen.
68
Vorzeichen-Test – Sign test
Test auf Quantile xγ mit F (xγ ) = γ, 0 < γ < 1, F stetig.
• Test A: H0 : xγ = x0;
• Test B: H0 : xγ ≤ x0;
• Test C: H0 : xγ ≥ x0;
H1 : xγ =
6 x0
H1 : xγ > x0
H1 : xγ < x0
Teststatistik
D=
n
X
½
h(x0 − Xi) ,
mit h(z) =
i=1
1
0
für z > 0
für z < 0
Somit
P (h(x0 − Xi) = 1) = P (Xi < x0) = P (Xi ≤ x0) = F (x0) = γ
H
also D ∼0 Binomial(n, γ).
69
Beispiel: Körpergröße von n = 15 Personen. Unterscheidet sich der Median
signifikant (α = 0.05) von 180cm?
xi
180 − xi
179
1
177
3
178
2
174
6
170
10
185
−5
175
5
179
1
176
4
169
11
186
−6
189
−9
168
12
170
10
174
6
Test A: H0 : x.50 = 180 gegen H1 : x.50 6= 180
n = 15, γ = 0.5 und d = 12 beobachtet.
P (D ≥ 12) = P (D ≤ 3) = 0.0176 < α/2,
P (D ≥ 11) = P (D ≤ 4) = 0.0592 > α/2.
d = 12 ≥ d0.975 = 12 ⇒ H0 auf exaktem Niveau α = 2 ∗ 0.0176 abzulehnen.
70
Wilcoxon Vorzeichen-Rangtest
Annahmen: Stetigkeit und Symmetrie der Verteilungsfunktion F um x̃.
Testproblem:
• Test A: H0 : x̃ = x̃0;
• Test B: H0 : x̃ ≤ x̃0;
• Test C: H0 : x̃ ≥ x̃0;
H1 : x̃ 6= x̃0
H1 : x̃ > x̃0
H1 : x̃ < x̃0
Teststatistik: Vorzeichen der Differenzen Di = Xi − x̃0 und Ränge der |Di|.
Wegen Stetigkeit von F gilt: P (Di = 0) = 0 und P (|Dk | = |Dl|) = 0,
W+ =
n
X
i=1
ZiR(|Di|) ,
W−
k 6= l .
½
n
X
1 für Di > 0
=
(1−Zi)R(|Di|) mit Zi =
0 für Di < 0
i=1
71
Umformung: Indextransformation liefert
W+ =
n
X
½
iZ(i) ,
mit Z(i) =
i=1
1 für Dj > 0
0 für Dj < 0
i = r(|Dj |)
W + (W −): Summe der Ränge der positiven (negativen) Di.
Beachte: Wegen W + + W − = n(n + 1)/2 genügt es (z.B.) W + zu betrachten.
Verteilung von W + unter H0: Wegen der Symmetrie von F um x̃0 gilt:
P ((Xj − x̃0) > 0) = P ((Xj − x̃0) < 0) = 1/2 .
| {z }
| {z }
Dj
Dj
Somit
P (Z(i) = 1) = P (Z(i) = 0) = 1/2 =⇒ E(Z(i)) = 1/2 ,
72
var(Z(i)) = 1/4 .
Also
E(W +) = E
à n
X
!
iZ(i)
i=1
n
X
n
1X
n(n + 1)
=
iE(Z(i)) =
i=
.
2 i=1
4
i=1
Z(i) unabhängig liefert
Ã
var(W +) = var
n
X
i=1
!
iZ(i)
n
X
n
1 X 2 n(n + 1)(2n + 1)
2
i =
.
=
i var(Z(i)) =
4 i=1
24
i=1
Realisationsbereich: 0 ≤ w+ ≤ n(n + 1)/2
Stichprobenraum Ω: Menge aller Tupel (z(1), . . . , z(n)):
Ω = {(0, 0, . . . , 0), (1, 0, . . . , 0), . . . , (1, 1, . . . , 1)}
73
mit |Ω| = 2n. Unter H0 hat jedes Tupel Auftritts-W! 1/2n (Laplace Raum!)
Definiere die Anzahl a(w) durch
P (W + = w) =
1
2n
Ã
#Tupel mit
n
X
!
iz(i) = w
i=1
=
a(w)
.
n
2
Bestimmung von a(w) ist aufwendig, aber prinzipiell leicht (also schwierig).
Aber: wegen P (W + = w) = P (W − = w) und W + + W − = n(n + 1)/2 gilt
³
´
³
P (W + = w) = P W − = n(n + 1)/2 − w = P W + = n(n + 1)/2 − w
Also ist W + unter H0 symmetrisch um E(W +) = n(n + 1)/4 verteilt.
74
´
Beispiel: a(w) für n = 5:
w
15
14
13
12
11
10
9
8
Rangtupel positiver Di
(1,2,3,4,5)
(2,3,4,5)
(1,3,4,5)
(3,4,5); (1,2,4,5)
(2,4,5); (1,2,3,5)
(1,4,5); (2,3,5); (1,2,3,4)
(4,5); (2,3,4); (1,3,5)
(3,5); (1,3,4); (1,2,5)
a(w)
1
1
1
2
2
3
3
3
P (W + = w)
1/32
1/32
1/32
2/32
2/32
3/32
3/32
3/32
z.B.: P (W + ≥ 13) = 3/32 ≈ 0.094
Symmetrie: P (W + = 15) = P (W + = 0) oder P (W + = 8) = P (W + = 7).
Quantile wα von W + im Anhang.
75
Entscheidungsregel:
Verwerfe H0 falls
• Test A: w+ ≥ w1−α/2 oder w+ ≤ wα/2
• Test B: w+ ≥ w1−α
• Test C: w+ ≤ wα.
p
Für n > 20 sei Z = (W − E(W ))/ var(W +) ∼ N (0, 1) und verwerfe H0 falls
+
+
• Test A: |z| ≥ z1−α/2
• Test B: z ≥ z1−α
• Test C: z ≤ zα
76
Beispiel: Kann H0 : x̃ = 5 auf Niveau α = 0.05 abgelehnt werden?
i
xi
d i = xi − 5
r(|di|)
zi
z(i)
1
3.5
−1.5
3
0
0
2
4.5
−0.5
1
0
0
3
4.0
−1.0
2
0
0
4
0.5
−4.5
8
0
1
5
2.5
−2.5
5
0
0
6
7.0
2.0
4
1
1
7
8.5
3.5
7
1
1
8
8.0
3.0
6
1
0
Teststatistik:
w+ =
n
X
zir(|di|) = 17 ,
n
X
w− =
(1 − zi)r(|di|) = 19
i=1
i=1
+
+
Folgerung: Laut Tabelle F gilt w0.025
= 3 und w0.975
= 33. Wegen 3 < 17 < 33
wird H0 nicht abgelehnt.
77
> x <- c(3.5, 4.5, 4.0, 0.5, 2.5, 7.0, 8.5, 8.0)
> wilcox.test(x, mu = 5)
Wilcoxon signed rank test
data: x
V = 17, p-value = 0.9453
alternative hypothesis: true mu is not equal to 5
Für Körpergrößen ergibt Wilcoxon-Test auf H0 : x̃ = 180 gegen H0 : x̃ 6= 180:
> wilcox.test(height, mu = 180)
Wilcoxon signed rank test with continuity correction
data: height
V = 26.5, p-value = 0.06053
alternative hypothesis: true mu is not equal to 180
Warning message: Cannot compute exact p-value with ties in:
wilcox.test.default(height, mu = 180)
> sort(abs(height-180))
[1] 1 1 2 3 4 5 5
6
6
6
9 10 10 11 12
78
Dichteschätzer
Unbekannte Dichte f (x) einer Population aus der Stichprobe X1, . . . , Xn stammt
soll durch fˆ(x) geschätzt werden.
Lokales Fehlermaß:
³
´2
³
´
³
´
MSE(x) = E fˆ(x) − f (x) = var fˆ(x) + bias2 fˆ(x), f (x)
Globales Fehlermaß:
Z
IMSE = MSE(x) dx
oder
79
¯
¯
¯
¯ˆ
MAD = max ¯f (x) − f (x)¯
x
Explorative graphische Verfahren
Box-Plot: (Tukey 1977)
400
500
600
700
> boxplot(VC)
80
Histogramm: (Playfair 1786)
Darstellung der Häufigkeiten von in ` disjunkte Klassen ([t0, t1), [t1, t2), . . . , [t`−1, t`])
unterteilten Daten als Stabdiagramm.
Varianten: Was wird über einer Klasse aufgetragen?
• Absolute Häufigkeiten (Anzahlen)
• Relative Häufigkeiten
• normierte relative Häufigkeiten ⇒ Dichteschätzer“.
”
Problematik: Wahl der Klassenbreite h = tj − tj−1, j = 1, . . . , `.
81
Histogramm als Dichteschätzer
Darstellung des Histogramms als Funktion auf R:
½
fˆ(x) =
Nj /nh für tj−1 ≤ x < tj
0
sonst,
Nj ist die (zufällige) Anzahl der Daten in der j-ten Klasse.
Dichteeigenschaft:
und
fˆ(x) ≥ 0
Z
fˆ(x) dx =
R
X̀ Nj
j=1
82
nh
h = 1.
Wahl von h (bzw. `):
In der Literatur existieren diverse Faustregeln für die geeignete Wahl von `,
nämlich
• Sturges: `St = dlog2 ne + 1,
√
• Velleman: `V = d2 ne für n < 100,
• Dixon: `D = d10 log10 ne für n > 100.
83
Theoretische Kriterien basieren auf Minimierung von IMSEh oder MADh
µ Z
¶−1/3
minimiert IMSEh.
• Scott: hS = 6 n f 0(x)2dx
iid
Für Xi ∼ N (0, σ 2) folgt ĥS = 3.49ŝn−1/3.
• Freedman: hF = c(f ) (log(n)/n)
iid
Für Xi ∼ N (0, σ 2) folgt
1/3
1.66 (log(n)) ŝn−1/3.
1/3
minimiert den MADh.
ĉ(f ) = 1.66ŝ und
damit
ĥF
=
• Freedman/Diaconis (robust): ĥF ∗ = 2IQRn−1/3 ist einfacher und entspricht
einer robusten Version von ĥF .
84
Beispiel: VC-Daten
> nclass.Sturges(VC)
[1] 8
> nclass.scott(VC)
[1] 7
> nclass.FD(VC)
[1] 8
> VCmin <- min(VC)-5; VCmax
> hist(VC, breaks=seq(VCmin,
> hist(VC, breaks=seq(VCmin,
> hist(VC, breaks=seq(VCmin,
<- max(VC)+5
VCmax, length = 7), freq=FALSE)
VCmax, length = 8), freq=FALSE)
VCmax, length =16), freq=FALSE)
85
400
500
600
VC
700
800
400
500
600
VC
86
700
800
400
500
600
VC
700
800
0.000
0.000
0.000
0.002
0.002
0.002
Density
Density
Density
0.004
0.004
0.004
0.006
0.006
0.006
Vergleich: Faustregeln/Optimierungskriterien
Annahme: N (0, 1)-Population
Für Berechnung von hF ∗ wurde E(IQR) = Φ−1(0.75) − Φ−1(0.25) = 1.349
verwendet.
Umformung von h zu ` mittels
µ
¶
¡
¢
n − 3/8
E(Range) = E X(n) − X(1) ≈ 2Φ−1
n + 1/4
und ` = E(R)/h.
87
30
20
15
Friedman−Diaconis
Friedman
Scott
5
10
Sturges
0
number of bins
25
Velleman/Dixon
0
100
200
300
sample size n
88
400
500
600
Naiver Dichteschätzer
Es gilt
1
P (x − h < X < x + h) .
h→0 2h
f (x) = lim
Schätze P (x − h < X < x + h) durch relativen Anteil der Beobachtungen die ins
Intervall (x ± h) fallen, also durch Nh(x)/n.
Dadurch ergibt sich der Naiver Dichteschätzer
1 Nh(x)
1 Nh(x)
fˆ(x) =
=
.
2h n
nh 2
89
Umformulierung des naiven Schätzers mittels Gewichtsfunktion w
½
w(u) =
1/2 |u| < 1
0
sonst.
Damit
µ
¶
n
X
x
−
X
1
i
w
.
fˆ(x) =
nh i=1
h
Interpretation: fˆ(x) ist eine Summe von Rechtecksflächen mit Breite 2h und
Höhe 1/(2nh), platziert über Einzelbeobachtungen xi.
Dies führt direkt zur Idee des Kernschätzers.
90
400
500
600
VC
700
800
0.006
0.004
0.000
0.002
naive estimate
0.004
naive estimate
0.000
0.002
0.004
0.002
0.000
naive estimate
0.006
h <- 33; x <- seq(350, 800, 5); nx <- length(x); fhat <- 1:nx
w <- function(data, x, h) 1/2*(abs(data-x)/h < 1)
for (j in 1:nx) fhat[j] <- sum(w(VC, x[j], h)/(length(VC)*h))
plot(x, fhat, type="l")
0.006
>
>
>
>
400
500
600
VC
91
700
800
400
500
600
VC
700
800
Kernschätzer
Gewicht w durch nicht-negative Kernfunktion K ersetzen mit Dichte-Eigenschaft
Z
K(x)dx = 1.
R
(zB. Gaußkern). Definition des Kernschätzers analog zum naiven Schätzer
µ
¶
n
X
x − Xi
1
ˆ
K
.
f (x) =
nh i=1
h
h ist der zu wählende Glättungsparameter.
Interpretation: Kernschätzer ist eine Summe von Beulen, die über den Beobachtungen zentriert sind.
Kern K bestimmt die Gestalt der Beulen und h deren Breite.
92
−3
−2
−1
0
1
2
3
x
0.8
0.0
0.2
0.4
kernel estimate
0.6
0.8
0.0
0.2
0.4
kernel estimate
0.6
0.8
0.6
kernel estimate
0.4
0.2
0.0
−4
−4
−3
−2
−1
0
x
1
2
3
−4
−3
−2
−1
0
1
x
Dichteeigenschaft? Ja, denn
Z
µ
¶
n Z
n Z
X
X
x
−
X
1
1
i
K
dx =
hK(x) dx = 1 .
fˆ(x) dx =
nh
h
nh
R
i=1 R
i=1 R
93
2
3
Asymptotische Betrachtungen
Ziel: Bestimmung von h und K, welche IMSE minimieren.
Gelte
Z
Z
K(t) dt = 1 ,
Z
tK(t) dt = 0 ,
2
t2K(t) dt = σK
> 0.
Idealer Wert von h minimiert approximativen IMSE
½Z
−4/5
hopt = σK
¾1/5 ½ Z
¾−1/5
K 2(t)dt
n f 00(x)2dx
.
• Hängt von unbekannter (zu schätzenden) Dichte f (x) ab
• Mit wachsendem n geht hopt langsam gegen 0
94
Setzt man hopt in den IMSE-Term ein, erhält man
5
IMSE ≈ C(K)
4
½Z
¾1/5
n−4/5
f 00(x)2dx
mit
½ Z
¾4/5
C(K) = σK K 2(t)dt
.
⇒ Kerne mit kleinen Werten C(K)
2
= 1) Gaußkern verwendet mit
Häufig wird standardisierter (σK
½Z
C(K) =
1 −t
e
2π
2
¾4/5 ½
¾4/5
1
√
dt
=
.
2 π
Minimierung von C(K) über alle standardisierten Kerne liefert EpanechnikovKern
(
√
√
3
1
2
√ (1 − t ) für −
5≤t≤ 5
5
4
5
K(t) =
0
sonst
95
400
500
600
VC
700
800
900
0.006
0.000
0.002
Density
0.004
0.006
0.000
0.002
Density
0.004
0.006
0.004
0.000
0.002
Density
300
300
400
500
600
700
800
VC
900
300
400
500
600
700
800
900
VC
Kernschätzung der VC-Dichte mittels Epanechnikov-Kern mit Bandbreiten h = 8,
h = 33 und h = 70.
> plot(density(VC, bw=33, kern="epanechnikov"))
96
Gaußkern + Normalverteilung
Wir verwenden den Gaußkern
µ 2¶
1
t
K(t) = √ exp −
2
2π
für Stichprobe aus N (0, σ 2) mit Dichte f (x), so erhält man
µ
2
¶
1
x
2
2 2
(x
−
σ
)
exp
−
2πσ 10
σ2
Z
3
00
2
√ 5 ≈ 0.212σ −5
f (x) dx =
8 πσ
µ
¶− 15
µ ¶ 15
1
3 −1
4
− 15
− 15
− 51
− 10
2
π
σn =
σn ≈ 1.06σn
hopt = (4π)
8
3
f 00(x)2 =
Liefert annehmbare Ergebnisse auch für andere Populationen.
97
Kern
Epanechnikov
Biweight
Cosinus
Dreieck
Gauß
Rechteck
K(t)
³
für
´
2
3
t
√
1
−
5
4 5
¡
¢
15 −5/2
2 2
7−t
16 7
q
√
¡
1
π 2 −6
1 + cos t π 2
2π
3
¡√
¢
1
6 − |t|
6
t2
1
−
√ e 2
2π
1
√
2 3
98
√ ¢
− 6/ 3
√
|t| ≤ 5
√
|t| ≤ 7
q
|t| ≤ π π23−6
√
|t| ≤ 6
t∈R
√
|t| ≤ 3
hopt
1.04867σn−1/5
1.04996σn−1/5
1.05086σn−1/5
1.05166σn−1/5
1.05922σn−1/5
1.06412σn−1/5
−3
−2
−1
Triangular
0
1
2
3
3
0.4
2
0.3
Epanechnikov
−3
−3
−2
−2
−1
−1
0
Gauss
0
99
1
1
2
2
3
0.2
0.4
0.4
1
Density
0.3
0.3
0
0.2
Density
0.2
Density
−1
0.1
0.1
0.1
−2
0.0
0.0
0.0
−3
Biweight
3
−3
−3
−2
−2
−1
Cosine
−1
0
Rectangular
0
1
2
3
1
2
3
0.0
0.0
0.0
0.1
0.1
0.1
0.2
Density
0.2
Density
0.2
Density
0.3
0.3
0.3
0.4
0.4
0.4
Graphische Darstellungen
Symmetrie-Plot: Diagnoseplot für Symmetrie einer Verteilung.
Differenzen über dem Median ui gegen Differenzen unter dem Median vi mit
ui = x(n−i+1) − x̃ ,
vi = x̃ − x(i) ,
i = 1, . . . , [
n+1
]
2
auftragen. Referenz: Gerade u = v.
Bedeutung der Symmetrie:
•
•
•
•
Eindeutiges Zentrum (Median, arithmetisches Mittel, Modalwert)
Einfache Datenbeschreibung
viele statistische Prozeduren beruhen auf Symmetrie
Beseitigung einer möglichen Asymmetrie durch Transformationen
100
x <- VC; n <- length(x); i <- 1:trunc((n+1)/2)
u <- sort(x)[n+1-i] - median(x); v <- median(x) - sort(x)[i]
lim <- c(0, max(u,v))
plot(v, u, xlim=lim, ylim=lim); abline(0,1)
10
u
u
0
5
10
15
v
20
25
0
0
0
5
50
5
10
100
u
15
150
20
200
15
25
>
>
>
>
0
50
100
150
200
0
v
Symmetrie-Plots von age (links), VC (Mitte), FEV1.VC (rechts).
101
5
10
v
15
Empirische Verteilungsfunktion
Empirische Quantile q(pi) gegen Wahrscheinlichkeiten pi auftragen mit
pi = F (x(i)) = i/n ,
q(pi) = x(i) ,
i = 1, . . . , n
Daraus ersichtlich: Quartile, IQR, Range, Extremwerte sowie andere Charakteristiken. Basiert auf den Rohdaten und beinhaltet damit die vollständige Information.
102
20
30
40
50
60
1.0
0.8
0.0
0.2
0.4
Fn(x)
0.6
0.8
0.6
Fn(x)
0.4
0.2
0.0
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
plot.ecdf(age)
1.0
> library(stepfun);
400
500
600
age
700
800
65
VC
70
75
80
85
90
95
100
FEV1/VC
Empirische Verteilungen von age (links), VC (Mitte), FEV1.VC (rechts).
Konfidenzband für F (x): Punktweises Band (nur in x ist Überdeckung 1 − α)
Fn(x) ± z1−α/2
p
Fn(x)(1 − Fn(x))/n .
103
Simultanes Band (U (x), O(x))
P (∀x ∈ R| U (x) ≤ F (x) ≤ O(x)) = 1 − α .
Mit der Kolmogorov-Smirnov Statistik kann ein solches konstruiert werden.
µ
¶
1 − α = P sup |F (x) − Fn(x)| ≤ k1−α
x
µ
¶
¡
¢
¡
¢
= P sup F (x) − Fn(x) ≤ k1−α und sup Fn(x) − F (x) ≤ k1−α
x
x
= P (∀x ∈ R| Fn(x) − k1−α ≤ F (x) ≤ Fn(x) + k1−α)
Wegen 0 ≤ F (x) ≤ 1 folgt das simultane Konfidenzband
³
´
P ∀x ∈ R| max(0, Fn(x) − k1−α) ≤ F (x) ≤ min(1, Fn(x) + k1−α) = 1 − α .
x
x
104
Beispiel: Benzinverbrauch Für α = 0.05 resultiert k0.95 = 0.409 und als 95%Konfidenzband für F (x) folgt
0 ≤ Fn(x) ± 0.409 ≤ 1
∀x ∈ R .
> lines(c(0, milage, 16), pmin(1, (0:(n+1))/n + 0.409), type="s")
> lines(c(0, milage, 16), pmax(0, (0:(n+1))/n - 0.409), type="s")
105
1.0
0.8
0.6
0.0
0.2
0.4
Fn(x)
10
11
12
13
milage (x)
106
14
15
Vergleich von empirischer mit theoretischer Verteilung
Warum vergleichen?
1. Rechtfertigung eines Datenmodells, z.B. Normalverteilung.
2. Besseres Verständnis des physikalischen Mechanismuses.
3. Transformation auf Normalverteilung leichter durchführbar, wenn theoretische
Verteilung bekannt.
Graphische Methoden: Theoretischer Quantil-Quantil-Plot, und Prozent-ProzentPlot.
107
Theoretischer Quantil-Quantil-Plot (TQQ-Plot)
Empirische Quantile gegen entsprechende Quantile einer theoretischen Verteilung
F (x) auftragen
q(pi) = x(i)
gegen qF (pi) = F −1(pi)
mit pi =
i − 1/2
n
für i = 1, . . . , n
Falls als theoretische Verteilung die Normalverteilung gewählt spricht man vom
Normal-Probability-Plot.
Falls die Stichprobe X1, . . . , Xn aus Population G(x) stammt, so folgt für n groß
X(i) ≈ E(X(i)) ≈ qG(pi) .
Betrachte den TQQ-Plot, in dem als theoretische Verteilung F (x) verwendet ist.
Wurde F darin richtig gewählt, d.h. F = G, dann ist x(i) ≈ qF (pi) annähernd
eine Gerade.
108
Falls G(x) = F ((x − a)/b), also G und F unterschiedliche Lokations- und
Skalenparameter haben, gilt
¡
¢
¡
¢
pi = G qG(pi) = F (qG(pi) − a)/b
⇒
qF (pi) = (qG(pi) − a)/b ,
also qG(pi) = bqF (pi) + a. Für x(i) wird daher gelten
x(i) ≈ bqF (pi) + a ,
und der TQQ-Plot mit F wird Punkte beinhalten, die auf einer Geraden mit
Intercept a und Steigung b liegen.
109
Folgende Aussagen können daher aus dem Verlauf der Punkte im TQQ-Plot mit
F getroffen werden: Bilden die Punkte
1. die Gerade y = x, so ist die theoretische Verteilung F eine gute Approximation
von G, d.h. x(i) ≈ E(X(i)),
2. eine Gerade parallel zu y = x, so liegt der Unterschied zwischen F und G nur
im Lageparameter, d.h. x(i) + a ≈ E(X(i)),
3. eine Gerade, die y = x schneidet, so beruht der Unterschied im Skalierungsparameter, d.h. bx(i) ≈ E(X(i)),
4. kein Geradenmuster, so liegt der Stichprobe eine andere Verteilung als F zu
Grunde.
110
Das lineare Muster kann aus vielerlei Gründen verfälscht werden:
1. Sind einige wenige Punkte an den Enden der Geraden weiter entfernt, so kann
dies Ausreißer hinweisen.
2. Zeigt am rechten Ende die Krümmung nach oben (oder links nach unten),
so hat die empirische Verteilung rechts (bzw. links) längere Schwänze als die
theoretische.
3. Vergleicht man eine unsymmetrische Verteilung gegen eine symmetrische theoretische Verteilung, so erhält man ein Kurvenmuster mit von links nach rechts
steigender Krümmung (Daten sind rechtsschief) oder entsprechend umgekehrt.
4. Plateaus oder Sprünge im Plot weisen auf hohe Datenkonzentrationen an einer
Stelle oder fehlende Beobachtungen über einen größeren Bereich hin.
111
400
500
600
N(550, 75)−Quantiles
700
700
600
400
500
VC
600
400
500
VC
600
500
400
VC
# direct calculation of the p_i’s
# the same as above but much faster
produces N(550,75)-plot
produces N(550,75)-plot, no sorting requ.
produces N(mean(VC),50)-plot
produces N(600,sd(VC))-plot
700
n <- length(VC); p <- (1:n - 1/2)/n
p <- ppoints(n)
plot(qnorm(p, 550, 75), sort(VC)) #
qqplot(qnorm(p, 550, 75), VC)
#
qqplot(qnorm(p, mean(VC), 50), VC) #
qqplot(qnorm(p, 600, sd(VC)), VC) #
700
>
>
>
>
>
>
400
500
600
N(x, 50)−Quantiles
112
700
400
500
600
N(600,s)−Quantiles
700
> qqnorm(VC)
> qqline(VC)
# directly produces a N(0,1)-plot for VC
# adds a line which passes through 1st and 3rd quartiles
90
85
70
20
75
80
Sample Quantiles
50
40
30
Sample Quantiles
700
600
500
400
Sample Quantiles
95
100
> qqplot(16+qexp(p, 1/15), age); abline(0,1) # produces Exp-plot for age
> qqplot(mean(FEV1.VC)+qt(p,10)*5.75, FEV1.VC); abline(0,1) #t-plot for FEV1.VC
−2
−1
0
1
Theoretical Quantiles
2
20
40
60
Exponential−Quantiles
113
80
65
70
75
80
85
t_10−Quantiles
90
95
100
Theoretischer Prozent-Prozent-Plot (TPP-Plot)
TQQ-Plot auf Unterschieden im Verteilungszentrum nicht sensitiv!
TPP-Plot erkennt jedoch keine Unterschiede in den Schwänzen, da q(p) eine
stark wachsende Funktion für extreme p ist, während F (x) eher im Zentralbereich
einen steilen Verlauf hat. Daher oft kombiniert.
Beim TPP-Plot werden empirische gegen theoretische Prozentwerte aufgetragen
pi =
i − 1/2
n
µ
gegen F
x(i) − µ
σ
¶
.
Das Punktemuster des TPP-Plots ist bei Übereinstimmung linear.
Bei Lokations- oder Streuungsunterschieden ist Muster allerdings nicht linear.
> plot(pnorm(sort(VC), mean(VC), sd(VC)), p)
> plot(pnorm(sort(age), mean(age), sd(age)), p)
114
1.0
0.0
0.2
0.4
p
0.6
0.8
1.0
0.8
0.6
p
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.2
Normal−Quantiles
0.4
0.6
Normal−Quantiles
TPP-Plot der Variablen VC (links) und age (rechts).
115
0.8
1.0
Herunterladen