Nichtparametrische Statistik - Statistische Abteilung

Werbung
Nichtparametrische Statistik
Prof. Dr. Alois Kneip
Statistische Abteilung
Institut für Gesellschafts- und Wirtschaftswissenschaften
Universität Bonn
Unter Mitarbeit von Dr. Jürgen Arns,
Inhalt:
1. Einführung
2. Die empirische Verteilungsfunktion, Ordnungsstatistiken und
nichtparametrische Tests
3. Nichtparametrische Dichteschätzung
4. Nichtparametrische Regressionsanalyse
5. Multivariate Kurvenschätzung: Nichtparametrische und semiparametrische Methoden
Nichtparametrisch@LS-Kneip
01
Literatur:
• Bowman, A.W. und Azzalin, A. (1997): Applied Smoothing
Techniques for Data Analysis; Clarendon Press
• Büning, H. und Trenkler, G. (1994): Nichtparametrische statistische Methoden; de Gruyter
• Wand, M.P. and Jones, M.C. (1995): Kernel Smoothing, Chapman and Hall
• Härdle, W. (1990): Applied Nonparametric Regression; Cambridge University Press
• Silverman, B.W. (1986): Density Estimation for Statistics
and Data Analysis, Chapman and Hall
Nichtparametrisch@LS-Kneip
02
1
Einführung
Parametrische Statistik:
Für gegebene Daten wird das
zugrundeliegende stochastische Modell bis auf einige unbekannte Parameter vollständig speziziert ⇒ Parameterschätzung,
Inferenz für die Modellparameter (Statistik II; Lineares Modell)
Nichtparametrische Statistik: Es wird kein parametri-
sches Modell speziziert; die statistische Analyse beruht auf qualitativen Modellannahmen (z.B. Stetigkeit oder Symmetrie einer
Verteilung.
Nichtparametrische Kurvenschätzung: Die interes-
sierenden Objekte sind Kurven (Funktionen, Flächen). Die wichtigsten Anwendungen sind die Schätzung von Regressions- und
Dichtefunktionen.
Nichtparametrisch@LS-Kneip
13
Nichtparametrische Regression
Regressionsmodell:
Yi = m(Xi ) + ²i
• m(Xi ) = E(Yi |X = Xi ) - Regressionsfunktion
• ²1 , ²2 , . . . i.i.d., E(²i ) = 0, var(²i ) = σ 2
• Lineare Einfachregression: m(x) ist eine Gerade
m(X) = β0 + β1 X
⇒ Die Struktur der Regressionsfunktion ist bis auf zwei unbekannte Parameter β0 , β1 vollständig festgelegt
⇒ Schätzung der Regressionsfunktion wird zurückgeführt
auf die Schätzung der Parameter β0 , β1
Problem: Annahme eines linearen Zusammenhangs korrekt?
• Nichtparametrische Regression: Es wird keine spezielle funktionale Form der Regressionsfunktion angenommen.
Qualitative Modellannahme: m hinreichend glatt
⇒ Funktionale Form der Regressionsfunktion wird aus den
Daten bestimmt!
Nichtparametrisch@LS-Kneip
14
Beispiel: Gesamtausgaben in Abhängigkeit vom Alter
Die folgenden Daten stammen aus einer Stichprobe von britischen Haushalten aus dem Jahr 1980. Die Beobachtungen beinhalten die Gesamtausgaben für alle Güter und Dienstleistungen
von allen Haushalten mit einem gegeben Alter (Alter ≡ Alter
des Haushaltsvorstands).
income
1.7
1.3
0.9
0.5
20
30
40
50
60
70
age
Nichtparametrisch@LS-Kneip
15
Anpassung einer Ausgleichsgerade:
income
1.7
1.3
0.9
0.5
20
30
40
50
60
70
age
Nichtparametrische Regression (Glättende Splines):
income
1.7
1.3
0.9
0.5
20
30
40
50
60
70
age
Nichtparametrisch@LS-Kneip
16
Nichtparametrische Dichteschätzung
Beispiel: Analyse von Einkommnensdaten
• Quelle: U.K. Family Expenditure Survey (FES) 1968-1995
• Ungefähr 7000 britische Haushalte pro Jahr
• Für jeden Haushalt: Einkommen aus verschiedenen Quellen,
Ausgaben für verschiedene Güter, Alter, Familiengröÿe, Berufe, etc.
Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haushalten):
66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36
72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.52
5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.53
57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57
86.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17
115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.15
17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21
40.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.73
90.81 15.70 45.44 68.14 18.76 80.38 61.50 41.39 76.96 87.07 78.03
29.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77 93.50 55.92 14.15
144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.76
17.45 29.11 48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.88
34.74 29.42 121.75 113.76 97.20 86.62
Nichtparametrisch@LS-Kneip
17
Standardansatz: Annahme einer Normalverteilung (= parametrisches Modell mit zwei unbekannten Parametern: Erwartungswert und Varianz)
In komplexeren Situationen: Charakterisierung von Verteilungen durch statistische Maÿzahlen:
• Mittelwert, Median
• Varianz, Quartilsabstand
• Gini Koezient, Quantile
Maÿzahlen geben immer nur Teilaspekte von Verteilungseigenschaften wieder.
Detailliertere Informationen: Dichteschätzung
Histogramm (FES Einkommensdaten, 1976):
1000
800
600
400
200
0
0
13
26
Nichtparametrisch@LS-Kneip
39
52
65
78
91 104 117 130 143 156 169 182 195
income
18
Verfeinertes Histogramm und Kernschätzer (FES, 1976)
0.012
0.008
0.004
0.000
0.0
22.8
45.6
68.4
91.2
114.0
income
136.8
159.6
182.4
Kernschätzer:
• Denitionsgleichung:
1 X
ˆ
ft (x) =
K
nh i
µ
x − Xit
h
¶
• fˆt schätzt die wahre Dichte ft der Einkommensverteilung im
Jahre t = 1976
Nichtparametrisch@LS-Kneip
19
0.0
0.2
0.4
0.6
0.8
1.0
Geschätzte relative Einkommensdichten (Kernschätzer)
1968-1988
0.5
1.0
1.5
2.0
2.5
0
0.01
0.02
0.03
Multivariate Kernschätzung der gemeinsamen Dichte von Einkommen und Alter im Jahr 1984:
10
0
80
2
60
1.5
40
1
20
Nichtparametrisch@LS-Kneip
0.5
110
1.1
Charakterisierung von eindimensionalen Verteilungen
Wichtige Grundbegrie
Man betrachte eine eindimensionale Zufallsvariable X.
z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem amerikanischen Aktienmarkt, Körpergröÿe japanischer Frauen, ...
Verteilungsfunktion F von X :
F (x) = P (X ≤ x) für jedes x ∈ R
• diskrete Zufallsvariable: X nimmt nur abzählbar viele Werte
x1 , x2 , x3 , . . . an
P (X = xi ) = fi , i = 1, 2, . . . ,
P
F (x) =
fi
xi ≤x
• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , so
daÿ
Rx
F (x) =
f (t)dt
−∞
Nichtparametrisch@LS-Kneip
111
Stetige Zufallsvariable
0
Histogramm
0.2
0.4
n=50
0
Histogramm
0.2
0.4
n=500
0
Histogramm
0.2
0.4
n=5000
0
0.2
Dichte
0.4
Model
Nichtparametrisch@LS-Kneip
112
Wahrscheinlichkeitsdichte:
Z 1
f (x)
0;
f (x)dx = 1:
+
1
Verteilungsfunktion:
( ) monoton wachsend
F x
F
(
1) = 0
;
F
1
(+ ) = 1:
1
Verteilungsfunktion
1
Dichtefunktion
0.8
0.6
F(x)
f(x)
0.6
0.8
F(x)
0.4
0.4
f(x)
0.2
0.2
F(b)
F(b)
b
0
b
-3
-2
-1
0
x
Nichtparametrisch@LS-Kneip
1
2
3
-3
-2
-1
0
1
2
x
113
3
Eigenschaften der Verteilungsfunktion:
• 0 ≤ F (x) ≤ 1 für alle x ∈ IR; F ist eine monoton wachsende
Funktion
• limx→−∞ F (x) = 0
• limx→∞ F (x) = 1
• Für x0 < x1 gilt P (x0 < X ≤ x1 ) = F (x1 ) − F (x0 )
• F ist immer rechtsstetig, d.h. für alle x gilt
limh→0,h>0 F (x + h) = F (x)
• Für stetige Zufallsvariablen mit Dichtefunktion f gilt
f (x) = F 0 (x)
Eigenschaften von Dichtefunktionen:
• f (x) ≥ 0 für alle x ∈ IR
R∞
• −∞ f (x)dx = 1
Man beachte: Für stetige Zufallsvariablen gilt P (X = x) = 0 für
alle x ∈ IR und P (X ≤ x) = P (X < x) = F (x).
Sowohl Verteilungsfunktionen als auch Dichtefunktionen sind wichtige Werkzeuge der statistischen Inferenz. Dichten sind jedoch
wesentlich leichter interpretierbar und lassen direkte Rückschlüsse auf die Struktur der zugrunde liegenden Verteilung zu.
Nichtparametrisch@LS-Kneip
114
Symmetrische Verteilung:
Eine Zufallsvariable X heiÿt symmetrisch verteilt um den Punkt
µ, wenn P (X ≤ µ − x) = P (X ≥ µ + x) für alle reellen Zahlen x
gilt.
Beispiele: Körpergröÿe, Intelligenzquotient, logarithmierte Konsumausgaben, etc.
0.4
0.3
0.2
0.1
-5
-10
5
10
Linkssteile (= rechtsschiefe) Verteilung
0.35
0.3
0.25
0.2
0.15
0.1
0.05
1
2
3
4
5
6
7
Beispiele: Einkommen, Vermögen, Konsumausgaben
Nichtparametrisch@LS-Kneip
115
Rechtssteile (= linksschiefe) Verteilung
0.5
0.4
0.3
0.2
0.1
-3
-2
-1
1
2
3
Beispiel: Sterbealter
Bimodale (bzw. multimodale) Verteilungen
0.5
0.4
0.3
0.2
0.1
-3
-2
-1
1
2
3
Eine Verteilung heiÿt bimodal (bzw. multimodal), falls die zugehörige Dichte zwei (bzw. mehrere) Gipfel besitzt. Multimodalität
deutet i.Allg. auf die Existenz mehrerer in sich homogener aber
untereinander heterogener Teilpopulationen hin (Mischungsverteilungen).
Nichtparametrisch@LS-Kneip
116
Wichtige Parameter einer stetigen Z.v. X
• Mittelwert (Erwartungswert)
Z
∞
µ = E(X) =
xf (x)dx
−∞
• Median (streng monoton wachsendes F ):
Der Median ist derjenige Wert µmed mit F (µmed ) = 0.5
• Varianz
¡
¢
2
σ = V ar(X) = E (X − µ) = E(X 2 ) − µ2
2
• Erwartungswert einer transformierten Zufallsvariablen X →
g(X)
Z ∞
E(g(X)) =
g(x)f (x)dx
−∞
Anmerkung: Die Existenz von Mittelwert und Varianz stellt Bedingungen an die Struktur von f . Für einige Verteilungen sind
daher Mittelwert und Varianz nicht deniert.
Beispiel: Die Cauchy Verteilung (mit Parametern u, s)
f (x) =
1
s
· 2
π s + (x − u)2
besitzt weder Erwartungswert noch Varianz; aber: µmed = u.
Lageregeln (µ, µmed existieren):
• symmetrische Verteilung: µ = µmed
• Linkssteile Verteilung: µ > µmed
• Rechtssteile Verteilung: µ < µmed
Nichtparametrisch@LS-Kneip
117
1.2
Wichtige Verteilungsmodelle der parametrischen Statistik
Die Gleichverteilung (Rechteckverteilung)
Nimmt eine Zufallsvariable nur in einem Intervall [a, b] Werte
an und wird keiner der Werte oder Teilintervalle bevorzugt, so
ist X gleichverteilt (X ∼ U (a, b)). Die Dichte ist dann gegeben
durch
1
f (x) =
für a ≤ x ≤ b
b−a
und f (x) = 0 für x 6∈ [a, b].
0.15
0.125
0.1
0.075
0.05
0.025
-4
-2
2
4
• E(X) = (a + b)/2
• V ar(X) =
1
12 (b
− a)2
Wichtige Sonderfälle sind a = 0, b = 1 und a = 0, b = θ (θ
unbekannter Parameter).
Nichtparametrisch@LS-Kneip
118
Die Normalverteilung N (µ, σ 2 )
Viele statistische Verfahren basieren auf der Annahme, daÿ eine
Z.v. X normalverteilt ist, d.h. X ∼ N (µ, σ 2 )
Wahrscheinlichkeitsdichte:
f (x) =
2
2
√1 e−(x−µ) /2σ
σ 2π
für −∞ < x < ∞, σ > 0
• E(X) = µ, V ar(X) = σ 2
Standardisierte Normalverteilung N (0, 1)
• X ∼ N (µ, σ 2 )
⇒
Z=
X−µ
σ
∼ N (0, 1)
• Standardisierte Dichtefunktion und Verteilungsfunktion
Z z
1 −x2 /2
φ(x)dx
, Φ(z) =
φ(x) = √ e
2π
−∞
• N (0, 1) ist tabelliert und
P (X ≤ x) = P (
Nichtparametrisch@LS-Kneip
X −µ
x−µ
x−µ
≤
) = P (Z ≤
)
σ
σ
σ
119
f(x)
0.6
0.8
1
1.2
Dichtefunktion (Normalverteilung)
N(2,1/3)
0.4
N(0,1)
0.2
N(2,1)
N(2,2)
-3
-2
-1
0
1
x
2
3
4
5
6
0
0.1
f(x)
0.2
0.3
0.4
Dichtefunktion (Standard-Normalverteilung N(0,1))
-4
-3
-2
-1
0
x
1
2
3
4
0
0.25
F(x)
0.5
0.75
1
Verteilungsfunktion (Standard-Normalverteilung N(0,1))
-4
-3
-2
Nichtparametrisch@LS-Kneip
-1
0
x
1
2
3
4
120
Die χ2 -Verteilung
Sind X1 , . . . , Xn unabhängige, standardnormalverteilte Zufallsvariablen, so folgt X = X12 + · · · + Xn2 einer χ2 -Verteilung mit n
Freiheitsgraden (X ∼ χ2n ),
f (x) =
1
xn/2−1 e−x/2 ,
n/2
2 Γ(n/2)
x≥0
Die Gammafunktion ist deniert durch Γ(u) =
R∞
0
z u−1 e−z dz
0.5
0.4
0.3
0.2
0.1
2
4
6
8
10
• µ = E(X) = n
• V ar(X) = 2n
Anwendung:
Einfache Zufallsstichprobe X1 , . . . , Xn , Xi ∼ N (µ, σ 2 )
2
P
1
2
2
2
für
S
=
⇒ (n−1)S
∼
χ
n−1
i (Xi − X̄) .
σ2
n−1
Nichtparametrisch@LS-Kneip
121
Die t-Verteilung
X und Y seien unabhängige Zufallsvariablen mit X ∼ N (0, 1)
p
und Y ∼ χ2n . Die Variable T = X/ Y /n hat eine t-Verteilung
mit n Freiheitsgraden (T ∼ tn ),
Γ((n + 1)/2)
x2 −(n+1)/2
f (x) = √
(1 + )
n
πnΓ(n/2)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
-4
-2
2
4
• µ = E(X) = 0 für n > 1
• V ar(X) =
n
n−2
für n > 2
Anwendung:
2
Einfache
Zufallsstichprobe
X
,
.
.
.
,
X
,
X
∼
N
(µ,
σ
)
1
n
i
√
P
1
2
2
⇒ n(X̄−µ)
∼
t
für
S
=
n−1
i (Xi − X̄) .
S
n−1
Nichtparametrisch@LS-Kneip
122
Die F -Verteilung
X und Y seien unabhängige Zufallsvariablen mit X ∼ χ2m und
p
p
Y ∼ χ2n . Die Variable F = X/m/ Y /n hat eine F -Verteilung
mit m und n Freiheitsgraden (F ∼ Fm,n )
Anwendung: Varianzanalyse!
Die Lognormalverteilung
X ist lognormalverteilt mit Parametern µ und σ 2 (X ∼ LN (µ, σ 2 )),
wenn die Dichte gegeben ist durch
2
2
1
f (x) = √
e−(lnx−µ) /2σ ,
x 2πσ 2
x>0
Die transformierte Zufallsvariable Y = lnX ist dann normalverteilt mit E(Y ) = µ und V ar(Y ) = σ 2 .
0.6
0.5
0.4
0.3
0.2
0.1
4
2
• E(X) = eµ+σ
2
6
8
/2
2
2
• V ar(X) = e2µ+σ (eσ − 1)
Anwendung: In der Ökonometrie häug zur Modellierung von
linkssteilen Verteilungen (z.B. Einkommensverteilungen) angewandtes Modell.
Nichtparametrisch@LS-Kneip
123
Die Exponentialverteilung
X ist exponentialverteilt mit dem Parameter λ > 0 (X ∼ Ex(λ)),
wenn die Dichte gegeben ist durch
f (x) = λe−λx ,
x≥0
0.8
0.6
0.4
0.2
1
• E(X) =
2
3
4
5
1
λ
• V ar(X) =
1
λ2
Anwendung: Standardverteilung zur Modellierung von Wartezeiten
Die Gammaverteilung
X heiÿt gammaverteilt mit den Parametern r > 0 und λ > 0
(X ∼ Γ(r, λ)), falls
f (x) =
λ
(λx)r−1 e−λx ,
Γ(r)
x≥0
Spezialfälle: Ex(λ) = Γ(1, λ) und χ2n = Γ( n2 , 12 ).
Nichtparametrisch@LS-Kneip
124
Mischungen von Normalverteilungen
Die Verteilung einer Zufallsvariablen X ist eine Mischung zweier
Normalverteilungen, falls sich für Parameter µ1 , µ2 , σ12 , σ22 und
0 < α < 1 die zugehörige Dichte in folgender Form darstellen
lässt:
f (x) = α ·
1
√
σ1 2π
e−(x−µ1 )
2
/2σ12
+ (1 − α) ·
1
√
2
σ2 2π
e−(x−µ2 )
/2σ22
Solche Mischungsansätze werden z.B. häug zur Modellierung
bimodaler Verteilungen verwendet.
Verallgemeinerung: Mischung von k Normalverteilungen
f (x) =
k
X
αi ·
i=1
mit α1 > 0, . . . , αk > 0 und
1
√
2
σi 2π
Pk
i=1
e−(x−µi )
/2σi2
αi = 1
Für hinreichend groÿes k ist es möglich, jede beliebige stetige
Dichtefunktion durch eine Mischung von k Normalverteilungen
beliebig gut zu approximieren.
Nichtparametrisch@LS-Kneip
125
1.3
Mehrdimensionale Verteilungen
• Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X =
(X1 , . . . , Xd )T , dessen einzelne Elemente alle Zufallsvariablen sind.
Diskrete Zufallsvariable: X nimmt nur abzählbar
viele Werte x1 , x2 , · · · ∈ IRd an:
Wahrscheinlichkeitsfunktion: p(xi ) = P (X = xi )
X
⇒ P (X ∈ [a1 , b1 ] × · · · × [ad , bd ]) =
p(xi )
xi ∈[a1 ,b1 ]×···×[ad ,bd ]
Stetige Zufallsvariable:
Dichtefunktion: f (x1 , . . . , xd )
⇒P (X ∈ [a1 , b1 ] × · · · × [ad , bd ])
Zb1
=
Zbd
...
a1
Nichtparametrisch@LS-Kneip
f (x1 , . . . , xd )dx1 . . . dxd
ad
126
Eigenschaften von Dichtefunktionen:
• f (x1 , . . . , xd ) ≥ 0
Z ∞
Z ∞
•
...
f (x1 , . . . , xd )dx1 . . . dxd = 1
−∞
−∞
Anmerkung: Eine allgemeine Möglichkeit zur Darstellung von
Wahrscheinlichkeiten ist wiederum die Verteilungsfunktion F :
F (a1 , . . . , ad ) = P (X1 ≤ a1 , . . . , Xd ≤ ad )
Zur Vereinfachung der Schreibweise werden im folgenden nur stetige Zufallsvariablen betrachtet.
Jedes Element Xj von X besitzt eine Randverteilung
(oder Marginalverteilung). Dies ist nichts anderes als die
univariate Verteilung von Xj (ohne Berücksichtigung der
anderen Variablen).
Formal:
• Verteilungsfunktion der Randverteilung von Xj :
Fj (x) = P (Xj ≤ x)
• Randdichte fj , z.B. für j = 1
Z ∞
Z ∞
f1 (x1 ) =
...
f (x1 , x2 . . . , xd )dx2 . . . dxd
−∞
Nichtparametrisch@LS-Kneip
−∞
127
Exkurs: Mehrdimensionale Integrale
Z
Die Berechnung von
b1
Z
a1
ten:
b2
a2
g(x, y)dxdy erfolgt in zwei SchritZ
1. Berechnung der Funktion G(y) =
Wert y
Z
2. Berechnung von
Beispiel:
Z 1Z
G(y)dy
a1
Z
1
0
1
b1
Z
Z
b2
b2
¾
½
1
4y[ x2 ]10 dy =
2
0
Rechenregeln:
Z
Z
Z
b1
a2
Z
b2
a2
Z
b1
Z
Z
∞
0
Z
b2
g1 (y)
a1
Abkürzungen:
2y dy = 1
a1
g1 (y)g2 (x, y)dxdy =
a1
1
g(x, y)dydx
a2
Z
Z
b1
g(x, y)dxdy =
a1
a2
g(x, y)dx für jeden
b1
4xy dxdy =
0
b2
g2 (x, y)dxdy
a2
∞
g(x, y) dxdy =
g(x, y)dxdy
−∞ −∞
Z b1 Z b2
g(x, y) dxdy =
g(x, y)dxdy
Z
[a1 ,b1 ]×[a2 ,b2 ]
Nichtparametrisch@LS-Kneip
a1
a2
128
Bedingte Verteilungen
Bedingte Verteilung von Xj gegeben
X1 = x1 , . . . , Xj−1 = xj−1 , Xj+1 = xj+1 , . . . , Xp = xd
= Verteilung von Xj bei festgehaltenen Werten von
X1 = x1 , . . . , Xj−1 = xj−1 , Xj+1 = xj+1 , . . . , Xd = xd
Beispiel: bedingte Dichte von X1 gegeben X2 = x2 , . . . , Xd = xd :
f (x1 | x2 , . . . , xd ) =
f (x1 , x2 , . . . , xd )
fX2 ,...,Xd (x2 , . . . , xd )
wobei fX2 ,...,Xd gemeinsame Dichte von X2 , . . . , Xd
Von zentraler Bedeutung in der Regressionsanalyse sind bedingte
Erwartungswerte:
Bedingter Erwartungswert von X1 für gegebene Werte
X2 = x2 , . . . , Xd = xd :
m(x2 , . . . , xd ) := E(X1 |X2 = x2 , . . . , Xd = xd )
R
= x1 f (x1 | x2 , . . . , xd )dx1
m(x2 , . . . , xd ) - Regressionsfunktion
Nichtparametrisch@LS-Kneip
129
Unabhängigkeit:
Die Zufallsvariablen X1 , . . . , Xd sind voneinander
unabhängig, wenn für alle x = (x1 , . . . , xd )T gilt
F (x1 , . . . , xd ) = F1 (x1 ) · F2 (x2 ) · . . . · Fd (xd ) bzw.
f (x1 , . . . , xd ) = f1 (x1 ) · f2 (x2 ) · . . . · fd (xd )
Folgerungen: Ist Xj unabhängig von Xk , so gilt
• Die Randdichte von Xj ist gleich der bedingten Dichte von
Xj gegeben Xk = xk
fj (xj ) = f (xj | xk )
für alle xk
• Der bedingte Erwartungswert von Xj gegeben Xk = xk ist
gleich dem unbedingten Erwartungswert von Xj (die Regressionsfunktion ist eine Konstante)
E(Xj | Xk = xk ) = E(Xj )
Nichtparametrisch@LS-Kneip
für alle xk
130
Beispiel
X1 - verfügbares Haushaltseinkommen
X2 - Alter des Haushaltsvorstandes
Daten: Britischer Family Expenditure Survey; Zufallstichprobe
von ungefähr 7000 Haushalten im Jahr 1976
0
0.01
0.02
0.03
Geschätzte gemeinsame Dichte von relativem Einkommen und Alter
10
0
80
2
60
1.5
40
1
20
Nichtparametrisch@LS-Kneip
0.5
131
Geschätzte Dichte der Randverteilung des relativen Einkommens
0.012
0.008
0.004
0.000
0.0
22.8
45.6
68.4
91.2
114.0
income
136.8
159.6
182.4
Regression von Einkommen auf Alter
income
1.7
1.3
0.9
0.5
20
30
40
50
60
70
age
Nichtparametrisch@LS-Kneip
132
Beispiel: Sei X = (X1 , X2 )T
und

1x + 3x
1
2 2
f (x1 , x2 ) = 2
0
falls 0 ≤ x1 , x2 ≤ 1
sonst
f ist eine Dichtefunktion, da f (x1 , x2 ) ≥ 0 und
Z∞ Z∞
−∞ −∞
· ¸1
· ¸1
1 x21
3 x22
1 3
f (x1 , x2 )dx1 dx2 =
+
= + =1
2 2 0 2 2 0
4 4
Dichte der Randverteilungen:
Z∞
f1 (x1 ) =
Z1
f (x1 , x2 )dx2 =
−∞
3
1
x1 +
2
4
f (x1 , x2 )dx1 =
1
3
x2 +
2
4
0
Z∞
f2 (x2 ) =
f (x1 , x2 )dx2 =
Z1
f (x1 , x2 )dx1 =
−∞
Man beachte:
1
3
f (x1 , x2 ) = x1 + x2 =
6
2
2
0
µ
¶µ
¶
1
3
3
1
x1 +
· x2 +
= f1 (x1 )·f2 (x2 )
2
4
2
4
⇒ X1 und X2 sind nicht unabhängig
Nichtparametrisch@LS-Kneip
133
Bedingte Dichte von X2 gegeben X1 = x1
f (x2 | x1 ) =
3
1
2 x1 + 2 x2
1
3
2 x1 + 4
⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gegeben X1 = x1
m(x1 ) = E(X2 | X1 = x1 )
Z1
=
Z1
x2 f (x2 | x1 )dx2 =
0
Nichtparametrisch@LS-Kneip
0
1
3
2 x1 + 2 x2
x2 1
3 dx2
x
+
2 1
4
=
134
1
4 x1
1
2 x1
+
+
1
2
3
4
1.4
Statistische Testverfahren
Einfache Zufallsstichprobe: X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 ) verteilt.
• Einseitiger Test
Nullhypothese H0 : : µ = µ0
Alternative H1 : µ > µ0
• Zweiseitiger Test
Nullhypothese H0 : µ = µ0
Alternative H1 : µ 6= µ0
Allgemeine Formulierung eines Testproblems:
H0 : θ ∈ Ω 0
gegen H1 : θ ∈ Ω1 ,
wobei die Mengen Ω0 und Ω1 jeweils die unter der Nullhypothese und der Alternative zulässigen Werte einer interessierenden
Gröÿe θ bezeichnen.
Im obigen Beispiel : Zweiseitiger Test ⇒ θ = µ, Ω0 = {µ0 },
Ω1 = {µ ∈ IR|µ 6= µ0 }
Einseitiger Test ⇒ θ = µ, Ω0 = {µ0 }, Ω1 = {µ ∈ IR|µ > µ0 }.
Einfache und zusammengesetzte Hypothesen: Je nachdem,
ob Ω0 bzw. Ω1 ein oder mehrere Elemente enthalten, heiÿen die
Hypothesen H0 bzw. H1 einfach oder zusammengesetzt.
Nichtparametrisch@LS-Kneip
135
Statistischer Test:
Verfahren zur Entscheidung zwischen
H0 und H1 auf der Grundlage der beobachteten Daten.
Teststatistik: Ein statistischer Test basiert auf einer Teststa-
tistik (auch: Prüfgröÿe) T = T (X1 , . . . , Xn ). Die Entscheidung
fällt auf der Grundlage des aus den Daten berechneten Werts
Tbeob von T . Je nach Realisation entscheidet man sich für oder
gegen die vorliegende Hypothese.
Ablehnbereich: Menge C derart, dass
• Tbeob 6∈ C ⇒ Entscheidung für H0
• Tbeob ∈ C ⇒ Entscheidung für H1
Typischerweise ist C von der Form (−∞, c0 ], [c1 , ∞) oder
(−∞, c0 ] ∪ [c1 , ∞). Die Grenzen der jeweiligen Intervalle werden
als kritische Werte bezeichnet und ergeben sich in den meisten
Fällen als Quantile der Verteilung von T unter der Nullhypothese.
Fehler 1. Art:
Fehler 2. Art:
H0 wird abgelehnt, obwohl H0 richtig ist
H0 wird angenommen, obwohl H0 falsch ist
Test zum Niveau
α (z.B. α = 5%)
P ( Fehler 1. Art ) = P (T ∈ C| H0 wahr) ≤ α
Nichtparametrisch@LS-Kneip
136
Illustration: Gauÿ Test
Beispiel: Qualitätskontrolle
Eine Maschine soll bestimmte Werkstücke mit einer Länge von
µ0 = 18.3 (mm) herstellen. Zufallsschwankungen um die mittlere
Länge sind normalverteilt mit Standardabweichung σ = 0.18.
Es ist bekannt, dass es aus technischen Gründen möglich ist,
dass sich die Maschine im Laufe der Zeit dejustieren kann, so
dass der wahre Erwartungswert µ eventuell ungleich µ0 = 18.3
ist. Gleichzeitig kann jedoch angenommen werden, dass die Standardabweichung σ = 0.18 unverändert bleibt.
Für eine Zufallsstichprobe von n = 9 Werkstücken aus der aktuellen Produktion ergab sich eine mittlere Länge X̄ = 18.48.
Testproblem (zweiseitig): H0 : µ = µ0 gegen H1 : µ 6= µ0
Testproblem (einseitig): H0 : µ = µ0 gegen H1 : µ > µ0
Das einseitige Problem ist dann von Interesse, wenn man zusätzlich
weiÿ, dass eine Dejustierung nur zu µ > 18.3 führen kann.
Teststatistk:
√
Z=
n(X̄ − µ0 )
σ
Unter H0 : Z ∼ N (0, 1)
Zweiseitiger Test zum Niveau α:
Lehne H0 ab, falls |Zbeob | > z1−α/2
Einseitiger Test zum Niveau α:
Lehne H0 ab, falls Zbeob > z1−α
Zbeob steht für den aus den Daten berechneten Wert von Z , während z1−α/2 bzw. z1−α die entsprechenden Quantile der Standardnormalverteilung sind.
Nichtparametrisch@LS-Kneip
137
Im Beispiel gilt Zbeob = 3 und somit für den zweiseitigen Test
• Test zum Signikanzniveau α = 0.05:
Es gilt z1−α/2 = z0.975 = 1.96
⇒ |Zbeob | = 3 > 1.96 = z1−α/2
⇒ Ablehnung der Nullhypothese;
• Test zum Signikanzniveau α = 0.01:
Es gilt z1−α/2 = z0.995 = 2.576
⇒ |Zbeob | = 3 > 2.576 = z1−α/2
⇒ Ablehnung der Nullhypothese
Signifikanztest zum Niveau α=0.05
0.4
0.3
Ablehnbereich
Ablehnbereich
0.2
0.1
0.0
-3
-2
-z0.975
-1
0
1
2
z0.975
3
zbeob
Signifikanztest zum Niveau α=0.01
0.4
Ablehn0.3
bereich
Ablehnbereich
0.2
0.1
0.0
-3
-z0.995
Nichtparametrisch@LS-Kneip
-2
-1
0
1
2
3
zbeob
z0.995
138
1.5
Der p-Wert
Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-
achteten Prüfgröÿenwert oder einen in Richtung der Alternative
extremeren Wert zu erhalten.
Interpretation:
• Glaubwürdigkeit von H0 : H0 ist wenig glaubwürdig, falls
der p-Wert sehr klein ist
• Der in einer konkreten Anwendung berechnete p-Wert hängt
von dem beobachteten Datensatz ab. Er liefert Informationen über die Resultate der zugehörigen Signikanztests
zu den verschiedenen Niveaus α :
α > p-Wert ⇒
Ablehnung von H0
α < p-Wert ⇒ Beibehaltung von H0
In der Praxis:
• Test signikant , falls p-Wert < 0.05 (d.h. ein Test zum
Niveau 5% führt zur Ablehnung von H0 )
• Häug: Test schwach signikant, falls 0.05 > p-Wert > 0.01
(d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0 ;
ein Test zum Niveau 1% führt dagegen zur Beibehaltung von
H0 )
Nichtparametrisch@LS-Kneip
139
Illustration: Gauÿ Test
Vorgehen: Unter H0 gilt Z ∼ N (0, 1). Man berechnet aus den
Daten den realisierten Wert zbeob . Der p-Wert ist nun die Wahrscheinlichkeit, unter der Standardnormalverteilung einen Wert
zu beobachten, der betragsmäÿig gröÿer oder gleich Zbeob ist.
Einseitiger Test:
p-Wert = P (Z ≥ Zbeob | H0 wahr) = 1 − Φ(Zbeob ),
wobei Φ die Verteilungsfunktion der Standardnormalverteilung
bezeichnet.
Zweiseitiger Test:
p-Wert = 2 min {P (Z ≥ Zbeob |H0 wahr), P (Z ≤ Zbeob |H0 wahr)}
= P (|Z| ≥ |Zbeob | |H0 wahr) = 2(1 − Φ(|Zbeob |))
Man beachte:
p-Wert = P (|Z| ≥ |Zbeob |H0 wahr) und α = P (|Z| ≥ z1−α/2 |H0 wahr))
⇒|Zbeob | > z1−α/2 , falls α > p-Wert
|Zbeob | < z1−α/2 , falls α < p-Wert
• Für einen gegebenen Datensatz lässt sich aus dem p-Wert
ablesen, zu welchem Niveau α der zugehörige Signikanztest
die Nullhypothese gerade noch verworfen hätte.
Falls α > p-Wert, so gilt |Zbeob | > z1−α/2 . Ein Test zu
einem Niveau α > p-Wert führt also zur Ablehnung der
Nullhypothese.
Falls α < p-Wert, so gilt |Zbeob | < z1−α/2 . Ein Test zu
einem Niveau α < p-Wert führt also zur Beibehaltung
der Nullhypothese.
Nichtparametrisch@LS-Kneip
140
Besipiel: Sei Zbeob = 1.77 ⇒ p-Wert = 0.076
α = 0, 1 > p-Wert ⇒ Ablehnung von H0
z0.95 =1.645<z beob
-z0.95 =-1.645
0.4
0.3
0.2
0.1
α/2=0.05
α/2=0.05
0.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
zbeob
2.5
3.0
α = 0, 076 = p-Wert
z0.962 =1.77=z beob
-1.77=-z beob
0.4
0.3
0.2
0.1
α/2=0.038
α/2=0.038
0.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
zbeob
2.5
3.0
α = 0, 02 < p-Wert ⇒ Annahme von H0
z0.99 =2.326>z beob
-z0.99 =-2.326
0.4
0.3
0.2
0.1
α/2=0.01
α/2=0.01
0.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
zbeob
Nichtparametrisch@LS-Kneip
141
Beispiel Qualitätskontrolle (zweiseitiger Test): Der in diesem
Beispiel tatsächlich beobachtete Wert ist Zbeob = 3.
⇒ p-Wert = P (|Z| ≥ 3 |H0 wahr)) = 2(1 − Φ(3)) = 0, 0026
Aus p-Wert = 0, 0026 lässt sich direkt schlieÿen, dass sowohl
ein Test zum Signikanzniveau α = 0, 05 als auch ein Test zum
Niveau α = 0, 01 zur Ablehnung von H0 führen. Das Testergebnis
ist hochsignikant.
Der p-Wert eines einseitigen Tests wird durch die folgende Figur
illustriert. Es sei Zbeob = 1.77 (⇒ p-Wert = 0.038)
z0.962 =1.77=z beob
0.4
0.3
0.2
0.1
0.038
0.0
-2.5
-2.0
Nichtparametrisch@LS-Kneip
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
zbeob
2.5
3.0
142
Illustration: t-Test
Es seien X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 ) verteilt.
µ und σ 2 seien unbekannt.
Testproblem: H0 : µ = µ0 gegen H1 : µ 6= µ0
Teststatistik des t-Tests:
T =
√
n(X̄ − µ0 )
S
Test zum Niveau α
• Einseitiger Test: Ablehnung von H0 , falls
Tbeobachtet ≥ tn−1;1−α
• Zweiseitiger Test: Ablehnung von H0 , falls
|Tbeobachtet | ≥ tn−1;1−α/2
Der p-Wert (Überschreitungswahrscheinlichkeit):
• Einseitiger Test:
p-Wert = P (Tn−1 ≥ Tbeobachtet )
• Zweiseitiger Test:
p-Wert = P (|Tn−1 | ≥ |Tbeobachtet |)
Nichtparametrisch@LS-Kneip
143
Daten:
X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90,
n = 5.
⇒ X̄ = 18.1
Testproblem: H0 : µ = 17 gegen H1 : µ 6= 17
√
5(18.1 − 17)
= 2.187
1.125
⇒ p-Wert = P (|Tn−1 | ≥ 2.187) = 0.094
Tbeobachtet =
Tests zu verschiedenen Niveaus α:
α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0
α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0
α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187
⇒ Ablehnung von H0
α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0
α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0
Nichtparametrisch@LS-Kneip
144
1.6
Die Gütefunktion
Allgemein: Für jeden möglichen Wert θ ∈ Ω0 ∪ Ω1 lässt sich die
Wahrscheinlichkeit
β(n, α; θ)
:= P ( Ablehnung von H0 , falls wahrer Parameterwert gleich θ)
berechnen.
Diese sogenannte Gütefunktion β ist ein wichtiges Werkzeug
zur Beurteilung der Qualität eines Tests und zum Vergleich verschiedener Testprozeduren. β hängt vom Parameterwert θ, dem
Signikanzniveau α und der Stichprobengröÿe n ab.
• β(n, α; θ) ≤ α für alle θ ∈ Ω0
Bei der Konstruktion eines sinnvollen Tests wird natürlich im
Allgemeinen darauf geachtet, das Niveau α voll auszuschöpfen. Es gilt dann β(n, α; θ) = α für mindestens ein θ ∈ Ω0 .
In manchen Fällen, z.B. bei diskreten Teststatistiken oder
bei komplizierten, zusammengesetzten Nullhypothesen, ist es
jedoch nicht möglich, ein vorgegebenes Niveau α voll auszuschöpfen und es gilt β(n, α; θ) < α für alle θ ∈ Ω0 . Man
spricht dann von einem konservativen Test.
• Güte eines Tests: Bei der Beurteilung der Qualität eines
Tests sind die Werte von β(n, α; θ) für θ ∈ Ω1 von entscheidender Bedeutung. Für θ ∈ Ω1 ist β(n, α; θ) die Wahrscheinlichkeit, die richtige Entscheidung zu treen und H1 anzunehmen. Diese Wahrscheinlichkeit sollte natürlich möglichst
groÿ sein. Ein Test hat eine umso höhere Güte, je näher
β(n, α; θ) bei 1 liegt für θ ∈ Ω1 .
Nichtparametrisch@LS-Kneip
145
• Unverfälschter Test: Ein Test zum Niveau α heiÿt unverfälscht, wenn β(n, α; θ) ≥ α für alle θ ∈ Ω1 . Für einen
unverfälschten Test ist also die Wahrscheinlichkeit H0 abzulehnen, wenn H0 falsch ist, mindestens so groÿ wie jene, H0
abzulehnen, wenn H0 zutrit.
• Konsistenter Test: Ein Test zum Niveau α heiÿt konsistent, falls
lim β(n, α; θ) = 1
n→∞
für alle θ ∈ Ω1 . Bei einem konsistenten Test konvergiert
also die Wahrscheinlichkeit, die Nullhypothese für θ ∈ Ω1
korrekterweise abzulehnen, mit wachsendem Stichprobenumfang gegen 1.
• Gleichmäÿig bester Test für ein gegebenes Testproblem:
Ein Test mit Gütefunktion β(n, α; θ) heiÿt gleichmäÿig bester Test (uniformly most powerful), falls für jeden alternativen Test mit Gütefunktion β ∗ (n, α; θ)
β(n, α; θ) ≥ β ∗ (n, α; θ) für alle n und θ ∈ Ω1
Leider lassen sich gleichmäÿig beste Tests nur für wenige,
sehr spezielle Testprobleme konstruieren.
Nichtparametrisch@LS-Kneip
146
Beispiel Qualitätskontrolle (Gauÿ-Test):
• Wenn H1 wahr ist, so hängt die Güte β(n, α; µ) des Tests
von dem wahren Wert µ ∈ Ω1 ab.
Sei H1 wahr
und µ = 18.36 wahrer Parameterwert
√
⇒ Z = n(X̄−18.3)
∼ N (1, 1)
σ
⇒ β(9, 0.05; 18.36) = P (|Z| ≥ z1−α/2 |µ = 18.36) = 0.168
H1 wahr und µ=18,36: Z~N(1,1)
0.4
0.3
0.2
β
0.1
0.0
-2
-z0.975
0
2
4
z0.975
Sei H1 wahr
und µ = 18, 48 wahrer Parameterwert
√
⇒ Z = n(X̄−18.3)
∼ N (3, 1)
σ
⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z1−α/2 |µ = 18.48) = 0.873
H_1 wahr und µ=18,48: Z~N(3,1)
0.4
0.3
0.2
0.1
β
0.0
-2
-z0.975
Nichtparametrisch@LS-Kneip
0
2
4
z0.975
147
Beispiel Qualitätskontrolle (Gauÿ-Test):
• Es ist nicht möglich, beide Fehlerwahrscheinlichkeiten gleichzeitig beliebig klein zu machen. Je kleiner α, desto gröÿer die
Wahrscheinlichkeit eines Fehlers 2. Art, d.h. desto kleiner β .
Sei H1 wahr und µ = 18.48 ∈ Ω1 wahrer Parameterwert ⇒
Z ∼ N (3, 1)
α = 0.05 ⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z0,975 |µ = 18.48) = 0.873
| {z }
1.96
Niveau α=0,05 (H_1 wahr und µ=18,48)
0.4
0.3
0.2
0.1
β
0.0
-2
-z0.975
0
2
4
z0.975
α = 0.01 ⇒ β(9, 0.01; 18.48) = P (|Z| ≥ z0,995 |µ = 18.48) = 0.663
| {z }
2.576
Niveau α=0,01 (H 1 wahr, µ=18,48)
0.4
0.3
0.2
0.1
β
0.0
-2
-z0.995
Nichtparametrisch@LS-Kneip
0
2
z0.995
4
148
Beispiel Qualitätskontrolle (Gauÿ-Test):
• Für festes Signikanzniveau wird β(n, α; µ) umso gröÿer, je
gröÿer der Stichprobenumfang n ist.
• H0 wahr: Unabhängig von n gilt Z =
√
n(X̄−18.3)
σ
⇒ P ( Fehler 1. Art ) = α
• Sei H1 wahr und µ = 18.36. Dann gilt
√
√ 1
n(X̄ − 18.3)
Z=
∼ N ( n , 1)
σ
3
und es ergibt sich
n=9
β(9, 0.05; 18.36) = 0.168
n = 36
β(36, 0.05; 18.36) = 0.516
n = 81
β(81, 0.05; 18.36) = 0.873
n = 144
β(144, 0.05; 18.36) = 0.979
Nichtparametrisch@LS-Kneip
149
∼ N (0, 1)
1.7
Asymptotische relative Ezienz
Im Folgenden betrachten wir einseitige Testprobleme mit einfachen Nullhypothesen der Form H0 : θ = θ0 , θ, θ0 ∈ IR, und
zusammengesetzten Alternativen der Form H1 : θ > θ0 oder
H1 : θ < θ 0 .
Das von Pitman entwickelte Konzept der asymptotischen relativen Ezienz erlaubt nun den Vergleich der Güte zweier konsistenter Testverfahren, die sich jeweils durch verschiedene Teststatistiken T1 bzw. T2 und zugehörige Gütefunktionen β1 (n, α; θ)
bzw. β2 (n, α; θ) charakterisieren lassen.
Das Ezienzmaÿ beruht auf der Einsicht, dass es bei einem Vergleich unterschiedlicher Tests nicht sehr sinnvoll ist, die Güte
von sehr weit von θ0 entfernten Alternativen θ, |θ − θ0 | groÿ,
zu betrachten. Für jeden vernünftigen, konsistenten Test ist für
solche Alternativen der Wert von β nahe 1. Interessant sind lokale Alternativen θ, die relativ nahe bei θ0 liegen. Der konkrete
Abstand |θ − θ0 | muss hierbei in Abhängigkeit vom Stichprobenumfang betrachtet werden.
Die folgende Konstruktion des Ezienzmaÿes beruht auf der Voraussetzung, dass die Gütefunktionen β1 (n, α; θ) und β2 (n, α; θ)
jeweils monoton wachsende Funktionen des Abstands |θ − θ0 |
sind, und dass lim|θ|→∞ β1 (n, α; θ) = lim|θ|→∞ β1 (n, α; θ) = 1.
• Man betrachtet eine Folge lokaler Alternativen θ1 , θ2 , . . . mit
|θ1 − θ0 | > |θ2 − θ0 | > . . . und limi→∞ θi = θ0 .
• Für vorgegebene 0 < α < 1 und 0 < β < 1 berechnet man
nun für Test 1 eine zugehörige Folge n1 , n2 , . . . von Stichprobengröÿen derart, dass für alle i = 1, 2, . . . der Wert der
Nichtparametrisch@LS-Kneip
150
Gütefunktion β1 (ni , α; θi ) möglichst nahe an β ist, d.h.
β1 (ni , α; θi ) ≈ β
Anmerkung: Exakte Gleichheit β1 (ni , α; θi ) = α ist z.B. für
diskrete Teststatistiken nicht immer erreichbar.
• Für den zweiten Test wird sodann eine zugehörige Folge von
Stichprobenumfängen m1 , m2 , . . . bestimmt, so dass für alle
i = 1, 2, . . . der Wert der Gütefunktion β2 (mi , α; θi ) möglichst nahe an β ist, d.h.
β2 (mi , α; θi ) ≈ β
• Asymptotische relative Ezienz des Tests T1 zum
Test T2 :
mi
,
ET1 ,T2 = lim
i→∞ ni
vorausgesetzt, dass dieser Limes existiert und für jede Wahl
von {θi } und α, β derselbe ist.
Interpretation:
• ET1 ,T2 = 1 ⇒ beide Tests annähernd gleich ezient (für
lokale Alternativen)
• ET1 ,T2 = γ < 1 ⇒ Test 2 ist ezienter als Test 1! Um annähernd die gleiche (lokale) Güte zu erreichen, werden von
Test 2 um den Faktor γ weniger Beobachtungen gebraucht
als von Test 1.
• ET1 ,T2 = γ ∗ > 1 ⇒ Test 1 ist ezienter als Test 2! Um
annähernd die gleiche (lokale) Güte zu erreichen, werden von
Test 2 um den Faktor γ mehr Beobachtungen gebraucht als
von Test 1.
Nichtparametrisch@LS-Kneip
151
2
Die empirische Verteilungsfunktion,
Ordnungsstatistiken und nichtparametrische Tests
Gegeben: Stetige Zufallsvariable X mit Dichtefunktion f und
Verteilungsfunktion F (d.h. f (t) = F 0 (t))
Daten: Einfache Zufallsstichprobe X1 , . . . , Xn
2.1
Die empirische Verteilungsfunktion
Ein wichtiges Werkzeug zur Analyse solcher Daten ist die sogenannte empirische Verteilungsfunktion.
Absolute kumulierte Häugkeitsverteilung:
Hn (x) = Anzahl der Werte Xi mit Xi ≤ x
Empirische Verteilungsfunktion:
Fn (x) = Hn (x)/n = Anteil der Werte Xi mit Xi ≤ x
Eigenschaften:
• 0 ≤ Fn (x) ≤ 1
• Fn (x) = 0, falls x < X(1) , wobei X(1) - kleinster beobachteter
Wert
• F (x) = 1, falls x ≥ X(n) , wobei X(n) - gröÿter beobachteter
Wert
• Fn monoton wachsende Treppenfunktion
Nichtparametrisch@LS-Kneip
21
Beispiel:
Preise (in Euro) für eine Pizza mit Salami und Pilzen in acht
zufällig ausgewählten Pizzerien in Bonn
x1
x2
x3
x4
x5
x6
x7
x8
5,20
4,80
5,40
4,60
6,10
5,40
5,80
5,50
Empirische Verteilungsfunktion:
1.0
0.8
0.6
0.4
0.2
0.0
4.0
4.5
Nichtparametrisch@LS-Kneip
5.0
5.5
6.0
6.5
22
Die empirische Verteilungsfunktion ist mit der sogenannten Ordnungsstatistik eng verbunden.
• Als Ordnungsstatistik bezeichnet man das n-Tupel
(X(1) , . . . , X(n) ), wobei X(1) ≤ X(2) ≤ · · · ≤ X(n) die der
Gröÿe nach geordneten Werte der Stichprobe sind.
• Für alle r = 1, . . . , n wird X(r) als r-te Ordnungsstatistik
bezeichnet
Konstruktion von Fn (x) anhand von X(1) ≤ X(2) ≤ · · · ≤
X(n) :
• Fn (x) = 0, falls x < X(1)
• Fn (x) = 1, falls x ≥ X(n)
• Fn (X(i) ) = Fn (X(i−1) ) + n1
Fn (x) = F (X(i) ), falls x ∈ [X(i) , X(i+1) )
Achtung: Falls alle xi voneinander verschieden sind, wächst F (x)
an jedem Beobachtungswert genau um den Betrag
1
;
n
sind zwei
Beobachtungen gleich, so wächst F (x) an dem entsprechenden
Zahlenwert um den Betrag
um
3
,
n
2
,
n
bei drei gleichen Beobachtungen
etc.
• Fn (x) = 1, falls x ≥ x(n)
• Fn hängt von den Werten der beobachteten Stichprobe ab,
d.h. für jedes x ist Fn (x) eine Zufallsvariable.
• Fn ist diskret mit den Realisationsmöglichkeiten m/n (m =
0, 1, . . . , n).
Nichtparametrisch@LS-Kneip
23
Theoretische Eigenschaften der empirischen Verteilungsfunktion:
Satz 1: Für jedes feste x gilt
nFn (x) ∼ B(n, F (x)),
d.h. nFn (x) ist binomialverteilt mit den Parametern n und F (x).
Die Wahrscheinlichkeitsverteilung von Fn (x) ist somit gegeben
durch
 
³
m´ n
P Fn (x) =
=
F (x)m (1−F (x))n−m , m = 0, 1, . . . , n
n
m
Folgerungen:
• E(Fn (x)) = F (x), d.h. Fn (x) ist ein erwartungstreuer Schätzer von F (x)
• V ar(Fn (x)) = n1 F (x)(1 − F (x)), d.h. mit wachsender Stichprobengröÿe verringert sich die Streuung von Fn (x) um F (x)
(Fn (x) ist ein konsistenter Schätzer von F (x)).
Satz von Glivenko-Cantelli:
Ã
P
!
lim sup |Fn (x) − F (x)| = 0
x∈IR
n→∞
Nichtparametrisch@LS-Kneip
=1
24
Die Verteilung von Y = F (X)
Man beachte den Unterschied zwischen F (x) und F (X):
• Für gegbenes x ∈ IR ist F (x) eine feste Zahl,
F (x) = P (X ≤ x)
• F (X) ist eine Zufallsvariable, wobei F die zu X gehörende
Verteilungsfunktion ist
Satz 2: X habe die stetige Verteilungsfunktion F . Dann ist Y =
F (X) gleichverteilt auf dem Intervall [0, 1], d.h.
F (X) ∼ U (0, 1),
P (a ≤ F (X) ≤ b) = b − a für alle 0 ≤ a < b ≤ 1
Folgerung: Für stetiges F können
• F (X1 ), . . . , F (Xn ) als Stichprobenvariablen bezüglich der gleichverteilten Zufallsvariablen F (X)
• (F (X(1) ), . . . , F (X(n) ) als Ordnungsstatistik aus einer gleichverteilten Grundgesamtheit
aufgefasst werden.
Nichtparametrisch@LS-Kneip
25
2.2
Quantile
Quantile sind ein wichtiges Werkzeug der nichtparametrischen
Statistik. Sie liefern wichtige Maÿzahlen z.B. zur Charakterisierung von Lage und Streuung einer Verteilung.
Quantil: Sei 0 < p < 1. Jede Zahl ψp mit der Eigenschaft
P (X < ψp ) ≤ p ≤ P (X ≤ ψp )
heiÿt p-tes Quantil (oder kurz p-Quantil) der Zufallsvariablen X
• Falls die Verteilungsfubktion F streng monoton steigend ist,
so sind alle p-Quantile durch p = F (ψp ) eindeutig bestimmt.
• Enthält F konstante Segmente (z.B. bei diskreten Zufallsvariablen), so sind manche p-Quantile nicht eindeutig, und es
gibt Intervalle von möglichen Lösungen (in der Praxis wird
dann häug mit dem Mittelwert des jeweiligen Intervalls gerechnet).
Wichtige Quantile:
• µmed = ψ0.5 heiÿt Median (mindestens 50% der Beobachtungen sind kleiner gleich ψ0.5 und mindestens 50% der Beobachtungen sind gröÿer gleich ψ0.5 )
In der nichtparametrischen Statistik dient häug der Median
(anstatt des Mittelwerts) als Lagemaÿ zur Bestimmung des
Zentrums einer Verteilung
Vorteile des Medians: Robust gegen Ausreiÿer; im Gegensatz zum Mittelwert auch bei extrem links bzw. rechtssteilen
Verteilungen gut interpretierbar.
• ψ0.25 bzw. ψ0.75 heiÿen unteres bzw. oberes Quartil
Nichtparametrisch@LS-Kneip
26
Der Quartilsabstand QA = ψ0.75 − ψ0.25 ist ein häug verwendetes Streuungsmaÿ.
• ψ0.1 bzw. ψ0.9 heiÿen 1. bzw. 9. Perzentil
Quantile der empirischen Verteilung:
Gegeben: Einfache Zufallsstichprobe X1 , . . . , Xn
Approximationen der wahren Quantile der zugrunde liegenden
Verteilung erhält man unter Benutzung der Ordnungsstatistiken
X(r) . Die Denition der entsprechenden empirischen Quantile
folgt den oben angegebenen Formeln, allerdings müssen Wahrscheinlichkeiten durch relative Häugkeiten ersetzt werden.
(empirisches) p-Quantil: Wert ψn;p mit 0 < p < 1, so daÿ
Anzahl xi ≤ψn;p
n
≥ p und
Anzahl xi ≥ψn;p
n
≥1−p
ψn;p = x([np]+1) , wenn np nicht ganzzahlig
ψn;p = (x(np) + x(np+1) )/2, wenn np ganzzahlig
[np] ist die zu np nächste kleinere ganze Zahl.
Anmerkung: Falls np nicht ganzzahlig, so ist ψn;p eindeutig bestimmt;
falls np ganzzahlig, so gibt es ein Intervall von prinzipiell möglichen
Werten.
Nichtparametrisch@LS-Kneip
27
Der Boxplot ist ein häug verwendetes Werkzeug zur graschen
Darstellung von Datenmaterial. Er basiert auf der Verwendung
von Quantilen.
Boxplot:
• ψn;0,25 - Anfang der Schachtel (Box)
ψn;0,75 - Ende der Schachtel (Box)
⇒ QA - Länge der Schachtel (Box)
• Der Median ψn;0,75 wird durch Strich in der Box markiert
(manchmal wird auch x̄ durch eine gestrichelte Linie markiert)
• Man bestimmt die Zäune
zl = ψn;0,25 − 1, 5 · QA
und
zu = ψn;0,75 + 1, 5 · QA
• Zwei Linien (Whiskers) gehen zum kleinsten und gröÿten
Beobachtungswert innerhalb des Bereichs [zl , zu ] der Zäune
• Beobachtungen auÿerhalb der Zäune zl , zu werden einzeln
eingezeichnet
Boxplots liefern Informationen über wichtige Charakteristika einer Verteilung:
• Lage und Streuung
• Struktur (symmetrisch, rechtssteil, linkssteil)
• Existenz von Ausreiÿern
Nichtparametrisch@LS-Kneip
28
Graphische Darstellung einiger
Mazahlen der Lage und der Variation
Boxplot (Box{Whisker{Plot, Schachtelzeichnung)
x0;75
+ 3QA
x0;75
+ 1; 5QA (upper fence)
?
Æ
x0;75
x0;5
Æ
?
QA
x0;25
x0;25
1; 5QA (lower fence)
x0;25
3QA
Nichtparametrisch@LS-Kneip
29
Beispiel:
Geordnete Urliste (n=10):
0,1
0,1
0,2
0,4
0,5
0,7
0,9
1,2
1.5
2.0
1,4
1,9
Histogramm:
0.8
0.6
0.4
0.2
0.0
0.0
0.5
1.0
x
Boxplot:
0.0
0.5
1.0
1.5
2.0
x
Nichtparametrisch@LS-Kneip
210
40
30
20
0
10
Stundenlohn
Frauen
Nichtparametrisch@LS-Kneip
Maenner
211
Kondenzintervalle für Quantile
Für 0 < p < 1 ist ψn;p natürlich nur eine Approximation des
wahren Quantils ψp und hängt von den Beobachtungswerten
(Zufall!) ab. Es ist daher von Interesse ein Kondenzintervall für
ψp zu konstruieren.
Die Grundidee zur Konstruktion eines Konenzintervalls zum Niveau 1 − α besteht in der Verwendung von Ordnungsstatistiken
und der Bestimmung von Zahlen l, m ∈ {1, . . . , n} derart, dass
¢
¡
P X(l) < ψp < X(m) ≈ 1 − α
Man beachte, dass
¡
¢
P X(l) < ψp < X(m) = P (X(l) < ψp ) − P (X(m) < ψp )
= P (F (X(l) ) < p) − P (F (X(m) ) < p)
F (X(l) ) bzwm F (X(m) ) lassen sich als Ordnungsstatistiken aus
einer gleichverteilten Grundgesamtheit auassen. Nach einigen
Rechnungen erhält man
 
m−1
X n
  pi (1 − p)n−i
P (F (X(l) ) < p) − P (X(m) < ψp ) =
i
i=l
= P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1),
wobei Bn,p eine Zufallsvariable ist, die einer Binomialverteilung
mit den Parametern n und p folgt. Die entsprechenden Wahrscheinlichkeiten lassen sich den Tabellen der Binomialverteilung
entnehmen. Typischerweise existieren keine Zahlen l, m derart,
dass P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1) exakt gleich 1 − α ist.
In der Praxis werden daher l und m so bestimmt, dass
• P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1) ≈ 1 − α,
m − l kleinstmöglich
Nichtparametrisch@LS-Kneip
212
2.3
Nichtparametrische Testverfahren
Es existiert eine fast unüberschaubare Vielzahl von nichtparametrischen Testverfahren für die verschiedensten Fragestellungen.
Im Folgenden werden nur einige ausgewählte Methoden vorgestellt. Verschiedene nichtparametrische Tests beruhen auf teilweise völlig unterschiedlichen Grundideen. Es gibt jedoch eine Reihe
von allgemeinen Grundsätzen, die eine gemeinsame Grundlage
vieler Testprozeduren bilden:
• Allgemeinheit: Die zu testende Nullhypothese wird in allgemeiner Form formuliert (keine Parametrisierung; insbesondere keine Abhängigkeit von Existenz und Werten der Parameter spezischer Verteilungen)
• Verteilungsfreiheit: Die Verteilung der Teststatistik unter der
Nullhypothese sollte (tendenziell) verteilungsfrei sein, d.h.
unabhängig von der spezischen Struktur der zugrundeliegenden Verteilung der interessierenden Variable sein.
• Robustheit: Möglichst geringer Einuss von möglichen Ausreiÿern innerhalb der vorliegenden Daten
2.4
Anpassungstests
Anpassungstests (Goodness-of-Fit Tests) dienen zur Überprüfung der Hypothese, ob eine beobachtete Variable eine bestimmte, spezierte Verteilung besitzt, wie z.B. eine Exponentialverteilung mit Parameter λ = 1 oder eine Normalverteilung mit
Mittelwert 0 und Varianz 1. Die Grundidee solcher Tests besteht
darin zu untersuchen, ob sich die beobachtete Verteilung hinreichend gut der hypothetischen Verteilung anpasst.
Nichtparametrisch@LS-Kneip
213
Der Kolmogoro-Smirno Test
Gegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F
Daten: Einfache Zufallsstichprobe X1 , . . . , Xn
Ziel: Test der Nullhypothese H0 : F = F0 , wobei F0 eine genau
spezizierte Verteilungsfunktion ist.
Beispiele: F0 - Verteilungsfunktion einer Normalverteilung mit
Mittelwert 0 und Varianz 1; F0 - Verteilungsfunktion einer Exponentialverteilung mit Parameter λ = 1.
• Fn (x) ist ein erwartungstreuer und konsistenter Schätzer von
F (x)
• Falls die Nullhypothese F = F0 also richtig ist, sollten die
Abweichungen |Fn (x) − F0 (x)| rein zufällig und hinreichend
klein sein.
Diese Einsichten führen auf den Kolmogoro-Smirno Test.
Testproblem:
H0 : F (x) = F0 (x) für alle x ∈ IR
H1 : F (x) 6= F0 (x) für mindestens ein x ∈ IR
Teststatistik:
Dn = sup |Fn (x) − F0 (x)|
x∈IR
Ablehnung von H0 , falls Dn > dn,1−α
Hierbei bezeichnet dn,1−α das 1 − α-Quantil der Verteilung von
Dn unter der Nullhypothese.
Nichtparametrisch@LS-Kneip
214
Frage: Verteilung von Dn unter H0 ?
a) Unter der Nullhypothese F = F0 ist die Teststatistik Dn
für alle stetigen Verteilungsfunktionen F0 verteilungsfrei und
stimmt mit der Verteilung der Zufallsvariable Dn∗ ,
Dn∗ = sup |y − Fn∗ (y)|,
y∈[0,1]
überein. Hierbei bezeichnet Fn∗ die empirische Verteilungsfunktion einer einfachen Zufallsstichprobe aus einer U (0, 1)Verteilung.
b) Asymptotische Verteilung (groÿe Stichproben): Für alle
λ > 0 gilt
√
lim P (Dn ≤ λ/ n) = 1 − 2
n→∞
∞
X
(−1)k−1 e−2k
2
λ2
k=1
• Ergebnis a) impliziert, dass sich die kritischen Werte des
Kolmogoro-Smirno Tests durch Monte-Carlo-Simulationen
(am Computer) approximieren lassen.
Mit Hilfe eines Zufallszahlengenerators werden n unabhängige, auf [0, 1] gleichverteilte Zufallszahlen erzeugt und
∗
= supy∈IR |y − Fn∗ (y)| berechder zugehörige Wert Dn,1
net.
Diese Prozedur wird k mal wiederholt (k groÿ, z.B. k =
2000)
∗
∗
∗
, Dn,2
, . . . , Dn,k
⇒ k Werte: Dn,1
Das (1 − α)-Quantil der empirischen Verteilung von
∗
∗
∗
, . . . , Dn,k
liefert eine Approximation von dn,1−α
, Dn,2
Dn,1
(umso genauer, je gröÿer k )
Nichtparametrisch@LS-Kneip
215
• Für kleine Werte von n sind die kritischen Werte dn,1−α tabelliert.
Beispiel: (aus Büning und Trenkler)
Es sei zu testen, dass für einen bestimmten PKW-Typ der Benzinverbrauch in Litern pro 100 km bei einer Geschwindigkeit von
100 km/h normalverteilt ist mit µ = E(X) = 12 und σ = 1. Eine
einfache Zufallsstichprobe von 10 Fahrzeugen dieses Typs ergab
folgenden Literverbrauch:
12.4
11.8 12.9 12.6 13.0 12.5
12.0 11.5 13.2 12.8
Man erhält (n = 10): D10 = 0.3554
Kritischer Wert des Kolmogoro-Smirno Tests für n = 10 und
α = 0.05: d10,0.95 = 0.409
⇒ Annahme der Nullhypothese, da 0.3554 < 0.409
Anmerkung: Der Test ist auch für diskrete Verteilungen (F
nicht stetig) anwendbar. Er ist dann konservativ, d.h. unter
der Nullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Art
kleiner gleich α.
Nichtparametrisch@LS-Kneip
216
Behandlung von zusammengesetzten Nullhypothesen
Man spricht von einer zusammengesetzten Nullhypothese, falls
F0 (x) ≡ F0 (x, θ) nur bis auf unbekannte Parameter θ ∈ IRm
speziziert ist. Ein Beispiel ist eine Normalverteilung mit unbekanntem Mittelwert und unbekannter Varianz, d.h. θ = (µ, σ 2 ).
In einem solchen Fall möchte man also testen, ob die Daten normalverteilt sind (mit beliebigem Mittelwert und Varianz).
Testproblem:
H0 : F (x) = F0 (x, θ) für alle x ∈ IR; θ unbekannt
H1 : Für alle möglichen θ: F (x) 6= F0 (x, θ) für mindestens
ein x ∈ IR
Teststatistik:
Dn = sup |Fn (x) − F0 (x, θ̂)|
x∈IR
Hierbei bezeichnet θ̂ die Maximum-Likelihood Schätzung von θ
P
(z.B. θ̂ = (X̄, σ̂ 2 ), σ̂ 2 = n1 i (Xi − X̄)2 , im Falle einer Normalverteilung).
Ablehnung von H0 , falls Dn > dn,1−α
• Im Allgemeinen werden die gleichen kritischen Werte genommen wie beim Test einer einfachen Nullhypothese (siehe
oben). Der Test ist in diesem Fall konservativ, d.h. unter der
Nullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Art
kleiner gleich α.
• Für den Spezialfall einer Normalverteilung wurden von Lilliefors exakte kritische Werte berechnet. Der resultierende
Test von Lillifors ist in vielen statistischen Programmpaketen implementiert.
Nichtparametrisch@LS-Kneip
217
Der χ2 -Anpassungstest
Daten:
• Zufallsstichprobe X1 , . . . , Xn i.i.d.
• Xi nimmt nur q verschiedene Werte an Xi ∈ {a1 , . . . , aq }
Verteilungshypothese: Die Verteilung von X ist so, dass
P (X = aj ) = πj0 ,
j = 1, . . . , q
wobei π10 , . . . , πq0 vorgegebene Werte
χ2 -Anpassungstest:
• Test von H0 : πi = P (X = aj ) = πj0 gegen
H1 : πj 6= πj0 für ein j = 1, . . . , q
• der Test beruht auf Vergleich von
nj = Anzahl der Xi , i = 1, . . . , n, mit Xi = aj
mit der zu erwartenden Häugkeit unter
H0 : E(nj ) = nπj0
Teststatistik:
q
X
(nj − nπj0 )2
Q=
0
nπ
j
j=1
Asymptotische Approximation (n groÿ):
Q ∼ χ2q−1
⇒ Ablehnung von H0 , falls Q ≥ χ2q−1,1−α
Nichtparametrisch@LS-Kneip
218
Anmerkung: Unter H0 folgen n1 , . . . , nq einer sogenannten Multinomialverteilung:
P (n1 = m1 , . . . , nq = mq ) =
n!
(π10 )m1 · (π20 )m2 · · · (πq0 )mq
m1 ! · · · mq !
Jede Anwendung des χ2 -Tests auf stetige Verteilungen erfordert
eine Gruppierung Daten in q Klassen.
Anwendung: Test auf univariate Standardnormalverteilung
• Unterteilung der reellen Achse in q disjunkte Teilintervalle
A1 , . . . , Aq
NH0,1L
Πi 0 =à
Ai
1
1
€€€€€€€€
€€€€€ expH- €€€€ x2 Lâx
!!!!!!!
2
2Π
A1 A2 ......... Aq
• Berechnung der theoretischen Wahrscheinlichkeiten
µ
¶
Z
1
1
√ exp − x2 dx
πj0 = P (X ∈ Aj ) =
2
2π
Aj
(P : Normalverteilung)
• Berechnung von nj = Anzahl der Beobachtungen, die in das
Intervall Aj fallen
⇒ χ2 -Test
Nichtparametrisch@LS-Kneip
219
Verallgemeinerung: Test auf Normalverteilung (Xi ∼ N (µ, σ 2 ))
• Vorgehen analog; aber: theoretische Wahrscheinlichkeiten
¶
µ
Z
2
1
1
(X
−
µ)
√
πj0 ≡ πj0 (µ, σ) = P (X ∈ Aj ) =
dx
exp −
2
σ2
2πσ
Aj
hängen nun von unbekannten Parametern µ, σ 2 ab!
• Bestimmung von Schätzungen µ̂ und σ̂ und Approximation
der theoretischen Wahrscheinlichkeiten durch πj0 (µ̂, σ̂)
• Teststatistik:
¢2
q ¡
0
X
nj − nπj (µ̂, σ̂)
Q=
0 (µ̂, σ̂)
nπ
j
j=1
• Unter H0 : Q ∼ χ2q−3
Allgemein: Zusammengesetzte Verteilungshypothese
m unbekannte Parameter zu schätzen
⇒ Unter H0 : Q ∼ χ2q−m−1
• Es gibt theoretische Arbeiten, die zeigen, dass Q asymptotisch
nicht χ2 -verteilt ist, wenn die Parameter nach der MaximumLikelihood Methode aus ungruppierten Daten geschätzt werden
P
(z.B. bei Verwendung von µ̂ = X̄ , σ̂ 2 = n1 i (Xi − X̄)2 ).
• Die Approximation Q ∼ χ2q−m−1 ist jedoch für groÿes n korrekt, wenn die unbekannten Parameter θ ∈ IRm nach der χ2 Minimum Methode geschätzt werden: θ̂ = (θ̂1 , . . . , θ̂m )τ minimieren Q, d.h. sie sind Lösungen der nachfolgenden m Gleichungen
(j = 1, . . . , m):
Ã
!
q
0
0
2
X
nj − nπj (θ̂)
(nj − nπj (θ̂))
∂πj0 (θ̂)
−1 ∂Q
=
=0
+
0
0
2
2 ∂θ`
∂θ
`
πj (θ̂)
2πj (θ̂)
j=1
Nichtparametrisch@LS-Kneip
220
2.5
Einstichprobentests: Lineare Rangtests
Rangtests spielen eine zentrale Rolle unter den nichtparametrischen Testverfahren. Sie zeichnen sich oft durch Robustheit und
eine relativ hohe Ezienz aus.
Ränge:
Man betrachte eine einfache Zufallsstichprobe X1 , . . . , Xn
Ränge sind eng verbunden mit der zugehörigen Ordnungsstatistk
(X(1) , . . . , X(n) ). Im Folgenden wird der Rang einer Beobachtung
Xi mir r(Xi ) bezeichnet.
r(Xi ) = Anzahl aller Beobachtungen Xj , j = 1, . . . , n, mit Xj ≤ Xi
= Platznummer von Xi in der Ordnungstatistik
Xi kleinste Beobachtung ⇒ r(Xi ) = 1
Xi zweitkleinste Beobachtung ⇒ r(Xi ) = 2
..
.
Xi zweitgröÿte Beobachtung ⇒ r(Xi ) = n − 1
Xi gröÿte Beobachtung ⇒ r(Xi ) = n
Achtung: Es wird angenommen, dass alle Xi ungleich sind; für
stetige Variablen gilt P (Xi = Xj ) = 0, falls i 6= j .
Nichtparametrisch@LS-Kneip
221
• Da X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen sind, ist r(X1 ), . . . , r(Xn ) formal als zufällige Permutation aller ganzen Zahlen zwischen 1 und n anzusehen.
• E(r(Xi ) =
n+1
2
• V ar(r(Xi ) =
n2 −1
12
Beispiele (n=5):
Xi
r(Xi )
Xi
r(Xi )
0, 3
1, 5
−0, 1
0, 8
1, 0
2
5
1
3
4
2, 0
0, 5
0, 9
1, 3
2, 6
4
1
2
3
5
Mögliches Problem: Existenz von Bindungen (engl. Ties), d.h.
von identischen Meÿwerten
Übliche Lösung: Übergang zu Durchschnittsrängen
Beispiele (n=5):
Xi
1, 09
2, 17
2, 17
2, 17
3, 02
1
3
3
3
5
Xi
0, 5
0, 5
0, 9
1, 3
1, 3
r(Xi )
1, 5
1, 5
3
4.5
4.5
r(Xi )
Man beachte: Im Falle der Existenz von Bindungen ist die empi2
rische Varianz von r(Xi ) notwendigerweise kleiner als n 12−1 .
Nichtparametrisch@LS-Kneip
222
Lineare Rangstatistiken:
Gegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F
Daten: Einfache Zufallsstichprobe X1 , . . . , Xn
Nichtparametrische Einstichprobentests befassen sich mit Hypothesen bzgl. der Lage einer Verteilung. Die Nullhypothese lässt
sich typischerweise so formulieren, dass der Median der Verteilung gleich einem fest vorgegebenen Wert µ0 ist. Zur Vereinfachung betrachten wir im Folgenden nur zweiseitige Tests. Einseitige Testprobleme lassen sich jedoch völlig analog behandeln.
Testproblem:
H0 : µmed = µ0
H1 : µmed 6= µ0
Beispiel: (aus Büning und Trenkler)
Zur Untersuchung der Intelligenz von Studenten der fachrichtung Wirtschaftswissenschaften wurden n = 10 Studenten zufällig ausgewählt und ihre IQ-Werte bestimmt. Es ergaben sich
folgende Werte
Xi
99
131
118
112
128
136
120
107
134
122
Frage: Ist der Beobachtungsbefund verträglich mit der Hypothese
H0 : µmed = 110?
Nichtparametrisch@LS-Kneip
223
Lineare Rangstatistiken beruhen auf den Dierenzen Di = Xi −
µ0 und der Berechnung der Gröÿen
r(|Di |) := Rang von |Di | = |Xi − µ0 | in der Stichprobe
der Absolutbeträge|D1 |, . . . , |Dn | der Dierenzen

1
Vi :=
0
falls Xi − µ0 > 0
falls Xi − µ0 ≤ 0
Für eine geeignete Gewichtsfunktion g ist eine lineare Rangstatistik dann von der Form
L+
n =
n
X
g(r(|Di |)) · Vi
i=1
Beispiel (µ0 = 110):
Xi
99
131
118
112
128
136
120
107
134
122
Vi
0
1
1
1
1
1
1
0
1
1
|Di |
11
21
8
2
18
26
10
3
24
12
r(|Di |)
5
8
3
1
7
10
4
2
9
6
Es existieren allgemeine theoretische Resultate über die Wahl der
Gewichtsfunktion zur Denition von lokal optimalen Rangtests
(lokal optimal bezieht sich auf Verteilungen in der Nähe von
spezischen parametrischen Verteilungen, wie z.B. der Normalverteilung).
Die in der Praxis hauptsächlich benutzten linearen Rangtests
sind jedoch der Vorzeichentest (Sign Test) und der Wilcoxon
Test.
Nichtparametrisch@LS-Kneip
224
Der Vorzeichentest
Spezialfall mit der Gewichtsfunktion g(x) = 1 für alle x.
Zum Testen von H0 : µmed = µ0 verwendet der Vorzeichentest
daher die Teststatistik
Vn+
=
n
X
Vi
i=1
• Unter H0 gilt P (Vi = 1) =
1
2
und P (Vi = 0) =
1
2
• Hieraus lässt sich folgern, dass unter H0 die Statistik Vn∗
einer Binomialverteilung mit den Parametern n und 12 folgt:
1
Vn+ ∼ B(n, )
2
⇒ Ein Test zum Niveau α lehnt die Nullhypothese ab, falls entweder P (Bn, 21 ≤ Vn+ ) ≤ α/2 oder P (Bn, 12 ≥ Vn+ ) ≤ α/2.
n groÿ: Approximation der Binomialverteilung durch eine Normalverteilung möglich. Unter H0 gilt approximativ
Vn+ − n/2
p
∼ N (0, 1)
n/4
Anmerkungen: Theoretisch gilt P (Xi − µ0 = 0) = 0. In der
Praxis ist es jedoch möglich, dass Beobachtungen mit Xi −µ0 = 0
existieren. Solche Beobachtungen werden üblicherweise aus der
Stichprobe entfernt (und n entsprechend verkleinert).
Der Vorzeichentest lässt sich in einfacher Weise modizieren, um
z.B. Hypothesen der Form ψ0,75 = ψ0 zu testen.
Nichtparametrisch@LS-Kneip
225
Der Wilcoxon Test
Der Wilcoxon Test ist ein Spezialfall mit der Gewichtsfunktion
g(x) = x für alle x. Er beruht auf der zusätzlichen Voraussetzung,
dass die zugrundeliegende Verteilung symmetrisch ist.
Zum Testen von H0 : µmed = µ0 verwendet der Wilcoxon Test
daher die Teststatistik
n
X
Wn+ =
r(|Di |) · Vi
i=1
Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den
beobachteten Wert entweder Wn+ ≤ wn,α/2 oder Wn+ ≥ wn,1−α/2
gilt. Hierbei sind wn,α/2 und wn,α/2 die entsprechenden Quantile
der Verteilung von Wn unter H0 .
• Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte
lassen sich durch Auszählen berechnen. Für kleine Werte n
lassen sich in der Literatur Tabellen nden.
• Asymptotische Approximation (n groÿ):
Wn+ − n(n+1)
4
q
∼ N (0, 1),
+
V ar(Wn )
wobei V ar(Wn+ ) =
n(n+1)(2n+1)
24
Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz
von Bindungen = Null). In der Praxis können jedoch Bedingungen
existieren. Dann sind die obigen Verteilungen nur noch approximativ
gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl
der Bedingungen (relativ zu n). In der Literatur wurden jedoch einige
Korrekturformeln entwickelt.
Nichtparametrisch@LS-Kneip
226
Anwendung: Vergleiche aus verbundenen Stichproben
Verbundene Stichproben: Ein interessierendes Merkmal wird
unter zwei unterschiedlichen Bedingungen (X und Y ) an denselben Untersuchungseinheiten erhoben.
¨
¥
Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn )
X1 , . . . , Xn unabhängig und ident. verteilt wie X
Y1 , . . . , Ym unabhängig und ident. verteilt wie Y
Xi und Yi sind nicht voneinander unabhängig; z.B. (Xi , Yi )
Messung an der gleichen Untersuchungseinheit
§
¦
Beispiel: Werbekampgane
Die nachfolgende Tabelle gibt die wöchentlichen Umsätze (in
10000 Euro) von 6 Filialen einer Handelskette vor und nach einer
Werbekampagne wieder.
Filiale
1
2
3
4
5
6
vor W.k. (X)
18,5
15,6
20,1
17,2
21,1
19,3
nach W.k. (Y)
20,2
16,6
19,8
19,3
21,9
19,0
⇒ x̄ = 18, 63, ȳ = 19, 47
Frage: War die Werbekampagne erfolgreich? Hat sie in der Tendenz (Lage!) zu signikant höheren Umsätzen geführt?
Nichtparametrisch@LS-Kneip
227
Nichtparametrischer Ansatz: Man betrachtet die zugehörige
Stichprobe der Dierenzen
Z1 = X1 − Y1 , Z2 = X2 − Y2 , . . . , Zn = Xn − Yn
Die zugrundeliegende Fragestellung lässt sich dann übersetzen in
die Frage: Ist der Median von Z1 , . . . , Zn ungleich Null?
⇒ Testproblem:
H0 : µmed;Z = 0
H1 : µmed;Z 6= 0
⇒ Anwendung des Vorzeichentests oder des Wilcoxon Tests auf
die Stichprobe Z1 , . . . , Zn .
Die Güte verschiedener Testverfahren
• Parametrische Alternative (unter der Annahme approximativ normalverteilter Daten mit µmed = µ = E(X)): t-Test
• Unter der Voraussetzung einer Normalverteilung ist der tTest ezienter als der Vorzeichentest (asymptotische relative Ezienz=0.637). Für Verteilungen, die stark von der
Normalverteilung abweichen, kann der Vorzeichentest jedoch
wesentlich ezienter sein als der t-Test.
• Im Falle einer symmetrischen Verteilung ist der Wilcoxon
Test immer ezienter als der Vorzeichentest. Im Falle einer
Normalverteilung beträgt die asymptotische relative Ezienz des Wilcoxon Tests im Vergleich zum t-Test ungefähr
0, 96 (d.h. der Wilcoxon Test ist fast ebenso ezient wie der
t-Test). Für symmetrische, aber nicht normale Verteilungen
kann der Wilcoxon Test natürlich wesentlich ezienter sein
als der t-Test.
Nichtparametrisch@LS-Kneip
228
2.6
Zweistichprobenprobleme: Rangtests
Gegeben: Zufallsvariable X und Y mit stetigen Verteilungsfunktionen FX und FY
Daten: Unabhängige Zufallsstichproben X1 , . . . , Xm und Y1 , . . . , Yn
aus Grundgesamtheiten mit den Verteilungsfunktionen FX und
FY .
Zu testende Nullhypothese: H0 : FX = FY , d.h. die zugrunde
liegenden Verteilungen sind gleich.
Beispiel: Kaee und Schreibgeschwindigkeit
In einem Experiment wurde der Einuss von Koein auf die
Schreibgeschwindigkeit auf einer Computer-Tastatur gemessen.
20 trainierte Probanden wurden zufällig in zwei Gruppen von
jeweils 10 Personen aufgeteilt. Während die erste Gruppe keine
Getränke erhielt, wurde der zweiten Gruppe 200 mg Koein in
Form von mehreren Tassen Kaee verabreicht. Danach wurden
bei jedem Probanden die Zahl der Anschläge pro Minute auf der
Computer-Tastatur gemessen (Durchschnitt aus einem zehnminütigem Schreibtest).
kein Koein (X)
200 mg Ko. (Y)
242.8
245.3
244.0
240.2
241.7
244.7
246.5
240.4
246.4
251.1
250.2
252.3
246.1
248.2
245.6
250.0
247.1
248.3
248.0
250.9
Frage: Gibt es einen Unterschied zwischen der Schreibgeschwindigkeit mit und ohne Koein?
Nichtparametrisch@LS-Kneip
229
• Rangtests beruhen auf den Rängen der Beobachtungen Xi
bzw. Yi in der kombinierten Stichprobe aller N = m + n
Beobachtungen
r(Xi ) = Anzahl aller Xj , j = 1, . . . , m, mit Xj ≤ Xi
+ Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Xi
r(Yi ) = Anzahl aller Xj , j = 1, . . . , m, mit Xj ≤ Yi
+ Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Yi
• Unter H0 : FX = FY ist die kombinierte Stichprobe als einfache Zufallsstichprobe des Umfangs N := m + n aus einer
Grundgesamtheit mit der Verteilungsfunktion FX = FY aufzufassen. Die Ränge sollten dann eine rein zufällige Permutationen der Zahlen zwischen 1 und N sein. Die Grundidee
von Rangtests besteht darin zu überprüfen, ob eine solche
Zufälligkeit der Ränge vorliegt, oder ob systematische Unterschiede zwischen den Rangverteilungen von X und Y auf
unterschiedliche Verteilungen (→ Alternative) hinweisen.
Wir betrachten zunächst allgemeine theoretische Eigenschaften
von linearen Rangstatistiken. Hierbei wird zunächst vorausgesetzt, dass keine Bindungen existieren (FX , FY stetig!). Sei


falls die i-te Variable in der kombinierten,

1
Vi :=



0
geordneten Sichprobe eine X -Variable ist
sonst
Lineare Rangstatistiken lassen sich nun allgemein in der Form
LN =
N
X
a i Vi
i=1
schreiben, wobei a1 , a2 , . . . geeignete Gewichte (Scores) bezeichnen.
Nichtparametrisch@LS-Kneip
230
Verschiedene Testverfahren unterscheiden sich durch die jeweilige
Spezikation der Gewichte ai .
• (V1 , V2 , . . . , VN ) ist ein
der aus m Einsen und n Nul
 Vektor,
N
len besteht. Es gibt   verschiedene Kombinationen diem
ser m Einsen und n Nullen, die unter der Nullhypothese alle
gleich wahrscheinlich sind.
• Unter H0 : FX = FY ist die Verteilung von LN verteilungsfrei. Kritische Werte können durch Auszählen bestimmt werden,
q(c)
P (LN = c |H0 ) =   ,
N
 
m
mit q(c) = Anzahl der Vektoren (V1 , . . . , VN ) mit LN =
PN
i=1 ai Vi = c.
• Unter H0 gilt weiterhin:
E(Vi ) = m
N
V ar(Vi ) = mn
N2
Cov(Vi , Vj ) = N 2−mn
(N −1)
E(LN ) =
m
N
V ar(LN ) =
PN
i=1
ai
mn
2
N (N −1) (N
PN
2
2
a
−
(
i=1 ai ) )
i=1 i
PN
• ZN = L√N −E(LN ) ist asymptotisch N (0, 1)-verteilt.
V ar(LN )
Nichtparametrisch@LS-Kneip
231
Rangtests sind typischerweise nicht konsistent gegen alle denkbaren Alternativen. Durch gezielte Wahl der Gewichte ai lassen
sich jedoch Tests entwickeln, die besonders ezient bei der Entdeckung von Lage- oder Variabilitätsalternativen sind.
Lagealternativen:
• Man spricht von Lagealternativen, falls FX 6= FY , die Verteilungen FX und FY jedoch ähnliche Struktur besitzen und
sich nur in der Lage des Zentrums der Verteilung unterscheiden.
• Vereinfachtes Testproblem für Lagealternativen:
H0 : FX = FY
H1 : FX (x) = FY (x − θ) für alle x ∈ IR und ein θ ∈ IR,
θ 6= 0
• Man beachte jedoch: Die Güte der nachfolgenden Tests (von
Wilcoxon und van der Waerden) hängt nicht wesentlich davon ab, dass die Struktur der beiden Verteilungen (unter der
Alternative) ähnlich ist. Wichtig ist nur, dass die Zentren
(Mediane) der beiden Verteilungen gegeneinander verschoben sind.
• Lineare Rangtests für Lagealternativen sind allgemein dadurch charakterisiert, dass die Gewichte so gewählt werden,
dass die Folge a1 < a2 < · · · < an streng monoton steigend
ist (oder alternativ streng monoton fallend).
Nichtparametrisch@LS-Kneip
232
Der Wilcoxon-Rangsummentest
Der Wilcoxon Test ist ein Test für Lagealternativen. Er verwendet eine lineare Rangstatistik mit Gewichten ai = i.
Zum Testen von H0 : FX = FY verwendet der Wilcoxon Test
daher die Teststatistik
WN =
N
X
i · Vi =
i=1
m
X
r(Xj )
j=1
Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den
beobachteten Wert entweder WN ≤ ωN,α/2 oder WN ≥ ωN,1−α/2
gilt. Hierbei sind ωN,α/2 und ωN,1−α/2 die entsprechenden Quantile der Verteilung von WN unter H0 .
• Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte
lassen sich durch Auszählen berechnen (siehe oben).
• E(WN ) =
m(N +1)
,
2
V ar(Wn ) =
mn(N +1)
12
• Asymptotische Approximation (n groÿ): WN approximativ
+1)
normalverteilt mit Erwartungswert m(N2+1) und Varianz mn(N
.
12
Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz
von Bindungen = Null). In der Praxis können jedoch Bedingungen
existieren. Dann sind die obigen Verteilungen nur noch approximativ
gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl
der Bedingungen (relativ zu n). In der Literatur wurden jedoch einige
Korrekturformeln entwickelt.
Nichtparametrisch@LS-Kneip
233
Der Test von van der Waerden
Der Test von van der Waerden ist ebenfalls ein Test für Lagealternativen. Er verwendet eine lineare Rangstatistik mit Gewichi
ten ai = Φ−1 ( N +1
). Hierbei ist Φ die Verteilungsfunktion der
Standardnormalverteilung.
Zum Testen von H0 : FX = FY verwendet dieser Test daher die
Teststatistik
V WN =
N
X
i=1
m
−1
Φ
X
i
r(Xj )
(
Φ−1 (
) · Vi =
)
N +1
N
+
1
j=1
Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den
beobachteten Wert |V Wn | ≥ vwN,1−α/2 gilt. Hierbei ist vwN,α/2
das entsprechende Quantil der Verteilung von V Wn unter H0 .
• Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte
lassen sich durch Auszählen berechnen (siehe oben).
• Unter H0 ist die Verteilung von Wn symmetrisch um Null.
PN
i
mn
−1
• E(V WN ) = 0, und V ar(V Wn ) = N (N
( N +1
))2
i=1 (Φ
−1)
• Für groÿes n ist V WN approximativ normalverteilt.
Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz
von Bindungen = Null). In der Praxis können jedoch Bedingungen
existieren. Dann sind die obigen Verteilungen nur noch approximativ
gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl
der Bedingungen (relativ zu n).
Nichtparametrisch@LS-Kneip
234
Die Güte verschiedener Testverfahren
• Parametrische Alternative
Zusatzannahme: Normalverteilungen mit gleichen Varianzen,
X ∼ N (µ1 , σ 2 ) und Y ∼ N (µ2 , σ 2 )
⇒ t-Test für zwei Stichproben
T =
X̄ − Ȳ
p
S 1/n + 1/m
Unter H0 folgt T einer t-Verteilung mit N −2 Freiheitsgraden
(Ablehnung von H0 , falls |T | zu groÿ).
• Die asymptotische relative Ezienz des Wilcoxon-Rangsummentests im Vergleich zum t-Test ist 0.955 bei Annahme einer Normalverteilung. Für stark links- oder rechtssteile Verteilungen sowie für Verteilungen mit langen Tails ist der
Wilcoxon-Rangsummentest ezienter als der t-Test. Die untere Grenze der asymptotischen relativen Ezienz ist 0.864,
eine obere Grenze existiert nicht.
• Bei Annahme einer Normalverteilung ist die asymptotische
relative Ezienz des van der Waerden Test im Vergleich zum
t-Test gleich 1 (d.h. der van der Waerden Test ist dann in
etwa genauso gut wie der t-Test). Für Verteilungen mit langen Tails ist der Wilcoxon-Rangsummentest ezienter als
der Test von van der Waerden.
Nichtparametrisch@LS-Kneip
235
Streuungsalternativen:
Sowohl der Wilcoxon-Rangsummentest, der Test von van der
Waerden als auch der t-Test sind i.Allg. nicht konsistent für
Streuungsalternativen.
• Man spricht von Streuungsalternativen, falls die Lagen der
Zentren der Verteilungen FX und FY identisch sind, und sich
die beiden Verteilungen nur durch unterschiedliche Streuung
unterscheiden.
• Vereinfachtes Testproblem für Streuungsalternativen
H0 : FX = FY
Es wird vorausgesetzt, dass die Mediane der beiden Verteilungen gleich sind, µmed := µmed,X = µmed,Y . Bezeichnen FX−µmed und FY −µmed dann jeweils die Verteilungen
von X − µmed und Y − µmed , so lassen sich Streuungsalternativen folgendermaÿen formulieren:
H1 : FX−µmed (x) = FY −µmed (θx) für alle x ∈ IR und ein
θ ∈ IR, θ 6= 0
• Wahl der Gewichte ai bei Tests für Streuungsalternativen:
Extrem kleinen und extrem groÿen Beobachtungen werden
kleine Gewichte ai zugewiesen, während die mittleren Messwerte hohe Gewichte erhalten.
Nichtparametrisch@LS-Kneip
236
Der Siegel-Tukey-Test
Der Test von Siegel und Tukey für Variabilitätsalternativen kann
als Analogon zum Wilcoxon-Rangsummentest bei Lagealternativen aufgefasst werden.
Zum Testen von H0 : FX = FY verwendet dieser Test daher die
Teststatistik
N
X
SN =
ai · Vi ,
i=1
wobei die Gewichte nach folgender Regel bestimmt werden:
a1 = 1, aN = 2, aN −1 = 3, a2 = 4, a3 = 5, aN −2 = 6,
aN −3 = 7, a4 = 8, a5 = 9, aN −4 = 10, . . .
Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den
beobachteten Wert entweder SN ≤ ωN,α/2 oder SN ≥ ωN,1−α/2
gilt.
• Unter H0 ist die Verteilung von SN gleich der Verteilung der
Teststatistik WN des Wilcoxon-Rangsummentests. Kritische
Werte lassen sich daher direkt übertragen.
• E(SN ) =
m(N +1)
,
2
V ar(Sn ) =
mn(N +1)
12
• Asymptotische Approximation (n groÿ): SN approximativ
+1)
.
normalverteilt mit Erwartungswert m(N2+1) und Varianz mn(N
12
Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz
von Bindungen = Null). Es ist jedoch möglich, den Test bei Vorhandensein von Bindungen entsprechend zu modizieren.
Nichtparametrisch@LS-Kneip
237
2.7
Zweistichprobenprobleme: Der KolmogoroSmirno Test
Gegeben: Zufallsvariable X und Y mit stetigen Verteilungsfunktionen FX und FY
Daten: Unabhängige Zufallsstichproben X1 , . . . , Xm und Y1 , . . . , Yn
aus Grundgesamtheiten mit den Verteilungsfunktionen FX und
FY .
Allgemeines Testproblem:
H0 : F X = F Y
H1 : FX 6= FY
• Die jeweiligen empirischen Verteilungsfunktionen FX,m und
FY,n sind erwartungstreue und konsistente Schätzer von FX
und FY .
• Falls die Nullhypothese F = F0 also richtig ist, sollten die
Abweichungen |FX,m (x) − FY,n (x)| rein zufällig und hinreichend klein sein.
Diese Einsichten führen auf den Zweistichprobentest von Kolmogoro und Smirno.
Teststatistik:
Dm,n = sup |FX,m (x) − FY,n (x)|
x∈IR
Ablehnung von H0 , falls Dm,n > dm,n,1−α
Hierbei bezeichnet dm,n,1−α das 1−α-Quantil der Verteilung von
Dm,n unter der Nullhypothese.
Nichtparametrisch@LS-Kneip
238
Frage: Verteilung von Dm,n unter H0 ?
a) Unter der Nullhypothese FX = FY ist die Teststatistik Dn
für alle stetigen Verteilungsfunktionen FX , FY verteilungsfrei. Kritische Werte lassen sich durch Auszählen gewinnen
(der Wert von Dm,n hängt nur von der Rängen der X - und
Y -Werte in der kombinierten, geordneten Stichprobe ab).
b) Asymptotische Verteilung (groÿe Stichproben): Für alle
λ > 0 gilt
lim P (Dm,n ≤ λ/
n→∞
p
mn/(m + n)) = 1−2
∞
X
(−1)k−1 e−2k
2
λ2
k=1
c) Der Kolmogoro-Smirno Test ist konsistent für alle Alternativen. Für Lagealternativen ist er allerdings weniger ezient als z.B. der Wilcoxon-Rangsummentest.
Nichtparametrisch@LS-Kneip
239
Herunterladen