Nichtparametrische Statistik, Teil 1

Werbung
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Nichtparametrische Statistik, Teil 1
R. Kovacevic1
1 Institut
für Statistik und Decision Support Systeme
Universität Wien
Sommersemester 2010
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Gliederung
1
Parametrisch - Nichtparametrisch
2
Ordnungsstatistiken und Quantile
3
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon
Test
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Modelle
Modell: Vereinfachtes Abbild der Realität.
In unserem Fall: stochastische Modelle.
Zufallsexperiment mit Stichprobenraum Ω
Auf dem Stichprobenraum sei ein Zufallsvektor
X = (X1 , . . . , Xn ) ∈ Ξ deniert.
Wenn ω realisiert wird, dann sind die Werte X (ω) = x die
Beobachtungen (Daten)
Da wir nur den Zufallsvektor X beobachten, können wir uns
auf seine Verteilung P konzentrieren.
Die Verteilung P wird als Element einer Familie P von
potentiellen Wahrscheinlichkeitsverteilungen auf Rn betrachtet.
Diese Familie P nennen wir ein Modell.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Statistik
Benutze die Daten und ein (sinnvolles) Modell, um zu
Schlussfolgerungen über die tatsächliche Verteilung des
Vektors X zu erhalten.
Aus welcher Verteilung stammen die Daten?
Schätzen: Eine konkrete Verteilung, bzw. ein Bereich von
Verteilungen ist gesucht.
Testen: Die Hypothese, dass die tatsächliche Verteilung in
einer Teilmenge des Modells liegt, wird getestet ...
Klassische Statistik: Das Modell kann durch die Verteilung der
Daten - gegeben den (unbekannten) Parameterwert beschrieben werden.
Bayesianische Statistik: Zusätzlich wird angenommen, dass die
Parameterwerte selbst Zufallsvariable sind, und dass a priori
Wissen/Vermutungen über deren Verteilung existiert ...
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Parametrierung und Parameter
Um ein Modell zu beschreiben wird eine Parametrierung
verwendet:
Parameterraum (Menge von Kennzeichnungen, Indexmenge)
Θ.
Parameter: θ ∈ Θ
Parametrierung: Eine Abbildung θ 7→ Pθ von Parameterraum
Θ
in den Modellraum P .
Verschiedene Typen von Parametrierungen:
Parametrische Modelle: Können durch eine endliche Zahl
von Parametern beschrieben werden. θ ist in diesem Fall ein
endlichdimensionaler Vektor.
Semiparametrische Modelle: Können durch einen
endlichdimensionalen Parametervektor und weitere
unendlichdimensionale Parametrierung beschrieben werden.
Nichtparametrische Modelle: Beschreibung der Verteilung
R. Kovacevic
Nichtparametrische
Statistik,
Teil 1
durch ein unendlichdimensionals
Objekt (zb.
Kurve,
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Vollständig parametrierte Modelle
Wir bezeichnen eine Verteilung die einem bestimmten
Parameterwert θ zugeordnet ist mit Pθ . In einem vollständig
parametrierten Modell gilt P = {Pθ : θ ∈ Θ}.
Die zugehörigen Erwartungswerte bezeichnen wir mit Eθ .
Verteilungsfunktionen sind durch F (·, θ ), Dichte- und
Wahrscheinlichkeitsfunktionen durch p(·, θ ) bezeichnet.
Normalerweise betrachten wir für parametrische Modelle einen
der folgenden Fälle
Alle Pθ sind stetig mit Dichte p(·, θ ), bzw. f (·, θ )
Alle Pθ sind diskret mit Wahrscheinlichkeitsfunktion p(·, θ )
und die Mengen {x1 , . . . , xn } ≡ {x : p(x , θ ) > 0} ist für alle θ
identisch.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Nichtparametrische Statistik
Hauptaufgaben wie in der klassischen Statistik: Schätzen,
Testen
Zwei wichtige Situationen für nichtparametrische Statistik
Schätzen/Testen in bezug auf von unendlichdimensionalen
Objekten (Verteilungsfunktion, Dichte ...)
Unvollständig parametrierte Modelle: typischerweise keine
vollständigen Verteilungsannahmen
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Statistiken
Bekannt: Daten x , eventuell ein (unvollständig parametriertes)
Modell P
Unbekannt: wahre Parameterwerte θ , Verteilung/Modell
Verbindung: Statistiken T (x )
Alles was aus den Daten berechnet werden kann
Eine Statistik T is eine Abbildung vom Wertebereich der
Daten Ξ in einen Wertebereich Υ.
Unabhängig von (unbekannten) Parameterwerten
Beachte: Die Daten sind Realisierungen von Zufallsvariablen.
Bevor das Ergebnis des Zufallsexperimentes feststeht, kann
eine Statistik daher selbst als Zufallsvariable T (X )
betrachtet werden.
Veteilung der Statistik wird auch Stichprobenverteilung
genannt.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Statistiken
repräsentiert die möglichen Werte der Statistik. In der
parametrischen Statistik gilt Υ = Rn . In nichtparametrischen
Modellen kann Υ aber zB. auch eine Menge von Kurven sein ...
Υ
Beispiele
Stichprobenmittelwert und -varianz
Regressionsparameter
Empirische Verteilungsfunktion F̂ (x ) = n1 ∑ 1(Xi ≤ x )
Vorzeichenstatistik
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Sto
Klassische nichtparametrische Statistik: Verteilungsfreies
Schätzen und Testen
Wichtige Rolle von Ordnungsstatistiken und Quantilen ...
Unendlichdimensionale Objekte: Kerndichteschätzer,
Kernregression etc ...
Resampling-Methoden: Schätzverfahren oder Test gegeben.
Die statistischen Eigenschaften (zB. Kondenzintervalle,
Fehler ...) sind aber analytisch nicht (oder nur schwer)
beschreibbar. Ausweg: Zufällige Widerholung der
Schätzung/des Tests und Betrachtung der so erzeugten
empirischen Verteilung der statistischen Eigenschaften.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Literatur
Larry Wasserman: All of Nonparametric Statistics
Bowman and Azzalini: Applied Smoothing Techniques for Data
Analysis: The Kernel Approach with S-Plus Illustrations
Gibbons and Chakraborti: Nonparametric Statistical Inference
Hogg/Craig: Introduction to Mathematical Statistics (Chap
10)
Shao: Mathematical Statistics (Chap. 5,6)
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Ordnungsstatistiken
Sei X1 , X2 , . . . , Xn eine i.i.d Zufallsstichpobe mit Xi ∼ FX (·)
Wenn F eine stetige Verteilung ist dann können die Werte Xi
(f.s.) eindeutig in aufsteigender Ordnung angeordnet werden:
X(1) < X(2) < . . . , < X(n)
X(1) bezeichnet dabei das kleinste Element und X(n)
X(i ) wird als i -te Ordnungsstatistik bezeichnet.
R. Kovacevic
das gröÿte.
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Quantile
Das p-te Quantil einer Zufallsvariablen X mit
Verteilungsfunktion FX (·) ist durch
QX (p ) = FX−1 (p ) = inf {x : FX (x ) ≥ p }
gegeben.
Wenn FX strikt monoton steigend ist, ist die Quantilsfunktion
die übliche Umkehrungsfunktion.
Falls FX um den Wert p ach ist, und im Fall von Sprüngen
liefert die obige Denition eindeutige Werte.
FX und QX enthalten dieselbe Information über die Verteilung
von X .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Empirische Verteilungsfunktion
Sei X1 , X2 , . . . , Xn eine i.i.d Zufallsstichpobe mit Xi ∼ FX (·) .
Die empirische Verteilungsfunktion ist durch
1
F̂n (x ) = ∑ 1{Xi ≤x }
n
gegeben.
Weiters sei
Tn (x ) = n · F̂n (x )
die Anzahl aller Stichpobenwerte Xi ≤ x .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Eigenschaften der empirischen Verteilungsfunktion I
Satz
Für jede feste reelle Konstante x hat die Zufallsvariable Tn (x ) eine
Binomialverteilung mit Parametern n und FX (x ).
Folgerung
Mittelwert und Varianz der empirischen Verteilungsfunktion sind
wie folgt gegeben:
h
i
E F̂n (x ) = FX (x )
h
i F (x ) · (1 − F (x ))
X
X
Var F̂n (x ) =
n
Die empirische Verteilungsfunktion
ist also erwartungstreu.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Eigenschaften der empirischen Verteilungsfunktion II
Folgerung
Die empirische Verteilungsfunktion F̂n (x ) ist (bei xem x) ein
konsistenter Schätzer für FX (x ).
Folgerung
h
i
Es gilt E F̂n (x )F̂n (y ) = nFX (x )FX (y )
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Eigenschaften der empirischen Verteilungsfunktion III
Die bieherigen Aussagen beziehen sich auf Werte der
Verteilungsfunktion an bestimmten Punkten. Es ist auch
möglich über alle Werte x gemeinsam etwas zu sagen.
Satz
(Glivenko-Cantelli) F̂n (x ) konvergiert fast sicher gleichmäÿig gegen
FX (x ), das bedeutet
P
lim sup
n→∞
−∞<x <∞
F̂
(
x
)
−
F
(
x
)
=
0
= 1.
n
X
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Eigenschaften der empirischen Verteilungsfunktion IV
Satz
Die standardisierte empirische Verteilungsfunktion konvergiert in
Verteilung gegen eine Standardnormalverteilung.
√
n · F̂n (x ) − FX (x )
lim P  p
n→∞
FX (x ) (1 − FX (x ))
R. Kovacevic

≤ t  = Φ(t )
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Empirische Quantilsfunktion
Die Quantilsfunktion ist die (verallgemeinerte) Inverse der
Verteilungsfunktion. Die empirische Quantilsfunktion ist die
(verallgemeinerte) Inverse der empirischen Verteilungsfunktion
...
Denition
Die empirische Quantilsfunktion Qn (u ) ist für 0 ≤ u < 1 durch
Qn (u ) = inf x : F̂n (x ) ≥ u
n
o
deniert.
Der Wertebereich der empirischen Quantilsfunktion ist durch
die Ordnungsstatistiken der empirischen Verteilung gegeben.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Eigenschaften der Ordnungsstatistiken I
Satz
Für jedes xe t ist die Verteilungsfunktion der r -ten Ordnungsstatistik für
−∞ < t < +∞ durch
n FX(r ) (t ) = P X(r ) ≤ t = ∑ P n · F̂n (t ) = j
j =r
n n =∑
FX (t )j · (1 − FX (t ))(n−j )
j
j =r
gegeben. Weiters ist für stetiges FX mit Dichte fX die Dichtefunktion der
r -ten Ordnungsstatistik
n!
fX(r ) (t ) =
FX (t )r −1 · (1 − FX (t ))(n−r ) fXr (t )
(r − 1)!(n − r )!
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Ordnungsstatistiken der Gleichverteilung
Satz
Für eine Zufallsstichprobe mit Umfang n aus U [0, 1] ist die r -te
Ordnungsstatistik B (r , n − r + 1)verteilt..
fX(r ) (x ) =
n!
(r − 1)! (n − r )!
· x r −1 (1 − x )n−r ,
0<x <1
Folgerung
Unvollständiges Beta-Integral:
1
B (r , n − r + 1)
·
Z
0
t
x 1 · (1 − x )n−r dx =
r−
R. Kovacevic
n
∑
i =r
n
i
t i (1 − t )n−i
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Probability Integral Transformation (PIT)
Satz
Sei X eine Zufallsvariable mit stetiger (!) Verteilungsfunktion FX ,
dann ist die Zufallsvariable Y = FX (X ) stetig gleichverteilt auf
[0 , 1 ].
Wenn X1 , . . . , Xn eine i.i.d. Stichprobe aus der Verteilung FX
ist, dann ist FX (X1 ) , . . . FX (Xn ) eine i.i.d. Stichprobe mit
Gleichverteilung auf [0, 1].
Wenn X(1) , . . . , X(n) die zur Stichprobe X1 , . . ., Xn gehörigen
Ordnungsstatistiken sind, dann sind FX X(1) , . . . FX X(n)
die Ordnungsstatistiken einer Gleichverteilung auf [0, 1].
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Gemeinsame Verteilung von Ordnungsstatistiken
Die gemeinsame Dichte (WF) einer i.i.d. Stichprobe X1 , . . . , Xn
ist durch
n
gegeben.
fX1 ,...,Xn (x1 , . . . , xn ) = ∏ fX (xi )
i =1
Satz
Die gemeinsame Verteilung der Ordnungsstatistiken X(1) , . . . , X(n)
ist durch
n
fX(1) ,...,X/n) (x1 , . . . , xn ) = n! · ∏ fX (xi )
i =1
− ∞ < x1 < x2 < . . . < xn < ∞
gegeben.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Verteilung von Ordnungsstatistiken
Theorem 13 kann benutzt werden um die Verteilung von
einzelnen Ordnungsstatistiken (Theorem 9) und beliebigen
Teilmengen von Ordnungsstatistiken durch Integration zu
berechnen.
Eine alternative Berechnungsmethode nutzt
Wahrscheinlichkeitstheoretische Argumente.
Die Verteilung von Median und Range können aus der
gemeinsamen Verteilung zweier Ordnungsstatistiken berechnet
werden.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Gemeinsame Verteilung von zwei Ordnungsstatistiken
Satz
Die gemeinsame Verteilung von zwei Ordnungsstatistiken X(s ) , X(r )
mit s > r ist für alle 0 < x < y < 1 durch
fX(r ) ,X(s ) (x , y ) =
n!
· FX (x )r −1 (FX (y ) − FX (x ))s −r −1 (1 − FX (y ))n−s fX (x )fX (y )
(r − 1)! (s − r − 1)! (n − s )!)
gegeben.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Ordnungsstatistiken der Gleichverteilung
Satz
Für eine Zufallsstichprobe mit Umfang n aus U [0, 1] ist die r -te
Ordnungsstatistik B (r , n − r + 1)verteilt. (siehe Theorem 10)
Satz
Die gemeinsame Dichte der Ordnungsstatistiken X(r ) und X(s ) mit
s > r ist
fX(r ) ,X(s ) (x , y ) =
n!
· x r −1 (y − x )s −r −1 (1 − y )n−s ,
(r − 1)! (s − r − 1)! (n − s )!)
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Momente der Ordnungsstatistiken
Satz
Das k-te nichtzentrale Moment der r -ten Ordnungsstatistik X(r )
einer Zufallstichprobe aus einer Verteilung FX ist durch
h
i
h
i
E X(kr ) = E QX (U )k
gegeben, wobei U ∼ B (r , n − r + 1).
Das stellt eine bemerkenswerte Verbindung zwischen
Ordungsstatistiken für beliebeige Verteilungen und den
Ordnungsstatistiken der Gleichverteilung U (0, 1) her.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Asymptotische Verteilung der Ordnungsstatistiken
Wir betrachten im Folgenden stets den Fall n → ∞ und
r/n → p , 0 < p < 1.
Satz
Sei X(r ) die r-te Ordnungsstatistik einer Zufallsstichprobe des
Umfangs n mit Verteilungsfunktion FX . Wenn n → ∞ und r/n → p ,
0 < p < 1 und µ = QX (p) gilt, dann konvergiert die Zufallsvariable
Zn =
r
n
p (1 − p )
fX (µ) X(r ) − µ
in Verteilung gegen eine Standardnormalverteilte Zufallsvariable Z.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parameter und Funktionale
Erweiterter Begri Parameter: Parameter θ als Funktion
der Verteilungsfunktion oder Dichte einer Zufallsvariable.
θX = T (FX ) ,
wobei T eine Abbildung aus einem geeigneten Funktionenraum
nach Rn ist. Derartige Abbildungen werden auch als
Funktionale bezeichnet.
Prinzip gleicher Funktionale: Ein natürlicher
nichtparametrischer (Verteilungsfreier) Schätzer für einen
derart denierten Parameter ist durch
θ̂X = T F̂X
gegeben.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Lagemodelle I
Denition
Sei X eine stetige Zufallsvariable mit Verteilungsfunktion FX und
Dichtefunktion (WF) fX . Ein Funktional T (FX ) heiÿt Lagefunktional
(Lage-Skalenfuktional), wenn die folgenden beiden Bedingungen erfüllt sind:
1
2
Wenn
Wenn
Y = X + a dann gilt T (FY ) = T (FX ) + a für alle a ∈ R
Y = aX dann gilt T (FY ) = aT (FX ) für alle a 6= 0.
Denition
Sei θX = T (FX ) ein Lage-Skalenfunktional. Die Beobachtungen
folgen einem Lagemodell mit Funktional θX , wenn
X1 , . . . , Xn
Xi = θX + εi
gilt, wobei die εi i.i.d. mit Verteilungsfunktion
Fε und T (Fε ) = 0 sind.
Das bedeutet: Die Xi sind i.i.d. mit fX (x ) = fε (x − T (FX ))
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Mediantest
Sei X1 , . . . , Xn eine Zufallsstichprobe, die dem Lagemodell
Xi = θ + εi
(1)
folgt, wobei die εi als i.i.d. mit Median 0, Verteilungsfunktion
F und Dichtefunktion (WF) f angenommen werden.
Das Lagefunktional ist also der Median und der Median von Xi
ist θ .
Für symmetrische Verteilungen ist der Median mit dem
Mittelwert identisch ...
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Vorzeichenstatistik
Denition
Die Vorzeichenstatistik einer i.i.d. Stichprobe ist durch
Sθ0 (X ) = # {Xi > θ0 } =
n
∑ 1{Xi >θ0 }
i=
1
gegeben.
Im Folgenden betrachten wir zunächst den einseitigen Test mit
einfacher Nullhypothese
H0 : θ = θ0 vs . H1 : θ > θ0 .
(2)
Wenn die Nullhypothese zutrit, würde man etwa gleich viele
Beobachtungen über und unterhalb von θ0 erwarten.
Wenn die Alternativhypothese
zutrit,
werden mehr als die
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Vorzeichentest: Einseitige Hypothese
Der Vorzeichentest für die einseitige Hypothese (2) ist durch
die folgende Testfunktion gegeben:
(
1 ,falls Sθ0 (x ) ≥ c
ϕ (x ) =
(3)
0 sonst.
Unter der Nullhypothese
ist Sθ0 (X ) binomialverteilt mit
1
Paramtern Bin n, 2 .
Für ein Signikanzniveau α wird c so gewählt, dass
PH0 (Sθ0 (x ) < c ) = 1 − α .
Bemerkung: Die Verteilung der Teststatistik S hängt nicht von
der Verteilungsfunktion F ab, der Test ist also verteilungsfrei.
Für ein gegebenes Signikanzniveau α wird c als Quantil der
Binomialverteilung gewählt. Damit ist zunächst nur eine
diskrete Menge von α -Levels möglich. Ein Ausweg besteht in
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Asymptotischer Vorzeichentest
Bei groÿem Stichprobenumfang kann ein Test benutzt werden,
der auf der asymptotischen Verteilung der Teststatistik beruht.
Unter H0 ist die standardisierte Statistik
S=
Sθ0 (X ) − n/2
√
n/2
asymptotisch standardnormalverteilt N (0, 1).
Der asymptotische Vorzeichentest hat somit die folgende
Testfunktion:
(
1 ,falls S ≥ zα
ϕ (x ) =
0 sonst.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Vorzeichentest: Zweiseitige Hypothese
Der zweiseitige Test :
H0 : θ = θ0 vs . H1 : θ 6= θ0 .
Die Testfunktion für den zweiseitigen Test:
1
0
(
ϕ (x ) =
,falls Sθ0 (x ) ≤ c1 ∨ Sθ0 (x ) ≥ n − c1
sonst.
Für ein Signikanzniveau α wird c1 so gewählt, dass
PH0 (Sθ0 (x ) ≤ c1 ) = α2 .
Der zweiseitige asymptotische Test läuft wiederum auf einen
zweiseitigen Normalverteilungstest hinaus.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Gütefunktion für den einseitigen Test I
Ausgangspunkt: Einseitige Test mit Hypothesen (2).
Ohne Beschränkung der Allgemeinheit betrachten wir im
Folgenden θ0 = 0.
Deniere die Funktion
S (θ ) = # {Xi > θ }
.
Es gilt Sθ0 (x ) = S (θ0 ).
Mithilfe der Ordnungsstatistiken:
S (θ ) = # {Xi > θ } = # X(i ) > θ
Für jedes k gilt Pθ [S (0) ≥ k ] = P0 [S (−θ ) ≥ k ]
R. Kovacevic
Nichtparametrische Statistik, Teil 1
(4)
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Gütefunktion für den einseitigen Test II
Die Gütefunktion für ein Lagemodell (1) mit einseitigem
Hypothesentest (2) ist durch
γ (θ ) = Pθ [S (θ0 ) ≥ cα ]
gegeben, wobei cα .
Satz
Es gelte das Modell Xi = θ + εi mit Median θ . Sei weiters γ die
Gütefunktion für den einseitigen Test mit Hypothesen (2) . Dann
ist γ (θ ) eine monoton steigende Funktion in θ .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Gütefunktion für den einseitigen Test III
Betrachten wir nun den einseitigen Test
H0 : θ ≤ θ0 vs . H1 : θ > θ0
mit der Testfunktion (3) für den einseitigen Test mit einfacher
Alternative zum Niveau α .
Satz
Das Niveau des so beschriebenen Tests ist α und der Test ist
unverzerrt.
Entsprechend ist die Testfunktion für den einseitigen Test
H0 : θ ≥ θ0 vs . H1 : θ < θ0
monoton fallend in θ und Theorem (23) hält ebenfalls.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Gütefunktion für den einseitigen Test IV
Unter der Alternative θ = θ1 ist die Teststatistik S
binomialverteilt Bin (n, p1 ) mit
p1 = Pθ1 [X > 0] = 1 − F (−θ1 ) ,
wobei F die Verteilungsfunktion von ε im Lagemodell ist.
S ist also unter den Alternativhypothesen nicht verteilungsfrei
...
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Schätzgleichungen für den Median
Für den Stichprobenmittelwert x̄ gilt
s
X̄ = argminθ
n
∑ (Xi − θ )2
i=
1
Der Stichprobenmedian m̄ als Schätzer für den Median θ im
Lagemodell ist durch
m̄ = argminθ
n
∑ |Xi − θ | ,
1
i=
bzw. durch die Schätzgleichung
∑ sgn (Xi − θ ) = 0
gegeben.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Kondenzintervalle für den Median
folgen wiederum dem Lagemodell (1). Sei θ der
wahre Median.
X1 , . . . , Xn
Satz
Für c1 gelte Pθ [S (θ ) ≤ c1 ] = α/2. Dann ist für (0 ≤ α ≤ 1) das
Intervall X(c1 +1) , X(n−c1 ) ein (1 − α)-Kondenzintervall für den
Median θ .
Asymptotische Approximation
∼n−
c1 =
2
R. Kovacevic
√
n · zα/2
2
−
1
2
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Asymptotische relative Ezienz I
Denition
Eine Testfolge ϕn heiÿt konsistent, wenn für alle Parameter aus der
Alternativmenge für n → ∞
Z
ϕn (xn ) dPθ (xn ) → 1
Denition
Seien ϕ1 , ϕ2 zwei Tests für eine Nullhypothese H0 gegen eine
Alternativhypothese H1 zum Signikanzniveau α . n1 sei die Anzahl von
Beobachtungen, sodass die Güte von Test ϕ1 gleich der Güte von ϕ2 , wobei
sich ϕ2 auf n2 Beobachtungen stützt. Die asymptotische relative Ezienz
(ARE) von Test ϕ1 relativ zu Test ϕ2 ist dann durch den Grenzwert
n2
ARE (ϕ1 , ϕ2 ) = nlim
→∞ n
2
gegeben, wobei zusätzlich
HR.1 Kovacevic
→ H2 .
1
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Asymptotische relative Ezienz II
Interpretation: Test 1 ist der Bezugspunkt
ARE = 1: Beide Tests sind gleichwertig
ARE < 1: Test 2 ist besser als Test 1.
ARE > 1: Test 2 ist schlechter als Test 1.
Sei X1 , . . . , Xn eine i.i.d. Stichprobe
aus einem Lagemodell, wobei
die Xi normalverteilt N 0, σ 2 seien. Verglichen wird der
Vorzeichentest mit dem t −Test. Es gilt dann
ARE ' 0.64,
der Vorzeichentest ist also hier nur 64% so ezient wie der t -Test.
Das bedeutet, dass der t -test nur 64% der Stichprobengröÿe des
Vorzeichentests benötigt, um dieselbe Güte zu erreichen.
Andererseits: Je weiter sich die Verteilung vom
Normalverteilungsmodell entfernt, desto ezienter wird der
Vorzeichentest im vergleich zum t -Test.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Symmetrische Verteilungen
Der Vorzeichentest ist Verteilungsunabhängig und macht auch keinerlei
Annahmen über die Verteilung, erreicht aber für spezielle Verteilungen bei
weitem nicht die Ezienz wie Tests, die auf die betreenden Verteilungen
zugeschnitten sind.
Im Folgenden betrachten wir wiederum i.i.d. Stichprobe aus einem Lagemodell
(1). Zusätzlich wird die Annahme gemacht, dass die zugrundeliegende Dichte fX
symmetrisch ist. D.h.
f (x ) = f
(−x ) .
Im Allgemeinen hängen Lagemodelle stark vom zugrundeliegenden Funktional
ab. Für symmetrische Verteilungen sind jedoch alle Lagefunktionale gleich:
Satz
Sei X ein Zufallsvariable mit Verteilungsfunktion FX und Dichtefunktion (WF) fX , so
dass die Verteilung von X symmetrisch um a ist. Sei weiters T ein beliebiges
Lagefunktional. Dann gilt T (FX ) = a.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Rangstatistiken
Denition
Der Rang der i-ten Beobachtung Xi aus einem sample von n
Beobachtungen ist die Anzahl von Beobachtungen kleiner oder
gleich Xi :
rank (Xi ) =
n
n
∑
j=
1
1 X ≤X
{ j i}
=
∑ 1{X j ≤Xi }
j=
1
Für die Ordnungsstatistiken gilt rank X(i )
R. Kovacevic
( )
= i.
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Signed Rank Wilcoxon Statistik
Wiederum betrachten wir zunächst die einseitige Hypothese
H0 : θ = θ0 vs . H1 : θ > θ0
(5)
für das Lagemodell (1) und nehmen o.B.d.A.
θ0 = 0
an.
Unter einer (um 0) symmetrischen Verteilung sind dann positive und negative
Beobachtungen mit gleichem Wert gleich wahrscheinlich. Es ist daher
sinnvoll, dass sie in einer Teststatistik gleiches Gewicht bekommen.
Denition
Die Wilcoxon (signed-rank) Statistik ist durch
T
=
n
∑ sgn (Xi ) · rank |Xi |
i =1
gegeben.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Signed-rank Wilcoxon Test
Die Testfunktion des Wilcoxon signed-rank Tests ist
1 if T ≥ c
0 else
c wird dabei so gewählt, dass der Test Niveau α hat.
Die Verteilung der Teststatistik besitzt unter H0 folgende
Eigenschaften:
(
ϕ(x ) =
Die Vorzeichen sgn (Xi ) sind i.i.d. mit Wertebereich {−1, 1}
und p(−1) = p(1) = 1/2
Die Ränge sind gleichverteilt auf {1, . . . , n} .
Ränge rank |Xi | und Vorzeichen sind unabhängig.
Diese Fakten können genutzt werden um die Verteilung der
Teststatik zu charakterisieren.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Verteilung der Wilcoxon-Statistik
Satz
Unter H0 und bei Symmetrie der Dichtefunktion um θ0 = 0 sind
|X1 | , . . . , |Xn | unabhängig von sgn (X1 ) , . . . , sgn (Xn ).
Das bedeutet insbesondere, dass die Ränge rank |Xi |
unabhängig von den Vorzeichen sind.
Satz
Die momenterzeugende Funktion der Wilcoxon-Statistik ist durch
M (s ) = E [exp (s · T )] =
gegeben
R. Kovacevic
1 n −sj +sj e +e
2n j∏
=1
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Verteilung der Wilcoxon-Statistik
Satz
Unter Voraussetzungen wie zuvor gilt unter H0
1 T ist verteilungsfrei und symmetrisch verteilt.
2 EH [T ] = 0
0
3 Var H [T ] = n(n+1)(2n+1)
0
6
4 √ T
ist
asymptotisch
N (0, 1) verteilt.
Var
[T ]
H0
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Umformulierungen der signed rank Statistik
Sei
T+ =
∑
0
Xi >
rank(|Xi |)
die Rangsumme der positiven Beobachtungen.
Es gilt
n (n + 1)
T = 2T + −
.
2
Tests für die einseitige Hypothese können daher auch auf die
Statistik T + gegründet werden.. Insbesondere haben die
beiden Testversionen bei gegebenem Niveau α die gleiche
Güte.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Gütefunktion des Wilcoxon Tests
Die Teststatistik T + kann auch als Anzahl der positiven
Walsh-Durchschnitte
T = #i ≤j
+
Xj + Xi
2
>0
(6)
berechnet werden.
In Darstellung (6) erkennt man eine groÿe Ähnlichkeit
zwischen T + und der Vorzeichenstatistik S .
Zur Untersuchung der Güte deniere weiters
T + (θ ) = #i ≤j
R. Kovacevic
Xj + Xi
2
>θ .
Nichtparametrische Statistik, Teil 1
(7)
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Gütefunktion des Wilcoxon Tests
kann dann analog zu S (θ ), (siehe Denition (4))
analysiert werden. Insbesondere gilt wieder
Pθ [T + (0) ≥ k ] = P0 [T + (−θ ) ≥ k ].
T + (θ ) ist eine monoton fallende Treppenfunktion, die bei
jedem Walsh-Durchschnitt um eine Einheit abwärts springt.
Die Gütefunktion ist daher monoton steigend ...
T + (θ )
Satz
Der signed-rank Wilcoxon Test ist ein unverzerrter Test.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Asymptotische relative Ezienz
Die relative Ezienz des Wilcoxon Tests im Vergleich zum
t-Test ist für normalverteilte daten 0.959.
Für kontaminierte Normalverteilungen ergibt sich folgendes
Bild:
ε
0.00
0.01
0.02
0.03
0.05
0.10
0.15
0.25
ARE(W,t)
ARE(S,t)
ARE(W,S)
0.955
0.637
1.5
1.009
0.678
1.487
1.060
0.719
1.474
1.108
0.758
1.461
1.196
0.833
1.436
1.373
0.998
1.376
1.497
1.134
1.319
1.616
1.326
1.218
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Hodges-Lehmann Schätzer
Der Hodges-Lehmann Schätzer θ̂W für den Median einer
symmetrischen Verteilung ist durch
T + θ̂W =
deniert.
Es gilt
n (n + 1)
θ̂W = median
R. Kovacevic
4
Xi + Xj
2
.
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Kondenzintervalle
Die Ähnlichkeit zwischen T + und der Vorzeichenstatistik kann
zur Konstruktion von Kondenzintervallen genützt werden.
X1 , . . . , Xn folgen wiederum dem Lagemodell (1). Sei θ der
wahre Median.
Satz
Für cW 1 gelte Pθ [T + (θ ) ≤ cW 1 ] = α/2. Dann ist für (0 ≤ α ≤ 1)
das Intervall W(cW 1 +1) , W(m−cW 1 ) ein (1 − α)-Kondenzintervall
für den Median θ , wobei m = n(n2+1) die Anzahl der Walsh
Durchschnitte bezeichnet.
Asymptotische Approximation
∼n−
c1 =
2
R. Kovacevic
√
n · zα/2
2
−
1
2
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Tests von Dierenzen
Sei X1 , . . . , Xn1 eine Stichprobe aus einer Grundgesamtheit mit
Verteilungsfunktion F (·), und Y1 , . . . , Yn2 eine Stichprobe aus
einer Grundgesamtheit mit Verteilungsfunktion G (·).
Teste H0 : F = G .
Im Kontext von Lagemaÿen: F (x ) = G (x − ∆). Der
Lageparameter ∆ wird shift genannt.
Teste H0 : ∆ = 0 vs H1 : ∆ > 0.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Einfache Eigenschaften
Die Verteilung von Y ist die Verteilung von X + ∆.
Der Shift ∆ ist unabhängig davon, welcher Lageparameter T
benutzt wird.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Mann-Whitney-Wilcoxon (MWW) Teststatistik
Unter H0 sind die Verteilungen von X und Y gleich und die Stichproben
können zu einer groÿen Stichprobe mit Umfang n1 + n2 kombiniert
werden.
Denition
Die Mann-Whitney-Wilcoxon Statistik ist durch
n2
W = ∑ rank(Yj ),
j =1
wobei rank(·) den Rang der Beobachtung in der kombinierten Stichprobe
bedeutet.
Unter H0 sollten die Ränge gleichmäÿig auf die beiden Stichproben Xi und
Yi verteilt sein. Unter H1 sollten die Yi tendenziell gröÿeren Rang haben.
Ablehnungsregel: Lehne H0 ab, wenn W ≥ c .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Verteilung der Mann-Whitney-Wilcoxon Statistik
Unter H0 ist es für die Menge der Ränge R = {rank(Yj )}für
jede Teilmenge D mit n2 Elementen aus {1, ..., n1 + n2 } gleich
wahrscheinlich, dass R = D .
Es gibt
n1 + n2
n n2
derartige Teilmengen.
Wenn R = r1 , . . . , rn2 dann gilt
o
P [rank(Y1 ) = r1 , . . . , rank(Yn2 ) = rn2 ] =
n1 + n2
n2
−1
Weiters ist die einzelnen Ränge rank(Yi ) i.i.d. gleichverteilt auf
{1, 2, . . . , n1 + n2 }.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Verteilung der Mann-Whitney-Wilcoxon Statistik
Satz
Sei X1 , . . . , Xn1 eine Stichprobe aus einer Grundgesamtheit mit
Verteilungsfunktion F (·), und Y1 , . . . , Yn2 eine Stichprobe aus einer
Grundgesamtheit mit Verteilungsfunktion G (·). Unter der
Nullhypothese H0 : G = F gilt
1 Die Statistik W ist verteilungsfrei und symmetrisch.
2 EH [W ] = n2 (n1 +n2 +1)
0
2
3 VarH [W ] = n1 n2 (n1 +n2 +1)
0
12
W −EH0 [W ]
4 √
ist asymptotisch standardnormalverteilt.
Var [W ]
H0
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Eine alternative Teststatistik
Betrachte
Es gilt
U = #(i ,j ) {Yj > Xi } .
n (n + 1)
W =U+ 2 2
2
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Bindungen
Bis jetzt wurde stets vorausgesetzt, dass die beobachteten Daten
einer stetigen Verteilung folgen. Die Konsequenz war, dass die
Wahrscheinlichkeit dass zwei Beobachtungen den gleichen Wert
annehmen 0 ist.
In der Praxis stellen zwei Probleme diese Folgerung in Frage:
Diskrete Verteilungen
Begrenzte Messgenauigkeit
Mehrfachwerte können also ganz leicht auftreten und
Beobachtungen mit sehr nahe beieinander liegenden Werten können
die Stabilität von Testergebnissen ebenfalls stark beeinträchtigen.
Selbst asymptotische Ergebnisse sind auch für groÿe
Stichprobenzahl nicht mehr anwendbar.
Dies betrit besonders rangbasierte Tests.
Dealing with this problems in an analytical way is very dicult.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Vorgehensweise
1
2
3
Alle Werte werden passend gerundet (Messgenauigkeit)
Beobachtungen mit identischem Wert erhalten denselben Rang
zugewiesen: Arithmetisches Mittel der Ränge, die diesen
Beobachtungen zugewiesen würde, wenn sie unterschiedliche
Werte hätten.
Durchführung eines Permutationstests unter Verwendung der
jeweiligen Teststatistik.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Permutationstest
Permutationstests (randomization tests, exact tests) können
verwendet werden, wenn die Nullhypothese darin besteht, dass alle
Beobachtungen, die in zwei Gruppen n1 , n2 unterteilt sind, aus
derselben Verteilung stammen.
Sie bauen auf einer aufgrund des speziellen Modells hergeleiteten
Teststatistik T auf.
Vorgehensweise:
Berechne T für die beobachteten Daten.
Erzeuge alle möglichen Grupperungen (n1 , n2 ) der Daten, die
im Modell zulässig sind und berechne jeweils die Teststatistik
Ti .
Benutze die Verteilung der Ti um den p-Wert für T zu
berechnen.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Asymptotic Relative Eciency
In the next section we consider the following situation: Suppose
that we have two test statistics Tn and Tn∗ for data consisting
of n observations. Both statistics are consistent for a test
H0 : θ ∈ Θ0 vs . H1 : θ ∈ Θ\Θ0 .
Suppose further that a subset of the space Θ can be indexed
in terms of a sequence (θ0 , θ1 , . . . , θn , . . .) such that θ0 ∈ Θ0
and θi ∈ Θ\Θ0 for i ≥ 1. Furthermore,
lim θi = θ0 .
n→∞
We look at the hypotheses
H0 : θ = θ0 vs . H1 : θ > θ0
in the following.
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Asymptotic Relative Eciency
Denition
Let γn (·) and γn∗ (·) be the power functions of two tests T , T ∗ with test
statistics Tn , Tn∗ . Let θi as above. Also let Tn and Tn∗ have the same level of
signicance α .
Consider a sequence of alternatives (θi ) and a sequence (n∗ ) = (h(n)) of
positive integers where h is some suitable function, such that
∗
lim γn (θn ) = lim γn∗ (θn∗ ),
n→∞
n→∞
where it is assumed that the two limits exist and are not equal to either 0 or 1.
Then the asymptotic relative eciency (ARE) of a test T relative to a test T ∗
is
∗
ARE (T , T ∗ ) = lim n
n→∞ n
provided that the limit exists and is independent of the sequences (θi ),(n) and
(n ∗ ).
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Regularity Conditions
Tn and Tn∗ must be satised:
d E[Tn ] exists and is positive and continuous at θ0 . All other higher-order derivatives are
dθ
The following ve regularity conditions for the tests
equal to zero at θ0 .
There exists a positive constant
c such that
d E[Tn ] |θ =θ
√ dθ
c = nlim
→∞ nσ
0
Tn |θ =θ0
There exists a sequence of alternatives
(θn )
such that for some constant
θn
d E[Tn ] |θ =θ
n
dθ
nlim
→∞ d E[Tn ]
|θ =θ0
dθ
σTn |θ =θn
lim
n→∞ σTn |θ =θ0
d > 0 we have
d
n
=
θ0 + √
=
1
=
1
Tn −E[Tn ] ≤ z | θ = θn = Φ (z )
P
σT
nlim
→∞
n
P Tn ≥ tn ,α | θ = θ0 = α for 0 < α < 1.
nlim
→∞
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Limiting Power
Satz
Under the ve regularity conditions, the limiting power of the test
Tn is
lim γn (θn ) = 1 − Φ (zα − d · c )
n→∞
where zα is given by the equation 1 − Φ (zα ) = α .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Lagemodelle
Stichprobenmedian und Vorzeichentest
Symmetrische Verteilungen und der Signed-Rank Wilcoxon T
Mann-Whitney Test
Bindungen (Ties)
Asymptotic Relative Eciency
Parametrisch - Nichtparametrisch
Ordnungsstatistiken und Quantile
Unvollständig parametrierte Modelle
Asymptotic Relative Eciency
Satz
If T and T ∗ are two tests satisfying the regularity conditions, the ARE of
T relative to T ∗ is
ARE (T , T ) =
∗
lim
n→∞
" d E[T ]
n |
d θ θ =θ0
d E[Tn∗ ] |
d θ θ =θ0
#2
σT2 n∗ |θ =θ0
σT2 n |θ =θ0
Satz
The statement of Theorem 39 remains valid if both tests are for a
two-sided alternative, H1 : θ 6= θ0 with rejection region
Tn ≥ tn,α1 ∨ Tn ≥ tn,α2 where the size of the test is still α and a
corresponding rejection region is dened for Tn∗ with the same α1 and α2 .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Anhang
Ecacy
The ARE can be written as
2
d E[Tn ] |
d θ θ =θ0
σ 2 |θ =θ
ARE (T , T ∗ ) = lim Tn∗ 0 2
n→∞
d E[Tn ]
d θ |θ =θ0
2 |
σT
n θ =θ0
The expression
e (Tn ) =
d E[Tn ]
dθ
|θ =θ0
2
σT2 n |θ =θ0
is called the ecacy of a test, when used to test the
hypothesis θ = θ0 .
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Anhang
Weiterführende Literatur
Literatur I
R. Kovacevic
Nichtparametrische Statistik, Teil 1
Herunterladen