Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Nichtparametrische Statistik, Teil 1 R. Kovacevic1 1 Institut für Statistik und Decision Support Systeme Universität Wien Sommersemester 2010 R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Gliederung 1 Parametrisch - Nichtparametrisch 2 Ordnungsstatistiken und Quantile 3 Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon Test Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Modelle Modell: Vereinfachtes Abbild der Realität. In unserem Fall: stochastische Modelle. Zufallsexperiment mit Stichprobenraum Ω Auf dem Stichprobenraum sei ein Zufallsvektor X = (X1 , . . . , Xn ) ∈ Ξ deniert. Wenn ω realisiert wird, dann sind die Werte X (ω) = x die Beobachtungen (Daten) Da wir nur den Zufallsvektor X beobachten, können wir uns auf seine Verteilung P konzentrieren. Die Verteilung P wird als Element einer Familie P von potentiellen Wahrscheinlichkeitsverteilungen auf Rn betrachtet. Diese Familie P nennen wir ein Modell. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Statistik Benutze die Daten und ein (sinnvolles) Modell, um zu Schlussfolgerungen über die tatsächliche Verteilung des Vektors X zu erhalten. Aus welcher Verteilung stammen die Daten? Schätzen: Eine konkrete Verteilung, bzw. ein Bereich von Verteilungen ist gesucht. Testen: Die Hypothese, dass die tatsächliche Verteilung in einer Teilmenge des Modells liegt, wird getestet ... Klassische Statistik: Das Modell kann durch die Verteilung der Daten - gegeben den (unbekannten) Parameterwert beschrieben werden. Bayesianische Statistik: Zusätzlich wird angenommen, dass die Parameterwerte selbst Zufallsvariable sind, und dass a priori Wissen/Vermutungen über deren Verteilung existiert ... R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Parametrierung und Parameter Um ein Modell zu beschreiben wird eine Parametrierung verwendet: Parameterraum (Menge von Kennzeichnungen, Indexmenge) Θ. Parameter: θ ∈ Θ Parametrierung: Eine Abbildung θ 7→ Pθ von Parameterraum Θ in den Modellraum P . Verschiedene Typen von Parametrierungen: Parametrische Modelle: Können durch eine endliche Zahl von Parametern beschrieben werden. θ ist in diesem Fall ein endlichdimensionaler Vektor. Semiparametrische Modelle: Können durch einen endlichdimensionalen Parametervektor und weitere unendlichdimensionale Parametrierung beschrieben werden. Nichtparametrische Modelle: Beschreibung der Verteilung R. Kovacevic Nichtparametrische Statistik, Teil 1 durch ein unendlichdimensionals Objekt (zb. Kurve, Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Vollständig parametrierte Modelle Wir bezeichnen eine Verteilung die einem bestimmten Parameterwert θ zugeordnet ist mit Pθ . In einem vollständig parametrierten Modell gilt P = {Pθ : θ ∈ Θ}. Die zugehörigen Erwartungswerte bezeichnen wir mit Eθ . Verteilungsfunktionen sind durch F (·, θ ), Dichte- und Wahrscheinlichkeitsfunktionen durch p(·, θ ) bezeichnet. Normalerweise betrachten wir für parametrische Modelle einen der folgenden Fälle Alle Pθ sind stetig mit Dichte p(·, θ ), bzw. f (·, θ ) Alle Pθ sind diskret mit Wahrscheinlichkeitsfunktion p(·, θ ) und die Mengen {x1 , . . . , xn } ≡ {x : p(x , θ ) > 0} ist für alle θ identisch. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Nichtparametrische Statistik Hauptaufgaben wie in der klassischen Statistik: Schätzen, Testen Zwei wichtige Situationen für nichtparametrische Statistik Schätzen/Testen in bezug auf von unendlichdimensionalen Objekten (Verteilungsfunktion, Dichte ...) Unvollständig parametrierte Modelle: typischerweise keine vollständigen Verteilungsannahmen R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Statistiken Bekannt: Daten x , eventuell ein (unvollständig parametriertes) Modell P Unbekannt: wahre Parameterwerte θ , Verteilung/Modell Verbindung: Statistiken T (x ) Alles was aus den Daten berechnet werden kann Eine Statistik T is eine Abbildung vom Wertebereich der Daten Ξ in einen Wertebereich Υ. Unabhängig von (unbekannten) Parameterwerten Beachte: Die Daten sind Realisierungen von Zufallsvariablen. Bevor das Ergebnis des Zufallsexperimentes feststeht, kann eine Statistik daher selbst als Zufallsvariable T (X ) betrachtet werden. Veteilung der Statistik wird auch Stichprobenverteilung genannt. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Statistiken repräsentiert die möglichen Werte der Statistik. In der parametrischen Statistik gilt Υ = Rn . In nichtparametrischen Modellen kann Υ aber zB. auch eine Menge von Kurven sein ... Υ Beispiele Stichprobenmittelwert und -varianz Regressionsparameter Empirische Verteilungsfunktion F̂ (x ) = n1 ∑ 1(Xi ≤ x ) Vorzeichenstatistik R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Sto Klassische nichtparametrische Statistik: Verteilungsfreies Schätzen und Testen Wichtige Rolle von Ordnungsstatistiken und Quantilen ... Unendlichdimensionale Objekte: Kerndichteschätzer, Kernregression etc ... Resampling-Methoden: Schätzverfahren oder Test gegeben. Die statistischen Eigenschaften (zB. Kondenzintervalle, Fehler ...) sind aber analytisch nicht (oder nur schwer) beschreibbar. Ausweg: Zufällige Widerholung der Schätzung/des Tests und Betrachtung der so erzeugten empirischen Verteilung der statistischen Eigenschaften. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Literatur Larry Wasserman: All of Nonparametric Statistics Bowman and Azzalini: Applied Smoothing Techniques for Data Analysis: The Kernel Approach with S-Plus Illustrations Gibbons and Chakraborti: Nonparametric Statistical Inference Hogg/Craig: Introduction to Mathematical Statistics (Chap 10) Shao: Mathematical Statistics (Chap. 5,6) R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Ordnungsstatistiken Sei X1 , X2 , . . . , Xn eine i.i.d Zufallsstichpobe mit Xi ∼ FX (·) Wenn F eine stetige Verteilung ist dann können die Werte Xi (f.s.) eindeutig in aufsteigender Ordnung angeordnet werden: X(1) < X(2) < . . . , < X(n) X(1) bezeichnet dabei das kleinste Element und X(n) X(i ) wird als i -te Ordnungsstatistik bezeichnet. R. Kovacevic das gröÿte. Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Quantile Das p-te Quantil einer Zufallsvariablen X mit Verteilungsfunktion FX (·) ist durch QX (p ) = FX−1 (p ) = inf {x : FX (x ) ≥ p } gegeben. Wenn FX strikt monoton steigend ist, ist die Quantilsfunktion die übliche Umkehrungsfunktion. Falls FX um den Wert p ach ist, und im Fall von Sprüngen liefert die obige Denition eindeutige Werte. FX und QX enthalten dieselbe Information über die Verteilung von X . R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Empirische Verteilungsfunktion Sei X1 , X2 , . . . , Xn eine i.i.d Zufallsstichpobe mit Xi ∼ FX (·) . Die empirische Verteilungsfunktion ist durch 1 F̂n (x ) = ∑ 1{Xi ≤x } n gegeben. Weiters sei Tn (x ) = n · F̂n (x ) die Anzahl aller Stichpobenwerte Xi ≤ x . R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Eigenschaften der empirischen Verteilungsfunktion I Satz Für jede feste reelle Konstante x hat die Zufallsvariable Tn (x ) eine Binomialverteilung mit Parametern n und FX (x ). Folgerung Mittelwert und Varianz der empirischen Verteilungsfunktion sind wie folgt gegeben: h i E F̂n (x ) = FX (x ) h i F (x ) · (1 − F (x )) X X Var F̂n (x ) = n Die empirische Verteilungsfunktion ist also erwartungstreu. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Eigenschaften der empirischen Verteilungsfunktion II Folgerung Die empirische Verteilungsfunktion F̂n (x ) ist (bei xem x) ein konsistenter Schätzer für FX (x ). Folgerung h i Es gilt E F̂n (x )F̂n (y ) = nFX (x )FX (y ) R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Eigenschaften der empirischen Verteilungsfunktion III Die bieherigen Aussagen beziehen sich auf Werte der Verteilungsfunktion an bestimmten Punkten. Es ist auch möglich über alle Werte x gemeinsam etwas zu sagen. Satz (Glivenko-Cantelli) F̂n (x ) konvergiert fast sicher gleichmäÿig gegen FX (x ), das bedeutet P lim sup n→∞ −∞<x <∞ F̂ ( x ) − F ( x ) = 0 = 1. n X R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Eigenschaften der empirischen Verteilungsfunktion IV Satz Die standardisierte empirische Verteilungsfunktion konvergiert in Verteilung gegen eine Standardnormalverteilung. √ n · F̂n (x ) − FX (x ) lim P p n→∞ FX (x ) (1 − FX (x )) R. Kovacevic ≤ t = Φ(t ) Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Empirische Quantilsfunktion Die Quantilsfunktion ist die (verallgemeinerte) Inverse der Verteilungsfunktion. Die empirische Quantilsfunktion ist die (verallgemeinerte) Inverse der empirischen Verteilungsfunktion ... Denition Die empirische Quantilsfunktion Qn (u ) ist für 0 ≤ u < 1 durch Qn (u ) = inf x : F̂n (x ) ≥ u n o deniert. Der Wertebereich der empirischen Quantilsfunktion ist durch die Ordnungsstatistiken der empirischen Verteilung gegeben. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Eigenschaften der Ordnungsstatistiken I Satz Für jedes xe t ist die Verteilungsfunktion der r -ten Ordnungsstatistik für −∞ < t < +∞ durch n FX(r ) (t ) = P X(r ) ≤ t = ∑ P n · F̂n (t ) = j j =r n n =∑ FX (t )j · (1 − FX (t ))(n−j ) j j =r gegeben. Weiters ist für stetiges FX mit Dichte fX die Dichtefunktion der r -ten Ordnungsstatistik n! fX(r ) (t ) = FX (t )r −1 · (1 − FX (t ))(n−r ) fXr (t ) (r − 1)!(n − r )! R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Ordnungsstatistiken der Gleichverteilung Satz Für eine Zufallsstichprobe mit Umfang n aus U [0, 1] ist die r -te Ordnungsstatistik B (r , n − r + 1)verteilt.. fX(r ) (x ) = n! (r − 1)! (n − r )! · x r −1 (1 − x )n−r , 0<x <1 Folgerung Unvollständiges Beta-Integral: 1 B (r , n − r + 1) · Z 0 t x 1 · (1 − x )n−r dx = r− R. Kovacevic n ∑ i =r n i t i (1 − t )n−i Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Probability Integral Transformation (PIT) Satz Sei X eine Zufallsvariable mit stetiger (!) Verteilungsfunktion FX , dann ist die Zufallsvariable Y = FX (X ) stetig gleichverteilt auf [0 , 1 ]. Wenn X1 , . . . , Xn eine i.i.d. Stichprobe aus der Verteilung FX ist, dann ist FX (X1 ) , . . . FX (Xn ) eine i.i.d. Stichprobe mit Gleichverteilung auf [0, 1]. Wenn X(1) , . . . , X(n) die zur Stichprobe X1 , . . ., Xn gehörigen Ordnungsstatistiken sind, dann sind FX X(1) , . . . FX X(n) die Ordnungsstatistiken einer Gleichverteilung auf [0, 1]. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Gemeinsame Verteilung von Ordnungsstatistiken Die gemeinsame Dichte (WF) einer i.i.d. Stichprobe X1 , . . . , Xn ist durch n gegeben. fX1 ,...,Xn (x1 , . . . , xn ) = ∏ fX (xi ) i =1 Satz Die gemeinsame Verteilung der Ordnungsstatistiken X(1) , . . . , X(n) ist durch n fX(1) ,...,X/n) (x1 , . . . , xn ) = n! · ∏ fX (xi ) i =1 − ∞ < x1 < x2 < . . . < xn < ∞ gegeben. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Verteilung von Ordnungsstatistiken Theorem 13 kann benutzt werden um die Verteilung von einzelnen Ordnungsstatistiken (Theorem 9) und beliebigen Teilmengen von Ordnungsstatistiken durch Integration zu berechnen. Eine alternative Berechnungsmethode nutzt Wahrscheinlichkeitstheoretische Argumente. Die Verteilung von Median und Range können aus der gemeinsamen Verteilung zweier Ordnungsstatistiken berechnet werden. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Gemeinsame Verteilung von zwei Ordnungsstatistiken Satz Die gemeinsame Verteilung von zwei Ordnungsstatistiken X(s ) , X(r ) mit s > r ist für alle 0 < x < y < 1 durch fX(r ) ,X(s ) (x , y ) = n! · FX (x )r −1 (FX (y ) − FX (x ))s −r −1 (1 − FX (y ))n−s fX (x )fX (y ) (r − 1)! (s − r − 1)! (n − s )!) gegeben. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Ordnungsstatistiken der Gleichverteilung Satz Für eine Zufallsstichprobe mit Umfang n aus U [0, 1] ist die r -te Ordnungsstatistik B (r , n − r + 1)verteilt. (siehe Theorem 10) Satz Die gemeinsame Dichte der Ordnungsstatistiken X(r ) und X(s ) mit s > r ist fX(r ) ,X(s ) (x , y ) = n! · x r −1 (y − x )s −r −1 (1 − y )n−s , (r − 1)! (s − r − 1)! (n − s )!) R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Momente der Ordnungsstatistiken Satz Das k-te nichtzentrale Moment der r -ten Ordnungsstatistik X(r ) einer Zufallstichprobe aus einer Verteilung FX ist durch h i h i E X(kr ) = E QX (U )k gegeben, wobei U ∼ B (r , n − r + 1). Das stellt eine bemerkenswerte Verbindung zwischen Ordungsstatistiken für beliebeige Verteilungen und den Ordnungsstatistiken der Gleichverteilung U (0, 1) her. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Asymptotische Verteilung der Ordnungsstatistiken Wir betrachten im Folgenden stets den Fall n → ∞ und r/n → p , 0 < p < 1. Satz Sei X(r ) die r-te Ordnungsstatistik einer Zufallsstichprobe des Umfangs n mit Verteilungsfunktion FX . Wenn n → ∞ und r/n → p , 0 < p < 1 und µ = QX (p) gilt, dann konvergiert die Zufallsvariable Zn = r n p (1 − p ) fX (µ) X(r ) − µ in Verteilung gegen eine Standardnormalverteilte Zufallsvariable Z. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parameter und Funktionale Erweiterter Begri Parameter: Parameter θ als Funktion der Verteilungsfunktion oder Dichte einer Zufallsvariable. θX = T (FX ) , wobei T eine Abbildung aus einem geeigneten Funktionenraum nach Rn ist. Derartige Abbildungen werden auch als Funktionale bezeichnet. Prinzip gleicher Funktionale: Ein natürlicher nichtparametrischer (Verteilungsfreier) Schätzer für einen derart denierten Parameter ist durch θ̂X = T F̂X gegeben. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Lagemodelle I Denition Sei X eine stetige Zufallsvariable mit Verteilungsfunktion FX und Dichtefunktion (WF) fX . Ein Funktional T (FX ) heiÿt Lagefunktional (Lage-Skalenfuktional), wenn die folgenden beiden Bedingungen erfüllt sind: 1 2 Wenn Wenn Y = X + a dann gilt T (FY ) = T (FX ) + a für alle a ∈ R Y = aX dann gilt T (FY ) = aT (FX ) für alle a 6= 0. Denition Sei θX = T (FX ) ein Lage-Skalenfunktional. Die Beobachtungen folgen einem Lagemodell mit Funktional θX , wenn X1 , . . . , Xn Xi = θX + εi gilt, wobei die εi i.i.d. mit Verteilungsfunktion Fε und T (Fε ) = 0 sind. Das bedeutet: Die Xi sind i.i.d. mit fX (x ) = fε (x − T (FX )) R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Mediantest Sei X1 , . . . , Xn eine Zufallsstichprobe, die dem Lagemodell Xi = θ + εi (1) folgt, wobei die εi als i.i.d. mit Median 0, Verteilungsfunktion F und Dichtefunktion (WF) f angenommen werden. Das Lagefunktional ist also der Median und der Median von Xi ist θ . Für symmetrische Verteilungen ist der Median mit dem Mittelwert identisch ... R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Vorzeichenstatistik Denition Die Vorzeichenstatistik einer i.i.d. Stichprobe ist durch Sθ0 (X ) = # {Xi > θ0 } = n ∑ 1{Xi >θ0 } i= 1 gegeben. Im Folgenden betrachten wir zunächst den einseitigen Test mit einfacher Nullhypothese H0 : θ = θ0 vs . H1 : θ > θ0 . (2) Wenn die Nullhypothese zutrit, würde man etwa gleich viele Beobachtungen über und unterhalb von θ0 erwarten. Wenn die Alternativhypothese zutrit, werden mehr als die R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Vorzeichentest: Einseitige Hypothese Der Vorzeichentest für die einseitige Hypothese (2) ist durch die folgende Testfunktion gegeben: ( 1 ,falls Sθ0 (x ) ≥ c ϕ (x ) = (3) 0 sonst. Unter der Nullhypothese ist Sθ0 (X ) binomialverteilt mit 1 Paramtern Bin n, 2 . Für ein Signikanzniveau α wird c so gewählt, dass PH0 (Sθ0 (x ) < c ) = 1 − α . Bemerkung: Die Verteilung der Teststatistik S hängt nicht von der Verteilungsfunktion F ab, der Test ist also verteilungsfrei. Für ein gegebenes Signikanzniveau α wird c als Quantil der Binomialverteilung gewählt. Damit ist zunächst nur eine diskrete Menge von α -Levels möglich. Ein Ausweg besteht in R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Asymptotischer Vorzeichentest Bei groÿem Stichprobenumfang kann ein Test benutzt werden, der auf der asymptotischen Verteilung der Teststatistik beruht. Unter H0 ist die standardisierte Statistik S= Sθ0 (X ) − n/2 √ n/2 asymptotisch standardnormalverteilt N (0, 1). Der asymptotische Vorzeichentest hat somit die folgende Testfunktion: ( 1 ,falls S ≥ zα ϕ (x ) = 0 sonst. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Vorzeichentest: Zweiseitige Hypothese Der zweiseitige Test : H0 : θ = θ0 vs . H1 : θ 6= θ0 . Die Testfunktion für den zweiseitigen Test: 1 0 ( ϕ (x ) = ,falls Sθ0 (x ) ≤ c1 ∨ Sθ0 (x ) ≥ n − c1 sonst. Für ein Signikanzniveau α wird c1 so gewählt, dass PH0 (Sθ0 (x ) ≤ c1 ) = α2 . Der zweiseitige asymptotische Test läuft wiederum auf einen zweiseitigen Normalverteilungstest hinaus. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Gütefunktion für den einseitigen Test I Ausgangspunkt: Einseitige Test mit Hypothesen (2). Ohne Beschränkung der Allgemeinheit betrachten wir im Folgenden θ0 = 0. Deniere die Funktion S (θ ) = # {Xi > θ } . Es gilt Sθ0 (x ) = S (θ0 ). Mithilfe der Ordnungsstatistiken: S (θ ) = # {Xi > θ } = # X(i ) > θ Für jedes k gilt Pθ [S (0) ≥ k ] = P0 [S (−θ ) ≥ k ] R. Kovacevic Nichtparametrische Statistik, Teil 1 (4) Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Gütefunktion für den einseitigen Test II Die Gütefunktion für ein Lagemodell (1) mit einseitigem Hypothesentest (2) ist durch γ (θ ) = Pθ [S (θ0 ) ≥ cα ] gegeben, wobei cα . Satz Es gelte das Modell Xi = θ + εi mit Median θ . Sei weiters γ die Gütefunktion für den einseitigen Test mit Hypothesen (2) . Dann ist γ (θ ) eine monoton steigende Funktion in θ . R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Gütefunktion für den einseitigen Test III Betrachten wir nun den einseitigen Test H0 : θ ≤ θ0 vs . H1 : θ > θ0 mit der Testfunktion (3) für den einseitigen Test mit einfacher Alternative zum Niveau α . Satz Das Niveau des so beschriebenen Tests ist α und der Test ist unverzerrt. Entsprechend ist die Testfunktion für den einseitigen Test H0 : θ ≥ θ0 vs . H1 : θ < θ0 monoton fallend in θ und Theorem (23) hält ebenfalls. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Gütefunktion für den einseitigen Test IV Unter der Alternative θ = θ1 ist die Teststatistik S binomialverteilt Bin (n, p1 ) mit p1 = Pθ1 [X > 0] = 1 − F (−θ1 ) , wobei F die Verteilungsfunktion von ε im Lagemodell ist. S ist also unter den Alternativhypothesen nicht verteilungsfrei ... R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Schätzgleichungen für den Median Für den Stichprobenmittelwert x̄ gilt s X̄ = argminθ n ∑ (Xi − θ )2 i= 1 Der Stichprobenmedian m̄ als Schätzer für den Median θ im Lagemodell ist durch m̄ = argminθ n ∑ |Xi − θ | , 1 i= bzw. durch die Schätzgleichung ∑ sgn (Xi − θ ) = 0 gegeben. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Kondenzintervalle für den Median folgen wiederum dem Lagemodell (1). Sei θ der wahre Median. X1 , . . . , Xn Satz Für c1 gelte Pθ [S (θ ) ≤ c1 ] = α/2. Dann ist für (0 ≤ α ≤ 1) das Intervall X(c1 +1) , X(n−c1 ) ein (1 − α)-Kondenzintervall für den Median θ . Asymptotische Approximation ∼n− c1 = 2 R. Kovacevic √ n · zα/2 2 − 1 2 Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Asymptotische relative Ezienz I Denition Eine Testfolge ϕn heiÿt konsistent, wenn für alle Parameter aus der Alternativmenge für n → ∞ Z ϕn (xn ) dPθ (xn ) → 1 Denition Seien ϕ1 , ϕ2 zwei Tests für eine Nullhypothese H0 gegen eine Alternativhypothese H1 zum Signikanzniveau α . n1 sei die Anzahl von Beobachtungen, sodass die Güte von Test ϕ1 gleich der Güte von ϕ2 , wobei sich ϕ2 auf n2 Beobachtungen stützt. Die asymptotische relative Ezienz (ARE) von Test ϕ1 relativ zu Test ϕ2 ist dann durch den Grenzwert n2 ARE (ϕ1 , ϕ2 ) = nlim →∞ n 2 gegeben, wobei zusätzlich HR.1 Kovacevic → H2 . 1 Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Asymptotische relative Ezienz II Interpretation: Test 1 ist der Bezugspunkt ARE = 1: Beide Tests sind gleichwertig ARE < 1: Test 2 ist besser als Test 1. ARE > 1: Test 2 ist schlechter als Test 1. Sei X1 , . . . , Xn eine i.i.d. Stichprobe aus einem Lagemodell, wobei die Xi normalverteilt N 0, σ 2 seien. Verglichen wird der Vorzeichentest mit dem t −Test. Es gilt dann ARE ' 0.64, der Vorzeichentest ist also hier nur 64% so ezient wie der t -Test. Das bedeutet, dass der t -test nur 64% der Stichprobengröÿe des Vorzeichentests benötigt, um dieselbe Güte zu erreichen. Andererseits: Je weiter sich die Verteilung vom Normalverteilungsmodell entfernt, desto ezienter wird der Vorzeichentest im vergleich zum t -Test. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Symmetrische Verteilungen Der Vorzeichentest ist Verteilungsunabhängig und macht auch keinerlei Annahmen über die Verteilung, erreicht aber für spezielle Verteilungen bei weitem nicht die Ezienz wie Tests, die auf die betreenden Verteilungen zugeschnitten sind. Im Folgenden betrachten wir wiederum i.i.d. Stichprobe aus einem Lagemodell (1). Zusätzlich wird die Annahme gemacht, dass die zugrundeliegende Dichte fX symmetrisch ist. D.h. f (x ) = f (−x ) . Im Allgemeinen hängen Lagemodelle stark vom zugrundeliegenden Funktional ab. Für symmetrische Verteilungen sind jedoch alle Lagefunktionale gleich: Satz Sei X ein Zufallsvariable mit Verteilungsfunktion FX und Dichtefunktion (WF) fX , so dass die Verteilung von X symmetrisch um a ist. Sei weiters T ein beliebiges Lagefunktional. Dann gilt T (FX ) = a. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Rangstatistiken Denition Der Rang der i-ten Beobachtung Xi aus einem sample von n Beobachtungen ist die Anzahl von Beobachtungen kleiner oder gleich Xi : rank (Xi ) = n n ∑ j= 1 1 X ≤X { j i} = ∑ 1{X j ≤Xi } j= 1 Für die Ordnungsstatistiken gilt rank X(i ) R. Kovacevic ( ) = i. Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Signed Rank Wilcoxon Statistik Wiederum betrachten wir zunächst die einseitige Hypothese H0 : θ = θ0 vs . H1 : θ > θ0 (5) für das Lagemodell (1) und nehmen o.B.d.A. θ0 = 0 an. Unter einer (um 0) symmetrischen Verteilung sind dann positive und negative Beobachtungen mit gleichem Wert gleich wahrscheinlich. Es ist daher sinnvoll, dass sie in einer Teststatistik gleiches Gewicht bekommen. Denition Die Wilcoxon (signed-rank) Statistik ist durch T = n ∑ sgn (Xi ) · rank |Xi | i =1 gegeben. R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Signed-rank Wilcoxon Test Die Testfunktion des Wilcoxon signed-rank Tests ist 1 if T ≥ c 0 else c wird dabei so gewählt, dass der Test Niveau α hat. Die Verteilung der Teststatistik besitzt unter H0 folgende Eigenschaften: ( ϕ(x ) = Die Vorzeichen sgn (Xi ) sind i.i.d. mit Wertebereich {−1, 1} und p(−1) = p(1) = 1/2 Die Ränge sind gleichverteilt auf {1, . . . , n} . Ränge rank |Xi | und Vorzeichen sind unabhängig. Diese Fakten können genutzt werden um die Verteilung der Teststatik zu charakterisieren. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Verteilung der Wilcoxon-Statistik Satz Unter H0 und bei Symmetrie der Dichtefunktion um θ0 = 0 sind |X1 | , . . . , |Xn | unabhängig von sgn (X1 ) , . . . , sgn (Xn ). Das bedeutet insbesondere, dass die Ränge rank |Xi | unabhängig von den Vorzeichen sind. Satz Die momenterzeugende Funktion der Wilcoxon-Statistik ist durch M (s ) = E [exp (s · T )] = gegeben R. Kovacevic 1 n −sj +sj e +e 2n j∏ =1 Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Verteilung der Wilcoxon-Statistik Satz Unter Voraussetzungen wie zuvor gilt unter H0 1 T ist verteilungsfrei und symmetrisch verteilt. 2 EH [T ] = 0 0 3 Var H [T ] = n(n+1)(2n+1) 0 6 4 √ T ist asymptotisch N (0, 1) verteilt. Var [T ] H0 R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Umformulierungen der signed rank Statistik Sei T+ = ∑ 0 Xi > rank(|Xi |) die Rangsumme der positiven Beobachtungen. Es gilt n (n + 1) T = 2T + − . 2 Tests für die einseitige Hypothese können daher auch auf die Statistik T + gegründet werden.. Insbesondere haben die beiden Testversionen bei gegebenem Niveau α die gleiche Güte. R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Gütefunktion des Wilcoxon Tests Die Teststatistik T + kann auch als Anzahl der positiven Walsh-Durchschnitte T = #i ≤j + Xj + Xi 2 >0 (6) berechnet werden. In Darstellung (6) erkennt man eine groÿe Ähnlichkeit zwischen T + und der Vorzeichenstatistik S . Zur Untersuchung der Güte deniere weiters T + (θ ) = #i ≤j R. Kovacevic Xj + Xi 2 >θ . Nichtparametrische Statistik, Teil 1 (7) Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Gütefunktion des Wilcoxon Tests kann dann analog zu S (θ ), (siehe Denition (4)) analysiert werden. Insbesondere gilt wieder Pθ [T + (0) ≥ k ] = P0 [T + (−θ ) ≥ k ]. T + (θ ) ist eine monoton fallende Treppenfunktion, die bei jedem Walsh-Durchschnitt um eine Einheit abwärts springt. Die Gütefunktion ist daher monoton steigend ... T + (θ ) Satz Der signed-rank Wilcoxon Test ist ein unverzerrter Test. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Asymptotische relative Ezienz Die relative Ezienz des Wilcoxon Tests im Vergleich zum t-Test ist für normalverteilte daten 0.959. Für kontaminierte Normalverteilungen ergibt sich folgendes Bild: ε 0.00 0.01 0.02 0.03 0.05 0.10 0.15 0.25 ARE(W,t) ARE(S,t) ARE(W,S) 0.955 0.637 1.5 1.009 0.678 1.487 1.060 0.719 1.474 1.108 0.758 1.461 1.196 0.833 1.436 1.373 0.998 1.376 1.497 1.134 1.319 1.616 1.326 1.218 R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Hodges-Lehmann Schätzer Der Hodges-Lehmann Schätzer θ̂W für den Median einer symmetrischen Verteilung ist durch T + θ̂W = deniert. Es gilt n (n + 1) θ̂W = median R. Kovacevic 4 Xi + Xj 2 . Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Kondenzintervalle Die Ähnlichkeit zwischen T + und der Vorzeichenstatistik kann zur Konstruktion von Kondenzintervallen genützt werden. X1 , . . . , Xn folgen wiederum dem Lagemodell (1). Sei θ der wahre Median. Satz Für cW 1 gelte Pθ [T + (θ ) ≤ cW 1 ] = α/2. Dann ist für (0 ≤ α ≤ 1) das Intervall W(cW 1 +1) , W(m−cW 1 ) ein (1 − α)-Kondenzintervall für den Median θ , wobei m = n(n2+1) die Anzahl der Walsh Durchschnitte bezeichnet. Asymptotische Approximation ∼n− c1 = 2 R. Kovacevic √ n · zα/2 2 − 1 2 Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Tests von Dierenzen Sei X1 , . . . , Xn1 eine Stichprobe aus einer Grundgesamtheit mit Verteilungsfunktion F (·), und Y1 , . . . , Yn2 eine Stichprobe aus einer Grundgesamtheit mit Verteilungsfunktion G (·). Teste H0 : F = G . Im Kontext von Lagemaÿen: F (x ) = G (x − ∆). Der Lageparameter ∆ wird shift genannt. Teste H0 : ∆ = 0 vs H1 : ∆ > 0. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Einfache Eigenschaften Die Verteilung von Y ist die Verteilung von X + ∆. Der Shift ∆ ist unabhängig davon, welcher Lageparameter T benutzt wird. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Mann-Whitney-Wilcoxon (MWW) Teststatistik Unter H0 sind die Verteilungen von X und Y gleich und die Stichproben können zu einer groÿen Stichprobe mit Umfang n1 + n2 kombiniert werden. Denition Die Mann-Whitney-Wilcoxon Statistik ist durch n2 W = ∑ rank(Yj ), j =1 wobei rank(·) den Rang der Beobachtung in der kombinierten Stichprobe bedeutet. Unter H0 sollten die Ränge gleichmäÿig auf die beiden Stichproben Xi und Yi verteilt sein. Unter H1 sollten die Yi tendenziell gröÿeren Rang haben. Ablehnungsregel: Lehne H0 ab, wenn W ≥ c . R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Verteilung der Mann-Whitney-Wilcoxon Statistik Unter H0 ist es für die Menge der Ränge R = {rank(Yj )}für jede Teilmenge D mit n2 Elementen aus {1, ..., n1 + n2 } gleich wahrscheinlich, dass R = D . Es gibt n1 + n2 n n2 derartige Teilmengen. Wenn R = r1 , . . . , rn2 dann gilt o P [rank(Y1 ) = r1 , . . . , rank(Yn2 ) = rn2 ] = n1 + n2 n2 −1 Weiters ist die einzelnen Ränge rank(Yi ) i.i.d. gleichverteilt auf {1, 2, . . . , n1 + n2 }. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Verteilung der Mann-Whitney-Wilcoxon Statistik Satz Sei X1 , . . . , Xn1 eine Stichprobe aus einer Grundgesamtheit mit Verteilungsfunktion F (·), und Y1 , . . . , Yn2 eine Stichprobe aus einer Grundgesamtheit mit Verteilungsfunktion G (·). Unter der Nullhypothese H0 : G = F gilt 1 Die Statistik W ist verteilungsfrei und symmetrisch. 2 EH [W ] = n2 (n1 +n2 +1) 0 2 3 VarH [W ] = n1 n2 (n1 +n2 +1) 0 12 W −EH0 [W ] 4 √ ist asymptotisch standardnormalverteilt. Var [W ] H0 R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Eine alternative Teststatistik Betrachte Es gilt U = #(i ,j ) {Yj > Xi } . n (n + 1) W =U+ 2 2 2 R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Bindungen Bis jetzt wurde stets vorausgesetzt, dass die beobachteten Daten einer stetigen Verteilung folgen. Die Konsequenz war, dass die Wahrscheinlichkeit dass zwei Beobachtungen den gleichen Wert annehmen 0 ist. In der Praxis stellen zwei Probleme diese Folgerung in Frage: Diskrete Verteilungen Begrenzte Messgenauigkeit Mehrfachwerte können also ganz leicht auftreten und Beobachtungen mit sehr nahe beieinander liegenden Werten können die Stabilität von Testergebnissen ebenfalls stark beeinträchtigen. Selbst asymptotische Ergebnisse sind auch für groÿe Stichprobenzahl nicht mehr anwendbar. Dies betrit besonders rangbasierte Tests. Dealing with this problems in an analytical way is very dicult. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Vorgehensweise 1 2 3 Alle Werte werden passend gerundet (Messgenauigkeit) Beobachtungen mit identischem Wert erhalten denselben Rang zugewiesen: Arithmetisches Mittel der Ränge, die diesen Beobachtungen zugewiesen würde, wenn sie unterschiedliche Werte hätten. Durchführung eines Permutationstests unter Verwendung der jeweiligen Teststatistik. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Permutationstest Permutationstests (randomization tests, exact tests) können verwendet werden, wenn die Nullhypothese darin besteht, dass alle Beobachtungen, die in zwei Gruppen n1 , n2 unterteilt sind, aus derselben Verteilung stammen. Sie bauen auf einer aufgrund des speziellen Modells hergeleiteten Teststatistik T auf. Vorgehensweise: Berechne T für die beobachteten Daten. Erzeuge alle möglichen Grupperungen (n1 , n2 ) der Daten, die im Modell zulässig sind und berechne jeweils die Teststatistik Ti . Benutze die Verteilung der Ti um den p-Wert für T zu berechnen. R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Asymptotic Relative Eciency In the next section we consider the following situation: Suppose that we have two test statistics Tn and Tn∗ for data consisting of n observations. Both statistics are consistent for a test H0 : θ ∈ Θ0 vs . H1 : θ ∈ Θ\Θ0 . Suppose further that a subset of the space Θ can be indexed in terms of a sequence (θ0 , θ1 , . . . , θn , . . .) such that θ0 ∈ Θ0 and θi ∈ Θ\Θ0 for i ≥ 1. Furthermore, lim θi = θ0 . n→∞ We look at the hypotheses H0 : θ = θ0 vs . H1 : θ > θ0 in the following. R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Asymptotic Relative Eciency Denition Let γn (·) and γn∗ (·) be the power functions of two tests T , T ∗ with test statistics Tn , Tn∗ . Let θi as above. Also let Tn and Tn∗ have the same level of signicance α . Consider a sequence of alternatives (θi ) and a sequence (n∗ ) = (h(n)) of positive integers where h is some suitable function, such that ∗ lim γn (θn ) = lim γn∗ (θn∗ ), n→∞ n→∞ where it is assumed that the two limits exist and are not equal to either 0 or 1. Then the asymptotic relative eciency (ARE) of a test T relative to a test T ∗ is ∗ ARE (T , T ∗ ) = lim n n→∞ n provided that the limit exists and is independent of the sequences (θi ),(n) and (n ∗ ). R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Regularity Conditions Tn and Tn∗ must be satised: d E[Tn ] exists and is positive and continuous at θ0 . All other higher-order derivatives are dθ The following ve regularity conditions for the tests equal to zero at θ0 . There exists a positive constant c such that d E[Tn ] |θ =θ √ dθ c = nlim →∞ nσ 0 Tn |θ =θ0 There exists a sequence of alternatives (θn ) such that for some constant θn d E[Tn ] |θ =θ n dθ nlim →∞ d E[Tn ] |θ =θ0 dθ σTn |θ =θn lim n→∞ σTn |θ =θ0 d > 0 we have d n = θ0 + √ = 1 = 1 Tn −E[Tn ] ≤ z | θ = θn = Φ (z ) P σT nlim →∞ n P Tn ≥ tn ,α | θ = θ0 = α for 0 < α < 1. nlim →∞ R. Kovacevic Nichtparametrische Statistik, Teil 1 Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Limiting Power Satz Under the ve regularity conditions, the limiting power of the test Tn is lim γn (θn ) = 1 − Φ (zα − d · c ) n→∞ where zα is given by the equation 1 − Φ (zα ) = α . R. Kovacevic Nichtparametrische Statistik, Teil 1 Lagemodelle Stichprobenmedian und Vorzeichentest Symmetrische Verteilungen und der Signed-Rank Wilcoxon T Mann-Whitney Test Bindungen (Ties) Asymptotic Relative Eciency Parametrisch - Nichtparametrisch Ordnungsstatistiken und Quantile Unvollständig parametrierte Modelle Asymptotic Relative Eciency Satz If T and T ∗ are two tests satisfying the regularity conditions, the ARE of T relative to T ∗ is ARE (T , T ) = ∗ lim n→∞ " d E[T ] n | d θ θ =θ0 d E[Tn∗ ] | d θ θ =θ0 #2 σT2 n∗ |θ =θ0 σT2 n |θ =θ0 Satz The statement of Theorem 39 remains valid if both tests are for a two-sided alternative, H1 : θ 6= θ0 with rejection region Tn ≥ tn,α1 ∨ Tn ≥ tn,α2 where the size of the test is still α and a corresponding rejection region is dened for Tn∗ with the same α1 and α2 . R. Kovacevic Nichtparametrische Statistik, Teil 1 Anhang Ecacy The ARE can be written as 2 d E[Tn ] | d θ θ =θ0 σ 2 |θ =θ ARE (T , T ∗ ) = lim Tn∗ 0 2 n→∞ d E[Tn ] d θ |θ =θ0 2 | σT n θ =θ0 The expression e (Tn ) = d E[Tn ] dθ |θ =θ0 2 σT2 n |θ =θ0 is called the ecacy of a test, when used to test the hypothesis θ = θ0 . R. Kovacevic Nichtparametrische Statistik, Teil 1 Anhang Weiterführende Literatur Literatur I R. Kovacevic Nichtparametrische Statistik, Teil 1