Verteilungsfreie Verfahren Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2012 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I verteilungsfrei/nichtparametrisch I -frei“/ nicht-“: stehen im Gegensatz zu üblichen Methoden, ” ” die eine parametrische Familie von Verteilungen annehmen I viele computerintensive Verfahren sind nichtparametrisch, die werden aber nicht in dieser Lehrveranstaltung betrachtet (sondern z.B. in Computerintensive Methoden, Schätzen und Testen I/II, . . . ) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren (distribution-free/nonparametric) Beispiel x1 , . . . , xn ∈ R Messungen von µ ∈ R mit additiven Messfehlern ε1 , . . . , εn (d.h. xi = µ + εi ), Nullhypothese H0 : µ ≤ µ0 , I Alternativhypothese H1 : µ > µ0 parametrischer/verteilungsgebundener Test: z.B. 1-Stichproben-t-Test: i.i.d. Annahme: ε1 , . . . , εn ∼ N(0, σ 2 ) mit σ unbekannt √ (X̄ −µ ) n (n−1) ⇒ T := √P0n ∼ tn−1 , wenn µ = µ0 (verwerfe H0 falls T ≥ c) 2 i=1 I (Xi −X̄ ) nichtparametrischer/verteilungsfreier Test: z.B. Vorzeichentest: Annahme: ε1 , . . . , εn i.i.d. mit P(εi > 0) = 1 2 ⇒ V := #{i : Xi > µ0 } ∼ Bin(n, 12 ), wenn µ = µ0 (verwerfe H0 falls V ≥ c ′ ) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I I Vorteile des verteilungsfreien Tests (Vorzeichentest): I kann verwendet werden, auch wenn die Verteilungsfamilie der Messfehler unbekannt ist I kann verwendet werden, auch wenn die Daten ordinal sind Vorteile des parametrischen Tests (1-Stichproben-t-Test): I ist (leicht) effizienter, wenn die Verteilungsfamilie der Messfehler (genau) stimmt I erlaubt exaktes Niveau Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I Tests auf Verteilungsanpassung (tests of goodness of fit) Beispiel x1 , . . . , xn IQ-Werte von n zufällig ausgewählten Personen i.i.d. Frage: ist es plausibel, dass X1 , . . . , Xn ∼ N(100, 152 )? I parametrischer/verteilungsgebundener Anpassungstest: i.i.d. Annahme: X1 , . . . , Xn ∼ N(µ, σ 2 ) mit (µ, σ) unbekannt Frage: ist es plausibel, dass (µ, σ) = (100, 15)? Lösung: konstruiere einen Konfidenzbereich für (µ, σ) und überprüfe, ob (100, 15) im Konfidenzbereich liegt I nichtparametrischer/verteilungsfreier Anpassungstest: i.i.d. Annahme: X1 , . . . , Xn i.i.d. (d.h. X1 , . . . , Xn ∼ F mit F unbekannt) Frage: ist es plausibel, dass F = N(100, 152 )? Lösung: konstruiere einen Konfidenzbereich für F und überprüfe, ob N(100, 152 ) im Konfidenzbereich liegt Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren i.i.d. Zufallsobjekte X1 , . . . , Xn ∼ F mit F unbekannt I Annahme: I Daten: X1 = x1 , . . . , Xn = xn I (nichtparametrische) Likelihood-Funktion für F : lik(F ) := PF (X1 = x1 , . . . , Xn = xn ) = n Y PF (Xi = xi ) i=1 I (nichtparametrische) ML-Schätzung für F : X ∼ F̂n Marco Cattaneo @ LMU München ⇒ Verteilungsfreie Verfahren empirische Verteilung F̂n : PF̂n (X = xj ) = #{i : xi = xj } n I wenn X1 , . . . , Xn Zufallsvariable sind, wird die empirische Verteilung F̂n durch die zugehörige (kumulative) Verteilungsfunktion F̂n beschrieben: X ∼ F̂n ⇒ F̂n (x) := PF̂n (X ≤ x) = #{i : xi ≤ x} n Satz (Fundamentalsatz der Statistik, Glivenko-Cantelli Theorem) i.i.d. Zufallsvariable X1 , X2 , . . . ∼ F ⇒ ∥F̂n − F ∥∞ → 0 f.s. d.h. P lim sup |F̂n (x) − F (x)| = 0 = 1 n→∞ x∈R Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren Satz i.i.d. Zufallsvariable X1 , . . . , Xn ∼ F mit F stetig ⇒ Verteilung von Kn := ∥F̂n − F ∥∞ hängt nicht von F ab Beweis. i i −1 − F (X(i) ), F (X(i) ) − Kn = ∥F̂n − F ∥∞ = max max i=1,...,n n n =: g F (X(1) ), . . . , F (X(n) ) = g Y(1) , . . . , Y(n) mit Yi := F (Xi ) ∼ U(0, 1), Marco Cattaneo @ LMU München da P (Yi ≤ y ) = P (F (Xi ) ≤ y ) = y Verteilungsfreie Verfahren = I I kn,1−α : (1 − α)-Quantil der Verteilung von Kn ⇒ P ∥F̂n − F ∥∞ ≤ kn,1−α = 1 − α, wenn F stetig ist P ∥F̂n − F ∥∞ ≤ kn,1−α ≥ 1 − α, wenn F beliebig ist n o ⇒ F : ∥F̂n − F ∥∞ ≤ kn,1−α = n n o n oo = F : max F̂n (x) − kn,1−α , 0 ≤ F (x) ≤ min F̂n (x) + kn,1−α , 1 ist einen (konservativen) (1 − α)-Konfidenzbereich für F Satz (Dvoretzky-Kiefer-Wolfowitz-Ungleichung) r kn,1−α ≤ Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1 2 log 2n α I Verteilung F0 stetig und bekannt I Annahme: I 1-Stichproben-Kolmogorov-Smirnov-Test (zweiseitig): i.i.d. Zufallsvariable X1 , . . . , Xn ∼ F mit F unbekannt (d.h. F (x) = F0 (x) für alle x ∈ R) I Nullhypothese H0 : F = F0 I Alternativhypothese H1 : F ̸= F0 I Teststatistik: I Entscheidung (zum Niveau α): Marco Cattaneo @ LMU München (d.h. F (x) ̸= F0 (x) für mind. ein x ∈ R) Kn = ∥F̂n − F0 ∥∞ = supx∈R |F̂n (x) − F0 (x)| Verteilungsfreie Verfahren verwerfe H0 falls Kn ≥ kn,1−α I 1-Stichproben-Kolmogorov-Smirnov-Test (einseitig− ): I Nullhypothese H0 : F ≥ F0 I Alternativhypothese H1 : F F0 (d.h. F (x) < F0 (x) für mind. ein x ∈ R) Teststatistik: Kn− := supx∈R F0 (x) − F̂n (x) I I I Entscheidung (zum Niveau α): − verwerfe H0 falls Kn− ≥ kn,1−α 1-Stichproben-Kolmogorov-Smirnov-Test (einseitig+ ): I Nullhypothese H0 : F ≤ F0 I Alternativhypothese H1 : F F0 (d.h. F (x) > F0 (x) für mind. ein x ∈ R) Teststatistik: Kn+ := supx∈R F̂n (x) − F0 (x) I I I (d.h. F (x) ≥ F0 (x) für alle x ∈ R) (d.h. F (x) ≤ F0 (x) für alle x ∈ R) Entscheidung (zum Niveau α): + verwerfe H0 falls Kn+ ≥ kn,1−α Kn− und Kn+ haben dieselbe Verteilung (wenn F = F0 ), die nicht von F0 − + abhängt, und kn,1−α = kn,1−α ≈ kn,1−2α für kleine α Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I K-S-ähnliche“ Anpassungstests: verteilungsfreie Tests basierend auf ” alternativen Definitionen des Abstands“ zwischen F̂n und F0 ” I Cramér-von Mises-Test (zweiseitig): I I Teststatistik: Wn := R +∞ −∞ F̂n (x) − F0 (x) 2 dF0 (x) Anderson-Darling-Tests (zweiseitig): I Teststatistik: Kn,ψ := supx∈R |F̂n (x) − F0 (x)| I Teststatistik: Wn,ψ := I Gewichtsfunktion ψ: Marco Cattaneo @ LMU München R +∞ −∞ F̂n (x) − F0 (x) p ψ (F0 (x)) 2 ψ (F0 (x)) dF0 (x) insbesondere ψ(y ) = 1 oder ψ(y ) = Verteilungsfreie Verfahren 1 y (1−y ) I zusammengesetzte Nullhypothese: I Nullhypothese H0 : F ∈ F0 I Alternativhypothese H1 : F ∈ / F0 I z.B. F0 = {N(µ, σ 2 ) : (µ, σ) ∈ R × R+ } I I mit F0 = {Fθ : θ ∈ Θ} K-S-ähnliche“ Anpassungstests mit dem Abstand“ zwischen F̂n und Fθ̂ als ” ” Teststatistik sind konservativ (wobei θ̂ eine auf X1 , . . . , Xn basierte Schätzung von θ ist) ⇒ kritische Werte müssen korrigiert werden (z.B. Lilliefors-Korrekturen für den 1-Stichproben-Kolmogorov-Smirnov-Test), und dann sind die Tests verteilungsgebunden Verteilung F0 nicht stetig: I Nullhypothese H0 : F = F0 I Alternativhypothese H1 : F ̸= F0 I z.B. F0 = Pois(0.35) I K-S-ähnliche“ Anpassungstests sind (sehr) konservativ ” ⇒ kritische Werte müssen korrigiert werden, und dann sind die Tests verteilungsgebunden Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I Annahme: Zufallsobjekte X1 , . . . , Xn i.i.d. mit k möglichen Werten w1 , . . . , wk I Verteilung von Xi definiert durch p = (p1 , . . . , pk ) mit pj := P(Xi = wj ) > 0 I Nj := #{i : Xi = wj } I Abstand“ zwischen (N1 , . . . , Nk ) und E (N1 , . . . , Nk ) = (n p1 , . . . , n pk ): ” Cn := ⇒ (N1 , . . . , Nk ) ∼ Mult(n, p1 , . . . , pk ) k X (Nj − n pj )2 n pj oder Gn := 2 k X j=1 j=1 Nj log Nj n pj Satz (N1 , . . . , Nk ) ∼ Mult(n, p1 , . . . , pk ) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren ⇒ d Cn → χ2k−1 d und Gn → χ2k−1 Beweisidee. I Gn = −2 log ⇒ I lik(p) supp′ ∈S lik(p ′ ) o n Pk mit S = p ′ ∈ [0, 1]k : j=1 pj′ = 1 d Gn → χ2k−1 , da k − 1 = dim(S) − dim({p}) Pk Cn ist die Approximation von Gn = −2 j=1 Nj log pj − log Nj n , die man erhält, wenn man log pj mit dem Taylorpolynom zweiten Grades um p̂j = approximiert Gesetz der großen Zahlen: p̂j → pj f.s. ⇒ I d C → Gn“ ” n ⇒ d Cn → χ2k−1 N1′ , . . . , Nk′ unabhängig mit Nj′ ∼ Pois(n pj ) Pk ⇒ (N1′ , . . . , Nk′ ) | j=1 Nj′ = n ∼ Mult(n, p1 , . . . , pk ) Pk (Nj′ −n pj )2 d 2 Nj′ −n pj d zentraler Grenzwertsatz: √ ⇒ → χk j=1 n pj → N(0, 1) n pj P ′ 2 P (N −n p ) d d j k k j ⇒ | j=1 Nj′ = n → χ2k−1 ⇒ Cn → χ2k−1 j=1 n pj Marco Cattaneo @ LMU München Verteilungsfreie Verfahren Nj n I π = (π1 , . . . , πk ) bekannt mit π1 , . . . , πk ∈ ]0, 1[ und π1 + · · · + πk = 1 I χ2 -Test (Pearson’s chi-square test): Nullhypothese H0 : p = π I Alternativhypothese H1 : p ̸= π (d.h. pj ̸= πj für mind. ein j ∈ {1, . . . , k}) P (N −n π )2 Teststatistik: Cn = kj=1 j n πj j I I I Entscheidung (zum Niveau α): verwerfe H0 falls Cn ≥ cn,1−α G-Test: (d.h. pj = πj für alle j ∈ {1, . . . , k}) I Nullhypothese H0 : p = π I Alternativhypothese H1 : p ̸= π (d.h. pj ̸= πj für mind. ein j ∈ {1, . . . , k}) P N Teststatistik: Gn = 2 kj=1 Nj log n πj j I I I (d.h. pj = πj für alle j ∈ {1, . . . , k}) I Entscheidung (zum Niveau α): cn,1−α ≈ χ2k−1,1−α Marco Cattaneo @ LMU München verwerfe H0 falls Gn ≥ gn,1−α und gn,1−α ≈ χ2k−1,1−α Verteilungsfreie Verfahren für große n I zusammengesetzte Nullhypothese: I Nullhypothese H0 : p ∈ Π I Alternativhypothese H1 : p ∈ /Π I I mit Π = {π(θ) : θ ∈ Θ} z.B. (w1 , . . . , wk ) = (0, 1, 2) und Π = (1 − θ)2 , 2 θ (1 − θ), θ2 : θ ∈ ]0, 1[ (d.h. H0 : Xi ∼ Bin(2, θ) mit θ unbekannt) falls θ̂n eine auf N1 , . . . , Nk basierte Minimum-χ2 - oder ML-Schätzung von θ ist, d.h. falls θ̂n die Minimumstelle von Cn (θ) = k X (Nj − n πj (θ))2 n πj (θ) j=1 bzw. Gn (θ) = 2 k X j=1 d Nj log Nj n πj (θ) ist, d dann gelten Cn (θ̂n ) → χ2k−1−dim(Π) und Gn (θ̂n ) → χ2k−1−dim(Π) , wenn p ∈ Π I Beweisidee: θ̂n ML-Schätzung von θ o n P mit S = p ′ ∈ [0, 1]k : kj=1 pj′ = 1 supθ∈Θ lik(π(θ)) supp ′ ∈S lik(p ′ ) ⇒ Gn (θ̂n ) = −2 log ⇒ Gn (θ̂n ) → χ2k−1−dim(Π) , d da k − 1 − dim(Π) = dim(S) − dim({π(θ) : θ ∈ Θ}) I ⇒ korrigierte“ kritische Werte für die χ2 - und G-Tests mit Cn (θ̂n ) bzw. ” Gn (θ̂n ) als Teststatistiken: cn,1−α ≈ χ2k−1−dim(Π),1−α und gn,1−α ≈ χ2k−1−dim(Π),1−α für große n Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren K-S-ähnliche“ Tests ” χ2 - und G-Test Xi stetige ZV geeignet, verteilungsfrei nur nach Diskretisierung, asymptotisch verteilungsfrei Xi diskrete ZV nur nach Korrektur, verteilungsgebunden geeignet, asymptotisch verteilungsfrei Xi kategoriell nicht anwendbar geeignet, asymptotisch verteilungsfrei H0 einseitig geeignet, verteilungsfrei nicht anwendbar H0 zusammengesetzt nur nach Korrektur, verteilungsgebunden geeignet, asymptotisch verteilungsfrei Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I Annahme: Zufallsobjekte X1 = (A1 , B1 ), . . . , Xi = (Ai , Bi ), . . . , Xn = (An , Bn ) i.i.d. mit k = g h möglichen Werten w1,1 = (u1 , v1 ), . . . , wj,l = (uj , vl ), . . . , wg ,h = (ug , vh ) I z.B. n zufällig ausgewählte Personen, mit Ai : Blutgruppe der i-ten Person (g = 4) Bi : Geschlecht der i-ten Person (h = 2) Frage: ist es plausibel, dass Blutgruppe und Geschlecht unabhängig sind? I Verteilung von Xi definiert durch p = (p1,1 , . . . , pg ,h ) mit pj,l := P(Xi = wj,l ) I Nj,l := #{i : Xi = wj,l } Marco Cattaneo @ LMU München ⇒ Verteilungsfreie Verfahren (N1,1 , . . . , Ng ,h ) ∼ Mult(n, p1,1 , . . . , pg ,h ) I Nullhypothese H0 : p ∈ Π mit Π = {π(θ) : θ ∈ Θ}, wobei o n Ph Pg und Θ = (q, r ) ∈ ]0, 1[ g × ]0, 1[ h : j=1 qj = l=1 rl = 1 πj,l (q, r ) = qj rl I θ̂n = (q̂, rˆ) ML-Schätzung von θ = (q, r ): #{i : Ai = uj } = q̂j = n I unter H0 gelten Cn (θ̂n ) = Ph l=1 Nj,l n d Cn (θ̂n ) → χ2(g −1) (h−1) g X h 2 X (Nj,l − n q̂j rˆl ) n q̂j rˆl j=1 l=1 da πj,l (θ̂n ) = q̂j rˆl Marco Cattaneo @ LMU München #{i : Bi = vl } und rˆl = = n und und j=1 d und Gn (θ̂n ) = 2 g X h X Nj,l log j=1 l=1 Nj,l n Gn (θ̂n ) → χ2(g −1) (h−1) k − 1 − dim(Π) = (g − 1) (h − 1) Verteilungsfreie Verfahren Pg mit Nj,l , n q̂j rˆl I χ2 -Test auf Unabhängigkeit (chi-square test of independence): I Nullhypothese H0 : Ai und Bi unabhängig I Alternativhypothese H1 : Ai und Bi abhängig P P (N −n q̂ rˆ )2 (U) Teststatistik: Cn := gj=1 hl=1 j,ln q̂j rˆlj l I I I (U) ≥ cn,1−α (U) ≥ gn,1−α verwerfe H0 falls Cn (U) G-Test auf Unabhängigkeit: I Nullhypothese H0 : Ai und Bi unabhängig I Alternativhypothese H1 : Ai und Bi abhängig P P N (U) Teststatistik: Gn := 2 gj=1 hl=1 Nj,l log n q̂j,l j rˆl I I I Entscheidung (zum Niveau α): Entscheidung (zum Niveau α): (U) cn,1−α ≈ χ2(g −1) (h−1),1−α Marco Cattaneo @ LMU München verwerfe H0 falls Gn (U) und gn,1−α ≈ χ2(g −1) (h−1),1−α Verteilungsfreie Verfahren (U) für große n 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I lineare Rangtests für Lageprobleme (linear rank tests for location problems) I Ränge von n verschiedene Werte x1 , . . . , xn ∈ R: r1 , . . . , rn ⇒ I {r1 , . . . , rn } = {1, . . . , n} mit rj = #{i : xi ≤ xj } und x(ri ) = xi (wobei x(1) < · · · < x(n) ) i.i.d. Zufallsvariable X1 , . . . , Xn ∼ F mit F stetig ⇒ Ränge R1 , . . . , Rn f.s. wohldefiniert und P (R1 = π(1), . . . , Rn = π(n)) = 1 n! für alle n! Permutationen π von {1, . . . , n} I Behandlung von Bindungen (ties): I Kombination (alle möglichen Rangkombinationen untersuchen) I Elimination (Beobachtungen aus der Stichprobe entfernen) I Randomisierung (zufällige Ränge bilden) I Mittelung (Durchschnittsränge bilden) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren i.i.d. I Annahme: Zufallsvariable X1 , . . . , Xn ∼ F mit F stetig und symmetrisch um θ (d.h. F (θ + x) = 1 − F (θ − x) für alle x ∈ R) I R1+ , . . . , Rn+ Ränge von |X1 − θ|, . . . , |Xn − θ| I gn : {1, . . . , n} → R+ Gewichtsfunktion Satz i.i.d. Zufallsvariable X1 , . . . , Xn ∼ F mit F stetig und symmetrisch um θ n X X ⇒ Ln := gn (Ri+ ) hat dieselbe Verteilung wie gn (j) Yj j=1 i : Xi >θ i.i.d. mit Y1 , . . . , Yn ∼ Ber ( 12 ) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren Beweis. |Xi − θ| und I{Xi >θ} sind unabhängig, da für alle x ≥ 0 gilt P(|Xi − θ| ≤ x | I{Xi >θ} = 1) = = ⇒ P(θ < Xi ≤ θ + x) = P(θ < Xi ) P(θ − x ≤ Xi ≤ θ) = P(|Xi − θ| ≤ x | I{Xi >θ} = 0) P(Xi ≤ θ) |X1 − θ|, . . . , |Xn − θ|, I{X1 >θ} , . . . , I{Xn >θ} unabhängig X Ln = gn (Ri+ ) = i : Xi >θ n X gn (π(i)) I{Xi >θ} = i=1 mit Yj := I{Xπ−1 (j) >θ} , wobei R1+ = π(1), . . . , Rn+ = π(n) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren n X j=1 gn (j) Yj ⇒ P Y1 = y1 , . . . , Yn = yn | R1+ = π(1), . . . , Rn+ = π(n) = = P I{X1 >θ} = yπ(1) , . . . , I{Xn >θ} = yπ(n) | R1+ = π(1), . . . , Rn+ = π(n) = n Y = P(I{X1 >θ} = yπ(1) , . . . , I{Xn >θ} = yπ(n) ) = P(I{Xi >θ} = yπ(i) ) = ( 12 )n i=1 für alle y1 , . . . , yn ∈ {0, 1} und alle Permutationen π von {1, . . . , n} ⇒ P(Y1 = y1 , . . . , Yn = yn ) = ( 21 )n i.i.d. d.h. Y1 , . . . , Yn ∼ Ber ( 12 ) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren für alle y1 , . . . , yn ∈ {0, 1}, I Ln ist diskret mit höchstens 2n möglichen Werten, und die Verteilung von Ln Pn Pn 2 ist symmetrisch um E (Ln ) = 21 j=1 gn (j) mit Var (Ln ) = 14 j=1 (gn (j)) I − ln,1−α : ⇒ I + ln,α : ⇒ I unteres (1 − α)-Quantil der Verteilung von Ln − P(Ln > ln,1−α )≤α − und P(Ln ≥ ln,1−α )>α oberes α-Quantil der Verteilung von Ln + P(Ln < ln,α )≤α + und P(Ln ≤ ln,α )>α zentraler Grenzwertsatz (unter Regularitätsbedingungen für gn ): ⇒ − + ln,p ≈ ln,p Marco Cattaneo @ LMU München Ln − E (Ln ) d p → N(0, 1) Var (Ln ) p ≈ E (Ln ) + Φ−1 (p) Var (Ln ) für große n Verteilungsfreie Verfahren I θ0 ∈ R bekannt I R1+ , . . . , Rn+ Ränge von |X1 − θ0 |, . . . , |Xn − θ0 | I 1-Stichproben-Rangtest (zweiseitig): I Nullhypothese H0 : θ = θ0 I Alternativhypothese H1 : θ ̸= θ0 P Teststatistik: Ln = i : Xi >θ0 gn (Ri+ ) I I Entscheidung (zum Niveau α): − + verwerfe H0 falls Ln < ln, α oder Ln > ln,1− α 2 Marco Cattaneo @ LMU München Verteilungsfreie Verfahren 2 I 1-Stichproben-Rangtest (einseitig− ): I Nullhypothese H0 : θ ≤ θ0 I Alternativhypothese H1 : θ > θ0 P Teststatistik: Ln = i : Xi >θ0 gn (Ri+ ) I I I Entscheidung (zum Niveau α): − verwerfe H0 falls Ln > ln,1−α 1-Stichproben-Rangtest (einseitig+ ): I Nullhypothese H0 : θ ≥ θ0 I Alternativhypothese H1 : θ < θ0 P Teststatistik: Ln = i : Xi >θ0 gn (Ri+ ) I I Entscheidung (zum Niveau α): Marco Cattaneo @ LMU München Verteilungsfreie Verfahren + verwerfe H0 falls Ln < ln,α 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I Güte eines Tests T : βT (α, n, θ, F0 ) := P(H0 verwerfen), wenn H1 gilt (wobei Xi − θ ∼ F0 ) I seien θk , nk , nk′ so, dass lim θk = θ0 k→∞ und lim βT (α, nk , θk , F0 ) = lim βT ′ (α, nk′ , θk , F0 ) k→∞ k→∞ ⇒ unter Regularitätsbedingungen ist die asymptotische relative Effizienz nk′ k→∞ nk ARET :T ′ (F0 ) = lim von T gegenüber T ′ wohldefiniert und hängt nur von der Verteilung F0 von Xi − θ ab I wenn Xi − θ ∼ F0 angenommen wird (mit F0 bekannt und θ unbekannt) und die Gewichtsfunktion gn (j) = (− log f0 )′ F0−1 ( n+1+j 2 n+2 ) wohldefiniert ist (wobei f0 die Dichte von F0 ist), ist der zugehörige Rangtest T asymptotisch optimal: ARET :T ′ (F0 ) ≥ 1 für alle Tests T ′ Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I I Van der Waerden-Test: I asymptotisch optimal, wenn F0 eine Normalverteilung ist I Gewichtsfunktion: gn (j) = Φ−1 ( n+1+j ) 2 n+2 Vorzeichentest (sign test): I asymptotisch optimal, wenn F0 eine Laplace-Verteilung (Doppelexponentialverteilung) ist I Gewichtsfunktion: ⇒ gn (j) = 1 Ln = #{i : Xi > θ0 } Ln ∼ Bin(n, 12 ), I wenn θ = θ0 Wilcoxon-Vorzeichen-Rang-Test (Wilcoxon signed-rank test): I asymptotisch optimal, wenn F0 eine logistische Verteilung ist I Gewichtsfunktion: gn (j) = j P ⇒ Ln = i:Xi >θ0 Ri+ E (Ln ) = Marco Cattaneo @ LMU München n (n+1) 4 und Verteilungsfreie Verfahren Var (Ln ) = n (n+1) (2 n+1) , 24 wenn θ = θ0 F0 Normal AREVdW :t (F0 ) Laplace 4 π 1 ≈ 1.273 logistisch inf sup ≈ 1.046 1 ∞ AREVorz:t (F0 ) 2 π ≈ 0.637 2 π2 12 ≈ 0.822 0 ∞ AREWilc:t (F0 ) 3 π ≈ 0.955 1.5 π2 9 ≈ 1.097 0.864 ∞ (ε) F0 (x) := (1 − ε) Φ( σx ) + ε Φ( 3xσ ) ε (ε) AREWilc:t (F0 ) Marco Cattaneo @ LMU München 0 0.01 0.05 0.15 ≈ 0.955 ≈ 1.009 ≈ 1.196 ≈ 1.497 Verteilungsfreie Verfahren 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren i.i.d. Zufallsvariable X1 , . . . , Xn , Y1 , . . . , Ym ∼ F mit F stetig I Annahme: I ∪ Ränge von X1 , . . . , Xn , Y1 , . . . , Ym R1∪ , . . . , Rn+m I gn,m : {1, . . . , n + m} → R Gewichtsfunktion (steigend) Satz i.i.d. Zufallsvariable X1 , . . . , Xn , Y1 , . . . , Ym ∼ F mit F stetig n X X ⇒ Ln,m := gn,m (Ri∪ ) hat dieselbe Verteilung wie gn,m (j) i=1 j∈S mit S gleichverteilt auf {A ⊂ {1, . . . , n + m} : #A = n} Marco Cattaneo @ LMU München Verteilungsfreie Verfahren Beweis. Ln,m = n X gn,m (Ri∪ ) = i=1 X gn,m (j) j∈S ∪ = π(n + m) mit S := {π(1), . . . , π(n)}, wobei R1∪ = π(1), . . . , Rn+m ⇒ P (S = A) = P ({π(1), . . . , π(n)} = A, {π(n + 1), . . . , π(n + m)} = Ac ) = n! m! = (n + m)! für alle A ⊂ {1, . . . , n + m} mit #A = n, d.h. S ist gleichverteilt auf {A ⊂ {1, . . . , n + m} : #A = n} Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I I Ln,m ist diskret mit höchstens (n+m)! n! m! möglichen Werten, P n+m n E (Ln,m ) = n+m j=1 gn,m (j), und P 2 Pn+m 2 n+m nm Var (Ln,m ) = (n+m)2 (n+m−1) (n + m) j=1 (gn,m (j)) − j=1 gn,m (j) − ln,m,1−α : ⇒ I I − P(Ln,m > ln,m,1−α )≤α + ln,m,α : ⇒ unteres (1 − α)-Quantil der Verteilung von Ln,m − und P(Ln,m ≥ ln,m,1−α )>α oberes α-Quantil der Verteilung von Ln,m + P(Ln,m < ln,m,α )≤α + und P(Ln,m ≤ ln,m,α )>α zentraler Grenzwertsatz (unter Regularitätsbedingungen für gn,m ): Ln,m − E (Ln,m ) d p → N(0, 1) Var (Ln,m ) ⇒ − + ln,m,p ≈ ln,m,p ≈ E (Ln,m ) + Φ−1 (p) Marco Cattaneo @ LMU München Verteilungsfreie Verfahren p Var (Ln,m ) für große n, m I Annahme: Zufallsvariable X1 , . . . , Xn , Y1 , . . . , Ym und Konstanten θX , θY ∈ R i.i.d. so, dass X1 − θX , . . . , Xn − θX , Y1 − θY , . . . , Ym − θY ∼ F0 mit F0 stetig I X1 , . . . , Xn und Y1 , . . . , Ym sind unabhängige Stichproben (gepaarte Stichproben: 1-Stichproben-Rangtest für die Differenzen Xi − Yi ) I 2-Stichproben-Rangtest (zweiseitig): I Nullhypothese H0 : θX = θY I Alternativhypothese H1 : θX ̸= θY P Teststatistik: Ln,m = ni=1 gn,m (Ri∪ ) I I Entscheidung (zum Niveau α): + verwerfe H0 falls Ln,m < ln,m, α 2 − oder Ln,m > ln,m,1− α 2 Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I 2-Stichproben-Rangtest (einseitig− ): I Nullhypothese H0 : θX ≤ θY I Alternativhypothese H1 : θX > θY P Teststatistik: Ln,m = ni=1 gn,m (Ri∪ ) I I I Entscheidung (zum Niveau α): − verwerfe H0 falls Ln,m > ln,m,1−α 2-Stichproben-Rangtest (einseitig+ ): I Nullhypothese H0 : θX ≥ θY I Alternativhypothese H1 : θX < θY P Teststatistik: Ln,m = ni=1 gn,m (Ri∪ ) I I Entscheidung (zum Niveau α): Marco Cattaneo @ LMU München Verteilungsfreie Verfahren + verwerfe H0 falls Ln,m < ln,m,α 1. Anpassungstests 1.1. Empirische Verteilung 1.2. Kolmogorov-Smirnov-Anpassungstest 1.3. χ2 -Anpassungstest 1.4. Vergleich der Anpassungstests 1.5. χ2 -Test auf Unabhängigkeit 2. Rangtests 2.1. Einstichproben-Rangtests 2.2. Asymptotisch optimale Einstichproben-Rangtests 2.3. Zweistichproben-Rangtests 2.4. Asymptotisch optimale Zweistichproben-Rangtests Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I Güte eines Tests T : βT (α, n, m, θ, F0 ) := P(H0 verwerfen), wenn H1 gilt (wobei θ = θX − θY ) I seien θk , nk , mk , nk′ , mk′ so, dass lim θk = 0 k→∞ und lim βT (α, nk , mk , θk , F0 ) = lim βT ′ (α, nk′ , mk′ , θk , F0 ) k→∞ k→∞ ⇒ unter Regularitätsbedingungen ist die asymptotische relative Effizienz nk′ + mk′ k→∞ nk + mk ARET :T ′ (F0 ) = lim von T gegenüber T ′ wohldefiniert und hängt nur von F0 ab I wenn F0 bekannt ist und die Gewichtsfunktion j gn,m (j) = −(log f0 )′ F0−1 ( n+m+1 ) wohldefiniert ist (wobei f0 die Dichte von F0 ist), ist der zugehörige Rangtest T asymptotisch optimal: ARET :T ′ (F0 ) ≥ 1 für alle Tests T ′ Marco Cattaneo @ LMU München Verteilungsfreie Verfahren I I Van der Waerden-Test: I asymptotisch optimal, wenn F0 eine Normalverteilung ist I Gewichtsfunktion: Median-Test (median test): I I asymptotisch optimal, wenn F0 eine Laplace-Verteilung (Doppelexponentialverteilung) ist ( 1 falls j > n+m+1 2 Gewichtsfunktion: gn,m (j) = 0 falls j ≤ n+m+1 2 ⇒ I j gn,m (j) = Φ−1 ( n+m+1 ) Ln,m = # {i ∈ {1, . . . , n} : Xi > med(X1 , . . . , Xn , Y1 , . . . , Ym )} Wilcoxon-Rangsummentest (Wilcoxon rank-sum test): I asymptotisch optimal, wenn F0 eine logistische Verteilung ist I Gewichtsfunktion: gn,m (j) = j P ⇒ Ln,m = ni=1 Ri∪ E (Ln,m ) = Marco Cattaneo @ LMU München n (n+m+1) 2 Verteilungsfreie Verfahren und Var (Ln,m ) = n m (n+m+1) , 12 wenn θX = θY F0 Normal AREVdW :t (F0 ) Laplace 4 π 1 ≈ 1.273 logistisch inf sup ≈ 1.046 1 ∞ AREMed:t (F0 ) 2 π ≈ 0.637 2 π2 12 ≈ 0.822 0 ∞ AREWilc:t (F0 ) 3 π ≈ 0.955 1.5 π2 9 ≈ 1.097 0.864 ∞ (ε) F0 (x) := (1 − ε) Φ( σx ) + ε Φ( 3xσ ) ε (ε) AREWilc:t (F0 ) Marco Cattaneo @ LMU München 0 0.01 0.05 0.15 ≈ 0.955 ≈ 1.009 ≈ 1.196 ≈ 1.497 Verteilungsfreie Verfahren