Nichtparametrische Statistik Prof. Dr. Alois Kneip Statistische Abteilung Institut für Gesellschafts- und Wirtschaftswissenschaften Universität Bonn Unter Mitarbeit von Dr. Jürgen Arns, Inhalt: 1. Einführung 2. Die empirische Verteilungsfunktion, Ordnungsstatistiken und nichtparametrische Tests 3. Nichtparametrische Dichteschätzung 4. Nichtparametrische Regressionsanalyse 5. Multivariate Kurvenschätzung: Nichtparametrische und semiparametrische Methoden Nichtparametrisch@LS-Kneip 01 Literatur: • Bowman, A.W. und Azzalin, A. (1997): Applied Smoothing Techniques for Data Analysis; Clarendon Press • Büning, H. und Trenkler, G. (1994): Nichtparametrische statistische Methoden; de Gruyter • Wand, M.P. and Jones, M.C. (1995): Kernel Smoothing, Chapman and Hall • Härdle, W. (1990): Applied Nonparametric Regression; Cambridge University Press • Silverman, B.W. (1986): Density Estimation for Statistics and Data Analysis, Chapman and Hall Nichtparametrisch@LS-Kneip 02 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegende stochastische Modell bis auf einige unbekannte Parameter vollständig speziziert ⇒ Parameterschätzung, Inferenz für die Modellparameter (Statistik II; Lineares Modell) Nichtparametrische Statistik: Es wird kein parametri- sches Modell speziziert; die statistische Analyse beruht auf qualitativen Modellannahmen (z.B. Stetigkeit oder Symmetrie einer Verteilung. Nichtparametrische Kurvenschätzung: Die interes- sierenden Objekte sind Kurven (Funktionen, Flächen). Die wichtigsten Anwendungen sind die Schätzung von Regressions- und Dichtefunktionen. Nichtparametrisch@LS-Kneip 13 Nichtparametrische Regression Regressionsmodell: Yi = m(Xi ) + ²i • m(Xi ) = E(Yi |X = Xi ) - Regressionsfunktion • ²1 , ²2 , . . . i.i.d., E(²i ) = 0, var(²i ) = σ 2 • Lineare Einfachregression: m(x) ist eine Gerade m(X) = β0 + β1 X ⇒ Die Struktur der Regressionsfunktion ist bis auf zwei unbekannte Parameter β0 , β1 vollständig festgelegt ⇒ Schätzung der Regressionsfunktion wird zurückgeführt auf die Schätzung der Parameter β0 , β1 Problem: Annahme eines linearen Zusammenhangs korrekt? • Nichtparametrische Regression: Es wird keine spezielle funktionale Form der Regressionsfunktion angenommen. Qualitative Modellannahme: m hinreichend glatt ⇒ Funktionale Form der Regressionsfunktion wird aus den Daten bestimmt! Nichtparametrisch@LS-Kneip 14 Beispiel: Gesamtausgaben in Abhängigkeit vom Alter Die folgenden Daten stammen aus einer Stichprobe von britischen Haushalten aus dem Jahr 1980. Die Beobachtungen beinhalten die Gesamtausgaben für alle Güter und Dienstleistungen von allen Haushalten mit einem gegeben Alter (Alter ≡ Alter des Haushaltsvorstands). income 1.7 1.3 0.9 0.5 20 30 40 50 60 70 age Nichtparametrisch@LS-Kneip 15 Anpassung einer Ausgleichsgerade: income 1.7 1.3 0.9 0.5 20 30 40 50 60 70 age Nichtparametrische Regression (Glättende Splines): income 1.7 1.3 0.9 0.5 20 30 40 50 60 70 age Nichtparametrisch@LS-Kneip 16 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 • Ungefähr 7000 britische Haushalte pro Jahr • Für jeden Haushalt: Einkommen aus verschiedenen Quellen, Ausgaben für verschiedene Güter, Alter, Familiengröÿe, Berufe, etc. Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haushalten): 66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21 40.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.73 90.81 15.70 45.44 68.14 18.76 80.38 61.50 41.39 76.96 87.07 78.03 29.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77 93.50 55.92 14.15 144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.76 17.45 29.11 48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.88 34.74 29.42 121.75 113.76 97.20 86.62 Nichtparametrisch@LS-Kneip 17 Standardansatz: Annahme einer Normalverteilung (= parametrisches Modell mit zwei unbekannten Parametern: Erwartungswert und Varianz) In komplexeren Situationen: Charakterisierung von Verteilungen durch statistische Maÿzahlen: • Mittelwert, Median • Varianz, Quartilsabstand • Gini Koezient, Quantile Maÿzahlen geben immer nur Teilaspekte von Verteilungseigenschaften wieder. Detailliertere Informationen: Dichteschätzung Histogramm (FES Einkommensdaten, 1976): 1000 800 600 400 200 0 0 13 26 Nichtparametrisch@LS-Kneip 39 52 65 78 91 104 117 130 143 156 169 182 195 income 18 Verfeinertes Histogramm und Kernschätzer (FES, 1976) 0.012 0.008 0.004 0.000 0.0 22.8 45.6 68.4 91.2 114.0 income 136.8 159.6 182.4 Kernschätzer: • Denitionsgleichung: 1 X ˆ ft (x) = K nh i µ x − Xit h ¶ • fˆt schätzt die wahre Dichte ft der Einkommensverteilung im Jahre t = 1976 Nichtparametrisch@LS-Kneip 19 0.0 0.2 0.4 0.6 0.8 1.0 Geschätzte relative Einkommensdichten (Kernschätzer) 1968-1988 0.5 1.0 1.5 2.0 2.5 0 0.01 0.02 0.03 Multivariate Kernschätzung der gemeinsamen Dichte von Einkommen und Alter im Jahr 1984: 10 0 80 2 60 1.5 40 1 20 Nichtparametrisch@LS-Kneip 0.5 110 1.1 Charakterisierung von eindimensionalen Verteilungen Wichtige Grundbegrie Man betrachte eine eindimensionale Zufallsvariable X. z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem amerikanischen Aktienmarkt, Körpergröÿe japanischer Frauen, ... Verteilungsfunktion F von X : F (x) = P (X ≤ x) für jedes x ∈ R • diskrete Zufallsvariable: X nimmt nur abzählbar viele Werte x1 , x2 , x3 , . . . an P (X = xi ) = fi , i = 1, 2, . . . , P F (x) = fi xi ≤x • stetige Zufallsvariable: Es existiert eine Dichtefunktion f , so daÿ Rx F (x) = f (t)dt −∞ Nichtparametrisch@LS-Kneip 111 Stetige Zufallsvariable 0 Histogramm 0.2 0.4 n=50 0 Histogramm 0.2 0.4 n=500 0 Histogramm 0.2 0.4 n=5000 0 0.2 Dichte 0.4 Model Nichtparametrisch@LS-Kneip 112 Wahrscheinlichkeitsdichte: Z 1 f (x) 0; f (x)dx = 1: + 1 Verteilungsfunktion: ( ) monoton wachsend F x F ( 1) = 0 ; F 1 (+ ) = 1: 1 Verteilungsfunktion 1 Dichtefunktion 0.8 0.6 F(x) f(x) 0.6 0.8 F(x) 0.4 0.4 f(x) 0.2 0.2 F(b) F(b) b 0 b -3 -2 -1 0 x Nichtparametrisch@LS-Kneip 1 2 3 -3 -2 -1 0 1 2 x 113 3 Eigenschaften der Verteilungsfunktion: • 0 ≤ F (x) ≤ 1 für alle x ∈ IR; F ist eine monoton wachsende Funktion • limx→−∞ F (x) = 0 • limx→∞ F (x) = 1 • Für x0 < x1 gilt P (x0 < X ≤ x1 ) = F (x1 ) − F (x0 ) • F ist immer rechtsstetig, d.h. für alle x gilt limh→0,h>0 F (x + h) = F (x) • Für stetige Zufallsvariablen mit Dichtefunktion f gilt f (x) = F 0 (x) Eigenschaften von Dichtefunktionen: • f (x) ≥ 0 für alle x ∈ IR R∞ • −∞ f (x)dx = 1 Man beachte: Für stetige Zufallsvariablen gilt P (X = x) = 0 für alle x ∈ IR und P (X ≤ x) = P (X < x) = F (x). Sowohl Verteilungsfunktionen als auch Dichtefunktionen sind wichtige Werkzeuge der statistischen Inferenz. Dichten sind jedoch wesentlich leichter interpretierbar und lassen direkte Rückschlüsse auf die Struktur der zugrunde liegenden Verteilung zu. Nichtparametrisch@LS-Kneip 114 Symmetrische Verteilung: Eine Zufallsvariable X heiÿt symmetrisch verteilt um den Punkt µ, wenn P (X ≤ µ − x) = P (X ≥ µ + x) für alle reellen Zahlen x gilt. Beispiele: Körpergröÿe, Intelligenzquotient, logarithmierte Konsumausgaben, etc. 0.4 0.3 0.2 0.1 -5 -10 5 10 Linkssteile (= rechtsschiefe) Verteilung 0.35 0.3 0.25 0.2 0.15 0.1 0.05 1 2 3 4 5 6 7 Beispiele: Einkommen, Vermögen, Konsumausgaben Nichtparametrisch@LS-Kneip 115 Rechtssteile (= linksschiefe) Verteilung 0.5 0.4 0.3 0.2 0.1 -3 -2 -1 1 2 3 Beispiel: Sterbealter Bimodale (bzw. multimodale) Verteilungen 0.5 0.4 0.3 0.2 0.1 -3 -2 -1 1 2 3 Eine Verteilung heiÿt bimodal (bzw. multimodal), falls die zugehörige Dichte zwei (bzw. mehrere) Gipfel besitzt. Multimodalität deutet i.Allg. auf die Existenz mehrerer in sich homogener aber untereinander heterogener Teilpopulationen hin (Mischungsverteilungen). Nichtparametrisch@LS-Kneip 116 Wichtige Parameter einer stetigen Z.v. X • Mittelwert (Erwartungswert) Z ∞ µ = E(X) = xf (x)dx −∞ • Median (streng monoton wachsendes F ): Der Median ist derjenige Wert µmed mit F (µmed ) = 0.5 • Varianz ¡ ¢ 2 σ = V ar(X) = E (X − µ) = E(X 2 ) − µ2 2 • Erwartungswert einer transformierten Zufallsvariablen X → g(X) Z ∞ E(g(X)) = g(x)f (x)dx −∞ Anmerkung: Die Existenz von Mittelwert und Varianz stellt Bedingungen an die Struktur von f . Für einige Verteilungen sind daher Mittelwert und Varianz nicht deniert. Beispiel: Die Cauchy Verteilung (mit Parametern u, s) f (x) = 1 s · 2 π s + (x − u)2 besitzt weder Erwartungswert noch Varianz; aber: µmed = u. Lageregeln (µ, µmed existieren): • symmetrische Verteilung: µ = µmed • Linkssteile Verteilung: µ > µmed • Rechtssteile Verteilung: µ < µmed Nichtparametrisch@LS-Kneip 117 1.2 Wichtige Verteilungsmodelle der parametrischen Statistik Die Gleichverteilung (Rechteckverteilung) Nimmt eine Zufallsvariable nur in einem Intervall [a, b] Werte an und wird keiner der Werte oder Teilintervalle bevorzugt, so ist X gleichverteilt (X ∼ U (a, b)). Die Dichte ist dann gegeben durch 1 f (x) = für a ≤ x ≤ b b−a und f (x) = 0 für x 6∈ [a, b]. 0.15 0.125 0.1 0.075 0.05 0.025 -4 -2 2 4 • E(X) = (a + b)/2 • V ar(X) = 1 12 (b − a)2 Wichtige Sonderfälle sind a = 0, b = 1 und a = 0, b = θ (θ unbekannter Parameter). Nichtparametrisch@LS-Kneip 118 Die Normalverteilung N (µ, σ 2 ) Viele statistische Verfahren basieren auf der Annahme, daÿ eine Z.v. X normalverteilt ist, d.h. X ∼ N (µ, σ 2 ) Wahrscheinlichkeitsdichte: f (x) = 2 2 √1 e−(x−µ) /2σ σ 2π für −∞ < x < ∞, σ > 0 • E(X) = µ, V ar(X) = σ 2 Standardisierte Normalverteilung N (0, 1) • X ∼ N (µ, σ 2 ) ⇒ Z= X−µ σ ∼ N (0, 1) • Standardisierte Dichtefunktion und Verteilungsfunktion Z z 1 −x2 /2 φ(x)dx , Φ(z) = φ(x) = √ e 2π −∞ • N (0, 1) ist tabelliert und P (X ≤ x) = P ( Nichtparametrisch@LS-Kneip X −µ x−µ x−µ ≤ ) = P (Z ≤ ) σ σ σ 119 f(x) 0.6 0.8 1 1.2 Dichtefunktion (Normalverteilung) N(2,1/3) 0.4 N(0,1) 0.2 N(2,1) N(2,2) -3 -2 -1 0 1 x 2 3 4 5 6 0 0.1 f(x) 0.2 0.3 0.4 Dichtefunktion (Standard-Normalverteilung N(0,1)) -4 -3 -2 -1 0 x 1 2 3 4 0 0.25 F(x) 0.5 0.75 1 Verteilungsfunktion (Standard-Normalverteilung N(0,1)) -4 -3 -2 Nichtparametrisch@LS-Kneip -1 0 x 1 2 3 4 120 Die χ2 -Verteilung Sind X1 , . . . , Xn unabhängige, standardnormalverteilte Zufallsvariablen, so folgt X = X12 + · · · + Xn2 einer χ2 -Verteilung mit n Freiheitsgraden (X ∼ χ2n ), f (x) = 1 xn/2−1 e−x/2 , n/2 2 Γ(n/2) x≥0 Die Gammafunktion ist deniert durch Γ(u) = R∞ 0 z u−1 e−z dz 0.5 0.4 0.3 0.2 0.1 2 4 6 8 10 • µ = E(X) = n • V ar(X) = 2n Anwendung: Einfache Zufallsstichprobe X1 , . . . , Xn , Xi ∼ N (µ, σ 2 ) 2 P 1 2 2 2 für S = ⇒ (n−1)S ∼ χ n−1 i (Xi − X̄) . σ2 n−1 Nichtparametrisch@LS-Kneip 121 Die t-Verteilung X und Y seien unabhängige Zufallsvariablen mit X ∼ N (0, 1) p und Y ∼ χ2n . Die Variable T = X/ Y /n hat eine t-Verteilung mit n Freiheitsgraden (T ∼ tn ), Γ((n + 1)/2) x2 −(n+1)/2 f (x) = √ (1 + ) n πnΓ(n/2) 0.35 0.3 0.25 0.2 0.15 0.1 0.05 -4 -2 2 4 • µ = E(X) = 0 für n > 1 • V ar(X) = n n−2 für n > 2 Anwendung: 2 Einfache Zufallsstichprobe X , . . . , X , X ∼ N (µ, σ ) 1 n i √ P 1 2 2 ⇒ n(X̄−µ) ∼ t für S = n−1 i (Xi − X̄) . S n−1 Nichtparametrisch@LS-Kneip 122 Die F -Verteilung X und Y seien unabhängige Zufallsvariablen mit X ∼ χ2m und p p Y ∼ χ2n . Die Variable F = X/m/ Y /n hat eine F -Verteilung mit m und n Freiheitsgraden (F ∼ Fm,n ) Anwendung: Varianzanalyse! Die Lognormalverteilung X ist lognormalverteilt mit Parametern µ und σ 2 (X ∼ LN (µ, σ 2 )), wenn die Dichte gegeben ist durch 2 2 1 f (x) = √ e−(lnx−µ) /2σ , x 2πσ 2 x>0 Die transformierte Zufallsvariable Y = lnX ist dann normalverteilt mit E(Y ) = µ und V ar(Y ) = σ 2 . 0.6 0.5 0.4 0.3 0.2 0.1 4 2 • E(X) = eµ+σ 2 6 8 /2 2 2 • V ar(X) = e2µ+σ (eσ − 1) Anwendung: In der Ökonometrie häug zur Modellierung von linkssteilen Verteilungen (z.B. Einkommensverteilungen) angewandtes Modell. Nichtparametrisch@LS-Kneip 123 Die Exponentialverteilung X ist exponentialverteilt mit dem Parameter λ > 0 (X ∼ Ex(λ)), wenn die Dichte gegeben ist durch f (x) = λe−λx , x≥0 0.8 0.6 0.4 0.2 1 • E(X) = 2 3 4 5 1 λ • V ar(X) = 1 λ2 Anwendung: Standardverteilung zur Modellierung von Wartezeiten Die Gammaverteilung X heiÿt gammaverteilt mit den Parametern r > 0 und λ > 0 (X ∼ Γ(r, λ)), falls f (x) = λ (λx)r−1 e−λx , Γ(r) x≥0 Spezialfälle: Ex(λ) = Γ(1, λ) und χ2n = Γ( n2 , 12 ). Nichtparametrisch@LS-Kneip 124 Mischungen von Normalverteilungen Die Verteilung einer Zufallsvariablen X ist eine Mischung zweier Normalverteilungen, falls sich für Parameter µ1 , µ2 , σ12 , σ22 und 0 < α < 1 die zugehörige Dichte in folgender Form darstellen lässt: f (x) = α · 1 √ σ1 2π e−(x−µ1 ) 2 /2σ12 + (1 − α) · 1 √ 2 σ2 2π e−(x−µ2 ) /2σ22 Solche Mischungsansätze werden z.B. häug zur Modellierung bimodaler Verteilungen verwendet. Verallgemeinerung: Mischung von k Normalverteilungen f (x) = k X αi · i=1 mit α1 > 0, . . . , αk > 0 und 1 √ 2 σi 2π Pk i=1 e−(x−µi ) /2σi2 αi = 1 Für hinreichend groÿes k ist es möglich, jede beliebige stetige Dichtefunktion durch eine Mischung von k Normalverteilungen beliebig gut zu approximieren. Nichtparametrisch@LS-Kneip 125 1.3 Mehrdimensionale Verteilungen • Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X = (X1 , . . . , Xd )T , dessen einzelne Elemente alle Zufallsvariablen sind. Diskrete Zufallsvariable: X nimmt nur abzählbar viele Werte x1 , x2 , · · · ∈ IRd an: Wahrscheinlichkeitsfunktion: p(xi ) = P (X = xi ) X ⇒ P (X ∈ [a1 , b1 ] × · · · × [ad , bd ]) = p(xi ) xi ∈[a1 ,b1 ]×···×[ad ,bd ] Stetige Zufallsvariable: Dichtefunktion: f (x1 , . . . , xd ) ⇒P (X ∈ [a1 , b1 ] × · · · × [ad , bd ]) Zb1 = Zbd ... a1 Nichtparametrisch@LS-Kneip f (x1 , . . . , xd )dx1 . . . dxd ad 126 Eigenschaften von Dichtefunktionen: • f (x1 , . . . , xd ) ≥ 0 Z ∞ Z ∞ • ... f (x1 , . . . , xd )dx1 . . . dxd = 1 −∞ −∞ Anmerkung: Eine allgemeine Möglichkeit zur Darstellung von Wahrscheinlichkeiten ist wiederum die Verteilungsfunktion F : F (a1 , . . . , ad ) = P (X1 ≤ a1 , . . . , Xd ≤ ad ) Zur Vereinfachung der Schreibweise werden im folgenden nur stetige Zufallsvariablen betrachtet. Jedes Element Xj von X besitzt eine Randverteilung (oder Marginalverteilung). Dies ist nichts anderes als die univariate Verteilung von Xj (ohne Berücksichtigung der anderen Variablen). Formal: • Verteilungsfunktion der Randverteilung von Xj : Fj (x) = P (Xj ≤ x) • Randdichte fj , z.B. für j = 1 Z ∞ Z ∞ f1 (x1 ) = ... f (x1 , x2 . . . , xd )dx2 . . . dxd −∞ Nichtparametrisch@LS-Kneip −∞ 127 Exkurs: Mehrdimensionale Integrale Z Die Berechnung von b1 Z a1 ten: b2 a2 g(x, y)dxdy erfolgt in zwei SchritZ 1. Berechnung der Funktion G(y) = Wert y Z 2. Berechnung von Beispiel: Z 1Z G(y)dy a1 Z 1 0 1 b1 Z Z b2 b2 ¾ ½ 1 4y[ x2 ]10 dy = 2 0 Rechenregeln: Z Z Z b1 a2 Z b2 a2 Z b1 Z Z ∞ 0 Z b2 g1 (y) a1 Abkürzungen: 2y dy = 1 a1 g1 (y)g2 (x, y)dxdy = a1 1 g(x, y)dydx a2 Z Z b1 g(x, y)dxdy = a1 a2 g(x, y)dx für jeden b1 4xy dxdy = 0 b2 g2 (x, y)dxdy a2 ∞ g(x, y) dxdy = g(x, y)dxdy −∞ −∞ Z b1 Z b2 g(x, y) dxdy = g(x, y)dxdy Z [a1 ,b1 ]×[a2 ,b2 ] Nichtparametrisch@LS-Kneip a1 a2 128 Bedingte Verteilungen Bedingte Verteilung von Xj gegeben X1 = x1 , . . . , Xj−1 = xj−1 , Xj+1 = xj+1 , . . . , Xp = xd = Verteilung von Xj bei festgehaltenen Werten von X1 = x1 , . . . , Xj−1 = xj−1 , Xj+1 = xj+1 , . . . , Xd = xd Beispiel: bedingte Dichte von X1 gegeben X2 = x2 , . . . , Xd = xd : f (x1 | x2 , . . . , xd ) = f (x1 , x2 , . . . , xd ) fX2 ,...,Xd (x2 , . . . , xd ) wobei fX2 ,...,Xd gemeinsame Dichte von X2 , . . . , Xd Von zentraler Bedeutung in der Regressionsanalyse sind bedingte Erwartungswerte: Bedingter Erwartungswert von X1 für gegebene Werte X2 = x2 , . . . , Xd = xd : m(x2 , . . . , xd ) := E(X1 |X2 = x2 , . . . , Xd = xd ) R = x1 f (x1 | x2 , . . . , xd )dx1 m(x2 , . . . , xd ) - Regressionsfunktion Nichtparametrisch@LS-Kneip 129 Unabhängigkeit: Die Zufallsvariablen X1 , . . . , Xd sind voneinander unabhängig, wenn für alle x = (x1 , . . . , xd )T gilt F (x1 , . . . , xd ) = F1 (x1 ) · F2 (x2 ) · . . . · Fd (xd ) bzw. f (x1 , . . . , xd ) = f1 (x1 ) · f2 (x2 ) · . . . · fd (xd ) Folgerungen: Ist Xj unabhängig von Xk , so gilt • Die Randdichte von Xj ist gleich der bedingten Dichte von Xj gegeben Xk = xk fj (xj ) = f (xj | xk ) für alle xk • Der bedingte Erwartungswert von Xj gegeben Xk = xk ist gleich dem unbedingten Erwartungswert von Xj (die Regressionsfunktion ist eine Konstante) E(Xj | Xk = xk ) = E(Xj ) Nichtparametrisch@LS-Kneip für alle xk 130 Beispiel X1 - verfügbares Haushaltseinkommen X2 - Alter des Haushaltsvorstandes Daten: Britischer Family Expenditure Survey; Zufallstichprobe von ungefähr 7000 Haushalten im Jahr 1976 0 0.01 0.02 0.03 Geschätzte gemeinsame Dichte von relativem Einkommen und Alter 10 0 80 2 60 1.5 40 1 20 Nichtparametrisch@LS-Kneip 0.5 131 Geschätzte Dichte der Randverteilung des relativen Einkommens 0.012 0.008 0.004 0.000 0.0 22.8 45.6 68.4 91.2 114.0 income 136.8 159.6 182.4 Regression von Einkommen auf Alter income 1.7 1.3 0.9 0.5 20 30 40 50 60 70 age Nichtparametrisch@LS-Kneip 132 Beispiel: Sei X = (X1 , X2 )T und 1x + 3x 1 2 2 f (x1 , x2 ) = 2 0 falls 0 ≤ x1 , x2 ≤ 1 sonst f ist eine Dichtefunktion, da f (x1 , x2 ) ≥ 0 und Z∞ Z∞ −∞ −∞ · ¸1 · ¸1 1 x21 3 x22 1 3 f (x1 , x2 )dx1 dx2 = + = + =1 2 2 0 2 2 0 4 4 Dichte der Randverteilungen: Z∞ f1 (x1 ) = Z1 f (x1 , x2 )dx2 = −∞ 3 1 x1 + 2 4 f (x1 , x2 )dx1 = 1 3 x2 + 2 4 0 Z∞ f2 (x2 ) = f (x1 , x2 )dx2 = Z1 f (x1 , x2 )dx1 = −∞ Man beachte: 1 3 f (x1 , x2 ) = x1 + x2 = 6 2 2 0 µ ¶µ ¶ 1 3 3 1 x1 + · x2 + = f1 (x1 )·f2 (x2 ) 2 4 2 4 ⇒ X1 und X2 sind nicht unabhängig Nichtparametrisch@LS-Kneip 133 Bedingte Dichte von X2 gegeben X1 = x1 f (x2 | x1 ) = 3 1 2 x1 + 2 x2 1 3 2 x1 + 4 ⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gegeben X1 = x1 m(x1 ) = E(X2 | X1 = x1 ) Z1 = Z1 x2 f (x2 | x1 )dx2 = 0 Nichtparametrisch@LS-Kneip 0 1 3 2 x1 + 2 x2 x2 1 3 dx2 x + 2 1 4 = 134 1 4 x1 1 2 x1 + + 1 2 3 4 1.4 Statistische Testverfahren Einfache Zufallsstichprobe: X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 ) verteilt. • Einseitiger Test Nullhypothese H0 : : µ = µ0 Alternative H1 : µ > µ0 • Zweiseitiger Test Nullhypothese H0 : µ = µ0 Alternative H1 : µ 6= µ0 Allgemeine Formulierung eines Testproblems: H0 : θ ∈ Ω 0 gegen H1 : θ ∈ Ω1 , wobei die Mengen Ω0 und Ω1 jeweils die unter der Nullhypothese und der Alternative zulässigen Werte einer interessierenden Gröÿe θ bezeichnen. Im obigen Beispiel : Zweiseitiger Test ⇒ θ = µ, Ω0 = {µ0 }, Ω1 = {µ ∈ IR|µ 6= µ0 } Einseitiger Test ⇒ θ = µ, Ω0 = {µ0 }, Ω1 = {µ ∈ IR|µ > µ0 }. Einfache und zusammengesetzte Hypothesen: Je nachdem, ob Ω0 bzw. Ω1 ein oder mehrere Elemente enthalten, heiÿen die Hypothesen H0 bzw. H1 einfach oder zusammengesetzt. Nichtparametrisch@LS-Kneip 135 Statistischer Test: Verfahren zur Entscheidung zwischen H0 und H1 auf der Grundlage der beobachteten Daten. Teststatistik: Ein statistischer Test basiert auf einer Teststa- tistik (auch: Prüfgröÿe) T = T (X1 , . . . , Xn ). Die Entscheidung fällt auf der Grundlage des aus den Daten berechneten Werts Tbeob von T . Je nach Realisation entscheidet man sich für oder gegen die vorliegende Hypothese. Ablehnbereich: Menge C derart, dass • Tbeob 6∈ C ⇒ Entscheidung für H0 • Tbeob ∈ C ⇒ Entscheidung für H1 Typischerweise ist C von der Form (−∞, c0 ], [c1 , ∞) oder (−∞, c0 ] ∪ [c1 , ∞). Die Grenzen der jeweiligen Intervalle werden als kritische Werte bezeichnet und ergeben sich in den meisten Fällen als Quantile der Verteilung von T unter der Nullhypothese. Fehler 1. Art: Fehler 2. Art: H0 wird abgelehnt, obwohl H0 richtig ist H0 wird angenommen, obwohl H0 falsch ist Test zum Niveau α (z.B. α = 5%) P ( Fehler 1. Art ) = P (T ∈ C| H0 wahr) ≤ α Nichtparametrisch@LS-Kneip 136 Illustration: Gauÿ Test Beispiel: Qualitätskontrolle Eine Maschine soll bestimmte Werkstücke mit einer Länge von µ0 = 18.3 (mm) herstellen. Zufallsschwankungen um die mittlere Länge sind normalverteilt mit Standardabweichung σ = 0.18. Es ist bekannt, dass es aus technischen Gründen möglich ist, dass sich die Maschine im Laufe der Zeit dejustieren kann, so dass der wahre Erwartungswert µ eventuell ungleich µ0 = 18.3 ist. Gleichzeitig kann jedoch angenommen werden, dass die Standardabweichung σ = 0.18 unverändert bleibt. Für eine Zufallsstichprobe von n = 9 Werkstücken aus der aktuellen Produktion ergab sich eine mittlere Länge X̄ = 18.48. Testproblem (zweiseitig): H0 : µ = µ0 gegen H1 : µ 6= µ0 Testproblem (einseitig): H0 : µ = µ0 gegen H1 : µ > µ0 Das einseitige Problem ist dann von Interesse, wenn man zusätzlich weiÿ, dass eine Dejustierung nur zu µ > 18.3 führen kann. Teststatistk: √ Z= n(X̄ − µ0 ) σ Unter H0 : Z ∼ N (0, 1) Zweiseitiger Test zum Niveau α: Lehne H0 ab, falls |Zbeob | > z1−α/2 Einseitiger Test zum Niveau α: Lehne H0 ab, falls Zbeob > z1−α Zbeob steht für den aus den Daten berechneten Wert von Z , während z1−α/2 bzw. z1−α die entsprechenden Quantile der Standardnormalverteilung sind. Nichtparametrisch@LS-Kneip 137 Im Beispiel gilt Zbeob = 3 und somit für den zweiseitigen Test • Test zum Signikanzniveau α = 0.05: Es gilt z1−α/2 = z0.975 = 1.96 ⇒ |Zbeob | = 3 > 1.96 = z1−α/2 ⇒ Ablehnung der Nullhypothese; • Test zum Signikanzniveau α = 0.01: Es gilt z1−α/2 = z0.995 = 2.576 ⇒ |Zbeob | = 3 > 2.576 = z1−α/2 ⇒ Ablehnung der Nullhypothese Signifikanztest zum Niveau α=0.05 0.4 0.3 Ablehnbereich Ablehnbereich 0.2 0.1 0.0 -3 -2 -z0.975 -1 0 1 2 z0.975 3 zbeob Signifikanztest zum Niveau α=0.01 0.4 Ablehn0.3 bereich Ablehnbereich 0.2 0.1 0.0 -3 -z0.995 Nichtparametrisch@LS-Kneip -2 -1 0 1 2 3 zbeob z0.995 138 1.5 Der p-Wert Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob- achteten Prüfgröÿenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten. Interpretation: • Glaubwürdigkeit von H0 : H0 ist wenig glaubwürdig, falls der p-Wert sehr klein ist • Der in einer konkreten Anwendung berechnete p-Wert hängt von dem beobachteten Datensatz ab. Er liefert Informationen über die Resultate der zugehörigen Signikanztests zu den verschiedenen Niveaus α : α > p-Wert ⇒ Ablehnung von H0 α < p-Wert ⇒ Beibehaltung von H0 In der Praxis: • Test signikant , falls p-Wert < 0.05 (d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0 ) • Häug: Test schwach signikant, falls 0.05 > p-Wert > 0.01 (d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0 ; ein Test zum Niveau 1% führt dagegen zur Beibehaltung von H0 ) Nichtparametrisch@LS-Kneip 139 Illustration: Gauÿ Test Vorgehen: Unter H0 gilt Z ∼ N (0, 1). Man berechnet aus den Daten den realisierten Wert zbeob . Der p-Wert ist nun die Wahrscheinlichkeit, unter der Standardnormalverteilung einen Wert zu beobachten, der betragsmäÿig gröÿer oder gleich Zbeob ist. Einseitiger Test: p-Wert = P (Z ≥ Zbeob | H0 wahr) = 1 − Φ(Zbeob ), wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Zweiseitiger Test: p-Wert = 2 min {P (Z ≥ Zbeob |H0 wahr), P (Z ≤ Zbeob |H0 wahr)} = P (|Z| ≥ |Zbeob | |H0 wahr) = 2(1 − Φ(|Zbeob |)) Man beachte: p-Wert = P (|Z| ≥ |Zbeob |H0 wahr) und α = P (|Z| ≥ z1−α/2 |H0 wahr)) ⇒|Zbeob | > z1−α/2 , falls α > p-Wert |Zbeob | < z1−α/2 , falls α < p-Wert • Für einen gegebenen Datensatz lässt sich aus dem p-Wert ablesen, zu welchem Niveau α der zugehörige Signikanztest die Nullhypothese gerade noch verworfen hätte. Falls α > p-Wert, so gilt |Zbeob | > z1−α/2 . Ein Test zu einem Niveau α > p-Wert führt also zur Ablehnung der Nullhypothese. Falls α < p-Wert, so gilt |Zbeob | < z1−α/2 . Ein Test zu einem Niveau α < p-Wert führt also zur Beibehaltung der Nullhypothese. Nichtparametrisch@LS-Kneip 140 Besipiel: Sei Zbeob = 1.77 ⇒ p-Wert = 0.076 α = 0, 1 > p-Wert ⇒ Ablehnung von H0 z0.95 =1.645<z beob -z0.95 =-1.645 0.4 0.3 0.2 0.1 α/2=0.05 α/2=0.05 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 zbeob 2.5 3.0 α = 0, 076 = p-Wert z0.962 =1.77=z beob -1.77=-z beob 0.4 0.3 0.2 0.1 α/2=0.038 α/2=0.038 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 zbeob 2.5 3.0 α = 0, 02 < p-Wert ⇒ Annahme von H0 z0.99 =2.326>z beob -z0.99 =-2.326 0.4 0.3 0.2 0.1 α/2=0.01 α/2=0.01 0.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 zbeob Nichtparametrisch@LS-Kneip 141 Beispiel Qualitätskontrolle (zweiseitiger Test): Der in diesem Beispiel tatsächlich beobachtete Wert ist Zbeob = 3. ⇒ p-Wert = P (|Z| ≥ 3 |H0 wahr)) = 2(1 − Φ(3)) = 0, 0026 Aus p-Wert = 0, 0026 lässt sich direkt schlieÿen, dass sowohl ein Test zum Signikanzniveau α = 0, 05 als auch ein Test zum Niveau α = 0, 01 zur Ablehnung von H0 führen. Das Testergebnis ist hochsignikant. Der p-Wert eines einseitigen Tests wird durch die folgende Figur illustriert. Es sei Zbeob = 1.77 (⇒ p-Wert = 0.038) z0.962 =1.77=z beob 0.4 0.3 0.2 0.1 0.038 0.0 -2.5 -2.0 Nichtparametrisch@LS-Kneip -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 zbeob 2.5 3.0 142 Illustration: t-Test Es seien X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 ) verteilt. µ und σ 2 seien unbekannt. Testproblem: H0 : µ = µ0 gegen H1 : µ 6= µ0 Teststatistik des t-Tests: T = √ n(X̄ − µ0 ) S Test zum Niveau α • Einseitiger Test: Ablehnung von H0 , falls Tbeobachtet ≥ tn−1;1−α • Zweiseitiger Test: Ablehnung von H0 , falls |Tbeobachtet | ≥ tn−1;1−α/2 Der p-Wert (Überschreitungswahrscheinlichkeit): • Einseitiger Test: p-Wert = P (Tn−1 ≥ Tbeobachtet ) • Zweiseitiger Test: p-Wert = P (|Tn−1 | ≥ |Tbeobachtet |) Nichtparametrisch@LS-Kneip 143 Daten: X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90, n = 5. ⇒ X̄ = 18.1 Testproblem: H0 : µ = 17 gegen H1 : µ 6= 17 √ 5(18.1 − 17) = 2.187 1.125 ⇒ p-Wert = P (|Tn−1 | ≥ 2.187) = 0.094 Tbeobachtet = Tests zu verschiedenen Niveaus α: α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0 α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0 α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187 ⇒ Ablehnung von H0 α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0 α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0 Nichtparametrisch@LS-Kneip 144 1.6 Die Gütefunktion Allgemein: Für jeden möglichen Wert θ ∈ Ω0 ∪ Ω1 lässt sich die Wahrscheinlichkeit β(n, α; θ) := P ( Ablehnung von H0 , falls wahrer Parameterwert gleich θ) berechnen. Diese sogenannte Gütefunktion β ist ein wichtiges Werkzeug zur Beurteilung der Qualität eines Tests und zum Vergleich verschiedener Testprozeduren. β hängt vom Parameterwert θ, dem Signikanzniveau α und der Stichprobengröÿe n ab. • β(n, α; θ) ≤ α für alle θ ∈ Ω0 Bei der Konstruktion eines sinnvollen Tests wird natürlich im Allgemeinen darauf geachtet, das Niveau α voll auszuschöpfen. Es gilt dann β(n, α; θ) = α für mindestens ein θ ∈ Ω0 . In manchen Fällen, z.B. bei diskreten Teststatistiken oder bei komplizierten, zusammengesetzten Nullhypothesen, ist es jedoch nicht möglich, ein vorgegebenes Niveau α voll auszuschöpfen und es gilt β(n, α; θ) < α für alle θ ∈ Ω0 . Man spricht dann von einem konservativen Test. • Güte eines Tests: Bei der Beurteilung der Qualität eines Tests sind die Werte von β(n, α; θ) für θ ∈ Ω1 von entscheidender Bedeutung. Für θ ∈ Ω1 ist β(n, α; θ) die Wahrscheinlichkeit, die richtige Entscheidung zu treen und H1 anzunehmen. Diese Wahrscheinlichkeit sollte natürlich möglichst groÿ sein. Ein Test hat eine umso höhere Güte, je näher β(n, α; θ) bei 1 liegt für θ ∈ Ω1 . Nichtparametrisch@LS-Kneip 145 • Unverfälschter Test: Ein Test zum Niveau α heiÿt unverfälscht, wenn β(n, α; θ) ≥ α für alle θ ∈ Ω1 . Für einen unverfälschten Test ist also die Wahrscheinlichkeit H0 abzulehnen, wenn H0 falsch ist, mindestens so groÿ wie jene, H0 abzulehnen, wenn H0 zutrit. • Konsistenter Test: Ein Test zum Niveau α heiÿt konsistent, falls lim β(n, α; θ) = 1 n→∞ für alle θ ∈ Ω1 . Bei einem konsistenten Test konvergiert also die Wahrscheinlichkeit, die Nullhypothese für θ ∈ Ω1 korrekterweise abzulehnen, mit wachsendem Stichprobenumfang gegen 1. • Gleichmäÿig bester Test für ein gegebenes Testproblem: Ein Test mit Gütefunktion β(n, α; θ) heiÿt gleichmäÿig bester Test (uniformly most powerful), falls für jeden alternativen Test mit Gütefunktion β ∗ (n, α; θ) β(n, α; θ) ≥ β ∗ (n, α; θ) für alle n und θ ∈ Ω1 Leider lassen sich gleichmäÿig beste Tests nur für wenige, sehr spezielle Testprobleme konstruieren. Nichtparametrisch@LS-Kneip 146 Beispiel Qualitätskontrolle (Gauÿ-Test): • Wenn H1 wahr ist, so hängt die Güte β(n, α; µ) des Tests von dem wahren Wert µ ∈ Ω1 ab. Sei H1 wahr und µ = 18.36 wahrer Parameterwert √ ⇒ Z = n(X̄−18.3) ∼ N (1, 1) σ ⇒ β(9, 0.05; 18.36) = P (|Z| ≥ z1−α/2 |µ = 18.36) = 0.168 H1 wahr und µ=18,36: Z~N(1,1) 0.4 0.3 0.2 β 0.1 0.0 -2 -z0.975 0 2 4 z0.975 Sei H1 wahr und µ = 18, 48 wahrer Parameterwert √ ⇒ Z = n(X̄−18.3) ∼ N (3, 1) σ ⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z1−α/2 |µ = 18.48) = 0.873 H_1 wahr und µ=18,48: Z~N(3,1) 0.4 0.3 0.2 0.1 β 0.0 -2 -z0.975 Nichtparametrisch@LS-Kneip 0 2 4 z0.975 147 Beispiel Qualitätskontrolle (Gauÿ-Test): • Es ist nicht möglich, beide Fehlerwahrscheinlichkeiten gleichzeitig beliebig klein zu machen. Je kleiner α, desto gröÿer die Wahrscheinlichkeit eines Fehlers 2. Art, d.h. desto kleiner β . Sei H1 wahr und µ = 18.48 ∈ Ω1 wahrer Parameterwert ⇒ Z ∼ N (3, 1) α = 0.05 ⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z0,975 |µ = 18.48) = 0.873 | {z } 1.96 Niveau α=0,05 (H_1 wahr und µ=18,48) 0.4 0.3 0.2 0.1 β 0.0 -2 -z0.975 0 2 4 z0.975 α = 0.01 ⇒ β(9, 0.01; 18.48) = P (|Z| ≥ z0,995 |µ = 18.48) = 0.663 | {z } 2.576 Niveau α=0,01 (H 1 wahr, µ=18,48) 0.4 0.3 0.2 0.1 β 0.0 -2 -z0.995 Nichtparametrisch@LS-Kneip 0 2 z0.995 4 148 Beispiel Qualitätskontrolle (Gauÿ-Test): • Für festes Signikanzniveau wird β(n, α; µ) umso gröÿer, je gröÿer der Stichprobenumfang n ist. • H0 wahr: Unabhängig von n gilt Z = √ n(X̄−18.3) σ ⇒ P ( Fehler 1. Art ) = α • Sei H1 wahr und µ = 18.36. Dann gilt √ √ 1 n(X̄ − 18.3) Z= ∼ N ( n , 1) σ 3 und es ergibt sich n=9 β(9, 0.05; 18.36) = 0.168 n = 36 β(36, 0.05; 18.36) = 0.516 n = 81 β(81, 0.05; 18.36) = 0.873 n = 144 β(144, 0.05; 18.36) = 0.979 Nichtparametrisch@LS-Kneip 149 ∼ N (0, 1) 1.7 Asymptotische relative Ezienz Im Folgenden betrachten wir einseitige Testprobleme mit einfachen Nullhypothesen der Form H0 : θ = θ0 , θ, θ0 ∈ IR, und zusammengesetzten Alternativen der Form H1 : θ > θ0 oder H1 : θ < θ 0 . Das von Pitman entwickelte Konzept der asymptotischen relativen Ezienz erlaubt nun den Vergleich der Güte zweier konsistenter Testverfahren, die sich jeweils durch verschiedene Teststatistiken T1 bzw. T2 und zugehörige Gütefunktionen β1 (n, α; θ) bzw. β2 (n, α; θ) charakterisieren lassen. Das Ezienzmaÿ beruht auf der Einsicht, dass es bei einem Vergleich unterschiedlicher Tests nicht sehr sinnvoll ist, die Güte von sehr weit von θ0 entfernten Alternativen θ, |θ − θ0 | groÿ, zu betrachten. Für jeden vernünftigen, konsistenten Test ist für solche Alternativen der Wert von β nahe 1. Interessant sind lokale Alternativen θ, die relativ nahe bei θ0 liegen. Der konkrete Abstand |θ − θ0 | muss hierbei in Abhängigkeit vom Stichprobenumfang betrachtet werden. Die folgende Konstruktion des Ezienzmaÿes beruht auf der Voraussetzung, dass die Gütefunktionen β1 (n, α; θ) und β2 (n, α; θ) jeweils monoton wachsende Funktionen des Abstands |θ − θ0 | sind, und dass lim|θ|→∞ β1 (n, α; θ) = lim|θ|→∞ β1 (n, α; θ) = 1. • Man betrachtet eine Folge lokaler Alternativen θ1 , θ2 , . . . mit |θ1 − θ0 | > |θ2 − θ0 | > . . . und limi→∞ θi = θ0 . • Für vorgegebene 0 < α < 1 und 0 < β < 1 berechnet man nun für Test 1 eine zugehörige Folge n1 , n2 , . . . von Stichprobengröÿen derart, dass für alle i = 1, 2, . . . der Wert der Nichtparametrisch@LS-Kneip 150 Gütefunktion β1 (ni , α; θi ) möglichst nahe an β ist, d.h. β1 (ni , α; θi ) ≈ β Anmerkung: Exakte Gleichheit β1 (ni , α; θi ) = α ist z.B. für diskrete Teststatistiken nicht immer erreichbar. • Für den zweiten Test wird sodann eine zugehörige Folge von Stichprobenumfängen m1 , m2 , . . . bestimmt, so dass für alle i = 1, 2, . . . der Wert der Gütefunktion β2 (mi , α; θi ) möglichst nahe an β ist, d.h. β2 (mi , α; θi ) ≈ β • Asymptotische relative Ezienz des Tests T1 zum Test T2 : mi , ET1 ,T2 = lim i→∞ ni vorausgesetzt, dass dieser Limes existiert und für jede Wahl von {θi } und α, β derselbe ist. Interpretation: • ET1 ,T2 = 1 ⇒ beide Tests annähernd gleich ezient (für lokale Alternativen) • ET1 ,T2 = γ < 1 ⇒ Test 2 ist ezienter als Test 1! Um annähernd die gleiche (lokale) Güte zu erreichen, werden von Test 2 um den Faktor γ weniger Beobachtungen gebraucht als von Test 1. • ET1 ,T2 = γ ∗ > 1 ⇒ Test 1 ist ezienter als Test 2! Um annähernd die gleiche (lokale) Güte zu erreichen, werden von Test 2 um den Faktor γ mehr Beobachtungen gebraucht als von Test 1. Nichtparametrisch@LS-Kneip 151 2 Die empirische Verteilungsfunktion, Ordnungsstatistiken und nichtparametrische Tests Gegeben: Stetige Zufallsvariable X mit Dichtefunktion f und Verteilungsfunktion F (d.h. f (t) = F 0 (t)) Daten: Einfache Zufallsstichprobe X1 , . . . , Xn 2.1 Die empirische Verteilungsfunktion Ein wichtiges Werkzeug zur Analyse solcher Daten ist die sogenannte empirische Verteilungsfunktion. Absolute kumulierte Häugkeitsverteilung: Hn (x) = Anzahl der Werte Xi mit Xi ≤ x Empirische Verteilungsfunktion: Fn (x) = Hn (x)/n = Anteil der Werte Xi mit Xi ≤ x Eigenschaften: • 0 ≤ Fn (x) ≤ 1 • Fn (x) = 0, falls x < X(1) , wobei X(1) - kleinster beobachteter Wert • F (x) = 1, falls x ≥ X(n) , wobei X(n) - gröÿter beobachteter Wert • Fn monoton wachsende Treppenfunktion Nichtparametrisch@LS-Kneip 21 Beispiel: Preise (in Euro) für eine Pizza mit Salami und Pilzen in acht zufällig ausgewählten Pizzerien in Bonn x1 x2 x3 x4 x5 x6 x7 x8 5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 4.0 4.5 Nichtparametrisch@LS-Kneip 5.0 5.5 6.0 6.5 22 Die empirische Verteilungsfunktion ist mit der sogenannten Ordnungsstatistik eng verbunden. • Als Ordnungsstatistik bezeichnet man das n-Tupel (X(1) , . . . , X(n) ), wobei X(1) ≤ X(2) ≤ · · · ≤ X(n) die der Gröÿe nach geordneten Werte der Stichprobe sind. • Für alle r = 1, . . . , n wird X(r) als r-te Ordnungsstatistik bezeichnet Konstruktion von Fn (x) anhand von X(1) ≤ X(2) ≤ · · · ≤ X(n) : • Fn (x) = 0, falls x < X(1) • Fn (x) = 1, falls x ≥ X(n) • Fn (X(i) ) = Fn (X(i−1) ) + n1 Fn (x) = F (X(i) ), falls x ∈ [X(i) , X(i+1) ) Achtung: Falls alle xi voneinander verschieden sind, wächst F (x) an jedem Beobachtungswert genau um den Betrag 1 ; n sind zwei Beobachtungen gleich, so wächst F (x) an dem entsprechenden Zahlenwert um den Betrag um 3 , n 2 , n bei drei gleichen Beobachtungen etc. • Fn (x) = 1, falls x ≥ x(n) • Fn hängt von den Werten der beobachteten Stichprobe ab, d.h. für jedes x ist Fn (x) eine Zufallsvariable. • Fn ist diskret mit den Realisationsmöglichkeiten m/n (m = 0, 1, . . . , n). Nichtparametrisch@LS-Kneip 23 Theoretische Eigenschaften der empirischen Verteilungsfunktion: Satz 1: Für jedes feste x gilt nFn (x) ∼ B(n, F (x)), d.h. nFn (x) ist binomialverteilt mit den Parametern n und F (x). Die Wahrscheinlichkeitsverteilung von Fn (x) ist somit gegeben durch ³ m´ n P Fn (x) = = F (x)m (1−F (x))n−m , m = 0, 1, . . . , n n m Folgerungen: • E(Fn (x)) = F (x), d.h. Fn (x) ist ein erwartungstreuer Schätzer von F (x) • V ar(Fn (x)) = n1 F (x)(1 − F (x)), d.h. mit wachsender Stichprobengröÿe verringert sich die Streuung von Fn (x) um F (x) (Fn (x) ist ein konsistenter Schätzer von F (x)). Satz von Glivenko-Cantelli: à P ! lim sup |Fn (x) − F (x)| = 0 x∈IR n→∞ Nichtparametrisch@LS-Kneip =1 24 Die Verteilung von Y = F (X) Man beachte den Unterschied zwischen F (x) und F (X): • Für gegbenes x ∈ IR ist F (x) eine feste Zahl, F (x) = P (X ≤ x) • F (X) ist eine Zufallsvariable, wobei F die zu X gehörende Verteilungsfunktion ist Satz 2: X habe die stetige Verteilungsfunktion F . Dann ist Y = F (X) gleichverteilt auf dem Intervall [0, 1], d.h. F (X) ∼ U (0, 1), P (a ≤ F (X) ≤ b) = b − a für alle 0 ≤ a < b ≤ 1 Folgerung: Für stetiges F können • F (X1 ), . . . , F (Xn ) als Stichprobenvariablen bezüglich der gleichverteilten Zufallsvariablen F (X) • (F (X(1) ), . . . , F (X(n) ) als Ordnungsstatistik aus einer gleichverteilten Grundgesamtheit aufgefasst werden. Nichtparametrisch@LS-Kneip 25 2.2 Quantile Quantile sind ein wichtiges Werkzeug der nichtparametrischen Statistik. Sie liefern wichtige Maÿzahlen z.B. zur Charakterisierung von Lage und Streuung einer Verteilung. Quantil: Sei 0 < p < 1. Jede Zahl ψp mit der Eigenschaft P (X < ψp ) ≤ p ≤ P (X ≤ ψp ) heiÿt p-tes Quantil (oder kurz p-Quantil) der Zufallsvariablen X • Falls die Verteilungsfubktion F streng monoton steigend ist, so sind alle p-Quantile durch p = F (ψp ) eindeutig bestimmt. • Enthält F konstante Segmente (z.B. bei diskreten Zufallsvariablen), so sind manche p-Quantile nicht eindeutig, und es gibt Intervalle von möglichen Lösungen (in der Praxis wird dann häug mit dem Mittelwert des jeweiligen Intervalls gerechnet). Wichtige Quantile: • µmed = ψ0.5 heiÿt Median (mindestens 50% der Beobachtungen sind kleiner gleich ψ0.5 und mindestens 50% der Beobachtungen sind gröÿer gleich ψ0.5 ) In der nichtparametrischen Statistik dient häug der Median (anstatt des Mittelwerts) als Lagemaÿ zur Bestimmung des Zentrums einer Verteilung Vorteile des Medians: Robust gegen Ausreiÿer; im Gegensatz zum Mittelwert auch bei extrem links bzw. rechtssteilen Verteilungen gut interpretierbar. • ψ0.25 bzw. ψ0.75 heiÿen unteres bzw. oberes Quartil Nichtparametrisch@LS-Kneip 26 Der Quartilsabstand QA = ψ0.75 − ψ0.25 ist ein häug verwendetes Streuungsmaÿ. • ψ0.1 bzw. ψ0.9 heiÿen 1. bzw. 9. Perzentil Quantile der empirischen Verteilung: Gegeben: Einfache Zufallsstichprobe X1 , . . . , Xn Approximationen der wahren Quantile der zugrunde liegenden Verteilung erhält man unter Benutzung der Ordnungsstatistiken X(r) . Die Denition der entsprechenden empirischen Quantile folgt den oben angegebenen Formeln, allerdings müssen Wahrscheinlichkeiten durch relative Häugkeiten ersetzt werden. (empirisches) p-Quantil: Wert ψn;p mit 0 < p < 1, so daÿ Anzahl xi ≤ψn;p n ≥ p und Anzahl xi ≥ψn;p n ≥1−p ψn;p = x([np]+1) , wenn np nicht ganzzahlig ψn;p = (x(np) + x(np+1) )/2, wenn np ganzzahlig [np] ist die zu np nächste kleinere ganze Zahl. Anmerkung: Falls np nicht ganzzahlig, so ist ψn;p eindeutig bestimmt; falls np ganzzahlig, so gibt es ein Intervall von prinzipiell möglichen Werten. Nichtparametrisch@LS-Kneip 27 Der Boxplot ist ein häug verwendetes Werkzeug zur graschen Darstellung von Datenmaterial. Er basiert auf der Verwendung von Quantilen. Boxplot: • ψn;0,25 - Anfang der Schachtel (Box) ψn;0,75 - Ende der Schachtel (Box) ⇒ QA - Länge der Schachtel (Box) • Der Median ψn;0,75 wird durch Strich in der Box markiert (manchmal wird auch x̄ durch eine gestrichelte Linie markiert) • Man bestimmt die Zäune zl = ψn;0,25 − 1, 5 · QA und zu = ψn;0,75 + 1, 5 · QA • Zwei Linien (Whiskers) gehen zum kleinsten und gröÿten Beobachtungswert innerhalb des Bereichs [zl , zu ] der Zäune • Beobachtungen auÿerhalb der Zäune zl , zu werden einzeln eingezeichnet Boxplots liefern Informationen über wichtige Charakteristika einer Verteilung: • Lage und Streuung • Struktur (symmetrisch, rechtssteil, linkssteil) • Existenz von Ausreiÿern Nichtparametrisch@LS-Kneip 28 Graphische Darstellung einiger Mazahlen der Lage und der Variation Boxplot (Box{Whisker{Plot, Schachtelzeichnung) x0;75 + 3QA x0;75 + 1; 5QA (upper fence) ? Æ x0;75 x0;5 Æ ? QA x0;25 x0;25 1; 5QA (lower fence) x0;25 3QA Nichtparametrisch@LS-Kneip 29 Beispiel: Geordnete Urliste (n=10): 0,1 0,1 0,2 0,4 0,5 0,7 0,9 1,2 1.5 2.0 1,4 1,9 Histogramm: 0.8 0.6 0.4 0.2 0.0 0.0 0.5 1.0 x Boxplot: 0.0 0.5 1.0 1.5 2.0 x Nichtparametrisch@LS-Kneip 210 40 30 20 0 10 Stundenlohn Frauen Nichtparametrisch@LS-Kneip Maenner 211 Kondenzintervalle für Quantile Für 0 < p < 1 ist ψn;p natürlich nur eine Approximation des wahren Quantils ψp und hängt von den Beobachtungswerten (Zufall!) ab. Es ist daher von Interesse ein Kondenzintervall für ψp zu konstruieren. Die Grundidee zur Konstruktion eines Konenzintervalls zum Niveau 1 − α besteht in der Verwendung von Ordnungsstatistiken und der Bestimmung von Zahlen l, m ∈ {1, . . . , n} derart, dass ¢ ¡ P X(l) < ψp < X(m) ≈ 1 − α Man beachte, dass ¡ ¢ P X(l) < ψp < X(m) = P (X(l) < ψp ) − P (X(m) < ψp ) = P (F (X(l) ) < p) − P (F (X(m) ) < p) F (X(l) ) bzwm F (X(m) ) lassen sich als Ordnungsstatistiken aus einer gleichverteilten Grundgesamtheit auassen. Nach einigen Rechnungen erhält man m−1 X n pi (1 − p)n−i P (F (X(l) ) < p) − P (X(m) < ψp ) = i i=l = P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1), wobei Bn,p eine Zufallsvariable ist, die einer Binomialverteilung mit den Parametern n und p folgt. Die entsprechenden Wahrscheinlichkeiten lassen sich den Tabellen der Binomialverteilung entnehmen. Typischerweise existieren keine Zahlen l, m derart, dass P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1) exakt gleich 1 − α ist. In der Praxis werden daher l und m so bestimmt, dass • P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1) ≈ 1 − α, m − l kleinstmöglich Nichtparametrisch@LS-Kneip 212 2.3 Nichtparametrische Testverfahren Es existiert eine fast unüberschaubare Vielzahl von nichtparametrischen Testverfahren für die verschiedensten Fragestellungen. Im Folgenden werden nur einige ausgewählte Methoden vorgestellt. Verschiedene nichtparametrische Tests beruhen auf teilweise völlig unterschiedlichen Grundideen. Es gibt jedoch eine Reihe von allgemeinen Grundsätzen, die eine gemeinsame Grundlage vieler Testprozeduren bilden: • Allgemeinheit: Die zu testende Nullhypothese wird in allgemeiner Form formuliert (keine Parametrisierung; insbesondere keine Abhängigkeit von Existenz und Werten der Parameter spezischer Verteilungen) • Verteilungsfreiheit: Die Verteilung der Teststatistik unter der Nullhypothese sollte (tendenziell) verteilungsfrei sein, d.h. unabhängig von der spezischen Struktur der zugrundeliegenden Verteilung der interessierenden Variable sein. • Robustheit: Möglichst geringer Einuss von möglichen Ausreiÿern innerhalb der vorliegenden Daten 2.4 Anpassungstests Anpassungstests (Goodness-of-Fit Tests) dienen zur Überprüfung der Hypothese, ob eine beobachtete Variable eine bestimmte, spezierte Verteilung besitzt, wie z.B. eine Exponentialverteilung mit Parameter λ = 1 oder eine Normalverteilung mit Mittelwert 0 und Varianz 1. Die Grundidee solcher Tests besteht darin zu untersuchen, ob sich die beobachtete Verteilung hinreichend gut der hypothetischen Verteilung anpasst. Nichtparametrisch@LS-Kneip 213 Der Kolmogoro-Smirno Test Gegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F Daten: Einfache Zufallsstichprobe X1 , . . . , Xn Ziel: Test der Nullhypothese H0 : F = F0 , wobei F0 eine genau spezizierte Verteilungsfunktion ist. Beispiele: F0 - Verteilungsfunktion einer Normalverteilung mit Mittelwert 0 und Varianz 1; F0 - Verteilungsfunktion einer Exponentialverteilung mit Parameter λ = 1. • Fn (x) ist ein erwartungstreuer und konsistenter Schätzer von F (x) • Falls die Nullhypothese F = F0 also richtig ist, sollten die Abweichungen |Fn (x) − F0 (x)| rein zufällig und hinreichend klein sein. Diese Einsichten führen auf den Kolmogoro-Smirno Test. Testproblem: H0 : F (x) = F0 (x) für alle x ∈ IR H1 : F (x) 6= F0 (x) für mindestens ein x ∈ IR Teststatistik: Dn = sup |Fn (x) − F0 (x)| x∈IR Ablehnung von H0 , falls Dn > dn,1−α Hierbei bezeichnet dn,1−α das 1 − α-Quantil der Verteilung von Dn unter der Nullhypothese. Nichtparametrisch@LS-Kneip 214 Frage: Verteilung von Dn unter H0 ? a) Unter der Nullhypothese F = F0 ist die Teststatistik Dn für alle stetigen Verteilungsfunktionen F0 verteilungsfrei und stimmt mit der Verteilung der Zufallsvariable Dn∗ , Dn∗ = sup |y − Fn∗ (y)|, y∈[0,1] überein. Hierbei bezeichnet Fn∗ die empirische Verteilungsfunktion einer einfachen Zufallsstichprobe aus einer U (0, 1)Verteilung. b) Asymptotische Verteilung (groÿe Stichproben): Für alle λ > 0 gilt √ lim P (Dn ≤ λ/ n) = 1 − 2 n→∞ ∞ X (−1)k−1 e−2k 2 λ2 k=1 • Ergebnis a) impliziert, dass sich die kritischen Werte des Kolmogoro-Smirno Tests durch Monte-Carlo-Simulationen (am Computer) approximieren lassen. Mit Hilfe eines Zufallszahlengenerators werden n unabhängige, auf [0, 1] gleichverteilte Zufallszahlen erzeugt und ∗ = supy∈IR |y − Fn∗ (y)| berechder zugehörige Wert Dn,1 net. Diese Prozedur wird k mal wiederholt (k groÿ, z.B. k = 2000) ∗ ∗ ∗ , Dn,2 , . . . , Dn,k ⇒ k Werte: Dn,1 Das (1 − α)-Quantil der empirischen Verteilung von ∗ ∗ ∗ , . . . , Dn,k liefert eine Approximation von dn,1−α , Dn,2 Dn,1 (umso genauer, je gröÿer k ) Nichtparametrisch@LS-Kneip 215 • Für kleine Werte von n sind die kritischen Werte dn,1−α tabelliert. Beispiel: (aus Büning und Trenkler) Es sei zu testen, dass für einen bestimmten PKW-Typ der Benzinverbrauch in Litern pro 100 km bei einer Geschwindigkeit von 100 km/h normalverteilt ist mit µ = E(X) = 12 und σ = 1. Eine einfache Zufallsstichprobe von 10 Fahrzeugen dieses Typs ergab folgenden Literverbrauch: 12.4 11.8 12.9 12.6 13.0 12.5 12.0 11.5 13.2 12.8 Man erhält (n = 10): D10 = 0.3554 Kritischer Wert des Kolmogoro-Smirno Tests für n = 10 und α = 0.05: d10,0.95 = 0.409 ⇒ Annahme der Nullhypothese, da 0.3554 < 0.409 Anmerkung: Der Test ist auch für diskrete Verteilungen (F nicht stetig) anwendbar. Er ist dann konservativ, d.h. unter der Nullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Art kleiner gleich α. Nichtparametrisch@LS-Kneip 216 Behandlung von zusammengesetzten Nullhypothesen Man spricht von einer zusammengesetzten Nullhypothese, falls F0 (x) ≡ F0 (x, θ) nur bis auf unbekannte Parameter θ ∈ IRm speziziert ist. Ein Beispiel ist eine Normalverteilung mit unbekanntem Mittelwert und unbekannter Varianz, d.h. θ = (µ, σ 2 ). In einem solchen Fall möchte man also testen, ob die Daten normalverteilt sind (mit beliebigem Mittelwert und Varianz). Testproblem: H0 : F (x) = F0 (x, θ) für alle x ∈ IR; θ unbekannt H1 : Für alle möglichen θ: F (x) 6= F0 (x, θ) für mindestens ein x ∈ IR Teststatistik: Dn = sup |Fn (x) − F0 (x, θ̂)| x∈IR Hierbei bezeichnet θ̂ die Maximum-Likelihood Schätzung von θ P (z.B. θ̂ = (X̄, σ̂ 2 ), σ̂ 2 = n1 i (Xi − X̄)2 , im Falle einer Normalverteilung). Ablehnung von H0 , falls Dn > dn,1−α • Im Allgemeinen werden die gleichen kritischen Werte genommen wie beim Test einer einfachen Nullhypothese (siehe oben). Der Test ist in diesem Fall konservativ, d.h. unter der Nullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Art kleiner gleich α. • Für den Spezialfall einer Normalverteilung wurden von Lilliefors exakte kritische Werte berechnet. Der resultierende Test von Lillifors ist in vielen statistischen Programmpaketen implementiert. Nichtparametrisch@LS-Kneip 217 Der χ2 -Anpassungstest Daten: • Zufallsstichprobe X1 , . . . , Xn i.i.d. • Xi nimmt nur q verschiedene Werte an Xi ∈ {a1 , . . . , aq } Verteilungshypothese: Die Verteilung von X ist so, dass P (X = aj ) = πj0 , j = 1, . . . , q wobei π10 , . . . , πq0 vorgegebene Werte χ2 -Anpassungstest: • Test von H0 : πi = P (X = aj ) = πj0 gegen H1 : πj 6= πj0 für ein j = 1, . . . , q • der Test beruht auf Vergleich von nj = Anzahl der Xi , i = 1, . . . , n, mit Xi = aj mit der zu erwartenden Häugkeit unter H0 : E(nj ) = nπj0 Teststatistik: q X (nj − nπj0 )2 Q= 0 nπ j j=1 Asymptotische Approximation (n groÿ): Q ∼ χ2q−1 ⇒ Ablehnung von H0 , falls Q ≥ χ2q−1,1−α Nichtparametrisch@LS-Kneip 218 Anmerkung: Unter H0 folgen n1 , . . . , nq einer sogenannten Multinomialverteilung: P (n1 = m1 , . . . , nq = mq ) = n! (π10 )m1 · (π20 )m2 · · · (πq0 )mq m1 ! · · · mq ! Jede Anwendung des χ2 -Tests auf stetige Verteilungen erfordert eine Gruppierung Daten in q Klassen. Anwendung: Test auf univariate Standardnormalverteilung • Unterteilung der reellen Achse in q disjunkte Teilintervalle A1 , . . . , Aq NH0,1L Πi 0 =à Ai 1 1 expH- x2 Lâx !!!!!!! 2 2Π A1 A2 ......... Aq • Berechnung der theoretischen Wahrscheinlichkeiten µ ¶ Z 1 1 √ exp − x2 dx πj0 = P (X ∈ Aj ) = 2 2π Aj (P : Normalverteilung) • Berechnung von nj = Anzahl der Beobachtungen, die in das Intervall Aj fallen ⇒ χ2 -Test Nichtparametrisch@LS-Kneip 219 Verallgemeinerung: Test auf Normalverteilung (Xi ∼ N (µ, σ 2 )) • Vorgehen analog; aber: theoretische Wahrscheinlichkeiten ¶ µ Z 2 1 1 (X − µ) √ πj0 ≡ πj0 (µ, σ) = P (X ∈ Aj ) = dx exp − 2 σ2 2πσ Aj hängen nun von unbekannten Parametern µ, σ 2 ab! • Bestimmung von Schätzungen µ̂ und σ̂ und Approximation der theoretischen Wahrscheinlichkeiten durch πj0 (µ̂, σ̂) • Teststatistik: ¢2 q ¡ 0 X nj − nπj (µ̂, σ̂) Q= 0 (µ̂, σ̂) nπ j j=1 • Unter H0 : Q ∼ χ2q−3 Allgemein: Zusammengesetzte Verteilungshypothese m unbekannte Parameter zu schätzen ⇒ Unter H0 : Q ∼ χ2q−m−1 • Es gibt theoretische Arbeiten, die zeigen, dass Q asymptotisch nicht χ2 -verteilt ist, wenn die Parameter nach der MaximumLikelihood Methode aus ungruppierten Daten geschätzt werden P (z.B. bei Verwendung von µ̂ = X̄ , σ̂ 2 = n1 i (Xi − X̄)2 ). • Die Approximation Q ∼ χ2q−m−1 ist jedoch für groÿes n korrekt, wenn die unbekannten Parameter θ ∈ IRm nach der χ2 Minimum Methode geschätzt werden: θ̂ = (θ̂1 , . . . , θ̂m )τ minimieren Q, d.h. sie sind Lösungen der nachfolgenden m Gleichungen (j = 1, . . . , m): à ! q 0 0 2 X nj − nπj (θ̂) (nj − nπj (θ̂)) ∂πj0 (θ̂) −1 ∂Q = =0 + 0 0 2 2 ∂θ` ∂θ ` πj (θ̂) 2πj (θ̂) j=1 Nichtparametrisch@LS-Kneip 220 2.5 Einstichprobentests: Lineare Rangtests Rangtests spielen eine zentrale Rolle unter den nichtparametrischen Testverfahren. Sie zeichnen sich oft durch Robustheit und eine relativ hohe Ezienz aus. Ränge: Man betrachte eine einfache Zufallsstichprobe X1 , . . . , Xn Ränge sind eng verbunden mit der zugehörigen Ordnungsstatistk (X(1) , . . . , X(n) ). Im Folgenden wird der Rang einer Beobachtung Xi mir r(Xi ) bezeichnet. r(Xi ) = Anzahl aller Beobachtungen Xj , j = 1, . . . , n, mit Xj ≤ Xi = Platznummer von Xi in der Ordnungstatistik Xi kleinste Beobachtung ⇒ r(Xi ) = 1 Xi zweitkleinste Beobachtung ⇒ r(Xi ) = 2 .. . Xi zweitgröÿte Beobachtung ⇒ r(Xi ) = n − 1 Xi gröÿte Beobachtung ⇒ r(Xi ) = n Achtung: Es wird angenommen, dass alle Xi ungleich sind; für stetige Variablen gilt P (Xi = Xj ) = 0, falls i 6= j . Nichtparametrisch@LS-Kneip 221 • Da X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen sind, ist r(X1 ), . . . , r(Xn ) formal als zufällige Permutation aller ganzen Zahlen zwischen 1 und n anzusehen. • E(r(Xi ) = n+1 2 • V ar(r(Xi ) = n2 −1 12 Beispiele (n=5): Xi r(Xi ) Xi r(Xi ) 0, 3 1, 5 −0, 1 0, 8 1, 0 2 5 1 3 4 2, 0 0, 5 0, 9 1, 3 2, 6 4 1 2 3 5 Mögliches Problem: Existenz von Bindungen (engl. Ties), d.h. von identischen Meÿwerten Übliche Lösung: Übergang zu Durchschnittsrängen Beispiele (n=5): Xi 1, 09 2, 17 2, 17 2, 17 3, 02 1 3 3 3 5 Xi 0, 5 0, 5 0, 9 1, 3 1, 3 r(Xi ) 1, 5 1, 5 3 4.5 4.5 r(Xi ) Man beachte: Im Falle der Existenz von Bindungen ist die empi2 rische Varianz von r(Xi ) notwendigerweise kleiner als n 12−1 . Nichtparametrisch@LS-Kneip 222 Lineare Rangstatistiken: Gegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F Daten: Einfache Zufallsstichprobe X1 , . . . , Xn Nichtparametrische Einstichprobentests befassen sich mit Hypothesen bzgl. der Lage einer Verteilung. Die Nullhypothese lässt sich typischerweise so formulieren, dass der Median der Verteilung gleich einem fest vorgegebenen Wert µ0 ist. Zur Vereinfachung betrachten wir im Folgenden nur zweiseitige Tests. Einseitige Testprobleme lassen sich jedoch völlig analog behandeln. Testproblem: H0 : µmed = µ0 H1 : µmed 6= µ0 Beispiel: (aus Büning und Trenkler) Zur Untersuchung der Intelligenz von Studenten der fachrichtung Wirtschaftswissenschaften wurden n = 10 Studenten zufällig ausgewählt und ihre IQ-Werte bestimmt. Es ergaben sich folgende Werte Xi 99 131 118 112 128 136 120 107 134 122 Frage: Ist der Beobachtungsbefund verträglich mit der Hypothese H0 : µmed = 110? Nichtparametrisch@LS-Kneip 223 Lineare Rangstatistiken beruhen auf den Dierenzen Di = Xi − µ0 und der Berechnung der Gröÿen r(|Di |) := Rang von |Di | = |Xi − µ0 | in der Stichprobe der Absolutbeträge|D1 |, . . . , |Dn | der Dierenzen 1 Vi := 0 falls Xi − µ0 > 0 falls Xi − µ0 ≤ 0 Für eine geeignete Gewichtsfunktion g ist eine lineare Rangstatistik dann von der Form L+ n = n X g(r(|Di |)) · Vi i=1 Beispiel (µ0 = 110): Xi 99 131 118 112 128 136 120 107 134 122 Vi 0 1 1 1 1 1 1 0 1 1 |Di | 11 21 8 2 18 26 10 3 24 12 r(|Di |) 5 8 3 1 7 10 4 2 9 6 Es existieren allgemeine theoretische Resultate über die Wahl der Gewichtsfunktion zur Denition von lokal optimalen Rangtests (lokal optimal bezieht sich auf Verteilungen in der Nähe von spezischen parametrischen Verteilungen, wie z.B. der Normalverteilung). Die in der Praxis hauptsächlich benutzten linearen Rangtests sind jedoch der Vorzeichentest (Sign Test) und der Wilcoxon Test. Nichtparametrisch@LS-Kneip 224 Der Vorzeichentest Spezialfall mit der Gewichtsfunktion g(x) = 1 für alle x. Zum Testen von H0 : µmed = µ0 verwendet der Vorzeichentest daher die Teststatistik Vn+ = n X Vi i=1 • Unter H0 gilt P (Vi = 1) = 1 2 und P (Vi = 0) = 1 2 • Hieraus lässt sich folgern, dass unter H0 die Statistik Vn∗ einer Binomialverteilung mit den Parametern n und 12 folgt: 1 Vn+ ∼ B(n, ) 2 ⇒ Ein Test zum Niveau α lehnt die Nullhypothese ab, falls entweder P (Bn, 21 ≤ Vn+ ) ≤ α/2 oder P (Bn, 12 ≥ Vn+ ) ≤ α/2. n groÿ: Approximation der Binomialverteilung durch eine Normalverteilung möglich. Unter H0 gilt approximativ Vn+ − n/2 p ∼ N (0, 1) n/4 Anmerkungen: Theoretisch gilt P (Xi − µ0 = 0) = 0. In der Praxis ist es jedoch möglich, dass Beobachtungen mit Xi −µ0 = 0 existieren. Solche Beobachtungen werden üblicherweise aus der Stichprobe entfernt (und n entsprechend verkleinert). Der Vorzeichentest lässt sich in einfacher Weise modizieren, um z.B. Hypothesen der Form ψ0,75 = ψ0 zu testen. Nichtparametrisch@LS-Kneip 225 Der Wilcoxon Test Der Wilcoxon Test ist ein Spezialfall mit der Gewichtsfunktion g(x) = x für alle x. Er beruht auf der zusätzlichen Voraussetzung, dass die zugrundeliegende Verteilung symmetrisch ist. Zum Testen von H0 : µmed = µ0 verwendet der Wilcoxon Test daher die Teststatistik n X Wn+ = r(|Di |) · Vi i=1 Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den beobachteten Wert entweder Wn+ ≤ wn,α/2 oder Wn+ ≥ wn,1−α/2 gilt. Hierbei sind wn,α/2 und wn,α/2 die entsprechenden Quantile der Verteilung von Wn unter H0 . • Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte lassen sich durch Auszählen berechnen. Für kleine Werte n lassen sich in der Literatur Tabellen nden. • Asymptotische Approximation (n groÿ): Wn+ − n(n+1) 4 q ∼ N (0, 1), + V ar(Wn ) wobei V ar(Wn+ ) = n(n+1)(2n+1) 24 Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz von Bindungen = Null). In der Praxis können jedoch Bedingungen existieren. Dann sind die obigen Verteilungen nur noch approximativ gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl der Bedingungen (relativ zu n). In der Literatur wurden jedoch einige Korrekturformeln entwickelt. Nichtparametrisch@LS-Kneip 226 Anwendung: Vergleiche aus verbundenen Stichproben Verbundene Stichproben: Ein interessierendes Merkmal wird unter zwei unterschiedlichen Bedingungen (X und Y ) an denselben Untersuchungseinheiten erhoben. ¨ ¥ Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn ) X1 , . . . , Xn unabhängig und ident. verteilt wie X Y1 , . . . , Ym unabhängig und ident. verteilt wie Y Xi und Yi sind nicht voneinander unabhängig; z.B. (Xi , Yi ) Messung an der gleichen Untersuchungseinheit § ¦ Beispiel: Werbekampgane Die nachfolgende Tabelle gibt die wöchentlichen Umsätze (in 10000 Euro) von 6 Filialen einer Handelskette vor und nach einer Werbekampagne wieder. Filiale 1 2 3 4 5 6 vor W.k. (X) 18,5 15,6 20,1 17,2 21,1 19,3 nach W.k. (Y) 20,2 16,6 19,8 19,3 21,9 19,0 ⇒ x̄ = 18, 63, ȳ = 19, 47 Frage: War die Werbekampagne erfolgreich? Hat sie in der Tendenz (Lage!) zu signikant höheren Umsätzen geführt? Nichtparametrisch@LS-Kneip 227 Nichtparametrischer Ansatz: Man betrachtet die zugehörige Stichprobe der Dierenzen Z1 = X1 − Y1 , Z2 = X2 − Y2 , . . . , Zn = Xn − Yn Die zugrundeliegende Fragestellung lässt sich dann übersetzen in die Frage: Ist der Median von Z1 , . . . , Zn ungleich Null? ⇒ Testproblem: H0 : µmed;Z = 0 H1 : µmed;Z 6= 0 ⇒ Anwendung des Vorzeichentests oder des Wilcoxon Tests auf die Stichprobe Z1 , . . . , Zn . Die Güte verschiedener Testverfahren • Parametrische Alternative (unter der Annahme approximativ normalverteilter Daten mit µmed = µ = E(X)): t-Test • Unter der Voraussetzung einer Normalverteilung ist der tTest ezienter als der Vorzeichentest (asymptotische relative Ezienz=0.637). Für Verteilungen, die stark von der Normalverteilung abweichen, kann der Vorzeichentest jedoch wesentlich ezienter sein als der t-Test. • Im Falle einer symmetrischen Verteilung ist der Wilcoxon Test immer ezienter als der Vorzeichentest. Im Falle einer Normalverteilung beträgt die asymptotische relative Ezienz des Wilcoxon Tests im Vergleich zum t-Test ungefähr 0, 96 (d.h. der Wilcoxon Test ist fast ebenso ezient wie der t-Test). Für symmetrische, aber nicht normale Verteilungen kann der Wilcoxon Test natürlich wesentlich ezienter sein als der t-Test. Nichtparametrisch@LS-Kneip 228 2.6 Zweistichprobenprobleme: Rangtests Gegeben: Zufallsvariable X und Y mit stetigen Verteilungsfunktionen FX und FY Daten: Unabhängige Zufallsstichproben X1 , . . . , Xm und Y1 , . . . , Yn aus Grundgesamtheiten mit den Verteilungsfunktionen FX und FY . Zu testende Nullhypothese: H0 : FX = FY , d.h. die zugrunde liegenden Verteilungen sind gleich. Beispiel: Kaee und Schreibgeschwindigkeit In einem Experiment wurde der Einuss von Koein auf die Schreibgeschwindigkeit auf einer Computer-Tastatur gemessen. 20 trainierte Probanden wurden zufällig in zwei Gruppen von jeweils 10 Personen aufgeteilt. Während die erste Gruppe keine Getränke erhielt, wurde der zweiten Gruppe 200 mg Koein in Form von mehreren Tassen Kaee verabreicht. Danach wurden bei jedem Probanden die Zahl der Anschläge pro Minute auf der Computer-Tastatur gemessen (Durchschnitt aus einem zehnminütigem Schreibtest). kein Koein (X) 200 mg Ko. (Y) 242.8 245.3 244.0 240.2 241.7 244.7 246.5 240.4 246.4 251.1 250.2 252.3 246.1 248.2 245.6 250.0 247.1 248.3 248.0 250.9 Frage: Gibt es einen Unterschied zwischen der Schreibgeschwindigkeit mit und ohne Koein? Nichtparametrisch@LS-Kneip 229 • Rangtests beruhen auf den Rängen der Beobachtungen Xi bzw. Yi in der kombinierten Stichprobe aller N = m + n Beobachtungen r(Xi ) = Anzahl aller Xj , j = 1, . . . , m, mit Xj ≤ Xi + Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Xi r(Yi ) = Anzahl aller Xj , j = 1, . . . , m, mit Xj ≤ Yi + Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Yi • Unter H0 : FX = FY ist die kombinierte Stichprobe als einfache Zufallsstichprobe des Umfangs N := m + n aus einer Grundgesamtheit mit der Verteilungsfunktion FX = FY aufzufassen. Die Ränge sollten dann eine rein zufällige Permutationen der Zahlen zwischen 1 und N sein. Die Grundidee von Rangtests besteht darin zu überprüfen, ob eine solche Zufälligkeit der Ränge vorliegt, oder ob systematische Unterschiede zwischen den Rangverteilungen von X und Y auf unterschiedliche Verteilungen (→ Alternative) hinweisen. Wir betrachten zunächst allgemeine theoretische Eigenschaften von linearen Rangstatistiken. Hierbei wird zunächst vorausgesetzt, dass keine Bindungen existieren (FX , FY stetig!). Sei falls die i-te Variable in der kombinierten, 1 Vi := 0 geordneten Sichprobe eine X -Variable ist sonst Lineare Rangstatistiken lassen sich nun allgemein in der Form LN = N X a i Vi i=1 schreiben, wobei a1 , a2 , . . . geeignete Gewichte (Scores) bezeichnen. Nichtparametrisch@LS-Kneip 230 Verschiedene Testverfahren unterscheiden sich durch die jeweilige Spezikation der Gewichte ai . • (V1 , V2 , . . . , VN ) ist ein der aus m Einsen und n Nul Vektor, N len besteht. Es gibt verschiedene Kombinationen diem ser m Einsen und n Nullen, die unter der Nullhypothese alle gleich wahrscheinlich sind. • Unter H0 : FX = FY ist die Verteilung von LN verteilungsfrei. Kritische Werte können durch Auszählen bestimmt werden, q(c) P (LN = c |H0 ) = , N m mit q(c) = Anzahl der Vektoren (V1 , . . . , VN ) mit LN = PN i=1 ai Vi = c. • Unter H0 gilt weiterhin: E(Vi ) = m N V ar(Vi ) = mn N2 Cov(Vi , Vj ) = N 2−mn (N −1) E(LN ) = m N V ar(LN ) = PN i=1 ai mn 2 N (N −1) (N PN 2 2 a − ( i=1 ai ) ) i=1 i PN • ZN = L√N −E(LN ) ist asymptotisch N (0, 1)-verteilt. V ar(LN ) Nichtparametrisch@LS-Kneip 231 Rangtests sind typischerweise nicht konsistent gegen alle denkbaren Alternativen. Durch gezielte Wahl der Gewichte ai lassen sich jedoch Tests entwickeln, die besonders ezient bei der Entdeckung von Lage- oder Variabilitätsalternativen sind. Lagealternativen: • Man spricht von Lagealternativen, falls FX 6= FY , die Verteilungen FX und FY jedoch ähnliche Struktur besitzen und sich nur in der Lage des Zentrums der Verteilung unterscheiden. • Vereinfachtes Testproblem für Lagealternativen: H0 : FX = FY H1 : FX (x) = FY (x − θ) für alle x ∈ IR und ein θ ∈ IR, θ 6= 0 • Man beachte jedoch: Die Güte der nachfolgenden Tests (von Wilcoxon und van der Waerden) hängt nicht wesentlich davon ab, dass die Struktur der beiden Verteilungen (unter der Alternative) ähnlich ist. Wichtig ist nur, dass die Zentren (Mediane) der beiden Verteilungen gegeneinander verschoben sind. • Lineare Rangtests für Lagealternativen sind allgemein dadurch charakterisiert, dass die Gewichte so gewählt werden, dass die Folge a1 < a2 < · · · < an streng monoton steigend ist (oder alternativ streng monoton fallend). Nichtparametrisch@LS-Kneip 232 Der Wilcoxon-Rangsummentest Der Wilcoxon Test ist ein Test für Lagealternativen. Er verwendet eine lineare Rangstatistik mit Gewichten ai = i. Zum Testen von H0 : FX = FY verwendet der Wilcoxon Test daher die Teststatistik WN = N X i · Vi = i=1 m X r(Xj ) j=1 Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den beobachteten Wert entweder WN ≤ ωN,α/2 oder WN ≥ ωN,1−α/2 gilt. Hierbei sind ωN,α/2 und ωN,1−α/2 die entsprechenden Quantile der Verteilung von WN unter H0 . • Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte lassen sich durch Auszählen berechnen (siehe oben). • E(WN ) = m(N +1) , 2 V ar(Wn ) = mn(N +1) 12 • Asymptotische Approximation (n groÿ): WN approximativ +1) normalverteilt mit Erwartungswert m(N2+1) und Varianz mn(N . 12 Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz von Bindungen = Null). In der Praxis können jedoch Bedingungen existieren. Dann sind die obigen Verteilungen nur noch approximativ gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl der Bedingungen (relativ zu n). In der Literatur wurden jedoch einige Korrekturformeln entwickelt. Nichtparametrisch@LS-Kneip 233 Der Test von van der Waerden Der Test von van der Waerden ist ebenfalls ein Test für Lagealternativen. Er verwendet eine lineare Rangstatistik mit Gewichi ten ai = Φ−1 ( N +1 ). Hierbei ist Φ die Verteilungsfunktion der Standardnormalverteilung. Zum Testen von H0 : FX = FY verwendet dieser Test daher die Teststatistik V WN = N X i=1 m −1 Φ X i r(Xj ) ( Φ−1 ( ) · Vi = ) N +1 N + 1 j=1 Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den beobachteten Wert |V Wn | ≥ vwN,1−α/2 gilt. Hierbei ist vwN,α/2 das entsprechende Quantil der Verteilung von V Wn unter H0 . • Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte lassen sich durch Auszählen berechnen (siehe oben). • Unter H0 ist die Verteilung von Wn symmetrisch um Null. PN i mn −1 • E(V WN ) = 0, und V ar(V Wn ) = N (N ( N +1 ))2 i=1 (Φ −1) • Für groÿes n ist V WN approximativ normalverteilt. Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz von Bindungen = Null). In der Praxis können jedoch Bedingungen existieren. Dann sind die obigen Verteilungen nur noch approximativ gültig, und die Genauigkeit der Approximation sinkt mit der Anzahl der Bedingungen (relativ zu n). Nichtparametrisch@LS-Kneip 234 Die Güte verschiedener Testverfahren • Parametrische Alternative Zusatzannahme: Normalverteilungen mit gleichen Varianzen, X ∼ N (µ1 , σ 2 ) und Y ∼ N (µ2 , σ 2 ) ⇒ t-Test für zwei Stichproben T = X̄ − Ȳ p S 1/n + 1/m Unter H0 folgt T einer t-Verteilung mit N −2 Freiheitsgraden (Ablehnung von H0 , falls |T | zu groÿ). • Die asymptotische relative Ezienz des Wilcoxon-Rangsummentests im Vergleich zum t-Test ist 0.955 bei Annahme einer Normalverteilung. Für stark links- oder rechtssteile Verteilungen sowie für Verteilungen mit langen Tails ist der Wilcoxon-Rangsummentest ezienter als der t-Test. Die untere Grenze der asymptotischen relativen Ezienz ist 0.864, eine obere Grenze existiert nicht. • Bei Annahme einer Normalverteilung ist die asymptotische relative Ezienz des van der Waerden Test im Vergleich zum t-Test gleich 1 (d.h. der van der Waerden Test ist dann in etwa genauso gut wie der t-Test). Für Verteilungen mit langen Tails ist der Wilcoxon-Rangsummentest ezienter als der Test von van der Waerden. Nichtparametrisch@LS-Kneip 235 Streuungsalternativen: Sowohl der Wilcoxon-Rangsummentest, der Test von van der Waerden als auch der t-Test sind i.Allg. nicht konsistent für Streuungsalternativen. • Man spricht von Streuungsalternativen, falls die Lagen der Zentren der Verteilungen FX und FY identisch sind, und sich die beiden Verteilungen nur durch unterschiedliche Streuung unterscheiden. • Vereinfachtes Testproblem für Streuungsalternativen H0 : FX = FY Es wird vorausgesetzt, dass die Mediane der beiden Verteilungen gleich sind, µmed := µmed,X = µmed,Y . Bezeichnen FX−µmed und FY −µmed dann jeweils die Verteilungen von X − µmed und Y − µmed , so lassen sich Streuungsalternativen folgendermaÿen formulieren: H1 : FX−µmed (x) = FY −µmed (θx) für alle x ∈ IR und ein θ ∈ IR, θ 6= 0 • Wahl der Gewichte ai bei Tests für Streuungsalternativen: Extrem kleinen und extrem groÿen Beobachtungen werden kleine Gewichte ai zugewiesen, während die mittleren Messwerte hohe Gewichte erhalten. Nichtparametrisch@LS-Kneip 236 Der Siegel-Tukey-Test Der Test von Siegel und Tukey für Variabilitätsalternativen kann als Analogon zum Wilcoxon-Rangsummentest bei Lagealternativen aufgefasst werden. Zum Testen von H0 : FX = FY verwendet dieser Test daher die Teststatistik N X SN = ai · Vi , i=1 wobei die Gewichte nach folgender Regel bestimmt werden: a1 = 1, aN = 2, aN −1 = 3, a2 = 4, a3 = 5, aN −2 = 6, aN −3 = 7, a4 = 8, a5 = 9, aN −4 = 10, . . . Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für den beobachteten Wert entweder SN ≤ ωN,α/2 oder SN ≥ ωN,1−α/2 gilt. • Unter H0 ist die Verteilung von SN gleich der Verteilung der Teststatistik WN des Wilcoxon-Rangsummentests. Kritische Werte lassen sich daher direkt übertragen. • E(SN ) = m(N +1) , 2 V ar(Sn ) = mn(N +1) 12 • Asymptotische Approximation (n groÿ): SN approximativ +1) . normalverteilt mit Erwartungswert m(N2+1) und Varianz mn(N 12 Achtung: Die oben angegebenen Verteilungen beruhen auf der Annahme einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenz von Bindungen = Null). Es ist jedoch möglich, den Test bei Vorhandensein von Bindungen entsprechend zu modizieren. Nichtparametrisch@LS-Kneip 237 2.7 Zweistichprobenprobleme: Der KolmogoroSmirno Test Gegeben: Zufallsvariable X und Y mit stetigen Verteilungsfunktionen FX und FY Daten: Unabhängige Zufallsstichproben X1 , . . . , Xm und Y1 , . . . , Yn aus Grundgesamtheiten mit den Verteilungsfunktionen FX und FY . Allgemeines Testproblem: H0 : F X = F Y H1 : FX 6= FY • Die jeweiligen empirischen Verteilungsfunktionen FX,m und FY,n sind erwartungstreue und konsistente Schätzer von FX und FY . • Falls die Nullhypothese F = F0 also richtig ist, sollten die Abweichungen |FX,m (x) − FY,n (x)| rein zufällig und hinreichend klein sein. Diese Einsichten führen auf den Zweistichprobentest von Kolmogoro und Smirno. Teststatistik: Dm,n = sup |FX,m (x) − FY,n (x)| x∈IR Ablehnung von H0 , falls Dm,n > dm,n,1−α Hierbei bezeichnet dm,n,1−α das 1−α-Quantil der Verteilung von Dm,n unter der Nullhypothese. Nichtparametrisch@LS-Kneip 238 Frage: Verteilung von Dm,n unter H0 ? a) Unter der Nullhypothese FX = FY ist die Teststatistik Dn für alle stetigen Verteilungsfunktionen FX , FY verteilungsfrei. Kritische Werte lassen sich durch Auszählen gewinnen (der Wert von Dm,n hängt nur von der Rängen der X - und Y -Werte in der kombinierten, geordneten Stichprobe ab). b) Asymptotische Verteilung (groÿe Stichproben): Für alle λ > 0 gilt lim P (Dm,n ≤ λ/ n→∞ p mn/(m + n)) = 1−2 ∞ X (−1)k−1 e−2k 2 λ2 k=1 c) Der Kolmogoro-Smirno Test ist konsistent für alle Alternativen. Für Lagealternativen ist er allerdings weniger ezient als z.B. der Wilcoxon-Rangsummentest. Nichtparametrisch@LS-Kneip 239