Statistik Notizen zur Vorlesung im WS 2009/10 Gaby Schneider [email protected] http://ismi.math.uni-frankfurt.de/schneider Inhaltsverzeichnis 1 Beschreibende Statistik 1.1 Erwartungswert und zentraler Grenzwertsatz . . . . . . . . . . 1.2 Quantile und Verteilungsfunktion . . . . . . . . . . . . . . . . . 1.2.1 Ein allgemeingültiges Konfidenzintervall für den Median 1.2.2 Asymptotische Normalität des Medians . . . . . . . . . 1.2.3 Einschub: Lage- und Skalenparameter . . . . . . . . . . 1.3 Ein Konfidenzband für die Verteilungsfunktion . . . . . . . . . 1.4 Graphische Darstellungen für Verteilungen . . . . . . . . . . . . 1.4.1 Das Histogramm . . . . . . . . . . . . . . . . . . . . . . 1.4.2 Der Box-and-Whisker-plot (oder kurz: Boxplot) . . . . . 1.4.3 Quantilplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 4 6 7 8 9 10 10 10 13 2 Erste statistische Tests 2.1 Ein Permutationstest . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test 2.3 Der z-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 p-Wert, Signifikanz, Testmacht und Alternativhypothese . . . . . . . . . . . . . . . . . . . . . 14 14 14 17 18 . . . . . . . . . . 19 19 19 19 21 21 21 23 24 25 27 . . . . . 28 28 29 30 30 31 3 Der t-Test 3.1 Zur Geometrie von Strichprobenmittelwert und -varianz . . . . 3.1.1 Schätzer für σ . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Geometrie des Mittelwertes . . . . . . . . . . . . . . . . 3.1.3 Geometrie der geschätzten Standardabweichung . . . . . 3.2 Die t-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Die t-Verteilung und ihre Verwandten . . . . . . . . . . 3.3 Die Standardnormalverteilung auf Rn und der Satz von Fisher 3.4 Anwendung: Eine Stichprobe . . . . . . . . . . . . . . . . . . . 3.5 Der zwei-Stichproben t-Test (für gleiche Varianzen) . . . . . . . 3.6 Zur Geometrie in der zwei-Stichproben-Situation . . . . . . . . 4 Tests für gepaarte Stichproben 4.1 t-Test für gepaarte Stichproben . . . . . . . . . . . . . . . . . 4.1.1 Voraussetzungen und Spezialfall . . . . . . . . . . . . 4.2 Wilcoxon-Test für gepaarte Stichproben/ Vorzeichenrangtest 4.3 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Permutationstest von Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Vergleich von mehr als 2 Stichproben und das normale lineare 5.1 Vom t-Test zur einfaktoriellen Varianzanalyse . . . . . . . . . . . 5.1.1 Geometrie beim t-Test . . . . . . . . . . . . . . . . . . . . 5.1.2 Verallgemeinerung auf k(> 2) Gruppen . . . . . . . . . . 5.2 Das normale lineare Modell . . . . . . . . . . . . . . . . . . . . . 5.2.1 Testen linearer Hypothesen . . . . . . . . . . . . . . . . . 5.3 Paarweise Vergleiche, multiples Testen . . . . . . . . . . . . . . . 5.3.1 Bonferroni-Korrektur . . . . . . . . . . . . . . . . . . . . 5.3.2 Simultane Konfidenzintervalle nach Tukey . . . . . . . . . 5.4 Lineare Kontraste . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Kruskal-Wallis-(H)-Test . . . . . . . . . . . . . . . . . . . . . . . Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 31 32 35 36 36 37 38 39 40 6 Lineare Regression 6.1 Modell und Parameterschätzer . . . . . . . . . . . . . . . . . . . . . . . 6.2 Die Geometrische Bedeutung von r und der Multiple Korrelationskoeffizient 6.2.1 Ein Konfidenzintervall für die Korrelation . . . . . . . . . . . . . 6.3 Ein Konfidenzbereich für β̂ . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Multivariate Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Orthogonale Regressoren . . . . . . . . . . . . . . . . . . . . . . 42 42 44 45 47 48 48 7 Schätzverfahren 7.1 Der Mittlere quadratische Fehler . . . . . . . . . . . . . . 7.2 Das Maximum-Likelihood Prinzip . . . . . . . . . . . . . . 7.2.1 Eigenschaften von Maximum-Likelihood-Schätzern 7.3 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . 7.4 Kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . 7.5 Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . . 7.6 Suffizienz und die Minimierung d. mittleren quadratischen . . . . . . . 49 50 52 52 55 56 56 57 8 Likelihood-Quotienten-Tests 8.1 Einfache Hypothese und einfache Alternative . . . . . . . . . . . . . . . 8.2 Generalisierte Likelihood-Quotiententests . . . . . . . . . . . . . . . . . 61 62 63 9 Der χ2 -Test 9.1 Normalverteilungen auf Rk . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Der χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 67 68 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlers . . . . . . . . . . . . . . 1 Beschreibende Statistik Ein wesentlicher Teil der Statistik beschäftigt sich mit Datenanalyse mit Hilfe stochastischer Modelle. Daten liegen oft vor in Form eines Zahlenvektors X = (x1 , . . . , xn ). Um die Variabilität dieser Beobachtungen zu modellieren, betrachtet man sie im stochastischen Modell als Realisierungen von ZVen X1 , . . . , Xn . Wir schreiben daher wahlweise X = (x1 , . . . , xn ) für die Beobachtungen bzw. X = (X1 , . . . , Xn ) für einen Vektor von Zufallsvariablen. 1.1 Erwartungswert und zentraler Grenzwertsatz Definition Der Erwartungswert einer diskreten Zufallsvariablen X mit Werten in S ist definiert als X xWs(X = x). µ = EX = x∈S Der Erwartungswert einer Zufallsvariablen mit Wahrscheinlichkeitsdichte f (x) ist analog Z µ = EX = xf (x)dx. R Schätzung des Erwartungswertes durch den Mittelwert Seien X1 , . . . , Xn unabhängige, identisch verteilte ZVe. Ein beliebter Schätzer für den Erwartungswert ist der Stichprobenmittelwert: n 1X µ̂ := X̄ := Xi . n i=1 Beobachtung 1: Erwartungstreue Für X1 , . . . , Xn u.i.v. mit E|X| < ∞ ist der Mittelwert ein erwartungstreuer Schätzer für den Erwartungswert: n E [µ̂] = 1X EXi = EX1 = µ. n i=1 Beobachtung 2: Der mittlere quadratische Fehler Wie genau können wir µ schätzen? Ein häufig verwendetes Kriterium für die Güte eines Schätzers ist der mittlere quadratische Fehler: die erwartete quadratische Abweichung des Schätzers von dem zu schätzenden Wert. Schätzt man µ durch X̄, so ist der mittlere quadratische Fehler gerade E((X̄ − µ)2 ) EX̄=µ = Var(X̄) = (1/n)Var(X). p Eine wichtige Unterscheidung: Die Standardabweichung der ZVe X ist Var(X), die Standardabweichung des Mittelwerts von n unabhängigen ZVen Xi ist ! r 1X Var(X) sd(X) Der Standardfehler : sd Xi = = √ . n n n i 1 Beobachtung 3: Das Starke Gesetz der Großen Zahlen Sei X1 , X2 , . . . eine P Folge unabhängiger, identisch verteilter ZVen mit Erwartungswert µ. X̄n := (1/n) ni=1 Xi . Dann konvergiert X̄n fast sicher gegen den Erwartungswert, d.h. Ws(X̄n → µ) = 1. Das Starke Gesetz der Großen Zahlen impliziert stochastische Konvergenz des Stichprobenmittelwertes gegen den Erwartungswert: Für große n liegt X̄ mit hoher Wahrscheinlichkeit nah beim Erwartungswert. Ein Schätzer, der stochastisch gegen den zu schätzenden Wert konvergiert, heißt konsistent. Der Stichprobenmittelwert ist also ein konsistenter Schätzer für µ. Die Verteilung von X̄ Zwei Beispiele: 1. X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt, also gemäß der Dichte f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 , x ∈ R. Dann ist der Stichprobenmittelwert normalverteilt mit Erwartungswert µ und Varianz σ 2 /n. 2. X1 , . . . , Xn unabhängig und Exp(λ)-verteilt, also gemäß f (x) = λe−λx , x > 0. Der Stichprobenmittelwert hat Erwartungswert 1/λ und Varianz 1/(nλ2 ). Aber er ist (zumindest für kleine n) nicht normalverteilt. (In der Tat folgt die Summe von n unabhängigen Exp(λ)-verteilten ZVen einer Gammaverteilung mit den Parametern λ und n.) Der Zentrale Grenzwertsatz Sei X1 , X2 , . . . eine Folge unabhängiger, P identisch verteilter ZVen mit Erwartungswert µ und Varianz 0 < σ 2 < ∞. Sn := ni=1 Xi . Dann ist Sn approximativ normalverteilt, bzw. Sn − nµ √ −→ N (0, 1) f ür n → ∞ in Verteilung. σ n Ein asymptotisches Konfidenzintervall für µ Der Zentrale Grenzwertsatz sagt, dass für jede beliebige zugrundeliegende Verteilung der Werte X1 , . . . , Xn die Verteilung des Stichprobenmittelwertes (für große n) einer Normalverteilung folgt. Damit können wir leicht ein erstes Konfidenzintervall konstruieren: 2 Seien Pwiederum X1 , . . . , Xn u.i.v. mit EX = µ und Var(X) = σ ∈ (0, ∞). Sei µ̂ = 1/n Xi . µ̂ ist eine Zufallsvariable und schwankt um µ. In der Regel ist aber natürlich µ̂ 6= µ (und unsere Schätzung damit zwar gut, aber falsch). Wie falsch ist also unser Schätzer? Gesucht ist ein Intervall I(X), das mit hoher Wahrscheinlichkeit den wahren Erwartungswert überdeckt, z.B. Ws(I(X) 3 EX) ≥ 0.95. (1) 2 Ein solches Intervall nennt man ein 95%-Konfidenzintervall für den Erwartungswert. Man beachte die Schreibweise: Nicht etwa der Erwartungswert ist hier zufällig, sondern das Intervall! Nach dem ZGWS gilt (für genügend großes n), dass µ̂ approximativ normalverteilt ist. Das heißt, es gibt eine Zahl a so, dass √ √ Ws(µ − aσ/ n ≤ µ̂ ≤ µ + aσ/ n) = 0.95. Bei der Normalverteilung mit Mittelwert µ und Varianz σ 2 liegen etwa 95% der Masse im Intervall [µ − 2σ, µ + 2σ] (Figur 1, der genaue Wert ist a = 1.96.) Also: √ √ Ws(µ − 1.96σ/ n ≤ µ̂ ≤ µ + 1.96σ/ n) = 0.95. Um dieses Intervall in ein Intervall für µ zu transformieren, beobachten wir: √ √ Ws(µ − 1.96σ/ n ≤ µ̂ ≤ µ + 1.96σ/ n) √ √ =Ws(−1.96σ/ n ≤ µ̂ − µ ≤ 1.96σ/ n) √ √ =Ws(µ̂ + 1.96σ/ n ≥ µ ≥ µ̂ − 1.96σ/ n) √ √ Also erfüllt I(X) = [µ̂ − 1.96σ/ n, µ̂ + 1.96σ/ n] Bedingung (1). Normalverteilung Dichte µ − 3σ σ µ − 2σ σ µ−σ 99.7% 95% µ+σ µ + 2σ σ µ + 3σ σ 68% µ Abbildung 1: Normalverteilung: Fläche in Intervallen [µ − kσ, µ + kσ], k = 1, 2, 3. Was kann schief gehen? • Die Voraussetzungen könnten nicht zutreffen, z.B. existiert EX nicht für alle Verteilungen. Wir betrachten die Standard-Cauchy-Verteilung, mit Dichte f (x) = 1 1 , π 1 + x2 x ∈ R. Hier ist zwar f (x) integrierbar, aber nicht xf (x), so dass der Erwartungswert nicht existiert. Das starke Gesetz P der Großen Zahlen gilt hier nicht — die normierten Partialsummen X̄n = 1/n ni=1 Xi konvergieren nicht (Figur 2). 3 −4 −2 0 2 2 0 Sn n 4 −4 −2 0.4 0.2 0.0 Dichte Normalvert. Cauchyvert. 0 2000 4000 x 6000 8000 10000 n Abbildung 2: Fehlende Konvergenz des Mittelwertes bei der Cauchy-Verteilung. • Die Aussage des ZGWS ist asymptotisch, aber die Güte der Asymptotik hängt von der zugrundeliegenden Verteilung ab. Für manche Verteilungen muss für approximative Normalität n erst sehr groß werden. Zum Beispiel, wenn eine Verteilung winziges Gewicht auf sehr großen Werten hat: X habe Verteilung ν0 mit Erwartungswert µ. ( X mit W’keit 1 − ε X ε := 2 1/ε mit W’keit ε 1 −→ ∞ für ε → 0. ε2 Für festes n gilt für jedes von X = (X1 , . . . , Xn ) abhängige Intervall I(X): µε := EX ε = (1 − ε)µ + ε ε→0 Ws(I(X1 , . . . , Xn ) = I(X1ε , . . . , Xnε )) −→ 1. Konfidenzintervalle sollten möglichst klein sein, insbesondere beschränkt. Daher folgt mit ε→0 Ws(I(X1 , . . . , Xn ) 3 µε ) −→ 0 ε→0 Ws(I(X1ε , . . . , Xnε ) 3 µε ) −→ 0. Die Approximation aus dem ZGWS kann also beliebig schlecht werden. Für so pathologische Fälle, z.B. bei ausreißerbehafteten Daten, oder wenn man wenige Informationen über die zugrundeliegende Verteilung hat, verwendet man gerne nichtparametrische Ansätze, z.B. Quantile. 1.2 Quantile und Verteilungsfunktion Definition Die V erteilungsf unktion einer ZVen X ist definiert als F (x) = Ws(X ≤ x) = ν((−∞, x]), wobei ν die Verteilung von X bezeichnet. P Diskret: F (x) = y≤x Ws(X = y). Rx Hat X Dichte f (x): F (x) = f (y)dy. −∞ 4 Schätzung der Verteilungsfunktion Zu einem Datenvektor X = (x1 , . . . , xn ) ist die empirische V erteilungsf unktion definiert als Fn (X) = 1 |{xi |xi ≤ x}|. n X=(1,2,4,7,9) 100 normalverteilte ZVen 0.4 ● ● ● −2 0 0.8 ● 0.0 0.0 ● ● ● 0.4 ● ● #xi ≤ x #xi ≤ x 0.8 ● 2 4 6 8 10 12 0 2 4 x 6 8 10 x Abbildung 3: Beispiele für empirische Verteilungsfunktionen Für 0 < p < 1 heißt eine reelle Zahl qp p − Quantil der Verteilung ν, wenn Definition W s(X ≤ qp ) ≥ p und W s(X ≥ qp ) ≥ 1 − p. Bsp N (0, 1) (Fig. 4 A) Hat F Dichtefunktion f = F 0 , die im Bereich {x ∈ R|0 < F (x) < 1} strikt positiv ist (d.h. F ist streng monoton steigend), so ist ∀p ∈ (0, 1) das p-Quantil eindeutig bestimmt. Bsp Bi(2,1/2) (Fig. 4 B) q1/2 = 1, q1/6 = 0, q1/4 =? Alle Werte im Intervall [0, 1] sind 25%-Quantile der Verteilung Bi(2,1/2). Also: Die Menge aller p-Quantile einer Verteilung ν ist ein Intervall [qp,1 , qp,2 ], wobei qp,1 := sup{x ∈ R|F (x) < p} und qp,2 := inf{x ∈ R|F (x) > p}. N(0,1) Bi(2,1/2) 0.8 ● ● 0.0 −3 −2 −1 0 1 2 3 ● ● −1 x ● 0.4 P(X ≤ x) 0.8 0.4 0.0 P(X ≤ x) ● 0 1 2 3 x Abbildung 4: Verteilungsfunktionen von N (0, 1) und Bi(2,1/2) 5 Spezielle Quantile q0.5 ein Median q0.25 ein 1. Quartil q0.75 ein 3. Quartil q0.5,1 + q0.5,2 ) 2 q0.25,1 + q0.25,2 (’das 1. Quartil’: ) 2 q0.75,1 + q0.75,2 ) (’das 3. Quartil’: 2 (’der Median’: Schätzer für den Median Sei (X(1) , X(2) , . . . , X(n) ) mit X(1) ≤ X(2) ≤ . . . ≤ X(n) die Ordnungsstatistik, d.h. die der Größe nach geordnete Stichprobe. Dann wird der Median geschätzt durch den Stichprobenmedian ( X(k+1) für n = 2k + 1 m̂ = 1/2(X(k) + X(k+1) ) für n = 2k. 1.2.1 Ein allgemeingültiges Konfidenzintervall für den Median Im Gegensatz zum Mittelwert kann man für den Median unabhängig von der zugrundeliegenden Verteilung sogar für festes n ein Intervall I(X) angeben so, dass Ws(I(X) 3 m) möglichst groß (z.B. 0.95). Wir verwenden dazu wieder die Ordnungsstatistik (X(1) , . . . , X(n) ) und beginnen mit einem Beispiel: Beispiel: Eine Stichprobe der Größe n = 11. Betrachte zunächst das Intervall I1 := [X(1) , X(n) ]. Es gilt: Ws(m ∈ / I1 ) = Ws(X(1) > m) + Ws(X(n) < m) 11 1 =2· ≈ 0.001. 2 Können wir dieses Intervall verkleinern so, dass Ws(m ∈ / I) gerade noch kleiner ist als 0.05? Was ist mit I2 = [X(2) , X(n−1) ]? Ws(m ∈ / I2 ) = Ws(X(2) > m) + Ws(X(n−1) < m) = Ws(höchstens ein Xi ist kleiner m) + Ws(höchstens ein Xi ist größer m) " 11 # 11 1 11 11 1 =2 + ≈ 0.012 1 2 0 2 in R: = 2 ∗ pbinom(1, 11, 0.5) Um ein möglichst kleines Konfidenzintervall zu finden so, dass Ws(m ∈ I) ≥ 0.95, suchen wir eine Zahl ` so, dass 2pbinom(`, 11, 0.5) gerade noch kleiner ist als 0.05. Das geht z.B. in R: mit der implementierten Quantilfunktion: ` = qbinom(0.05/2, 11, 0.5). Die 6 Wahrscheinlichkeit 0.05 nennt man das Niveau des Konfidenzintervalls. Allgemein also für n und Niveau α ` = qbinom(α/2, n, 0.5). Ähnliche Überlegungen erlauben die Konstruktion von Konfidenzintervallen für jedes beliebige Quantil und jede zugrundeliegende Verteilung für festes n. (Übung) 1.2.2 Asymptotische Normalität des Medians Für symmetrische Verteilungen fallen Erwartungswert und Median zusammen. Was sollte man also nehmen, um die Lage zu schätzen? Nach dem ZGWS ist der Stichprobenmittelwert asymptotisch normalverteilt mit Varianz σ 2 /n. Für den Median gibt es eine ähnliche Aussage: Satz Seien X1 , . . . , Xn u.i.v. mit einer differenzierbaren Verteilungsfunktion F . Sei m der Median der Verteilung, und es gelte F 0 (m) > 0 (in diesem Fall ist der Median eindeutig). Sei Mn der Stichprobenmedian. Dann gilt √ n(Mn − m) −→ N (0, (2F 0 (m))−2 ) in Verteilung. Das heißt, der Stichprobenmedian ist approximativ normalverteilt, und die approximative Varianz ist umso kleiner, je größer der Wert der Dichte am Median ist. Beweis: Es ist zu zeigen, dass √ Ws( n(Mn − m) ≤ a) −→ Ws(Z ≥ −2aF 0 (m)) für n → ∞, für eine Standardnormalverteilte Zufallsvariable Z. Wir definieren dazu Indikatorvariablen ( √ 1 falls Xi ≤ m + a/ n Yi := 0 sonst Damit gilt √ Ws(Yi = 1) = F (m + a/ n) =: pn . P √ Wir können Ws(Mn ≤ m + a n) nun zurückführen auf die binomialverteilte ZVe Yi , die approximativ normalverteilt ist: X √ n ungerade n+1 Ws(Mn ≤ m + a/ n) = Ws Yi ≥ 2 ! P Yi − npn (n + 1)/2 − npn = Ws p ≥ p npn (1 − pn ) npn (1 − pn ) 7 P Nach dem ZGWS konvergiert Wn := √ Yi −npn npn (1−pn ) in Verteilung gegen eine standardnor- malverteilte ZVe Z. Bei Grenzwertbetrachtung des rechten Terms, cn , erhalten wir (n + 1)/2 − npn −n(pn − 1/2) 1/2 cn := p =p +p npn (1 − pn ) npn (1 − pn ) npn (1 − pn ) 1 −(pn − 1/2) 1/2 √ =p +p 1/ n pn (1 − pn ) npn (1 − pn ) √ −(F (m + a/ n) − F (m)) 1/2 1 √ +p =p 1/ n pn (1 − pn ) npn (1 − pn ) √ −a F (m + a/ n) − F (m) 1/2 √ =p +p a/ n pn (1 − pn ) npn (1 − pn ) {z } | | {z }| {z } →F 0 (m) →−2a n→∞ →0 0 −→ −2aF (m) Damit sehen wir mit c = −2aF 0 (m) |Ws(Wn ≤ cn )−Ws(Z ≤ c)| ≤ |Ws(Wn ≤ cn )−Ws(Z ≤ cn )|+|Ws(Z ≤ cn )−Ws(Z ≤ c)| Der zweite Summand konvergiert gegen 0, weil cn → c gilt und die Verteilungsfunktion FZ von Z stetig ist. Um zu sehen, dass der erste Summand gegen 0 konvergiert, erinnern wir uns, dass aus Konvergenz in Verteilung für stetige Verteilungsfunktion FZ auch gleichmäßige Konvergenz folgt. Weil also FWn gleichmäßig gegen FZ konvergiert, gilt |Ws(Wn ≤ cn ) − Ws(Z ≤ cn )| ≤ supx∈R |Ws(Wn ≤ x) − Ws(Z ≤ x)| → 0. Also gilt Ws(Wn ≤ cn ) → Ws(Z ≤ c). Damit erhalten wir wie gewünscht √ Ws( n(Mn − m) ≤ a) −→ Ws(Z ≥ −2aF 0 (m)) Wegen Ws(Z ≥ −2aF 0 (m)) = Ws(Z/2F 0 (m) ≤ a) konvergiert daher Mn gegen eine normalverteilte ZVe mit Varianz 1/(2F 0 (m))2 . 1.2.3 Einschub: Lage- und Skalenparameter Lageparameter Mittelwert, Median und die Quantile im allgemeinen heißen Lageparameter, weil sie bei einer Verschiebung der Verteilung um θ ebenfalls um θ verschoben werden: Seien µ der Mittelwert und qp das p-Quantil der Verteilung ν mit Dichte f0 (x) und Verteilungsfunktion F0 (x), so ist µ + θ der Mittelwert und qp + θ das p-Quantil der Verteilung νθ mit Dichte fθ (x) = f0 (x − θ) und Verteilungsfunktion Fθ (x) := F0 (x − θ). Parameter mit dieser Eigenschaft heißen Lageparameter einer Verteilung. Skalenparameter beschreiben die Breite einer Verteilung. Ein Parameter θ heißt Skalenparameter einer Verteilung ν, wenn gilt: Hat X die Verteilung ν(0,1) mit Dichte f(0,1) (x) und Verteilungsfunktion F(0,1) (x), so 8 hat Y := θX die Verteilung ν(0,θ) mit Verteilungsfunktion F(0,θ) (x) := F(0,1) (x/θ) und Dichte f(0,θ) (x) = 1/θf(0,1) (x/θ). p Beispiel: Die Standardabweichung σ = E(X − µ)2 ist ein Skalenparameter, denn hat X Standardabweichung σ, so hat Y := cX Standardabweichung cσ. 1.3 Ein Konfidenzband für die Verteilungsfunktion Definition Die Quantiltransformation. Für 0 < p < 1 sei F −1 (p) := min{x ∈ R|F (x) ≥ p} = sup{x ∈ R|F (x) < p} = qp,1 die Quantilf unktion (verallgemeinerte Umkehrfunktion von F , das minimale p-Quantil). Bsp. 1 Bei Verteilungen mit endlichem Träger reduziert sich F −1 (p) jeweils auf die untere Intervallgrenze aller p-Quantile. Bsp. 2 Bei Verteilungen mit positiver Dichte f = F 0 , z.B. Exponentialverteilung: ( 1 − e−λx x ≥ 0 Fλ (x) = 0 sonst F ist für x ≥ 0, also für 0 < p < 1 umkehrbar, also gilt 1 F −1 (p) = − log(1 − p) λ für p ∈ (0, 1). Lemma a) U sei uniform verteilt auf [0, 1], d.h. Ws(U ∈ [a, b]) = b − a für 0 ≤ a ≤ b ≤ 1. Dann definiert X := F −1 (U ) eine ZVe mit Verteilungsfunktion F . Bew.: Nach der Definition von F −1 (u) := min{x ∈ R|F (x) ≥ u} gilt wg Ws(U ∈ (0, 1)) = 1 F −1 (U ) ≤ r ⇐⇒ F (r) ≥ U, also Ws(X ≤ r) = Ws(U ≤ F (r)) = F (r). b) U1 , . . . , Un seien unabhängig und uniform auf [0, 1]. Es seien 1 |{i|Ui ≤ v}| die empir. Verteilungsfunktion der Ui , n 1 Fn (r) := |{i|Xi ≤ r}| die empir. Verteilungsfunktion der Xi . n Ĝn (v) := Dann ist ∀r Ĝn (F (r)) = n1 |{i|Ui ≤ F (r)}| = (Ĝn (F (r))) genauso verteilt wie (Fn (r)). Korollar 1 −1 (U ) i n |{i|F ≤ r}| = Fn (r), also ist X sei ZVe mit stetiger Verteilungsfunktion F , dann folgt F (X) ∼ Unif[0, 1]. 9 Korollar (Kolmogorov-Smirnov) Sei Ĝn (v) := n1 |{i|Ui ≤ v}| wie gehabt und c ≥ 0. Dann gilt: Ws(sup |Fn (r) − F (r)| ≤ c) = Ws( sup |Ĝn (u) − u| ≤ c) ≥ Ws( sup |Ĝn (u) − u| ≤ c) r∈R u∈F (r) u∈[0,1] Sei also cn (α) := min{c ≥ 0|Ws( sup |Ĝn (u) − u| ≤ c) ≥ 1 − α}. u∈[0,1] Dann ist mit Ws(F (r) ∈ [Fn (r) ± cn (α)]∀r) ≥ 1 − α ein (1 − α)-Konfidenzband für den Graphen von F gegeben. Werte für cn (α) kann man Tabellen entnehmen. Es ist bekannt, dass r − log(α/2) cn (α) ≤ . 2n 1.4 Graphische Darstellungen für Verteilungen Wir wollen kurz ein paar verbreitete Darstellungsformen für Daten und ihre Implementierung in R kennen lernen (vgl. Fig. 5). 1.4.1 Das Histogramm Ein Histogramm liefert eine umfangreiche Darstellung einer Häufigkeitsverteilung: Wie viele Beobachtungen fallen in welches Intervall? Ein Histogramm, auf Fläche 1 normiert, stellt eine rudimentäre Schätzung für die Dichte dar. Die Höhe eines Balkens gibt den Anteil der Verteilung pro Einheit der x-Achse wieder (und ist deswegen von der Wahl der Einheit abhängig). 1.4.2 Der Box-and-Whisker-plot (oder kurz: Boxplot) Einen Zahlenvektor x1 , . . . , xn kann man kurz in fünf Zahlen beschreiben: Minimum, 25%-Quantil (Q1, das erste Quartil), 50%-Quantil (Median), 75%-Quantil (Q3, das dritte Quartil), und Maximum. Ein Boxplot liefert eine graphische Darstellung einer ähnliche Kurzübersicht: 25%-und 75%-Quantil bilden die Ränder einer Box um den Median. Hier liegen also die mittleren 50% der Beobachtungen. Der Interquartilabstand Q3-Q1 ist neben der Standardabweichung eine gängige Art, die Breite einer Verteilung zu beschreiben. Die Whisker (‘Barthaare’) können bis zu den Extremwerten reichen. Aber in der Regel beträgt ihre Länge das 1.5-Fache des Interquartilabstands Q3-Q1, wobei sie nur bis zur extremsten Beobachtung innerhalb dieses Bereiches reichen. Werte außerhalb werden durch Punkte dargestellt. 10 Tabelle 1: Histogramme in R Gegeben sei ein Datenvektor Histogrammbefehl: nützliche Optionen Intervalle: x<-c(4,2,5.5,0.7,...) hist(x) hist(x,breaks=12) produziert 12 Balken hist(x,breaks=seq(min(x),max(x),by=0.1)) Balken der Breite 0.1 Normiert die Fläche auf 1: speichere Ausgabe weitere Informationen mit hist(x,freq=FALSE) h<-hist(x,plot=FALSE) ?hist Auch für andere DarstellunTitel Achsenbeschriftung dargestellter Bereich Farbe: gen gültige Optionen: hist(x,main=‘‘Histogramm des Datenvektors x’’) hist(x,xlab=‘‘Größe’’, ylab=’’Anzahl’’) hist(x,xlim=c(0,3), ylim=...) hist(x,col=’’yellow’’) (Alle Farbnamen: colors()) Tabelle 2: Boxplots und stripcharts in R Für einen Datenvektor einfach x<-c(4,2,5.5,0.7,...) boxplot(x) für zwei Boxplots nebeneinander: Ein Datenvektor Ein Vektor, der die Gruppen definiert und dann einfach x<-c(4,2,5.5,0.7,...) Gruppe<-c(0,0,0,...,1,1,1,...) boxplot(x∼ Gruppe) ganz analog für stripchart: nützliche Optionen für stripchart: ‘rüttle’ die Datenpunkte ein wenig: Beschriftung der Gruppen stripchart(x∼ Gruppe) stripchart(x∼ Gruppe,method=’jitter’) ...,group.names=c(’Gr. 1’,’Gr. 2’)) 11 Tabelle 3: Graphikparameter in R par(...) cex.axis cex.lab cex.main mfcol=c(2,3) ?par setzt Graphikparameter Größe von Achsentiteln Größe von Achsenbeschriftungen Größe der Überschrift Grafikfenster mit 2 Zeilen, 3 Spalten weitere nützliche Parameter Gruppe 2 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 60 0 −2 Gruppe 1 20 0 40 Anzahl ●● ● ● ● 4 6 80 1000 std.normalverteilte ZVen ● ●● ● ●● ● ● ● ●●●● ● ● ● ● ●● ● ●●●● ●●● ● ● ●● ● ●● ● ●● ●● ● ●● ●● ● ● ● ●●●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ●● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ● −3 −2 −1 0 1 2 3 Gruppe 1 Gruppe 2 −2 0 2 4 6 x Abbildung 5: Beispiele für Histogramm, Boxplot und Stripchart # Graphikparameter par(mfrow=c(1,3),cex.lab=1.7,cex.axis=1.4,cex.main=1.8,font.main=1,mar=c(4,4.8,3,1)) # Graphik 1 hist(rnorm(1000),col=’yellow’,breaks=30,xlab=’x’,ylab=’Anzahl’,main=’1000 std.normalverteilte ZVen’) # Datenerzeugung für Graphiken 2 und 3 x<-rep(c(’Gruppe 1’,’Gruppe 2’),each=100) y<-c(rnorm(100),rnorm(100,mean=2,sd=2)) # Graphik 2 boxplot(y∼x,col=’red’) # Graphik 3 stripchart(y x,col=’blue’,pch=19,method=’jitter’) 12 1.4.3 Quantilplots Wie ist die Form einer empirischen Verteilung? Vielleicht ungefähr wie eine Normalverteilung (mit entsprechendem Mittelwert und Varianz)? Oder hat sie z.B. schwerere Schwänze, ist sie etwa schief, oder hat sie Löcher? qqnorm Um eine empirische Verteilung mit einer Normalverteilung zu vergleichen, könnte man entweder eine Normalverteilung anpassen (d.h. Mittelwert und Varianz schätzen) und als Kurve über ein Histogramm der empirischen Häufigkeitsverteilung legen. Oder man verwendet einen Normalplot: Man identifiziert die Zahlen x1 , . . . , xn mit ihren Quantilen (in R werden die Zwischenschritte ausgewertet: 1/(2n), 3/(2n), . . . , (2n− 1)/(2n)) und trägt die entsprechenden Quantile der Normalverteilung gegen die Beobachtungen auf (Figur 6, unten links). qqplot Dasselbe kann man machen, um zwei empirische Verteilungen zu vergleichen: Man identifiziert die Beobachtungen mit ihren Quantilen und trägt sie gegeneinander auf. Für zwei Datensätze x1 , . . . , xn und y1 , . . . , yn mit demselben Stichprobenumfang trägt man jeweils die i-t-kleinsten Beobachtungen x(i) , y(i) gegeneinander auf (Figur 6, unten rechts). Verteilungsfunktion 0.0 0.5 1.0 Dichte 0 2 −2 0 5 10 2.0 ● 1.0 ● ● 0.0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.0 Beobachtungen: N(5,4) 0.5 1.0 1.5 2.0 St.probe aus Exp(1) Abbildung 6: Quantilplots: Erstellung und Interpretation 13 ● ● ● −1.0 2 0 0 2 qqplot St.probe aus N(0,1) qqnorm −2 Quantile d. Normalverteilung −2 2.5 3.0 2 2.1 Erste statistische Tests Ein Permutationstest Hat das Hören von (mütterlich klingenden) Herztönen einen Effekt auf die Gewichtszunahme von Neugeborenen? Wir betrachten eine Untersuchung von Lee Salk (The Role of the Heartbeat in the Relation between Mother and Infant, Scientific American, May 1973, p. 26-29). Aus einer Zahl Neugeborener wurden zufällig einige ausgewählt, die in ihren ersten Lebenstagen ohne Unterbrechung den Ton des Herzschlags eines Erwachsenen hören durften. Sonst wurden alle Babies gleich behandelt. Beobachtet wurde die Gewichtszunahme vom ersten auf den vierten Lebenstag. Hat die Behandlung (Hören der Herztöne) einen Effekt auf die Gewichtszunahme? Gibt es einen signifikanten Unterschied in der Gewichtszunahme zwischen behandelten und unbehandelten Babies? Oder könnten die beobachteten Unterschiede durch Zufall zustande gekommen sein, auch wenn die Behandlung keinen Effekt hat? Wir haben aus m + n Individuen zufällig m gezogen und behandelt: 1 X x1 , . . . , xm in der Behandlungsgruppe, mit x̄ = xi , m 1X y1 , . . . , yn in der Kontrollgruppe, mit ȳ = yi . n Wir beobachten x̄ > ȳ. Wie groß muss der Unterschied sein, damit wir auch meinen, das gilt ebenso für die Populationsparameter µx > µy ? Wir betrachten die Nullhypothese µx = µy , dass die Behandlung keinen Effekt hat. Unter der Nullhypothese sind die x1 , . . . , xm einfach eine zufällige Stichprobe aus den Geburtsgewichtszunahmen der m + n Babies, denn dann hätte die Aufteilung der m + n Zahlen in die beiden Gruppen genauso gut anders ausfallen können. Also können wir x̄ vergleichen mit dem Wert einer zufällig aus den m + n Zahlen gezogenen (also einer durch Permutation gewonnenen) Stichprobe: Ziehe rein zufällig (ohne Zurücklegen) Z1 , .P . . , Zm aus der Liste x1 , . . . , xm , y1 , . . . , yn 1 und berechne die Wahrscheinlichkeit Ws m Zi ≥ x̄ . Einfacher: Approximiere diese Wahrscheinlichkeit durch Simulation:Ziehe (z.B.) 10000 1 P Z mal Z1 , . . . , Zm und notiere die relative Häufigkeit für das Ereignis i ≥ x̄ . m 1 P Falls in weniger als 5% der Fälle m Zi ≥ x̄, so kann man sagen: Die Unterschiede zwischen den Gruppen waren auf dem 5%-Niveau signifikant. Bedeutung: Wenn es keinen Behandlungseffekt gäbe, beobachten wir solche Unterschiede in weniger als 5% der Versuche durch Zufall. 2.2 Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test Der Permutationstest ist für viele Fragestellungen einsetzbar, erfordert nur die Wahl P einer adäquaten Teststatistik (hier: 1/m Zi ) und die Simulation mit dem Rechner. Der Test macht keine Annahmen über die zugrundeliegenden Verteilungen P und ist daher allgemein verwendbar. Da aber die Verteilung der Testsatistik 1/m Zi auch von den beobachteten Werten x1 , . . . , xm , y1 , . . . , yn abhängt, ist sie nur durch Simulation zu ermitteln. 14 Will man diese Abhängigkeit von den Werten loswerden, kann man z.B. die Rangsummenstatistik von Wilcoxon verwenden. Idee: Statt der Werte werden ihre Ränge verwendet: Beispiel 1: Wenn alle Werte unterschiedlich sind Beobachtung x 2 0 2.9 2.5 5 Rang von x 2 1 4 3 5 Beispiel 2: Bei Rangbindungen (engl.: ties) Beobachtung x 2 0 2.9 2 5 Rang von x 2.5 1 4 2.5 5 Vergleicht man (wie im Beispiel der geherzten Babies) die Beobachtungen aus zwei Gruppen, so werden die Ränge über alle Beobachtungen gebildet. Beispiel: Gruppe 1 1 1 2 1 2 1 2 2 2 Beobachtung x −2 0 0.5 0.7 1.3 1.8 2.8 4 4.2 4.3 Rang von x 1 2 3 4 5 6 7 8 9 10 Rangsumme in Gruppe 1: 18, Rangsumme in Gruppe 2: 10(10+1) − 18. 2 Um die Rangsummen bewerten zu können, müssen wir wissen, wie sie unter der Nullhypothese des rein zufälligen Ziehens von m Zahlen Z1 , . . . , Zm aus den n + m Zahlen x1 , . . . , xm , y1 , . . . , yn verteilt wären. In dem Fall ist d (Rang(Z1 ), . . . , Rang(Zm )) = (R1 , . . . , Rm ), wobei Ri rein zufällige Züge aus {1, . . . , m + n} ohne Zurücklegen sind. Die Rangsumme bezeichnen wir mit m X S := Ri . i=1 Wir betrachten im Folgenden den Fall ohne Rangbindungen, in dem alle n + m Werte verschieden sind. Bemerkung 1 Unter der Nullhypothese rein zufälligen Ziehens ist ES = m(m + n + 1) , 2 denn ERi = m+n X k=1 k· 1 (m + n)(m + n + 1) 1 m+n+1 = · = , m+n 2 m+n 2 ES = m · ER1 = m(m + n + 1) . 2 15 Bemerkung 2 Unter der Nullhypothese ist Var(S) = mn(m + n + 1) . 12 Beweis: Wir betrachten wieder den Fall, in dem alle n + m Werte verschieden sind, und können uns daher auf eine angenehmere Darstellung von S zurückziehen: Seien U1 , . . . ,P Um , V1 , . . . , Vn unabhängig und gleichverteilt auf [0, 1]. Die P Rangsumme der Ui , S̃ = Rang(Ui ), ist dann verteilt wie die Rangsumme S = Ri von oben. Es reicht also, die Behauptung für S̃ zu zeigen. Der Rang eines Wertes Ui setzt sich zusammen aus der Anzahl der Uj , die kleiner oder gleich Ui sind, und der Anzahl der Vj , die kleiner Ui sind: Rang(Ui ) = m X I{Uk ≤Ui } + k=1 =⇒ S̃ = m X Rang(Ui ) = i=1 m(m + 1) + 2 n X I{Vj <Ui } j=1 m X n X I{Vj <Ui } . i=1 j=1 Damit ist Var(S̃) = Var m X n X I{Vj <Ui } i=1 j=1 = X Var I{Vj <Ui } + (i,j) + m X X Cov I{Vj1 <Ui1 } , I{Vj2 <Ui2 } X (i1 , j1 ), (i2 , j2 ) i1 6= i2 , j1 6= j2 n X X Cov I{Vj1 <Ui } , I{Vj2 <Ui } + Cov I{Vj <Ui1 } , I{Vj <Ui2 } i=1 (j1 ,j2 ) j=1 (i1 ,i2 ) Der zweite Summand ist Null, weil für i1 6= i2 und j1 6= j2 die Ereignisse {Vj1 < Ui1 } und {Vj2 < Ui2 } unabhängig sind. Für den dritten und vierten Summanden gilt h i 1 Cov I{Vj1 <Ui } , I{Vj2 <Ui } = E I{Vj1 <Ui } · I{Vj2 <Ui } − 4 1 1 1 1 = Ws({Vj1 < Ui } ∩ {Vj2 < Ui }) − = − = 4 3 4 12 Damit ist Var(S̃) = nm mn(n − 1) mn(m − 1) mn(m + n + 1) + + = . 4 12 12 12 Die Rangsummenstatistik S ist eine Summe von ZVen, von denen für große m, n die überwiegende Anzahl unabhängig sind (für die meisten Paare (i1 , j1 ), (i2 , j2 ) gilt i1 6= i2 und j1 6= j2 und damit sind {Vj1 < Ui1 } und {Vj2 < Ui2 } unabhängig). Dies macht das folgende Resultat einleuchtend (das aber hier nicht bewiesen wird): 16 Satz (Hoeffding): Für m, n → ∞ gilt: Sn,m − ESn,m p → N (0, 1) Var(Sn,m ) in Verteilung. Der Rangsummentest von Wilcoxon in R Zum Vergleich von zwei Vektoren x und y verwendet man den Befehl wilcox.test(x,y). R berechnet die Mann-WhitneyStatistik m X n X U= I{Vj <Ui } , i=1 j=1 m(m+1) 2 + U äquivalent ist zur Rangsummenstatistik S. Ohne weitere die wegen S = Spezifikation wird für m + n ≤ 50 die exakte Verteilung von U ermittelt und damit der exakte p-Wert. Für m + n > 50 wird die Normalapproximation verwendet (es sei denn, man spezifiziert wilcox.test(x,y,exact=TRUE). Für diesen Fall findet man in der Hilfe (?wilcox.test) eine Warnung: This function can use large amounts of memory and stack (and even crash R if the stack limit is exceeded) if exact = TRUE and one sample is large.) Achtung Der Wilcoxon-Test testet die Nullhypothese, dass beide Verteilungen gleich sind, gegen die Alternative, dass die eine gegenüber der anderen verschoben ist. Er ist nicht sensitiv für andere Arten von Alternativen (z.B. wenn sich die Streuungen unterscheiden, nicht aber die Mittelwerte). Die verbreitetste Fragestellung vergleicht die Erwartungswerte zweier Verteilungen. Sie ist am leichtesten mit Hilfe eines z-Tests zu behandeln, sofern die Standardabweichung bekannt ist: 2.3 Der z-Test Aus dem asymptotischen Konfidenzintervall für den Mittelwert, das wir in Abschnitt 1.1 kennengelernt haben, können wir leicht einen ersten statistischen Test konstruieren. Ein Beispiel Wir möchten untersuchen, ob sich das Geburtsgewicht von Babies in einer bestimmten Region Deutschlands von dem Geburtsgewicht im gesamten Bundesgebiet unterscheidet. Angenommen, wir wüssten (z.B. vom statistischen Bundesamt), dass das mittlere Geburtsgewicht in Deutschland µ = 3.3 kg beträgt und eine Standardabweichung von σ = 0.5 kg hat. Um zu untersuchen, ob sich das Geburtsgewicht in der ausgewählten Region davon unterscheidet, beobachten wir eine Stichprobe von n = 50 Babies, die dort geboren wurden. Ihr mittleres Geburtsgewicht beträgt x̄ = 3.5 kg. Wie stark weicht x̄ von µ ab? Spricht diese Abweichung dafür, dass das mittlere Geburtsgewicht µR in dieser Region tatsächlich höher ist, oder haben wir es mit einer zufälligen Schwankung zu tun? Nach dem ZGWS bewerten wir Abweichungen des Mittelwertes in Einheiten des Stan√ dardfehlers, σ/ n, unsere Teststatistik ist also x̄ − µ z = √ . σ/ n 17 Falls das Geburtsgewicht in der betreffenden Region sich von der übrigen Population nicht unterscheidet (also unter der Nullhypothese µR = µ), ist z nach dem ZGWS approximativ standardnormalverteilt. Auf dieser Basis beurteilen wir, wie wahrscheinlich das beobachtete Ereignis unter der Hypothese µR = µ ist. In unserem Beispiel ist z = 2.83. Für eine N (0, 1)-verteilte ZVe Z ist aber Ws(|Z| > 2.83) < 0.005. Unter der Hypothese µR = µ haben wir also ein sehr unwahrscheinliches Ereignis beobachtet. Man sagt auch: Die Daten sprechen (auf dem 0.5%-Niveau) gegen die Hypothese µR = µ. 2.4 p-Wert, Signifikanz, Testmacht und Alternativhypothese Der p-Wert bezeichnet die Wahrscheinlichkeit, ein mindestens so extremes Ereignis zu beobachten, wenn (d.h. obwohl ) die Nullhypothese zutrifft. Im Beispiel von eben also p = 0.005. Man spricht üblicherweise von statistischer Signifikanz, wenn p < 0.05 (gerne auch durch * markiert), hochsignifikant bedeutet oft p < 0.01 (**) oder p < 0.001 (***). Nicht signifikant (‘n.s.’) heißt entsprechend: p ≥ 0.05. Wie ist ein nicht signifikantes Ergebnis zu interpretieren? Wie sehr spricht es für die Nullhypothese und gegen die Alternative? Das hängt von der gewählten Alternativhypothese ab. Beispiel ν1 , mit X1 , . . . , Xn sind unabhängig identisch verteilt, entweder gemäß ν0 oder gemäß H0 : Xi ∼ N (0, 1) =: ν0 ∀i H1 : Xi ∼ N (1, 1) =: ν1 ∀i. Falls H0 zutrifft, möchten wir sie in höchstens 5% der Fälle fälschlicherweise ablehnen (mit einem Signifikanzniveau von 5%. Die Nullhypothese fälschlicherweise abzulehnen (‘false positive’) bezeichnet man auch als Fehler erster Art). Damit dürfen wir H0 nur ablehnen, wenn X̄ X̄ Z = √ = √ > 1.64. σ/ n 1/ n Wir testen hier ‘einseitig’, denn nur große (positive) Werte von Z sprechen für H1 und gegen H0 . Es gilt: WsH0 (Z > 1.64) = 0.05. Was passiert aber, wenn H1 zutrifft? Mit welcher Wahrscheinlichkeit lehnen wir dann H0 ab? Diese Wahrscheinlichkeit heißt die Macht eines Tests (testpower ): √ X̄ X̄ − 1 √ > 1.64 = Ws √ > 1.64 − n WsH1 1/ n 1/ n √ = (1 − Φ(1.64 − n)), wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Für n = 4 ist WsH1 (|Z| > 1.64) ≈ 0.63, für n = 10 etwa 0.87, für n = 20 etwa 0.99. 18 Die Macht des z-Tests hängt ab von µ, σ, n und vom gewählten Signifikanzniveau α (Übung). Die Wahrscheinlichkeit, H0 fälschlicherweise nicht abzulehnen (‘false negative’, 1-testpower ), bezeichnet man auch als Fehler zweiter Art. Insgesamt: H0 trifft zu H1 trifft zu 3 Entscheidung für H0 mit W’keit 1−α β (Fehler 2. Art) Entscheidung für H1 mit W’keit α (Fehler 1. Art) 1−β Der t-Test Die z-Statistik hat den Vorteil, dass sie wegen des ZGWS für alle Verteilungen von X (mit endlichem zweiten Moment) approximativ standardnormalverteilt ist. Aber der zTest hat auch eine große Schwäche: Er setzt voraus, dass σ bekannt ist. Dies ist aber im allgemeinen nicht der Fall; σ muss aus den Daten geschätzt werden. 3.1 Zur Geometrie von Strichprobenmittelwert und -varianz 3.1.1 Schätzer für σ Wegen 2 σX = E (X − µ)2 2 an, falls µ bekannt ist bietet sich folgender Schätzer für σX 2 σ̂X = 1X (Xi − µ)2 n 2 (ist wg. E(X1 − µ)2 = σX erwartungstreu). i Aber µ ist selten und muss aus den Daten geschätzt werden: µ̂ = X̄. Da aber P bekannt 2 X̄ den Term (Xi − c) minimiert, ist 1X 1X (Xi − X̄)2 ≤ (Xi − µ)2 . n n Man kann zeigen, dass stattdessen n 1 X s = (Xi − X̄)2 n−1 2 (2) i=1 ein erwartungstreuer Schätzer für σ 2 ist. 3.1.2 Geometrie des Mittelwertes Wir fassen n Beobachtungen x1 , . . . , xn ∈ R auf als einen Datenvektor X = (x1 , . . . , xn ) ∈ Rn (Abb. 7). Sei D die ‘Hauptdiagonale’ in Rn , also D := {c1|c ∈ R}, wobei 1 := (1, . . . , 1)T . 19 Abbildung 7: Darstellung von X = (x1 , . . . , xn )T im Rn . Dann ist x̄1 die orthogonale Projektion des Datenvektors X auf die Hauptdiagonale. Wir schreiben dafür x̄1 = PD X. Denn das Skalarprodukt < 1, X − c1 >= 0 für X xi − nc = 0, also: c = x̄. Da durch die orthogonale Projektion c so bestimmt P wird, dass die Länge der Strecke X − c1 minimal wird, bedeutet das gleichzeitig, dass (xi − c)2 = ||X − c1||2 minimal ist für c = x̄. Anschaulich gesprochen zerlegen wir X in einen konstanten Anteil x̄1 und ein Residuum R := X − x̄1: 1 x1 − x̄ .. X = x̄ ... + = x̄1 + R, . 1 xn − x̄ wobei sowohl x̄1 als auch R als orthogonale Projektionen aufgefasst werden können: x̄1 = PD X, und R = PD⊥ X. Abbildung 8: Geometrische Bedeutung von Mittelwert und Standardabweichung 20 3.1.3 Geometrie der geschätzten Standardabweichung Will man den Vektor X ‘am besten’ (im Sinne des kleinsten euklidischen Abstandes) durch eine Zahl beschreiben, so wählt man den Mittelwert x̄. Aber wie gut kann man X durch x̄ beschreiben? Wie weit ist X von der Hauptdiagonale D entfernt? qX √ ||R|| = (xi − x̄)2 = n − 1 · s. Je kürzer das Residuum R, desto näher ist X an D, desto weniger weichen die Beobachtungen von ihrem Mittelwert ab. 3.2 Die t-Statistik Ersetzt man in der z-Statistik σ durch s, so ist die resultierende Größe (zumindest für kleine n) nicht mehr normalverteilt. Aber falls X1 , . . . , Xn unabhängig und N (µ, σ 2 )verteilt sind, hat sie eine bekannte Verteilung: die t-Verteilung mit n−1 Freiheitsgraden. Satz: (William Gosset, alias ‘Student’, ∼ 1907) Seien X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt. Dann hängt die Verteilung von T := X̄ − µ √ s/ n nur von n ab (und z.B. nicht von σ). Genauer: T ist student-verteilt (t-verteilt) mit (n − 1) Freiheitsgraden (Beweis folgt). 3.2.1 Die t-Verteilung und ihre Verwandten Die t-Verteilung ist glockenförmig und (in aller Regel) um 0 zentriert. Sie gleicht der Standardnormalverteilung und geht für n → ∞ in sie über. Für kleine n hat sie jedoch breitere Schwänze (vgl. Figur 9, links): Eine t-verteilte ZVe T nimmt mit höherer Wahrscheinlichkeit extremere Werte an als eine normalverteilte ZVe Z. Die t-Statistik streut stärker als die z-Statistik, weil auch im Nenner eine Zufallsgröße steht. Das Gewicht außerhalb des Intervalls [−1.96, 1.96] ist größer als 5%. Die neuen Schranken kann man in R mit der Funktion qt(0.025,df) berechnen (typische Werte siehe Tabelle 4). df tkrit 2 4.30 5 2.57 10 2.23 15 2.13 30 2.04 ∞ 1.96 Tabelle 4: Kritische Werte der t-Verteilung für Ws(|T | > tkrit ) = 0.05. Die Dichte der t-Verteilung mit n Freiheitsgraden ist Γ((n + 1)/2) ftn (x) = √ nπΓ(n/2) − n+1 2 x2 1+ , n x∈R (vgl. Figur 9). Eine t-verteilte ZVe kann beschrieben werden als Quotient von unabhängigen ZVen: Sei T t(n)-verteilt, Z ∼ N (0, 1) und X ∼ χ2 (n), so ist L(T ) = L √ Z . X/n 21 χ2−Verteilung df = 1 df = 2 df = 4 df = 6 0.0 df = 2 df = 8 0.4 Dichte 0.8 0.0 0.1 0.2 0.3 0.4 Dichte Normal− und t−Verteilung −4 −2 0 2 4 0 1 2 3 4 5 6 7 Abbildung 9: Die t- und die χ2 -Verteilung Die χ2 -Verteilung Eine ZVe X ist χ2 -verteilt mit n Freiheitsgraden, wenn L(X) = L Z12 + Z22 + · · · + Zn2 , mit Z1 , . . . , Zn unabhängig und N (0, 1)-verteilt. Die Dichte der χ2 -Verteilung mit n Freiheitsgraden ist fχ2 (n) (x) = 1 1 x n2 −1 − x e 2, Γ(n/2) 2 2 x>0 (vgl. Figur 9). Mit EZi2 = 1 und Var(Zi2 ) = 2 sieht man: Ist X ∼ χ2 (n), so ist E(X) = n und Var(X) = 2n. (Und am Rande sei bemerkt: An der Dichte sieht man sofort, dass die χ2 (2)-Verteilung der Exp(1/2)-Verteilung entspricht.) Um zu zeigen, dass die T -Statistik t-verteilt ist, brauchen wir noch einige Vorüberlegungen, die uns auch später von Nutzen sein werden. Wir stellen dazu zunächst T auf andere Weise dar: Von X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt gehen wir über zu Xi − µ σ Zi := Dann ist X̄ − µ √ = T = s/ n Da Zi ∼ N (0, 1), ist auch 1. √ unabhängig und N (0, 1)-verteilt. X̄−µ √ σ/ n s σ √ nZ̄ = =q s/σ √ nZ̄ . P 1 2 (Z − Z̄) i n−1 nZ̄ ∼ N (0, 1). Es genügt also zu zeigen: n X (Zi − Z̄)2 ∼ χ2 (n − 1) i=1 2. √ nZ̄ und n X (Zi − Z̄)2 sind unabhängig. i=1 22 Die Standardnormalverteilung auf Rn und der Satz von Fisher 3.3 Definition Z = (Z1 , . . . , Zn )T heißt standardnormalverteilt auf Rn ⇐⇒ Z1 , . . . , Z n unabhängig und standardnormalverteilt in R. Damit ist die Wahrscheinlichkeitsdichte von Z gegeben durch ϕn (x) = P 2 n Y x2 x ||x||2 1 1 1 i − 2i − 2 √ e− 2 = e = e , n/2 n/2 (2π) (2π) 2π i=1 x = (x1 , . . . , xn )T . Insbesondere ist ϕn rotationssymmetrisch, weil es nur von der Länge ||x|| des Vektors x abhängt. Der Satz von Fisher Z sei standardnormalverteilt in Rn , H sei k-dimensionaler Teilraum von Rn . Dann gilt: 1. ||PH Z||2 ∼ χ2 (k) 2. PH Z und PH⊥ Z sind unabhängig. Zum Beweis brauchen wir ein Lemma (über die orthogonale Invarianz der Standardnormalverteilung) Z sei standardnormalverteilt in Rn . Dann gilt: 1. Für M orthogonale n × n-Matrix (d.h. M · M T = I) ist Y := M · Z wieder standardnormalverteilt. 2. Zu jeder ONB von Rn sind die Koordinaten von Z wieder standardnormalverteilt und unabhängig. Bew. 1.: Die Dichte von Y = M Z ist g(y) = 1 ϕn (M −1 y), |detM | y ∈ Rn , denn Ws(M (z) ∈ B) = Ws(z ∈ M −1 Z (B)) = ϕn (z)dz M −1 (B) z=M −1 (y) Z = ϕn (M −1 (y)) 1 dy. |detM | B Nun gilt aber |detM | = 1 und ||M −1 (y)||2 = y T (M −1 )T M −1 y = ||y||2 , und damit g(y) = ϕn (y). Bew. 2.: 23 Sei e1 , . . . , en ONB von Rn und M := (e1 , . . . , en )T . Dann sind die Koordinaten von Z in der neuen ONB gegeben durch Y = M Z und damit nach 1. standardnormalverteilt und unabhängig. Beweis des Satzes von Fisher Wir wählen eine ONB (e1 , . . . , ek ) von H und ergänzen sie zu einer ONB B := (e1 , . . . , en ) von Rn . Die Koordinaten von Z in B seien W1 , . . . , Wk , Wk+1 , . . . , Wn . Sie sind nach dem vorausgegangenen Lemma wieder unabhängig und standardnormalverteilt. Mit PH Z = W1 e1 + . . . + Wk ek = (W1 , . . . , Wk , 0, . . . , 0)T PH ⊥ Z = Wk+1 ek+1 + . . . + Wn en = (0, . . . , 0, Wk+1 , . . . , Wn )T P sind PH Z und PH ⊥ Z unabhängig, und ||PH Z||2 = ki=1 Wi2 ∼ χ2 (k). Beweis, dass T ∼ t(n − 1) : Erinnerung: Wir hatten T folgendermaßen umgeschrieben: √ X̄ − µ nZ̄ √ =q T = , P s/ n 1 2 (Z − Z̄) i n−1 √ mit Zi ∼ N (0, 1). Damit war nZ̄ ∼ N (0, 1), und es war zu zeigen: 1. n X (Zi − Z̄)2 ∼ χ2 (n − 1) i=1 2. √ nZ̄ und n X (Zi − Z̄)2 sind unabhängig. i=1 Da Z̄ := Z̄1 Projektion von Z auf die Hauptdiagonale D ist und R := Z − Z̄ Projektion von Z auf das orthogonale Komplement D⊥ , folgt die Behauptung. Man bemerke: Die Verteilung von T hängt damit nur von n ab (und nicht etwa von µ und σ 2 )! Das ist ein Glücksfall, denn n ist der Stichprobenumfang und damit immer bekannt. 3.4 Anwendung: Eine Stichprobe Wir wissen jetzt: Für X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt, mit unbekanntem √ µ und 0 < σ 2 < ∞, ist die t-Statistik T = n(X̄ − µ)/s nach t(n − 1)-verteilt. Was nützt diese Information in der Praxis? 1. Student-Konfidenzintervall Man kann (auch für kleine n) ein exaktes Konfidenzintervall I1−α (X) für µ zum Niveau (1 − α) angeben. Wir schreiben für das p-Quantil −1 der t(n − 1)-Verteilung kurz qtn−1 (p) := Ft(n−1) (p). Wegen Wsµ [T ∈ [qtn−1 (α/2), qtn−1 (1 − α/2)]] = 1 − α s s = Wsµ µ ∈ X̄ − √ qtn−1 (1 − α/2), X̄ + √ qtn−1 (1 − α/2) n n 24 ist s s I1−α (X) := X̄ − √ qtn−1 (1 − α/2), X̄ + √ qtn−1 (1 − α/2) n n ein Konfidenzintervall für µ zum Niveau (1 − α). 2. Der Student-Test testet die Hypothese Hθ : µ = θ. Unter Hθ ist die Teststatistik √ n(X̄ − θ) Tθ (X) := s t(n − 1)-verteilt. a) Klassischer t-Test mit Signifikanz α: Wegen Wsθ [|Tθ (X)| ≥ qtn−1 (1 − α/2)] = α lehne Hθ ab, falls |Tθ (X)| ≥ qtn−1 (1 − α/2). Dann wird Hθ fälschlicherweise abgelehnt mit Wahrscheinlichkeit α. b) Allgemein gilt Wsθ [|Tθ (X)| ≥ |τ |] = 2 · (1 − Ft(n−1) (|τ |)). Das heißt, nimmt |Tθ (X)| den Wert τ an, kann man Hθ ablehnen zum p-Wert 2 · (1 − Ft(n−1) (|τ |)). Bemerkung Bei einem Test der Hypothese Hθ : µ = θ wird Hθ genau dann (zum pWert α) abgelehnt, wenn θ nicht in dem unter 1. hergeleiteten (1 −α)-Konfidenzintervall I1−α (X) für µ liegt. 3.5 Der zwei-Stichproben t-Test (für gleiche Varianzen) X1 , . . . , Xm , Y1 , . . . , Yn seien unabhängig, mit X1 , . . . , Xm ∼ N (µ1 , σ 2 ), Y1 , . . . , Yn ∼ N (µ2 , σ 2 ), und µ1 , µ2 , σ 2 seien unbekannt. Wie testet man die Hypothese H0 : (µ1 − µ2 = 0)? µ1 = µ 2 Wir suchen eine geeignete Teststatistik (die nach Möglichkeit nicht von µ1 , µ2 , σ 2 abhängt). Bemerke: X̄ ∼ N (µ1 , σ 2 /m), Ȳ ∼ N (µ2 , σ 2 /n) 1 1 2 X̄ − Ȳ ∼ N µ1 − µ2 , σ + m n X̄ − Ȳ − (µ1 − µ2 ) q N := ∼ N (0, 1) 1 1 + σ m n Wir bauen daraus eine t-verteilte Statistik N T := p , W/d 25 mit W ∼ χ2 (d)-verteilt mit d = d(n, m) und N, W unabhängig. Wie geht das? Aus dem Satz von Fisher wissen wir: 1 X (Xi − X̄)2 ∼ χ2 (m − 1) und unabhängig von X̄ σ2 1 X (Yi − Ȳ )2 ∼ χ2 (n − 1) und unabhängig von Ȳ . σ2 Die Vektoren X = (X1 , . . . , Xm ) und Y = (Y1 , . . . , Yn ) sind sowieso unabhängig, und damit ist i X 1 hX (Xi − X̄)2 + (Yi − Ȳ )2 ∼ χ2 (n + m − 2) W := 2 σ und unabhängig von X̄, Ȳ (und damit von N ). Also gilt T := p N W/(n + m − 2) ∼ t(n + m − 2). T lässt sich folgendermaßen darstellen: T =q 1 m + 1 n q X̄ − Ȳ − (µ1 − µ2 ) X̄ − Ȳ − (µ1 − µ2 ) =: q , P P 1 1 1 2+ 2) ( (X − X̄) (Y − Ȳ ) + s i i n+m−2 m n X,Y mit s2X,Y = X X 1 (Xi − X̄)2 + (Yi − Ȳ )2 . n+m−2 Konfidenzintervall für µ1 − µ2 Wie in der Situation einer Stichprobe ist ein (1 − α)Konfidenzintervall für µ1 − µ2 gegeben durch die Grenzen r 1 1 X̄ − Ȳ ± + sX,Y qtm+n−2 (1 − α/2). m n Test der Hypothese Hθ : µ1 − µ2 = θ Unter Hθ gilt X̄ − Ȳ − θ Tθ (X, Y) := q ∼ t(m + n − 2). 1 1 + s X,Y m n Damit können wir Hθ zum Niveau α ablehnen, falls |Tθ (X, Y)| ≥ qtm+n−2 (1 − α/2). Bemerkung Wieder wird bei einem Test die Hypothese Hθ genau dann (zum p-Wert α) abgelehnt, wenn θ nicht im (1 − α)-Konfidenzintervall für µ1 − µ2 liegt. 26 3.6 Zur Geometrie in der zwei-Stichproben-Situation Wie in der Situation mit einer Stichprobe gibt es eine anschauliche geometrische Interpretation der T -Statistik. Wir betrachten die Beobachtungen X1 , . . . , Xm , Y1 , . . . , Yn wiederum als Einträge eines Datenvektors im Rm+n : Z := (X1 , . . . , Xm , Y1 , . . . , Yn )t normalverteilt im Rm+n , mit X1 , . . . , Xm , Y1 , . . . , Yn unabhängig und identisch verteilt gemäß N (µ, σ 2 ). Wir betrachten den 2-dimensionalen Unterraum M von Rm+n : M := {(a, . . . , a, b, . . . , b)t |a, b, ∈ R}. | {z } | {z } m n M kann man in zwei orthogonale Unterräume zerlegen: M := D ⊕ E, wobei D wieder die Hauptdiagonale ist und E ihr orthogonales Komplement in M. D und E werden jeweils aufgespannt durch die Einheitsvektoren 1/m .. . 1 1/m 1 1 .. . e0 := √ · . · und e1 := p m+n 1/m + 1/n −1/n 1 .. . −1/n Jetzt sehen wir, dass ||Z − PM Z||2 = ||PM⊥ Z||2 = X (Xi − X̄)2 + X (Yj − Ȳ )2 = (m + n − 2) · s2X,Y X̄ − Ȳ < Z, e1 > = ||PE Z|| = q 1 1 m + n und damit T := q X̄ − Ȳ 1 m + 1 n · sX,Y √ ||PE Z|| m + n − 2 = . ||PM⊥ Z|| Die T -Statistik vergleicht die Längen von zwei orthogonalen Projektionen von Z auf orthogonale Unterräume: E repräsentiert die Gruppenunterschiede zwischen X und Y (die Variabilität zwischen den Gruppen), M⊥ repräsentiert die Variabilität innerhalb der Gruppen. Wir werden dieselbe Zerlegung bei der klassischen Varianzanalyse antreffen, die auf analoge Art und Weise die Mittelwerte von mehr als zwei Gruppen miteinander vergleicht. 27 4 Tests für gepaarte Stichproben 4.1 t-Test für gepaarte Stichproben Ein Beispiel aus Box-Hunter-Hunter, Statistics for Experimenters, Wiley, 1987: Zwei Materialien (A und B) für Schuhsohlen sollen verglichen werden: Welches Material nutzt sich weniger ab? Zehn Jungen erklären sich als Testpersonen bereit, 2 Monate lang nur die entsprechend besohlten Schuhe zu tragen. • Versuchsplanung: a) Wähle zufällig 5 der 10 Jungen und gebe ihnen Material A, die anderen bekommen Material B. Vergleiche nach 2 Monaten die Abnutzung. Nachteil dieses Versuchsplans: Die Abnutzung der Materialien hängt nicht nur vom Material selbst ab, sondern auch von den Individuen: Die Variabilität kommt aus zwei verschiedenen Quellen, die entsprechenden Effekte sind konfundiert. Ein Materialeffekt ist schwer zu entdecken, wenn die Unterschiede zwischen den Individuen groß sind. b) Um Unterschiede zwischen den Individuen auszuschalten, geben wir jedem Jungen einen Schuh mit Sohle A und einen Schuh mit Sohle B (jeweils zufällig an den rechten oder linken Fuß). Ergebnisse: Tabelle 5: Bubenschuhe Junge A B 1 13.2 14.0 2 8.2 8.8 3 10.9 11.2 4 14.3 14.2 5 10.7 11.8 6 6.6 6.4 7 9.5 9.8 8 10.8 11.3 9 8.8 9.3 10 13.3 13.6 • Auswertung: a) Wir betrachten A1 , . . . , A10 , B1 , . . . , B10 als unabhängig und normalverteilt und machen einen t-Test für zwei unabhängige Stichproben wie im letzten Abschnitt beschrieben. Das Ergebnis: p = 0.72. Wir können die Hypothese µA = µB also nicht ablehnen - die beobachteten Unterschiede können in mehr als 70% aller Versuche durch Zufall zustande kommen. b) Wir haben in a) schon wieder nicht berücksichtigt, dass die Daten eine Paarungsstruktur haben, dass also jeder Wert Ai genau einem Wert Bi entspricht. Die Variabilität zwischen den Individuen ging in a) noch in die T-Statistik ein. Wir können aber leicht davon Gebrauch machen, dass sich bei manchen Jungen die Sohlen grundsätzlich weniger abnutzen als bei anderen: die Stichproben sind positiv korreliert (siehe Abb. 10). Wir betrachten die Differenzen: Di := Ai − Bi und untersuchen mit einem t-Test für eine Stichprobe die Nullhypothese, dass die Verteilung dieser Differenzen Mittelwert Null hat. Das Ergebnis: p = 0.008. 28 14 ● 12 ● ● ● 10 B ●● ● ● 8 ● 6 ● 6 8 10 12 14 A Abbildung 10: Gepaarte Stichproben 4.1.1 Voraussetzungen und Spezialfall Die einzige Voraussetzung beim t-Test für gepaarte Stichproben ist, dass der Effekt (in dem Fall die Unterschiede in der Abnutzung des Materials) normalverteilt ist und unabhängig für jedes Individuum. Man kann also den Effekt E einer Behandlung auf ein Merkmal untersuchen, ohne die Verteilung des Merkmals in der untersuchten Population überhaupt zu kennen. Allein der Effekt, der sich in der Differenz Di = Ai − Bi äußert, muss normalverteilt sein, nicht die zugrundeliegenden Verteilungen von A und B. Dennoch sind es interessante Spezialfälle, wenn A und B normalverteilt sind: Normalverteilung Im Fall A1 , . . . , An , B1 , . . . , Bn unabhängig und normalverteilt, mit gleicher Varianz und EA = µA , EB = µB würde man für die Hypothese µA = µB einen Test für zwei unabhängige Stichproben durchführen, mit Ā − B̄ Tungepaart := q , 2 s n A,B wobei T t-verteilt wäre mit 2n − 2 Freiheitsgraden. Was passiert, wenn man statt dessen eine Paarungsstruktur einbaut und die Differenzen Di = Ai − Bi mit einem Ein-Stichproben-Test betrachtet? (Das kann man machen, denn die Differenzen von unabhängigen Normalverteilten sind ja wieder normalverteilt). Der wesentliche Unterschied besteht darin, dass man Freiheitsgrade einbüßt, denn die entsprechende Teststatistik Ā − B̄ Tgepaart := q 1 n sA−B ist unter der Nullhypothese t-verteilt mit nur (n − 1) Freiheitsgraden. Damit verliert man ein wenig Testmacht, was für große n allerdings vernachlässigbar ist. Ansonsten unterscheiden sich die beiden Teststatistiken im Prinzip nicht, denn für unabhängige 2. 2 Ai , Bi mit gleicher Varianz σ 2 ist Var(A − B) = σA−B = 2σA Sind dagegen Ai und Bi positiv korreliert (wie im Beispiel der Bubenschuhe), so ist 2 − 2Cov(A, B). Infolgedessen wird der Nenner von T Var(A − B) = 2σA gepaart kleiner, die Teststatistik wird größer, und man gewinnt an Testmacht. 29 Positiv korrelierte Normalverteilte Modell: A1 , . . . , An seien unabhängig und N (µ, σ 2 )verteilt, also Ai = µ+σZi für Zi ∼ N (0, 1). B1 , . . . , Bn seien unabhängig und normalverteilt. Aber Ai und Bi seien nicht unabhängig, sondern positiv korreliert in der folgenden Form: Bi = Ai + δ + αZi0 , mit δ ∈ R, α > 0, Zi0 ∼ N (0, 1). Dann gilt: Bi − Ai = δ + αZi0 , Var(Di ) = α 4.2 und damit 2 Wilcoxon-Test für gepaarte Stichproben/ Vorzeichenrangtest Im t-Test war die einzige benötigte Modellannahme die Normalverteilung der Differenzen: L(D) = N (δ, σ 2 ), bzw. L(D − δ) = N (0, σ 2 ). Der Wilcoxon-Test kommt ohne Normalverteilung aus. Er testet die Hypothese Hµ , dass die Verteilung der Differenzen symmetrisch um µ ist. (Alternativen sind hier also sowohl: Eine symmetrische, aber nicht um µ zentrierte Verteilung, oder eine Verteilung, die nicht symmetrisch ist.) Die Teststatistik verwendet die mit den Vorzeichen versehenen Ränge: Wµ (D) = n X 1{Di >µ} Rang(|Di − µ|). i=1 Unter Hµ ist Wµ so verteilt wie S= n X i · Vi , i=1 wobei Vi unabhängige, faire {0, 1}−Münzwürfe sind. Die Verteilung von S kennt R unter dem Namen signrank (rsignrank, psignrank, etc.). Die Verteilung von S ist symmetrisch um X 1X n(n + 1) ES = iEVi = i= . 2 4 Ein Test auf Hµ : δ = µ liefert als p-Wert entsprechend die Wahrscheinlichkeit, dass die | von n(n+1) abweicht. In R einfach mit dem Teststatistik S um mehr als |Wµ − n(n+1) 4 4 Befehl: wilcox.test(A-B), oder wilcox.test(A,B,paired=TRUE). Im obigen Beispiel: p = 0.014 4.3 Vorzeichentest Eine weitere simple Statistik verwendet ausschließlich die Vorzeichen der Differenzen: Unter der Nullhypothese dass Ai und Bi dieselbe Verteilung haben, erwarten wir genauso viele positive wie negative Differenzen Di = Ai − Bi . Die Anzahl der positiven Differenzen: S2 := |{i|Di > 0}| ist somit binomialverteilt mit Parametern n und 1/2. Im obigen Beispiel: Nur 2 von 10 Differenzen sind positiv. Der p-Wert: 2 pbinom(2,10,0.5)≈ 0.11. Der Vorzeichentest ist weniger mächtig als der Vorzeichenrangtest, weil er nicht berücksichtigt, dass die positiven Differenzen vom Betrag her kleiner sind als die negativen Differenzen. 30 4.4 Permutationstest von Fisher Und noch eine Statistik für gepaarte Stichproben: S3 := n X (sgn Di ) · Di . i=1 Unter der Nullhypothese gilt: Gegeben die Werte der Differenzbeträge |Di |, ist S3 so P verteilt wie |Di |Vi , wobei Vi wieder unabhängige faire {−1, 1}-Münzwürfe sind. 5 Vergleich von mehr als 2 Stichproben und das normale lineare Modell 5.1 5.1.1 Vom t-Test zur einfaktoriellen Varianzanalyse Geometrie beim t-Test Wir erinnern uns an das Vorgehen beim t-Test zum Vergleich von zwei unabhängigen Stichproben und an die geometrische Situation in Sektion 3.6. Gegeben sind zwei Stichproben X11 , . . . , X1n1 und X21 , . . . , X2n2 , alle Xij unabhängig und normalverteilt mit gleicher Varianz σ 2 , aber eventuell mit unterschiedlichen Erwartungswerten E[X1i ] = µ1 für i = 1, . . . , n1 , und E[X2j ] = µ2 für j = 1, . . . , n2 . Das Modell ist also: Xij = µi + σZij , wobei Zij ∼ N (0, 1) und unabhängig, i = 1, 2, j = 1, . . . , ni , mit µ1 , µ2 ∈ R. Oder in Vektorschreibweise: X = µ + σZ, mit X = (X11 , . . . , X1n1 , X21 , . . . , X2n2 )t , µ = (µ1 , . . . , µ1 , µ2 , . . . , µ2 )t und Z standardnormalverteilt im Rn1 +n2 . Das allgemeine Modell sagt also µ∈M mit M := {(µ1 , . . . , µ1 , µ2 , . . . , µ2 )t |µ1 , µ2 ∈ R}, dim(M) = 2. Wir untersuchen die Nullhypothese H0 : µ1 = µ2 und damit die Frage, ob µ eigentlich in einem eindimensionalen Unterraum D von M liegt mit D := {(µ, . . . , µ)t |µ ∈ R}. Um dies zu tun, zerlegen wir den Vektor X in die orthogonalen Projektionen auf die Unterräume D, E (mit M = D ⊕ E) und auf M⊥ : X = PD X + PE X + PM⊥ X 1 x̄1 − x̄ x11 − x̄1 .. .. .. . . . + = x̄ + 1 x̄2 − x̄ x21 − x̄2 .. .. .. . . . , P i Xij den Gruppenmittelwert in Gruppe i bezeichnet und x̄ := wobei x̄i := n1i nj=1 P 1 i,j Xij den globalen Mittelwert von X. n1 +n2 31 Geometrische Interpretation der t-Statistik Nun ist die t-Statistik gerade: x̄1 − x̄2 ||PE X|| √ T := p = . ||PM⊥ X||/ n1 + n2 − 2 s 1/n1 + 1/n2 Unter der Nullhypothese: µ ∈ D ist wegen D⊥E: PE µ = 0, und damit PE X = PE σZ. Damit ist nach dem Satz von Fisher unter der Nullhypothese die t-Statistik (salopp geschrieben): p χ2 (1) N (0, 1) T =p =p ∼ t(n1 +n2 −2). √ √ χ2 (n1 + n2 − 2)/ n1 + n2 − 2 χ2 (n1 + n2 − 2)/ n1 + n2 − 2 Definition (Fisher-Verteilung) Seien X1 ∼ χ2 (k1 ) und X2 ∼ χ2 (k2 ) unabhängige Zufallsgrößen. Dann heißt die Verteilung von X1 /k1 X2 /k2 Fisher-Verteilung mit k1 und k2 Freiheitsgraden (man sagt auch k1 Zähler- und k2 Nennerfreiheitsgrade). Beobachtung Ist T student-verteilt mit n Freiheitsgraden, so ist T 2 Fisher -verteilt mit 1 und n Freiheitsgraden. Das Quadrat der obigen t-Statistik ist also Fisher(1, n1 +n2 −2)-verteilt. Ein (zweiseitiger) t-Test zum Test der Hypothese µ1 = µ2 gegen µ1 6= µ2 zum Niveau 1 − α mit Hilfe von entsprechenden student(n1 +n2 −2)-Quantilen ist also äquivalent zu einem Test, der die Statistik T 2 und die entsprechenden Quantile der Fisher(1, n1 + n2 − 2)Verteilung verwendet. 5.1.2 Verallgemeinerung auf k(> 2) Gruppen Wie kann man untersuchen, ob die Mittelwerte von mehr als 2 Gruppen sich unterscheiden? Ein Beispiel: 24 Wunden von Ratten wurden mit je einer von 4 verschiedenen Behandlungen (A, B, C, D) behandelt. Hat die Behandlung einen Einfluss auf die Blutgerinnungszeit? Abbildung 11 zeigt, dass die Mittelwerte der vier Gruppen sich unterscheiden. Hätte das Zufall sein können? Wie groß sind die Unterschiede zwischen den vier Mittelwerten, die wir durch Zufall erwarten? Wir gehen ganz analog zum 2-Stichproben-t-Test vor. Das zugrundeliegende Modell für k Gruppen: X1j = µ1 + σZ1j .. . für j = 1, . . . , n1 Xkj = µk + σZkj für j = 1, . . . , nk , also X = µ + σZ mit 32 µ∈M 70 65 60 Gerinnungszeit (s) A B C D Behandlung Abbildung 11: Blutgerinnungszeit bei vier verschiedenen Wundbehandlungen und M := {(µ1 , . . . , µ1 , . . . , µk , . . . , µk )t |µ1 , . . . , µk ∈ R}, dim(M) = k. Wir untersuchen wieder die Nullhypothese µ1 = . . . = µk , also µ∈D mit D := {(µ, . . . , µ)t |µ ∈ R} und projizieren dazu X orthogonal auf die zueinander orthogonalen Unterräume D, E (mit M = D ⊕ E und somit dim(E) = k − 1) und M⊥ : X = PD X + PE X + PM⊥ X 1 x̄1 − x̄ x11 − x̄1 .. .. .. . . . + + = x̄ 1 x̄k − x̄ xk1 − x̄k .. .. .. . . . . Wir betrachten die Teststatistik F := ||PE X||2 /(k − 1) . ||PM⊥ X||2 /(n − k) (3) In jedem Fall gilt µ ∈ M, und damit ist PM⊥ µ = 0, und es gilt nach dem Satz von Fisher 1 ||P ⊥ X||2 = ||PM⊥ Z||2 ∼ χ2 (n − k). σ2 M Für den Zähler von F gilt unter der Nullhypothese (µ ∈ D) weiterhin PE µ = 0 und damit 1 ||PE X||2 = ||PE Z||2 ∼ χ2 (k − 1). σ2 Also gilt unter der Nullhypothese, d.h. wenn alle Gruppenmittelwerte gleich sind: F := ||PE X||2 /(k − 1) ∼ F isher(k − 1, n − k). ||PM⊥ X||2 /(n − k) Trifft die Nullhypothese aber nicht zu, d.h. ist µ ∈ / D, so ist PE µ 6= 0 und damit der Zähler von F tendenziell größer. 33 Klassische einfaktorielle Varianzanalyse Große Werte von F deuten also auf Abweichungen von der Nullhypothese hin. Ein Test der Nullhypothese zum Niveau 1 − α hätte damit den Annahmebereich {F |F ≤ qf (1 − α, k − 1, n − k)}, wobei qf (1 − α, k − 1, n − k) das 1 − α-Quantil der Fisher-Verteilung mit k − 1 und n − k Freiheitsgraden bezeichnet. Die klassische Varianzanalyse (kurz: ANOVA - ANalysis Of VAriance) zerlegt also eigentlich nur die Variabilität der Daten, ||X||2 in einen gemeinsamen Anteil, ||PD X||2 , in einen Anteil, der die Unterschiede zwischen den Gruppenmittelwerten repräsentiert, ||PE X||2 , und in einen Anteil, der die zufällige Variabilität innerhalb der Gruppen repräsentiert, ||PM⊥ X||2 . Wegen E||PM⊥ X||2 = σ 2 (n − k) ist der Nenner von F , s2 := ||PM⊥ X||2 /(n − k), ein erwartungstreuer Schätzer für σ 2 . Wegen Pythagoras ist ||X||2 = ||PD X||2 + ||PE X||2 | {z } + Treatmentquadratsumme = nx̄2 + X ni (x̄i − x̄)2 + i ni k X X ||PM⊥ X||2 | {z } Fehlerquadratsumme (xij − x̄i )2 . i=1 j=1 Im Blutgerinnungsbeispiel haben wir n1 = 4, n2 = n3 = 6, n4 = 8, x̄1 = 61, x̄2 = P 66, x̄3 = 68, x̄4 = 61, n = ni = 24 und x̄ = 64 und damit folgende Zerlegung: X = PD X + PE X + PM⊥ X mit xij = x̄ + (x̄i − x̄) + (xij − x̄i ), −3 64 62 60 64 −3 63 64 −3 59 64 −3 63 = 64 + 2 + 67 64 2 . . . .. .. .. −3 64 59 1 −1 2 −2 −3 1 .. . , −2 mit den entsprechenden Quadratsummen ||PE X||2 = 228 und ||PM⊥ X||2 = 112, und damit ||PE X||2 /(k − 1) 228/3 F = = ≈ 13.6. ||PM⊥ X||2 /(n − k) 112/20 Abbildung 12 zeigt, dass so große Unterschiede unter der Nullhypothese sehr selten vorkommen (p < 0.001). 34 0.0 0.2 0.4 0.6 Dichte 13.6 0 5 10 15 x Abbildung 12: Dichte der Fisher-Verteilung mit 3 und 20 Freiheitsgraden. 5.2 Das normale lineare Modell Die Varianzanalyse ist ein Beispiel einer statistischen Fragestellung im Rahmen eines linearen Modells. Allgemein haben wir es zu tun mit einem Modell der Form X = µ + σZ, wobei Z standardnormalverteilt auf Rn , σ ≥ 0 und µ ∈ M, mit M k-dimensionaler Teilraum des Rn . Im Rahmen dieses Modells können wir µ und σ schätzen und lineare Hypothesen testen: Schätzung von µ und σ 2 P P Für den kleinste-Quadrate-Schätzer µ̂ von µ gilt: (xi − µ̂i )2 = minµ̂∈M (xi − µ̂i )2 , und daher ||X − µ̂||2 = min ||X − m||2 , m∈M und so ist der kleinste-Quadrate-Schätzer wieder die orthogonale Projektion von X auf M: µ̂ = PM X = PM µ + PM σZ = µ + PM σZ. Also ist µ̂ erwartungstreuer Schätzer für µ. Analog mit R := PM⊥ X = σPM⊥ Z: s2 := ||P ⊥ Z||2 ||R||2 = σ2 M . n−k n−k Wegen ||PM⊥ Z||2 ∼ χ2 (n − k) ist s2 erwartungstreuer Schätzer für σ 2 , und nach dem Satz von Fisher unabhängig von µ̂. µ̂ ist auch der ML-Schätzer für µ, denn für X = (X1 , . . . , Xn ) unabhängig und Xi ∼ N (µi , σ 2 ) ist die Likelihoodfunktion gegeben durch P Y 1 (xi − µi ) 1 (xi − µi )2 √ exp − = exp − . 2σ 2 2σ 2 (2πσ 2 )n/2 2πσ 2 i Sie wird maximal, wenn die Summe der Residuenquadrate also für den Kleinste-Quadrate-Schätzer µ̂. 35 P (xi − µi )2 minimal wird, 5.2.1 Testen linearer Hypothesen Wir gehen ganz analog zur Varianzanalyse vor, nur wählen wir als Modellraum M einen beliebigen k-dimensionalen Teilraum von Rn und als Hypotheseraum D einen beliebigen d-dimensionalen Teilraum von M. Wir untersuchen wie gehabt die Nullhypothese µ ∈ D. Wie bisher zerlegen wir den Datenvektor X durch orthogonale Projektion auf D und M (mit M = D ⊕ E): X = PD X + PE X + PM⊥ X. Wie bisher ist unter der Nullhypothese µ ∈ D und damit PE X = σPE Z =⇒ 1/σ 2 ||PE X||2 ∼ χ2 (dim(E)). Analog gilt PM⊥ X = σPM⊥ Z =⇒ 1/σ 2 ||PM⊥ X||2 ∼ χ2 (n − k), und damit ist unter der Nullhypothese die Teststatistik F := ||PE X||2 /(k − d) ||PM⊥ X||2 /(n − k) Fisher(k − d, n − k)-verteilt. Abbildung 13: Normales Lineares Modell in der Nussschale 5.3 Paarweise Vergleiche, multiples Testen In der klassischen einfaktoriellen Varianzanalyse wird die Nullhypothese untersucht, dass alle Gruppenmittelwerte gleich sind. Welche Schlüsse erlaubt ein signifikantes Ergebnis? Welche Gruppen unterscheiden sich? Zunächst kann man zurückkehren zu den paarweisen Vergleichen, die wir aus dem tTest kennen. Für ein fest gewähltes Paar (j, `) von Gruppen können wir obiges Vorgehen 36 einschränken, um nur Unterschiede zwischen diesen beiden Gruppen zu untersuchen: Wir wählen von M einen zweidimensionalen Teilraum Mj,` := {(0, . . . , 0, a, . . . , a, 0, . . . , 0, b, . . . , b, 0, . . . , 0)t |a, b ∈ R}, bei dem die Einträge aller anderen Gruppen Null sind. Analog Dj,` := {(0, . . . , 0, a, . . . , a, 0, . . . , 0, a, . . . , a, 0, . . . , 0)t |a ∈ R} ⊂ Mj,` , und Ej,` sei das orthogonale Komplement von Dj,` in Mj,` . Wie bisher ist PEj,` X = (0, . . . , 0, x̄j , . . . , x̄j , 0, . . . , 0, x̄l , . . . , x̄l , 0, . . . , 0)t , und damit gilt unter der Nullhypothese µj = µ` : Fj,` := ||PEj,` X||2 /1 ∼ F isher(1, n − k), ||PM⊥ X||2 /(n − k) also Tj,` := p Fj,` ∼ student(n − k). Also ist s " Ij,` := x̄j − x̄l − 1 1 + s · qt(1 − α/2), x̄j − x̄l + nj n` s # 1 1 + s · qt(1 − α/2) nj n` ein Konfidenzintervall für µj − µ` zum Niveau 1 − α. Man bemerke: Dieses Vorgehen ist eine Mischung aus klassischem t-Test und klassischer einfaktorieller Varianzanalyse, da zwar nur zwei Gruppen verglichen werden, aber der Nenner der Teststatistik, s2 , aus dem gesamten Datensatz geschätzt wird. 5.3.1 Bonferroni-Korrektur Hat man ein bestimmtes Paar (j, `) im Auge, eignet sich das eben beschriebene Vorgehen gut. Aber was, wenn man alle Paare miteinander vergleichen will? Testet man jedes der k 2 Paare jeweils zum Signifikanzniveau α, so ist natürlich die Wahrscheinlichkeit, dass mindestens ein Test anschlägt, obwohl µ1 = µ2 = . . . = µk , nicht mehr α, sondern k größer. Bei k2 unabhängigen Tests wäre sie 1 − (1 − α)(2) , und für 0 < α < 1 ist k (1 − α)(2) < 1 − α. Eine einfache, aber rechtkonservative Möglichkeit, dieses Problem in den Griff zu bekommen, ist, α durch α/ k2 zu ersetzen und die entsprechenden Quantile für den Test zu verwenden. Die Idee dahinter: k Ws(mind. ein Test schlägt an) = Ws({Test 1 schlägt an} ∪ . . . ∪ {Test schlägt an}) 2 ≤ (k2) X i=1 k Ws(Test i schlägt an) = α 2 k Also ist 1 − 2 α eine einfache obere Schranke für (1 − α)(2) . Allerdings sind die resultierenden Konfidenzintervalle recht groß. k 37 5.3.2 Simultane Konfidenzintervalle nach Tukey Wenn alle Gruppen gleich groß sind (n1 = n2 = . . . = nk =: m), kann man direkt simultane Konfidenzintervalle für alle Paare µj − µ` bilden. Sei dafür zunächst √ √ c Ij,` := x̄j − x̄` − c · s/ m, x̄j + x̄` + c · s/ m ∀j, ` Für jedes Paar (j, `) bilden wir so ein Intervall mit derselben Breite, die von c abhängt. Wie groß ist c zu wählen, damit c 1 − α = Ws(µj − µ` ∈ Ij,` ∀(j, `)) √ √ = Ws(x̄j − x̄` − c · s/ m ≤ µj − µ` ≤ x̄j − x̄` + c · s/ m ∀(j, `)) √ = Ws(max m/s |(x̄j − µj ) − (x̄` − µ` )| ≤ c) (j,`) √ √ m(x̄j − µj ) σ m(x̄` − µ` ) max − min ≤c = Ws j ` s σ σ √ Die Terme m(x̄σi −µi ) , i = 1, . . . , k, sind unabhängig und N (0, 1)-verteilt. Das bedeutet, wir können für k unabhängige und N (0, 1)-verteilte ZVe Z1 , . . . , Zk die obige Wahrscheinlichkeit umschreiben zu ! maxj Zj − min` Z` p 1 − α = Ws ≤c . s2 /σ 2 Weiterhin gilt L √ und s und m(x̄i −µi ) σ s2 σ2 =L ||PM⊥ X||2 (n − k)σ 2 = 1 χ2 (n − k), n−k sind unabhängig. Daher muss man c so wählen, dass ! maxj Zj − min` Z` p 1 − α = Ws ≤c , Y /g wobei Z1 , . . . , Zk unabhängig und N (0, 1)-verteilt und unabhängig von Y ∼ χ2 (g). Die Verteilung von maxj Zj − min` Z` p Y /g heißt studentsche Spannweitenverteilung mit Parametern k (Anzahl der Gruppen) und n − k (Anzahl der Freiheitsgrade im Nenner). Zahlenbeispiele Für k = 4, n = 24, α = 0.05 findet man pα, k, n − k) = 3.96. Mit der p c =qtukey(1 − Bonferroni-Korrektur hätte man (mit 1/nj +√1/n` = 2/m) ein Konfidenzintervall √ mit Faktor qt(1 − α/12, 6 + 6 − 2) · 2 ≈ 3.28 · 2 = 4.63. Für k = 6, n = 36, α = 0.05 erhält man mit Tukey: c = 4.3, mit Bonferroni 5.41. Für k = 10, n = 60, α = 0.05 erhält man mit Tukey: c = 4.68, mit Bonferroni 6.39. 38 5.4 Lineare Kontraste Außer paarweisen Tests kann man auch andere Fragen stellen, z.B.: Ist die Differenz µ1 − µ2 so groß wie die Differenz µ3 − µ4 , also: µ1 − µ2 − (µ3 − µ4 ) = 0? All dies sind Beispiele für sogenannte lineare Kontraste, d.h. Ausdrücke der Form k X ci µi mit X ci = 0. i=1 Wir suchen nach simultanen Konfidenzintervallen für alle linearen Kontraste von µ, d.h. für alle X X κc = ci µi mit ci = 0. Konfidenzintervall für einen Kontrast P P P Für einen einzigen Kontrast κc = ci µi gilt mit κ̂c := ci x̄i und τc2 := c2i : X X ci x̄i = N ci µi , σ 2 /m · τc2 . L(κ̂) = L Also ist ein (1 − α)–Konfidenzintervall für κ gegeben durch √ √ Iκ := κ̂ − s/ m · τc · qt(1 − α/2, n − k), κ̂ + s/ m · τc · qt(1 − α/2, n − k) . (Wir schreiben κ statt κc .) Simultane Konfidenzintervalle für alle linearen P Kontraste Wir suchen ein γ so, dass für alle c = (c1 , . . . , ck ) mit ci = 0 gilt: √ √ Iκγ := κ̂ − s/ m · τc · γ, κ̂ + s/ m · τc · γ ist ein (1 − α)-Konfidenzintervall für den Kontrast κ, d.h. so, dass √ ||κ̂ − κ|| m γ ≤γ 1 − α = Ws(κ ∈ Iκ ∀κ) = Ws max c τc s (4) Dazu machen wir zunächst zwei Beobachtungen: Beobachtung 1 Für µ ∈ M = D ⊕ E zerlegen wir µ in seine orthogonalen Projektionen auf D und E: µ = PD µ + PE µ =: δ + β. E wird dadurch beschrieben, dass alle x ∈ E senkrecht auf (1, . . . , 1)t stehen, also: X E := {(a1 , . . . , ak )t | ai = 0}. P Wegen ci = 0 ist daher c ∈ E und damit X κc = ci µi =< c, µ > X =< c, PD µ > + < c, PE µ >=< c, PE µ >= ci βi , mit β = (β1 , . . . , βk )t . Außerdem definiert jedes Element von E einen Kontrast. 39 Beobachtung P2 Wegen κc = ci βi ist ||κ̂ − κ|| = | k X C.−S. ci (β̂i − βi )| ≤ i=1 qX c2i qX (β̂i − βi )2 . | {z } =τc Bei Cauchy-Schwarz (C.-S., < x, y >≤ ||x||·||y||) gilt genau dann Gleichheit, wenn x und y kollinear sind, d.h. oben ist κ̂ − κ maximal, wenn es ein a so gibt, dass ci = a(β̂i − βi ) ∀i = 1, . . . , k, d.h. wenn die ci proportional zu (β̂i − βi ) sind. Ein solches a gibt es, denn wegen β ∈ E und β̂ ∈ E ist auch (β̂ − β) ∈ E. Wir kehren zurück zu Gleichung (4) und sehen: qX ||κ̂ − κ|| max = (β̂i − βi )2 , c τc √ ||κ̂ − κ|| m ≤γ 1 − α = Ws max c τc s X = Ws(m/s2 · (β̂i − βi )2 ≤ γ 2 ) σ 2 ||PE Z||2 2 = Ws ≤γ σ 2 ||PM⊥ Z||2 /(n − k) ||PE Z||2 /(k − 1) γ2 = Ws ≤ . ||PM⊥ Z||2 /(n − k) k−1 und damit Für ein simultanes Konfidenzintervall zum Niveau (1 − α) für alle Kontraste κc muss also (mit n = m · k) gelten: γ̃ := γ2 = qf (1 − α, k − 1, k(m − 1)), k−1 also γ̃ ist das 1 − α-Quantil der Fisher(k − 1, k(m − 1))-Verteilung, und damit sind mit p p γ = (k − 1)γ̃ = (k − 1)qf (1 − α, k − 1, k(m − 1)) die Intervalle √ √ Iκγ := κ̂ − s/ m · τc · γ, κ̂ + s/ m · τc · γ simultane (1 − α)-Konfidenzintervalle für alle Kontraste κ. 5.5 Kruskal-Wallis-(H)-Test Wie auch beim t-Test gibt es auch für den Wilcoxon-Test ein analoges nichtparametrisches Verfahren zum Vergleich von k Stichproben, den Kruskal-Wallis-Test. Analog zum Wilcoxon-Test werden nicht die Zahlen, sondern die Ränge verwendet. 40 Erinnerung: Wilcoxon-Test Gegeben seien zwei unabhängige Stichproben X11 , . . . , X1n1 unabhängig und verteilt gemäß π1 X21 , . . . , X2n2 unabhängig und verteilt gemäß π2 Der Wilcoxon-Test testet die Nullhypothese, dass beide Stichproben aus derselben Verteilung stammen, also dass π1 = π2 , gegen die Alternative, dass eine Verteilung gegen die andere verschoben ist. Die Teststatistik war die Summe der Ränge in Gruppe 1: S := n1 X R1j , j=1 mit ES = n1 (n1 + n2 + 1)/2, Var(S) = n1 n2 (n1 + n2 + 1)/2, und für n1 , n2 → ∞ S − ES p → N (0, 1) Var(S) in Verteilung. Verallgemeinerung auf k Stichproben Das Modell und die Hypothesen sind analog: X11 , . . . , X1n1 unabhängig und verteilt gemäß π1 .... .. Xk1 , . . . , Xknk Sei n := P unabhängig und verteilt gemäß πk ni . Wir untersuchen die Nullhypothese: H0 : π1 = . . . = πk . Wieder ersetzen wir dazu die Zahlen Xij durch ihre Ränge Rij aus den Gesamtdaten. Der mittlere Rang aller n Zahlen ist R̄ = n+1 1 n(n + 1) = . n 2 2 Wir untersuchen die Abweichungen der mittleren Ränge in den k Gruppen, R̄i := 1 Pni j=1 Rij , i = 1, . . . , k vom mittleren Rang R̄ : ni k H := X 12 ni (R̄i − R̄)2 . n(n + 1) i=1 Sofern die πi kontinulierlich sind, sind unter der Nullhypothese die Ränge R11 , . . . , Rknk eine zufällige Permutation von 1, . . . , n, und es gilt für n → ∞ und ni /n → pi > 0 H −→ χ2 (k − 1) in Verteilung. Diese Approximation ist (als grobe Faustregel) für k = 3, ni ≥ 5 bzw. k ≥ 4 und ni ≥ 4 akzeptabel. 41 Bemerkung Häufig schreibt man H in anderer Form: H= wobei Si := 6 6.1 P j X S2 12 i − 3(n + 1), n(n + 1) ni Rij die Summe der Ränge in Gruppe j bezeichnet. Lineare Regression Modell und Parameterschätzer Bei der linearen Regression wird der lineare Zusammenhang zwischen mehreren Variablen untersucht. Die klassische Fragestellung: Gegeben seien je n Beobachtungen zweier Variablen X und Y : X = (x1 , . . . , xn ), Y = (y1 , . . . , yn ). Wenn X und Y in annähernd linearer Beziehung stehen, vermuten wir eine Beziehung der Form yi = β0 + β1 x + Fehler. Wir bestimmen zunächst die Koeffizienten β0 und β1 : Kleinste Quadrate In der klassischen Fragestellung werden die Beobachtungen xi und yi als fest betrachtet, und wir bestimmen β0 und β1 nach der Methode der kleinsten Residuenquadrate: n X (yi − (β̂0 + β̂1 xi ))2 = min! i=1 Die Gerade {(x, y)|y = β̂0 + β̂1 x} heißt Regressionsgerade. Maximum Likelihood Lineare Regression kann man aber auch im Rahmen des normalen linearen Modells betrachten, und damit sind wieder die ML-Schätzer identisch mit den Kleinste-QuadrateSchätzern. Diesmal werden nur die xi als feste reelle Zahlen betrachtet: Yi = β0 + β1 xi + σZi , wobei Z1 , . . . , Zn unabhängig und N (0, 1)-verteilt, also Yi ∼ N (β0 + β1 xi , σ 2 ), oder Y = β0 1 + β1 X + σZ. Das heißt, die Likelihoodfunktion ist gegeben durch n Y P (Yi − (β0 + β1 xi ))2 √ L= exp . 2 2σ 2 2πσ i=1 P Wiederum wird L maximiert für minimale Residuenquadratsumme (Yi −(β0 +β1 xi ))2 , das heißt, die ML-Schätzer und die Kleinste-Quadrate-Schätzer für β0 und β1 stimmen überein. 1 − (Yi −(β0 −β1 xi ))2 2σ 2 1 = exp − (2πσ 2 )n/2 42 Alternative Schreibweise: Das lineare Regressionsmodell Wir betrachten das Vorhergehende im Lichte des normalen linearen Modells: Y = β0 1 + β1 X + σZ = µ + σZ, mit µ ∈ M := {α0 1 + α1 X|α0 , α1 ∈ R}, Alternativ: dim(M) = 2. 1 x1 β0 + σZ. Y = ... ... β1 1 xn | {z } =:C Die n × 2-Matrix C nennt man Systemmatrix, β = (β0 , β1 )t die Regressionskoeffizienten. Die Modellannahme ist µ ∈ M := {Cβ|β ∈ R2 }. Die kleinste-Quadrate-Schätzer für β in Matrixschreibweise: (Y − C β̂)⊥C β̂ =⇒ (Y − C β̂)t C = 0 ⇐⇒ Yt C = β̂ t C t C ⇐⇒ C t Y = C t C β̂ Dies ist eindeutig lösbar genau dann, wenn C t C regulär ist, also vollen Rang hat, d.h. wenn die Spaltenvektoren von C linear unabhängig sind. Die Schätzer für die univariate Regression In der klassischen Fragestellung Y = β0 + β1 X+ Fehler haben die Parameterschätzer folgende anschaulichen Eigenschaften. 1) Der Schwerpunkt (x̄, ȳ) der Datenwolke liegt auf der Regressionsgeraden: X (Y − C β̂)⊥1 =⇒ (yi − β̂0 − β̂1 xi ) = nȳ − nβ̂0 − β̂1 nx̄ = 0. 2) Die Steigung β1 hängt ab von σx , σy und der Korrelation zwischen x und y: (Y − C β̂)⊥X =⇒ X X 0= (yi − β̂0 − β̂1 xi )xi (und wegen (yi − β̂0 − β̂1 xi )x̄ = 0 gilt:) X = (yi − β̂0 − β̂1 xi )(xi − x̄) X = (yi − β̂1 xi )(xi − x̄) X = ((yi − ȳ) − β̂1 (xi − x̄))(xi − x̄) P sy (yi − ȳ)(xi − x̄) Cov(x, y) P =⇒ β̂1 = = = rx,y . s2x sx (xi − x̄)2 s Falls r = 1, ist β̂1 = sxy : wächst x um sx , so wächst y um sy . Falls |r| < 1, so fällt die Steigung entsprechend geringer aus. Falls r = 0, so ist die Steigung der Regressionsgeraden immer 0, denn die Kenntnis von x liefert keine Informationen über die Größe von y. 43 6.2 Die Geometrische Bedeutung von r und der Multiple Korrelationskoeffizient Um den Korrelationskoeffizienten für die multiple Regression verallgemeinern zu können, machen wir zunächst die folgende Beobachtung: Es gilt r2 = ||PE Y||2 ||PD⊥ Y||2 (5) Bedeutung: Welcher Anteil der Variabilität in Y (||PD⊥ Y||2 ) wird durch die Vorhersage durch X (||PE Y||2 ) eingefangen (’erklärt’)? Beweis von (5): Setze M := {β0 1 + β1 X|β0 , β1 ∈ R} D := {β0 1|β0 ∈ R} E := {c(X − x̄1)|c ∈ R} Wir beobachten: 1) PE Y = c(X − x̄1) mit c = P (y Pi −ȳ)(xi −x̄) . (xi −x̄)2 Warum? < Y − c(X − x̄1), X − x̄1 >= 0 X X =⇒ yi (xi − x̄) − c (xi − x̄)2 = 0 P P (yi − ȳ)(xi − x̄) yi (xi − x̄) P P =⇒ c = = , (xi − x̄)2 (xi − x̄)2 P P denn ȳ(xi − x̄) = ȳxi − nȳx̄ = 0. Damit ist P X ( (yi − ȳ)2 (xi − x̄)2 )2 2 2 2 P ||PE Y|| = c (xi − x̄) = . (xi − x̄)2 2) Wegen PD⊥ Y = Y − ȳ1 folgt ||PD⊥ Y||2 = X (yi − ȳ)2 . Also gilt: r2 = P ((yi − ȳ)(xi − x̄))2 ||PE Y||2 P P = ||PD⊥ Y||2 (xi − x̄)2 (yi − ȳ)2 Der multiple Korrelationskoeffizient Wir betrachten nun ein Modell, in dem Y nicht nur durch eine Variable X vorhergesagt werden soll, sondern durch viele Variablen X1 , . . . , X`−1 : Y = Cβ + σZ = β0 + β1 X1 + β2 X2 + . . . + β`−1 X`−1 + σZ = µ + σZ mit µ ∈ M := {Cβ|β ∈ R` }. Wir stellen die Frage: Helfen die Variablen X1 , . . . , X`−1 bei der Vorhersage von Y? Oder ist die Verbesserung der Vorhersage gegenüber dem Modell 44 Y = β0 + σZ nicht größer als durch Zufall zu erwarten, d.h. wenn PE Y = PE σZ? Um diese Frage zu untersuchen, könnte man R2 := ||PE Y||2 ||PD⊥ Y||2 verwenden. Unter der Nullhypothese gilt für den Zähler 1/σ 2 ||PE Y||2 = ||PE Z||2 ∼ χ2 (` − 1) und für den Nenner 1/σ 2 ||PD⊥ Y||2 = ||PD⊥ Z||2 ∼ χ2 (n − 1). Da aber sowohl Zähler als auch Nenner die Projektion auf E enthalten und nicht mehr unabhängig sind, verwendet man ||PE Y||2 = ||PM⊥ Y||2 ||PE Y||2 ||PD⊥ Y||2 Y||2 ||PM⊥ ||PD⊥ Y||2 = R2 , 1 − R2 denn ||PM⊥ Y||2 = ||PD⊥ Y||2 − ||PE Y||2 . Und hier sieht man leicht die Verwandtschaft zur bekannten F -verteilten Teststatistik: Unter der Nullhypothese gilt R2 /(` − 1) ∼ F (` − 1, n − `). (1 − R2 )/(n − `) Für ` = 2 folgt damit sofort: r2 · (n − 2) ∼ F (1, n − 2) 1 − r2 bzw. √ r n−2 √ ∼ t(n − 2). 1 − r2 (6) Der Term in (6) ist die klassische Statistik zum Test der Korrelation normalverteilter Zufallsvariablen. 6.2.1 Ein Konfidenzintervall für die Korrelation Wir betrachten hier nur den Fall von normalverteilten Zufallsvariablen. Zunächst unterscheiden wir zwischen der ’wahren’ Korrelation ρ zweier Zufallsvariablen X und Y und der empirischen Korrelation r ihrer Realisierungen (x1 , . . . , xn ), (y1 , . . . , yn ). Anhand von r möchten wir ein Konfidenzintervall für ρ herstellen. Dies ist allerdings nicht leicht, da die Verteilung und Varianz von r stark von ρ abhängen (Abb. 14). Während für ρ ≈ 0 die Verteilung, zumindest für größere n, annähernd normal ist, ist sie für |ρ| >> 0 (und nicht genügend größe n) deutlich schief. 45 ρ = 0.5, n=100 Dichte −1.0 −0.5 0.0 0.5 r 0 1 2 3 4 5 2 1 0 Dichte 3 4 ρ = 0, n=100 1.0 −1.0 −0.5 Dichte −0.5 0.5 1.0 0.0 0.5 r 0.5 1.0 0.0 0.5 1.0 1.5 0.8 Dichte 0.4 0.0 −1.0 r ρ = 0.5, n=10 1.2 ρ = 0, n=10 0.0 1.0 −1.0 −0.5 0.0 r 0 −4 −2 z 2 4 Abbildung 14: Verteilungen von r für ρ = 0 (links) und ρ = 0.5 (rechts), n = 100 (oben) und n = 10 (unten). −1.0 −0.5 0.0 r 0.5 1.0 Abbildung 15: Fisher’s z-Transformation 46 Ein Ausweg: Fisher’s z-Transformation 1 1+r z := log . 2 1−r Diese Größe streckt Werte von √ r nahe 1 (Abb. 15) und ist für normalverteilte Zufallsvariablen annähernd N (0, 1/ n − 3)-verteilt. Die Vorteile: 1) Die Standardabweichung hängt nicht mehr von ρ ab, sondern nur von n, und muss daher nicht geschätzt werden. 2) Die Form der Verteilung hängt auch nicht mehr von ρ ab. Ein Konfidenzintervall für ρ baut man dann einfach dadurch, dass man ein KI für den z-transformierten Wert erstellt und die Grenzen rücktransformiert. Beispiel: n = 10, r = 0.9. √ =⇒ z = 1.472. 95% − KI : z ± 1.96 ∗ 1/ 7 ≈ z ± 0.741 : [0.831, 2.213]. Rücktransformation ergibt ein 95%-Konfidenzintervall für ρ von [0.624,0.976]. Offensichtlich ist dieses nicht symmetrisch um r, aber entspricht der Schiefe der Verteilung und liegt im Bereich der möglichen Werte für ρ. Ein Vergleich zwischen r1 und r2 kann analog durchgeführt werden, in dem r1 und r2 z-transformiert werden, dann ist approximativ z1 ∼ N (0, 1/(n1 − 3)) und z2 ∼ N (0, 1/(n2 − 3)), und damit gilt approximativ z1 − z2 q 6.3 1 n1 −3 + 1 n2 −3 ∼ N (0, 1). Ein Konfidenzbereich für β̂ Definition Kovarianzmatrix Sei X := (X1 , . . . , Xk )t eine Rk -wertige Zufallsvariable mit Erwartungswert µ = EX. Dann heisst die Matrix mit Einträgen cij := Cov(Xi , Xj ) = E[(Xi − µi )(Xj − µj )] die Kovarianzmatrix von X. Definition Normalverteilung auf Rk X heißt normalverteilt auf Rk mit Mittelwert µ und Kovarianzmatrix C (schreibe: X ∼ N (µ, C)) genau dann wenn EX = µ, Cov(Xi , Xj ) = cij ∀i, j und ∀a ∈ Rk ist aT X normalverteilt auf R1 . 47 Behauptung: Sei wie im normalen linearen Regressionsmodell Y = Cβ + σZ, mit Z standardnormalverteilt auf Rn . Dann ist β̂ normalverteilt mit Eβ̂ = β und Kovarianzmatrix σ 2 (C T C)−1 , denn: β̂ = (C T C)−1 C T Y = (C T C)−1 C T (Cβ + σZ) = (C T C)−1 C T Cβ + (C T C)−1 C T σZ = β + (C T C)−1 C T σZ Wegen EZ = 0 ist β̂ erwartungstreu, und Var((C T C)−1 C T σZ) = (C T C)−1 C T σ 2 C(C T C)−1 = σ 2 (C T C)−1 . Satz (von Cochran) (z.B. Shao Mathematical Statistics 2nd edition, 2003, S. 27) Sei V ∼ N (0, Σ) normalverteilt auf Rk und habe Σ vollen Rang k. Dann ist V T Σ−1 V ∼ χ2 (k). Was bedeutet dies für den Konfidenzbereich für β? Mit β̂ − β ∼ N (0, σ 2 (C T C)−1 ) bedeutet dies CT C (β̂ − β)T · · (β̂ − β) ∼ χ2 (`), σ2 also ist ein Konfidenzbereich für β zum Niveau 1 − α gegeben durch β̂ + {v ∈ R` |v T · 6.4 CT C · v ≤ qchisq(1 − α, `)}. σ2 Multivariate Regression Wir haben bereits oben Modell und Parameterschätzer für das normale lineare Regressionsmodell mit mehr Variablen besprochen: Y = β0 + β1 X1 , +β2 X2 + . . . + β`−1 X`−1 , mit β̂ = (C T C)−1 C T Y und gezeigt, dass mit Σ := σ 2 (C T C)−1 β̂ ∼ N (β, Σ). 6.4.1 Orthogonale Regressoren Im Fall von orthogonalen Regressoren Xi ⊥Xj ∀i 6= j kann man M in orthogonale lineare Unterräume zerlegen, die von den Xi aufgespannt werden. Die β̂i erhält man durch orthogonale Projektion von Y auf diese Unterräume. Diese Projektionen sind unabhängig, und damit sind die Schätzer β̂i unabhängig, d.h. Σ ist eine Diagonalmatrix, und es gilt β̂i = 1 σ Xi < Y, Xi >= βi + < Z, > 2 ||Xi || ||Xi || ||Xi || =⇒ β̂i ∼ N (βi , σ2 ). ||Xi ||2 Aus der Unabhängigkeit folgt auch, dass ∀i die Schätzer von βi dieselben sind, egal wie viele der Variablen X1 , . . . , Xi−1 , Xi , . . . , X`−1 zur Vorhersage von Y herangezogen werden. (Bei nicht orthogonalen Regressoren ist das idR nicht der Fall) 48 Beispiel 7 Lineare Regression mit X̄ = 0. Schätzverfahren In der Regel gibt es für einen Parameter mehrere Schätzer. Welchen soll man nehmen? Welche Schätzverfahren gibt es, und wie bewertet man die Schätzer? Beispiel: X1 , . . . , Xn seien unabhängig und uniformverteilt auf [0, `]. Als Schätzer für ` bieten sich an: `ˆ1 := 2X̄, denn EX = `/2. n+1 `ˆ2 := max (Xi ). n i=1,...,n Beide Schätzer sind erwartungstreu: Im zweiten Fall kompensiert der Faktor n+1 n dafür, dass max(Xi ) =: M < `. Um zu zeigen, dass E`ˆ2 = `, berechnen wir zunächst die Verteilungsfunktion von M : F (x) = Ws(M ≤ x) = Z` =⇒ EM = x x n ` =⇒ n d F (x) = n xn−1 , dx ` 0 ≤ x ≤ `. n n−1 dx = x `. n ` n+1 n 0 Welchen der beiden Schätzer sollte man nun nehmen? Wir vergleichen die erwarteten quadratischen Fehler: 4 EX̄=` E (`ˆ1 − `)2 = Var(2X̄) = Var(Xi ) n ` Z 2 2 4 x ` 4 `2 4 E(Xi2 ) − E(Xi )2 = dx − = · = n n ` 4 n 12 0 1 = · `2 . 3n n+1 (n + 1)2 2 E`ˆ2 =` ˆ E (`2 − `) = Var M = E(M 2 ) − `2 . n n2 Mit 2 Z` E(M ) = x2 n n−1 x · `2 dx = `2 n+2 n 0 folgt 2 1 2 (n + 1) 2 ˆ E (`2 − `) = ` −1 = · `2 . n(n + 2) n(n + 2) Der mittlere quadratische Fehler von `ˆ2 fällt mit n−1 , aber der mittlere quadratische Fehler von `ˆ2 fällt sogar mit n−2 . 49 7.1 Der Mittlere quadratische Fehler Warum der mittlere quadratische Fehler? Der mittlere quadratische Fehler ist einer der gängigsten Maßstäbe zur Bewertung von Schätzern. In der Tat liefert er beim Vergleich von Schätzern dieselben Resultate wie jede ‘vernünftige’ vergleichbare Gütefunktion EL: Hat von zwei Schätzern θ̂1 , θ̂2 eines Parameters θ̂1 den kleineren quadratischen Fehler, so ist auch EL(θ̂1 ) < EL(θ̂2 ). Für eine ‘vernünftige vergleichbare’ Gütefunktion L gelte • L(θ) = 0: Schätzt man den wahren Parameter, so ist der Fehler Null. • L ist zweimal differenzierbar und hat an der Stelle θ ein lokales Minimum, so dass L0 (θ) = 0 und L00 (θ) > 0. Dann kann man L in der Nähe von θ beschreiben durch c · (θ̂ − θ)2 : L00 (θ) L(θ̂) = L(θ) + L0 (θ) ·(θ̂ − θ) + ·(θ̂ − θ)2 + . . . |{z} | {z } 2 | {z } =0 =0 =c(θ)>0 Ist θ̂ nahe bei θ, kann man die weiteren Terme vernachlässigen. Damit EL(θ̂) ≈ c(θ)E((θ̂ − θ)2 ). Hat also θ̂1 einen kleineren mittleren quadratischen Fehler als θ̂2 : E((θ̂1 − θ)2 ) E((θ̂2 − θ)2 ), so ist auch EL(θ̂1 ) EL(θ̂2 ). Konsistenz und der mittlere quadratische Fehler Grob gesprochen, bezeichnet die Konsistenz eines Schätzers die Eigenschaft, dass die Abweichung des Schätzers vom zu schätzenden Wert mit wachsendem Stichprobenumfang gegen Null geht. Formal: Ein Schätzer θ̂n heißt konsistenter Schätzer für θ, falls für alle ε > 0 gilt: Ws(|θ̂n − θ| > ε) → 0 für n → ∞. Für die Konsistenz eines Schätzers reicht es, wenn sein mittlerer quadratischer Fehler gegen Null geht, also wenn E (θ̂n − θ)2 → 0 für n → ∞. Um dies einzusehen, stellen wir fest: |θ̂n −θ|2 ≥ ε2 gilt auf der Menge A := {|θ̂n −θ| > ε}. Damit können wir schreiben |θ̂n − θ|2 ≥ ε2 · IA , wobei IA = 1 die Indikatorvariable der Menge A ist. Wir bilden die Erwartungswerte: E (θ̂n − θ)2 ≥ ε2 · Ws(|θ̂n − θ| > ε). Für festes ε und n → ∞ geht die linke Seite gegen Null und damit auch die rechte. 50 Zerlegung des mittleren quadratischen Fehlers Falls θ̂ erwartungstreu ist, so entspricht der mittlere quadratische Fehler gerade der Varianz von θ̂: Eθ̂=θ E (θ̂ − θ)2 = Var(θ̂). Ist θ̂ aber nicht erwartungstreu, d.h. b(θ̂) = E(θ̂) − θ 6= 0 (b...‘bias’), so kann man den mittleren quadratischen Fehler zerlegen in die Varianz und das Quadrat der Verzerrung: E (θ̂ − θ)2 = E (θ̂ − Eθ̂ + Eθ̂ − θ)2 = E (θ̂ − Eθ̂)2 + 2b(θ̂)E (θ̂ − Eθ̂) + b2 (θ̂) = Var(θ̂) + b2 (θ̂). Häufig sind Var(θ̂) und b(θ̂) gegenläufig - je kleiner das eine, desto größer das andere. Es kann daher manchmal sinnvoll sein, eine kleine Verzerrung in Kauf zu nehmen, um den erwarteten quadratischen Fehler zu minimieren: Kontrollierte Verzerrung eines Schätzers. Ein Beispiel Wir wollen die Wahrscheinlichkeit p für das Eintreten eines Ereignisses A schätzen und führen dazu n unabhängige Versuche durch. Seien I1 , . . . , In mit Ii = 1, falls A eingetreten ist, und Null sonst. Ein plausibler Schätzer für p ist die relative Häufigkeit der Erfolge: 1X p̂1 := Ii . n i p̂1 ist erwartungstreu und hat mittleren quadratischen Fehler E (p̂1 − p)2 = Var(p̂1 ) = p(1−p) 1 n Var(I1 ) = n . Aber: Dieser Schätzer hat nicht zwangsläufig minimalen quadratischen Fehler! Betrachte einen zweiten Schätzer p̂2 := γ p̂1 für geeignet zu wählendes γ. Mit E(p̂2 ) = γp ist p̂2 für γ 6= 1 nicht erwartungstreu. Aber: 1 2 E (p̂2 − p)2 = Var(p̂2 ) + (γp − p)2 = γ p(1 − p) + np2 (1 − γ)2 . n Abhängig von p und γ kann dies kleiner sein als E (p̂1 − p0 )2 = E (p̂2 − p0 )2 p(1−p) n . Für γ = 0.9 ist z.B. für p0 ≈ 1 . 1 + 0.05n Für p < p0 hat p̂2 kleineren quadratischen Fehler, für p > p0 ist p̂1 zu bevorzugen. Wenn also bekannt ist, dass p sicher kleiner ist als ein festes p0 , so kann man γ geeignet wählen (Übung). 51 Aus dem letzten Beispiel haben wir gelernt, dass die Güte eines Schätzers auch vom Wert des Parameters abhängen kann: Für einen Parameterbereich kann ein Schätzer besser sein als ein anderer, für einen anderen Parameterbereich kann es anders aussehen. Es gibt in der Regel keine Schätzmethode, für die der mittlere quadratische Fehler für alle Werte von θ kleiner wäre als für alle anderen Methoden. Aber es gibt eine Methode, die meistens gut funktioniert: 7.2 Das Maximum-Likelihood Prinzip Seien X1 , . . . , Xn u.i.v. gemäß einer Verteilung, die von θ abhängt. Gegeben (X1 , . . . , Xn ) = (x1 , . . . , xn ), ist der Maximum-Likelihood-Schätzer von θ diejenige Zahl θ̂M L , die dem Ereignis {(X1 , . . . , Xn ) = (x1 , . . . , xn )} maximales Gewicht zuordnet. Im diskreten Fall ist θ̂M L so definiert, dass Wsθ̂M L ((X1 , . . . , Xn ) = (x1 , . . . , xn )) maximal wird. Q Hat X1 Dichte fθ (x), so soll ni=1 fθ (xi ) maximal werden. Bsp. 1: Münzwurf mit Erfolgsparameter p. Von n Versuchen beobachten wir k Erfolge, mit n k Ws(X = k) = p (1 − p)n−k . k Das Maximum dieser Funktion findet man am einfachsten durch Ableiten ihres Logarithmus, denn da log(x) eine streng monotone Funktion ist, ist das Maximum von log f an derselben Stelle wie das Maximum von f . log(Ws(X = k)) = c + k log p + (n − k) log(1 − p) und damit d k n−k log(. . .) = − . dp p 1−p (Für p = 0 oder p = 1 gilt Ws(X = 0) = 1 bzw. Ws(X = n) = 1. In beiden Fällen stimmt der ML-Schätzer p̂M L mit p überein.) Für die anderen Fälle findet man durch Nullsetzen der Ableitung den ML-Schätzer p̂M L = k/n, die relative Häufigkeit der Erfolge. Bsp. 2: Uniformverteilung Seien X1 , . . . , Xn unabhängig und Unif[0, `]-verteilt. Gesucht ist der ML-Schätzer für `. Die Dichte von X ist ( ( 1/` x ∈ [0, `] 1/`n xi ∈ [0, `]∀ i f` (x) = =⇒ f` (x1 , . . . , xn ) = 0 sonst 0 sonst. Figur 16 zeigt den Graphen von f` (x1 , . . . , xn ): Er ist maximal bei ` = max(xi ), doch findet man das Maximum hier nicht durch Ableiten, weil f` dort nicht differenzierbar ist. 7.2.1 Eigenschaften von Maximum-Likelihood-Schätzern 1.: Ist θ̂ ML-Schätzer von θ, so ist der ML-Schätzer einer (injektiven) Funktion h(θ) gerade h(θ̂). Warum? Wenn das Ereignis {X = x} für θ̂M L maximales Gewicht hat, so hat es auch unter h(θ) = h(θ̂M L ) maximales Gewicht. 52 fl(x1, … , xn) 1/`n max xi ` Abbildung 16: f` (x1 , . . . , xn ) für X1 , . . . , Xn unabhängig und Unif[0, `]-verteilt. Beispiel Die Lebensdauer X eine Sorte Glühbirnen sei Exp(λ)-verteilt, d.h. Ws(X ≤ x) = 1 − e−λx . Wir suchen die Wahrscheinlichkeit, dass eine Glühbirne weniger als 200 Stunden brennt, und beobachten dazu die Lebensdauern x1 , . . . , xn von n Glühbirnen. • Der ML-Schätzer von λ ist 1 , X̄ wie leicht durch P Logarithmieren und Ableiten der gemeinsamen Dichte fλ = Q man −λxi = λn e−λ xi feststellt. λe i λ̂M L = • Der ML-Schätzer von Ws(X ≤ 200) = 1 − e−λ200 ist damit 1 − e−λ̂M L 200 . • Da die Exponentialverteilung nur von λ abhängt, ist auch 1−e−λ̂M L x ML-Schätzer der zugehörigen Verteilungsfunktion, und für jedes Intervall [a, b] ist der MLSchätzer von Ws(X ∈ [a, b]) gegeben durch e−λa − e−λb . • Es kommt nicht auf die Parametrisierung an: Bei (im englischen Sprachraum üblicher) Parametrisierung der Exponentialverteilung mit β = 1/λ: λe−λx → 1 − βx e β gilt β̂M L = 1 λ̂M L = X̄. 2.: Für eine (im folgenden näher beschriebene) bestimmte Klasse von Problemen ist die ML-Methode asymptotisch (d.h. für n → ∞) im Sinne des mittleren quadratischen Fehlers mindestens so gut wie jede andere Schätzmethode. (ML ist asymptotisch effizient) Die Problemklasse ‘glatter’ Probleme Sei R der Wertebereich der ZVe X, d.h. ( {x|Ws(X = x) > 0} für X diskrete ZVe, Rb R := kleinstes Intervall [a, b], mit a f (x)dx = 1 für X stetige ZVe. Es soll gelten 53 • fθ (x) (bzw. Wsθ (X = x)) hat stetige zweite Ableitung in θ, • Die Ableitungen müssen auf sinnvolle Weise beschränkt sein: Für jedes kleine Intervall J von θ-Werten soll 2 Z Z ∂ ∂ max fθ (x) dx < ∞ und max 2 fθ (x) dx < ∞ θ∈J ∂θ θ∈J ∂ θ • Für alle θ soll maxx∈R |fθ (x)| < ∞. Dies trifft für die meisten gängigen Verteilungen zu. Ausnahmen bilden die uniforme Verteilung und die doppelte Exponentialverteilung. Die Fisher-Information Hat X Dichte fθ (x), die von θ abhängt, so ist die FisherInformation der Verteilung von X in θ definiert als " 2 # ∂ . log fθ (x) I(θ) = E ∂θ Also: (P 2 ∂ i ∂θ log Wsθ (X = xi ) Wsθ (X = xi ) I(θ) = R ∂ 2 ∂θ log fθ (x) fθ (x)dx Beispiel im diskreten Fall, im Dichtefall. X ∼ Exp(λ). Dann ist I(θ) = 1/λ2 , denn ∂ 1 log fλ (x) = log λ − λx, log fλ (x) = − x ∂λ λ 2 Z 1 1 =⇒ I(λ) = − x fλ (x)dx = 2 . λ λ In glatten Problemen gibt es eine untere Schranke für den mittleren quadratischen Fehler: Satz Sei ϑ̂n ein konsistenter Schätzer für ϑ in einem Problem der oben beschriebenen Klasse. Dann gilt: 1 1 2 +o E[(ϑ̂n − ϑ) ] ≥ nI(ϑ) n (Beweisidee in Breiman, Statistics: With a view toward applications, S. 94) L sei eindeutig (d.h. die ML-Gleichungen haben eine einSatz Der ML-Schätzer ϑ̂M n deutige Lösung). Dann gilt 1 1 L 2 E[(ϑ̂M − ϑ) ] = + o n nI(ϑ) n (ohne Beweis) 54 3.: ML-Schätzer sind in der Regel konsistent (bis auf pathologische Fälle). 4.: Asymptotische Normalität des ML-Schätzers Unter (relativ schwachen) Regularitätsvoraussetzungen gilt die schwache Konvergenz: √ L L( n(ϑ̂M − ϑ)) → N (0, I(ϑ)−1 ) (n → ∞). n Die Regularitätsvoraussetzungen sind häufig erfüllt: Lϑ (x) := log fϑ (x) muss zweimal stetig differenzierbar sein, und es muss gelten Z ∂2 fϑ (x)dx = 0. (7) ∂ϑ2 Was impliziert das anschaulich? Unter dieser Bedingung entspricht die Fisher-Information gerade dem Erwartungswert der zweiten Ableitung von L. ∂ ∂2 Wir schreiben kurz: f 0 für ∂ϑ f und f 00 für ∂ϑ 2 f. I(ϑ) = E[L0ϑ (X)2 ] f 0 (X)2 = E ϑ2 fϑ (X) fϑ (X)fϑ00 (X) − fϑ0 (X)2 = −E = −E[L00ϑ (X)], fϑ2 (X) R ∂2 00 denn mit ∂ϑ 2 fϑ (x)dx = 0 ist E(fϑ (X)/fϑ (X)) = 0. Die Fisher-Information entspricht also der (negativen) mittleren Krümmung: Je stärker Lϑ (x) im Mittel an der Stelle ϑ gekrümmt ist, desto kleiner ist die asymtotische Varianz des ML-Schätzers. Man rechnet Bedingung (7) leicht nach. Z.B. für X exponentialverteilt und entsprechend fϑ (x) = ϑe−ϑx : ∂2 ∂ −ϑx −ϑx f (x) = e − xϑe ϑ ∂ϑ2 ∂ϑ = −xe−ϑx − x e−ϑx − xϑe−ϑx = −2xe−ϑx + x2 ϑe−ϑx Z 7.3 ∂2 2 1 1 2 fϑ (x)dx = − EX + Var(X) + (EX)2 = − 2 + 2 + 2 = 0 2 ∂ϑ ϑ ϑ ϑ ϑ Die Momentenmethode Eine weitere gängige Methode, Schätzer zu bestimmen, ist die Methode der Momente: Man vergleiche die k-ten Momente der Verteilung: Z k EX = xk fϑ (x)dx mit den Momenten der Stichprobe: 1X k xi , n k = 1, 2, . . . ,. Häufig stimmen Momentenschätzer und ML-Schätzer überein: P ¯ Münzwurf mit Erfolgsparameter p: E( n1 Ii ) = p =⇒ p̂ = I. 55 Exponentialverteilung X1 , . . . , Xn unabh., Exp(λ)-verteilt: Mit EX = λ1 folgt λ̂ = X̄1 . Nicht so bei der Uniformen Verteilung auf [0, `], wie wir bereits gesehen haben: Der Momentenschätzer von ` ist `ˆ = 2X̄ wegen EX = 2` . Der ML-Schätzer ist M = max(X1 , . . . , Xn ). Momentenschätzer sind nach Konstruktion unverzerrt, und konsistent, und sie sind manchmal leichter zu ermitteln als ML-Schätzer. Aber sie haben eventuell einen hohen mittleren quadratischen Fehler. 7.4 Kleinste Quadrate Wir möchten einen Datensatz möglichst gut mit einer bestimmten Funktion V (ϑ) beschreiben. Einfachstes Beispiel: X1 , . . . , Xn sollen ’möglichst gut’ mit einer konstanten Funktion V (ϑ) = ϑ1 beschrieben werden, und zwar so, dass die Quadratsumme der Residuen zwischen V und X minimal wird: X (ϑ − Xi )2 = min . Den Schätzer in diesem Fall kennen wir schon: ϑ = X̄. Da minimale Quadratsummen durch orthogonale Projektionen entstehen, haben wir auch im t-Test solche Schätzer kennen gelernt. Wir werden weitere Beispiele in der Varianzanalyse und der linearen Regression sehen. Häufig stimmen die Schätzer vieler Methoden überein: Für X1 , . . . , Xn unabhängig und identisch normalverteilt mit Mittelwert µ ist X̄ der kleinste-Quadrate-Schätzer, der Momentenschätzer und der ML-Schätzer für µ. 7.5 Bootstrap-Konfidenzintervalle Ein Schätzer hängt von den zufälligen Beobachtungen ab und ist daher variabel. Oft kann man seine exakte Varianz oder gar seine exakte Verteilung bestimmen, wie bei der t-Statistik. Wenn das nicht möglich ist, gibt es evtl. asymptotische Aussagen (z.B. die approximative Normalität der t-Statistik für unabhängige und identisch verteilte ZVen). Was kann man tun, wenn man die Varianz eines Schätzers weder exakt noch asymptotisch ermitteln kann? Man könnte sie empirisch bestimmen, indem man den Versuch oft wiederholt. Z.B.: Ein Versuch mit n unabhängigen p-Münzwürfen Ii . Wir schätzen P p̂ = 1/n Ii (und wissen: Var(p̂) = p(1 − p)/n). Ohne dieses Wissen könnten wir durch häufiges Wiederholen dieses Versuches auf empirische Weise die Varianz schätzen. Aber das Wiederholen eines Versuches ist oft teuer oder unmöglich. Daher legt die Bootstrapmethode die empirische Verteilung statt der wahren Verteilung zu Grunde, und es werden ‘Bootstrapstichproben’ aus der empirischen Verteilung gezogen: n Werte, unabhängig (d.h. mit Zurücklegen) und identisch verteilt (gemäß der empirischen Verteilung). Die Idee ist, dass die Varianz des Schätzers in den Bootstrapstichproben die Varianz des Schätzers aus den echten Stichproben approximiert. Wir haben also Beobachtungen X = (X1 , . . . , Xn ), unabhängig und identisch verteilt gemäß einer Verteilung ν. Wir schätzen ein Merkmal m(ν) der Verteilung als Funktion der Daten: h(X). Wie ist die Verteilung von h(X)−m(ν)? Statt neue Stichproben aus der Originalverteilung ν zu ziehen, ziehen wir Stichproben X∗ der Größe n (mit Zurücklegen) 56 aus der empirischen Verteilung νX . Idee: L(h(X) − m(ν)) ≈ L(h(X∗ ) − m(νX )) Die Verteilung von h(X∗ ) − m(νX ) wird in der Praxis durch Monte-Carlo-Simulation ermittelt, die obere und untere Grenze des Konfidenzintervalls für m(ν) schätzt man aus den empirischen Quantilen der durch Simulation ermittelten Verteilung. Übrigens ist das Vorgehen im Münzwurffall ganz ähnlich, obwohl wir die Formel für die Varianz kennen: Wir schätzen Var(p̂) = p(1 − p)/n mit p̂(1 − p̂)/n und ermitteln damit die Varianz des Schätzers für den Fall p = p̂. Das ist dasselbe als würde man Bootstrapstichproben aus der empirischen Verteilung mit Parameter p̂ ziehen. 7.6 Suffizienz und die Minimierung d. mittleren quadratischen Fehlers Wir beginnen mit einem Beispiel: X P1 , . . . , Xn seien unabhängige {0, 1}−Münzwürfe mit Erfolgsparameter p ∈ (0, 1). K := Xi sei die Anzahl der Erfolge. Dann hängt die Verteilung von (X1 , . . . , Xn ) für festes K = k (d.h. gegeben das Ereignis {K = k}) nicht mehr von p ab: X Wsp ({(X1 , . . . , Xn ) = (x1 , . . . , xn )}{| Xi = k}) = = Wsp ({(X1 , . . . , Xn ) = (x1 , . . . , xn )} ∩ {K = k}) Wsp ({K = k}) 1 pk (1 − p)n−k = n . k n−k p (1 − p) k n k Anschaulich: Über p können P wir nicht mehr Informationen gewinnen als durch Betrachtung der Funktion K = Xi der Daten. Die genauen Zeitpunkte, zu denen die K Erfolge auftreten, hängen von p nicht mehr ab. Die Statistik K nennt man deswegen auch suffiziente Statistik für p: Definition Eine Statistik V (X) heißt suffizient für ϑ, falls die bedingte Verteilung von X, gegeben V (X), nicht von ϑ abhängt. Beispiel: Multinomialverteilung Y1 , . . . , Yn seien unabhängig und P nehmen Werte in k Kategorien an, mit Ws(Yi in Kategorie j) = pj ∀i, j = 1, . . . , k, pj = 1. Der interessierende Parameter ist also der Vektor der Gewichte p~ = (p1 , . . . , pk ). Dann ist der Vektor der Besetzungszahlen X = (X1 , . . . , Xk ) suffizient für p~ (Rechnung analog zum obigen Beispiel). Jede Dichte kann man mit Hilfe einer suffizienten Statistik V (X) geeignet faktorisieren in eine Funktion von V (X), die von ϑ abhängt, und einen Faktor, der nicht von ϑ abhängt: Der Faktorisierungssatz von Neyman und Pearson die Dichte (bzw. Gewichte) fϑ (x). Dann sind äquivalent: 57 Die Verteilung von X besitze i) V (X) ist suffiziente Statistik für ϑ. ii) Die Dichte zerfällt in eine Faktorisierung der Gestalt fϑ (x) = gϑ (V (x)) · h(x), wobei die Funktion h nicht von ϑ abhängt. Die Grundidee des Beweises sieht man im diskreten Fall: i) =⇒ ii) folgt direkt aus der Definition der bedingten Wahrscheinlichkeit: fϑ (x) = Ws({X = x} ∩ {V (X) = V (x)}) = Ws({V (X) = V (x)}) · Ws({X = x}|{V (X) = V (x)}) {z } | {z } | =:gϑ (V (x)) hängt nach i) nicht von ϑ ab Für die umgekehrte Richtung ist zu zeigen, dass Wsϑ ({X = x}|{V (X) = V (x)}) = Ws({X = x}) Ws({V (X) = V (x)}) nicht von ϑ abhängt. Wir verwenden dafür die Faktorisierung und kürzen den Faktor gϑ (V (x)): X X ii) Ws({V (X) = V (x)}) = Ws(X = y) = gϑ (V (x)) h(y) y|V (y)=V (x) y|V (y)=V (x) Ws({X = x}) = gϑ (V (x)) · h(x) Also hängt Wsϑ ({X = x}|{V (X) = V (x)}) = P h(x) y|V (y)=V (x) h(y) nicht mehr von ϑ ab. Folgerungen i) Der Maximum-Likelihood-Schätzer ϑ̂M L für ϑ ist eine Funktion der suffizienten Statistik: Da h(x) nicht von ϑ abhängt, genügt es zur Bestimmung von ϑ̂M L , gϑ (V (X)) zu maximieren. ii) Mit Hilfe des Faktorisierungssatzes kann man anhand der Dichte häufig leicht suffiziente Statistiken erschließen: Beispiel: Gammaverteilung X1 , . . . , Xn seien unabhängig und Gamma(α, λ)-verteilt, d.h. für jedes X gemäß der Dichte f (x) = c(α, λ) · xα−1 e−λx , x ≥ 0. Die gemeinsame Dichte von X1 , . . . , Xn ist dann fα,λ (x1 , . . . , xn ) = c0 (α, λ) · (x1 · . . . · xn )α−1 · e−λ(x1 +···+xn ) Q P Man sieht sofort: ( Xi , Xi ) ist suffizient für (α, λ). Mit Hilfe einer suffizienten Statistik kann man manchmal Schätzer mit kleinerem mittleren quadratischen Fehler erzeugen, wenn man die bedingte Erwartung verwendet. Der Einfachheit halber betrachten wir hier nur den diskreten Fall. 58 Die bedingte Erwartung Y sei eine ZVe mit diskretem Wertebereich, X habe Dichte oder Gewichte f (x). Der bedingte Erwartungswert von X, gegeben das Ereignis {Y = k}, ist eine Zahl 1 E[X|Y = k] = E[I X]. Ws({Y = k}) {Y =k} Für jeden Wert k, den Y annehmen kann, ist E[X|Y = k] eine Zahl. Der Zufall kommt nun durch Y ins Spiel: Die bedingte Erwartung von X, gegeben Y , E[X|Y ], ist eine Zufallsvariable der Gestalt X E[X|Y ] = I{Y =k} E[X|Y = k]. k Beispiel Ein zweistufiges Zufallsexperiment: i) Y = 1/3 mit Wahrscheinlichkeit 1/2, und Y = 2/3 mit Wahrscheinlichkeit 1/2. ii) Gegeben Y = y, sei X die Anzahl der Erfolge beim n-maligen y-Münzwurf, also X ∼ Bi(n, y). Es gilt E[X|Y = 1/3] = 1/3 · n, E[X|Y = 2/3] = 2/3 · n. Damit ist die bedingte Erwartung E[X|Y ] von X gegeben Y die Zufallsvariable E[X|Y ] = Y · n mit Werten in {n/3, 2n/3}, jeweils mit Wahrscheinlichkeit 1/2. Der Satz von Rao-Blackwell Wieder beschränken wir uns auf den diskreten Fall, Analoges gilt für den Dichtefall. Sei S = h(X) ein Schätzer für ϑ. Sei V (X) eine suffiziente Statistik für ϑ. Dann gilt für den Schätzer S ∗ mit S ∗ := E[S|V (X)] (die ‘Rao-Blackwellisierung’ von S) i) Die Erwartungswerte von S und S ∗ sind gleich. ii) Der mittlere quadratische Fehler von S ∗ ist höchstens so groß wie der von S. Bew. i) Es gilt allgemein " E[E[X|Y ]] = E # X I{Y =k} E[X|Y = k] k E[I{Y =k} X] Ws({Y = k}) k h X i X = E[I{Y =k} X] = E X I{Y =k} = EX, = X Ws({Y = k}) · k also auch E[S ∗ ] = E[E[S|V (X)]] = E[S]. ii) z.z.: E[(S ∗ − ϑ)2 ] ≤ E[(S − ϑ)2 ]. Zunächst ist S ∗ − ϑ = E[S|V (X)] − ϑ = E[(S − ϑ)|V (X)] E[(S ∗ − ϑ)2 ] = E(E[(S − ϑ)|V (X)]2 ). 59 Um zu zeigen, dass E(E[(S − ϑ)|V (X)]2 ) ≤ E[(S − ϑ)2 ], beobachten wir: !2 2 E[(S − ϑ)|V (X)] = X I{V (X)=k} E[S − ϑ|V (X) = k] k = X ≤ X I{V (X)=k} E[S − ϑ|V (X) = k]2 k I{V (X)=k} E[(S − ϑ)2 |V (X) = k] k = E[(S − ϑ)2 |V (X)] und damit E[E[(S − ϑ)|V (X)]2 ] ≤ E[(S − ϑ)2 ]. Beispiel Seien X1 , . . . , Xn unabhängige p-Münzwürfe. Wir betrachten die Statistik 2 2 S := X1 · X2 zur Schätzung von P p . Es gilt offensichtlich: Ep S = p , und wir wissen, dass die Anzahl der Erfolge, K := Xi suffizient ist für p. Also ist die Rao-Blackwellisierung von S gegeben durch: S ∗ := E[X1 · X2 |K] Mit E[X1 · X2 |K = k] = Ws(X1 = 1, X2 = 1|K = k) = k k−1 · n n−1 folgt S∗ = K(K − 1) . n(n − 1) Bemerkung Suffiziente Statistiken können offensichtlich nützlich sein für die effiziente Beschreibung eines Datensatzes sowie zur Erstellung von geeigneten Schätzern. Man sollte allerdings beachten, dass man damit die Daten stark reduziert und potentielle Abweichungen von den Modellannahmen nicht mehr erkennenPkann. Xi = 50. Wir schätzen Beispiel: X1 , . . . , X100 unabhängige p-Münzwürfe. K := p = 1/2. Wenn aber alle Erfolge am Anfang der Serie auftraten und alle Misserfolge am Ende, haben wir durchaus Grund, an den Modellannahmen von unabhängigen Münzwürfen mit demselben Erfolgsparameter zu zweifeln. Dies ist nicht zu erkennen, wenn man die Daten auf die Anzahl K der Erfolge reduziert. 60 8 Likelihood-Quotienten-Tests Die Likelihoodfunktion wird nicht nur eingesetzt, um Parameter zu schätzen, sondern auch um zu quantifizieren, wie gut Daten zu einer Hypothese (einer Annahme über einen bestimmten Parameter) passen, und um verschiedene Modelle / Hypothesen zu vergleichen. Beispiel Wir betrachten zunächst ein klassisches Beispiel aus der Qualitätskontrolle: Eine Lieferung, bestehend aus n Einzelstücken, ist zu testen. Ein Anteil p der Einzelstücke ist schlecht, der Rest ist gut. Konsument und Produzent sind sich (z.B.) einig, dass p ≤ 0.03 annehmbar ist, aber p ≥ 0.15 nicht akzeptabel. Es werden 20 Stück rein zufällig gezogen, die Anzahl X der schlechten Stücke wird notiert. Also X ∈ B = {0, 1, . . . , 20}. Man einigt sich auf: A0 := {0, 1, 2} : Die Lieferung wird gekauft, falls X ∈ A0 A1 := B \ A0 := {3, 4, . . . , 20} : Die Lieferung wird abgelehnt, falls X ∈ A1 Das Risiko des Produzenten und des Konsumenten haben wir bereits kennengelernt als Risiko erster und zweiter Art: Wsp≤0.03 (X ∈ A1 ) ≤ Wsp=0.03 (X > 2) = 1 − pbinom(2, 20, 0.03) ≈ 0.021. Wsp≥0.15 (X ∈ A0 ) ≤ Wsp=0.15 (X ≤ 2) = pbinom(2, 20, 0.15) ≈ 0.4. Der allgemeine Fall Gegeben sei eine ZVe X mit Werten in B, verteilt gemäß der Dichte (oder der Gewichte) fϑ (x). Es sei ϑ ∈ Θ, wobei Θ die Menge der Parameter bezeichnet (im Beispiel Θ = [0, 1]). Seien Θ0 , Θ1 zwei disjunkte Teilnehmen von Θ (im Bsp. Θ0 = [0, 0.003], Θ1 = [0.15, 1]). Ein Test von Θ0 gegen Θ1 teilt den Wertebereich von X in zwei disjunkte Teilmengen A0 , A1 mit A0 ∪ A1 = B — die Annahmebereiche für die Hypothesen ϑ ∈ Θ0 bzw. ϑ ∈ Θ1 . Man entscheide dann für Θ0 , falls X ∈ A0 , sonst für Θ1 . Wie gehabt: Risiko 1. Art: sup Wsϑ (X ∈ / A0 ) =: α ϑ∈Θ0 Risiko 2. Art: sup Wsϑ (X ∈ / A1 ) =: β. ϑ∈Θ1 Die Abbildung ϑ → Wsϑ (X ∈ A0 ) heißt Operationscharakteristik des Tests. Für ϑ ∈ Θ0 soll sie möglichst groß, sonst möglichst klein sein. Gesucht ist nun ein Test, der für vorgegebenes Risiko 1. Art (d.h. für vorgegebenes Signifikanzniveau) das kleinste Risiko 2. Art besitzt (also die größte Testmacht). Im Spezialfall ist das einfach: 61 8.1 Einfache Hypothese und einfache Alternative Seien Θ0 = {ϑ0 }, Θ1 = {ϑ1 }. Seien f0 (x), f1 (x) die Verteilungsdichten (bzw. -gewichte) von X unter ϑ0 bzw. ϑ1 . Wir betrachten den Likelihood-Quotienten q(x) := f0 (x) . f1 (x) Sind die Beobachtungen unter ϑ0 wahrscheinlicher als unter ϑ1 , so ist q(x) > 1, sonst q(x) ≤ 1. Je größer das Verhältnis dieser Gewichte wird, desto mehr sprechen die Daten für ϑ0 (und umgekehrt). Das Lemma von Neyman und Pearson Sei c > 0 fest und so gewählt, dass f0 (x) A(c) := x ∈ B ≥c f1 (x) ein Annahmebereich für ϑ0 zum Niveau 1 − α ist und sein Niveau voll ausschöpft, so dass Wsϑ0 (X ∈ / A(c)) = α. Dann ist der Test mit Annahmebereich A0 = A(c) unter allen Tests von {ϑ0 } gegen {ϑ1 } mit Signifikanz α der Mächtigste. Bew.: Sei A ein weiterer Annahmebereich für {ϑ0 } zum Niveau 1 − α. Dann ist zu zeigen: Wsϑ1 (X ∈ A) ≥ Wsϑ1 (X ∈ A(c)). Wir betrachten zunächst Z Z Wsϑ1 (X ∈ A) = f1 (x)dx = A Z A(c) Z f1 (x)dx − f1 (x)dx + A\A(c) f1 (x)dx. A(c)\A Auf der Menge A \ A(c) ist f1 > f0 /c, und auf A(c) ist f1 ≤ f0 /c. Daher: Z Z Z 1 1 Wsϑ1 (X ∈ A) ≥ f1 (x)dx + f0 (x)dx − f0 (x)dx c A\A(c) c A(c)\A A(c) 1 = f1 (x)dx + c A(c) Z Z f0 (x)dx | A {z } =Wsϑ0 (X∈A)≥1−α Z − A(c) | f0 (x)dx {z } =Wsϑ0 (X∈A(c))=1−α Z ≥ f1 (x)dx = Wsϑ1 (X ∈ A(c)). A(c) 62 8.2 Generalisierte Likelihood-Quotiententests Tests nach Neyman und Pearson testen eine einfache Hypothese (ein möglicher Wert für ϑ) gegen eine einfache Alternative. Daher war es relativ leicht, ihre Optimalität zu zeigen. Likelihood-Quotiententests sind allerdings viel breiter anwendbar, und obwohl nicht zwangsläufig optimal, so funktionieren sie häufig gut und spielen daher beim Testen eine ähnliche Rolle wie das Maximum-Likelihood-Prinzip in der Schätztheorie. Wir betrachten unser Beispiel vom Anfang: Seien Θ0 , Θ1 zwei disjunkte Teilmengen von Θ (d.h. nicht mehr zwangsläufig einelementig, wie bei Neyman-Pearson), mit Θ0 ∪ Θ1 = Θ. Dann ist der verallgemeinerte Likelihood-Quotient definiert als Q∗ (x) := supϑ∈Θ0 fϑ (x) . supϑ∈Θ1 fϑ (x) Aus technischen Gründen bevorzugt man meistens die folgende Größe: Q(x) := supϑ∈Θ0 fϑ (x) , supϑ∈Θ fϑ (x) wobei Q(x) = min(Q∗ (x), 1). (Denn ist der ML-Schätzer für ϑ in Θ0 , so ist Q(x) = 1 und Q∗ (x) ≥ 1, ist der ML-Schätzer in Θ1 , so ist Q(x) = Q∗ (x).) Große Werte von Q sprechen für H0 : ϑ ∈ Θ0 . Daher ist analog zu Neyman-Pearson der Annahmebereich A0 für H0 festgelegt durch alle Beobachtungen, für die Q größer ist als eine Schranke c: A0 := {x|Q(x) ≥ c}, für ein c ∈ R. Beispiel: Normalverteilung Seien X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 )verteilt, mit bekanntem σ 2 . Sei H0 : µ = µ0 und H1 : µ 6= µ0 , d.h. Θ0 = {µ0 }, Θ1 = R \ {µ0 }. Der Zähler von Q(X) ist damit einfach gegeben durch 1 P 2 1 √ e− 2σ2 (Xi −µ0 ) . n ( 2πσ) Der Nenner ist der Wert von f am ML-Schätzer X̄ von µ : 1 P 2 1 √ e− 2σ2 (Xi −X̄) . n ( 2πσ) Damit ist der Likelihood-Quotient gegeben durch X 1 X 2 2 Q(X) = exp − 2 (Xi − µ0 ) − (Xi − X̄) 2σ Q wird klein, wenn −2 log Q groß wird: −2 log Q(X) = n(X̄ − µ )2 X 1 X 0 2 2 (X − µ ) − (X − X̄) = . i 0 i σ2 σ2 Hier treffen wir einen alten Bekannten, denn −2 log Q ist gerade das Quadrat der zStatistik zum Test der Hypothese H0 : µ = µ0 . Z ∼ N (0, 1), also −2 log Q(X) ∼ χ2 (1). 63 Asymptotische Verteilung von Q Wenn die Verteilung von Q unter H0 bekannt ist, ist es leicht, einen Annahme- und Ablehnungsbereich für H0 zu definieren und damit H0 gegen ihre Alternative zu testen. Die Verteilung von Q ist nicht immer bekannt, aber unter bestimmten Regularitätsvoraussetzungen an die Dichte von X ist −2 log Q asymptotisch χ2 -verteilt mit (dim(Θ) − dim(Θ0 )) Freiheitsgraden. Im obigen Beispiel sogar exakt: −2 log Q ∼ χ2 (1) = χ2 (1 − 0) = χ2 (dim(Θ) − dim(Θ0 )). Beispiel: Multinomialverteilung Auch hier ist der Likelihood-Quotiententest (zumindest asymptotisch) äquivalent zu einem häufig eingesetzten Test, den wir im nächsten Abschnitt diskutieren werden: dem χ2 -Test zum Vergleich beobachteter und erwarteter Häufigkeiten. Y1 , . . . , Yn nehmen Werte in k Kategorien an. X1 , . . . , Xk seien die beobachteten Häufigkeiten der k Kategorien. Dann ist X = (X1 , . . . , Xk ) multinomialverteilt mit Parametern n und (p1 , . . . , pk ). Die Menge der möglichen Parameter ist X Θ = {(p1 , . . . , pk )|pi ≥ 0, pi = 1}. Wir untersuchen wieder eine einfache Hypothese: Θ0 := {(π1 , . . . , πk )}, mit festen Gewichten π1 , . . . , πk , X πi = 1. Für den Nenner von Q brauchen wir die ML-Schätzer der Zellbesetzungen (p1 , . . . , pk ). Dies sind gerade die relativen Häufigkeiten, p̂i = Xi /n (Übung). Der Likelihood-Quotient ist damit Q(X) = X1 n! X1 !···Xk ! π1 X1 n! X1 !···Xk ! p̂1 · · · πkXk k · · · p̂X k Also: −2 log Q(X) = −2 X Xi log πi p̂i = Y πi Xi = 2n p̂i X . p̂i log p̂i πi . Auch diese Größe ist entsprechend obigerP Bemerkung approximativ χ2 (dim(Θ)−dim(Θ0 )) = 2 χ (k −1)−verteilt (dim Θ = k −1 wegen pi = 1). Außerdem ist −2 log Q asymptotisch gleich der Pearsonschen Teststatistik X für die Hypothese Hπ : p = (π1 , . . . , πk ): X := X (Xi − nπi )2 nπi =: X (Bi − Ei )2 Ei , wobei Bi := Xi die beobachteten Häufigkeiten, und Ei := nπi die erwarteten Häufigkeiten in den k Kategorien bezeichnen. Die asymptotische Gleichheit von X und −2 log Q sieht man an einer Taylor-Entwicklung: Für x nahe x0 ist x g(x) = x log x0 approximierbar durch g(x) ≈ g(x0 ) + (x − x0 )g 0 (x0 ) + (x − x0 )2 00 (x − x0 )2 g (x0 ) = (x − x0 ) + . 2 2x0 64 Damit ist (für p̂ = (p̂1 , . . . , p̂k ) nahe π = (π1 , . . . , πk ), d.h. für genügend großes n unter der Nullhypothese p = π) X p̂i −2 log Q = 2n p̂i log πi X (πi − p̂i )2 (p̂i − πi ) + ≈ 2n 2πi X X (πi − p̂i )2 X (np̂i − nπi )2 = = X. = 2n (p̂i − πi ) + n πi nπi 9 Der χ2 -Test Wir betrachten die Pearsonsche Teststatistik für feste hypothetische Gewichte: Satz (Pearson, 1900) (n) (n) X(n) = (X1 , . . . , Xk ) sei multinomial (n; π1 , . . . , πk )-verteilt. Dann gilt: X := k (n) X (X − nπi )2 i nπi i=1 −→ χ2 (k − 1) für n → ∞ in Verteilung. (n) Die erste Plausibilitätsüberlegung hierzu ist die folgende: Für jedes feste i ist Xi ∼ Bi(n, πi ), also gilt nach dem Satz von de Moivre-Laplace: !2 (n) Xi − nπi p −→ χ2 (1) für n → ∞ in Verteilung. nπi (1 − πi ) (n) 2 P Xi −nπi (n) Wären alle Xi unabhängig, so würde gelten i √ → χ2 (k). Ein Freiheitsnπi (1−πi ) (n) Xi grad geht verloren durch die Abhängigkeit der (denn ihre Summe ist deterministisch n). Die passende Varianz im Nenner sieht man beim Übergang zur Poissonverteilung: (n) (n) Fishers heuristischer Beweis Wir poissonisieren: Seien N1 , . . . , Nk unabhängig (n) mit Ni ∼ P o(nπi ). Dann ist die Summe der Ni nicht mehr deterministisch n, sondern poissonverteilt mit Parameter n: X (n) N (n) := Ni ∼ P o(n). (n) Die ZVe Ni wertsatz: ∼ P o(nπi ) hat Varianz nπi , und daher folgt mit dem zentralen Grenz(n) Ni √ − nπi −→ N (0, 1) nπi für n → ∞ in Verteilung. (n) Damit konvergiert der Vektor Gn mit Einträgen ( Rk : Ni −nπ √ nπi )i in Verteilung gegen eine standardnormalverteilte Zufallsvariable im ! (n) Ni − nπi Gn := −→ Z für n → ∞ in Verteilung. √ nπi i=1,...,k 65 Aus dem Satz von Fisher wissen wir, dass die Projektionen von Z auf orthogonale Unterräume U1 ,U2 von Rk unabhängig sind und ihre Längenquadrate χ2 -verteilt mit Freiheitsgraden dim(U1 ) und dim(U2 ). Wir zerlegen Gn , was ja in Verteilung gegen Z konvergiert, durch orthogonale Projektion (und projizieren damit sozusagen den zusätzlichen Freiheitsgrad der zufälligen Gesamtzahl N (n) weg). Projektion auf den von √ π1 .. e := . √ πk aufgespannten Unterraum liefert 1 eT Gn = he, Gn i = √ (N (n) − n) −→ eT Z für n → ∞ in Verteilung, n wobei nach dem Satz von Fisher eT Z ∼ N (0, 1). Wir zerlegen Gn damit in die Projektion Pe Gn auf e und die Projektion Pe⊥ Gn auf das orthogonale Komplement von e: Gn = Pe Gn + Pe⊥ Gn , √ 1 T (n) √ Pe Gn = (e Gn )e = √ (N πi − n πi ) n i=1,...,k ! (n) √ Ni 1 Pe⊥ Gn = Gn − Pe Gn = √ √ − N (n) πi πi n i=1,...,k Es gilt Pe⊥ Gn → Pe⊥ Z in Verteilung, und damit ||Pe⊥ Gn ||2 = X (N (n) − N (n) πi )2 i nπi −→ χ2 (k − 1). Außerdem ist ||Pe⊥ Gn ||2 (→ ||Pe⊥ Z||2 ) asymptotisch unabhängig von ||Pe Gn ||2 (→ ||Pe Z||2 ) = 1 (n) − n)2 und damit von N (n) . n (N Abschließend beobachten wir die Beziehung zwischen der Poisson- und der Multino(n) (n) mialverteilung: Bedingt unter {N (n) = n} ist (N1 , . . . , Nk ) multinomial(n, π1 , . . . , πk )verteilt: (n) Ws({N1 (n) = y1 , . . . , Nk = yk }|{N (n) = n}) (n) = = Ws({N1 e−nπ1 (nπy11 )! y1 · · · e−nπk (nπykk)! yk n = (n) = y1 , . . . , Nk = yk } ∩ {N (n) = n}) Ws({N (n) = n}) n y1 · · · e−n nn! yk π1y1 · · · πkyk . Für einen rigorosen Beweis brauchen wir Wissen über Normalverteilungen auf Rk : 66 9.1 Normalverteilungen auf Rk Kovarianzmatrizen Y = (Y1 , . . . , Yk )T sei Rk -wertige Zufallsvariable mit Erwartungswert m := EY . Sei Y 0 := Y − m. Dann ist die Matrix C mit Einträgen Cij := Cov(Yi , Yj ) = E[(Yi − mi )(Yj − mj )] = E[Yi0 Yj0 ] die Kovarianzmatrix von Y . Jede Kovarianzmatrix ist symmetrisch und positiv semidefinit. Denn für a = (a1 , . . . , ak )T ∈ Rk ist X X X X aT Ca = ai Cov(Yi , Yj )aj = Cov ai Yi , aj Yj = Var ai Yi ≥ 0. i,j Jede symm., positiv semidefinite Matrix tritt als Kovarianzmatrix auf. C sei k × k-Matrix, symmetrisch und positiv semidefinit. Dann gibt es Eigenwerte σ12 ≥ σ22 ≥ . . . ≥ σk2 ≥ 0 und eine zugehörige ONB aus Eigenvektoren (Beweis: Lineare Algebra.) Das heißt, es gibt eine Darstellung von C der Gestalt: C= k X σi2 ei eTi . i=1 P Denn in der Tat ist Cei = σi2 ei = ( kj=1 σj2 ej eTj )ei . Definition Y heißt normalverteilt auf Rk mit Mittelwert m und Kovarianzmatrix C (Y ∼ N (m, C)) ⇐⇒ Y hat Erwartungswert m und Kovarianzmatrix C, und ∀a ∈ Rk : aT Y ist normalverteilt auf R. Satz P Sei C = ki=1 σi2 ei eTi . Dann gilt: k X N (0, C) = L σi Zi ei , i=1 wobei Z1 , . . . , Zk unabhängig und N (0, 1)-verteilt auf R. Denn mit Y := X X X E[Y Y T ] = E[( σi Zi ei )( σj Zj ej )] = σi2 ei eTi . i j P σi Zi ei ist i P Beispiel C = ri=1 ei eTi mit r < k, ei orthonormal. Dann ist C eine Projektionsmatrix auf einen r-dimensionalen Teilraum von Rk . Dann ist N (0, C) die Standardnormalverteilung auf dem von e1 , . . . , er aufgespannten Teilraum von Rk . 67 Wie im Eindimensionalen gilt auch im Rk der (nun multivariate) zentrale Grenzwertsatz: Seien Y1 , . . . , Yn u.i.v. im Rk mit Mittelwert 0 und Kovarianzmatrix C. Dann gilt: n 1 X √ Yi −→ N (0, C) für n → ∞ in Verteilung. n i=1 (Beweis Vorlesung Höhere Stochastik, Fr. 14.12.07, 10-12 Uhr). Beweis (Satz von Pearson): Seien Y1 , . . . , Yn u.i.v. mit Werten in {1, . . . , k} und Verteilungsgewichten (πi )i=1,...,k . Seien für i = 1, . . . , n √1 π1 I{Yi =1} .. Vi := . . 1 √ I{Y =k} i πk √ √ Dann sind alle Vi unabhängig identisch verteilt mit Erwartungswert e = ( π1 , . . . , πk )T und Kovarianzmatrix √ 1 1 √ √ Cij = E = δij − πi πj , √ I{Y =i} − πi · √ I{Y =j} − πj πi πj also C = I − eeT . Damit folgt √ √1 π1 X1 − n π1 X 1 1 .. T √ Vi − ne = √ → N (0, I−ee ) für n → ∞ in Verteilung. . n n √ √1 Xk − n πk πk Also gilt X Xi − nπi 2 1 X 2 → ||Z||2 √ = V − ne √ i nπi n mit Z ∼ N (0, I − eeT ). Laut obigem Beispiel ist Z damit standardnormalverteilt auf Rk−1 , denn I − eeT ist Projektionsmatrix auf einen (k − 1)-dimensionalen Unterraum. Damit ist die Pearsonsche Statistik X approximativ χ2 (k − 1)-verteilt. 9.2 Der χ2 -Test Satz (Pearson, Fisher) (X1 , . . . , Xk ) seien beobachtete Häufigkeiten und multinomial (n, π)-verteilt. Gegeben sei eine Hypothese: π ∈ F , wobei F eine r-dimensionale Hyperfläche des Simplex X Θ := {(p1 , . . . , pk )| pi = 1, pi ≥ 0} ist. p̂F sei der ML-Schätzer für π unter der Hypothese π ∈ F . Dann ist die Teststatistik T := k X (Xi − np̂F )2 i np̂Fi i=1 unter π ∈ F für große n annähernd χ2 (k − 1 − r)-verteilt. 68 Beispiel: k = 4. Y1 , . . . , Yn fallen in 4 mögliche Kategorien, mit p11 p12 X Θ= pij = 1, pij ≥ 0 p21 p22 Offensichtlich gilt dim(Θ) = 3. Sei nun die Hypothese αβ α(1 − β) F := 0 ≤ α ≤ 1, 0 ≤ β ≤ 1 , (1 − α)β (1 − α)(1 − β) mit dim(F ) = 2. Was sind die ML-Schätzer für α und β für gegebene Häufigkeiten x11 , x12 , x21 und x22 ? Wir maximieren die Multinomialgewichte: fαβ (x) =(αβ)x11 · (α(1 − β))x12 · ((1 − α)β)x21 · ((1 − α)(1 − β))x22 · c mit xi+ =αx1+ (1 − α)x2+ β x+1 (1 − β)x+2 · c, P P := j xij und x+i := j xji . Durch Ableiten der log-likelihood sieht man: α̂ = x1+ n β̂ = x+1 . n Der χ2 −Test auf Unabhängigkeit Das obige Beispiel mit k = 4 ist ein Spezialfall für den χ2 −Test auf Unabhängigkeit. Gegeben sind dabei zwei Merkmale A und B in I bzw. J Abstufungen, also insgesamt k = I · J Kategorien. Wir beobachten die Häufigkeiten xij in den Kategorien (ij). pij sei die Wahrscheinlichkeit, dass ein zufällig gezogenes Individuum in Kategorie (ij) liegt. Y1 , . . . , Yn seien u.i.v. mit Gewichten pij . Die Hypothese ist: pij = αi βj , wobei αi die Wahrscheinlichkeit bezeichnet, in Merkmal A in Kategorie i zuP liegen, und β entsprechend die Wahrscheinlichkeit für Kategorie j in Merkmal B, mit αi = P j βj = 1. Die Hypothese sagt also, dass die beiden Merkmale in der Population unabhängig sind, mit dim(F ) = (I − 1) + (J − 1) = I + J − 2. Die ML-Schätzer ermittelt man analog zu oben: x+j xi+ α̂i := β̂j = , n n mit xi+ und x+j wie oben. Dann folgt mit dem Satz von Pearson und Fisher: Ist (X11 , X12 , . . . , XIJ ) multinomial (n, α1 β1 , α1 β2 , . . . , αI βJ )-verteilt, so ist X (Xij − nα̂i β̂j )2 i,j nα̂i β̂j = Xi+ X+j 2 n Xi+ X+j n X Xij − für große n approximativ χ2 (IJ − 1 − (I + J − 2)) = χ2 ((I − 1)(J − 1))-verteilt. 69