Computerorientierte Statistik (CoSta) Peter Mathé Version: 10. August 2013 Inhaltsverzeichnis Ziel des Kurses v Kapitel 1.1. 1.2. 1.3. 1.4. 1.5. 1. Wahrscheinlichkeitstheoretische Grundlagen Wahrscheinlichkeitsräume Reelle Zufallsvariable Unabhängigkeit Grenzwertsätze Aufgaben 1 1 4 8 10 12 Kapitel 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2. Simulation von Zufallsexperimenten Zufallszahlengenerator der Gleichverteilung auf [0, 1] Simulation diskreter Verteilungen Simulation stetiger Verteilungen Hit-or-run Verwerfungsverfahren Aufgaben 15 15 16 19 22 23 26 Kapitel 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3. Beschreibende Statistik Grundlegende Fragestellungen der Datenanalyse Datentypen (statistische Merkmale) Umwandeln von Datentypen Visualisierung verschiedener univariater Daten(typen) Visualisierung gruppierter Daten Aufgaben 31 31 31 32 36 37 38 Kapitel 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. 4. Schließende Statistik Fragestellung Punktschätzer Maximum-likelihood Methode Beste Schätzer: Cramér–Rao Ungleichung Die Kleinste-Quadrate-Methode: das Regressionsproblem Verteilungen: Normalverteilung und Co. Parameterschätzung im Gauß-Experiment Konfidenzbereiche Aufgaben 43 43 44 46 49 51 55 59 60 66 iii iv INHALTSVERZEICHNIS Kapitel 5.1. 5.2. 5.3. 5.4. 5. Testtheorie Pragmatischer Zugang p-Wert Neyman–Pearson Theorie Aufgaben 71 71 78 79 82 Kapitel 6.1. 6.2. 6.3. 6.4. 6. Lineare Modelle Statistische Modelle Satz von Gauß–Markoff Die ANOVA-Tabelle in linearen Modellen Diagnostik 83 83 87 93 97 Kapitel 7.1. 7.2. 7.3. 7.4. 7. Verteilungsfreie Tests Rangtests Kolmogoroff–Smirnoff–Test Daten in Tabellenform: asymptotische χ2 -Tests Aufgaben 99 99 103 106 111 Anhang A.1. A.2. A.3. A.4. A. Ergänzungen zur Wahrscheinlichkeitstheorie Bedingte Wahrscheinlichkeit Gemeinsame und bedingte Verteilungen Kovarianz, Korrelation Verteilung der Summe zweier Zufallsvariable 113 113 115 116 118 Anhang B. Euklidische Räume 119 Anhang C. Multivariate Normalverteilungen 123 Literaturverzeichnis 127 ZIEL DES KURSES v Ziel des Kurses Dies ist ein rudimentäres Skript zum Kurs Computerorientierte ” Statistik (Costa)“. Ziel dieses Kurses ist es, die Studenten mit grundlegenden Fragen der Statistik vertraut zu machen, und anhand von Datensätzen einfache statistische Analysen vorzunehmen. Dazu wird die Programmiersprache R verwendet [3]. Um einen gemeinsamen Stand zu erarbeiten, werden im Kapitel 1 die grundlegenden Konzepte der Stochastik bereit gestellt. Es folgt das Kapitel 2 zur stochastischen Simulation, einem Gegenstand, der in den wahrscheinlichkeitstheoretischen Vorlesungen üblicherweise kurz kommt. Erst in den anschließenden Kapiteln wird auf die Beschreibende Statistik, Kapitel 3, und später auf die Schließende Statistik, Kapitel 4 eingegangen. Die behandelten statistischen Fragestellungen versuchen den Kanon abzudecken, sprich er kommen die Schätztheorie, Testtheorie, die linearen Modelle, und letztlich einige Parameter-freie (nicht-parametrische) Modelle vor. Es wird darauf wertgelegt, daß die zentralen Begriffe der Statistik vorgestellt werden. Hierbei wird immer die Verbindung zur Umsetzung in R hervorgehoben, so daß es leicht möglich sein wird, die Dinge anhand von Datensätzen zu vertiefen. Aufgrund der Vielfalt des Materials kann die mathematische Ausarbeitung in vielen Fällen nur kursorisch erfolgen. Es wird versucht, die konzeptionellen Ideen herauszustellen. Besonderes Augenmerk liegt darauf, R-spezifische Aspekte einzuarbeiten. An vielen Stellen des Textes wird exemplarischer R-code eingebunden. Graphiken, wie sie in R typischerweise bereitgestellt werden, sind Bestandteil des Kurses. Es gibt viel Literatur, die sich mit ähnlichen Fragen widmet. Viele Quellen, auch nicht-genannte sind eingeflossen. Daher ist dieses Material auch nicht für die Öffentlichkeit bestimmt. Vielmehr soll es den Teilnehmern erleichtern, die Vorlesung zu verfolgen. Ich nenne trotzdem einige der Quellen, die besonderen Eingang gefunden haben. Es gibt eine Reihe von Textbüchern zu verwandten Themen, hier seien genannt, P. Dalgaard [1], aber auch J. Verzani [4]. Besonderen Eingang fanden die Vorlesungen über Mathematische Statis” tik“von H. Pruscha [2], die meines Erachtens didaktisch bemerkenswert an die wichtigsten Fragen der Statistik heranführen. Darüber hinaus gibt es elektronisch verfübares Material. Verwendet wurden die Skripte Elementare Stochastik“, sowie Elementare Statis” ” tik“ von E. Behrends, FU Berlin. Eine ergiebige Quelle von Texten und vi INHALTSVERZEICHNIS Datensätzen ist das Seminar für Statistik“ der Eidgenösischen Tech” nischen Hochschule, Zürich, http://stat.ethz.ch/. Insbesondere seien das Mini-Skript Wahrscheinlichkeitstheorie und Statistik“, ” stat.ethz.ch/education/semesters/ss2012/statBau/miniskript-wkeit. pdf, sowie die Ausarbeitung Computational Statistics“, ” http://stat.ethz.ch/education/semesters/ss2012/CompStat/sk. pdf erwähnt. Zuletzt wird auch auf die oft informativen Angaben in wikipedia hingewiesen. Für viele statistische Fragen gibt es sehr detailliertes Material, sowie in deutscher, als auch in englischer Sprache. Berlin, 10. August 2013 (Peter Mathé) KAPITEL 1 Wahrscheinlichkeitstheoretische Grundlagen 1.1. Wahrscheinlichkeitsräume (1) Menge Ω der möglichen Ereignisse, (2) ein Mengensystem F von Ereignissen, die abgefragt werden dürfen, und (3) eine σ-additive Mengenfunktion P : F → [0, 1], d.h., es gilt • P (Ω) = 1, • P (A t B) = P (A) P∞+ P (B), A, B ∈ F (Additivität), und F∞ • P ( j=1 Aj ) = j=1 P (Aj ) (σ-Additivität). Definition 1 (Wahrscheinlichkeitsraum). Ein solches Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum. Beispiel 1.1 (Münzautomat). • Ω = {“Kopf”, “Zahl”}, • F = {∅, Ω, {“Kopf”} , {“Zahl”}}, #F = 4. 1.1.1. Diskrete Wahrscheinlichkeitsräume. (1) Ω ist diskret (höchstens abzählbar), (2) F = P(Ω), (3) px = P ({x}), x ∈ Ω. Bemerkung 1. Wie sind die px zu verstehen? Betätigen den Zufallsautomaten sehr häufig, N mal. Dann setzen wir # {Ergebnis = x} = pN,x . N Dann gilt P (a) pN.x ≥ 0, x∈Ω pN,x = 1. (b) Für N → ∞ gilt pN,x → px (wird später präzisiert). Visualisierung des Experiments als Histogramm. Beim Würfeln etwa Beispiel 1.2. Ω = {1}, d.h., Experiment mit sicherem Ausgang. 1 2 1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN data.sample6 1 2 3 4 5 6 14 20 13 15 17 21 0.00 0.05 0.10 0.15 0.20 Haeufigkeiten beim Wuerfeln 1 2 3 4 5 6 Abbildung 1. Visualisierung beim Würfeln. 100 Versuche. Beispiel 1.3 (Laplace-Raum,Laplace 1812). • Ω = {1, . . . , n} • pj = 1/n, j = 1, . . . , n. Beispiel 1.4 (Bernoulli Verteilung). • Ω = {0, 1} (’1’ ist Ërfolg”, ’0’ ist Misserfolg”), • Zu gegebenem 0 ≤ p ≤ 1 sei p1 = p, p0 = 1 − p. Beispiel 1.5 (Poisson-Verteilung). • Ω = N0 , j • Zu gegebenem λ > 0 sei pj := λj! e−λ , j ∈ N0 , • Zählen von zufälligen Ereignissen. • Die Poisson’schen Annahmen sind: 1.1. WAHRSCHEINLICHKEITSRÄUME 3 – Eintreten von Ereignissen ’selten’, d.h., im Intervall [x, x + ∆x] höchstens ein Ereignis; – W-keit eines Ereignisses proportional zur Intervalllänge, Faktor g, und – Eintreten in einem Intervall ist unabängig von vorherigen Intervallen (geschichtslos). Dann genügt die W-keit p0 (x), kein Ereignis bis zum Zeitpunkt x zu haben der Dgl. p00 (x) = −gp0 (x). • Das Eintreten von k Ereignissen bis zum Zeitpunkt x genügt dann der Dgl. p0k (x) = −gpk (x) + gpk−1 (x), mit k der Lösung pk (x) = (gx) e−gx . Setzen λ := gx, dann erk! halten wir die Poisson-Verteilung pois(λ). Beispiel 1.6 (geometrische Verteilung). • Ω = N0 . • Zu 0 ≤ p < 1 sei pj = (1 − p)j p, j = 0, 1, 2, . . . • Warten auf den ersten Erfolg im Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p. 1.1.2. Stetige Wahrscheinlichkeitsräume. (1) Betrachten zuerst nur Ω = R. (2) Das Mengensystem F sei die Borel-σ-Algebra, (3) Zu einer R nichtnegativen stückweise stetigen R Funktion f : R → + R , f (y) dx = 1, setzen wir P (A) := A f (x) dx, A ∈ F. (4) Die Funktion f heißt Dichte von der R Verteilung P . (5) Die Stammfunktion F mit F (x) := (−∞,x] f (τ ) dτ heißt Verteilungsfunktion (cdf). (6) Die W-Verteilung P ist durch ihre Werte P ([c, d)) = F (d) − F (c), c < d eindeutig bestimmt. Beispiel 1.7 (Gleichverteilung auf [0, 1]). • f (x) = χ[0,1] (x), x ∈ R, • Der wichtigste Zufall überhaupt! Jeder andere Zufall läßt sich daraus erzeugen, siehe Kapitel 2. Beispiel 1.8 (Exponentialverteilung). • Zu gegebenem λ > 0 sei f (x) = λe−λx , x ≥ 0. • Wartezeiten sind oft so verteilt. Es gilt die Nichtalterungseigenschaft, siehe § 1.3. Beispiel 1.9 (Normalverteilung norm (µ, σ 2 )). • Zu gegebenem µ ∈ R, σ 2 ≥ 0 sei (x−µ)2 1 f (x) = √ e− 2σ2 , x ∈ R. 2πσ 2 4 1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN • Grenzverteilung bei vielen Experimenten, siehe Kapitel 1.4. 1.2. Reelle Zufallsvariable Beginnen mit Beispielen. Beispiel 1.10 (Münze vs. Würfel). • Haben Würfel, wollen Münzwurf. Wie? • Haben Münze(n), wollen Würfeln. Wie? Beispiel 1.11 (Zwei Würfel). • Ω = {1, . . . , 6}2 , • Zu x = (x1 , x2 ) sei px = 1/36 (Laplaceraum). • Interessieren uns für X(x) := x1 +x2 (Summe beim Münzwurf). • (gewollter) Verlust von Information. Beispiel 1.12 (Gleichverteilung auf [a, b]). • Nehmen Gleichverteilung P auf [0, 1], mit Realisierung u. • Zu gegebenem Paar a < b betrachten wir Transformation X(u) := a + u ∗ (b − a). • Es gilt für a ≤ c ≤ d ≤ b die Beziehung c−a d−a d−c P (c < X(u) ≤ d) = P <u≤ . = b−a b−a b−a Definition 2 (meßbare Abbildung). Seien (Ω, F), (Ω0 , F 0 ) zwei meßbare Räume. Eine Abbildung X : Ω → Ω0 heißt meßbar, falls für jede Menge B ∈ F 0 gilt: X −1 (B) ∈ F (vollständiges Urbild). Definition 3 (Zufallsvariable). Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Eine (Borel-meßbare) Abbildung X : Ω → (R, B) heißt (reelle) Zufallsvariable. Satz 1.1. Jede reelle Zufallsvariable X : Ω → (R, B) induziert ein Wahrscheinlichkeitsmaß PX gemäß PX ((B)) = P (X −1 (B)), B ∈ B. Bemerkung 2. Wir schreiben oft PX (B) = P (”X ∈ B”), auch X ∼ PX , X ∼ f etc. Definition 4 (Verteilungsfunktion einer Zufallsvariable). Sei X : (Ω, F, P ) → R eine reelle Zufallsvariable. Dann ist FX (x) = P (”X ≤ x”) = P ({ω ∈ Ω, X(ω) ≤ x}), die Verteilungsfunktion der Zufallsvariable X. Beispiel 1.13 (Zwei Würfel). x ∈ R, 1.2. REELLE ZUFALLSVARIABLE • • • • Ω0 = {2, . . . , 12}, Zu x = (x1 , x2 ) gilt dann PX (B) = #{x, 2 1 PX ({3}) = 36 6= 11 . 3 (kein Laplaceraum). PX ({2, 3}) = 36 5 x1 +x2 ∈B} . 36 Wie bestimmt man induzierte Verteilungen von stetigen Zufallsvariablen? Satz 1.2. Gegeben sei eine Dichte f mit VF F . Sei X : R → R eine streng monotone differenzierbare Zufallsvariable. Dann hat PX ebenfalls eine Dichte, die sich durch (F ◦ X −1 )0 berechnet. Beweis. Sei B = (c, d] eine Borel-Menge. Dann gilt Z d 0 −1 −1 −1 PX (B) = P (X (B)) = F (X (d))−F (X (c)) = F ◦ X −1 (τ ) dτ c Beispiel 1.14 (Gleichverteilung auf [a, b]). • Sei P Gleichverteilung auf [0, 1] mit Ergebnis u. • Sei X(u) = a + u ∗ (b − a) wie gehabt, ergo X −1 (x) = x−a . b−a • Die VF von P ist F (x) = x, 0 ≤ x ≤ 1, F (x) = 1, x > 1, F (x) = 0, x < 0. 1 • Es folgt (F ◦ X −1 )(x) = F x−a , ergo Ableitung ist b−a χ[a,b] . b−a Beispiel 1.15. • Sei P Gleichverteilung auf [0, 1]. • X(u) = u2 . • Dann folgt Dichte von PX ist f (x) = 1 √ , 2 x 0 < x ≤ 1. Beispiel 1.16. • f (x) = x2 χ[0,2] (x), x ∈ R, • X(x) = ex , • Dann folgt als Dichte von PX die Funktion g(u) = u ≤ e2 . 1 log u , 2 u 1≤ 1.2.1. Quantitative Charakteristiken reeller Zufallsvariable. 1.2.1.1. Momente von Verteilungen, Zufallsvariablen. Die grundlegende Art, vorgegebene Verteilungen zu beschreiben ist durch seine Momente. Sei also X : (Ω, F, P ) → R eine Zufallsvariable. Erwartungswert: 6 1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN Definition 5 (Erwartungswert diskreter ZV). Ist die Verteilung von X diskret, sprich #Ω ist (höchstens) abzählbar, so bezeichnet X E(X) := X(x)px x∈X den Erwartungswert der ZV X. Definition 6 (Erwartungswert stetiger ZV). Hat P eine Dichte f so bezeichnet Z E(X) := X(x)f (x) dx den Erwartungswert von X (falls E(|X|) < ∞). Beispiel 1.17 (Interpretation). Führen das Experiment in (Ω, F, P ) N mal durch, und erhalten so ω1 , . . . , ωN . Hatten im #{j, ωj =x} diskreten Fall daß px =: pN,x (relative Häufigkeit). N Dann gilt X X # {j, ωj = x} X(x) X(x)pN,x = E(X) N x∈Ω x∈Ω = X x∈Ω X(x) N 1 X χ{x} (ωj ) N j=1 N N 1 X 1 XX X(x)χ{x} (ωj ) = X(ωj ), = N j=1 x∈Ω N j=1 das heißt, der Erwartungswert misst den Mittelwert der ZV X. Bemerkung 3. Erwartungswerte müssen nicht existieren, siehe Cauchy-Verteilung! Varianz: Das zentrierte zweite Moment V(X) := E(X − E(X))2 (= E(X 2 ) − (E(X))2 ) heißt Varianz der ZV X. p V(X) heißt Streuung, StanDie Quadratwurzel σ(X) := dardabweichung. (hat gleiche Maßeinheit wie X). Schiefe: Das zentrierte dritte Moment skew(X) := E(X − E(X))3 heißt Schiefe der Verteilung (von X). 1.2. REELLE ZUFALLSVARIABLE 7 Wölbung: Das zentrierte vierte Moment kurt(X) := E(X − E(X))4 heißt die Wölbung der Verteilung von X. Bemerkung 4. Schiefe und Wölbung eignen sich, um Abweichungen von der Normalverteilung zu beschreiben. Insbesondere gilt für die Normalverteilung norm (µ, σ 2 ) dass, wegen der Symmetrie skew = 0, und wegen E(X −E(X))4 = 3σ 4 , deshalb wird die normalisierte Variante kurt(X) −3 σ4 als Excess Kurtosis bezeichnet. 1.2.1.2. Momente diskreter Verteilungen. Wir diskutieren jetzt Beispiele diskreter Verteilungen. Beispiel 1.18 (Laplace-Raum sample(n)). Sei Ω = {1, . . . , n}, . pj = 1/n, und sei X(j) = j. Dann gilt E(X) = n+1 2 Beobachtung: E(X) 6∈ Ω. Beispiel 1.19 (Bernoulli-Verteilung mit Parameter p, bern(p)). Hier gilt E(X) = 1 ∗ p = p, und V(X) = p − p2 = p(1 − p). Beispiel 1.20 (Poissonverteilung mit Parameter λ, pois(λ)). Hatj ten pj = λj! e−λ . Also folgt ∞ ∞ ∞ X X X λj −λ λj−1 −λ λj −λ e =λ e =λ j e =λ j! (j − 1)! j! j=1 j=0 j=0 Gleiches gilt für die Varianz der Poissonverteilung! Beispiel 1.21 (Geometrische Verteilung mit Parameter p, geom(p)). Hatten pj := (1 − p)j p, j = 0, 1, 2, . . . . dann gilt ∞ X j=0 ∞ X d (1 − p)j dp j=1 j=1 ∞ d X d 1 1 j (1 − p) = −p(1 − p) = −p(1 − p) − 1 = − 1. dp j=1 dp p p j(1 − p)j p = p(1 − p) ∞ X j(1 − p)j−1 = −p(1 − p) 1.2.1.3. Momente stetiger Verteilungen. Nun Beispiele stetiger Verteilungen. Beispiel 1.22 (Gleichverteilung unif(0, 1)). Es gilt E(X) = 1/2, V(X) = 1/12. 8 1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN Beispiel 1.23 (Exponentialverteilung mit Parameter λ, exp λ). Hatten Dichte f (x) = λe−λx , ergo Z ∞ 1 xλe−λx dx = E(X) = λ 0 (Variabl.-Substitution). Analog folgt V(X) = 1/λ2 . Beispiel 1.24 (Normalverteilung norm (µ, σ 2 )). Es gilt E(X) = µ, V(X) = σ 2 . 1 Beispiel 1.25 (Cauchy-Verteilung). f (x) = π1 1+x 2 , x ∈ R. Es existieren keine Momente, obwohl die Cauchy-Verteilung symmetrisch ist! 1.2.2. Zusammenfassung. Die folgenden Größen, Funktionen beschreiben Eigenschaften von Verteilungen (ZV). (1) Punktwahrscheinlichkeiten/Dichten (2) die (kumulative) Verteilungsfunktion, (3) bei stetigen Verteilungen sind die Quantile wichtig: Zu 0 ≤ q ≤ 1 bezeichne z, mit F (z) = q das q-Quantil der Verteilung. (4) Generierung der ZV (5) Erwartungswert (6) Varianz/Streuung Bemerkung 5. Die ersten vier Charakteristiken sind in R in den Formen d*, p*, q*,r* realisiert, z.B. für die Gleichverteilung unif als dunif(), punif(), qunif(), runif(). 1.3. Unabhängigkeit 1.3.1. Unabhängigkeit von Ereignissen. Definition 7. Sei (Ω, F, P ) ein W-Raum. Zwei Ereignisse A, B ∈ F heißen (stochastisch) unabhängig, falls P (A ∩ B) = P (A) ∗ P (B). Bemerkung 6. Falls P (B) > 0 und A ∈ F unabhängig von B so folgt P (A ∩ B) P (A)P (B) P (A/B) = = = P (A), P (B) P (B) d.h., die Kenntnis daß Ereignis B eingetreten war hat keinen Einfluß auf Häufigkeit von A! Beispiel 1.26. Würfeln. A = {gerade Zahl} , B = {j ≥ 5}. Dann gilt P (A ∩ B) = P ({6}) = 1/6 und P (A) = 1/2, P (B) = 1/3, somit liegt Unabhängigkeit vor! 1.3. UNABHÄNGIGKEIT 9 Beispiel 1.27. Gleichverteilung auf [0, 1]. A = [0, 3/4], B = [0, 1/2]. Dann ist P (A/B) = 2/3 < 3/4 = P (A), also keine Unabhängigkeit. Definition 8 (Unabhängigkeit von Familien von Ereignissen). Eine Familie (Bi )i∈I heißt stochastisch unabhängig, falls für jedes n, und jede Auswahl i1 , . . . , in gilt n Y P (Bi1 ∩ Bi2 ∩ · · · ∩ Bin ) = P (Bij ). j=1 Bemerkung 7. Insbesondere sind je zwei Ereignisse in dieser Familie unabhängig (paarweise Unabhängigkeit). Umkehrung gilt nicht! Beispiel 1.28. Ω = {1, 2, 3, 4} Laplace-Raum. A1 = {1, 2} , A2 = {2, 3} , A3 = {3, 4}. Es gilt P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0, aber es herrscht paarweise Unabhängigkeit vor, da P (A1 ∩ A2 ) = 1/4 = P (A1 )P (A2 ). Definition 9 (Unabhängigkeit von Familien von ZV). Seien X1 , . . . , Xn reelle ZV. Die ZV heißen unabhängig, falls für jede Auswahl B1 , . . . , Bn ∈ B die Ereignisse “X1 ∈ B1 ”,. . . , “Xn ∈ Bn ” unabhängig sind. 1.3.2. Folgerungen aus der Unabhängigkeit. Satz 1.3. Seien X, Y unabhängige ZV mit endlicher Erwartung und Varianz. Dann gilt (1) E(XY ) = E(X)E(Y ), und (2) V(X + Y ) = V(X) + V(Y ). Beweis. Zuerst für Erwartung: Beweis in mehreren Schritten. (1) X = χA , Y = χB , dann o.k. (2) X, Y Treppenfunktionen, dann auch o.k. (3) Jede ZV läßt sich durch Treppenfunktionen approximieren (Maßtheorie). Nun zur Varianz: V(X + Y ) = E(X + Y )2 − (E(X) + E(Y ))2 = E(X 2 ) + 2E(XY ) + E(Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (E(Y ))2 = E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2 = V(X) + V(Y ). 1.3.3. i.i.d. Folgen. Definition 10. Sei X eine ZV auf einem W-Raum (Ω, F, P ). Eine Folge Xi , i ∈ N reeller ZV heißt i.i.d. (independent, identically distributed) gemäß PX , falls 10 1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN (1) die ZV Xi unabhängig sind, und (2) PXi = PX für alle i ∈ N. Satz 1.4. Sei (Ω, F, P ) ein beliebiger W-Raum, und sei X : Ω → R eine ZV. Dann existiert eine i.i.d. Folge, die gemäß PX verteilt ist. Beweis. Wir bilden den Produktraum Q • ΩN = ∞ j=1 Ω, • die Produkt-σ-Algebra F N , und • die Produkt-W-keit P N (technisch schwierig!). Wir betrachten nun die Familie Xi , i ∈ N reeller ZV, die gegeben ist durch Xi (ω) = X(ωi ), ω = (ω1 , . . . ). Bemerkung 8. Dies liefert die mathematische Beschreibung für die Wiederholung von Zufallsexperimenten! 1.4. Grenzwertsätze Seien X1 , X2 , . . . i.i.d. Die abgeleiteten ZV Sn := X1 + X2 + · · · + Xn , 1 X̄n := Sn , n haben i.A. eine komplizierte Verteilung. Es gibt jedoch positive Ausnahmen: Beispiel 1.29. (1) Xi ∼ bern(p), dann Sn ∼ binom(n, p). (2) Xi ∼ pois(λ), dann Sn ∼ pois(nλ). (3) Xi ∼ norm(µ, σ 2 ) dann Sn ∼ norm(nµ, nσ 2 ) Es gilt jedoch der folgende einfache Zusammenhang: Satz 1.5. Seien X1 , X2 , . . . i.i.d. mit EX1 = µ, V(X1 ) = σ 2 . Dann gilt √ ESn = nµ, V(Sn ) = nσ 2 , sd(Sn ) = nσ 2 EX̄n = µ, V(X̄n ) = σn , sd(X̄n ) = √σn . 1.4.1. Tschebyscheff-Ungleichung. Satz 1.6 (Tschebyscheff, 1874). Sei X eine ZV mit Erwartungswert µ und Varianz σ 2 . Für beliebige t > 0 gilt P (|X − µ| ≥ t) ≤ σ2 . t2 1.4. GRENZWERTSÄTZE 11 Beweis. Es gilt Z 2 σ = |x − µ|2 f (x) dx Z Z 2 |x − µ| f (x) dx + |x − µ|2 f (x) dx = |x−µ|≥t |x−µ|<t Z |x − µ|2 f (x) dx ≥ t2 P (|X − µ| ≥ t). ≥ |x−µ|≥t Bemerkung 9. Wenn X exponentielle Momente hat Ee|X| < ∞, dann gilt die exponentielle Tschebyscheff-Ungleichung: E exp(|X − µ|) . et Dies zeigt, daß die einfache Tschebyscheff-Variante i. A. viel zu grob ist! Zum Beispiel liefert die einfache Variante für X ∼ norm (0, 1) und t=2, 3, 4 die Schranken 0.25, 0.1111, 0.0625. Die wahren Werte können, für t > 0, durch die Verteilungsfunktion ausgedrückt werden: P (|X| > t) = P (X > t) + P (X < −t) = 1 − FX (t) + FX (−t) = 2FX (−t), was für t=2, 3, 4 die Werte 4.55 × 10−2 , 2.6998 × 10−3 , 6.3342 × 10−5 ergeben. P (|X − µ| ≥ t) ≤ 1.4.2. Gesetz der großen Zahlen. Satz 1.7. Seien Xi i.i.d. mit Erwartunsgwert µ und Varianz σ 2 . Dann gilt σ2 P (X̄n − µ > t) ≤ 2 . nt Beispiel 1.30. Seien Xi ∼ bernoulli(p). Dann ist #{j, Xj =1} n Xj =1} − n • X̄n = #{j, • P ( (relative Häufigkeit), also p ≥ t) ≤ p(1−p) . nt2 1.4.3. Zentraler Grenzwertsatz. Satz 1.8 (De Moivre, 1733, Laplace, 1812). Seien Xi i.i.d. mit Erwartungswert µ und Varianz σ 2 . Wir betrachten die standardisierten ZV √ X̄n − µ Zn := n (Z-Transformation). σ • Die Zufallsvariable Zn haben Erwartungswert Null und Varianz Eins. 12 1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN • Falls Xi zusätzliche Bedingung erfüllen (höhere Momente), so gilt für alle a ≤ b Z b 1 2 P (a < Zn < b) −→ √ e−x /2 dx. 2π a Bemerkung 10. Seien Xi i.i.d Wiederholungen eines Experiments. Dann haben die ZV Zn (asymptotisch) immer die gleiche Verteilung (Standard-Normalverteilung). Dies ist ein universeller Zusammenhang, daher der Name zentraler Grenzwertsatz. Beispiel 1.31 (Simulation der Normalverteilung). Seien X1 , . . . , X12 i.i.d. gemäß unif(). Dann ist 12 X Xi − 6 ≈ norm (0, 1) . j=1 P Beachte jedoch: −6 ≤ 12 j=1 Xi − 6 ≤ 6, man kann also keine großen Abweichungen simulieren. 1.5. Aufgaben Aufgabe 1.1. Folgende Reisezeiten (in Minuten) wurden beim Weg zur Uni gesammelt 17,16,20,24,22,15,21,15,17,22. (1) Bestimme die längste Anreisezeit. (2) Bestimme die mittlere Zeit. (3) Der Eintrag ’24’ war ein Fehler und muss korrekt ’18’ lauten, Korrigiere dies. (4) Wie ist die korrigierte mittlere Reisezeit? (5) Wie oft war die Zeit länger als 20 Minuten? Aufgabe 1.2. (1) Bestimmen Sie das gegenwärtige Arbeitsverzeichnis. (2) Gibt es in Ihrem Arbeitsverzeichnis die Datei students.dat? (3) Laden Sie den Datensatz, und bestimmen Sie die beobachteten Variable. (4) Ist der so geladene Datensatz richtig formatiert? (5) Fügen Sie die neue Beobachtung eines Studenten, der neun Semester bis zum Bachelor-Abschluss gebraucht hat, und dann doch e1600 verdient hat, hinzu. hinzu. (6) Überprüfen Sie, ob die neue Beobachtung korrekt eingetragen wurde. (7) Speichern Sie den veränderten Datensatz unter dem Namen students-new.dat 1.5. AUFGABEN 13 Aufgabe 1.3. Im vergangenen Jahr betrugen die Fon-Kosten monatlich jeweils e46,33,39,37,46,30,48,32,49,35,30,48. (1) Lege einen Datensatz namens fon an, der diese Rechnungen enthält. (2) Wie teuer war das Telefonieren insgesamt? (3) In welchem Monat war die Rechnung am geringsten, wann am größten? (4) Wie oft war die Rechnung größer als e40? (5) Wie teuer war das Telefonieren im Mittel? Bestimmen Sie den Median. KAPITEL 2 Simulation von Zufallsexperimenten 2.1. Zufallszahlengenerator der Gleichverteilung auf [0, 1] • muß schnell sein, daher kein “echter” Zufall, sondern PseudoZufall, daher der Name Pseudo-Zufallszahlen. • die gebräuchlichsten Zufallszahlengeneratoren sind linear congruential random number generators (lcrng). • in vielen Sprachen random(), • in R jedoch runif(1), standardmäßig mit Mersenne-Twister RNG. • Schreiben u ∼ unif(0, 1). Wir diskutieren kurz die Möglichkeiten, die R bei der Nutzung der Pseudo-Zufallszahlen bietet. Die Abfrage lautet RNGkind() [1] "Mersenne-Twister" "Inversion" Die erste Information gibt den verwendeten Zufallszahlengenerator für die Gleichverteilung an, während die zweite Information den Generator für die Normalverteilung ausgibt. Die Standardwerte sind oben angezeigt. Alle implementierten Generatoren bekommt man durch ?RNG angezeigt. Der Mersenne-Twister Generator hat sich in den letzten Jahren als Standard erwiesen, seine Periode ist 219937 − 1, sollte also für die meisten Anwendungen reichen. Bei der verwendung von Zufallszahlen in Experimenten ist die Frage der Reproduzierbarkeit wichtig. Die Pseudo-Zufallszahlengeneratoren verwenden alle einen seed (Startwert), und mit set.seed(integer) kann die Reproduzierbarkeit erzwungen werden. set.seed(4711) # erste Abfrage runif(4) [1] 0.9656 0.5606 0.9147 0.1830 # zweite Abfrage runif(4) 15 16 2. SIMULATION VON ZUFALLSEXPERIMENTEN [1] 0.8842 0.6181 0.3420 0.1619 # mit altem seed gleiches Ergebnis: set.seed(4711) runif(4) [1] 0.9656 0.5606 0.9147 0.1830 2.2. Simulation diskreter Verteilungen Beispiel 2.1 (Laplace-Raum {1, . . . , n}). • Sei U ∼ unif(0, 1). • X(U ) := bn ∗ U c + 1 (ganzzahliger Anteil). • Es gilt PX ({k}) = Pu ( k 1 k−1 ≤U < )= . n n n (mit Wkt Null ist der Wert n + 1 möglich, jedoch nicht bei lcrng! • in R die Funktion sample(n,1), wir werden schreiben sample(n) Beispiel 2.2 (Bernoulli Experiment mit Parameter p). • U ∼ unif(0, 1) • X(U ) = ifelse(U ≤ p, Erfolg, Mißerfolg) • In R rbinom(1,p,1) Beispiel 2.3 (allg. diskrete Verteilung). P Hier sind W-keiten p1 , . . . , pk > 0, pj = 1 gegeben. Betrachten parPl tialsummen: S0 = 0; Sl = j=1 pj , l = 1, k. Zu U ∼ unif(0, 1) bilden wir k X F (u) := χ[0,Sj+1 ) (U ). j=0 Dann gilt P (F (U ) = j) = P (sj ≤ U < sj+1 ) = pj In R bilden wir sample(k,size=1,prob=c(p1 , . . . , pk )) sample(6, size = 10, replace = TRUE) [1] 6 4 3 1 2 1 1 4 5 2 # bzw, fuer allg. Gewichte probs <- c(1, 1, 4, 3, 1, 1) data <- sample(6, size = 100, replace = TRUE, prob = probs) barplot(table(data)) 17 0 5 10 20 30 2.2. SIMULATION DISKRETER VERTEILUNGEN 1 2 3 4 5 6 Beispiel 2.4 (Geometrische Verteilung mit Parameter q). Dies ist ja ein Spezialfall, wir können die Partialsummen explizit berechnen als Sl = p l X (1 − p)j = 1 − (1 − p)l+1 , l = 0, . . . , ∞. j=0 Wählen nun U ∼ unif(0, 1). Dann ist auch 1 − U ∼ unif(0, 1). Der wert 1 − U fällt in das Intervall [1 − (1 − p)l , 1 − (1 − p)l+1 ) gdw. log U < l + 1, (1 − p)l+1 < U ≤ (1 − p)l , und dies ist der Fall wenn l ≤ log(1−p) also bilden wir log U L := . log(1 − p) Die Simulation der obigen Zufallsvariable L resultiert in folgendem Histogramm. 18 2. SIMULATION VON ZUFALLSEXPERIMENTEN 0.4 ● ● 0.2 Density 0.6 Histogramm der geometrischen Verteilung Parameter 0.4 ● ● 0.0 ● 0 2 4 ● ● 6 ● ● ● 8 Werte von L In R bilden wir rgeom(1,p). Die Implementation ist aber anders. Allg. Prinzip: Inversion der Verteilungsfunktion! Beispiel 2.5 (Geometrische Verteilung mit Parameter p, alternativ). Hatten pj = p(1 − p)j , j = 0, 1, 2, . . . . Interpretation: Seien X1 , X2 , · · · ∼ bern(p) i.i.d. mit Erfolgsw-keit p. Dann ist pj die W-keit, daß erster Erfolg (Wert 1) nach genau j Versuchen: Haben P (X1 = 1) = p, und P (X0 = 0, . . . , Xj−1 = 0, Xj = 1) = (1−p)j−1 p wegen Unabhängigkeit Setzen also Y := min {j, Xj = 1} − 1. Beispiel 2.6 (Binomial-Verteilung). Seien X1 , . . . , Xn ∼bern(p), Pn n k und sei Sn := j=1 Xj deren Summe. Dann gilt P (Sn = k) = p (1− k p)n−k (Laplace-Raum {0, 1}n ). Beispiel 2.7 (Poisson-Verteilung mit Parameter λ). j Hatten pj := λj! e−λ . Interpretation: Betrachten eine Folge X1 , X2 , . . . i.i.d. gemäß exp(λ). 2.3. SIMULATION STETIGER VERTEILUNGEN 19 Dann gilt ( Y := max j, j X ) Xi < 1 i=1 ist Poisson verteilt. log Erinnern uns: Verteilung der Xi ∼ − λui , mit u1 , u2,... i.i.d gemäß unif(). P Qj −λ Dann ist ji=1 X < 1 gdw. i i=1 u n Q oi > e . Also Y := max j, ji=1 ui > e−λ ∼ pois(λ). 2.3. Simulation stetiger Verteilungen Satz 2.1. Sei X eine ZV gemäß Dichte f , mit streng monotoner stetiger VF F . Sei U ∼ unif(0, 1). Dann ist X = F −1 (U ) gemäß f verteilt. Beweis. Es gilt P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x). Daher folgt für beliebige Rechtecke [c, d) daß P (F −1 Z ([c, d))) = F (d) − F (c) = d f (x) dx. c Daraus folgt die Behauptung. Beispiel 2.8 (Exponentialverteilung mit Parameter λ). Hier ist f (x) = λe−λx , x ≥ 0. Die VF ist damit gegeben durch F (x) = 1 − e−λx , mit der inversen Funktion F −1 (u) = − log(1 − u)/λ. Deshalb U ∼ unif(0, 1). Dann ist E := − logλ U exponentialverteilt mit Parameter λ. In R: rexp(1,lambda). Beispiel 2.9. Wir demonstrieren den Zugang aus Satz 2.1 in Abbildung 1. 2.3.1. Simulation der Standard-Normalverteilung. Erinnern uns, die Dichte ist 1 2 f (x) = √ e−x /2 , x ∈ R. 2π Arbeiten uns sachte voran: (1) Sei (X, Y ) unabhängig standard-normal. Dann ist gemeinsame Dichte (Produkt der einzelnen Dichten) 1 −(x2 +y2 )/2 fX,Y (x, y) = e , x, y ∈ R2 . 2π 20 2. SIMULATION VON ZUFALLSEXPERIMENTEN ecdf(sample[1:20]) 0.8 0.6 0.0 0.2 0.4 Fn(x) 0.6 0.4 0.2 0.0 Density 0.8 1.0 Histogram of sample 0.0 0.5 1.0 sample 1.5 2.0 0.0 0.5 1.0 1.5 2.0 x Abbildung 1. Visualisierung der Dichte (r) und der inversen VF (l) (2) Satz 2.2. Seien X, Y unabhängig standard-normal.. Dann gilt √ (a) Die ZV R := X 2 + Y 2 und φ := arctan( xy ) sind unabhängig mit Verteilungen • φ ∼ unif(0, 2π), und 2 • VF von R ist FR (r) = 1 − e−r /2 . Beweis. mittels Polarkoordinaten!o n Rechnung p 2 Sei A = (x, y), x + y 2 ≤ r, arctan(y/x) ≤ ϕ . Dies führt zu ZZ 1 2 2 e−(x +y )/2 dxdy F(R,φ) (r, ϕ) = P (R ≤ r, φ ≤ ϕ) = 2π A Z ϕZ r 1 2 = se−s /2 dsdϕ 2π 0 0 ϕ 2 = (1 − e−r /2 ) = Fφ (ϕ)FR (r). 2π Die VF zerfällt, daher Unabhängigkeit! 2.3. SIMULATION STETIGER VERTEILUNGEN Details durch Koord-Trafo 21 (3) Können daher standard-normalv. ZV paarweise erzeugen: • Seien (U, V ) i.i.d ∼ unif(), p • dann sind 2πV ∼ unif(0, 2π) und −2 log(V ) ∼ FR . • das Paar p (X, Y ) := (R cos φ, R sin φ) = −2 log V (cos(2πV ), sin(2πV )) ist unabhängig standard-normalverteilt. (4) Das ist die Box–Muller-Methode, 1958. Die folgende Routine ist eine Implementation des Box–Muller -Verfahrens. rboxmuller <- function(size) { n <- ceiling(size/2) V <- runif(n, 0, 1) U <- runif(n, 0, 1) c <- sqrt(-2 * log(V)) return(c(c * cos(2 * pi * U), c * sin(2 * pi * U))[1:size]) } 0.3 0.2 0.1 0.0 dnorm(x) 0.4 0.5 Hier ist ein Histogramm beim Stichprobenumfang 2000 in Abbildung 2. −4 −2 0 2 4 x Abbildung 2. Simulation beim Box–Muller Verfahren 22 2. SIMULATION VON ZUFALLSEXPERIMENTEN 2.4. Hit-or-run Das hit-or-run Verfahren wird genutzt, wenn es nicht möglich ist, direkt gemäß der Dichte eine Stichprobe zu erzeugen, und wenn auch das Inversionsverfahren nicht anwendbar ist. Die einzigen Voraussetzungen sind die, daß die Dichte f auf einem beschränkten Intervall definiert ist, und daß sie dort auch beschränkt ist. Bild Satz 2.3. Sei f : [a, b] → R+ eine durch M > 0 beschränkte Dichte. Wir bestimmen folgende Zufallsvariable X: Erzeuge (U, V ) ∼ unif(a, b) × [0, M ]. hit: Falls f (U ) ≥ V setze X := U . run: Falls f (U ) < V gehe zu hit Die so erzeugte Zufallsvariable X ist gemäß f verteilt. Die mittlere Anzahl der Versuche im hit-or-run Verfahren ist 1/(M (b − a)). Beweis. Die Zufallsvariable X wird erzeugt, falls die Bedingung in hit erfüllt ist. Daher bestimmen wir die Wahrscheinlichkeit P (U ≤ x|f (U ) ≥ V ) = P (00 U ≤ x00 ∩00 f (U ) ≥ V 00 ) . P (00 f (U ) ≥ V 00 ) Der Zähler wird wie folgt berechnet. Z bZ M dv du 00 00 00 00 P ( U ≤ x ∩ f (U ) ≥ V ) = χ(a,x] (u)χ(0,f (u)] (v) M b−a Za x 0 f (u) du = , a ≤ x ≤ b. M b−a a Setzen wir hier x := b, so erhalten wir, da f Dichte ist, daß P (f (U ) ≥ V ) = 1 . M (b − a) Rx Daraus folgt erstens, daß P (00 U ≤ x00 ∩00 f (U ) ≥ V 00 ) = a f (v)dv (beachte: automatisch gilt M (b − a) ≥ 1!), aber auch die zweite Aussage, denn ein einzelnes Experiment ist binomialverteilt mit der Erfol1 gswahrscheinlichkeit p = M (b−a) , also ist die mittlere Wartezeit geometrisch verteilt, und somit der Erwartungswert gleich 1/p, siehe Beispiel 1.21. Dieses Verfahren ist also dann effektiv, wenn die Dichte f das Rechteck [a, b] × [0, M ] gut ausfüllt! 2.5. VERWERFUNGSVERFAHREN 23 2.5 hit−or−run−Verfahren 2.0 ● f(3.24)=2.01 ● 1.5 ● ( 3.24 1.64 ) ● ● 1.0 ● 0.5 ● ● ● ● 0.0 Dichte f 1 2 3 4 5 Abbildung 3. Sampling using the hit-or-run method 2.5. Verwerfungsverfahren Das obige hit-or-run Verfahren gestattet folgende Verallgemeinerung. Dieses Verfahren ist sinnvoll, wenn die gegebene Dichte eine Majorante besitzt, von der einfach eine Stichprobe erzeugt werden kann. Sei also f eine gegebene Dichte, und wir nehmen an, daß eine Dichte g gefunden wird, so daß 0 ≤ f (x) ≤ M g(x), x ∈ R. Satz 2.4. Sei 0 ≤ f (x) ≤ M g(x), x ∈ R. Wir betrachten folgendes Verfahren zur Erzeugung einen Zufallsvariable X. (V ) propose: Erzeuge V ∼ g. Bilde h(V ) := Mf g(V . ) accept: Erzeuge U ∼ unif(0, 1). Falls U ≤ h(V ) accept, ansonsten reject (gehe zu propose). Dann ist die so erzeugte Zufallsvariable X gemäß f verteilt. Die mittlere Wartezeit beträgt M . Bemerkung 11. Dies ist eine Verallgemeinerung des hit-or-run Verfahrens. Jenes ergibt sich, wenn f ≤ M und g ∼ unif(0, 1) gewählt wird. 24 2. SIMULATION VON ZUFALLSEXPERIMENTEN Beweis. Der Beweis ist analog zu hit-or-run. Wir berechnen P (00 V ≤ x00 ∩00 U ≤ h(V )00 ) P (V ≤ x|U ≤ h(V )) = . P (U ≤ h(V )) Der Zähler berechnet sich als Z x Z 1 00 00 00 00 χ(0,h(v)] (u) dug(v) dv P ( V ≤ x ∩ U ≤ h(V ) ) = −∞ 0 Z x h(v)g(v) dv = −∞ Z x 1 = f (v) dv. M −∞ Für x = ∞ ergibt sich der Nenner als 1/M , so daß Z x P (V ≤ x|U ≤ h(V )) = f (v) dv = Pf (x). −∞ Daraus ergeben sich beide Behauptungen. Beispiel 2.10 (Simulation der Normalverteilung mittels eines Verwerfungsverfahrens). Wir demonstrieren, wie die Standard-Normalverteilung durch ein derartiges Verfahren simuliert werden kann. Betrachten wir die Vorschlags-Dichte g ∗ (x) = exp(− |x|)/2. Die Abbildung 4 verdeutlicht, daß die Voraussetzungen des Satzes erfüllt sind. Von der Vorschschlagsdichte g ∗ kann man einfach mittels der Exponentialverteilung Stichproben ziehen gemäß folgender Vorschrift. rgstern <- function(size) { return(sample(c(-1, 1), size, repl = TRUE) * rexp(size, 1)) } Die Implementation des Algorithmus, und das Ergebnis einer Stichprobe vom Umfang 1000 visualisieren wir in Abbildung 5. Die mittlere Wartezeit betrug 1.315, gegenüber dem theoretischen Wert von 1.3155. 2.5. VERWERFUNGSVERFAHREN 25 Situation beim Verwerfungsverfahren 0.0 0.2 0.4 0.6 Dichte f M Dichte g −10 −5 0 5 10 0.3 0.2 0.1 0.0 gstern(x) 0.4 0.5 empirische Vorschlagsdichte −10 −5 0 5 10 x Abbildung 4. Vorschlagsdichte oberhalb der Normalverteilungsdichte (oben), empirische Vorschlagsdichte (unten) 26 2. SIMULATION VON ZUFALLSEXPERIMENTEN algorithmus <- function(size) { num <- 1 count <- 1 reject <- FALSE res <- numeric(size) h <- function(v) ff(v)/(M * gstern(v)) while (!reject && num <= size) { v <- rgstern(1) if (runif(1) <= h(v)) { res[num] <- v reject <- FALSE num <- num + 1 } count <- count + 1 } return(list(result = res, rate = size/count)) } 0.3 0.2 0.1 0.0 Density 0.4 0.5 Simulation der Normalverteilung mittels acceptance rejection −3 −2 −1 0 1 2 3 samples$result Abbildung 5. Algorithmus (oben), Empirische Dichte der Stichprobe (unten) 2.6. Aufgaben Aufgabe 2.1. (1) Erzeugen Sie einhundert standard normalverteilte Zufallsvariable. 2.6. AUFGABEN 27 (2) Ermitteln Sie, wieviel Prozent der Daten sich innerhalb des einfachen, zweifachen und dreifachen der Standardabweichung befinden? (3) Wie müssen diese Anteile theoretisch sein? Sind Ihre Ergebnisse konsistent mit der Theorie? (4) Wiederholen Sie dieses Experiment mit einhundert auf dem Intervall [−3, 3] gleichverteilten Zufallsvariable. Diskutieren Sie die Ergebnisse. Aufgabe 2.2 (Simulation zum zentralen Grenzwertzatz). (1) Erzeugen Sie entlang einer Folge von n = 1, 10, 20, 50, 100, 200, 500, 1000 jeweils 1000 Poisson-verteilte Zufallsvariable mit dem Parameter λ = 0.4. (2) Bilden Sie jeweils (spaltenweise) die standardisierten Mittel (jeweils 1000 Stück). (3) Vergleichen Sie die empirischen mit den theoretischen (der Normalverteilung) Quantilen. Aufgabe 2.3. (1) Simulieren Sie einhundert Ergebnisse beim paarweisen Würfeln (zwei Würfel gleichzeitig). (2) Erstellen Sie Histogramme für die folgenden Ergebnisse • individuelle Paare in (1, 1), . . . , (6, 6). • für die paarweisen Summen der Ergebnisse. (3) Vergleichen Sie dies mit den ermittelten theoretischen Wahrscheinlichkeiten. Aufgabe 2.4. (1) Überlegen Sie sich, wie Sie mit Hilfe dreier Münzen einen Würfel simulieren können. (2) Schreiben Sie eine R-Routine, die Ihr Vorgehen implementiert. (3) Erstellen Sie ein Histogramm, um die Korrektheit zu veranschaulichen. (4) Erstellen Sie eine Tabelle (table), in der die Ergebnisse von 1000 simulierten Ergebnissen festgehalten werden. Aufgabe 2.5. Testen Sie den (standard-mäßig verwendeten MersenneTwister Zufallszahlengenerator. (1) Bestimmen Sie die Zeit, die zur Erzeugung von 1000000 Zufallszahlen benötigt wird. (2) Visualisieren Sie die erhaltene Trajektorie, d. h., die durch Geradenstücke verbundenen Paare (i, xi ), i = 1, . . . , 1000000. (3) Visualsisieren Sie die Verteilungsfunktion. (4) Visualisieren Sie die paarweisen Korrelationen (xi , xi+1 ), i = 1, . . . 1000000 − 1. 28 2. SIMULATION VON ZUFALLSEXPERIMENTEN (5) Wählen Sie δ = 10−7 und bestimmen Sie die Anteile der Zufallszahlen in den Intervallen (0, δ) bzw. (1 − δ, 1). Aufgabe 2.6. Gegeben Sie die c, 2c, g(x) := c/3, 0, folgende Funktion 0 ≤ x < 0.1, 0.1 ≤ x < 0.7, 0.7 ≤ x < 1, sonst. (1) Wie muß die Konstante c gewählt werden, damit g zur Dichte wird? (2) Erzeugen Sie einhundert Zuallsvariable gemäß der erhaltenen Verteilung. (3) Visualisieren Sie dies in einer Graphik, die Histogramm und Dichte (in rot) übereinanderlegt. Aufgabe 2.7. Schreiben Sie eine R-Routine, die es gestattet Zufallsvariable mit der Dichte fn (x) = nxn−1 , x ∈ [0, 1], zu erzeugen, für geliebige Parameter n ∈ N+ . Erzeugen Sie, für n = 2, 20, jeweils 1000 Zufallsvariable gemäß fn und erstellen Sie eine Graphik in einer Zeile mit zwei Spalten, in der Histogramm und Dichte gemeinsam veranschaulicht werden. Aufgabe 2.8. Gegeben sie die Dichte g(x) = (x − 2)/12 − (x − 6)/24, 2 ≤ x ≤ 6 und 0 sonst. (1) Erzeugen Sie 100000 Zufallsvariable gemäß dieser Dichte, (a) mittels Inversion, (b) durch rejection sampling. (2) Vergleichen Sie die Ergebnisse hinsichtlich der Geschwindigkeit. (3) Visualisieren Sie die Ergebnisse in einer Graphik, die Histogramm und Dichte enthält. Aufgabe 2.9. Gegeben sei die Funktion f (x) = cx2 e−x , x ≥ 0, mit einer Konstanten c, so daß diese zur Dichte wird. (1) Finden Sie eine oberhalb liegende Funktion, M g mit einer Dichte g, von der einfach eine Stichprobe bestimmt werden kann. (2) Erzeugen Sie 1000 Zufallsvariable durch rejection sampling. (3) Visualisieren Sie das Ergebnis. Aufgabe 2.10 (Marsaglia-Bray Verfahren). Sie das Marsaglia–Bray Verfahren. (1) Implementieren 2.6. AUFGABEN 29 (2) Erzeugen Sie eine Stichprobe vom Umfang 1000 und visualisieren Sie das Ergebnis in inem Histogramm. Legen Sie zur Kontrolle die Dichte der Normalverteilung in rot darunter. (3) Vergleichen Sie die Implementationen von Box–Muller und Marsaglia-Bray hinsichtlich der Rechenzeit zur Erzeugung einer Stichprobe vom Umfang 1000000. Aufgabe 2.11 (Simulation einer Modellgleichung). Es sollen folgendermaßen n = 50 Zufallsvariable (Beobachtungen) y1 , . . . , y50 erzeugt werden. (1) Sie genügen der Modellgleichung y = 5 + 2x1 + x2 . (2) Der additive zufällige Fehler soll als normalverteilt mit Mittelwert Null und Varianz σ 2 = 0.2 angenommen werden. (3) Die Beobachtungen erfolgen bei äquidistanten im Intervall [0, 4.9] Werten x1,1 , . . . , x1,50 und zufälligen, im Intervall [−1, 1] gleichverteilten, Werten x2,1 , . . . , x2,50 . KAPITEL 3 Beschreibende Statistik 3.1. Grundlegende Fragestellungen der Datenanalyse Das grundlegende Problem der Statistik kann wie folgt beschrieben werden: Ein unbekannter Zufallsautomat liefert uns i.i.d. Daten. Können wir anhand der Daten auf Eigenschaften des Automaten schließen? Beispiel 3.1. Der Automat liefert 100 Mal das Ergebnis “1”. Schluss: Es werden immer “1” kommen (konstanter Zufallsautomat). Falsch. Es könnte auch der Automat geom(0.0001) sein. Beispiel 3.2 (Würfelautomat). Ergebnisse: 3, 1, 4, 6, 3, 2, 5, 1, . . . . Welche Frage kann man stellen? Ist der Würfel fair ? Beispiel 3.3. Im Kurs sind 20 Teilnehmer, davon 7 Studentinnen. Frage: Ist Interesse von weibl. und männl. Studenten gleich groß? Beispiel 3.4 (Kaffeetrinkende Ehefrauen). Verbrauch Status 0 1-150 151-300 >300 verheirated 652 1537 598 242 geschieden 36 46 38 21 Single 218 327 106 67 Frage: Gibt es einen Zusammenhang zwischen Familienstand und Koffeinverbrauch? 3.2. Datentypen (statistische Merkmale) Datensammlungen können/sollten folgende Merkmale aufweisen: numeric: Zahlenkolonnen character: Zeichenketten “verheiratet”, “single” ordered: Anordnungen “1.”, “2.” logical: Logischer Art “wahr”, “falsch” Datum: Datumsangaben nach ISO-8601-Standard, 2012-09-06, oder manuell. 31 32 3. BESCHREIBENDE STATISTIK Bemerkung 12. Formal kann man natürlich alles als reelle Zahlen kodieren. Aber, in R hängt die Art der Auswertung vom Datentyp ab! Außerdem erhöht sich die Lesbarkeit/Interpretierbarkeit der Ergebnisse. Definition 11. Merkmale mit nur wenigen Ausprägungen, typischerweise Zeichenketten, heißen kategorielle Merkmale. In R heißen diese factor mit label. Die grundlegende Struktur sind data frames und table. 3.2.1. Data frames. Hier werden Ergebnisse einer Versuchsreihe zusammengefaßt, Abb. 1: Die erste Spalte nummeriert die Stichproben. 1 2 3 4 5 6 sex age smoker w 29 TRUE w 30 TRUE w 21 TRUE m 22 TRUE m 30 FALSE w 24 TRUE 'data.frame': 100 obs. of 3 variables: $ sex : Factor w/ 2 levels "m","w": 2 2 2 1 1 2 2 2 1 1 ... $ age : num 29 30 21 22 30 24 26 27 28 29 ... $ smoker: logi TRUE TRUE TRUE TRUE FALSE TRUE ... Abbildung 1. typischer data frame, mal als head(), mal als structure str(). Jede Stichprobe ist ein Vektor, z. B., 2, 29, T RU E. Insgesamt ergibt sich eine matrix-artige Anordnung, missing values “NA” sind erlaubt. 3.2.2. Tabellen (tables). Für einige Auswertungen sind zusammengefaßte Tabellen sinnvoll, siehe Abb. 2 3.2.3. Zusammenfassung (summary). Sei data ein data frame. In R gibt es die Funktion summary(data), die einen kurzen Überblick über die vorliegenden Daten gibt. Pro vorliegendem Merkmal werden hier folgende Informationen gesammelt, siehe Abb. 3. 3.3. Umwandeln von Datentypen Zur korrekten Erzeugung/Umwandlung von Datensätzen stellt R einige nützliche Funktionen bereit, die hier kurz besprochen werden sollen. 3.3. UMWANDELN VON DATENTYPEN 33 data.tbl <- with(data.smoker, table(sex, smoker)) data.tbl smoker sex FALSE TRUE m 24 30 w 16 30 Abbildung 2. Datenzusammenfassung in Tabellenform summary(data.smoker) sex age m:54 Min. :20.0 w:46 1st Qu.:23.0 Median :24.0 Mean :25.1 3rd Qu.:28.0 Max. :30.0 smoker Mode :logical FALSE:40 TRUE :60 NA's :0 Abbildung 3. Die summary Funktion 3.3.1. Faktoren erstellen. Gelegentlich kommt es vor, daß vorhandene Faktoren als int bereitgestellt werden. Dies sei im folgenden Datensatz illustriert. Beispiel 3.5. zahnschmerzen <- c(0, 1, 1, 2, 3, 2, 0) zahnschmerzen [1] 0 1 1 2 3 2 0 fzschmerzen <- factor(zahnschmerzen, levels = 0:3) levels(fzschmerzen) <- c("frei", "leicht", "mittel", "stark") fzschmerzen [1] frei leicht leicht mittel stark mittel frei Levels: frei leicht mittel stark In diesem fall ist sogar ein geordnetes Merkmal angebracht. fzschmerzen <- ordered(fzschmerzen) fzschmerzen [1] frei leicht leicht mittel stark mittel frei Levels: frei < leicht < mittel < stark # Abfrage der levels 34 3. BESCHREIBENDE STATISTIK levels(fzschmerzen) [1] "frei" "leicht" "mittel" "stark" 3.3.2. stack und unstack. Datens”2atze, die kategorielle Faktoren enthalten können in verschiedener Weise dargestellt werden. Hier ein Beispiel1. energy <- read.table("energy.dat") head(energy) expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean 4 8.08 lean 5 8.09 lean 6 10.15 lean str(energy) 'data.frame': 22 obs. of 2 variables: $ expend : num 9.21 7.53 7.48 8.08 8.09 ... $ stature: Factor w/ 2 levels "lean","obese": 2 1 1 1 1 1 1 1 1 1 ... energy.unstack <- unstack(energy) head(energy.unstack) $lean [1] 7.53 7.48 8.08 8.09 10.15 8.40 10.88 6.13 7.90 7.05 7.48 [12] 7.58 8.11 $obese [1] 9.21 11.51 12.79 11.85 9.97 8.79 9.69 9.68 str(energy.unstack) List of 2 $ lean : num [1:13] 7.53 7.48 8.08 8.09 10.15 ... $ obese: num [1:9] 9.21 11.51 12.79 11.85 9.97 ... # und zurueck energy.new <- stack(energy.unstack) str(energy.new) 'data.frame': 22 obs. of 2 variables: $ values: num 7.53 7.48 8.08 8.09 10.15 ... 1Dies ist ein Datensatz aus ISwR. 9.19 3.3. UMWANDELN VON DATENTYPEN 35 $ ind : Factor w/ 2 levels "lean","obese": 1 1 1 1 1 1 1 1 1 1 ... # muessen nun die Variablennamen neu vergeben: names(energy.new) <- c("expend", "stature") str(energy.new) 'data.frame': 22 obs. of 2 variables: $ expend : num 7.53 7.48 8.08 8.09 10.15 ... $ stature: Factor w/ 2 levels "lean","obese": 1 1 1 1 1 1 1 1 1 1 ... 3.3.3. Klassenbildung. Wie wir beim caff.marital Datensatz im Beispiel 3.4 gesehen haben, können numerische Variable (Koffeinaufnahme) in Klassen eingeteilt werden, um so eine neue kategorielle Variable zu bilden. Dies wird mit der Funktion cut erreicht. z <- rnorm(1000) z.klassen <- table(cut(z, breaks = -3:3)) z.klassen (-3,-2] (-2,-1] (-1,0] (0,1] (1,2] (2,3] 18 142 336 330 146 25 str(z.klassen) # named vector 'table' int [1:6(1d)] 18 142 336 330 146 25 - attr(*, "dimnames")=List of 1 ..$ : chr [1:6] "(-3,-2]" "(-2,-1]" "(-1,0]" "(0,1]" ... sum(z.klassen) # sind welche kleiner als -3 oder groesser als 3? [1] 997 3.3.4. Teilmengen von Datensätzen. In vielen Fällen möchte man die verfügbaren Daten nach gewissen Kriterien einschränken. WG <- data.frame(Name = c("Tanja", "Edgar", "Sina"), Geschlecht = factor(c("w", "m", "w")), Alter = c(24, 26, 27)) WG Name Geschlecht Alter 1 Tanja w 24 2 Edgar m 26 3 Sina w 27 str(WG) 'data.frame': 3 obs. of 3 variables: $ Name : Factor w/ 3 levels "Edgar","Sina",..: 3 1 2 $ Geschlecht: Factor w/ 2 levels "m","w": 2 1 2 36 3. BESCHREIBENDE STATISTIK $ Alter : num 24 26 27 attach(WG) Alter[1] <- 25 WG Name Geschlecht Alter 1 Tanja w 24 2 Edgar m 26 3 Sina w 27 # klappt wohhl nicht (wegen attach), daher: WG$Alter[1] <- 25 WG Name Geschlecht Alter 1 Tanja w 25 2 Edgar m 26 3 Sina w 27 subset(WG, Alter >= 26) Name Geschlecht Alter 2 Edgar m 26 3 Sina w 27 subset(Name, Alter >= 26) [1] Edgar Sina Levels: Edgar Sina Tanja detach(WG) 3.4. Visualisierung verschiedener univariater Daten(typen) 3.4.1. Numerische Daten. Hier sind verschiedene Graphiken aussagekräftig. Zuerst erzeugen wir einen numerischen Datensatz von 100 gleichverteilten Zufallsvariablen. data.unif <- data.frame(x = runif(100)) Mittels Graphiken können wir nun die Dichte im Histogramm, die Verteilung als Boxplot, und auch den Zusammenhang zur Normalverteilung darstellen. Das liefert Abbildung 4. Wir erkennen hier, daß die Daten symmetrisch verteilt sind, aber im qqnorm wird deutlich, daß die Schwänze der Verteilung nicht der Normalverteilung entsprechen. Weitere Möglichkeiten der Visualisierung sind gegeben durch die empirische Verteilungsfunktion ecdf, siehe Abbildung 5. 3.5. VISUALISIERUNG GRUPPIERTER DATEN 0.4 0.8 x ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1.0 0.6 0.8 ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 0.0 0.4 0.2 0.0 0.0 0.5 0.4 Density 0.0 Sample Quantiles 1.0 0.8 Normal Q−Q Plot 0.6 1.0 1.5 Histogram of x 37 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● −2 0 1 2 Theoretical Quantiles Abbildung 4. Visualisierung der Daten als Histogramm hist, summarisch als boxplot, und mittels qqnorm. 3.4.2. Kategorielle Merkmale. Greifen wieder auf die Daten aus Beispiel 3.4 zurück. Visualisierung im barplot und auch im Tortendiagramm, siehe Abbildung 6. 3.5. Visualisierung gruppierter Daten Im Datensatz Rauchen unter Frauen/Männern haben wir zwei kategorielle Merkmale (sex, smoker), und ein numerisches (age). head(data.smoker) sex age smoker 1 w 29 TRUE 2 w 30 TRUE 3 w 21 TRUE 4 m 22 TRUE 5 m 30 FALSE 6 w 24 TRUE 38 3. BESCHREIBENDE STATISTIK 1.0 empir. VF ● 0.8 ● ● 0.6 ● ● 0.4 Fn(x) ● ● 0.2 ● ● 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 x Abbildung 5. Empirische Verteilungsfunktion (erste zehn Datenpunkte) Deshalb kann man sich die Verteilung des numerischen Merkmals hinsichtlich eines kategoriellen darstellen. Dies ist in Abbildung 7 visualisiert. Liegen mehrere kategorielle Merkmale vor, wie etwa in Beispiel 3.4, so können diese in barplot nebeneinander gestellt werden, siehe Abbildung 8. Es gibt desweiteren noch stripcharts, wie in Abb. 9 dargestellt. 3.6. Aufgaben Aufgabe 3.1. • Lade den Datensatz homedata. • Welche Struktur hat dieser Datensatz? • Visualisiere die Daten als Histogramm, getrennt nach Jahren. • Wie sieht dies im boxplot aus? Aufgabe 3.2. • Lade den Datensatz exec.pay. • Welche Struktur hat dieser Datensatz? • Visualisiere die Daten, sowohl als Histogramm als auch im qqplot. • Visualisiere die logarithmierten Daten, sowohl als Histogramm, als auch im qq-plot. • Welche Schlußfolgerung ziehen Sie? 3.6. AUFGABEN 39 250 Koffeinverbrauch bei Singles 150 0 1−150 >300 0 50 151−300 0 1−150 >300 Abbildung 6. Barplot (l) und Tortendiagramm (r) der Daten aus Beispiel 3.4. Tortendiagramme sind die schlechteste Art, Daten zu visualisieren, da das Auge Flächen schlecht einschätzen kann. Aufgabe 3.3. • Laden Sie den Datensatz mtcars. • Stellen Sie die Daten der Variable mpg bereit. Welche Bedeutung hat diese? • Transformieren Sie die Daten, so daß Sie den Verbrauch pro 100 km bereitstellen. Hinweis: Umrechungen sind 1 USMeile entspricht 0.6237 km, 1 Gallone entspricht 3.79 l. • Visualisieren Sie die neuen Daten sowohl als Histogramm, boxplot, und stripchart. Aufgabe 3.4. Der DowJones ist ein Aktienindex. Gemäß der Black– Scholes Theorie sollten die Zuwächse lognormal verteilt sind. Ziel dieser Aufgabe ist es, dies visuell zu überprüfen. • Laden Sie den Datensatz dowdata. Dieser beschreibt die DowJones Werte von Januar 1999 bis Oktober 2000. • Bestimmen Sie die logarithmierten Zuwächse. • Sind diese lognormal verteilt? 40 3. BESCHREIBENDE STATISTIK 28 20 20 28 opar <- par(mfrow = c(2, 2)) with(data.smoker, boxplot(age ~ sex)) with(data.smoker, boxplot(age ~ smoker)) with(data.smoker, stripchart(age ~ smoker)) title(main = "Raucher/Nichtraucher nach Alter") m w FALSE TRUE FALSE Raucher/Nichtraucher nach Alter 20 22 24 26 28 30 age par(opar) Abbildung 7. Visualisierung gruppierter Daten im boxplot. 3.6. AUFGABEN 41 barplot(caff.marital, beside = TRUE, legend = rownames(caff.marital)) title(main = "Koffeinverbrauch nach Familienstand") Koffeinverbrauch nach Familienstand 0 400 800 1200 verheirated geschieden Single 0 1−150 151−300 >300 Abbildung 8. Gruppierter barplot der Daten aus Beispiel 3.4. Abbildung 9. Visualisierung gruppierter Daten in Streifen Abbildung 10. Spritverbrauch bei US Autos im Jahr 1974 KAPITEL 4 Schließende Statistik 4.1. Fragestellung Gegeben sind (im einfachen Fall) • numerische i.i.d. Daten x1 , x2 , . . . , xn , • die mittels einer Zufallsvariable X unter Benutzung eines unbekannten Zufallsautomaten erzeugt wurde. In der parametrischen Statistik gehört der Zufallsautomat zu einer parametrischen Familie von Verteilungen, in der nur der konkrete Parameter unbekannt ist! Definition 12 (Statistisches Modell). Ein W-Raum (Ω, F, (Pϑ )ϑ∈Θ ) mit Familie von W-keiten (Pϑ )ϑ∈Θ heißt statistisches Modell. Definition 13 (statistisches Experiment). Eine Zufallsvariable X : (Ω, F, (Pϑ )ϑ∈Θ ) beschreibt ein statistisches Experiment. Definition 14 (Stichprobe, Stichprobenraum). • Eine Realisierung einer i.i.d. Folge X1 , . . . , Xn heißt Stichprobe, im Stichprobenraum (Rn , B n ). • Die Zahl n heißt Umfang der Stichprobe. • Die Verteilung der Stichprobe wird mit Q bezeichnet, also gilt Q Q = nj=1 Qi für eine (geeignete) W-keit Qi . Definition 15 (parametrische Annahme). Es gibt eine Parametermenge Θ ⊂ Rd , so daß ϑ ∈ Θ. In diesem Kontext gibt es zwei grundlegende Fragestellungen: (1) Schätze den unbekannten Parameter ϑ! (2) Teste, ob der Parameter gleich einem vorgegebenen Wert ϑ0 ist! Beispiel 4.1. Seien die X1 , . . . , Xn i.i.d. gemäß norm (µ, σ 2 ). Zwei Situationen sind denkbar: (1) Die Varianz σ 2 istbekannt, und Θ = {µ, µ0 ≤ µ ≤ µ1 }. 43 44 4. SCHLIESSENDE STATISTIK (2) Beide Parameter sind unbekannt, d.h., Θ = {(µ, σ 2 ), µ0 ≤ µ ≤ µ1 , σ0 ≤ σ ≤ σ1 }. Beispiel 4.2. Seien die X1 , . . . , Xn i.i.d. gemäß pois(λ). Die Parametermenge sei Θ = {λ, λ > 0}. Beispiel 4.3. Seien die X1 , . . . , Xn i.i.d. gemäß bern(p) verteilt. Dann setzen wir Θ = {p, 0 ≤ p ≤ 1}. 4.2. Punktschätzer 4.2.1. Begriffsbildung. Definition 16 (Punktschätzer). Eine meßbare Abbildung S vom Stichprobenraum in den Parameterraum S : (Rn , B n ) −→ (Rd , B d ) heißt Punktschätzer für den Parameter ϑ ∈ Θ. In vielen Fällen schreiben wir ϑ̂ als Schätzer für den unbekannten Parameter ϑ. Haben folgendes Bild X1 ,...,Xn S (Ω, F, (Pϑ )ϑ∈Θ ) −→ (Rn , B n , (Qϑ )ϑ∈Θ ) −→ (Rd , B d ) Definition 17. Die Anwendung vom Schätzer S auf eine Realisierung (die Stichprobe) heißt Schätzung, also S(X1 (ω), . . . , Xn (ω)) für festes ω ∈ Ω. Beispiel 4.4 (Gaußexperiment). Betrachten ein Gaußexperiment S=X̄ X1 ,...,Xn (Ω, F, norm µ, σ 2 ) −→ (Rn , B n , norm µI, σ 2 I ) −→n (R, B) Dann ist P • X̄n = n1 nj=1 Xj ein Schätzer, und P • x̄n = n1 nj=1 xj die dazugehörige Schätzung. Gemäß Gesetz der großen Zahlen wissen wir: x̄n → µ für n → ∞. 4.2.2. Eigenschaften von Schätzern. Definition 18 (Erwartungstreue). Ein Schätzer S heißt erwartungstreu (für den Parameter ϑ) falls für jedes ϑ ∈ Θ gilt EQϑ (S) = ϑ. Falls limn→∞ EQϑ (Sn ) = ϑ so heißt die Folge Sn von Schätzern asymptotisch erwartungstreu. 4.2. PUNKTSCHÄTZER 45 Beispiel 4.5. Haben beim Gesetz der großen Zahlen gesehen, daß das Stichprobenmittel X̄n ein erwartungstreuer Schätzer für den Erwartungswert ist. Definition 19 (Konsistenz). Eine Folge Sn von Schätzern heißt konsistent falls Qnϑ (|Sn − ϑ| > ε) → 0, falls n → ∞. Satz 4.1. Sei Sn eine Folge erwartungstreuer Schätzer. Falls für die Varianzen gilt Vϑ (Sn ) → 0 gilt, so ist die Folge Sn konsistent. Beweis. Wir wenden die Tschebyscheff-Ungleichung an: Vϑ (Sn ) Qnϑ (|Sn − ϑ| > ε) ≤ → 0. ε2 Beispiel 4.6. Hat die ZV X, die die Stichprobe generiert endliche Varianz, so ist das Stichprobenmittel eine konsistente Schätzung für den Erwartungswert, denn 1 Vϑ (X̄n ) = V(X1 ) → 0. n 4.2.3. Fehlerkriterium. Die Fehlermessung bei Punktschätzern beruht auf einem Abstandsbegriff R : (ϑ, ϑ0 ) ∈ Θ → R+ , der Verlustfunktion genannt wird. Wir werden im folgenden immer R(ϑ, ϑ0 ) = kϑ − ϑ0 k wählen. Definition 20 (RMS-Fehler). Sei S ein Schätzer für den Parameter ϑ. Der Quadratmittelfehler (RMS error) ist definiert als 1/2 EQϑ kS − ϑk2 . Dieser wird auch Risiko genannt. Die Größe sup EQϑ kS − ϑk2 1/2 ϑ∈Θ beschreibt den maximalen Fehler zur Schätzung des unbekannten Parameters. Definition 21 (Minimax-Schätzer). Ein Schätzer S 0 , der den maximalen RMS-Fehler minimiert, d.h., für den gilt 1/2 1/2 sup EQϑ kS 0 − ϑk2 = min sup EQϑ kS − ϑk2 ϑ∈Θ S ϑ∈Θ heißt Minimax-Schätzer. Der realisierte RMS-Fehler heißt MinimaxFehler. 46 4. SCHLIESSENDE STATISTIK 4.3. Maximum-likelihood Methode Wie findet man “gute”Schätzer? 4.3.1. diskrete Verteilungen. Angenommen, die Stichprobenverteilung ist diskret mit Werten in Ω, also sind die Punktwahrscheinlichkeiten, bei gegebenem ϑ ∈ Θ gegeben als pϑ (x) = p(x, ϑ), x ∈ Ω. Definition 22 (Likelihood-Funktion). Bei gegebener i.i.d. Stichprobe x1 , . . . , xn bezeichnet die gemeinsame Punktverteilung Lx1 ,...,xn (ϑ) := p(x1 , ϑ) ∗ · · · ∗ p(xn , ϑ), ϑ ∈ Θ, die Likelihood-Funktion. Bei der Maximum-likelihood-Methode wird diese Wahrscheinlichkeit maximiert bzgl. ϑ. Da die Logarithmus-Funktion monoton wachsend ist, und 0 ≤ L ≤ 1, wird oft zur log-likelihood übergegangen, und wir bezeichnen l(ϑ) = − log L(ϑ), ϑ ∈ Θ, die ihrerseits minimiert werden muß. Definition 23 (ML-Schätzer, Edgeworth, 1908, Fisher, 1922). Jeder Wert, bei dem das Minimum der log-likelihood angenommen wird heißt Maximum-likelihood-Schätzer. Unter Glattheits-Annahmen ist eine notwendige Bedingung für den Minimierer: ∂ l(ϑ, x1 , . . . , xn ) = 0. ∂ϑ Beispiel 4.7 (Bernoulli-Experiment). Hier ist p(1, ϑ) = ϑ, p(0, ϑ) = 1 − ϑ. Wir können dies aufschreiben als p(x, ϑ) = ϑx (1 − ϑ)1−x , x ∈ {0, 1} , 0 < ϑ < 1. P Dann ist, mit k = nj=1 xj , die Likelihood-Funktion L(ϑ) = n Y ϑxj (1 − ϑ)1−xj = ϑk (1 − ϑ)n−k , 0 < ϑ < 1. j=1 log L(ϑ) = k log(ϑ) + (n − k) log(1 − ϑ), das können wir umschreiben, mittels Stichprobenmittel x̄, als 1 log L(ϑ) = x̄ log(ϑ) + (1 − x̄) log(1 − ϑ). n 1 ∂ x̄ 1 − x̄ ! l(ϑ, x1 , . . . , xn ) = − = 0. n ∂ϑ ϑ 1−ϑ 4.3. MAXIMUM-LIKELIHOOD METHODE 47 Dies führt zu ϑ̂ = x̄ als ML-Schätzung für den unbekannten Parameter ϑ. Wir veranschaulichen dies in folgender Rechnung. Lfunct <- function(theta, n, k) theta^k * (1 - theta)^(n - k) lfunct <- function(theta) -log(Lfunct(theta, n, k)) theta <- 0.4 n <- 50 data <- rbinom(n, 1, theta) k <- sum(data) # erster Datensatz (min.wert <- optimize(lfunct, interval = c(0, 1))$min) [1] 0.36 # Dies ist gleich k/n [1] 0.36 Umfang= 500 Minimum= 0.392 600 400 500 lfunct 40 60 80 lfunct 120 700 Umfang= 50 Minimum= 0.36 0.0 0.4 data 0.8 0.0 0.4 0.8 data Abbildung 1. Veranschaulichung der MaximumLikelihood Methode. Der wahre Parameter ist ϑ = 0.4 (in blau). 48 4. SCHLIESSENDE STATISTIK 4.3.2. Stetige Verteilungen. Hier werden die Punktw-keiten durch die Dichten ersetzt. Definition 24 (Likelihood-Funktion). Bei gegebener i.i.d. Stichprobe x1 , . . . , xn bezeichnet die gemeinsame Dichte n Y L(ϑ, x1 , . . . , xn ) := f (xj , ϑ), ϑ ∈ Θ, j=1 die Likelihood-Funktion. Definition 25 (Log-likelihood Funktion). Der negative Logarithmus l(ϑ) := − log L(ϑ) heißt log-likelihood. Dies führt zum gleichen Begriff des ML-Schätzers als Minimierer der log-likelihood. n X l(ϑ, x1 , . . . , xn ) = − log f (xj , ϑ) −→ MIN! j=1 Unter Glattheitsannahmen suchen wir Minima als Nullstellen der Ableitung! Beispiel 4.8 (Gauß-Experiment). 1 Haben Dichte f (x) = √2πσ e− 2 den Erwartungswert µ. (x−µ)2 2σ 2 , x ∈ R. Suchen zuerst Schätzer für n 1 X + 2 l(µ, x1 , . . . , xn ) = −n log √ (xj − µ)2 2 2σ 2πσ j=1 Pn 2 Das wird minimal gdw. j=1 (xj − µ) → MIN! Deshalb ist im GaußExperiment der ML-Schätzer gleich dem Kleinste-Quadrate-Schätzer (KQ-Schätzer, siehe § 4.5), und der ergibt sich als µ̂ = x̄, wieder das Stichprobenmittel. Wir können das Minimum per Differentiation gewinnen, und dies ergibt ∂ n [−l(µ, x1 , . . . , xn )] = 2 (x̄n − µ) ∂µ σ Zum Schätzen der Varianz σ 2 differenzieren wir die log-likelihood nach σ 2 und erhalten n X 2 nσ − (xj − µ)2 = 0. 1 j=1 (1) Ist µ bekannt, so ergibt dies einen erwartungstreuen Schätzer der Varianz. 4.4. BESTE SCHÄTZER: CRAMÉR–RAO UNGLEICHUNG 49 (2) Bei unbekanntem µ ersetzen wir µ durch den Schätzer x̄ und es ergibt sich n 1X σˆ2 = S 2 = (xj − x̄)2 . n j=1 Diese Schätzer ist nicht erwartungstreu! Das führt zur Korrektur n 1 X 2 (xj − x̄)2 S = n − 1 j=1 als erwartzungstreuen Schätzer für die Varianz im Gauß-Experiment, er heißt empirische Varianz. Vorrechnen! Bemerkung 13. Obwohl wir i.A. Schätzer für einen Parameter ϑ mit ϑ̂ bezeichnen, wird hier eine Ausnahme gemacht, denn σb2 sähe schlecht aus. Diese Ausnahme hat sich in der Statistik eingebürgert. Bemerkung 14. Die oben eingeführten Schätzer, Stichprobenmittel x̄n und empirische Varianz S 2 werden in R mittels mean() und var() aufgerufen; es gibt auch sd() für die Standardabweichung. 4.4. Beste Schätzer: Cramér–Rao Ungleichung Satz 4.2 (Rao, 1945, Cramér, 1946). Sei S ein erwartungstreuer Schätzer in einem Modell mit diff ’barer Likelihood-Funktion Lx1 ,...,xn (ϑ) = f (x1 , . . . , xn , ϑ), und der log-likelihood l(ϑ). Dann gilt Vϑ (S) ≥ 1 . Vϑ (l0 ) Beweis. Wir setzen x := (x1 , . . . , xn ), und nehmen an, daß ϑ univariat ist. R • Wegen Erwartungstreue können wir schreiben: ϑ = S(x)f (x, ϑ) dx. • Nach Differentiation erhalten wir: Z ∂ 1 = S(x) f (x, ϑ) dx ∂ϑ Z ∂ = S(x) [−l(ϑ)]f (x, ϑ) dx. ∂ϑ R • Da f eine Dichte ist,R so gilt 1 = f (x, ϑ) dx, R und nach Differ∂ entiation folgt: 0 = ∂ϑ [l(ϑ)]f (x, ϑ) dx = l0 (x)f (x) dx. • Daher ist V(l0 ) = Eϑ (l0 )2 . 50 4. SCHLIESSENDE STATISTIK • Alles zusammen ergibt sich Z Z 0 1 = S(x)(−l) (x)f (x) dx = (S(x) − ϑ)(−l)0 (x)f (x) dx Z ≤ 1/2 Z 2 (S(x) − ϑ) f (x) dx 1/2 = (Vϑ (S))1/2 (Vϑ (l0 )) 0 2 1/2 (l (x)) f (x) dx . Das war zu zeigen. Definition 26 (Fischer-Information). Die Größe 0 Z I(ϑ) := Vϑ (l ) = 2 ∂ [l(ϑ)] f (x, ϑ) dx ∂ϑ hängt nur von der zugrunde liegenden likelihood-Funktion ab, sie ist also modellspezifisch. Daher hat sie den Namen Fisher-Information bekommen. Bemerkung 15. Da die Varianz eines erwartungstreuen Schätzers gleich seinem RMS-Fehler ist, so liefert die Cramér–Rao-Ungleichung eine untere Schranke für beliebige erwartungstreue Schätzer: Eϑ (S − ϑ)2 1/2 ≥ 1 . I(ϑ) Definition 27 (BUE- und BLUE-Schätzer). Erwartungstreue Schätzer, deren RMS-Fehler die untere Schranke annehmen heißen best unbiased estimators (BUE). Ist der Schätzer linear in den Daten, wie etwa das Stichprobenmittel, so heißt ein BUE-Schätzer auch BLUE. 2 2 1 Beispiel 4.9 (Gauß-Experiment). Sei f (x, µ) = √2πσ e−(x−µ) /(2σ ) , 2 wobei wir σ als bekannt voraussetzen. Wir haben in Beispiel 4.8 l0 bereits ausgerechnet: l0 = σn2 (x̄−µ). Daher ist die Fisher-Information I(µ) = V(l0 ) = σn2 . Dies ist aber gleich dem Inversen der Varianz V(x̄) des Stichprobenmittels, welcher deshalb BLUE ist (im Gauß-Experiment). Wir sehen weiterhin zwei Dinge: √ (1) Das Stichprobenmittel x̄n hat als RMS-Fehler den Wert σ/ n (parametrische Rate). (2) Kein anderer erwartungstreuer Schätzer kann einen kleineren Fehler haben! 4.5. KQ-METHODE: DAS REGRESSIONSPROBLEM 51 4.5. Die Kleinste-Quadrate-Methode: das Regressionsproblem Gegeben sei eine Stichprobe von unabhängigen ZV Y1 , . . . , Yn . Wir nehmen an, daß ein funktioneller Zusammenhang Yi = β0 + β1 ∗ xi + εi , i = 1, . . . , n, besteht, wobei die εi i.i.d, zentriert sind Eεi = 0, V(εi ) = σ 2 . Die x1 , . . . , xn sind hierbei gegeben. Um den Modell-Parameter β = (β0 , β1 ) zu schätzen wählen wir die Methode der kleinsten Quadrate: Bei gegebenem Parameter β sei Q(β) := n X (Yj − β0 − β1 xj )2 j=1 das Residuum (der Missfit). Ziel ist es den Missfit zu minimieren, Q(β) −→ MIN! Definition 28 (Lineare Regression, Legendre 1805, Gauß 1809). Gegeben sei das obige Modell mit dem Parameter β. Das Minimieren der quadratischen Funktion β → Q(β) wird als (lineare) Regression bezeichnet. Die Minimierer β̂0 , β̂1 werden Regressionskoeffizienten genannt. Die Funktion Q ist quadratisch in β, und der Minimierer kann durch Differentiation erhalten werden. Dies führt, mit der Modell-Matrix, Designmatrix 1 x1 1 x2 X= . . . . . . . 1 xn zu folgendem Gleichungssystem (Normalengleichungen): Y1 Y2 X T Xβ = X T . . . Yn Damit ergibt sich der Regressionsparameter β̂ als Y1 −1 Y2 β̂ = X T X XT . . . (Regressionsgleichung) Yn 52 4. SCHLIESSENDE STATISTIK Die Matrix X T X und die rechte Seite berechnen sich als Y1 P P n Y2 β0 Y P x2j = P j = XT X T Xβ = P . . . xj xj β1 Y j xj Yn Nach einigen Umformungen ergeben sich die Schätzer β̂0 , β̂1 als β̂0 = Ȳ − β̂1 x̄ (Residuengleichung) P (xj − x̄)Yj β̂1 = P (xj − x̄)2 Desweiteren berechnet man Eβ̂1 = β1 (Erwartungstreue) σ2 . 2 j=1 (xj − x̄) V(β̂1 ) = Pn Wir sehen, daß dieser Schätzer konsistent ist, falls nur ∞ mit n → ∞. Pn 2 j=1 (xj − x̄) → Definition 29 (empirische Korrelation). Der Koeffizient β̂1 kann in anderer Form geschrieben werden, als P (xj − x̄)(Yj − Ȳ ) sxy P β̂1 = . =: 2 sx (xj − x̄) Formel ausführen! Der empirische Korrelationskoeffizient ist gegeben als sxy ρ(Y, x) := √ √ , sx sy das ist “konsistent” mit der Definition der Korrelation zweier ZV. In R bekommt man diesen mit cor(Y,x). Bemerkung 16. Die KQ-methode macht keine Verteilungsannahmen! Nimmt man jedoch an, daß die Fehler ε1 , . . . , εn i.i.d. ∼ norm (0, σ 2 ), so ergibt sich der in § 4.3 berechnete Maximum-likelihood-Schätzer, siehe S. 48! Beispiel 4.10. Wir demonstrieren die lineare Regression anhand des Datensatzes thuesen aus ISwR, siehe Abbildung 2. Bemerkung 17. Ähnlich kann man multiple Regression und polynomiale Regression durchführen. 4.5. KQ-METHODE: DAS REGRESSIONSPROBLEM 53 4.5.1. Das Simpson-Paradoxon. Bei der linearen Regression kann es wichtig sein, weitere (kategorielle) faktoren zu berücksichtigen, und iwr demonstrieren deis anhand des folgenden Datensatzes students.dat. students <- read.table("students.dat", header = TRUE) str(students) 'data.frame': 150 obs. of 3 variables: $ semester: int 10 10 5 9 4 5 9 4 4 6 ... $ degree : Factor w/ 2 levels "bachelor","master": 1 1 1 1 1 1 1 1 1 1 ... $ income : int 1500 2100 1700 2500 2500 2100 1700 1900 1800 2500 ... Wie verhält sich das (Anfangs)-Einkommen zur Studiendauer? Dies lösen wir durch lineare Regression mit der Annahme income = a + b · semester: 2500 1500 income 3500 attach(students) X <- cbind(1, semester) hat.beta <- solve(t(X) %*% X) %*% t(X) %*% income plot(income ~ semester, data = students, pch = 3) abline(hat.beta, col = "red") 4 6 8 10 12 14 16 semester detach(students) Moral: Laenger Studieren bringt bares Geld! ABER, es gibt ja noch den Faktor degree. Hat der Einfluß auf das Einkommen. Zu diesem 54 4. SCHLIESSENDE STATISTIK Zwecke zerlegen wir die Daten anhand dieses Faktors und führen jeweils getrennte Regression durch. students.bachelor <- subset(students, degree == "bachelor") students.master <- subset(students, degree == "master") # Regression fuer bachelor attach(students.bachelor) X <- cbind(1, semester) hat.beta.bachelor <- solve(t(X) %*% X) %*% t(X) %*% income detach(students.bachelor) attach(students.master) X <- cbind(1, semester) hat.beta.master <- solve(t(X) %*% X) %*% t(X) %*% income detach(students.master) # Finaler plot: plot(income ~ semester, data = students, pch = 3) title("Einkommensverteilung nach Studiendauer") abline(hat.beta, col = "red") income.master <- function(x) hat.beta.master[1] + hat.beta.master[2] * x income.bachelor <- function(x) hat.beta.bachelor[1] + hat.beta.bachelor[2] * x segments(4, income.bachelor(4), 9, income.bachelor(9), col = "blue") segments(9, income.master(9), 16, income.master(16), col = "blue") 2500 1500 income 3500 Einkommensverteilung nach Studiendauer 4 6 8 10 semester 12 14 16 4.6. VERTEILUNGEN: NORMALVERTEILUNG UND CO. 55 Dieser Effekt wird oft Simpson-Paradoxon genannt: Ohne Berücksichtigung zusätzlicher Faktoren wird die Regression verfälscht. 4.6. Verteilungen: Normalverteilung und Co. Im weiteren Verlauf werden einige, von der Normalverteilung abgeleitete Verteilungen wichtig werden. Diese werden hier eingeführt. 4.6.1. Die Γ-Verteilung. Wir erinnern uns an die Γ-Funktion Z ∞ tr−1 e−t dt, r > 0. Γ(r) := 0 Diese enthält die Fakultäten als Spezialfälle: √ • Γ(1) = 1, Γ(1/2) = π; • Γ(r + 1) = rΓ(r), und • Γ(k) = (k − 1)!, k ∈ N. Nach Substitution t ← αx erhalten wir Z ∞ Γ(r) = αr xr−1 e−αx dx. 0 Definition 30 (Gamma-Verteilung). Eine ZV mit der Dichte αr r−1 −αx γα,r := x e , x > 0, Γ(r) heißt Γα,r -verteilt. Bemerkung 18. Wir werden im folgenden ZV und Verteilungssymbole identifizieren, d.h., γα,r kann auch selbst eine derartig verteilte ZV sein. 4.6.2. Die β-Verteilung. Wir erinnern uns an die Eulersche βFunktion, die für a, b > 0 gegeben ist als Z 1 B(a, b) := sa−1 (1 − s)b−1 ds. 0 Definition 31 (Beta-Verteilung). Zu gegebenen a, b > 0 sei βa,b := xa−1 (1 − x)b−1 , B(a, b) 0 < x < 1, die Dichte der im Intervall (0, 1) verteilten βa,b -Verteilung. Satz 4.3 (Kalkül für die Γ- und β-Verteilungen). Seien α, r, s > 0 , und sei X ∼ Γα,r , Y ∼ Γα,s unabhängige ZV. Dann gilt: X sind unabhängig, (1) X + Y und X+Y (2) X + Y ∼ Γα,r+s , und 56 4. SCHLIESSENDE STATISTIK (3) X X+Y ∼ βr,s (kein α hier!). Beweis. Die gemeinsame Dichte ist vorrechnen αr+s fX,Y (x, y) = γα,r (x)γα,s (y) = xr−1 y s−1 e−α(x+y) , x, y > 0. Γ(r)Γ(s) X Definieren neue ZV ϕ(X, Y ) := X + Y, X+Y . Der Transformationssatz für Integrale, mittels Jacobi-Matrix ϕ−1 , ergibt in den neuen Koordinaten u, v, u > 0, 0 < v < 1 αr+s ur+s−1 v r−1 (1 − v)s−1 e−αu Γ(r)Γ(s) Γ(r + s) = B(r, s)γα,r+s (u)βr,s (v). Γ(r)Γ(s) ρ(uv, u(1 − v)) = Bemerkung 19. Der Vorfaktor ist notwendiger-weise gleich Eins! 4.6.3. Die χ2 -Verteilung. Korollar 4.1. Seien X1 , . . . , Xn ∼ norm (0, 1) i.i.d. Dann ist X12 + · · · + Xn2 ∼ Γ1/2,n/2 . Beweis. Wir beobachten folgendes: Falls X ∼ norm (0, 1) so gilt X ∼ Γ1/2,1/2 (Koordinatentransformation u ← x2 ). 2 Definition 32 (χ2 -Verteilung). Eine ZV mit der Dichte χ2n (x) xn/2−1 = γ1/2,n/2 (x) = n/2 e−x/2 , x > 0 2 Γ(n/2) heißt Xn2 -verteilt (χ2 -verteilt mit n Freiheitsgraden). Bemerkung 20. Wie aus der Herleitung ersichtlich, ist dies die typische Verteilung der Quadratsumme normalverteilter ZV. Offensichtlich gilt folgende Additivität. Korollar 4.2. X ∼ χ2m und Y ∼ χ2n unabhängig impliziert X + Y ∼ χ2m+n . Korollar 4.3. (1) Es gilt Eχ2n = n, V(χ2n ) = 2n, und 2 −n (2) Für große n ist χ√n2n ∼ norm (0, 1). 4.6. VERTEILUNGEN: NORMALVERTEILUNG UND CO. 57 0.10 0.20 df=1 df=5 df=15 0.00 fun(x) 0.30 Die Chi−Quadrat−Verteilung 0 5 10 15 20 25 30 x 4.6.4. Die F -Verteilung. Definition 33 (F -Verteilung). Zu m, n ∈ N sei fm,n (x) := mm/2 nn/2 xm/2−1 , B( m2 , n2 ) (mx + n)(m+n)/2 x > 0, die Dichte der Fm,n -Verteilung (F -Verteilung mit m und n Freiheitsgraden). Satz 4.4. Seien X1 , . . . , Xm und Y1 , . . . , Yn i.i.d. ∼ norm (0, 1). Dann ist die ZV Pm 1 2 j=1 Xj m W := 1 Pn 2 j=1 Yj n Fm,n verteilt mit m und n Freiheitsgraden. Korollar 4.4. Seien X ∼ χ2m und Y ∼ χ2n unabhängig. dann ist die ZV 1 X m ∼ Fm,n . 1 Y n 4.6.5. Die t-Verteilung. 58 4. SCHLIESSENDE STATISTIK Definition 34 (t-Verteilung, “Student” W. S. Gosset, 1908). Zu n ∈ N sei −(n+1)/2 1 x2 √ rn (x) = 1+ , x ∈ R. n B( 12 , n2 ) n die Dichte der tn -Verteilung (t-Verteilung mit n Freiheitsgraden). 0.5 Die t−Verteilung 0.3 0.2 0.0 0.1 fun(x) 0.4 df=1 df=5 df=15 normal −4 −2 0 2 4 x Satz 4.5. Sei X, Y1 , . . . , Yn i.i.d. ∼ norm (0, 1). Dann ist X W =q P n 1 n j=1 Yj2 tn -verteilt. √ 2 ∼ Korollar 4.5. Falls norm (0, 1) und χ2n unabhängig, so norm(0,1) χn /n tn . Korollar 4.6. Für n → ∞ gilt χ2n /n → 1, daher tn → norm (0, 1) für n → ∞. Interessant ist die folgende Beziehung zur F -Verteilung. Korollar 4.7. Sei X ∼ tn . Dann ist X 2 ∼ F1,n . 4.7. PARAMETERSCHÄTZUNG IM GAUSS-EXPERIMENT 59 1.0 Die F−Verteilung 0.6 0.4 0.0 0.2 fun(x) 0.8 df1=1, df2=5 df1=5, df2=5 df1=10, df2=15 0 1 2 3 4 5 6 x 4.7. Parameterschätzung im Gauß-Experiment Satz 4.6 (Hauptsatz, “Student”, W. S. Gosset, 1908). Sei X1 , . . . , Xn eine i.i.d. norm (µ, σ 2 ) verteilte Stichprobe. Wir betrachten die Schätzer n 1X X̄n = Xj n j=1 für den Erwartunsgwert, und n 1 X S = (Xj − X̄n )2 n − 1 j=1 2 für die Varianz. Dann gilt. (1) Die Schätzer X̄n und S 2 sind unabhängig. (2) Die Verteilungen der Schätzer sind X̄n ∼ norm (µ, σ 2 /n) und n−1 2 S ∼ χ2n−1 . σ2 √ (3) Es gilt Tn := n X̄nS−µ ∼ tn−1 . Beweis. Wir betrachten die normierten Yi := (Xi −µ)/σ ∼ norm (0, 1), und die dafür gebildeten Schätzer Ȳn , SY2 , resp. • Wenn wir den Satz für die Y1 , . . . , Yn bewiesen haben, dann folgt aus der Unabhängigkeit der Ȳn , SY2 auch die Unabhängigkeit der eigentlichen Schätzer X̄n = σ Ȳn + µ, S 2 = σ 2 SY2 . 60 Einschub hang C An- 4. SCHLIESSENDE STATISTIK • Desweiteren gilt für die Verteilungen: Hat Ȳn ∼ norm (0, 1/n), so folgt X̄n ∼ norm (µ, σ 2 /n), aber auch (n − 1)SY2 ∼ χ2n−1 impliziert n−1 S 2 ∼ χ2n−1 , denn die ZV stimmen überein. σ2 • Da √ Ȳn √ X̄n − µ n = n SY S √ Ȳn √ folgt aus n SY ∼ tn−1 das gleiche für n X̄nS−µ . • Wir können also annehmen, daß µ = 0, σ 2 = 1 gelten. Es genügt zu zeigen, daß X̄n und S 2 unabhängig sind. Zu diesem Zwecke genügt es eine (maßerhaltende, orthogonale) Koordinatentransformation O zu finden, die in der ersten Zeile kon√ stant = 1/ n ist. dann folgt √ 1 Pn √ Y1 X1 nX̄n j=1 Xj n Y2 Y2 Y2 = = O X2 = . . . . . . . . . . . . ... . ... Yn Xn Yn Yn Da die Abbildung orthogonal ist, so folgt aus X ∼ norm (0, I) auch Y ∼ norm (0, I) (gemeinsame Dichte hängt nur von kxk2 ab). Mit diesen Y1 , . . . , Yn folgt jedoch 2 (n − 1)S = n X 2 (Xi − X̄n ) = j=1 = = n X j=1 n X n X Xi2 − nX̄n2 j=1 Yi2 − nX̄n2 = n X Yi2 + Y12 − nX̄n2 j=2 Yi2 ∼ χ2n−1 . j=2 Insbesondere hängt S 2 nur von Y2 , . . . , Yn ab, und X̄n nur von Y1 , die beiden sind somit unabhängig. 4.8. Konfidenzbereiche Hier werden wir diskutieren, mit welcher Zuverlässigkeit bestimmte Schätzer in der Nähe des (wahren) zugrunde liegenden Parameters liegen. Dies wird mittels eines Konfidenz-Niveaus, einem Parameter 0 < α < 1 getan werden. 4.8. KONFIDENZBEREICHE 61 Definition 35 (Konfidenzbereich). Sei (Qϑ )ϑ∈Θ , Θ ⊂ Rd eine Familie von Stichproben-Verteilungen. Eine Abbildung K : Rn → F d mit der Eigenschaft, daß für all ϑ ∈ Θ gilt Qϑ ({x, ϑ ∈ K(x)}) ≥ 1 − α heißt Konfidenzbreich (zum Niveau 1 − α). Bemerkung 21 (Interpretation). Für jede Realisierung x1 , . . . , xn gemäß Qϑ liegt der wahre Parameter ϑ mit W-keit 1−α in K(x1 , . . . , xn ). Für ein Bernulli-Experiment ist dieser Sachverhalt in Abb. 4 verdeutlicht. Es geht hier darum, einen möglichst kleinen Bereich zu finden, der dies leistet. Der ganze Rd würde es ja auch tun, wäre jedoch nicht sehr informativ. Beispiel 4.11 (Gauß-Experiment, σ 2 bekannt). Sei eine Familie von Normalverteilungen gegeben, d.h., Qµ = norm µI, σ 2 I , (µ ∈ Θ = {µ ∈ R}) Es liege eine Stichprobe x1 , . . . , xn vor. Wir betrachten als Schätzung das Stichprobenmittel x̄n . Dann kennen wir die Verteilung X̄n ∼ norm (µ, σ 2 /n), also ist die normalisierte Größe √ X̄n − µ Tn := n ∼ norm (0, 1) . σ Es folgt P (−t0 ≤ Tn ≤ t0 ) = Φ(t0 ) − Φ(−t0 ) = 2Φ(t0 ) − 1, t0 > 0 (wegen Symmetrie). Wählen daher t0 = t1−α/2 := qnorm(1 − α/2), das Bild malen! (1−α/2)-Quantil der Normal-Verteilung, und als Konfidenzbereich zum Niveau 1 − α die Menge σ σ K(x̄n , α) := µ, x̄n − t1−α/2 √ , x̄n + t1−α/2 √ . n n Nach Konstruktion gilt Qϑ (K(x̄n , α)) = 1 − α. Beispiel 4.12 (Gauß-Experiment, µ, σ 2 unbekannt). Wir gehen genau so vor wie oben, diesmal gilt jedoch, nach dem Student’schen √ Hauptsatz, daß Tn = n X̄nS−µ ∼ tn−1 , darin kommt die Schätzung s2 der Varianz vor. Wählen also diesmal das (1 − α/2)-Quantil tn−1,1−α/2 der tn−1 -Verteilung (die ja auch symmetrisch zur Null ist) und erhalten für das Intervall s s . K(x̄n , α) := µ, x̄n − tn−1,1−α/2 √ , x̄n + tn−1,1−α/2 √ n n die Überdeckungsw-keit 1 − α. 62 4. SCHLIESSENDE STATISTIK Die folgende Graphik veranschaulicht die Lage des Konfidenzbereichs im t-Test bei x̄n = 0. 0.4 Konfidenzintervall 0.2 0.3 t−Verteilung mit 28 FG 0.1 1−α 0.0 α 2 −3 α 2 −2 −1 0 1 2 3 Konfidenzbereich Beispiel 4.13 (Blutplättchen beim Rauchen). Es wurde bei 11 Individuen die Aggregation von Blutplättchen vor und nach dem Rauchen einer Zigarette gemessen. Die folgenden Daten geben den Anteil aggregierter Blutplättchen (in Prozent) nach einer Stimulation an.1 Die Rechnungen sind In Abbildung 3 ersichtlich. Beispiel 4.14 (Konfidenzbereich für Varianz-Schätzer im Gauß– Experiment). Wie im Hauptsatz, § 4.7, gezeigt, gilt für den Schätzer n S2 = 1 X (Xi − X̄n )2 n − 1 j=1 daß n−1 S 2 ∼ χ2n−1 . Die χ2n−1 -Verteilung ist nicht symmetrisch! Deshalb σ2 wählen wir zwei Quantile qn−1,α/2 und qn−1,1−α/2 . Dann gilt n−1 2 Qσ2 qn−1,α/2 ≤ s ≤ qn−1,1−α/2 = 1 − α. σ2 1Dieser Datensatz ist der Vorlesung Statistik für Biologie und Pharmazeutis” che Wissenschaften“, ETH Zürich, 2009, entnommen. 4.8. KONFIDENZBEREICHE 63 Nach Umformung ergibt sich n−1 2 n−1 2 2 2 K(s) = σ , s ≤σ ≤ s . qn−1,1−α/2 qn−1,α/2 Beispiel 4.15 (Einseitiger Konfidenzbereich für Varianz-Schätzer im Gauß-Experiment). Oft möchte man nur Sicherheit nach oben haben. Dann sieht man n−1 2 2 2 s = 1 − α. Qσ 2 σ , σ ≤ qn−1,α Beispiel 4.16 (Bernoulli-Experiment approximativ). Haben Stichprobe X1 , . . . , Xn i.i.d. gemäß bern(p) mit unbekanntem Parameter 0 < p < 1. Als erwartungstreuen Schätzer wählen wir wieder das Stichprobenmittel (Maximum-likelihood Schätzer, siehe § 4.3.1), was sich in diesem Fall als relative Häufigkeit entpuppt: # {j, Xj = 1} p̂ = X̄n = . n Um ein Konfidenzintervall für den unbekannten Parameter p zu finden, nutzen wir die Tatsache, daß die standardisierte Zufallsvariable p̂ − p z= SE q wobei SE = p(1−p) die Standardabweichung bestimmt. Die so stann dardisierte Zufallsvariable z ist approximativ standard-normalverteilt, und wir bestimmen das Konfidenzintervall wie im Gauss-experiment bei bekannter Varianz, vgl. Bsp. 4.11. Dazu ersetzen wir die unbekanq nte Standardabweichung durch die geschätzte, also durch S = also als p̂(1−p̂) n K(p̂) = [p̂ − qnorm(1 − α/2) · S, p̂ + qnorm(1 − α/2) · S] Wir betrachten folgendes numerisches Beispiel: Bei einem Stichprobenumfang 100 wurde in 30 Fällen ein positives Ergebnis erzielt. Wie bestimmt sich das Konfidenzintervall für die unbekannte Erfolgsw-keit p? In R sieht dies folgendermaßen aus: n <- 100 k <- 30 alpha <- 0.05 p.hat <- k/n S <- sqrt(p.hat * (1 - p.hat)/n) zstar <- qnorm(1 - alpha/2) c(p.hat - zstar * S, p.hat + zstar * S) 64 4. SCHLIESSENDE STATISTIK [1] 0.2102 0.3898 Diese Art des approximativen Konfidenzintervalls (etwas verfeinert) findet sich in R im prop.test. prop.test(k, n)$conf.int[1:2] [1] 0.2145 0.4011 Eine Simulation dieser Situation findet sich in Abb. 4. Beispiel 4.17 (Bernoulli-Experiment, Clopper–Pearson-Intervall, 1934). Haben, wie oben, eine Stichprobe X1 , . . . , Xn i.i.d. gemäß bern(p) mit unbekanntem Parameter 0 < p < 1. Wir kennen die Verteilung nX̄n ∼ binom(n, p) (Anzahl der Erfolge im Bernoulli-Experiment, siehe § 1.4). In diesem Fall ist die Verteilungsfunktion eine Treppenfunktion F (k, n, p) := k X b(j, n, p), k = 1, . . . , n. j=0 Das Clopper-Pearson-Intervall [p.L, p.U ] bestimmt sich nun folgendermaßen. • Für festes k ist die W-keit Pp (X ≥ k) eine stetige fallende Funktion in p. Bei beobachtetem k bestimmen wir p.U = p.U (k) derart, daß Pp.U (X ≥ k) = 1 − F (k − 1, n, p.U ) = α/2. Analoges gilt für p.L(k), und wir bestimmen dies durch Pp.L (X ≤ k) = F (k, n, p.L) = α/2. • Es gilt Pp (p ∈ [p.L, p.U ]) = 1 − Pp (p < p.L(k)) − Pp (p > p.U (k)). • Wir beobachten daß n o α {k, p > p.U (k)} ⊆ {k, Pp.U (X ≤ k) ≥ Pp (X ≤ k)} ⊆ 0, qbinom( , n) . 2 Daher folgt α Pp (p > p.U (k)) ≤ Pp ({0, qbinom(α/2, n)}) ≤ . 2 Analoges folgt für p.L, so daß das Intervall [p.L(k), p.U (k)] ein Konfidenzintervall zum Niveau 1 − α ist. Wie bestimmt man das Clopper–Pearson-Intervall? naiv: conf.binom <- function(k, n, alpha = 0.05) { Fnk.p.U <- function(theta) sum(dbinom(0:k, n, theta)) - alpha/2 Fnk.p.L <- function(theta) sum(dbinom(k:n, n, theta)) - alpha/2 p.U <- uniroot(Fnk.p.U, c(0, 1))$root 4.8. KONFIDENZBEREICHE 65 p.L <- uniroot(Fnk.p.L, c(0, 1))$root return(c(p.L, p.U)) } k <- 30 n <- 100 alpha <- 0.05 conf.binom(k, n) [1] 0.2124 0.3998 praktisch: Hier benutzen wir folgende Beobachtung. Es gilt α Fnk.p.U(p) + = pbeta(1 − p, k + 1, n − k) 2 Dies stellt einen Zusammenhang zur β-Verteilung, siehe § 4.6.2. Demzufolge wird p.U bestimmt durch p.U = qbeta(1 − α/2, k + 1, n − k), und analog p.L = qbeta(α/2, k, n − k + 1). c(qbeta(alpha/2, k, n - k + 1), qbeta(1 - alpha/2, k + 1, n - k)) [1] 0.2124 0.3998 Dies ist auch in R implementiert, siehe p.L <- function(x, alpha) { if (x == 0) 0 else qbeta(alpha, x, n - x + 1) } p.U <- function(x, alpha) { if (x == n) 1 else qbeta(1 - alpha, x + 1, n - x) } Bemerkung 22. Im allgemeinen muß der kleinste Konfidenzbereich kein Intervall sein! Das ist nur der Fall, wenn Monotonie vorliegt. Wir fassen die Konstruktion von Konfidenzintervallen kurz in Tabell 1 zusammen. 66 4. SCHLIESSENDE STATISTIK Statistik Verteilung Konfidenzintervall Zn := X̄n −µ σ norm (0, 1) X̄n ± z1−α/2 √σn Tn := X̄n −µ S tn−1 X̄n ± tn−1,1−α/2 √Sn 2 (n − 1) Sσ2 χ2n−1 σ2 ≤ n−1 S2 χ2n−1,α (einseitig) Tabelle 1. Übersicht über Konfidenzintervalle 4.9. Aufgaben Aufgabe 4.1. Eine allgemeine Regel besagt, daß die maximale Herzfrequenz altersabhängig mit der simplen Formel maxrate = 220 − age sein soll.2 In einer Studie3 wurden folgende Daten gemessen. heartrate <- data.frame(age = c(18, 23, 25, 35, 65, 54, 34, 56, 72, 19, 23, 42, 18, 39, 37), maxrate = c(202, 186, 187, 180, 156, 169, 174, 172, 153, 199, 193, 174, 198, 183, 178)) • Veranschaulichen Sie die Rohdaten in einer Graphik. • Führen Sie die Regression zur Überprüfung der oben genannten Formel durch. • Fügen Sie die Regressionsgerade der Graphik in rot hinzu. Aufgabe 4.2. Im Datensatz diamond.dat sind Diamantpreise in Abhangigkeit von der Größe festgestellt. • Laden Sie den Datensatz. • Bestimmen Sie, ob der Preis (in $) eines Diamanten proportional zu seiner Größe ist. Aufgabe 4.3. Simulieren Sie 100 zweidimensionale Zufallsvektoren, die gemeinsam normalverteilt sind und die Korrelation ρ = 0.9 besitzen. 2Grundlage ist die Arbeit “Age-predicted maximal heart rate revisited”, H. Tanaka, K. D. Monahan, and D. R. Seals, J. Am. Coll. Cardiol., 37:1, 153– 156, 2001. Dort wurde der funktionelle Zusammenhang maxrate = 209 − 0.7age bestätigt. 3 Simuliert von J. Verzani, UsingR. 4.9. AUFGABEN 67 require("ISwR") Lade ntiges Paket: ISwR data(thuesen) head(thuesen) blood.glucose short.velocity 1 15.3 1.76 2 10.8 1.34 3 8.1 1.27 4 19.5 1.47 5 7.2 1.27 6 5.3 1.49 # short.velocity = Herzkammerkontraktionsgeschwindigkeit attach(thuesen) X <- cbind(rep(1, dim(thuesen)[1]), blood.glucose) hat.beta <- solve(t(X) %*% X) %*% t(X) %*% short.velocity # veraltete Regression lsfit(blood.glucose, short.velocity)$coef Warning: 1 missing values deleted Intercept X 1.09781 0.02196 # moderne Variante (lm.fit <- lm(short.velocity ~ blood.glucose)$coef) (Intercept) blood.glucose 1.09781 0.02196 Datensatz: thuesen ● 1.6 ● ● ● 1.4 ● ● ● ● 1.2 short.velocity 1.8 ● ● 1.0 ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 blood.glucose detach(thuesen) Abbildung 2. Regression beim thuesen Datensatz. Die berechneten Regressionskoeffizienten sind: (Inter- 20 68 4. SCHLIESSENDE STATISTIK vorher nachher [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] 25 25 27 44 30 67 53 53 52 60 28 27 29 37 56 46 82 57 80 61 59 43 Hat das Rauchen einen signifikanten Einfluß auf die Konzentration der Blutplättchen? Dazu bilden wir die Differenzen diff <- blut.data$nachher - blut.data$vorher Sollte kein Einfluß vorliegen, so müsste die Differenz gleich Null sein. Daher setzen wir α=0.05, und wir berechnen das Konfidenzintervall zum Niveau 0.95. (1) In Falle, daß die Standardabweichung bekannt ist, nämlich 8, bilden wir das Intervall im Gauss-Fall. n <- length(diff) z.q <- qnorm(1 - alpha/2) h <- z.q * sigma/sqrt(n) c(mean(diff) - h, mean(diff) + h) [1] 5.545 15.000 (2) Im allgemeineren Fall, daß die Standardabweichung unbekannt ist, berechnen wir das Intervall mit der t-Verteilung. t.q <- qt(1 - alpha/2, n - 1) h <- t.q * sd(diff)/sqrt(n) c(mean(diff) - h, mean(diff) + h) [1] 4.914 15.631 (3) Eigentlich ist für die Medizin nur wichtig zu wissen, ob die Differenz positiv ist. Daher ist das einseitige Intervall wichtiger. t.q1 <- qt(1 - alpha, n - 1) h <- t.q1 * sd(diff)/sqrt(n) (confint <- c(mean(diff) - h, Inf)) [1] 5.914 Inf Das heißt, der wahre Parameter ist mit 95%- W-keit größer als 5.914. In R können diese Informationen aus dem t.test gewonnen werden: t.test(diff)$conf.int[1:2] [1] 4.914 15.631 t.test(diff, alt = "greater")$conf.int[1:2] [1] 5.914 Inf Abbildung 3. Experiment zur BlutplättchenKonzentration vor und nach dem Rauchen 4.9. AUFGABEN 69 15 10 5 Versuchsnummer 20 Simulation der Ueberdeckungswahrscheinlichkeit 0.3 0.4 0.5 0.6 0.7 Konfidentzintervalle Abbildung 4. Simulation der Überdeckungsw-keit im Bernoulli-Experiment (à la Verzani). Farbig sind die berechneten Konfidenz-Intervalle dargestellt. In den 20 Versuchen wird (zum Konfidenz-Niveau 90%) der wahre Parameter 0.5 genau 2 Mal nicht getroffen. KAPITEL 5 Testtheorie 5.1. Pragmatischer Zugang Beispiel 5.1 (Motivation: Binomialtest). Angenommen, eine Firma entwickelt ein neues Produktions-Verfahren. Es soll nun getestet werden, ob die Zuverlässigkeit (Erfolgsw-keit p eines korrekten Produkts) des neuen Verfahrens größer ist, als die des bisherigen, sagen wir p0 , die durch jahrelangen Betrieb als bekannt vorausgesetzt wird. • Wir formulieren dies mathematisch als Hypothese, in unserem Falle H0 : p ≥ p0 Null-Hypothese H1 : p < p0 Alternativ-Hypothese • Wir müssen nun eine Test-Prozedur entwickeln, die eine Entscheidung zwischen den Hypothesen ermöglicht. • Wenn wir durch unseren Test die Null-Hypothese ablehnen, dann ist das neue Verfahren dem bisherigen vorzuziehen. • Das passende Experiment besteht in der Erzeugung von n Produkten gemäß des neuen Verfahrens; es wird kontrolliert, ob Ergebnis korrekt/nicht korrekt. Dies ist ein Bernoulli-Experiment, und liefert x1 , . . . , xn ∈ {0, 1}. • Im Falle, daß die Hypothese H0 wahr ist, gilt für den MLSchätzer nX̂n = # {j, Xj = 1} ∼ binom(n, p), p ≥ p0 . • Wir werden die Nullhypothese H0 ablehnen, falls p̂ zu klein ist. Wir wollen also einen Verwerfungsbereich K = K(p̂) = {0, . . . , k0 } finden, so daß H0 abgelehnt wird, wenn p̂ ≤ k0 /n. Genauer, wir geben uns ein Signfikanz-Niveau 0 < α < 1 vor, und bestimmen kα derart daß Qp (K(p̂)) ≤ α für alle p ≤ p0 . (Andersherum: Mit großer W-keit wird H0 nicht verworfen, falls ϑ̂ 6∈ B) • Man überzeugt sich, daß dies immer dann der Fall ist, wenn Qp0 (K(p̂)) ≤ α: In der Tat, die Definition des Verwerfungsbereichs ist so, daß Qp (K(p̂)) = kα X ! b(k, n, p0 ) = Fp0 (kα ) ≤ α, j=1 71 72 5. TESTTHEORIE wobei Fp0 die VF der Binomial-Verteilung binom(n, p0 ) ist. Jetzt ist aber zu sehen (durch Differentiation), daß die Abbildung p → Fp (k) monoton fallend in p ist (für p ≥ k/n), d.h., falls Fp0 (k) ≤ α, so gilt dies auch für alle größeren p ≥ p0 . • Wir bestimmen also kα von der Beziehung F (k, n, p0 ) ≤ α < F (k + 1, n, p0 ). • Dies ist der exakte Binomialtest zum Signifikanz-Niveau α. Beispiel 5.2. Folgendes Beispiel sei hier vorgeführt: Sei Stichprobenumfang n=100, und p0 = 0.85. Im Experiment wird in success=82 Fällen erfolgreich produziert. Ist die wahre Erfolgsw-keit ≥ p0 ? Geben uns das Signifikanz-Niveau α = 0.05 vor. pbinom(78:80, n, p.0) [1] 0.03928 0.06632 0.10654 Also ist k0 = 79, und wir werden die Null-Hypothese ablehnen, falls p̂ ≤ 0.79. binom.test(success, n, p = p.0, alternative = "less", conf.level = 1 - alpha) Exact binomial test data: success and n number of successes = 82, number of trials = 100, p-value = 0.2367 alternative hypothesis: true probability of success is less than 0.85 95 percent confidence interval: 0.0000 0.8803 sample estimates: probability of success 0.82 Zum Vergleich, bei der Anzahl 78 von Erfolgen bekommen wir den p-Wert 0.0393 Was sagt uns das? Wir werden lernen, daß die wichtige Information im p-value liegt. Ist dieser größer als α so wird die Null-Hypothese nicht verworfen. In obigem Test haben wir die W-keit supp≥p0 Qp (K(p̂)) ≤ α kontrolliert. Diese soll klein sein! Was heißt das? Dies ist die W-keit, die Null-Hypothese abzulehnen, obgleich sie wahr ist! Definition 36 (Fehler 1. Art). Die Ablehnung der Null-Hypothese, obgleich sie wahr ist, wird Fehler 1. Art genannt. 5.1. PRAGMATISCHER ZUGANG 73 Es gibt also folgende Möglichkeiten. Entscheidung Wirklichkeit H0 richtig H0 falsch H0 nicht verwerfen richtige Entscheidung Fehler 2. Art H0 verwerfen Fehler 1. Art richtige Entscheidung Bemerkung 23. In der Statistik hat es sich eingebürgert, niemals eine Hypothese anzunehmen!, sie wird entweder verworfen, oder nicht verworfen: “absence of evidence is not evidence of absence”! Es bleibt noch die Frage, welcher der Alternativen Hypothesen H0 sein sollte. Da wir nur den Fehler erster Art kontrollieren (klein halten), sollte H0 so gewählt sein, daß eine fälschliche Annahme von H0 teurer ist, als eine fälschliche Annahme von H1 . Beispiel 5.3 (Feuerwehr). Anruf: Es brennt! Schwerwiegend ist: es brennt, aber Feuerwehr kommt nicht. Daher H0 : Es brennt! Der andere Fall, daß die Feuerwehr kommt, obgleich es ein Fehlalarm war, ist weniger kritisch. Beispiel 5.4. Die schwedische Firma Hövding, siehe www.hovding. com/de/how hat Airbags für Radfahrer entwickelt. Das wesentliche Prinzip besteht darin in jeder Situation zu testen, ob ein Unfall vorliegt oder nicht. Hier ist es auch so, daß die Null-Hypothese ’H0 : Unfall liegt vor’ richtig ist. Wir fassen also die pragmatische Prozedur zusammen: (1) Formuliere eine Null-Hypothese H0 , z. B., H0 : ϑ = ϑ0 . (2) Formuliere die Alternative H1 , z. B., (a) ϑ > ϑ0 oder ϑ < ϑ0 (einseitige Alternativen), (b) ϑ 6= ϑ0 (zweiseitige Alternative). (3) Wähle ein Signifikanz-Niveau α, typischerweise α = 0.01, 0.05, 0.1. (4) Konstruiere einen Verwerfungsbereich B für H0 , so daß unter ϑ ∈ H0 gilt Qϑ (B) ≤ α (Fehler 1. Art). Wie macht man das? (a) Wähle einen geeigneten Schätzer, dessen Verteilung unter H0 bekannt ist! (b) Dann können wir B (typischerweise ein Intervall) so wählen, daß supϑ∈H0 Qϑ (B) ≤ α. (5) Ist ϑ̂ ∈ B, so wird H0 verworfen, ansonsten nicht! Definition 37 (Fehler 2. Art, Macht eines Tests). Die Wahrscheinlichkeit des Fehlers 2. Art ist eine Funktion der Parameter in der Alternative H1 . Zu µ ∈ H1 bezeichnet β(µ) := P (‘H0 wird nicht verworfen, wenn µ ∈ H1 ’) 74 5. TESTTHEORIE Daher wird die Macht eines Tests bestimmt als 1 − β(µ) = P (‘H0 wird (richtigerweise) verworfen, wenn µ ∈ H1 ’). Bemerkung 24. Wir sehen eine wichtige Beziehung zu den KonfidenzBereichen, wo ja Qϑ (ϑ ∈ K(x)) ≥ 1 − α. Das heißt: ϑ̂ ∈ B gdw. ϑ ∈ K(x). der wichtige Unterschied: B wird anhand der Nullhypothese gewählt, während der Konfidenzbereich anhand der Schätzung bestimmt wird. Dies läßt sich aber 1-1 übersetzen. Beispiel 5.5 (Schätzen/Testen im Gauß-Experiment, σ 2 bekannt). Die Schätzung ist das Stichprobenmittel x̄. Zu vorgegebenem α bestimmen wir das (1 − α/2)- Quantil z1−α/2 der Normalverteilung. Dann ist der Konfidenzbereich √ x̄ − µ ≤ z1−α/2 . K(x̂) = µ, n σ Beim Test H0 : µ = µ0 ergibt sich der Verwerfungsbereich zum SignifikanzNiveau α als √ x̄ − µ ≥ z1−α/2 B(µ0 ) = x̂, n σ Hier Bild! Beispiel 5.6 (Gauß-Test). In einfachsten Fall liegt ein Gauß-Experiment mit der Stichproben-Verteilung norm (µIn , σ 2 In ) vor, d.h., die Stichprobe x1 , . . . , xn ist Realisierung einer i.i.d. Folge Gaußscher ZV. Im Gauß-Test wird angenommen, daß die Varianz σ 2 bekannt ist. Dann ist der ML-Schätzer für den unbekannten Parameter µ gegeben durch das Stichprobenmittel µ̂ = x̄n . Die Null-Hypothese sei H0 : µ = µ0 . Wie in Beispiel 4.11 ausgeführt, gilt für die Test-Statistik √ x̄ − µ0 Z := n ∼ norm (0, 1) . σ Der Test ist zwei-seitig, daher sei q1−α/2 das entsprechende Quantil der Normal-Verteilung. Der Verwerfungsbreich ergibt sich dann als B := x, |Z| > q1−α/2 . Der einseitige Gauß-Test mit H0 : µ ≤ µ0 geht analog. Dieser Test ist nicht in R implementiert, da er praktisch nicht oft benutzt werden kann. Außerdem ist er einfach selbst zu implementieren. Beispiel 5.7 (t-Test). Dies ist einer der wichtigsten Tests der parametrischen Statistik. Wie oben liegt ein Gauß-Experiment mit der Stichproben-Verteilung norm (µIn , σ 2 In ) vor, d.h., die Stichprobe x1 , . . . , xn 5.1. PRAGMATISCHER ZUGANG 75 ist Realisierung einer i.i.d. Folge Gaußscher ZV. Im t-Test wird angenommen, daß sowohl die Erwartung µ, als auch die Varianz σ 2 unbekannt sind. Im Beispiel 4.12 wurde gezeigt, daß dann die Test-Statistik √ x̄ − µ0 T := n ∼ tn−1 . s Mit Hilfe des Quantils tn−1,1−α/2 der t-Verteilung ergibt sich der Verwerfungsbreich als B = x, |T | > tn−1,1−α/2 . Dieser Test ist in R als t.test implementiert. Wir stellen uns folgende Beispielsituation vor la Dalgaard [1, Chapt. 5]1. daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770) Die relevante Frage ist, ob die typische Energieaufnahme µ0 = 7725 ist (Signifikanzniveau α = 0.05). n <- length(daily.intake) (mean <- mean(daily.intake)) [1] 6754 sd <- sd(daily.intake) (T <- sqrt(n) * (mean - mu.0)/sd) [1] -2.821 df <- n - 1 (quant <- qt(1 - alpha/2, df)) [1] 2.228 (c(mean - quant * sd/sqrt(n), mean + quant * sd/sqrt(n))) [1] 5986 7521 Die Nullhypothese muß verworfen werden, da der Wert µ0 = 7725 nicht im Konfidenzintervall liegt. R hat den t.test implementiert, und wir bekommen folgende Auskunft. t.test(daily.intake, mu = mu.0, conf.level = 1 - alpha) One Sample t-test 1Diesen Datensatz nutzte D. Altman Practical Statistics for Medical Research, Chapman & Hall, 1991. Er beschreibt die gemessene Energieaufnahme (in kJ) von elf Frauen. 76 5. TESTTHEORIE data: daily.intake t = -2.821, df = 10, p-value = 0.01814 alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986 7521 sample estimates: mean of x 6754 Die Nullhypothese muß verworfen werden. Dies sagen uns hier aber zwei Dinge: 1) Der Wert µ0 = 7725 liegt nicht im Konfidenzintervall. Aber, 2) der p-Wert p=0.0181 ist kleiner als 0.05. Zum p-Wert gibt es weitere Ausführungen im § 5.2. Beispiel 5.8 (Var-Test (1)). Wir haben eine normal-verteilte Stichprobe X1 , . . . , Xn ∼ norm (µ, σ 2 ) i.i.d, vorliegen. Die Null-Hypothese lautet H0 : σ = σ0 bei gegebener Varianz σ02 . Wie in Beispiel 4.14 vorgerechnet, gilt unter H0 für die Test-Statistik S2 ∼ χ2n−1 . 2 σ0 Da diese Verteilung nicht symmetrisch ist, so ist der Verwerfungsbreich zwei-geteilt (Komplement des Konfidenzbereichs), also [ B = F < χ2n−1,α/2 F > χ2n−1,1α/2 . F = (n − 1) Analog kann der Fall einseitiger Tests behandelt werden, vgl. Beispiel 4.15. Eine R-Implementation gibt es nicht. Beispiel 5.9 (Var-Test (2)). Wir haben zwei normal-verteilte Stichproben X1 , . . . , Xm ∼ norm (µ1 , σ12 ), und Y1 , . . . , Yn ∼ norm (µ2 , σ22 ), jeweils i.i.d, alle unabängig. Die Null-Hypothese ist H0 : σ12 = σ22 . Wir berechnen die empirischen Varianzen m n 1 X 1 X 2 2 2 S1 := (Xj − X̄) und S2 := (Yj − Ȳ )2 m − 1 j=1 n − 1 j=1 Es ist leicht zu sehen, daß dann für den Quotienten gilt S12 ∼ Fm−1,n−1 . S22 Wenn wir mit fm−1,n−1,1−α das entsprechende Quantil bezeichnen ergibt sich als Verwerfungsbereich B := x, F > fm−1,n−1,1−α/2 . F := 5.1. PRAGMATISCHER ZUGANG 77 Dieser Test ist in R als var.test(...,ratio=1,...) implementiert. x <- rnorm(50, mean = 0, sd = 2) y <- rnorm(30, mean = 1, sd = 1) # von Hand: var(x)/var(y) [1] 5.501 # in R: var.test(x, y) F test to compare two variances data: x and y F = 5.501, num df = 49, denom df = 29, p-value = 5.555e-06 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 2.764 10.349 sample estimates: ratio of variances 5.501 Die Hypothese gleicher Varianz mus verworfen werden, da 1) der Wert 1 nicht im Konfidenzintervall liegt, und 2) der p-Wert zu klein ist. Wir fassen die besprochenen Tests folgendermaßen zusammen. Gauß-Test H0 µ = µ0 µ ≤ µ0 µ > µ0 σ = σ0 Teststatistik T := √ x̄−µ0 n σ 2 F = (n − 1) σs 2 0 Var-Test (1) 2 1) σs 2 0 σ ≤ σ0 F = (n − µ = µ0 √ 0 t-Test µ ≤ µ0 T := n x̄−µ s µ > µ0 s2 Var-Test (2) σ1 = σ2 F = s12 2 Verwerfung |T | > q1−α/2 T > q1−α T < qα F < χ2n−1,α/2 oder F > χ2n−1,1α/2 F > χ2n−1,1−α |T | > tn−1,1−α/2 T > tn−11−α T < tn−1,α F > fm−1,n−1,1−α/2 R-Aufruf keiner keiner t.test var.test Abbildung 1. Zusammenfassung der Tests unter Normalverteilung 78 5. TESTTHEORIE 5.2. p-Wert Erinnern uns an den Fehler 1. Art: sup Qϑ (B) ≤ α ϑ∈Θ0 Wir sehen: Wenn α kleiner wird, so muß auch B kleiner werden. Bemerkung 25. Wenn wir mehr Sicherheit wollen, dann dürfen wir seltener ablehnen. Bei zweiseitigen t-Test war die Menge B = x, |T (x)| > tn−1,1−α/2 . Duale Sicht: bei gegebener Teststatistik T können wir das kleinste α bestimmen, für das |T (x)| = tn−1,1−α/2 . Definition 38 (p-Wert). Wir nehmen an, daß die Null-Hypothese H0 : ϑ = ϑ0 gilt. Sei T eine Teststatistik. Unter H0 hat diese die Verteilung Qϑ0 . Im zweiseitigen t-Test ist der p-Wert definiert als p = inf {α, Fϑ0 (|T |) ≥ 1 − α/2} . Im Falle stetiger Verteilungen kann man dies umrechnen un erhält p = 2(1 − Fϑ0 (|T |)). Dies ist das kleinste Signifikanz-Niveau, zu dem der Test nicht verworfen wird. Der p-Wert ist eine Zufallsvariable! Beispiel 5.10 (Beispiel 5.7 erneut). Dort wurde der p-Wert angegeben als 0.0181. Er berechnet sich als (pwert <- 2 * (1 - pt(abs(T), df = df))) [1] 0.01814 Satz 5.1. Wir betrachten ein Gauß-Experiment mit unbekanntem Mittel und unbekannter Varianz. Unter der Hypothese H0 ist der pWert gleichverteilt auf [0, 1], d.h., es gilt Qϑ0 (p ≤ x) = x. 5.3. NEYMAN–PEARSON THEORIE 79 Beweis. Im t-Test ist die Stichproben-Verteilung tn−1 , wir bezeichnen diese mit F0 . Dann gilt p x Qϑ0 (p ≤ x) = Qϑ0 (1 − ≥ 1 − ) 2 2 x = Qϑ0 (F0 (|T |) ≥ 1 − ) 2 x −1 = Qϑ0 (|T | ≥ F0 (1 − )) 2 x −1 = 2Qϑ0 (T ≥ F0 (1 − )) (Symmetrie) 2 x −1 = 2(1 − F0 (F0 (1 − ))) = x. 2 Bemerkung 26. In R wird beim Testen nur der p-Wert mitgeteilt, d.h., ist p-Wert ≤ α, dann wird H0 abgelehnt! 5.3. Neyman–Pearson Theorie Hier wird eine formale Test-Theorie entwickelt, die obigen pragmatischen Zugang substantiiert, und darüber hinaus theoretische Aussagen über beste Tests gestattet. Dies ist die Neyman–Pearson-Theorie. (1) Wähle eine (nicht-leere) Teilmenge Θ0 ⊂ Θ, und 0 < α < 1. (2) H0 : ϑ ∈ Θ0 H1 : ϑ 6∈ Θ0 . Beispiel: zwei-seitiger Test H0 : ϑ = ϑ0 ∈ Θ, dann ist H1 : ϑ 6= ϑ0 . ein-seitiger Test H0 : ϑ ≤ ϑ0 ∈ Θ, dann ist H1 : ϑ > ϑ0 . (3) Wähle eine Teststatistik (ZV) T : (Rn , B n ) → R, und dazu einen Verwerfungsbereich B, so daß sup Qϑ (T ∈ B) ≤ α. ϑ∈Θ0 (wichtig: Brauchen Teststatistik T mit bekannter Verteilung unter H0 ) (4) H0 wird verworfen, falls T ∈ B. In vielen Fällen ist Qϑ (B) = α nicht realisierbar. Deshalb müssen wir den Begriff eines Tests erweitern. Definition 39 (Randomisierter Test). Sei ϕ : (Rn , B n ) → [0, 1] eine meßbare Funktion. Wir setzen B := {x, ϕ(x) = 1} den Verwerfungsbereich, A := {x, ϕ(x) = 0} den Annahmebereich, und C := 80 5. TESTTHEORIE {x, 0 < ϕ(x) < 1} den Randomisierungsbereich. Insbesondere wird, falls x ∈ C ein Bernoulli-Experiment ∼ bern(p) durchgeführt, daß mit p = ϕ(x) zur Verwerfung führt. Definition 40 (Gütefunktion). Die Abbildung Z Gϑ (ϕ) := Eϑ (ϕ) = ϕ(x)f (x, ϑ) dx, ϑ ∈ Θ, wird Gütefunktion genannt. Bemerkung 27. Im nicht-randomisierten Test ist Gϑ (ϕ) = Qϑ (B), und 1 − Gϑ (ϕ) die macht des Tests bei ϑ ∈ Θ1 . Definition 41 (Umfang eines Tests). Die Zahl sup Gϑ (ϕ) ϑ∈Θ0 heißt Umfang des Tests ϕ. Bemerkung 28. Jeder Test ist ein Signifikanztest zum Niveau seines Umfangs! Der (unbrauchbare) Test ϕ(x) ≡ α ist ein Test zum Niveau α. Definition 42 (Gleichmäßig beste Tests). Sei Φ(α) eine Teilmenge aller Tests zum Niveau α. Der Test ϕ1 ∈ Φ(α) heißt gleichmäßig besser als ϕ2 ∈ Φ(α), falls Gϕ1 (ϑ) ≥ Gϕ2 (ϑ), ϑ ∈ Θ1 . Ein Test ϕ∗ heißt gleichmäßig bester Test, falls Gϕ∗ (ϑ) ≥ Gϕ (ϑ), ϑ ∈ Θ1 für alle ϕ ∈ Φ(α). Das Studium gleichmäßig bester Tests ist erschöpfend wenn sowohl die Null-Hypothese als auch die Alternative ein-elementig sind. Sei jetzt also für ϑ0 6= ϑ1 H0 = {ϑ0 } H1 = {ϑ1 } . Sprich Θ = {ϑ0 , ϑ1 }. Wir assoziieren die Stichprobenw-keiten Q0 = Qϑ0 , Q1 = Qϑ1 , und wir nehmen an, daß diese Dichten f0 (x), f1 (x) besitzen. Definition 43 (Neyman-Pearson Test). Ein Test ϕ heißt NeymanPearson Test für Q0 gegen Q1 falls ein κ ≥ 0 existiert, so daß 1, falls f1 (x) > κf0 (x) ϕ(x) = ϕκ (x) = γ, falls f1 (x) = κf0 (x) 0, falls f (x) < κf (x). 1 0 5.3. NEYMAN–PEARSON THEORIE 81 Wir definieren den Dichte-Quotienten (Teststatistik) ( f1 (x) , falls f0 (x) > 0 T (x) = f0 (x) ∞, sonst. Dann können wir schreiben (modulo Q0 -Nullmenge) 1, falls T (x) > κ ϕ(x) = ϕκ (x) = γ, falls T (x) = κ 0, falls T (x) < κ. Der Umfang eines NP-Tests ϕκ ist Gϕκ (ϑ0 ) = Q0 (T > κ) + γQ0 (T = κ). Satz 5.2. Seien κ und γ gegeben. Dann ist der NP-Test ϕκ bester Test zum Niveau α = E0 (ϕκ ). Beweis. Sei ϕ eine beliebiger anderer Test zum Niveau α. Wir werden zeigen Gϕκ (ϑ1 ) ≥ Gϕ (ϑ1 ) (bessere Güte). Seien M (+) = {x, ϕκ > ϕ} , M (−) = {x, ϕκ < ϕ} , M (#) = {x, ϕκ = ϕ} . Wir beobachten folgendes: • x ∈ M (+) impliziert ϕκ > 0, ergo f1 (x) ≥ κf0 (x). • x ∈ M (−) impliziert ϕκ < 1, ergo f1 (x) ≤ κf0 (x). Deshalb Z Z Z E1 (ϕκ − ϕ) = (ϕκ − ϕ)f1 (x) + (ϕκ − ϕ)f1 (x) + (ϕκ − ϕ)f1 (x) M (+) M (− M (# Z Z ≥ (ϕκ − ϕ)κf0 (x) + (ϕκ − ϕ)κf0 (x) M (+) M (− Z = κ (ϕκ (x) − ϕ(x))f0 (x) dx = κ (Gϕκ (ϑ0 ) − α) = 0 Satz 5.3 (Fundamentallemma von Neyman–Pearson). (1) Zu vorgegebenem α gibt es einen NP-Test zum Umfang α (der dann auch bester Test ist). (2) Jeder andere beste Test stimmt mit dem NP-Test fast sicher überein (Eindeutigkeit). 82 5. TESTTHEORIE Beweis. Wir zeigen nur den 1. Teil. Wir haben den Umfang zu beliebigen ϕκ bereits ausgerechnet: Q0 (T > κ) + γQ0 (T = κ). Suchen κ ≥ 0 und 0 ≤ γ ≤ 1 so daß (5.1) Q0 (T > κ) + γQ0 (T = κ) = α. Sei F0 die VF der Teststatistik T , d.h., F0 (t) = Q0 (T ≤ t). Sei κ das (1 − α)-Quantil von F0 (κ = inf {t, F0 (t) ≥ 1 − α}). F0 kann bei κ einen Sprung haben, daher gilt nur (Rechtsstetigkeit) F0 (κ−) ≤ 1 − α ≤ F0 (κ). 1. Fall: Falls F0 stetig in κ, so setzen wir γ = 0 und (5.1) gilt. 2. Fall: Falls Sprung, so setzen wir F0 (κ) − (1 − α) 0 < γ := ≤ 1. F0 (κ) − F0 (κ−) Damit gilt (5.1) ebenfalls. Bemerkung 29. Die Randomisierung ist nur nötig, falls F0 beim (1−α)-Quantil einen Sprung hat, typischerweise bei diskreten Verteilungen! Ist dies der Fall, so wählen wir eine ZV U ∼ unif(0, 1), und lehnen Test ab, falls U ≤ γ. 5.4. Aufgaben Aufgabe 5.1. Ein PKW-Hersteller behauptet, daß ein gewisser Wagentyp einen Normverbrauch von höchstens 6.9l/100km hat. Eine Umfrage unter zehn Fahrern ergab einen mittleren Verbrauch von etwa 7.5l/100km miteiner Standardabweichung von 0.8l/100km. Kann man dem Hersteller vertrauen? Bemerkung: Wir können den implementierten Test nicht anwenden, da kein Datensatz gegeben ist. KAPITEL 6 Lineare Modelle 6.1. Statistische Modelle Im abstrakten Sinne ist ein statistisches Modell eine Familie von W-Verteilungen, d.h., (Ω, F, (Pϑ , ϑ ∈ Θ)), wie wir es schon vorher betrachtet hatten. Im gegebenen Kontext stellen wir uns jedes ω ∈ Ω als Paar (Y, X) vor. Wir betrachten also die gemeinsame Verteilung von Y und X, und diese hängt von unbekannten Parametern ϑ ∈ Θ ab. Dann heißen die Y die (unabhängigen) response Variable, und die X die (abhängigen) Regressor-Variable, Regressoren. Es wird ein Zusammenhang Y = f (X) + ε angenommen, d.h., die Beobachtungen (Y1 , X1 ), . . . , Yn , Xn ) werden als unabhängig vorausgesetzt, und es soll gelten Yj = f (Xj ) + εj , j = 1, . . . , n, wobei die Fehler εj die bedingte Erwartung Null haben. Im folgenden werden wir nur den Fall betrachten, daß die Fehler εj i.i.d mit Erwartung gleich Null und gemeinsamer Varianz gleich σ 2 vorliegen (homo-skedastisch) (Homogenität der Varianzen). In solch einem statistischen Modell bildet der formale Zusammenhang y = f (x) die Modell-Gleichung. In diesem Abschnitt spezifizieren wir das Modell folgendermaßen. (1) Die Regressoren sind deterministisch, also gegeben. (2) Die Zusammenhang ist linear, also, wenn x = (x1 , . . . , xp ) dann haben wir den Zusammenhang (6.1) y = β1 x1 + · · · + βp xp . (Wir erinnern daran, daß konstante Regressoren durch x1 = 1 erfaßt werden können.) 83 84 6. LINEARE MODELLE Für die beobachteten Daten (Yj , xj ) bedeutet dies, daß Y1 = β1 x11 + · · · + βp x1p + ε1 (6.2) ... Yn = β1 xn1 + · · · + βp xnp + εn , wobei wir xj = (x1j , . . . , xnj ), j = 1, . . . , p verstehen. Definition 44 (Design-Matrix, Modell-Matrix). Die aus den Regressoren gebildete Matrix x11 . . . x1p X = . . . . . . . . . xn1 . . . xnp heißt Design-Matrix. Wir fassen die unbekannten Parameter im Vektor β = (β1 , . . . , βp ) zusammen. Dann können wir die Modell-Gleichung (6.1) schreiben als (6.3) y = Xβ, und die Daten stellen wir dar als Y1 ε1 (6.4) Y = . . . = Xβ + . . . Yn εn Definition 45 (Lineares Modell). Das statistische Modell y = Xβ + ε, mit i.i.d. Fehlern εj , Eεj = 0, V(εj ) = σ 2 heißt lineares Modell (LM). Es ist gekennzeichnet durch (1) den Stichprobenumfang n, (2) die Anzahl p der Regressoren, und (3) den Rang r = Rang(X). Ist, darüber hinaus, die Fehlerverteilung Gaußsch, also εj ∼ norm (0, σ 2 ) i.i.d., so sprechen wir vom normal-verteilten linearen Modell (NLM). Darin ist die Stichproben-Verteilung also !n p X Qβ,σ2 = norm βj xij , σ 2 In j=1 i=1 Beispiel 6.1 (Mittelwert im Gauß-Experiment). In diesem Fall wird vermutet daß y = µ · 1 (p = 1 konstanter Regressor). Dann ist die 6.1. STATISTISCHE MODELLE 85 Design-Matrix gegeben als 1 X = . . . , 1 d. h., sie hat den Rang r = 1. Beispiel 6.2 (Lineare Regression). Lineare Modelle sind Spezialfälle der linearen Regression, nämlich, wenn die Fehler normalverteilt angenommen werden. Dann soll gelten y = β0 + β1 x (p = 2 Regressoren), mit der Design-Matrix 1 x1 X = 1 . . . . 1 xn Der Rang von X ist gleich 2, falls nicht alle xj gleich sind. Beispiel 6.3 (Zwei-Stichproben Modell). Hier wird angenommen, daß wir zwei (unabhängige) Stichproben (mit gemeinsamer Varianz σ 2 ) Y1i = µ1 + ε1i Y2j = µ2 + ε2j = 1µ1 + 0µ2 , = 0µ1 + 1µ2 , i = 1, . . . , n1 j = 1, . . . , n2 In diesem Falle ist die Design-Matrix 1 0 1 0 . . . 1 0 , 0 1 . . . 0 1 wobei n1 die Anzahl der Zeilen (1, 0), und n2 die Anzahl derer (1, 0) ist. Es gibt also p = 2 Regressoren µ = (µ1 , µ2 ), und der Rang r = 2. Der Stichprobenumfang ist dann n = n1 + n2 . Beispiel 6.4. [Einweg-ANOVA (Analysis of Varianz)] Dies verallgemeinert den Zwei-Stichproben-Fall. Der Kontext ist der folgende. Wir haben einen Datensatz mit einem kategoriellen Faktor, der p Ausprägungen hat, und beobachten Daten in jeder Kategorie. Das typische Beispiel hierfür in der Literatur ist wie folgt: Wir wollen p Düngemethoden vergleichen. dazu betrachten wir s Felder F1 , . . . , Fp , und düngen einzelne (gleich große) Bereiche Fi,1 , . . . , Fini , i = 1, . . . , p. Wir beobachten die Erträge, was zum Modell (6.5) Yij = µi + εij , j = 1, . . . , ni , i = 1, . . . , p, 86 6. LINEARE MODELLE wobei die µi die mittleren Erträge auf dem Feld Fi bezeichnen, und die Daten Yij den Ertrag auf dem Teilfeld Fij . Dies ergibt folgende Design-Matrix 1 0 ... 0 . . . 1 0 . . . 0 0 1 . . . 0 . . . X= , 0 1 . . . 0 . . . 0 0 . . . 1 . . . 0 0 ... 1 wobei die einzelnen Blöcke jeweils die Längen n1 , . . . , np haben. Die Gesamtanzahl von Beobachtungen ist n = n1 + · · · + np . Der Rang der Design-Matrix ist Rang(X) = p. Folgende Bemerkung ist angebracht. Das Model (6.5) hat auch eine andere Interpretation. Es kann geschrieben werden als (6.6) Y1j = ν + ε1j , j = 1, . . . , ni , (6.7) Yij = ν + ai + εij , j = 1, . . . , ni , i = 2, . . . , p. In dieser Schreibweise verstehen wir als die erste Ausprägung des Faktors als no treatment, während die weiteren Ausprägungen als Einfluß von treatment verstanden werden sollen. In dieser Interpretation erhält die Design-Matrix die Form 1 0 ... 0 . . . 1 0 . . . 0 1 1 . . . 0 . . . Y = , 1 1 . . . 0 . . . 1 0 . . . 1 . . . 1 0 ... 1 Die Parameter µ = (µ1 , µ2 , . . . , µp ) und (ν, a2 , . . . , ap ) können umgerechnet werden mittels µ1 1 0 ... 0 ν ν µ2 1 1 . . . 0 a2 a2 = = U . . . . . . . . . . . . . µp 1 0 ... 1 ap ap 6.2. SATZ VON GAUSS–MARKOFF 87 Nun sieht man leicht, daß Y = X · U gilt, und die Rechnungen, die wir später sehen weden führen zum analogen Ergebnis. Diese treatmentcontrast-Variante ist in R implementiert, da sie eine einfache Interpretation hat. Beispiel 6.5 (Quadratische Regression). Der vermutete Zusammenhang sei y = β0 + β1 x + β2 x2 , es sind also p = 3 Regressoren, und die Design-Matrix ist 1 x1 x21 X = . . . . . . . . . , 1 xn x2n sie hat also den Rang r = 3, falls die xj verschieden sind. Bemerkung 30 (Formeln in R). Die Darstellung obiger Zusammenhänge wird in R mittels Formeln formula gemacht. In den Beispielen würde dies führen zu y ∼ 1, y ∼ 1 + x oder auch y ∼ x, y ∼ 1 + x + I(x2 ), y ∼ . (alle Regressoren). Der Operator I bedeutet dabei, daß die Variable x2 eine neue Unabhängige Variable bildet. Will man in einer Formel erzwingen, daß der konstante Anteil nicht vorkommt (β0 = 0), so schreibt man y ∼ −1 + x im Falle der linearen Regression mit Gerade durch den Ursprung. Der Zusammenhang (6.5) in der Einweg-Analyse, oder auch im 2Stichprobenfall, wird in R durch die Formel y ∼ F veranschaulicht, wobei F der Name des kategoriellen Faktors ist, im 2-Stichproben-Fall müßte dieser erst erzeugt werden. 6.2. Satz von Gauß–Markoff Für das Schätzen und Testen in linearen Modellen sind orthogonale Projektionen im Euklidischen Raum wichtig, wir verweisen auf Anhang B Wir bezeichnen mit L = {Xβ, β ∈ Rp } den Bildraum von X. Er wird durch die p Spalten der Design-Matrix aufgespannt, insbesondere ist µ = EY , der Vektor aus den Erwartungswerten) in L. Dann kann die Gleichung Y = Xβ + ε = µ + ε so interpretiert werden, daß die Beobachtungen Y durch den Fehler ε aus L abgelenkt werden. Bild malen 88 6. LINEARE MODELLE Satz 6.1 (Gauß–Markoff, KQ-version). Seien die Daten Y = (Y1 , . . . , Yn ) im linearen Modell (LM) gegeben, und sei die Design-matrix X vom Rang Rang(X) = p. (1) Der KQ-Schätzer für den unbekannten Parameter(vektor) β ∈ Rp ist gegeben durch −1 T (6.8) β̂ := X T X X Y. Er ist ein erwartungstreuer Schätzer. (2) Der Schätzer β̂ genügt den Normalen-Gleichungen X T X β̂ = X T Y. (3) Seien Ŷ = X β̂ = PL Y die Vorhersage, und r := Ŷ −Y = QL Y das Residuum. Es gilt −1 Cov(β̂, β̂) = σ 2 X T X Cov(Ŷ , Ŷ ) = σ 2 PL Cov(r, r) = σ 2 QL . −1 (4) Ekβ − β̂k2 = σ 2 tr X T X , (5) Der Schätzer β̂ ist BLUE: Für jeden anderen Schätzer β̃ gilt Ekβ − β̃k2 ≥ Ekβ − β̂k2 . (6) Die Größe (6.9) kY − PL Y k2 V := n−p ∗ 2 ist √ ein erwartungstreuer Schätzer für die Varianz σ . Die Wurzel V ∗ heißt residual standard error. Beweis. Wegen der Voraussetzungen an die Design-Matrix X ist die Matrix X T X invertierbar. Wegen Satz B.3 und Lemma B.2 ist der KQ-Schätzer der Daten Y auf der Raum L = X(Rp ) gegeben als −1 T Projektor X X T X X Y . Die eindeutige Lösbarkeit der Gleichung −1 T T Xβ = X X X X Y = PL y liefert als KQ-Schätzer gerade (6.8). Sein Erwartungswert ergibt sich als −1 T −1 T Eβ̂ = X T X X EY = X T X X Xβ = β. Die letzte Aussage in Satz B.2 liefert hY − X β̂, Xzi = 0, z ∈ Rp , was die Beziehung X T (Y − X T β̂) = 0 impliziert, folglich Aussage (2). 6.2. SATZ VON GAUSS–MARKOFF 89 −1 T Sei A := X T X X , dann gilt β̂ − Eβ̂ = Aε. Für jedes Paar i, j ∈ {1, . . . , p} gilt dann Cov(β̂i , β̂j ) = E(Aε)i (Aε)j = n X E (Aik εk Ajl εl ) k,l=1 = n X Aik Ajl E (εk εl ) k,l=1 = σ2 n X Aik Ajl δkl = σ 2 Aik ATkj k,l=1 2 = σ AAT ij . −1 T −1 −1 Wegen AAT = X T X X X XT X = XT X folgt die erste Gleichung in (3). Nun gilt Ŷ − EŶ = X(β̂ − Eβ̂), und man sieht leicht daß dann Cov(Ŷ , Ŷ ) = X Cov(β̂, β̂)X T = σ 2 PL , und ähnliches gilt für die letzte Beziehung. Aussage (4) folgt wegen Ekβ − β̂k2 = p X E |βj − Eβj |2 = j=1 p X V(β̂j ) = tr(Cov(β̂, β̂)), j=1 woraus die Behauptung folgt. Wir lassen den Beweis von (5) weg, und widmen uns der letzten Aussage. Es genügt zu zeigen daß (n−p)EV ∗ = (n−p)σ 2 . Nun gilt Y −PL Y = QL Y = QL (Xβ+ε) = QL ε, da QL X = 0. Also ist EkY − PL Y k2 = EkQL εk2 = σ 2 tr(QL ) = (n − p)σ 2 , was wie vorher bewiesen wird. Wir schauen uns die vorherigen Beispiele noch einmal an, und bestimmen die KQ-Schätzer in diesen. Beispiel 6.6. Im Beispiel 6.1 ist X T X = n (Rang gleich eins), und der KQ-Schätzer ergibt sich als µ̂ = Ȳn . Beispiel 6.7. Bei der linearen Regression vom Beispiel 6.2 ergibt sich als P P n x Y j T T P 2 X X= P und X Y = P i xj xj x i Yi Das führt genau zum Schätzer in Abschnitt 4.5. Wir betrachten zuletzt noch die Einweg-ANOVA, Beispiel 6.4. 90 6. LINEARE MODELLE Beispiel 6.8. Man überprüft leicht, daß im Beispiel 6.4 n1 0 . . . 0 0 n2 . . . 0 . XT X = . . . 0 0 . . . ns daraus ergeben sich als Schätzer für die Erträge µi die Größen Pni 1 µ̂i = ni j=1 Yij , was nicht sehr verwundert. Wir spezifizieren nun den Satz von Gauß–Markoff im Falle normalverteilter Beobachtungen. Satz 6.2 (Gauß–Markoff, NLM-Version). Die folgenden Aussagen gelten für den KQ-Schätzer β̂von (6.8) unter Normalverteilungs-Annahme. −1 (1) β̂ ∼ norm β, σ 2 X T X . ∗ (2) (n − p) Vσ2 ∼ χ2n−p . 2 (3) kX β̂−Xβk ∼ χ2p . σ2 (4) Da X(β̂ − β) orthogonal zu Y − PL Y ist, so sind diese unabhängig. Folglich gilt kX β̂ − Xβk2 ∼ fp,n−p . σ2V ∗ (5) Sei U ⊂ L ⊂ H ein weiterer Teilraum, dim(U ) = s < p. Falls Xβ ∈ U so gilt kPL Y − PU Y k2 ∼ χ2p−s , σ2 und dies ist unabhängig von V ∗ . Der Quotient FU,L := (n − p)kPL Y − PU Y k2 ∼ fp−s,n−p (p − s)kY − PL Y k2 Beweis. Erwartungstreue und Kovarianz wurden bereits im Satz 6.1 hergeleitet, daraus folgt (1). Im weiteren Beweis nutzen wir den Sätze aus dem Anhang C. Im NLM gilt Y ∼ norm (Xβ, σ 2 In ). Wir wenden folgende Konstruktion an. Es gibt eine Orthonormalbasis u1 , . . . , un , bzgl derer PU uj = uj , j = 1, . . . , s, PL uj = uj , j = 1, . . . , p, da U ⊂ L. Eine derartige ONB bildet eine orthogonale Matrix O : H → H. Die Variable V ∗ wird gebildet aus (I − PL )Y . Dies ist multivariat normalverteilt (I − PL )Y = (I − PL )Xβ + σ 2 (I − PL )ε. 6.2. SATZ VON GAUSS–MARKOFF 91 Es ist (I −PL )X = 0 nach Definition von L. Weiterhin gilt (I −PL )Y ∼ O−1 diag(0, . . . , 1, . . . , 1)Oε. Dann ist k(I − PL )Y k2 = kO−1 diag(0, . . . , 1, . . . , 1)Oεk2 = k diag(0, . . . , 1, . . . , 1)Oεk2 ∼ k diag(0, . . . , 1, . . . , 1)W k2 , also die Quadratsumme von (n − p) standard-normalverteilten ZV, das zeigt (2). Ähnlich sieht man die folgende Aussage, da X(β̂ − β) ∈ L folgt X(β̂ − β) ∼ norm (0, σ 2 PL ). Die Größe V ∗ wird bestimmt durch die Projektion I −PL = QL , also sind Zähler und Nenner in Aussage (4) unabhängig. Die restlichen Aussagen folgen analog. Bislang wurde vorausgesetzt, daß alle Komponenten des Parameters β geschätzt werden sollen (die Design-Matrix X hat vollen Rang). Die Ergebnisse des Satzes von Gauß–Markoff gestatten jedoch auch eine Variante für schätzbare Funktionale, d.h., spezielle lineare Funktionen des Parameters β. Von besonderem Interesse ist hier die Schätzung einzelner Komponenten, und wir formulieren folgenden Satz. Im NLM kennen wir vom Gauß–Markoff Satz die empirische Varianz der Schät−1 2 T zung V(β̂j ) = σ X X jj . Die zugehörige Standard-Abweichung wird q mit se(β̂j ) := s2 (X T X)−1 jj bezeichnet. Korollar 6.1. Seien die Bedingungen von Satz 6.2 erfüllt. Dann ist jede Komponente (β̂)j des Schätzers β̂ ein BLUE Schätzer von βj , d.h., βbj = (β̂)j . Die standardisierte Statistik T ist verteilt gemäß T := β̂j se(β̂j ) ∼ tn−p Beispiel 6.9. Bislang wurden die Parameter β geschätzt, wie z. B. β̂ in der linearen Regression. Im Zusammenhang damit steht die Frage der Signifikanz der Schätzung im Raum: Ist einer der geschätzten Parameter β̂j gleich Null? Dies führt zu einem Testproblem gemeinsam mit (jedem) Schätzproblem: H0 : βj = 0 vs. H1 : βj 6= 0. Obiges Korollar legt hierzu einen t-Test nahe zur Signifikanz des geschätzten Parameters. Dies ist in R standardmäßig vorgesehen. Bemerkung 31. Es ist wichtig zu sehen, daß die Null-Hypothese H0 fragt, ob der entsprechende Parameter gleich Null ist, also nicht signifikant ist! Daher heißt kleiner p-Wert(Null-Hypothese wird verworfen): der Parameter ist signifikant von Null verschieden! Hier ein R-output zu den folgendermaßen erzeugten Daten. 92 6. LINEARE MODELLE set.seed(4711) sample.size <- 25 x <- 1:sample.size y <- 5 * x + rnorm(n = sample.size, mean = 0, sd = 1.5) data.xy <- data.frame(x = x, y = y) str(data.xy) 'data.frame': 25 obs. of 2 variables: $ x: int 1 2 3 4 5 6 7 8 9 10 ... $ y: num 7.73 12.06 16.79 19.39 24.08 ... Die Regression wird durchgeführt mit options(show.signif.stars = FALSE) lm.fit <- lm(y ~ x, data = data.xy) summary(lm.fit) Call: lm(formula = y ~ x, data = data.xy) Residuals: Min 1Q Median -2.576 -0.972 0.195 3Q 1.118 Max 2.296 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.4590 0.6043 0.76 0.46 x 4.9756 0.0407 122.40 <2e-16 Residual standard error: 1.47 on 23 degrees of freedom Multiple R-squared: 0.998,Adjusted R-squared: 0.998 F-statistic: 1.5e+04 on 1 and 23 DF, p-value: <2e-16 Wir sehen, daß im intercept (konstanten Anteil) die Null-Hypothese zum Niveau 95% nicht verworfen werden kann, d.h., dieser Wert ist nicht signifikant von Null verschieden. Tatsächlich ist kein konstanter Anteil in den Daten. Anders ist es beim Anstieg = 5. Dieser wird recht genau ermittelt. Wir können mit der Schätzung β̂0 = 4.9756 auch den standard error ablesen se(β̂0 ) = 0.0407. Es ergibt sich als Test-Statistik T = 4.9756/0.0407 = 122.3986. 6.3. DIE ANOVA-TABELLE IN LINEAREN MODELLEN 93 Der residual standard error wird mit σ = 1.4657 angegeben, bei 23 = 25 − 2 Freiheitsgraden. 6.3. Die ANOVA-Tabelle in linearen Modellen Bisher haben wir in Beispiel 6.4 nur das Konzept der EinwegANOVA vorgestellt. Wie aus dem dort skizzierten Kontext ersichtlich ist, wird es darum gehen, die folgende Hypothese zu testen: H0 : µ1 = · · · = µp , gegen die Alternative, daß in wenigstens einer Ausprägung ein anderes Mittel vorliegt. Dies wird durch die Einführung des Unterraums U ⊂ L gelöst, der gegeben ist als U := {x ∈ Rp , xi − xj = 0, i, j = 1, . . . , p} . Dieser Raum U ist ein-dimensional (eine Komponente bestimmt den ganzen Vektor µ). Die Schätzer µ̂i , ı = 1, . . . , pPin den einzelnen Gruppen hatten wir i bereits identifiziert als µ̂i = n1i nj=1 Yij , vgl. Beispiel 6.8. Der Satz von Gauß–Markoff 6.2 in der NLM-Version sagt, dass dann die Größe F in Punkt (5) ibid. gemäß Fp−1,n−p verteilt ist. Wie berechnet man die Norm-Quadrate kPL Y − PU Y k2 und kY − PL Y k2 in der Praxis? Wir erinnern und, daß PL Y = Ŷ = X β̂ ist. (1) Der Vektor Ŷ = (µ̂1 , . . . , µ̂1 , . . . , µ̂p , . . . , µ̂p ) ist stückweise konstant. (2) Der Vektor PH Y beschreibt das Gesamt-Mittel (es muß ja ein P konstanter Vektor sein), also M := n1 i,j Yij . (3) Daher ist (Bild!) p VzdG 1 1 X = kPL Y − PU Y k2 = ni (M − µ̂i )2 p−1 p − 1 i=1 (4) Das Residuum Y − Ŷ wird berechnet als p n i 1 XX (Yij − µ̂i )2 . V = n − p i=1 j=1 ∗ Wir vertiefen etwas. Die zentrale Idee der Varianz-Analyse ist die Zerlegung der Daten-Varianz ky − ȳk2 in den Teil, der durch das (lineare) Modell erklärt wird kŷ − ȳk2 und den verbleibenden Rest, das Residuum, gegeben durch ky − ŷk2 . Dabei ist folgender Sachverhalt von Bedeutung. Satz 6.3. Für jede Realisierung der Daten Y = y gilt (6.10) ky − ȳk2 = ky − ŷk2 + kŷ − ȳk2 94 6. LINEARE MODELLE Beweis. Offenbar gilt doch −1 T y − ŷ = y − X X T X X y = (I − PL )y = QL y ∈ L⊥ . Da die erste Spalte in X konstant ist, ist der konstante Vektor ȳ ∈ L, somit auch ŷ − ȳ ∈ L. Aus der Orthogonalität der Zerlegung folgt die Behauptung. In obiger Terminologie erhalten wir den für die Einweg-ANOVA wichtigen Sachverhalt (6.11) (n − 1)Vtot = (n − p)V ∗ + (p − 1)VzdG . Mit diesen Größen wird auch gemessen, inwiefern das zugrunde gelegte Modell die Daten erklärt. Definition 46 (Bestimmtheitsmaß R2 ). Der Quotient R2 := kŷ − ȳk2 , ky − ȳk2 wird Bestimmtheitsmaß genannt. Bemerkung 32. Wegen Satz 6.3 gilt 0 ≤ R2 ≤ 1. Er beschreibt den Anteil an der Gesamt-Varianz Vtot , der durch den Modell-Fit ŷ − ȳ erklärt wird. Er sollte also groß sein, wenn das Modell den Daten entspricht. Im Falle der Regression ist R2 = r2 = ρ2 (y, x) der empirische Korrelations-Koeffizient. Die Berechnung dieser Größen erfolgt in der ANOVA-Tabelle. Beispiel 6.10. Der Datensatz newcar.dat sammelt die beim Autokauf (auf Raten) anfallenden Zinssätze in Abhängigkeit vom Ort1. newcar <- read.table("newcar.dat", header = TRUE) str(newcar) 'data.frame': 54 obs. of 2 variables: $ Rate: num 13.8 13.8 13.5 13.5 13 ... $ City: int 1 1 1 1 1 1 1 1 1 2 ... Wir sehen, daß der Ort nicht als Faktor ausgeweisen ist, sondern als numerische Variable (integer). Deshalb korrigieren wir dies in 1New Car Interest rates, Quelle: Hoaglin, D., Mosteller, F., and Tukey, J. (1991). Fundamentals of Exploratory Analysis of Variance. Wiley, New York, page 71. 6.3. DIE ANOVA-TABELLE IN LINEAREN MODELLEN 95 newcar$City <- as.factor(newcar$City) str(newcar) 'data.frame': 54 obs. of 2 variables: $ Rate: num 13.8 13.8 13.5 13.5 13 ... $ City: Factor w/ 6 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 1 2 ... 15.0 Die statistische Frage lautet: Hat der Ort einen Einfluß auf die Höhe des zu entrichtenden Zinssatzes? Wir schauen schon mal nach im boxplot, siehe Abb. Wir ahnen schon, daß der Test auf Ort- 14.0 ● 12.0 13.0 ● 1 2 3 4 5 6 Abbildung 1. Veranschaulichung des newcar Datensatzes. sunabhängigkeit abgelehnt werden wird. Also, machen wir formal eine ANOVA. anova(lm(Rate ~ City, data = newcar)) Analysis of Variance Table Response: Rate Df Sum Sq Mean Sq F value Pr(>F) City 5 10.9 2.189 4.83 0.0012 Residuals 48 21.8 0.453 Wir rechnen dies von Hand nach: 96 6. LINEARE MODELLE attach(newcar) X <- model.matrix(Rate ~ City) (sample.size <- dim(newcar)[1]) [1] 54 (p <- length(levels(City))) [1] 6 (beta.hat <- solve(t(X) %*% X) %*% t(X) %*% Rate) [,1] (Intercept) 13.1944 City2 -0.5833 City3 0.1122 City4 0.0500 City5 0.2889 City6 -0.9944 y.hat <- X %*% beta.hat (SSQ <- sum((mean(Rate) - y.hat)^2)) [1] 10.95 (MSQ <- sum((mean(Rate) - y.hat)^2)/(p - 1)) [1] 2.189 (SSR <- sum((Rate - y.hat)^2)) [1] 21.76 (MSR <- sum((Rate - y.hat)^2)/(sample.size - p)) [1] 0.4533 (F <- MSQ/MSR) # F-Statistik [1] 4.829 1 - pf(F, p - 1, sample.size - p) [1] 0.001175 detach(newcar) Wir sehen sehr schön, daß die Städte 2 und 6 weit vom Mittel abweichen, und daher der Test auf gleiche Mittel verworfen wird. Die Zahl 10.9457 entspricht kŷ − ȳk2 , und ky − ŷk2 = 21.7581. Der Quotient F ist exakt der Quotient in Satz 6.2(4), und er ist daher gemäß f5,48 verteilt. 6.4. DIAGNOSTIK 97 6.4. Diagnostik Die Testtheorie in den linearen Modellen Y ∼ Xβ + ε basiert auf folgenden Verteilungsannahmen für den Fehler: ε ∼ norm (0In , σ 2 In ), d.h., (1) Alle Beobachtungsfehler haben gleiche Varianz σ 2 (Homoskedastizität), (2) Die Fehler sind normalverteilt, (3) Die Fehler sind unkorreliert. Um in praktischen Anwendungen die vorgenommene Datenanalyse zu rechtfertigen braucht es daher eine vernünftige Diagnostik. In R wird dies standard-mäßig graphisch getan, in dem man das Ergebnis der Statistik des linearen Modells druckt. Wir greifen auf die Daten aus Beispiel 6.9 zurück. Das Ergebnis sieht aus wie in Abbildung 2. Weitere diagnostische plots existieren (insgesamt sechs), wir werden aber nur vier diskutieren. 6.4.1. Der Tukey-Anscombe Plot. Im ersten Panel der Abbildung 2 sehen wir die Residuen Y − Ŷ gegen die Werte Ŷ abgetragen. Im Idealfall sollte ersichtlich sein, daß die Variabilität überall gleich ist (gleiche Varianz). Es sollten keine Trends o. ä. zu sehen sein. 6.4.2. Der Q-Q-Plot. Im zweiten Panel sehen wir den Q-Q-Plot. Auf der x-Achse werden die Quantile der Standard-Normalverteilung abgetragen, während auf der y-Achse die (empirischen) Quantile der Fehler-Verteilung abgetragen werden. Im Idealfall sollten die Quantile auf einer Geraden liegen. Große Abweichungen davon deuten auf Abweichung von der Normal-Verteilung hin. Da in den Daten nur wenige Beobachtungen in den Extremen liegen, wird die Zuverlässigkeit an den Rändern abnehmen. 6.4.3. Korrelationen. Im dritten Panel werden nacheinander die standardisierten Fehler für die einzelnen Beobachtungen aufgetragen. Im Idealfall sollten keine Trends erkennbar sein. falls z. B. benachbarte Werte immer zusammen liegen, so kann Korrelation vorliegen. 6.4.4. Cook’s Abstand. Zuletzt wird untersucht, ob einige einzelne Beobachtungen einen besonderen Einfluß auf das Ergebnis der Schätzung haben. Hierzu wird der Cook’sche Abstand, der definiert ist als n 1 X Dj := 2 (ŷ−j − yi )2 , j = 1, . . . , n. 2s i=1 Hierbei bezeichnet ŷ−j die Schätzung, die sich ergibt, wenn die j-te Beobachtung weggelassen wird. Ist für ein j der Abstand Dj besonders 98 6. LINEARE MODELLE ● −1 0 ● ● ● ● ● ● ● ● ● ● ● ● ● −3 20 ● 12 ● ●6 40 60 80 2 1 ● ● ● 0 ● ● −1 ● 1 ● Residuals Normal Q−Q 16 ● Standardized residuals 2 Residuals vs Fitted ● ●6 120 −2 Fitted values ● ● ● ● 0.4 ● ● ● ● ● ● 25 6 0.00 ● 0.20 ● ● ● ● 2 Cook's distance ● ● ● ● 1 0.10 ● 0 1 Cook's distance 1.2 ● ● 0.8 12 ● 0.0 Standardized residuals ●6 −1 Theoretical Quantiles Scale−Location ●1 ● ● 12 1● ● ●● ● ● ● ●●● ●● ● ●● ●● ● ● ●● 20 40 60 80 Fitted values 120 5 10 15 20 25 Obs. number Abbildung 2. Diagnostische Plots in R groß so kann es sich bei der Beobachtung um Ausreißer handeln. Im obigen Falle betrifft dies die dritte und die elfte Beobachtungen. Der Begriff des Ausreißers ist in der Statistik nicht genau fixiert, bei derartigen Beobachtungen sollte also nachgeprüft werden, ob Fehler in den Eingaben,. . . vorliegen. p Bemerkung 33. Besser ist es die Quadratwurzel Dj , j = 1, . . . , n abzutragen, da dies eine Norm ist. KAPITEL 7 Verteilungsfreie Tests Die bisherigen Test-Verfahren basierten alle auf der Annahme einer gemeinsamen Normal-Verteilung. Was ist, wenn eine vorgenommene Diagnostik darauf hindeutet, daß diese Annahme nicht zutrifft? Dann brauchen wir Tests, die unabhängig von einer Verteilungsannahme sind. Ich habe hierfür den Begriff verteilungsfreie Tests gewählt. Oft werden diese Tests auch unter nicht-parametrische Tests gefaßt. Letzterer Begriff ist aber auch anderweitig belegt. 7.1. Rangtests Im folgenden setzen wir voraus, daß die Stichprobe i.i.d gemäß einer reellen stetigen VF F gezogen wurde. Entscheidendes Hilfmittel bei der Fundierung verteilungsfreier Tests ist der Begriff der geordneten Stichprobe reeller ZV. 7.1.1. Ordnungsstatistiken. Seien X1 , . . . , Xn i.i.d. gemäß F . Die geordnete Stichprobe ist diejenige Stichprobe, die aus X1 , . . . , Xn durch punktweises Anordnen entsteht, d.h., für jedes ω ∈ Ω bilden wir X(1) (ω) ≤ X(2) (ω) ≤ · · · ≤ X(n) (ω) Wir schreiben verkürzt X(1) ≤ X(2) · · · ≤ X(n) . Definition 47 (Ordnungsstatistik). Der Vektor X(1) , X(2) , . . . , X(n) wird Ordnungsstatistik genannt. Das Element X(i) heißt i-te Ordnungsgröße. Bemerkung 34. Dieses Ordnen ist meßbar, da es sukzessive durch Minima und Maxima erzeugt werden kann. Sei Gj (x) = P (X(j) ≤ x), x ∈ R die Verteilung der j-ten Ordnungsgröße. Diese hat eine einfache Gestalt. Lemma 7.1. Es gilt Gj (x) = n X b(i, n, F (x)), i=j 99 x ∈ R. 100 7. VERTEILUNGSFREIE TESTS Pn Beweis. Wir betrachten Y (x) := i=1 χ(−∞,x] (Xi ) (Anzahl der Xi ≤ x). Wir fassen dies als Bernoulli Experiment auf mit p = P (”Xi ≤ x”) = F (x). dann ist Y (x) die Anzahl der Erfolge, und somit ∼ binom(n, F (x)). Die Behauptung folgt nun wegen X(j) ≤ x gdw. j ≤ Y (x) ≤ n. 7.1.2. Ränge. Sei X(1) , . . . , X(n) die zu einer Stichprobe X1 , . . . , Xn gehörige Ordnungsstatistik. Definition 48 (Rangzahl, Rangvektor). Die Abbildung (ZV) R, die jedem 1 ≤ i ≤ n die Zahl (i) (Position in der O-Statistik) zuordnet heißt Rang. Wir schreiben dann Ri = R(i). Der zugehörige Vektor R = (R1 , . . . , Rn ) heißt Rangvektor. Bemerkung 35. Es gilt also Ri (ω) = j gdw. Xi = X(j) , d.h., Xi = X(R(i)) . Diese Zuordnung ist im allg. nicht eindeutig. Wir beschränken uns aber auf stetige VF F , so daß dies mit Wk-t eins zutrifft. Der Rangvektor ist dann auch fast sicher eindeutig bestimmt. Sollte die Zuordnung nicht eindeutig sein so spricht man von Bindungen, diese werden in R auch erwähnt. Wir beobachten, daß der Rangvektor R eine zufällige Permutation der Elemente {1, . . . , n} ist. Wir bezeichnen S(n) die Gruppe der Permutationen. Satz 7.1. Der Rangvektor ist gleichverteilt auf S(n). Beweis. Da wir i.i.d. Beobachtungen voraussetzen, ist die gemeinsame Verteilung eine Produktverteilung n Y P (X1 ≤ x1 , . . . , Xn ≤ xn ) = F (xi ). i=1 Sei die Einheitspermutation. Wir zeigen daß P (R = σ) = P (R = ), σ ∈ S(n). Bilde τ = σ −1 die inverse Permutation. Es folgt P (R = σ) = P (R1 = σ1 , . . . , Rn = σn ) = P (Rτ1 = 1, . . . , Rτn = n) = P (Xτ1 ≤ Xτ2 ≤ · · · ≤ Xτn ) = P (X1 ≤ X2 ≤ · · · ≤ Xn ) = P (R = ). Definition 49 (Rangstatistik). Eine meßbare Funktion T , die nur von den Rängen abhängt heißt Rangstatistik. Die Verteilung hängt nach obigem Satz nicht mehr von F ab, sie ist daher verteilungsfrei. 7.1. RANGTESTS 101 Beispiel 7.1. Es gilt P (Ri = r) = # {σ ∈ S(n), σi = r} #S(n − 1) 1 = = . #S(n) #S(n) n 7.1.3. Der Zwei-Stichproben U-Test (Mann-Whitney Test). Seien zwei Stichproben X1 , . . . , Xn1 ∼ FX und Y1 , . . . , Yn2 ∼ FY gegeben. Wir wollen die Hypothese testen, ob beide Stichproben i.i.d. von der gleichen Verteilung gezogen wurden, d.h., ob FX = FY gilt. Wir fassen diese zusammen zu X10 , . . . , Xn0 1 , Xn0 1 +1 = Y1 , . . . , Xn0 1+n2 = Yn2 , und wir bilden den gemeinsame Rangvektor R, sowie die daraus abgeleiteten separaten Rangsummen RX , RY , gegeben als RX = n1 X Ri , und RY = i=1 n X Ri . i=n1 +1 Notwendiger-weise folgt RX ≥ n1 (n21 +1) und RY ≥ n2 (n22 +1) (Summe der ersten n1 , bzw. n2 Einträge). Deshalb bilden wir die korrigierten Summen n1 (n1 + 1) n2 (n2 + 1) UX = RX − , und UY = RY − . 2 2 Bemerkung 36. Die korrigierten Rangsummen können interpretiert werden als n1 X n2 X UX = χ(0,∞) (Xi − Yj ). i=1 j=1 Der entscheidende Satz ist der folgende. Satz 7.2. Falls FX = FY so gilt P (RX = r) = N (n, n1 , r) , n n1 n o P wobei N (n, n1 , r) = # A ⊂ {1, . . . , n} , #A = n1 , j = r . j∈A Beweis. Da unter der Null-Hypothese der Rangvektor gleichverteilt auf S(n) ist, so sind wir im Laplace-Raum, d.h., bilden “günstige Ereignisse” / “alle Ereignisse”. 102 7. VERTEILUNGSFREIE TESTS Bemerkung 37. Die Berechnung von P0 ist sehr aufwendig. Falls 0 n1 , n2 groß genug sind, so folgt UX∗ := UXσ−µ ∼ norm (0, 1), wobei 0 µ0 = EUX = n1 n2 /2 und σ02 = V(UX ) = n1 n2 (n + 1)/12. Bemerkung 38. Die Verteilung P0 ist symmetrisch bzgl. ρ0 := n1 (n1 + 1)/2, deshalb ist UX = RX − ρ0 symmetrisch bzgl der Null. Sei nun zu gegebenem γ die Zahl cγ das γ-Quantil von P0 . Definition 50 (Mann-Whitney Test). Sei H0 : FX = FY , und sei α ein Signifikanz-Niveau. Wir verwerfen H0 falls UX ≤ cα/2 oder UY ≤ cα/2 . Bemerkung 39. Da RX + RY = n(n + 1)/2 folgt UX + UY = n1 n2 . Daher folgt UY ≤ cα/2 falls UX ≥ n1 n2 − cα/2 . 7.1.4. Der Wilcoxon Rangtest. Dies ist die “fortgeschrittene” Variante von Rangtests. Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn ∼ F , und gegeben sei ϑ0 . Wir testen H0 : median = ϑ0 , wobei median das 50%-Quantil der Verteilung F bezeichnet (F(median)=1/2). Unter allgemeinen Voraussetzungen ist der Median ein robustes Maß für das Zentrum einer Verteilung, im Gegensatz zum Erwartungswert. Die Teststatistik beruht auf vorzeichenbehafteten (signierten)-Rangsummen n X + T := Ψi Ri+ , i=1 mit ( 1, Xi > ϑ0 , (1) Ψi = 0, sonst. + (2) Ri ist der i-te (absolute) Rang der Zahlen |Xi − ϑ0 |. Satz 7.3. Es gilt (1) Pϑ0 (Ψ0 = 1) = 1/2, (2) R+ ist auf S(n) gleichverteilt, und (3) die ZV Ψ1 , . . . , Ψn , R+ sind unabhängig. Satz 7.4. Die Verteilung von T + ist gegeben durch n(n + 1) N (n, r) , r = 0, . . . , , P (T + = r) = n 2 2 n o P mit N (n, r) = # A ⊂ {1, . . . , n} , j = r . j∈A Satz 7.5 (Wilcoxon, 1945). Zu gegebenem Signifikanz-Niveau α wird H0 : median = ϑ0 verworfen, falls T + ≤ cα/2 oder T + > n(n + 1)/2 − cα/2 . 7.2. KOLMOGOROFF–SMIRNOFF–TEST 103 Anbei ein R-output. Die daten sind die folgenden. x <- c(1.83, 0.5, 1.62, 2.48, 1.68, 1.88, 1.55, 3.06, 1.3) y <- c(0.878, 0.647, 0.598, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29) Die beiden Stichproben x, y sind wie folgt beschrieben. # Hollander & Wolfe (1973), 29f. Hamilton depression scale factor measurements in 9 patients with mixed anxiety and depression, taken at the first (x) and second (y) visit after initiation of a therapy (administration of a tranquilizer). Wilcoxon signed rank test data: x and y V = 40, p-value = 0.01953 alternative hypothesis: true location shift is greater than 0 7.2. Kolmogoroff–Smirnoff–Test Im Abschnitt der beschreibenden Statistik, Kapitel 3, wurde schon kurz auf die empirische Verteilungsfunktion eine Stichprobe eingegangen, als eine Möglichkeit die Verteilung eines nominellen Merkmals zu beschreiben. Dies wird hier theoretisch vertieft. Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn ∼ F , die gemäß F verteilt ist. Definition 51 (empirische Verteilungsfunktion). Die Treppenfunktion n 1X # {j, Xj ≤ x} Fn (x) := χ(−∞,x] (Xj ) = , n j=1 n ist die empirische Verteilungsfunktion der Stichprobe. Bemerkung 40. Als Summe meßbarer Funktionen ist dies für jedes x eine ZV, sogar mehr, es ist ein stochastischer Prozeß (zufällige Funktion). Wir wiederholen noch einmal die Graphik von Abbildung 5 als Abbildung 1 dieses Abschnitts. Die Funktion x 7→ Fn (x) ist rechtsseitig stetig. Lemma 7.2. Sei X1 , . . . , Xn ∼ F eine i.i.d. Stichprobe. Für jedes x gilt nFn (x) ∼ binom(n, F (x)). Insbesondere folgt EFn (x) = F (x) und V(Fn (x)) = n1 F (x)(1 − F (x)). 104 7. VERTEILUNGSFREIE TESTS 1.0 Darstellung der empir. Verteilungsfunktion ● 0.8 ● ● 0.6 ● ● 0.4 Fn(x) ● ● 0.2 ● ● 0.0 ● 0.0 0.5 1.0 1.5 2.0 x Abbildung 1. Die ersten 10 Beobachtungen als VF. Beweis. Dies folgt durch Interpretation als erwartungstreuer Schätzer von p = F (x) im Bernoulli-Experiment. Definition 52 (Kolmogoroff–Smirnoff Teststatistik). Die Größe dn := sup |Fn (x) − F (x)| x∈R heißt Kolmogoroff–Smirnoff Teststatistik. Sie mißt den gleichmäßigen Abstand zwischen der empirischen und der wahren VF, diese Statistik kann also genutzt werden zum Testen, ob eine Stichproben-Verteilung gleich einer vorgegebenen Verteilung ist. Dazu müssen wir noch zeigen, daß dn als ZV einer bekannten Verteilung, unabhängig von F genügt. Dazu bedarf es einführender Betrachtungen. Wie kann man dn berechnen? Tatsächlich geht dies einfacher, als auf den ersten Blick vermutet. 7.2. KOLMOGOROFF–SMIRNOFF–TEST 105 Seien d+ n := sup(Fn (x) − F (x)), x Dann ist dn = − max(d+ n , dn ). und d− n := sup(F (x) − Fn (x)). x Wir wissen sogar mehr. Lemma 7.3. Sei X(1) ≤ · · · ≤ X(n) die Ordnungsstatistik. Dann gilt i i + − dn = max − F (X(i) ) , und dn = max F (X(i) ) − , 1≤i≤n 1≤i≤n n n die Teststatistik dn wird also genau an den Sprungstellen der ecdf entschieden. Beweis. Wir setzten formal X(0) = −∞, X(n+1) = ∞. Dann folgt d+ n = max 0≤i≤n X sup (Fn (x) − F (x)) (i) ≤x<X(i+1) i == max sup − F (x) 0≤i≤n X ≤x<X n (i) (i+1) i F (X) = max − inf 0≤i≤n n X(i) ≤x<X(i+1) i = max − F (X(i) ) . 0≤i≤n n Letztlich beobachten wir, daß wegen F (X(i) ) ≤ i/n, und F (X(0)) = 0 der erste Wert i = 0 nicht zum max beiträgt. Wir werden nun sehen, daß die Verteilung der Test-Statistik dn nicht von der Stichproben-Verteilung F abhängt. Satz 7.6. Sei F0 eine vorgegebene VF. Unter H0 : F = F0 hängt die Verteilung von dn nicht von F ab. Speziell gilt ∞ X x 2 2 lim P (dn ≤ √ ) = 1 − 2 (−1)i−1 e−2i x , x > 0. n→∞ n i=1 Beweis. Wir werden nur die Unabhängigkeit zeigen. Wegen Lemma 7.2 gilt unter H0 : dn = dn (F0 (X(1) , . . . , F0 (X(n) )), es ist also eine Funktion der Ordnungsstatistik. Da F0 monoton ist, ist diese auch eine Funktion der Ordnungsstatistik von (F (X1 ), . . . , F (Xn )). Wegen F (Xi ) ∼ unif(0, 1), hängt die gemeinsame Verteilung nicht von F = F0 ab. Satz 7.7 (Ein-Stichproben-Test, Kolmogoroff, 1933, Smirnoff, 1948). Sei H0 : F = F0 , und sein Signifikanz-Niveau α gegeben. Sei kn,1−α das (1 − α)-Qunatil der Verteilung von dn . Die Hypothese H0 wird verworfen, falls dn > kn,1−α . 106 7. VERTEILUNGSFREIE TESTS Beispiel 7.2. ks.test(x = data.unif, y = "pnorm") One-sample Kolmogorov-Smirnov test data: data.unif D = 0.5001, p-value < 2.2e-16 alternative hypothesis: two-sided # zum Vergleich: Referenz ist Gleichverteilung 'punif' ks.test(x = data.unif, y = "punif") One-sample Kolmogorov-Smirnov test data: data.unif D = 0.0741, p-value = 0.6425 alternative hypothesis: two-sided Bemerkung 41. Es gibt eine wichtige Zwei-Stichproben Version mit Test auf Gleichheit der Verteilungen zweier Stichproben. Hierbei wird der Abstand beider empirischer VF herangezogen. x <- runif(100) y <- rnorm(77) ks.test(x, y) Two-sample Kolmogorov-Smirnov test data: x and y D = 0.5355, p-value = 5.209e-12 alternative hypothesis: two-sided 7.3. Daten in Tabellenform: asymptotische χ2 -Tests Im Kapitel 3, speziell in § 3.4.2 zur Beschreibenden Statistik wurde schon auf Daten die in Tabellenform vorliegen hingewiesen. Typischerweise sind Tabellen Zusammenfassungen von Beobachtungen eines oder mehrerer kategorieller Merkmale. Die Tabelle Color Sex blue brown 7.3. DATEN IN TABELLENFORM: ASYMPTOTISCHE χ2 -TESTS F M 0 1 107 3 1 ist die Zusammenfassung eines data.frame zweier kategorieller Merkmale, hier Sex, Color, wie etwa Sex 2 M 3 F 3.1 F 3.2 F 4 M Color blue brown brown brown brown R bietet Funktionen, die aus derartigen data frames Tabellen erzeugen, so wie gerade geschehen. Beispiel 7.3. Im einfachsten Fall wird ein Merkmal mit zwei Ausprägungen (“m”,”w”) abgefragt. Dies ist auch bei erfolgsw-kten im Bernoulli-Experiment der Fall. Unter den Kurs-Teilnehmern seien 10 der 22 Teilnehmer Studentinnen. Dies ist die tabellarische Zusammenfassung der Erhebung bei jedem einzelnen Teilnehmer und resultiert in der minimalen Tabelle cdata m w 10 12 Eine statistische Frage ist: Ist das Interesse von Studenten/Studentinnen an CoSta gleichermaßen ausgeprägt? Dies resultiert im Binmomialtest binom.test auf H0 : p = 0.5. binom.test(10, 22) Exact binomial test data: 10 and 22 number of successes = 10, number of trials = 22, p-value = 0.8318 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2439 0.6779 sample estimates: probability of success 0.4545 Die Null-Hypothese kann also nicht verworfen werden. 108 7. VERTEILUNGSFREIE TESTS Beispiel 7.4. [Fairer Würfel] In einem Würfelexperiment wurden die Ergebnisse von 100 Versuchen gesammelt. wurf.sample <- data.frame(Wurf = sample(x = 6, size = 100, replace = TRUE)) head(wurf.sample) Wurf 1 4 2 1 3 4 4 4 5 1 6 4 wurf.table <- table(wurf.sample) wurf.table wurf.sample 1 2 3 4 5 6 16 19 18 13 13 21 Hier ist die Frage: Ist der Würfel fair, d.h., ist jedes Ergebnis gleich wahrscheinlich? Natürlich können wir obigen Binomialtest nutzen um die Hypothese H0 : p1 = 1/6 zu prüfen. Allerdings müssten wir dies dann für jede der Zahlen 1,. . . ,6 prüfen, und multiples Testen ist weniger aussagekräftig. Besser ist es, einen Test zu haben, der prüft, ob eine Stichprobe gemäß einer vorgegebenen (diskreten) Verteilung vorliegt. Derartige Tests heißen Anpassungstest. Beispiel 7.5 (Kontingenztafeln). Wir hatten bereits ein Beispiel, wo zwei kategorielle Merkmale zusammen gefaßt wurden, siehe Beispiel 2. Hier ist eine statistische Fragestellung: Sind beide Merkmale (statis(data.tbl <- with(data.smoker, table(sex, smoker))) smoker sex FALSE TRUE m 24 30 w 16 30 Abbildung 2. Datenzusammenfassung als Tabelle tisch) unabhängig? Tests auf Unabhängigkeit von kategoriellen Merkmalen heißen Unabhängigkeitstests. 7.3. DATEN IN TABELLENFORM: ASYMPTOTISCHE χ2 -TESTS 109 7.3.1. Allgemeiner Zugang. Wir haben bereits gesehen, daß im einfachsten Fall eines Merkmals mit zwei Auspr”agungen die Binomialverteilung relevant ist. Bei einem Merkmal mit k Ausprägungen, in denen jedes Ergebnis mit W-keit p1 , . . . , Pk eintritt, spielt die MultinomialVerteilung eine Rolle. X n! rj = n. P (X1 = r1 , . . . , Xk = rk ) = pr11 . . . prkk , rj = 0, . . . , n, r1 ! . . . rk ! Dies ist für k = 2 die Binomial-Verteilung. 7.3.2. χ2 -Anpassungstest. Beim Anpassungstest mit Realisierungen r1 , . . . , rn wird man vergleichen rj /n pj , oder äquivalent r1p/n , . . . , rkp/n 1 k 1. Hierzu wird die Test-Statistik 2 X k k X (rj − npj )2 rj /n −1 = (7.1) D := (npj ) pj npj j=1 j=1 Im Falle, daß die Daten tatsächlich gemäß p1 , . . . , pk erzeugt wurden liefert ein Grenzwertsatz obiger Multinomial-verteilung, daß asymptotisch (n → ∞, rj /n groß genug) gilt: D ∼ χ2k−1 . Dies führt zu folgendem Test. Definition 53 (χ2 -Anpassungstest, Pearson, 1900). Sei H0 : p = p0 = (p1 , . . . , pk ). Zum Signifikanz-Niveau α bestimme man das Quantil χ2k−1,1−α der χ2 -Verteilung mit (k − 1) Freiheitsgraden. H0 wird verworfen, falls D > χ2k−1,1−α . Bemerkung 42. In R ist dieser Test als chisq.test verfügbar. Im Falle obiger Daten aus dem Beispiel 7.4 liefert dies wie folgt. chisq.test(wurf.table) Chi-squared test for given probabilities data: wurf.table X-squared = 3.2, df = 5, p-value = 0.6692 Die Null-Hypothese kann nicht verworfen werden. Bemerkung 43. Für den Test auf Gleichheit einer stetigen Verteilung mit vorgegebener Verteilung kann durch Klassenbildung die obige Situation erreicht werden. 110 7. VERTEILUNGSFREIE TESTS 7.3.3. χ2 -Unabhängigkeitstest. Hier wird auf die Unabhängigkeit zweier Merkmale getestet. Voraussetzung ist eine kXl-Kontingenztafel, wie im Beispiel 7.5 mit einer 2X2-Kontingenztafel. Im allgemeinen liegt folgende Tafel vor. Beim Unabhängigkeitstest wird folgendermaßen vorgek-Ausprägungen n11 ... n1k n1• ... nl1 ... nlk nl• n•1 ... n•k n = n•• Abbildung 3. allgemeine Form einer kXl-Kontingenztafel gangen. Unter der Nullhypothese, daß die beiden Merkmale unabhängig sind, sollte doch gelten πij = πi πj0 . Anhand der vorliegenden Daten werden die Wahrscheinlichkeiten durch die relativen Häufigkeiten approximiert, d.h., p̂ij = nij /n, und für die Randverteilungen π̂i := ni• /n, π̂j0 = n•j /n. Die erwartete Häufigkeit ist dann np̂i π̂j0 , also ni• n•j Eij := , n wohingegen die beobachtete Häufigkeit gegeben ist durch nij . Oij := n Die Güte wird nun gemessen mit der Teststatistik X (Oij − Eij )2 X (nij − ni• n•j )2 (7.2) T := =n Eij ni• n•j i,j i,j Asymptotisch ist diese Teststatistik T gemäß χ2(k−1)(l−1) verteilt. Definition 54 (χ2 -Unabhängigkeitstest). Es liege eine kXl-Kontingenztafel vor. Die Null-Hypothese lautet Ho : die beiden Merkmale sind unabhängig. Zum Signifikanzniveau α bestimme man χ2(k−1)(l−1),(1−α) das (1 − α)-Quantil. Die Null-Hypothese wird verworfen, falls T > χ2(k−1)(l−1),(1−α) . Beispiel 7.6. Beim Datensatz Raucher vs. Geschlecht vom Beispiel 2 in§ 3.2.2 liefert folgendes Ergebnis. data.smoker <- read.table("data-smoker.dat", header = TRUE) O <- data.tbl <- with(data.smoker, table(sex, smoker)) # am Rand der Tafel werden die Summen gebildet: ni. und n.j nsex <- apply(data.tbl, 1, sum) 7.4. AUFGABEN 111 nsmoker <- apply(data.tbl, 2, sum) (n <- sum(nsex)) # =sum(nsmoker) [1] 100 # erwartete Haeufigkeiten Eij sind ni.*n.j/n = nsex[i]*nsmoker[j]/n (E <- outer(nsex, nsmoker)/n) FALSE TRUE m 22.56 24.44 w 25.44 27.56 # Teststatistik: sum_i(sum_j((Oij-Eij)^2/Eij)) ist # chisq((k-1)*(l-1))-verteilt (CHISQ <- sum((O - E)^2/E)) [1] 0.3914 # H0 wird verworfen, wenn CHISQ > quantil qchisq(1 - 0.05, (k - 1) * (l - 1)) [1] 3.841 # oder p.value 1 - pchisq(CHISQ, (k - 1) * (l - 1)) [1] 0.5316 # in R: chisq.test(data.tbl, correct = FALSE) Pearson's Chi-squared test data: data.tbl X-squared = 0.3914, df = 1, p-value = 0.5316 Das Rauchverhalten ist unabhängig vom Geschlecht. 7.4. Aufgaben Aufgabe 7.1. In einer Umfrage wurden folgende Gesprächsdauern beim Telefonieren gemessen. 12.8, 3.5, 2.9, 9.4, 8.7, 0.7, 0.2, 2.8, 1.9, 2.8, 3.1, 15.8 (in Minuten). (1) Überprüfen Sie graphisch, ob diese Stichprobe normalverteilt ist. (2) Testen Sie, ob der Median 5 Minuten ist, oder ob er im allgemeinen größer ist. Aufgabe 7.2. Bei einem Würfel-Experiment wurden folgende Häufigkeiten gemessen. 112 7. VERTEILUNGSFREIE TESTS wuerfel 1 2 3 4 5 6 12 18 11 25 16 18 (1) Testen Sie, ob der Würfel die Gleichverteilung repräsentiert! Leider stimmt dies nicht, denn die Daten sind mit den W-keiten 1/7, 1/7, 1/7, 2/7, 1/7, 1/7 erzeugt worden! Aufgabe 7.3. In jeder Sprache ist die Verteilung der einzelnen Buchstaben spezifisch. Für die englische Sprache gilt folgende prozentuale Häufigkeit der Buchstaben E,T,R,N,O: 29, 21, 17, 17, 16. In einem vorliegenden Text werden folgende Häufigkeiten der Buchstaben E,T,R,N,O gezählt: 100, 110, 80, 55, 14. Testen Sie, ob der vorliegende Text in englischer Sprache verfaßt war. Aufgabe 7.4. In der KFZ-Versicherungswirtschaft ist es wichtig zu wissen, ob die Schwere eines Unfalls davon abhängt, ob der Autofahrer einen Gurt angeschnallt hatte, oder nicht. Folgende Daten wurden erhoben None minimal minor major Yes 12813 647 359 42 No 65963 4000 2642 303 Testen Sie, ob die Schwere eienes Unfalls davon abhängt, ob der Autofahrer einen Gurt angeschnallt hatte, oder nicht. ANHANG A Ergänzungen zur Wahrscheinlichkeitstheorie A.1. Bedingte Wahrscheinlichkeit Sei (Ω, F, P ) ein W-Raum. Wir interessieren uns für P (A), haben aber Informationen, daß das Ereignis B ∈ F eingetreten ist. Hat diese Information Einfluß auf die Häufigkeit des Eintretens vom Ereignis A? Beispiel A.1. Würfeln. Welche Zahl wurde gewürfelt? I. A. P ({j} = 1/6, z. B. A = {6}. Wissen aber, daß es eine gerade Zahl war, sprich B = {2, 4, 6}. Wie sieht es aus mit A = {1}? Definition 55 (Bedingte Wahrscheinlichkeit). Sei (Ω, F, P ) ein W-Raum, und sei B ∈ F mit P (B) > 0. Dann ist P (A/B) := P (A ∩ B) , P (B) A ∈ F, die bedingte Wahrscheinlichkeit für das Ereignis A unter der Bedingung B. Bemerkung 44. Dadurch wird ein neuer W-Raum auf B erzeugt, mit • FB = {C ∩ B, C ∈ F}, und • PB (A) := P (A/B). • PB ist wieder ein W-Maß. Beispiel A.2. Beispiel von oben: P ({6}) P ({6} / {Ergebnis gerade}) = = 1/3. P ({Ergebnis gerade}) P (∅) P ({1} / {Ergebnis gerade}) = = 0. P ({Ergebnis gerade}) Satz A.1 (Satz von der totalen Wahrscheinlichkeit). Sei (Ω, F, P ) ein W-Raum, und sei Ω = B1 t B2 t · · · t Bn eine disjunkte Zerlegung, mit P (Bi ) > 0, i = 1, . . . , n. Dann gilt für ein beliebiges A ∈ F daß P (A) = n X P (A/Bi )P (Bi ) j=1 113 114 A. ERGÄNZUNGEN ZUR WAHRSCHEINLICHKEITSTHEORIE Beweis. Wegen A = P (A) = n X Fn j=1 (A ∩ Bi ) folgt P (A ∩ Bi ) = j=1 n X P (A/Bi )P (Bi ). j=1 Beispiel A.3 (Urnenmodell). Haben drei Urnen mit roten und weißen Kugeln: • in jeder Urne sind 100 Kugeln, • jedoch in Urne 1 genau 20 rote, Urne 2 genau 50 rote, und in Urne 3 genau 100 rote. • W-keiten. daß Urnen gezogen werden sind 1/3, 1/2, 1/6 für Urnen 1, 2, und 3. Wie groß ist die W-keit eine rote Kugel zu ziehen? P (rote Kugel ziehen) = 1 29 11 11 + +1 = . 53 22 6 60 Satz A.2 (Satz von Bayes (1763)). Seien A, B Ereignisse mit P (A) > 0, P (B) > 0. Dann gilt P (B/A) = P (A/B)P (B) . P (A) Beweis. Es gilt P (A)P (B/A) = P (A ∩ B) = P (A/B)P (B). Beispiel A.4 (Urnenmodell). Haben zwei Urnen. • • • • mit je 100 Kugeln, in Urne 1 genau 20 rote, Urne 2 genau 90 rote. Urnen werden mit gleicher W-keit 1/2 gezogen. Es wird eine rote Kugel gezogen. Welche Urne wurde gewählt? Sei A = rote Kugel gezogen, B = Urne 1 gewählt. Dann 20 1 90 1 P (A) = P (A/B)P (B) + P (A/B c )P (B c ) = + = 0.55. 100 2 100 2 Also P (B/A) = P (A/B)P (B)/P (A) = 0.2 ∗ 0.5/0.55 = 10/55, analog P (B c /A) = 45/55, also mit Wkt 0.89 wurde zweite Urne gewählt. A.2. GEMEINSAME UND BEDINGTE VERTEILUNGEN Bemerkung 45. Sei Ω = lich). Es gilt dann Fn i=1 115 Bi , P (Bi ) = 1/n (gleich wahrschein- P (Bi /A) ∝ P (A/Bi )P (Bi ) = P (A/Bi )/n. dann ist diejenige bedingte W-keit am größten, die P (A/Bi ) maximiert! A.2. Gemeinsame und bedingte Verteilungen A.2.1. Diskrete Zufallsvariable. Definition 56 (gemeinsame Verteilung zweier ZV). Sei X, Y : (Ω, F, P ) → R ein Paar diskreter (reeller) ZV. Wir interessieren uns für die gemeinsame Verteilung px,y := P (X = x, Y = y), x, y ∈ R. Satz A.3. (1) Die Familie px,y ist eine diskrete W-keit. (2) Falls px,y als W-keit gegeben, so definieren die Folgen X X px := px,y , und py := px,y y x die Randverteilungen von X, gegeben Y , und vice versa. Definition 57 (Bedingte Verteilung). Sei px,y eine gemeinsame Verteilung. Dann bezeichnet die Familie P (X = x/Y = y) := P (X = x, Y = y) , P (Y = y) y ∈ R, die bedingte Verteilung (Übergangsw-keit). A.2.2. Stetige Zufallsvariable. Definition 58 (gemeinsame Verteilung zweier ZV). Seien X, Y zwei stetige ZV, für die einen gemeinsame Dichte existiert, d.h., ZZ P ((X, Y ) ∈ A) = fX,Y (x, y) dxdy. A Dann bezeichnen Z fX (x) := fX,Y (x, y) dy, Z undfY (y) := die Randdichten. Die bedingte Dichte fY /X ist gegeben als fY /X := fX,Y (x, y) , fX (x) y ∈ R. fX,Y (x, y) dx, 116 A. ERGÄNZUNGEN ZUR WAHRSCHEINLICHKEITSTHEORIE Satz A.4. Die stetigen ZV X, Y sind unabhängig genau dann wenn fX,Y (x, y) = fX (x)fY (y), x, y ∈ R. Beweis. Sei A = (a, b] × (c, d] ein Rechteck. Dann haben wir ZZ P ((X, Y ) ∈ A) = χ(a,b] (x)χ(c,d] (y)fX,Y (x, y) dxdy, wegen der Unabhängigkeit aber auch ZZ PX ((a, b])PY ((c, d]) = χ(a,b] (x)χ(c,d] (y)fX (x)fY (y) dxdy. Definition 59 (gemeinsame Verteilungsfunktion). Sei (X, Y ) ein Paar stetiger ZV mit gemeinsamer Dichte fX,Y . Dann bezeichnet die Funktion Z x Z y ZZ fX,Y (u, v) dudv fX,Y (u, v) dudv = FX,Y (x, y) := (−∞,x]×(−∞,y] −∞ −∞ die gemeinsame VF. Satz A.5. Sei (X, Y ) ein Paar stetiger ZV mit VF FX,Y . Das Paar ist unabhängig gdw. Fx,y (x, y) = FX (x)FY (y), x, y, ∈ R. Dies kann genutzt werden um die Nichtalterungseigenschaft der Exponential-Verteilung zu zeigen. Korollar A.1. Sei X ∼ exp λ. Dann gilt für alle s, t > 0 daß P (X ≤ s + t/X ≥ s) = P (X ≤ t). Beweis. Wir erinnern uns: FX (t) = 1 − e−λt , t ≥ 0. Deshalb P (X ≤ s + t, X ≥ s) P (X ≤ s + t/X ≥ s) = P (X ≤ t) = P (X ≥ s) FX (s + t) − Fx (s) = 1 − FX (s) −λs e (1 − e−λt ) = 1 − e−λt . = e−λs A.3. Kovarianz, Korrelation Definition 60. Sei (X, Y ) ein paar reeller ZV mit gemeinsamer Verteilung fX,Y , die jeweils eine endliche Varianz haben. Sei H : R2 → R eine ZV. Es bezeichne ZZ EP(X,Y ) H(x, y) = H(x, y)fX,Y (x, y) dxdy A.3. KOVARIANZ, KORRELATION 117 den Erwartungswert von H. Im Falle H(x, y) = x · y (Produkt) bilden wir Cov(X, Y ) := E(X − EX)(Y − EY ) die Kovarianz der ZV X und Y . Im Falle X = Y erhalten wir die Varianz Cov(X, X) = V(X). Definition 61 (Kovarianzmatrix). Die Matrix V(X) Cov(X, Y ) Σ := Cov(X, Y ) V(Y ) bezeichnet die Kovarianzmatrix der ZV X und Y . Bemerkung 46. Wegen Cauchy-Schwarz-Ungleichung reicht Existenz der Varianzen. Darüber hinaus gilt det(Σ) = V(X)V(Y ) − Cov2 (X, Y ) ≥ 0. Definition 62 (Korrelation zweier ZV). Die standardisierte Größe ρ(X, Y ) := Cov(X, Y ) σ(X)σ(Y ) bezeichnet die Korrelation. Definition 63 (Korrelationsmatrix). Die normierte Matrix 1 ρ(X, Y ) ρ(X, Y ) 1 bezeichnet die Korrelationsmatrix der ZV X und Y . Satz A.6. Es gilt (wegen Cauchy–Schwarz-Ungleichung) • −1 ≤ ρ(X, Y ) ≤ 1, und • ρ(X, Y ) = ρ(Y, X), d.h., die Korrelationsmatrix ist symmetrisch, nicht-negativ definit. Satz A.7. Seien X̃ = aX + b, Ỹ = cY + d affine Transformationen der ZV X und Y . Dann gilt ρ(X̃, Ỹ ) = sign(a) sign(b)ρ(X, Y ), d.h. die Korrelation ist (bis auf Vorzeichen) invariant bzgl. Bewegung und Skalierung. Wir veranschaulichen den Einfluß der Korrelation im Falle der Normalverteilung, siehe Anhang C für Details, in Abbildung 1. 0.1 0. 0.3 0. 5 0.4 0.4 0.6 5 0. 0.4 0.1 0.3 3 0.4 0. 4 0.5 4 0. 0.2 0.2 0.4 0.8 0.0 0.0 0.0 0.1 0.0 0.6 0.2 0.8 0.8 A. ERGÄNZUNGEN ZUR WAHRSCHEINLICHKEITSTHEORIE 0.8 118 0.0 0.4 0.8 0.0 0.4 0.8 Abbildung 1. Konturen der Normalverteilung: negativ korreliert, ρ= -0.7 (links), unkorreliert, ρ= 0 (mitte), positiv korreliert, ρ= 0.7 (rechts) A.4. Verteilung der Summe zweier Zufallsvariable (1) Wir betrachten zuerst den Fall diskreter ZV. Seien X, Y ZV mit Werten in N0 . Seien pj , qj , resp. die Punktw-Kkeiten. Wann ist X + Y = k? Es gibt k + 1 Fälle: 0 k p0 qk 1 k-1 p1 qk−1 ... k 0 pk q0 P Daher gilt P (X+Y = k) = kj=0 pj qk−j (Faltungssumme).) Beispiel A.5. Hatten schon Summe zweier Würfel. Wann ist Summe gleich zehn? Es gibt drei Ereignisse (geordnete Paare): (4, 6), (5, 5), (6, 4), ergo W-keit ist 3/36. (2) Im Falle stetiger ZV gilt analog die Formel Z fX+Y (u) = fX,Y (x, u − x) du (Faltungsintegral). ANHANG B Euklidische Räume Grundlage für die Analysis der linearen statistischen Modelleist die Geometrie in Euklidische Räumen. Definition 64 (Euklidischer Raum). Der Vektorraum H := Rn , ausgestattet mit dem Skalarprodukt n X hx, yi := xj y j j=1 heißt (n-dimensionaler) Euklidischer Raum. Der Abstand in Euklidischen Räumen wird gemessen in der Norm p kxk := hx, xi. Definition 65 (Orthogonalität). Zwei Elemente x, y ∈ H heißen orthogonal, falls hx, yi = 0. Bemerkung 47. Dies verallgemeinert den Satz des Pythagoras: Sind zwei Elemente x, y orthogonal, so gilt kx + yk2 = kxk2 + kyk2 . Eine der wichtigsten Ungleichungen, ist die folgende Ungleichung, die in größerer Allgemeinheit gilt, hier nur für den Euklidischen Raum formuliert wird. Satz B.1 (Cauchy-Schwarz-Ungleichung). Für je zwei Elemente x, y ∈ H gilt hx, yi ≤ kxkkyk. Gleichheit gilt genau dann, wenn y ein Vielfaches von x ist. Im folgenden werden orthogonale Projektionen eine besondere Rolle spielen. Zu diesem Zwecke sei L ⊂ H ein linearer Teilraum. Definition 66 (Orthogonales Komplement). Sei L ⊂ H ein linearer Teilraum. Der Teilraum L⊥ := {z, hx, zi = 0, x ∈ L} heißt das orthogonale Komplement zu L in H. Lemma B.1. Es gilt L ∩ L⊥ = {0} , H = L ⊕ L⊥ (direkte Summe). Jedes Element x ∈ H besitzt eine eindeutige Zerlegung x = xL + xL⊥ , xL ∈ L, xL⊥ ∈ L⊥ 119 120 B. EUKLIDISCHE RÄUME Beweis. Zum ersten Teil: Angenommen, x ∈ L ∩ L⊥ , dann folgt hx, xi = 0, also sind alle Komponenten gleich Null. Angenommen, wir hätten zwei Zerlegungen x = xL +xL⊥ = zL +zL⊥ . Dann folgte doch xL − zL = zL⊥ − xL⊥ . Die linke Seite ist in L, und die rechte in L⊥ , daher sind beide Seiten gleich Null. Definition 67 (Orthogonale Projektion). Sei L ⊂ H ein linearer Teilraum. Die Zuordnung PL : x ∈ H −→ xL ∈ L ⊂ H heißt orthogonale Projektion von H auf L. Sie bestimmt eine lineare Abbildung PL : H → H. Definition 68. Sei T : H → H eine lineare Abbildung. Durch die Identität hT x, zi = hx, T T zi, x, z ∈ H wird eine lineare Abbildung bestimmt, die adjungierte Abbildung (transponierte Matrix). Satz B.2. Sei L ⊂ H ein linearer Teilraum. Dann ist die orthogonale Projektion PL eine idempotente (PL2 = PL ) und selbst-adjungierte (PLT = PL ) Abbildung. Die Abbildung QL := I − PL bestimmt die orthogonale Projektion auf den Teilraum L⊥ . Für jedes Paar y ∈ H, z ∈ L gilt hy − PL y, zi = 0. Bemerkung 48. Umgekehrt bestimmt jede idempotente, selbstadjungierte Abbildung P eine orthogonale Projektion auf den Bildraum P (H). Der folgende Zusammenhang zwischen KQ-Schätzung und orthogonaler Projektion ist zentral. Satz B.3. Sei L ⊂ H ein linearer Teilraum. Dann gilt kx − xL k = inf {kx − zk, z ∈ L} , d.h., die orthogonale Projektion minimiert den Abstand zwischen x und beliebigen Elementen aus L. Beweis. Es gilt für ein beliebiges z ∈ L daß kx − zk2 = kxL⊥ + xL − zk2 = kxL⊥ k2 + kxL − zk2 ≥ kxL⊥ k2 , das Minimum wird genau dann angenommen, wenn z = xL = PL x, also es hat den Wert kx − xL k2 . Wir kommen nun zum entscheidenden Darstellungssatz. Sei X : Rp → H eine lineare Abbildung mit Rang(X) = p < n, und sei L := X(H) der Bildraum. B. EUKLIDISCHE RÄUME 121 Lemma B.2. (1) Die Abbildung X T X ist invertierbar, und −1 T (2) PL = X X T X X . Beweis. Zum ersten Punkt: Sei 0 6= z ∈ Rp beliebig. Dann gilt 0 6= kXzk2 = hXz, Xzi = hX T Xz, zi. Angenommen, es gäbe z 6= 0, X T Xz = 0, dann folgte kXzk2 = 0, Wdpsr. −1 T Zum zweiten Punkt: Wir sehen sofort, daß die Abbildung X X T X X p idempotent und selbst-adjungiert ist! Ihr Bild-Raum ist X(R )! Folgende Eigenschaft orthogonaler Projektionen ist typisch. Sei tr(T ) die Spur der Abbildung T : H → H (Summe der Diagonal-Elemente, die ist invariant bzgl. Festlegung einer Basis). Satz B.4. Sei P : H → H eine orthogonale Projektion. Dann ist tr(P ) = Rang(P ). Beweis. Sei L = P (H) der Bildraum mit Dimension p, und sei u1 , . . . , up eine Orthogonal-Basis von L, die ergänzt wird durch up+1 , . . . , un zu einer ONB von H. Es folgt, daß P uj = uj , j = 1, . . . , p und Puj = 0, j = p + 1, . . . , n. In dieser Basis ist die Matrix-Gestalt von P gegeben als 1 0 ... 0 ... 0 0 1 . . . 0 0 . . . 0 . . . 0 1 . . . 0 P = 0 ... 0 ... 0 0 . . . 0 . . . 0 ... 0 0 ... 0 Die Summe der Hauptdiagonal-Elemente ist gleich p. ANHANG C Multivariate Normalverteilungen Wir hatten bisher schon viel mit normalverteilten ZV gearbeitet, hier gibt es etwas systematische Material. Definition 69 (Gemeinsam normal-verteilte ZV). Ein Zufalls-vektor Y1 , . . . , Yn ∈ H = Rn heißt gemeinsam normal-verteilt, wenn es einen Vektor m = (µ1 , . . . , µn , eine invertierbare Matrix B : H → H gibt, und eine Folge W1 , . . . , Wn i.i.d ∼ norm (0, 1), so daß Y1 W1 µ1 . . . = B . . . + . . . . Yn Wn µn Bemerkung 49. Normal-verteilte ZV sind also immer das Bild von i.i.d. normal-verteilten ZV. Gemeinsam normalverteilte ZV haben immer eine Dichte. Satz C.1. Sei Y = (Y1 , . . . , Yn ) gemeinsam normalverteilt, mit Matrix B und Vektor µ. Sei Σ := BB T eine positiv-definite Matrix. Der Vektor Y = Y1 , . . . , Yn hat eine Dichte, die durch hy−µ,Σ−1 (y−µ)i 1 2 e− fµ,Σ (y) = p (2π)n det Σ Weiterhin gilt EYi = µi und Cov(Yi , Yj ) = Σij . Beweis. Dies folgt aus dem Transformations-Satz der mehrdimensionalen Integration. Wir setzen x := B −1 (y − µ), dann ist die JacobiMatrix B −1 , mit Determinante |det B −1 |. und folglich, für eine Menge A ∈ B n erhalten wir Z kxk2 1 −1 PY (Y ∈ A) = PW (W ∈ B (A − µ)) = p e− 2 dx (2π)n B −1 (A−µ) Z kB −1 (y−µ)k2 1 1 − 2 e =p dy. (2π)n det B −1 A 123 124 C. MULTIVARIATE NORMALVERTEILUNGEN √ Jetzt beobachten wir, daß det B −1 = det Σ−1/2 = 1/ det Σ, und daß kB −1 (y − µ)k2 = hB −1 (y − µ), B −1 (y − µ)i = h(y − µ), (B −1 )T B −1 (y − µ)i = h(y − µ), Σ−1 (y − µ)i. Die Erwartungswerte und Kovarianzen ergeben sich daraus leicht. Definition 70 (Dichte der multivariaten Normalverteilung). Zu jedem Vektor µ ∈ H und symmetrischen positiv-definiten Matrix Σ bezeichne die Funktion hy−µ,Σ−1 (y−µ)i 1 2 fµ,Σ (y) = p e− , y ∈ Rn , n (2π) det Σ die Dichte der multivariaten Normalverteilung norm (µ, Σ). Die folgende Abbildung veranschaulicht die Gestalt der Dichte der bivariaten Normalverteilung. 1.0 0.8 0.6 0.4 0.2 0.0 0.0 1.0 0.2 0.8 0.4 0.6 X0.6 0.4Y 0.8 0.2 1.0 0.0 f(x, y) f(x, y) 0.6 0.4 0.2 0.0 1.0 0.2 0.8 0.4 0.6 X0.6 0.4Y 0.8 0.2 1.0 0.0 Diese Darstellung hat einige Konsequenzen. Korollar C.1. Sei A : Rn → Rm eine lineare Abbildung, und sei T Y ∼ norm (µ, Σ). Dann gilt AY ∼ norm Aµ, AΣA . Beweis. Wir haben ja AY = ABW + Aµ. Wegen Satz C.1 gilt EAµ und Cov(Y, Y ) = AB (AB)T = ABB T AT = AΣAT . Korollar C.2. Falls die ZV Y1 , . . . , Yn unkorreliert sind, d.h., Cov(Yi , Yj ) = 0, i 6= j, so sind die unabhängig. C. MULTIVARIATE NORMALVERTEILUNGEN 125 Beweis. Wegen der Unkorreliertheit ist die Kovarianz-Matrix diagonal, also Σ = diag(σ12 , . . . , σn2 ). Dann gilt n X 1 −1 hy − µ, Σ (y − µ)i = (yi − µi )2 . 2 σ j=1 j Deshalb zerfällt die Dichte in ein Produkt, was die Unabhängigkeit impliziert. Korollar C.3. Sei O eine orthogonale Abbildung, d.h., es gilt hOx, yi = hx, yi, x, y ∈ H. Dann ist mit Y ∼ norm (0, I) auch OY ∼ norm (0, I), das heißt orthogonale Bilder einer i.i.d. Folge normal-verteilter ZV sind wieder i.i.d. normalverteilt. Literaturverzeichnis 1. Peter Dalgaard, Introductory statistics with R, Statistics and Computing, Springer-Verlag, New York, 2002. MR 1949455 2. H. Pruscha, Vorlesungen über Mathematische Statistik, B.G. Teubner, 2000. 3. R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2011, ISBN 3-900051-07-0. 4. John Verzani, Using R for introductory statistics, Chapman & Hall/CRC, Boca Raton, FL, 2005. MR 2158032 127