Stochastik und Statistik Übungen Vorlesung Sommersemester 2012 Dienstag 12.00 – 14.00 (HGB M114) Donnerstag 12.00 – 14.00 (HGB M010) Erste Übungen: Mittwoch, den 02.05. um 14:00 (HGB A U117 und HGB B011) und um 16:00 (HBG A U115) Matthias Schmid <[email protected]> Ab dem 08.05.: Dienstag um 14:00 in Richard-Wagner-Str. 10, Raum 109 Mittwoch um 14:00 in HGB A U117 Mittwoch um 16:00 in HGB A U115 Esther Herberich <[email protected]> Webseite: http://www.statistik.lmu.de/institut/ag/biostat/ vorlesungen/SS12/Stochastik/ Schein: Erwerb durch Klausur Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 57 Literatur Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 57 Software Held (2008): “Methoden der statistischen Inferenz. Likelihood und Bayes”, Spektrum, 29,95 EUR (304 Seiten) Dümbgen (2003): “Stochastik für Informatiker”, Springer Verlag, 30,79 EUR (268 Seiten) Fahrmeir, Künstler, Pigeot, Tutz (2010): “Statistik: Der Weg zur Datenanalyse”, 7. Auflage, Springer Verlag, 30,79 EUR (610 Seiten) Georgii (2009): “Stochastik”, 4. Auflage, deGruyter, 29,95 EUR (404 Seiten) Grimmett, Stirzaker (2001): “Probability and Random Processes”, 3rd Edition, Oxford University Press, ca. 40 EUR (608 Seiten) Ligges (2008): “Programmieren mit R”, 3. Auflage, Springer Verlag, 33,87 EUR (251 Seiten) Die Graphiken und Beispiele im Skript und in der Vorlesung wurden mit R erstellt. Das Analysesystem R ist für alle gängigen Betriebssysteme frei erhältlich unter http://www.R-Project.org Eine geeignete deutschsprachige Einführung ist das Buch von Uwe Ligges “Programmieren mit R” (siehe Literaturliste). Auf der obigen Webseite sind elektronische Handbücher und diverse Einführungen in diese Programmiersprache erhältlich. Am Institut für Statistik werden Vorlesungen und Kurse zu R angeboten. Skript zur Vorlesung auf der Webseite Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 57 Inhaltsverzeichnis 1. Einleitung 1 Einleitung 2 Laplace-Verteilungen und diskrete Modelle 3 Bedingte Wkeiten, stoch. Unabhängigkeit 4 Diskrete Zufallsvariablen 5 Erwartungswerte, Varianzen und Kovarianzen 6 Statistische Inferenz 7 Markov-Ketten 8 Stetige Zufallsvariablen 9 Statistische Inferenz II 10 Lineare Regression Esther Herberich und Matthias Schmid Stochastik = Wahrscheinlichkeitstheorie: Mathematische Beschreibung von zufälligen Phänomenen Statistik: I I () Stochastik und Statistik SS 2012 5 / 57 Ist Stochastik für die (Bio)Informatik wichtig? P(A) P(A) P(A) Statistische Analyse von Daten aus der Biologie und Genetik Bsp.: Genexpression und Überlebenszeit Stochastische Modelle für das Auftreten von Daten Bsp.: Hardy-Weinberg-Gesetz () Stochastik und Statistik SS 2012 6 / 57 = = = 1 0 p ∈ (0, 1) : : : A tritt mit Sicherheit ein A tritt mit Sicherheit nicht ein Ereignis A tritt mit Wahrscheinlichkeit p ein Interpretation? vgl. Journal Bioinformatics, Table of Contents SS 2012 Esther Herberich und Matthias Schmid Grundbegriff der Stochastik: Wahrscheinlichkeit P(A) für das Auftreten eines bestimmten Ereignisses A Analyse von statistischen/randomisierten Algorithmen Bsp.: Quicksort () Stochastik und Statistik Erhebung, Auswertung und Interpretation von Daten Quantifizierung von Unsicherheit Wahrscheinlichkeit Simulation von zufälligen Prozessen am Computer Bsp.: Verbreitung von Epidemien Esther Herberich und Matthias Schmid Wahrscheinlichkeitstheorie Statistik 7 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 57 Subjektivistische Interpretation Beispiel: Spiel mit drei Bechern Wahrscheinlichkeit aus Wetteinsatz Unter einen von drei gleichartigen Bechern wird eine weiche Kugel gelegt. Nun beginnt der Anbieter, die Becher vor den Augen des Spielers zu vertauschen. Frage : ”Wie sicher bist Du, dass das Ereignis A eintreten wird?” : ”Wie viel Einsatz E wirst Du maximal setzen, wenn beim Eintreten von A ein Gewinn G ausgezahlt wird?” ; P(A) = Der Spieler muss nach einer gewissen Zeit sagen, unter welchem Becher die Kugel liegt. Wenn er die Kugel findet, gewinnt er den doppelten Einsatz. Ereignis A: “Kugel gefunden” E G Spieler glaubt: P(A) > 1/2, möglichst nahe bei Eins Anbieter glaubt: P(A) < 1/2, im Idealfall P(A) = 1/3 Wahrscheinlichkeit als Maß für Deine Unsicherheit. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Frequentistische Interpretation 2. Laplace-Verteilungen und diskrete Modelle “Häufigkeitsinterpretation” Prinzip von Laplace (Pierre-Simon de Laplace [1749-1827]): Angenommen das Zufallsexperiment kann beliebig oft wiederholt werden, dann konvergiert die relative Häufigkeit des Eintretens des Ereignisses A gegen die Wahrscheinlichkeit P(A). Klassisches Beispiel: Wiederholtes Werfen eines “fairen” Würfels; Simulation durch Funktion sample() in R; Berechnung der kumulierten relativen Häufigkeiten von interessierenden Ereignissen. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 57 10 / 57 “Wenn nichts dagegen spricht, gehen wir davon aus, dass alle Elementarereignisse gleichwahrscheinlich sind.” Frage: Was sind “Elementarereignisse”? Ein Element ω einer Grundgesamtheit Ω nennt man Elementarereignis. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 57 2.1 Laplace Wahrscheinlichkeiten Folgerungen und Erweiterungen Jedes Elementarereignis ωi , i = 1, . . . , n Wahrscheinlichkeit P({ωi }) = n1 . Betrachte die endliche Grundgesamtheit von Elementarereignissen Ω = {ω1 , ω2 , . . . , ωn } Die Wahrscheinlichkeit von Ω ist P(Ω) = 1. Für ein Ereignis A ⊂ Ω definiert man die LaplaceWahrscheinlichkeit als die Zahl P(A) := Die entsprechende Abbildung P(Ω) → [0, 1] nennt man auch Laplace-Verteilung (oder diskrete Gleichverteilung) auf Ω. |A| |A| = |Ω| n Hierbei nennt man P(Ω) die Potenzmenge (Menge aller Teilmengen) von Ω (nicht zu verwechseln mit P(Ω)!). wobei |A| die Anzahl der Elemente in A ist. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 57 Beispiel: Augensumme von zwei Würfeln () Stochastik und Statistik SS 2012 14 / 57 Beim Skatspiel werden 32 verschiedene Karten, darunter 4 Buben an 3 Spieler verteilt. Jeder Spieler erhält 10 Karten. 2 Karten kommen in den Skat. Wie groß ist nun die Wahrscheinlichkeit der Ereignisse: |Ω| = n = 62 = 36 Sei Ak das Ereignis “Augensumme ist k”. Dann gilt: 6 − |k − 7| P(Ak ) = für k = 2, . . . , 12 36 () Stochastik und Statistik Esther Herberich und Matthias Schmid Beispiel: Skatspiel Ω = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)} Esther Herberich und Matthias Schmid hat also die SS 2012 A1 := “Spieler 1 erhält alle Buben” A2 := “Jeder Spieler erhält genau einen Buben” 15 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 57 Laplace-Verteilungen sind zu speziell! Beispiel für unendliche Grundgesamtheiten Beispiele: Man interessiere sich für die Anzahl der Würfe einer fairen Münze bis zum ersten Mal Zahl eintritt. Unfairer Würfel Wahrscheinlichkeit für Knabengeburt Ω unendlich: Ω = {ω1 , ω2 , ω3 , ω4 , . . .} = {1, 2, 3, 4, . . .} = N Auftreten von Kopf oder Zahl bei 2-Euro Münze Allgemein mit ωi = i: ; Elementarereignisse hier nicht gleichwahrscheinlich! P({ωi }) = Ein weiteres Problem ist, dass manchmal |Ω| unendlich ist. ∞ P i=1 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 57 2.2 Diskrete Wahrscheinlichkeitsräume 1 2i P({ωi }) = i = 1, 2, 3, . . . ∞ P i=1 Esther Herberich und Matthias Schmid 1 2i = 1 (geom. Reihe) vgl. Analysis () Stochastik und Statistik SS 2012 18 / 57 Diskrete Wahrscheinlichkeitsräume II wobei für P({ω}) gelten muss: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P) wobei Ω eine abzählbare Grundgesamtheit ist und 0 ≤ P({ω}) ≤ 1 P ein diskretes Wahrscheinlichkeitsmaß, das jeder Teilmenge A ⊂ Ω eine Wahrscheinlichkeit P(A) zuordnet. Diese definiert man wieder über die Wahrscheinlichkeiten P({ω}) der Elementarereignisse ω ∈ A: X P({ω}) P(A) = und P ω∈Ω für alle ω P({ω}) = 1. Beispiel für unendlichen Wahrscheinlichkeitsraum: Ω = N; ωi = i Betrachte z.B. P({ωi }) = 1/(i(i + 1)) oder P({ωi }) = 1/2i ω∈A Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 57 2.3 Axiome von Kolmogorov [1903-1987] Folgerungen Wir betrachten eine beliebige (abzählbare) Grundgesamtheit Ω und eine Funktion P auf der Potenzmenge P(Ω), die jedem Ereignis A ⊂ Ω eine Wahrscheinlichkeit zuordnet. Wir nennen P eine Wahrscheinlichkeitsverteilung auf Ω, wenn sie folgende Eigenschaften erfüllt: A1) P(A) ≥ 0 A2) P(Ω) = 1 Esther Herberich und Matthias Schmid SS 2012 21 / 57 für paarweise disjunkte Ereignisse A1 , A2 , . . . , An ⊂ Ω P(A) ≤ P(B) falls A ⊂ B Ā = Ω \ A. für beliebige A, B ⊂ Ω Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 57 Bonferroni Ungleichungen James Sylvester [1814-1897] Jules Henri Poincaré [1854-1912] ; Abschätzungen von P(A1 ∪ A2 ∪ . . . ∪ An ) Für beliebiges n ∈ N und A1 , A2 , . . . , An ⊂ Ω gilt: X X P(Ai ) − P(Ai ∩ Aj ) P(A1 ∪ A2 ∪ . . . ∪ An ) = + P(Ai ) ; Darstellung im Venn-Diagramm (John Venn [1834-1923]) Die Siebformel von Sylvester-Poincaré i i=1 P(A ∪ B) = P(A) + P(B) − P(A ∩ B) für disjunkte Ereignisse () Stochastik und Statistik n P Definiere das Komplement von A: Dann gilt P(Ā) = 1 − P(A) für beliebige A ⊂ Ω A3) P(A ∪ B) = P(A) + P(B) A, B ⊂ Ω P(∪ni=1 Ai ) = X Für beliebige Ereignisse A1 , A2 , . . . An ist P ≤ P(Ai ) i P(∪ni=1 Ai ) = P P P(Ai ) − P(Ai ∩ Aj ) ≥ i<j P(Ai ∩ Aj ∩ Ak ) i<j<k i i<j ± . . . + (−1)n+1 · P(A1 ∩ A2 ∩ . . . ∩ An ) Daher: P(A ∪ B ∪ C ) = ??? Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 57 3.1 Bedingte Wahrscheinlichkeiten Beispiel: Spiel mit drei Bechern Spieler macht einen Trick und markiert einen der drei Becher. Sei Für Ereignisse A, B ⊂ Ω mit P(B) > 0 definiert man die bedingte Wahrscheinlichkeit von A gegeben B als die Zahl P(A|B) = A := “Beobachter findet den richtigen Becher” B := “Spielanbieter legt die Kugel unter den markierten Becher” P(A ∩ B) P(B) Dann: P(A|B) = 1 P(A|B̄) = 1/2 ; Darstellung im Venn-Diagramm Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 57 Eigenschaften von bedingten Wahrscheinlichkeiten Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 57 Beispiel: Skat P(B|B) = 1 P(B̄|B) = 0 Sei P(A|B) ≥ 0 für beliebige A ⊂ Ω P((A1 ∪ A2 )|B) = P(A1 |B) + P(A2 |B) A := “Mindestens eine der acht Karokarten liegt im Skat” B := “Spieler 1 erhält beim Austeilen keine der acht Karokarten” für A1 und A2 disjunkt Daher: Berechne P(A) und P(A|B) und vergleiche diese. Als Funktion von A ⊂ Ω ist P(A|B) (bei festem B!) eine Wahrscheinlichkeitsverteilung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 57 Multiplikationssatz Satz der totalen Wahrscheinlichkeit Für beliebige Ereignisse A1 , A2 , . . . , An mit P(A1 ∩ A2 ∩ . . . ∩ An ) > 0 gilt: Sei B1 , B2 , . . . , Bn eine disjunkte Zerlegung von Ω: P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ . . . ∩ An−1 ) wobei man die rechte Seite offensichtlich auch in jeder anderen möglichen Reihenfolge faktorisieren kann. Wir schreiben im Folgenden auch gerne P(A1 , A2 ) := P(A1 ∩ A2 ) etc. Insbesondere gilt also 1 B1 , B2 , . . . , Bn paarweise disjunkt: Bi ∩ Bj = ∅ 2 B1 ∪ B2 ∪ . . . ∪ Bn = Ω ∀i 6= j Falls zusätzlich P(Bi ) > 0 für i = 1, . . . , n so gilt für jedes A ⊂ Ω: P(A) = n X P(A|Bi ) · P(Bi ) i=1 → Illustration im Venn-Diagramm P(A1 , A2 ) = P(A1 ) · P(A2 |A1 ) P(A1 , A2 , A3 ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 , A2 ) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 57 Ein wichtiger Spezialfall Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 57 3.2 Der Satz von Bayes I Thomas Bayes [1701-1761] Dieser Satz beruht auf der Asymmetrie der Definition von bedingten Wahrscheinlichkeiten: Insbesondere gilt P(A) = P(A|B)P(B) + P(A|B̄)P(B̄) da B, B̄ eine disjunkte Zerlegung von Ω ist. P(A|B) = Beweis? P(B|A) = Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 31 / 57 P(A ∩ B) P(B) P(A ∩ B) P(A) Esther Herberich und Matthias Schmid ⇒ P(A ∩ B) = P(A|B)P(B) ⇒ P(A ∩ B) = P(B|A)P(A) () Stochastik und Statistik SS 2012 32 / 57 Der Satz von Bayes II P(B|A) Interpretation = totale W’keit = P(A|B)P(B) P(A) P(A|B)P(B) P(A|B)P(B) + P(A|B̄)P(B̄) P(Bi ) “a-priori-Wahrscheinlichkeiten” P(Bi |A) “a-posteriori-Wahrscheinlichkeiten” Nach Beobachtung von A ändert sich die Wahrscheinlichkeit von Bi von P(Bi ) zu P(Bi |A) Allgemeiner gilt für eine disjunkte Zerlegung B1 , . . . , Bn Beispiel: Skatspiel P(A|Bi )P(Bi ) P(Bi |A) = Pn i=1 P(A|Bi )P(Bi ) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 57 Beispiel: Diagnostischer Test Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 57 Beispiel: Diagnostischer Test II K := “Person ist krank” Zahlenbeispiel: T := “Test auf Krankheit ist positiv” P(T |K ) = 0.222 P(T̄ |K̄ ) = 0.993 P(K ) = 0.0264 Üblicherweise kennt man die: Es ergibt sich Sensitivität P(T |K ) ⇒ P(T̄ |K ) = 1 − P(T |K ) Spezifität P(T̄ |K̄ ) ⇒ P(T |K̄ ) = 1 − P(T̄ |K̄ ) P(T ) ≈ 0.012676 P(K ) heißt Prävalenz P(K |T ) ≈ 0.462 P(K̄ |T̄ ) ≈ 0.979 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 57 Beispiel: Creutzfeldt-Jakob 14-3-3 + Total CJD + 126 7 8 97 134 104 Chancen Oft ist es einfacher, W’keiten als Chancen, im Sinne von Wettchancen (etwa 1:10), engl. “odds” aufzufassen. Für eine W’keit π besteht zur Chance γ der Zusammenhang Total 133 105 238 π 1−π γ π= 1+γ γ= Die Sensitivität ist P(14-3-3 = +|CJD = +) = 126/134 = 0.94 und die Spezifität ist P(14-3-3 = −|CJD = −) = 97/104 = 0.93. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 57 Eine Version vom Satz von Bayes = () Stochastik und Statistik SS 2012 38 / 57 Beispiel: O.J. Simpson Prozess Eine elementare Umformung liefert P(B|A) P(B̄|A) Esther Herberich und Matthias Schmid O.J. Simpson gab zu, seine Frau missbraucht zu haben. P(B) P(A|B) · P(B̄) P(A|B̄) Er gab aber nie zu, seine Frau ermordet zu haben. Einer seiner Verteidiger sagte, die Wkeit, dass jemand, der seine Frau missbraucht, auch ermordet, ist 1/1000. Posterior Odds = Prior Odds · Likelihood Ratio Posteriori Chance = Priori Chance · Likelihood Quotient Aber: Das Gericht ist mehr interessiert an der Wkeit, dass O.J. Simpson der Mörder seiner Frau ist, gegeben er hat sie missbraucht und sie ist ermordet worden. Im Beispiel ergibt sich: Priori Chance: 0.027 Likelihood Quotient: 31.7 ; Posteriori Chance: 0.858 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 57 Beispiel: O.J. Simpson Prozess II Beispiel: O.J. Simpson Prozess III Zwei Ansätze zur Lösung! Sei A: “Ein Mann hat seine Frau missbraucht” Ansatz (1) liefert (unter geeigneter Vorinformation) M : “Die Frau wurde ermordet” G: P(G |A, M) = 4.08 P(Ḡ |A, M) “Der Mann ist des Mordes schuldig” P(G |A, M) P(Ḡ |A, M) = aber auch = Esther Herberich und Matthias Schmid P(G |M) P(A|G , M) · P(Ḡ |M) P(A|Ḡ , M) P(G |A) P(M|G , A) · P(Ḡ |A) P(M|Ḡ , A) () Stochastik und Statistik SS 2012 Ansatz (2) liefert (unter anderer Vorinformation) (1) P(G |A, M) = 1.0 P(Ḡ |A, M) (2) 41 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik Beachte: 3.3 Stochastische Unabhängigkeit Alle Aussagen für Wahrscheinlichkeiten gelten auch für bedingte Wahrscheinlichkeiten (bei fester Bedingung C mit P(C ) > 0). Daher z.B. Frage: Wann sind 2 Ereignisse A, B unabhängig? → Illustration im Venn-Diagramm und Esther Herberich und Matthias Schmid = SS 2012 44 / 57 P(A|B) = P(A) | {z } P(G |M) P(A|G , M) · P(Ḡ |M) P(A|Ḡ , M) P(G |A) P(M|G , A) · P(Ḡ |A) P(M|Ḡ , A) () Stochastik und Statistik SS 2012 Zwei Ereignisse A, B sind unabhängig, wenn und eben auch: = 42 / 57 Motivation über bedingte Wahrscheinlichkeiten: P(A ∪ B|C ) = P(A|C ) + P(B|C ) − P(A ∩ B|C ) P(G |A, M) P(Ḡ |A, M) P(G |A, M) P(Ḡ |A, M) SS 2012 P(A∩B) P(B) bzw. P(B|A) = P(B) | {z } P(A∩B) P(A) 43 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik Definition und Folgerungen Beispiel: Zweimaliges Würfeln Zwei Ereignisse A, B sind unabhängig, wenn Ein fairer Würfel wird zweimal hintereinander geworfen. Sei P(A ∩ B) = P(A) · P(B) A : “Beim 1. Würfelwurf eine Sechs” gilt. Beachte: Voraussetzung P(B) > 0 und P(A) > 0 hier nicht nötig. B : “Beim 2. Würfelwurf eine Sechs” Folgerungen: Bei jeden Würfelwurf ist die Grundgesamtheit Ω = {1, 2, 3, 4, 5, 6}. Nach Laplace gilt P(A) = P(B) = 1/6. Sind A und B unabhängig, dann sind auch Ā und B, A und B̄ und auch Ā und B̄ unabhängig. Beweis? Bei “unabhängigem” Werfen gilt somit P(A ∩ B) = P(A) · P(B) = 1/36 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 57 Beispiel: Zweimaliges Würfeln mit Tricks Unabhängigkeit von mehr als zwei Ereignissen Angenommen der Würfelwerfer ist besonders am Werfen von einem Pasch interessiert. Er kann den zweiten Wurf ein wenig steuern und würfelt mit W’keit 1/2 das gleiche wie beim ersten Wurf. Die anderen Ergebnisse seien dann gleichverteilt mit W’keit 0.1 . Allgemeiner lässt sich die Unabhängigkeit von mehr als zwei Ereignissen definieren: Die Ereignisse A1 , A2 , . . . , An sind (stochastisch) unabhängig, wenn für alle Teilmengen I ⊂ {1, 2, . . . , n} mit I = {i1 , i2 , . . . , ik } gilt: P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 ) · P(Ai2 ) · . . . · P(Aik ) Dann ist zwar P(A) = 1/6 und auch P(B) = 1/6, aber P(A ∩ B) = 1/12 > 1/36 Bemerkung: Aus der paarweisen Unabhängigkeit folgt nicht die Unabhängigkeit von mehr als zwei Ereignissen. Die Ereignisse A und B sind also abhängig, da P(A ∩ B) 6= P(A) · P(B) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 57 Beispiel zur paarweisen Unabhängigkeit Ω = {0, 1, 2, 3} Ai = {0} ∪ {i} Bedingte Unabhängigkeit Laplace-Wahrscheinlichkeitsraum mit i = 1, 2, 3 Sei C ein beliebiges Ereignis mit P(C ) > 0. Zwei Ereignisse A und B nennt man bedingt unabhängig gegeben C , wenn (etwa einmaliges Ziehen aus einer Urne). Dann gilt: P(Ai ) = 12 und P(Ai ∩ Aj ) = 14 = P(Ai ) · P(Aj ) für alle i 6= j. Aber: P(A ∩ B|C ) = P(A|C ) · P(B|C ) P(A1 ∩ A2 ∩ A3 ) = 14 und P(A1 ) · P(A2 ) · P(A3 ) = gilt. Man überzeugt sich leicht, dass weder aus unbedingter Unabhängigkeit bedingte Unabhängigkeit (bzgl. einem Ereignis C ), noch aus bedingter Unabhängigkeit bzgl. einem Ereignis C unbedingte Unabhängigkeit folgt. 1 8 A1 , A2 , A3 sind also nicht unabhängig. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 57 3.4 Das Hardy-Weinberg-Gesetz SS 2012 50 / 57 Sei x ∈ {aa, ab, bb} der Genotyp eines zufällig ausgewählten Individuums. Ist die Population im H-W-Gleichgewicht, so gilt: q 2 für x = aa 2q(1 − q) für x = ab px = (1 − q)2 für x = bb Drei Genotypen aa, ab und bb, Wahrscheinlichkeitsverteilung paa , pab , pbb sei unabhängig vom Geschlecht Unter bestimmten weiteren Voraussetzungen (“zufällige” Paarung von Individuen, keine Selektion, keine Mutation etc.) gilt, dass die Wahrscheinlichkeitsverteilung der drei Genotypen über Generationen hinweg konstant bleibt. () Stochastik und Statistik () Stochastik und Statistik Das Hardy-Weinberg-Gleichgewicht Population von diploiden Organismen; zwei Allele a und b Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid SS 2012 mit q ∈ [0, 1]. Der Parameter q ist die Häufigkeit des Allels a. Beachte: Im Allgemeinen beschreiben zwei Parameter eine diskrete Wahrscheinlichkeitsverteilung mit drei möglichen Ausprägungen, das H-W-Gleichgewicht wird jedoch nur von einem Parameter beschrieben. 51 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 57 Beweisskizze 1.0 Das Hardy-Weinberg-Gleichgewicht Starte mit beliebigen Wahrscheinlichkeiten paa , pab und pbb (mit paa + pab + pbb = 1). 0.6 0.8 aa ab bb 0.2 0.4 P Berechne die bedingten Wahrscheinlichkeiten für das Auftreten eines bestimmten Genotyps eines Nachkommen in Abhängigkeit vom Genotyp der Eltern. Satz der totalen Wahrscheinlichkeit liefert H-W-Gleichgewicht mit q = paa + pab /2. 0.0 0.0 0.2 0.4 0.6 0.8 1.0 q Neustart im H-W-Gleichgewicht liefert wieder H-W-Gleichgewicht! Hardy-Weinberg-Gleichgewicht für die Genotypen aa, bb und ab. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 53 / 57 Anwendungsbeispiel Aus Kenntnis der relativen Häufigkeit/Wahrscheinlichkeit pbb lassen sich (unter der Annahme, dass die Population im H-W-Gleichgewicht ist) die anderen Wahrscheinlichkeiten berechnen: √ pbb )2 √ √ = 2(1 − pbb ) pbb paa = (1 − SS 2012 54 / 57 () Stochastik und Statistik Allgemeinere Formulierung mit zwei Parametern: q 2 +d für x = aa 2q(1 − q)−2d für x = ab px = (1 − q)2 +d für x = bb mit Ungleichgewichtskoeffizienten d. Problem: Beschränkter Wertebereich für q und d Später: Statistische Schätzung von q und d Beispiel: pbb = 0.0001 ; paa = 0.9801 und pab = 0.0198 Esther Herberich und Matthias Schmid () Stochastik und Statistik Das Hardy-Weinberg-Ungleichgewicht Genotyp bb verursacht bestimmte Krankheit, aa und ab sind aber äußerlich nicht erkennbar. pab Esther Herberich und Matthias Schmid SS 2012 Statistischer Test auf “Nullhypothese” H0 : d = 0 55 / 57 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 56 / 57 1.0 Das Hardy-Weinberg-Ungleichgewicht (d = 0.1) 0.0 0.2 0.4 P 0.6 0.8 aa ab bb 0.0 0.2 0.4 0.6 0.8 1.0 q Hardy-Weinberg-Ungleichgewicht mit d = 0.1 für die Genotypen aa, bb und ab. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 57 / 57 4.1 Diskrete Zufallsvariablen: Einleitung Eine diskrete Zufallsvariable Ergebnisse von Zufallsvorgängen sind nicht notwendigerweise Zahlen Oft ist es aber hilfreich diese durch Zahlen zu repräsentieren, um mit ihnen rechnen zu können Beispiel: 4-maliger Wurf einer Münze Ω = {Wappen, Zahl} = {W , Z }4 X ist also eine Abbildung von Ω nach R. |Ω| = 24 = 16 Die Menge der möglichen Ausprägungen {0,1,2,3,4} heißt Träger T der ZV X . z. B. ω = {W , Z , Z , W } () Stochastik und Statistik SS 2012 1 / 52 Vorteile von Zufallsvariablen Oder: Welche Zahl erhalten wir “im Mittel”? SS 2012 2 / 52 Die Wahrscheinlichkeitsfunktion von X ist durch Ursprünglicher Wahrscheinlichkeitsraum (Ω, P) wird letztendlich nicht mehr benötigt. () Stochastik und Statistik () Stochastik und Statistik Eine ZV X heißt diskret, falls sie nur endliche oder abzählbar unendlich viele Werte x1 , x2 , . . . annehmen kann. Die Menge T = {x1 , x2 , . . .} der möglichen Ausprägungen (d.h. alle xi mit P{xi } > 0) von X heißt Träger der ZV X . Man kann mit X “rechnen”: Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid Definition z. B. P(X ≤ a) oder P(X 2 > b) 2 X :=“Anzahl von Wappen” Dann nennt man X eine Zufallsvariable (ZV) mit reellen Ausprägungen bzw. Realisierungen x ∈ R. Man schreibt kurz X = x, wenn die Ausprägung x der ZV X eingetreten ist. Esther Herberich und Matthias Schmid 1 Angenommen man interessiert sich für SS 2012 3 / 52 f (xi ) = P(X = xi ) = P ({ω ∈ Ω : X (ω) = xi }) für xi ∈ R gegeben. Die Wahrscheinlichkeitsfunktion f (xi ) heißt auch Wahrscheinlichkeitsdichte. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 52 Folgerungen Die Verteilungsfunktion 1 Für x 6∈ T ist f (x) = P{∅} = 0. 2 Als Funktion von B ∈ R ist also Die Verteilungsfunktion einer diskreten ZV ist definiert als F (x) = P(X ≤ x) = P(X ∈ B) = P{ω ∈ Ω : X (ω) ∈ B} () Stochastik und Statistik SS 2012 f (xi ) i:xi ≤x eine Wahrscheinlichkeitsverteilung auf R. Man nennt diese die Verteilung der Zufallsvariable X . Diese wird durch die Abbildung X und die Wahrscheinlichkeitsverteilung P induziert. Esther Herberich und Matthias Schmid X 5 / 52 Eigenschaften der Verteilungsfunktion Kennt man also die Wahrscheinlichkeitsfunktion f (x) für alle x ∈ T , so kennt man auch die Verteilungsfunktion F (x) (dies gilt auch umgekehrt). Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 52 Beispiel: 4-maliger Wurf einer Münze X :=“Anzahl Kopf”, T = {0, 1, 2, 3, 4} F (x) ist monoton wachsend (“Treppenfunktion”) f (0) f (1) f (2) f (3) f (4) F (x) ist stückweise konstant mit Sprungstellen an Werten xi mit f (xi ) > 0, d.h. an allen Realisierungen xi ∈ T lim F (x) = 1 x→∞ = = = = = 1/16 4/16 6/16 4/16 1/16 ⇒ 0 1/16 5/16 F (x) = 11/16 15/16 1 : : : : : : x 0≤x 1≤x 2≤x 3≤x x <0 <1 <2 <3 <4 ≥4 lim F (x) = 0 x→−∞ Esther Herberich und Matthias Schmid Beachte: f (x) = 0 für alle x ∈ /T () Stochastik und Statistik SS 2012 7 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 52 Spezielle Verteilungen 1.0 1.0 Wahrscheinlichkeits- und Verteilungsfunktion Man unterscheidet nun bestimmte “gängige” Verteilungen, die häufig von weiteren Parametern abhängen. ● 0.8 0.8 ● Das einfachste Beispiel ist die Bernoulli-Verteilung. Eine Bernoulli-verteilte ZV kann nur die Werte 0 und 1 annehmen: 0.6 0.4 0.4 f(x) F(x) 0.6 ● ● P(X = 1) P(X = 0) ● ● 0 1 2 3 = f (1) = f (0) = = π 1−π ● 0.0 ● 0.0 ● 0.2 0.2 ● 4 π ∈ [0, 1] ist der Parameter der Bernoulli-Verteilung. −1 0 x 1 2 3 4 5 Man schreibt kurz: X ∼ B(π). x Wahrscheinlichkeitsfunktion (links) und Verteilungsfunktion (rechts) für den viermaligen Münzwurf Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Die diskrete Gleichverteilung Die geometrische Verteilung Die allgemeine diskrete Gleichverteilung hat einen endlichen Träger T = {x1 , x2 , . . . , xk }, wobei Ein Zufallsvorgang, bei dem mit Wahrscheinlichkeit π ein Ereignis A eintritt, wird unabhängig voneinander so oft wiederholt, bis zum ersten Mal A eintritt. P(X = xi ) = f (xi ) = 1 k Sei X die ZV “Anzahl der Versuche bis zum ersten Mal A eintritt”. Dann ist T = N und die Wahrscheinlichkeitsfunktion von X lautet: mit i = 1, . . . , k gilt. Häufig sind alle natürlichen Zahlen zwischen a ∈ N und b ∈ N Element des Trägers T . Die Grenzen a und b sind dann die Parameter der diskreten Gleichverteilung. () Stochastik und Statistik f (x) = (1 − π)x−1 · π x = 1, 2, 3, . . . π ∈ (0, 1) ist der Parameter der geometrischen Verteilung. Man schreibt kurz: X ∼ G(π). Beispiel: Augenzahl beim fairen Würfelwurf Esther Herberich und Matthias Schmid 10 / 52 SS 2012 11 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 52 Wahrscheinlichkeits- und Verteilungsfunktion π = 0.5 π = 0.3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.6 F(x) ● 0 dgeom() berechnet Wahrscheinlichkeitsfunktion pgeom() berechnet Verteilungsfunktion rgeom() berechnet Zufallszahlen aus der geom. Verteilung SS 2012 2 0.2 ● ● ● ● ● ● ● ● ● 4 ● ● 6 ● ● ●● 8 ●● ●● ● 0.0 0.2 ● ● 0.0 Für diese Form gibt es folgende Funktionen in R: ● 0.4 ● ● () Stochastik und Statistik ● ● 0.8 0.8 0.6 ● 0.4 f (y ) = (1 − π)y · π Esther Herberich und Matthias Schmid ● ● ● = {0, 1, 2, . . .} f(x) T 1.0 Sei Y := “Anzahl der Versuche bevor das erste mal A eintritt”, d.h. Y = X − 1. Dann ist 1.0 Eine Variante der geometrischen Verteilung 10 0 2 4 6 8 π = 0.5 π = 0.3 10 x x Vergleich der geometrischen Wahrscheinlichkeitsfunktionen (links) und Verteilungsfunktionen (rechts) für die beiden Parameter π = 0.3 und π = 0.5 13 / 52 Quantile Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 52 Quantile II Sei X eine diskrete ZV mit Verteilungsfunktion F (x), x ∈ R. Um Eindeutigkeit zu erreichen, definiert man: Sei p ∈ [0, 1]. Jeder Wert x, für den Das p-Quantil xp der Verteilung von X ist definiert als der kleinste Wert x für den F (x) ≥ p gilt. P(X ≤ x) ≥ p und P(X ≥ x) ≥ 1 − p Somit gilt P(X ≤ x) = F (xp ) ≥ p und daher “xp = F −1 (p)” (“Inversion der Verteilungsfunktion”). gilt, heisst p-Quantil xp der Verteilung von X . Speziell nennt man das 0.5-Quantil den Median xmed der Verteilung. Problem: Definition nicht immer eindeutig. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 52 Interpretation vom Median und von Quantilen Numerische Bestimmung von Quantilen Beim Median xmed gilt: Bei Kenntnis der Verteilungsfunktion F (x) und endlichem Träger T : P(X ≤ xmed ) ≥ 0.5 1 Berechne F (x) für alle x ∈ T . 2 Dann gilt für das p-Quantil xp : P(X ≥ xmed ) ≥ 0.5 xp = min{x : F (x) ≥ p} Allgemeiner gilt für das p-Quantil xp : P(X ≤ xp ) ≥ p 3 P(X ≥ xp ) ≥ 1 − p Esther Herberich und Matthias Schmid () Stochastik und Statistik in R: verwende Funktion which Nicht so einfach, siehe Dokumentation ?quantile. SS 2012 17 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Beispiel: geometrische Verteilung 4.2 Unabhängigkeit von diskreten Zufallsvariablen Funktion qgeom() berechnet Quantilfunktion der geometrischen Verteilung. Betrachte zwei ZV X und Y auf dem Wahrscheinlichkeitsraum (Ω, P) mit Träger TX = {x1 , x2 , . . .} und TY = {y1 , y2 , . . .} und Wahrscheinlichkeitsfunktionen fX (x) und fY (y ). 0.95-Quantil x0.95 : In 95% aller Fälle muss man maximal x0.95 Versuche unternehmen, bevor zum ersten mal A eintritt. π 0.01 0.1 0.5 0.9 0.99 Esther Herberich und Matthias Schmid x0.95 298 28 4 1 0 Die Funktion fX ,Y (x, y ) = P(X = x und Y = y ) = P(X = x, Y = y ) xmed 68 6 0 0 0 () Stochastik und Statistik 18 / 52 heißt gemeinsame Wahrscheinlichkeitsfunktion der zwei Zufallsvariablen X und Y . Unter Unabhängigkeit kann man diese zurückführen auf die beiden Wahrscheinlichkeitsfunktionen fX (x) und fY (y ). SS 2012 19 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 52 Definition Beispiel: Bernoulli-Kette X und Y heißen unabhängig, wenn Sind X1 , X2 , . . . , Xn Bernoulli-verteilt mit Parameter π und unabhängig, so heißt X = (X1 , X2 , . . . , Xn ) Bernoulli-Folge. P(X = x, Y = y ) = P(X = x) · P(Y = y ) d.h. Beispiel: fX ,Y (x, y ) = fX (x) · fY (y ) n = 3, π = 61 ; wegen der Unabhängigkeit gilt z. B. für alle x ∈ TX und y ∈ TY gilt. 1 P(X1 = 1, X2 = 0, X3 = 0) = · 6 X1 , X2 , . . . , Xn heißen unabhängig, falls P(X1 = x1 , . . . , Xn = xn ) = n Y P(Xi = xi ) = i=1 n Y 2 5 25 = 6 216 fXi (xi ) i=1 für alle x1 , x2 , . . . , xn aus den entsprechenden Trägern gilt. () Stochastik und Statistik SS 2012 21 / 52 Die Binomialverteilung Esther Herberich und Matthias Schmid () Stochastik und Statistik 22 / 52 ● ● ● f(x) ●● ● ● ● ● ● ● ● ● 2 4 6 20 ● ● ● ● ● ● ● ● 40 50 ● ● ● ● ● ● ● 0.2 ● ● 0.0 0 ● ● ● 2 4 6 8 π = 0.5 π = 0.3 10 ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●●●●● ●●●●●●●●●●●●●●●●●● 10 x SS 2012 23 / 52 Esther Herberich und Matthias Schmid ● ● 0.0 0.2 ● ● ● 70 ● ● F(x) ● 60 ● ●●●●●●● ●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● 0.4 F(x) ● ● () Stochastik und Statistik 30 n = 100 ● 0.4 Funktionen in R: dbinom(), pbinom(), qbinom(), rbinom() 10 n = 10 ● 0.6 ●● 10 x ● 0.8 Man schreibt kurz X ∼ B(n, π) und es gilt B(1, π) = B(π). ● ● ● 8 ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●●●●●● ●●● ●●●●●●●●●●●●●●●●●● ●●●●●●●● ●● ●●●●●●●●●●●●●●●●●●● ●●●●●●●●● x 1.0 0 π = 0.5 π = 0.3 1.0 ● ● ● 0.00 0.05 0.10 0.15 0.20 0.25 0.30 π = 0.5 π = 0.3 ● 0.8 Diese ZV X heißt binomialverteilt mit Parametern n ∈ N, π ∈ [0, 1] und hat den Träger T = {0, 1, . . . , n} sowie die Wahrscheinlichkeitsfunktion: n P(X = x) = f (x) = · π x (1 − π)n−x für x ∈ T x n = 100 0.6 f(x) n = 10 Bei einer P Bernoulli-Folge interessiert man sich häufig nur für die Anzahl X := ni=1 Xi , wie oft Xi = 1 aufgetreten ist. Esther Herberich und Matthias Schmid SS 2012 Wahrscheinlichkeits- und Verteilungsfunktion 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Esther Herberich und Matthias Schmid 20 30 40 ● ● 50 60 π = 0.5 π = 0.3 70 x () Stochastik und Statistik SS 2012 Vergleich der binomialen Wahrscheinlichkeitsfunktionen (oben) und 24 / 52 Beispiele Die hypergeometrische Verteilung Anzahl der 6-er bei n-maligem Würfeln: Berechne Häufig wird jedoch im Urnenmodell ohne Zurücklegen gezogen, d. h. die “Auswahlwahrscheinlichkeiten” ändern sich von Ziehung zu Ziehung (Beispiel: Meinungsforschung). Modus (wahrscheinlichster Wert) und Die Verteilung von X (Anzahl der markierten Kugeln) nennt man dann hypergeometrisch. Sie hat den Träger Median in Abhängigkeit von n. Das Urnenmodell: Zufälliges Ziehen mit Zurücklegen einer Stichprobe von n Kugeln aus einer Urne mit N Kugeln, darunter M markierte. Sei X : “Anzahl der markierten Kugeln in der Stichprobe”. Dann: T = {max(0, n − (N − M)), . . . , min(n, M)} und die Wahrscheinlichkeitsfunktion M N−M x f (x) = X ∼ B(n, M/N). n−x N n für x ∈ T . Man schreibt kurz: X ∼ H(n, N, M) Funktionen in R: {dpqr}hyper() SS 2012 2 4 ● ● ● ● ● ● 6 8 0.4 ● ● 2 4 6 8 ● ● ● ● 10 ● ● ● ● 12 1 2 0.5 ● ● ● ● 3 ● ● ● ● 4 5 ● ● 0 2 ● ● 4 n = 20, M = 5, N = 25 5 10 15 0.4 0.4 10 15 0.3 ● 20 f(x) ● 0.1 ● ● ● ● ● 0 2 4 6 ● ● SS 2012 27 / 52 Esther Herberich und Matthias Schmid ● ● ● ● ● ● 8 ● ● ● ● 10 ● ● ● ● ● 0 x Vergleich der hypergeometrischen und binomialen ● ● ● x () Stochastik und Statistik ● ● ● 0.2 f(x) ● 0.1 ● ● ● ● ● ● ●● ●● ●● ●● ●● ●● ●● 5 ● ● ● ● ● ● x Esther Herberich und Matthias Schmid ● ● ● ● ● ●● ●● ●● ● 0 ● 0.0 ● ● ● ● ●● ●● ●● ●● ●● 0.0 ● ● ● ● 0.0 ● ● ● ● ● ● ● ●● 0.1 ●● ● ● ● 8 Binomial Hypergeometrisch ● ● 0.2 0.2 ● ● Binomial Hypergeometrisch 0.3 0.4 f(x) 0.3 0.4 0.3 f(x) 0.2 ● ● ● 0.5 n = 15, M = 5, N = 25 0.5 n = 40, M = 20, N = 100 0.5 n = 30, M = 20, N = 100 0.5 x Binomial Hypergeometrisch ● ● 6 x ●● 0.1 0.0 0.3 0 ● x ● 0 ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● 0.1 ● ● n = 10, M = 5, N = 25 x Binomial Hypergeometrisch ●● ●● ● ● 26 / 52 Binomial Hypergeometrisch f(x) 0.3 f(x) ● ● ● ● 0 ● 0.2 ● ● ● ● 0.0 0.0 ● ● ● 0.0 ● ● Binomial Hypergeometrisch ● ● 0.1 f(x) ● ● 0.1 ● ● 0 ● ● 0.2 0.2 f(x) ● ● 0.1 Binomial Hypergeometrisch 0.3 0.3 ● ● SS 2012 n = 5, M = 5, N = 25 0.4 0.4 Binomial Hypergeometrisch () Stochastik und Statistik Ziehen mit und ohne Zurücklegen II n = 20, M = 20, N = 100 0.5 0.5 n = 10, M = 20, N = 100 Esther Herberich und Matthias Schmid 0.0 Ziehen mit und ohne Zurücklegen 25 / 52 0.4 () Stochastik und Statistik 0.5 Esther Herberich und Matthias Schmid ● 2 4 ● 6 ● ● 8 ● ● ● ● ● ● 10 ● ● ● ● 12 x () Stochastik und Statistik SS 2012 Vergleich der hypergeometrischen und binomialen 28 / 52 Approximation der hypergeometrischen Verteilung Beispiel: Capture-Recapture-Experiment Für N “groß” und n “klein” läßt sich die hypergeometrische Verteilung gut durch die Binomialverteilung approximieren: H(n, M, N) ≈ M B n, π = N Frage: Wie viele Fische schwimmen in einem See? Idee : Fange M Fische, markiere diese und wirf sie dann wieder (lebendig) in den See zurück. Später werden n Fische gefangen. Die ZV X :=“Anzahl der markierten Fische”ist idealerweise hypergeometrisch verteilt mit Parametern N, M und n: X ∼ H(n, N, M) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 52 Beispiel: Capture-Recapture-Experiment II n x ⇒ 30 / 52 Häufig gibt es zufällige Vorgänge, bei denen es keine natürliche obere Grenze für die Anzahl an Ereignissen gibt, z.B.: N̂ ≈ n ·M x Die Anzahl an Telefonanrufen in einem “Call-Center” pro Stunde Die Anzahl der Tore in einem Bundesligaspiel Probleme: Im Allgemeinen N̂ ∈ /N Anzahl von Todesfällen durch Hufschlag in der Preußischen Armee (L. von Bortkiewicz, 1893) Keine Angaben über die Genauigkeit der Schätzung Später mehr dazu. Esther Herberich und Matthias Schmid SS 2012 Siméon Poisson [1781-1840] Naiver Ansatz zur Konstruktion eines Schätzers N̂ von N: ≈ () Stochastik und Statistik 4.3 Die Poisson-Verteilung Statistisches Problem: Wie groß ist N? N M Esther Herberich und Matthias Schmid Die einfachste Verteilung für solche Phänomene ist die Poisson-Verteilung. () Stochastik und Statistik SS 2012 31 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 52 Wahrscheinlichkeits- und Verteilungsfunktion λ=3 λ=1 ● 0.3 ● 0.1 ● ● ● 4 ● ● 6 Man schreibt kurz: X ∼ P(λ) ● ● ●● 8 ● 0.0 0.0 ● ● ● 2 ● ● 0.2 ● ● ● ● 0.4 ● 0 ●● 10 ● 0 2 4 6 8 λ=3 λ=1 10 x x Vergleich der Wahrscheinlichkeitsfunktionen (links) und Verteilungsfunktionen (rechts) für eine poissonverteilte Zufallsvariable mit dem Parameter λ = 1 bzw. λ = 3 Funktionen in R: {dpqr}pois Esther Herberich und Matthias Schmid ● ● 0.6 ● ● hat. Der Parameter λ ∈ ist die durchschnittliche Rate oder die Intensität, mit der die Ereignisse in dem zugrundeliegenden Zeitintervall eintreffen. ● F(x) ● ● R+ ● ● ● ● 0.2 λx · exp(−λ) x! ● ● ● ● ● ● 0.8 ● f(x) f (x) = 0.4 Eine Zufallsvariable X folgt einer Poisson-Verteilung, wenn sie Träger T = N0 und Wahrscheinlichkeitsfunktion 1.0 Die Poisson-Verteilung II () Stochastik und Statistik SS 2012 33 / 52 Approximation der Binomialverteilung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 52 Vergleich von Binomial- und Poissonverteilung 0.4 π = 0.5 0.4 π = 0.8 Poisson Binomial 0.3 0.3 Poisson Binomial ● ● 0.1 0.2 f(x) ● ● ● ● 0 P(λ = n · π) ● ● ● 2 ● 4 ● ● ● 0.0 0.0 ● ●● ● ● ● 6 8 10 ●● ● ● ● ● 0 2 4 6 8 10 x π = 0.3 π = 0.1 0.4 Je größer n ist und je kleiner π, desto besser ist die Approximation. ● ● x 0.4 ≈ ● ● ● ●● ● ● ● ● ● ● ● Poisson Binomial 0.3 ● ● Poisson Binomial ● ● 0.3 B(n, π) ● ● ● 0.1 Die Binomialverteilung B(n, π) kann für “großes n” und “kleines π” gut durch die Poisson-Verteilung mit λ = n · π approximiert werden. 0.2 f(x) ● ● ● 0.2 ● f(x) 0.2 f(x) ● ● ● ● ● ● ● 0.1 ●● ● ● ● 0.0 0 ●● ● ● ● 2 4 6 ●● 8 ●● ●● 10 ●● 0.0 0.1 ● 0 1 x Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 52 Esther Herberich und Matthias Schmid 2 3 4 ●● ●● ●● 5 6 7 x () Stochastik und Statistik SS 2012 36 / 52 Vergleich von Binomial- und Poissonverteilung π = 0.8 π = 0.5 ● 70 80 90 0.12 0.04 0.00 0.04 0.00 ● ●●●●●●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ●●● ● ●● ●●● ● ●● ● ●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●● Sind X und Y unabhängige ZV mit Wahrscheinlichkeitsfunktionen fX (x) und fY (y ), so gilt für die Summe Z = X + Y : X P(X + Y = z) = P(X = x, x + Y = z) ●●● ● ● ● ● ● ● 60 Poisson Binomial 0.08 f(x) ●● ● ● ● ● ● 0.08 f(x) 0.12 Poisson Binomial 50 4.4 Faltungen ● ●● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ●●● ●● ●● ●● ●●● ● ● ●●●●● ●●●●●●●●●●●●● ●●●●●● ●● ●●●●●●●● 100 30 40 50 x 60 70 x = 80 x X P(X = x, Y = z − x) x π = 0.3 20 30 40 0.12 ● ● ● ● ● ● 0.08 f(x) x ● ● = ● ● ● ● ● ● 50 5 fX (x) · fY (z − x) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 X x ● ● 10 x Esther Herberich und Matthias Schmid Poisson Binomial ● ● ● ● 0.04 ●●● ● ● ● ●●●● ● ● ● ● ● ●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ●● ●● ●● ● ●●●●●●●●● ●●●●●●●●●●● ●●●●● ●●●●●●● 0.00 0.08 0.00 0.04 f(x) 0.12 Poisson Binomial 10 unabh. X P(X = x) · P(Y = z − x) = π = 0.1 15 20 25 x () Stochastik und Statistik SS 2012 37 / 52 Faltungen II Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 52 Faltung von zwei geometrischen ZV Man nennt die Wahrscheinlichkeitsverteilung von Z = X + Y X P(X + Y = z) = fX (x) · fY (z − x) x = X Seien X ∼ G(π) und Y ∼ G(π) unabhängig. fX (z − y ) · fY (y ) y Berechne Träger und Wahrscheinlichkeitsfunktion der Summe Z = X + Y . die Faltung von X und Y . Beispiel: Ist X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig, so ist die Faltung von X und Y wieder Poisson-verteilt mit Parameter λ1 + λ2 : Wie kann man Z interpretieren? X + Y ∼ P(λ1 + λ2 ) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 52 Die negative Binomialverteilung 4.4 Die Verteilung von Zufallsvektoren Betrachte die Summe von n unabhängigen geometrischen ZV X1 , . . . , Xn : X = X1 + . . . + Xn . Dann hat X eine negative Binomialverteilung mit Parameter n ∈ N und π ∈ (0, 1) und Wahrscheinlichkeitsfunktion x −1 n f (x) = π (1 − π)x−n für x = n, n + 1, . . . n−1 Funktionen in R: dnbinom(...), pnbinom(...), qnbinom(...), rnbinom(...) Betrachte zwei diskrete ZV X und Y definiert auf dem Wahrscheinlichkeitsraum (Ω, P). Wie kann man Information über ihr gemeinsames stochastisches Verhalten quantifizieren? Idee: Betrachte Zufallsvektor (X , Y ) als Abbildung von Ω nach R2 . Die gemeinsame Verteilung von X und Y enthält i. A. mehr Information als in den Randverteilungen von X und Y steckt! Beachte: Unterschiedliche Definition in R! Träger immer gleich N0 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 52 Gemeinsame Verteilungs- und Wahrscheinlichkeitsfunktion Seien X , Y zwei diskrete ZV auf (Ω, P). Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y lautet fX ,Y (x, y ) = P(X = x, Y = y ) FX ,Y (x, y ) = P(X ≤ x, Y ≤ y ) Beide sind also Funktion von R2 nach [0, 1]. Meist wird nur fX ,Y (x, y ) angegeben. () Stochastik und Statistik SS 2012 () Stochastik und Statistik SS 2012 42 / 52 Beispiel Ein Lehrer bittet seine Schüler, eine (faire) Münze zweimal zu werfen, und das Ergebnis (“Kopf” = 0, “Zahl” = 1) für jeden Wurf zu notieren. Sei X das Ergebnis des ersten Wurfes und Y das Ergebnis des zweiten Wurfes. Ein gewissenhafter Schüler folgt genau den Anweisungen des Lehrers und notiert das Ergebnis XG und YG . Ein fauler Schüler wirft nur eine Münze und notiert das erzielte Ergebnis zweimal: XF und YF . Die gemeinsame Verteilungsfunktion von X und Y lautet Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid 43 / 52 Berechne die gemeinsame Wahrscheinlichkeitsfunktion von (XG , YG ) und von (XF , YF ). Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 52 Randverteilungen Bedingte Verteilungen Gemeinsame Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion charakterisieren die gemeinsame Verteilung von (X , Y ) vollständig. Die bedingte Verteilungsfunktion und bedingte Wahrscheinlichkeitsfunktion von X , gegeben Y = y , sind definiert für alle y mit P(Y = y ) > 0: Insbesondere kann man die Wahrscheinlichkeitsfunktion der Randverteilung von X bzw. Y durch Summation berechnen: X fX (x) = fX ,Y (x, y ) P(X ≤ x, Y = y ) P(Y = y ) P(X = x, Y = y ) fX |Y (x|y ) = P(X = x|Y = y ) = P(Y = y ) fX ,Y (x, y ) = fY (y ) FX |Y (x|y ) = P(X ≤ x|Y = y ) = y fY (y ) = X fX ,Y (x, y ) x Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 52 Folgerungen Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 52 Beispiel Es gilt immer: fX ,Y (x, y ) y = −1 y = 0 y = 2 1 3 2 x =1 18 18 18 fX ,Y (x, y ) = fX |Y (x|y ) · fY (y ) = fY |X (y |x) · fX (x) x =2 x =3 Es folgt: X und Y sind genau dann unabhängig wenn fX |Y (x|y ) = fX (x) oder () Stochastik und Statistik 0 0 4 18 3 18 3 18 Man berechne die Randverteilungen fX (x) und fY (y ), die bedingten Verteilungen fX |Y (x|y ) und fY |X (y |x) und untersuche X und Y auf Unabhängigkeit. fY |X (y |x) = fY (y ) für alle x und y gilt. Esther Herberich und Matthias Schmid 2 18 SS 2012 47 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 52 Beispiel II Allgemeine Zufallsvektoren Betrachte zwei unabhängige ZV X und Y , die beide Poisson-verteilt sind mit Parameter λ bzw. µ. Allgemeiner kann man natürlich auch einen Zufallsvektor X = (X1 , . . . , Xn ) der Dimension n betrachten. Dieser hat dann die Wahrscheinlichkeitsfunktion Definiere Z = X + Y . fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) Man zeige: Die bedingte Verteilung von X |Z = z ist binomial mit Parametern n = z und π = λ/(λ + µ): und die Randverteilungen fXi (xi ) = X |Z = z ∼ B(z, π = λ/(λ + µ)) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 X fX1 ,...,Xn (x1 , . . . , xn ) xj :j6=i 49 / 52 Die Trinomialverteilung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 52 Die Trinomialverteilung II Ein drei-dimensionaler diskreter Zufallsvektor X heißt trinomialverteilt, falls er Träger Ein Experiment, bei dem ein von drei möglichen Ereignissen mit Wahrscheinlichkeit π1 , π2 und π3 (π1 + π2 + π3 = 1) auftritt, wird unabhängig voneinander n-mal wiederholt. Sei X ein drei-dimensionaler Zufallsvektor, dessen i-te Komponente angibt, wie oft das i-te Ereignis eingetreten ist. T = {x = (x1 , x2 , x3 ) : xi ∈ {0, 1, . . . , n} und x1 + x2 + x3 = n} und Wahrscheinlichkeitsfunktion fX (x) = fX1 ,X2 ,X3 (x1 , x2 , x3 ) = Beispiel: In einer Population mit Häufigkeiten π1 , π2 und π3 der Genotypen aa, ab und bb wird eine Stichprobe vom Umfang n gezogen. Die Anzahlen X1 , X2 und X3 der drei Genotypen ist dann trinomialverteilt. n! π1x1 π2x2 π3x3 x1 !x2 !x3 ! besitzt. Man schreibt kurz: X ∼ M3 (n, π = (π1 , π2 , π3 )) Hierbei steht M3 für Multinomialverteilung der Dimension 3. Man kann zeigen, dass für die Randverteilungen gilt: Xi ∼ B(n, πi ) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 52 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 52 5. Erwartungswerte, Varianzen und Kovarianzen 5.1 Der Erwartungswert einer diskreten ZV Zur Charakterisierung von Verteilungen unterscheidet man Lagemaße Der Erwartungswert E(X ) = EX einer diskreten ZV X mit Träger T ist definiert als X X x · P(X = x) = x · f (x) E(X ) = I I I Erwartungswert (“mittlerer Wert”) Modus Median x∈T wenn diese Summe absolut konvergent ist. und Streuungsmaße I I Beachte: Man könnte die Summe auch über alle x ∈ R laufen lassen. Varianz und Standardabweichung mittlere absolute Abweichung Beispiele für Erwartungswerte: Am einfachsten mathematisch zu handhaben sind Erwartungswerte und Varianzen, da diese immer eindeutig und meist leicht zu berechnen sind. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Bernoulli-Verteilung: Für X ∼ B(π) ist E(X ) = π. Poisson-Verteilung: Für X ∼ P(λ) ist E(X ) = λ. 1 / 21 Eigenschaften des Erwartungswertes 1 2 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 21 Folgerungen Sei X = a mit Wahrscheinlichkeit 1 (deterministische ZV). Dann gilt: EX = a Allgemeiner gilt dann natürlich auch für beliebige a1 , . . . , an ∈ R und beliebige ZV X1 , . . . , Xn : ! n n X X E ai Xi = ai · E(Xi ) Seien a, b ∈ R und X , Y beliebige ZV. Dann gilt: E(a · X + b · Y ) = a · EX + b · EY i=1 “Linearität des Erwartungswertes” 3 x∈T i=1 Daher gilt für X ∼ B(n, π): E(X ) = nπ Für beliebige a, b ∈ R gilt daher E(aX + b) = a · E(X ) + b Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 21 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 21 Erwartungswert von ZVn mit Träger N Transformationsregel für Erwartungswerte Hat X den Träger T = N, so gilt: E(X ) = ∞ X Sei X diskrete ZV und g (x) eine reelle Funktion. Dann gilt für Y = g (X ): X E(Y ) = E(g (X )) = g (x) f (x) P(X ≥ k) k=1 Anwendung: Erwartungswert der geometrischen Verteilung: Ist X ∼ G (π) so gilt: E(X ) = Esther Herberich und Matthias Schmid x∈T Beachte: Im Allgemeinen gilt nicht: 1 π () Stochastik und Statistik SS 2012 5 / 21 Beispiel Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 21 Transformationsregel für Erwartungswerte II Transformationsregel gilt auch für Zufallsvektoren (X , Y ): Seien X und Y zwei ZV mit gemeinsamer Wahrscheinlichkeitsfunktion fXY (x, y ). Sei g (x, y ) eine reellwertige Funktion. Dann gilt für Z = g (X , Y ) XX E(Z ) = E(g (X , Y )) = g (x, y ) fX ,Y (x, y ). Sei X eine ZV mit folgender Wahrscheinlichkeitsfunktion 1/4 für x = −2 1/8 für x = −1 f (x) = 1/4 für x = 1 3/8 für x = 3 Berechne den Erwartungswert von x () Stochastik und Statistik E(X · Y ) = SS 2012 y Speziell gilt daher: E(X 2 ) XX x Esther Herberich und Matthias Schmid E(g (X )) = g (E(X )) ! 7 / 21 Esther Herberich und Matthias Schmid x · y · fX ,Y (x, y ) y () Stochastik und Statistik SS 2012 8 / 21 5.2 Varianzen und Standardabweichungen Eigenschaften von Varianzen Die Varianz Var(X ) (auch V(X )) einer diskreten ZV ist definiert als: 1 Var(aX + b) = a2 · Var(X ) 2 Sind X und Y unabhängig, so gilt: für alle a, b ∈ R Var(X ) = E[(X − EX )2 ] “Erwartete quadratische Abweichung vom Erwartungswert” Zur einfacheren Berechnung kann man häufig den Verschiebungssatz verwenden: Var(X ) = E(X 2 ) − [E(X )]2 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Var(X + Y ) = Var(X ) + Var(Y ) 9 / 21 Die Standardabweichung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 21 Beispiel: Binomialverteilung Ist X ∼ B(n, π), so gilt für die Varianz: Var(X ) = n · π · (1 − π) 0.25 Die Standardabweichung einer diskreten ZV X ist definiert als die Wurzel aus der Varianz: p σ = σ(X ) = + Var(X ) π(1 − π) 0.05 0.00 Bemerkung: Die mittlere absolute Abweichung E(|X − EX |) erscheint als Streuungsmaß intuitiver, ist aber deutlich schwerer mathematisch zu handhaben. 0.10 σ(aX + b) = |a| · σ(X ) 0.15 0.20 Im Gegensatz zur Varianz gilt für die Standardabweichung: 0.0 0.2 0.4 0.6 0.8 1.0 π Varianz der Bernoulliverteilung als Funktion von π Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 21 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 21 Ungleichung von Tschebyscheff 5.3 Kovarianzen und Korrelationen Als Maß für die Streuung einer Verteilung ist die Varianz bzw. Standardabweichung einer ZV X schwer direkt zu interpretieren. Es gilt aber zumindest folgende Ungleichung: P(|X − E(X )| ≥ c) ≤ Als Maße für die lineare stochastische Abhängigkeit von zwei ZVn X und Y definiert man die Kovarianz Var(X ) c2 Cov(X , Y ) = E[(X − EX )(Y − EY )] Beispiel: und die Korrelation Sei E(X ) beliebig und Var(X ) = 1. Dann ist Cov(X , Y ) p ρ = ρ(X , Y ) = p Var(X ) · Var(Y ) P(|X − E(X )| ≥ 1) ≤ 1 P(|X − E(X )| ≥ 2) ≤ P(|X − E(X )| ≥ 3) ≤ Esther Herberich und Matthias Schmid unter der Voraussetzung, dass Var(X ) > 0 und Var(Y ) > 0 gilt. Beachte: Cov(X , X ) = Var(X ) 1 4 1 9 () Stochastik und Statistik SS 2012 13 / 21 Der Verschiebungssatz für die Kovarianz Es gilt zudem: Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 21 Beispiel “revisited” fX ,Y (x, y ) y = −1 y = 0 y = 2 fX (x) 1 3 2 6 x =1 18 18 18 18 Beachte: E(XY ) kann mit Transformationssatz für Erwartungswerte leicht über die gemeinsame Wahrscheinlichkeitsfunktion fXY (x, y ) von X und Y berechnet werden. Esther Herberich und Matthias Schmid () Stochastik und Statistik 2 18 x =2 Cov(X , Y ) = E(XY ) − EX · EY SS 2012 15 / 21 x =3 0 3 18 fY (y ) 0 4 18 7 18 3 18 3 18 8 18 5 18 7 18 Es ergibt sich: E(XY ) = EX = EY = 29 18 37 18 13 18 Esther Herberich und Matthias Schmid Cov(X , Y ) = ρ = () Stochastik und Statistik 29 18 − 37 18 √ 41 107413 · 13 18 = 41 324 = 0.125 SS 2012 16 / 21 Unkorreliertheit Beispiel X und Y heißen unkorreliert, wenn Cov(X , Y ) = 0 d.h. wenn gilt. Beachte: Seien X ∼ B(π = 12 ) und Y ∼ B(π = 12 ) unabhängig. Betrachte 1 0 mit Wkeit 4 Z1 = X + Y = 1 mit Wkeit 12 2 mit Wkeit 14 −1 mit Wkeit Z2 = X − Y = 0 mit Wkeit 1 mit Wkeit bzw. ρ(X , Y ) = 0 E(X · Y ) = EX · EY Aus Unabhängigkeit folgt Unkorreliertheit aber der Umkehrschluss gilt im Allgemeinen nicht! Man sagt: X und Y sind positiv/negativ korreliert falls Dann sind Z1 und Z2 zwar unkorreliert aber nicht unabhängig! ρ(X , Y ) > 0 bzw. ρ(X , Y ) < 0 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 4 1 2 1 4 17 / 21 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Eigenschaften von Korrelationen Lineare Transformationen Für alle ZVn X und Y gilt: Seien a, b, c, d ∈ R mit b · d > 0 und X , Y beliebige ZVn. Dann gilt: −1 ≤ ρ(X , Y ) ≤ 1 Cov(a + bX , c + dY ) = b · d · Cov(X , Y ) |ρ(X , Y )| = 1 gilt genau dann, wenn perfekte lineare Abhängigkeit zwischen X und Y besteht: Y =a+b·X Esther Herberich und Matthias Schmid Daher gilt: ρ(a + bX , c + dY ) = ρ(X , Y ) für bestimmte a, b ∈ R mit b 6= 0 () Stochastik und Statistik 18 / 21 SS 2012 d.h. die Korrelation ist invariant bzgl. linearer Transformationen 19 / 21 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 21 Die Varianz der Summe von zwei ZVn Seien X und Y beliebige ZVn. Dann gilt für X + Y : Var(X + Y ) = Var(X ) + Var(Y ) + 2 · Cov(X , Y ) Daher gilt speziell für unabhängige X und Y : Var(X + Y ) = Var(X ) + Var(Y ) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 21 6. Elemente Statistischer Inferenz Vertrauensintervalle Zwei Arten: Konfidenzintervalle überdecken mit einer gewissen Sicherheit den unbekannten Parameter θ (bei hypothetischer Wiederholung des Zufallsexperiments). Beachte: θ fest, X zufällig Ziel der Statistik ist es, unter bestimmten Annahmen Aussagen über unbekannte Parameter θ ∈ Θ zu machen, nachdem Beobachtungen X gemacht wurden. Dabei unterscheidet man Punktschätzungen: Was ist der “beste” Schätzwert θ̂ für den unbekannten Parameter θ? → frequentistischer Wahrscheinlichkeitsbegriff Intervallschätzungen: Angabe eines Vertrauensintervalls In einem Kredibilitätsintervall liegt der unbekannte Parameter mit einer gewissen Wahrscheinlichkeit. Beachte: θ zufällig, X fest → subjektivistischer Wahrscheinlichkeitsbegriff Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 51 Beispiele 1 I 2 Was ist der “beste” Schätzer π̂ für den unbekannten Parameter θ = π? Wie lautet ein 95%-Vertrauensintervall? Capture-Recapture Experiment: Angenommen M = 100, n = 50 und X = 33. I SS 2012 2 / 51 θ ∈ Θ = [0, 1] θ ∈ Θ = {Nmin , Nmin + 1, . . .} Esther Herberich und Matthias Schmid () Stochastik und Statistik Wir haben die Wahrscheinlichkeitsfunktion f (x) einer ZV X in Abhängigkeit von einem Parameter θ kennengelernt. Beispiel: n x X ∼ B(n, π) ⇒ f (x) = π (1 − π)n−x |{z} x f (x; θ=π) Was ist der “beste” Schätzer N̂ für den unbekannten Parameter θ = N? Beachte: N ≥ Nmin = max(M + n − x, n) Beispiel 1: Beispiel 2: () Stochastik und Statistik 6.1 Likelihood-Inferenz Sei X ∼ B(n, π). Man beobachtet X = 7 bei n = 10 Versuchen. I Esther Herberich und Matthias Schmid stetig diskret SS 2012 3 / 51 Betrachte nun f (x; θ) als Funktion von θ für festes X = x: L(θ) l(θ) = = Esther Herberich und Matthias Schmid f (x, θ) log L(θ) heißt Likelihoodfunktion heißt Log-Likelihoodfunktion () Stochastik und Statistik SS 2012 4 / 51 Der Maximum-Likelihood-Schätzer Idee: Zur Berechnung des ML-Schätzers Je größer die (Log-)Likelihoodfunktion L(θ) bzw. l(θ) als Funktion von θ bei gegebenen Daten X = x ist, desto“plausibler” ist der entsprechende Wert von θ. in einfacheren Modellen analytisch möglich: Ableitung der Log-Likelihood gleich Null setzen Optimal ist somit der Maximum-Likelihood (ML)-Schätzer θ̂ML , für den gelten soll: L(θ̂ML ) = max L(θ) θ ∈ Θ bzw. ansonsten Verwendung numerischer Algorithmen: l(θ̂ML ) = max l(θ) θ ∈ Θ Der (ML)-Schätzer θ̂ML maximiert also die (Log-)Likelihoodfunktion L(θ) bzw. l(θ). Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 51 ML-Inferenz im Capture-Recapture-Experiment I f (x) = n−x N n Dabei sind M und n bekannt. Bei beobachteter Stichprobe X = x lautet die Likelihoodfunktion für den unbekannten Parameter N M N−M L(θ = N) = x n−x N n unter der Restriktion, dass N ≥ max(M + n − x, n). Im Unterschied zum vorhergehenden Abschnitt ist der unbekannte Parameter N nun ganzzahlig. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 I Optimierung, z.B. Funktionen optim() und optimize() in R I EM-Algorithmus Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 51 ML-Inferenz im Capture-Recapture-Experiment II Im Capture-Recapture Beispiel lautet die Wahrscheinlichkeitsfunktion: M N−M x Beispiel: Binomialverteilung (in Vorlesung): π̂ML = x/n 7 / 51 Man kann zeigen, dass für x > 0 und N̂naive = Mn x 6∈ N gilt: n o Mn N̂ML = trunc = trunc N̂naive x Im Fall N̂naive ∈ N ist der ML-Schätzer i.A. nicht eindeutig: dann wird die Likelihood sowohl durch N̂naive als auch durch N̂naive − 1 maximiert. Den “naiven” Schätzer N̂naive kann man als ML-Schätzer unter Verwendung der Binomialapproximation zur hypergeometrischen Verteilung herleiten. → Vorlesung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 51 ML-Inferenz im Capture-Recapture-Experiment III Invarianz des ML-Schätzers Zahlenbeispiele: Wichtige und nützliche Eigenschaft des ML-Schätzers! Sei θ̂ML der ML-Schätzer für θ und ϕ = ϕ(θ) eine beliebige (eineindeutige) Funktion von θ. Dann ist der ML-Schätzer von ϕ: M n x 100 50 33 100 50 41 7 23 4 25 30 10 13 10 5 In den beiden Extremfällen erhält M n 100 50 100 50 N̂ML N̂naive 151 151.51 121 121.95 40 40.25 74 und 75 75 25 und 26 26 man: x N̂ML N̂naive 0 ∞ ∞ 50 100 100 ϕ̂ML = ϕ(θ̂ML ) Beispiel: Bestimmung des ML-Schätzers für die Chance γ = Binomialexperiment: γ̂ML x π̂ML = = n 1 − π̂ML 1− x n = π 1−π im x n−x Dies könnte man auch direkt zeigen! Dauert aber viel länger. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 51 Das Testproblem Der statistische Test Wir sind nun daran interessiert, Aussagen darüber zu treffen, in welchen Teilmengen des Parameterraumes Θ sich der feste, aber unbekannte, Parameter θ ∈ Θ mutmaßlich befindet. Dazu unterteilen wir den Parameterraum Θ in zwei disjunkte Teilmengen Θ0 und Θ1 mit Θ = Θ0 ∪ Θ1 , wobei Θ0 ∩ Θ1 = ∅. Es ist nun eine Entscheidungsregel gesucht, für welche der beiden Zustände θ ∈ Θ0 oder θ ∈ Θ1 wir uns basierend auf einem Experiment (also Daten X = (X1 , . . . , Xn )) entscheiden sollen. Θ0 heißt Hypothese oder Null-Hypothese. Θ1 heißt Alternative. Die Formulierung Eine Entscheidungsregel, uns zwischen H0 bzw. H1 zu entscheiden, nennt man einen statistischen Test. Eine Funktion ψ : Rn → {0, 1} heißt Test für H0 gegen H1 . Wenn für den Erwartungswert der Funktion ψ gilt: E(ψ) = P(ψ = 1) ≤ α, α ∈ [0, 1], für alle θ ∈ Θ0 (also in der Null-Hypothese), so heißt ψ Niveau-α-Test. H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 H0 richtig und ψ = 0: OK! H1 richtig und ψ = 1: OK! H0 richtig und ψ = 1: Fehler 1. Art! H1 richtig und ψ = 0: Fehler 2. Art! heißt Testproblem. Esther Herberich und Matthias Schmid Fehlerarten: () Stochastik und Statistik SS 2012 11 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 51 Test und Teststatistik Ablehnungsbereich In der Regel lautet der Test ψ: Ein Test ψ ist von der Form ψ(X) = I (T (X) ∈ C) Rn Die Funktion T : → R heißt Teststatistik und die Menge C heißt kritische Region (Ablehnungsbereich) des Tests. Der kritische Bereich kann so bestimmt werden, dass ψ ein Niveau-α-Test ist. Es gilt: () Stochastik und Statistik SS 2012 falls große Werte von T (X) gegen H0 sprechen. ψ(X) = I (T (X) < cα ) falls kleine Werte von T (X) gegen H0 sprechen. ψ(X) = I (T (X) < cα/2 oder T (X) > c1−α/2 ) falls große und kleine Werte von T (X) gegen H0 sprechen. Die Schranken sind die Quantile der Verteilung von T (X) wenn θ ∈ Θ0 . c1−α : 1 − α-Quantil. cα : α-Quantil cα/2 : α/2-Quantil c1−α/2 : 1 − α/2-Quantil E0 (ψ(X) = 1) = P0 (ψ(X) = 1) = I (T (X) ∈ C) ≤ α. Esther Herberich und Matthias Schmid ψ(X) = I (T (X) > c1−α ) 13 / 51 Beispiel: Faire Münze Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 51 Likelihood-Quotienten-Tests H0 : π = 1 1 vs. H1 : π 6= 2 2 Teststatistik T (x) = x; lehne die Null-Hypothese ab, wenn x zu groß oder zu klein ist (zweiseitiger Test). Der Ausgang unseres Experimentes sei x = 7 bei n = 10. Wir bestimmen jetzt das α/2-Quantil und das 1 − α/2-Quantil der Verteilung von T (x) unter H0 , also der Verteilung B(n, 0.5) für α = 0.05: > qbinom(0.05/2, size = 10, prob = 0.5) Eine formale Möglichkeit, Teststatistiken zu konstruieren, ist die Anwendung des Likelihood-Quotienten-Prinzips: Der Quotient max L(θ) Θ0 max L(θ) Θ = max L(θ) Θ0 L(θ̂ML ) heißt Likelihood-Quotient und steht in engem Zusammenhang zur normierten (Log)-Likelihoodfunktion. [1] 2 > qbinom(1 - 0.05/2, size = 10, prob = 0.5) [1] 8 Damit können wir H0 nicht ablehnen, da x = 7 weder zu klein (kleiner 2) noch zu groß (größer 8) ist. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 51 Die normierte Likelihoodfunktion Likelihood-Intervalle Den Wert der (Log-) Likelihoodfunktion L(θ) bzw. l(θ) am ML-Schätzer kann man nicht interpretieren. Daher verwendet man gerne die normierte (Log-) Likelihoodfunktion: Zur Bestimmung von Konfidenzintervallen muss man nun entscheiden, welche Werte von l̃(θ) zu “unplausibel” sind. Man kann unter bestimmten Annahmen zeigen, dass für einen bestimmten Schwellenwert c = c(α) L̃(θ) = L(θ) {θ : l̃(θ) ≥ c} L(θ̂ML ) bzw. {θ : L̃(θ) ≥ exp(c)} l̃(θ) = l(θ) − l(θ̂ML ) ein Konfidenzintervall für θ (Likelihood-Intervall) zum approximativen Niveau 1 − α ist. Interpretation: Bei hypothetischer Wiederholung des zugrundeliegenden Zufallsexperiments überdecken die so konstruierten Likelihood-Intervalle in ungefähr (1 − α) · 100% aller Fälle den unbekannten Parameter θ. Es gilt: 0 ≤ L̃(θ) ≤ 1 und −∞ ≤ l̃(θ) ≤ 0 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 51 Likelihood-Intervalle II () Stochastik und Statistik SS 2012 18 / 51 Beispiel: Binomialverteilung Die Werte von c sind folgender Tabelle zu entnehmen: 1−α 0.9 0.95 0.99 c −1.33 −1.92 −3.32 Sei X ∼ B(n, π) mit n = 10 und x = 7. Damit erhält man als ML-Schätzer: π̂ML = 0.7 exp(c) 0.259 0.147 0.036 Die Bestimmung von Likelihood-Intervallen ist nur numerisch möglich, dort aber einfach durchzuführen. Likelihood-Intervalle sind (wie der ML-Schätzer) invariant bzgl. monotonen Transformationen des Parameters. Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 51 1 − α Likelihood-Intervall für π 0.9 [0.44; 0.89] 0.95 [0.39; 0.92] 0.99 [0.30; 0.95] Beachte: Die Konfidenzintervalle sind i.A. nicht symmetrisch um π̂ML . Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 51 0.8 1.0 0.4 0.6 0.8 1.0 1.0 0.6 ~ L(π) 0.4 0.0 0.2 0.4 0.6 1.0 0.4 0.6 0.8 1.0 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 51 1.0 0.8 ~ L(π) 0.4 0.2 0.2 0.4 0.6 0.8 1.0 Linien verdeutlichen Likelihood-Intervalle zu unterschiedlichen Niveaus. α = 0.1 α = 0.05 α = 0.01 −3 −4 −5.0 ~ l (π) −4.5 −2 −1 −4.0 0 −3.5 π −5 −5.5 −2 ~ l (π) −4 0.75 0.80 0.55 0.60 0.65 0.70 0.75 0.80 0.85 π Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 51 α = 0.1 α = 0.05 α = 0.01 π Man kann mit Hilfe einer Taylorreihendarstellung um θ̂ML zeigen, dass die normierte Loglikelihoodfunktion l̃(θ) approximativ eine quadratische Funktion ist: 1 l̃(θ) ≈ · l 00 (θ̂ML ) · (θ − θ̂ML )2 2 Hier ist l 00 (θ̂ML ) (= l̃ 00 (θ̂ML )!) die zweite Ableitung (die Krümmung) von l(θ), ausgewertet am ML-Schätzer. Beachte: Die quadratische Approximation wird umso besser, je mehr Daten der Likelihood zugrundeliegen. −6 −6.0 0.70 Quadratische Approximation der Log-Likelihood 0.0 1.0 Linien verdeutlichen Likelihood-Intervalle zu unterschiedlichen Niveaus. Likelihood (oben links), normierte Likelihood (oben rechts), Loglikelihood (unten links) und normierte Loglikelihood (unten rechts) 0.6 0.020 L(π) 0.010 0.000 0.8 0.65 π Beispiel: Binomialverteilung (n = 1000, x = 700) 0.6 1.0 −6 0.60 π Likelihood (oben links), normierte Likelihood (oben rechts), Loglikelihood (unten links) und normierte Loglikelihood (unten rechts) 0.4 0.8 −5 −5.0 −6.0 0.2 π 0.2 0.6 α = 0.1 α = 0.05 α = 0.01 −1 −3.0 −4.0 l(π) −2 −4 0.8 0.4 π −5 −6 0.6 0.2 0 Linien verdeutlichen Likelihood-Intervalle zu unterschiedlichen Niveaus. −3 ~ l (π) −3 −4 −5 0.8 π α = 0.1 α = 0.05 α = 0.01 −1 −2 0 π −6 0.4 l(π) 0.2 0.02 0.00 0.2 π −3 0.6 α = 0.1 α = 0.05 α = 0.01 0.8 0.08 0.06 L(π) ~ L(π) 0.4 0.2 0.0 0.4 0.04 0.6 0.20 0.15 L(π) 0.10 0.05 0.00 0.2 l(π) Beispiel: Binomialverteilung (n = 100, x = 70) α = 0.1 α = 0.05 α = 0.01 0.8 0.25 1.0 Beispiel: Binomialverteilung (n = 10, x = 7) 0.67 0.68 0.69 0.70 0.71 0.72 0.73 π 0.66 0.68 0.70 0.72 0.74 π Likelihood (oben links), normierte Likelihood (oben rechts), Loglikelihood (unten links) und normierte Loglikelihood (unten rechts) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 51 Beispiel: Binomialverteilung Der Standardfehler 0 0 −6 −5 −4 −3 −2 −1 (70, 100) −6 −5 −4 −3 −2 −1 (7, 10) 0.6 0.8 1.0 0.55 0.70 0.75 (700, 1000) (7000, 10000) 0 0.68 0.65 π −6 −5 −4 −3 −2 −1 0.66 0.60 π 0 0.4 −6 −5 −4 −3 −2 −1 0.2 Durch Einsetzen der quadratischen Approximation für l̃(θ) in 0.70 0.72 0.74 0.80 {θ : l̃(θ) ≥ c} 0.85 erhält man θ̂ML ± 0.685 0.690 0.695 0.700 0.705 0.710 −2c · rh i−1 −l 00 (θ̂ML ) als Konfidenzintervall (Wald-Intervall) zum approximativen Niveau 1 − α. Daher definiert man den Standardfehler (“Standard Error”) als rh i 0.715 Vergleich der normierten Loglikelihood mit der quadratischen Approximation für X ∼ B(n, π): π √ π SE (θ̂ML ) := −l 00 (θ̂ML ) −1 n = 10, X = 7 (oben links), n = 100, X = 70 (oben rechts), n = 1000, X = 700 (unten links) und n = 10000, X = 7000 (unten rechts) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 51 Wald-Intervalle () Stochastik und Statistik SS 2012 26 / 51 Standardfehler Das Wald-Intervall zum Niveau 1 − α ist also: Der Standardfehler des ML-Schätzers rh θ̂ML ± d · SE (θ̂ML ) SE (θ̂ML ) := Die Werte von d sind folgender Tabelle zu entnehmen: √ c d = −2c 1−α 0.9 −1.33 1.65 0.95 −1.92 1.96 0.99 −3.32 2.58 Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 i−1 −l 00 (θ̂ML ) kann als Schätzung der Standardabweichung des ML-Schätzers (im frequentistischen Sinne) angesehen werden. h i−1 Ebenso ist −l 00 (θ̂ML ) eine Schätzung der Varianz des ML-Schätzers. 27 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 51 Eigenschaften von Wald-Intervallen Beispiel: Binomialverteilung Wald-Intervalle sind immer symmetrisch um den ML-Schätzer; Invarianzeigenschaft geht verloren Es ergibt sich Wald-Intervalle sind einfacher zu berechnen als Likelihood-Intervalle, haben aber (leicht) schlechtere theoretische Eigenschaften im Beispiel (nächste Folie): offensichtliches Problem für 1 − α = 0.99: obere Grenze ist größer als 1! SE (π̂ML ) = Beispiel: () Stochastik und Statistik SS 2012 29 / 51 6.2 Erwartungstreue 1−α 0.9 0.95 0.99 () Stochastik und Statistik SS 2012 30 / 51 Die Erwartungstreue ist nicht invariant bzgl. monotonen Transformationen! Das heißt, ist θ̂ erwartungstreu für θ, so ist g (θ̂) im Allgemeinen nicht erwartungstreu für g (θ). Die Existenz von erwartungstreuen Schätzern ist nicht gesichert. Erwartungstreue Schätzer sind nicht notwendigerweise Element des Parameterraums Θ. Die relative Häufigkeit π̂ = X /n ist ein erwartungstreuer Schätzer der Wahrscheinlichkeit π im Binomialverteilungsmodell. (Herleitung in Vorlesung) Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid Wald-Intervall [0.46; 0.94] [0.42; 0.98] [0.33; 1.07] Bemerkungen zur Erwartungstreue Eine wünschenswerte Eigenschaft von Punktschätzern (im frequentistischen Sinne) ist die Erwartungstreue: Ein Schätzer θ̂ (als Funktion der zufälligen Stichprobe X ) heißt erwartungstreu oder unverzerrt für einen unbekannten Parameter θ, falls gilt: E (θ̂) = θ Beispiel: π̂ML (1 − π̂ML ) n Für X = 7 und n = 10 ergibt sich: SE (π̂ML ) = 0.145 ; Tabelle mit Wald-Intervallen: für n groß werden Wald-Intervalle Likelihood-Intervallen immer ähnlicher Esther Herberich und Matthias Schmid r () Stochastik und Statistik SS 2012 ML-Schätzer sind nicht immer erwartungstreu, zumindest aber asymptotisch erwartungstreu, d.h. für wachsenden Stichprobenumfang im Grenzwert erwartungstreu. 31 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 51 Beispiel: Taxis in Lübeck I Beispiel: Taxis in Lübeck II Alle Taxis in Lübeck seien von 1, . . . , N durchnummeriert. Ein Besucher sieht an einem Taxistand n = 3 Taxis und fragt nach deren Nummern: Die Likelihoodfunktion ist Y = {Y1 , . . . , Yn } Wie kann er daraus einen erwartungstreuen Schätzer für θ = N berechnen? Betrachte X = max(Y ). Man kann zeigen (Vorlesung), dass N̂ = n+1 max(Y ) − 1 n L(N) = const · (N − n)! für N = x, x + 1, . . . N! Diese wird maximiert für N = x! Das heißt der ML-Schätzer für N ist max(Y ), der kleinstmögliche Wert! ein erwartungstreuer Schätzer für N ist. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 51 6.3 Bayes-Inferenz () Stochastik und Statistik SS 2012 34 / 51 Satz von Bayes für Wahrscheinlichkeitsfunktionen Seien X und Y zwei Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion fX ,Y (x, y ) und daraus abgeleiteten Wahrscheinlichkeitsfunktionen fX (x), fY (y ), fX |Y (x|y ) und fY |X (y |x). Dann gilt für alle x und alle y mit f (y ) > 0: alternativer Ansatz zur statistischen Inferenz basiert auf subjektivistischem Wahrscheinlichkeitskonzept unbekannter Parameter θ ist nun eine Zufallsvariable, versehen mit einer Wahrscheinlichkeitsfunktion f (θ) fX |Y (x|y ) = () Stochastik und Statistik SS 2012 fY |X (y |x)fX (x) fY |X (y |x)fX (x) =P fY (y ) x fY |X (y |x)fX (x) Dies folgt direkt aus der Definition der bedingten Wahrscheinlichkeitsfunktion. wir können zunächst nur diskrete Parameter behandeln Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid 35 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 51 Bayes-Inferenz Beispiel: Posteriori-Verteilung im Binomialexperiment Sei X = x eine Beobachtung eines Zufallsexperiments, das von einem unbekannten Parameter θ ∈ Θ abhängt, wobei Θ abzählbar sei. Dann gilt mit dem Satz von Bayes für Wahrscheinlichkeitsfunktionen: Angenommen wir interessieren uns für den Parameter θ = π, nehmen aber an, dass nur Werte in Π = {0.00, 0.02, 0.04, . . . , 0.98, 1.00} erlaubt sind. Als Priori-Verteilung f (π) können wir z.B. eine Gleichverteilung auf den 51 Elementen von Π wählen, also f (π) = 1/51 für alle π ∈ Π. Nach der Beobachtung X = x aus einer B(n, π)-Verteilung ergibt sich die Posteriori-Verteilung f (θ|x) = Beachte: f (x|θ)f (θ) f (x|θ)f (θ) =P f (x) θ f (x|θ)f (θ) f (x|π)f (π) f (π|x) = P π f (x|π)f (π) Da X = x beobachtet wurde, muss automatisch P(X = x) > 0 gelten. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 51 Beispiel: Binomialverteilung (n = 5) 0.4 0.6 1.0 0.0 0.2 0.4 0.6 0.8 0.12 1.0 ●● ●●●●●●●● ●● ●● ●● ●● ●● ●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●●●● ●●● 0.0 0.2 0.4 0.6 0.4 0.6 0.8 π 1.0 Posteriori Priori ●● ●● ●●●●● ● ● ● ●● ● ●● ● ●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ● ●● ●● ●● ●●●●●●●●●●●●● ●●● ● 0.0 0.2 0.4 0.6 0.8 1.0 Wähle z.B. 1.0 ● ● Posteriori ● Priori ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●● ●●●● 0.0 0.2 π 0.4 0.6 0.8 1.0 Bemerkung: C ist so gewählt, dass π Posteriori-Verteilung im Binomialexperiment für X ∼ B(5, π) bei Priori-Gleichverteilung. Esther Herberich und Matthias Schmid () Stochastik und Statistik 1 {26 − 25 · |2 · π − 1|} C für π ∈ {0.00, 0.02, 0.04, . . . , 0.98, 1.00} und C = ● 0.08 ● Dichte Dichte ●●●●●● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ●● ●● ●● ●● ● ●●● ●●●●●●● ●● ● 0.8 f (π) = 0.12 X=5 0.12 X=4 Posteriori Priori 38 / 51 Idee: favorisiere Werte von π nahe bei 0.5 Posteriori Priori 0.08 Dichte ●● ● ●● ●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ● ●● ●● ●● ●●● ●●●●●●●●●●●●● ● 0.04 ●● X=3 ● 0.2 ●●●●●● ● π ● 0.0 ●● ● π 0.08 0.04 Dichte 0.8 ● ● π 0.12 0.2 0.00 ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ●● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●● 0.0 0.00 0.12 ● 0.04 ● 0.00 ● Posteriori Priori 0.00 ● ● 0.08 ● SS 2012 X=2 ● 0.08 0.04 Dichte ● 0.04 0.08 ● ● 0.00 Dichte ● Posteriori Priori 0.04 ● () Stochastik und Statistik Eine Dreiecksverteilung als Priori-Verteilung X=1 ● 0.00 0.12 X=0 ● Esther Herberich und Matthias Schmid SS 2012 39 / 51 Esther Herberich und Matthias Schmid P π 1 676 . f (π) = 1 gilt. () Stochastik und Statistik SS 2012 40 / 51 Beispiel: Binomialverteilung (n = 5) ●● ●● ●● 0.2 ●● ●●● ●●● ● ●● ● ● ● ●● ●●● ● ●● ● ●● 0.4 ●● ●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●● ●●● ●●●●●●●●●●●●●●●● 0.6 0.8 ● ● ●● 1.0 0.0 ● ● ● ● ●● ●● ● ●● ● ●● ●● ● ●● ● ●●● ●●● ● ● 0.2 ● ● ● ● ●● ● ●● ● ● 0.4 ●● ●● ●● ● ●● ●● ●● ●● ●● 0.08 ●● ●● ●● ●● ●●●●●●●●●●●● 0.8 1.0 ● ●● ●●● ●● ● ●● ●● ●● ● ● ●●●● ● 0.0 ● ● ● ●●●● ● ● ●● ●● ● ● ●● ● ● ● ●● ●●● ● ●● ● ●●● ●●●● ●● ● ●● ●● ● ●● ● ●● ● ●● ●● ●● ●● ●● ●● ●●●●●● ●● 0.2 0.4 0.6 0.6 0.8 0.08 0.04 Dichte ● ● ● ●●●●●● ● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ●● ●● ●● ●● ● ●●●●●●●●●●●● ●● 1.0 0.0 π 0.2 0.4 0.8 θ∈Θ 1.0 Posteriori-Modus θ̂Mod = arg max f (θ|x) X=5 Posteriori Priori ● ● ●● Als Punktschätzer bietet sich nun ein Lageparameter der Posteriori-Verteilung an, z.B. der P Posteriori-Erwartungswert θ̂Erw = E (θ|x) = θf (θ|x) Posteriori Priori ● π ● 0.02 ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ●● ●● ●● ● ●● ●● ●● ●● ● ●● ●● ●●● ●● ●● ● ●● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ● ●● ● ● ● ●● ● ●●● ●●●●●●● ●● 0.4 ● 0.06 Posteriori Priori 0.00 0.08 0.04 0.00 0.02 Dichte 0.06 ● 0.2 ●● ● X=4 ● 0.0 ● ● π X=3 ●●● ● ● 0.6 π ● ●● ● 0.06 0.06 ●● ● 0.04 ● Dichte ● ●● ● 0.02 ●● ● 0.00 ●● 0.0 ● ●● ● ● ●●● ●● ●● ●● ●●● ● ●● 0.6 ●● ● ● ● ● ● ● ●● ● ●● ●● ●● 0.08 ● ● ● ● ● ●● ● ● ●● ● ●●● ● 0.8 ●● ●● ● 1.0 ● ● 0.06 ● ● 0.04 ● Dichte ● ● ●●● ● ● ●● ● 0.02 ● 0.00 ● Dichte ●●●● ● 0.02 ● X=2 Posteriori Priori ● 0.00 0.04 0.00 0.02 Dichte 0.06 ● ● Posteriori Priori 0.04 ● 0.08 X=1 0.08 X=0 Bayesianische Punktschätzer ● ●● ● ●● ●●● ●● ● ● ● ● ● ● ●● θ∈Θ Posteriori Priori ●●●● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ●● ● ●● ●● ● ●● ●● ● ● ●● ●● ●● ●● ●● ● ●● ●● ●● ●● ●● ●● ●● ●● ● ● ●●●●●●●●●●●●●●●●● ●● 0.0 0.2 0.4 π 0.6 0.8 Posteriori-Median θ̂Med = min{θ ∈ Θ : F (θ|x) ≥ 0.5} wobei F (θ|x) die Verteilungsfunktion der Posteriori-Verteilung mit Wahrscheinlichkeitsfunktion f (θ|x) ist. 1.0 π Posteriori-Verteilung im Binomialexperiment für X ∼ B(5, π) bei Priori-Dreiecksverteilung. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 42 / 51 Posteriori-Modus bei Priori-Gleichverteilung Bayesianische Punktschätzer im Beispiel Bei Priori-Gleichverteilung ist der Posteriori-Modus θ̂Mod gleich dem ML-Schätzer θ̂ML , da Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sich folgende Punktschätzer bei Beobachtung von X = x Erfolgen bei n = 5 Versuchen: f (x|θ)f (θ) f (x|θ) f (θ|x) = P =P θ f (x|θ)f (θ) θ f (x|θ) P Da der Nenner θ f (x|θ) nicht von θ abhängt, folgt: x 0.00 1.00 2.00 3.00 4.00 5.00 θ̂Mod = arg max f (θ|x) = arg max f (x|θ) = θ̂ML θ∈Θ Esther Herberich und Matthias Schmid θ∈Θ () Stochastik und Statistik SS 2012 43 / 51 Erwartungswert G D 0.13 0.23 0.29 0.35 0.43 0.45 0.57 0.55 0.71 0.65 0.87 0.77 Esther Herberich und Matthias Schmid Modus G D 0.00 0.16 0.20 0.32 0.40 0.50 0.60 0.50 0.80 0.68 1.00 0.84 () Stochastik und Statistik Median G D 0.10 0.22 0.26 0.34 0.42 0.46 0.58 0.54 0.74 0.66 0.90 0.78 SS 2012 44 / 51 Bayesianische Intervallschätzer Berechnung von HPD-Regionen Prinzipiell ist jede Teilmenge A des Trägers Θ, für die gilt X f (θ|x) ≥ 1 − α 1 θ∈A eine Kredibilitätsregion (bzw. -intervall) zum Niveau 1 − α. 2 Zusätzlich kann man noch fordern, dass für alle θ1 ∈ A und θ2 ∈ Θ \ A gelten muss: f (θ1 |x) ≥ f (θ2 |x) Sortiere die Werte der Posteriori-Verteilung f (θ|x) der Größe nach (absteigend). Summiere die Werte kumulativ auf (Funktion cumsum() in R), bis die Summe größer als das Niveau 1 − α ist. ⇒ Die entsprechenden Werte von θ definieren dann eine HPD-Region. ⇒ “highest posterior density region” (HPD-Region) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 51 HPD-Regionen im Beispiel Beispiel: Capture-Recapture-Experiment Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sich folgende 95% HPD-Regionen bei Beobachtung von X = x Erfolgen bei n = 5 Versuchen: Betrachte den unbekannten Parameter θ = N als diskrete ZV mit Träger x 0 1 2 3 4 5 Esther Herberich und Matthias Schmid 95% HPD-Region für π G D [0.00;0.36] [0.00;0.46] [0.02;0.56] [0.08;0.60] [0.12;0.74] [0.18;0.72] [0.26;0.88] [0.28;0.82] [0.44;0.98] [0.40;0.92] [0.64;1.00] [0.54;1.00] () Stochastik und Statistik T = {M, M + 1, . . . , Ymax } Beachte: Vor der Beobachtung X = x (bei bekanntem n!) weiss man nur, dass mindestens M Fische im See schwimmen. Lege nun eine Priori-Verteilung fest, z.B. eine Gleichverteilung f (N) für N ∈ T SS 2012 47 / 51 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 51 Posteriori-Verteilung im Capture-Recapture-Experiment Graphische Darstellung der Posteriori-Verteilung Berechne Posteriori-Wahrscheinlichkeitsfunktion: Priori-Verteilung: f (x|N)f (N) f (x|N)f (N) =P f (x) N f (x|N)f (N) f (N|x) = Gleichverteilung Beachte: Erst nach der Beobachtung X = x weiss man, dass mindestens M + n − x Fische im See schwimmen, da die Likelihood f (x|N) = 0 ist für x < M + n − N, also für N < M + n − x. Weiterhin muss n ≤ N gelten. Also hat die Posteriori-Verteilung f (θ|x) den Träger T = {max(M + n − x, n), max(M + n − x, n) + 1, . . . , Ymax } Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 51 Beispiel Priori 0.010 0.020 Priori Verteilung 0.000 ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● 0 50 100 150 200 250 N Mod Erw ● ● ● ● ● ● ●● ●●● ●● ● ● ● Med ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.010 Posteriori 0.020 Posteriori Verteilung Bei der Posteriori-Verteilung werden folgende Punktschätzer durch Linien verdeutlicht. Die 95%-HPD-Region stellen die äußeren Linien dar. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.000 ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 0 50 ● ● ● 100 150 ●●● ●●● ●●●● ●●●● ●●●●● ●●●●●● ●●●●●●●● ●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● 200 ●●●●●●●●●●●●●●●●●●●●●●●●●● 250 N Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 51 Berechnet: I Modus, I Median und I Erwartungswert der Posteriori-Verteilung und die HPD-Region, die hier ein Intervall ist. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 51 7. Markov-Ketten 7.1 Definition und Eigenschaften von Markov-Ketten Benannt nach Andrei A. Markov [1856-1922] Einige Stichworte: Sei X = (X0 , X1 , X2 , . . .) eine Folge von diskreten Zufallsvariablen, die alle Ausprägungen in einer endlichen bzw. abzählbaren Menge S haben. S heißt der Zustandsraum und s ∈ S ein Zustand. X heißt Markov-Kette (MK), falls Markov-Ketten I Definition I Eigenschaften I Konvergenz P(Xn = s|X0 = x0 , X1 = x1 , . . . , Xn−1 = xn−1 ) = P(Xn = s|Xn−1 = xn−1 ) Hidden Markov Modelle I Motivation und Inferenz I Baum-Welch-Algorithmus I Viterbi-Algorithmus Esther Herberich und Matthias Schmid () Stochastik und Statistik für alle n ≥ 1 und alle s, x0 , x1 , . . . , xn−1 ∈ S. SS 2012 1 / 55 Interpretation Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 55 Bedingt unabhängige Zufallsvariablen Bedingt auf die gesamte Vergangenheit X0 , X1 , . . . , Xn−1 des Prozesses X hängt Xn nur vom letzten Wert Xn−1 ab. Darstellung mit Pfeilen in einem graphischen Modell: X0 → X1 → X2 → . . . → Xn−1 → Xn fX ,Y |Z (x, y |z) = fX |Z (x|z) · fY |Z (y |z) Anders ausgedrückt: Bedingt auf die Gegenwart (Xn−1 ) ist die Zukunft des Prozesses (Xn , Xn+1 , . . .) unabhängig von seiner Vergangenheit (X0 , X1 , . . . , Xn−2 ). → Begriff der bedingten Unabhängigkeit Esther Herberich und Matthias Schmid Zwei diskrete Zufallsvariablen X und Y heißen bedingt unabhängig gegeben Z , wenn für die entsprechend definierten Wahrscheinlichkeitsfunktionen gilt: () Stochastik und Statistik SS 2012 3 / 55 für alle x, y und z. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 55 Übergangswahrscheinlichkeiten Die Übergangsmatrix Die Entwicklung einer Markov-Kette X ist gekennzeichnet durch die (Ein-Schritt) Übergangswahrscheinlichkeiten Die Werte pij werden in einer |S| × |S|-Matrix P zusammengefasst, der sogenannten Übergangsmatrix. P beschreibt also die Kurzzeitentwicklung einer homogenen Markov-Kette X. P ist eine stochastische Matrix, d.h. sie hat folgende Eigenschaften: P(Xn+1 = j|Xn = i) für alle i, j ∈ S. Man nennt eine Markov-Kette homogen, wenn diese nicht von n abhängen und definiert 1 2 pij = P(Xn+1 = j|Xn = i) = P(X1 = j|X0 = i) pij ≥ 0 P j pij = 1 für alle i, j ∈ S für alle i ∈ S ⇒ “Zeilensummen gleich eins” für alle n ≥ 1 und alle i, j ∈ S. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 55 Beispiele 1.Beispiel: 2.Beispiel: Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 55 Die n-Schritt-Übergangsmatrix Telephon besetzt / frei mit S = {0, 1} und 0.9 0.1 P= 0.4 0.6 Die Langzeitentwicklung einer Markov-Kette X ist durch die n-SchrittÜbergangsmatrix P(m, m + n) mit Elementen Der Zustandsraum umfasst die vier Basen der DNA (Adenin, Cytosin, Guanin, Thymin): S = {A, C , G , T }. Die geschätzte Übergangsmatrix beim “Ablaufen” der DNA ist 0.300 0.205 0.285 0.210 0.322 0.298 0.078 0.302 P= 0.248 0.246 0.298 0.208 0.177 0.239 0.292 0.292 pij (m, m + n) = P(Xm+n = j|Xm = i) bzw. pij (n) = P(Xn = j|X0 = i) gegeben, wobei die letzte Gleichung für homogene Markov-Ketten gilt. In diesem Fall ergibt sich natürlich P(m, m + 1) = P und wir schreiben Pn = P(m, m + n). Durbin et al. (1998) “Biological sequence analysis”, p. 50 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 55 Die Chapman-Kolmogorov-Gleichungen Fortsetzung des 1. Beispiels Für eine homogene Markov-Kette X gilt: X pij (m, m + n + r ) = pik (m, m + n)pkj (m + n, m + n + r ) (1) Zwei-Schritt-Übergangsmatrix: 0.9 0.1 0.9 0.1 0.85 0.15 2 P2 = P = = 0.4 0.6 0.4 0.6 0.6 0.4 k P(m, m + n + r ) = P(m, m + n)P(m + n, m + n + r ) Pn = P(m, m + n) = Pn (2) (3) Dabei ist (2) nur (1) in Matrizenform und (3) folgt durch Iteration. Pn bezeichnet die n-te Potenz von P. Beweis zu (1) in Vorlesung. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Zum Beispiel ist also der Eintrag p21 (2) in P2 gleich p21 (2) = P(Xn+2 = 1|Xn = 2) = P(Xn+1 = 2|Xn = 2) · P(Xn+2 = 1|Xn+1 = 2) + P(Xn+1 = 1|Xn = 2) · P(Xn+2 = 1|Xn+1 = 1) = 0.6 · 0.4 + 0.4 · 0.9 = 0.6 9 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 55 Die Zeit bis zum Zustandswechsel Die Anfangsverteilung Eine Markov-Kette X mit Übergangsmatrix P sei zu einem Zeitpunkt t im Zustand i ∈ S. Dann ist die Dauer bis zum nächsten Zustandswechsel Zi geometrisch verteilt mit Parameter 1 − pii . Vergleiche: Gedächtnislosigkeit der geometrischen Verteilung: Schließlich hat jede Markov-Kette auch eine Anfangsverteilung für X0 . Die entsprechende Wahrscheinlichkeitsfunktion bezeichnet man mit dem Zeilenvektor µ(0) mit Elementen µ(m+n) = µ(m) · Pn Nützliche Eigenschaft zum Test auf Modellanpassung: Vergleich der beobachteten und theoretischen Dauern bis zum nächsten Zustandswechsel. () Stochastik und Statistik SS 2012 = P(X0 = i). Die (unbedingte) Wahrscheinlichkeitsfunktion von Xn fasst man entsprechend in dem Zeilenvektor µ(n) zusammen und es gilt: P(Zi = n + k|Zi > n) = P(Zi = k) Esther Herberich und Matthias Schmid (0) µi (n) µ 11 / 55 Esther Herberich und Matthias Schmid (0) = µ und daher n ·P () Stochastik und Statistik SS 2012 12 / 55 Folgerung Beispiel: Inzucht Durch µ(0) und P ist also die Entwicklung einer Markov-Kette vollständig bestimmt. Die gemeinsame Wahrscheinlichkeitsverteilung (wichtig für Likelihood-Inferenz!) von X0 , . . . , Xn ist gegeben durch Eine Pflanze mit Genotyp aus S = {aa, ab, bb} wird mit sich selbst gekreuzt. Die Zufallsvariable Xn gibt den Genotyp in der n-ten Generation an. Daher: 1 0 0 P = 14 21 14 0 0 1 1 0 0 1 0 0 n→∞ 1 n 1 1 n+1 Pn = 12 − 12 n+1 −→ 12 0 21 2 2 − 2 0 0 1 0 0 1 P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = P(X0 = x0 ) n Y (0) = µx0 n Y P(Xt = xt |Xt−1 = xt−1 ) t=1 pxt−1 ,xt t=1 Esther Herberich und Matthias Schmid ⇒ Letztendlich bleiben nur die Genotypen aa und bb übrig, die sich dann deterministisch reproduzieren. () Stochastik und Statistik SS 2012 13 / 55 Beispiel: Genhäufigkeit in Population konstanter Größe N Xn = i: Anzahl der Individuen einer Population mit bestimmtem Genotyp zum Zeitpunkt n Einfaches Modell: Zu jedem Zeitpunkt stirbt ein zufällig ausgewähltes Mitglied. Das “nachrückende” Mitglied hat den Genotyp mit Wahrscheinlichkeit Ni . ; pij = Beachte: i(N−i) N2 1 − 2 i(N−i) N2 0 für j = i ± 1 für j = i SS 2012 14 / 55 Beispiel: Modelle für Epidemien → Verzweigungsprozesse Für λ < 1 wird die Epidemie mit Wahrscheinlichkeit 1 irgendwann aussterben. sonst () Stochastik und Statistik () Stochastik und Statistik Xn := Anzahl der Infizierten in einer Generation n S = {0, 1, . . .} Idee: Jeder Infizierte“erzeugt”(unabhängig von den anderen) eine zufällige Anzahl Infizierter in der nächsten Generation mit Erwartungswert λ. Die Anzahl könnte z.B. Poissonverteilt sein. Dann ist Xn |Xn−1 ∼ P(λ · Xn−1 ). Theorem: P ist “tridiagonal”. Formulierung beinhaltet Grenzfälle Xn = 0 und Xn = N. Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid SS 2012 Für λ > 1 ist die Wahrscheinlichkeit, dass die Epidemie explodiert, echt größer 0. 15 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 55 7.2 Klassifikation von Zuständen und Markov-Ketten Beispiel Ein Zustand i ∈ S heißt rekurrent oder auch persistent, falls für die Rekurrenzzeit Ti = min{n : Xn = i|X0 = i} gilt Betrachte den Poisson-Verzweigungsprozess Xn |Xn−1 ∼ P(λ · Xn−1 ) P(Ti < ∞) = 1 Wenn P(Ti < ∞) < 1 heißt der Zustand transient. Eine Markov-Kette X kehrt also in einen rekurrenten Zustand mit Wahrscheinlichkeit 1 zurück. Ein Zustand i heißt absorbierend, falls dieser nicht mehr verlassen werden kann, also pii = 1. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 55 Dann ist der Zustand 0 rekurrent, ja sogar absorbierend, da X diesen Zustand nie verläßt. Alle anderen Zustände sind transient. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Die erwartete Rekurrenzzeit Zusammenhang zu den Übergangswahrscheinlichkeiten Man definiert die erwartete Rekurrenzzeit eines Zustands i wie folgt: P n nfi (n) falls i rekurrent ist µi = E (Ti ) = ∞ falls i transient ist Ein rekurrenter Zustand i ist genau dann leer, wenn pii (n) → 0 für n → ∞ mit fi (n) = P(X1 6= i, ..., Xn−1 6= i, Xn = i|X0 = i). Ein rekurrenter Zustand i heißt nicht-leer, falls seine erwartete Rekurrenzzeit endlich ist. Ansonsten heißt er leer. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 55 19 / 55 Dann gilt sogar pji (n) → 0 für n → ∞ für alle j ∈ S Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 55 Die Periode Beispiel Die Periode eines Zustandes i ist der größte gemeinsame Teiler der Menge Eine Markov-Kette habe die folgende 0 0 P= 1 {n : pii (n) > 0} Man nennt den Zustand i periodisch, falls dessen Periode größer eins ist, ansonsten heißt i aperiodisch. Haben alle Zustände einer Markov-Kette Periode 1, so heißt sie aperiodisch. Ein Zustand i heißt ergodisch, falls er rekurrent nicht-leer und aperiodisch ist. Sind alle Zustände von X ergodisch, so heißt X ergodisch. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 55 Übergangsmatrix: 1 0 0 1 0 0 Es gilt nun: jeder Zustand hat Periode 3 die Markov-Kette ist nicht aperiodisch Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Irreduzible Zustände Beispiele Zwei Zustände i 6= j einer Markov-Kette X kommunizieren miteinander, falls fij > 0 und fji > 0 (Schreibweise: i ↔ j) mit Markov-Ketten mit reduziblem Zustandsraum S 1 1 1 0 2 2 3 P1 = 12 12 0 P2 = 13 0 0 1 0 fij = = ∞ X n=1 ∞ X fij (n) Im folgenden Beispiel ist S irreduzibel: 1 P(X1 6= j, X2 6= j, . . . , Xn−1 6= j, Xn = j|X0 = i) n=1 P3 = Ein Zustand i kommuniziert per definitionem immer mit sich selber: i ↔ i Eine Menge C ⊂ S heißt irreduzibel, falls i ↔ j für alle i, j ∈ C . Eine Menge C ⊂ S heißt geschlossen, falls pij = 0 für alle i ∈ C und j ∈ C̄ . Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 55 3 1 3 0 Esther Herberich und Matthias Schmid 1 3 1 3 1 2 1 3 1 3 1 2 () Stochastik und Statistik 1 3 1 3 0 1 3 1 3 22 / 55 1 SS 2012 24 / 55 Der Zerlegungssatz Beispiel Eine Markov-Kette mit Zustandsraum S = {1, 2, 3, 4, 5, 6} habe die Übergangsmatrix 0.5 0.5 0 0 0 0 0.25 0.75 0 0 0 0 0.25 0.25 0.25 0.25 0 0 P= 0.25 0 0.25 0.25 0 0.25 0 0 0 0 0.5 0.5 0 0 0 0 0.5 0.5 Der Zustandsraum S einer Markov-Kette X lässt sich zerlegen in 1 eine Menge T mit transienten Zuständen 2 Mengen Ck , die irreduzibel und geschlossen sind ⇒ S = T ∪ C1 ∪ C2 ∪ . . . Ferner gilt folgendes Lemma: Man bestimme: Wenn S endlich ist, dann ist mindestens ein Zustand rekurrent und alle rekurrenten Zustände sind nicht-leer. die Periode jedes Zustands die Zerlegung des Zustandsraumes transiente Zustände ergodische Zustände Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 55 7.3 Die stationäre Verteilung und das Grenzwerttheorem Esther Herberich und Matthias Schmid π · P2 = (πP)P = πP = π Oft wählt man für die Anfangsverteilung µ0 die stationäre Verteilung, d.h. µ0 = π. Im Folgenden betrachten wir ausschließlich irreduzible Markov-Ketten, d.h. Markov-Ketten mit irreduziblem Zustandsraum S. π =π·P () Stochastik und Statistik 26 / 55 Interpretation der stationären Verteilung i Esther Herberich und Matthias Schmid SS 2012 Hat die Markov-Kette X die Verteilung π zu einem gewissen Zeitpunkt n, dann auch im nächsten Zeitpunkt n + 1 und sogar in allen nachfolgenden Zeitpunkten i = n + 2, n + 3, . . . Betrachte z.B. i = n + 2: Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Einträgen (πj : j ∈ S) heißt stationäre Verteilung einer Markov-Kette X mit Übergangsmatrix P, falls gilt: X πj = πi pij oder in Matrixnotation: () Stochastik und Statistik SS 2012 27 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 55 Satz über die stationäre Verteilung Bestimmung der stationären Verteilung bei |S| = 2 Eine irreduzible Markov-Ketten hat eine stationäre Verteilung π genau dann, wenn alle Zustände nicht-leer rekurrent sind. Dann ist π eindeutig und gegeben durch Stationäre Verteilung und Übergangsmatrix haben bei Markov-Ketten mit zwei Zuständen folgende allgemeine Formen: 1 − p12 p12 π = (π1 , 1 − π1 ) P= p21 1 − p21 πi = 1/µi Die erste Spalte der Gleichung π = π · P ist wobei µi die erwartete Rekurrenzzeit des Zustands i ist. Unter diesen Voraussetzungen gilt bei endlichem Zustandsraum: π1 = π1 − π1 · p12 + p21 − π1 · p21 −1 π = 1(I − P + U) wobei I die Einheitsmatrix und 1 ein Zeilenvektor mit Einsen ist und U nur Elemente gleich eins hat. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 55 Beispiel p21 p12 und π2 = p12 + p21 p12 + p21 Die zweite Spalte ergibt die gleiche Lösung. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 55 Reversible Markov-Ketten Wie lautet die stationäre Verteilung für die Markov-Kette mit folgender Übergangsmatrix: 0.9 0.1 P= 0.4 0.6 Sei X = (X0 , . . . , XN ) eine reguläre Markov-Kette mit Übergangsmatrix P und stationärer Verteilung π, die X auch zu jedem Zeitpunkt n = 0, . . . , N besitze. Definiere nun Y = (XN , . . . , X0 ) mit Yn = XN−n . Dann ist Y auch eine Markov-Kette mit Übergangswahrscheinlichkeiten Mit der eben bestimmten Formel erhält man: 0.4 0.1 , = (0.8 , 0.2) π = (π1 , π2 ) = 0.5 0.5 Die erwarteten Rekurrenzzeiten sind demnach µ1 = 5/4 für Zustand 1 und µ2 = 5 für Zustand 2. Wie verhält es sich bei 0 P= 0 1 Esther Herberich und Matthias Schmid ⇒ π1 = 1 0 0 P(Yn+1 = j|Yn = i) = (πj /πi )pji 0 1 ? 0 () Stochastik und Statistik SS 2012 31 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 55 Reversible Markov-Ketten II Beispiele für reversible Markov-Ketten 1 Man sagt nun X ist reversibel, falls X und Y identische Übergangswahrscheinlichkeiten haben, d.h. falls 2 πi pij = πj pji für alle i, j ∈ S gilt. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 55 Satz über die stationäre Verteilung i Markov-Ketten mit tri-diagonaler Übergangsmatrix P sind reversibel, z.B. I der random walk auf endlichem Zustandsraum S = {0, 1, . . . , b} I der Prozess aus Beispiel 2 (Stichwort: Genhäufigkeit) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 55 Das Grenzwerttheorem Sei X eine irreduzible Markov-Kette mit Übergangsmatrix P. Ferner gebe es eine Verteilung π mit πi pij = πj pji für alle i, j ∈ S. Dann ist π die stationäre Verteilung und X ist bzgl. π reversibel. Beweis: X X X πi pij = πj pji = πj pji = πj i Alle irreduziblen Markov-Ketten mit zwei Zuständen sind reversibel (Beweis in Vorlesung). i Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre stationäre Verteilung π pij (n) −→ πj = µ−1 j bzw. für n → ∞ und alle i Pn = Pn −→ ··· ··· .. . ··· π ··· π ··· .. .. . . π ··· Daher gilt µ(0) Pn −→ π für alle µ(0) . Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 55 Ein Gegenbeispiel 7.4 Inferenz für Markov-Ketten Schätzung der Übergangswahrscheinlichkeiten Eine Markov-Kette X mit Übergangsmatrix 0 1 0 P= 0 0 1 1 0 0 Test auf Modellanpassung Allgemeinere Markov-Modelle: hat zwar die stationäre Verteilung π = (1/3, 1/3, 1/3), konvergiert aber nicht gegen diese, da die Kette periodisch ist. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 55 Schätzung der Übergangswahrscheinlichkeiten I Markov-Ketten höherer Ordnung I Hidden-Markov Modelle Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 55 ML-Schätzung der Übergangswahrscheinlichkeiten Grundlage: Realisation X0 = x0 , X1 = x1 , . . . , XN = xN einer Markov-Kette X. Die Likelihood ist somit (vergleiche Folie S. 13) Ziel: Schätzung der Übergangswahrscheinlichkeiten basierend auf einer (oder mehrerer) Realisationen einer Markov-Kette X. Es erscheint plausibel, die Übergangswahrscheinlichkeiten pij durch die entsprechenden Übergangshäufigkeiten p̂ij = (0) L(P) = µx0 nij ni () Stochastik und Statistik (0) pxt−1 ,xt = µx0 t=1 zu schätzen, wobei P nij die Anzahl der beobachteten Übergänge von i nach j ist und ni = j nij . Im Folgenden zeigen wir, dass dies auch die ML-Schätzer sind. Esther Herberich und Matthias Schmid n Y SS 2012 39 / 55 Y i,j n pij ij wobei nij die Anzahl der beobachteten Übergänge von i nach j ist. Die Log-Likelihood ist dann X (0) l(P) = log(µx0 ) + nij log(pij ) i,j Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 55 ML-Schätzung der Übergangswahrscheinlichkeiten II Es sind mehrerer Parameter in θ = P durch Maximierung der Log-Likelihood l(P) zu schätzen, wobei noch die Restriktion X pij = 1 Die partiellen Ableitungen nach pij sind somit nij dl ∗ (P) = − λi pij pij j Nullsetzen liefert nij = λi pij . Durch Summation über j folgt X λi = nij = ni für alle i zu berücksichtigen ist. ⇒ Lagrangesche Multiplikatorenmethode: Maximiere j X X X (0) l ∗ (P) = log(µx0 ) + nij log(pij ) − λi pij − 1 Esther Herberich und Matthias Schmid () Stochastik und Statistik i j SS 2012 41 / 55 Beispiel: Regen bei den Snoqualmie Wasserfällen Esther Herberich und Matthias Schmid SS 2012 42 / 55 Verweildauer im Zustand 1 (Regen) 400 600 500 Verweildauer im Zustand 0 (kein Regen) Haeufigkeit 400 Haeufigkeit 300 100 100 200 Es ergibt sich n0 = 6229 (Tage ohne Regen) und n1 = 6920. Übergangsmatrix mit relativen Übergangshäufigkeiten (ML-Schätzer): 0.713 0.287 P̂ = 0.258 0.742 0 2 4 6theoretisch empirisch 8 0 Zeit bis zum Zustandswechsel 2 4 6theoretisch empirisch 8 Zeit bis zum Zustandswechsel Theoretische (schwarz) und empirische (rot) Verweildauern in den beiden Zuständen. Frage: Passt sich das Markov-Modell den Daten gut an? → Betrachtung der “Verweildauern” (Wartezeiten bis zum nächsten Zustandswechsel) SS 2012 () Stochastik und Statistik 500 Der Zustandsraum ist S = {0, 1} mit 0 : Kein Regen am Tag t = 1, . . . , N 1 : Regen () Stochastik und Statistik nij . ni Verweildauern bei den Snoqualmie Wasserfällen Über eine Zeitreihe von N = 13149 Tagen wurde an den Snoqualmie Wasserfällen registriert, ob es am jeweiligen Tag geregnet hat oder nicht. Erstellung eines Markov-Modells: Esther Herberich und Matthias Schmid p̂ij = 300 i,j und schließlich 200 Problem: ML-Schätzung der Übergangswahrscheinlichkeiten III 43 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 55 Markov-Ketten höherer Ordnung Strukturelle Nullen Zum Beispiel Markov-Kette zweiter Ordnung: Im Beispiel ergibt sich: Die Regenwahrscheinlichkeit hängt nun von den letzten zwei Tagen ab. Die Übergangswahrscheinlichkeiten sind 00 P= 01 10 11 P(Xn = s|Xn−1 = xn−1 , Xn−2 = xn−2 ). Diese Markov-Kette kann auch als Markov-Kette erster Ordnung dargestellt werden, indem man den Zustandsraum zu S = {00, 01, 10, 11} erweitert, wobei der erste Eintrag xn−2 und der zweite Eintrag xn−1 darstellt. → In der Übergangsmatrix ergeben sich dann strukturelle Nullen. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 55 Regen bei den Snoqualmie Wasserfällen 00 P̂ = 01 10 11 0 0.749 0.277 0.624 0.252 1 0.251 0.723 0.376 0.748 () Stochastik und Statistik Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 55 Mischverteilungsmodell mit zusätzlichem Zeitreihencharakter Anwendungen in verschiedenen Bereichen: Alternativer Ansatz: Hidden Markov-Modell Esther Herberich und Matthias Schmid da z.B. auf Xn−2 = 0 und Xn−1 = 0 nicht Xn−1 = 1 und Xn = 0 folgen kann etc. → die Anzahl der Spalten kann reduziert werden 7.5 Hidden Markov Modelle Mit reduzierten Spalten ergibt sich im Beispiel 00 01 10 11 0 0 0 0 0 0 0 0 SS 2012 47 / 55 I Ökonometrie, I Genetik (DNA-Sequenzierung, Stammbaumanalyse), I Spracherkennung, ... Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 55 Das Modell Beispiel: Ein verrauschtes binäres Signal Latente Parameter X = (X1 , . . . , XN ) folgen einer (homogenen) Markov-Kette mit diskretem Zustandsraum S: Daten: y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2) Übergangsmatrix P mit pij = P(Xt = j|Xt−1 = i) Anfangsverteilung π mit πi = P(X0 = i) (oft impliziert durch π = πP) |S| = 2 N = 20 Die Beobachtungen yt |xt = s sind bedingt unabhängig aus einer Verteilung mit Wahrscheinlichkeitsfunktion fs (yt ) mit Parametern θ s . Beispielsweise: diskret mit Missklassifizierungswahrscheinlichkeiten ps () Stochastik und Statistik P= 0.75 0.25 0.25 0.75 π= 0.5 0.5 f (yt = 1|xt = 1) = 0.8 f (yt = 1|xt = 2) = 0.2 f (yt = 2|xt = 1) = 0.2 f (yt = 2|xt = 2) = 0.8 Ziel der statistischen Inferenz: Restauration der Sequenz X Poisson mit Raten λs Esther Herberich und Matthias Schmid SS 2012 49 / 55 Inferenz bei festen Hyperparametern Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 55 Posteriori-Modus Schätzung Hyperparameter: P, π, θ fest Viterbi-Algorithmus [Viterbi (1967)] Ziel: Schätzung der latenten Zustände x = (x1 , . . . , xN ) Posteriori-Verteilung f (x|y) = f (x, y)/f (y) mit: f (x|y) ∝ f (x, y) = πx1 | N Y pxt−1 xt · t=2 {z f (x) N Y fxt (yt ) } t=1 | {z f (y|x) } I Rekursiver Algorithmus zur Maximierung von f (x, y) bzgl. x I liefert (einen) MAP-(posteriori Modus)-Schätzer von f (x|y) ∝ f (x, y) I Algorithmus ist numerisch effizient: O(|S|2 · N) Simulated annealing [Kirkpatrick, Gelatt & Vecchi (1983)] Problem: Es gibt S N (!) unterschiedliche Sequenzen x. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 55 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 55 Rekonstruktion des verrauschten binären Signals Inferenz bei unbekannten Hyperparametern Das empfangene Signal war Seinen nun bestimmte Hyperparameter θ unbekannt, wie beispielsweise die Übergangsmatrix P oder die Verteilung f (yi |xi ). y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2) Daraus kann man Schätzer für das zugrundeliegende Signal x berechnen: post. Wkeit P(x|y) Schätzer von x x̂MAP 1 = x̂MAP 2 = x̂MPM = y= (2 (2 (2 (2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 1 2 1 1 2 2 2 2 2 2 2 2 2) 2) 2) 2) x 0.0304 0.0304 0.0135 0.0027 Bayesianische Ansätze verwenden zusätzliche priori-Verteilungen f (θ) und simulieren aus der posteriori-Verteilung Hierbei bezeichnet x̂MPM den marginalen Posteriori Modus, d.h. jedes xi , i = 1, . . . , 20, in x̂MPM hat marginale Posteriori-Wahrscheinlichkeit P(xi |y) > 0.5. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 53 / 55 Beispiel zur Likelihood-Inferenz 1.0 Seinen nun die Einträge der Übergangsmatrix P unbekannt. Die marginale Likelihood L(p11 , p22 ) der Diagonalelemente p11 und p22 ist in folgender Graphik dargestellt. Die ML-Schätzungen sind p̂11 = 0.85 und p̂22 = 0.78. 2e−07 4e−07 6 p22 0.6 0.8 1.4e−0 0.4 1.2e−06 1e−06 0.2 07 4e 0.0 0.0 2e− −0 7 0.2 8e−07 6e−0 7 0.4 0.6 0.8 1.0 p11 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Klassische Likelihood-Ansätze maximieren die (marginale) Likelihood L(θ) = f (y|θ) bezüglich θ, z.B. mit dem Baum-Welch-Algorithmus, der einen Spezialfall des EM-Algorithmus darstellt. P Problem: Berechnung von f (y|θ) = f (x, y|θ) 55 / 55 f (x, θ|y) ∝ f (x, y|θ) · f (θ) mit Markov-Ketten Monte Carlo (MCMC) Verfahren. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 54 / 55 8. Stetige Zufallsvariablen Idee: 8.1 Definition von stetigen Zufallsvariablen Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt, so dass sich die Verteilungsfunktion F (x) = P(X ≤ x) von X wie folgt darstellen lässt: Z x f (u) du F (x) = Eine Zufallsvariable X ist stetig, falls ihr Träger eine überabzählbare Teilmenge der reellen Zahlen R ist. Beispiel: Glücksrad mit stetigem Wertebereich [0, 2π] −∞ Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz: Dichte oder Dichtefunktion) von X. Der Träger T von X ist die Menge aller Elemente x ∈ R für die f (x) > 0 gilt. Beachte den Unterschied zu diskreten Zufallsvariablen! Hier gilt: X F (x) = f (xi ) Von Interesse ist die Zufallsvariable, die den exakten Winkel angibt, an dem das Glücksrad stehen bleibt. i:xi ≤x Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 65 Einige Folgerungen Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 65 Beispiel: Die stetige Gleichverteilung P(X = x) = 0 Z P(X ∈ [a, b]) = a +∞ Z f (x) dx Eine Zufallsvariable X heißt stetig gleichverteilt auf dem Intervall [a, b], falls ihre Dichtefunktion die folgende Form hat: ( 1 für x ∈ [a, b] b−a f (x) = 0 sonst für alle x ∈ R b f (x) dx Der Träger von X ist also T = [a, b]. Die Verteilungsfunktion F (x) von X ergibt sich zu x <a 0 x−a x ∈ [a, b] F (x) = b−a 1 x >b = 1 −∞ Man schreibt kurz: X ∼ U(a, b) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 65 Eigenschaften der Verteilungsfunktion 1.0 1 0.8 x→∞ 2 An allen Stetigkeitsstellen von f (x) gilt: F 0 (x) = f (x) 2 ● 3 P(a ≤ X ≤ b) = F (b) − F (a) 3 4 5 6 0.0 0.2 0.05 0.00 ● 2 3 4 5 6 Dichtefunktion (links) und Verteilungsfunktion (rechts) der stetigen Gleichverteilung für a = 2 und b = 6 Funktionen in R: dunif(...) berechnet die Dichtefunktion punif(...) berechnet die Verteilungsfunktion qunif(...) berechnet die Quantilsfunktion runif(...) erzeugt Zufallszahlen x Esther Herberich und Matthias Schmid x () Stochastik und Statistik SS 2012 4 5 / 65 Allgemeine Definition von stetigen ZVn Frage: lim F (x) = 0 und lim F (x) = 1 x→−∞ 0.4 0.10 f(x) F(x) 0.6 ● 0.20 ● 0.15 0.25 Beispiel: Die stetige Gleichverteilung II P(X > a) = 1 − F (a) etc. Esther Herberich und Matthias Schmid 6 / 65 SS 2012 8 / 65 Für eine σ-Algebra σ(F) muss gelten: B überhaupt sinnvoll? Sei F die Mengenfamilie aller offenen Intervalle in R. Dann gibt es eine sogenannte σ-Algebra (eine spezielle Mengenfamilie) σ(F), die F enthält. 1 ∅ und Ω ∈ σ(F) 2 Für A, B ∈ σ(F) ist auch B \ A ∈ σ(F). 3 Für A1 , A2 , . . . ∈ σ(F) ist auch I ∞ S n=1 I ∞ T n=1 () Stochastik und Statistik SS 2012 σ-Algebren Für welche Mengen B ist die Aussage Z P(X ∈ B) = f (x)dx Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 65 An ∈ σ(F) und An ∈ σ(F). Esther Herberich und Matthias Schmid () Stochastik und Statistik Axiome von Kolmogorov 8.2 Wichtige stetige Verteilungen Ein Wahrscheinlichkeitsmaß P auf Ω wird nun mittels σ(F) definiert: Für alle paarweise disjunkten Mengen A1 , A2 , . . . ∈ σ(F) soll gelten (vgl. Axiom A3, Abschnitt 2.3): Im Folgenden werden wir nun wichtige stetige Verteilungen kennenlernen. Stetige Verteilungen hängen wie diskrete Verteilungen von einem oder mehreren Parametern ab. Zur Charakterisierung werden wir meist die Dichtefunktion und den Träger angeben. Eine Verteilung haben wir schon kennengelernt, die stetige Gleichverteilung mit Parametern a ∈ R und b ∈ R (a < b). Sie hat die Dichtefunktion 1 f (x) = b−a P(An ) n=1 Ferner müssen natürlich auch A1 und A2 erfüllt sein: P(∅) = 0 P(Ω) = 1 SS 2012 9 / 65 Die Exponentialverteilung Esther Herberich und Matthias Schmid 10 / 65 1.0 0.8 0.8 F(x) 0.6 0.6 f(x) λ = 0.9 λ = 0.5 λ = 0.3 0.2 besitzt. Die Verteilungsfunktion ergibt sich zu 1 − exp(−λx) für x ≥ 0 F (x) = 0 für x < 0 0.0 Notation: X ∼ E(λ) 0 λ = 0.9 λ = 0.5 λ = 0.3 2 4 6 8 10 0 x 2 4 6 8 10 x Dichtefunktion (links) und Verteilungsfunktion (rechts) der Exponentialverteilung mit verschiedenen Raten Funktionen in R: dexp(), etc. () Stochastik und Statistik SS 2012 Die Exponentialverteilung II Eine stetige Zufallsvariable X mit positivem Träger T = R+ heißt exponentialverteilt mit Parameter λ ∈ R+ , wenn sie die Dichte λ exp(−λx) für x ≥ 0 f (x) = 0 sonst Esther Herberich und Matthias Schmid () Stochastik und Statistik 0.4 () Stochastik und Statistik 0.2 Esther Herberich und Matthias Schmid und den Träger T = [a, b]. 0.0 = ∞ X 0.4 P(∪∞ n=1 An ) SS 2012 11 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 65 4 Die Gammaverteilung ist eine Verallgemeinerung der Exponentialverteilung. Sie hat auch den positiven Träger T = R+ , aber einen Parameter mehr: Eine stetige Zufallsvariable X heißt gammaverteilt mit Parametern α ∈ R+ und β ∈ R+ (Notation: X ∼ G(α, β) ), falls sie die Dichte ( α β x α−1 exp(−βx) für x > 0 Γ(α) f (x) = 0 sonst F(x) 0.6 3 0.4 0.2 0.0 0.4 0.6 SS 2012 13 / 65 Für α = d/2 mit d ∈ N und β = 12 ergibt sich die sogenannte χ2 -Verteilung mit d Freiheitsgraden. 0.0 0.2 0.4 0.6 0.8 1.0 x Esther Herberich und Matthias Schmid () Stochastik und Statistik R SS 2012 14 / 65 f (u)du = 1? Verwendung der Substitutionsregel: Z Z 0 ˜ f (g (x)) · g (x) dx = f˜(z) dz mit g (x) = β · x: Notation: X ∼ χ2 (d) f (x) = Funktionen in R: Gammaverteilung: dgamma(x, shape = α, rate = β), etc. χ -Verteilung: 1.0 Wieso ist bei der Gammaverteilung Für α = 1 ergibt sich die Exponentialverteilung mit Parameter λ = β. 2 0.8 Dichtefunktion (links) und Verteilungsfunktion (rechts) der Gammaverteilung mit verschiedenen Werten für α und β Eigenschaften der Gammaverteilung I 0.2 x wobei Γ(x + 1) = x! für x = 0, 1, 2, . . . gilt. I 2 f(x) 1 0.0 0 () Stochastik und Statistik α, β = (2, 3) α, β = (1.2, 3) α, β = (2, 6) α, β = (1.2, 6) 0 besitzt. Hierbei ist Γ(α) die Gammafunktion Z ∞ Γ(α) = x α−1 exp(−x) dx Esther Herberich und Matthias Schmid 1.0 Die Gammaverteilung II 0.8 Die Gammaverteilung = dchisq(x, df = Freiheitsgrade), etc. = β α α−1 x exp(−βx) Γ(α) β g (x)α−1 exp(−g (x)) Γ(α) 1 g (x)α−1 exp(−g (x)) β |{z} Γ(α) g 0 (x) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 65 Die Normalverteilung Die Normalverteilung II 0.8 µ, σ = (0, 1) µ, σ = (2, 1) µ, σ = (0, 2) F(x) 0.0 0.0 hat. Für µ = 0 und σ 2 = 1 nennt man die Zufallsvariable standardnormalverteilt. Man schreibt kurz: X ∼ N (µ, σ 2 ) 0.2 0.1 0.4 0.2 f(x) 0.6 0.3 Eine Zufallsvariable X mit Träger T = R und Parametern µ ∈ R und σ 2 ∈ R+ heißt normalverteilt, falls sie die Dichtefunktion 1 (x − µ)2 1 1 exp − für x ∈ R f (x) = √ 2 σ2 2π σ 1.0 0.4 “Gaußsche Glockenkurve” −5 0 5 −6 −4 x −2 0 2 4 6 x Dichtefunktion (links) und Verteilungsfunktion (rechts) der Normalverteilung mit verschiendenen Werten für µ und σ Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik R SS 2012 Mehr zur Normalverteilung Wieso ist bei der Normalverteilung Funktionen in R: dnorm(...) pnorm(...) qnorm(...) rnorm(...) Man weiß aus der Analysis, dass für a > 0 gilt: √ Z ∞ π 2 2 exp(−a x ) dx = a −∞ berechnet die Dichtefunktion berechnet die Verteilungsfunktion berechnet die Quantilsfunktion erzeugt Zufallszahlen Beachte: Z F (x) = x −∞ f (u) du () Stochastik und Statistik f (u)du = 1? Ferner kann man leicht zeigen, dass Z Z 1 (x − µ)2 x2 exp − dx = exp − 2 dx 2 σ2 2σ ist nicht analytisch zugänglich (d.h. man findet keine Stammfunktion und braucht numerische Integration). Esther Herberich und Matthias Schmid 18 / 65 SS 2012 19 / 65 für alle µ ∈ R gilt. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 65 Γ(α)Γ(β) B(α, β) = = Γ(α + β) Esther Herberich und Matthias Schmid Z 0 1 x β−1 (1 − x) () Stochastik und Statistik dx SS 2012 0.8 4 0.6 F(x) 0.4 0.2 α, β = (2, 3) α, β = (1.2, 3) α, β = (2, 6) α, β = (1.2, 6) 0.2 0.4 0.6 0.8 1.0 0.0 x 0.2 0.4 0.6 0.8 1.0 x Dichtefunktion (links) und Verteilungsfunktion (rechts) der Betaverteilung mit verschiedenen Werten für α und β 21 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 65 8.3 Lageparameter von stetigen Zufallsvariablen Für α = β = 1 erhält man die Gleichverteilung auf dem Intervall [0, 1]. Man unterscheidet wieder den Erwartungswert (existiert meistens, ist dann auch eindeutig) den Median (existiert immer, ist immer eindeutig, solange der Träger von X ein Intervall ist) Funktionen in R: dbeta(...) pbeta(...) qbeta(...) rbeta(...) 3 0.0 α−1 Die Betaverteilung III Beachte: 2 0 0 0.0 besitzt. Hierbei ist die Betafunktion B(α, β) gerade so definiert, dass die R1 Dichtefunktion die Normierungseigenschaft f (x) dx = 1 besitzt: f(x) Eine Zufallsvariable X mit Träger T = (0, 1) und Parametern α ∈ R+ und β ∈ R+ heißt betaverteilt (X ∼ Be(α, β) ), falls sie die Dichtefunktion ( 1 α−1 (1 − x)β−1 für 0 < x < 1 B(α,β) x f (x) = 0 sonst 1.0 Die Betaverteilung II 1 Die Betaverteilung berechnet Dichtefunktion berechnet Verteilungsfunktion berechnet Quantilsfunktion erzeugt Zufallszahlen Esther Herberich und Matthias Schmid () Stochastik und Statistik den Modus (existiert nicht immer, ist auch nicht immer eindeutig) Diese sind nun aber anders definiert. SS 2012 23 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 65 Der Erwartungswert von stetigen Zufallsvariablen Eigenschaften des Erwartungswertes Wir setzen hier die Existenz des Erwartungswertes voraus. Z ∞ 1 E[g (X )] = g (x)f (x) dx für eine beliebige Funktion g : R → R Der Erwartungswert einer stetigen Zufallsvariable X ist definiert als Z ∞ EX = x · f (x) dx −∞ −∞ unter der Voraussetzung, dass die Funktion x · f (x) absolut integrierbar ist: Z ∞ Z ∞ |xf (x)| dx = |x|f (x) dx < ∞ −∞ −∞ Andernfalls sagt man, der Erwartungswert von X existiert nicht bzw. ist unendlich. 2 E(a · X + b) = aE(X ) + b “Linearität” 3 E(X + Y ) = E(X ) + E(Y ) “Additivität” 4 Ist f (x) symmetrisch um einen Punkt c, d.h. f (c − x) = f (c + x) ∀x ∈ R dann ist E(X ) = c. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 65 Beispiele für Erwartungswerte stetiger Verteilungen 1 Der Erwartungswert der stetigen Gleichverteilung ist (a + b)/2. 3 Der Erwartungswert der Exponentialverteilung ist 1/λ. Beweis über partielle Integration: Z 0 Z u(x)v (x) dx = u(x)v (x) − 4 1 1 · π 1 + x2 SS 2012 26 / 65 Wir nehmen an, dass der Träger der stetigen Zufallsvariable X ein Intervall ist. Somit ist die Umkehrfunktion F −1 (p) der Verteilungsfunktion F (x) von X eindeutig definiert. Das p-Quantil der Verteilung von X ist definiert als der Wert xp für den F (x) = p gilt. Somit gilt xp = F −1 (p). Speziell erhält man für p = 0.5 den Median xMed . u 0 (x)v (x) dx Ist f (x) symmetrisch um einen Punkt c, so ist xMed = c. Beispiel: Bei einer normalverteilten Zufallsvariable X ∼ N (µ, σ 2 ) ist xMed = µ. Die Cauchy-Verteilung mit Dichtefunktion f (x) = () Stochastik und Statistik Quantile von stetigen Zufallsvariablen Der Erwartungswert der Betaverteilung ist α/(α + β). 2 Esther Herberich und Matthias Schmid für x ∈ R hat keinen (endlichen) Erwartungswert. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 65 Der Modus von stetigen Zufallsvariablen Beispiele 1 Ein Modus einer stetigen Zufallsvariable X ist ein Wert xMod , für den für alle x ∈ R gilt: f (xMod ) ≥ f (x) Der Modus ist nicht notwendigerweise eindeutig, noch muss er existieren. Der Modus der Betaverteilung ist für α > 1 und β > 1 eindeutig gleich α−1 xMod = α+β−2 2 Der Modus der Exponentialverteilung ist gleich Null. 3 Der Modus der Normalverteilung ist µ. 4 Der Modus der Gammaverteilung ist für α > 1 eindeutig gleich xMod = α−1 β Für α < 1 existieren keine Modi. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 65 Die Varianz einer stetigen Zufallsvariable Verschiebungssatz: 30 / 65 Var(X ) = E(X 2 ) − [E(X )]2 Lineare Transformationen: Für Y = a · X + b gilt: mit µ = E(X ). Die Standardabweichung ist ebenfalls wie im diskreten Fall definiert: p σ = Var(X ) SS 2012 Var(Y ) = a2 · Var(X ) Sind X und Y unabhängig, so gilt: Var(X + Y ) = Var(X ) + Var(Y ) Auch die Varianz kann nicht existieren, d.h. unendlich sein. Existiert der Erwartungswert nicht, so existiert auch die Varianz nicht. () Stochastik und Statistik SS 2012 Es gelten dieselben Eigenschaften wie im diskreten Fall: −∞ Esther Herberich und Matthias Schmid () Stochastik und Statistik Eigenschaften der Varianz Die Varianz einer stetigen Zufallsvariable definiert man analog zum diskreten Fall: Z ∞ 2 2 Var(X ) = E[X − E(X )] = E[X − µ] = (x − µ)2 f (x) dx Beachte: Esther Herberich und Matthias Schmid 31 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 65 Beispiel: Varianz der stetigen Gleichverteilung (b − a)2 12 SS 2012 33 / 65 8.4 Das Gesetz der großen Zahlen (b−a)2 12 X ∼ E(λ) 1 λ 1 λ2 Gammaverteilung X ∼ G(α, β) α β α β2 Normalverteilung X ∼ N (µ, σ 2 ) µ σ2 Betaverteilung X ∼ Be(α, β) α α+β α·β (α+β)2 (α+β+1) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 65 SS 2012 0.2 0.4 35 / 65 0.0 für n → ∞, wobei die Xi (i = 1, . . . , n) unabhängig und identisch verteilte Zufallsvariablen (engl.: iid = “independent and identically distributed”) aus einer Verteilung mit Erwartungswert µ und Varianz σ 2 sind. Es gilt: E(X̄n ) = µ und Var(X̄n ) = n1 σ 2 Daher folgt sofort für n → ∞: X̄n → µ und Var(X̄n ) → 0 ⇒ Das arithmetische Mittel konvergiert gegen den Erwartungswert. Dies funktioniert nicht bei der Cauchy-Verteilung! Arithmetisches Mittel i=1 () Stochastik und Statistik a+b 2 Beispiel: Normalverteilung Das Gesetz der großen Zahlen ist eine Aussage über das arithmetische Mittel n 1 X X̄n = Xi n Esther Herberich und Matthias Schmid X ∼ U(a, b) −0.2 () Stochastik und Statistik Var(X ) Exponentialverteilung Die Varianz wächst also quadratisch und die Standardabweichung somit linear mit der Breite b − a des Trägers. Esther Herberich und Matthias Schmid E(X ) Gleichverteilung und mit dem Verschiebungssatz ergibt sich: Var(X ) = EX 2 − (EX )2 = Symbol Name 1 b 3 − a3 E(X 2 ) = · 3 b−a −0.4 Zunächst gilt Erwartungswerte und Varianzen stetiger Verteilungen 0 2000 4000 6000 8000 10000 n Arithmetisches Mittel für 10000 standardnormalverteilte ZV Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 65 Beispiel: Cauchyverteilung 8.5 Der Transformationssatz für Dichten 0 −2 −4 −6 Arithmetisches Mittel 2 4 Sei X eine stetige Zufallsvariable mit Dichte fX (x). Betrachte nun die Zufallsvariable Y = g (X ), wobei z.B. Y = exp(X ), Y = X 2 , . . . Frage: Wie lautet die Dichte fY (y ) von Y ? Für eine streng monotone und differenzierbare Funktion g gilt der Transformationssatz für Dichten: −1 dg (y ) −1 fY (y ) = fX (g (y )) · dy | {z } −8 g −1 0 (y ) 0 2000 4000 6000 8000 10000 Beweis über die Verteilungsfunktion FY (y ) von Y in der Vorlesung. n Arithmetisches Mittel für 10000 cauchyverteilte ZV Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 65 Beispiel: Das Quadrat einer Standardnormalverteilung Beispiel: Erzeugung exponentialverteilter Zufallsvariablen Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1)? Betrachte zunächst Z = |X |. Z hat offensichtlich die Dichte Betrachte X ∼ U[0, 1] und Y = − log(X ), also g (x) = − log(X ). Die Umkehrfunktion und deren Ableitung lauten: 2 1 f (z) = √ exp(− z 2 ) für z > 0 und 0 sonst 2 2π g −1 (y ) = exp(−y ) Durch Anwendung des Transformationssatzes für Dichten erhält man: Nun ist X 2 = Y = Z 2 = g (Z ) und g monoton wachsend auf dem √ Wertebereich R+ . Es ergibt sich (y = z 2 ⇔ z = y ) f (y ) = fY (y ) = 1 · |− exp(−y )| = exp(−y ) 1 1 1 √ y − 2 · exp(− y ) 2 2π Dies entspricht der Dichte einer G(0.5, 0.5), also einer χ2 -Verteilung mit 1 Freiheitsgrad: Y = X 2 ∼ χ21 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 dg −1 (y ) = − exp(−y ) dy 39 / 65 Es gilt: Y ∼ E(λ = 1)! Dies ist also eine einfache Art, exponentialverteilte Zufallsvariablen zu erzeugen! Allgemeiner liefert Y = − λ1 log(x) Zufallszahlen aus einer Exponential- verteilung mit Parameter λ : Esther Herberich und Matthias Schmid Y ∼ E(λ) () Stochastik und Statistik SS 2012 40 / 65 Die Inversions-Methode Beispiel: Zufallszahlen aus der Cauchy-Verteilung Allgemeiner kann man die Inversions-Methode zur Erzeugung von Zufallszahlen aus einer beliebigen stetigen Verteilung mit Verteilungsfunktion F (x) verwenden: Dichte- und Verteilungsfunktion der Cauchy-Verteilung sind: f (x) = Erzeuge stetig gleichverteilte Zufallsvariablen U1 , . . . , Un auf dem Intervall [0, 1]. Dann sind Xi = F −1 (Ui ), i = 1, . . . , n fX (x) = fU (F (x)) · F 0 (x) = f (x) | {z } | {z } f (x) () Stochastik und Statistik SS 2012 41 / 65 8.6 Der zentrale Grenzwertsatz Esther Herberich und Matthias Schmid () Stochastik und Statistik 42 / 65 Jede Zufallsvariable X mit endlichem Erwartungswert µ = E(X ) und endlicher Varianz σ 2 = Var(X ) kann man derart linear transformieren, dass sie Erwartungswert 0 und Varianz 1 besitzt: X̃ = Begründet die zentrale Rolle der Normalverteilung in der Stochastik. Zunächst müssen wir noch standardisierte Zufallsvariablen definieren. Var(X̃ ) = SS 2012 43 / 65 X −µ σ Dann gilt: E(X̃ ) = () Stochastik und Statistik SS 2012 Standardisierte Zufallsvariablen Aussage, dass - unter Regularitätsbedingungen - das arithmetische Mittel, geeignet standardisiert, von beliebigen unabhängig und identisch verteilten Zufallsvariablen gegen die Standardnormalverteilung konvergiert. Esther Herberich und Matthias Schmid 1 arctan(x) + 2 π Zufallszahlen aus der Cauchy-Verteilung lassen sich also leicht erzeugen, indem man U1 , . . . , Un aus ∼ U[0, 1] erzeugt und tan π Ui − 12 berechnet. Beweis: Die Dichte von Xi ergibt sich zu: Esther Herberich und Matthias Schmid und F (x) = Die inverse Verteilungsfunktion ist somit: 1 −1 F (y ) = tan π y − 2 Zufallszahlen aus der gewünschten Verteilung. =1 1 1 · π 1 + x2 Esther Herberich und Matthias Schmid 1 (E(X ) − µ) = 0 σ 1 Var(X ) = 1 σ2 () Stochastik und Statistik SS 2012 44 / 65 Standardisierung von Summen von iid ZVn Der zentrale Grenzwertsatz (ZGWS) Betrachte iid Zufallsvariablen X1 , X2 , . . . , Xn mit endlichem Erwartungswert µ = E(Xi ) und endlicher Varianz σ 2 = Var(Xi ). Für die Summe Yn = X1 + X2 + . . . + Xn gilt offensichtlich: E(Yn ) = n · µ Var(Yn ) = n · σ 2 Für die standardisierte Summe Die Verteilungsfunktion Fn (z) von Zn konvergiert für n → ∞ an jeder Stelle z ∈ R gegen die Verteilungsfunktion Φ(z) der Standardnormalverteilung. Schreibweise: Fn (z) → Φ(z) für n → ∞ und alle z ∈ R a bzw. kurz Zn ∼ N (0, 1) (a = “asymptotisch”) In der Praxis kann man also die Verteilung von Zn für große n gut durch eine Standardnormalverteilung approximieren. n 1 X Xi − µ Yn − nµ =√ Zn = √ σ n·σ n i=1 gilt somit E(Zn ) = 0 und Var(Zn ) = 1. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 65 Bemerkungen Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 65 Beispiel: Bernoulliverteilung der ZGWS gilt sowohl für stetige als auch für diskrete ZV Xi Seien Xi ∼ B(π), P i = 1, . . . , n und unabhängig. Dann ist Yn = ni=1 Xi ∼ B(n, π) und asymptotisch gilt: Xi kann beliebig ”schiefe” Verteilungen haben, z.B. Y −n·π a p n ∼ N (0, 1) n · π(1 − π) Xi ∼ E(λ) bzw. Die Standardisierung ist nicht notwendig zur Formulierung des ZGWS. Alternativ kann man auch direkt Yn = X1 + . . . + Xn betrachten. Dann gilt a Yn ∼ N (n · π, n · π(1 − π)) a Yn ∼ N (n · µ, n · σ 2 ) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 65 8.7 Die gemeinsame Verteilung zweier stetiger ZVn Eigenschaften Die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen X und Y ist die Funktion Für f (x, y ) stetig gilt: F (x, y ) = P(X ≤ x und Y ≤ y ) f (x, y ) ist normiert: Alternativ kann man die gemeinsame Verteilung von X und Y auch über deren gemeinsame Dichtefunktion f (x, y ) definieren, wobei Z y Z x F (x, y ) = f (u, v ) du dv v =−∞ d 2 F (x, y ) = f (x, y ) dx dy u=−∞ Z +∞ Z +∞ −∞ −∞ f (x, y ) dx dy = 1 Bemerkung: Manchmal schreiben wir explizit FX ,Y für F und fX ,Y für f . für alle x, y ∈ R gelten muss. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 65 Randverteilung und Erwartungswert einer Funktion bzw. fY (y ) = −∞ Esther Herberich und Matthias Schmid SS 2012 50 / 65 X , Y heißen unabhängig, genau dann, wenn FX ,Y (x, y ) = FX (x) FY (y ) bzw. fX ,Y (x, y ) = fX (x) fY (y ) ∀x, y ∈ R Allgemeiner gilt: f (x, y ) dx X1 , X2 , . . . , Xn sind genau dann unabhängig, wenn gilt: Sei g : R2 → R eine reellwertige Funktion, so ist Z +∞ Z +∞ E(g (X , Y )) = g (x, y ) · f (x, y ) dx dy −∞ () Stochastik und Statistik Unabhängigkeit Die Dichten der Randverteilungen sind gegeben durch: Z +∞ fX (x) = f (x, y ) dy −∞ Z +∞ Esther Herberich und Matthias Schmid f (x1 , x2 , . . . , xn ) = f (x1 ) · f (x2 ) · . . . · f (xn ) −∞ () Stochastik und Statistik SS 2012 51 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 65 Kovarianz und Korrelation Beispiel Betrachte Man definiert analog zum diskreten Fall: die Kovarianz Cov(X , Y ) = die Korrelation ρ(X , Y ) = fX ,Y (x, y ) = E[(X − EX )(Y − EY )] √ Cov(X √,Y ) Var(X ) Var(Y ) Z Cov(X , Y ) = E(XY ) − E(X ) · E(Y ) () Stochastik und Statistik SS 2012 1 x 0 für 0≤y ≤x ≤1 sonst Die Randverteilungen von X und Y ergeben sich zu Z x 1 fX (x) = dy = 1 für 0 ≤ x ≤ 1 0 x Es gilt wieder der Verschiebungssatz für die Kovarianz: Esther Herberich und Matthias Schmid ( fY (y ) = 53 / 65 Esther Herberich und Matthias Schmid y 1 1 dx = log (1/y ) x für () Stochastik und Statistik 0≤y ≤1 SS 2012 Beispiel Die bivariate Standardnormalverteilung R1 R1 Man überprüft leicht, dass 0 f (x) dx = 1 und 0 f (y ) dy = 1 und daher Z Z f (x, y ) dy dx = 1 Die bivariate (“zweidimensionale”) Standardnormalverteilung mit Parameter ρ (|ρ| < 1) hat die Dichtefunktion 1 1 2 2 p f (x, y ) = exp − (x − 2ρxy + y ) 2 (1 − ρ2 ) 2π 1 − ρ2 Die Korrelation zwischen X und Y ergibt sich zu ρ(X , Y ) ≈ 0.65 . 54 / 65 Die Randverteilungen von X und Y sind (für jedes ρ) standard-normalverteilt. (Details in Vorlesung) Die Korrelation zwischen X und Y ist gleich ρ. Aus Unkorreliertheit von X und Y folgt hier auch die Unabhängigkeit von X und Y . Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 55 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 56 / 65 Höhenlinien der bivariaten Standardnormalverteilung Die bivariate Normalverteilung Die allgemeine bivariate Normalverteilung erhält man durch die linearen Transformationen einer bivariaten Standardnormalverteilung: ● ● ● ● ● ● ● ● ● ● 3 3 3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.02 0.04 ● ● ● ● 1 ● y 0 ● ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● X Y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 0.06 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● 0.1 ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.14 ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.18 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ●● 0.16 ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● 0.12 ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● 0.08 ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● 0.18 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.1 ● ● ● ● ● ● ● ● 0.14 ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● 0.08 ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ● 0.16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● 0.12 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● 0.22 ●● ● ● ● ● ● 0.04 ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.1 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● −2 ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● 0.14 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.12 ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.06 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 ● ● ● 0.04 ● ● ● 1 ● ● ● 0.06 0.08 ● ● ● ● ● ● ● ● ● ● y ● ● ● ● ● ● ● ● ● 0 ● ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.02 ● ● y ● ● ● ● ● −2 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.02 1 ● ● ●● ● ● ● ● ● ● ● ● ● −1 ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● −3 −3 −3 ● ● ● ● ● → µX + σ X · X → µY + σ Y · Y ● ● ● −3 −2 −1 0 1 2 3 −3 x −2 −1 0 1 2 3 −3 −2 −1 x 0 1 2 3 x Höhenlinien der Dichtefunktion der bivariaten Standardnormalverteilung mit jeweils 500 Stichproben für ρ = 0 (links), ρ = 0.7 (Mitte) und ρ = −0.5 (rechts) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 57 / 65 Insgesamt fünf Parameter: µX , µY , σX2 , σY2 , ρ Esther Herberich und Matthias Schmid () Stochastik und Statistik 8.8 Bedingte Verteilungen Bedingte Verteilungs- und Dichtefunktion Betrachte die Zufallsvariablen X und Y mit gemeinsamer Dichte fX ,Y (x, y ). Wir interessieren uns für die bedingte Verteilung von X gegeben Y = y . Problem: Es gilt P(Y = y ) = 0 für alle y . Daher ist Man geht nun anders vor und betrachtet P(X ≤ x|Y = y ) = SS 2012 58 / 65 P(X ≤ x|y ≤ Y ≤ y + dy ) = P(X ≤ x und Y = y ) P(Y = y ) ≈ nicht definiert. P(X ≤ x und y ≤ Y ≤ y + dy ) P(y ≤ Y ≤ y + dy ) Rx −∞ fX ,Y (u, y ) dy du Z = fY (y ) dy x −∞ fX ,Y (u, y ) du fY (y ) | {z } (∗) (∗) Dichtefunktion der bedingten Verteilung von X geg. Y = y Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 59 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 60 / 65 Bedingte Verteilungs- und Dichtefunktion II Beispiel Man definiert nun: Betrachten wir wieder die Zufallsvariablen X und Y mit gemeinsamer Dichte ( 1 x für 0 ≤ y ≤ x ≤ 1 fX ,Y (x, y ) = 0 sonst Die bedingte Verteilungsfunktion von X , gegeben Y = y ist Z x fX ,Y (u, y ) FX |Y (x|y ) = du fY (y ) −∞ Für die bedingten Dichten von Y , gegeben X = x ergibt sich: ( 1 x für 0 ≤ y ≤ x fY |X (y |x) = 0 sonst für alle y mit fY (y ) > 0. Die bedingte Dichte von X , gegeben Y = y ist somit fX ,Y (x, y ) fX |Y (x|y ) = fY (y ) d.h. Y |X = x ist gleichverteilt auf [0, x]. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 61 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 62 / 65 Beispiel II Simulation über bedingte Verteilungen Für die bedingten Dichten von X , gegeben Y = y ergibt sich: Bedingte Verteilungen sind sehr nützlich zum Simulieren aus gemeinsamen Verteilungen. Wegen fX |Y (x|y ) = = 1 x für y ≤ x ≤ 1 log( y1 ) ( −1/(x log(y )) für y ≤ x ≤ 1 0 fX ,Y (x, y ) = fX |Y (x|y ) · fY (y ) (1) kann man zunächst eine Zufallsvariable Y = y aus der Randverteilung fY (y ) ziehen, und dann bedingt auf Y = y eine Zufallszahl aus der bedingten Verteilung fX |Y (x|y ) ziehen. Oder andersherum: sonst fX ,Y (x, y ) = fY |X (y |x) · fX (x) (2) Im Beispiel ist Version (2) einfacher zu implementieren. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 63 / 65 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 64 / 65 Beispiel: Standardnormalverteilung Angenommen X und Y sind bivariat standardnormalverteilt. Dann ist 1 1 1 √1 2 − 2ρxy + y 2 ) exp − (x 2 2π 2 (1−ρ ) 1−ρ2 fX |Y (x|y ) = √1 exp − 1 y 2 2 2π = 1 1 1 (x − ρy )2 √ p exp − 2 (1 − ρ2 ) 2π 1 − ρ2 also X |Y = y ∼ N(ρ · y , 1 − ρ2 ) Analog erhält man Y |X = x ∼ N(ρ · x, 1 − ρ2 ) → Simulation aus der bivariaten Standardnormalverteilung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 65 / 65 9. Elemente Statistischer Inferenz II 9.1 Likelihood-Inferenz für stetige ZVn Überblick Likelihood-Inferenz lässt sich analog zu diskreten Zufallsvariablen auch bei stetigen Zufallsvariablen anwenden. Beispiel: Likelihood-Inferenz für stetige Zufallsvariablen Tests auf Modellanpassung (“goodness of fit tests”) X1 , X2 , . . . , Xn seien unabhängige Beobachtungen aus einer E(λ)-Verteilung. WiePlautet der ML-Schätzer von θ = λ und dessen Standardfehler? Für x̄ = ni=1 xni ergibt sich (Herleitung in Vorlesung): λ̂ML = 1/x̄ √ √ SE (λ̂ML ) = 1/( n x̄) = λ̂ML / n √ → 95% Wald-Intervall für λ: 1/x̄ ± 1.96 · 1/( n x̄) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 25 Wie gut ist die Approximation? SS 2012 2 / 25 Man kann zeigen, dass (unter Regularitätsbedingungen) asymptotisch (für großen Stichprobenumfang) gilt: a θ̂ML ∼ N (µ = θ, σ 2 = SE (θ̂ML )2 ) Berechnung von m Konfidenzintervallen, jeweils basierend auf n exponentialverteilten Zufallsvariablen Nach Standardisierung erhält man: Berechnung der empirischen Verteilung des ML-Schätzers und der Überdeckungshäufigkeit (Anteil der Konfidenzintervalle, die den wahren Wert beinhalten) θ̃ML = Woher kommt die offensichtlich sehr gute Approximation? () Stochastik und Statistik () Stochastik und Statistik Asymptotische Eigenschaften des ML-Schätzers Dazu wird eine Simulationsstudie mit wahrem Wert θ = λ und variierendem n durchgeführt: Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid SS 2012 θ̂ML − θ SE (θ̂ML ) a ∼ N (0, 1) D.h., der ML-Schätzer ist asymptotisch unverzerrt und normalverteilt mit Standardabweichung gleich dem Standardfehler. 3 / 25 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 25 Motivation von Wald-Intervallen Mehr zur Asymptotik des ML-Schätzers Sei xα = Φ−1 (α) das α-Quantil der Standardnormalverteilung. Dann gilt mit einer Wahrscheinlichkeit von β = 1 − α, dass θ̃ML asymptotisch im Intervall [xα/2 , x1−α/2 ] ist. Beachte: Wegen der Symmetrie der Normalverteilung ist xα/2 = −x1−α/2 Nun kann der Faktor d in der Formel Betrachte wieder exemplarisch die unabhängigen X1 , X2 , . . . , Xn aus einer E(λ)-Verteilung. Es gilt: µ = E(Xi ) = 1/λ Var(Xi ) = 1/λ2 Wir wollen nun µ = 1/λ durch Maximum Likelihood schätzen. Es ergibt sich: θ̂ML ± d · SE (θ̂ML ) für Wald-Intervalle von θ zum Niveau β (vgl. Abschnitt 6.1) motiviert werden. Es gilt d = x1−α/2 . µ̂ML = x̄ (wegen Invarianzeigenschaft) √ √ SE (µ̂ML ) = x̄/ n = µ̂ML / n (ohne Beweis) → 95% Wald-Intervall für µ: Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 25 Der ML-Schätzer als Zufallsvariable Betrachte X̄ = 1 n P Esther Herberich und Matthias Schmid √ x̄ ± 1.96 · x̄/ n () Stochastik und Statistik SS 2012 6 / 25 Konfidenzintervall basierend auf dem ZGWS Xi mit unabhängigen Xi ∼ E(λ). Es folgt: Ein 95%-Konfidenzintervall für µ basierend auf dem ZGWS ist daher √ x̄ ± 1.96 · µ/ n E(X̄ ) = µ √ Var(X̄ ) = µ2 /n = (µ/ n)2 √ d.h. der ML-Schätzer X̄ ist erwartungstreu mit Standardabweichung µ/ n. Daher gilt wegen dem zentralen Grenzwertsatz (ZGWS): a X̄ ∼ N (µ, σ 2 = µ2 /n) Problem: µ ist unbekannt und deshalb verwendet man eine “plug-in”-Schätzung von µ durch µ̂ML = x̄. Damit erhält man: √ x̄ ± 1.96 · x̄/ n Dieses Intervall ist identisch zu dem Wald-Intervall, welches auf dem Standardfehler basiert! Also: Der Standardfehler ist ein empirischer Schätzer der Standardabweichung des ML-Schätzers. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 25 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 25 Bemerkungen ML-Inferenz im H-W-Gleichgewicht exakte Analogie funktioniert nicht immer: Angenommen wir beobachten x = (x1 , x2 , x3 ) = (600, 320, 80) bei n = 1000. Ziel: √ z.B. für λ̂ML = 1/x̄ mit SE (λ̂ML ) = λ̂ML / n gilt (ohne Beweis): E(1/X̄ ) Var(1/X̄ ) = λ· = n n−1 2 ML-Schätzung des Parameters q = π1 + π2 /2 unter Annahme einer Trinomialverteilung mit Wahrscheinlichkeiten π1 = q 2 , π2 = 2q(1 − q) und π3 = (1 − q)2 (H-W-Gleichgewicht) Wir wissen: 2 λ n · (n − 2) (n − 1)2 die Analogie gilt aber zumindest asymptotisch! Die ML-Schätzer von π1 und π2 sind π̂1 = x1 /n und π̂2 = x2 /n. Wegen der Invarianzeigenschaft gilt: in folgenden Beispielen gilt die Analogie exakt: I Binomialexperiment: π̂ML = x̄ I ML-Schätzung des Parameters q im Hardy-Weinberg-Gleichgewicht (wird in den nächsten Folien skizziert) Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 q̂ML = 9 / 25 ML-Inferenz im H-W-Gleichgewicht II SS 2012 10 / 25 Für die Daten x = (x1 , x2 , x3 ) = (600, 320, 80) und n = 1000 gilt also: q̂ML = SS 2012 600 + 320/2 = 0.76 1000 Daraus lassen sich die erwarteten Anzahlen berechnen: 2 E = n · (q̂ML , 2q̂ML (1 − q̂ML ), (1 − q̂ML )2 ) = (577.6, 364.8, 57.6) Auch hier erhält man den Standardfehler durch “plug-in” des ML-Schätzers in die Formel für die Varianz des ML-Schätzers. () Stochastik und Statistik () Stochastik und Statistik ML-Inferenz im H-W-Gleichgewicht III 2 /2 Man kann zeigen, dass die zugehörige Zufallsvariable X1 +X die n 1 Varianz 2 q (1 − q) hat. Andererseits kann gezeigt werden, dass der Standardfehler von q̂ML folgenden Wert hat: r 1 SE (q̂ML ) = q̂ML (1 − q̂ML ) 2 Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid x1 + x2 /2 n 11 / 25 Frage: Ist der Unterschied zwischen erwarteten und beobachteten Anzahlen “zufällig” oder deutet er darauf hin, dass die Population nicht im H-W-Gleichgewicht ist? Diese Frage wird in Abschnitt 9.2 beantwortet. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 25 Wiederholung: Quadrat einer Standardnormalverteilung Motivation von Likelihood-Intervallen Betrachte die Taylor-Approximation der Log-Likelihood: Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1)? Es wurde berechnet, dass f (y ) = l(θ) ≈ l(θ̂ML ) − 1 1 1 √ y − 2 · exp(− y ) 2 2π a Dies entspricht der Dichte einer G(.5, .5), also einer χ2 -Verteilung mit 1 Freiheitsgrad: Y = X 2 ∼ χ21 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 25 Motivation von Likelihood-Intervallen II bzw. {θ : L̃(θ) ≥ exp(c)} Esther Herberich und Matthias Schmid L(θ̂ML ) a = −2l̃(θ) ∼ χ21 L(θ) () Stochastik und Statistik SS 2012 14 / 25 1. Ist eine Population im Hardy-Weinberg-Gleichgewicht? ergeben sich einfach durch Transformation der entsprechenden Quantile xα = F −1 (α) der χ21 -Verteilung: x1−α 2 () Stochastik und Statistik 2 log Häufig ist es von Interesse die Anpassung eines bestimmten stochastischen Modells an vorliegende Daten zu studieren. Dies ist insbesondere bei kategorialen Daten der Fall. Beispiele: {θ : l̃(θ) ≥ c} Esther Herberich und Matthias Schmid Wegen θ̃ML ∼ N (0, 1) folgt: 9.2 Modellanpassung Die kritischen Werte c in den Formeln zur Berechnung von LikelihoodIntervallen c=− 1 (θ̂ML − θ)2 1 2 = l(θ̂ML ) − θ̃ML 2 2 SE (θ̂ML ) 2 SS 2012 15 / 25 Untersuche N Individuen und berechne die empirischen Häufigkeiten der Genotypen aa, ab, bb. Die beobachtete Genotypverteilung ist z.B. x = (600, 320, 80). Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 25 Fortsetzung der Beispiele Das saturierte Modell 2. Sind zwei Variablen unabhängig? In allen drei Beispielen möchte man ein bestimmtes Modell (“Null-Modell”, “Null-Hypothese”) mit dem allgemeinen Modell (“saturiertes” Modell) unter der Annahme einer Multinomialverteilung Mp (n, π) vergleichen. Hier wird untersucht, ob es eine Abhängigkeit zwischen Geschlecht und Promotionsinteresse gibt. Die vorliegenden Daten sind: Interesse Ja Nein 5 12 6 5 11 17 ♂ ♀ 17 11 28 Beispiel Null-Modell 1 2 3 Population ist im H-W Gleichgewicht Variablen sind unabhängig Daten sind binomial verteilt Anzahl der Parameter p 1 2 1 Anzahl der Kategorien K 3 4 13 3. Im 19. Jahrhundert wurden in Sachsen Daten zur Häufigkeit von männlichen Nachkommen bei 6115 Familien mit jeweils (!) 12 Kindern erhoben: # Jungen # Familien 0 3 1 24 2 104 3 286 4 670 5 1033 6 1343 7 1112 8 829 9 478 10 181 11 45 12 7 Folgt die Verteilung einer Binomialverteilung? Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 25 Test auf Modellanpassung Esther Herberich und Matthias Schmid 600 + 320 2 1000 Beispiel 2: π̂♂ = 2 χ = Beispiel 3: π̂ = K X (Xi − Ei )2 = Ei i=1 Unter der Annahme, dass H0 wahr ist, hat χ2 eine (asymptotische) χ2 -Verteilung mit k = K − 1 − p Freiheitsgraden (mit K Anzahl der Kategorien und p Anzahl der Modellparameter). 11 28 = 0.519215 Berechnung der erwarteten Anzahl Ei an Fällen in Kategorie i unter Annahme des Null-Modells Esther Herberich und Matthias Schmid ri2 als Gesamtmaß für die Abweichung, wobei Xi die tatsächlich beobachteten Anzahlen in Kategorie i sind = 0.76 0·3 + 1·24 + ... + 12·7 6115·12 K X i=1 17 28 π̂Interesse = 18 / 25 Berechnung des Pearsonschen χ2 -Maßes ML-Schätzung der unbekannten Parameter im Null-Modell q̂ = SS 2012 Test auf Modellanpassung II Zum statistischen Testen der “Null-Hypothese” (H0 ) geht man nach folgendem Schema vor: Beispiel 1: () Stochastik und Statistik () Stochastik und Statistik SS 2012 19 / 25 Ermittelung des p-Wertes: Wahrscheinlichkeit unter H0 ein solches oder noch extremeres Resultat zu beobachten. → Berechnung über Quantile der χ2 -Verteilung mit k Freiheitsgraden Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 25 Bemerkungen Berechnung der erwarteten Anzahlen in Beispiel 1 Die χ2 -Verteilung gilt nur asymptotisch (für n → ∞). Faustregel: Unter Annahme des Hardy-Weinberg-Gleichgewichts erhält man: Es muss gelten, dass alle Ei > 1 und mindestens 80% der Ei > 5 sind. π̂1 = q̂ 2 π̂2 = 2q̂(1 − q̂) = 0.3648 Alternativ bietet sich auch die Berechnung der Devianz D an: D =2· K X Xi log i=1 Xi Ei = 0.5776 π̂3 = (1 − q̂)2 = 0.0576 Daher ergeben sich als erwartete Anzahlen bei n = 1000 Individuen: Diese besitzt unter H0 die gleiche Verteilung wie χ2 . E1 = n · π̂1 = 577.6 Unter H0 sind die χ2 -Residuen ri approximativ und asymptotisch standardnormalverteilt, d.h. Residuen mit |ri | > 2 deuten auf schlechte Modellanpassung hin. E2 = n · π̂2 = 364.8 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 E3 = n · π̂3 = 57.6 21 / 25 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 25 Berechnung der erwarteten Anzahlen in Beispiel 2 Berechnung der erwarteten Anzahlen in Beispiel 3 Unter Unabhängigkeit gilt z.B. für den Eintrag (♂, Promotionsinteresse = Ja): Hier ergeben sich unter Verwendung der Wahrscheinlichkeit P(X = x) mit x = 0, . . . , 12 17 11 π̂1 = π̂♂ · π̂Interesse = · 28 28 bei Vorliegen einer Binomialverteilung mit n = 12 und π = 0.519215 folgende erwartete Häufigkeiten: Für die erwartete Anzahl folgt: E1 = n · π̂1 = 28 · 17 · 11 17 11 · = ≈ 6.68 28 28 28 Ei = P(X = i) · 6115 Tabelle mit beobachteten und erwarteten Anzahlen: Die Werte der anderen Fälle erhält man analog (erwartete Anzahl in Ja Nein Klammern): ♂ 5 (6.68) 12 (10.32) 17 ♀ 6 (4.32) 5 (6.68) 11 11 17 28 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Xi Ei 23 / 25 0 3 0.9 Esther Herberich und Matthias Schmid 1 24 12.1 2 104 71.8 3 286 258.5 () Stochastik und Statistik ... ... ... 11 45 26.1 SS 2012 12 7 2.3 24 / 25 Vergleich von χ2 und Devianz in den 3 Beispielen Bsp. 1 2 3 χ2 15,08 1,769 110,5 Esther Herberich und Matthias Schmid K 3 4 13 p 1 2 1 k 1 1 11 p-Wert 0,0001 0,18 0 () Stochastik und Statistik D 14,36 1,765 97,0 p-Wert 0,00015 0,18 6, 66 · 10−16 SS 2012 25 / 25 10. Lineare Regression KQ-Schätzung ● Es ist eine Gerade y = β1 + β2 x gesucht, welche die Punktwolke in der Abbildung ‘bestmöglichst’ approximiert. Dazu betrachten wir eine bivariate Zufallsvariable (Y , X ) mit Beobachtungen (yi , xi ), i = 1, . . . , n und definieren den Schätzer für die Parameter der Gerade als 4.5 ● ● 4.0 y ● ● (βˆ1 , βˆ2 ) = argmin 3.5 ● ● β1 ,β2 ● n X (yi − β1 − β2 xi )2 . i=1 3.0 ● ● 0.0 0.2 0.4 0.6 0.8 1.0 x Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 30 KQ-Schätzung Esther Herberich und Matthias Schmid SS 2012 2 / 30 SS 2012 4 / 30 Zielgröße Dieser Schätzer (βˆ1 , βˆ2 ) heißt (aus offensichtlichen Gründen) Kleinster-Quadrate-Schätzer und repräsentiert diejenige Gerade durch die Punktwolke, welche den quadratischen vertikalen Abstand jeder Beobachtung zur Geraden minimiert. Andere Kriterien sind denkbar, wie etwa (βˆ1 , βˆ2 ) = argmin β1 ,β2 Esther Herberich und Matthias Schmid () Stochastik und Statistik n X Y = Y1 Y2 .. . ∈ Rn Yn |yi − β1 − β2 xi |. i=1 () Stochastik und Statistik SS 2012 3 / 30 Esther Herberich und Matthias Schmid () Stochastik und Statistik Einflussgrößen Modellparameter X = j X1j X2j .. . Die Parameter der Geraden (k = 1) bzw. Hyperebenen (k > 2) sind durch β1 β2 β = . ∈ Rk .. , j = 1, . . . , k βk Xnj welche wir in einer Matrix X = Esther Herberich und Matthias Schmid (X 1 , X 2 , . . . , X k ) () Stochastik und Statistik ∈ Rn,k gegeben und wir betrachten das Modell Y = Xβ. Gesucht ist nach dem Kriterium der Kleinsten Quadrate ein Schätzer β̂, sodass ||Y − Xβ̂||2 ≤ ||Y − Xβ||2 ∀β ∈ Rk . aggregieren. SS 2012 5 / 30 KQ-Schätzung Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 30 KQ-Schätzung ● 4.5 ● Sei der Rang von X gleich k. Dann gilt: ● β̂ = argmin ||Y − Xβ|| = (X> X)−1 X> Y y β 4.0 ● ● 3.5 ● ● ● 3.0 ● ● 0.2 0.4 0.6 0.8 x Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 30 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 30 Das Lineare Regressionsmodell Das Modell Eigenschaften gegeben sind mehrere stetige Merkmale Y , X 1 , . . . , X k Y = Xβ + U X 1 , . . . , X k verursachen Y und nicht umgekehrt P der Zusammenhang ist linear, also Yi = kj=1 βj Xij + Ui heißt lineares Regressionsmodell. Dabei ist U1 U2 U = . ∈ Rn .. Un die X -Variablen heißen unabhängige Variable, Regressoren, exogene Variable oder Design-Variable die Y -Variable heißt abhängige Variable, Regressant, endogene Variable oder Response-Variable U sind nicht beobachtbare Störgrößen. ein n-dimensionaler Zufallsvektor. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 30 Annahmen () Stochastik und Statistik SS 2012 10 / 30 Körperfettmessung Zudem treffen wir drei Annahmen: A1) X ist eine feste (nicht zufällige) n × k Matrix mit vollem Spaltenrang, also Rang(X) = k. A2) U ist ein Zufallsvektor mit E (U) = (E (U1 ), E (U2 ), . . . , E (Un ))> = 0. A3) Die Komponenten von U sind paarweise unkorreliert und haben alle die gleiche Varianz σ 2 , formal: Cov(U) = σ 2 diag(n). Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 30 Garcia et al. (2005, Obesity Research) untersuchten n = 71 Frauen und erhoben (unter anderem) k = 5 Einflussgrößen (Alter, Bauchumfang, Hüftumfang, Ellenbogenbreite und Kniebreite), um deren Einfluss auf die Zielgröße, den Körperfettanteil gemessen mittels Dual Energy X-Ray Absorptiometry (DXA), zu untersuchen. Es stellen sich folgende Fragen: Welche der unabhängigen Variablen haben tatsächlich einen Einfluss auf den Körperfettanteil? Welche haben einen positiven und welche einen negativen Einfluss? Kann man aus den unabhängigen Variablen auf den Körperfettanteil schließen? Diese Fragen können mittels eines linearen Regressionsmodells beantwortet werden. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 30 Schätzung in R 80 ● 60 ● ● 90 ● ● 40 DEXfat ●● ● ● ● ● ● ● ● ● 30 40 ● ● ● ● ● ● ● ● 20 ● 100 110 5.5 ● ● ● ● 40 50 age Esther Herberich und Matthias Schmid 60 ● 100 110 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 6.0 ● ● ● ● ● ● 6.5 ● ● 120 130 hipcirc () Stochastik und Statistik ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● 8 ● ● 9 10 age 0.0638 waistcirc 0.3204 hipcirc elbowbreadth 0.4340 -0.3012 7.0 was äquivalent (aber numerisch stabiler ist) zu 60 ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ●●●● ● ● ● ● 90 (Intercept) -59.5732 kneebreadth 1.6538 ● ● ● ● 50 ● ● ● DEXfat ● ●● 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 30 40 DEXfat ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● 20 ● ● ● 10 10 30 60 50 ● ● ● ● ●● ● ● ●● ● ● ● ● 20 ● ● ● elbowbreadth ● ● 30 40 30 ● ● ● 10 ● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● 20 60 50 ● ● DEXfat ● ● ● waistcirc ● ● ● ● ● ● > bodyfat_lm <- lm(DEXfat ~ age + waistcirc + hipcirc + + elbowbreadth + kneebreadth, data = bodyfat) > round(coef(bodyfat_lm), 4) ● 10 DEXfat 20 10 70 ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 50 ● 50 60 ● ● 30 40 30 10 20 DEXfat 50 60 Körperfettmessung ● ● ● > + > > > ● ● ● ● ● ● X <- bodyfat[,c("age", "waistcirc", "hipcirc", "elbowbreadth", "kneebreadth")] X <- cbind(1, as.matrix(X)) Y <- bodyfat$DEXfat round(drop(tcrossprod(solve(crossprod(X, X)), X) %*% Y), 4) 11 -59.5732 kneebreadth 1.6538 kneebreadth SS 2012 13 / 30 Eigenschaften der KQ-Methode age 0.0638 Esther Herberich und Matthias Schmid waistcirc 0.3204 () Stochastik und Statistik hipcirc elbowbreadth 0.4340 -0.3012 SS 2012 14 / 30 SS 2012 16 / 30 Eigenschaften der KQ-Methode Unter A1, A2 und A3 ist β̂ ein erwartungstreuer Schätzer für β mit Kovarianzmatrix Cov(β̂) = σ 2 (X> X)−1 . Sei Y ∈ Rn ein beliebiger Zufallsvektor mit E (Y ) = (E (Y1 ), . . . , E (Yn ))> und Var(Y1 ) Cov(Y1 , Y2 ) Cov(Y2 , Y1 ) Var(Y2 ) Cov(Y2 , Y3 ) Cov(Y ) = .. . . . . . . . Es gilt 1 Cov(Y ) is positiv semidefinit 2 E (AY ) = AE (Y ) 3 Cov(AY ) = ACov(Y )A> Var(Yn ) mit Cov(Y ) = Cov(Y )> = E ((Y − E (Y ))(Y − E (Y ))> ). Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 30 Esther Herberich und Matthias Schmid () Stochastik und Statistik Lineare Funktionen Optimalität der KQ-Methode Unter Umständen sind wir an Linearkombinationen des Parametervektors β interessiert (welche auch ‘Kontraste’ genannt werden). Sei c ∈ Rk ein Vektor von Konstanten. Dann ist c > β̂ eine erwartungstreue Schätzung von c > β mit Kovarianzmatrix σ 2 c > (X> X)−1 c. Ein Schätzer β̃ heißt linear, wenn eine Matrix C ∈ Rk,n existiert, sodass β̃ = CY . Gauß-Markov-Theorem: Unter A1-A3 gilt: 1 2 β̂ ist der beste lineare erwartungstreue Schätzer (BLUE) für β, d.h. Cov(β̂) ≤ Cov(β̃) im Sinne der Löwner-Halbordnung (d.h. Cov(β̃) − Cov(β̂) psd). BLUE ist eindeutig. Desweiteren: Unter A1-A3 ist c > β̂ der BLUE für c > β. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 30 Prognose mit KQ () Stochastik und Statistik SS 2012 18 / 30 Körperfettmessung Gegeben sei Y und X 1 , . . . , X k mit Beobachtungen (yi , xi = (xi1 , . . . , xik )), i = 1, . . . , n sowie xn+1 . Gesucht sei yn+1 . Bekannt > β+U ist, dass Yn+1 = xn+1 n+1 . Da die Störgrößen U nicht beobachtbar sind, jedoch per Annahme einen Erwartungswert gleich 0 haben, schätzen > β̂. wir Ŷn+1 = xn+1 Es gilt: Unter A1-A3 ist E (Ŷn+1 − Yn+1 ) = 0. Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 30 Für die 45jährige Emma mit Baumumfang 90cm, Hüftumfang 110cm, Ellenbogenbreite 7cm und Kniebreite 10cm ist der vorhergesagte Körperfettanteil > emma <- c(intercept = 1, age = 45, waistcirn = 90, + hipcirc = 110, ellbowbreadth = 7, + kneebreadth = 10) > emma %*% coef(bodyfat_lm) [,1] [1,] 34.30292 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 30 Schätzung von Varianz und Kovarianz Kovarianzschätzung Es fehlen noch Schätzer für σ 2 und Cov(β̂). Dazu betrachten wir die Residuen Damit können wir also auch die Kovarianzmatrix Cov(β̂) schätzen, und zwar als Û = Y − Xβ̂ als Ersatz für die nicht beobachtbaren Störgrößen U. 1 2 σ̂ 2 (X> X)−1 . Û = MY = MU mit M = diag(n) − H, wobei die sogenannte Hat-Matrix H gegeben ist durch H = X(X> X)−1 X> und Ŷ = HY (H setzt dem Y den Hut auf). Desweiteren ist es möglich, die geschätzten Koeffizienten zu standardisieren, um sie miteinander vergleichen zu können: M ist orthogonaler Projektor mit Rang (gleich Spur) n − k. β̂j p σ̂ diag((X> X)−1 ) Unter A1-A3 gilt Û > Û σ̂ = n−k 2 ist eine erwartungstreue Schätzung für σ 2 . Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 30 Körperfettmessung U <- bodyfat$DEXfat - X %*% coef(bodyfat_lm) n <- nrow(bodyfat) k <- length(coef(bodyfat_lm)) sigma2 <- crossprod(U) / (n - k) sdbeta <- sqrt(sigma2) * sqrt(diag(solve(crossprod(X)))) round(coef(bodyfat_lm) / sdbeta, 4) (Intercept) -7.0471 kneebreadth 1.9178 age 1.7061 waistcirc 4.3469 () Stochastik und Statistik SS 2012 22 / 30 Das Lineare Regressionsmodell unter Normalverteilung Hier sind die standardisierten Regressionskoeffizienten gegeben durch > > > > > > Esther Herberich und Matthias Schmid hipcirc elbowbreadth 4.5365 -0.2474 Bisher haben wir außer dem Erwartungswert (A2) und der Kovarianzmatrix (A3) nichts über die Verteilung der Störgrößen U angenommen. In diesem Abschnitt betrachten wir zusätzlich A4) Ui ∼ N (0, σ 2 ). oder einfacher > round(coef(bodyfat_lm) / sqrt(diag(vcov(bodyfat_lm))), 4) (Intercept) -7.0471 kneebreadth 1.9178 age 1.7061 Esther Herberich und Matthias Schmid waistcirc 4.3469 () Stochastik und Statistik hipcirc elbowbreadth 4.5365 -0.2474 SS 2012 23 / 30 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 30 Eigenschaften der Normalverteilung KQ- und Varianzschätzung Eine n-dimensionale Zufallsvariable Z folgt einer multivariaten Normalverteilung mit Erwartungswertvektor µ ∈ Rn und Kovarianzmatrix Σ ∈ Rn,n (symmetrisch und pd), symbolisch Es gilt Z ∼ N (µ, Σ). Y = Xβ + U ∼ N (Xβ, σ 2 diag(n)) β̂ = (X> X)−1 X> Y ∼ N (β, σ 2 (X> X)−1 ) Es gilt 1 2 3 4 Unter A1 - A4 sind β̂ und σ̂ 2 stochastisch unabhängig. Unter A1 - A4 ist β̂ die ML-Schätzung für β. 2 = Û > Û/n die ML-Schätzung für σ 2 . Unter A1 - A4 ist σ̂ML Z ∼ N (µ, Σ) ⇒ E(Z ) = µ, Cov(Z ) = Σ und Zi ∼ N (µi , Σii ). Sei A ∈ Rp,n mit Rang gleich p und b ∈ Rp , dann AZ + b ∼ N (Aµ + b, AΣA> ). Die Komponenten von Z sind stochastisch unabhängig ⇐⇒ Σ = diag(σii2 ). A ∈ Rp,n , B ∈ Rq,n , AΣB> = 0 ⇒ AZ , BZ sind stochastisch unabhängig. Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 30 Konfidenzintervalle und Tests für β SS 2012 26 / 30 Jetzt können wir für jede der Einflussgrößen die Teststatistik ausrechnen, dabei ist d der Einheitsvektor, sodass d > β = βj : H0 : d > β = 0 vs. H1 : d > β 6= 0 testen oder Konfidenzintervalle für den Parameter d > β herleiten. Dabei ist d ∈ Rk beliebig. Unter A1 - A4 gilt d > β̂ − d > β p ∼ tn−k , σ̂ 2 d > (X> X)−1 d wobei tn−k die t-Verteilung mit n − k Freiheitsgraden bezeichnet. Damit lautet die Testentscheidung: Lehne H0 ab, wenn (Intercept) age -7.0471 1.7061 hipcirc elbowbreadth 4.5365 -0.2474 waistcirc 4.3469 kneebreadth 1.9178 > p <- (1 - pt(abs(T), df = nrow(bodyfat) - length(T))) * 2 > round(p, 4) T =p > tn−k,1−α/2 σ̂ 2 d > (X> X)−1 d (Intercept) age 0.0000 0.0928 hipcirc elbowbreadth 0.0000 0.8054 und ein (1 − α) × 100% Konfidenzintervall für d > β ist q > d β̂ ± tn−k,1−α/2 σ̂ 2 d > (X> X)−1 d. SS 2012 > T <- coef(bodyfat_lm) / sdbeta > round(T, 4) und die zweiseitigen P-Werte aus der t-Verteilung ablesen |d > β̂| () Stochastik und Statistik () Stochastik und Statistik Körperfettmessung Wir möchten nun Hypothesen der Form Esther Herberich und Matthias Schmid Esther Herberich und Matthias Schmid 27 / 30 Esther Herberich und Matthias Schmid waistcirc 0.0000 kneebreadth 0.0595 () Stochastik und Statistik SS 2012 28 / 30 Körperfettmessung Körperfettmessung > summary(bodyfat_lm) Call: lm(formula = DEXfat ~ age + waistcirc + hipcirc + elbowbreadth + kneebreadth, data = bodyfat) Residuals: Min 1Q -9.1782 -2.4973 Median 0.2089 Coefficients: Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 Residual standard error: 3.988 on 65 degrees of freedom Multiple R-squared: 0.8789, Adjusted R-squared: 0.8696 F-statistic: 94.34 on 5 and 65 DF, p-value: < 2.2e-16 > confint(bodyfat_lm) 2.5 % 97.5 % (Intercept) -76.45619185 -42.6902064 age -0.01088410 0.1385129 waistcirc 0.17321558 0.4676638 hipcirc 0.24291126 0.6249985 elbowbreadth -2.73231557 2.1299704 kneebreadth -0.06842371 3.3760367 3Q Max 2.5496 11.6504 Estimate Std. Error t value Pr(>|t|) (Intercept) -59.57320 8.45359 -7.047 1.43e-09 *** age 0.06381 0.03740 1.706 0.0928 . waistcirc 0.32044 0.07372 4.347 4.96e-05 *** hipcirc 0.43395 0.09566 4.536 2.53e-05 *** elbowbreadth -0.30117 1.21731 -0.247 0.8054 kneebreadth 1.65381 0.86235 1.918 0.0595 . --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Und als Abschluss noch die Konfidenzintervalle Wir sehen also, dass hauptsächlich der Bauch- und Hüftumfang informativ für den Körperfettanteil sind. 29 / 30 Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 30