Stochastik und Statistik

Werbung
Stochastik und Statistik
Vorlesung Sommersemester 2012
Dienstag 12.00 – 14.00 (HGB M114)
Donnerstag 12.00 – 14.00 (HGB M010)
Matthias Schmid
<[email protected]>
Esther Herberich
<[email protected]>
Webseite:
http://www.statistik.lmu.de/institut/ag/biostat/
vorlesungen/SS12/Stochastik/
Schein: Erwerb durch Klausur
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 57
Übungen
Erste Übungen:
Mittwoch, den 02.05. um 14:00 (HGB A U117 und HGB B011) und
um 16:00 (HBG A U115)
Ab dem 08.05.:
Dienstag um 14:00 in Richard-Wagner-Str. 10, Raum 109
Mittwoch um 14:00 in HGB A U117
Mittwoch um 16:00 in HGB A U115
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 57
Literatur
Held (2008): “Methoden der statistischen Inferenz. Likelihood und
Bayes”, Spektrum, 29,95 EUR (304 Seiten)
Dümbgen (2003): “Stochastik für Informatiker”, Springer Verlag,
30,79 EUR (268 Seiten)
Fahrmeir, Künstler, Pigeot, Tutz (2010): “Statistik: Der Weg zur
Datenanalyse”, 7. Auflage, Springer Verlag, 30,79 EUR (610 Seiten)
Georgii (2009): “Stochastik”, 4. Auflage, deGruyter, 29,95 EUR (404
Seiten)
Grimmett, Stirzaker (2001): “Probability and Random Processes”, 3rd
Edition, Oxford University Press, ca. 40 EUR (608 Seiten)
Ligges (2008): “Programmieren mit R”, 3. Auflage, Springer Verlag,
33,87 EUR (251 Seiten)
Skript zur Vorlesung auf der Webseite
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
3 / 57
Software
Die Graphiken und Beispiele im Skript und in der Vorlesung wurden mit R
erstellt. Das Analysesystem R ist für alle gängigen Betriebssysteme frei
erhältlich unter
http://www.R-Project.org
Eine geeignete deutschsprachige Einführung ist das Buch von Uwe Ligges
“Programmieren mit R” (siehe Literaturliste). Auf der obigen Webseite sind
elektronische Handbücher und diverse Einführungen in diese
Programmiersprache erhältlich. Am Institut für Statistik werden
Vorlesungen und Kurse zu R angeboten.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 57
Inhaltsverzeichnis
1
Einleitung
2
Laplace-Verteilungen und diskrete Modelle
3
Bedingte Wkeiten, stoch. Unabhängigkeit
4
Diskrete Zufallsvariablen
5
Erwartungswerte, Varianzen und Kovarianzen
6
Statistische Inferenz
7
Markov-Ketten
8
Stetige Zufallsvariablen
9
Statistische Inferenz II
10
Lineare Regression
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 57
1. Einleitung
Stochastik =
Wahrscheinlichkeitstheorie
Statistik
Wahrscheinlichkeitstheorie: Mathematische Beschreibung von
zufälligen Phänomenen
Statistik:
I
I
Erhebung, Auswertung und Interpretation von Daten
Quantifizierung von Unsicherheit
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
6 / 57
Ist Stochastik für die (Bio)Informatik wichtig?
Simulation von zufälligen Prozessen am Computer
Bsp.: Verbreitung von Epidemien
Analyse von statistischen/randomisierten Algorithmen
Bsp.: Quicksort
Statistische Analyse von Daten aus der Biologie und Genetik
Bsp.: Genexpression und Überlebenszeit
Stochastische Modelle für das Auftreten von Daten
Bsp.: Hardy-Weinberg-Gesetz
vgl. Journal Bioinformatics, Table of Contents
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 57
Wahrscheinlichkeit
Grundbegriff der Stochastik: Wahrscheinlichkeit P(A) für das Auftreten
eines bestimmten Ereignisses A
P(A)
P(A)
P(A)
=
=
=
1
0
p ∈ (0, 1)
:
:
:
A tritt mit Sicherheit ein
A tritt mit Sicherheit nicht ein
Ereignis A tritt mit Wahrscheinlichkeit
p ein
Interpretation?
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 57
Subjektivistische Interpretation
Wahrscheinlichkeit aus Wetteinsatz
Frage
: ”Wie sicher bist Du, dass das Ereignis A eintreten wird?”
: ”Wie viel Einsatz E wirst Du maximal setzen,
wenn beim Eintreten von A ein Gewinn G ausgezahlt wird?”
; P(A) =
E
G
Wahrscheinlichkeit als Maß für Deine Unsicherheit.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 57
Beispiel: Spiel mit drei Bechern
Unter einen von drei gleichartigen Bechern wird eine weiche Kugel gelegt.
Nun beginnt der Anbieter, die Becher vor den Augen des Spielers zu
vertauschen.
Der Spieler muss nach einer gewissen Zeit sagen, unter welchem Becher die
Kugel liegt. Wenn er die Kugel findet, gewinnt er den doppelten Einsatz.
Ereignis A: “Kugel gefunden”
Spieler glaubt: P(A) > 1/2, möglichst nahe bei Eins
Anbieter glaubt: P(A) < 1/2, im Idealfall P(A) = 1/3
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 57
Frequentistische Interpretation
“Häufigkeitsinterpretation”
Angenommen das Zufallsexperiment kann beliebig oft wiederholt werden,
dann konvergiert die relative Häufigkeit des Eintretens des Ereignisses A
gegen die Wahrscheinlichkeit P(A).
Klassisches Beispiel: Wiederholtes Werfen eines “fairen” Würfels;
Simulation durch Funktion sample() in R; Berechnung der kumulierten
relativen Häufigkeiten von interessierenden Ereignissen.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 57
2. Laplace-Verteilungen und diskrete Modelle
Prinzip von Laplace (Pierre-Simon de Laplace [1749-1827]):
“Wenn nichts dagegen spricht, gehen wir
davon aus, dass alle Elementarereignisse
gleichwahrscheinlich sind.”
Frage: Was sind “Elementarereignisse”?
Ein Element ω einer Grundgesamtheit Ω nennt man Elementarereignis.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 57
2.1 Laplace Wahrscheinlichkeiten
Betrachte die endliche Grundgesamtheit von Elementarereignissen
Ω = {ω1 , ω2 , . . . , ωn }
Für ein Ereignis A ⊂ Ω definiert man die LaplaceWahrscheinlichkeit als die Zahl
|A|
|A|
=
P(A) :=
|Ω|
n
wobei |A| die Anzahl der Elemente in A ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
13 / 57
Folgerungen und Erweiterungen
Jedes Elementarereignis ωi , i = 1, . . . , n
Wahrscheinlichkeit P({ωi }) = n1 .
hat also die
Die Wahrscheinlichkeit von Ω ist P(Ω) = 1.
Die entsprechende Abbildung P(Ω) → [0, 1] nennt man auch
Laplace-Verteilung (oder diskrete Gleichverteilung) auf Ω.
Hierbei nennt man P(Ω) die Potenzmenge (Menge aller
Teilmengen) von Ω (nicht zu verwechseln mit P(Ω)!).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 57
Beispiel: Augensumme von zwei Würfeln
Ω = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)}
|Ω| = n = 62 = 36
Sei Ak das Ereignis “Augensumme ist k”.
Dann gilt:
6 − |k − 7|
P(Ak ) =
für k = 2, . . . , 12
36
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 57
Beispiel: Skatspiel
Beim Skatspiel werden 32 verschiedene Karten, darunter 4 Buben an 3
Spieler verteilt. Jeder Spieler erhält 10 Karten. 2 Karten kommen in den
Skat. Wie groß ist nun die Wahrscheinlichkeit der Ereignisse:
A1 := “Spieler 1 erhält alle Buben”
A2 := “Jeder Spieler erhält genau einen Buben”
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 57
Laplace-Verteilungen sind zu speziell!
Beispiele:
Unfairer Würfel
Wahrscheinlichkeit für Knabengeburt
Auftreten von Kopf oder Zahl bei 2-Euro Münze
; Elementarereignisse hier nicht gleichwahrscheinlich!
Ein weiteres Problem ist, dass manchmal |Ω| unendlich ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 57
Beispiel für unendliche Grundgesamtheiten
Man interessiere sich für die Anzahl der Würfe einer fairen Münze bis zum
ersten Mal Zahl eintritt.
Ω unendlich: Ω = {ω1 , ω2 , ω3 , ω4 , . . .} = {1, 2, 3, 4, . . .} = N
Allgemein mit ωi = i:
P({ωi }) =
∞
P
i=1
1
2i
P({ωi }) =
Esther Herberich und Matthias Schmid
i = 1, 2, 3, . . .
∞
P
i=1
1
2i
= 1
(geom. Reihe) vgl. Analysis
() Stochastik und Statistik
SS 2012
18 / 57
2.2 Diskrete Wahrscheinlichkeitsräume
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P) wobei
Ω eine abzählbare Grundgesamtheit ist und
P ein diskretes Wahrscheinlichkeitsmaß, das jeder Teilmenge A ⊂ Ω
eine Wahrscheinlichkeit P(A) zuordnet.
Diese definiert man wieder über die Wahrscheinlichkeiten P({ω}) der
Elementarereignisse ω ∈ A:
X
P({ω})
P(A) =
ω∈A
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
19 / 57
Diskrete Wahrscheinlichkeitsräume II
wobei für P({ω}) gelten muss:
0 ≤ P({ω}) ≤ 1
und
P
ω∈Ω
für alle ω
P({ω}) = 1.
Beispiel für unendlichen Wahrscheinlichkeitsraum: Ω = N; ωi = i
Betrachte z.B. P({ωi }) = 1/(i(i + 1)) oder P({ωi }) = 1/2i
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 57
2.3 Axiome von Kolmogorov [1903-1987]
Wir betrachten eine beliebige (abzählbare) Grundgesamtheit Ω und eine
Funktion P auf der Potenzmenge P(Ω), die jedem Ereignis A ⊂ Ω eine
Wahrscheinlichkeit zuordnet.
Wir nennen P eine Wahrscheinlichkeitsverteilung auf Ω, wenn sie
folgende Eigenschaften erfüllt:
A1) P(A) ≥ 0
für beliebige A ⊂ Ω
A2) P(Ω) = 1
A3) P(A ∪ B) = P(A) + P(B)
A, B ⊂ Ω
Esther Herberich und Matthias Schmid
für disjunkte Ereignisse
() Stochastik und Statistik
SS 2012
21 / 57
Folgerungen
P(∪ni=1
Ai ) =
n
P
i=1
P(Ai )
für paarweise disjunkte Ereignisse A1 , A2 , . . . , An ⊂ Ω
P(A) ≤ P(B)
falls A ⊂ B
Definiere das Komplement von A:
Dann gilt P(Ā) = 1 − P(A)
Ā = Ω \ A.
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
für beliebige A, B ⊂ Ω
; Darstellung im Venn-Diagramm (John Venn [1834-1923])
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 57
Die Siebformel von Sylvester-Poincaré
James Sylvester [1814-1897]
Jules Henri Poincaré [1854-1912]
Für beliebiges n ∈ N und A1 , A2 , . . . , An ⊂ Ω gilt:
X
X
P(Ai ) −
P(Ai ∩ Aj )
P(A1 ∪ A2 ∪ . . . ∪ An ) =
i
+
X
i<j
P(Ai ∩ Aj ∩ Ak )
i<j<k
± . . . + (−1)n+1 · P(A1 ∩ A2 ∩ . . . ∩ An )
Daher: P(A ∪ B ∪ C ) = ???
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
23 / 57
Bonferroni Ungleichungen
; Abschätzungen von P(A1 ∪ A2 ∪ . . . ∪ An )
Für beliebige Ereignisse A1 , A2 , . . . An ist

P
≤
P(Ai )



i
n
P(∪i=1 Ai ) =
P
P


P(Ai ) −
P(Ai ∩ Aj )
 ≥
i
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
i<j
SS 2012
24 / 57
3.1 Bedingte Wahrscheinlichkeiten
Für Ereignisse A, B ⊂ Ω mit P(B) > 0 definiert man die bedingte
Wahrscheinlichkeit von A gegeben B als die Zahl
P(A ∩ B)
P(A|B) =
P(B)
; Darstellung im Venn-Diagramm
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
25 / 57
Beispiel: Spiel mit drei Bechern
Spieler macht einen Trick und markiert einen der drei Becher.
Sei
A := “Beobachter findet den richtigen Becher”
B := “Spielanbieter legt die Kugel unter den markierten Becher”
Dann:
P(A|B) = 1
P(A|B̄) = 1/2
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
26 / 57
Eigenschaften von bedingten Wahrscheinlichkeiten
P(B|B) = 1
P(B̄|B) = 0
P(A|B) ≥ 0 für beliebige A ⊂ Ω
P((A1 ∪ A2 )|B) = P(A1 |B) + P(A2 |B)
für A1 und A2 disjunkt
Daher:
Als Funktion von A ⊂ Ω ist P(A|B) (bei festem B!) eine
Wahrscheinlichkeitsverteilung
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
27 / 57
Beispiel: Skat
Sei
A := “Mindestens eine der acht Karokarten liegt im Skat”
B := “Spieler 1 erhält beim Austeilen keine der acht Karokarten”
Berechne P(A) und P(A|B) und vergleiche diese.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
28 / 57
Multiplikationssatz
Für beliebige Ereignisse A1 , A2 , . . . , An mit P(A1 ∩ A2 ∩ . . . ∩ An ) > 0 gilt:
P(A1 ∩ A2 ∩ . . . ∩ An )
= P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ . . . ∩ An−1 )
wobei man die rechte Seite offensichtlich auch in jeder anderen möglichen
Reihenfolge faktorisieren kann.
Wir schreiben im Folgenden auch gerne P(A1 , A2 ) := P(A1 ∩ A2 ) etc.
Insbesondere gilt also
P(A1 , A2 ) = P(A1 ) · P(A2 |A1 )
P(A1 , A2 , A3 ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 , A2 )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
29 / 57
Satz der totalen Wahrscheinlichkeit
Sei B1 , B2 , . . . , Bn eine disjunkte Zerlegung von Ω:
1
B1 , B2 , . . . , Bn paarweise disjunkt: Bi ∩ Bj = ∅ ∀i 6= j
2
B1 ∪ B2 ∪ . . . ∪ Bn = Ω
Falls zusätzlich P(Bi ) > 0 für i = 1, . . . , n so gilt für jedes A ⊂ Ω:
P(A) =
n
X
P(A|Bi ) · P(Bi )
i=1
→ Illustration im Venn-Diagramm
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
30 / 57
Ein wichtiger Spezialfall
Insbesondere gilt
P(A) = P(A|B)P(B) + P(A|B̄)P(B̄)
da B, B̄ eine disjunkte Zerlegung von Ω ist.
Beweis?
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
31 / 57
3.2 Der Satz von Bayes I
Thomas Bayes [1701-1761]
Dieser Satz beruht auf der Asymmetrie der Definition von bedingten
Wahrscheinlichkeiten:
P(A|B) =
P(B|A) =
P(A ∩ B)
P(B)
P(A ∩ B)
P(A)
Esther Herberich und Matthias Schmid
⇒
P(A ∩ B) = P(A|B)P(B)
⇒
P(A ∩ B) = P(B|A)P(A)
() Stochastik und Statistik
SS 2012
32 / 57
Der Satz von Bayes II
P(B|A)
=
totale W’keit
=
P(A|B)P(B)
P(A)
P(A|B)P(B)
P(A|B)P(B) + P(A|B̄)P(B̄)
Allgemeiner gilt für eine disjunkte Zerlegung B1 , . . . , Bn
P(A|Bi )P(Bi )
P(Bi |A) = Pn
i=1 P(A|Bi )P(Bi )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
33 / 57
Interpretation
P(Bi ) “a-priori-Wahrscheinlichkeiten”
P(Bi |A) “a-posteriori-Wahrscheinlichkeiten”
Nach Beobachtung von A ändert sich die Wahrscheinlichkeit von Bi von
P(Bi ) zu P(Bi |A)
Beispiel: Skatspiel
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
34 / 57
Beispiel: Diagnostischer Test
K := “Person ist krank”
T := “Test auf Krankheit ist positiv”
Üblicherweise kennt man die:
Sensitivität P(T |K ) ⇒ P(T̄ |K ) = 1 − P(T |K )
Spezifität P(T̄ |K̄ ) ⇒ P(T |K̄ ) = 1 − P(T̄ |K̄ )
P(K ) heißt Prävalenz
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
35 / 57
Beispiel: Diagnostischer Test II
Zahlenbeispiel:
P(T |K ) = 0.222
P(T̄ |K̄ ) = 0.993 P(K ) = 0.0264
Es ergibt sich
P(T ) ≈ 0.012676
P(K |T ) ≈ 0.462
P(K̄ |T̄ ) ≈ 0.979
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
36 / 57
Beispiel: Creutzfeldt-Jakob
14-3-3
+
Total
CJD
+
126 7
8
97
134 104
Total
133
105
238
Die Sensitivität ist P(14-3-3 = +|CJD = +) = 126/134 = 0.94 und die
Spezifität ist P(14-3-3 = −|CJD = −) = 97/104 = 0.93.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
37 / 57
Chancen
Oft ist es einfacher, W’keiten als Chancen, im Sinne von Wettchancen
(etwa 1:10), engl. “odds” aufzufassen. Für eine W’keit π besteht zur
Chance γ der Zusammenhang
π
γ=
1−π
γ
π=
1+γ
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
38 / 57
Eine Version vom Satz von Bayes
Eine elementare Umformung liefert
P(B|A)
P(B̄|A)
=
P(B) P(A|B)
·
P(B̄) P(A|B̄)
Posterior Odds = Prior Odds · Likelihood Ratio
Posteriori Chance = Priori Chance · Likelihood Quotient
Im Beispiel ergibt sich:
Priori Chance: 0.027
Likelihood Quotient: 31.7
; Posteriori Chance: 0.858
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
39 / 57
Beispiel: O.J. Simpson Prozess
O.J. Simpson gab zu, seine Frau missbraucht zu haben.
Er gab aber nie zu, seine Frau ermordet zu haben.
Einer seiner Verteidiger sagte, die Wkeit, dass jemand, der seine Frau
missbraucht, auch ermordet, ist 1/1000.
Aber: Das Gericht ist mehr interessiert an der Wkeit, dass O.J. Simpson
der Mörder seiner Frau ist, gegeben er hat sie missbraucht und sie ist
ermordet worden.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
40 / 57
Beispiel: O.J. Simpson Prozess II
Zwei Ansätze zur Lösung! Sei
A:
“Ein Mann hat seine Frau missbraucht”
M : “Die Frau wurde ermordet”
G:
“Der Mann ist des Mordes schuldig”
P(G |A, M)
P(Ḡ |A, M)
=
aber auch =
Esther Herberich und Matthias Schmid
P(G |M) P(A|G , M)
·
P(Ḡ |M) P(A|Ḡ , M)
P(G |A) P(M|G , A)
·
P(Ḡ |A) P(M|Ḡ , A)
() Stochastik und Statistik
SS 2012
(1)
(2)
41 / 57
Beispiel: O.J. Simpson Prozess III
Ansatz (1) liefert (unter geeigneter Vorinformation)
P(G |A, M)
= 4.08
P(Ḡ |A, M)
Ansatz (2) liefert (unter anderer Vorinformation)
P(G |A, M)
= 1.0
P(Ḡ |A, M)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
42 / 57
Beachte:
Alle Aussagen für Wahrscheinlichkeiten gelten auch für bedingte
Wahrscheinlichkeiten (bei fester Bedingung C mit P(C ) > 0).
Daher z.B.
P(A ∪ B|C ) = P(A|C ) + P(B|C ) − P(A ∩ B|C )
und eben auch:
und
P(G |A, M)
P(Ḡ |A, M)
P(G |A, M)
P(Ḡ |A, M)
Esther Herberich und Matthias Schmid
=
=
P(G |M) P(A|G , M)
·
P(Ḡ |M) P(A|Ḡ , M)
P(G |A) P(M|G , A)
·
P(Ḡ |A) P(M|Ḡ , A)
() Stochastik und Statistik
SS 2012
43 / 57
3.3 Stochastische Unabhängigkeit
Frage: Wann sind 2 Ereignisse A, B unabhängig?
→ Illustration im Venn-Diagramm
Motivation über bedingte Wahrscheinlichkeiten:
Zwei Ereignisse A, B sind unabhängig, wenn
P(A|B) = P(A)
| {z }
P(A∩B)
P(B)
bzw. P(B|A) = P(B)
| {z }
P(A∩B)
P(A)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
44 / 57
Definition und Folgerungen
Zwei Ereignisse A, B sind unabhängig, wenn
P(A ∩ B) = P(A) · P(B)
gilt.
Beachte: Voraussetzung P(B) > 0 und P(A) > 0 hier nicht nötig.
Folgerungen:
Sind A und B unabhängig, dann sind auch Ā und B, A und B̄
und auch Ā und B̄ unabhängig. Beweis?
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
45 / 57
Beispiel: Zweimaliges Würfeln
Ein fairer Würfel wird zweimal hintereinander geworfen. Sei
A : “Beim 1. Würfelwurf eine Sechs”
B : “Beim 2. Würfelwurf eine Sechs”
Bei jeden Würfelwurf ist die Grundgesamtheit Ω = {1, 2, 3, 4, 5, 6}.
Nach Laplace gilt P(A) = P(B) = 1/6.
Bei “unabhängigem” Werfen gilt somit
P(A ∩ B) = P(A) · P(B) = 1/36
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
46 / 57
Beispiel: Zweimaliges Würfeln mit Tricks
Angenommen der Würfelwerfer ist besonders am Werfen von einem Pasch
interessiert. Er kann den zweiten Wurf ein wenig steuern und würfelt mit
W’keit 1/2 das gleiche wie beim ersten Wurf. Die anderen Ergebnisse seien
dann gleichverteilt mit W’keit 0.1 .
Dann ist zwar P(A) = 1/6 und auch P(B) = 1/6, aber
P(A ∩ B) = 1/12 > 1/36
Die Ereignisse A und B sind also abhängig, da
P(A ∩ B) 6= P(A) · P(B)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
47 / 57
Unabhängigkeit von mehr als zwei Ereignissen
Allgemeiner lässt sich die Unabhängigkeit von mehr als zwei Ereignissen
definieren:
Die Ereignisse A1 , A2 , . . . , An sind (stochastisch) unabhängig, wenn für
alle Teilmengen I ⊂ {1, 2, . . . , n} mit I = {i1 , i2 , . . . , ik } gilt:
P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 ) · P(Ai2 ) · . . . · P(Aik )
Bemerkung: Aus der paarweisen Unabhängigkeit folgt nicht die
Unabhängigkeit von mehr als zwei Ereignissen.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
48 / 57
Beispiel zur paarweisen Unabhängigkeit
Ω = {0, 1, 2, 3}
Ai = {0} ∪ {i}
Laplace-Wahrscheinlichkeitsraum
mit i = 1, 2, 3
(etwa einmaliges Ziehen aus einer Urne). Dann gilt:
P(Ai ) = 12 und P(Ai ∩ Aj ) = 14 = P(Ai ) · P(Aj ) für alle i 6= j.
Aber:
P(A1 ∩ A2 ∩ A3 ) = 14
und
P(A1 ) · P(A2 ) · P(A3 ) =
1
8
A1 , A2 , A3 sind also nicht unabhängig.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
49 / 57
Bedingte Unabhängigkeit
Sei C ein beliebiges Ereignis mit P(C ) > 0. Zwei Ereignisse A und B
nennt man bedingt unabhängig gegeben C , wenn
P(A ∩ B|C ) = P(A|C ) · P(B|C )
gilt.
Man überzeugt sich leicht, dass weder aus unbedingter Unabhängigkeit
bedingte Unabhängigkeit (bzgl. einem Ereignis C ), noch aus bedingter
Unabhängigkeit bzgl. einem Ereignis C unbedingte Unabhängigkeit folgt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
50 / 57
3.4 Das Hardy-Weinberg-Gesetz
Population von diploiden Organismen; zwei Allele a und b
Drei Genotypen aa, ab und bb, Wahrscheinlichkeitsverteilung
paa , pab , pbb sei unabhängig vom Geschlecht
Unter bestimmten weiteren Voraussetzungen (“zufällige” Paarung von
Individuen, keine Selektion, keine Mutation etc.) gilt, dass die
Wahrscheinlichkeitsverteilung der drei Genotypen über Generationen
hinweg konstant bleibt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
51 / 57
Das Hardy-Weinberg-Gleichgewicht
Sei x ∈ {aa, ab, bb} der Genotyp eines zufällig ausgewählten Individuums.
Ist die Population im H-W-Gleichgewicht, so gilt:

q 2 für x = aa

2q(1 − q) für x = ab
px =

(1 − q)2 für x = bb
mit q ∈ [0, 1]. Der Parameter q ist die Häufigkeit des Allels a.
Beachte: Im Allgemeinen beschreiben zwei Parameter eine diskrete
Wahrscheinlichkeitsverteilung mit drei möglichen Ausprägungen, das
H-W-Gleichgewicht wird jedoch nur von einem Parameter beschrieben.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
52 / 57
1.0
Das Hardy-Weinberg-Gleichgewicht
0.0
0.2
0.4
P
0.6
0.8
aa
ab
bb
0.0
0.2
0.4
0.6
0.8
1.0
q
Hardy-Weinberg-Gleichgewicht für die Genotypen aa, bb und ab.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
53 / 57
Beweisskizze
Starte mit beliebigen Wahrscheinlichkeiten paa , pab und pbb
(mit paa + pab + pbb = 1).
Berechne die bedingten Wahrscheinlichkeiten für das Auftreten eines
bestimmten Genotyps eines Nachkommen in Abhängigkeit vom Genotyp
der Eltern.
Satz der totalen Wahrscheinlichkeit liefert H-W-Gleichgewicht mit
q = paa + pab /2.
Neustart im H-W-Gleichgewicht liefert wieder H-W-Gleichgewicht!
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
54 / 57
Anwendungsbeispiel
Genotyp bb verursacht bestimmte Krankheit, aa und ab sind aber
äußerlich nicht erkennbar.
Aus Kenntnis der relativen Häufigkeit/Wahrscheinlichkeit pbb lassen sich
(unter der Annahme, dass die Population im H-W-Gleichgewicht ist) die
anderen Wahrscheinlichkeiten berechnen:
pbb )2
√
√
= 2(1 − pbb ) pbb
paa = (1 −
pab
√
Beispiel: pbb = 0.0001 ; paa = 0.9801 und pab = 0.0198
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
55 / 57
Das Hardy-Weinberg-Ungleichgewicht
Allgemeinere Formulierung mit zwei Parametern:

q 2 +d für x = aa

2q(1 − q)−2d für x = ab
px =

(1 − q)2 +d für x = bb
mit Ungleichgewichtskoeffizienten d.
Problem: Beschränkter Wertebereich für q und d
Später:
Statistische Schätzung von q und d
Statistischer Test auf “Nullhypothese” H0 : d = 0
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
56 / 57
1.0
Das Hardy-Weinberg-Ungleichgewicht (d = 0.1)
0.0
0.2
0.4
P
0.6
0.8
aa
ab
bb
0.0
0.2
0.4
0.6
0.8
1.0
q
Hardy-Weinberg-Ungleichgewicht mit d = 0.1 für die Genotypen aa, bb
und ab.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
57 / 57
4.1 Diskrete Zufallsvariablen: Einleitung
Ergebnisse von Zufallsvorgängen sind nicht notwendigerweise Zahlen
Oft ist es aber hilfreich diese durch Zahlen zu repräsentieren, um mit
ihnen rechnen zu können
Beispiel: 4-maliger Wurf einer Münze
Ω = {Wappen, Zahl} = {W , Z }4
|Ω| = 24 = 16
Esther Herberich und Matthias Schmid
z. B. ω = {W , Z , Z , W }
() Stochastik und Statistik
SS 2012
1 / 52
Eine diskrete Zufallsvariable
Angenommen man interessiert sich für
X :=“Anzahl von Wappen”
Dann nennt man X eine Zufallsvariable (ZV) mit reellen Ausprägungen
bzw. Realisierungen x ∈ R. Man schreibt kurz X = x, wenn die
Ausprägung x der ZV X eingetreten ist.
X ist also eine Abbildung von Ω nach R.
Die Menge der möglichen Ausprägungen {0,1,2,3,4} heißt Träger T der
ZV X .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 52
Vorteile von Zufallsvariablen
1
Man kann mit X “rechnen”:
z. B. P(X ≤ a) oder P(X 2 > b)
Oder: Welche Zahl erhalten wir “im Mittel”?
2
Ursprünglicher Wahrscheinlichkeitsraum (Ω, P) wird letztendlich nicht
mehr benötigt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
3 / 52
Definition
Eine ZV X heißt diskret, falls sie nur endliche oder abzählbar unendlich
viele Werte x1 , x2 , . . . annehmen kann. Die Menge T = {x1 , x2 , . . .} der
möglichen Ausprägungen (d.h. alle xi mit P{xi } > 0) von X heißt Träger
der ZV X .
Die Wahrscheinlichkeitsfunktion von X ist durch
f (xi ) = P(X = xi ) = P ({ω ∈ Ω : X (ω) = xi })
für xi ∈ R gegeben. Die Wahrscheinlichkeitsfunktion f (xi ) heißt auch
Wahrscheinlichkeitsdichte.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 52
Folgerungen
1
Für x 6∈ T ist f (x) = P{∅} = 0.
2
Als Funktion von B ∈ R ist also
P(X ∈ B) = P{ω ∈ Ω : X (ω) ∈ B}
eine Wahrscheinlichkeitsverteilung auf R. Man nennt diese die
Verteilung der Zufallsvariable X . Diese wird durch die Abbildung X
und die Wahrscheinlichkeitsverteilung P induziert.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 52
Die Verteilungsfunktion
Die Verteilungsfunktion einer diskreten ZV ist definiert als
F (x) = P(X ≤ x) =
X
f (xi )
i:xi ≤x
Kennt man also die Wahrscheinlichkeitsfunktion f (x) für alle x ∈ T , so
kennt man auch die Verteilungsfunktion F (x) (dies gilt auch umgekehrt).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
6 / 52
Eigenschaften der Verteilungsfunktion
F (x) ist monoton wachsend (“Treppenfunktion”)
F (x) ist stückweise konstant mit Sprungstellen an Werten xi mit
f (xi ) > 0, d.h. an allen Realisierungen xi ∈ T
lim F (x) = 1
x→∞
lim F (x) = 0
x→−∞
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 52
Beispiel: 4-maliger Wurf einer Münze
X :=“Anzahl Kopf”, T = {0, 1, 2, 3, 4}
f (0)
f (1)
f (2)
f (3)
f (4)
=
=
=
=
=
1/16
4/16
6/16
4/16
1/16
⇒

0




1/16



5/16
F (x) =
11/16





15/16


1
:
:
:
:
:
:
x
0≤x
1≤x
2≤x
3≤x
x
<0
<1
<2
<3
<4
≥4
Beachte: f (x) = 0 für alle x ∈
/T
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 52
1.0
1.0
Wahrscheinlichkeits- und Verteilungsfunktion
●
0.8
0.8
●
0.6
0.4
0.4
f(x)
F(x)
0.6
●
●
●
●
●
0.0
●
0.0
●
0.2
0.2
●
0
1
2
3
4
−1
x
0
1
2
3
4
5
x
Wahrscheinlichkeitsfunktion (links) und Verteilungsfunktion (rechts) für
den viermaligen Münzwurf
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 52
Spezielle Verteilungen
Man unterscheidet nun bestimmte “gängige” Verteilungen, die häufig von
weiteren Parametern abhängen.
Das einfachste Beispiel ist die Bernoulli-Verteilung. Eine
Bernoulli-verteilte ZV kann nur die Werte 0 und 1 annehmen:
P(X = 1) = f (1)
P(X = 0) = f (0)
=
=
π
1−π
π ∈ [0, 1] ist der Parameter der Bernoulli-Verteilung.
Man schreibt kurz: X ∼ B(π).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 52
Die diskrete Gleichverteilung
Die allgemeine diskrete Gleichverteilung hat einen endlichen Träger
T = {x1 , x2 , . . . , xk }, wobei
1
P(X = xi ) = f (xi ) =
k
mit i = 1, . . . , k gilt.
Häufig sind alle natürlichen Zahlen zwischen a ∈ N und b ∈ N Element des
Trägers T . Die Grenzen a und b sind dann die Parameter der diskreten
Gleichverteilung.
Beispiel: Augenzahl beim fairen Würfelwurf
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 52
Die geometrische Verteilung
Ein Zufallsvorgang, bei dem mit Wahrscheinlichkeit π ein Ereignis A
eintritt, wird unabhängig voneinander so oft wiederholt, bis zum ersten
Mal A eintritt.
Sei X die ZV “Anzahl der Versuche bis zum ersten Mal A eintritt”. Dann
ist T = N und die Wahrscheinlichkeitsfunktion von X lautet:
f (x) = (1 − π)x−1 · π
x = 1, 2, 3, . . .
π ∈ (0, 1) ist der Parameter der geometrischen Verteilung.
Man schreibt kurz: X ∼ G(π).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 52
Eine Variante der geometrischen Verteilung
Sei Y := “Anzahl der Versuche bevor das erste mal A eintritt”, d.h.
Y = X − 1. Dann ist
T
= {0, 1, 2, . . .}
f (y ) = (1 − π)y · π
Für diese Form gibt es folgende Funktionen in R:
dgeom() berechnet Wahrscheinlichkeitsfunktion
pgeom() berechnet Verteilungsfunktion
rgeom() berechnet Zufallszahlen aus der geom. Verteilung
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
13 / 52
1.0
1.0
Wahrscheinlichkeits- und Verteilungsfunktion
π = 0.5
π = 0.3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.8
0.8
●
●
●
F(x)
f(x)
0.6
0.6
●
●
●
0.4
0.4
●
●
●
0.0
0
2
0.2
●
●
●
●
●
●
●
●
●
4
●
●
6
●
●
●●
8
●●
●●
●
0.0
0.2
●
●
10
0
2
4
6
8
π = 0.5
π = 0.3
10
x
x
Vergleich der geometrischen Wahrscheinlichkeitsfunktionen (links) und
Verteilungsfunktionen (rechts) für die beiden Parameter π = 0.3 und
π = 0.5
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 52
Quantile
Sei X eine diskrete ZV mit Verteilungsfunktion F (x), x ∈ R.
Sei p ∈ [0, 1]. Jeder Wert x, für den
P(X ≤ x) ≥ p und
P(X ≥ x) ≥ 1 − p
gilt, heisst p-Quantil xp der Verteilung von X .
Problem: Definition nicht immer eindeutig.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 52
Quantile II
Um Eindeutigkeit zu erreichen, definiert man:
Das p-Quantil xp der Verteilung von X ist definiert als der kleinste Wert
x für den F (x) ≥ p gilt.
Somit gilt P(X ≤ x) = F (xp ) ≥ p und daher “xp = F −1 (p)”
(“Inversion der Verteilungsfunktion”).
Speziell nennt man das 0.5-Quantil den Median xmed der Verteilung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 52
Interpretation vom Median und von Quantilen
Beim Median xmed gilt:
P(X ≤ xmed ) ≥ 0.5
P(X ≥ xmed ) ≥ 0.5
Allgemeiner gilt für das p-Quantil xp :
P(X ≤ xp ) ≥ p
P(X ≥ xp ) ≥ 1 − p
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 52
Numerische Bestimmung von Quantilen
Bei Kenntnis der Verteilungsfunktion F (x) und endlichem Träger T :
1
Berechne F (x) für alle x ∈ T .
2
Dann gilt für das p-Quantil xp :
xp = min{x : F (x) ≥ p}
3
in R: verwende Funktion which
Nicht so einfach, siehe Dokumentation ?quantile.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
18 / 52
Beispiel: geometrische Verteilung
Funktion qgeom() berechnet Quantilfunktion der geometrischen
Verteilung.
0.95-Quantil x0.95 : In 95% aller Fälle muss man maximal x0.95 Versuche
unternehmen, bevor zum ersten mal A eintritt.
π
0.01
0.1
0.5
0.9
0.99
Esther Herberich und Matthias Schmid
x0.95
298
28
4
1
0
xmed
68
6
0
0
0
() Stochastik und Statistik
SS 2012
19 / 52
4.2 Unabhängigkeit von diskreten Zufallsvariablen
Betrachte zwei ZV X und Y auf dem Wahrscheinlichkeitsraum (Ω, P)
mit Träger TX = {x1 , x2 , . . .} und TY = {y1 , y2 , . . .} und
Wahrscheinlichkeitsfunktionen fX (x) und fY (y ).
Die Funktion
fX ,Y (x, y ) = P(X = x und Y = y ) = P(X = x, Y = y )
heißt gemeinsame Wahrscheinlichkeitsfunktion der zwei
Zufallsvariablen X und Y .
Unter Unabhängigkeit kann man diese zurückführen auf die beiden
Wahrscheinlichkeitsfunktionen fX (x) und fY (y ).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 52
Definition
X und Y heißen unabhängig, wenn
P(X = x, Y = y ) = P(X = x) · P(Y = y )
d.h.
fX ,Y (x, y ) = fX (x) · fY (y )
für alle x ∈ TX und y ∈ TY gilt.
X1 , X2 , . . . , Xn heißen unabhängig, falls
P(X1 = x1 , . . . , Xn = xn ) =
n
Y
P(Xi = xi ) =
i=1
n
Y
fXi (xi )
i=1
für alle x1 , x2 , . . . , xn aus den entsprechenden Trägern gilt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
21 / 52
Beispiel: Bernoulli-Kette
Sind X1 , X2 , . . . , Xn Bernoulli-verteilt mit Parameter π und unabhängig, so
heißt X = (X1 , X2 , . . . , Xn ) Bernoulli-Folge.
Beispiel:
n = 3, π = 61 ; wegen der Unabhängigkeit gilt z. B.
2
5
1
25
P(X1 = 1, X2 = 0, X3 = 0) = ·
=
6
6
216
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 52
Die Binomialverteilung
Bei einer
Pn Bernoulli-Folge interessiert man sich häufig nur für die Anzahl
X := i=1 Xi , wie oft Xi = 1 aufgetreten ist.
Diese ZV X heißt binomialverteilt mit Parametern n ∈ N, π ∈ [0, 1] und
hat den Träger T = {0, 1, . . . , n} sowie die Wahrscheinlichkeitsfunktion:
n
P(X = x) = f (x) =
· π x (1 − π)n−x für x ∈ T
x
Man schreibt kurz X ∼ B(n, π) und es gilt B(1, π) = B(π).
Funktionen in R:
dbinom(), pbinom(), qbinom(), rbinom()
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
23 / 52
Wahrscheinlichkeits- und Verteilungsfunktion
π = 0.5
π = 0.3
●
●
●
●●
●
●
●
●
●
●
●
4
6
8
10
10
20
30
●
●
●
●
1.0
n = 100
●
●
●
●
●
●
●
●
●
●
●
0.2
●
0.0
●
●
●
0
●
●
●
2
4
6
8
π = 0.5
π = 0.3
10
●
●
●
●
●
●
●
●
●
●●
●●●●●●
●●
●●●●●●●●●●●●●●●●●●●●
10
x
Esther Herberich und Matthias Schmid
●
●
0.0
0.2
●
●
70
●
●
0.4
●
60
●
●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
F(x)
F(x)
0.4
50
n = 10
●
●
40
x
●
0.8
●●
x
●
0.6
●
●
●
●
●● ●●
●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●
●●
●●●●●●
●●●
●●●●●●●●●●●●●●●●●●
●●●●●●●●
●●
●●●●●●●●●●●●●●●●●●●
●●●●●●●●●
0.8
2
1.0
0
●
π = 0.5
π = 0.3
0.6
●
●
●
●
0.00 0.05 0.10 0.15 0.20 0.25 0.30
n = 100
f(x)
0.00 0.05 0.10 0.15 0.20 0.25 0.30
f(x)
n = 10
20
30
40
●
●
50
60
π = 0.5
π = 0.3
70
x
() Stochastik und Statistik
SS 2012
Vergleich der binomialen Wahrscheinlichkeitsfunktionen (oben) und
24 / 52
Beispiele
Anzahl der 6-er bei n-maligem Würfeln: Berechne
Modus (wahrscheinlichster Wert) und
Median
in Abhängigkeit von n.
Das Urnenmodell: Zufälliges Ziehen mit Zurücklegen einer Stichprobe
von n Kugeln aus einer Urne mit N Kugeln, darunter M markierte.
Sei X : “Anzahl der markierten Kugeln in der Stichprobe”. Dann:
X ∼ B(n, M/N).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
25 / 52
Die hypergeometrische Verteilung
Häufig wird jedoch im Urnenmodell ohne Zurücklegen gezogen, d. h. die
“Auswahlwahrscheinlichkeiten” ändern sich von Ziehung zu Ziehung
(Beispiel: Meinungsforschung).
Die Verteilung von X (Anzahl der markierten Kugeln) nennt man dann
hypergeometrisch. Sie hat den Träger
T = {max(0, n − (N − M)), . . . , min(n, M)}
und die Wahrscheinlichkeitsfunktion
M N−M
f (x) =
x
n−x
N
n
für x ∈ T .
Man schreibt kurz: X ∼ H(n, N, M)
Funktionen in R: {dpqr}hyper()
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
26 / 52
Ziehen mit und ohne Zurücklegen
Binomial
Hypergeometrisch
0.4
0.4
Binomial
Hypergeometrisch
0.3
0.3
●
●
f(x)
●
●
●
●
2
4
●
●
●
●
●
●
●
●
●
●
0.0
0.0
●
●
●
●
●
●
0.1
●
●
0
●
●
0.2
0.2
f(x)
●
●
●
●
6
8
●
●
●
●
●
●
0
2
4
6
8
●
●
●
●
n = 30, M = 20, N = 100
n = 40, M = 20, N = 100
0.5
x
●
●
●
●
12
0.3
0.4
Binomial
Hypergeometrisch
0.0
● ●
●●
●
●
●● ●●
0
●
●
●
●
●
● ●
● ●● ●● ●● ●● ●●
●
●
5
●●
0.1
0.1
●●
●
●
10
15
0.0
0.2
●
●
●
●
0.2
f(x)
f(x)
0.3
0.4
Binomial
Hypergeometrisch
●
●
10
x
0.5
0.1
n = 20, M = 20, N = 100
0.5
0.5
n = 10, M = 20, N = 100
●
●
●
●
●
●
●
● ●
●● ●● ●● ●
0
x
Esther Herberich und Matthias Schmid
●
●
●
● ●
● ●● ●● ●● ●● ●● ●● ●●
5
10
15
20
x
() Stochastik und Statistik
SS 2012
Vergleich der hypergeometrischen und binomialen
27 / 52
Ziehen mit und ohne Zurücklegen II
Binomial
Hypergeometrisch
Binomial
Hypergeometrisch
0.4
●
●
0.3
●
●
●
●
f(x)
●
f(x)
0.3
0.4
●
0.2
●
0.1
0.1
0.2
●
●
2
3
●
●
●
●
4
5
●
●
●
●
0
2
4
n = 20, M = 5, N = 25
0.5
n = 15, M = 5, N = 25
8
0.4
0.3
f(x)
●
●
●
0.2
0.2
●
●
●
●
●
0.1
●
●
●
●
●
2
●
●
●
●
4
6
●
●
8
●
●
●
●
10
●
●
●
●
●
0
x
Esther Herberich und Matthias Schmid
●
●
●
●
0.0
0.1
●
0
●
●
Binomial
Hypergeometrisch
●
0.3
f(x)
●
●
●
6
x
●
●
●
●
●
x
Binomial
Hypergeometrisch
0.4
●
0.0
0.0
1
0.5
0
●
●
●
●
0.0
n = 10, M = 5, N = 25
0.5
0.5
n = 5, M = 5, N = 25
●
2
4
●
6
●
●
8
●
●
●
●
●
●
10
●
●
●
●
12
x
() Stochastik und Statistik
SS 2012
Vergleich der hypergeometrischen und binomialen
28 / 52
Approximation der hypergeometrischen Verteilung
Für N “groß” und n “klein” läßt sich die hypergeometrische Verteilung gut
durch die Binomialverteilung approximieren:
H(n, M, N)
Esther Herberich und Matthias Schmid
≈
M
B n, π =
N
() Stochastik und Statistik
SS 2012
29 / 52
Beispiel: Capture-Recapture-Experiment
Frage:
Wie viele Fische schwimmen in einem See?
Idee :
Fange M Fische, markiere diese und wirf sie dann wieder (lebendig) in den See zurück. Später werden n Fische gefangen.
Die ZV X :=“Anzahl der markierten Fische”ist idealerweise
hypergeometrisch verteilt mit Parametern N, M und n:
X ∼ H(n, N, M)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
30 / 52
Beispiel: Capture-Recapture-Experiment II
Statistisches Problem: Wie groß ist N?
Naiver Ansatz zur Konstruktion eines Schätzers N̂ von N:
N
M
≈
n
x
⇒
N̂
≈
n
·M
x
Probleme:
Im Allgemeinen N̂ ∈
/N
Keine Angaben über die Genauigkeit der Schätzung
Später mehr dazu.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
31 / 52
4.3 Die Poisson-Verteilung
Siméon Poisson [1781-1840]
Häufig gibt es zufällige Vorgänge, bei denen es keine natürliche obere
Grenze für die Anzahl an Ereignissen gibt, z.B.:
Die Anzahl an Telefonanrufen in einem “Call-Center” pro Stunde
Die Anzahl der Tore in einem Bundesligaspiel
Anzahl von Todesfällen durch Hufschlag in der Preußischen Armee
(L. von Bortkiewicz, 1893)
Die einfachste Verteilung für solche Phänomene ist die Poisson-Verteilung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
32 / 52
Die Poisson-Verteilung II
Eine Zufallsvariable X folgt einer Poisson-Verteilung, wenn sie Träger
T = N0 und Wahrscheinlichkeitsfunktion
λx
· exp(−λ)
f (x) =
x!
hat. Der Parameter λ ∈ R+ ist die durchschnittliche Rate oder die
Intensität, mit der die Ereignisse in dem zugrundeliegenden Zeitintervall
eintreffen.
Man schreibt kurz: X ∼ P(λ)
Funktionen in R: {dpqr}pois
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
33 / 52
λ=3
λ=1
●
●
●
0.3
●
●
●
●
●
●
●
●
●
●
●
0.6
●
0.4
●
●
0.1
●
●
●
●
●
4
●
6
●
●
●
8
●●
●●
0.0
0.0
2
●
●
●
0
●
●
0.2
●
●
●
F(x)
●
0.2
f(x)
●
0.8
●
1.0
0.4
Wahrscheinlichkeits- und Verteilungsfunktion
10
●
0
●
2
4
6
8
λ=3
λ=1
10
x
x
Vergleich der Wahrscheinlichkeitsfunktionen (links) und
Verteilungsfunktionen (rechts) für eine poissonverteilte Zufallsvariable mit
dem Parameter λ = 1 bzw. λ = 3
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
34 / 52
Approximation der Binomialverteilung
Die Binomialverteilung B(n, π) kann für “großes n” und “kleines π” gut
durch die Poisson-Verteilung mit λ = n · π approximiert werden.
B(n, π)
≈
P(λ = n · π)
Je größer n ist und je kleiner π, desto besser ist die Approximation.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
35 / 52
Vergleich von Binomial- und Poissonverteilung
0.4
π = 0.5
0.4
π = 0.8
Poisson
Binomial
0.3
0.3
Poisson
Binomial
●
●
●
●
●
●
●
●
2
0.0
●
4
●
●
●
6
8
10
●●
●
2
4
6
x
π = 0.3
π = 0.1
8
10
Poisson
Binomial
●
●
0.3
0.3
●
●
●
●
●
0
Poisson
Binomial
●
●
x
0.4
0
●
●
●
●
0.4
0.0
●●
●
●
●
●
●
●
●●
●
●
●
●
0.1
0.1
●
●
●
●
●
0.2
f(x)
0.2
f(x)
●
●
0.2
●
f(x)
0.2
f(x)
●
●
●
●
●
●
●
0.1
●●
●
●
●
0.0
0
●●
●
●
●
2
4
6
●●
8
●●
●●
10
●●
0.0
0.1
●
0
1
x
Esther Herberich und Matthias Schmid
2
3
4
●●
●●
●●
5
6
7
x
() Stochastik und Statistik
SS 2012
36 / 52
Vergleich von Binomial- und Poissonverteilung
π = 0.8
π = 0.5
●
70
80
90
0.12
50
60
x
π = 0.3
π = 0.1
30
40
50
70
0.12
●
● ●
●
●
● ●
0.08
80
Poisson
Binomial
● ●
● ●
●
● ●
●
●
0.04
● ●
●
●
● ●
●
● ●
● ●
● ●
● ●
● ● ● ● ● ● ●
●
● ●
● ●
● ● ●
0
x
Esther Herberich und Matthias Schmid
40
x
●●●
●
●
●
●●●● ●
●
●
● ●
●●
●
●●
●●
●
●
●●
●
●
●
● ●
●
● ●
●
●
● ●
●
● ●
●●
●
●●
●●
●
●
●
●
●●
●●●●●●●●●●●
●
● ●
●●
●●●●●●●●●
●●●●●
●●●●●●
20
● ●●
●
●● ●●
● ●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
● ●
●
● ●
●●
●
●
●●●
●
●
●
● ●●●
●
●● ●●
● ●●●
●
●
●●●●●
●
●
●
●●
●●●●●●●●●●●●●
●●●●●● ●●●●●
30
Poisson
Binomial
10
●●●
●
●
●
●
100
0.00
60
0.00
●●●●●●●
●●
●
●
●●
●●
●
●
● ●
●
●
●
●
●
●
● ●●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●●●
●
●
●●
●●
●
●
●
●
●
●
●●
●●●●●●●●●
●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●
0.12
0.08
0.00
0.04
f(x)
0.04
●
f(x)
0.00
0.04
●
50
Poisson
Binomial
0.08
f(x)
●●
●
●
●
●
●
0.08
f(x)
0.12
Poisson
Binomial
5
10
15
20
25
x
() Stochastik und Statistik
SS 2012
37 / 52
4.4 Faltungen
Sind X und Y unabhängige ZV mit Wahrscheinlichkeitsfunktionen fX (x)
und fY (y ), so gilt für die Summe Z = X + Y :
X
P(X + Y = z)
=
P(X = x, x + Y = z)
x
=
X
P(X = x, Y = z − x)
x
unabh. X
=
P(X = x) · P(Y = z − x)
x
=
X
fX (x) · fY (z − x)
x
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
38 / 52
Faltungen II
Man nennt die Wahrscheinlichkeitsverteilung von Z = X + Y
X
P(X + Y = z) =
fX (x) · fY (z − x)
x
=
X
fX (z − y ) · fY (y )
y
die Faltung von X und Y .
Beispiel:
Ist X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig, so ist die Faltung von X und
Y wieder Poisson-verteilt mit Parameter λ1 + λ2 :
X + Y ∼ P(λ1 + λ2 )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
39 / 52
Faltung von zwei geometrischen ZV
Seien X ∼ G(π) und Y ∼ G(π) unabhängig.
Berechne Träger und Wahrscheinlichkeitsfunktion der Summe Z = X + Y .
Wie kann man Z interpretieren?
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
40 / 52
Die negative Binomialverteilung
Betrachte die Summe von n unabhängigen geometrischen ZV X1 , . . . , Xn :
X = X1 + . . . + Xn .
Dann hat X eine negative Binomialverteilung mit Parameter n ∈ N und
π ∈ (0, 1) und Wahrscheinlichkeitsfunktion
x −1 n
f (x) =
π (1 − π)x−n für x = n, n + 1, . . .
n−1
Funktionen in R:
dnbinom(...), pnbinom(...), qnbinom(...), rnbinom(...)
Beachte: Unterschiedliche Definition in R! Träger immer gleich N0
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
41 / 52
4.4 Die Verteilung von Zufallsvektoren
Betrachte zwei diskrete ZV X und Y definiert auf dem
Wahrscheinlichkeitsraum (Ω, P).
Wie kann man Information über ihr gemeinsames stochastisches
Verhalten quantifizieren?
Idee: Betrachte Zufallsvektor (X , Y ) als Abbildung von Ω nach R2 .
Die gemeinsame Verteilung von X und Y enthält i. A. mehr
Information als in den Randverteilungen von X und Y steckt!
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
42 / 52
Gemeinsame Verteilungs- und Wahrscheinlichkeitsfunktion
Seien X , Y zwei diskrete ZV auf (Ω, P).
Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y lautet
fX ,Y (x, y ) = P(X = x, Y = y )
Die gemeinsame Verteilungsfunktion von X und Y lautet
FX ,Y (x, y ) = P(X ≤ x, Y ≤ y )
Beide sind also Funktion von R2 nach [0, 1]. Meist wird nur fX ,Y (x, y )
angegeben.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
43 / 52
Beispiel
Ein Lehrer bittet seine Schüler, eine (faire) Münze zweimal zu werfen, und
das Ergebnis (“Kopf” = 0, “Zahl” = 1) für jeden Wurf zu notieren. Sei X
das Ergebnis des ersten Wurfes und Y das Ergebnis des zweiten Wurfes.
Ein gewissenhafter Schüler folgt genau den Anweisungen des Lehrers
und notiert das Ergebnis XG und YG . Ein fauler Schüler wirft nur eine
Münze und notiert das erzielte Ergebnis zweimal: XF und YF .
Berechne die gemeinsame Wahrscheinlichkeitsfunktion von (XG , YG )
und von (XF , YF ).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
44 / 52
Randverteilungen
Gemeinsame Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion
charakterisieren die gemeinsame Verteilung von (X , Y ) vollständig.
Insbesondere kann man die Wahrscheinlichkeitsfunktion der
Randverteilung von X bzw. Y durch Summation berechnen:
X
fX (x) =
fX ,Y (x, y )
y
fY (y ) =
X
fX ,Y (x, y )
x
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
45 / 52
Bedingte Verteilungen
Die bedingte Verteilungsfunktion und bedingte Wahrscheinlichkeitsfunktion von X , gegeben Y = y , sind definiert für alle y mit
P(Y = y ) > 0:
P(X ≤ x, Y = y )
FX |Y (x|y ) = P(X ≤ x|Y = y ) =
P(Y = y )
P(X = x, Y = y )
fX |Y (x|y ) = P(X = x|Y = y ) =
P(Y = y )
fX ,Y (x, y )
=
fY (y )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
46 / 52
Folgerungen
Es gilt immer:
fX ,Y (x, y ) = fX |Y (x|y ) · fY (y )
= fY |X (y |x) · fX (x)
Es folgt: X und Y sind genau dann unabhängig wenn
fX |Y (x|y ) = fX (x)
oder
fY |X (y |x) = fY (y )
für alle x und y gilt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
47 / 52
Beispiel
fX ,Y (x, y ) y = −1 y = 0 y = 2
1
3
2
x =1
18
18
18
x =2
x =3
2
18
0
0
4
18
3
18
3
18
Man berechne die Randverteilungen fX (x) und fY (y ), die bedingten
Verteilungen fX |Y (x|y ) und fY |X (y |x) und untersuche X und Y auf
Unabhängigkeit.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
48 / 52
Beispiel II
Betrachte zwei unabhängige ZV X und Y , die beide Poisson-verteilt
sind mit Parameter λ bzw. µ.
Definiere Z = X + Y .
Man zeige: Die bedingte Verteilung von X |Z = z ist binomial mit
Parametern n = z und π = λ/(λ + µ):
X |Z = z ∼ B(z, π = λ/(λ + µ))
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
49 / 52
Allgemeine Zufallsvektoren
Allgemeiner kann man natürlich auch einen Zufallsvektor X = (X1 , . . . , Xn )
der Dimension n betrachten.
Dieser hat dann die Wahrscheinlichkeitsfunktion
fX (x) = fX1 ,...,Xn (x1 , . . . , xn )
und die Randverteilungen
fXi (xi ) =
X
fX1 ,...,Xn (x1 , . . . , xn )
xj :j6=i
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
50 / 52
Die Trinomialverteilung
Ein Experiment, bei dem ein von drei möglichen Ereignissen mit
Wahrscheinlichkeit π1 , π2 und π3 (π1 + π2 + π3 = 1) auftritt, wird
unabhängig voneinander n-mal wiederholt. Sei X ein drei-dimensionaler
Zufallsvektor, dessen i-te Komponente angibt, wie oft das i-te Ereignis
eingetreten ist.
Beispiel:
In einer Population mit Häufigkeiten π1 , π2 und π3 der Genotypen aa, ab
und bb wird eine Stichprobe vom Umfang n gezogen. Die Anzahlen X1 , X2
und X3 der drei Genotypen ist dann trinomialverteilt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
51 / 52
Die Trinomialverteilung II
Ein drei-dimensionaler diskreter Zufallsvektor X heißt trinomialverteilt,
falls er Träger
T = {x = (x1 , x2 , x3 ) : xi ∈ {0, 1, . . . , n} und x1 + x2 + x3 = n}
und Wahrscheinlichkeitsfunktion
n!
π1x1 π2x2 π3x3
fX (x) = fX1 ,X2 ,X3 (x1 , x2 , x3 ) =
x1 !x2 !x3 !
besitzt.
Man schreibt kurz: X ∼ M3 (n, π = (π1 , π2 , π3 ))
Hierbei steht M3 für Multinomialverteilung der Dimension 3.
Man kann zeigen, dass für die Randverteilungen gilt: Xi ∼ B(n, πi )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
52 / 52
5. Erwartungswerte, Varianzen und Kovarianzen
Zur Charakterisierung von Verteilungen unterscheidet man
Lagemaße
I
I
I
Erwartungswert (“mittlerer Wert”)
Modus
Median
und Streuungsmaße
I
I
Varianz und Standardabweichung
mittlere absolute Abweichung
Am einfachsten mathematisch zu handhaben sind Erwartungswerte und
Varianzen, da diese immer eindeutig und meist leicht zu berechnen sind.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 21
5.1 Der Erwartungswert einer diskreten ZV
Der Erwartungswert E(X ) = EX einer diskreten ZV X mit Träger T ist
definiert als
X
X
x · P(X = x) =
x · f (x)
E(X ) =
x∈T
x∈T
wenn diese Summe absolut konvergent ist.
Beachte: Man könnte die Summe auch über alle x ∈ R laufen lassen.
Beispiele für Erwartungswerte:
Bernoulli-Verteilung: Für X ∼ B(π) ist E(X ) = π.
Poisson-Verteilung: Für X ∼ P(λ) ist E(X ) = λ.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 21
Eigenschaften des Erwartungswertes
1
2
Sei X = a mit Wahrscheinlichkeit 1 (deterministische ZV).
Dann gilt:
EX = a
Seien a, b ∈ R und X , Y beliebige ZV. Dann gilt:
E(a · X + b · Y ) = a · EX + b · EY
“Linearität des Erwartungswertes”
3
Für beliebige a, b ∈ R gilt daher
E(aX + b) = a · E(X ) + b
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
3 / 21
Folgerungen
Allgemeiner gilt dann natürlich auch für beliebige a1 , . . . , an ∈ R und
beliebige ZV X1 , . . . , Xn :
!
n
n
X
X
E
ai Xi =
ai · E(Xi )
i=1
i=1
Daher gilt für X ∼ B(n, π): E(X ) = nπ
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 21
Erwartungswert von ZVn mit Träger N
Hat X den Träger T = N, so gilt:
E(X ) =
∞
X
P(X ≥ k)
k=1
Anwendung:
Erwartungswert der geometrischen Verteilung:
Ist X ∼ G (π) so gilt:
1
E(X ) =
π
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 21
Transformationsregel für Erwartungswerte
Sei X diskrete ZV und g (x) eine reelle Funktion. Dann gilt für Y = g (X ):
X
E(Y ) = E(g (X )) =
g (x) f (x)
x∈T
Beachte: Im Allgemeinen gilt nicht:
Esther Herberich und Matthias Schmid
E(g (X )) = g (E(X )) !
() Stochastik und Statistik
SS 2012
6 / 21
Beispiel
Sei X eine ZV mit folgender Wahrscheinlichkeitsfunktion

1/4 für x = −2



1/8 für x = −1
f (x) =
1/4 für x = 1



3/8 für x = 3
Berechne den Erwartungswert von E(X 2 )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 21
Transformationsregel für Erwartungswerte II
Transformationsregel gilt auch für Zufallsvektoren (X , Y ):
Seien X und Y zwei ZV mit gemeinsamer Wahrscheinlichkeitsfunktion
fXY (x, y ). Sei g (x, y ) eine reellwertige Funktion.
Dann gilt für Z = g (X , Y )
XX
E(Z ) = E(g (X , Y )) =
g (x, y ) fX ,Y (x, y ).
x
y
Speziell gilt daher:
E(X · Y ) =
XX
x
Esther Herberich und Matthias Schmid
x · y · fX ,Y (x, y )
y
() Stochastik und Statistik
SS 2012
8 / 21
5.2 Varianzen und Standardabweichungen
Die Varianz Var(X ) (auch V(X )) einer diskreten ZV ist definiert als:
Var(X ) = E[(X − EX )2 ]
“Erwartete quadratische Abweichung vom Erwartungswert”
Zur einfacheren Berechnung kann man häufig den Verschiebungssatz
verwenden:
Var(X ) = E(X 2 ) − [E(X )]2
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 21
Eigenschaften von Varianzen
1
Var(aX + b) = a2 · Var(X )
2
Sind X und Y unabhängig, so gilt:
für alle a, b ∈ R
Var(X + Y ) = Var(X ) + Var(Y )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 21
Die Standardabweichung
Die Standardabweichung einer diskreten ZV X ist definiert als die Wurzel
aus der Varianz:
p
σ = σ(X ) = + Var(X )
Im Gegensatz zur Varianz gilt für die Standardabweichung:
σ(aX + b) = |a| · σ(X )
Bemerkung:
Die mittlere absolute Abweichung E(|X − EX |) erscheint als Streuungsmaß
intuitiver, ist aber deutlich schwerer mathematisch zu handhaben.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 21
Beispiel: Binomialverteilung
Ist X ∼ B(n, π), so gilt für die Varianz:
0.15
0.10
0.00
0.05
π(1 − π)
0.20
0.25
Var(X ) = n · π · (1 − π)
0.0
0.2
0.4
0.6
0.8
1.0
π
Varianz der Bernoulliverteilung als Funktion von π
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 21
Ungleichung von Tschebyscheff
Als Maß für die Streuung einer Verteilung ist die Varianz
bzw. Standardabweichung einer ZV X schwer direkt zu interpretieren.
Es gilt aber zumindest folgende Ungleichung:
Var(X )
P(|X − E(X )| ≥ c) ≤
c2
Beispiel:
Sei E(X ) beliebig und Var(X ) = 1. Dann ist
P(|X − E(X )| ≥ 1) ≤ 1
P(|X − E(X )| ≥ 2) ≤
P(|X − E(X )| ≥ 3) ≤
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
1
4
1
9
SS 2012
13 / 21
5.3 Kovarianzen und Korrelationen
Als Maße für die lineare stochastische Abhängigkeit von zwei ZVn X und
Y definiert man die Kovarianz
Cov(X , Y ) = E[(X − EX )(Y − EY )]
und die Korrelation
Cov(X , Y )
p
ρ = ρ(X , Y ) = p
Var(X ) · Var(Y )
unter der Voraussetzung, dass Var(X ) > 0 und Var(Y ) > 0 gilt.
Beachte: Cov(X , X ) = Var(X )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 21
Der Verschiebungssatz für die Kovarianz
Es gilt zudem:
Cov(X , Y ) = E(XY ) − EX · EY
Beachte:
E(XY ) kann mit Transformationssatz für Erwartungswerte leicht über die
gemeinsame Wahrscheinlichkeitsfunktion fXY (x, y ) von X und Y
berechnet werden.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 21
Beispiel “revisited”
fX ,Y (x, y ) y = −1 y = 0 y = 2 fX (x)
1
3
2
6
x =1
18
18
18
18
2
18
x =2
x =3
0
3
18
fY (y )
0
4
18
7
18
3
18
3
18
8
18
5
18
7
18
Es ergibt sich:
E(XY )
=
EX
=
EY
=
29
18
37
18
13
18
Esther Herberich und Matthias Schmid



Cov(X , Y ) =


ρ =
() Stochastik und Statistik
29
18
−
37
18
√ 41
107413
·
13
18
=
41
324
= 0.125
SS 2012
16 / 21
Unkorreliertheit
X und Y heißen unkorreliert, wenn
Cov(X , Y ) = 0
d.h. wenn
gilt.
Beachte:
bzw. ρ(X , Y ) = 0
E(X · Y ) = EX · EY
Aus Unabhängigkeit folgt Unkorreliertheit aber der Umkehrschluss gilt im Allgemeinen nicht!
Man sagt:
X und Y sind positiv/negativ korreliert falls
ρ(X , Y ) > 0
Esther Herberich und Matthias Schmid
bzw. ρ(X , Y ) < 0
() Stochastik und Statistik
SS 2012
17 / 21
Beispiel
Seien X ∼ B(π = 12 ) und Y ∼ B(π = 12 ) unabhängig.
Betrachte

1
0
mit
Wkeit

4

Z1 = X + Y =
1 mit Wkeit 12


2 mit Wkeit 14


 −1 mit Wkeit
Z2 = X − Y =
0 mit Wkeit


1 mit Wkeit
1
4
1
2
1
4
Dann sind Z1 und Z2 zwar unkorreliert aber nicht unabhängig!
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
18 / 21
Eigenschaften von Korrelationen
Für alle ZVn X und Y gilt:
−1 ≤ ρ(X , Y ) ≤ 1
|ρ(X , Y )| = 1 gilt genau dann, wenn perfekte lineare Abhängigkeit
zwischen X und Y besteht:
Y =a+b·X
Esther Herberich und Matthias Schmid
für bestimmte a, b ∈ R mit b 6= 0
() Stochastik und Statistik
SS 2012
19 / 21
Lineare Transformationen
Seien a, b, c, d ∈ R mit b · d > 0 und X , Y beliebige ZVn. Dann gilt:
Cov(a + bX , c + dY ) = b · d · Cov(X , Y )
Daher gilt:
ρ(a + bX , c + dY ) = ρ(X , Y )
d.h. die Korrelation ist invariant bzgl. linearer Transformationen
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 21
Die Varianz der Summe von zwei ZVn
Seien X und Y beliebige ZVn. Dann gilt für X + Y :
Var(X + Y ) = Var(X ) + Var(Y ) + 2 · Cov(X , Y )
Daher gilt speziell für unabhängige X und Y :
Var(X + Y ) = Var(X ) + Var(Y )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
21 / 21
6. Elemente Statistischer Inferenz
Ziel der Statistik ist es, unter bestimmten Annahmen Aussagen über
unbekannte Parameter θ ∈ Θ zu machen, nachdem Beobachtungen X
gemacht wurden.
Dabei unterscheidet man
Punktschätzungen:
Was ist der “beste” Schätzwert θ̂ für den unbekannten Parameter θ?
Intervallschätzungen:
Angabe eines Vertrauensintervalls
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 51
Vertrauensintervalle
Zwei Arten:
Konfidenzintervalle überdecken mit einer gewissen Sicherheit den
unbekannten Parameter θ (bei hypothetischer Wiederholung des
Zufallsexperiments).
Beachte: θ fest, X zufällig
→ frequentistischer Wahrscheinlichkeitsbegriff
In einem Kredibilitätsintervall liegt der unbekannte Parameter mit
einer gewissen Wahrscheinlichkeit.
Beachte: θ zufällig, X fest
→ subjektivistischer Wahrscheinlichkeitsbegriff
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 51
Beispiele
1
Sei X ∼ B(n, π). Man beobachtet X = 7 bei n = 10 Versuchen.
I
I
2
Was ist der “beste” Schätzer π̂ für den unbekannten Parameter θ = π?
Wie lautet ein 95%-Vertrauensintervall?
Capture-Recapture Experiment:
Angenommen M = 100, n = 50 und X = 33.
I
Was ist der “beste” Schätzer N̂ für den unbekannten Parameter θ = N?
Beachte: N ≥ Nmin = max(M + n − x, n)
Beispiel 1:
Beispiel 2:
θ ∈ Θ = [0, 1]
θ ∈ Θ = {Nmin , Nmin + 1, . . .}
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
stetig
diskret
SS 2012
3 / 51
6.1 Likelihood-Inferenz
Wir haben die Wahrscheinlichkeitsfunktion f (x) einer ZV X in
Abhängigkeit von einem Parameter θ kennengelernt.
Beispiel:
n x
X ∼ B(n, π) ⇒
f (x) =
π (1 − π)n−x
|{z}
x
f (x; θ=π)
Betrachte nun f (x; θ) als Funktion von θ für festes X = x:
L(θ)
l(θ)
=
=
Esther Herberich und Matthias Schmid
f (x, θ)
log L(θ)
heißt Likelihoodfunktion
heißt Log-Likelihoodfunktion
() Stochastik und Statistik
SS 2012
4 / 51
Der Maximum-Likelihood-Schätzer
Idee:
Je größer die (Log-)Likelihoodfunktion L(θ) bzw. l(θ) als
Funktion von θ bei gegebenen Daten X = x ist, desto“plausibler” ist der entsprechende Wert von θ.
Optimal ist somit der Maximum-Likelihood (ML)-Schätzer θ̂ML , für den
gelten soll:
L(θ̂ML ) = max L(θ) θ ∈ Θ
bzw.
l(θ̂ML ) = max l(θ) θ ∈ Θ
Der (ML)-Schätzer θ̂ML maximiert also die (Log-)Likelihoodfunktion L(θ)
bzw. l(θ).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 51
Zur Berechnung des ML-Schätzers
in einfacheren Modellen analytisch möglich:
Ableitung der Log-Likelihood gleich Null setzen
Beispiel:
Binomialverteilung (in Vorlesung): π̂ML = x/n
ansonsten Verwendung numerischer Algorithmen:
I
Optimierung, z.B. Funktionen optim() und optimize() in R
I
EM-Algorithmus
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
6 / 51
ML-Inferenz im Capture-Recapture-Experiment I
Im Capture-Recapture Beispiel lautet die Wahrscheinlichkeitsfunktion:
M N−M
f (x) =
x
n−x
N
n
Dabei sind M und n bekannt. Bei beobachteter Stichprobe X = x lautet
die Likelihoodfunktion für den unbekannten Parameter N
M N−M
L(θ = N) =
x
n−x
N
n
unter der Restriktion, dass N ≥ max(M + n − x, n).
Im Unterschied zum vorhergehenden Abschnitt ist der unbekannte
Parameter N nun ganzzahlig.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 51
ML-Inferenz im Capture-Recapture-Experiment II
Man kann zeigen, dass für x > 0 und N̂naive = Mn
x 6∈ N gilt:
o
n
Mn
N̂ML = trunc
= trunc N̂naive
x
Im Fall N̂naive ∈ N ist der ML-Schätzer i.A. nicht eindeutig: dann wird die
Likelihood sowohl durch N̂naive als auch durch N̂naive − 1 maximiert.
Den “naiven” Schätzer N̂naive kann man als ML-Schätzer unter Verwendung
der Binomialapproximation zur hypergeometrischen Verteilung herleiten.
→ Vorlesung
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 51
ML-Inferenz im Capture-Recapture-Experiment III
Zahlenbeispiele:
M
n
x
100 50 33
100 50 41
7
23 4
25 30 10
13 10 5
In den beiden Extremfällen erhält
M
n
100 50
100 50
Esther Herberich und Matthias Schmid
N̂ML
N̂naive
151
151.51
121
121.95
40
40.25
74 und 75
75
25 und 26
26
man:
x N̂ML N̂naive
0
∞
∞
50 100
100
() Stochastik und Statistik
SS 2012
9 / 51
Invarianz des ML-Schätzers
Wichtige und nützliche Eigenschaft des ML-Schätzers!
Sei θ̂ML der ML-Schätzer für θ und ϕ = ϕ(θ) eine beliebige (eineindeutige)
Funktion von θ. Dann ist der ML-Schätzer von ϕ:
ϕ̂ML = ϕ(θ̂ML )
Beispiel:
Bestimmung des ML-Schätzers für die Chance γ =
Binomialexperiment:
γ̂ML
x
π̂ML
=
= n
1 − π̂ML
1−
x
n
π
1−π
im
x
=
n−x
Dies könnte man auch direkt zeigen! Dauert aber viel länger.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 51
Das Testproblem
Wir sind nun daran interessiert, Aussagen darüber zu treffen, in welchen
Teilmengen des Parameterraumes Θ sich der feste, aber unbekannte,
Parameter θ ∈ Θ mutmaßlich befindet.
Dazu unterteilen wir den Parameterraum Θ in zwei disjunkte Teilmengen
Θ0 und Θ1 mit Θ = Θ0 ∪ Θ1 , wobei Θ0 ∩ Θ1 = ∅. Es ist nun eine
Entscheidungsregel gesucht, für welche der beiden Zustände θ ∈ Θ0 oder
θ ∈ Θ1 wir uns basierend auf einem Experiment (also Daten
X = (X1 , . . . , Xn )) entscheiden sollen.
Θ0 heißt Hypothese oder Null-Hypothese. Θ1 heißt Alternative. Die
Formulierung
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
heißt Testproblem.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 51
Der statistische Test
Eine Entscheidungsregel, uns zwischen H0 bzw. H1 zu entscheiden, nennt
man einen statistischen Test.
Eine Funktion ψ : Rn → {0, 1} heißt Test für H0 gegen H1 . Wenn für den
Erwartungswert der Funktion ψ gilt: E(ψ) = P(ψ = 1) ≤ α, α ∈ [0, 1], für
alle θ ∈ Θ0 (also in der Null-Hypothese), so heißt ψ Niveau-α-Test.
Fehlerarten:
H0 richtig und ψ = 0: OK!
H1 richtig und ψ = 1: OK!
H0 richtig und ψ = 1: Fehler 1. Art!
H1 richtig und ψ = 0: Fehler 2. Art!
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 51
Test und Teststatistik
Ein Test ψ ist von der Form
ψ(X) = I (T (X) ∈ C)
Die Funktion T : Rn → R heißt Teststatistik und die Menge C heißt
kritische Region (Ablehnungsbereich) des Tests.
Der kritische Bereich kann so bestimmt werden, dass ψ ein Niveau-α-Test
ist. Es gilt:
E0 (ψ(X) = 1) = P0 (ψ(X) = 1) = I (T (X) ∈ C) ≤ α.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
13 / 51
Ablehnungsbereich
In der Regel lautet der Test ψ:
ψ(X) = I (T (X) > c1−α )
falls große Werte von T (X) gegen H0 sprechen.
ψ(X) = I (T (X) < cα )
falls kleine Werte von T (X) gegen H0 sprechen.
ψ(X) = I (T (X) < cα/2 oder T (X) > c1−α/2 )
falls große und kleine Werte von T (X) gegen H0 sprechen.
Die Schranken sind die Quantile der Verteilung von T (X) wenn θ ∈ Θ0 .
c1−α : 1 − α-Quantil.
cα : α-Quantil
cα/2 : α/2-Quantil
c1−α/2 : 1 − α/2-Quantil
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 51
Beispiel: Faire Münze
1
1
H0 : π = vs. H1 : π 6=
2
2
Teststatistik T (x) = x; lehne die Null-Hypothese ab, wenn x zu groß oder
zu klein ist (zweiseitiger Test).
Der Ausgang unseres Experimentes sei x = 7 bei n = 10. Wir bestimmen
jetzt das α/2-Quantil und das 1 − α/2-Quantil der Verteilung von T (x)
unter H0 , also der Verteilung B(n, 0.5) für α = 0.05:
> qbinom(0.05/2, size = 10, prob = 0.5)
[1] 2
> qbinom(1 - 0.05/2, size = 10, prob = 0.5)
[1] 8
Damit können wir H0 nicht ablehnen, da x = 7 weder zu klein (kleiner 2)
noch zu groß (größer 8) ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 51
Likelihood-Quotienten-Tests
Eine formale Möglichkeit, Teststatistiken zu konstruieren, ist die
Anwendung des Likelihood-Quotienten-Prinzips: Der Quotient
max L(θ)
Θ0
max L(θ)
Θ
=
max L(θ)
Θ0
L(θ̂ML )
heißt Likelihood-Quotient und steht in engem Zusammenhang zur
normierten (Log)-Likelihoodfunktion.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 51
Die normierte Likelihoodfunktion
Den Wert der (Log-) Likelihoodfunktion L(θ) bzw. l(θ) am ML-Schätzer
kann man nicht interpretieren. Daher verwendet man gerne die normierte
(Log-) Likelihoodfunktion:
L̃(θ) =
L(θ)
L(θ̂ML )
l̃(θ) = l(θ) − l(θ̂ML )
Es gilt: 0 ≤ L̃(θ) ≤ 1 und −∞ ≤ l̃(θ) ≤ 0
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 51
Likelihood-Intervalle
Zur Bestimmung von Konfidenzintervallen muss man nun entscheiden,
welche Werte von l̃(θ) zu “unplausibel” sind.
Man kann unter bestimmten Annahmen zeigen, dass für einen bestimmten
Schwellenwert c = c(α)
{θ : l̃(θ) ≥ c}
bzw. {θ : L̃(θ) ≥ exp(c)}
ein Konfidenzintervall für θ (Likelihood-Intervall) zum approximativen
Niveau 1 − α ist.
Interpretation: Bei hypothetischer Wiederholung des zugrundeliegenden
Zufallsexperiments überdecken die so konstruierten Likelihood-Intervalle in
ungefähr (1 − α) · 100% aller Fälle den unbekannten Parameter θ.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
18 / 51
Likelihood-Intervalle II
Die Werte von c sind folgender Tabelle zu entnehmen:
1−α
0.9
0.95
0.99
c
−1.33
−1.92
−3.32
exp(c)
0.259
0.147
0.036
Die Bestimmung von Likelihood-Intervallen ist nur numerisch möglich, dort
aber einfach durchzuführen.
Likelihood-Intervalle sind (wie der ML-Schätzer) invariant bzgl. monotonen
Transformationen des Parameters.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
19 / 51
Beispiel: Binomialverteilung
Sei X ∼ B(n, π) mit n = 10 und x = 7.
Damit erhält man als ML-Schätzer: π̂ML = 0.7
1 − α Likelihood-Intervall für π
0.9
[0.44; 0.89]
0.95
[0.39; 0.92]
0.99
[0.30; 0.95]
Beachte: Die Konfidenzintervalle sind i.A. nicht symmetrisch um π̂ML .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 51
0.6
0.20
0.4
~
L(π)
0.15
0.0
0.00
0.2
0.05
0.10
L(π)
α = 0.1
α = 0.05
α = 0.01
0.8
0.25
1.0
Beispiel: Binomialverteilung (n = 10, x = 7)
0.2
0.4
0.6
0.8
1.0
0.2
0.4
1.0
Linien verdeutlichen
Likelihood-Intervalle zu
unterschiedlichen Niveaus.
α = 0.1
α = 0.05
α = 0.01
~
l (π)
−6
−6
−5
−5
−4
−3
−2
−1
−2
−3
−4
l(π)
0.8
π
0
π
0.6
0.4
0.6
0.8
π
0.2
0.4
0.6
0.8
1.0
π
Likelihood (oben links), normierte Likelihood
(oben rechts), Loglikelihood (unten links) und
normierte Loglikelihood (unten rechts)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
21 / 51
α = 0.1
α = 0.05
α = 0.01
0.6
~
L(π)
0.4
0.04
0.0
0.00
0.2
0.02
L(π)
0.06
0.8
0.08
1.0
Beispiel: Binomialverteilung (n = 100, x = 70)
0.2
0.4
0.6
0.8
1.0
0.2
0.4
0.6
1.0
π
Linien verdeutlichen
Likelihood-Intervalle zu
unterschiedlichen Niveaus.
α = 0.1
α = 0.05
α = 0.01
−3
−4
~
l (π)
−4.0
−6
−6.0
−5
−5.0
l(π)
−2
−1
−3.0
0
π
0.8
0.60
0.65
0.70
0.75
0.80
π
0.55
0.60
0.65
0.70
0.75
0.80
0.85
π
Likelihood (oben links), normierte Likelihood
(oben rechts), Loglikelihood (unten links) und
normierte Loglikelihood (unten rechts)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 51
1.0
Beispiel: Binomialverteilung (n = 1000, x = 700)
0.0
0.000
0.2
0.010
0.4
L(π)
~
L(π)
0.6
0.020
0.8
α = 0.1
α = 0.05
α = 0.01
0.2
0.4
0.6
0.8
1.0
0.2
0.4
1.0
0
Linien verdeutlichen
Likelihood-Intervalle zu
unterschiedlichen Niveaus.
α = 0.1
α = 0.05
α = 0.01
~
l (π)
−6
−6.0
−5
−5.5
−4
−3
−2
−1
−4.0
−4.5
−5.0
l(π)
0.8
π
−3.5
π
0.6
0.67
0.68
0.69
0.70
0.71
0.72
0.73
π
0.66
0.68
0.70
0.72
0.74
π
Likelihood (oben links), normierte Likelihood
(oben rechts), Loglikelihood (unten links) und
normierte Loglikelihood (unten rechts)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
23 / 51
Quadratische Approximation der Log-Likelihood
Man kann mit Hilfe einer Taylorreihendarstellung um θ̂ML zeigen, dass die
normierte Loglikelihoodfunktion l̃(θ) approximativ eine quadratische
Funktion ist:
1 00
l̃(θ) ≈ · l (θ̂ML ) · (θ − θ̂ML )2
2
Hier ist l 00 (θ̂ML ) (= l̃ 00 (θ̂ML )!) die zweite Ableitung (die Krümmung) von
l(θ), ausgewertet am ML-Schätzer.
Beachte: Die quadratische Approximation wird umso besser, je mehr
Daten der Likelihood zugrundeliegen.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
24 / 51
Beispiel: Binomialverteilung
−6 −5 −4 −3 −2 −1
−6 −5 −4 −3 −2 −1
0
(70, 100)
0
(7, 10)
0.6
0.8
1.0
0.55
0.60
0.65
0.70
0.75
π
π
(700, 1000)
(7000, 10000)
0.80
0.85
−6 −5 −4 −3 −2 −1
−6 −5 −4 −3 −2 −1
0
0.4
0
0.2
0.66
0.68
0.70
0.72
0.74
0.685
0.690
0.695
0.700
0.705
0.710
0.715
Vergleich der normierten Loglikelihood mit der quadratischen
Approximation für X ∼ B(n, π):
π
π
n = 10, X = 7 (oben links), n = 100, X = 70 (oben rechts),
n = 1000, X = 700 (unten links) und n = 10000, X = 7000 (unten rechts)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
25 / 51
Der Standardfehler
Durch Einsetzen der quadratischen Approximation für l̃(θ) in
{θ : l̃(θ) ≥ c}
erhält man
θ̂ML ±
√
−2c ·
rh
i−1
−l 00 (θ̂ML )
als Konfidenzintervall (Wald-Intervall) zum approximativen Niveau 1 − α.
Daher definiert man den Standardfehler (“Standard Error”) als
rh
i
SE (θ̂ML ) :=
Esther Herberich und Matthias Schmid
−l 00 (θ̂
() Stochastik und Statistik
ML )
−1
SS 2012
26 / 51
Wald-Intervalle
Das Wald-Intervall zum Niveau 1 − α ist also:
θ̂ML ± d · SE (θ̂ML )
Die Werte von d sind folgender Tabelle zu entnehmen:
√
c
d = −2c
1−α
0.9
−1.33
1.65
0.95 −1.92
1.96
0.99 −3.32
2.58
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
27 / 51
Standardfehler
Der Standardfehler des ML-Schätzers
rh
SE (θ̂ML ) :=
i−1
−l 00 (θ̂ML )
kann als Schätzung der Standardabweichung des ML-Schätzers (im
frequentistischen Sinne) angesehen werden.
h
i−1
Ebenso ist −l 00 (θ̂ML )
eine Schätzung der Varianz des ML-Schätzers.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
28 / 51
Eigenschaften von Wald-Intervallen
Wald-Intervalle sind immer symmetrisch um den ML-Schätzer;
Invarianzeigenschaft geht verloren
Wald-Intervalle sind einfacher zu berechnen als Likelihood-Intervalle,
haben aber (leicht) schlechtere theoretische Eigenschaften
im Beispiel (nächste Folie):
offensichtliches Problem für 1 − α = 0.99: obere Grenze ist größer als
1!
für n groß werden Wald-Intervalle Likelihood-Intervallen immer
ähnlicher
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
29 / 51
Beispiel: Binomialverteilung
Es ergibt sich
r
SE (π̂ML ) =
Beispiel:
π̂ML (1 − π̂ML )
n
Für X = 7 und n = 10 ergibt sich: SE (π̂ML ) = 0.145
; Tabelle mit Wald-Intervallen:
1−α
0.9
0.95
0.99
Esther Herberich und Matthias Schmid
Wald-Intervall
[0.46; 0.94]
[0.42; 0.98]
[0.33; 1.07]
() Stochastik und Statistik
SS 2012
30 / 51
6.2 Erwartungstreue
Eine wünschenswerte Eigenschaft von Punktschätzern (im frequentistischen Sinne) ist die Erwartungstreue:
Ein Schätzer θ̂ (als Funktion der zufälligen Stichprobe X ) heißt
erwartungstreu oder unverzerrt für einen unbekannten Parameter θ,
falls gilt:
E (θ̂) = θ
Beispiel:
Die relative Häufigkeit π̂ = X /n ist ein erwartungstreuer
Schätzer der Wahrscheinlichkeit π im Binomialverteilungsmodell.
(Herleitung in Vorlesung)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
31 / 51
Bemerkungen zur Erwartungstreue
Die Erwartungstreue ist nicht invariant bzgl. monotonen
Transformationen! Das heißt, ist θ̂ erwartungstreu für θ, so ist g (θ̂)
im Allgemeinen nicht erwartungstreu für g (θ).
Die Existenz von erwartungstreuen Schätzern ist nicht gesichert.
Erwartungstreue Schätzer sind nicht notwendigerweise Element des
Parameterraums Θ.
ML-Schätzer sind nicht immer erwartungstreu, zumindest aber
asymptotisch erwartungstreu, d.h. für wachsenden Stichprobenumfang
im Grenzwert erwartungstreu.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
32 / 51
Beispiel: Taxis in Lübeck I
Alle Taxis in Lübeck seien von 1, . . . , N durchnummeriert. Ein Besucher
sieht an einem Taxistand n = 3 Taxis und fragt nach deren Nummern:
Y = {Y1 , . . . , Yn }
Wie kann er daraus einen erwartungstreuen Schätzer für θ = N berechnen?
Betrachte X = max(Y ).
Man kann zeigen (Vorlesung), dass
n+1
max(Y ) − 1
N̂ =
n
ein erwartungstreuer Schätzer für N ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
33 / 51
Beispiel: Taxis in Lübeck II
Die Likelihoodfunktion ist
(N − n)!
L(N) = const ·
für N = x, x + 1, . . .
N!
Diese wird maximiert für N = x! Das heißt der ML-Schätzer für N ist
max(Y ), der kleinstmögliche Wert!
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
34 / 51
6.3 Bayes-Inferenz
alternativer Ansatz zur statistischen Inferenz
basiert auf subjektivistischem Wahrscheinlichkeitskonzept
unbekannter Parameter θ ist nun eine Zufallsvariable, versehen mit
einer Wahrscheinlichkeitsfunktion f (θ)
wir können zunächst nur diskrete Parameter behandeln
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
35 / 51
Satz von Bayes für Wahrscheinlichkeitsfunktionen
Seien X und Y zwei Zufallsvariablen mit gemeinsamer
Wahrscheinlichkeitsfunktion fX ,Y (x, y ) und daraus abgeleiteten
Wahrscheinlichkeitsfunktionen fX (x), fY (y ), fX |Y (x|y ) und fY |X (y |x).
Dann gilt für alle x und alle y mit f (y ) > 0:
fY |X (y |x)fX (x)
fY |X (y |x)fX (x)
=P
fX |Y (x|y ) =
fY (y )
x fY |X (y |x)fX (x)
Dies folgt direkt aus der Definition der bedingten Wahrscheinlichkeitsfunktion.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
36 / 51
Bayes-Inferenz
Sei X = x eine Beobachtung eines Zufallsexperiments, das von einem
unbekannten Parameter θ ∈ Θ abhängt, wobei Θ abzählbar sei.
Dann gilt mit dem Satz von Bayes für Wahrscheinlichkeitsfunktionen:
f (x|θ)f (θ)
f (x|θ)f (θ)
=P
f (θ|x) =
f (x)
θ f (x|θ)f (θ)
Beachte:
Da X = x beobachtet wurde, muss automatisch
P(X = x) > 0 gelten.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
37 / 51
Beispiel: Posteriori-Verteilung im Binomialexperiment
Angenommen wir interessieren uns für den Parameter θ = π, nehmen aber
an, dass nur Werte in Π = {0.00, 0.02, 0.04, . . . , 0.98, 1.00} erlaubt sind.
Als Priori-Verteilung f (π) können wir z.B. eine Gleichverteilung auf den
51 Elementen von Π wählen, also f (π) = 1/51 für alle π ∈ Π.
Nach der Beobachtung X = x aus einer B(n, π)-Verteilung ergibt sich die
Posteriori-Verteilung
f (x|π)f (π)
f (π|x) = P
π f (x|π)f (π)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
38 / 51
Beispiel: Binomialverteilung (n = 5)
0.4
0.6
0.8
1.0
0.4
0.6
0.8
0.12
0.08
0.04
1.0
0.0
0.2
0.4
0.6
X=5
Posteriori
Priori
Dichte
●● ●●●● ● ● ●
●●●
●●
●●
●●
●●
●●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●
●●
●●
●
●●
●●●
●
●
● ●●
●●●●● ●●
0.4
0.6
0.8
π
1.0
●
●
●
●●
Posteriori
Priori
● ●● ●● ● ●
●
●
●
●
●●
●●
●
●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●
●●
●
●
●
●●●
●
●
●●
●●●●●●●●●●● ●●
●
0.0
0.2
0.4
0.6
0.8
0.12
X=4
0.12
X=3
●
0.2
0.2
π
0.08
0.04
0.00
0.0
1.0
Posteriori
Priori
● ● ●●●●●● ● ● ●
●●
●●
●●
●●
●●
●●
●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●
●
●
●●
●
●●●
●●
● ●● ●●●
●●●
●● ●
π
●
0.0
● ●●●● ● ●
●●
●●
●
●●
●
●●
●●
●
●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●
●●●
● ● ● ●●
●● ●●●● ●●●●●●●●
●
●
π
0.12
0.2
0.00
●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●●●
● ● ●● ●●
●●● ●●●●●●●●● ●●●●●●●●●●●
0.00
●
●
0.8
1.0
●
●
Posteriori
●
Priori ●
●
0.08
●
0.04
●
0.00
●
Posteriori
Priori
Dichte
●
●
Dichte
●
●
0.08
0.04
Dichte
●
0.04
0.08
●
●
0.00
Dichte
●
0.0
Dichte
Posteriori
Priori
0.08
●
●
0.04
●
●
X=2
0.12
X=1
0.00
0.12
X=0
●
●
●
●
●
●
●
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●
●
●●●
●●●●
●●●●●●●●●●●●●●●●●●● ●●● ●● ●●
0.0
0.2
π
0.4
0.6
0.8
1.0
π
Posteriori-Verteilung im Binomialexperiment für X ∼ B(5, π) bei
Priori-Gleichverteilung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
39 / 51
Eine Dreiecksverteilung als Priori-Verteilung
Idee: favorisiere Werte von π nahe bei 0.5
Wähle z.B.
1
f (π) = {26 − 25 · |2 · π − 1|}
C
für π ∈ {0.00, 0.02, 0.04, . . . , 0.98, 1.00} und C =
Bemerkung: C ist so gewählt, dass
Esther Herberich und Matthias Schmid
P
π
1
676 .
f (π) = 1 gilt.
() Stochastik und Statistik
SS 2012
40 / 51
Beispiel: Binomialverteilung (n = 5)
●
●●
0.4
●●●
●●
●●
●●
●●
●●
●●
●●
●●
●● ●●● ●●●●●●●●●●●●●●
0.6
0.8
●●
●
●
0.2
●●
●
0.4
●
●
●●
●
●●
●●
●●
●●
●●
0.08
0.06
●●
● ● ●●
0.6
●●
●●
●●
●●
●●
●●●● ●●●●●●●
0.8
0.04
●
Dichte
●●
1.0
●
●
●
●●
●
●●
●●●●
●
●
●
●●
●●●
●● ●
●● ●●
●●
●
●
●●● ● ●
0.0
0.2
●
●●
●
●
●
●●●● ●
●●
●
●
0.4
0.06
●● ● ●
●●
●
●
● ●● ●●
●
●●
●●
●
●
0.4
●
●●
0.6
●
●
●●
●
●
●●●●
●●
●
●
●●●
● ●●
●
●
●● ●●
●● ●●●
●● ●●
0.8
π
1.0
Posteriori
Priori
●
●
●
●●
●●
●
●●
●●
●
●
●●
0.2
●
●
●
●
●●
●
●●
●●
●●
●●
●
●●●●●●●●●● ●● ● ●
0.0
●
●
●●●
●● ● ●●
●
●
●●
●●
● ● ●●● ● ●
●●
●
0.4
0.6
●●
●
●
●
●
●
●●
●
●●
●●
●
●●
●
●● ●
●●●
●
0.8
●●
●●
●
1.0
●
●●●
● ●●●
●●
●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●●
● ● ●●
●●●●●●
0.6
X=5
Posteriori
Priori
0.8
●
●
●
●●
●●
●
●●
●●
●
●●
●
●● ●●●
●●
●
●
●
●●
●●
●●
●●
●●●
●
●●●●●●●●●●●●●●● ●● ●●
0.0
0.2
π
Posteriori
Priori
● ● ●●
X=4
●
0.04
Dichte
0.02
●●
●●
X=3
●
0.00
0.0
●
●
● ●●●
●●●
●●
●●
●
π
●
0.2
1.0
●
●
●●
●
●●
●
π
●
0.0
●
●
●
●
●
π
●
●●
●
●●
●● ●●
●●
●
●●
●
●
●●
●
●
●●
●●
●●
●●
●●
●
●●●●●● ●● ●
0.06
●●
● ●
● ●
●● ● ●●
0.02
●●
●●
●
0.00
●
●●
●●
0.08
0.2
●
●●●● ●
●
0.06
●●
●
●●
●
0.04
●●
●●●
●●●
●
●
0.02
●●
●
0.08
0.0
●●
●●
●
●
0.00
●●
●●
●●
●
Dichte
●
●
●●
●
●●
0.02
●
●
●●●
0.00
●
●
0.08
●
●
0.06
●
Posteriori
Priori
●
0.04
●
0.02
●
0.00
● ●● ● ●
Dichte
0.00
●
●
Posteriori
Priori
Dichte
0.04
●
0.02
Dichte
0.06
●
0.04
●
X=2
0.08
X=1
0.08
X=0
●●
0.4
●
●
●
●
●
●
●
●●●
●●●●
●
●●
0.6
●
●
●●
1.0
Posteriori
Priori
● ●● ●
●
●
●
●
●
●●
●●
●●
0.8
●●
●
●●
●●
●●
1.0
π
Posteriori-Verteilung im Binomialexperiment für X ∼ B(5, π) bei
Priori-Dreiecksverteilung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
41 / 51
Bayesianische Punktschätzer
Als Punktschätzer bietet sich nun ein Lageparameter der
Posteriori-Verteilung an, z.B. der
P
Posteriori-Erwartungswert θ̂Erw = E (θ|x) =
θf (θ|x)
θ∈Θ
Posteriori-Modus θ̂Mod = arg max f (θ|x)
θ∈Θ
Posteriori-Median θ̂Med = min{θ ∈ Θ : F (θ|x) ≥ 0.5}
wobei F (θ|x) die Verteilungsfunktion der Posteriori-Verteilung mit
Wahrscheinlichkeitsfunktion f (θ|x) ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
42 / 51
Posteriori-Modus bei Priori-Gleichverteilung
Bei Priori-Gleichverteilung ist der Posteriori-Modus θ̂Mod gleich dem
ML-Schätzer θ̂ML , da
f (x|θ)f (θ)
f (x|θ)
P
P
f (θ|x) =
=
θ f (x|θ)f (θ)
θ f (x|θ)
P
Da der Nenner θ f (x|θ) nicht von θ abhängt, folgt:
θ̂Mod = arg max f (θ|x) = arg max f (x|θ) = θ̂ML
θ∈Θ
Esther Herberich und Matthias Schmid
θ∈Θ
() Stochastik und Statistik
SS 2012
43 / 51
Bayesianische Punktschätzer im Beispiel
Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sich
folgende Punktschätzer bei Beobachtung von X = x Erfolgen bei n = 5
Versuchen:
x
0.00
1.00
2.00
3.00
4.00
5.00
Erwartungswert
G
D
0.13
0.23
0.29
0.35
0.43
0.45
0.57
0.55
0.71
0.65
0.87
0.77
Esther Herberich und Matthias Schmid
Modus
G
D
0.00 0.16
0.20 0.32
0.40 0.50
0.60 0.50
0.80 0.68
1.00 0.84
() Stochastik und Statistik
Median
G
D
0.10 0.22
0.26 0.34
0.42 0.46
0.58 0.54
0.74 0.66
0.90 0.78
SS 2012
44 / 51
Bayesianische Intervallschätzer
Prinzipiell ist jede Teilmenge A des Trägers Θ, für die gilt
X
f (θ|x) ≥ 1 − α
θ∈A
eine Kredibilitätsregion (bzw. -intervall) zum Niveau 1 − α.
Zusätzlich kann man noch fordern, dass für alle θ1 ∈ A und
θ2 ∈ Θ \ A gelten muss:
f (θ1 |x) ≥ f (θ2 |x)
⇒ “highest posterior density region” (HPD-Region)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
45 / 51
Berechnung von HPD-Regionen
1
2
Sortiere die Werte der Posteriori-Verteilung f (θ|x) der Größe
nach (absteigend).
Summiere die Werte kumulativ auf (Funktion cumsum() in R),
bis die Summe größer als das Niveau 1 − α ist.
⇒ Die entsprechenden Werte von θ definieren dann eine HPD-Region.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
46 / 51
HPD-Regionen im Beispiel
Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sich
folgende 95% HPD-Regionen bei Beobachtung von X = x Erfolgen bei
n = 5 Versuchen:
x
0
1
2
3
4
5
Esther Herberich und Matthias Schmid
95% HPD-Region für π
G
D
[0.00;0.36] [0.00;0.46]
[0.02;0.56] [0.08;0.60]
[0.12;0.74] [0.18;0.72]
[0.26;0.88] [0.28;0.82]
[0.44;0.98] [0.40;0.92]
[0.64;1.00] [0.54;1.00]
() Stochastik und Statistik
SS 2012
47 / 51
Beispiel: Capture-Recapture-Experiment
Betrachte den unbekannten Parameter θ = N als diskrete ZV mit Träger
T = {M, M + 1, . . . , Ymax }
Beachte:
Vor der Beobachtung X = x (bei bekanntem n!) weiss man
nur, dass mindestens M Fische im See schwimmen.
Lege nun eine Priori-Verteilung fest, z.B. eine Gleichverteilung
f (N) für N ∈ T
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
48 / 51
Posteriori-Verteilung im Capture-Recapture-Experiment
Berechne Posteriori-Wahrscheinlichkeitsfunktion:
f (x|N)f (N)
f (x|N)f (N)
f (N|x) =
=P
f (x)
N f (x|N)f (N)
Beachte:
Erst nach der Beobachtung X = x weiss man, dass mindestens M + n − x Fische im See schwimmen, da die Likelihood
f (x|N) = 0 ist für x < M + n − N, also für N < M + n − x.
Weiterhin muss n ≤ N gelten.
Also hat die Posteriori-Verteilung f (θ|x) den Träger
T = {max(M + n − x, n), max(M + n − x, n) + 1, . . . , Ymax }
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
49 / 51
Graphische Darstellung der Posteriori-Verteilung
Priori-Verteilung:
Gleichverteilung
Berechnet:
I
Modus,
I
Median und
I
Erwartungswert
der Posteriori-Verteilung und die HPD-Region, die hier ein Intervall ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
50 / 51
Beispiel
0.010
Priori
0.020
Priori Verteilung
0.000
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0
50
100
150
200
250
N
Mod Erw
●
●
●
●
●
●
●●
●●●
●●
●
●
●
Med
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.010
Posteriori
0.020
Posteriori Verteilung
Bei der Posteriori-Verteilung
werden folgende
Punktschätzer durch Linien
verdeutlicht. Die
95%-HPD-Region stellen die
äußeren Linien dar.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.000
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●●
●●
●●
●●
●●●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0
50
●
●
●
100
150
●●●
●●●
●●●●
●●●●
●●●●●
●●●●●●
●●●●●●●●
●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●
200
●●●●●●●●●●●●●●●●●●●●●●●●●●
250
N
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
51 / 51
7. Markov-Ketten
Benannt nach Andrei A. Markov [1856-1922]
Einige Stichworte:
Markov-Ketten
I
Definition
I
Eigenschaften
I
Konvergenz
Hidden Markov Modelle
I
Motivation und Inferenz
I
Baum-Welch-Algorithmus
I
Viterbi-Algorithmus
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 55
7.1 Definition und Eigenschaften von Markov-Ketten
Sei X = (X0 , X1 , X2 , . . .) eine Folge von diskreten Zufallsvariablen, die alle
Ausprägungen in einer endlichen bzw. abzählbaren Menge S haben.
S heißt der Zustandsraum und s ∈ S ein Zustand.
X heißt Markov-Kette (MK), falls
P(Xn = s|X0 = x0 , X1 = x1 , . . . , Xn−1 = xn−1 )
= P(Xn = s|Xn−1 = xn−1 )
für alle n ≥ 1 und alle s, x0 , x1 , . . . , xn−1 ∈ S.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 55
Interpretation
Bedingt auf die gesamte Vergangenheit X0 , X1 , . . . , Xn−1 des Prozesses X
hängt Xn nur vom letzten Wert Xn−1 ab.
Darstellung mit Pfeilen in einem graphischen Modell:
X0 → X1 → X2 → . . . → Xn−1 → Xn
Anders ausgedrückt:
Bedingt auf die Gegenwart (Xn−1 ) ist die Zukunft des Prozesses
(Xn , Xn+1 , . . .) unabhängig von seiner Vergangenheit (X0 , X1 , . . . , Xn−2 ).
→ Begriff der bedingten Unabhängigkeit
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
3 / 55
Bedingt unabhängige Zufallsvariablen
Zwei diskrete Zufallsvariablen X und Y heißen bedingt unabhängig
gegeben Z , wenn für die entsprechend definierten
Wahrscheinlichkeitsfunktionen gilt:
fX ,Y |Z (x, y |z) = fX |Z (x|z) · fY |Z (y |z)
für alle x, y und z.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 55
Übergangswahrscheinlichkeiten
Die Entwicklung einer Markov-Kette X ist gekennzeichnet durch die
(Ein-Schritt) Übergangswahrscheinlichkeiten
P(Xn+1 = j|Xn = i)
für alle i, j ∈ S.
Man nennt eine Markov-Kette homogen, wenn diese nicht von n
abhängen und definiert
pij = P(Xn+1 = j|Xn = i) = P(X1 = j|X0 = i)
für alle n ≥ 1 und alle i, j ∈ S.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 55
Die Übergangsmatrix
Die Werte pij werden in einer |S| × |S|-Matrix P zusammengefasst, der
sogenannten Übergangsmatrix. P beschreibt also die Kurzzeitentwicklung
einer homogenen Markov-Kette X.
P ist eine stochastische Matrix, d.h. sie hat folgende Eigenschaften:
1
2
pij ≥ 0
P
j
pij = 1
für alle i, j ∈ S
für alle i ∈ S
Esther Herberich und Matthias Schmid
⇒ “Zeilensummen gleich eins”
() Stochastik und Statistik
SS 2012
6 / 55
Beispiele
1.Beispiel:
Telephon besetzt / frei mit S = {0, 1} und
0.9 0.1
P=
0.4 0.6
2.Beispiel:
Der Zustandsraum umfasst die vier Basen der DNA (Adenin,
Cytosin, Guanin, Thymin): S = {A, C , G , T }.
Die geschätzte Übergangsmatrix beim “Ablaufen” der DNA
ist


0.300 0.205 0.285 0.210
 0.322 0.298 0.078 0.302 

P=
 0.248 0.246 0.298 0.208 
0.177 0.239 0.292 0.292
Durbin et al. (1998) “Biological sequence analysis”, p. 50
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 55
Die n-Schritt-Übergangsmatrix
Die Langzeitentwicklung einer Markov-Kette X ist durch die n-SchrittÜbergangsmatrix P(m, m + n) mit Elementen
pij (m, m + n) = P(Xm+n = j|Xm = i)
bzw.
pij (n) = P(Xn = j|X0 = i)
gegeben, wobei die letzte Gleichung für homogene Markov-Ketten gilt.
In diesem Fall ergibt sich natürlich
P(m, m + 1) = P
und wir schreiben Pn = P(m, m + n).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 55
Die Chapman-Kolmogorov-Gleichungen
Für eine homogene Markov-Kette X gilt:
X
pij (m, m + n + r ) =
pik (m, m + n)pkj (m + n, m + n + r ) (1)
k
P(m, m + n + r ) = P(m, m + n)P(m + n, m + n + r )
Pn = P(m, m + n) = Pn
(2)
(3)
Dabei ist (2) nur (1) in Matrizenform und (3) folgt durch Iteration.
Pn bezeichnet die n-te Potenz von P.
Beweis zu (1) in Vorlesung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 55
Fortsetzung des 1. Beispiels
Zwei-Schritt-Übergangsmatrix:
0.9 0.1
0.9 0.1
0.85 0.15
P2 = P2 =
=
0.4 0.6
0.4 0.6
0.6 0.4
Zum Beispiel ist also der Eintrag p21 (2) in P2 gleich
p21 (2) = P(Xn+2 = 1|Xn = 2)
= P(Xn+1 = 2|Xn = 2) · P(Xn+2 = 1|Xn+1 = 2)
+ P(Xn+1 = 1|Xn = 2) · P(Xn+2 = 1|Xn+1 = 1)
= 0.6 · 0.4 + 0.4 · 0.9 = 0.6
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 55
Die Zeit bis zum Zustandswechsel
Eine Markov-Kette X mit Übergangsmatrix P sei zu einem Zeitpunkt t im
Zustand i ∈ S.
Dann ist die Dauer bis zum nächsten Zustandswechsel Zi geometrisch
verteilt mit Parameter 1 − pii .
Vergleiche: Gedächtnislosigkeit der geometrischen Verteilung:
P(Zi = n + k|Zi > n) = P(Zi = k)
Nützliche Eigenschaft zum Test auf Modellanpassung:
Vergleich der beobachteten und theoretischen Dauern bis zum nächsten
Zustandswechsel.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 55
Die Anfangsverteilung
Schließlich hat jede Markov-Kette auch eine Anfangsverteilung für X0 .
Die entsprechende Wahrscheinlichkeitsfunktion bezeichnet man mit dem
Zeilenvektor µ(0) mit Elementen
(0)
µi
= P(X0 = i).
Die (unbedingte) Wahrscheinlichkeitsfunktion von Xn fasst man
entsprechend in dem Zeilenvektor µ(n) zusammen und es gilt:
µ(m+n) = µ(m) · Pn
und daher
µ(n) = µ(0) · Pn
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 55
Folgerung
Durch µ(0) und P ist also die Entwicklung einer Markov-Kette vollständig
bestimmt.
Die gemeinsame Wahrscheinlichkeitsverteilung (wichtig für
Likelihood-Inferenz!) von X0 , . . . , Xn ist gegeben durch
P(X0 = x0 , X1 = x1 , . . . , Xn = xn )
= P(X0 = x0 )
n
Y
(0)
= µx0
n
Y
P(Xt = xt |Xt−1 = xt−1 )
t=1
pxt−1 ,xt
t=1
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
13 / 55
Beispiel: Inzucht
Eine Pflanze mit Genotyp aus S = {aa, ab, bb} wird mit sich selbst
gekreuzt. Die Zufallsvariable Xn gibt den Genotyp in der n-ten Generation
an. Daher:


1 0 0


P =  14 21 14 
0 0 1




1
0
0
1 0 0
n+1
n 1
n+1  n→∞  1
 1
n
1 
1
1
1
P =  2− 2
−→
0

 2
2 
2
2 − 2
0 0 1
0
0
1
⇒ Letztendlich bleiben nur die Genotypen aa und bb übrig, die sich dann
deterministisch reproduzieren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 55
Beispiel: Genhäufigkeit in Population konstanter Größe N
Xn = i:
Anzahl der Individuen einer Population mit bestimmtem Genotyp zum Zeitpunkt n
Einfaches Modell:
Zu jedem Zeitpunkt stirbt ein zufällig ausgewähltes Mitglied. Das
“nachrückende” Mitglied hat den Genotyp mit Wahrscheinlichkeit Ni .
; pij =
Beachte:





i(N−i)
N2
1 − 2 i(N−i)
N2
0
für j = i ± 1
für j = i
sonst
P ist “tridiagonal”. Formulierung beinhaltet Grenzfälle
Xn = 0 und Xn = N.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 55
Beispiel: Modelle für Epidemien → Verzweigungsprozesse
Xn := Anzahl der Infizierten in einer Generation n
S = {0, 1, . . .}
Idee: Jeder Infizierte“erzeugt”(unabhängig von den anderen) eine
zufällige Anzahl Infizierter in der nächsten Generation mit
Erwartungswert λ.
Die Anzahl könnte z.B. Poissonverteilt sein. Dann ist
Xn |Xn−1 ∼ P(λ · Xn−1 ).
Theorem:
Für λ < 1 wird die Epidemie mit Wahrscheinlichkeit 1 irgendwann
aussterben.
Für λ > 1 ist die Wahrscheinlichkeit, dass die Epidemie explodiert,
echt größer 0.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 55
7.2 Klassifikation von Zuständen und Markov-Ketten
Ein Zustand i ∈ S heißt rekurrent oder auch persistent, falls für die
Rekurrenzzeit Ti = min{n : Xn = i|X0 = i} gilt
P(Ti < ∞) = 1
Wenn P(Ti < ∞) < 1 heißt der Zustand transient. Eine Markov-Kette X
kehrt also in einen rekurrenten Zustand mit Wahrscheinlichkeit 1 zurück.
Ein Zustand i heißt absorbierend, falls dieser nicht mehr verlassen werden
kann, also pii = 1.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 55
Beispiel
Betrachte den Poisson-Verzweigungsprozess
Xn |Xn−1 ∼ P(λ · Xn−1 )
Dann ist der Zustand 0 rekurrent, ja sogar absorbierend, da X diesen
Zustand nie verläßt.
Alle anderen Zustände sind transient.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
18 / 55
Die erwartete Rekurrenzzeit
Man definiert die erwartete Rekurrenzzeit eines Zustands i wie folgt:
P
nfi (n) falls i rekurrent ist
n
µi = E (Ti ) =
∞
falls i transient ist
mit fi (n) = P(X1 6= i, ..., Xn−1 6= i, Xn = i|X0 = i). Ein rekurrenter
Zustand i heißt nicht-leer, falls seine erwartete Rekurrenzzeit endlich ist.
Ansonsten heißt er leer.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
19 / 55
Zusammenhang zu den Übergangswahrscheinlichkeiten
Ein rekurrenter Zustand i ist genau dann leer, wenn
pii (n) → 0 für n → ∞
Dann gilt sogar
pji (n) → 0 für n → ∞ für alle j ∈ S
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 55
Die Periode
Die Periode eines Zustandes i ist der größte gemeinsame Teiler der Menge
{n : pii (n) > 0}
Man nennt den Zustand i periodisch, falls dessen Periode größer eins ist,
ansonsten heißt i aperiodisch.
Haben alle Zustände einer Markov-Kette Periode 1, so heißt sie
aperiodisch.
Ein Zustand i heißt ergodisch, falls er rekurrent nicht-leer und aperiodisch
ist. Sind alle Zustände von X ergodisch, so heißt X ergodisch.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
21 / 55
Beispiel
Eine Markov-Kette habe die folgende

0
P= 0
1
Übergangsmatrix:

1 0
0 1 
0 0
Es gilt nun:
jeder Zustand hat Periode 3
die Markov-Kette ist nicht aperiodisch
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 55
Irreduzible Zustände
Zwei Zustände i 6= j einer Markov-Kette X kommunizieren miteinander,
falls fij > 0 und fji > 0 (Schreibweise: i ↔ j) mit
fij
=
=
∞
X
n=1
∞
X
fij (n)
P(X1 6= j, X2 6= j, . . . , Xn−1 6= j, Xn = j|X0 = i)
n=1
Ein Zustand i kommuniziert per definitionem immer mit sich selber: i ↔ i
Eine Menge C ⊂ S heißt irreduzibel, falls i ↔ j für alle i, j ∈ C .
Eine Menge C ⊂ S heißt geschlossen, falls pij = 0 für alle i ∈ C und
j ∈ C̄ .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
23 / 55
Beispiele
Markov-Ketten mit reduziblem Zustandsraum S
 1 1

 1
2
2 0
3



P1 =  12 12 0  P2 =  13
0 0 1
0
Im folgenden Beispiel ist S irreduzibel:
 1

P3 = 
3
1
3
0
Esther Herberich und Matthias Schmid
1
3
1
3
1
2
1
3
1
3
1
2
() Stochastik und Statistik
1
3
1
3
0
1
3
1
3



1



SS 2012
24 / 55
Der Zerlegungssatz
Der Zustandsraum S einer Markov-Kette X lässt sich zerlegen in
1
eine Menge T mit transienten Zuständen
2
Mengen Ck , die irreduzibel und geschlossen sind
⇒ S = T ∪ C1 ∪ C2 ∪ . . .
Ferner gilt folgendes Lemma:
Wenn S endlich ist, dann ist mindestens ein Zustand rekurrent und alle
rekurrenten Zustände sind nicht-leer.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
25 / 55
Beispiel
Eine Markov-Kette mit Zustandsraum S = {1, 2, 3, 4, 5, 6} habe die
Übergangsmatrix


0.5 0.5
0
0
0
0

 0.25 0.75
0
0
0
0



 0.25 0.25 0.25 0.25 0
0

P=
 0.25
0
0.25 0.25 0 0.25 


 0
0
0
0
0.5 0.5 
0
0
0
0
0.5 0.5
Man bestimme:
die Periode jedes Zustands
die Zerlegung des Zustandsraumes
transiente Zustände
ergodische Zustände
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
26 / 55
7.3 Die stationäre Verteilung und das Grenzwerttheorem
Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Einträgen
(πj : j ∈ S) heißt stationäre Verteilung einer Markov-Kette X mit
Übergangsmatrix P, falls gilt:
X
πj =
πi pij
i
oder in Matrixnotation:
Esther Herberich und Matthias Schmid
π =π·P
() Stochastik und Statistik
SS 2012
27 / 55
Interpretation der stationären Verteilung
Hat die Markov-Kette X die Verteilung π zu einem gewissen Zeitpunkt n,
dann auch im nächsten Zeitpunkt n + 1 und sogar in allen nachfolgenden
Zeitpunkten i = n + 2, n + 3, . . .
Betrachte z.B. i = n + 2:
π · P2 = (πP)P = πP = π
Oft wählt man für die Anfangsverteilung µ0 die stationäre Verteilung,
d.h. µ0 = π.
Im Folgenden betrachten wir ausschließlich irreduzible Markov-Ketten,
d.h. Markov-Ketten mit irreduziblem Zustandsraum S.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
28 / 55
Satz über die stationäre Verteilung
Eine irreduzible Markov-Ketten hat eine stationäre Verteilung π genau
dann, wenn alle Zustände nicht-leer rekurrent sind.
Dann ist π eindeutig und gegeben durch
πi = 1/µi
wobei µi die erwartete Rekurrenzzeit des Zustands i ist.
Unter diesen Voraussetzungen gilt bei endlichem Zustandsraum:
π = 1(I − P + U)−1
wobei I die Einheitsmatrix und 1 ein Zeilenvektor mit Einsen ist und U nur
Elemente gleich eins hat.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
29 / 55
Bestimmung der stationären Verteilung bei |S| = 2
Stationäre Verteilung und Übergangsmatrix haben bei Markov-Ketten mit
zwei Zuständen folgende allgemeine Formen:
1 − p12
p12
π = (π1 , 1 − π1 )
P=
p21
1 − p21
Die erste Spalte der Gleichung π = π · P ist
π1 = π1 − π1 · p12 + p21 − π1 · p21
p12
p21
⇒ π1 =
und π2 =
p12 + p21
p12 + p21
Die zweite Spalte ergibt die gleiche Lösung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
30 / 55
Beispiel
Wie lautet die stationäre Verteilung für die Markov-Kette mit folgender
Übergangsmatrix:
0.9 0.1
P=
0.4 0.6
Mit der eben bestimmten Formel erhält man:
0.4 0.1
,
= (0.8 , 0.2)
π = (π1 , π2 ) =
0.5 0.5
Die erwarteten Rekurrenzzeiten sind demnach µ1 = 5/4 für Zustand 1 und
µ2 = 5 für Zustand 2.
Wie verhält es sich bei


0
P= 0
1
Esther Herberich und Matthias Schmid
1
0
0
0
1 ?
0
() Stochastik und Statistik
SS 2012
31 / 55
Reversible Markov-Ketten
Sei X = (X0 , . . . , XN ) eine reguläre Markov-Kette mit Übergangsmatrix P
und stationärer Verteilung π, die X auch zu jedem Zeitpunkt
n = 0, . . . , N besitze.
Definiere nun Y = (XN , . . . , X0 ) mit Yn = XN−n .
Dann ist Y auch eine Markov-Kette mit Übergangswahrscheinlichkeiten
P(Yn+1 = j|Yn = i) = (πj /πi )pji
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
32 / 55
Reversible Markov-Ketten II
Man sagt nun X ist reversibel, falls X und Y identische
Übergangswahrscheinlichkeiten haben, d.h. falls
πi pij = πj pji
für alle i, j ∈ S gilt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
33 / 55
Beispiele für reversible Markov-Ketten
1
2
Alle irreduziblen Markov-Ketten mit zwei Zuständen sind reversibel
(Beweis in Vorlesung).
Markov-Ketten mit tri-diagonaler Übergangsmatrix P sind reversibel,
z.B.
I
der random walk auf endlichem Zustandsraum S = {0, 1, . . . , b}
I
der Prozess aus Beispiel 2 (Stichwort: Genhäufigkeit)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
34 / 55
Satz über die stationäre Verteilung
Sei X eine irreduzible Markov-Kette mit Übergangsmatrix P. Ferner gebe
es eine Verteilung π mit πi pij = πj pji für alle i, j ∈ S.
Dann ist π die stationäre Verteilung und X ist bzgl. π reversibel.
Beweis:
X
X
X
πi pij =
πj pji = πj
pji = πj
i
Esther Herberich und Matthias Schmid
i
() Stochastik und Statistik
i
SS 2012
35 / 55
Das Grenzwerttheorem
Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre
stationäre Verteilung π
pij (n) −→ πj = µ−1
j
bzw.
für n → ∞ und alle i



n
Pn = P −→ 

···
···
..
.
···

π ···
π ··· 

..
.. 
.
. 
π ···
Daher gilt µ(0) Pn −→ π für alle µ(0) .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
36 / 55
Ein Gegenbeispiel
Eine Markov-Kette X mit Übergangsmatrix


0 1 0
P= 0 0 1 
1 0 0
hat zwar die stationäre Verteilung π = (1/3, 1/3, 1/3), konvergiert aber
nicht gegen diese, da die Kette periodisch ist.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
37 / 55
7.4 Inferenz für Markov-Ketten
Schätzung der Übergangswahrscheinlichkeiten
Test auf Modellanpassung
Allgemeinere Markov-Modelle:
I
Markov-Ketten höherer Ordnung
I
Hidden-Markov Modelle
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
38 / 55
Schätzung der Übergangswahrscheinlichkeiten
Ziel:
Schätzung der Übergangswahrscheinlichkeiten basierend auf
einer (oder mehrerer) Realisationen einer Markov-Kette X.
Es erscheint plausibel, die Übergangswahrscheinlichkeiten pij durch die
entsprechenden Übergangshäufigkeiten
nij
p̂ij =
ni
zu schätzen, wobei
P nij die Anzahl der beobachteten Übergänge von i nach
j ist und ni = j nij .
Im Folgenden zeigen wir, dass dies auch die ML-Schätzer sind.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
39 / 55
ML-Schätzung der Übergangswahrscheinlichkeiten
Grundlage:
Realisation X0 = x0 , X1 = x1 , . . . , XN = xN einer
Markov-Kette X.
Die Likelihood ist somit (vergleiche Folie S. 13)
n
Y
(0)
L(P) = µx0
pxt−1 ,xt =
t=1
(0)
µx0
Y
i,j
n
pij ij
wobei nij die Anzahl der beobachteten Übergänge von i nach j ist.
Die Log-Likelihood ist dann
X
(0)
l(P) = log(µx0 ) +
nij log(pij )
i,j
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
40 / 55
ML-Schätzung der Übergangswahrscheinlichkeiten II
Problem:
Es sind mehrerer Parameter in θ = P durch Maximierung
der Log-Likelihood l(P) zu schätzen, wobei noch die Restriktion
X
pij = 1
j
für alle i zu berücksichtigen ist.
⇒ Lagrangesche Multiplikatorenmethode:
Maximiere


X
X
X
(0)
∗
l (P) = log(µx0 ) +
nij log(pij ) −
λi 
pij − 1
i,j
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
i
j
SS 2012
41 / 55
ML-Schätzung der Übergangswahrscheinlichkeiten III
Die partiellen Ableitungen nach pij sind somit
nij
dl ∗ (P)
=
− λi
pij
pij
Nullsetzen liefert nij = λi pij . Durch Summation über j folgt
X
λi =
nij = ni
j
und schließlich
Esther Herberich und Matthias Schmid
nij
.
p̂ij =
ni
() Stochastik und Statistik
SS 2012
42 / 55
Beispiel: Regen bei den Snoqualmie Wasserfällen
Über eine Zeitreihe von N = 13149 Tagen wurde an den Snoqualmie
Wasserfällen registriert, ob es am jeweiligen Tag geregnet hat oder nicht.
Erstellung eines Markov-Modells:
Der Zustandsraum ist S = {0, 1} mit
0 : Kein Regen
am Tag t = 1, . . . , N
1 : Regen
Es ergibt sich n0 = 6229 (Tage ohne Regen) und n1 = 6920.
Übergangsmatrix mit relativen Übergangshäufigkeiten (ML-Schätzer):
0.713 0.287
P̂ =
0.258 0.742
Frage: Passt sich das Markov-Modell den Daten gut an?
→ Betrachtung der “Verweildauern” (Wartezeiten bis zum nächsten
Zustandswechsel)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
43 / 55
Verweildauern bei den Snoqualmie Wasserfällen
Verweildauer im Zustand 1 (Regen)
300
200
Haeufigkeit
400
300
100
100
200
Haeufigkeit
500
400
600
500
Verweildauer im Zustand 0 (kein Regen)
0
2
4
6theoretisch
empirisch
8
0
Zeit bis zum Zustandswechsel
2
4
6theoretisch
empirisch
Zeit bis zum Zustandswechsel
8
Theoretische (schwarz) und empirische (rot) Verweildauern in den beiden
Zuständen.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
44 / 55
Markov-Ketten höherer Ordnung
Zum Beispiel Markov-Kette zweiter Ordnung:
Die Regenwahrscheinlichkeit hängt nun von den letzten zwei Tagen ab.
Die Übergangswahrscheinlichkeiten sind
P(Xn = s|Xn−1 = xn−1 , Xn−2 = xn−2 ).
Diese Markov-Kette kann auch als Markov-Kette erster Ordnung
dargestellt werden, indem man den Zustandsraum zu S = {00, 01, 10, 11}
erweitert, wobei der erste Eintrag xn−2 und der zweite Eintrag xn−1
darstellt.
→ In der Übergangsmatrix ergeben sich dann strukturelle Nullen.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
45 / 55
Strukturelle Nullen
Im Beispiel ergibt sich:


 00

P=
 01
 10
11
00 01 10 11
0 0 


0 0

0 0 
0 0
da z.B. auf Xn−2 = 0 und Xn−1 = 0 nicht Xn−1 = 1 und Xn = 0 folgen
kann etc.
→ die Anzahl der Spalten kann reduziert werden
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
46 / 55
Regen bei den Snoqualmie Wasserfällen
Mit reduzierten Spalten ergibt sich im Beispiel

 00

P̂ = 
 01
 10
11
0
0.749
0.277
0.624
0.252
1
0.251
0.723
0.376
0.748






Alternativer Ansatz: Hidden Markov-Modell
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
47 / 55
7.5 Hidden Markov Modelle
Mischverteilungsmodell mit zusätzlichem Zeitreihencharakter
Anwendungen in verschiedenen Bereichen:
I
Ökonometrie,
I
Genetik (DNA-Sequenzierung, Stammbaumanalyse),
I
Spracherkennung, ...
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
48 / 55
Das Modell
Latente Parameter X = (X1 , . . . , XN ) folgen einer (homogenen)
Markov-Kette mit diskretem Zustandsraum S:
Übergangsmatrix P mit pij = P(Xt = j|Xt−1 = i)
Anfangsverteilung π mit πi = P(X0 = i)
(oft impliziert durch π = πP)
Die Beobachtungen yt |xt = s sind bedingt unabhängig aus einer
Verteilung mit Wahrscheinlichkeitsfunktion fs (yt ) mit Parametern θ s .
Beispielsweise:
diskret mit Missklassifizierungswahrscheinlichkeiten ps
Poisson mit Raten λs
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
49 / 55
Beispiel: Ein verrauschtes binäres Signal
Daten:
y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2)
|S| = 2
N = 20
P=
0.75 0.25
0.25 0.75
π=
0.5
0.5
f (yt = 1|xt = 1) = 0.8
f (yt = 1|xt = 2) = 0.2
f (yt = 2|xt = 1) = 0.2
f (yt = 2|xt = 2) = 0.8
Ziel der statistischen Inferenz: Restauration der Sequenz X
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
50 / 55
Inferenz bei festen Hyperparametern
Hyperparameter: P, π, θ fest
Ziel: Schätzung der latenten Zustände x = (x1 , . . . , xN )
Posteriori-Verteilung f (x|y) = f (x, y)/f (y) mit:
f (x|y) ∝ f (x, y) = πx1
|
N
Y
pxt−1 xt ·
t=2
{z
f (x)
N
Y
fxt (yt )
} t=1
| {z
f (y|x)
}
Problem: Es gibt S N (!) unterschiedliche Sequenzen x.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
51 / 55
Posteriori-Modus Schätzung
Viterbi-Algorithmus [Viterbi (1967)]
I
Rekursiver Algorithmus zur Maximierung von f (x, y) bzgl. x
I
liefert (einen) MAP-(posteriori Modus)-Schätzer von f (x|y) ∝ f (x, y)
I
Algorithmus ist numerisch effizient: O(|S|2 · N)
Simulated annealing [Kirkpatrick, Gelatt & Vecchi (1983)]
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
52 / 55
Rekonstruktion des verrauschten binären Signals
Das empfangene Signal war
y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2)
Daraus kann man Schätzer für das zugrundeliegende Signal x berechnen:
post. Wkeit P(x|y)
Schätzer von x
x̂MAP 1 =
x̂MAP 2 =
x̂MPM =
y=
(2
(2
(2
(2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
1
2
1
1
2
2
2
2
2
2
2
2
2)
2)
2)
2)
0.0304
0.0304
0.0135
0.0027
Hierbei bezeichnet x̂MPM den marginalen Posteriori Modus, d.h. jedes xi ,
i = 1, . . . , 20, in x̂MPM hat marginale Posteriori-Wahrscheinlichkeit P(xi |y) > 0.5.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
53 / 55
Inferenz bei unbekannten Hyperparametern
Seinen nun bestimmte Hyperparameter θ unbekannt, wie beispielsweise die
Übergangsmatrix P oder die Verteilung f (yi |xi ).
Klassische Likelihood-Ansätze maximieren die (marginale) Likelihood
L(θ) = f (y|θ) bezüglich θ, z.B. mit dem Baum-Welch-Algorithmus,
der einen Spezialfall des EM-Algorithmus darstellt.
P
Problem: Berechnung von f (y|θ) = f (x, y|θ)
x
Bayesianische Ansätze verwenden zusätzliche priori-Verteilungen
f (θ) und simulieren aus der posteriori-Verteilung
f (x, θ|y) ∝ f (x, y|θ) · f (θ)
mit Markov-Ketten Monte Carlo (MCMC) Verfahren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
54 / 55
Beispiel zur Likelihood-Inferenz
1.0
Seinen nun die Einträge der Übergangsmatrix P unbekannt. Die marginale
Likelihood L(p11 , p22 ) der Diagonalelemente p11 und p22 ist in folgender
Graphik dargestellt. Die ML-Schätzungen sind p̂11 = 0.85 und p̂22 = 0.78.
2e−07 4e−07
6
p22
0.6
0.8
1.4e−0
0.4
1.2e−06
1e−06
0.0
6e−0
0.0
0.2
07
2e−
4e
−0
7
0.2
8e−07
7
0.4
0.6
0.8
1.0
p11
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
55 / 55
8. Stetige Zufallsvariablen
Idee:
Eine Zufallsvariable X ist stetig, falls ihr Träger eine überabzählbare Teilmenge der reellen Zahlen R ist.
Beispiel:
Glücksrad mit stetigem Wertebereich [0, 2π]
Von Interesse ist die Zufallsvariable, die den exakten Winkel
angibt, an dem das Glücksrad stehen bleibt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 65
8.1 Definition von stetigen Zufallsvariablen
Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt,
so dass sich die Verteilungsfunktion F (x) = P(X ≤ x) von X wie folgt
darstellen lässt:
Z x
f (u) du
F (x) =
−∞
Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz: Dichte oder
Dichtefunktion) von X. Der Träger T von X ist die Menge aller Elemente
x ∈ R für die f (x) > 0 gilt.
Beachte den Unterschied zu diskreten Zufallsvariablen! Hier gilt:
X
F (x) =
f (xi )
i:xi ≤x
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 65
Einige Folgerungen
P(X = x) = 0
Z
P(X ∈ [a, b]) =
+∞
Z
f (x) dx
a
für alle x ∈ R
b
f (x) dx
= 1
−∞
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
3 / 65
Beispiel: Die stetige Gleichverteilung
Eine Zufallsvariable X heißt stetig gleichverteilt auf dem Intervall [a, b],
falls ihre Dichtefunktion die folgende Form hat:
(
1
für x ∈ [a, b]
b−a
f (x) =
0
sonst
Der Träger von X ist also T = [a, b].
Die Verteilungsfunktion F (x) von X ergibt sich zu

x <a

 0
x−a
x ∈ [a, b]
F (x) =
b−a


1
x >b
Man schreibt kurz: X ∼ U(a, b)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 65
●
●
●
1.0
●
0.2
2
3
4
5
6
0.0
0.00
0.05
0.4
0.10
f(x)
F(x)
0.6
0.15
0.8
0.20
0.25
Beispiel: Die stetige Gleichverteilung II
2
3
4
5
6
Dichtefunktion (links) und Verteilungsfunktion (rechts) der stetigen
Gleichverteilung für a = 2 und b = 6
Funktionen in R:
dunif(...) berechnet die Dichtefunktion
punif(...) berechnet die Verteilungsfunktion
qunif(...) berechnet die Quantilsfunktion
runif(...) erzeugt Zufallszahlen
x
Esther Herberich und Matthias Schmid
x
() Stochastik und Statistik
SS 2012
5 / 65
Eigenschaften der Verteilungsfunktion
1
lim F (x) = 0 und lim F (x) = 1
x→−∞
x→∞
2
An allen Stetigkeitsstellen von f (x) gilt: F 0 (x) = f (x)
3
P(a ≤ X ≤ b) = F (b) − F (a)
4
P(X > a) = 1 − F (a)
etc.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
6 / 65
Allgemeine Definition von stetigen ZVn
Frage:
Für welche Mengen B ist die Aussage
Z
P(X ∈ B) =
f (x)dx
B
überhaupt sinnvoll?
Sei F die Mengenfamilie aller offenen Intervalle in R. Dann gibt es eine
sogenannte σ-Algebra (eine spezielle Mengenfamilie) σ(F), die F enthält.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 65
σ-Algebren
Für eine σ-Algebra σ(F) muss gelten:
1
∅ und Ω ∈ σ(F)
2
Für A, B ∈ σ(F) ist auch B \ A ∈ σ(F).
3
Für A1 , A2 , . . . ∈ σ(F) ist auch
I
∞
S
n=1
I
∞
T
n=1
An ∈ σ(F) und
An ∈ σ(F).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 65
Axiome von Kolmogorov
Ein Wahrscheinlichkeitsmaß P auf Ω wird nun mittels σ(F) definiert:
Für alle paarweise disjunkten Mengen A1 , A2 , . . . ∈ σ(F) soll gelten
(vgl. Axiom A3, Abschnitt 2.3):
P(∪∞
n=1 An ) =
∞
X
P(An )
n=1
Ferner müssen natürlich auch A1 und A2 erfüllt sein:
P(∅) = 0
P(Ω) = 1
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 65
8.2 Wichtige stetige Verteilungen
Im Folgenden werden wir nun wichtige stetige Verteilungen kennenlernen.
Stetige Verteilungen hängen wie diskrete Verteilungen von einem oder
mehreren Parametern ab.
Zur Charakterisierung werden wir meist die Dichtefunktion und den
Träger angeben.
Eine Verteilung haben wir schon kennengelernt, die stetige Gleichverteilung mit Parametern a ∈ R und b ∈ R (a < b). Sie hat die
Dichtefunktion
1
f (x) =
b−a
und den Träger T = [a, b].
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 65
Die Exponentialverteilung
Eine stetige Zufallsvariable X mit positivem Träger T = R+ heißt
exponentialverteilt mit Parameter λ ∈ R+ , wenn sie die Dichte
λ exp(−λx) für x ≥ 0
f (x) =
0
sonst
besitzt. Die Verteilungsfunktion ergibt sich zu
1 − exp(−λx) für x ≥ 0
F (x) =
0
für x < 0
Notation: X ∼ E(λ)
Funktionen in R: dexp(), etc.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 65
F(x)
λ = 0.9
λ = 0.5
λ = 0.3
0.4
0.4
λ = 0.9
λ = 0.5
λ = 0.3
0.0
0.0
0.2
0.2
f(x)
0.6
0.6
0.8
0.8
1.0
Die Exponentialverteilung II
0
2
4
6
8
10
0
x
2
4
6
8
10
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Exponentialverteilung mit verschiedenen Raten
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 65
Die Gammaverteilung
Die Gammaverteilung ist eine Verallgemeinerung der Exponentialverteilung. Sie hat auch den positiven Träger T = R+ , aber einen
Parameter mehr:
Eine stetige Zufallsvariable X heißt gammaverteilt mit Parametern
α ∈ R+ und β ∈ R+ (Notation: X ∼ G(α, β) ), falls sie die Dichte
( α
β
α−1 exp(−βx) für x > 0
x
Γ(α)
f (x) =
0
sonst
besitzt. Hierbei ist Γ(α) die Gammafunktion
Z ∞
Γ(α) =
x α−1 exp(−x) dx
0
wobei Γ(x + 1) = x! für x = 0, 1, 2, . . . gilt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
13 / 65
1.0
4
Die Gammaverteilung II
F(x)
0
0.0
0.2
1
0.4
2
f(x)
0.6
3
0.8
α, β = (2, 3)
α, β = (1.2, 3)
α, β = (2, 6)
α, β = (1.2, 6)
0.0
0.2
0.4
0.6
0.8
1.0
0.0
x
0.2
0.4
0.6
0.8
1.0
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Gammaverteilung mit verschiedenen Werten für α und β
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 65
Eigenschaften der Gammaverteilung
Für α = 1 ergibt sich die Exponentialverteilung mit Parameter λ = β.
Für α = d/2 mit d ∈ N und β = 12 ergibt sich die sogenannte
χ2 -Verteilung mit d Freiheitsgraden.
Notation: X ∼ χ2 (d)
Funktionen in R:
I
Gammaverteilung: dgamma(x, shape = α, rate = β), etc.
I
χ2 -Verteilung:
Esther Herberich und Matthias Schmid
dchisq(x, df = Freiheitsgrade), etc.
() Stochastik und Statistik
SS 2012
15 / 65
Wieso ist bei der Gammaverteilung
R
f (u)du = 1?
Verwendung der Substitutionsregel:
Z
Z
f˜(g (x)) · g 0 (x) dx = f˜(z) dz
mit g (x) = β · x:
f (x) =
=
=
β α α−1
x
exp(−βx)
Γ(α)
β
g (x)α−1 exp(−g (x))
Γ(α)
1
g (x)α−1 exp(−g (x)) β
|{z}
Γ(α)
g 0 (x)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 65
Die Normalverteilung
“Gaußsche Glockenkurve”
Eine Zufallsvariable X mit Träger T = R und Parametern µ ∈ R und
σ 2 ∈ R+ heißt normalverteilt, falls sie die Dichtefunktion
2
1 (x − µ)
1 1
exp −
für x ∈ R
f (x) = √
2
2
σ
2π σ
hat. Für µ = 0 und σ 2 = 1 nennt man die Zufallsvariable standardnormalverteilt.
Man schreibt kurz: X ∼ N (µ, σ 2 )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 65
1.0
0.4
Die Normalverteilung II
F(x)
0.0
0.0
0.2
0.1
0.4
0.2
f(x)
0.6
0.3
0.8
µ, σ = (0, 1)
µ, σ = (2, 1)
µ, σ = (0, 2)
−5
0
5
−6
x
−4
−2
0
2
4
6
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Normalverteilung mit verschiendenen Werten für µ und σ
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
18 / 65
Mehr zur Normalverteilung
Funktionen in R:
dnorm(...)
pnorm(...)
qnorm(...)
rnorm(...)
berechnet die Dichtefunktion
berechnet die Verteilungsfunktion
berechnet die Quantilsfunktion
erzeugt Zufallszahlen
Beachte:
Z
F (x) =
x
−∞
f (u) du
ist nicht analytisch zugänglich (d.h. man findet keine Stammfunktion und
braucht numerische Integration).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
19 / 65
Wieso ist bei der Normalverteilung
R
f (u)du = 1?
Man weiß aus der Analysis, dass für a > 0 gilt:
√
Z ∞
π
2 2
exp(−a x ) dx =
a
−∞
Ferner kann man leicht zeigen, dass
Z
Z
2
2
1 (x − µ)
x
exp −
dx = exp − 2 dx
2
2 σ
2σ
für alle µ ∈ R gilt.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 65
Die Betaverteilung
Eine Zufallsvariable X mit Träger T = (0, 1) und Parametern α ∈ R+ und
β ∈ R+ heißt betaverteilt (X ∼ Be(α, β) ), falls sie die Dichtefunktion
(
1
α−1 (1 − x)β−1 für 0 < x < 1
x
B(α,β)
f (x) =
0
sonst
besitzt. Hierbei ist die Betafunktion B(α, β) gerade so definiert, dass die
R1
Dichtefunktion die Normierungseigenschaft f (x) dx = 1 besitzt:
0
Γ(α)Γ(β)
B(α, β) =
=
Γ(α + β)
Esther Herberich und Matthias Schmid
Z
0
1
x α−1 (1 − x)β−1 dx
() Stochastik und Statistik
SS 2012
21 / 65
F(x)
0.2
1
0.4
2
f(x)
0.6
3
0.8
4
1.0
Die Betaverteilung II
0
0.0
α, β = (2, 3)
α, β = (1.2, 3)
α, β = (2, 6)
α, β = (1.2, 6)
0.0
0.2
0.4
0.6
0.8
1.0
0.0
x
0.2
0.4
0.6
0.8
1.0
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Betaverteilung mit verschiedenen Werten für α und β
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 65
Die Betaverteilung III
Beachte:
Für α = β = 1 erhält man die Gleichverteilung auf dem
Intervall [0, 1].
Funktionen in R:
dbeta(...)
pbeta(...)
qbeta(...)
rbeta(...)
berechnet Dichtefunktion
berechnet Verteilungsfunktion
berechnet Quantilsfunktion
erzeugt Zufallszahlen
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
23 / 65
8.3 Lageparameter von stetigen Zufallsvariablen
Man unterscheidet wieder
den Erwartungswert (existiert meistens, ist dann auch eindeutig)
den Median (existiert immer, ist immer eindeutig, solange der Träger
von X ein Intervall ist)
den Modus (existiert nicht immer, ist auch nicht immer eindeutig)
Diese sind nun aber anders definiert.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
24 / 65
Der Erwartungswert von stetigen Zufallsvariablen
Der Erwartungswert einer stetigen Zufallsvariable X ist definiert als
Z ∞
EX =
x · f (x) dx
−∞
unter der Voraussetzung, dass die Funktion x · f (x) absolut integrierbar
ist:
Z ∞
Z ∞
|xf (x)| dx =
|x|f (x) dx < ∞
−∞
−∞
Andernfalls sagt man, der Erwartungswert von X existiert nicht bzw. ist
unendlich.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
25 / 65
Eigenschaften des Erwartungswertes
Wir setzen hier die Existenz des Erwartungswertes voraus.
Z ∞
1 E[g (X )] =
g (x)f (x) dx für eine beliebige Funktion g : R → R
−∞
2
E(a · X + b) = aE(X ) + b
“Linearität”
3
E(X + Y ) = E(X ) + E(Y )
“Additivität”
4
Ist f (x) symmetrisch um einen Punkt c, d.h.
f (c − x) = f (c + x)
∀x ∈ R
dann ist E(X ) = c.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
26 / 65
Beispiele für Erwartungswerte stetiger Verteilungen
1
Der Erwartungswert der Betaverteilung ist α/(α + β).
2
Der Erwartungswert der stetigen Gleichverteilung ist (a + b)/2.
3
Der Erwartungswert der Exponentialverteilung ist 1/λ.
Beweis über partielle Integration:
Z
4
u(x)v 0 (x) dx = u(x)v (x) −
Z
u 0 (x)v (x) dx
Die Cauchy-Verteilung mit Dichtefunktion
1
1
f (x) = ·
π 1 + x2
für x ∈ R
hat keinen (endlichen) Erwartungswert.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
27 / 65
Quantile von stetigen Zufallsvariablen
Wir nehmen an, dass der Träger der stetigen Zufallsvariable X ein Intervall
ist. Somit ist die Umkehrfunktion F −1 (p) der Verteilungsfunktion F (x)
von X eindeutig definiert.
Das p-Quantil der Verteilung von X ist definiert als der Wert xp für den
F (x) = p gilt. Somit gilt xp = F −1 (p).
Speziell erhält man für p = 0.5 den Median xMed .
Ist f (x) symmetrisch um einen Punkt c, so ist xMed = c.
Beispiel: Bei einer normalverteilten Zufallsvariable X ∼ N (µ, σ 2 ) ist
xMed = µ.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
28 / 65
Der Modus von stetigen Zufallsvariablen
Ein Modus einer stetigen Zufallsvariable X ist ein Wert xMod , für den
für alle x ∈ R gilt:
f (xMod ) ≥ f (x)
Der Modus ist nicht notwendigerweise eindeutig, noch muss er existieren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
29 / 65
Beispiele
1
Der Modus der Betaverteilung ist für α > 1 und β > 1 eindeutig
gleich
α−1
xMod =
α+β−2
2
Der Modus der Exponentialverteilung ist gleich Null.
3
Der Modus der Normalverteilung ist µ.
4
Der Modus der Gammaverteilung ist für α > 1 eindeutig gleich
xMod
α−1
=
β
Für α < 1 existieren keine Modi.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
30 / 65
Die Varianz einer stetigen Zufallsvariable
Die Varianz einer stetigen Zufallsvariable definiert man analog zum
diskreten Fall:
Z ∞
Var(X ) = E[X − E(X )]2 = E[X − µ]2 =
(x − µ)2 f (x) dx
−∞
mit µ = E(X ). Die Standardabweichung ist ebenfalls wie im diskreten
Fall definiert:
p
σ = Var(X )
Beachte:
Auch die Varianz kann nicht existieren, d.h. unendlich sein.
Existiert der Erwartungswert nicht, so existiert auch die Varianz nicht.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
31 / 65
Eigenschaften der Varianz
Es gelten dieselben Eigenschaften wie im diskreten Fall:
Verschiebungssatz:
Var(X ) = E(X 2 ) − [E(X )]2
Lineare Transformationen:
Für Y = a · X + b gilt:
Var(Y ) = a2 · Var(X )
Sind X und Y unabhängig, so gilt:
Var(X + Y ) = Var(X ) + Var(Y )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
32 / 65
Beispiel: Varianz der stetigen Gleichverteilung
Zunächst gilt
3 − a3
1
b
E(X 2 ) = ·
3 b−a
und mit dem Verschiebungssatz ergibt sich:
2
(b
−
a)
Var(X ) = EX 2 − (EX )2 =
12
Die Varianz wächst also quadratisch und die Standardabweichung somit
linear mit der Breite b − a des Trägers.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
33 / 65
Erwartungswerte und Varianzen stetiger Verteilungen
Symbol
E(X )
Var(X )
X ∼ U(a, b)
a+b
2
(b−a)2
12
X ∼ E(λ)
1
λ
1
λ2
Gammaverteilung
X ∼ G(α, β)
α
β
α
β2
Normalverteilung
X ∼ N (µ, σ 2 )
µ
σ2
Betaverteilung
X ∼ Be(α, β)
α
α+β
α·β
(α+β)2 (α+β+1)
Name
Gleichverteilung
Exponentialverteilung
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
34 / 65
8.4 Das Gesetz der großen Zahlen
Das Gesetz der großen Zahlen ist eine Aussage über das arithmetische
Mittel
n
1 X
X̄n =
Xi
n
i=1
für n → ∞, wobei die Xi (i = 1, . . . , n) unabhängig und identisch verteilte
Zufallsvariablen (engl.: iid = “independent and identically distributed”) aus
einer Verteilung mit Erwartungswert µ und Varianz σ 2 sind.
Es gilt: E(X̄n ) = µ und Var(X̄n ) = n1 σ 2
Daher folgt sofort für n → ∞: X̄n → µ und Var(X̄n ) → 0
⇒ Das arithmetische Mittel konvergiert gegen den Erwartungswert.
Dies funktioniert nicht bei der Cauchy-Verteilung!
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
35 / 65
0.2
0.0
−0.2
−0.4
Arithmetisches Mittel
0.4
Beispiel: Normalverteilung
0
2000
4000
6000
8000
10000
n
Arithmetisches Mittel für 10000 standardnormalverteilte ZV
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
36 / 65
0
−2
−4
−8
−6
Arithmetisches Mittel
2
4
Beispiel: Cauchyverteilung
0
2000
4000
6000
8000
10000
n
Arithmetisches Mittel für 10000 cauchyverteilte ZV
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
37 / 65
8.5 Der Transformationssatz für Dichten
Sei X eine stetige Zufallsvariable mit Dichte fX (x). Betrachte nun die
Zufallsvariable Y = g (X ), wobei z.B. Y = exp(X ), Y = X 2 , . . .
Frage: Wie lautet die Dichte fY (y ) von Y ?
Für eine streng monotone und differenzierbare Funktion g gilt der
Transformationssatz für Dichten:
−1
dg (y ) −1
fY (y ) = fX (g (y )) · dy | {z }
g −1 0 (y )
Beweis über die Verteilungsfunktion FY (y ) von Y in der Vorlesung.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
38 / 65
Beispiel: Das Quadrat einer Standardnormalverteilung
Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1)?
Betrachte zunächst Z = |X |. Z hat offensichtlich die Dichte
2
1 2
f (z) = √ exp(− z )
2
2π
für z > 0 und 0 sonst
Nun ist X 2 = Y = Z 2 = g (Z ) und g monoton wachsend auf dem
√
+
2
Wertebereich R . Es ergibt sich (y = z ⇔ z = y )
f (y ) =
1
1
− 21
√ y · exp(− y )
2
2π
Dies entspricht der Dichte einer G(0.5, 0.5), also einer χ2 -Verteilung mit
1 Freiheitsgrad: Y = X 2 ∼ χ21
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
39 / 65
Beispiel: Erzeugung exponentialverteilter Zufallsvariablen
Betrachte X ∼ U[0, 1] und Y = − log(X ), also g (x) = − log(X ). Die
Umkehrfunktion und deren Ableitung lauten:
g −1 (y ) = exp(−y )
dg −1 (y )
= − exp(−y )
dy
Durch Anwendung des Transformationssatzes für Dichten erhält man:
fY (y ) = 1 · |− exp(−y )| = exp(−y )
Es gilt: Y ∼ E(λ = 1)! Dies ist also eine einfache Art, exponentialverteilte
Zufallsvariablen zu erzeugen!
Allgemeiner liefert Y = − λ1 log(x) Zufallszahlen aus einer Exponential-
verteilung mit Parameter λ :
Esther Herberich und Matthias Schmid
Y ∼ E(λ)
() Stochastik und Statistik
SS 2012
40 / 65
Die Inversions-Methode
Allgemeiner kann man die Inversions-Methode zur Erzeugung von
Zufallszahlen aus einer beliebigen stetigen Verteilung mit Verteilungsfunktion F (x) verwenden:
Erzeuge stetig gleichverteilte Zufallsvariablen U1 , . . . , Un auf dem
Intervall [0, 1].
Dann sind
Xi = F −1 (Ui ),
i = 1, . . . , n
Zufallszahlen aus der gewünschten Verteilung.
Beweis: Die Dichte von Xi ergibt sich zu:
fX (x) = fU (F (x)) · F 0 (x) = f (x)
| {z } | {z }
=1
Esther Herberich und Matthias Schmid
f (x)
() Stochastik und Statistik
SS 2012
41 / 65
Beispiel: Zufallszahlen aus der Cauchy-Verteilung
Dichte- und Verteilungsfunktion der Cauchy-Verteilung sind:
1
1
f (x) = ·
π 1 + x2
1 arctan(x)
und F (x) = +
2
π
Die inverse Verteilungsfunktion ist somit:
1
−1
F (y ) = tan π y −
2
Zufallszahlen aus der Cauchy-Verteilung lassen sich also
leicht erzeugen,
1
indem man U1 , . . . , Un aus ∼ U[0, 1] erzeugt und tan π Ui − 2
berechnet.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
42 / 65
8.6 Der zentrale Grenzwertsatz
Aussage, dass - unter Regularitätsbedingungen - das arithmetische
Mittel, geeignet standardisiert,
von beliebigen unabhängig und identisch verteilten Zufallsvariablen
gegen die Standardnormalverteilung konvergiert.
Begründet die zentrale Rolle der Normalverteilung in der Stochastik.
Zunächst müssen wir noch standardisierte Zufallsvariablen definieren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
43 / 65
Standardisierte Zufallsvariablen
Jede Zufallsvariable X mit endlichem Erwartungswert µ = E(X ) und
endlicher Varianz σ 2 = Var(X ) kann man derart linear transformieren,
dass sie Erwartungswert 0 und Varianz 1 besitzt:
X −µ
X̃ =
σ
Dann gilt:
E(X̃ ) =
Var(X̃ ) =
Esther Herberich und Matthias Schmid
1
(E(X ) − µ) = 0
σ
1
Var(X ) = 1
2
σ
() Stochastik und Statistik
SS 2012
44 / 65
Standardisierung von Summen von iid ZVn
Betrachte iid Zufallsvariablen X1 , X2 , . . . , Xn mit endlichem Erwartungswert µ = E(Xi ) und endlicher Varianz σ 2 = Var(Xi ).
Für die Summe Yn = X1 + X2 + . . . + Xn gilt offensichtlich:
E(Yn ) = n · µ
Var(Yn ) = n · σ 2
Für die standardisierte Summe
n
X
Xi − µ
1
Yn − nµ
√
√
=
Zn =
σ
n·σ
n
i=1
gilt somit E(Zn ) = 0 und Var(Zn ) = 1.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
45 / 65
Der zentrale Grenzwertsatz (ZGWS)
Die Verteilungsfunktion Fn (z) von Zn konvergiert für n → ∞ an jeder
Stelle z ∈ R gegen die Verteilungsfunktion Φ(z) der Standardnormalverteilung.
Schreibweise: Fn (z) → Φ(z) für n → ∞ und alle z ∈ R
a
bzw. kurz Zn ∼ N (0, 1) (a = “asymptotisch”)
In der Praxis kann man also die Verteilung von Zn für große n gut durch
eine Standardnormalverteilung approximieren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
46 / 65
Bemerkungen
der ZGWS gilt sowohl für stetige als auch für diskrete ZV Xi
Xi kann beliebig ”schiefe” Verteilungen haben, z.B.
Xi ∼ E(λ)
Die Standardisierung ist nicht notwendig zur Formulierung des
ZGWS. Alternativ kann man auch direkt Yn = X1 + . . . + Xn
betrachten. Dann gilt
a
Yn ∼ N (n · µ, n · σ 2 )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
47 / 65
Beispiel: Bernoulliverteilung
Seien Xi ∼ B(π),
Pni = 1, . . . , n und unabhängig.
Dann ist Yn = i=1 Xi ∼ B(n, π) und asymptotisch gilt:
Yn − n · π
a
p
∼ N (0, 1)
n · π(1 − π)
bzw.
Esther Herberich und Matthias Schmid
a
Yn ∼ N (n · π, n · π(1 − π))
() Stochastik und Statistik
SS 2012
48 / 65
8.7 Die gemeinsame Verteilung zweier stetiger ZVn
Die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen X
und Y ist die Funktion
F (x, y ) = P(X ≤ x und Y ≤ y )
Alternativ kann man die gemeinsame Verteilung von X und Y auch über
deren gemeinsame Dichtefunktion f (x, y ) definieren, wobei
Z y
Z x
F (x, y ) =
f (u, v ) du dv
v =−∞
u=−∞
für alle x, y ∈ R gelten muss.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
49 / 65
Eigenschaften
Für f (x, y ) stetig gilt:
d 2 F (x, y )
= f (x, y )
dx dy
f (x, y ) ist normiert:
Z
+∞ Z +∞
−∞
−∞
f (x, y ) dx dy = 1
Bemerkung: Manchmal schreiben wir explizit FX ,Y für F und fX ,Y für f .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
50 / 65
Randverteilung und Erwartungswert einer Funktion
Die Dichten der Randverteilungen sind gegeben durch:
Z +∞
f (x, y ) dy
fX (x) =
−∞
+∞
Z
bzw.
fY (y ) =
−∞
f (x, y ) dx
Sei g : R2 → R eine reellwertige Funktion, so ist
Z +∞ Z +∞
E(g (X , Y )) =
g (x, y ) · f (x, y ) dx dy
−∞
Esther Herberich und Matthias Schmid
−∞
() Stochastik und Statistik
SS 2012
51 / 65
Unabhängigkeit
X , Y heißen unabhängig, genau dann, wenn
FX ,Y (x, y ) = FX (x) FY (y )
bzw.
fX ,Y (x, y ) = fX (x) fY (y )
∀x, y ∈ R
Allgemeiner gilt:
X1 , X2 , . . . , Xn sind genau dann unabhängig, wenn gilt:
f (x1 , x2 , . . . , xn ) = f (x1 ) · f (x2 ) · . . . · f (xn )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
52 / 65
Kovarianz und Korrelation
Man definiert analog zum diskreten Fall:
die Kovarianz
Cov(X , Y )
=
die Korrelation
ρ(X , Y )
=
E[(X − EX )(Y − EY )]
√ Cov(X
√,Y )
Var(X ) Var(Y )
Es gilt wieder der Verschiebungssatz für die Kovarianz:
Cov(X , Y ) = E(XY ) − E(X ) · E(Y )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
53 / 65
Beispiel
Betrachte
(
fX ,Y (x, y ) =
1
x
0
für
0≤y ≤x ≤1
sonst
Die Randverteilungen von X und Y ergeben sich zu
Z x
1
fX (x) =
dy = 1
für 0 ≤ x ≤ 1
0 x
Z
fY (y ) =
Esther Herberich und Matthias Schmid
y
1
1
dx = log (1/y )
x
() Stochastik und Statistik
für
0≤y ≤1
SS 2012
54 / 65
Beispiel
R1
R1
Man überprüft leicht, dass 0 f (x) dx = 1 und 0 f (y ) dy = 1 und daher
Z Z
f (x, y ) dy dx = 1
Die Korrelation zwischen X und Y ergibt sich zu ρ(X , Y ) ≈ 0.65 .
(Details in Vorlesung)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
55 / 65
Die bivariate Standardnormalverteilung
Die bivariate (“zweidimensionale”) Standardnormalverteilung mit
Parameter ρ (|ρ| < 1) hat die Dichtefunktion
1
1
2
2
p
exp −
(x
−
2ρxy
+
y
)
f (x, y ) =
2
2
2 (1 − ρ )
2π 1 − ρ
Die Randverteilungen von X und Y sind (für jedes ρ)
standard-normalverteilt.
Die Korrelation zwischen X und Y ist gleich ρ.
Aus Unkorreliertheit von X und Y folgt hier auch die Unabhängigkeit
von X und Y .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
56 / 65
Höhenlinien der bivariaten Standardnormalverteilung
●
●
●
●
●
●
●
●
●
●
●
3
3
3
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
0.02
●
●
●
●
●
●
●
●
0.04
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
0
●
●
−1
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●
●
●
0.18
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ● ●● ●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.06
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
0.1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●● ●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
0.14
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●●
●●
●
●●
●
● ●●
●●
● ●
●
●●
● ●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●●
0.18
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
● ●
●● ●
●
●● ●
●
●
●
●
●
●
●
●
●
● ●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
● ●
0.16
●●
● ●●
●
●
●
●●
● ●
●
●
● ●
●
●
●
●
●●●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●●
●
●
● ●●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
0.12
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
0.08
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.08
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
0.12
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
0.16
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
0.04
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
0.14
●
●
●
● ●
●
●
●
●
●
0.2
●
●
●
●
0.1
2
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ●●
●
●
●●
●●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
−2
●●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
0.1
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●● ●
●
●
●●
●
●
●●
● ●
●● ●
● ● ●
● ●
●
● ●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
● ●
●
●
●
●●
●●
●
●
●
●
●● ●● ●
●● ●
●
● ●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ● ●● ●
●
● ●
● ●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
● ●
●
● ●●● ●
●●
● ●
●
●
●
●
●●
●●
●
●●
●
●
● ●
● ●● ●● ●
●
● ●
●
● ●
●
●
● ●
●
●
● ●●
● ●●
●
●
●
●●
●
●●● ●
●
●
●●
●
●●
●
●
● ●
●
●●
●
●● ●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
● ● ●
●
● ●
●
● ●
● ●
●
●
●
● ●
●●
●
●●
●
● ●
●
●●
●● ●
● ●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●● ●
●
●●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●●
●●
●
● ●●
● ●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
● ● ●
●
●●
●
●
●●
●
●
● ●
●
●
●
●
●
●
● ● ●●●●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
● ● ●
●
● ●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●● ●
● ● ● ●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●●
●
● ●
● ●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
● ● ●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●●
●
0.14
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
0.12
●
● ●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
0.06
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
● ●
●●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
0.04
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2
1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
●
●
●
● ●
●
●
●
●
●
0
●
●
●
●
0.06
0.08
●
●
●
●
●
●
●
●
●
●
●
●
−1
●
●
●
●
●
−2
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
0.02
●
●
●
●
●
●
●
●
●
●
●
●
y
●
●
2
●
●
●
●
●
y
2
●
0.02
●
●
●
●
●
●
●
●
●
2
●
●
●
●
●
●
1
●
●
−1
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
−3
−3
−3
●
●
●
●
●
●
●
●
−3
−2
−1
0
1
x
2
3
−3
−2
−1
0
1
2
3
−3
−2
−1
x
0
1
2
3
x
Höhenlinien der Dichtefunktion der bivariaten Standardnormalverteilung
mit jeweils 500 Stichproben für ρ = 0 (links), ρ = 0.7 (Mitte) und
ρ = −0.5 (rechts)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
57 / 65
Die bivariate Normalverteilung
Die allgemeine bivariate Normalverteilung erhält man durch die linearen
Transformationen einer bivariaten Standardnormalverteilung:
X
Y
→ µX + σ X · X
→ µY + σ Y · Y
Insgesamt fünf Parameter: µX , µY , σX2 , σY2 , ρ
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
58 / 65
8.8 Bedingte Verteilungen
Betrachte die Zufallsvariablen X und Y mit gemeinsamer Dichte
fX ,Y (x, y ). Wir interessieren uns für die bedingte Verteilung von
X gegeben Y = y .
Problem: Es gilt P(Y = y ) = 0 für alle y . Daher ist
P(X ≤ x und Y = y )
P(X ≤ x|Y = y ) =
P(Y = y )
nicht definiert.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
59 / 65
Bedingte Verteilungs- und Dichtefunktion
Man geht nun anders vor und betrachtet
P(X ≤ x|y ≤ Y ≤ y + dy )
=
≈
P(X ≤ x und y ≤ Y ≤ y + dy )
P(y ≤ Y ≤ y + dy )
Rx
−∞ fX ,Y (u, y ) dy du
Z
=
fY (y ) dy
x
−∞
fX ,Y (u, y )
du
fY (y )
| {z }
(∗)
(∗) Dichtefunktion der bedingten Verteilung von X geg. Y = y
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
60 / 65
Bedingte Verteilungs- und Dichtefunktion II
Man definiert nun:
Die bedingte Verteilungsfunktion von X , gegeben Y = y ist
Z x
fX ,Y (u, y )
FX |Y (x|y ) =
du
fY (y )
−∞
für alle y mit fY (y ) > 0. Die bedingte Dichte von X , gegeben Y = y
ist somit
fX ,Y (x, y )
fX |Y (x|y ) =
fY (y )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
61 / 65
Beispiel
Betrachten wir wieder die Zufallsvariablen X und Y mit gemeinsamer
Dichte
(
1
x für 0 ≤ y ≤ x ≤ 1
fX ,Y (x, y ) =
0 sonst
Für die bedingten Dichten von Y , gegeben X = x ergibt sich:
(
1
x für 0 ≤ y ≤ x
fY |X (y |x) =
0 sonst
d.h. Y |X = x ist gleichverteilt auf [0, x].
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
62 / 65
Beispiel II
Für die bedingten Dichten von X , gegeben Y = y ergibt sich:
fX |Y (x|y ) =
1
x
log( y1 )
(
=
Esther Herberich und Matthias Schmid
für y ≤ x ≤ 1
−1/(x log(y )) für y ≤ x ≤ 1
0
() Stochastik und Statistik
sonst
SS 2012
63 / 65
Simulation über bedingte Verteilungen
Bedingte Verteilungen sind sehr nützlich zum Simulieren aus gemeinsamen
Verteilungen. Wegen
fX ,Y (x, y ) = fX |Y (x|y ) · fY (y )
(1)
kann man zunächst eine Zufallsvariable Y = y aus der Randverteilung
fY (y ) ziehen, und dann bedingt auf Y = y eine Zufallszahl aus der
bedingten Verteilung fX |Y (x|y ) ziehen. Oder andersherum:
fX ,Y (x, y ) = fY |X (y |x) · fX (x)
(2)
Im Beispiel ist Version (2) einfacher zu implementieren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
64 / 65
Beispiel: Standardnormalverteilung
Angenommen X und Y sind bivariat standardnormalverteilt. Dann ist
1
1
1 √1
2 − 2ρxy + y 2 )
exp
−
(x
2
2π
2 (1−ρ )
1−ρ2
fX |Y (x|y ) =
1
1
2
√
exp − 2 y
2π
=
2
1
1
1 (x − ρy )
√ p
exp −
2
2 (1 − ρ2 )
2π 1 − ρ
also X |Y = y ∼ N(ρ · y , 1 − ρ2 )
Analog erhält man Y |X = x ∼ N(ρ · x, 1 − ρ2 )
→ Simulation aus der bivariaten Standardnormalverteilung
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
65 / 65
9. Elemente Statistischer Inferenz II
Überblick
Likelihood-Inferenz für stetige Zufallsvariablen
Tests auf Modellanpassung (“goodness of fit tests”)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 25
9.1 Likelihood-Inferenz für stetige ZVn
Likelihood-Inferenz lässt sich analog zu diskreten Zufallsvariablen auch bei
stetigen Zufallsvariablen anwenden.
Beispiel:
X1 , X2 , . . . , Xn seien unabhängige Beobachtungen aus einer E(λ)-Verteilung. WiePlautet der ML-Schätzer von θ = λ und dessen Standardfehler?
Für x̄ = ni=1 xni ergibt sich (Herleitung in Vorlesung):
λ̂ML = 1/x̄
√
√
SE (λ̂ML ) = 1/( n x̄) = λ̂ML / n
√
→ 95% Wald-Intervall für λ: 1/x̄ ± 1.96 · 1/( n x̄)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
2 / 25
Wie gut ist die Approximation?
Dazu wird eine Simulationsstudie mit wahrem Wert θ = λ und
variierendem n durchgeführt:
Berechnung von m Konfidenzintervallen, jeweils basierend auf n
exponentialverteilten Zufallsvariablen
Berechnung der empirischen Verteilung des ML-Schätzers und der
Überdeckungshäufigkeit (Anteil der Konfidenzintervalle, die den
wahren Wert beinhalten)
Woher kommt die offensichtlich sehr gute Approximation?
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
3 / 25
Asymptotische Eigenschaften des ML-Schätzers
Man kann zeigen, dass (unter Regularitätsbedingungen) asymptotisch
(für großen Stichprobenumfang) gilt:
a
θ̂ML ∼ N (µ = θ, σ 2 = SE (θ̂ML )2 )
Nach Standardisierung erhält man:
θ̃ML =
θ̂ML − θ
SE (θ̂ML )
a
∼ N (0, 1)
D.h., der ML-Schätzer ist asymptotisch unverzerrt und normalverteilt
mit Standardabweichung gleich dem Standardfehler.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 25
Motivation von Wald-Intervallen
Sei xα = Φ−1 (α) das α-Quantil der Standardnormalverteilung. Dann gilt
mit einer Wahrscheinlichkeit von β = 1 − α, dass θ̃ML asymptotisch im
Intervall [xα/2 , x1−α/2 ] ist.
Beachte: Wegen der Symmetrie der Normalverteilung ist xα/2 = −x1−α/2
Nun kann der Faktor d in der Formel
θ̂ML ± d · SE (θ̂ML )
für Wald-Intervalle von θ zum Niveau β (vgl. Abschnitt 6.1) motiviert
werden. Es gilt d = x1−α/2 .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 25
Mehr zur Asymptotik des ML-Schätzers
Betrachte wieder exemplarisch die unabhängigen X1 , X2 , . . . , Xn aus
einer E(λ)-Verteilung. Es gilt:
µ = E(Xi ) = 1/λ
Var(Xi ) = 1/λ2
Wir wollen nun µ = 1/λ durch Maximum Likelihood schätzen. Es ergibt
sich:
µ̂ML = x̄
(wegen Invarianzeigenschaft)
√
√
SE (µ̂ML ) = x̄/ n = µ̂ML / n (ohne Beweis)
→ 95% Wald-Intervall für µ:
Esther Herberich und Matthias Schmid
√
x̄ ± 1.96 · x̄/ n
() Stochastik und Statistik
SS 2012
6 / 25
Der ML-Schätzer als Zufallsvariable
Betrachte X̄ =
1
n
P
Xi mit unabhängigen Xi ∼ E(λ). Es folgt:
E(X̄ ) = µ
√
Var(X̄ ) = µ /n = (µ/ n)2
2
√
d.h. der ML-Schätzer X̄ ist erwartungstreu mit Standardabweichung µ/ n.
Daher gilt wegen dem zentralen Grenzwertsatz (ZGWS):
a
X̄ ∼ N (µ, σ 2 = µ2 /n)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 25
Konfidenzintervall basierend auf dem ZGWS
Ein 95%-Konfidenzintervall für µ basierend auf dem ZGWS ist daher
√
x̄ ± 1.96 · µ/ n
Problem:
µ ist unbekannt und deshalb verwendet man eine “plug-in”-Schätzung von
µ durch µ̂ML = x̄. Damit erhält man:
√
x̄ ± 1.96 · x̄/ n
Dieses Intervall ist identisch zu dem Wald-Intervall, welches auf dem
Standardfehler basiert!
Also: Der Standardfehler ist ein empirischer Schätzer der Standardabweichung des ML-Schätzers.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 25
Bemerkungen
exakte Analogie funktioniert nicht immer:
z.B. für λ̂ML
√
= 1/x̄ mit SE (λ̂ML ) = λ̂ML / n gilt (ohne Beweis):
E(1/X̄ )
Var(1/X̄ )
n
= λ·
n−1
=
λ2
n2
·
(n − 2) (n − 1)2
die Analogie gilt aber zumindest asymptotisch!
in folgenden Beispielen gilt die Analogie exakt:
I
Binomialexperiment: π̂ML = x̄
I
ML-Schätzung des Parameters q im Hardy-Weinberg-Gleichgewicht
(wird in den nächsten Folien skizziert)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 25
ML-Inferenz im H-W-Gleichgewicht
Angenommen wir beobachten x = (x1 , x2 , x3 ) = (600, 320, 80) bei
n = 1000.
Ziel:
ML-Schätzung des Parameters q = π1 + π2 /2 unter Annahme einer
Trinomialverteilung mit Wahrscheinlichkeiten π1 = q 2 , π2 = 2q(1 − q) und
π3 = (1 − q)2 (H-W-Gleichgewicht)
Wir wissen:
Die ML-Schätzer von π1 und π2 sind π̂1 = x1 /n und π̂2 = x2 /n. Wegen
der Invarianzeigenschaft gilt:
q̂ML
Esther Herberich und Matthias Schmid
x1 + x2 /2
=
n
() Stochastik und Statistik
SS 2012
10 / 25
ML-Inferenz im H-W-Gleichgewicht II
2 /2
Man kann zeigen, dass die zugehörige Zufallsvariable X1 +X
die
n
Varianz 12 q (1 − q) hat.
Andererseits kann gezeigt werden, dass der Standardfehler von q̂ML
folgenden Wert hat:
r
1
SE (q̂ML ) =
q̂ML (1 − q̂ML )
2
Auch hier erhält man den Standardfehler durch “plug-in” des ML-Schätzers
in die Formel für die Varianz des ML-Schätzers.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 25
ML-Inferenz im H-W-Gleichgewicht III
Für die Daten x = (x1 , x2 , x3 ) = (600, 320, 80) und n = 1000 gilt also:
q̂ML
600 + 320/2
= 0.76
=
1000
Daraus lassen sich die erwarteten Anzahlen berechnen:
2
E = n · (q̂ML
, 2q̂ML (1 − q̂ML ), (1 − q̂ML )2 ) = (577.6, 364.8, 57.6)
Frage:
Ist der Unterschied zwischen erwarteten und beobachteten
Anzahlen “zufällig” oder deutet er darauf hin, dass die Population nicht im H-W-Gleichgewicht ist?
Diese Frage wird in Abschnitt 9.2 beantwortet.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 25
Wiederholung: Quadrat einer Standardnormalverteilung
Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1)?
Es wurde berechnet, dass
f (y ) =
1
1
− 21
√ y · exp(− y )
2
2π
Dies entspricht der Dichte einer G(.5, .5), also einer χ2 -Verteilung mit 1
Freiheitsgrad: Y = X 2 ∼ χ21
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
13 / 25
Motivation von Likelihood-Intervallen
Betrachte die Taylor-Approximation der Log-Likelihood:
1 (θ̂ML − θ)2
1 2
l(θ) ≈ l(θ̂ML ) −
= l(θ̂ML ) − θ̃ML
2
2 SE (θ̂ML )
2
a
Wegen θ̃ML ∼ N (0, 1) folgt:
L(θ̂ML )
a
= −2l̃(θ) ∼ χ21
2 log
L(θ)
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
14 / 25
Motivation von Likelihood-Intervallen II
Die kritischen Werte c in den Formeln zur Berechnung von LikelihoodIntervallen
{θ : l̃(θ) ≥ c}
bzw. {θ : L̃(θ) ≥ exp(c)}
ergeben sich einfach durch Transformation der entsprechenden Quantile
xα = F −1 (α) der χ21 -Verteilung:
x1−α
c=−
2
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 25
9.2 Modellanpassung
Häufig ist es von Interesse die Anpassung eines bestimmten stochastischen
Modells an vorliegende Daten zu studieren. Dies ist insbesondere bei
kategorialen Daten der Fall.
Beispiele:
1. Ist eine Population im Hardy-Weinberg-Gleichgewicht?
Untersuche N Individuen und berechne die empirischen Häufigkeiten
der Genotypen aa, ab, bb. Die beobachtete Genotypverteilung ist z.B.
x = (600, 320, 80).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 25
Fortsetzung der Beispiele
2. Sind zwei Variablen unabhängig?
Hier wird untersucht, ob es eine Abhängigkeit zwischen Geschlecht
und Promotionsinteresse gibt. Die vorliegenden Daten sind:
Interesse
Ja Nein
5
12
6
5
11
17
♂
♀
17
11
28
3. Im 19. Jahrhundert wurden in Sachsen Daten zur Häufigkeit von
männlichen Nachkommen bei 6115 Familien mit jeweils (!) 12
Kindern erhoben:
# Jungen
# Familien
0
3
1
24
2
104
3
286
4
670
5
1033
6
1343
7
1112
8
829
9
478
10
181
11
45
12
7
Folgt die Verteilung einer Binomialverteilung?
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 25
Das saturierte Modell
In allen drei Beispielen möchte man ein bestimmtes Modell (“Null-Modell”,
“Null-Hypothese”) mit dem allgemeinen Modell (“saturiertes” Modell) unter
der Annahme einer Multinomialverteilung Mp (n, π) vergleichen.
Beispiel
Null-Modell
1
2
3
Population ist im H-W Gleichgewicht
Variablen sind unabhängig
Daten sind binomial verteilt
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
Anzahl der
Parameter p
1
2
1
SS 2012
Anzahl der
Kategorien K
3
4
13
18 / 25
Test auf Modellanpassung
Zum statistischen Testen der “Null-Hypothese” (H0 ) geht man nach
folgendem Schema vor:
ML-Schätzung der unbekannten Parameter im Null-Modell
600 + 320
2
1000
Beispiel 1:
q̂ =
Beispiel 2:
π̂♂ =
17
28
π̂Interesse =
Beispiel 3:
π̂ =
= 0.76
11
28
0·3 + 1·24 + ... + 12·7
6115·12
= 0.519215
Berechnung der erwarteten Anzahl Ei an Fällen in Kategorie i unter
Annahme des Null-Modells
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
19 / 25
Test auf Modellanpassung II
Berechnung des Pearsonschen χ2 -Maßes
χ2 =
K
X
i=1
K
2
X
(X
−
E
)
i
i
ri2 =
Ei
i=1
als Gesamtmaß für die Abweichung, wobei Xi die tatsächlich
beobachteten Anzahlen in Kategorie i sind
Unter der Annahme, dass H0 wahr ist, hat χ2 eine (asymptotische)
χ2 -Verteilung mit k = K − 1 − p Freiheitsgraden (mit K Anzahl der
Kategorien und p Anzahl der Modellparameter).
Ermittelung des p-Wertes:
Wahrscheinlichkeit unter H0 ein solches oder noch extremeres
Resultat zu beobachten.
→ Berechnung über Quantile der χ2 -Verteilung mit k Freiheitsgraden
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 25
Bemerkungen
Die χ2 -Verteilung gilt nur asymptotisch (für n → ∞).
Faustregel:
Es muss gelten, dass alle Ei > 1 und mindestens
80% der Ei > 5 sind.
Alternativ bietet sich auch die Berechnung der Devianz D an:
D =2·
K
X
Xi log
i=1
Xi
Ei
Diese besitzt unter H0 die gleiche Verteilung wie χ2 .
Unter H0 sind die χ2 -Residuen ri approximativ und asymptotisch
standardnormalverteilt, d.h. Residuen mit |ri | > 2 deuten auf
schlechte Modellanpassung hin.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
21 / 25
Berechnung der erwarteten Anzahlen in Beispiel 1
Unter Annahme des Hardy-Weinberg-Gleichgewichts erhält man:
π̂1 = q̂ 2
= 0.5776
π̂2 = 2q̂(1 − q̂) = 0.3648
π̂3 = (1 − q̂)2
= 0.0576
Daher ergeben sich als erwartete Anzahlen bei n = 1000 Individuen:
E1 = n · π̂1 = 577.6
E2 = n · π̂2 = 364.8
E3 = n · π̂3 = 57.6
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 25
Berechnung der erwarteten Anzahlen in Beispiel 2
Unter Unabhängigkeit gilt z.B. für den Eintrag
(♂, Promotionsinteresse = Ja):
π̂1 = π̂♂ · π̂Interesse
17 11
=
·
28 28
Für die erwartete Anzahl folgt:
17 · 11
17 11
·
=
≈ 6.68
E1 = n · π̂1 = 28 ·
28 28
28
Die Werte der anderen Fälle erhält man analog (erwartete Anzahl in
Ja
Nein
Klammern):
♂ 5 (6.68) 12 (10.32) 17
♀ 6 (4.32)
5 (6.68)
11
11
17
28
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
23 / 25
Berechnung der erwarteten Anzahlen in Beispiel 3
Hier ergeben sich unter Verwendung der Wahrscheinlichkeit
P(X = x) mit x = 0, . . . , 12
bei Vorliegen einer Binomialverteilung mit n = 12 und π = 0.519215
folgende erwartete Häufigkeiten:
Ei = P(X = i) · 6115
Tabelle mit beobachteten und erwarteten Anzahlen:
Xi
Ei
0
3
0.9
Esther Herberich und Matthias Schmid
1
24
12.1
2
104
71.8
3
286
258.5
() Stochastik und Statistik
...
...
...
11
45
26.1
SS 2012
12
7
2.3
24 / 25
Vergleich von χ2 und Devianz in den 3 Beispielen
Bsp.
1
2
3
χ2
15,08
1,769
110,5
Esther Herberich und Matthias Schmid
K
3
4
13
p
1
2
1
k
1
1
11
p-Wert
0,0001
0,18
0
() Stochastik und Statistik
D
14,36
1,765
97,0
p-Wert
0,00015
0,18
6, 66 · 10−16
SS 2012
25 / 25
10. Lineare Regression
●
4.5
●
●
4.0
y
●
●
3.5
●
●
●
3.0
●
●
0.0
0.2
0.4
0.6
0.8
1.0
x
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
1 / 30
KQ-Schätzung
Es ist eine Gerade y = β1 + β2 x gesucht, welche die Punktwolke in der
Abbildung ‘bestmöglichst’ approximiert.
Dazu betrachten wir eine bivariate Zufallsvariable (Y , X ) mit
Beobachtungen (yi , xi ), i = 1, . . . , n und definieren den Schätzer für die
Parameter der Gerade als
n
X
(βˆ1 , βˆ2 ) = argmin
(yi − β1 − β2 xi )2 .
β1 ,β2
Esther Herberich und Matthias Schmid
i=1
() Stochastik und Statistik
SS 2012
2 / 30
KQ-Schätzung
Dieser Schätzer (βˆ1 , βˆ2 ) heißt (aus offensichtlichen Gründen)
Kleinster-Quadrate-Schätzer und repräsentiert diejenige Gerade durch die
Punktwolke, welche den quadratischen vertikalen Abstand jeder
Beobachtung zur Geraden minimiert. Andere Kriterien sind denkbar, wie
etwa
(βˆ1 , βˆ2 ) = argmin
β1 ,β2
Esther Herberich und Matthias Schmid
n
X
|yi − β1 − β2 xi |.
i=1
() Stochastik und Statistik
SS 2012
3 / 30
Zielgröße



Y =

Y1
Y2
..
.



 ∈ Rn

Yn
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
4 / 30
Einflussgrößen

X1j
X2j





X j =  .  , j = 1, . . . , k
 .. 
Xnj
welche wir in einer Matrix X = (X 1 , X 2 , . . . , X k ) ∈ Rn,k aggregieren.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
5 / 30
Modellparameter
Die Parameter der Geraden (k = 1) bzw. Hyperebenen (k > 2) sind durch


β1
 β2 


β =  .  ∈ Rk
 .. 
βk
gegeben und wir betrachten das Modell Y = Xβ.
Gesucht ist nach dem Kriterium der Kleinsten Quadrate ein Schätzer β̂,
sodass ||Y − Xβ̂||2 ≤ ||Y − Xβ||2 ∀β ∈ Rk .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
6 / 30
KQ-Schätzung
Sei der Rang von X gleich k. Dann gilt:
β̂ = argmin ||Y − Xβ|| = (X> X)−1 X> Y
β
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
7 / 30
KQ-Schätzung
●
4.5
●
●
4.0
y
●
●
3.5
●
●
●
3.0
●
●
0.2
0.4
0.6
0.8
x
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
8 / 30
Das Lineare Regressionsmodell
Das Modell
Y = Xβ + U
heißt lineares Regressionsmodell. Dabei ist


U1
 U2 


U =  .  ∈ Rn
 .. 
Un
ein n-dimensionaler Zufallsvektor.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
9 / 30
Eigenschaften
gegeben sind mehrere stetige Merkmale Y , X 1 , . . . , X k
X 1 , . . . , X k verursachen Y und nicht umgekehrt
Pk
der Zusammenhang ist linear, also Yi = j=1 βj Xij + Ui
die X -Variablen heißen unabhängige Variable, Regressoren, exogene
Variable oder Design-Variable
die Y -Variable heißt abhängige Variable, Regressant, endogene
Variable oder Response-Variable
U sind nicht beobachtbare Störgrößen.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
10 / 30
Annahmen
Zudem treffen wir drei Annahmen:
A1) X ist eine feste (nicht zufällige) n × k Matrix mit vollem Spaltenrang,
also Rang(X) = k.
A2) U ist ein Zufallsvektor mit E (U) = (E (U1 ), E (U2 ), . . . , E (Un ))> = 0.
A3) Die Komponenten von U sind paarweise unkorreliert und haben alle
die gleiche Varianz σ 2 , formal: Cov(U) = σ 2 diag(n).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
11 / 30
Körperfettmessung
Garcia et al. (2005, Obesity Research) untersuchten n = 71 Frauen und
erhoben (unter anderem) k = 5 Einflussgrößen (Alter, Bauchumfang,
Hüftumfang, Ellenbogenbreite und Kniebreite), um deren Einfluss auf die
Zielgröße, den Körperfettanteil gemessen mittels Dual Energy X-Ray
Absorptiometry (DXA), zu untersuchen.
Es stellen sich folgende Fragen: Welche der unabhängigen Variablen haben
tatsächlich einen Einfluss auf den Körperfettanteil? Welche haben einen
positiven und welche einen negativen Einfluss? Kann man aus den
unabhängigen Variablen auf den Körperfettanteil schließen? Diese Fragen
können mittels eines linearen Regressionsmodells beantwortet werden.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
12 / 30
70
80
90
100
60
●
50
●●
●
●
●
40
●●
●
●
●
● ●
● ●
20
● ●
●
●
5.5
●
40
50
age
Esther Herberich und Matthias Schmid
60
90
100
110
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
6.0
6.5
7.0
60
50
●
●
● ●
●
●●
●
120
130
hipcirc
() Stochastik und Statistik
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
● ●
● ●
●
●
● ●
●
●
●
● ●
●
● ●
●
●●●
●
● ● ● ●
● ● ●
● ●●●
●
●
●●
●
●
40
●
●
●
30
40
30
●
●
● ●
20
●
●
●
●
● ●
●
●
●
● ● ●
●●
●
●
●
●
● ●
●
DEXfat
60
50
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●● ●● ● ● ●
●
●
●
●
●
●
● ●
● ●
● ●
● ● ●●● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ● ● ●
●
● ●
elbowbreadth
●
●
●
●
●
●
●
110
10
10
30
●
●
●
20
●
●●
●
●
●
●
● ●
●●
●
20
40
30
●
●
●
●
10
●
● ● ●
●
●
●
●
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
DEXfat
60
50
●
●
DEXfat
●
●
●
●
● ●
●
waistcirc
●
●
●
10
●
● ●● ●
●●
●
●●
●
● ●
●
● ●
●
● ●
●
●
●
● ●
●
●●
●
● ●
●
● ● ●
●●
●
● ●
●● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
30
●
DEXfat
60
50
40
10
20
30
DEXfat
60
50
40
30
10
20
DEXfat
Körperfettmessung
●
8
9
10
●
●
●
●
●
●
● ●
●
11
kneebreadth
SS 2012
13 / 30
Schätzung in R
> bodyfat_lm <- lm(DEXfat ~ age + waistcirc + hipcirc +
+
elbowbreadth + kneebreadth, data = bodyfat)
> round(coef(bodyfat_lm), 4)
(Intercept)
-59.5732
kneebreadth
1.6538
age
0.0638
waistcirc
0.3204
hipcirc elbowbreadth
0.4340
-0.3012
was äquivalent (aber numerisch stabiler ist) zu
>
+
>
>
>
X <- bodyfat[,c("age", "waistcirc", "hipcirc",
"elbowbreadth", "kneebreadth")]
X <- cbind(1, as.matrix(X))
Y <- bodyfat$DEXfat
round(drop(tcrossprod(solve(crossprod(X, X)), X) %*% Y), 4)
-59.5732
kneebreadth
1.6538
age
0.0638
Esther Herberich und Matthias Schmid
waistcirc
0.3204
() Stochastik und Statistik
hipcirc elbowbreadth
0.4340
-0.3012
SS 2012
14 / 30
Eigenschaften der KQ-Methode
Unter A1, A2 und A3 ist β̂ ein erwartungstreuer Schätzer für β mit
Kovarianzmatrix Cov(β̂) = σ 2 (X> X)−1 .
Sei Y ∈ Rn ein beliebiger Zufallsvektor mit E (Y ) = (E (Y1 ), . . . , E (Yn ))>
und


Var(Y1 )
Cov(Y1 , Y2 )
 Cov(Y2 , Y1 )

Var(Y
)
Cov(Y
,
Y
)
2
2
3


Cov(Y ) = 

..
.
.
.
.


.
.
.
Var(Yn )
mit Cov(Y ) = Cov(Y )> = E ((Y − E (Y ))(Y − E (Y ))> ).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
15 / 30
Eigenschaften der KQ-Methode
Es gilt
1
Cov(Y ) is positiv semidefinit
2
E (AY ) = AE (Y )
3
Cov(AY ) = ACov(Y )A>
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
16 / 30
Lineare Funktionen
Unter Umständen sind wir an Linearkombinationen des Parametervektors
β interessiert (welche auch ‘Kontraste’ genannt werden). Sei c ∈ Rk ein
Vektor von Konstanten. Dann ist c > β̂ eine erwartungstreue Schätzung von
c > β mit Kovarianzmatrix σ 2 c > (X> X)−1 c.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
17 / 30
Optimalität der KQ-Methode
Ein Schätzer β̃ heißt linear, wenn eine Matrix C ∈ Rk,n existiert, sodass
β̃ = CY .
Gauß-Markov-Theorem:
Unter A1-A3 gilt:
1
2
β̂ ist der beste lineare erwartungstreue Schätzer (BLUE) für β, d.h.
Cov(β̂) ≤ Cov(β̃) im Sinne der Löwner-Halbordnung (d.h.
Cov(β̃) − Cov(β̂) psd).
BLUE ist eindeutig.
Desweiteren: Unter A1-A3 ist c > β̂ der BLUE für c > β.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
18 / 30
Prognose mit KQ
Gegeben sei Y und X 1 , . . . , X k mit Beobachtungen
(yi , xi = (xi1 , . . . , xik )), i = 1, . . . , n sowie xn+1 . Gesucht sei yn+1 . Bekannt
> β+U
ist, dass Yn+1 = xn+1
n+1 . Da die Störgrößen U nicht beobachtbar
sind, jedoch per Annahme einen Erwartungswert gleich 0 haben, schätzen
> β̂.
wir Ŷn+1 = xn+1
Es gilt: Unter A1-A3 ist E (Ŷn+1 − Yn+1 ) = 0.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
19 / 30
Körperfettmessung
Für die 45jährige Emma mit Baumumfang 90cm, Hüftumfang 110cm,
Ellenbogenbreite 7cm und Kniebreite 10cm ist der vorhergesagte
Körperfettanteil
> emma <- c(intercept = 1, age = 45, waistcirn = 90,
+
hipcirc = 110, ellbowbreadth = 7,
+
kneebreadth = 10)
> emma %*% coef(bodyfat_lm)
[,1]
[1,] 34.30292
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
20 / 30
Schätzung von Varianz und Kovarianz
Es fehlen noch Schätzer für σ 2 und Cov(β̂). Dazu betrachten wir die
Residuen
Û = Y − Xβ̂
als Ersatz für die nicht beobachtbaren Störgrößen U.
1
2
Û = MY = MU mit M = diag(n) − H, wobei die sogenannte
Hat-Matrix H gegeben ist durch H = X(X> X)−1 X> und Ŷ = HY
(H setzt dem Y den Hut auf).
M ist orthogonaler Projektor mit Rang (gleich Spur) n − k.
Unter A1-A3 gilt
> Û
Û
σ̂ 2 =
n−k
ist eine erwartungstreue Schätzung für σ 2 .
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
21 / 30
Kovarianzschätzung
Damit können wir also auch die Kovarianzmatrix Cov(β̂) schätzen, und
zwar als
σ̂ 2 (X> X)−1 .
Desweiteren ist es möglich, die geschätzten Koeffizienten zu
standardisieren, um sie miteinander vergleichen zu können:
β̂j
p
σ̂ diag((X> X)−1 )
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
22 / 30
Körperfettmessung
Hier sind die standardisierten Regressionskoeffizienten gegeben durch
>
>
>
>
>
>
U <- bodyfat$DEXfat - X %*% coef(bodyfat_lm)
n <- nrow(bodyfat)
k <- length(coef(bodyfat_lm))
sigma2 <- crossprod(U) / (n - k)
sdbeta <- sqrt(sigma2) * sqrt(diag(solve(crossprod(X))))
round(coef(bodyfat_lm) / sdbeta, 4)
(Intercept)
-7.0471
kneebreadth
1.9178
age
1.7061
waistcirc
4.3469
hipcirc elbowbreadth
4.5365
-0.2474
oder einfacher
> round(coef(bodyfat_lm) / sqrt(diag(vcov(bodyfat_lm))), 4)
(Intercept)
-7.0471
kneebreadth
1.9178
age
1.7061
Esther Herberich und Matthias Schmid
waistcirc
4.3469
() Stochastik und Statistik
hipcirc elbowbreadth
4.5365
-0.2474
SS 2012
23 / 30
Das Lineare Regressionsmodell unter Normalverteilung
Bisher haben wir außer dem Erwartungswert (A2) und der Kovarianzmatrix
(A3) nichts über die Verteilung der Störgrößen U angenommen. In diesem
Abschnitt betrachten wir zusätzlich
A4) Ui ∼ N (0, σ 2 ).
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
24 / 30
Eigenschaften der Normalverteilung
Eine n-dimensionale Zufallsvariable Z folgt einer multivariaten
Normalverteilung mit Erwartungswertvektor µ ∈ Rn und Kovarianzmatrix
Σ ∈ Rn,n (symmetrisch und pd), symbolisch
Z ∼ N (µ, Σ).
Es gilt
1
2
3
4
Z ∼ N (µ, Σ) ⇒ E(Z ) = µ, Cov(Z ) = Σ und Zi ∼ N (µi , Σii ).
Sei A ∈ Rp,n mit Rang gleich p und b ∈ Rp , dann
AZ + b ∼ N (Aµ + b, AΣA> ).
Die Komponenten von Z sind stochastisch unabhängig ⇐⇒
Σ = diag(σii2 ).
A ∈ Rp,n , B ∈ Rq,n , AΣB> = 0 ⇒ AZ , BZ sind stochastisch
unabhängig.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
25 / 30
KQ- und Varianzschätzung
Es gilt
Y = Xβ + U ∼ N (Xβ, σ 2 diag(n))
β̂ = (X> X)−1 X> Y ∼ N (β, σ 2 (X> X)−1 )
Unter A1 - A4 sind β̂ und σ̂ 2 stochastisch unabhängig.
Unter A1 - A4 ist β̂ die ML-Schätzung für β.
2 = Û > Û/n die ML-Schätzung für σ 2 .
Unter A1 - A4 ist σ̂ML
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
26 / 30
Konfidenzintervalle und Tests für β
Wir möchten nun Hypothesen der Form
H0 : d > β = 0 vs. H1 : d > β 6= 0
testen oder Konfidenzintervalle für den Parameter d > β herleiten. Dabei ist
d ∈ Rk beliebig.
Unter A1 - A4 gilt
d > β̂ − d > β
p
∼ tn−k ,
2
>
>
−1
σ̂ d (X X) d
wobei tn−k die t-Verteilung mit n − k Freiheitsgraden bezeichnet.
Damit lautet die Testentscheidung: Lehne H0 ab, wenn
|d > β̂|
T =p
> tn−k,1−α/2
σ̂ 2 d > (X> X)−1 d
und ein (1 − α) × 100% Konfidenzintervall für d > β ist
q
d > β̂ ± tn−k,1−α/2 σ̂ 2 d > (X> X)−1 d.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
27 / 30
Körperfettmessung
Jetzt können wir für jede der Einflussgrößen die Teststatistik ausrechnen,
dabei ist d der Einheitsvektor, sodass d > β = βj :
> T <- coef(bodyfat_lm) / sdbeta
> round(T, 4)
(Intercept)
age
-7.0471
1.7061
hipcirc elbowbreadth
4.5365
-0.2474
waistcirc
4.3469
kneebreadth
1.9178
und die zweiseitigen P-Werte aus der t-Verteilung ablesen
> p <- (1 - pt(abs(T), df = nrow(bodyfat) - length(T))) * 2
> round(p, 4)
(Intercept)
age
0.0000
0.0928
hipcirc elbowbreadth
0.0000
0.8054
Esther Herberich und Matthias Schmid
waistcirc
0.0000
kneebreadth
0.0595
() Stochastik und Statistik
SS 2012
28 / 30
Körperfettmessung
> summary(bodyfat_lm)
Call:
lm(formula = DEXfat ~ age + waistcirc + hipcirc + elbowbreadth +
kneebreadth, data = bodyfat)
Residuals:
Min
1Q
-9.1782 -2.4973
Median
0.2089
3Q
Max
2.5496 11.6504
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -59.57320
8.45359 -7.047 1.43e-09 ***
age
0.06381
0.03740
1.706
0.0928 .
waistcirc
0.32044
0.07372
4.347 4.96e-05 ***
hipcirc
0.43395
0.09566
4.536 2.53e-05 ***
elbowbreadth -0.30117
1.21731 -0.247
0.8054
kneebreadth
1.65381
0.86235
1.918
0.0595 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
29 / 30
Körperfettmessung
Und als Abschluss noch die Konfidenzintervalle
> confint(bodyfat_lm)
2.5 %
97.5 %
(Intercept) -76.45619185 -42.6902064
age
-0.01088410
0.1385129
waistcirc
0.17321558
0.4676638
hipcirc
0.24291126
0.6249985
elbowbreadth -2.73231557
2.1299704
kneebreadth
-0.06842371
3.3760367
Wir sehen also, dass hauptsächlich der Bauch- und Hüftumfang informativ
für den Körperfettanteil sind.
Esther Herberich und Matthias Schmid
() Stochastik und Statistik
SS 2012
30 / 30
Herunterladen