Stochastik für Bioinformatiker Literatur Software Inhaltsverzeichnis

Werbung
Stochastik für Bioinformatiker
Literatur
Held (2008): “Methoden der statistischen Inferenz. Likelihood und
Bayes”. Spektrum, 29,95 EUR (304 Seiten)
Vorlesung Sommersemester 2009
Dienstag 12.00 – 14.00
Donnerstag 12:00 – 14.00
Dümbgen (2003): “Stochastik für Informatiker”, Springer Verlag,
24,95 EUR (268 Seiten)
Fahrmeir, Künstler, Pigeot, Tutz (2002): “Statistik: Der Weg zur
Datenanalyse”, Springer, 29,95 EUR (608 Seiten)
Torsten Hothorn
<[email protected]>
Georgii (2004): “Stochastik”, deGruyter, 24,95 EUR (356 Seiten)
Grimmett, Stirzaker (2001): “Probability and Random Processes”, 3rd
Edition, Oxford University Press, ca. 40 EUR (596 Seiten)
Übung (TBA)
Webseite: http://www.stat.uni-muenchen.de/∼hothorn/
Ligges (2007): “Programmieren mit R”, 2. Auflage,Springer Verlag,
29,95 EUR (247 Seiten)
Schein: Erwerb durch Klausur
Skript zur Vorlesung auf der Webseite
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
1 / 56
Software
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
2 / 56
SS 2009
4 / 56
Inhaltsverzeichnis
Die Graphiken und Beispiele im Skript und in der Vorlesung wurden mit R
erstellt. Das Analysesystem R ist für alle gängigen Betriebssysteme frei
erhältlich unter
1
Einleitung
2
Laplace-Verteilungen und diskrete Modelle
3
Bedingte Wkeiten, stoch. Unabhängigkeit
http://www.R-Project.org
4
Diskrete Zufallsvariablen
5
Erwartungswerte, Varianzen und Kovarianzen
6
Statistische Inferenz
7
Markov-Ketten
8
Stetige Zufallsvariablen
9
Statistische Inferenz II
Eine geeignete deutschsprachige Einführung ist das Buch von Uwe Ligges
“Programmieren mit R” (siehe Literaturliste). Auf der obigen Webseite sind
elektronische Handbücher und diverse Einführungen in diese
Programmiersprache erhältlich. Am Institut für Statistik werden
Vorlesungen und Kurse zu R angeboten.
Prof. Dr. Torsten Hothorn
SS 2009
()
Stochastik für Informatiker
SS 2009
3 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
1. Einleitung
Stochastik =
Ist Stochastik für die Bioinformatik wichtig?
Wahrscheinlichkeitstheorie
Statistik
Simulation von zufälligen Prozessen am Computer
Bsp.:Verbreitung von Epidemien
Analyse von statistischen/randomisierten Algorithmen
Bsp.:Quicksort
Wahrscheinlichkeitstheorie: Mathematische Beschreibung von
zufälligen Phänomenen
Statistische Analyse von Daten aus der Biologie und Genetik
Bsp.: Genexpression und Überlebenszeit
Statistik:
I
I
Stochastische Modelle für das Auftreten von Daten
Bsp.: Hardy-Weinberg-Gesetz
Erhebung, Auswertung und Interpretation von Daten
Quantifizierung von Unsicherheit
vgl. Journal Bioinformatics, Table of Contents
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
5 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
Wahrscheinlichkeit
Subjektivistische Interpretation
Grundbegriff der Stochastik: Wahrscheinlichkeit P(A) für das Auftreten
eines bestimmten Ereignisses A
Wahrscheinlichkeit aus Wetteinsatz
P(A)
P(A)
P(A)
=
=
=
1
0
p ∈ (0, 1)
:
:
:
Frage
A tritt mit Sicherheit ein
A tritt mit Sicherheit nicht ein
Ereignis A tritt mit Wahrscheinlichkeit
p ein
Prof. Dr. Torsten Hothorn
6 / 56
: ”Wie sicher bist Du, dass das Ereignis A eintreten wird?”
: ”Wie viel Einsatz E wirst Du maximal setzen,
wenn beim Eintreten von A ein Gewinn G ausgezahlt wird?”
; P(A) =
Interpretation?
SS 2009
E
G
Wahrscheinlichkeit als Maß für Deine Unsicherheit.
()
Stochastik für Informatiker
SS 2009
7 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
8 / 56
Beispiel: Spiel mit drei Bechern
Frequentistische Interpretation
Unter einen von drei gleichartigen Bechern wird eine weiche Kugel gelegt.
Nun beginnt der Anbieter, die Becher vor den Augen des Spielers zu
vertauschen.
“Häufigkeitsinterpretation”
Der Spieler muss nach einer gewissen Zeit sagen, unter welchem Becher die
Kugel liegt. Wenn er die Kugel findet, gewinnt er den doppelten Einsatz.
Klassisches Beispiel: Wiederholtes Werfen eines “fairen” Würfels;
Simulation durch Funktion sample() in R; Berechnung der kumulierten
relativen Häufigkeiten von interessierenden Ereignissen.
Ereignis A: “Kugel gefunden”
Spieler glaubt: P(A) > 1/2, möglichst nahe bei Eins
Anbieter glaubt: P(A) < 1/2, im Idealfall P(A) = 1/3
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Angenommen das Zufallsexperiment kann beliebig oft wiederholt werden,
dann konvergiert die relative Häufigkeit des Eintretens des Ereignisses A
gegen die Wahrscheinlichkeit P(A).
9 / 56
2. Laplace-Verteilungen und diskrete Modelle
Prof. Dr. Torsten Hothorn
Für ein Ereignis A ⊂ Ω definiert man die LaplaceWahrscheinlichkeit als die Zahl
P(A) :=
Ein Element ω einer Grundgesamtheit Ω nennt man Elementarereignis.
SS 2009
10 / 56
Ω = {ω1 , ω2 , . . . , ωn }
Frage: Was sind “Elementarereignisse”?
Stochastik für Informatiker
SS 2009
Betrachte die endliche Grundgesamtheit von Elementarereignissen
“Wenn nichts dagegen spricht, gehen wir
davon aus, dass alle Elementarereignisse
gleichwahrscheinlich sind.”
()
Stochastik für Informatiker
2.1 Laplace Wahrscheinlichkeiten
Prinzip von Laplace (Pierre-Simon de Laplace [1749-1827]):
Prof. Dr. Torsten Hothorn
()
11 / 56
|A|
|A|
=
|Ω|
n
wobei |A| die Anzahl der Elemente in A ist.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 56
Folgerungen und Erweiterungen
Jedes Elementarereignis ωi , i = 1, . . . , n
Wahrscheinlichkeit P({ωi }) = n1 .
Beispiel: Augensumme von zwei Würfeln
hat also die
Ω = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)}
|Ω| = n = 62 = 36
Die Wahrscheinlichkeit von Ω ist P(Ω) = 1.
Die entsprechende Abbildung P(Ω) → [0, 1] nennt man auch
Laplace-Verteilung (oder diskrete Gleichverteilung) auf Ω.
Sei Ak das Ereignis “Augensumme ist k”.
Dann gilt:
6 − |k − 7|
P(Ak ) =
für k = 2, . . . , 12
36
Hierbei nennt man P(Ω) die Potenzmenge (Menge aller
Teilmengen) von Ω (nicht zu verwechseln mit P(Ω)!).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
13 / 56
Beispiel: Skatspiel
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
14 / 56
Laplace-Verteilungen sind zu speziell!
Beispiele:
Beim Skatspiel werden 32 verschiedene Karten, darunter 4 Buben an 3
Spieler verteilt. Jeder Spieler erhält 10 Karten. 2 Karten kommen in den
Skat. Wie groß ist nun die Wahrscheinlichkeit der Ereignisse:
Unfairer Würfel
Wahrscheinlichkeit für Knabengeburt
Auftreten von Kopf oder Zahl bei 2-Euro Münze
; Elementarereignisse hier nicht gleichwahrscheinlich!
A1 := “Spieler 1 erhält alle Buben”
Ein weiteres Problem ist, dass manchmal |Ω| unendlich ist.
A2 := “Jeder Spieler erhält genau einen Buben”
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
15 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
16 / 56
Beispiel für unendliche Grundgesamtheiten
2.2 Diskrete Wahrscheinlichkeitsräume
Man interessiere sich für die Anzahl der Würfe einer fairen Münze bis zum
ersten Mal Zahl eintritt.
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P) wobei
P ein diskretes Wahrscheinlichkeitsmaß, das jeder Teilmenge A ⊂ Ω
eine Wahrscheinlichkeit P(A) zuordnet.
Ω unendlich: Ω = {ω1 , ω2 , ω3 , ω4 , . . .} = {1, 2, 3, 4, . . .} = N
Allgemein mit ωi = i:
P({ωi }) =
∞
P
i=1
1
2i
P({ωi }) =
Prof. Dr. Torsten Hothorn
Diese definiert man wieder über die Wahrscheinlichkeiten P({ω}) der
Elementarereignisse ω ∈ A:
X
P({ω})
P(A) =
i = 1, 2, 3, . . .
∞
P
i=1
1
2i
()
= 1
(geom. Reihe) vgl. Analysis
Stochastik für Informatiker
SS 2009
ω∈A
17 / 56
Diskrete Wahrscheinlichkeitsräume II
ω∈Ω
P({ω}) = 1
A1) P(A) ≥ 0
Beispiel für unendlichen Wahrscheinlichkeitsraum: Ω = N; ωi = i
()
Stochastik für Informatiker
Stochastik für Informatiker
SS 2009
18 / 56
SS 2009
für beliebige A ⊂ Ω
A2) P(Ω) = 1
A3) P(A ∪ B) = P(A) + P(B)
A, B ⊂ Ω
Betrachte z.B. P({ωi }) = 1/(i(i + 1)) oder P({ωi }) = 1/2i
Prof. Dr. Torsten Hothorn
()
Wir betrachten eine beliebige (abzählbare) Grundgesamtheit Ω und eine
Funktion P auf der Potenzmenge P(Ω), die jedem Ereignis A ⊂ Ω eine
Wahrscheinlichkeit zuordnet.
Wir nennen P eine Wahrscheinlichkeitsverteilung auf Ω, wenn sie
folgende Eigenschaften erfüllt:
0 ≤ P({ω}) ≤ 1 , für alle ω
P
Prof. Dr. Torsten Hothorn
2.3 Axiome von Kolmogorov [1903-1987]
wobei für P({ω}) gelten muss:
und
Ω eine abzählbare Grundgesamtheit ist und
19 / 56
Prof. Dr. Torsten Hothorn
()
für disjunkte Ereignisse
Stochastik für Informatiker
SS 2009
20 / 56
Folgerungen
P(∪ni=1 Ai ) =
Die Siebformel von Sylvester-Poincaré
n
P
i=1
James Sylvester [1814-1897]
Jules Henri Poincaré [1854-1912]
P(Ai )
für paarweise disjunkte Ereignisse A1 , A2 , . . . , An ⊂ Ω
P(A) ≤ P(B)
Für beliebiges n ∈ N und A1 , A2 , . . . , An ⊂ Ω gilt:
X
X
P(Ai ) −
P(Ai ∩ Aj )
P(A1 ∪ A2 ∪ . . . ∪ An ) =
falls A ⊂ B
Definiere das Komplement von A:
Dann gilt P(Ā) = 1 − P(A)
i
Ā = Ω \ A.
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
+
X
i<j
P(Ai ∩ Aj ∩ Ak )
i<j<k
für beliebige A, B ⊂ Ω
± . . . + (−1)n+1 · P(A1 ∩ A2 ∩ . . . ∩ An )
; Darstellung im Venn-Diagramm (John Venn [1834-1923])
Daher: P(A ∪ B ∪ C ) = ???
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
21 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Bonferroni Ungleichungen
3.1 Bedingte Wahrscheinlichkeiten
; Abschätzungen von P(A1 ∪ A2 ∪ . . . ∪ An )
Für Ereignisse A, B ⊂ Ω mit P(B) > 0 definiert man die bedingte
Wahrscheinlichkeit von A gegeben B als die Zahl
Für beliebige Ereignisse A1 , A2 , . . . An ist

P
≤
P(Ai )



i
P(∪ni=1 Ai ) =
P
P


P(Ai ) −
P(Ai ∩ Aj )
 ≥
i
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
P(A|B) =
i<j
22 / 56
P(A ∩ B)
P(B)
; Darstellung im Venn-Diagramm
SS 2009
23 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
24 / 56
Beispiel: Spiel mit drei Bechern
Eigenschaften von bedingten Wahrscheinlichkeiten
P(B|B) = 1
Spieler macht einen Trick und markiert einen der drei Becher.
Sei
P(B̄|B) = 0
P(A|B) ≥ 0 für beliebige A ⊂ Ω
A := “Beobachter findet den richtigen Becher”
B := “Spielanbieter legt die Kugel unter den markierten Becher”
P((A1 ∪ A2 )|B) = P(A1 |B) + P(A2 |B)
für A1 und A2 disjunkt
Dann:
Daher:
P(A|B) = 1
P(A|B̄) = 1/2
Als Funktion von A ⊂ Ω ist P(A|B) (bei festem B!) eine
Wahrscheinlichkeitsverteilung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
25 / 56
Beispiel: Skat
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
26 / 56
Multiplikationssatz
Für beliebige Ereignisse A1 , A2 , . . . , An mit P(A1 ∩ A2 ∩ . . . ∩ An ) > 0 gilt:
Sei
P(A1 ∩ A2 ∩ . . . ∩ An )
= P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P(An |A1 ∩ . . . ∩ An−1 )
A := “Mindestens eine der acht Karokarten liegt im Skat”
B := “Spieler 1 erhält beim Austeilen keine der acht Karokarten”
wobei man die rechte Seite offensichtlich auch in jeder anderen möglichen
Reihenfolge faktorisieren kann.
Wir schreiben im folgenden auch gerne P(A1 , A2 ) := P(A1 ∩ A2 ) etc.
Insbesondere gilt also
Berechne P(A) und P(A|B) und vergleiche diese.
P(A1 , A2 ) = P(A1 ) · P(A2 |A1 )
P(A1 , A2 , A3 ) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 , A2 )
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
27 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
28 / 56
Satz der totalen Wahrscheinlichkeit
Ein wichtiger Spezialfall
Sei B1 , B2 , . . . , Bn eine disjunkte Zerlegung von Ω:
1
B1 , B2 , . . . , Bn paarweise disjunkt: Bi ∩ Bj = ∅
2
B1 ∪ B2 ∪ . . . ∪ Bn = Ω
∀i 6= j
Insbesondere gilt
P(A) = P(A|B)P(B) + P(A|B̄)P(B̄)
Falls zusätzlich P(Bi ) > 0 für i = 1, . . . , n so gilt für jedes A ⊂ Ω:
P(A) =
n
X
da B, B̄ eine disjunkte Zerlegung von Ω ist.
P(A|Bi ) · P(Bi )
Beweis?
i=1
→ Illustration im Venn-Diagramm
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
29 / 56
3.2 Der Satz von Bayes I
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
30 / 56
Der Satz von Bayes II
Thomas Bayes [1701-1761]
P(B|A)
Dieser Satz beruht auf der Asymmetrie der Definition von bedingten
Wahrscheinlichkeiten:
P(A|B) =
P(B|A) =
Prof. Dr. Torsten Hothorn
P(A ∩ B)
P(B)
P(A ∩ B)
P(A)
()
⇒
P(A ∩ B) = P(A|B)P(B)
⇒
P(A ∩ B) = P(B|A)P(A)
Stochastik für Informatiker
SS 2009
=
totale W’keit
=
P(A|B)P(B)
P(A)
P(A|B)P(B)
P(A|B)P(B) + P(A|B̄)P(B̄)
Allgemeiner gilt für eine disjunkte Zerlegung B1 , . . . , Bn
P(A|Bi )P(Bi )
P(Bi |A) = Pn
i=1 P(A|Bi )P(Bi )
31 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
32 / 56
Interpretation
Beispiel: Diagnostischer Test
K := “Person ist krank”
P(Bi ) “a-priori-Wahrscheinlichkeiten”
P(Bi |A) “a-posteriori-Wahrscheinlichkeiten”
T := “Test auf Krankheit ist positiv”
Nach Beobachtung von A ändert sich die Wahrscheinlichkeit von Bi von
P(Bi ) zu P(Bi |A)
Sensitivität P(T |K ) ⇒ P(T̄ |K ) = 1 − P(T |K )
Spezifität P(T̄ |K̄ ) ⇒ P(T |K̄ ) = 1 − P(T̄ |K̄ )
Beispiel: Skatspiel
Prof. Dr. Torsten Hothorn
Üblicherweise kennt man die:
P(K )
()
Stochastik für Informatiker
SS 2009
33 / 56
Beispiel: Diagnostischer Test II
Prof. Dr. Torsten Hothorn
()
heißt Prävalenz
Stochastik für Informatiker
SS 2009
34 / 56
Beispiel: Creutzfeldt-Jakob
Zahlenbeispiel:
P(T |K ) = 0.222
P(T̄ |K̄ ) = 0.993 P(K ) = 0.0264
14-3-3
+
Total
Es ergibt sich
P(T ) ≈ 0.012676
CJD
+
126 7
8
97
134 104
Total
133
105
238
Die Sensitivität ist P(14-3-3 = +|CJD = +) = 126/134 = 0.94 und die
Spezifität ist P(14-3-3 = −|CJD = −) = 97/104 = 0.93.
P(K |T ) ≈ 0.462
P(K̄ |T̄ ) ≈ 0.979
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
35 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
36 / 56
Chancen
Eine Version vom Satz von Bayes
Eine elementare Umformung liefert
P(B|A)
P(B̄|A)
Oft ist es einfacher, W’keiten als Chancen, im Sinne von Wettchancen
(etwa 1:10), engl. “odds” aufzufassen. Für eine W’keit π besteht zur
Chance γ der Zusammenhang
P(B) P(A|B)
·
P(B̄) P(A|B̄)
=
Posterior Odds = Prior Odds · Likelihood Ratio
π
1−π
γ
π=
1+γ
γ=
Posteriori Chance = Priori Chance · Likelihood Quotient
Im Beispiel ergibt sich:
Priori Chance: 0.027
Likelihood Quotient: 31.7
; Posteriori Chance: 0.858
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
37 / 56
Beispiel: O.J. Simpson Prozess
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
38 / 56
Beispiel: O.J. Simpson Prozess II
Zwei Ansätze zur Lösung! Sei
O.J. Simpson gab zu, seine Frau missbraucht zu haben.
A:
“Ein Mann hat seine Frau missbraucht”
Er gab aber nie zu, seine Frau ermordet zu haben.
M : “Die Frau wurde ermordet”
Einer seiner Verteidiger sagte, die Wkeit, dass jemand, der seine Frau
missbraucht auch ermordet, ist 1/1000.
G:
P(G |A, M)
P(Ḡ |A, M)
Aber: Gericht ist mehr interessiert in die Wkeit, dass O.J. Simpson der
Mörder seiner Frau ist, gegeben er hat sie missbraucht und sie ist
ermordet worden.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
“Der Mann ist des Mordes schuldig”
=
aber auch =
39 / 56
Prof. Dr. Torsten Hothorn
()
P(G |M) P(A|G , M)
·
P(Ḡ |M) P(A|Ḡ , M)
P(G |A) P(M|G , A)
·
P(Ḡ |A) P(M|Ḡ , A)
Stochastik für Informatiker
SS 2009
(1)
(2)
40 / 56
Beispiel: O.J. Simpson Prozess III
Beachte:
Ansatz (1) liefert (unter geeigneter Vorinformation)
Alle Aussagen für Wahrscheinlichkeiten gelten auch für bedingte
Wahrscheinlichkeiten (bei fester Bedingung C mit P(C ) > 0).
Daher z.B.
P(G |A, M)
= 4.08
P(Ḡ |A, M)
P(A ∪ B|C ) = P(A|C ) + P(B|C ) − P(A ∩ B|C )
Ansatz (2) liefert (unter anderer Vorinformation)
und eben auch:
P(G |A, M)
= 1.0
P(Ḡ |A, M)
und
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
41 / 56
3.3 Stochastische Unabhängigkeit
Prof. Dr. Torsten Hothorn
P(G |A, M)
P(Ḡ |A, M)
P(G |A, M)
P(Ḡ |A, M)
()
=
=
P(G |M) P(A|G , M)
·
P(Ḡ |M) P(A|Ḡ , M)
P(G |A) P(M|G , A)
·
P(Ḡ |A) P(M|Ḡ , A)
Stochastik für Informatiker
SS 2009
42 / 56
Definition und Folgerungen
Zwei Ereignisse A, B sind unabhängig, wenn
Frage: Wann sind 2 Ereignisse A, B unabhängig?
→ Illustration im Venn-Diagramm
P(A ∩ B) = P(A) · P(B)
Motivation über bedingte Wahrscheinlichkeiten:
gilt.
Beachte: Voraussetzung P(B) > 0 und P(A) > 0 hier nicht nötig.
Zwei Ereignisse A, B sind unabhängig, wenn
P(A|B) = P(A)
| {z }
Folgerungen:
P(A∩B)
P(B)
Sind A und B unabhängig, dann sind auch Ā und B, A und B̄
und auch Ā und B̄ unabhängig. Beweis?
bzw. P(B|A) = P(B)
| {z }
P(A∩B)
P(A)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
43 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
44 / 56
Beispiel: Zweimaliges Würfeln
Beispiel: Zweimaliges Würfeln mit Tricks
Ein fairer Würfel wird zweimal hintereinander geworfen. Sei
Angenommen der Würfelwerfer ist besonders am Werfen von einem Pasch
interessiert. Er kann den zweiten Wurf ein wenig steuern und würfelt mit
W’keit 1/2 das gleiche wie beim ersten Wurf. Die anderen Ergebnisse seien
dann gleichverteilt mit W’keit 0.1 .
A : “Beim 1. Würfelwurf eine Sechs”
B : “Beim 2. Würfelwurf eine Sechs”
Dann ist zwar P(A) = 1/6 und auch P(B) = 1/6, aber
Bei jeden Würfelwurf ist die Grundgesamtheit Ω = {1, 2, 3, 4, 5, 6}.
Nach Laplace gilt P(A) = P(B) = 1/6.
P(A ∩ B) = 1/12 > 1/36
Bei “unabhängigem” Werfen gilt somit
Die Ereignisse A und B sind also abhängig, da
P(A ∩ B) = P(A) · P(B) = 1/36
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
P(A ∩ B) 6= P(A) · P(B)
45 / 56
Unabhängigkeit von mehr als zwei Ereignissen
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
46 / 56
Beispiel zur paarweisen Unabhängigkeit
Ω = {0, 1, 2, 3}
Ai = {0} ∪ {i}
Allgemeiner lässt sich die Unabhängigkeit von mehr als zwei Ereignissen
definieren:
Die Ereignisse A1 , A2 , . . . , An sind (stochastisch) unabhängig, wenn für
alle Teilmengen I ⊂ {1, 2, . . . , n} mit I = {i1 , i2 , . . . , ik } gilt:
Laplace-Wahrscheinlichkeitsraum
mit i = 1, 2, 3
(etwa einmaliges Ziehen aus einer Urne). Dann gilt:
P(Ai ) = 12 und P(Ai ∩ Aj ) = 14 = P(Ai ) · P(Aj ) für alle i 6= j.
P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 ) · P(Ai2 ) · . . . · P(Aik )
Aber:
Bemerkung: Aus der paarweisen Unabhängigkeit folgt nicht die
Unabhängigkeit von mehr als zwei Ereignissen.
P(A1 ∩ A2 ∩ A3 ) = 14
und
P(A1 ) · P(A2 ) · P(A3 ) =
1
8
A1 , A2 , A3 sind also nicht unabhängig.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
47 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
48 / 56
Bedingte Unabhängigkeit
3.4 Das Hardy-Weinberg-Gesetz
Sei C ein beliebiges Ereignis mit P(C ) > 0. Zwei Ereignisse A und B
nennt man bedingt unabhängig gegeben C , wenn
Population von diploiden Organismen; zwei Allele a und b
Drei Genotypen aa, ab und bb, Wahrscheinlichkeitsverteilung
paa , pab , pbb sei unabhängig vom Geschlecht
P(A ∩ B|C ) = P(A|C ) · P(B|C )
gilt.
Man überzeugt sich leicht, dass weder aus unbedingter Unabhängigkeit
bedingte Unabhängigkeit (bzgl. einem Ereignis C ), noch aus bedingter
Unabhängigkeit bzgl. einem Ereignis C unbedingte Unabhängigkeit folgt.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
49 / 56
Das Hardy-Weinberg-Gleichgewicht
Unter bestimmten weiteren Voraussetzungen (“zufällige” Paarung von
Individuen, keine Selektion, keine Mutation etc.) gilt, dass die
Wahrscheinlichkeitsverteilung der drei Genotypen über Generationen
hinweg konstant bleibt.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
50 / 56
Das Hardy-Weinberg-Gleichgewicht
1.0
Sei x ∈ {aa, ab, bb} der Genotyp eines zufällig ausgewählten Individuums.
Ist die Population im H-W-Gleichgewicht, so gilt:

q 2 für x = aa

2q(1 − q) für x = ab
px =

(1 − q)2 für x = bb
0.2
0.4
P
0.6
0.8
aa
ab
bb
0.0
mit q ∈ [0, 1]. Der Parameter q ist die Häufigkeit des Allels a.
0.0
Beachte: Im Allgemeinen beschreiben zwei Parameter eine diskrete
Wahrscheinlichkeitsverteilung mit drei möglichen Ausprägungen, das
H-W-Gleichgewicht wird jedoch nur von einem Parameter beschrieben.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
0.2
0.4
0.6
0.8
1.0
q
Hardy-Weinberg-Gleichgewicht für die Genotypen aa, bb und ab.
51 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
52 / 56
Beweisskizze
Anwendungsbeispiel
Genotyp bb verursacht bestimmte Krankheit, aa und ab sind aber
äußerlich nicht erkennbar.
Starte mit beliebigen Wahrscheinlichkeiten paa , pab und pbb
(mit paa + pab + pbb = 1).
Berechne die bedingten Wahrscheinlichkeiten für das Auftreten eines
bestimmten Genotyps eines Nachkommen in Abhängigkeit vom Genotyp
der Eltern.
Aus Kenntnis der relativen Häufigkeit/Wahrscheinlichkeit pbb lassen sich
(unter der Annahme, dass die Population im H-W-Gleichgewicht ist) die
anderen Wahrscheinlichkeiten berechnen:
Satz der totalen Wahrscheinlichkeit liefert H-W-Gleichgewicht mit
q = paa + pab /2.
pab
Neustart im H-W-Gleichgewicht liefert wieder H-W-Gleichgewicht!
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Beispiel: pbb = 0.0001 ; paa = 0.9801 und pab = 0.0198
53 / 56
Das Hardy-Weinberg-Ungleichgewicht
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
54 / 56
Das Hardy-Weinberg-Ungleichgewicht (d = 0.1)
1.0
Allgemeinere Formulierung mit zwei Parametern:

q 2 +d für x = aa

2q(1 − q)−2d für x = ab
px =

(1 − q)2 +d für x = bb
0.4
P
0.6
0.8
aa
ab
bb
0.2
mit Ungleichgewichtskoeffizienten d.
0.0
Problem: Beschränkter Wertebereich für q und d
0.0
Später:
0.2
0.4
0.6
0.8
1.0
q
Statistische Schätzung von q und d
Hardy-Weinberg-Ungleichgewicht mit d = 0.1 für die Genotypen aa, bb
und ab.
Statistischer Test auf “Nullhypothese” H0 : d = 0
Prof. Dr. Torsten Hothorn
√
pbb )2
√
√
= 2(1 − pbb ) pbb
paa = (1 −
()
Stochastik für Informatiker
SS 2009
55 / 56
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
56 / 56
4.1 Diskrete Zufallsvariablen: Einleitung
Eine diskrete Zufallsvariable
Ergebnisse von Zufallsvorgängen sind nicht notwendigerweise Zahlen
Oft ist es aber hilfreich diese durch Zahlen zu repräsentieren, um mit
ihnen rechnen zu können
Beispiel: 4-maliger Wurf einer Münze
Ω = {Wappen, Zahl} = {W , Z }4
X ist also eine Abbildung von Ω nach R.
|Ω| = 24 = 16
Die Menge der möglichen Ausprägungen {0,1,2,3,4} heißt Träger T der
ZV X .
z. B. ω = {W , Z , Z , W }
()
Stochastik für Informatiker
SS 2009
1 / 52
Vorteile von Zufallsvariablen
Oder: Welche Zahl erhalten wir “im Mittel”?
Stochastik für Informatiker
Stochastik für Informatiker
SS 2009
2 / 52
Die Wahrscheinlichkeitsfunktion von X ist durch
Ursprünglicher Wahrscheinlichkeitsraum (Ω, P) wird letztendlich nicht
mehr benötigt.
()
()
Eine ZV X heißt diskret, falls sie nur endliche oder abzählbar unendlich
viele Werte x1 , x2 , . . . annehmen kann. Die Menge T = {x1 , x2 , . . .} der
möglichen Ausprägungen (d.h. alle xi mit P{xi } > 0) von X heißt Träger
der ZV X .
Man kann mit X “rechnen”:
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
Definition
z. B. P(X ≤ a) oder P(X 2 > b)
2
X :=“Anzahl von Wappen”
Dann nennt man X eine Zufallsvariable (ZV) mit reellen Ausprägungen
bzw. Realisierungen x ∈ R. Man schreibt kurz X = x, wenn die
Ausprägung x der ZV X eingetreten ist.
Prof. Dr. Torsten Hothorn
1
Angenommen man interessiert sich für
SS 2009
3 / 52
f (xi ) = P(X = xi ) = P ({ω ∈ Ω : X (ω) = xi })
für xi ∈ R gegeben. Die Wahrscheinlichkeitsfunktion f (xi ) heißt auch
Wahrscheinlichkeitsdichte.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
4 / 52
Folgerungen
Die Verteilungsfunktion
1
Für x 6∈ T ist f (x) = P{∅} = 0.
2
Als Funktion von B ∈ R ist also
Die Verteilungsfunktion einer diskreten ZV ist definiert als
F (x) = P(X ≤ x) =
P(X ∈ B) = P{ω ∈ Ω : X (ω) ∈ B}
()
Stochastik für Informatiker
SS 2009
f (xi )
i:xi ≤x
eine Wahrscheinlichkeitsverteilung auf R. Man nennt diese die
Verteilung der Zufallsvariable X . Diese wird durch die Abbildung X
und die Wahrscheinlichkeitsverteilung P induziert.
Prof. Dr. Torsten Hothorn
X
5 / 52
Eigenschaften der Verteilungsfunktion
Kennt man also die Wahrscheinlichkeitsfunktion f (x) für alle x ∈ T , so
kennt man auch die Verteilungsfunktion F (x) (dies gilt auch umgekehrt).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
6 / 52
Beispiel: 4-maliger Wurf einer Münze
X :=“Anzahl Kopf”, T = {0, 1, 2, 3, 4}
F (x) ist monoton wachsend (“Treppenfunktion”)
f (0)
f (1)
f (2)
f (3)
f (4)
F (x) ist stückweise konstant mit Sprungstellen an Werten xi mit
f (xi ) > 0, d.h. an allen Realisierungen xi ∈ T
lim F (x) = 1
x→∞
=
=
=
=
=
1/16
4/16
6/16
4/16
1/16
⇒

0




1/16



5/16
F (x) =
11/16





15/16


1
:
:
:
:
:
:
x
0≤x
1≤x
2≤x
3≤x
x
<0
<1
<2
<3
<4
≥4
lim F (x) = 0
x→−∞
Prof. Dr. Torsten Hothorn
Beachte: f (x) = 0 für alle x ∈
/T
()
Stochastik für Informatiker
SS 2009
7 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
8 / 52
Spezielle Verteilungen
1.0
1.0
Wahrscheinlichkeits- und Verteilungsfunktion
Man unterscheidet nun bestimmte “gängige” Verteilungen, die häufig von
weiteren Parametern abhängen.
●
0.8
0.8
●
Das einfachste Beispiel ist die Bernoulli-Verteilung. Eine
Bernoulli-verteilte ZV kann nur die Werte 0 und 1 annehmen:
0.6
0.4
0.4
f(x)
F(x)
0.6
●
●
P(X = 1)
P(X = 0)
●
●
0
1
2
3
= f (1)
= f (0)
=
=
π
1−π
●
0.0
●
0.0
●
0.2
0.2
●
4
π ∈ [0, 1] ist der Parameter der Bernoulli-Verteilung.
−1
0
x
1
2
3
4
5
Man schreibt kurz: X ∼ B(π).
x
Wahrscheinlichkeitsfunktion (links) und Verteilungsfunktion (rechts) für
den viermaligen Münzwurf
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
9 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
10 / 52
Die diskrete Gleichverteilung
Die geometrische Verteilung
Die allgemeine diskrete Gleichverteilung hat endlichen Träger
T = {x1 , x2 , . . . , xk }, wobei
Ein Zufallsvorgang, bei dem mit Wahrscheinlichkeit π ein Ereignis A
eintritt, wird unabhängig voneinander sooft wiederholt, bis zum ersten Mal
A eintritt.
P(X = xi ) = f (xi ) =
1
k
Sei X die ZV “Anzahl der Versuche bis zum ersten Mal A eintritt”. Dann
ist T = N und die Wahrscheinlichkeitsfunktion von X lautet:
mit i = 1, . . . , k gilt.
Häufig sind alle natürlichen Zahlen zwischen a ∈ N und b ∈ N Element des
Trägers T . Die Grenzen a und b sind dann die Parameter der diskreten
Gleichverteilung.
()
Stochastik für Informatiker
x = 1, 2, 3, . . .
π ∈ (0, 1) ist der Parameter der geometrischen Verteilung.
Man schreibt kurz: X ∼ G(π).
Beispiel: Augenzahl beim fairen Würfelwurf
Prof. Dr. Torsten Hothorn
f (x) = (1 − π)x−1 · π
SS 2009
11 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 52
Wahrscheinlichkeits- und Verteilungsfunktion
π = 0.5
π = 0.3
●
●
●
●
●
●
●
●
●
●
SS 2009
0.6
F(x)
0.4
2
0.2
●
●
●
●
●
●
●
4
●
●
●
●
6
●●
8
●●
●●
●
0.0
0.2
●
●
0
dgeom() berechnet Wahrscheinlichkeitsfunktion
pgeom() berechnet Verteilungsfunktion
rgeom() berechnet Zufallszahlen aus der geom. Verteilung
●
●
●
●
0.0
Für diese Form gibt es folgende Funktionen in R:
Stochastik für Informatiker
●
●
●
●
●
●
()
●
●
0.8
0.8
0.6
●
0.4
f (y ) = (1 − π)y · π
Prof. Dr. Torsten Hothorn
●
●
●
= {0, 1, 2, . . .}
f(x)
T
1.0
Sei Y := “Anzahl der Versuche bevor das erste mal A eintritt”, d.h.
Y = X − 1. Dann ist
1.0
Eine Variante der geometrischen Verteilung
10
0
2
4
6
8
π = 0.5
π = 0.3
10
x
x
Vergleich der geometrischen Wahrscheinlichkeitsfunktionen (links) und
Verteilungsfunktionen (rechts) für die beiden Parameter π = 0.3 und
π = 0.5
13 / 52
Quantile
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
14 / 52
Quantile II
Sei X eine diskrete ZV mit Verteilungsfunktion F (x), x ∈ R.
Um Eindeutigkeit zu erreichen, definiert man:
Sei p ∈ [0, 1]. Jeder Wert x, für den
Das p-Quantil xp der Verteilung von X ist definiert als der kleinste Wert
x für den F (x) ≥ p gilt.
P(X ≤ x) ≥ p und
P(X ≥ x) ≥ 1 − p
Somit gilt P(X ≤ x) = F (xp ) ≥ p und daher “xp = F −1 (p)”
(“Inversion der Verteilungsfunktion”).
gilt, heisst p-Quantil xp der Verteilung von X .
Speziell nennt man das 0.5-Quantil den Median xmed der Verteilung.
Problem: Definition nicht immer eindeutig.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
15 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
16 / 52
Interpretation vom Median und von Quantilen
Numerische Bestimmung von Quantilen
Beim Median xmed gilt:
Bei Kenntnis der Verteilungsfunktion F (x) und endlichem Träger T :
P(X ≤ xmed ) ≥ 0.5
1
Berechne F (x) für alle x ∈ T .
2
Dann gilt für das p-Quantil xp :
P(X ≥ xmed ) ≥ 0.5
xp = min{x : F (x) ≥ p}
Allgemeiner gilt für das p-Quantil xp :
P(X ≤ xp ) ≥ p
3
P(X ≥ xp ) ≥ 1 − p
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
in R: verwende Funktion which
Nicht so einfach, siehe Dokumentation ?quantile.
SS 2009
17 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Beispiel: geometrische Verteilung
4.2 Unabhängigkeit von diskreten Zufallsvariablen
Funktion qgeom() berechnet Quantilfunktion der geometrischen
Verteilung.
Betrachte zwei ZV X und Y auf dem Wahrscheinlichkeitsraum (Ω, P)
mit Träger TX = {x1 , x2 , . . .} und TY = {y1 , y2 , . . .} und
Wahrscheinlichkeitsfunktionen fX (x) und fY (y ).
0.95-Quantil x0.95 : In 95% aller Fälle muss man maximal x0.95 Versuche
unternehmen, bevor zum ersten mal A eintritt.
π
0.01
0.1
0.5
0.9
0.99
Prof. Dr. Torsten Hothorn
()
x0.95
298
28
4
1
0
Die Funktion
fX ,Y (x, y ) = P(X = x und Y = y ) = P(X = x, Y = y )
xmed
68
6
0
0
0
Stochastik für Informatiker
18 / 52
heißt gemeinsame Wahrscheinlichkeitsfunktion der zwei
Zufallsvariablen X und Y .
Unter Unabhängigkeit kann man diese zurückführen auf die beiden
Wahrscheinlichkeitsfunktionen fX (x) und fY (y ).
SS 2009
19 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 52
Definition
Beispiel: Bernoulli-Kette
X und Y heißen unabhängig, wenn
Sind X1 , X2 , . . . , Xn Bernoulli-verteilt mit Parameter π und unabhängig, so
heißt X = (X1 , X2 , . . . , Xn ) Bernoulli-Folge.
P(X = x, Y = y ) = P(X = x) · P(Y = y )
d.h.
Beispiel:
fX ,Y (x, y ) = fX (x) · fY (y )
n = 3, π = 61 ; wegen der Unabhängigkeit gilt z. B.
für alle x ∈ TX und y ∈ TY gilt.
1
P(X1 = 1, X2 = 0, X3 = 0) = ·
6
X1 , X2 , . . . , Xn heißen unabhängig, falls
P(X1 = x1 , . . . , Xn = xn ) =
n
Y
P(Xi = xi ) =
i=1
n
Y
2
5
25
=
6
216
fXi (xi )
i=1
für alle x1 , x2 , . . . , xn aus den entsprechenden Trägern gilt.
Stochastik für Informatiker
SS 2009
21 / 52
Die Binomialverteilung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
π = 0.5
π = 0.3
●
●
●
●
f(x)
●●
●
●
●
●
●
●
●
●
4
●●
10
20
●
●
●
●
●
●
●
●
50
●
●
●
●
●
●
●
0.2
●
●
0.0
●
●
●
0
2
4
6
8
π = 0.5
π = 0.3
10
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●●●●●
●●●●●●●●●●●●●●●●●●
10
x
SS 2009
23 / 52
Prof. Dr. Torsten Hothorn
●
●
0.0
0.2
●
●
●
70
●
●
F(x)
●
60
●
●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
0.4
F(x)
●
40
n = 100
●
Stochastik für Informatiker
30
n = 10
●
0.4
Funktionen in R:
dbinom(), pbinom(), qbinom(), rbinom()
10
x
●
0.6
●
●
8
x
●
0.8
Man schreibt kurz X ∼ B(n, π) und es gilt B(1, π) = B(π).
●
6
1.0
2
1.0
0
●
●● ●●
●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●
●●
●●●●●●
●●●
●●●●●●●●●●●●●●●●●●
●●●●●●●●
●●
●●●●●●●●●●●●●●●●●●●
●●●●●●●●●
0.8
●
●
●
π = 0.5
π = 0.3
0.6
Diese ZV X heißt binomialverteilt mit Parametern n ∈ N, π ∈ [0, 1] und
hat den Träger T = {0, 1, . . . , n} sowie die Wahrscheinlichkeitsfunktion:
n
P(X = x) = f (x) =
· π x (1 − π)n−x für x ∈ T
x
()
22 / 52
n = 100
0.00 0.05 0.10 0.15 0.20 0.25 0.30
n = 10
Bei einer
P Bernoulli-Folge interessiert man sich häufig nur für die Anzahl
X := ni=1 Xi , wie oft Xi = 1 aufgetreten ist.
Prof. Dr. Torsten Hothorn
SS 2009
Wahrscheinlichkeits- und Verteilungsfunktion
f(x)
()
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Prof. Dr. Torsten Hothorn
20
30
40
●
●
50
60
π = 0.5
π = 0.3
70
x
()
Stochastik für Informatiker
SS 2009
Vergleich der binomialen Wahrscheinlichkeitsfunktionen (oben) und
24 / 52
Beispiele
Die hypergeometrische Verteilung
Anzahl der 6-er bei n-maligem Würfeln: Berechne
Häufig wird jedoch im Urnenmodell ohne Zurücklegen gezogen, d. h. die
“Auswahlwahrscheinlichkeiten” ändern sich von Ziehung zu Ziehung
(Beispiel: Meinungsforschung).
Modus (wahrscheinlichster Wert) und
Die Verteilung von X (Anzahl der markierten Kugeln) nennt man dann
hypergeometrisch. Sie hat den Träger
Median
in Abhängigkeit von n.
Das Urnenmodell: Zufälliges Ziehen mit Zurücklegen einer Stichprobe
von n Kugeln aus einer Urne mit N Kugeln, darunter M markierte.
Sei X : “Anzahl der markierten Kugeln in der Stichprobe”. Dann:
T = {max(0, n − (N − M)), . . . , min(n, M)}
und die Wahrscheinlichkeitsfunktion
M N−M
x
f (x) =
X ∼ B(n, M/N).
n−x
N
n
für x ∈ T .
Man schreibt kurz: X ∼ H(n, N, M)
Funktionen in R: {dpqr}hyper()
SS 2009
2
4
●
●
●
●
●
●
6
8
0.4
●
●
2
4
6
8
●
●
●
●
10
●
●
●
●
12
0
2
0.5
●
●
●
3
●
●
●
●
4
5
●
●
0
2
●
●
4
10
15
0
10
15
0.3
●
20
f(x)
●
0.1
●
●
●
●
●
0
2
4
6
●
●
SS 2009
27 / 52
Prof. Dr. Torsten Hothorn
●
●
●
●
●
●
8
●
●
●
●
10
●
●
●
●
●
0
x
Vergleich der hypergeometrischen und binomialen
●
●
●
x
Stochastik für Informatiker
●
●
●
0.2
●
0.0
●
●
●
● ●
● ●● ●● ●● ●● ●● ●● ●●
5
●
0.1
●
●
●
●
●
●
●
● ●
●● ●● ●● ●
x
()
0.4
0.4
f(x)
●
●
0.0
●
● ●
● ●● ●● ●● ●● ●●
0.0
●
●
●
●
5
●
● ●
●●
●
●
●
●
8
Binomial
Hypergeometrisch
●
●
0.2
0.2
●
●
●
0.1
●●
Binomial
Hypergeometrisch
0.3
0.4
f(x)
0.3
0.4
0.3
f(x)
0.2
●
●
0.5
n = 20, M = 5, N = 25
0.5
n = 15, M = 5, N = 25
0.5
n = 40, M = 20, N = 100
0.5
n = 30, M = 20, N = 100
Binomial
Hypergeometrisch
●
●
6
x
●
● ●
0.1
0.0
1
●
x
●●
Prof. Dr. Torsten Hothorn
●
●
x
●
0
●
●
●
●
●
●
●
●
0.3
●
●
26 / 52
n = 10, M = 5, N = 25
x
Binomial
Hypergeometrisch
●● ●●
●
●
0.1
●
●
●
●
SS 2009
Binomial
Hypergeometrisch
f(x)
0.3
f(x)
●
●
●
●
0
●
0.2
●
●
●
●
0.0
0.0
●
●
●
0.0
●
●
Binomial
Hypergeometrisch
●
●
0.1
f(x)
●
●
0.1
●
●
0
●
●
0.2
0.2
f(x)
●
●
0.1
Binomial
Hypergeometrisch
0.3
0.3
●
●
Stochastik für Informatiker
n = 5, M = 5, N = 25
0.4
0.4
Binomial
Hypergeometrisch
()
Ziehen mit und ohne Zurücklegen II
n = 20, M = 20, N = 100
0.5
0.5
n = 10, M = 20, N = 100
Prof. Dr. Torsten Hothorn
0.2
Ziehen mit und ohne Zurücklegen
25 / 52
0.4
Stochastik für Informatiker
0.0
()
0.5
Prof. Dr. Torsten Hothorn
●
2
4
●
6
●
●
8
●
●
●
●
●
●
10
●
●
●
●
12
x
()
Stochastik für Informatiker
SS 2009
Vergleich der hypergeometrischen und binomialen
28 / 52
Approximation der hypergeometrischen Verteilung
Beispiel: Capture-Recapture-Experiment
Für N “groß” und n “klein” läßt sich die hypergeometrische Verteilung gut
durch die Binomialverteilung approximieren:
H(n, M, N)
≈
M
B n, π =
N
Frage:
Wie viele Fische schwimmen in einem See?
Idee :
Fange M Fische, markiere diese und wirf sie dann wieder (lebendig) in den See zurück. Später werden n Fische gefangen.
Die ZV X :=“Anzahl der markierten Fische”ist idealerweise
hypergeometrisch verteilt mit Parametern N, M und n:
X ∼ H(n, N, M)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
29 / 52
Beispiel: Capture-Recapture-Experiment II
n
x
⇒
SS 2009
30 / 52
Häufig gibt es zufällige Vorgänge, bei denen es keine natürliche obere
Grenze für die Anzahl an Ereignissen gibt, z.B.:
N̂
≈
n
·M
x
Die Anzahl an Telefonanrufen in einem “Call-Center” pro Stunde
Die Anzahl der Tore in einem Bundesligaspiel
Probleme:
Im Allgemeinen N̂ ∈
/N
Anzahl von Todesfällen durch Hufschlag in der Preußischen Armee
(L. von Bortkiewicz, 1893)
Keine Angaben über die Genauigkeit der Schätzung
Später mehr dazu.
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
Siméon Poisson [1781-1840]
Naiver Ansatz zur Konstruktion eines Schätzers N̂ von N:
≈
()
4.3 Die Poisson-Verteilung
Statistisches Problem: Wie groß ist N?
N
M
Prof. Dr. Torsten Hothorn
Die einfachste Verteilung für solche Phänomene ist die Poisson-Verteilung.
()
Stochastik für Informatiker
SS 2009
31 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
32 / 52
Wahrscheinlichkeits- und Verteilungsfunktion
λ=3
λ=1
●
0.3
0.1
0.0
●
●
●
2
●
●
●
4
●
●
6
●
●
●●
8
●
0.0
●
●
●
0.2
●
●
Man schreibt kurz: X ∼ P(λ)
●●
10
●
0
2
4
6
8
λ=3
λ=1
10
x
x
Vergleich der Wahrscheinlichkeitsfunktionen (links) und
Verteilungsfunktionen (rechts) für eine poissonverteilte Zufallsvariable mit
dem Parameter λ = 1 bzw. λ = 3
Funktionen in R: {dpqr}pois
()
●
●
0.4
●
0
Prof. Dr. Torsten Hothorn
●
●
0.6
●
●
hat. Der Parameter λ ∈
ist die durchschnittliche Rate oder die
Intensität, mit der die Ereignisse in dem zugrundeliegenden Zeitintervall
eintreffen.
●
F(x)
●
●
R+
●
●
●
●
0.2
λx
· exp(−λ)
x!
●
●
●
●
●
●
0.8
●
f(x)
f (x) =
0.4
Eine Zufallsvariable X folgt einer Poisson-Verteilung, wenn sie Träger
T = N0 und Wahrscheinlichkeitsfunktion
1.0
Die Poisson-Verteilung II
Stochastik für Informatiker
SS 2009
33 / 52
Approximation der Binomialverteilung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
34 / 52
Vergleich von Binomial- und Poissonverteilung
0.4
π = 0.5
0.4
π = 0.8
Poisson
Binomial
0.3
0.3
Poisson
Binomial
●
●
0.1
0.2
f(x)
●
●
●
●
0
P(λ = n · π)
●
●
●
2
●
4
●
●
●
0.0
0.0
●
●●
●
●
●
6
8
10
●●
●
●
●
●
0
2
4
6
8
10
x
π = 0.3
π = 0.1
0.4
Je größer n ist und je kleiner π, desto besser ist die Approximation.
●
●
x
0.4
≈
●
●
●
●●
●
●
●
●
●
●
●
Poisson
Binomial
0.3
●
●
Poisson
Binomial
●
●
0.3
B(n, π)
●
●
●
0.1
Die Binomialverteilung B(n, π) kann für “großes n” und “kleines π” gut
durch die Poisson-Verteilung mit λ = n · π approximiert werden.
0.2
f(x)
●
●
●
0.2
●
f(x)
0.2
f(x)
●
●
●
●
●
●
●
0.1
●●
●
●
●
0.0
0
●●
●
●
●
2
4
6
●●
8
●●
●●
10
●●
0.0
0.1
●
0
1
x
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
35 / 52
Prof. Dr. Torsten Hothorn
()
2
3
4
●●
●●
●●
5
6
7
x
Stochastik für Informatiker
SS 2009
36 / 52
Vergleich von Binomial- und Poissonverteilung
π = 0.8
π = 0.5
●
70
80
90
0.12
0.04
0.00
0.04
0.00
●
●●●●●●●
●●
●
●
●●
●●
●
●
● ●
●
●
●
●
●
●
● ●●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●●●
●
●●
●●●
●
●●
●
●●
●●●●●●●●
●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●
Sind X und Y unabhängige ZV mit Wahrscheinlichkeitsfunktionen fX (x)
und fY (y ), so gilt für die Summe Z = X + Y :
X
P(X + Y = z)
=
P(X = x, x + Y = z)
●●●
●
●
●
●
●
●
60
Poisson
Binomial
0.08
f(x)
●●
●
●
●
●
●
0.08
f(x)
0.12
Poisson
Binomial
50
4.4 Faltungen
●
●●
●● ●●
● ●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
● ●
●
● ●
●●
●
●
●●●
●
●
●
● ●●●
●● ●●
●● ●●●
●
●
●●●●●
●●●●●●●●●●●●●
●●●●●●
●●
●●●●●●●●
100
30
40
50
x
60
70
x
=
80
x
X
P(X = x, Y = z − x)
x
π = 0.3
20
30
40
0.12
●
● ●
()
●
● ●
0.08
f(x)
x
●
●
=
● ●
●
●
●
●
50
5
fX (x) · fY (z − x)
● ●
●
● ●
● ●
● ●
● ●
● ● ● ● ● ● ●
●
● ●
● ●
● ● ●
0
X
x
● ●
10
x
Prof. Dr. Torsten Hothorn
Poisson
Binomial
● ●
● ●
0.04
●●●
●
●
●
●●●● ●
●
●
● ●
●●
●
●●
●●
●
●
●●
●
●
●
● ●
●
● ●
●
● ●
●
●
●
●●
● ●●
●●
●●
●
●
●●
●●
●● ●
●●●●●●●●●
●●●●●●●●●●●
●●●●●
●●●●●●●
0.00
0.08
0.00
0.04
f(x)
0.12
Poisson
Binomial
10
unabh. X
P(X = x) · P(Y = z − x)
=
π = 0.1
15
20
25
x
Stochastik für Informatiker
SS 2009
37 / 52
Faltungen II
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
38 / 52
Faltung von zwei geometrischen ZV
Man nennt die Wahrscheinlichkeitsverteilung von Z = X + Y
X
P(X + Y = z) =
fX (x) · fY (z − x)
x
=
X
Seien X ∼ G(π) und Y ∼ G(π) unabhängig.
fX (z − y ) · fY (y )
y
Berechne Träger und Wahrscheinlichkeitsfunktion der Summe Z = X + Y .
die Faltung von X und Y .
Beispiel:
Ist X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig, so ist die Faltung von X und
Y wieder Poisson-verteilt mit Parameter λ1 + λ2 :
Wie kann man Z interpretieren?
X + Y ∼ P(λ1 + λ2 )
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
39 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
40 / 52
Die negative Binomialverteilung
4.4 Die Verteilung von Zufallsvektoren
Betrachte die Summe von n unabhängigen geometrischen ZV X1 , . . . , Xn :
X = X1 + . . . + Xn .
Dann hat X eine negative Binomialverteilung mit Parameter n ∈ N und
π ∈ (0, 1) und Wahrscheinlichkeitsfunktion
x −1 n
f (x) =
π (1 − π)x−n für x = n, n + 1, . . .
n−1
Funktionen in R:
dnbinom(...), pnbinom(...), qnbinom(...), rnbinom(...)
Betrachte zwei diskrete ZV X und Y definiert auf dem
Wahrscheinlichkeitsraum (Ω, P).
Wie kann man Information über ihr gemeinsames stochastisches
Verhalten quantifizieren?
Idee: Betrachte Zufallsvektor (X , Y ) als Abbildung von Ω nach R2 .
Die gemeinsame Verteilung von X und Y enthält i. A. mehr
Information als in den Randverteilungen von X und Y steckt!
Beachte: Unterschiedliche Definition in R! Träger immer gleich N0
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
41 / 52
Gemeinsame Verteilungs- und Wahrscheinlichkeitsfunktion
Seien X , Y zwei diskrete ZV auf (Ω, P).
Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y lautet
fX ,Y (x, y ) = P(X = x, Y = y )
FX ,Y (x, y ) = P(X ≤ x, Y ≤ y )
Beide sind also Funktion von R2 nach [0, 1]. Meist wird nur fX ,Y (x, y )
angegeben.
()
Stochastik für Informatiker
SS 2009
()
Stochastik für Informatiker
SS 2009
42 / 52
Beispiel
Ein Lehrer bittet seine Schüler, eine (faire) Münze zweimal zu werfen, und
das Ergebnis (“Kopf” = 0, “Zahl” = 1) für jeden Wurf zu notieren. Sei X
das Ergebnis des ersten Wurfes und Y das Ergebnis des zweiten Wurfes.
Ein gewissenhafter Schüler folgt genau den Anweisungen des Lehrers
und notiert das Ergebnis XG und YG . Ein fauler Schüler wirft nur eine
Münze und notiert das erzielte Ergebnis zweimal: XF und YF .
Die gemeinsame Verteilungsfunktion von X und Y lautet
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
43 / 52
Berechne die gemeinsame Wahrscheinlichkeitsfunktion von (XG , YG )
und von (XF , YF ).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
44 / 52
Randverteilungen
Bedingte Verteilungen
Gemeinsame Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion
charakterisieren die gemeinsame Verteilung von (X , Y ) vollständig.
Die bedingte Verteilungsfunktion und bedingte Wahrscheinlichkeitsfunktion von X , gegeben Y = y , sind definiert für alle y mit
P(Y = y ) > 0:
Insbesondere kann man die Wahrscheinlichkeitsfunktion der
Randverteilung von X bzw. Y durch Summation berechnen:
X
fX (x) =
fX ,Y (x, y )
P(X ≤ x, Y = y )
P(Y = y )
P(X = x, Y = y )
fX |Y (x|y ) = P(X = x|Y = y ) =
P(Y = y )
fX ,Y (x, y )
=
fY (y )
FX |Y (x|y ) = P(X ≤ x|Y = y ) =
y
fY (y ) =
X
fX ,Y (x, y )
x
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
45 / 52
Folgerungen
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
SS 2009
46 / 52
Beispiel
Es gilt immer:
fX ,Y (x, y ) y = −1 y = 0 y = 2
1
3
2
x =1
18
18
18
fX ,Y (x, y ) = fX |Y (x|y ) · fY (y )
= fY |X (y |x) · fX (x)
x =2
x =3
Es folgt: X und Y sind genau dann unabhängig wenn
fX |Y (x|y ) = fX (x)
oder
()
Stochastik für Informatiker
2
18
0
0
4
18
3
18
3
18
Man berechne die Randverteilungen fX (x) und fY (y ), die bedingten
Verteilungen fX |Y (x|y ) und fY |X (y |x) und untersuche X und Y auf
Unabhängigkeit.
fY |X (y |x) = fY (y )
für alle x und y gilt.
Prof. Dr. Torsten Hothorn
()
SS 2009
47 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
48 / 52
Beispiel II
Allgemeine Zufallsvektoren
Betrachte zwei unabhängige ZV X und Y , die beide Poisson-verteilt
sind mit Parameter λ bzw. µ.
Allgemeiner kann man natürlich auch einen Zufallsvektor X = (X1 , . . . , Xn )
der Dimension n betrachten.
Dieser hat dann die Wahrscheinlichkeitsfunktion
Definiere Z = X + Y .
fX (x) = fX1 ,...,Xn (x1 , . . . , xn )
Man zeige: Die bedingte Verteilung von X |Z = z ist binomial mit
Parametern n = z und π = λ/(λ + µ):
und die Randverteilungen
fXi (xi ) =
X |Z = z ∼ B(z, π = λ/(λ + µ))
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
X
fX1 ,...,Xn (x1 , . . . , xn )
xj :j6=i
49 / 52
Die Trinomialverteilung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
50 / 52
Die Trinomialverteilung II
Ein drei-dimensionaler diskreter Zufallsvektor X heißt trinomialverteilt,
falls er Träger
Ein Experiment, bei dem ein von drei möglichen Ereignissen mit
Wahrscheinlichkeit π1 , π2 und π3 (π1 + π2 + π3 = 1) auftritt, wird
unabhängig voneinander n-mal wiederholt. Sei X ein drei-dimensionaler
Zufallsvektor, dessen i-te Komponente angibt, wie oft das i-te Ereignis
eingetreten ist.
T = {x = (x1 , x2 , x3 ) : xi ∈ {0, 1, . . . , n} und x1 + x2 + x3 = n}
und Wahrscheinlichkeitsfunktion
fX (x) = fX1 ,X2 ,X3 (x1 , x2 , x3 ) =
Beispiel:
In einer Population mit Häufigkeiten π1 , π2 und π3 der Genotypen aa, ab
und bb wird eine Stichprobe vom Umfang n gezogen. Die Anzahlen X1 , X2
und X3 der drei Genotypen ist dann trinomialverteilt.
n!
π1x1 π2x2 π3x3
x1 !x2 !x3 !
besitzt.
Man schreibt kurz: X ∼ M3 (n, π = (π1 , π2 , π3 ))
Hierbei steht M3 für Multinomialverteilung der Dimension 3.
Man kann zeigen, dass für die Randverteilungen gilt: Xi ∼ B(n, πi )
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
51 / 52
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
52 / 52
5. Erwartungswerte, Varianzen und Kovarianzen
5.1 Der Erwartungswert einer diskreten ZV
Zur Charakterisierung von Verteilungen unterscheidet man
Lagemaße
Der Erwartungswert E(X ) = EX einer diskreten ZV X mit Träger T ist
definiert als
X
X
x · P(X = x) =
x · f (x)
E(X ) =
I
I
I
Erwartungswert (“mittlerer Wert”)
Modus
Median
x∈T
wenn diese Summe absolut konvergent ist.
und Streuungsmaße
I
I
Beachte: Man könnte die Summe auch über alle x ∈ R laufen lassen.
Varianz und Standardabweichung
mittlere absolute Abweichung
Beispiele für Erwartungswerte:
Am einfachsten mathematisch zu handhaben sind Erwartungswerte und
Varianzen, da diese immer eindeutig und meist leicht zu berechnen sind.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Bernoulli-Verteilung: Für X ∼ B(π) ist E(X ) = π.
Poisson-Verteilung: Für X ∼ P(λ) ist E(X ) = λ.
1 / 21
Eigenschaften des Erwartungswertes
1
2
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
2 / 21
Folgerungen
Sei X = a mit Wahrscheinlichkeit 1 (deterministische ZV).
Dann gilt:
EX = a
Allgemeiner gilt dann natürlich auch für beliebige a1 , . . . , an ∈ R und
beliebige ZV X1 , . . . , Xn :
!
n
n
X
X
E
ai Xi =
ai · E(Xi )
Seien a, b ∈ R und X , Y beliebige ZV. Dann gilt:
E(a · X + b · Y ) = a · EX + b · EY
i=1
“Linearität des Erwartungswertes”
3
x∈T
i=1
Daher gilt für X ∼ B(n, π): E(X ) = nπ
Für beliebige a, b ∈ R gilt daher
E(aX + b) = a · E(X ) + b
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
3 / 21
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
4 / 21
Erwartungswert von ZVn mit Träger N
Transformationsregel für Erwartungswerte
Hat X den Träger T = N, so gilt:
E(X ) =
∞
X
Sei X diskrete ZV und g (x) eine reelle Funktion. Dann gilt für Y = g (X ):
X
E(Y ) = E(g (X )) =
g (x) f (x)
P(X ≥ k)
k=1
Anwendung:
Erwartungswert der geometrischen Verteilung:
Ist X ∼ G (π) so gilt:
E(X ) =
Prof. Dr. Torsten Hothorn
()
x∈T
Beachte: Im Allgemeinen gilt nicht:
1
π
Stochastik für Informatiker
SS 2009
5 / 21
Beispiel
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
6 / 21
Transformationsregel für Erwartungswerte II
Transformationsregel gilt auch für Zufallsvektoren (X , Y ):
Seien X und Y zwei ZV mit gemeinsamer Wahrscheinlichkeitsfunktion
fXY (x, y ). Sei g (x, y ) eine reellwertige Funktion.
Dann gilt für Z = g (X , Y )
XX
E(Z ) = E(g (X , Y )) =
g (x, y ) fX ,Y (x, y ).
Sei X eine ZV mit folgender Wahrscheinlichkeitsfunktion

1/4 für x = −2



1/8 für x = −1
f (x) =
1/4 für x = 1



3/8 für x = 3
Berechne den Erwartungswert von
x
()
Stochastik für Informatiker
E(X · Y ) =
SS 2009
y
Speziell gilt daher:
E(X 2 )
XX
x
Prof. Dr. Torsten Hothorn
E(g (X )) = g (E(X )) !
7 / 21
Prof. Dr. Torsten Hothorn
()
x · y · fX ,Y (x, y )
y
Stochastik für Informatiker
SS 2009
8 / 21
5.2 Varianzen und Standardabweichungen
Eigenschaften von Varianzen
Die Varianz Var(X ) (auch V(X )) einer diskreten ZV ist definiert als:
1
Var(aX + b) = a2 · Var(X )
2
Sind X und Y unabhängig, so gilt:
für alle a, b ∈ R
Var(X ) = E[(X − EX )2 ]
“Erwartete quadratische Abweichung vom Erwartungswert”
Zur einfacheren Berechnung kann man häufig den Verschiebungssatz
verwenden:
Var(X ) = E(X 2 ) − [E(X )]2
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Var(X + Y ) = Var(X ) + Var(Y )
9 / 21
Die Standardabweichung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
10 / 21
Beispiel: Binomialverteilung
Ist X ∼ B(n, π), so gilt für die Varianz:
Var(X ) = n · π · (1 − π)
0.25
Die Standardabweichung einer diskreten ZV X ist definiert als die Wurzel
aus der Varianz:
p
σ = σ(X ) = + Var(X )
π(1 − π)
0.05
0.00
Bemerkung:
Die mittlere absolute Abweichung E(|X − EX |) erscheint als Streuungsmaß
intuitiver, ist aber deutlich schwerer mathematisch zu handhaben.
0.10
σ(aX + b) = |a| · σ(X )
0.15
0.20
Im Gegensatz zur Varianz gilt für die Standardabweichung:
0.0
0.2
0.4
0.6
0.8
1.0
π
Varianz der Bernoulliverteilung als Funktion von π
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
11 / 21
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 21
Ungleichung von Tschebyscheff
5.3 Kovarianzen und Korrelationen
Als Maß für die Streuung einer Verteilung ist die Varianz
bzw. Standardabweichung einer ZV X schwer direkt zu interpretieren.
Es gilt aber zumindest folgende Ungleichung:
P(|X − E(X )| ≥ c) ≤
Als Maße für die lineare stochastische Unabhängigkeit von zwei ZVn X
und Y definiert man die Kovarianz
Var(X )
c2
Cov(X , Y ) = E[(X − EX )(Y − EY )]
Beispiel:
und die Korrelation
Sei E(X ) beliebig und Var(X ) = 1. Dann ist
Cov(X , Y )
p
ρ = ρ(X , Y ) = p
Var(X ) · Var(Y )
P(|X − E(X )| ≥ 1) ≤ 1
P(|X − E(X )| ≥ 2) ≤
P(|X − E(X )| ≥ 3) ≤
Prof. Dr. Torsten Hothorn
()
unter der Voraussetzung, dass Var(X ) > 0 und Var(Y ) > 0 gilt.
Beachte: Cov(X , X ) = Var(X )
1
4
1
9
Stochastik für Informatiker
SS 2009
13 / 21
Der Verschiebungssatz für die Kovarianz
Es gilt zudem:
()
Stochastik für Informatiker
SS 2009
14 / 21
Beispiel “revisited”
fX ,Y (x, y ) y = −1 y = 0 y = 2 fX (x)
1
3
2
6
x =1
18
18
18
18
()
Stochastik für Informatiker
2
18
x =2
Cov(X , Y ) = E(XY ) − EX · EY
Beachte:
E(XY ) kann mit Transformationssatz für Erwartungswerte leicht über die
gemeinsame Wahrscheinlichkeitsfunktion fXY (x, y ) von X und Y
berechnet werden.
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
SS 2009
15 / 21
x =3
0
3
18
fY (y )
0
4
18
7
18
3
18
3
18
8
18
5
18
7
18
Es ergibt sich:
E(XY )
=
EX
=
EY
=
Prof. Dr. Torsten Hothorn
29
18
37
18
13
18



Cov(X , Y ) =


ρ =
()
Stochastik für Informatiker
29
18
−
37
18
√ 41
107413
·
13
18
=
41
324
= 0.125
SS 2009
16 / 21
Unkorreliertheit
Beispiel
X und Y heißen unkorreliert, wenn
Cov(X , Y ) = 0
d.h. wenn
gilt.
Beachte:
Seien X ∼ B(π = 12 ) und Y ∼ B(π = 12 ) unabhängig.
Betrachte

1

 0 mit Wkeit 4
Z1 = X + Y =
1 mit Wkeit 12


2 mit Wkeit 14


 −1 mit Wkeit
Z2 = X − Y =
0 mit Wkeit


1 mit Wkeit
bzw. ρ(X , Y ) = 0
E(X · Y ) = EX · EY
Aus Unabhängigkeit folgt Unkorreliertheit aber der Umkehrschluss gilt im Allgemeinen nicht!
Man sagt:
X und Y sind positiv/negativ korreliert falls
Dann sind Z1 und Z2 zwar unkorreliert aber nicht unabhängig!
ρ(X , Y ) > 0 bzw. ρ(X , Y ) < 0
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
1
4
1
2
1
4
17 / 21
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Eigenschaften von Korrelationen
Lineare Transformationen
Für alle ZVn X und Y gilt:
Seien a, b, c, d ∈ R mit b · d > 0 und X , Y beliebige ZVn. Dann gilt:
−1 ≤ ρ(X , Y ) ≤ 1
Cov(a + bX , c + dY ) = b · d · Cov(X , Y )
|ρ(X , Y )| = 1 gilt genau dann, wenn perfekte lineare Abhängigkeit
zwischen X und Y besteht:
Y =a+b·X
Prof. Dr. Torsten Hothorn
Daher gilt:
ρ(a + bX , c + dY ) = ρ(X , Y )
für bestimmte a, b ∈ R mit b 6= 0
()
Stochastik für Informatiker
18 / 21
SS 2009
d.h. die Korrelation ist invariant bzgl. linearer Transformationen
19 / 21
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 21
Die Varianz der Summe von zwei ZVn
Seien X und Y beliebige ZVn. Dann gilt für X + Y :
Var(X + Y ) = Var(X ) + Var(Y ) + 2 · Cov(X , Y )
Daher gilt speziell für unabhängige X und Y :
Var(X + Y ) = Var(X ) + Var(Y )
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
21 / 21
6. Elemente Statistischer Inferenz
Vertrauensintervalle
Zwei Arten:
Konfidenzintervalle überdecken mit einer gewissen Sicherheit den
unbekannten Parameter θ (bei hypothetischer Wiederholung des
Zufallsexperiments).
Beachte: θ fest, X zufällig
Ziel der Statistik ist es, unter bestimmten Annahmen Aussagen über
unbekannte Parameter θ ∈ Θ zu machen, nachdem Beobachtungen X
gemacht wurden.
Dabei unterscheidet man
Punktschätzungen:
Was ist der “beste” Schätzwert θ̂ für den unbekannten Parameter θ?
→ frequentistischer Wahrscheinlichkeitsbegriff
Intervallschätzungen:
Angabe eines Vertrauensintervalls
In einem Kredibilitätsintervall liegt der unbekannte Parameter mit
einer gewissen Wahrscheinlichkeit.
Beachte: θ zufällig, X fest
→ subjektivistischer Wahrscheinlichkeitsbegriff
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
1 / 51
Beispiele
1
I
2
Was ist der “beste” Schätzer π̂ für den unbekannten Parameter θ = π?
Wie lautet ein 95%-Vertrauensintervall?
Capture-Recapture Experiment:
Angenommen M = 100, n = 50 und X = 33.
I
Stochastik für Informatiker
SS 2009
2 / 51
θ ∈ Θ = [0, 1]
θ ∈ Θ = {Nmin , Nmin + 1, . . .}
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
Wir haben die Wahrscheinlichkeitsfunktion f (x) einer ZV X in
Abhängigkeit von einem Parameter θ kennengelernt.
Beispiel:
n x
X ∼ B(n, π) ⇒
f (x) =
π (1 − π)n−x
|{z}
x
f (x; θ=π)
Was ist der “beste” Schätzer N̂ für den unbekannten Parameter θ = N?
Beachte: N ≥ Nmin = max(M + n − x, n)
Beispiel 1:
Beispiel 2:
()
6.1 Likelihood-Inferenz
Sei X ∼ B(n, π). Man beobachtet X = 7 bei n = 10 Versuchen.
I
Prof. Dr. Torsten Hothorn
stetig
diskret
SS 2009
3 / 51
Betrachte nun f (x; θ) als Funktion von θ für festes X = x:
L(θ)
l(θ)
=
=
Prof. Dr. Torsten Hothorn
f (x, θ)
log L(θ)
()
heißt Likelihoodfunktion
heißt Log-Likelihoodfunktion
Stochastik für Informatiker
SS 2009
4 / 51
Der Maximum-Likelihood-Schätzer
Idee:
Zur Berechnung des ML-Schätzers
Je größer die (Log-)Likelihoodfunktion L(θ) bzw. l(θ) als
Funktion von θ bei gegebenen Daten X = x ist, desto“plausibler” ist der entsprechende Wert von θ.
in einfacheren Modellen analytisch möglich:
Ableitung der Log-Likelihood gleich Null setzen
Optimal ist somit der Maximum-Likelihood (ML)-Schätzer θ̂ML , für den
gelten soll:
L(θ̂ML ) = max L(θ) θ ∈ Θ
bzw.
ansonsten Verwendung numerischer Algorithmen:
l(θ̂ML ) = max l(θ) θ ∈ Θ
Der (ML)-Schätzer θ̂ML maximiert also die (Log-)Likelihoodfunktion L(θ)
bzw. l(θ).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
5 / 51
ML-Inferenz im Capture-Recapture-Experiment I
f (x) =
n−x
N
n
Dabei sind M und n bekannt. Bei beobachteter Stichprobe X = x lautet
die Likelihoodfunktion für den unbekannten Parameter N
M N−M
L(θ = N) =
x
n−x
N
n
unter der Restriktion, dass N ≥ max(M + n − x, n).
Im Unterschied zum vorhergehenden Abschnitt ist der unbekannte
Parameter N nun ganzzahlig.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
I
Optimierung, z.B. Funktionen optim() und optimize() in R
I
EM-Algorithmus
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
6 / 51
ML-Inferenz im Capture-Recapture-Experiment II
Im Capture-Recapture Beispiel lautet die Wahrscheinlichkeitsfunktion:
M N−M
x
Beispiel:
Binomialverteilung (in Vorlesung): π̂ML = x/n
7 / 51
Man kann zeigen, dass für x > 0 und N̂naive = Mn
x 6∈ N gilt:
n
o
Mn
N̂ML = trunc
= trunc N̂naive
x
Im Fall N̂naive ∈ N ist der ML-Schätzer i.A. nicht eindeutig: dann wird die
Likelihood sowohl durch N̂naive als auch durch N̂naive − 1 maximiert.
Den “naiven” Schätzer N̂naive kann man als ML-Schätzer unter Verwendung
der Binomialapproximation zur hypergeometrischen Verteilung herleiten.
→ Vorlesung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
8 / 51
ML-Inferenz im Capture-Recapture-Experiment III
Invarianz des ML-Schätzers
Zahlenbeispiele:
Wichtige und nützliche Eigenschaft des ML-Schätzers!
Sei θ̂ML der ML-Schätzer für θ und ϕ = ϕ(θ) eine beliebige (eineindeutige)
Funktion von θ. Dann ist der ML-Schätzer von ϕ:
M
n
x
100 50 33
100 50 41
7
23 4
25 30 10
13 10 5
In den beiden Extremfällen erhält
M
n
100 50
100 50
N̂ML
N̂naive
151
151.51
121
121.95
40
40.25
74 und 75
75
25 und 26
26
man:
x N̂ML N̂naive
0
∞
∞
50 100
100
ϕ̂ML = ϕ(θ̂ML )
Beispiel:
Bestimmung des ML-Schätzers für die Chance γ =
Binomialexperiment:
γ̂ML
x
π̂ML
=
= n
1 − π̂ML
1−
x
n
=
π
1−π
im
x
n−x
Dies könnte man auch direkt zeigen! Dauert aber viel länger.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
9 / 51
Das Testproblem
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
10 / 51
Der statistische Test
Wir sind nun daran interessiert, Aussagen darüber zu treffen, in welchen
Teilmengen des Parameterraumes Θ sich der feste, aber unbekannte,
Parameter θ ∈ Θ mutmaßlich befindet.
Dazu unterteilen wir den Parameterraum Θ in zwei disjunkte Teilmengen
Θ0 und Θ1 mit Θ = Θ0 ∪ Θ1 , wobei Θ0 ∩ Θ1 = ∅. Es ist nun eine
Entscheidungsregel gesucht, für welche der beiden Zustände θ ∈ Θ0 oder
θ ∈ Θ1 wir uns basierend auf einem Experiment (also Daten
X = (X1 , . . . , Xn )) entscheiden sollen.
Θ0 heißt Hypothese oder Null-Hypothese. Θ1 heißt Alternative. Die
Formulierung
Eine Entscheidungsregel, uns zwischen H0 bzw. H1 zu entscheiden nennt
man einen statistischen Test.
Eine Funktion ψ : Rn → {0, 1} heißt Test für H0 gegen H1 . Wenn für den
Erwartungswert der Funktion ψ gilt: E(ψ) = P(ψ = 1) ≤ α, α ∈ [0, 1], für
alle θ ∈ Θ0 (also in der Null-Hypothese), so heißt ψ Niveau-α-Test.
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
heißt Testproblem.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
11 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 51
Fehlerarten
Test und Teststatistik
In aller Regel ist ein Test ψ von der Form
ψ(X) = I (T (X) ≥ c)
H0 richtig und ψ = 0: OK!
Die Funktion T : Rn → R heißt Teststatistik und die Konstante c heißt
kritischer Wert (der überschritten werden muß, um sich gegen die
Null-Hypothese zu entscheiden).
Der kritische Wert kann so bestimmt werden, dass ψ ein Niveau-α-Test
ist. Es gilt:
H1 richtig und ψ = 1: OK!
H0 richtig und ψ = 1: Fehler 1. Art!
H1 richtig und ψ = 0: Fehler 2. Art!
E0 (ψ(X) = 1) = I (T (X) ≥ c) = P0 (T (X) ≥ c) ≤ α.
Also ist c das 1 − α-Quantil der Verteilung von T (X) wenn θ ∈ Θ0 und
wird deshalb auch mit c1−α bezeichnet.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
13 / 51
Beispiel: Faire Münze
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
14 / 51
Likelihood-Quotienten-Tests
H0 : π =
1
1
vs. H1 : π 6=
2
2
Teststatistik T (x) = x; lehne die Null-Hypothese ab, wenn x zu groß oder
zu klein ist (zweiseitiger Test).
Der Ausgang unseres Experimentes sei x = 7 bei n = 10. Wir bestimmen
jetzt das 1 − α-Quantil der Verteilung von T (x) under H0 , also der
Verteilung B(n, 0.5) für α = 0.05:
> qbinom(1 - 0.05, size = 10, prob = 0.5)
Eine formale Möglichkeit Teststatistiken zu konstruieren ist die Anwendung
des Likelihood-Quotienten-Prinzips: Der Quotient
max L(θ)
Θ0
max L(θ)
Θ
=
max L(θ)
Θ0
L(θ̂ML )
heißt Likelihood-Quotient und steht in engem Zusammenhang zur
normierten (Log)-Likelihoodfunktion.
[1] 8
Damit können wir nicht sagen, dass x = 7 zu groß, also unter H0
unplausibel wäre.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
15 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
16 / 51
Die normierte Likelihoodfunktion
Likelihood-Intervalle
Den Wert der (Log-) Likelihoodfunktion L(θ) bzw. l(θ) am ML-Schätzer
kann man nicht interpretieren. Daher verwendet man gerne die normierte
(Log-) Likelihoodfunktion:
Zur Bestimmung von Konfidenzintervallen muss man nun entscheiden,
welche Werte von l̃(θ) zu “unplausibel” sind.
Man kann unter bestimmten Annahmen zeigen, dass für einen bestimmten
Schwellenwert c = c(α)
L̃(θ) =
L(θ)
{θ : l̃(θ) ≥ c}
L(θ̂ML )
bzw. {θ : L̃(θ) ≥ exp(c)}
l̃(θ) = l(θ) − l(θ̂ML )
ein Konfidenzintervall für θ (Likelihood-Intervall) zum approximativen
Niveau 1 − α ist.
Interpretation: Bei hypothetischer Wiederholung des zugrundeliegenden
Zufallsexperiments überdecken die so konstruierten Likelihood-Intervalle in
ungefähr (1 − α) · 100% aller Fälle den unbekannten Parameter θ.
Es gilt: 0 ≤ L̃(θ) ≤ 1 und −∞ ≤ l̃(θ) ≤ 0
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
17 / 51
Likelihood-Intervalle II
1−α
0.9
0.95
0.99
Stochastik für Informatiker
SS 2009
18 / 51
c
−1.33
−1.92
−3.32
Sei X ∼ B(n, π) mit n = 10 und x = 7.
Damit erhält man als ML-Schätzer: π̂ML = 0.7
exp(c)
0.259
0.147
0.036
Die Bestimmung von Likelihood-Intervallen ist nur numerisch möglich, dort
aber einfach durchzuführen.
Likelihood-Intervalle sind (wie der ML-Schätzer) invariant bzgl. monotonen
Transformationen des Parameters.
()
()
Beispiel: Binomialverteilung
Die Werte von c sind folgender Tabelle zu entnehmen:
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
SS 2009
19 / 51
1 − α Likelihood-Intervall für π
0.9
[0.44; 0.89]
0.95
[0.39; 0.92]
0.99
[0.30; 0.95]
Beachte: Die Konfidenzintervalle sind i.A. nicht symmetrisch um π̂ML .
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 51
0.8
1.0
0.4
0.6
0.8
1.0
1.0
0.6
~
L(π)
0.4
0.0
0.2
0.4
0.6
1.0
0.4
0.6
0.8
1.0
()
Stochastik für Informatiker
SS 2009
21 / 51
1.0
0.8
~
L(π)
0.4
0.2
0.4
0.6
0.8
1.0
π
Linien verdeutlichen
Likelihood-Intervalle zu
unterschiedlichen Niveaus.
α = 0.1
α = 0.05
α = 0.01
−3
−5
−5.5
−4
−5.0
~
l (π)
−4.5
−2
−1
−4.0
0
−3.5
π
−2
~
l (π)
−4
0.80
0.55
0.60
0.65
0.70
0.75
0.80
0.85
π
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
22 / 51
Man kann mit Hilfe einer Taylorreihendarstellung um θ̂ML zeigen, dass die
normierte Loglikelihoodfunktion l̃(θ) approximativ eine quadratische
Funktion ist:
1
l̃(θ) ≈ · l 00 (θ̂ML ) · (θ − θ̂ML )2
2
Hier ist l 00 (θ̂ML ) (= l̃ 00 (θ̂ML )!) die zweite Ableitung (die Krümmung) von
l(θ), ausgewertet am ML-Schätzer.
Beachte: Die quadratische Approximation wird umso besser, je mehr
Daten der Likelihood zugrundeliegen.
−6
−6.0
0.75
α = 0.1
α = 0.05
α = 0.01
0.2
1.0
0.70
Quadratische Approximation der Log-Likelihood
0.0
0.8
Linien verdeutlichen
Likelihood-Intervalle zu
unterschiedlichen Niveaus.
Likelihood (oben links), normierte Likelihood
(oben rechts), Loglikelihood (unten links) und
normierte Loglikelihood (unten rechts)
0.6
0.020
L(π)
0.010
0.000
0.6
0.65
π
Beispiel: Binomialverteilung (n = 1000, x = 700)
0.4
1.0
−6
0.60
π
Likelihood (oben links), normierte Likelihood
(oben rechts), Loglikelihood (unten links) und
normierte Loglikelihood (unten rechts)
0.2
0.8
−5
−5.0
−6.0
0.2
π
Prof. Dr. Torsten Hothorn
0.6
α = 0.1
α = 0.05
α = 0.01
−1
−3.0
−4.0
l(π)
−2
−4
0.8
0.4
π
−5
−6
0.6
0.2
0
Linien verdeutlichen
Likelihood-Intervalle zu
unterschiedlichen Niveaus.
−3
~
l (π)
−3
−4
−5
0.8
π
α = 0.1
α = 0.05
α = 0.01
−1
−2
0
π
−6
0.4
l(π)
0.2
0.02
0.00
0.2
π
−3
0.6
α = 0.1
α = 0.05
α = 0.01
0.8
0.08
0.06
L(π)
~
L(π)
0.4
0.2
0.0
0.4
0.04
0.6
0.20
0.15
L(π)
0.10
0.05
0.00
0.2
l(π)
Beispiel: Binomialverteilung (n = 100, x = 70)
α = 0.1
α = 0.05
α = 0.01
0.8
0.25
1.0
Beispiel: Binomialverteilung (n = 10, x = 7)
0.67
0.68
0.69
0.70
0.71
0.72
0.73
0.66
π
0.68
0.70
0.72
0.74
π
Likelihood (oben links), normierte Likelihood
(oben rechts), Loglikelihood (unten links) und
normierte Loglikelihood (unten rechts)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
23 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
24 / 51
Beispiel: Binomialverteilung
Der Standardfehler
0
0
−6 −5 −4 −3 −2 −1
(70, 100)
−6 −5 −4 −3 −2 −1
(7, 10)
0.6
0.8
1.0
0.55
0.70
0.75
(700, 1000)
(7000, 10000)
0
0.68
0.65
π
−6 −5 −4 −3 −2 −1
0.66
0.60
π
0
0.4
−6 −5 −4 −3 −2 −1
0.2
Durch Einsetzen der quadratischen Approximation für l̃(θ) in
0.70
0.72
0.74
0.80
{θ : l̃(θ) ≥ c}
0.85
erhält man
θ̂ML ±
0.685
0.690
0.695
0.700
0.705
0.710
−2c ·
rh
i−1
−l 00 (θ̂ML )
als Konfidenzintervall (Wald-Intervall) zum approximativen Niveau 1 − α.
Daher definiert man den Standardfehler (“Standard Error”) als
rh
i
0.715
Vergleich der normierten Loglikelihood mit der quadratischen
Approximation für X ∼ B(n, π):
π
√
π
SE (θ̂ML ) :=
−l 00 (θ̂ML )
−1
n = 10, X = 7 (oben links), n = 100, X = 70 (oben rechts),
n = 1000, X = 700 (unten links) und n = 10000, X = 7000 (unten rechts)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
25 / 51
Wald-Intervalle
()
Stochastik für Informatiker
SS 2009
26 / 51
Standardfehler
Das Wald-Intervall zum Niveau 1 − α ist also:
Der Standardfehler des ML-Schätzers
rh
θ̂ML ± d · SE (θ̂ML )
SE (θ̂ML ) :=
Die Werte von d sind folgender Tabelle zu entnehmen:
√
c
d = −2c
1−α
0.9
−1.33
1.65
0.95 −1.92
1.96
0.99 −3.32
2.58
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
i−1
−l 00 (θ̂ML )
kann als Schätzung der Standardabweichung des ML-Schätzers (im
frequentistischen Sinne) angesehen werden.
h
i−1
Ebenso ist −l 00 (θ̂ML )
eine Schätzung der Varianz des ML-Schätzers.
27 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
28 / 51
Eigenschaften von Wald-Intervallen
Beispiel: Binomialverteilung
Wald-Intervalle sind immer symmetrisch um den ML-Schätzer;
Invarianzeigenschaft geht verloren
Es ergibt sich
Wald-Intervalle sind einfacher zu berechnen als Likelihood-Intervalle,
haben aber (leicht) schlechtere theoretische Eigenschaften
im Beispiel (nächste Folie):
offensichtliches Problem für 1 − α = 0.99: obere Grenze ist größer als
1!
r
SE (π̂ML ) =
Beispiel:
Für X = 7 und n = 10 ergibt sich: SE (π̂ML ) = 0.145
; Tabelle mit Wald-Intervallen:
1−α
0.9
0.95
0.99
für n groß werden Wald-Intervalle Likelihood-Intervallen immer
ähnlicher
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
29 / 51
6.2 Erwartungstreue
()
Stochastik für Informatiker
SS 2009
30 / 51
Die Erwartungstreue ist nicht invariant bzgl. monotonen
Transformationen! Das heißt, ist θ̂ erwartungstreu für θ, so ist g (θ̂)
im Allgemeinen nicht erwartungstreu für g (θ).
Die Existenz von erwartungstreuen Schätzern ist nicht gesichert.
Erwartungstreue Schätzer sind nicht notwendigerweise Element des
Parameterraums Θ.
Die relative Häufigkeit π̂ = X /n ist ein erwartungstreuer
Schätzer der Wahrscheinlichkeit π im Binomialverteilungsmodell.
(Herleitung in Vorlesung)
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
Wald-Intervall
[0.46; 0.94]
[0.42; 0.98]
[0.33; 1.07]
Bemerkungen zur Erwartungstreue
Eine wünschenswerte Eigenschaft von Punktschätzern (im frequentistischen Sinne) ist die Erwartungstreue:
Ein Schätzer θ̂ (als Funktion der zufälligen Stichprobe X ) heißt
erwartungstreu oder unverzerrt für einen unbekannten Parameter θ,
falls gilt:
E (θ̂) = θ
Beispiel:
π̂ML (1 − π̂ML )
n
()
Stochastik für Informatiker
SS 2009
ML-Schätzer sind nicht immer erwartungstreu, zumindest aber
asymptotisch erwartungstreu, d.h. für wachsenden Stichprobenumfang
im Grenzwert erwartungstreu.
31 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
32 / 51
Beispiel: Taxis in Lübeck I
Beispiel: Taxis in Lübeck II
Alle Taxis in Lübeck seien von 1, . . . , N durchnummeriert. Ein Besucher
sieht an einem Taxistand n = 3 Taxis und fragt nach deren Nummern:
Die Likelihoodfunktion ist
Y = {Y1 , . . . , Yn }
Wie kann er daraus einen erwartungstreuen Schätzer für θ = N berechnen?
Betrachte X = max(Y ).
Man kann zeigen (Vorlesung), dass
N̂ =
n+1
max(Y ) − 1
n
L(N) = const ·
(N − n)!
für N = x, x + 1, . . .
N!
Diese wird maximiert für N = x! Das heißt der ML-Schätzer für N ist
max(Y ), der kleinstmögliche Wert!
ein erwartungstreuer Schätzer für N ist.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
33 / 51
6.3 Bayes-Inferenz
()
Stochastik für Informatiker
SS 2009
34 / 51
Satz von Bayes für Wahrscheinlichkeitsfunktionen
Seien X und Y zwei Zufallsvariablen mit gemeinsamer
Wahrscheinlichkeitsfunktion fX ,Y (x, y ) und daraus abgeleiteten
Wahrscheinlichkeitsfunktionen fX (x), fY (y ), fX |Y (x|y ) und fY |X (y |x).
Dann gilt für alle x und alle y mit f (y ) > 0:
alternativer Ansatz zur statistischen Inferenz
basiert auf subjektivistischem Wahrscheinlichkeitskonzept
unbekannter Parameter θ ist nun eine Zufallsvariable, versehen mit
einer Wahrscheinlichkeitsfunktion f (θ)
fX |Y (x|y ) =
()
Stochastik für Informatiker
SS 2009
fY |X (y |x)fX (x)
fY |X (y |x)fX (x)
=P
fY (y )
x fY |X (y |x)fX (x)
Dies folgt direkt aus der Definition der bedingten Wahrscheinlichkeitsfunktion.
wir können zunächst nur diskrete Parameter behandeln
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
35 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
36 / 51
Bayes-Inferenz
Beispiel: Posteriori-Verteilung im Binomialexperiment
Sei X = x eine Beobachtung eines Zufallsexperiments, das von einem
unbekannten Parameter θ ∈ Θ abhängt, wobei Θ abzählbar sei.
Dann gilt mit dem Satz von Bayes für Wahrscheinlichkeitsfunktionen:
Angenommen wir interessieren uns für den Parameter θ = π, nehmen aber
an, dass nur Werte in Π = {0.00, 0.02, 0.04, . . . , 0.98, 1.00} erlaubt sind.
Als Priori-Verteilung f (π) können wir z.B. eine Gleichverteilung auf den
51 Elementen von Π wählen, also f (π) = 1/51 für alle π ∈ Π.
Nach der Beobachtung X = x aus einer B(n, π)-Verteilung ergibt sich die
Posteriori-Verteilung
f (θ|x) =
Beachte:
f (x|θ)f (θ)
f (x|θ)f (θ)
=P
f (x)
θ f (x|θ)f (θ)
f (x|π)f (π)
f (π|x) = P
π f (x|π)f (π)
Da X = x beobachtet wurde, muss automatisch
P(X = x) > 0 gelten.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
37 / 51
Beispiel: Binomialverteilung (n = 5)
0.4
0.6
1.0
0.0
0.2
0.4
0.6
0.8
0.12
1.0
●●
●●
●●
●●
●●
●●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●●
●●
●● ●●
●●
●●● ●●●●●
●●●
0.0
0.2
0.4
0.6
0.6
0.8
1.0
●●
●●
●●●●● ●
●
●
●●
●
●●
●
●●
●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●
●●
●● ●●
●●●●●●●●●●●●● ●●●
●
0.0
π
Posteriori
Priori
0.2
0.4
0.6
0.8
1.0
Wähle z.B.
1.0
f (π) =
0.12
●
Dichte
Dichte
0.4
●
0.8
Posteriori
●
Priori ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●● ●
●● ●●
●●●●●●●●●●●●●●●●●●●●●● ●●●●
0.0
0.2
π
0.4
0.6
0.8
1.0
Bemerkung: C ist so gewählt, dass
π
Posteriori-Verteilung im Binomialexperiment für X ∼ B(5, π) bei
Priori-Gleichverteilung.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
1
{26 − 25 · |2 · π − 1|}
C
für π ∈ {0.00, 0.02, 0.04, . . . , 0.98, 1.00} und C =
●
0.08
0.12
X=5
●●●●●● ●●
●● ●●
●●
●●
●●
●●
●●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●●
●●
●●
●●
●● ●
●●●
●●●●●●● ●●
38 / 51
●● ●●●●●●●● ●●
X=4
Posteriori
Priori
SS 2009
Idee: favorisiere Werte von π nahe bei 0.5
0.08
Dichte
●●
●
●●
●●
●
●●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●
●● ●●
●● ●●●
●●●●●●●●●●●●●
●
0.04
●●
X=3
●
0.2
●●●●●● ●
π
●
0.0
●●
●
π
0.08
0.04
Dichte
0.8
●
Posteriori
Priori
●
π
0.12
0.2
0.00
●
●
●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●
●●
●● ●●
●●● ●●●●
●●●●●●●●●●●●●●●●●●●●●
0.0
0.00
0.12
●
0.04
●
0.00
●
Posteriori
Priori
0.00
●
●
0.08
●
Stochastik für Informatiker
X=2
●
0.08
0.04
Dichte
●
0.04
0.08
●
●
0.00
Dichte
●
Posteriori
Priori
0.04
●
()
Eine Dreiecksverteilung als Priori-Verteilung
X=1
●
0.00
0.12
X=0
●
Prof. Dr. Torsten Hothorn
SS 2009
39 / 51
Prof. Dr. Torsten Hothorn
()
P
π
1
676 .
f (π) = 1 gilt.
Stochastik für Informatiker
SS 2009
40 / 51
Beispiel: Binomialverteilung (n = 5)
●●
●●
●●
0.2
●●
●●●
●●●
●
●●
●
●
●
●● ●●●
●
●●
●
●●
0.4
●●
●●
●●
●●
●●
●●
●●
●●
●●
● ●●
●●
●●● ●●●●●●●●●●●●●●●●
0.6
0.8
1.0
●
●
●●
0.0
●
●
●
●
●●
●●
●
●●
●
●●
●●
●
●●
● ●●●
●●●
●
●
0.2
● ●
● ●
●● ● ●●
●
●
0.4
0.6
0.8
●●
●●
●●
● ●●
●●
●●
●●
●●
0.08
●●
●●
●●
●● ●●●●●●●●●●●●
0.8
1.0
●
●●
●●●
●● ●
●● ●●
●●
●
●
●●●● ●
0.0
●
●
●
●●●● ●
●
●●
●●
●
●
●●
●
●
●
●●
●●●
●
●●
● ●●●
●●●●
●●
●
●●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●●
●● ●●●●●●
●●
0.2
0.4
0.6
0.08
1.0
●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●
●●●●●●●●●●●● ●●
0.0
π
●
● ●
●●●●●●
0.2
0.4
0.8
1.0
●
Posteriori
Priori
θ∈Θ
Posteriori-Modus θ̂Mod = arg max f (θ|x)
X=5
Posteriori
Priori
●
●
●●
Als Punktschätzer bietet sich nun ein Lageparameter der
Posteriori-Verteilung an, z.B. der
P
Posteriori-Erwartungswert θ̂Erw = E (θ|x) =
θf (θ|x)
Posteriori
Priori
●
π
●
0.04
Dichte
0.02
●●
●
●
●
●
●
●
● ●● ●●
●
●
●●
●
●●
●●
●●
●
●●
●●
●●
●● ●
●● ●●
●●●
●●
●●
●
●●
●
●●●
●
●
●
● ●●
●
●●
●
●
●
●●
●
●● ●●
●
●
●●
● ●● ● ● ●
●●
●
●●●
●●●●●●● ●●
0.4
●
0.06
Posteriori
Priori
0.00
0.08
0.04
0.00
0.02
Dichte
0.06
●
0.2
●●
●
X=4
●
0.0
●
●
π
X=3
●●● ●
●
0.6
π
●
●●
●
0.06
0.06
●●
●
0.04
●
Dichte
●
●●
●
0.02
●●
●
0.00
●●
0.0
●
●●
●
● ●●●
●●
●●
●● ●●● ●
●●
0.6
●●
●
●
●
●
●
●
●●
●
●●
●●
0.08
●
●
●
●
●
●●
●●
●
●
●● ●
●●●
●
0.8
●●
●●
●
1.0
●
0.06
●
●
0.04
●
Dichte
●
●
●●● ●
● ●●
●
0.02
●
0.00
●
Dichte
●●●● ●
X=2
Posteriori
Priori
●
0.02
●
0.00
0.04
0.00
0.02
Dichte
0.06
●
●
Posteriori
Priori
0.04
●
0.08
X=1
0.08
X=0
Bayesianische Punktschätzer
●
●●
●
●● ●●●
●●
●
●
●
●
●
●
●●
●●●●
●
θ∈Θ
●
●
●
●
●
●●
● ●●
●
●●
●
●●
●●
●
●●
●●
●
●●
●●
●
●
●●
●●
●●
●●
●●
●
●●
●●
●●
●●
●●
●●
●●
●● ●
●
●●●●●●●●●●●●●●●●● ●●
0.0
0.2
0.4
π
0.6
0.8
Posteriori-Median θ̂Med = min{θ ∈ Θ : F (θ|x) ≥ 0.5}
wobei F (θ|x) die Verteilungsfunktion der Posteriori-Verteilung mit
Wahrscheinlichkeitsfunktion f (θ|x) ist.
1.0
π
Posteriori-Verteilung im Binomialexperiment für X ∼ B(5, π) bei
Priori-Dreiecksverteilung.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
41 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
42 / 51
Posteriori-Modus bei Priori-Gleichverteilung
Bayesianische Punktschätzer im Beispiel
Bei Priori-Gleichverteilung ist der Posteriori-Modus θ̂Mod gleich dem
ML-Schätzer θ̂ML , da
Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sich
folgende Punktschätzer bei Beobachtung von X = x Erfolgen bei n = 5
Versuchen:
f (x|θ)f (θ)
f (x|θ)
f (θ|x) = P
=P
θ f (x|θ)f (θ)
θ f (x|θ)
P
Da der Nenner θ f (x|θ) nicht von θ abhängt, folgt:
x
0.00
1.00
2.00
3.00
4.00
5.00
θ̂Mod = arg max f (θ|x) = arg max f (x|θ) = θ̂ML
θ∈Θ
Prof. Dr. Torsten Hothorn
()
θ∈Θ
Stochastik für Informatiker
SS 2009
43 / 51
Erwartungswert
G
D
0.13
0.23
0.29
0.35
0.43
0.45
0.57
0.55
0.71
0.65
0.87
0.77
Prof. Dr. Torsten Hothorn
()
Modus
G
D
0.00 0.16
0.20 0.32
0.40 0.50
0.60 0.50
0.80 0.68
1.00 0.84
Stochastik für Informatiker
Median
G
D
0.10 0.22
0.26 0.34
0.42 0.46
0.58 0.54
0.74 0.66
0.90 0.78
SS 2009
44 / 51
Bayesianische Intervallschätzer
Berechnung von HPD-Regionen
Prinzipiell ist jede Teilmenge A des Trägers Θ, für die gilt
X
f (θ|x) ≥ 1 − α
1
θ∈A
eine Kredibilitätsregion (bzw. -intervall) zum Niveau 1 − α.
2
Zusätzlich kann man noch fordern, dass für alle θ1 ∈ A und
θ2 ∈ Θ \ A gelten muss:
f (θ1 |x) ≥ f (θ2 |x)
Sortiere die Werte der Posteriori-Verteilung f (θ|x) der Größe
nach (absteigend).
Summiere die Werte kumulativ auf (Funktion cumsum() in R),
bis die Summe größer als das Niveau 1 − α ist.
⇒ Die entsprechenden Werte von θ definieren dann eine HPD-Region.
⇒ “highest posterior density region” (HPD-Region)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
45 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
46 / 51
HPD-Regionen im Beispiel
Beispiel: Capture-Recapture-Experiment
Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sich
folgende 95% HPD-Regionen bei Beobachtung von X = x Erfolgen bei
n = 5 Versuchen:
Betrachte den unbekannten Parameter θ = N als diskrete ZV mit Träger
95% HPD-Region für π
G
D
[0.00;0.36] [0.00;0.46]
[0.02;0.56] [0.08;0.60]
[0.12;0.74] [0.18;0.72]
[0.26;0.88] [0.28;0.82]
[0.44;0.98] [0.40;0.92]
[0.64;1.00] [0.54;1.00]
x
0
1
2
3
4
5
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
T = {M, M + 1, . . . , Ymax }
Beachte:
Vor der Beobachtung X = x (bei bekanntem n!) weiss man
nur, dass mindestens M Fische im See schwimmen.
Lege nun eine Priori-Verteilung fest, z.B. eine Gleichverteilung
f (N) für N ∈ T
SS 2009
47 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
48 / 51
Posteriori-Verteilung im Capture-Recapture-Experiment
Graphische Darstellung der Posteriori-Verteilung
Berechne Posteriori-Wahrscheinlichkeitsfunktion:
Priori-Verteilung:
f (x|N)f (N)
f (x|N)f (N)
f (N|x) =
=P
f (x)
N f (x|N)f (N)
Gleichverteilung und eine gestutzte geometrische Verteilung mit
Parameter γ
Beachte:
Erst nach der Beobachtung X = x weiss man, dass mindestens M + n − x Fische im See schwimmen, da die Likelihood
f (x|N) = 0 ist für x < M + n − N, also für N < M + n − x.
Weiterhin muss n ≤ N gelten.
Also hat die Posteriori-Verteilung f (θ|x) den Träger
()
Stochastik für Informatiker
SS 2009
49 / 51
Beispiel
Priori
0.010
0.020
Priori Verteilung
0.000
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0
50
100
150
200
250
N
Mod Erw
●
●
●
●
●
●●
●●●
●●
●
●
●
Med
Bei der Posteriori-Verteilung
werden folgende
Punktschätzer durch Linien
verdeutlicht. Die
95%-HPD-Region stellen die
äußeren Linien dar.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.010
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.000
Posteriori
0.020
Posteriori Verteilung
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●●
●●
●●
●●
●●●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0
50
●
●
●
100
150
●●●
●●●
●●●●
●●●●
●●●●●
●●●●●●
●●●●●●●●
●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●
200
●●●●●●●●●●●●●●●●●●●●●●●●●●
250
N
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
I
Modus,
I
Median und
I
Erwartungswert
der Posteriori-Verteilung und die HPD-Region, die hier ein Intervall ist.
T = {max(M + n − x, n), max(M + n − x, n) + 1, . . . , Ymax }
Prof. Dr. Torsten Hothorn
Berechnet:
51 / 51
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
50 / 51
7. Markov-Ketten
7.1 Definition und Eigenschaften von Markov-Ketten
Benannt nach Andrei A. Markov [1856-1922]
Einige Stichworte:
Sei X = (X0 , X1 , X2 , . . .) eine Folge von diskreten Zufallsvariablen die alle
Ausprägungen in einer endlichen bzw. abzählbaren Menge S haben.
S heißt der Zustandsraum und s ∈ S ein Zustand.
X heißt Markov-Kette (MK), falls
Markov-Ketten
I
Definition
I
Eigenschaften
I
Konvergenz
P(Xn = s|X0 = x0 , X1 = x1 , . . . , Xn−1 = xn−1 )
= P(Xn = s|Xn−1 = xn−1 )
Hidden Markov Modelle
I
Motivation und Inferenz
I
Baum-Welch-Algorithmus
I
Viterbi-Algorithmus
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
für alle n ≥ 1 und alle s, x0 , x1 , . . . , xn−1 ∈ S.
SS 2009
1 / 55
Interpretation
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
2 / 55
Bedingt unabhängige Zufallsvariablen
Bedingt auf die gesamte Vergangenheit X0 , X1 , . . . , Xn−1 des Prozesses X
hängt Xn nur vom letzten Wert Xn−1 ab.
Darstellung mit Pfeilen in einem graphischen Modell:
X0 → X1 → X2 → . . . → Xn−1 → Xn
fX ,Y |Z (x, y |z) = fX |Z (x|z) · fY |Z (y |z)
Anders ausgedrückt:
Bedingt auf die Gegenwart (Xn−1 ) ist die Zukunft des Prozesses
(Xn , Xn+1 , . . .) unabhängig von seiner Vergangenheit (X0 , X1 , . . . , Xn−2 ).
→ Begriff der bedingten Unabhängigkeit
Prof. Dr. Torsten Hothorn
Zwei diskrete Zufallsvariablen X und Y heißen bedingt unabhängig
gegeben Z , wenn für die entsprechend definierten
Wahrscheinlichkeitsfunktionen gilt:
()
Stochastik für Informatiker
SS 2009
3 / 55
für alle x, y und z.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
4 / 55
Übergangswahrscheinlichkeiten
Die Übergangsmatrix
Die Entwicklung einer Markov-Kette X ist gekennzeichnet durch die
(Ein-Schritt) Übergangswahrscheinlichkeiten
Die Werte pij werden in einer |S| × |S|-Matrix P zusammengefasst, der
sogenannten Übergangsmatrix. P beschreibt also die Kurzzeitentwicklung
einer homogenen Markov-Kette X.
P ist eine stochastische Matrix, d.h. sie hat folgende Eigenschaften:
P(Xn+1 = j|Xn = i)
für alle i, j ∈ S.
Man nennt eine Markov-Kette homogen, wenn diese nicht von n
abhängen und definiert
1
2
pij = P(Xn+1 = j|Xn = i) = P(X1 = j|X0 = i)
pij ≥ 0
P
j
pij = 1
für alle i, j ∈ S
für alle i ∈ S
⇒ “Zeilensummen gleich eins”
für alle n ≥ 1 und alle i, j ∈ S.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
5 / 55
Beispiele
1.Beispiel:
2.Beispiel:
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
6 / 55
Die n-Schritt-Übergangsmatrix
Telephon besetzt / frei mit S = {0, 1} und
0.9 0.1
P=
0.4 0.6
Die Langzeitentwicklung einer Markov-Kette X ist durch die n-SchrittÜbergangsmatrix P(m, m + n) mit Elementen
Der Zustandsraum umfasst die vier Basen der DNA (Adenin,
Cytosin, Guanin, Thymin): S = {A, C , G , T }.
Die geschätzte Übergangsmatrix beim “Ablaufen” der DNA
ist


0.300 0.205 0.285 0.210
 0.322 0.298 0.078 0.302 

P=
 0.248 0.246 0.298 0.208 
0.177 0.239 0.292 0.292
pij (m, m + n) = P(Xm+n = j|Xm = i)
bzw.
pij (n) = P(Xn = j|X0 = i)
gegeben, wobei die letzte Gleichung für homogene Markov-Ketten gilt.
In diesem Fall ergibt sich natürlich
P(m, m + 1) = P
und wir schreiben Pn = P(m, m + n).
Durbin et al. (1998) “Biological sequence analysis”, p. 50
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
7 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
8 / 55
Die Chapman-Kolmogorov-Gleichungen
Fortsetzung des 1. Beispiels
Für eine homogene Markov-Kette X gilt:
X
pij (m, m + n + r ) =
pik (m, m + n)pkj (m + n, m + n + r ) (1)
Zwei-Schritt-Übergangsmatrix:
0.9 0.1
0.9 0.1
0.85 0.15
2
P2 = P =
=
0.4 0.6
0.4 0.6
0.6 0.4
k
P(m, m + n + r ) = P(m, m + n)P(m + n, m + n + r )
Pn = P(m, m + n) = Pn
(2)
(3)
Dabei ist (2) nur (1) in Matrizenform und (3) folgt durch Iteration.
Pn bezeichnet die n-te Potenz von P.
Beweis zu (1) in Vorlesung.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Zum Beispiel ist also der Eintrag p21 (2) in P2 gleich
p21 (2) = P(Xn+2 = 1|Xn = 2)
= P(Xn+1 = 2|Xn = 2) · P(Xn+2 = 1|Xn+1 = 2)
+ P(Xn+1 = 1|Xn = 2) · P(Xn+2 = 1|Xn+1 = 1)
= 0.6 · 0.4 + 0.4 · 0.9 = 0.6
9 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
10 / 55
Die Zeit bis zum Zustandswechsel
Die Anfangsverteilung
Eine Markov-Kette X mit Übergangsmatrix P sei zu einem Zeitpunkt t im
Zustand i ∈ S.
Dann ist die Dauer bis zum nächsten Zustandswechsel Zi geometrisch
verteilt mit Parameter 1 − pii .
Vergleiche: Gedächtnislosigkeit der geometrischen Verteilung:
Schließlich hat jede Markov-Kette auch eine Anfangsverteilung für X0 .
Die entsprechende Wahrscheinlichkeitsfunktion bezeichnet man mit dem
Zeilenvektor µ(0) mit Elementen
(0)
µi
Die (unbedingte) Wahrscheinlichkeitsfunktion von Xn fasst man
entsprechend in dem Zeilenvektor µ(n) zusammen und es gilt:
P(Zi = n + k|Zi > n) = P(Zi = k)
µ(m+n) = µ(m) · Pn
Nützliche Eigenschaft zum Test auf Modellanpassung:
Vergleich der beobachteten und theoretischen Dauern bis zum nächsten
Zustandswechsel.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
= P(X0 = i).
(n)
µ
11 / 55
Prof. Dr. Torsten Hothorn
()
(0)
= µ
und daher
n
·P
Stochastik für Informatiker
SS 2009
12 / 55
Folgerung
Beispiel: Inzucht
Durch µ(0) und P ist also die Entwicklung einer Markov-Kette vollständig
bestimmt.
Die gemeinsame Wahrscheinlichkeitsverteilung (wichtig für
Likelihood-Inferenz!) von X0 , . . . , Xn ist gegeben durch
Eine Pflanze mit Genotyp aus S = {aa, ab, bb} wird mit sich selbst
gekreuzt. Die Zufallsvariable Xn gibt den Genotyp in der n-ten Generation
an. Daher:


1 0 0


P =  14 21 14 
0 0 1




1
0
0
1 0 0
n→∞



1 n 1
1 n+1 
Pn =  12 − 12 n+1
 −→  12 0 21 
2
2 − 2
0 0 1
0
0
1
P(X0 = x0 , X1 = x1 , . . . , Xn = xn )
= P(X0 = x0 )
n
Y
(0)
= µx0
n
Y
P(Xt = xt |Xt−1 = xt−1 )
t=1
pxt−1 ,xt
t=1
Prof. Dr. Torsten Hothorn
()
⇒ Letztendlich bleiben nur die Genotypen aa und bb übrig, die sich dann
deterministisch reproduzieren.
Stochastik für Informatiker
SS 2009
13 / 55
Beispiel: Genhäufigkeit in Population konstanter Größe N
Xn = i:
Anzahl der Individuen einer Population mit bestimmtem Genotyp zum Zeitpunkt n
Einfaches Modell:
Zu jedem Zeitpunkt stirbt ein zufällig ausgewähltes Mitglied. Das
“nachrückende” Mitglied hat den Genotyp mit Wahrscheinlichkeit Ni .
; pij =
Beachte:





i(N−i)
N2
1 − 2 i(N−i)
N2
0
()
für j = i ± 1
für j = i
Stochastik für Informatiker
SS 2009
14 / 55
Beispiel: Modelle für Epidemien → Verzweigungsprozesse
Für λ < 1 wird die Epidemie mit Wahrscheinlichkeit 1 irgendwann
aussterben.
sonst
Stochastik für Informatiker
()
Xn := Anzahl der Infizierten in einer Generation n
S = {0, 1, . . .}
Idee: Jeder Infizierte“erzeugt”(unabhängig von den anderen) eine
zufällige Anzahl Infizierter in der nächsten Generation mit
Erwartungswert λ.
Die Anzahl könnte z.B. Poissonverteilt sein. Dann ist
Xn |Xn−1 ∼ P(λ · Xn−1 ).
Theorem:
P ist “tridiagonal”. Formulierung beinhaltet Grenzfälle
Xn = 0 und Xn = N.
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
SS 2009
Für λ > 1 ist die Wahrscheinlichkeit, dass die Epidemie explodiert,
echt größer 0.
15 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
16 / 55
7.2 Klassifikation von Zuständen und Markov-Ketten
Beispiel
Ein Zustand i ∈ S heißt rekurrent oder auch persistent, falls für die
Rekurrenzzeit Ti = min{n : Xn = i|X0 = i} gilt
Betrachte den Poisson-Verzweigungsprozess
Xn |Xn−1 ∼ P(λ · Xn−1 )
P(Ti < ∞) = 1
Wenn P(Ti < ∞) < 1 heißt der Zustand transient. Eine Markov-Kette X
kehrt also in einen rekurrenten Zustand mit Wahrscheinlichkeit 1 zurück.
Ein Zustand i heißt absorbierend, falls dieser nicht mehr verlassen werden
kann, also pii = 1.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
17 / 55
Dann ist der Zustand 0 rekurrent, ja sogar absorbierend, da X diesen
Zustand nie verläßt.
Alle anderen Zustände sind transient.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Die erwartete Rekurrenzzeit
Zusammenhang zu den Übergangswahrscheinlichkeiten
Man definiert die erwartete Rekurrenzzeit eines Zustands i wie folgt:
P
n nfi (n) falls i rekurrent ist
µi = E (Ti ) =
∞
falls i transient ist
Ein rekurrenter Zustand i ist genau dann leer, wenn
pii (n) → 0 für n → ∞
mit fi (n) = P(X1 6= i, ..., Xn−1 6= i, Xn = i|X0 = i). Ein rekurrenter
Zustand i heißt nicht-leer, falls seine erwartete Rekurrenzzeit endlich ist.
Ansonsten heißt er leer.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
18 / 55
19 / 55
Dann gilt sogar
pji (n) → 0 für n → ∞ für alle j ∈ S
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 55
Die Periode
Beispiel
Die Periode eines Zustandes i ist der größte gemeinsame Teiler der Menge
Eine Markov-Kette habe die folgende

0

0
P=
1
{n : pii (n) > 0}
Man nennt den Zustand i periodisch, falls dessen Periode größer eins ist,
ansonsten heißt i aperiodisch.
Haben alle Zustände einer Markov-Kette Periode 1, so heißt sie
aperiodisch.
Ein Zustand i heißt ergodisch, falls er rekurrent nicht-leer und aperiodisch
ist. Sind alle Zustände von X ergodisch, so heißt X ergodisch.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
21 / 55
Übergangsmatrix:

1 0
0 1 
0 0
Es gilt nun:
jeder Zustand hat Periode 3
die Markov-Kette ist nicht aperiodisch
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Irreduzible Zustände
Beispiele
Zwei Zustände i 6= j einer Markov-Kette X kommunizieren miteinander,
falls fij > 0 und fji > 0 (Schreibweise: i ↔ j) mit
Markov-Ketten mit reduziblem Zustandsraum S
 1 1

 1
0
2
2
3



P1 =  12 12 0  P2 =  13
0 0 1
0
fij
=
=
∞
X
n=1
∞
X
fij (n)
Im folgenden Beispiel ist S irreduzibel:
 1
P(X1 6= j, X2 6= j, . . . , Xn−1 6= j, Xn = j|X0 = i)
n=1

P3 = 
Ein Zustand i kommuniziert per definitionem immer mit sich selber: i ↔ i
Eine Menge C ⊂ S heißt irreduzibel, falls i ↔ j für alle i, j ∈ C .
Eine Menge C ⊂ S heißt geschlossen, falls pij = 0 für alle i ∈ C und
j ∈ C̄ .
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
23 / 55
3
1
3
0
Prof. Dr. Torsten Hothorn
()
1
3
1
3
1
2
1
3
1
3
1
2
Stochastik für Informatiker
1
3
1
3
0
1
3
1
3
22 / 55



1



SS 2009
24 / 55
Der Zerlegungssatz
Beispiel
Eine Markov-Kette mit Zustandsraum S = {1, 2, 3, 4, 5, 6} habe die
Übergangsmatrix


0.5 0.5
0
0
0
0
 0.25 0.75
0
0
0
0 



 0.25 0.25 0.25 0.25 0
0

P=
 0.25
0
0.25 0.25 0 0.25 


 0
0
0
0
0.5 0.5 
0
0
0
0
0.5 0.5
Der Zustandsraum S einer Markov-Kette X lässt sich zerlegen in
1
eine Menge T mit transienten Zuständen
2
Mengen Ck , die irreduzibel und geschlossen sind
⇒ S = T ∪ C1 ∪ C2 ∪ . . .
Ferner gilt folgendes Lemma:
Man bestimme:
Wenn S endlich ist, dann ist mindestens ein Zustand rekurrent und alle
rekurrenten Zustände sind nicht-leer.
die Periode jedes Zustands
die Zerlegung des Zustandsraumes
transiente Zustände
ergodische Zustände
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
25 / 55
7.3 Die stationäre Verteilung und das Grenzwerttheorem
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
26 / 55
π · P2 = (πP)P = πP = π
Oft wählt man für die Anfangsverteilung µ0 die stationäre Verteilung,
d.h. µ0 = π.
Im folgenden betrachten wir ausschließlich irreduzible Markov-Ketten,
d.h. Markov-Ketten mit irreduziblem Zustandsraum S.
π =π·P
()
SS 2009
Interpretation der stationären Verteilung
i
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
Hat die Markov-Kette X die Verteilung π zu einem gewissen Zeitpunkt n,
dann auch im nächsten Zeitpunkt n + 1 und sogar in allen nachfolgenden
Zeitpunkten i = n + 2, n + 3, . . .
Betrachte z.B. i = n + 2:
Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Einträgen
(πj : j ∈ S) heißt stationäre Verteilung einer Markov-Kette X mit
Übergangsmatrix P, falls gilt:
X
πj =
πi pij
oder in Matrixnotation:
()
SS 2009
27 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
28 / 55
Satz über die stationäre Verteilung
Bestimmung der stationären Verteilung bei |S| = 2
Eine irreduzible Markov-Ketten hat eine stationäre Verteilung π genau
dann, wenn alle Zustände nicht-leer rekurrent sind.
Dann ist π eindeutig und gegeben durch
Stationäre Verteilung und Übergangsmatrix haben bei Markov-Ketten mit
zwei Zuständen folgende allgemeine Formen:
1 − p12
p12
π = (π1 , 1 − π1 )
P=
p21
1 − p21
πi = 1/µi
Die erste Spalte der Gleichung π = π · P ist
wobei µi die erwartete Rekurrenzzeit des Zustands i ist.
Unter diesen Voraussetzungen gilt bei endlichem Zustandsraum:
π1 = π1 − π1 · p12 + p21 − π1 · p21
−1
π = 1(I − P + U)
wobei I die Einheitsmatrix und 1 ein Zeilenvektor mit Einsen ist und U nur
Elemente gleich eins hat.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
29 / 55
Beispiel
⇒ π1 =
Die zweite Spalte ergibt die gleiche Lösung.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
30 / 55
Reversible Markov-Ketten
Wie lautet die stationäre Verteilung für die Markov-Kette mit folgender
Übergangsmatrix:
0.9 0.1
P=
0.4 0.6
Sei X = (X0 , . . . , XN ) eine reguläre Markov-Kette mit Übergangsmatrix P
und stationärer Verteilung π, die X auch zu jedem Zeitpunkt
n = 0, . . . , N besitze.
Definiere nun Y = (XN , . . . , X0 ) mit Yn = XN−n .
Dann ist Y auch eine Markov-Kette mit Übergangswahrscheinlichkeiten
Mit der eben bestimmten Formel erhält man:
0.4 0.1
,
= (0.8 , 0.2)
π = (π1 , π2 ) =
0.5 0.5
P(Yn+1 = j|Yn = i) = (πj /πi )pji
Die erwarteten Rekurrenzzeiten sind demnach µ1 = 5/4 für Zustand 1 und
µ2 = 5 für Zustand 2.
Wie verhält es sich bei


0
P= 0
1
Prof. Dr. Torsten Hothorn
p21
p12
und π2 =
p12 + p21
p12 + p21
()
1
0
0
0
1 ?
0
Stochastik für Informatiker
SS 2009
31 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
32 / 55
Reversible Markov-Ketten II
Beispiele für reversible Markov-Ketten
Alle irreduziblen Markov-Ketten mit zwei Zuständen sind reversibel
(Beweis in Vorlesung).
1
Man sagt nun X ist reversibel, falls X und Y identische
Übergangswahrscheinlichkeiten haben, d.h. falls
Markov-Ketten mit tri-diagonaler Übergangsmatrix P sind reversibel,
z.B.
2
πi pij = πj pji
für alle i, j ∈ S gilt.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
33 / 55
Satz über die stationäre Verteilung
i
der random walk auf endlichem Zustandsraum S = {0, 1, . . . , b}
I
der Prozess aus Beispiel 2 (Stichwort: Genhäufigkeit)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
34 / 55
Das Grenzwerttheorem
Sei X eine irreduzible Markov-Kette mit Übergangsmatrix P. Ferner gebe
es eine Verteilung π mit πi pij = πj pji für alle i, j ∈ S.
Dann ist π die stationäre Verteilung und X ist bzgl. π reversibel.
Beweis:
X
X
X
πi pij =
πj pji = πj
pji = πj
i
I
Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre
stationäre Verteilung π
pij (n) −→ πj = µ−1
j
bzw.
für n → ∞ und alle i



Pn = Pn −→ 

i
···
···
..
.
···

π ···
π ··· 

..
.. 
.
. 
π ···
Daher gilt µ(0) Pn −→ π für alle µ(0) .
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
35 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
36 / 55
Ein Gegenbeispiel
7.4 Inferenz für Markov-Ketten
Schätzung der Übergangswahrscheinlichkeiten
Eine Markov-Kette X mit Übergangsmatrix


0 1 0
P= 0 0 1 
1 0 0
Test auf Modellanpassung
Allgemeinere Markov-Modelle:
hat zwar die stationäre Verteilung π = (1/3, 1/3, 1/3), konvergiert aber
nicht gegen diese, da die Kette periodisch ist.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
37 / 55
Schätzung der Übergangswahrscheinlichkeiten
I
Markov-Ketten höherer Ordnung
I
Hidden-Markov Modelle
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
38 / 55
ML-Schätzung der Übergangswahrscheinlichkeiten
Grundlage:
Realisation X0 = x0 , X1 = x1 , . . . , XN = xN einer
Markov-Kette X.
Die Likelihood ist somit (vergleiche Folie S. 13)
Ziel:
Schätzung der Übergangswahrscheinlichkeiten basierend auf
einer (oder mehrerer) Realisationen einer Markov-Kette X.
Es erscheint plausibel, die Übergangswahrscheinlichkeiten pij durch die
entsprechenden Übergangshäufigkeiten
pˆij =
(0)
L(P) = µx0
nij
ni
()
Stochastik für Informatiker
(0)
pxt−1 ,xt = µx0
t=1
zu schätzen, wobei
P nij die Anzahl der beobachteten Übergänge von i nach
j ist und ni = j nij .
Im folgenden zeigen wir, dass dies auch die ML-Schätzer sind.
Prof. Dr. Torsten Hothorn
n
Y
SS 2009
39 / 55
Y
i,j
n
pij ij
wobei nij die Anzahl der beobachteten Übergänge von i nach j ist.
Die Log-Likelihood ist dann
X
(0)
l(P) = log(µx0 ) +
nij log(pij )
i,j
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
40 / 55
ML-Schätzung der Übergangswahrscheinlichkeiten II
Es sind mehrerer Parameter in θ = P durch Maximierung
der Log-Likelihood l(P) zu schätzen, wobei noch die Restriktion
X
pij = 1
Die partiellen Ableitungen nach pij sind somit
nij
dl ∗ (P)
=
− λi
pij
pij
j
Nullsetzen liefert nij = λi pij . Durch Summation über j folgt
X
λi =
nij = ni
für alle i zu berücksichtigen ist.
⇒ Lagrangesche Multiplikatorenmethode:
Maximiere
j


X
X
X
(0)
l ∗ (P) = log(µx0 ) +
nij log(pij ) −
λi 
pij − 1
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
i
j
SS 2009
41 / 55
Beispiel: Regen bei den Snoqualmie Wasserfällen
Prof. Dr. Torsten Hothorn
42 / 55
Verweildauer im Zustand 1 (Regen)
400
600
500
Verweildauer im Zustand 0 (kein Regen)
Haeufigkeit
400
Haeufigkeit
300
100
100
0
2
4
6theoretisch
empirisch
8
0
Zeit bis zum Zustandswechsel
2
4
6theoretisch
empirisch
8
Zeit bis zum Zustandswechsel
Theoretische (schwarz) und empirische (rot) Verweildauern in den beiden
Zuständen.
Frage: Passt sich das Markov-Modell den Daten gut an?
→ Betrachtung der “Verweildauern” (Wartezeiten bis zum nächsten
Zustandswechsel)
SS 2009
SS 2009
200
Es ergibt sich n0 = 6229 (Tage ohne Regen) und n1 = 6920.
Übergangsmatrix mit relativen Übergangshäufigkeiten (ML-Schätzer):
0.713 0.287
P̂ =
0.258 0.742
Stochastik für Informatiker
Stochastik für Informatiker
500
Der Zustandsraum ist S = {0, 1} mit
0 : Kein Regen
am Tag t = 1, . . . , N
1 : Regen
()
()
nij
.
ni
Verweildauern bei den Snoqualmie Wasserfällen
Über eine Zeitreihe von N = 13149 Tagen wurde an den Snoqualmie
Wasserfällen registriert, ob es am jeweiligen Tag geregnet hat oder nicht.
Erstellung eines Markov-Modells:
Prof. Dr. Torsten Hothorn
pˆij =
300
i,j
und schließlich
200
Problem:
ML-Schätzung der Übergangswahrscheinlichkeiten III
43 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
44 / 55
Markov-Ketten höherer Ordnung
Strukturelle Nullen
Zum Beispiel Markov-Kette zweiter Ordnung:
Im Beispiel ergibt sich:
Die Regenwahrscheinlichkeit hängt nun von den letzten zwei Tagen ab.
Die Übergangswahrscheinlichkeiten sind

 00

P=
 01
 10
11
P(Xn = s|Xn−1 = xn−1 , Xn−2 = xn−2 ).
Diese Markov-Kette kann auch als Markov-Kette erster Ordnung
dargestellt werden, indem man den Zustandsraum zu S = {00, 01, 10, 11}
erweitert, wobei der erste Eintrag xn−2 und der zweite Eintrag xn−1
darstellt.
→ In der Übergangsmatrix ergeben sich dann strukturelle Nullen.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
45 / 55
Regen bei den Snoqualmie Wasserfällen
 00

P̂ = 
 01
 10
11
0
0.749
0.277
0.624
0.252
1
0.251
0.723
0.376
0.748
()
Stochastik für Informatiker
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
46 / 55
Mischverteilungsmodell mit zusätzlichem Zeitreihencharakter

Anwendungen in verschiedenen Bereichen:





Alternativer Ansatz: Hidden Markov-Modell
Prof. Dr. Torsten Hothorn
da z.B. auf Xn−2 = 0 und Xn−1 = 0 nicht Xn−1 = 1 und Xn = 0 folgen
kann etc.
→ die Anzahl der Spalten kann reduziert werden
7.5 Hidden Markov Modelle
Mit reduzierten Spalten ergibt sich im Beispiel


00 01 10 11
0 0 


0 0

0 0 
0 0
SS 2009
47 / 55
I
Ökonometrie,
I
Genetik (DNA-Sequenzierung, Stammbaumanalyse),
I
Spracherkennung, ...
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
48 / 55
Das Modell
Beispiel: Ein verrauschtes binäres Signal
Latente Parameter X = (X1 , . . . , XN ) folgen einer (homogenen)
Markov-Kette mit diskretem Zustandsraum S:
Daten:
y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2)
Übergangsmatrix P mit pij = P(Xt = j|Xt−1 = i)
Anfangsverteilung π mit πi = P(X0 = i)
(oft impliziert durch π = πP)
|S| = 2
N = 20
Die Beobachtungen yt |xt = s sind bedingt unabhängig aus einer
Verteilung mit Wahrscheinlichkeitsfunktion fs (yt ) mit Parametern θ s .
Beispielsweise:
diskret mit Mißklassifizierungswahrscheinlichkeiten ps
()
Stochastik für Informatiker
P=
0.75 0.25
0.25 0.75
π=
0.5
0.5
f (yt = 1|xt = 1) = 0.8
f (yt = 1|xt = 2) = 0.2
f (yt = 2|xt = 1) = 0.2
f (yt = 2|xt = 2) = 0.8
Ziel der statistischen Inferenz: Restauration der Sequenz X
Poisson mit Raten λs
Prof. Dr. Torsten Hothorn
SS 2009
49 / 55
Inferenz bei festen Hyperparametern
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
50 / 55
Posteriori-Modus Schätzung
Hyperparameter: P, π, θ fest
Viterbi-Algorithmus [Viterbi (1967)]
Ziel: Schätzung der latenten Zustände x = (x1 , . . . , xN )
Posteriori-Verteilung f (x|y) = f (x, y)/f (y) mit:
f (x|y) ∝ f (x, y) = πx1
|
N
Y
pxt−1 xt ·
t=2
{z
f (x)
N
Y
fxt (yt )
} t=1
| {z
f (y|x)
}
I
Rekursiver Algorithmus zur Maximierung von f (x, y) bzgl. x
I
liefert (einen) MAP-(posteriori Modus)-Schätzer von f (x|y) ∝ f (x, y)
I
Algorithmus ist numerisch effizient: O(|S|2 · N)
Simulated annealing [Kirkpatrick, Gelatt & Vecchi (1983)]
Problem: Es gibt S N (!) unterschiedliche Sequenzen x.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
51 / 55
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
52 / 55
Rekonstruktion des verrauschten binären Signals
Inferenz bei unbekannten Hyperparametern
Das empfangene Signal war
Seinen nun bestimmte Hyperparameter θ unbekannt, wie beispielsweise die
Übergangsmatrix P oder die Verteilung f (yi |xi ).
y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2)
Daraus kann man Schätzer für das zugrundeliegende Signal x berechnen:
post. Wkeit P(x|y)
Schätzer von x
x̂MAP 1 =
x̂MAP 2 =
x̂MPM =
y=
(2
(2
(2
(2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
1
2
1
1
2
2
2
2
2
2
2
2
2)
2)
2)
2)
x
0.0304
0.0304
0.0135
0.0027
Bayesianische Ansätze verwenden zusätzliche priori-Verteilungen
f (θ) und simulieren aus der posteriori-Verteilung
Hierbei bezeichnet x̂MPM den marginalen Posteriori Modus, d.h. jedes xi ,
i = 1, . . . , 20, in x̂MPM hat marginale Posteriori-Wahrscheinlichkeit P(xi |y) > 0.5.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
53 / 55
Beispiel zur Likelihood-Inferenz
0.0
0.2
0.4
p22
0.6
0.8
1.0
Seinen nun die Einträge der Übergangsmatrix P unbekannt. Die marginale
Likelihood L(p11 , p22 ) der Diagonalelemente p11 und p22 ist in folgender
Graphik dargestellt. Die ML-Schätzungen sind p̂11 = 0.85 und p̂22 = 0.78.
0.0
0.2
0.4
0.6
0.8
1.0
p11
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Klassische Likelihood-Ansätze maximieren die (marginale) Likelihood
L(θ) = f (y|θ) bezüglich θ, z.B. mit dem Baum-Welch-Algorithmus,
der einen Spezialfall des EM-Algorithmus darstellt.
P
Problem: Berechnung von f (y|θ) = f (x, y|θ)
55 / 55
f (x, θ|y) ∝ f (x, y|θ) · f (θ)
mit Markov-Ketten Monte Carlo (MCMC) Verfahren.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
54 / 55
8. Stetige Zufallsvariablen
Idee:
8.1 Definition von stetigen Zufallsvariablen
Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt,
so dass sich die Verteilungsfunktion F (x) = P(X ≤ x) von X wie folgt
darstellen lässt:
Z x
f (u) du
F (x) =
Eine Zufallsvariable X ist stetig, falls ihr Träger eine überabzählbare Teilmenge der reellen Zahlen R ist.
Beispiel:
Glücksrad mit stetigem Wertebereich [0, 2π]
−∞
Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz: Dichte oder
Dichtefunktion) von X. Der Träger T von X ist die Menge aller Elemente
x ∈ R für die f (x) > 0 gilt.
Beachte den Unterschied zu diskreten Zufallsvariablen! Hier gilt:
X
F (x) =
f (xi )
Von Interesse ist die Zufallsvariable, die den exakten Winkel
angibt, an dem das Glücksrad stehen bleibt.
i:xi ≤x
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
1 / 65
Einige Folgerungen
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
2 / 65
Beispiel: Die stetige Gleichverteilung
P(X = x) = 0
Z
P(X ∈ [a, b]) =
a
+∞
Z
f (x) dx
Eine Zufallsvariable X heißt stetig gleichverteilt auf dem Intervall [a, b],
falls ihre Dichtefunktion die folgende Form hat:
(
1
für x ∈ [a, b]
b−a
f (x) =
0
sonst
für alle x ∈ R
b
f (x) dx
Der Träger von X ist also T = [a, b].
Die Verteilungsfunktion F (x) von X ergibt sich zu

x <a

 0
x−a
x ∈ [a, b]
F (x) =
b−a


1
x >b
= 1
−∞
Man schreibt kurz: X ∼ U(a, b)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
3 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
4 / 65
Eigenschaften der Verteilungsfunktion
1.0
1
0.8
x→∞
2
An allen Stetigkeitsstellen von f (x) gilt: F 0 (x) = f (x)
2
●
3
P(a ≤ X ≤ b) = F (b) − F (a)
3
4
5
6
0.0
0.2
0.05
0.00
●
2
3
4
5
6
Dichtefunktion (links) und Verteilungsfunktion (rechts) der stetigen
Gleichverteilung für a = 2 und b = 6
Funktionen in R:
dunif(...) berechnet die Dichtefunktion
punif(...) berechnet die Verteilungsfunktion
qunif(...) berechnet die Quantilsfunktion
runif(...) erzeugt Zufallszahlen
x
Prof. Dr. Torsten Hothorn
x
()
Stochastik für Informatiker
SS 2009
4
5 / 65
Allgemeine Definition von stetigen ZVn
Frage:
lim F (x) = 0 und lim F (x) = 1
x→−∞
0.4
0.10
f(x)
F(x)
0.6
●
0.20
●
0.15
0.25
Beispiel: Die stetige Gleichverteilung II
P(X > a) = 1 − F (a)
etc.
Prof. Dr. Torsten Hothorn
überhaupt sinnvoll?
Sei F die Mengenfamilie aller offenen Intervalle in R. Dann gibt es eine
sogenannte σ-Algebra (eine spezielle Mengenfamilie) σ(F), die F enthält.
1
∅ und Ω ∈ σ(F)
2
Für A, B ∈ σ(F) ist auch B \ A ∈ σ(F).
3
Für A1 , A2 , . . . ∈ σ(F) ist auch
I
∞
S
n=1
I
∞
T
n=1
Stochastik für Informatiker
SS 2009
6 / 65
SS 2009
8 / 65
Für eine σ-Algebra σ(F) muss gelten:
B
()
Stochastik für Informatiker
σ-Algebren
Für welche Mengen B ist die Aussage
Z
P(X ∈ B) =
f (x)dx
Prof. Dr. Torsten Hothorn
()
SS 2009
7 / 65
An ∈ σ(F) und
An ∈ σ(F).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
Axiome von Kolmogorov
8.2 Wichtige stetige Verteilungen
Ein Wahrscheinlichkeitsmaß P auf Ω wird nun mittels σ(F) definiert:
Für alle paarweise disjunkten Mengen A1 , A2 , . . . ∈ σ(F) soll gelten
(vgl. Axiom A3, Abschnitt 2.3):
Im folgenden werden wir nun wichtige stetige Verteilungen kennenlernen.
Stetige Verteilungen hängen wie diskrete Verteilungen von einem oder
mehreren Parametern ab.
Zur Charakterisierung werden wir meist die Dichtefunktion und den
Träger angeben.
Eine Verteilung haben wir schon kennengelernt, die stetige Gleichverteilung mit Parametern a ∈ R und b ∈ R (a < b). Sie hat die
Dichtefunktion
1
f (x) =
b−a
P(An )
n=1
Ferner müssen natürlich auch A1 und A2 erfüllt sein:
P(∅) = 0
P(Ω) = 1
SS 2009
9 / 65
Die Exponentialverteilung
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
1.0
0.8
0.8
0.6
0.0
Notation: X ∼ E(λ)
0
λ = 0.9
λ = 0.5
λ = 0.3
2
4
6
8
10
0
x
2
4
6
8
10
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Exponentialverteilung mit verschiedenen Raten
Funktionen in R: dexp(), etc.
Stochastik für Informatiker
10 / 65
0.6
f(x)
λ = 0.9
λ = 0.5
λ = 0.3
0.2
besitzt. Die Verteilungsfunktion ergibt sich zu
1 − exp(−λx) für x ≥ 0
F (x) =
0
für x < 0
()
SS 2009
Die Exponentialverteilung II
Eine stetige Zufallsvariable X mit positivem Träger T = R+ heißt
exponentialverteilt mit Parameter λ ∈ R+ , wenn sie die Dichte
λ exp(−λx) für x ≥ 0
f (x) =
0
sonst
Prof. Dr. Torsten Hothorn
()
F(x)
Stochastik für Informatiker
0.4
()
0.2
Prof. Dr. Torsten Hothorn
und den Träger T = [a, b].
0.0
=
∞
X
0.4
P(∪∞
n=1 An )
SS 2009
11 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 65
4
Die Gammaverteilung ist eine Verallgemeinerung der Exponentialverteilung. Sie hat auch den positiven Träger T = R+ , aber einen
Parameter mehr:
Eine stetige Zufallsvariable X heißt gammaverteilt mit Parametern
α ∈ R+ und β ∈ R+ (Notation: X ∼ G(α, β) ), falls sie die Dichte
( α
β
x α−1 exp(−βx) für x > 0
Γ(α)
f (x) =
0
sonst
SS 2009
F(x)
0.6
3
0.4
0.0
0.2
13 / 65
Für α = d/2 mit d ∈ N und β = 12 ergibt sich die sogenannte
χ2 -Verteilung mit d Freiheitsgraden.
1.0
0.0
0.2
0.4
0.6
0.8
1.0
x
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
R
SS 2009
14 / 65
f (u)du = 1?
Verwendung der Substitutionsregel:
Z
Z
0
˜
f (g (x)) · g (x) dx = f˜(z) dz
β α α−1
x
exp(−βx)
Γ(α)
β
g (x)α−1 exp(−g (x))
Γ(α)
1
g (x)α−1 exp(−g (x)) β
|{z}
Γ(α)
f (x) =
Funktionen in R:
Gammaverteilung: dgamma(x, shape = α, rate = β), etc.
χ -Verteilung:
0.8
mit g (x) = β · x:
Notation: X ∼ χ2 (d)
2
0.6
Wieso ist bei der Gammaverteilung
Für α = 1 ergibt sich die Exponentialverteilung mit Parameter λ = β.
I
0.4
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Gammaverteilung mit verschiedenen Werten für α und β
Eigenschaften der Gammaverteilung
I
0.2
x
wobei Γ(x + 1) = x! für x = 0, 1, 2, . . . gilt.
Stochastik für Informatiker
2
f(x)
1
0.0
0
()
α, β = (2,, 3)
α, β = (1.2,, 3)
α, β = (2,, 6)
α, β = (1.2,, 6)
0
besitzt. Hierbei ist Γ(α) die Gammafunktion
Z ∞
Γ(α) =
x α−1 exp(−x) dx
Prof. Dr. Torsten Hothorn
1.0
Die Gammaverteilung II
0.8
Die Gammaverteilung
=
dchisq(x, df = Freiheitsgrade), etc.
=
g 0 (x)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
15 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
16 / 65
Die Normalverteilung
Die Normalverteilung II
0.8
µ, σ = (0,, 1)
µ, σ = (2,, 1)
µ, σ = (0,, 2)
F(x)
0.0
0.0
hat. Für µ = 0 und σ 2 = 1 nennt man die Zufallsvariable standardnormalverteilt.
Man schreibt kurz: X ∼ N (µ, σ 2 )
0.2
0.1
0.4
0.2
f(x)
0.6
0.3
Eine Zufallsvariable X mit Träger T = R und Parametern µ ∈ R und
σ 2 ∈ R+ heißt normalverteilt, falls sie die Dichtefunktion
1 (x − µ)2
1 1
exp −
für x ∈ R
f (x) = √
2
σ2
2π σ
1.0
0.4
“Gaußsche Glockenkurve”
−5
0
5
−6
−4
x
−2
0
2
4
6
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Normalverteilung mit verschiendenen Werten für µ und σ
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
17 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
R
SS 2009
Mehr zur Normalverteilung
Wieso ist bei der Normalverteilung
Funktionen in R:
dnorm(...)
pnorm(...)
qnorm(...)
rnorm(...)
Man weiß aus der Analysis, dass für a > 0 gilt:
√
Z ∞
π
2 2
exp(−a x ) dx =
a
−∞
berechnet die Dichtefunktion
berechnet die Verteilungsfunktion
berechnet die Quantilsfunktion
erzeugt Zufallszahlen
Beachte:
Z
F (x) =
x
−∞
()
f (u) du
Stochastik für Informatiker
f (u)du = 1?
Ferner kann man leicht zeigen, dass
Z
Z
1 (x − µ)2
x2
exp −
dx = exp − 2 dx
2 σ2
2σ
ist nicht analytisch zugänglich (d.h. man findet keine Stammfunktion und
braucht numerische Integration).
Prof. Dr. Torsten Hothorn
18 / 65
SS 2009
19 / 65
für alle µ ∈ R gilt.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 65
Γ(α)Γ(β)
B(α, β) =
=
Γ(α + β)
Prof. Dr. Torsten Hothorn
()
Z
0
1
x
β−1
(1 − x)
Stochastik für Informatiker
dx
SS 2009
0.8
4
0.6
F(x)
0.4
0.2
α, β = (2,, 3)
α, β = (1.2,, 3)
α, β = (2,, 6)
α, β = (1.2,, 6)
0.2
0.4
0.6
0.8
1.0
0.0
x
0.2
0.4
0.6
0.8
1.0
x
Dichtefunktion (links) und Verteilungsfunktion (rechts) der
Betaverteilung mit verschiedenen Werten für α und β
21 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
22 / 65
8.3 Lageparameter von stetigen Zufallsvariablen
Für α = β = 1 erhält man die Gleichverteilung auf dem
Intervall [0, 1].
Man unterscheidet wieder
den Erwartungswert (existiert meistens, ist dann auch eindeutig)
den Median (existiert immer, ist immer eindeutig, solange der Träger
von X ein Intervall ist)
Funktionen in R:
dbeta(...)
pbeta(...)
qbeta(...)
rbeta(...)
3
0.0
α−1
Die Betaverteilung III
Beachte:
2
0
0
0.0
besitzt. Hierbei ist die Betafunktion B(α, β) gerade so definiert, dass die
R1
Dichtefunktion die Normierungseigenschaft f (x) dx = 1 besitzt:
f(x)
Eine Zufallsvariable X mit Träger T = (0, 1) und Parametern α ∈ R+ und
β ∈ R+ heißt betaverteilt (X ∼ Be(α, β) ), falls sie die Dichtefunktion
(
1
α−1 (1 − x)β−1 für 0 < x < 1
B(α,β) x
f (x) =
0
sonst
1.0
Die Betaverteilung II
1
Die Betaverteilung
berechnet Dichtefunktion
berechnet Verteilungsfunktion
berechnet Quantilsfunktion
erzeugt Zufallszahlen
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
den Modus (existiert nicht immer, ist auch nicht immer eindeutig)
Diese sind nun aber anders definiert.
SS 2009
23 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
24 / 65
Der Erwartungswert von stetigen Zufallsvariablen
Eigenschaften des Erwartungswertes
Wir setzen hier die Existenz des Erwartungswertes voraus.
Z ∞
1 E[g (X )] =
g (x)f (x) dx für eine beliebige Funktion g : R → R
Der Erwartungswert einer stetigen Zufallsvariable X ist definiert als
Z ∞
EX =
x · f (x) dx
−∞
−∞
unter der Voraussetzung, dass die Funktion x · f (x) absolut integrierbar
ist:
Z ∞
Z ∞
|xf (x)| dx =
|x|f (x) dx < ∞
−∞
−∞
Andernfalls sagt man, der Erwartungswert von X existiert nicht bzw. ist
unendlich.
2
E(a · X + b) = aE(X ) + b
“Linearität”
3
E(X + Y ) = E(X ) + E(Y )
“Additivität”
4
Ist f (x) symmetrisch um einen Punkt c, d.h.
f (c − x) = f (c + x)
∀x ∈ R
dann ist E(X ) = c.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
25 / 65
Beispiele für Erwartungswerte stetiger Verteilungen
1
Der Erwartungswert der stetigen Gleichverteilung ist (a + b)/2.
3
Der Erwartungswert der Exponentialverteilung ist 1/λ.
Beweis über partielle Integration:
Z
0
Z
u(x)v (x) dx = u(x)v (x) −
4
1
1
·
π 1 + x2
Stochastik für Informatiker
SS 2009
26 / 65
Wir nehmen an, dass der Träger der stetigen Zufallsvariable X ein Intervall
ist. Somit ist die Umkehrfunktion F −1 (p) der Verteilungsfunktion F (x)
von X eindeutig definiert.
Das p-Quantil der Verteilung von X ist definiert als der Wert xp für den
F (x) = p gilt. Somit gilt xp = F −1 (p).
Speziell erhält man für p = 0.5 den Median xMed .
u 0 (x)v (x) dx
Ist f (x) symmetrisch um einen Punkt c, so ist xMed = c.
Beispiel: Bei einer normalverteilten Zufallsvariable X ∼ N (µ, σ 2 ) ist
xMed = µ.
Die Cauchy-Verteilung mit Dichtefunktion
f (x) =
()
Quantile von stetigen Zufallsvariablen
Der Erwartungswert der Betaverteilung ist α/(α + β).
2
Prof. Dr. Torsten Hothorn
für x ∈ R
hat keinen (endlichen) Erwartungswert.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
27 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
28 / 65
Der Modus von stetigen Zufallsvariablen
Beispiele
1
Ein Modus einer stetigen Zufallsvariable X ist ein Wert xMod , für den
für alle x ∈ R gilt:
f (xMod ) ≥ f (x)
Der Modus ist nicht notwendigerweise eindeutig, noch muss er existieren.
Der Modus der Betaverteilung ist für α > 1 und β > 1 eindeutig
gleich
α−1
xMod =
α+β−2
2
Der Modus der Exponentialverteilung ist gleich Null.
3
Der Modus der Normalverteilung ist µ.
4
Der Modus der Gammaverteilung ist für α > 1 eindeutig gleich
xMod =
α−1
β
Für α < 1 existieren keine Modi.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
29 / 65
Die Varianz einer stetigen Zufallsvariable
Verschiebungssatz:
30 / 65
Var(X ) = E(X 2 ) − [E(X )]2
Für Y = a · X + b gilt:
SS 2009
Var(Y ) = a2 · Var(X )
Sind X und Y unabhängig, so gilt:
Var(X + Y ) = Var(X ) + Var(Y )
Auch die Varianz kann nicht existieren, d.h. unendlich sein.
Existiert der Erwartungswert nicht, so existiert auch die Varianz nicht.
Stochastik für Informatiker
SS 2009
Lineare Transformationen:
mit µ = E(X ). Die Standardabweichung ist ebenfalls wie im diskreten
Fall definiert:
p
σ = Var(X )
()
Stochastik für Informatiker
Es gelten dieselben Eigenschaften wie im diskreten Fall:
−∞
Prof. Dr. Torsten Hothorn
()
Eigenschaften der Varianz
Die Varianz einer stetigen Zufallsvariable definiert man analog zum
diskreten Fall:
Z ∞
2
2
Var(X ) = E[X − E(X )] = E[X − µ] =
(x − µ)2 f (x) dx
Beachte:
Prof. Dr. Torsten Hothorn
31 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
32 / 65
Beispiel: Varianz der stetigen Gleichverteilung
(b − a)2
12
SS 2009
33 / 65
8.4 Das Gesetz der großen Zahlen
1
λ
1
λ2
Gammaverteilung
X ∼ G(α, β)
α
β
α
β2
Normalverteilung
X ∼ N (µ, σ 2 )
µ
σ2
Betaverteilung
X ∼ Be(α, β)
α
α+β
α·β
(α+β)2 (α+β+1)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
34 / 65
SS 2009
35 / 65
0.2
0.4
für n → ∞, wobei die Xi (i = 1, . . . , n) unabhängig und identisch verteilte
Zufallsvariablen (engl.: iid = “independent and identically distributed”) aus
einer Verteilung mit Erwartungswert µ und Varianz σ 2 sind.
Es gilt: E(X̄n ) = µ und Var(X̄n ) = n1 σ 2
Daher folgt sofort für n → ∞: X̄n → µ und Var(X̄n ) → 0
⇒ Das arithmetische Mittel konvergiert gegen den Erwartungswert.
Dies funktioniert nicht bei der Cauchy-Verteilung!
Stochastik für Informatiker
X ∼ E(λ)
0.0
i=1
()
(b−a)2
12
Beispiel: Normalverteilung
Das Gesetz der großen Zahlen ist eine Aussage über das arithmetische
Mittel
n
1 X
X̄n =
Xi
n
Prof. Dr. Torsten Hothorn
a+b
2
Arithmetisches Mittel
Stochastik für Informatiker
X ∼ U(a, b)
−0.2
()
Var(X )
Exponentialverteilung
Die Varianz wächst also quadratisch und die Standardabweichung somit
linear mit der Breite b − a des Trägers.
Prof. Dr. Torsten Hothorn
E(X )
Gleichverteilung
und mit dem Verschiebungssatz ergibt sich:
Var(X ) = EX 2 − (EX )2 =
Symbol
Name
1 b 3 − a3
E(X 2 ) = ·
3 b−a
−0.4
Zunächst gilt
Erwartungswerte und Varianzen stetiger Verteilungen
0
2000
4000
6000
8000
10000
n
Arithmetisches Mittel für 10000 standardnormalverteilte ZV
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
36 / 65
Beispiel: Cauchyverteilung
8.5 Der Transformationssatz für Dichten
0
−2
−4
−6
Arithmetisches Mittel
2
4
Sei X eine stetige Zufallsvariable mit Dichte fX (x). Betrachte nun die
Zufallsvariable Y = g (X ), wobei z.B. Y = exp(X ), Y = X 2 , . . .
Frage: Wie lautet die Dichte fY (y ) von Y ?
Für eine streng monotone und differenzierbare Funktion g gilt der
Transformationssatz für Dichten:
−1
dg (y ) −1
fY (y ) = fX (g (y )) · dy | {z }
−8
g −1 0 (y )
0
2000
4000
6000
8000
10000
Beweis über die Verteilungsfunktion FY (y ) von Y in der Vorlesung.
n
Arithmetisches Mittel für 10000 cauchyverteilte ZV
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
37 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
38 / 65
Beispiel: Das Quadrat einer Standardnormalverteilung
Beispiel: Erzeugung exponentialverteilter Zufallsvariablen
Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1)?
Betrachte zunächst Z = |X |. Z hat offensichtlich die Dichte
Betrachte X ∼ U[0, 1] und Y = − log(X ), also g (x) = − log(X ). Die
Umkehrfunktion und deren Ableitung lauten:
2
1
f (z) = √ exp(− z 2 ) für z > 0 und 0 sonst
2
2π
g −1 (y ) = exp(−y )
Durch Anwendung des Transformationssatzes für Dichten erhält man:
Nun ist X 2 = Y = Z 2 = g (Z ) und g monoton wachsend auf dem
√
Wertebereich R+ . Es ergibt sich (y = z 2 ⇔ z = y )
f (y ) =
fY (y ) = 1 · |− exp(−y )| = exp(−y )
1
1
1
√ y − 2 · exp(− y )
2
2π
Dies entspricht der Dichte einer G(0.5, 0.5), also einer χ2 -Verteilung mit
1 Freiheitsgrad: Y = X 2 ∼ χ21
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
dg −1 (y )
= − exp(−y )
dy
39 / 65
Es gilt: Y ∼ E(λ = 1)! Dies ist also eine einfache Art, exponentialverteilte
Zufallsvariablen zu erzeugen!
Allgemeiner liefert Y = − λ1 log(x) Zufallszahlen aus einer Exponential-
verteilung mit Parameter λ :
Prof. Dr. Torsten Hothorn
()
Y ∼ E(λ)
Stochastik für Informatiker
SS 2009
40 / 65
Die Inversions-Methode
Beispiel: Zufallszahlen aus der Cauchy-Verteilung
Allgemeiner kann man die Inversions-Methode zur Erzeugung von
Zufallszahlen aus einer beliebigen stetigen Verteilung mit Verteilungsfunktion F (x) verwenden:
Dichte- und Verteilungsfunktion der Cauchy-Verteilung sind:
f (x) =
Erzeuge stetig gleichverteilte Zufallsvariablen U1 , . . . , Un auf dem
Intervall [0, 1].
Dann sind
Xi = F −1 (Ui ),
i = 1, . . . , n
fX (x) = fU (F (x)) · F 0 (x) = f (x)
| {z } | {z }
()
f (x)
Stochastik für Informatiker
SS 2009
41 / 65
8.6 Der zentrale Grenzwertsatz
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
X̃ =
Zunächst müssen wir noch standardisierte Zufallsvariablen definieren.
Var(X̃ ) =
SS 2009
43 / 65
X −µ
σ
Dann gilt:
E(X̃ ) =
Stochastik für Informatiker
42 / 65
Jede Zufallsvariable X mit endlichem Erwartungswert µ = E(X ) und
endlicher Varianz σ 2 = Var(X ) kann man derart linear transformieren,
dass sie Erwartungswert 0 und Varianz 1 besitzt:
Begründet die zentrale Rolle der Normalverteilung in der Stochastik.
()
SS 2009
Standardisierte Zufallsvariablen
Aussage, dass - unter Regularitätsbedingungen - das arithmetische
Mittel, geeignet standardisiert,
von beliebigen unabhängig und identisch verteilten Zufallsvariablen
gegen die Standardnormalverteilung konvergiert.
Prof. Dr. Torsten Hothorn
1 arctan(x)
+
2
π
Zufallszahlen aus der Cauchy-Verteilung lassen sich also
leicht erzeugen,
indem man U1 , . . . , Un aus ∼ U[0, 1] erzeugt und tan π Ui − 12
berechnet.
Beweis: Die Dichte von Xi ergibt sich zu:
Prof. Dr. Torsten Hothorn
und F (x) =
Die inverse Verteilungsfunktion ist somit:
1
−1
F (y ) = tan π y −
2
Zufallszahlen aus der gewünschten Verteilung.
=1
1
1
·
π 1 + x2
Prof. Dr. Torsten Hothorn
()
1
(E(X ) − µ) = 0
σ
1
Var(X ) = 1
σ2
Stochastik für Informatiker
SS 2009
44 / 65
Standardisierung von Summen von iid ZVn
Der zentrale Grenzwertsatz (ZGWS)
Betrachte iid Zufallsvariablen X1 , X2 , . . . , Xn mit endlichem Erwartungswert µ = E(Xi ) und endlicher Varianz σ 2 = Var(Xi ).
Für die Summe Yn = X1 + X2 + . . . + Xn gilt offensichtlich:
E(Yn ) = n · µ
Var(Yn ) = n · σ 2
Für die standardisierte Summe
Die Verteilungsfunktion Fn (z) von Zn konvergiert für n → ∞ an jeder
Stelle z ∈ R gegen die Verteilungsfunktion Φ(z) der Standardnormalverteilung.
Schreibweise: Fn (z) → Φ(z) für n → ∞ und alle z ∈ R
a
bzw. kurz Zn ∼ N (0, 1) (a = “asymptotisch”)
In der Praxis kann man also die Verteilung von Zn für große n gut durch
eine Standardnormalverteilung approximieren.
n
1 X Xi − µ
Yn − nµ
=√
Zn = √
σ
n·σ
n
i=1
gilt somit E(Zn ) = 0 und Var(Zn ) = 1.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
45 / 65
Bemerkungen
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
46 / 65
Beispiel: Bernoulliverteilung
der ZGWS gilt sowohl für stetige als auch für diskrete ZV Xi
Seien Xi ∼ B(π),
P i = 1, . . . , n und unabhängig.
Dann ist Yn = ni=1 Xi ∼ B(n, π) und asymptotisch gilt:
Xi kann beliebig ”schiefe” Verteilungen haben, z.B.
Y −n·π
a
p n
∼ N (0, 1)
n · π(1 − π)
Xi ∼ E(λ)
bzw.
Die Standardisierung ist nicht notwendig zur Formulierung des
ZGWS. Alternativ kann man auch direkt Yn = X1 + . . . + Xn
betrachten. Dann gilt
a
Yn ∼ N (n · π, n · π(1 − π))
a
Yn ∼ N (n · µ, n · σ 2 )
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
47 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
48 / 65
8.7 Die gemeinsame Verteilung zweier stetiger ZVn
Eigenschaften
Die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen X
und Y ist die Funktion
Für f (x, y ) stetig gilt:
F (x, y ) = P(X ≤ x und Y ≤ y )
f (x, y ) ist normiert:
Alternativ kann man die gemeinsame Verteilung von X und Y auch über
deren gemeinsame Dichtefunktion f (x, y ) definieren, wobei
Z y
Z x
F (x, y ) =
f (u, v ) du dv
v =−∞
d 2 F (x, y )
= f (x, y )
dx dy
u=−∞
Z
+∞ Z +∞
−∞
−∞
f (x, y ) dx dy = 1
Bemerkung: Manchmal schreiben wir explizit FX ,Y für F und fX ,Y für f .
für alle x, y ∈ R gelten muss.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
49 / 65
Randverteilung und Erwartungswert einer Funktion
bzw.
fY (y ) =
−∞
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
50 / 65
X , Y heißen unabhängig, genau dann, wenn
FX ,Y (x, y ) = FX (x) FY (y )
bzw.
fX ,Y (x, y ) = fX (x) fY (y )
∀x, y ∈ R
Allgemeiner gilt:
f (x, y ) dx
X1 , X2 , . . . , Xn sind genau dann unabhängig, wenn gilt:
Sei g : R2 → R eine reellwertige Funktion, so ist
Z +∞ Z +∞
E(g (X , Y )) =
g (x, y ) · f (x, y ) dx dy
−∞
()
Unabhängigkeit
Die Dichten der Randverteilungen sind gegeben durch:
Z +∞
fX (x) =
f (x, y ) dy
−∞
Z +∞
Prof. Dr. Torsten Hothorn
f (x1 , x2 , . . . , xn ) = f (x1 ) · f (x2 ) · . . . · f (xn )
−∞
Stochastik für Informatiker
SS 2009
51 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
52 / 65
Kovarianz und Korrelation
Beispiel
Betrachte
Man definiert analog zum diskreten Fall:
die Kovarianz
Cov(X , Y ) =
die Korrelation
ρ(X , Y )
=
fX ,Y (x, y ) =
E[(X − EX )(Y − EY )]
√ Cov(X
√,Y )
Var(X ) Var(Y )
Z
Cov(X , Y ) = E(XY ) − E(X ) · E(Y )
()
Stochastik für Informatiker
SS 2009
1
x
0
für
0≤y ≤x ≤1
sonst
Die Randverteilungen von X und Y ergeben sich zu
Z x
1
fX (x) =
dy = 1
für 0 ≤ x ≤ 1
0 x
Es gilt wieder der Verschiebungssatz für die Kovarianz:
Prof. Dr. Torsten Hothorn
(
fY (y ) =
53 / 65
Prof. Dr. Torsten Hothorn
1
y
()
1
dx = log (1/y )
x
für
Stochastik für Informatiker
0≤y ≤1
SS 2009
Beispiel
Die bivariate Standardnormalverteilung
R1
R1
Man überprüft leicht, dass 0 f (x) dx = 1 und 0 f (y ) dy = 1 und daher
Z Z
f (x, y ) dy dx = 1
Die bivariate (“zweidimensionale”) Standardnormalverteilung mit
Parameter ρ (|ρ| < 1) hat die Dichtefunktion
1
1
2
2
p
f (x, y ) =
exp −
(x − 2ρxy + y )
2 (1 − ρ2 )
2π 1 − ρ2
Die Korrelation zwischen X und Y ergibt sich zu ρ(X , Y ) ≈ 0.65 .
54 / 65
Die Randverteilungen von X und Y sind (für jedes ρ)
standard-normalverteilt.
(Details in Vorlesung)
Die Korrelation zwischen X und Y ist gleich ρ.
Aus Unkorreliertheit von X und Y folgt hier auch die Unabhängigkeit
von X und Y .
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
55 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
56 / 65
Höhenlinien der bivariaten Standardnormalverteilung
Die bivariate Normalverteilung
●
●
Die allgemeine bivariate Normalverteilung erhält man durch die linearen
Transformationen einer bivariaten Standardnormalverteilung:
●
3
3
3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
0
●
●●
●
●●
●
●
●
●
●
●
● ● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●●
●
●
●
●
●
X
Y
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
● ● ●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●●
●
● ●
●
●
●
● ●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
● ●
● ●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ●
●
● ●●
●
●
●
●
●
● ●●
●
●
●
●
●
● ●
●
●
● ● ● ●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●●
●
●
●
●
●
●●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
● ●
●
●
● ●
●
●
●● ●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●● ●
● ●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
● ● ● ●
●
● ● ●
● ●●
●
●
●
●
●
●●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
● ●
● ●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ● ● ● ●●
●●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
● ●
●
●
●●
●
●
●
●
● ● ●
●
●● ●
●
● ●
●
● ●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
● ● ●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
1
●
●
●
● ●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
● ●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
2
2
●
●
●
●
●
●
●
●
−2
●
●
●
●
●
●
●
●
●
●
● ● ●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ● ●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
● ●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
● ●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
● ●
● ●
●
●
●●
●
●
●
●●
●
● ● ●
●
●
●
●
● ●
●
●
●
●
● ●
●
● ●●
●
●
●●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●● ●
●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●●
●
●
●● ●
● ●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●● ● ●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
● ●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
● ●
●
●
● ●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
−1
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●
● ●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
y
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
−1
1
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
y
●
● ●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
−2
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
y
●
●
●
●
●
● ●
●●
●
● ●
●
●
●
−2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1
●
●
●
●
●
●
●
0
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−3
−3
−3
●
●
●
●
●
→ µX + σ X · X
→ µY + σ Y · Y
●
●
●
●
−3
−2
−1
0
1
●
2
3
−3
x
−2
−1
0
1
2
3
−3
−2
−1
x
0
1
2
3
x
Höhenlinien der Dichtefunktion der bivariaten Standardnormalverteilung
mit jeweils 500 Stichproben für ρ = 0 (links), ρ = 0.7 (Mitte) und
ρ = −0.5 (rechts)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
57 / 65
Insgesamt fünf Parameter: µX , µY , σX2 , σY2 , ρ
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
8.8 Bedingte Verteilungen
Bedingte Verteilungs- und Dichtefunktion
Betrachte die Zufallsvariablen X und Y mit gemeinsamer Dichte
fX ,Y (x, y ). Wir interessieren uns für die bedingte Verteilung von
X gegeben Y = y .
Problem: Es gilt P(Y = y ) = 0 für alle y . Daher ist
Man geht nun anders vor und betrachtet
P(X ≤ x|Y = y ) =
SS 2009
58 / 65
P(X ≤ x|y ≤ Y ≤ y + dy )
=
P(X ≤ x und Y = y )
P(Y = y )
≈
nicht definiert.
P(X ≤ x und y ≤ Y ≤ y + dy )
P(y ≤ Y ≤ y + dy )
Rx
−∞ fX ,Y (u, y ) dy du
Z
=
fY (y ) dy
x
−∞
fX ,Y (u, y )
du
fY (y )
| {z }
(∗)
(∗) Dichtefunktion der bedingten Verteilung von X geg. Y = y
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
59 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
60 / 65
Bedingte Verteilungs- und Dichtefunktion II
Beispiel
Man definiert nun:
Betrachten wir wieder die Zufallsvariablen X und Y mit gemeinsamer
Dichte
(
1
x für 0 ≤ y ≤ x ≤ 1
fX ,Y (x, y ) =
0 sonst
Die bedingte Verteilungsfunktion von X , gegeben Y = y ist
Z x
fX ,Y (u, y )
FX |Y (x|y ) =
du
fY (y )
−∞
Für die bedingten Dichten von Y , gegeben X = x ergibt sich:
(
1
x für 0 ≤ y ≤ x
fY |X (y |x) =
0 sonst
für alle y mit fY (y ) > 0. Die bedingte Dichte von X , gegeben Y = y
ist somit
fX ,Y (x, y )
fX |Y (x|y ) =
fY (y )
d.h. Y |X = x ist gleichverteilt auf [0, x].
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
61 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
62 / 65
Beispiel II
Simulation über bedingte Verteilungen
Für die bedingten Dichten von X , gegeben Y = y ergibt sich:
Bedingte Verteilungen sind sehr nützlich zum Simulieren aus gemeinsamen
Verteilungen. Wegen
1
x
für y ≤ x ≤ 1
log( y1 )
(
−1/(x log(y )) für y ≤ x ≤ 1
fX |Y (x|y ) =
=
0
fX ,Y (x, y ) = fX |Y (x|y ) · fY (y )
(1)
kann man zunächst eine Zufallsvariable Y = y aus der Randverteilung
fY (y ) ziehen, und dann bedingt auf Y = y eine Zufallszahl aus der
bedingten Verteilung fX |Y (x|y ) ziehen. Oder andersherum:
sonst
fX ,Y (x, y ) = fY |X (y |x) · fX (x)
(2)
Im Beispiel ist Version (2) einfacher zu implementieren.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
63 / 65
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
64 / 65
Beispiel: Standardnormalverteilung
Angenommen X und Y sind bivariat standardnormalverteilt. Dann ist
1
1
1 √1
2 − 2ρxy + y 2 )
exp
−
(x
2
2π
2 (1−ρ )
1−ρ2
fX |Y (x|y ) =
√1 exp − 1 y 2
2
2π
=
1
1
1 (x − ρy )2
√ p
exp −
2 (1 − ρ2 )
2π 1 − ρ2
also X |Y = y ∼ N(ρ · y , 1 − ρ2 )
Analog erhält man Y |X = x ∼ N(ρ · x, 1 − ρ2 )
→ Simulation aus der bivariaten Standardnormalverteilung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
65 / 65
9. Elemente Statistischer Inferenz II
9.1 Likelihood-Inferenz für stetige ZVn
Überblick
Likelihood-Inferenz lässt sich analog zu diskreten Zufallsvariablen auch bei
stetigen Zufallsvariablen anwenden.
Beispiel:
Likelihood-Inferenz für stetige Zufallsvariablen
Tests auf Modellanpassung (“goodness of fit tests”)
X1 , X2 , . . . , Xn seien unabhängige Beobachtungen aus einer E(λ)-Verteilung. WiePlautet der ML-Schätzer von θ = λ und dessen Standardfehler?
Für x̄ = ni=1 xni ergibt sich (Herleitung in Vorlesung):
λ̂ML = 1/x̄
√
√
SE (λ̂ML ) = 1/( n x̄) = λ̂ML / n
√
→ 95% Wald-Intervall für λ: 1/x̄ ± 1.96 · 1/( n x̄)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
1 / 25
Wie gut ist die Approximation?
SS 2009
2 / 25
a
θ̂ML ∼ N (µ = θ, σ 2 = SE (θ̂ML )2 )
Nach Standardisierung erhält man:
Berechnung der empirischen Verteilung des ML-Schätzers und der
Überdeckungshäufigkeit (Anteil der Konfidenzintervalle, die den
wahren Wert beinhalten)
θ̃ML =
Woher kommt die offensichtlich sehr gute Approximation?
Stochastik für Informatiker
Stochastik für Informatiker
Man kann zeigen, dass (unter Regularitätsbedingungen) asymptotisch
(für großen Stichprobenumfang) gilt:
Berechnung von m Konfidenzintervallen, jeweils basierend auf n
exponentialverteilten Zufallsvariablen
()
()
Asymptotische Eigenschaften des ML-Schätzers
Dazu wird eine Simulationsstudie mit wahrem Wert θ = λ und
variierendem n durchgeführt:
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
SS 2009
θ̂ML − θ
SE (θ̂ML )
a
∼ N (0, 1)
D.h., der ML-Schätzer ist asymptotisch unverzerrt und normalverteilt
mit Standardabweichung gleich dem Standardfehler.
3 / 25
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
4 / 25
Motivation von Wald-Intervallen
Mehr zur Asymptotik des ML-Schätzers
Sei xα = Φ−1 (α) das α-Quantil der Standardnormalverteilung. Dann gilt
mit einer Wahrscheinlichkeit von β = 1 − α, dass θ̃ML asymptotisch im
Intervall [xα/2 , x1−α/2 ] ist.
Beachte: Wegen der Symmetrie der Normalverteilung ist xα/2 = −x1−α/2
Nun kann der Faktor d in der Formel
Betrachte wieder exemplarisch die unabhängigen X1 , X2 , . . . , Xn aus
einer E(λ)-Verteilung. Es gilt:
µ = E(Xi ) = 1/λ
Var(Xi ) = 1/λ2
Wir wollen nun µ = 1/λ durch Maximum Likelihood schätzen. Es ergibt
sich:
θ̂ML ± d · SE (θ̂ML )
für Wald-Intervalle von θ zum Niveau β (vgl. Abschnitt 6.1) motiviert
werden. Es gilt d = x1−α/2 .
µ̂ML = x̄
(wegen Invarianzeigenschaft)
√
√
SE (µ̂ML ) = x̄/ n = µ̂ML / n (ohne Beweis)
→ 95% Wald-Intervall für µ:
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
5 / 25
Der ML-Schätzer als Zufallsvariable
Betrachte X̄ =
1
n
P
Prof. Dr. Torsten Hothorn
()
√
x̄ ± 1.96 · x̄/ n
Stochastik für Informatiker
SS 2009
6 / 25
Konfidenzintervall basierend auf dem ZGWS
Xi mit unabhängigen Xi ∼ E(λ). Es folgt:
Ein 95%-Konfidenzintervall für µ basierend auf dem ZGWS ist daher
√
x̄ ± 1.96 · µ/ n
E(X̄ ) = µ
√
Var(X̄ ) = µ2 /n = (µ/ n)2
√
d.h. der ML-Schätzer X̄ ist erwartungstreu mit Standardabweichung µ/ n.
Daher gilt wegen dem zentralen Grenzwertsatz (ZGWS):
a
X̄ ∼ N (µ, σ 2 = µ2 /n)
Problem:
µ ist unbekannt und deshalb verwendet man eine “plug-in”-Schätzung von
µ durch µ̂ML = x̄. Damit erhält man:
√
x̄ ± 1.96 · x̄/ n
Dieses Intervall ist identisch zu dem Wald-Intervall, welches auf dem
Standardfehler basiert!
Also: Der Standardfehler ist ein empirischer Schätzer der Standardabweichung des ML-Schätzers.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
7 / 25
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
8 / 25
Bemerkungen
ML-Inferenz im H-W-Gleichgewicht
exakte Analogie funktioniert nicht immer:
Angenommen wir beobachten x = (x1 , x2 , x3 ) = (600, 320, 80) bei
n = 1000.
Ziel:
√
z.B. für λ̂ML = 1/x̄ mit SE (λ̂ML ) = λ̂ML / n gilt (ohne Beweis):
E(1/X̄ )
Var(1/X̄ )
= λ·
=
n
n−1
2
ML-Schätzung des Parameters q = π1 + π2 /2 unter Annahme einer
Trinomialverteilung mit Wahrscheinlichkeiten π1 = q 2 , π2 = 2q(1 − q) und
π3 = (1 − q)2 (H-W-Gleichgewicht)
Wir wissen:
2
λ
n
·
(n − 2) (n − 1)2
die Analogie gilt aber zumindest asymptotisch!
Die ML-Schätzer von π1 und π2 sind π̂1 = x1 /n und π̂2 = x2 /n. Wegen
der Invarianzeigenschaft gilt:
in folgenden Beispielen gilt die Analogie exakt:
I
Binomialexperiment: π̂ML = x̄
I
ML-Schätzung des Parameters q im Hardy-Weinberg-Gleichgewicht
(wird in den nächsten Folien skizziert)
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
q̂ML =
9 / 25
ML-Inferenz im H-W-Gleichgewicht II
Stochastik für Informatiker
Stochastik für Informatiker
SS 2009
10 / 25
Für die Daten x = (x1 , x2 , x3 ) = (600, 320, 80) und n = 1000 gilt also:
q̂ML =
SS 2009
600 + 320/2
= 0.76
1000
Daraus lassen sich die erwarteten Anzahlen berechnen:
2
E = n · (q̂ML
, 2q̂ML (1 − q̂ML ), (1 − q̂ML )2 ) = (577.6, 364.8, 57.6)
Auch hier erhält man den Standardfehler durch “plug-in” des ML-Schätzers
in die Formel für die Varianz des ML-Schätzers.
()
()
ML-Inferenz im H-W-Gleichgewicht III
2 /2
Man kann zeigen, dass die zugehörige Zufallsvariable X1 +X
die
n
1
Varianz 2 q (1 − q) hat.
Andererseits kann gezeigt werden, dass der Standardfehler von q̂ML
folgenden Wert hat:
r
1
SE (q̂ML ) =
q̂ML (1 − q̂ML )
2
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
x1 + x2 /2
n
11 / 25
Frage:
Ist der Unterschied zwischen erwarteten und beobachteten
Anzahlen “zufällig” oder deutet er darauf hin, dass die Population nicht im H-W-Gleichgewicht ist?
Diese Frage wird in Abschnitt 9.2 beantwortet.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 25
Wiederholung: Quadrat einer Standardnormalverteilung
Motivation von Likelihood-Intervallen
Betrachte die Taylor-Approximation der Log-Likelihood:
Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1)?
Es wurde berechnet, dass
f (y ) =
l(θ) ≈ l(θ̂ML ) −
1
1
1
√ y − 2 · exp(− y )
2
2π
a
Dies entspricht der Dichte einer G(.5, .5), also einer χ2 -Verteilung mit 1
Freiheitsgrad: Y = X 2 ∼ χ21
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
13 / 25
Motivation von Likelihood-Intervallen II
bzw. {θ : L̃(θ) ≥ exp(c)}
x1−α
2
Stochastik für Informatiker
Prof. Dr. Torsten Hothorn
()
L(θ̂ML )
a
= −2l̃(θ) ∼ χ21
L(θ)
Stochastik für Informatiker
SS 2009
14 / 25
1. Ist eine Population im Hardy-Weinberg-Gleichgewicht?
ergeben sich einfach durch Transformation der entsprechenden Quantile
xα = F −1 (α) der χ21 -Verteilung:
()
2 log
Häufig ist es von Interesse die Anpassung eines bestimmten stochastischen
Modells an vorliegende Daten zu studieren. Dies ist insbesondere bei
kategorialen Daten der Fall.
Beispiele:
{θ : l̃(θ) ≥ c}
Prof. Dr. Torsten Hothorn
Wegen θ̃ML ∼ N (0, 1) folgt:
9.2 Modellanpassung
Die kritischen Werte c in den Formeln zur Berechnung von LikelihoodIntervallen
c=−
1 (θ̂ML − θ)2
1 2
= l(θ̂ML ) − θ̃ML
2
2 SE (θ̂ML )
2
SS 2009
15 / 25
Untersuche N Individuen und berechne die empirischen Häufigkeiten
der Genotypen aa, ab, bb. Die beobachtete Genotypverteilung ist z.B.
x = (600, 320, 80).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
16 / 25
Fortsetzung der Beispiele
Das saturierte Modell
2. Sind zwei Variablen unabhängig?
In allen drei Beispielen möchte man ein bestimmtes Modell (“Null-Modell”,
“Null-Hypothese”) mit dem allgemeinen Modell (“saturiertes” Modell) unter
der Annahme einer Multinomialverteilung Mp (n, π) vergleichen.
Hier wird untersucht, ob es eine Abhängigkeit zwischen Geschlecht
und Promotionsinteresse gibt. Die vorliegenden Daten sind:
Interesse
Ja Nein
5
12
6
5
11
17
♂
♀
17
11
28
Beispiel
Null-Modell
1
2
3
Population ist im H-W Gleichgewicht
Variablen sind unabhängig
Daten sind binomial verteilt
Anzahl der
Parameter p
1
2
1
Anzahl der
Kategorien K
3
4
13
3. Im 19. Jahrhundert wurden in Sachsen Daten zur Häufigkeit von
männlichen Nachkommen bei 6115 Familien mit jeweils (!) 12
Kindern erhoben:
# Jungen
# Familien
0
3
1
24
2
104
3
286
4
670
5
1033
6
1343
7
1112
8
829
9
478
10
181
11
45
12
7
Folgt die Verteilung einer Binomialverteilung?
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
17 / 25
Test auf Modellanpassung
Prof. Dr. Torsten Hothorn
600 +
1000
q̂ =
Beispiel 2:
π̂♂ =
χ2 =
Beispiel 3:
π̂ =
= 0.76
()
ri2 =
K
X
(Xi − Ei )2
Ei
i=1
Unter der Annahme, dass H0 wahr ist, hat χ2 eine (asymptotische)
χ2 -Verteilung mit k = K − 1 − p Freiheitsgraden.
= 0.519215
Berechnung der erwarteten Anzahl Ei an Fällen in Kategorie i unter
Annahme des Null-Modells
Prof. Dr. Torsten Hothorn
18 / 25
als Gesamtmaß für die Abweichung, wobei Xi die tatsächlich
beobachteten Anzahlen in Kategorie i sind
11
28
0·3 + 1·24 + ... + 12·7
6115·12
K
X
i=1
17
28
π̂Interesse =
SS 2009
Berechnung des Pearsonschen χ2 -Maßes
ML-Schätzung der unbekannten Parameter im Null-Modell
Beispiel 1:
Stochastik für Informatiker
Test auf Modellanpassung II
Zum statistischen Testen der “Null-Hypothese” (H0 ) geht man nach
folgendem Schema vor:
320
2
()
Stochastik für Informatiker
SS 2009
19 / 25
Ermittelung des p-Wertes:
Wahrscheinlichkeit unter H0 ein solches oder noch extremeres
Resultat zu beobachten.
→ Berechnung über Quantile der χ2 -Verteilung mit k Freiheitsgraden
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 25
Bemerkungen
Berechnung der erwarteten Anzahlen in Beispiel 1
Die χ2 -Verteilung gilt nur asymptotisch (für n → ∞).
Faustregel:
Unter Annahme des Hardy-Weinberg-Gleichgewichts erhält man:
Es muss gelten, dass alle Ei > 1 und mindestens
80% der Ei > 5 sind.
π̂1 = q̂ 2
π̂2 = 2q̂(1 − q̂) = 0.3648
Alternativ bietet sich auch die Berechnung der Devianz D an:
D =2·
p
X
Xi log
i=1
Xi
Ei
= 0.5776
π̂3 = (1 − q̂)2
= 0.0576
Daher ergeben sich als erwartete Anzahlen bei n = 1000 Individuen:
Diese besitzt unter H0 die gleiche Verteilung wie χ2 .
E1 = n · π̂1 = 577.6
Unter H0 sind die χ2 -Residuen ri approximativ und asymptotisch
standardnormalverteilt, d.h. Residuen mit |ri | > 2 deuten auf
schlechte Modellanpassung hin.
E2 = n · π̂2 = 364.8
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
E3 = n · π̂3 = 57.6
21 / 25
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
22 / 25
Berechnung der erwarteten Anzahlen in Beispiel 2
Berechnung der erwarteten Anzahlen in Beispiel 3
Unter Unabhängigkeit gilt z.B. für den Eintrag
(♂, Promotionsinteresse = Ja):
Hier ergeben sich unter Verwendung der Wahrscheinlichkeit
P(X = x) mit x = 0, . . . , 12
17 11
π̂1 = π̂♂ · π̂Interesse =
·
28 28
bei Vorliegen einer Binomialverteilung mit n = 12 und π = 0.519215
folgende erwartete Häufigkeiten:
Für die erwartete Anzahl folgt:
E1 = n · π̂1 = 28 ·
17 · 11
17 11
·
=
≈ 6.68
28 28
28
Ei = P(X = i) · 6115
Tabelle mit beobachteten und erwarteten Anzahlen:
Die Werte der anderen Fälle erhält man analog (erwartete Anzahl in
Ja
Nein
Klammern):
♂ 5 (6.68) 12 (10.32) 17
♀ 6 (4.32)
5 (6.68)
11
11
17
28
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Xi
Ei
23 / 25
0
3
0.9
Prof. Dr. Torsten Hothorn
1
24
12.1
()
2
104
71.8
3
286
258.5
Stochastik für Informatiker
...
...
...
11
45
26.1
SS 2009
12
7
2.3
24 / 25
Vergleich von χ2 und Devianz in den 3 Beispielen
Bsp.
1
2
3
χ2
15,08
1,769
110,5
Prof. Dr. Torsten Hothorn
K
3
4
13
p
1
2
1
()
k
1
1
11
p-Wert
0,0001
0,18
0
Stochastik für Informatiker
D
14,36
1,765
97,0
p-Wert
0,00015
0,18
6, 66 · 10−16
SS 2009
25 / 25
10. Lineare Regression
KQ-Schätzung
●
Es ist eine Gerade y = β1 + β2 x gesucht, welche die Punktwolke in der
Abbildung ‘bestmöglichst’ approximiert.
Dazu betrachten wir eine bivariate Zufallsvariable (Y , X ) mit
Beobachtungen (yi , xi ), i = 1, . . . , n und definieren den Schätzer für die
Parameter der Gerade als
4.5
●
●
4.0
y
●
●
(βˆ1 , βˆ2 ) = argmin
3.5
●
●
β1 ,β2
●
n
X
(yi − β1 − β2 xi )2
i=1
3.0
●
●
0.0
0.2
0.4
0.6
0.8
1.0
x
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
1 / 30
KQ-Schätzung
Prof. Dr. Torsten Hothorn
Stochastik für Informatiker
SS 2009
2 / 30
SS 2009
4 / 30
Zielgröße
Dieser Schätzer (βˆ1 , βˆ2 ) heißt (aus offensichtlichen Gründen)
Kleinster-Quadrate-Schätzer und representiert diejenige Gerade durch die
Punktwolke, welche den quadratischen vertikalen Abstand jeder
Beobachtung zur Geraden minimiert. Andere Kriterien sind denkbar, wie
etwa
(βˆ1 , βˆ2 ) = argmin
β1 ,β2
Prof. Dr. Torsten Hothorn
()
()
n
X



Y =

Y1
Y2
..
.



 ∈ Rn

Yn
|yi − β1 − β2 xi |.
i=1
Stochastik für Informatiker
SS 2009
3 / 30
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
Einflußgrößen
Modellparameter



X =

j
X1j
X2j
..
.
Die Parameter der Geraden (k = 1) bzw. Hyperebenen (k > 2 sind durch


β1
 β2 


β =  .  ∈ Rk
 .. 



 , j = 1, . . . , k

βk
Xnj
welche wir in einer Matrix X =
Prof. Dr. Torsten Hothorn
()
(X 1 , X 2 , . . . , X k )
Stochastik für Informatiker
∈
Rn,k
gegeben und wir betrachten das Modell Y = Xβ.
Gesucht ist nach dem Kriterium der Kleinsten Quadrate ein Schätzer β̂, so
daß ||Y − Xβ̂||2 ≤ ||Y − Xβ||2 ∀β ∈ Rk .
aggregieren.
SS 2009
5 / 30
KQ-Schätzung
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
6 / 30
KQ-Schätzung
●
4.5
●
Sei der Rang von X gleich k. Dann gilt:
●
β̂ = argmin ||Y − Xβ|| = (X> X)−1 X> Y
y
β
4.0
●
●
3.5
●
●
●
3.0
●
●
0.2
0.4
0.6
0.8
x
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
7 / 30
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
8 / 30
Das Lineare Regressionsmodell
Das Modell
Eigenschaften
gegeben sind mehrere stetige Merkmale Y , X 1 , . . . , X k
Y = Xβ + U
X 1 , . . . , X k verursachen Y und nicht umgekehrt
P
der Zusammenhang ist linear, also Yi = kj=1 βj Xij + Ui
heißt lineares Regressionsmodell. Dabei ist


U1
 U2 


U =  .  ∈ Rn
 .. 
Un
die X -Variablen heißen unabhängige Variable, Regressoren, exogene
Variable oder Design-Variable
die Y -Variable heißt abhängige Variable, Regressant, endogene
Variable oder Response-Variable
U sind nicht beobachtbare Störgrößen.
ein n-dimensionaler Zufallsvektor.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
9 / 30
Annahmen
()
Stochastik für Informatiker
SS 2009
10 / 30
Körperfettmessung
Zudem treffen wir treffen drei Annahmen:
A1) X ist eine feste (nicht zufällige) n × k Matrix mit vollem Spaltenrang,
also Rang(X) = k.
A2) U ist ein Zufallsvektor mit E (U) = (E (U1 ), E (U2 ), . . . , E (Un ))> = 0.
A3) Die Komponenten von U sind paarweise unkorreliert und haben alle
die gleiche Varianz σ 2 , formal: Cov(U) = σ 2 diag(n).
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
11 / 30
Garcia et al. (2005, Obesity Research) untersuchten n = 71 Frauen und
erhoben (unter anderem) k = 5 Einflußgrößen (Alter, Bauchumfang,
Hüftumfang, Ellenbogenbreite und Kniebreite) um deren Einfluß auf die
Zielgröße, den Körperfettanteil gemessen mittels Dual Energy X-Ray
Absorptiometry (DXA), zu untersuchen.
Es stellen sich folgende Fragen: Welche der unabhängigen Variablen haben
tatsächlich einen Einfluß auf den Körperfettanteil? Welche haben einen
positiven und welche einen negativen Einfluß? Kann man aus den
unabhängigen Variablen auf den Körperfettanteil schließen? Diese Fragen
können mittels eines linearen Regressionsmodells beantwortet werden.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
12 / 30
Schätzung in R
80
●
60
●
●
90
●
●
40
DEXfat
●●
●
● ●
●
●
●
● ●
30
40
● ●
●
● ●
●
●
●
20
●
100
110
5.5
10
30
●
●
●
40
50
60
Prof. Dr. Torsten Hothorn
●
100
110
●
● ●
●
●
●
●
●
●
● ●
●
● ●
●
● ●
●
●
●
●
●
●
6.0
●
●
●
●
●
●
6.5
●
●
120
130
Stochastik für Informatiker
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
● ●
● ●
●
●
● ●
●
●
●
● ●
●
● ●
●
●
●●●
●
● ● ● ●
●
●
● ●●●
●
●
●●
●
8
●
●
9
10
age
0.0638
waistcirc
0.3204
hipcirc elbowbreadth
0.4340
-0.3012
7.0
was äquivalent (aber numerisch stabiler ist) zu
60
●
hipcirc
()
(Intercept)
-59.5732
kneebreadth
1.6538
●
●
●
●
50
●
● ●
DEXfat
●
●●
40
●
● ●
●
●
●
●● ●● ● ●
● ●● ●
●
●
●
● ●
●
●● ●●
●● ●●
●
●
●●●●
●
●
●
●
90
age
●
●
●
●
● ●
●
●
●
●●
●
●
●●
●
●
●●
●
●
● ● ● ●
●
● ●
●
30
●
●
● ●
●
● ●
● ● ●
●
● ● ●
●●
●
40
DEXfat
●
20
●
●
●
● ●
●●
●
●
●●
●
10
●
●
20
60
50
●
●
●
●
●
●
●
elbowbreadth
●
●
30
40
30
●
●
●
10
●
● ● ●
●
●
●
●
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
20
60
50
●
●
DEXfat
●
●
●
waistcirc
●
●
●
● ●
●
> bodyfat_lm <- lm(DEXfat ~ age + waistcirc + hipcirc +
+
elbowbreadth + kneebreadth, data = bodyfat)
> round(coef(bodyfat_lm), 4)
●
10
DEXfat
20
10
70
●●
●
●
● ●● ●
●●
●
●
● ●
●●
●
●
●
● ●
●●
●
● ●
●
● ● ●
●●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
50
●
50
60
●
●
30
40
30
10
20
DEXfat
50
60
Körperfettmessung
●
●
●
>
+
>
>
>
●
●
●
● ●
●
X <- bodyfat[,c("age", "waistcirc", "hipcirc",
"elbowbreadth", "kneebreadth")]
X <- cbind(1, as.matrix(X))
Y <- bodyfat$DEXfat
round(drop(tcrossprod(solve(crossprod(X, X)), X) %*% Y), 4)
11
-59.5732
kneebreadth
1.6538
kneebreadth
SS 2009
13 / 30
Eigenschaften der KQ-Methode
age
0.0638
Prof. Dr. Torsten Hothorn
()
waistcirc
0.3204
Stochastik für Informatiker
hipcirc elbowbreadth
0.4340
-0.3012
SS 2009
14 / 30
SS 2009
16 / 30
Eigenschaften der KQ-Methode
Unter A1, A2 und A3 ist β̂ ein erwartungstreuer Schätzer für β mit
Kovarianzmatrix Cov(β̂) = σ 2 (X> X)−1 .
Sei Y ∈ Rn ein beliebiger Zufallsvektor mit E (Y ) = (E (Y1 ), . . . , E (Yn ))>
und


Var(Y1 )
Cov(Y1 , Y2 )
 Cov(Y2 , Y1 )

Var(Y2 )
Cov(Y2 , Y3 )


Cov(Y ) = 

..
.
.
.
.


.
.
.
Es gilt
1
Cov(Y ) is positiv semidefinit
2
E (AY ) = AE (Y )
3
Cov(AY ) = ACov(Y )A>
Var(Yn )
mit Cov(Y ) = Cov(Y )> = E ((Y − E (Y ))(Y − E (Y ))> ).
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
15 / 30
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
Lineare Funktionen
Optimalität der KQ-Methode
Unter Umständen sind wir an Linearkombinationen des Parametervektors
β interessiert (welche auch ‘Kontraste’ genannt werden). Sei c ∈ Rk ein
Vektor von Konstanten. Dann ist c > β̂ eine erwartungstreue Schätzung von
c > β mit Kovarianzmatrix σ 2 c > (X> X)−1 c.
Ein Schätzer β̃ heißt linear, wenn eine Matrix C ∈ Rk,n existiert, so daß
β̃ = CY .
Gauß-Markov-Theorem:
Unter A1-A3 gilt:
1
2
β̂ ist der beste lineare erwartungstreue Schätzer (BLUE) für β, d.h.
Cov(β̂) ≤ Cov(β̃) im Sinne der Löwner-Halbordnung (d.h.
Cov(β̃) − Cov(β̂) psd).
BLUE ist eindeutig.
Desweiteren: Unter A1-A3 ist c > β̂ der BLUE für c > β.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
17 / 30
Prognose mit KQ
()
Stochastik für Informatiker
SS 2009
18 / 30
Körperfettmessung
Gegeben sei Y und X 1 , . . . , X k mit Beobachtungen
(yi , xi = (xi1 , . . . , xik )), i = 1, . . . , n sowie xn+1 . Gesucht sei yn+1 . Bekannt
> β+U
ist, daß Yn+1 = xn+1
n+1 . Da die Störgrößen U nicht beobachtbar
sind, jedoch per Annahme einen Erwartungswert gleich 0 haben, schätzen
> β̂.
wir Ŷn+1 = xn+1
Es gilt: Unter A1-A3 ist E (Ŷn+1 − Yn+1 ) = 0.
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
19 / 30
Für die 45jährige Emma mit Baumumfang 90cm, Hüftumfang 110cm,
Ellenbogenbreite 7cm und Kniebreite 10cm ist der vorhergesagte
Körperfettanteil
> emma <- c(intercept = 1, age = 45, waistcirn = 90,
+
hipcirc = 110, ellbowbreadth = 7,
+
kneebreadth = 10)
> emma %*% coef(bodyfat_lm)
[,1]
[1,] 34.30292
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
20 / 30
Schätzung von Varianz und Kovarianz
Kovarianzschätzung
Es fehlen noch Schätzer für σ 2 und Cov(β̂). Dazu betrachten wir die
Residuen
Damit können wir also auch die Kovarianzmatrix Cov(β̂) schätzen, und
zwar als
Û = Y − Xβ̂
als Ersatz für die nicht beobachtbaren Störgrößen U.
1
2
σ̂ 2 (X> X)−1 .
Û = MY = MU mit M = diag(n) − H wobei die sogenannte
Hat-Matrix H gegeben ist durch H = X(X> X)−1 X> und Ŷ = HY
(H setzt dem Y den Hut auf).
Desweiteren ist es möglich, die geschätzten Koeffizienten zu
standardisieren, um sie miteinander vergleichen zu können:
M ist orthogonaler Projektor mit Rang (gleich Spur) n − k.
β̂j
p
σ̂ diag((X>X)−1 )
Unter A1-A3 gilt
Û > Û
σ̂ =
n−k
2
ist erwartungstreue Schätzung für σ 2 .
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
21 / 30
Körperfettmessung
U <- bodyfat$DEXfat - X %*% coef(bodyfat_lm)
n <- nrow(bodyfat)
k <- length(coef(bodyfat_lm))
sigma2 <- crossprod(U) / (n - k)
sdbeta <- sqrt(sigma2) * sqrt(diag(solve(crossprod(X))))
round(coef(bodyfat_lm) / sdbeta, 4)
(Intercept)
-7.0471
kneebreadth
1.9178
age
1.7061
waistcirc
4.3469
()
Stochastik für Informatiker
SS 2009
22 / 30
Das Lineare Regressionsmodell unter Normalverteilung
Hier sind die standardisierten Regressionskoeffizienten gegeben durch
>
>
>
>
>
>
Prof. Dr. Torsten Hothorn
hipcirc elbowbreadth
4.5365
-0.2474
Bisher haben wir außer dem Erwartungswert (A2) und der Kovarianzmatrix
(A3) nichts über die Verteilung der Störgrößen U angenommen. In diesem
Abschnitt betrachten wir zusätzlich
A4) Ui ∼ N (µi , σ 2 ).
oder einfacher
> round(coef(bodyfat_lm) / sqrt(diag(vcov(bodyfat_lm))), 4)
(Intercept)
-7.0471
kneebreadth
1.9178
Prof. Dr. Torsten Hothorn
age
1.7061
()
waistcirc
4.3469
Stochastik für Informatiker
hipcirc elbowbreadth
4.5365
-0.2474
SS 2009
23 / 30
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
24 / 30
Eigenschaften der Normalverteilung
KQ- und Varianzschätzung
Eine n-dimensionale Zufallsvariable Z folgt einer multivariaten
Normalverteilung mit Erwartungswertvektor µ ∈ Rn und Kovarianzmatrix
Σ ∈ Rn,n (symmetrisch und pd), symbolisch
Es gilt
Z ∼ N (µ, Σ).
Y = Xβ + U ∼ N (Xβ, σ 2 diag(n))
β̂ = (X> X)−1 X> Y ∼ N (β, σ 2 (X> X)−1 )
Es gilt
1
2
3
4
Unter A1 - A4 sind β̂ und σ̂ 2 stochastisch unabhängig.
Unter A1 - A4 ist β̂ die ML-Schätzung für β.
2 = Û > Û/n die ML-Schätzung für σ 2 .
Unter A1 - A4 ist σ̂ML
Z ∼ N (µ, Σ) ⇒ E(Z ) = µ, Cov(Z ) = Σ und Zi ∼ N (µi , Σii ).
Sei A ∈ Rp,n mit Rang gleich p und b ∈ Rp , dann
AZ + b ∼ N (Aµ + b, AΣA> ).
Die Komponenten von Z sind stochastisch unabhängig ⇐⇒
Σ = diag(σii2 ).
A ∈ Rp,n , B ∈ Rq,n , AΣB> = 0 ⇒ AZ , BZ sind stochastisch
unabhängig.
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
25 / 30
Konfidenzintervalle und Tests für β
testen oder Konfidenzintervalle für den Parameter d > β herleiten. Dabei ist
d ∈ Rk beliebig.
Unter A1 - A4 gilt
d > β̂ − d > β
p
∼ tn−k
σ̂ 2 d > (X> X)−1 d
wobei tn−k die t-Verteilung mit n − k Freiheitsgraden bezeichnet.
Damit lautet die Testentscheidung: Lehne H0 ab, wenn
SS 2009
26 / 30
(Intercept)
age
-7.0471
1.7061
hipcirc elbowbreadth
4.5365
-0.2474
waistcirc
4.3469
kneebreadth
1.9178
> p <- (1 - pt(abs(T), df = nrow(bodyfat) - length(T))) * 2
> round(p, 4)
T =p
> tn−k,1−α/2
σ̂ 2 d > (X> X)−1 d
(Intercept)
age
0.0000
0.0928
hipcirc elbowbreadth
0.0000
0.8054
und ein (1 − α) × 100% Konfidenzintervall für d > β ist
q
>
d β̂ ± tn−k,1−α/2 σ̂ 2 d > (X> X)−1 d
SS 2009
> T <- coef(bodyfat_lm) / sdbeta
> round(T, 4)
und die zweiseitigen P-Werte aus der t-Verteilung ablesen
|d > β̂|
Stochastik für Informatiker
Stochastik für Informatiker
Jetzt können wir für jede der Einflußgrößen die Teststatistik ausrechnen,
dabei ist d der Einheitsvektor, so daß d > β = βj :
H0 : d > β = 0 vs. H1 : d > β 6= 0
()
()
Körperfettmessung
Wir möchten nun Hypothesen der Form
Prof. Dr. Torsten Hothorn
Prof. Dr. Torsten Hothorn
27 / 30
Prof. Dr. Torsten Hothorn
()
waistcirc
0.0000
kneebreadth
0.0595
Stochastik für Informatiker
SS 2009
28 / 30
Körperfettmessung
Körperfettmessung
> summary(bodyfat_lm)
Call:
lm(formula = DEXfat ~ age + waistcirc + hipcirc + elbowbreadth +
kneebreadth, data = bodyfat)
Residuals:
Min
1Q
-9.1782 -2.4973
Median
0.2089
Coefficients:
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
Residual standard error: 3.988 on 65 degrees of freedom
Multiple R-squared: 0.8789, Adjusted R-squared: 0.8696
F-statistic: 94.34 on 5 and 65 DF, p-value: < 2.2e-16
> confint(bodyfat_lm)
2.5 %
97.5 %
(Intercept) -76.45619185 -42.6902064
age
-0.01088410
0.1385129
waistcirc
0.17321558
0.4676638
hipcirc
0.24291126
0.6249985
elbowbreadth -2.73231557
2.1299704
kneebreadth
-0.06842371
3.3760367
3Q
Max
2.5496 11.6504
Estimate Std. Error t value Pr(>|t|)
(Intercept) -59.57320
8.45359 -7.047 1.43e-09 ***
age
0.06381
0.03740
1.706
0.0928 .
waistcirc
0.32044
0.07372
4.347 4.96e-05 ***
hipcirc
0.43395
0.09566
4.536 2.53e-05 ***
elbowbreadth -0.30117
1.21731 -0.247
0.8054
kneebreadth
1.65381
0.86235
1.918
0.0595 .
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Und als Abschluß noch die Konfidenzintervalle
Wir sehen also, daß hauptsächlich der Bauch- und Hüftumfang informativ
für den Körperfettanteil sind.
29 / 30
Prof. Dr. Torsten Hothorn
()
Stochastik für Informatiker
SS 2009
30 / 30
Herunterladen