ppt

Werbung
Grundbegriffe der Wahrscheinlichkeitstheorie
Karin Haenelt
11.1.2013
1
Inhalt





Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeit
Abhängige und unabhängige Ereignisse
Stochastischer Prozess
Markow-Kette
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
2
Wahrscheinlichkeitsraum
 Modell zur Beschreibung von Zufallsexperimenten
 Ein Wahrscheinlichkeitsraum ist ein normierter Maßraum
 Es gilt: Ein Wahrscheinlichkeitsraum ist ein Maßraum (Ω, 𝓐, P)
 Dabei ist
 Ω eine Menge
 𝓐 eine σ-Algebra in Ω, und
 P ein Maß 𝓐 auf mit der Normierungsbedingung P(Ω) = 1.
Bauer, 2001, 4
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
3
σ-Algebra
 eine Mengenalgebra, die unter abzählbar unendlichen
Vereinigungen abgeschlossen ist
 Mengensystem 𝓐 über Ω mit folgenden Eigenschaften
 ø∊𝓐
 A∊𝓐⇒ A ∊𝓐
 A1, A2, … ∊ 𝓐 ⇒ i Ai ∊ 𝓐
 Die Elemente A der σ-Algebra 𝓐 eines
Wahrscheinlichkeitsraumes (Ω, 𝓐, P) heißen Ereignisse
 Die Elemente ω von Ω heißen Elementarereignisse
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
4
Wahrscheinlichkeitsmaß
 P(A) ist die Wahrscheinlichkeit von A oder für das Eintreten des
Ereignisses A.
 eine Abbildung P : A → [1,0] mit den Eigenschaften
 P(A) ≥ 0 für jedes A ∊ 𝓐
 Gilt
 A1, A2, … ∊ 𝓐 mit Ai  Aj   für i  j,
 so gilt P( Ai )   P( Ai )
i 1
i 1
 P(Ω) = 1

© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013

5
Komponenten des Wahrscheinlichkeitsraumes
Bezeichnung
Erläuterung
(Ω,𝓐,P)
Wahrscheinlichkeits
raum
Ω
Ergebnismenge
Menge aller Elementarereignisse
ω
Elementarereignis
Element von Ω
σ-Algebra über Ω
Ereignisraum
Menge aller möglichen
Ereignisse;
-Nicht notwendigerweise
jede Teilmenge von Ω,
mindestens
- Ω als sicheres Ereignis
- als unmögliches
Ereignis
A σ-Algebra
über Ω
Ereignis
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
6
Komponenten des Wahrscheinlichkeitsraumes:
Beispiel 1
Bezeichnung
Beispiel
(Ω,𝓐,P)
Wahrscheinlichkeits
raum
Ω
Ergebnismenge
{a,b,c}
ω
Elementarereignis
a
σ-Algebra über Ω
Ereignisraum
{ {a,b,c}, {a,b},{a,c}, {a}, {b,c},
{b}, {c}, {} }
A σ-Algebra
über Ω
Ereignis
{a,b,c}
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
7
Komponenten des Wahrscheinlichkeitsraumes:
Beispiel 2 (Verkehrsampel)
Bezeichnung
Beispiel
(Ω,F,P)
Wahrscheinlichkeits
raum
Ω
Ergebnismenge
{rot,gelb,grün}
ω
Elementarereignis
gelb
σ-Algebra über Ω
Ereignisraum
{ {rot}, {rot,gelb},{gelb}, {grün}, {}
}
A σ-Algebra
über Ω
Ereignis
{rot,gelb}
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
8
Inhalt





Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeit
Abhängige und unabhängige Ereignisse
Stochastischer Prozess
Markow-Kette
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
9
Bedingte Wahrscheinlichkeit
P(A)
Wahrscheinlichkeit (a priori Wahrscheinlichkeit)
Gesamtmenge
A AB B
P(A|B)
- Wahrscheinlichkeit, dass Ereignis A eintritt
- betrachtet eine Teilmenge aus der Gesamtmenge
- P(A) / P(Gesamtmenge) = P(A) / 1 = P(A)
Bedingte Wahrscheinlichkeit (a posteriori Wahrscheinlichkeit)
Gesamtmenge
A AB B
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
- Wahrscheinlichkeit
- dass Ereignis A eintritt,
- wenn Ereignis B eingetreten ist
- betrachtet eine Teilmenge aus einer Teilmenge
- P(A|B) = P(A B) / P(B)
10
Das Pferd „Harry“ und das Wetter
Rennen
Gesamt bei Regen
gewonnen
verloren
gelaufen
20
80
15
15
100
30
5
65
15
15
Einfache Wahrscheinlichkeit P(A)
betrachtet Teilmengen aus der Gesamtmenge, Beispiele
P( win)  .2
P( win) / P( gesamt )
P( win  rain )  .15
P( win  rain ) / P( gesamt )
Bedingte Wahrscheinlichkeit P(A|B)
betrachtet Teilmengen aus einer Teilmenge, Beispiel
P( win | rain )  .5
P( win  rain ) / P(rain )
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
11
Bedingte Wahrscheinlichkeit
Definition
P(A | B) 
P(A  B)
P(B)
P(Win | Rain) 
P(Win  Rain)
P(Rain)
Schreibvarianten
P(A | B) 
P(A, B)
P(B)
P(Win | Rain) 
.15
 .5
.30
P(A | B)  P(A & B) / P(B)
P(A|B)  P(B|A)
A AB
5
65
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
15
B
P(Rain | Win) 
P(Rain  Win)
P(Win)
P(Rain | Win) 
.15
 .75
.20
15
12
P(A | B) 
P(A  B)
P(B)
Theorem von Bayes
ermöglicht Berechnung von P(B|A) aus P(A|B)
Regel von Bayes
P(A ∩ B)
= P(B) · P(A ∩ B) / P(B) = P(B) · P(A|B)
0.3 ·
.15
/
0.3 = 0.3 ·
= P(A) · P(A ∩B) / P(A)
0.2 ·
.15
/
0.5
= 0.15
= P(A) ·P(B|A)
0.2 = 0.2 ·
0.75
= 0.15
Theorem von Bayes
P(A|B )= P(A ∩ B) / P(B)
= P(B) · P(A|B) / P(B)
0.3 ·
Herleitung durch Umformung
0.5 / 0.3 = 0.50
= P(A) ·P(B|A) / P(B)
0.2 · 0.75 / 0.3 = 0.50
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
13
5
A:win
AB
15
B:rain
65
Theorem von Bayes
15
ermöglicht Berechnung von P(B|A) aus P(A|B
Regel von Bayes
P(A ∩ B)
= P(B) · P(A ∩ B) / P(B) = P(B) · P(A|B)
0.3 ·
.15
/
0.3 = 0.3 ·
= P(A) · P(A ∩B) / P(A)
0.2 ·
.15
/
0.5
= 0.15
= P(A) ·P(B|A)
0.2 = 0.2 ·
0.75
= 0.15
Theorem von Bayes
P(A|B )= P(A ∩ B) / P(B)
= P(B) · P(A|B) / P(B)
0.3 ·
0.5 / 0.3 = 0.50
= P(A) ·P(B|A) / P(B)
Herleitung durch Umformung 0.2 · 0.75 / 0.3 = 0.50
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
,
11.1.2013
14
Inhalt





Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeit
Abhängige und unabhängige Ereignisse
Stochastischer Prozess
Markow-Kette
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
15
Unabhängige Ereignisse
 Zwei Ereignisse sind voneinander unabhängig, wenn gilt:
P(A|B)
= P(A)
P(A ∩ B)
= P(A) · P(B)
 Typisches Beispiel:
Es werden zwei Würfel geworfen.
Sei A das Ereignis: der 1. Wurf ist eine 1: P(A) = 1/6
Sei B das Ereignis: der 2. Wurf ist eine 6: P(B) = 1/6
Wahrscheinlichkeit A und B: P(A∩B) = 1/6 · 1/6 = 1/36
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
16
Test zweier Ereignisse
auf Unabhängigkeit
Rennen
5
65
15
40
40
alle Rennen bei Regen bei Regen
(Beispiel 1) (Beispiel 2)
gewonnen
20
15
10
verloren
80
15
40
Gesamt
100
30
50
P(win|rain)
P(win)
Ergebnis:
die Ereignisse „win“ und „rain“ sind
.20
abhängig
Beispiel 1 .50

Beispiel 2 .20
= .20
P(win ∩ rain)
unabhängig
P(win) ·
P(rain)
Ergebnis:
die Ereignisse „win“ und „rain“ sind
.2  .3 = .06
abhängig
Beispiel 1 .15

Beispiel 2 .10
= .2  .5 = .10
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
10 10
15
17
unabhängig
17
Abhängige und unabhängige Ereignisse
 diese Formeln gelten in beiden Fällen, da die rechte und die
linke Seite äquivalent sind
P(A ∩ B)
= P(A) ·P(B | A) = P(B) · P(A | B)
P(A | B)
= P(A ∩ B) / P(B)
P(win ∩ rain) = P(win|rain)
· P(rain)
= P(rain|win)
· P(win)
Beispiel 1
.15
= .5
· .3
= .75
· .2
Beispiel 2
.10
= .2
· .5
= .5
· .2
P(win|rain)
=
P(win ∩rain)
/ P(rain)
Beispiel 1
.5
.15
/ .3
Beispiel 2
.2
.10
/.5
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
18
Inhalt





Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeit
Abhängige und unabhängige Ereignisse
Stochastischer Prozess
Markow-Kette
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
19
Stochastischer Prozess
 Definition 1
 Sei Ω eine Menge elementarer Zufallsereignisse
(Ergebnismenge eines Wahrscheinlichkeitsraumes).
Ein stochastischer Prozess oder Zufallsprozess ist eine
Folge von elementaren Zufallsereignissen
X1,X2,…Xi Ω
 Definition 2
 Die möglichen Zufallswerte in einem stochastischen Prozess
heißen Zustände des Prozesses.
Man sagt, dass sich der Prozess zum Zeitpunkt t in Zustand
Xt befindet
Brants, 1999: 30
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
20
Stochastischer Prozess

Für die vollständige Beschreibung eines Zufallsprozesses mit
diskretem Zeitparameter benötigt man
1. die Anfangswahrscheinlichkeit:
die für jeden Zustand angibt, mit welcher
Wahrscheinlichkeit er als Zustand X1 beobachtet werden
kann (d.h. den Startzustand bildet)
πi = P(X1=si)
2. die Übergangswahrscheinlichkeit:
die für jeden Zustand angibt, mit welcher
Wahrscheinlichkeit er in einer Zustandsfolge auftritt:
P(Xt+1 = xt+1 | X1 = x1, X2 = x2, …,Xt = xt)
Brants, 1999: 30
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
21
Stochastischer Prozess: Beispiel
 Ein Textgenerator hat ein Lexikon mit drei Wörtern von denen
an jeder Position jedes auftreten kann :
 Ω = {geschickt, werden, wir}
 wir beobachten an jeder Position, welches Wort generiert wurde
 Sei
 X1 das Wort zum ersten Beobachtungszeitpunkt
 X2 das Wort zum zweiten Beobachtungszeitpunkt, usw.
 Dann ist die Folge der Wörter ein stochastischer Prozess mit
diskreter Zufallsvariable und diskretem Zeitparameter
 Für diese Folge kann man eine Wahrscheinlichkeit angeben
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
22
Inhalt





Wahrscheinlichkeitsraum
Bedingte Wahrscheinlichkeit
Abhängige und unabhängige Ereignisse
Stochastischer Prozess
Markow-Kette
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
23
Markow-Kette
 Eine Markow-Kette ist ein stochastischer Prozess, bei dem der
nächste Zustand Xt+1 bei bekanntem gegenwärtigem Zustand Xt
unabhängig von den vergangenen Zuständen Xt-1, Xt-2,…,X0 ist.
 Es gilt
P(Xt+1 = j | Xt = it, Xt-1 = it-1, …,X1 = i1, X0=i0) =
P(Xt+1 = j | Xt = it)
 daher der Name Kette: Kettenglieder hängen nur am vorigen
Kettenglied, nicht an allen vorherigen Kettengliedern
Brants,Crocker,Lieblang, 2000:22
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
24
Endliche Markow-Kette
 Für eine endliche Markow-Kette gibt es endlich viele Zustände,
und die Kette muss sich zu jedem Zeitpunkt in einem dieser
endlich vielen Zustände befinden
Brants, 1999: 31
 Prozess
 „ohne Gedächtnis“
 mit endlich vielen Zuständen
 entspricht den Eigenschaften eines endlichen Automaten
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
25
Markow-Kette und Eigenschaften menschlicher
Sprachen: ein Beispiel
 nach einem q folgt oft ein u,
 Vorhersage über 2. Buchstaben hinter q?
 abhängig von q?
 nach einem s folgt ein c, dann folgt ein h
 Vorhersage über 3. Buchstaben hinter s?
 abhängig von s?
Markow-Modell
1. Ordnung
Markow-Modell
2. Ordnung
…
Kunze, 2001
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
26
Markow-Kette: Matrix-Darstellung
 kann beschrieben werden durch die Angaben
 Stochastische Übergangsmatrix A
aij  P( Xt  1  sj | Xt  si )
i, j
aij  0
N
i

a
i, j
1
j 1
Anfangswahrscheinlichkeiten Π
i  P( X 1  si )
N

i
1
i 1
Xt  si
Xt  1  sj
geschickt
geschickt .3
werden .4
wir
.3
Xt
werden
.4
.2
.4

geschickt .2
werden .3
wir
.5
Manning/Schütze, 2000: 318
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
27
wir
.3
.4
.3
Markow Model: Definition
Ein Markow-Modell wird spezifiziert durch ein Tripel (S,Π,A)
S = {S1, ..., SN} Menge der Zustände
Π = {πi}
Wahrscheinlichkeiten der Startzustände
πi = P(X1 = Si)
N
  1
i
i 1
A = {aij}
Wahrscheinlichkeiten der Zustandsübergänge
N
aij = P(Xt+1 = Sj | Xt = Si)
1≤i,
 aij  1
j≤N
j 1
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
28
Markow-Kette: Graph-Darstellung
 kann beschrieben werden durch Zustandsübergangsgraphen
.5
.3
.3
.4
.2
wir
.4
werden
.3
.4
.3
.4
geschickt
.2
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
.3
29
Markow-Kette: Berechnung einer SequenzWahrscheinlichkeit
 Wahrscheinlichkeit der Sequenz der Zustände X1 … XT
P( X 1,..., XT )
 P( X 1) P( X 2 | X 1) P( X 3 | X 2, X 1)...P( XT | X 1,..., XT  1)
 für eine Markow-Kette gilt:
 P( X 1) P( X 2 | X 1) P( X 3 | X 2)...P( XT | XT  1)

T 1
a

X
1
t 1
X t X t 1
Manning/Schütze, 2000: 320
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
30
Markow-Kette: Berechnungsbeispiel
 Wahrscheinlichkeit der Sequenz der Zustände X1 … XT
P( X 1  wir , X 2  werden, X 3  geschickt )
 P( X 1  wir ) 
P( X 2  werden | X 1  wir ) 
P( X 3  geschickt | X 2  werden)
 (.5  .4  .4)  0.08
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
Xt

geschickt .2
werden .3
wir
.5
Xt  si
Xt  1  sj
geschickt
geschickt .3
werden .4
wir
.3
werden
.4
.2
.4
wir
.3
.4
.3
31
Literatur
•
•
•
•
•
Bauer, Heinz (2001). Wahrscheinlichkeitstheorie. de Gruyter. 5. verbesserte Auflage.
Brants, Thorsten (1999). Statistische Methoden in der Sprachverarbeitung. Seminarskript
15. Juni 1999
Brants, Thorsten; Matthew Crocker und Enrico Lieblang (2000). Statistische Methoden in
der Sprachverarbeitung. Seminarskript. http://www.coli.unisaarland.de/~thorsten/stat00/skript.ps.gz
Manning, Christopher D.; Schütze, Hinrich (1999): Foundations of Statistical Natural
Language Processing. Cambridge, Mass., London: The MIT Press. (vgl.:
http://www.sultry.arts.usyd.edu.au/fsnlp)
Versionen 11.1.2013, 26.5.2009, 31.10.2005, 4.5.2002
© Karin Haenelt, Grundbegriffe der
Wahrscheinlichkeitstheorie,
11.1.2013
32
Herunterladen