7. Wahrscheinlichkeits- theorie - Fakultät für Mathematik und Informatik

Werbung
Text, Korpus und Zählung
ssm
Fakultät für Mathematik und Informatik
INSTITUT FÜR INFORMATIK
Prof. E.G. Schukat-Talamazzini
TEXTKORPUS
Textsammlung für linguistische Zwecke
Vorlesung im Wintersemester
STOCHASTISCHE
GRAMMATIKMODELLE
7. Wahrscheinlichkeitstheorie
Als es zu schneien aufgeh|rt hatte, verlie~ Johanna von
Rotenhoff, ohne ein rechtes Ziel zu haben, das Gutshaus.
Mechanisch einen Fu~ vor den anderen setzend, schlug sie den Weg
zum verschneiten Park ein. Johanna von Rotenhoff schritt wie eine
Marionette, die keinen eigenen Willen hat. Ihr Gesicht war
ungew|hnlich bleich, und ihre Augen waren vom Weinen ger|tet.
So war es in letzter Zeit |fter. Ihre bisher gl}ckliche Ehe
war ins Wanken geraten. Niemals h{tte Johanna an der Treue
Viktors zu zweifeln gewagt. Und jetzt ? Seitdem die
Schauspielerin Melanie Nowara in der nahe gelegenen Kreisstadt am
Stadttheater verpflichtet war, gab es kaum einen Abend, an dem
Viktor zu Hause war. Johanna sa~ dann am Fenster und blickte
hinaus in die dunkle Nacht. Erst wenn die Lichter von Viktors
Wagen in der Birkenallee aufblitzten, ging sie zu Bett. Aber
auch dann konnte sie nicht einschlafen. Manchmal kam es sogar vor,
da~ Viktor die ganze Nacht }ber nicht nach Hause kam . Die
.........
.........
.........
Definition 7.1
• Textkorpora · Wortvorkommenstatistik
Es sei V eine endliche Menge von Wörtern (Wortschatz).
• Laplaceraum
• Relative Häufigkeiten
Ein Text ist eine Folge w = w1 . . . wn von Wörtern wi ∈ V.
• Kolmogorov-Axiome
Ein Textkorpus ist eine Menge von Texten.
• bedingte Wahrscheinlichkeiten
• Zufallsvariable · Zufallsvektoren · Zufallsfolgen
Ein Element vj der Menge V heißt Worteintrag
(’type’).
Ein Glied wi der Folge w heißt Wortvorkommen
(’token’).
Vorlesung im Wintersemester
STOCHASTISCHE GRAMMATIKMODELLE
Erstellt am 30. September 2013
ABSTRAKTIONSEBENE ’SATZ’
Erforderlichenfalls definiere man einen Text als Folge von Sätzen und
einen Satz als Folge von Wörtern.
Ebensogut läßt sich die neue Abstraktionsebene ’Satz’ formal durch
die Erweiterung des Wortschatzes V durch eine Satzendemarkierung
’EOS’ repräsentieren.
KORPUSAUFBEREITUNG
Technisch betrachtet besteht ein maschinenlesbarer Text zunächst
nur aus einer Folge von Zeichen (ASCII, Unicode).
Es ist also — manuell oder regelgestützt — eine Wortsegmentierung
zu erstellen und explizit im Datenformat zu verankern (z.B. XMLNotation).
ANNOTATION
Zu Lernzwecken können die Wörter, Sätze oder Texte eines Korpus
mit einer kategorialen Markierung versehen sein.
(Wortart, Lemma, KNG; Modus, Rolle; Thema, Sorte, Sprache)
Die Markierung entstammt einem endlichen Alphabet oder einer Algebra.
TOKEN + TYPE
Wieviele Wörter beinhaltet ’Tom Sawyer’ ?
Wieviele verschiedene Wörter beinhaltet ’Tom Sawyer’ ?
Wahrscheinlichkeitstheorie – I.1
E.G. Schukat-Talamazzini, FSU Jena
Text, Korpus und Zählung
ssm
WORTZÄHLUNG
Definition 7.2
Es sei w ∈ V ∗ ein Text der Länge T und v ∈ V ein Wort
sowie u ∈ V n ein Worttupel. Dann bezeichne
def
#w (v) =
T
X
1wt =v
t=1
die Anzahl der Wortvorkommen von v in w und
def
#w (u) =
T
X
1wt−n+1...wt=u1 ...un
t=n
(71.370)
(8.018)
die Anzahl der Tupelvorkommen von u in w .
BEISPIEL:































































Wahrscheinlichkeitstheorie – I.2
the
and
a
to
of
was
it
in
that
he
I
his
you
Tom
with
...
fifty-two
...
terrorism
...
Sayyer
...
3332
2972
1775
1725
1440
1161
1027
906
877
877
783
772
686
679
642
...
1
...
0
...
3
...















































Hapax Legomenon 






unbeobachtet







Unwort (’OOV’)


E.G. Schukat-Talamazzini, FSU Jena
Text, Korpus und Zählung
ssm
Text, Korpus und Zählung
ZIPF-MANDELBROT-GESETZ
Unsortierte Worthäufigkeiten
1
Anzahl ∝ Rang
Unsortierte Wortvorkommenzahl
Anzahl der Wortvorkommen
500
LIMAS-Texte
450
400
350
300
250
200
150
100
50
BEISPIEL:
0
0
1000
2000
3000
4000
Worteintrag (laufende Nummer)
5000
Sortierte Wortvorkommenzahl
500



















































6000
Sortierte Worthäufigkeiten
LIMAS-Texte
450
Wort
Anzahl
Rang
3332
2972
1775
877
410
294
172
138
104
51
30
21
16
...
2
1
1
2
3
10
20
30
50
70
100
200
300
400
500
...
4000
8000
the
and
a
he
but
be
one
more
two
turned
you’ll
name
comes
...
could
Applausive

Anzahl×Rang 






3332 


5944 



5235 


8770 


8400 


8820 

8600
9660 


10400 


10200 



9000 


8400 


8000 


... 



8000 

8000
Sortierte Wortvorkommenzahl
10000
LIMAS-Texte
freq = 2400 • 1/rang
400
350
Anzahl (logarithmisch)
Anzahl der Wortvorkommen
ssm
300
250
200
150
100
50
1000
100
10
0
0
100
200
300
400 500 600
Wortrang
700
800
900
1000
1
1
10
100
Wortrang (logarithmisch)
1000
Die meisten Worteinträge sind ziemlich selten.
Die meisten Wortvorkommen sind ziemlich häufig.
Wahrscheinlichkeitstheorie – I.3
E.G. Schukat-Talamazzini, FSU Jena
Wahrscheinlichkeitsparadigmen
ssm
Wahrscheinlichkeitstheorie – I.4
E.G. Schukat-Talamazzini, FSU Jena
BEISPIELE
• Würfeln mit einem Würfel (n = 6)
Klassische (a priori) Wahrscheinlichkeit
Definition 7.3
Wenn ein Zufallsexperiment genau n sich gegenseitig ausschließende, gleichwahrscheinliche Ausgänge ei besitzt, so
heißt die Menge
Ω = {e1, . . . , en}
Laplaceraum und der Ausgang ei das i-te Elementarereignis.
Eine Teilmenge A ⊂ Ω heißt Ereignis über Ω. Ist nun nA
die Elementezahl von A, so heißt
P(A) =
|A|
nA
=
n
|Ω|
• Eine Karte aus einem Skatblatt ziehen. (n = 32)
• A = Wert As oder Farbe Kreuz“
”
nA = 4 + 8 − 1 = 11
P (A) = 11/32
BEMERKUNGEN
• Alle Wahrscheinlichkeiten liegen zwischen 0 und 1.
• Keine Empirie beteiligt — rein deduktives Verfahren!
• Problem unendlicher Ereignisräume:
A = Ziehen einer geraden Zahl aus n ∈ IN“, P (A) = 1/2
”
• Warum? Grenzwertbildung für das Ziehen einer geraden Zahl
n ∈ {1, 2, . . . , N }
PN (A) =
die Wahrscheinlichkeit von A in Ω.
Neue Zahlenanordnung:
IN = {1, 3, 2, 5, 7, 4, 9, 11, 6, . . .}
N ÷ 2
1
→
N
2
PN (A) → 1/3
• Werfen einer unfairen Münze ( bias“)
”
Geburt eines Jungen/Mädchens in Chicago
Ableben eines Menschen im Alter < 50
... ... ... ... ...
LAPLACE:
Prinzip vom unzureichenden Grunde“
”
KOMBINATORIK:
Anzahl günstiger Fälle“
P = ”
Anzahl möglicher Fälle“
”
Wahrscheinlichkeitstheorie – II.1
• A = eine gerade Zahl würfeln“
P (A) = 3/6 = 1/2
”
P (A) = 4/6 = 2/3
• A = eine Zahl größer als 2 würfeln“
”
• Werfen zweier Münzen. Es ist n = 4 wegen Ω = {KK, ZZ, KZ, ZK}.
E.G. Schukat-Talamazzini, FSU Jena
Wahrscheinlichkeitsparadigmen
ssm
Statistische (a posteriori) Wahrscheinlichkeit
absolute
relative
erwartete relative Häufigkeit
56
44
100
0.56
0.44
1.00
0.50
0.50
1.00
Kopf
Zahl
P
Wahrscheinlichkeitsparadigmen
ssm
Axiomatische Wahrscheinlichkeit
Definition 7.5
Es sei Ω eine Menge von Elementarereignissen.
Die Menge A ⊆ PΩ heißt σ-Algebra über Ω falls gilt:
1. Ω ∈ A
Definition 7.4
Gegeben sei ein Zufallsexperiment mit einer Menge
A = {Ai | i ∈ I}
einander ausschließender* und erschöpfender* Ereignisse.
Es bezeichnen für N ∈ IN die Werte
#N (Ai) ,
i∈I
die Anzahl der beobachteten Auftreten der Ereignisse Ai
nach N -maliger Wiederholung des Zufallsexperiments.
Dann heißen die Grenzwerte
#N (Ai)
N
der relativen Ereignishäufigkeiten die empirischen Wahrscheinlichkeiten der Ereignisse Ai, i ∈ I des beobachteten
Zufallsexperiments.
def
P(Ai) =
lim
N →∞
*) verallgemeinerbar auf überschneidende Ereignisse
3. Wenn Ai ∈ A für alle i ∈ IN:
[
Ai ∈ A
i∈IN
Ist A eine σ-Algebra über Ω und P : A → IR, so heißt
(Ω, A, P) Wahrscheinlichkeitsraum über Ω genau dann,
wenn die Kolmogorov-Axiome gelten:
1. Für alle A ∈ A ist P(A) ≥ 0
2. P(Ω) = 1
3. Falls alle Ai, i ∈ IN, paarweise disjunkt sind:
!
X
[
P
=
P(Ai)
Ai
i∈IN
i∈IN
BAYESSCHES SCHLIESSEN:
EMPIRISCHE ASYMPTOTIK:
Anzahl günstiger Proben“
P ≈ ”
Anzahl aller Proben“
”
Wahrscheinlichkeitstheorie – II.2
2. Für alle A ∈ A ist das Komplement Ā ∈ A
E.G. Schukat-Talamazzini, FSU Jena
HÄUFIGKEITSORIENTIERTER WAHRSCHEINLICHKEITSBEGRIFF
Empirische Sichtweise (frequentist view)
Unendliche Folge identisch und unabhängig verteilter (i.i.d.) Zufallsexperimente
Der Ausgang jedes Einzelereignisses ist unvorhersagbar.
Die langfristige Auftretensquote bei unabhängiger Wiederholung eines Zufallsexperiments strebt gegen einen charakteristischen Wert.
STATISTIK
Stichprobenbegriff: ω ⊂ Ω, ω endlich
Asymptotische Theorie, Hypothesentest
AXIOMATISCHER WAHRSCHEINLICHKEITSBEGRIFF
Was wenn das Zufallsexperiment“ unwiederholbar ist ?!
”
( Atomschlag bis 2010“)
”
Postulieren idealer oder subjektiver Wahrscheinlichkeiten
Kalkül für probabilistisches Folgern:
Wenn P( Neugeborenes ist weiblich“) = p,
”
wie groß ist dann P( ≥ 3 Mädchen unter 10 Neugeborenen“) ?
”
BEISPIELE
• Ω = {1, 2, 3, 4, 5, 6} beim einmaligen Würfeln.
A = P(Ω) und |A| = 26 = 64.
• Ω = {(a, b, c) | a, b, c ∈ {K, Z}}
(Simultanwurf von Penny, Nickel und Dime)
|A| = 28 = 256 Ereignisse
• Ω = IN (Anzahl der Verkehrstoten in Deutschland, 1984)
Ereignisse sind zum Beispiel Ak = {k} oder A≤k = {1, . . . , k}
• Ω = IR+
0 (Lebensdauer einer Glühbirne von OSRAM)
Ereignisse sind Aa,b = [a, b] = {s | a ≤ s ≤ b}
• Ω = {(k, x) | k ∈ IN0 , x ∈ IR+ }
(Anzahl der Regenfälle und Niederschlag in ℓ/m2)
• Ω = IR5 (xi = Ertrag der i-ten Getreidesorte)
Ein Ereignisse ist A = {x | x3 ≥ 2 · x1 }
WAHRSCHEINLICHKEITSRAUM
Die Kolmogorov-Axiome postulieren eine σ-Algebra mit nichtnegativem, endlichem, normierten und σ-additivem Maßfunktional P(∆).
Ein diskreter W-Raum verallgemeinert auf kanonische Weise (P(e) 6=
const) einen Laplace-Raum.
Ein kontinuierlicher W-Raum definiert nicht notwendig Wahrscheinlichkeiten für (alle) seine Elementarereignisse.
P(A) = P(A | | Vorwissen“
{z
}, |”Stichprobendaten“
{z
})
”
subjektiv
objektiv
Wahrscheinlichkeitstheorie – II.3
E.G. Schukat-Talamazzini, FSU Jena
Wahrscheinlichkeitsparadigmen
ssm
Lemma 7.1
Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum.
Dann ist A insbesondere eine Boolesche Algebra über Ω
und es gelten für P : A → [0, 1] die Aussagen:
1. P(∅) = 0
2. P(Ā) = 1 − P(A)
3. P(A) = P(AB) + P(AB̄)
4. P(A \ B) = P(A) − P(AB)
5. P(A∪B) = P(A) + P(B) − P(AB)
6. A ⊆ B
P(A) ≤ P(B)
7. P(A1 ∪ . . . ∪An)
≤
P(A1) + . . . + P(An)
Dabei bezeichne AB den Durchschnitt A∩B
und A \ B die Differenz AB̄ zweier Ereignisse.
In einem diskreten Wahrscheinlichkeitsraum
|Ω| < ∞
und
A = PΩ
gilt für jedes Ereignis A ∈ A die Aussage
X
P({e})
P(A) =
e∈A
(Es darf Ω sogar abzählbar unendlich sein.)
Wahrscheinlichkeitstheorie – II.4
E.G. Schukat-Talamazzini, FSU Jena
Bedingte Wahrscheinlichkeiten
ssm
Zufallsvariable
ssm
Definition 7.7 Eine Funktion
Definition 7.6
Die Wahrscheinlichkeit
X : Ω → IR,
P(AB)
P(B)
def
P(A|B) =
die jedem Ereignis e ∈ Ω eine reelle Zahl X(e) zuordnet,
heißt Zufallsvariable.
eines Ereignisses A bei vorliegendem Ereignis B heißt bedingte Wahrscheinlichkeit.
Wir bezeichnen P(A) als a priori Wahrscheinlichkeit von A und
P(A|B) als a posteriori Wahrscheinlichkeit von A bei Vorliegen
von B.
Lemma 7.2 (Bayesformel)
Ist X : Ω → M und M ⊂ IR abzählbar, so heißt X diskrete
Zufallsvariable.
Die Zufallsvariable X : Ω → {0, 1} heißt Bernoulli-Experiment.
Definition 7.8
Sei X eine Zufallsvariable über dem Wahrscheinlichkeitsraum (Ω, A, P). Dann bezeichnet
P(B|A) · P(A)
P(A|B) =
P(B)
def
FX (x) = P(X ≤ x)
Lemma 7.3 (Totale Wahrscheinlichkeit)S
Für A1, . . . , An paarweise disjunkt und Ω = Ai gilt:
P(B) =
n
X
i=1
n
Y
i=1
Für diskrete Zufallsvariable X bezeichne
P(B|Ai) · P(Ai)
def
pX(x) = P(X = x) = P(Ax)
mit Ax = {e | X(e) = x} und für stetige Zufallsvariable X
bezeichne
def d
FX(x)
fX(x) =
dx
die Wahrscheinlichkeitsdichtefunktion von X.
Lemma 7.4 (Kettenregel)
P(A1 . . . An) =
die Verteilungsfunktion von X.
X heißt stetig, wenn FX stetig ist.
P(Ai | A1 . . . Ai−1)
= P(A1) · P(A2|A1) · P(A3|A1 A2) · . . . · P(An |A1 . . . An−1)
Wahrscheinlichkeitstheorie – III.1
E.G. Schukat-Talamazzini, FSU Jena
STETIGE ZUFALLSVARIABLE
Z
FX (x) =
Wahrscheinlichkeitstheorie – IV.1
E.G. Schukat-Talamazzini, FSU Jena
Zufallsvariable
x
ssm
fX (ξ) dξ
−∞
Zufallsvektoren und Zufallsfolgen
DISKRETE ZUFALLSVARIABLE
X
FX (x) =
pX (ξ)
Definition 7.9
Seien X und Y diskrete Zufallsvariablen über (Ω, A, P) mit
Wertebereichen Mx und My . Dann heißt
Mx × My → [0, 1]
pXY :
(x, y)
7→ P(X = x, Y = y)
x≥ξ∈M
ERWARTUNGSWERT UND VARIANZ
Stetige Zufallsvariable:
Z
def
µX = E[X] =
ξ · fX (ξ) dξ
IR
die gemeinsame Verteilung von X und Y und die Funktionen
def X
def X
pX(x) =
pXY(x, y) ,
pY(y) =
pXY (x, y)
Diskrete Zufallsvariable:
def
µX = E[X] =
X
ξ∈M
ξ · pX (ξ)
y∈My
Funktion g : IR → IR einer Zufallsvariablen:
Z
def
E[g(X)] =
g(ξ) · fX (ξ) dξ
x∈Mx
heißen die Randverteilungen für X bzw. für Y.
IR
Die Zufallsvariablen X, Y heißen unabhängig, falls gilt:
Varianz σX2 und Standardabweichung σX :
def
σX2 = Var[X] = E[(X − E[X])2 ] = E[X2 ] − E[X]2
pXY (x, y) = pX(x) · pY(y)
(∀x ∈ Mx , y ∈ My )
BINOMIALVERTEILUNG
Die Wahrscheinlichkeit, daß ein Ereignis der Wahrscheinlichkeit p
nach n Bernoulli-Experimenten (i.i.d.) genau r-mal auftritt:
n
n
n!
def
· px (1 − p)n−x ,
=
B(x | n, p) =
x
x
(n − x)! · x!
Definition 7.10
Eine Folge (Xi )i∈IN diskreter Zufallsvariablen über (Ω, A, P)
heißt unabhängig, wenn alle Tupel
Der Mittelwert ist µ = np und die Varianz ist σ 2 = np(1 − p).
unabhängig sind.
NORMALVERTEILUNG
Für große Werte von n und x nähert sich obige Binomialverteilung
einer Normal- oder Gaußverteilungsdichte
Die Folge (Xi )i∈IN heißt stationär, wenn für alle Variablentupel, für alle r ∈ IN und alle xi ∈ M gilt:
def
N (x | µ, σ 2 ) =
1
−1
√
·e 2
σ 2π
x−µ
σ
2
mit demselben Erwartungswert und derselben Varianz an.
(Xi1 , . . . , Xin ) ,
i1 < i2 < . . . < in , n ∈ IN
P(Xi1 = x1 , . . . , Xin = xn) = P(Xi1 +r = x1 , . . . , Xin +r = xn )
Wahrscheinlichkeitstheorie – IV.2
E.G. Schukat-Talamazzini, FSU Jena
ZUFALLSVEKTOREN
Für Vektoren X = (X1, . . . , Xn )⊤ von Zufallsvariablen Xi : Ω → Mi
lautet die gemeinsame Verteilung
WAHRSCHEINLICHKEITSMODELL FÜR TEXTE
Wir betrachten vorerst o.B.d.A. Texte der Länge n ∈ IN.
Ω = Vn ,
def
pX(x) = P(X1 = x1 , X2 = x2 , . . . , Xn = xn ) .
A = PΩ
Die Wortvorkommen werden durch die Zufallsvariablen
Für jede Teilmenge A ⊂ X der Variablenmenge definiert man die Randverteilung ( Marginalverteilung“)
”
X
X
pA (a) =
···
p X (xa )
beschrieben. Für die Satzwahrscheinlichkeit
durch Summation über alle Wertekombinationen der Variablen aus
X \ A.
schreiben wir kürzer P(w1 . . . wn ) oder P(w).
Im Laplace-Raum gilt offenbar P(w ) = 1/Ln für alle Sätze w ∈ Ω.
STATISTISCHE UNABHÄNGIGKEIT
Die Zufallsvariablen X1 , . . . , Xn heißen unabhängig, wenn gilt:
RANDVERTEILUNG
pX (x) =
n
Y
pXi (xi )
bzw.
P(X = x) =
n
Y
P(Xi = xi )
i=1
i=1
Aus der (allgemeinen) Unabhängigkeit folgt die paarweise Unabhängigkeit aller Variablen Xi , Xj mit 1 ≤ i < j ≤ n.
Die Umkehrung dieser Aussage ist i.a. falsch !
STICHPROBEN
Charakterisiert X ein Zufallsexperiment, so wird dessen n-malige, voneinander unabhängige Ausführung durch einen Vektor Xn := (X1 , . . . , Xn )
von i.i.d. Zufallsvariablen beschrieben.
Eine Realisierung x = (x1 , . . . , xn ) des Ziehungsvorganges wird als
Stichprobe bezeichnet.
Die Stichprobenverteilungsdichte lautet:
P(Xn = x) = pX1 ...Xn (x) =
n
Y
pXi (xi ) =
n
Y
i=1
i=1
pX (xi) =
n
Y
P(X = xi )
i=1
ZUFALLSFOLGEN
Die Verteilung einer Folge (Xi )i∈IN ist durch die Gesamtheit aller ihrer
endlichen Randverteilungen definiert.
STARKES GESETZ GROSSER ZAHLEN
Es seien die ZV der Folge (Xi )i∈IN unabhängig und identisch verteilt
und es existiere der Wert µ = E[X1 ]. Dann gilt P-fast sicher:
n
1X
lim
Xi = µ
n→∞ n
i=1
Xi : (w1 , . . . , wn ) 7→ wi
(bzw. 7→ i ∈ IN ⊂ IR)
P(X1 = w1 , X2 = w2 , . . . , Xn = wn )
P(X1 = w1 ) =
XX
w2
w3
···
X
P(w1 . . . wn )
wn
BEDINGTE WAHRSCHEINLICHKEIT
P(X2 = w2 | X1 = w1 ) =
P(w1 w2 )
P(X1 = w1 , X2 = w2 )
=
P(X1 = w1 )
P(w1 )
RELATIVE HÄUFIGKEIT
P̂(w2 |w1 ) =
P̂(w1 w2 )
#N (w1 w2 )
#N (w1 w2 )/N
=
=
#N (w1 )/N
#N (w1 )
P̂(w1 )
BAYESFORMEL
P(w2 |w1 ) =
Die Kausalität (Ursache
P(w1 |w2 )P(w2 )
P(w1 )
Wirkung) besitzt keine Vorzugsrichtung.
KETTENREGEL
P(w1 . . . wn ) = P(w1 ) · P(w2 |w1 ) · P(w3 | w1 w2 ) · . . . · P(wn | w1 . . . wn−1 )
WORTSELEKTION VORWÄRTS/RÜCKWÄRTS
o
n
big“
dog“ ... ... ...
the“
”pig“
”
”
”
Vergleiche die beiden konkurrierenden Wahrscheinlichkeiten
P( the“) · P( big“ | the“) · P( dog“ | the“, big“)
”
”
”
”
”
”
P( the“) · P( pig“ | the“) · P( dog“ | the“, pig“)
”
”
”
”
”
”
Der Bringer“ ist hier sicherlich P( big“ | the ... dog“).
”
”
”
Herunterladen