Text, Korpus und Zählung ssm Fakultät für Mathematik und Informatik INSTITUT FÜR INFORMATIK Prof. E.G. Schukat-Talamazzini TEXTKORPUS Textsammlung für linguistische Zwecke Vorlesung im Wintersemester STOCHASTISCHE GRAMMATIKMODELLE 7. Wahrscheinlichkeitstheorie Als es zu schneien aufgeh|rt hatte, verlie~ Johanna von Rotenhoff, ohne ein rechtes Ziel zu haben, das Gutshaus. Mechanisch einen Fu~ vor den anderen setzend, schlug sie den Weg zum verschneiten Park ein. Johanna von Rotenhoff schritt wie eine Marionette, die keinen eigenen Willen hat. Ihr Gesicht war ungew|hnlich bleich, und ihre Augen waren vom Weinen ger|tet. So war es in letzter Zeit |fter. Ihre bisher gl}ckliche Ehe war ins Wanken geraten. Niemals h{tte Johanna an der Treue Viktors zu zweifeln gewagt. Und jetzt ? Seitdem die Schauspielerin Melanie Nowara in der nahe gelegenen Kreisstadt am Stadttheater verpflichtet war, gab es kaum einen Abend, an dem Viktor zu Hause war. Johanna sa~ dann am Fenster und blickte hinaus in die dunkle Nacht. Erst wenn die Lichter von Viktors Wagen in der Birkenallee aufblitzten, ging sie zu Bett. Aber auch dann konnte sie nicht einschlafen. Manchmal kam es sogar vor, da~ Viktor die ganze Nacht }ber nicht nach Hause kam . Die ......... ......... ......... Definition 7.1 • Textkorpora · Wortvorkommenstatistik Es sei V eine endliche Menge von Wörtern (Wortschatz). • Laplaceraum • Relative Häufigkeiten Ein Text ist eine Folge w = w1 . . . wn von Wörtern wi ∈ V. • Kolmogorov-Axiome Ein Textkorpus ist eine Menge von Texten. • bedingte Wahrscheinlichkeiten • Zufallsvariable · Zufallsvektoren · Zufallsfolgen Ein Element vj der Menge V heißt Worteintrag (’type’). Ein Glied wi der Folge w heißt Wortvorkommen (’token’). Vorlesung im Wintersemester STOCHASTISCHE GRAMMATIKMODELLE Erstellt am 30. September 2013 ABSTRAKTIONSEBENE ’SATZ’ Erforderlichenfalls definiere man einen Text als Folge von Sätzen und einen Satz als Folge von Wörtern. Ebensogut läßt sich die neue Abstraktionsebene ’Satz’ formal durch die Erweiterung des Wortschatzes V durch eine Satzendemarkierung ’EOS’ repräsentieren. KORPUSAUFBEREITUNG Technisch betrachtet besteht ein maschinenlesbarer Text zunächst nur aus einer Folge von Zeichen (ASCII, Unicode). Es ist also — manuell oder regelgestützt — eine Wortsegmentierung zu erstellen und explizit im Datenformat zu verankern (z.B. XMLNotation). ANNOTATION Zu Lernzwecken können die Wörter, Sätze oder Texte eines Korpus mit einer kategorialen Markierung versehen sein. (Wortart, Lemma, KNG; Modus, Rolle; Thema, Sorte, Sprache) Die Markierung entstammt einem endlichen Alphabet oder einer Algebra. TOKEN + TYPE Wieviele Wörter beinhaltet ’Tom Sawyer’ ? Wieviele verschiedene Wörter beinhaltet ’Tom Sawyer’ ? Wahrscheinlichkeitstheorie – I.1 E.G. Schukat-Talamazzini, FSU Jena Text, Korpus und Zählung ssm WORTZÄHLUNG Definition 7.2 Es sei w ∈ V ∗ ein Text der Länge T und v ∈ V ein Wort sowie u ∈ V n ein Worttupel. Dann bezeichne def #w (v) = T X 1wt =v t=1 die Anzahl der Wortvorkommen von v in w und def #w (u) = T X 1wt−n+1...wt=u1 ...un t=n (71.370) (8.018) die Anzahl der Tupelvorkommen von u in w . BEISPIEL: Wahrscheinlichkeitstheorie – I.2 the and a to of was it in that he I his you Tom with ... fifty-two ... terrorism ... Sayyer ... 3332 2972 1775 1725 1440 1161 1027 906 877 877 783 772 686 679 642 ... 1 ... 0 ... 3 ... Hapax Legomenon unbeobachtet Unwort (’OOV’) E.G. Schukat-Talamazzini, FSU Jena Text, Korpus und Zählung ssm Text, Korpus und Zählung ZIPF-MANDELBROT-GESETZ Unsortierte Worthäufigkeiten 1 Anzahl ∝ Rang Unsortierte Wortvorkommenzahl Anzahl der Wortvorkommen 500 LIMAS-Texte 450 400 350 300 250 200 150 100 50 BEISPIEL: 0 0 1000 2000 3000 4000 Worteintrag (laufende Nummer) 5000 Sortierte Wortvorkommenzahl 500 6000 Sortierte Worthäufigkeiten LIMAS-Texte 450 Wort Anzahl Rang 3332 2972 1775 877 410 294 172 138 104 51 30 21 16 ... 2 1 1 2 3 10 20 30 50 70 100 200 300 400 500 ... 4000 8000 the and a he but be one more two turned you’ll name comes ... could Applausive Anzahl×Rang 3332 5944 5235 8770 8400 8820 8600 9660 10400 10200 9000 8400 8000 ... 8000 8000 Sortierte Wortvorkommenzahl 10000 LIMAS-Texte freq = 2400 • 1/rang 400 350 Anzahl (logarithmisch) Anzahl der Wortvorkommen ssm 300 250 200 150 100 50 1000 100 10 0 0 100 200 300 400 500 600 Wortrang 700 800 900 1000 1 1 10 100 Wortrang (logarithmisch) 1000 Die meisten Worteinträge sind ziemlich selten. Die meisten Wortvorkommen sind ziemlich häufig. Wahrscheinlichkeitstheorie – I.3 E.G. Schukat-Talamazzini, FSU Jena Wahrscheinlichkeitsparadigmen ssm Wahrscheinlichkeitstheorie – I.4 E.G. Schukat-Talamazzini, FSU Jena BEISPIELE • Würfeln mit einem Würfel (n = 6) Klassische (a priori) Wahrscheinlichkeit Definition 7.3 Wenn ein Zufallsexperiment genau n sich gegenseitig ausschließende, gleichwahrscheinliche Ausgänge ei besitzt, so heißt die Menge Ω = {e1, . . . , en} Laplaceraum und der Ausgang ei das i-te Elementarereignis. Eine Teilmenge A ⊂ Ω heißt Ereignis über Ω. Ist nun nA die Elementezahl von A, so heißt P(A) = |A| nA = n |Ω| • Eine Karte aus einem Skatblatt ziehen. (n = 32) • A = Wert As oder Farbe Kreuz“ ” nA = 4 + 8 − 1 = 11 P (A) = 11/32 BEMERKUNGEN • Alle Wahrscheinlichkeiten liegen zwischen 0 und 1. • Keine Empirie beteiligt — rein deduktives Verfahren! • Problem unendlicher Ereignisräume: A = Ziehen einer geraden Zahl aus n ∈ IN“, P (A) = 1/2 ” • Warum? Grenzwertbildung für das Ziehen einer geraden Zahl n ∈ {1, 2, . . . , N } PN (A) = die Wahrscheinlichkeit von A in Ω. Neue Zahlenanordnung: IN = {1, 3, 2, 5, 7, 4, 9, 11, 6, . . .} N ÷ 2 1 → N 2 PN (A) → 1/3 • Werfen einer unfairen Münze ( bias“) ” Geburt eines Jungen/Mädchens in Chicago Ableben eines Menschen im Alter < 50 ... ... ... ... ... LAPLACE: Prinzip vom unzureichenden Grunde“ ” KOMBINATORIK: Anzahl günstiger Fälle“ P = ” Anzahl möglicher Fälle“ ” Wahrscheinlichkeitstheorie – II.1 • A = eine gerade Zahl würfeln“ P (A) = 3/6 = 1/2 ” P (A) = 4/6 = 2/3 • A = eine Zahl größer als 2 würfeln“ ” • Werfen zweier Münzen. Es ist n = 4 wegen Ω = {KK, ZZ, KZ, ZK}. E.G. Schukat-Talamazzini, FSU Jena Wahrscheinlichkeitsparadigmen ssm Statistische (a posteriori) Wahrscheinlichkeit absolute relative erwartete relative Häufigkeit 56 44 100 0.56 0.44 1.00 0.50 0.50 1.00 Kopf Zahl P Wahrscheinlichkeitsparadigmen ssm Axiomatische Wahrscheinlichkeit Definition 7.5 Es sei Ω eine Menge von Elementarereignissen. Die Menge A ⊆ PΩ heißt σ-Algebra über Ω falls gilt: 1. Ω ∈ A Definition 7.4 Gegeben sei ein Zufallsexperiment mit einer Menge A = {Ai | i ∈ I} einander ausschließender* und erschöpfender* Ereignisse. Es bezeichnen für N ∈ IN die Werte #N (Ai) , i∈I die Anzahl der beobachteten Auftreten der Ereignisse Ai nach N -maliger Wiederholung des Zufallsexperiments. Dann heißen die Grenzwerte #N (Ai) N der relativen Ereignishäufigkeiten die empirischen Wahrscheinlichkeiten der Ereignisse Ai, i ∈ I des beobachteten Zufallsexperiments. def P(Ai) = lim N →∞ *) verallgemeinerbar auf überschneidende Ereignisse 3. Wenn Ai ∈ A für alle i ∈ IN: [ Ai ∈ A i∈IN Ist A eine σ-Algebra über Ω und P : A → IR, so heißt (Ω, A, P) Wahrscheinlichkeitsraum über Ω genau dann, wenn die Kolmogorov-Axiome gelten: 1. Für alle A ∈ A ist P(A) ≥ 0 2. P(Ω) = 1 3. Falls alle Ai, i ∈ IN, paarweise disjunkt sind: ! X [ P = P(Ai) Ai i∈IN i∈IN BAYESSCHES SCHLIESSEN: EMPIRISCHE ASYMPTOTIK: Anzahl günstiger Proben“ P ≈ ” Anzahl aller Proben“ ” Wahrscheinlichkeitstheorie – II.2 2. Für alle A ∈ A ist das Komplement Ā ∈ A E.G. Schukat-Talamazzini, FSU Jena HÄUFIGKEITSORIENTIERTER WAHRSCHEINLICHKEITSBEGRIFF Empirische Sichtweise (frequentist view) Unendliche Folge identisch und unabhängig verteilter (i.i.d.) Zufallsexperimente Der Ausgang jedes Einzelereignisses ist unvorhersagbar. Die langfristige Auftretensquote bei unabhängiger Wiederholung eines Zufallsexperiments strebt gegen einen charakteristischen Wert. STATISTIK Stichprobenbegriff: ω ⊂ Ω, ω endlich Asymptotische Theorie, Hypothesentest AXIOMATISCHER WAHRSCHEINLICHKEITSBEGRIFF Was wenn das Zufallsexperiment“ unwiederholbar ist ?! ” ( Atomschlag bis 2010“) ” Postulieren idealer oder subjektiver Wahrscheinlichkeiten Kalkül für probabilistisches Folgern: Wenn P( Neugeborenes ist weiblich“) = p, ” wie groß ist dann P( ≥ 3 Mädchen unter 10 Neugeborenen“) ? ” BEISPIELE • Ω = {1, 2, 3, 4, 5, 6} beim einmaligen Würfeln. A = P(Ω) und |A| = 26 = 64. • Ω = {(a, b, c) | a, b, c ∈ {K, Z}} (Simultanwurf von Penny, Nickel und Dime) |A| = 28 = 256 Ereignisse • Ω = IN (Anzahl der Verkehrstoten in Deutschland, 1984) Ereignisse sind zum Beispiel Ak = {k} oder A≤k = {1, . . . , k} • Ω = IR+ 0 (Lebensdauer einer Glühbirne von OSRAM) Ereignisse sind Aa,b = [a, b] = {s | a ≤ s ≤ b} • Ω = {(k, x) | k ∈ IN0 , x ∈ IR+ } (Anzahl der Regenfälle und Niederschlag in ℓ/m2) • Ω = IR5 (xi = Ertrag der i-ten Getreidesorte) Ein Ereignisse ist A = {x | x3 ≥ 2 · x1 } WAHRSCHEINLICHKEITSRAUM Die Kolmogorov-Axiome postulieren eine σ-Algebra mit nichtnegativem, endlichem, normierten und σ-additivem Maßfunktional P(∆). Ein diskreter W-Raum verallgemeinert auf kanonische Weise (P(e) 6= const) einen Laplace-Raum. Ein kontinuierlicher W-Raum definiert nicht notwendig Wahrscheinlichkeiten für (alle) seine Elementarereignisse. P(A) = P(A | | Vorwissen“ {z }, |”Stichprobendaten“ {z }) ” subjektiv objektiv Wahrscheinlichkeitstheorie – II.3 E.G. Schukat-Talamazzini, FSU Jena Wahrscheinlichkeitsparadigmen ssm Lemma 7.1 Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann ist A insbesondere eine Boolesche Algebra über Ω und es gelten für P : A → [0, 1] die Aussagen: 1. P(∅) = 0 2. P(Ā) = 1 − P(A) 3. P(A) = P(AB) + P(AB̄) 4. P(A \ B) = P(A) − P(AB) 5. P(A∪B) = P(A) + P(B) − P(AB) 6. A ⊆ B P(A) ≤ P(B) 7. P(A1 ∪ . . . ∪An) ≤ P(A1) + . . . + P(An) Dabei bezeichne AB den Durchschnitt A∩B und A \ B die Differenz AB̄ zweier Ereignisse. In einem diskreten Wahrscheinlichkeitsraum |Ω| < ∞ und A = PΩ gilt für jedes Ereignis A ∈ A die Aussage X P({e}) P(A) = e∈A (Es darf Ω sogar abzählbar unendlich sein.) Wahrscheinlichkeitstheorie – II.4 E.G. Schukat-Talamazzini, FSU Jena Bedingte Wahrscheinlichkeiten ssm Zufallsvariable ssm Definition 7.7 Eine Funktion Definition 7.6 Die Wahrscheinlichkeit X : Ω → IR, P(AB) P(B) def P(A|B) = die jedem Ereignis e ∈ Ω eine reelle Zahl X(e) zuordnet, heißt Zufallsvariable. eines Ereignisses A bei vorliegendem Ereignis B heißt bedingte Wahrscheinlichkeit. Wir bezeichnen P(A) als a priori Wahrscheinlichkeit von A und P(A|B) als a posteriori Wahrscheinlichkeit von A bei Vorliegen von B. Lemma 7.2 (Bayesformel) Ist X : Ω → M und M ⊂ IR abzählbar, so heißt X diskrete Zufallsvariable. Die Zufallsvariable X : Ω → {0, 1} heißt Bernoulli-Experiment. Definition 7.8 Sei X eine Zufallsvariable über dem Wahrscheinlichkeitsraum (Ω, A, P). Dann bezeichnet P(B|A) · P(A) P(A|B) = P(B) def FX (x) = P(X ≤ x) Lemma 7.3 (Totale Wahrscheinlichkeit)S Für A1, . . . , An paarweise disjunkt und Ω = Ai gilt: P(B) = n X i=1 n Y i=1 Für diskrete Zufallsvariable X bezeichne P(B|Ai) · P(Ai) def pX(x) = P(X = x) = P(Ax) mit Ax = {e | X(e) = x} und für stetige Zufallsvariable X bezeichne def d FX(x) fX(x) = dx die Wahrscheinlichkeitsdichtefunktion von X. Lemma 7.4 (Kettenregel) P(A1 . . . An) = die Verteilungsfunktion von X. X heißt stetig, wenn FX stetig ist. P(Ai | A1 . . . Ai−1) = P(A1) · P(A2|A1) · P(A3|A1 A2) · . . . · P(An |A1 . . . An−1) Wahrscheinlichkeitstheorie – III.1 E.G. Schukat-Talamazzini, FSU Jena STETIGE ZUFALLSVARIABLE Z FX (x) = Wahrscheinlichkeitstheorie – IV.1 E.G. Schukat-Talamazzini, FSU Jena Zufallsvariable x ssm fX (ξ) dξ −∞ Zufallsvektoren und Zufallsfolgen DISKRETE ZUFALLSVARIABLE X FX (x) = pX (ξ) Definition 7.9 Seien X und Y diskrete Zufallsvariablen über (Ω, A, P) mit Wertebereichen Mx und My . Dann heißt Mx × My → [0, 1] pXY : (x, y) 7→ P(X = x, Y = y) x≥ξ∈M ERWARTUNGSWERT UND VARIANZ Stetige Zufallsvariable: Z def µX = E[X] = ξ · fX (ξ) dξ IR die gemeinsame Verteilung von X und Y und die Funktionen def X def X pX(x) = pXY(x, y) , pY(y) = pXY (x, y) Diskrete Zufallsvariable: def µX = E[X] = X ξ∈M ξ · pX (ξ) y∈My Funktion g : IR → IR einer Zufallsvariablen: Z def E[g(X)] = g(ξ) · fX (ξ) dξ x∈Mx heißen die Randverteilungen für X bzw. für Y. IR Die Zufallsvariablen X, Y heißen unabhängig, falls gilt: Varianz σX2 und Standardabweichung σX : def σX2 = Var[X] = E[(X − E[X])2 ] = E[X2 ] − E[X]2 pXY (x, y) = pX(x) · pY(y) (∀x ∈ Mx , y ∈ My ) BINOMIALVERTEILUNG Die Wahrscheinlichkeit, daß ein Ereignis der Wahrscheinlichkeit p nach n Bernoulli-Experimenten (i.i.d.) genau r-mal auftritt: n n n! def · px (1 − p)n−x , = B(x | n, p) = x x (n − x)! · x! Definition 7.10 Eine Folge (Xi )i∈IN diskreter Zufallsvariablen über (Ω, A, P) heißt unabhängig, wenn alle Tupel Der Mittelwert ist µ = np und die Varianz ist σ 2 = np(1 − p). unabhängig sind. NORMALVERTEILUNG Für große Werte von n und x nähert sich obige Binomialverteilung einer Normal- oder Gaußverteilungsdichte Die Folge (Xi )i∈IN heißt stationär, wenn für alle Variablentupel, für alle r ∈ IN und alle xi ∈ M gilt: def N (x | µ, σ 2 ) = 1 −1 √ ·e 2 σ 2π x−µ σ 2 mit demselben Erwartungswert und derselben Varianz an. (Xi1 , . . . , Xin ) , i1 < i2 < . . . < in , n ∈ IN P(Xi1 = x1 , . . . , Xin = xn) = P(Xi1 +r = x1 , . . . , Xin +r = xn ) Wahrscheinlichkeitstheorie – IV.2 E.G. Schukat-Talamazzini, FSU Jena ZUFALLSVEKTOREN Für Vektoren X = (X1, . . . , Xn )⊤ von Zufallsvariablen Xi : Ω → Mi lautet die gemeinsame Verteilung WAHRSCHEINLICHKEITSMODELL FÜR TEXTE Wir betrachten vorerst o.B.d.A. Texte der Länge n ∈ IN. Ω = Vn , def pX(x) = P(X1 = x1 , X2 = x2 , . . . , Xn = xn ) . A = PΩ Die Wortvorkommen werden durch die Zufallsvariablen Für jede Teilmenge A ⊂ X der Variablenmenge definiert man die Randverteilung ( Marginalverteilung“) ” X X pA (a) = ··· p X (xa ) beschrieben. Für die Satzwahrscheinlichkeit durch Summation über alle Wertekombinationen der Variablen aus X \ A. schreiben wir kürzer P(w1 . . . wn ) oder P(w). Im Laplace-Raum gilt offenbar P(w ) = 1/Ln für alle Sätze w ∈ Ω. STATISTISCHE UNABHÄNGIGKEIT Die Zufallsvariablen X1 , . . . , Xn heißen unabhängig, wenn gilt: RANDVERTEILUNG pX (x) = n Y pXi (xi ) bzw. P(X = x) = n Y P(Xi = xi ) i=1 i=1 Aus der (allgemeinen) Unabhängigkeit folgt die paarweise Unabhängigkeit aller Variablen Xi , Xj mit 1 ≤ i < j ≤ n. Die Umkehrung dieser Aussage ist i.a. falsch ! STICHPROBEN Charakterisiert X ein Zufallsexperiment, so wird dessen n-malige, voneinander unabhängige Ausführung durch einen Vektor Xn := (X1 , . . . , Xn ) von i.i.d. Zufallsvariablen beschrieben. Eine Realisierung x = (x1 , . . . , xn ) des Ziehungsvorganges wird als Stichprobe bezeichnet. Die Stichprobenverteilungsdichte lautet: P(Xn = x) = pX1 ...Xn (x) = n Y pXi (xi ) = n Y i=1 i=1 pX (xi) = n Y P(X = xi ) i=1 ZUFALLSFOLGEN Die Verteilung einer Folge (Xi )i∈IN ist durch die Gesamtheit aller ihrer endlichen Randverteilungen definiert. STARKES GESETZ GROSSER ZAHLEN Es seien die ZV der Folge (Xi )i∈IN unabhängig und identisch verteilt und es existiere der Wert µ = E[X1 ]. Dann gilt P-fast sicher: n 1X lim Xi = µ n→∞ n i=1 Xi : (w1 , . . . , wn ) 7→ wi (bzw. 7→ i ∈ IN ⊂ IR) P(X1 = w1 , X2 = w2 , . . . , Xn = wn ) P(X1 = w1 ) = XX w2 w3 ··· X P(w1 . . . wn ) wn BEDINGTE WAHRSCHEINLICHKEIT P(X2 = w2 | X1 = w1 ) = P(w1 w2 ) P(X1 = w1 , X2 = w2 ) = P(X1 = w1 ) P(w1 ) RELATIVE HÄUFIGKEIT P̂(w2 |w1 ) = P̂(w1 w2 ) #N (w1 w2 ) #N (w1 w2 )/N = = #N (w1 )/N #N (w1 ) P̂(w1 ) BAYESFORMEL P(w2 |w1 ) = Die Kausalität (Ursache P(w1 |w2 )P(w2 ) P(w1 ) Wirkung) besitzt keine Vorzugsrichtung. KETTENREGEL P(w1 . . . wn ) = P(w1 ) · P(w2 |w1 ) · P(w3 | w1 w2 ) · . . . · P(wn | w1 . . . wn−1 ) WORTSELEKTION VORWÄRTS/RÜCKWÄRTS o n big“ dog“ ... ... ... the“ ”pig“ ” ” ” Vergleiche die beiden konkurrierenden Wahrscheinlichkeiten P( the“) · P( big“ | the“) · P( dog“ | the“, big“) ” ” ” ” ” ” P( the“) · P( pig“ | the“) · P( dog“ | the“, pig“) ” ” ” ” ” ” Der Bringer“ ist hier sicherlich P( big“ | the ... dog“). ” ” ”