Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Scheffer/Vanck: Sprachtechnologie Deskriptive Statistik: Beschreibung (Tabellen, Diagramme, etc), Untersuchung von Eigenschaften von Daten (langweilig). Induktive Statistik oder auch Inferenzstatistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? (spannend, maschinelles Lernen.) 2 Thomas Bayes 1702-1761 „An essay towards solving a problem in the doctrine of chances“, 1764 veröffentlicht. Scheffer/Vanck: Sprachtechnologie 3 Frequentistische / Bayessche Wahrscheinlichkeit Frequentische Wahrscheinlichkeiten Scheffer/Vanck: Sprachtechnologie Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.B. Teilchenzerfall). Bayessche, „subjektive“ Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens von Ereignissen bezogen auf einen Grad von Informiertheit. Unsicherheit bedeutet hier Mangel an Information. Wie wahrscheinlich ist es, dass der Verdächtige das Opfer umgebracht hat? Neue Informationen (z.B. Fingerabdrücke) können diese subjektive Wahrscheinlichkeiten verändern. 4 Zufallsvariablen € Ereignisraum Ω: Ist in der Regel R Zufallsvariable ist eine Abbildung X : Ω → R Beispiel: Ω = {1,2,3} und Wahrscheinlichkeitsmaß P weist jedem Ereignis ω einen Wahrscheinlichkeit zu. D.h. P : Ω → [0,1] Beispiel: 1 1 1 € P(1) = ,P(2) = ,P(3) = 4 2 4 (nennt man auch Wahrscheinlichkeitsverteilung) € Realisierung der dann gilt für die konkrete Zufallsvariable X(3) = 6 € 1 1 3 1 oder P(X ∈ {4,6}) = + = P(X(ω ) = 6) = Scheffer/Vanck: Sprachtechnologie X(ω ) = 2ω € 2 2 4 4 5 € Bedingte Wahrscheinlichkeiten Wie beeinflusst zusätzliche Information die Wahrscheinlichkeitsverteilung? Scheffer/Vanck: Sprachtechnologie Bedingte Wahrscheinlichkeit eines Ereignisses: Bedingte Verteilung: Randverteilung, Marginalisieren: 6 Konjunktion von Ereignissen Wahrscheinlichkeit für Eintreten mehrerer Ereignisse: Scheffer/Vanck: Sprachtechnologie Gemeinsame Verteilung zweier Zufallsvariablen: Gemeinsame Verteilung mehrerer Variablen: 7 Unabhängigkeit Zwei Zufallsvariablen sind unabhängig, wenn: Scheffer/Vanck: Sprachtechnologie Äquivalent dazu 8 Diskrete, kontinuierliche Verteilungen Diskrete Zufallsvariablen: Beispiel: Anzahl „Köpfe“ bei 100 Münzwürfen. Kontinuierliche Zufallsvariablen besitzen Wahrscheinlichkeitsdichtefunktion fX, so dass: Verteilungsfunktion: Beispiel: IQ, Körpergrößen Scheffer/Vanck: Sprachtechnologie 9 Erwartungswert, Standardabweichung Erwartungswert einer Zufallsvariable: bzw Varianz: Erwartete quadrierte Abweichung von X von E(X) Standardabweichung: Erwartete Abweichung Rechenregeln: E(αX + βY ) = αE(X) + βE(Y ) Scheffer/Vanck: Sprachtechnologie € Var(αX + βY ) = α 2Var(X) + β 2Var(Y ) € € 10 Bayes‘ Theorem Erklärung, Ursache für eine Beobachtung: Scheffer/Vanck: Sprachtechnologie P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“. P(Beobachtung|Ursache): Likelihood. P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“. 11 Bayes‘ Theorem: Beispiel Die Erbtante ist tot. Bruder b und Schwester s sind verdächtig. DNS-Analyse der Spuren ergibt: Scheffer/Vanck: Sprachtechnologie P(DNS-Spuren | Täter=b) = 0.98 P(DNS-Spuren | Täter=s) = 0.99 90% aller Morde werden von Männern begangen: P(Täter=b) = 0.9, P(Täter=s) = 0.1. Bestimmen Sie: P(Täter=b | DNS-Spuren), P(Täter=s | DNS-Spuren). Plausibelste (Maximum-Likelihood-) Hypothese argmaxt P(DNS-Spuren | Täter=t) Wahrscheinlichste (Maximum-A-Posteriori-) Hypothese argmaxt P(Täter=t | DNS-Spuren) 12 Lernen und Vorhersage Lernen: Scheffer/Vanck: Sprachtechnologie Vorhersage: Warum Unterteilung in Suche nach einem Modell und Vorhersage mithilfe des Modells? 13 Bayessches Lernen und Vorhersage Gegeben: Scheffer/Vanck: Sprachtechnologie Trainingsdaten L, neue Instanz x. Gesucht: Wahrscheinlichkeit für Wert y für gegebenes x. Bayes-Hypothese: wahrscheinlichstes y. Minimiert Risiko einer falschen Vorhersage. Bayes-optimale Entscheidung. 14 Bayessches Lernen und Vorhersage Bayes-Hypothese: wahrscheinlichstes y. Scheffer/Vanck: Sprachtechnologie Minimiert Risiko einer falschen Vorhersage. Berechnet: Bayesian Model Averaging Vorhersage, gegeben Modell Modell gegeben Trainingsdaten Bayessches Lernen: Mitteln der Vorhersage über alle Modelle. Gewichtung: wie gut passt Modell zu Trainingsdaten. 15 Bayessches Lernen und Vorhersage Bayes-Hypothese: wahrscheinlichstes y, gegeben x und alle verfügbaren Daten. Scheffer/Vanck: Sprachtechnologie Weiter auflösen: Bayes‘ Gleichung Posterior, A-PosterioriVerteilung Bayessche Regel: Posterior = Likelihood x Prior. Likelihood, Wie gut passt Modell zu Daten? Prior, A-PrioriVerteilung Normierungskonstante 16 Bayessche Regel Bayes‘ Gleichung Likelihood P(L | θ). Scheffer/Vanck: Sprachtechnologie Wie wahrscheinlich wären die Trainingsdaten, wenn θ das richtige Modell wäre. Wie gut passt Modell zu den Daten. 17 Bayessche Regel Bayes‘ Gleichung Prior P(θ). Scheffer/Vanck: Sprachtechnologie Wie wahrscheinlich ist Modell θ bevor wir irgendwelche Trainingsdaten gesehen haben. Annahmen über P(θ) drücken datenunabhängiges Vorwissen über Problem aus. 18 Binomialverteilte Zufallsvariablen „Echte“ Wahrscheinlichkeiten für Ereignisse kennen wir nie. Mit Bayes Regel können wir Aussage über echte Wahrscheinlichkeit machen, gegeben Daten. Beispiel: Münzwurf. Scheffer/Vanck: Sprachtechnologie Wiederhole Münzwurfexperiment. Daten L: Nk mal Kopf, Nz mal Zahl. Likelihood: Binomialverteilung 19 Bayessche Regel Bayes‘ Gleichung Scheffer/Vanck: Sprachtechnologie Prior P(θ). Beispiel Münzwurf: Gutes Modell für Vorwissen über θ: Beta-Verteilung. αk und αz sind Hyperparameter der Verteilung. 20 Beispiel Münzwurf: Beta-Verteilung Warum gerade diese Definition? Besondere Eigenschaft: Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann: Scheffer/Vanck: Sprachtechnologie Posterior wieder Beta-verteilt. Interpretation der Hyperparameter: αk-1/ αz-1: wie oft im Leben haben wir bei Münzwurf schon Ergebnis Kopf/Zahl gesehen. 21 Bayessche Regel Bayes‘ Gleichung Posterior P(θ | L). Wie wahrscheinlich ist Modell θ, nachdem wir Daten L gesehen haben. Vorwissen P(θ ) und Trainingsdaten werden zu neuem Gesamtwissen P(θ | L) integriert. 22 Scheffer/Vanck: Sprachtechnologie Bayessche Regel Bayes‘ Gleichung Posterior P(θ | L). Beispiel Münzwurf: Wie wahrscheinlich ist Modell θ, nachdem wir Daten L gesehen haben. Vorwissen Beta(θ | αk, αz) und Beobachtungen Nk, Nz werden zu Posterior Beta(θ | αk +Nk, αz +Nz). Beta-Verteilungen sind die konjugierten Verteilungen für binomiale Beobachtungen. 23 Scheffer/Vanck: Sprachtechnologie Beispiel Münzwurf: Beta-Verteilung Geburt Kopf Scheffer/Vanck: Sprachtechnologie Kopf, Zahl … 24 Münzwurf: wahrscheinlichste Wahrscheinlichkeit Wahrscheinlichster Parameter θ. Scheffer/Vanck: Sprachtechnologie konstant Ableiten, Ableitung null setzen 25 Würfelwurf statt Münzwurf Münzwurf: 2 Ausgänge. Scheffer/Vanck: Sprachtechnologie Prior Beta-verteilt, Binomiale Likelihood, Posterior wieder Beta-verteilt. Modell für Prozesse mit binären Attributen. Würfelwurf: k Ausgänge (Text). Prior Dirichlet-verteilt, Likelihood Multinomial, Posterior wieder Dirichlet-verteilt. Modell für diskrete Prozesse mit mehrwertigen Attributen, z.B. Texte, Verweisdaten. 26 Multinomiale Zufallsvariablen „Echte“ Wahrscheinlichkeiten für Ereignisse kennen wir nie. Mit Bayes Regel können wir Aussage über echte Wahrscheinlichkeit machen, gegeben Daten. Wörter eines Textes. Scheffer/Vanck: Sprachtechnologie Jedes Wort eines Textes wird ausgewürfelt. Wort j wird mit Wahrscheinlichkeit θj gezogen. In Daten L kommt Wort j genau Nj mal vor. Likelihood: Multinomialverteilung 27 Bayessche Regel Bayes‘ Gleichung Scheffer/Vanck: Sprachtechnologie Prior P(θ). Beispiel Wörter eines Textes: Modell für Vorwissen über θ : Dirichlet-Verteilung. αj sind Hyperparameter der Verteilung. 28 Beispiel Text: Dirichlet-Verteilung Warum gerade diese Definition? Besondere Eigenschaft: Wenn wir den DirichletPrior in Bayes‘ Gleichung einsetzen, dann: Scheffer/Vanck: Sprachtechnologie Posterior wieder Dirichlet-verteilt. Interpretation der Hyperparameter: αj-1: wie oft im Leben haben wir bei schon Wort j gesehen. 29 MAP-Hypothese Um Risiko einer Fehlentscheidung zu minimieren: wähle Problem: In vielen Fällen gibt es keine geschlossene Lösung, explizite Integration über alle Modelle unpraktikabel. Maximum-A-Posteriori- (MAP-)Hypothese: wähle 30 Scheffer/Vanck: Sprachtechnologie MAP-Hypothese MAP-Hypothese: Scheffer/Vanck: Sprachtechnologie wähle Beispiel Münzwurf 31 MAP-Hypothese MAP-Hypothese: Scheffer/Vanck: Sprachtechnologie wähle Beispiel Text 32 ML-Hypothese Um MAP-Hypothese zu bestimmen müssen wir Posterior (Likelihood x Prior) kennen. Unmöglich, wenn kein Vorwissen (Prior) existiert. Maximum-Likelihood- (ML-)Hypothese: Scheffer/Vanck: Sprachtechnologie wähle Beispiel Münzwurf: Berücksichtigt nur Beobachtungen in L, kein Vorwissen. 33 Wahrscheinlichkeiten schätzen Binomiale Beobachtung (Münzwürfe): Scheffer/Vanck: Sprachtechnologie gerade behandelt, konjugierte Verteilung Beta. Multinomiale Verteilung: Diskrete Ereignisse, mehr als zwei Werte. Beispiel: Text, Folge diskreter Wörter. Geschlossene Lösung, konjugierte Verteilung Dirichlet. 34