Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes‘sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde entwickelt Frage: Wie wirksam ist er? In wie viel % der Fälle verhindert er eine Infektion? Studie: Testpersonen werden geimpft; nach 1 Jahr wird untersucht, ob sie sich angesteckt haben Scheffer/Vanck: Sprachtechnologie 2 Was untersucht man? Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Daten (langweilig). Welcher Anteil der Testpersonen ist gesund geblieben? (= abzählen) Induktive Statistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? (spannend, maschinelles Lernen.) Wie viele Personen werden in Zukunft gesund bleiben? Wie sicher sind wir uns dessen? Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 3 Wahrscheinlichkeiten Frequentistische Wahrscheinlichkeiten Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.B. Teilchenzerfall). Bayes‘sche, „subjektive“ Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens von Ereignissen bezogen auf einen Grad von Informiertheit. Unsicherheit bedeutet hier Mangel an Information. Thomas Bayes 1702-1761 Wie wahrscheinlich ist es, dass der Impfstoff wirkt? Neue Informationen (z.B. Studienergebnisse) können diese subjektive Wahrscheinlichkeiten verändern. 4 Begriffe Wirksamkeit: Rate der Nicht-Infektionen Untersuchungen der n Patienten mögliche Untersuchungsergebnisse pro Patient Wahrscheinlichkeit, dass ein Patient gesund bleibt Bezeichung Modellparameter Zufallsvariablen Wertebereich der Zufallsv. Likelihood 5 Scheffer/Vanck: Sprachtechnologie Entität Zufallsvariablen Ein Zufallsexperiment ist ein definierter Prozess, in dem eine Beobachtung erzeugt wird Zufallsvariablen (mit Großbuchstaben bezeichnet) sind Variablen, deren Wert vom Ausgang eines Zufallsexperiments abhängt Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Formell: Zufallsvariablen bilden Elemente eines Ereignisraums auf numerische Werte ab Maschinelles Lernen: Wertebereich einer Zufallsvariable gleichgesetzt mit Ereignisraum; nichtnumerische Werte erlaubt (Vektoren, Bäume, Wörter, …) 6 Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsfunktion P weist jedem jedem möglichen Wert (mit Kleinbuchstaben bezeichnet) einer Zufallsvariable eine Wahrscheinlichkeit zu = Wahrscheinlichkeit, dass die Zufallsvariable X den Wert x annimmt Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines der möglichen Werte von X mit Zusatzinformation 7 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Likelihood Ereignis Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Wahrscheinlichkeit, dass der i-te Patient gesund bleibt, … … gegeben, dass die Wirksamkeitsrate gleich θ ist Modellparameter 8 Feinheiten der Notation P(X) Wahrscheinlichkeitsverteilung über alle möglichen Werte von X P(X = x) konkreter Wahrscheinlichkeitswert P(x) verkürzte Schreibweise von P(X = x), wenn eindeutig ist, welche Zufallsvariable gemeint ist Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 9 Diskrete Wahrscheinlichkeitsverteilung nennt man eine diskrete Wahrscheinlichkeitsverteilung, wenn X nur diskrete (im Gegensatz zu kontinuierlichen) Werte annehmen kann Wahrscheinlichkeiten liegen immer im Intervall Summe der Verteilungsfunktion über alle Werte = 1 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 10 Bernoulli-Verteilung Eine diskrete Verteilung mit den 2 möglichen Ereignissen 0 und 1 ist eine Bernoulli-Verteilung bestimmt durch genau einen Parameter: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Verteilungsfunktion: 11 Binomialverteilung Zusammenfassung mehrerer Bernoulli-verteilter Zufallsvariablen X1,…,Xn mit gleichem Parameter θ neue Zufallsvariable Z, die angibt, wie viele der Xi positiv sind: Z ist Binomial-verteilt mit Parametern θ und n Verteilungsfunktion: Binomialkoeffizient: Anzahl der Möglichkeiten, daus n Elementen z auszuwählen Wahrscheinlichkeit, dass z der Xi positiv sind Wahrscheinlichkeit, dass n-z der Xi negativ sind 12 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Gemeinsame Wahrscheinlichkeit ist die gemeinsame Wahrscheinlichkeitsverteilung der Zufallsvariablen X1 und X2 gemeinsamer Wertebereich: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie kartesisches Produkt z.B.: {beidePatientenInfiziert, Patient1infiziert&Patient2gesund, Patient1gesund&Patient2infiziert, beidePatientenGesund} 13 Abhängige Zufallsvariablen Zufallsvariablen X1 und X2 können abhängig oder unabhängig sein Unabhängig: P(X1, X2) = P(X1) P(X2) Beispiel: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 2 aufeinanderfolgende Münzwürfe Ergebnis des zweiten hängt nicht vom ersten ab Impliziert: P(X2 | X1) = P(X2) Abhängig: P(X1, X2) ≠ P(X1) P(X2) Beispiel: Grippeinfektionen von 2 Sitznachbarn 14 Bedingte Unabhängigkeit Zwei oder mehrere Zufallsvariablen können für sich genommen abhängig sein, aber unabhängig gegeben eine weitere Zufallsvariable wenn gilt: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie P(X1,X2|Y) = P(X1|Y) P(X2|Y) dann heißen X1 und X2 bedingt unabhängig gegeben Y Beispiel: Wirkrate des Impfstoffs bekannt → Infektionswahrscheinlichkeiten der Testpersonen unabhängig Wirkrate des Impfstoffs unbekannt → Beobachtung eines Teils der Testpersonen gibt Information über restliche Testpersonen 15 Rechenregeln Summenregel: Sind a und b disjunkte Ereignisse, dann gilt Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Beispiel: Sei X eine Zufallsvariable, die das Ergebnis eines Würfelwurfes beschreibt ungleich, da man P(X=2) doppelt zählen würde 16 Rechenregeln Randverteilung: Produktregel: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie egal, ob abhängig oder unabhängig verallgemeinert: 17 Satz von Bayes Umformungen der Produktregel Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie ergibt zusammen: Satz von Bayes 18 Satz von Bayes Erklärung, Ursache für eine Beobachtung: P(Ursache | Beobachtung ) = P ( Beobachtung | Ursache) P (Ursache) P ( Beobachtung ) P ( Beobachtung ) = ∑u P( Beobachtung | Ursache = u ) P(Ursache = u ) P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“. P(Beobachtung|Ursache): Likelihood. P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“. 19 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Satz von Bayes: Beispiel Diagnostik: P(Test positiv | Patient hat Krankheit) = 0,98 P(Test positiv | Patient hat die Krankheit nicht) = 0,05 P(Patient hat Krankheit) = 0,02 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Gesamtrate des Vorkommens dieser Krankheit Gesucht: Wahrscheinlichkeit, dass der Patient krank ist: P(krank=1 | Test=1) Plausibelste (Maximum-Likelihood-) Ursache argmaxk P(Test=1 | krank=k) Wahrscheinlichste (Maximum-A-Posteriori-) Ursache argmaxk P(krank=k | Test=1) 20 Prior und Posterior Subjektive Einschätzung, bevor man die Daten gesehen hat (a priori): Prior-Verteilung über die Modelle P(Patient ist krank) P(Wirksamkeit des Impfstoffs) Wie gut passen die Daten zum Modell: Likelihood P(Test | Krankheit) P(Testperson gesund | Wirksamkeit), P(X | θ) Subjektive Einschätzung, nachdem man die Daten gesehen hat (a posteriori): Posterior-Verteilung P(Krankheit | Test) P(Wirksamkeit | Studie), P(θ | X1,…,Xn) Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 21 Prior Woher bekommt man die Prior-Verteilung? Im Diagnostik-Beispiel relativ naheliegend Impfstudie: schwieriger; z.B. aus allen bisherigen Studien anderer Impfstoffe schätzen Es gibt keine „richtige“ Prior-Verteilung! Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie aber: unterschiedliche Prior-Verteilungen ermöglichen unterschiedlich gute Vorhersagen für die Zukunft Posterior-Verteilung ergibt sich deterministisch aus Prior und Likelihood der Beobachtungen durch Satz von Bayes 22 Prior der Impfstudie Verteilung über alle Wirkraten keine diskrete, sondern kontinuierliche Verteilung P(θ) beschreibt eine Dichtefunktion Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Häufige Wahl (bei Parameterraum ): Beta-Verteilung definiert durch 2 Parameter α und β Beta-Funktion; dient der Normalisierung 23 Beta-Verteilung Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Spezialfall: α = β = 1 →Gleichverteilung 24 Schema für Ermittlung der PosteriorVerteilung Gegeben: Prior-Verteilung P(θ) Beobachtungen x1,…,xn, Likelihood P(x1,…,xn | θ) Gesucht: Posterior-Verteilung P(θ | x1,…,xn) 1. Satz von Bayes anwenden 2. Randverteilung für kontinuierliche Parameter einsetzen Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 25 Ermittlung der Posterior-Verteilung: Beispiel Gegeben: Modellparameterraum Beta-Prior mit Parametern α und β : P(θ)=Beta(θ |α,β) Bernoulli-Likelihood binäre Beobachtungen x1,…,xn, bedingt unabhängig gegeben Modellparameter θ a Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie positive Beobachtungen, b negative Gesucht: Posterior P(θ | x1,…,xn) 26 1. Satz von Bayes Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 2. bedingte Unabhängigkeit 3. a positive, b negative Beob. 4. Bernoulli- und Beta-Verteilung einsetzen 5. Terme zus.-fassen, Randverteilungsformel 6. Definition der Beta-Funktion 7. Kürzen, Definition der Beta-Verteilung 27 Konjugierter Prior Im vorherigen Beispiel: Übergang vom Prior Beta(θ |α,β) Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie durch a positive und b negative Beobachtungen zum Posterior Beta(θ |α+a,β+b) algebraische Form von Posterior und Prior identisch Die Beta-Verteilung ist der konjugierte Prior zur Bernoulli-Likelihood Immer vorteilhaft, den konjugierten Prior zu verwenden, um zu garantieren, dass der Posterior effizient berechenbar ist 28 Rechenbeispiel: Impfstudie Prior: Beta mit α=1, β=5 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 8 gesunde Testpersonen, 2 infizierte ergibt Posterior: Beta mit α=9, β=7 29 Ermittlung des Posteriors: mechanisch Füllhöhe zu Beginn: Prior Likelihood-Funktion (nach hinten gewölbt) als Filter ergibt Posterior als resultierende Sandmenge Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Francis Galton, 1877 30 Parameterschätzung Bayes‘sche Inferenz liefert keinen Modellparameter, sondern Verteilung über Modellparameter Ermittlung des Modells mit der höchsten Wahrscheinlichkeit: MAP-Schätzung Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie „maximum-a-posteriori“ = maximiert den Posterior θMAP = argmaxθ P(θ | Beobachtungen) Im Gegensatz dazu: plausibelstes Modell = MLSchätzung „maximum-likelihood“ = maximiert die Likelihood ohne Berücksichtigung des Priors θML = argmaxθ P(Beobachtungen | θ) 31 Parameterschätzung: Beispiel Impfstudie: Prior: Beta mit α=1, β=5 8 gesunde Testpersonen, 2 infizierte ergibt Posterior: Beta mit α=9, β=7 ML-Schätzung: θML = argmaxθ P(Beobachtungen | θ) Lösungstipp: www.wolframalpha.com max(theta^8*(1-theta)^2) Likelihood-Funktion (keine Wahrscheinlichkeitsverteilung) MAP-Schätzung: θMAP = argmaxθ P(θ | Beobachtungen) 32 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Vorhersage = Vorhersage für Testdaten, gegeben eine Menge von Trainingsdaten P(Xneu | x1,…,xn) Vorhersage mit MAP-Schätzung: erst θMAP bestimmen durch θMAP = argmaxθ P(θ | x1,…,xn) dann P(Xneu | θMAP) bestimmen (Likelihood-Verteilung) ist manchmal einfach zu berechnen, ist aber mit Informationsverlust verbunden θMAP nicht der „wahre“ Modellparameter, sondern nur der wahrscheinlichste es wird ignoriert, dass auch andere Modelle in Frage kommen 33 Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Fragestellung: Welche Beobachtungen kann man in Zukunft erwarten, gegeben die Beobachtungen der Vergangenheit? Bayes-optimale Vorhersage Kein Zwischenschritt über das MAP-Modell, sondern direkte Herleitung der Vorhersage: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 1. Randverteilung 2. bedingte Unabhängigkeit mitteln über alle Modelle (Bayesian Model-Averaging) gewichtet durch: wie gut passt das Modell zu den früheren Beobachtungen? (Posterior) Vorhersage gegeben Modell 34 Vorhersage: Beispiel Impfstudie: Mit welcher Wahrscheinlichkeit bleibt eine neue Person gesund, gegeben die Beobachtungen aus der Studie? Vorhersage mit MAP-Modell: θMAP = argmaxθ P(θ | Beobachtungen) = 4/7 P(Xneu = gesund | θMAP) = θMAP = 4/7 Bayes-optimale Vorhersage: Erwartungswert einer Beta-Verteilung mit Parametern α und β: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 35 Erwartungswert Zufallsvariable X mit Verteilung P(X): Der Erwartungswert E(X) ist der gewichtete Mittelwert der möglichen Werte von X Werte werden mit ihrer Wahrscheinlichkeit gewichet diskrete Zufallsvariable: kontinuierliche Zufallsvariable: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 36 Erwartungswert: Beispiel St. Petersburger Spiel: Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Man wirft eine Münze so lange, bis sie zum ersten Mal „Kopf“ zeigt passiert dies gleich beim ersten Wurf, gewinnt man 1 Euro falls nicht, verdoppelt sich der Gewinn so oft man „Zahl“ geworfen hat der Gewinn den man am Ende erhält ist eine Zufallsvariable X Erwarteter (durchschnittlicher) Gewinn: 37 Rekapitulation Bayes‘sches Lernen: einfacher → besser → Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie subjektiver Prior: Ausgangsverteilung über die Modelle Beobachtungen aus der Vergangenheit: Likelihood gegeben Modellparameter ergibt durch Satz von Bayes Posterior: Verteilung über Modelle gegeben die Beobachtungen Vorhersagen für die Zukunft: entweder MAP-Modell berechnen (Maximierung des Posteriors), dann Vorhersage damit oder Bayes-optimale Vorhersage: über alle Modelle mitteln, gewichtet mit ihrer PosteriorWahrscheinlichkeit 38 Fragen? Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie 39