Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen (Bayes‘sches Lernen) Tobias Scheffer Michael Großhans Paul Prasse Anwendungsbeispiel 1: Diagnostik Scheffer/Großhans/Prasse: Sprachtechnologie Neuer Test wurde entwickelt Frage: Wie sicher ist die Person krank, wenn positives Testergebnis vorliegt? Studie: Auf kranken und gesunden Testpersonen (Zustand ist bekannt) wird Test angewandt 2 Anwendungsbeispiel 2: Impfstoff Scheffer/Großhans/Prasse: Sprachtechnologie Neuer Impfstoff wurde entwickelt Frage: Wie wirksam ist er? Wie oft verhindert er eine Infektion? Studie: Testpersonen werden geimpft; später wird untersucht, ob sie sich angesteckt haben 3 Was untersucht man? Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Stichproben (langweilig). Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Welcher Anteil der Testpersonen ist gesund geblieben? (= abzählen) Induktive Statistik: Welche Schlussfolgerungen über die Grundgesamtheit lassen sich aus Stichproben ziehen? (spannend, maschinelles Lernen). Wie viele Personen werden in Zukunft gesund bleiben? Wie sicher sind wir uns dessen? 4 Wahrscheinlichkeiten Frequentistische „objektive“ Wahrscheinlichkeiten Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Wahrscheinlichkeit als relative Häufigkeit mit der ein Ereignis bei einer großen Zahl unabhängiger und wiederholter Experimente eintritt. Bayes‘sche, „subjektive“ Wahrscheinlichkeiten Wahrscheinlichkeit als persönliche Überzeugung, dass ein Ereignis eintritt. Unsicherheit bedeutet hier Mangel an Information. Wie wahrscheinlich ist es, dass der Impfstoff wirkt? Neue Informationen (z.B. Studienergebnisse) können diese subjektive Wahrscheinlichkeiten verändern. 5 Wahrscheinlichkeitstheorie Zufallsexperiment: Definierter Prozess in dem eine Beobachtung ω erzeugt wird (Elementarereignis). Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Ereignisraum Ω: Menge aller möglichen Elementarereignisse; Anzahl aller Elementarereignisse ist |Ω|. Ereignis A: Teilmenge des Ereignisraums. Wahrscheinlichkeit P: Funktion welche Wahrscheinlichkeitsmasse auf Ereignisse A aus Ω verteilt. P( A) : P A 6 Wahrscheinlichkeitstheorie Wahrscheinlichkeit = normiertes Maß definiert durch Kolmogorow-Axiome: Wahrscheinlichkeit von Ereignis A : 0 P ( A) 1 Sicheres Ereignis: P () 1 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Wahrscheinlichkeit dass Ereignis A oder Ereignis B eintritt mit A B (beide Ereignisse sind inkompatibel): P ( A B ) P ( A) P ( B ) Allgemein gilt: P ( A B ) P ( A) P ( B ) P ( A B ) 7 Zufallsvariablen Zufallsvariable X ist Abbildung eines elementaren Ereignisses auf numerischen Wert X : x bzw. auf m-dimensionalen Vektor X : .x m Maschinelles Lernen: auch Abbildungen auf Bäume und andere Strukturen möglich. Maschinelles Lernen: gleichgesetzt mit Ereignisraum. Bild der Zufallsvariable: : X ( ) | 8 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Diskrete Zufallsvariablen X nennt man eine diskrete Zufallsvariable, wenn Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: sie nur diskrete Werte annehmen kann. Wahrscheinlichkeitsfunktion P weist jedem möglichen Wert einer Zufallsvariable eine Wahrscheinlichkeit P X x 0;1 zu. Summe der Verteilungsfunktion über alle Werte P X x 1 x 9 Stetige Zufallsvariablen X nennt man eine stetige Zufallsvariable, wenn sie Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: sie kontinuierliche Werte annehmen kann. Die Werte der Verteilungsfunktion P entsprechen an jeder Stelle den kumulierten Wahrscheinlichkeiten PX x P X x 0;1 Die Werte der Dichtefunktion p entsprechen an jeder Stelle den Änderungen der Verteilungsfunktion pX a PX x x mit xa p x dx 1 X 10 Feinheiten der Notation P X pX Wahrscheinlichkeitsfunktion bzw. Dichtefunktion über alle möglichen Werte von X Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P X x konkreter Wahrscheinlichkeitswert bzw. konkreter Wert der Dichtefunktion pX x P x p x verkürzte Schreibweise von P X x bzw. von p X x wenn eindeutig ist, welche Zufallsvariable gemeint ist. Meist werden Wahrscheinlichkeitsfunktion und Dichtefunktion nicht getrennt. 11 Erwartungswert Der Erwartungswert E(X) ist der gewichtete Mittelwert der möglichen Werte von X Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: diskrete Zufallsvariable: E X xP X x x kontinuierliche Zufallsvariable: E X xp X x dx Die Varianz Var(X) ist der erwarte quadratische Abstand zum Erwartungswert von X 2 Var X E X E X 12 Erwartungswert: Beispiel St. Petersburger Spiel: Werfen einer Münze, bis sie zum ersten Mal „Kopf“ zeigt passiert dies gleich beim ersten Wurf, gewinnt man 1 Euro falls nicht, verdoppelt sich der Gewinn so oft man „Zahl“ geworfen hat der Gewinn den man am Ende erhält ist Zufallsvariable X Erwarteter (durchschnittlicher) Gewinn: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: E X xP X x x 1 1 1 1 2 4 2 4 8 13 Gemeinsame Wahrscheinlichkeit ist die gemeinsame Wahrscheinlichkeitsverteilung der Zufallsvariablen X1 und X2 gemeinsamer Wertebereich: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: kartesisches Produkt 1 2 z.B.: 1 × 2 { (infiziert,infiziert), (infiziert, gesund), (gesund, infiziert), (gesund, gesund) } 14 Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines der möglichen Werte von X mit Zusatzinformation: Diskrete Zufallsvariable: Stetige Zufallsvariable: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P X x | zusätzliche Information p X x | zusätzliche Information 15 Abhängige Zufallsvariablen Zufallsvariablen X1 und X2 können abhängig oder unabhängig sein Unabhängig: P(X1, X2) = P(X1) P(X2) Beispiel: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: 2 aufeinanderfolgende Münzwürfe Ergebnis des zweiten hängt nicht vom ersten ab Impliziert: P(X2 | X1) = P(X2) Abhängig: P(X1, X2)= P(X1) P(X2 | X1) P(X1) P(X2) Beispiel: Grippeinfektionen von 2 Sitznachbarn 16 Bedingte Unabhängigkeit Zufallsvariablen können abhängig sein, jedoch unabhängig gegeben eine weitere Zufallsvariable Die Zufallsvariablenvariablen X1 und X2 heißen bedingt unabhängig gegeben Y wenn gilt: P(X1,X2|Y) = P(X1|Y) P(X2|Y) Beispiel: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Wirkrate des Impfstoffs bekannt Infektionswahrscheinlichkeiten der Personen unabhängig Wirkrate des Impfstoffs unbekannt Beobachtung eines Teils der Testpersonen gibt Information über restliche Testpersonen 17 Rechenregeln Produktregel: verallgemeinert: Summenregel: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Sind Ereignisse A, B inkombatibel: P( A B ) P ( A) P ( B ) Randverteilung: 18 Rechenregeln Satz von Bayes: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Inferiere P X | Y aus P Y | X , P X und P Y P X , Y P Y , X P X | Y P Y P Y | X P X P Y | X P X P X |Y P Y 19 Satz von Bayes: Beispiel Diagnostik-Beispiel: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P(positiv | krank) = 0,98 P(positiv | gesund) = 0,05 P(krank) = 0,02 Gesucht für Testergebnis Test: Wahrscheinlichkeit, dass der Patient krank ist: P krank | Test Plausibelste Ursache arg max P Test | P Pkrank , gesund Wahrscheinlichste Ursache arg max P P | Test Pkrank , gesund 20 Satz von Bayes Wahrscheinlichkeit der Ursache Urs. für eine Beobachtung Beob.: P Urs. P Urs. | Beob. P Beob. | Urs. P Beob. P Beob. P Beob. | u P u uUrsachen P(Urs.): P(Beob.|Urs.): P(Urs.|Beob.): A-Priori-Wahrscheinlichkeit, „Prior“. Likelihood. A-Posteriori-Wahrscheinlichkeit, „Posterior“. 21 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Prior, Likelihood und Posterior Subjektive Einschätzung, bevor man die Daten gesehen hat (a priori): Prior-Verteilung über die Modelle P(Krankheit) P(q), q Wirksamkeit des Impfstoffes Wie gut passen die Daten zum Modell: Likelihood P(Test | Krankheit) P(Studie| q), Subjektive Einschätzung, nachdem man die Daten gesehen hat (a posteriori): Posterior-Verteilung P(Krankheit | Test) P(q | Studie) Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: 22 Prior Woher bekommt man die Prior-Verteilung? P(Krankheit) relativ naheliegend; diskret P(q): schwieriger; stetig; z.B. aus allen bisherigen Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Studien anderer Impfstoffe schätzen Es gibt keine „richtige“ Prior-Verteilung! aber: unterschiedliche Prior-Verteilungen ermöglichen unterschiedlich gute Vorhersagen für die Zukunft Posterior-Verteilung ergibt sich deterministisch aus Prior und Likelihood der Beobachtungen durch Satz von Bayes 23 Beispiel Likelihood: Bernoulli-Verteilung Eine diskrete Verteilung mit den 2 möglichen Ereignissen 0 und 1 ist eine Bernoulli-Verteilung bestimmt durch genau einen Parameter: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Verteilungsfunktion: 24 Beispiel Likelihood: Binomialverteilung Zusammenfassung mehrerer Bernoulli-verteilter Zufallsvariablen X1,…,Xn mit gleichem Parameter q neue Zufallsvariable Y, die angibt, wie viele der Xi positiv n sind: Y Xi i 1 Y ist Binomial-verteilt mit Parametern q und n Verteilungsfunktion: n y n y P Y y | q , n q 1 q y Binomialkoeffizient: Anzahl der Möglichkeiten, aus n Elementen y auszuwählen Wahrscheinlichkeit, dass y der Xi positiv sind Wahrscheinlichkeit, dass n-y der Xi negativ sind 25 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Beispiel Prior: Beta-Verteilung Häufige Wahl (bei Parameterraum Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Verteilung über alle Wirkraten keine diskrete, sondern kontinuierliche Verteilung P(q) beschreibt eine Dichtefunktion ): Beta-Verteilung definiert durch 2 Parameter a und b Beta-Funktion; dient der Normalisierung 26 Beispiel Prior: Beta-Verteilung Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Spezialfall: a = b = 1 ist Gleichverteilung 27 Schema für Ermittlung der PosteriorVerteilung Gegeben: Prior-Verteilung P(q) Beobachtungen x1,…,xn Likelihood Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P(x1,…,xn | q) Gesucht: Posterior-Verteilung P(q | x1,…,xn) 1. Satz von Bayes anwenden 2. Randverteilung für kontinuierliche Parameter einsetzen 28 Ermittlung der Posterior-Verteilung: Beispiel Gegeben: Modellparameterraum Beta-Prior mit Parametern a und b : P(q)=Beta(q |a,b) Bernoulli-Likelihood binäre Beobachtungen x1,…,xn, bedingt unabhängig gegeben Modellparameter q a Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: positive Beobachtungen, b negative Gesucht: Posterior P(q | x1,…,xn) 29 Ermittlung der Posterior-Verteilung , xn P x1 , , xn | q P q / P x1 , , xn n P xi | q P q / P x1 , , xn i 1 a b P X 1 | q P X 0 | q P q / P x1 , q a 1 q b q a 1 1 q B a , b q a a 1 1 q B a , b b b 1 q a a 1 1 q B a , b b b 1 b 1 / P x1 , , xn Satz von Bayes Bedingte Unabhängigkeit , xn a positive, b negative Bernoulli- und Beta-Verteilung einsetzen q a a 1 1 q b b 1 / dq B a , b Terme zusammenfassen, Randverteilungsformel B a a,b b / B a , b Definition der Beta-Funktion Beta q | a a , b b Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P q | x1 , Kürzen, Definition der Beta-Verteilung 30 Konjugierter Prior Im vorherigen Beispiel: Übergang vom Prior Beta(q |a,b) Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: durch a positive und b negative Beobachtungen zum Posterior Beta(q |a+a,b+b) algebraische Form von Posterior und Prior identisch Die Beta-Verteilung ist der konjugierte Prior zur Bernoulli-Likelihood Immer vorteilhaft, den konjugierten Prior zu verwenden, um zu garantieren, dass der Posterior effizient berechenbar ist 31 Rechenbeispiel: Impfstudie Prior: Beta mit a=1, b=5 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: 8 gesunde Testpersonen, 2 infizierte ergibt Posterior: Beta mit a=9, b=7 32 Parameterschätzung Bayes‘sche Inferenz liefert keinen Modellparameter, sondern Verteilung über Modellparameter Ermittlung des Modells mit der höchsten Wahrscheinlichkeit: MAP-Schätzung Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: „maximum-a-posteriori“ = maximiert den Posterior qMAP = argmaxq P(q | Beobachtungen) Im Gegensatz dazu: plausibelstes Modell = MLSchätzung „maximum-likelihood“ = maximiert die Likelihood ohne Berücksichtigung des Priors qML = argmaxq P(Beobachtungen | q) 33 Parameterschätzung: Beispiel Impfstudie: Prior: Beta mit a=1, b=5 8 gesunde Testpersonen, 2 infizierte ergibt Posterior: Beta mit a=9, b=7 ML-Schätzung: qML = argmaxq P(Beob. | q) MAP-Schätzung: qMAP = argmaxq P(q | Beob.) Likelihood-Funktion (keine Wahrscheinlichkeitsverteilung) 34 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Vorhersage Welche Beobachtungen kann man in Zukunft erwarten, gegeben die Beobachtungen der Vergangenheit? Vorhersage für Testdaten, gegeben eine Menge von Trainingsdaten P(Xneu | Xalt) Vorhersage mit MAP-Schätzung: erst qMAP bestimmen durch qMAP = argmaxq P(q | Xalt) dann P(Xneu | qMAP) bestimmen (Likelihood-Verteilung) Mit Informationsverlust verbunden: qMAP nicht „echter“ Parameter, sondern wahrscheinlichster ignoriert, dass auch andere Modelle in Frage kommen 35 Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: Bayes-optimale Vorhersage Kein Zwischenschritt über das MAP-Modell, sondern direkte Herleitung der Vorhersage: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P X neu | X alt 1. Randverteilung P X neu | q , X alt P q | X alt dq q 2. bedingte Unabhängigkeit P X neu | q P q | X alt dq q mitteln über alle Modelle (Bayesian Model-Averaging) gewichtet durch: wie gut passt das Modell zu den früheren Beobachtungen? (Posterior) Vorhersage gegeben Modell 36 Vorhersage: Beispiel Impfstudie: Mit welcher Wahrscheinlichkeit bleibt neue Person gesund, gegeben die Studie? Vorhersage mit MAP-Modell: qMAP = argmaxq P(q | Beob.) = 4/7 P(gesund | qMAP) = qMAP = 4/7 Bayes-optimale Vorhersage: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: P gesund | X alt P gesund | q P q | X alt dq q 9 q Beta q | 9, 7 dq 16 q Erwartungswert einer Beta-Verteilung 37 Rekapitulation Bayes‘sches Lernen: Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: subjektiver Prior: Ausgangsverteilung über die Modelle Beobachtungen aus der Vergangenheit: Likelihood gegeben Modellparameter ergibt durch Satz von Bayes Posterior: Verteilung über Modelle gegeben die Beobachtungen Mögliche Wege für Vorhersagen in der Zukunft: einfacher MAP-Modell berechnen (Maximierung des Posteriors), dann Vorhersage mit MAP-Modell besser Bayes-optimale Vorhersage: über alle Modelle mitteln, gewichtet mit ihrer Posterior-Wahrscheinlichkeit 38 Fragen? Scheffer/Großhans/Prasse: Sprachtechnologie Sprachtechnologie Scheffer/Großhans/Prasse: 39