Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes‘sches Lernen Niels Landwehr Überblick Intelligente Datenanalyse Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Bayes‘sche Vorhersage Münzwürfe Lineare Regression 2 Überblick Intelligente Datenanalyse Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Bayes‘sche Vorhersage Münzwürfe Lineare Regression 3 Statistik & Maschinelles Lernen Intelligente Datenanalyse Maschinelles Lernen: eng verwandt mit (induktiver) Statistik Zwei Gebiete in der Statistik: Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Daten. Mittelwerte Varianzen Unterschiede zwischen Populationen Induktive Statistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? Modellbildung Erklärungen für Beobachtungen Zusammenhänge, Muster in Daten 4 Thomas Bayes 1702-1761 „An essay towards solving a problem in the doctrine of chances“, 1764 veröffentlicht. Intelligente Datenanalyse Arbeiten von Bayes grundlegend für induktive Statistik. „Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise auf Unsicherheit & Wahrscheinlichkeit 5 Frequentistische / Bayessche Wahrscheinlichkeit Frequentistische Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.B. Münzwurf). Definition über relative Häufigkeiten möglicher Ergebnisse eines wiederholbaren Versuches Intelligente Datenanalyse „Wenn man eine faire Münze 1000 Mal wirft, wird etwa 500 Mal Kopf fallen“ „In 1 Gramm Potassium-40 zerfallen pro Sekunde ca. 260.000 Atomkerne“ 6 Frequentistische / Bayessche Wahrscheinlichkeit Bayessche, „subjektive“ Wahrscheinlichkeiten Intelligente Datenanalyse Grund der Unsicherheit ein Mangel an Informationen Wie wahrscheinlich ist es, dass der Verdächtige X das Opfer umgebracht hat? Neue Informationen (z.B. Fingerabdrücke) können diese subjektiven Wahrscheinlichkeiten verändern. Bayessche Sichtweise im maschinellen Lernen wichtiger Frequentistische Sichtweise auch manchmal verwendet, mathematisch äquivalent 7 Bayessche Wahrscheinlichkeiten im Maschinellen Lernen Modellbildung: Erklärungen für Beobachtungen finden Was ist das „wahrscheinlichste“ Modell? Abwägen zwischen Intelligente Datenanalyse Vorwissen (a-priori Verteilung über Modelle) Evidenz (Daten, Beobachtungen) Bayessche Sichtweise: Evidenz (Daten) verändert „subjektive“ Wahrscheinlichkeiten für Modelle (Erklärungen) A-posteriori Modellwahrscheinlichkeit, MAP Hypothese 8 Modellvorstellung beim Lernen Viele Verfahren des maschinellen Lernens basieren auf probabilistischen Überlegungen Wir wollen Modelle der Form y f (x) aus Trainingsdaten L {(x1 , y1 ),...,(x N , yN )} lernen. Modellvorstellung beim Lernen: Jemand hat echtes Modell f* nach A-Priori Verteilung („Prior“) p(f) gezogen f* ist nicht bekannt, aber p(f) reflektiert Vorwissen (was sind wahrscheinliche Modelle?) Trainingseingaben xi werden gezogen (unabhängig von f*). * Klassenlabels yi werden nach p( yi | xi , f ) gezogen (zum * 2 Beispiel: yi f (xi ) i , i ~ ( | 0, ) Rauschterm). Fragestellung Lernen: Gegeben L und p(f), was ist wahrscheinlichstes „echtes“ Modell? → Versuche, f* (ungefähr) zu rekonstruieren 9 Intelligente Datenanalyse Bayessche Regel Bayessche Regel: p( X | Y ) Beweis einfach: p( X | Y ) Definition bedingte Verteilung p(Y | X ) p( X ) p(Y ) p( X , Y ) p(Y | X ) p( X ) p(Y ) p(Y ) Produktregel Wichtige Grundeinsicht für das maschinelle Lernen: Erlaubt den Rückschluss auf Modellwahrscheinlichkeiten gegeben Wahrscheinlichkeiten von Beobachtungen Intelligente Datenanalyse Bayessche Regel Modellwahrscheinlichkeit gegeben Daten und Vorwissen Likelihood: wie gut erklärt Modell die Daten? p( Modell | Daten) p( Daten) konstant, unabhängig von Modell Prior: wie wahrscheinlich ist Modell a priori? p( Daten | Modell ) p( Modell ) p( Daten) p( Daten | Modell ) p( Modell ) Intelligente Datenanalyse Wahrscheinlichstes Modell gegeben Daten Zentrale Problemstellung: wahrscheinlichstes Modell gegeben Daten. Gegeben sind angenommene a priori Verteilung p(f) beobachtete Daten L {(x , y ),...,(x , y )} 1 1 N N Frage: was ist das wahrscheinlichste Modell, gegeben die angenomme a priori Verteilung und die Daten? Sogenanntes MAP („maximum a posteriori“) Modell. f * arg max f p ( f | L) p( L | f ) p( f ) arg max f p ( L) arg max f p( L | f ) p( f ) Bayes'sche Regel p ( L) unabhängig von f Intelligente Datenanalyse Wahrscheinlichstes Modell gegeben Daten Um MAP Modell ausrechnen zu können, brauchen wir zwei Terme: Likelihood p ( L | f ) : Wahrscheinlichkeit der Daten gegeben Modell. Folgt aus Modelldefinition. Prior p ( f ) : A-priori Verteilung über Modelle. Annahme, soll meist Vorwissen ausdrücken. Beispiel Entscheidungsbaumlernen: „Kleine Bäume sind oft besser als große Bäume“. Wir sehen gleich verschiedene Beispiele. Intelligente Datenanalyse Überblick Intelligente Datenanalyse Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Bayes‘sche Vorhersage Münzwürfe Lineare Regression 14 Modell für Münzwürfe schätzen Anwendung Bayes‘sche Regel an einfachem Beispiel: Modell für Münzwürfe („binomialverteilte Daten“) schätzen. Münzwurf-Modell N Mal Münze werfen. Ergebnis des i-ten Münzwurfs: „Kopf“ oder “Zahl“, Zufallsvariable yi {0,1}. yi folgen Bernoulli-Verteilung: p ( yi 1) p ( yi 0) 1 Wahrscheinlichkeit für „Kopf“ Wahrscheinlichkeit für „Zahl“ yi ~ Bern( yi | ) yi (1 )1 yi Intelligente Datenanalyse Bernoulli-Verteilung Daten heissen auch „binomialverteilt“, weil die Anzahl der Kopfwürfe in N Münzwürfen binomialverteilt ist. 15 Modell für Münzwürfe schätzen Das Münzwurf-Modell sagt vorher, mit welcher Wahrscheinlichkeit bei einem Münzwurf „Kopf“ fällt. Modell ist festgelegt durch einen einzigen Parameter: Wahrscheinlichkeit [0,1] für Kopfwurf. Abweichend von unserer Standardproblemstellung gibt es keine Instanzmerkmale xi. Intelligente Datenanalyse Wir möchten ein Münzwurfmodell aus Beobachtungen L { y1 ,..., yN } schätzen. Die „echte“ Wahrscheinlichkeit für einen Kopfwurf kennen wir nie. Aber mit der Bayes‘schen Regel können wir probabilistische Aussagen über diese echte Wahrscheinlichkeit machen, gegeben Daten. 16 Bayes‘sche Regel Münzwürfe Ansatz mit Bayes‘scher Regel: Likelihood: wie wahrscheinlich sind Daten L { y1 ,..., y N } gegeben Modell ? p( | L) A-posteriori Verteilung über Modelle, charakterisiert wahrscheinliche Parameterwerte und verbleibende Ungewissheit A-priori Verteilung über Modelle, repräsentiert Vorwissen: für wie wahrscheinlich halten wir faire/unfaire Münzen? p( L | p( p ( L) Wahrscheinlichkeit der Daten, nur Normalisierer 17 Intelligente Datenanalyse