Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayes‘sches Lernen
Niels Landwehr
Überblick
Intelligente Datenanalyse
Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
Münzwürfe
Lineare Regression
Logistische Regression
Bayes‘sche Vorhersage
Münzwürfe
Lineare Regression
2
Überblick
Intelligente Datenanalyse
Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
Münzwürfe
Lineare Regression
Logistische Regression
Bayes‘sche Vorhersage
Münzwürfe
Lineare Regression
3
Statistik & Maschinelles Lernen
Intelligente Datenanalyse
Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte
Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Thomas Bayes
1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Intelligente Datenanalyse
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentistische Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher Ergebnisse
eines wiederholbaren Versuches
Intelligente Datenanalyse
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten
Intelligente Datenanalyse
Grund der Unsicherheit ein Mangel an Informationen
Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen
Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen
Intelligente Datenanalyse
Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:
Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Modellvorstellung beim Lernen
Viele Verfahren des maschinellen Lernens basieren auf
probabilistischen Überlegungen
Wir wollen Modelle der Form y f (x) aus Trainingsdaten
L {(x1 , y1 ),...,(x N , yN )} lernen.
Modellvorstellung beim Lernen:
Jemand hat echtes Modell f* nach A-Priori Verteilung
(„Prior“) p(f) gezogen
f* ist nicht bekannt, aber p(f) reflektiert Vorwissen (was sind
wahrscheinliche Modelle?)
Trainingseingaben xi werden gezogen (unabhängig von f*).
*
Klassenlabels yi werden nach p( yi | xi , f ) gezogen (zum
*
2
Beispiel: yi f (xi ) i , i ~ ( | 0, ) Rauschterm).
Fragestellung Lernen: Gegeben L und p(f), was ist
wahrscheinlichstes „echtes“ Modell?
→ Versuche, f* (ungefähr) zu rekonstruieren
9
Intelligente Datenanalyse
Bayessche Regel
Bayessche Regel:
p( X | Y )
Beweis einfach:
p( X | Y )
Definition bedingte
Verteilung
p(Y | X ) p( X )
p(Y )
p( X , Y ) p(Y | X ) p( X )
p(Y )
p(Y )
Produktregel
Wichtige Grundeinsicht für das maschinelle Lernen: Erlaubt
den Rückschluss auf Modellwahrscheinlichkeiten gegeben
Wahrscheinlichkeiten von Beobachtungen
Intelligente Datenanalyse
Bayessche Regel
Modellwahrscheinlichkeit gegeben Daten und Vorwissen
Likelihood: wie gut erklärt
Modell die Daten?
p( Modell | Daten)
p( Daten) konstant,
unabhängig von Modell
Prior: wie wahrscheinlich
ist Modell a priori?
p( Daten | Modell ) p( Modell )
p( Daten)
p( Daten | Modell ) p( Modell )
Intelligente Datenanalyse
Wahrscheinlichstes Modell gegeben Daten
Zentrale Problemstellung: wahrscheinlichstes Modell gegeben Daten.
Gegeben sind
angenommene a priori Verteilung p(f)
beobachtete Daten L {(x , y ),...,(x , y )}
1
1
N
N
Frage: was ist das wahrscheinlichste Modell, gegeben die
angenomme a priori Verteilung und die Daten?
Sogenanntes MAP („maximum a posteriori“) Modell.
f * arg max f p ( f | L)
p( L | f ) p( f )
arg max f
p ( L)
arg max f p( L | f ) p( f )
Bayes'sche Regel
p ( L) unabhängig von f
Intelligente Datenanalyse
Wahrscheinlichstes Modell gegeben Daten
Um MAP Modell ausrechnen zu können, brauchen wir zwei Terme:
Likelihood p ( L | f ) : Wahrscheinlichkeit der Daten
gegeben Modell. Folgt aus Modelldefinition.
Prior p ( f ) : A-priori Verteilung über Modelle. Annahme, soll meist
Vorwissen ausdrücken.
Beispiel Entscheidungsbaumlernen: „Kleine Bäume sind oft
besser als große Bäume“.
Wir sehen gleich verschiedene Beispiele.
Intelligente Datenanalyse
Überblick
Intelligente Datenanalyse
Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
Münzwürfe
Lineare Regression
Logistische Regression
Bayes‘sche Vorhersage
Münzwürfe
Lineare Regression
14
Modell für Münzwürfe schätzen
Anwendung Bayes‘sche Regel an einfachem Beispiel: Modell
für Münzwürfe („binomialverteilte Daten“) schätzen.
Münzwurf-Modell
N Mal Münze werfen.
Ergebnis des i-ten Münzwurfs: „Kopf“ oder “Zahl“,
Zufallsvariable yi {0,1}.
yi folgen Bernoulli-Verteilung:
p ( yi 1)
p ( yi 0) 1
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
yi ~ Bern( yi | ) yi (1 )1 yi
Intelligente Datenanalyse
Bernoulli-Verteilung
Daten heissen auch „binomialverteilt“, weil die Anzahl der
Kopfwürfe in N Münzwürfen binomialverteilt ist.
15
Modell für Münzwürfe schätzen
Das Münzwurf-Modell sagt vorher, mit welcher
Wahrscheinlichkeit bei einem Münzwurf „Kopf“ fällt.
Modell ist festgelegt durch einen einzigen Parameter:
Wahrscheinlichkeit [0,1] für Kopfwurf.
Abweichend von unserer Standardproblemstellung gibt es
keine Instanzmerkmale xi.
Intelligente Datenanalyse
Wir möchten ein Münzwurfmodell aus Beobachtungen
L { y1 ,..., yN } schätzen.
Die „echte“ Wahrscheinlichkeit für einen Kopfwurf kennen
wir nie.
Aber mit der Bayes‘schen Regel können wir probabilistische
Aussagen über diese echte Wahrscheinlichkeit machen,
gegeben Daten.
16
Bayes‘sche Regel Münzwürfe
Ansatz mit Bayes‘scher Regel:
Likelihood: wie wahrscheinlich sind Daten
L { y1 ,..., y N } gegeben Modell ?
p( | L)
A-posteriori Verteilung
über Modelle, charakterisiert
wahrscheinliche Parameterwerte
und verbleibende Ungewissheit
A-priori Verteilung über Modelle,
repräsentiert Vorwissen: für wie
wahrscheinlich halten wir
faire/unfaire Münzen?
p( L | p(
p ( L)
Wahrscheinlichkeit der Daten, nur
Normalisierer
17
Intelligente Datenanalyse