Grundkonzepte des Bayes`schen Lernens

Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayes‘sches Lernen
Niels Landwehr
Überblick


Intelligente Datenanalyse

Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
 Münzwürfe
 Lineare Regression
 Logistische Regression
Bayes‘sche Vorhersage
 Münzwürfe
 Lineare Regression
2
Überblick


Intelligente Datenanalyse

Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
 Münzwürfe
 Lineare Regression
 Logistische Regression
Bayes‘sche Vorhersage
 Münzwürfe
 Lineare Regression
3
Statistik & Maschinelles Lernen

Intelligente Datenanalyse

Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:

Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte

Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Thomas Bayes



1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Intelligente Datenanalyse

Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentistische Wahrscheinlichkeiten
 Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
 Definition über relative Häufigkeiten möglicher Ergebnisse
eines wiederholbaren Versuches
Intelligente Datenanalyse

„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten



Intelligente Datenanalyse

Grund der Unsicherheit ein Mangel an Informationen
 Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
 Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen

Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen



Intelligente Datenanalyse

Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:


Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Modellvorstellung beim Lernen


Viele Verfahren des maschinellen Lernens basieren auf
probabilistischen Überlegungen
Wir wollen Modelle der Form y  f (x) aus Trainingsdaten
L  {(x1 , y1 ),...,(x N , yN )} lernen.
Modellvorstellung beim Lernen:
 Jemand hat echtes Modell f* nach A-Priori Verteilung
(„Prior“) p(f) gezogen
 f* ist nicht bekannt, aber p(f) reflektiert Vorwissen (was sind
wahrscheinliche Modelle?)
 Trainingseingaben xi werden gezogen (unabhängig von f*).
*
 Klassenlabels yi werden nach p( yi | xi , f ) gezogen (zum
*
2
Beispiel: yi  f (xi )  i , i ~ ( | 0,  ) Rauschterm).
 Fragestellung Lernen: Gegeben L und p(f), was ist
wahrscheinlichstes „echtes“ Modell?
→ Versuche, f* (ungefähr) zu rekonstruieren
9
Intelligente Datenanalyse

Bayessche Regel
Bayessche Regel:
p( X | Y ) 

Beweis einfach:
p( X | Y ) 
Definition bedingte
Verteilung

p(Y | X ) p( X )
p(Y )
p( X , Y ) p(Y | X ) p( X )

p(Y )
p(Y )
Produktregel
Wichtige Grundeinsicht für das maschinelle Lernen: Erlaubt
den Rückschluss auf Modellwahrscheinlichkeiten gegeben
Wahrscheinlichkeiten von Beobachtungen
Intelligente Datenanalyse

Bayessche Regel
Modellwahrscheinlichkeit gegeben Daten und Vorwissen
Likelihood: wie gut erklärt
Modell die Daten?
p( Modell | Daten) 
p( Daten) konstant,
unabhängig von Modell
Prior: wie wahrscheinlich
ist Modell a priori?
p( Daten | Modell ) p( Modell )
p( Daten)
 p( Daten | Modell ) p( Modell )
Intelligente Datenanalyse

Wahrscheinlichstes Modell gegeben Daten



Zentrale Problemstellung: wahrscheinlichstes Modell gegeben Daten.
Gegeben sind
 angenommene a priori Verteilung p(f)
 beobachtete Daten L  {(x , y ),...,(x , y )}
1
1
N
N
Frage: was ist das wahrscheinlichste Modell, gegeben die
angenomme a priori Verteilung und die Daten?
Sogenanntes MAP („maximum a posteriori“) Modell.
f *  arg max f p ( f | L)
p( L | f ) p( f )
 arg max f
p ( L)
 arg max f p( L | f ) p( f )
Bayes'sche Regel
p ( L) unabhängig von f
Intelligente Datenanalyse

Wahrscheinlichstes Modell gegeben Daten

Um MAP Modell ausrechnen zu können, brauchen wir zwei Terme:

Likelihood p ( L | f ) : Wahrscheinlichkeit der Daten
gegeben Modell. Folgt aus Modelldefinition.

Prior p ( f ) : A-priori Verteilung über Modelle. Annahme, soll meist
Vorwissen ausdrücken.
Beispiel Entscheidungsbaumlernen: „Kleine Bäume sind oft
besser als große Bäume“.
Wir sehen gleich verschiedene Beispiele.
Intelligente Datenanalyse

Überblick


Intelligente Datenanalyse

Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
 Münzwürfe
 Lineare Regression
 Logistische Regression
Bayes‘sche Vorhersage
 Münzwürfe
 Lineare Regression
14
Modell für Münzwürfe schätzen

Anwendung Bayes‘sche Regel an einfachem Beispiel: Modell
für Münzwürfe („binomialverteilte Daten“) schätzen.
Münzwurf-Modell
 N Mal Münze werfen.
 Ergebnis des i-ten Münzwurfs: „Kopf“ oder “Zahl“,
Zufallsvariable yi  {0,1}.
 yi folgen Bernoulli-Verteilung:
p ( yi  1)  
p ( yi  0)  1  
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
yi ~ Bern( yi |  )   yi (1   )1 yi

Intelligente Datenanalyse

Bernoulli-Verteilung
Daten heissen auch „binomialverteilt“, weil die Anzahl der
Kopfwürfe in N Münzwürfen binomialverteilt ist.
15
Modell für Münzwürfe schätzen





Das Münzwurf-Modell sagt vorher, mit welcher
Wahrscheinlichkeit bei einem Münzwurf „Kopf“ fällt.
Modell ist festgelegt durch einen einzigen Parameter:
Wahrscheinlichkeit   [0,1] für Kopfwurf.
Abweichend von unserer Standardproblemstellung gibt es
keine Instanzmerkmale xi.
Intelligente Datenanalyse

Wir möchten ein Münzwurfmodell aus Beobachtungen
L  { y1 ,..., yN } schätzen.
Die „echte“ Wahrscheinlichkeit  für einen Kopfwurf kennen
wir nie.
Aber mit der Bayes‘schen Regel können wir probabilistische
Aussagen über diese echte Wahrscheinlichkeit machen,
gegeben Daten.
16
Bayes‘sche Regel Münzwürfe
Ansatz mit Bayes‘scher Regel:
Likelihood: wie wahrscheinlich sind Daten
L  { y1 ,..., y N } gegeben Modell  ?
p( | L) 
A-posteriori Verteilung
über Modelle, charakterisiert
wahrscheinliche Parameterwerte
und verbleibende Ungewissheit
A-priori Verteilung über Modelle,
repräsentiert Vorwissen: für wie
wahrscheinlich halten wir
faire/unfaire Münzen?
p( L |   p( 
p ( L)
Wahrscheinlichkeit der Daten, nur
Normalisierer
17
Intelligente Datenanalyse
