Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen
Christoph Sawade/Niels Landwehr/Paul Prasse
Dominik Lahmann
Tobias Scheffer
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
2
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
3
Statistik & Maschinelles Lernen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte
Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Thomas Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Frequentistische / Bayessche
Wahrscheinlichkeit
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Frequentistische Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher
Ergebnisse eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Grund der Unsicherheit ein Mangel an Informationen
Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen
Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:
Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Zufallsexperiment: definierter Prozess, in dem ein
Elementarereignis ω erzeugt wird.
Ereignisraum Ω: Menge aller Elementarereignisse.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeitsfunktion p: Funktion, die
Ereignissen A Wahrscheinlichkeiten zuweist.
9
Wahrscheinlichkeitstheorie
Gültige Wahrscheinlichkeitsfunktion p
(Kolmogorow‐Axiome)
Wahrscheinlichkeit von Ereignis A : 0 p( A) 1
Sicheres Ereignis: p() 1 , und p() 0
Für die Wahrscheinlichkeit zweier inkompatibler Ereignisse
A , B (d.h. A B ) gilt:
p( A B) p( A) p( B)
10
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Wahrscheinlichkeitstheorie: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Würfeln
Ereignisraum {1, 2,3, 4,5,6}
Elementarereignisse haben Wsk p({}) 1/ 6
Ereignis gerade Zahl: A {2, 4,6}
Wahrscheinlichkeit des Ereignisses: p( A) 1/ 2
11
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Zufallsvariable X: Abbildung von Elementarereignissen auf
numerische Werte
X :
x
Experiment weißt Zufallsvariable X
den Wert x X ( ) zu
Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt
(Zufallsvariable X wird mit Wert x belegt).
Sawade/Landwehr/Scheffer, Maschinelles Lernen
p( X x) p({ | X () x})
Zusammenfassen in Wahrscheinlichkeitsverteilung, der
Variable X unterliegt
p( X )
X ~ p( X )
Verteilung gibt an, wie Wahrscheinlichkeiten
über Werte x verteilt sind
„X ist verteilt nach p(X)“
12
Zufallsvariable: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Würfeln mit 2 Würfeln
Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )}) 1/ 36
Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1 2
Wahrscheinlichkeit für Wert der ZV:
p( X 5) ?
13
Zufallsvariable: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Würfeln mit 2 Würfeln
Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )}) 1/ 36
Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1 2
Wahrscheinlichkeit für Wert der ZV:
p( X 5) p({(1, 4), (2,3), (3, 2), (4,1)})
4 / 36
14
Diskrete/kontinuierliche Zufallsvariablen
Für diskrete Zufallsvariablen gilt:
p ( X x) 1
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Diskrete Zufallsvariablen: D=X(Ω) diskret
Kontinuierliche Zufallsvariablen: D=X(Ω) kontinuierlich
D diskreter Wertebereich
xD
Beispiel: N Münzwürfe
Zufallsvariablen X1 ,..., X N {0,1}
Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an
p( X i 1)
p( X i 0) 1
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
X i ~ Bern( X i | ) X i (1 )1 X i
Bernoulli-Verteilung
15
Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N
ZV „Anzahl Köpfe“: X X i ,
Sawade/Landwehr/Scheffer, Maschinelles Lernen
X {0,..., N }
i 1
Binomial-Verteilung
X ~ Bin( X | N , )
Bin( X | N , ) ?
16
Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N
ZV „Anzahl Köpfe“: X X i ,
Sawade/Landwehr/Scheffer, Maschinelles Lernen
X {0,..., N }
i 1
Binomial-Verteilung
X ~ Bin( X | N , )
N X
Bin( X | N , ) (1 ) N X
X
Anzahl möglicher
Ergebnisserien, in denen
X Münzen „Kopf“ zeigen
Wahrscheinlichkeit einer
Ergebnisserie, in der
X Münzen „Kopf“ zeigen
N 10,
0.5
17
Kontinuierliche Zufallsvariablen
Kontinuierliche Zufallsvariablen
Unendlich (überabzählbar) viele Werte möglich
Wahrscheinlichkeit p( X x) 0
Statt Wahrscheinlichkeiten für einzelne Werte:
Dichtefunktion
fX :
„Dichte“ der ZV X
x : f X ( x) 0,
Sawade/Landwehr/Scheffer, Maschinelles Lernen
f X ( x) 1
f X ( x) 1 möglich
Wahrscheinlichkeit, dass ZV X Wert zwischen a und b
annimmt
b
p( X [a, b]) f X ( x)dx,
a
18
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel: Körpergröße X
X annähernd Gaußverteilt („Normalverteilt“)
X~
( x | , 2 )
Dichte der Normalverteilung
z.B. 170, 10
19
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel: Körpergröße
Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
genau 180cm groß ist?
p( X 180) 0
Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
zwischen 180cm und 181cm groß ist?
p( X [180,181])
181
180
( x |170,102 )dx
20
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Verteilungsfunktion
x
F ( x) p( X x) f X ( z )dz,
p( X [a, b]) F (b) F (a)
Dichte ist Ableitung der Verteilungsfunktion
f X ( x)
dF ( x)
dx
Veranschaulichung Dichte:
f X ( x) lim 0
p( X [ x , x ])
2
21
Notation
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Notation: wenn der Zusammenhang klar ist,
schreiben wir kompakter
Für diskrete Variablen:
p( x) statt p( X x) (diskrete Wahrscheinlichkeit)
Für kontinuierliche Variablen:
p( x) statt f X ( x) (kontinuierliche Dichte)
22
Verteilungen über mehrere Zufallsvariablen
Verteilung über mehrere Zufallsvariablen X, Y:
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Gemeinsame Wahrscheinlichkeit
p( X x, Y y) ,
p( X x, Y y) =1
x, y
Gemeinsame Dichte
f X ,Y ( x, y) ,
f X ,Y ( x, y)dxdy 1
Gemeinsame Verteilung (diskret/kontinuierlich)
p( X , Y )
23
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?
p( X | zusätzliche Information)
Bedingte Wahrscheinlichkeit:
p( X x | Y y )
p ( X x, Y y )
p(Y y )
diskret
Bedingte Dichte:
f X |Y ( x | y )
Sawade/Landwehr/Scheffer, Maschinelles Lernen
f X ,Y ( x, y )
fY ( y )
kontinuierlich
Bedingte Verteilung (diskret/kontinuierlich):
p( X | Y )
p( X , Y )
p(Y )
24
Rechenregeln Wahrscheinlichkeiten
Produktregel
p( X , Y ) p( X | Y ) p(Y )
Sawade/Landwehr/Scheffer, Maschinelles Lernen
diskret/kontinuierlich
Summenregel
p( X x) p( X x, Y y)
yD
diskret
f X ( x)
f X ,Y ( x, y )dy
kontinuierlich
p( X x) heisst auch "Randwahrscheinlichkeit"
25
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:
p( X , Y ) p( X ) p(Y )
Äquivalent dazu
Sawade/Landwehr/Scheffer, Maschinelles Lernen
p( X | Y ) p( X ) und p(Y | X ) p(Y )
Beispiel: wir würfeln zweimal mit fairem Würfel,
bekommen Augenzahlen x1 , x2
ZV X 1 , X 2 sind unabhängig
ZV X X 1 X 2 und X X 1 X 2 sind abhängig
26
Erwartungswert
Erwartungswert einer Zufallsvariable:
E ( X ) x xp( X x)
X diskrete ZV
E ( X ) xp( x)dx
X kontinuierliche ZV mit Dichte p(x)
Veranschaulichung: gewichtetes Mittel
Rechenregeln Erwartungswert
E(aX b) aE( X ) b
E( X Y ) E( X ) E(Y )
27
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz:
Erwartete quadrierte Abweichung von X von E(X)
Mass für die Stärke der Streuung
Var ( X ) E (( X E ( X ))2 ) (diskret oder kontinuierlich)
Standardabweichung
X Var (X )
Verschiebungssatz
Var ( X ) E( X 2 ) E( X )2
28
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Verschiebungssatz
Var ( X ) E (( X E ( X ))2 )
E ( X 2 2E ( X ) X E ( X )2 )
E ( X 2 ) 2E ( X ) E ( X ) E ( X )2
E ( X 2 ) E ( X )2
29
Rechenregeln Varianz
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Rechenregeln Varianz/Standardabweichung
Var (aX b) a 2Var ( X ),
aX b a X
Var ( X Y ) Var ( X ) Var (Y ) 2Cov( X , Y )
Cov( X , Y ) E( XY ) E( X ) E(Y )
Covarianz misst „gemeinsame Schwankung“ der
Variablen
Falls Variablen unabhängig:
Cov( X , Y ) 0,
Var ( X Y ) Var ( X ) Var (Y )
30
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i ) ?
31
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i )
x{0,1}
xp( X i x)
1 0(1 )
32
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i )
x{0,1}
xp( X i x)
1 0(1 )
Erwartungswert Binomialverteilung
X ~ Bin( X | N , )
N
X Xi
N
E ( X ) xp( X x)
i 1
x 0
N x
x (1 ) N x
x 0 x
?
N
33
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i )
x{0,1}
xp( X i x)
1 0(1 )
Erwartungswert Binomialverteilung
X ~ Bin( X | N , )
N
E ( X ) xp( X x)
N
X Xi
i 1
x 0
N x
x (1 ) N x
x 0 x
Summe der Erwartungswerte
N
N
der Bernoulli-Variablen
34
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Bernoulliverteilung?
X i ~ Bern( X i | )
Var ( X i ) ?
35
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Bernoulliverteilung?
X i ~ Bern( X i | )
Var ( X i ) ?
Verschiebungssatz:
Var ( X i )
Var ( X i ) E ( X i 2 ) E ( X i ) 2
2 (1 )
36
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Binomialverteilung
X ~ Bin( X | N , )
Var ( X ) ?
N
X Xi
i 1
X i ~ Bern( X i | )
Var ( X i ) (1 ) Var ( X ) N (1 )
X i unabhängig
37
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~
E( X )
x
x
z x
( x | , 2 )
( x | , 2 )dx
1
2
exp
(
x
)
dx
2 1/2
2
(2 )
2
1
(z )
1 2
exp
2 z dz
2 1/2
(2 )
2
1
1
1 2
1 2
exp 2 z dz z
exp 2 z dz
2 1/2
2 1/2
(2
)
2
(2
)
2
1
38
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~
E( X )
x
x
z x
( x | , 2 )
( x | , 2 )dx
1
2
exp
(
x
)
dx
2 1/2
2
(2 )
2
1
1 2
exp
2 z dz
2 1/2
(2 )
2
1
1
1 2
1 2
exp
z
dz
z
exp
2 z dz
2 1/2
2
2 1/2
(2 )
(2 )
2
2
(z )
1
1
0
39
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert, Varianz Normalverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Normalverteilung
Man kann zeigen dass
X~
( x | , 2 )
Var ( X ) 2
40
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
Sawade/Landwehr/Scheffer, Maschinelles Lernen
MAP-Hypothese und regularisierter Verlust
Bayesian Model Averaging
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
41