Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen
Niels Landwehr
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
2
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
3
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Statistik & Maschinelles Lernen
Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte
Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Thomas Bayes
1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentistische Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher
Ergebnisse eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten
Grund der Unsicherheit ein Mangel an Informationen
Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen
Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen
Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:
Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Zufallsexperiment: definierter Prozess, in dem ein
Elementarereignis ω erzeugt wird.
Ereignisraum Ω: Menge aller Elementarereignisse.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeitsfunktion p: Funktion, die
Ereignissen A Wahrscheinlichkeiten zuweist.
9
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Wahrscheinlichkeitstheorie
Gültige Wahrscheinlichkeitsfunktion p
(Kolmogorow‐Axiome)
Wahrscheinlichkeit von Ereignis A : 0 p( A) 1
Sicheres Ereignis: p() 1 , und p() 0
Für die Wahrscheinlichkeit zweier inkompatibler Ereignisse
A , B (d.h. A B ) gilt:
p( A B) p( A) p( B)
10
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Wahrscheinlichkeitstheorie: Beispiel
Würfeln
Ereignisraum {1, 2,3, 4,5,6}
Elementarereignisse haben Wsk p({}) 1/ 6
Ereignis gerade Zahl: A {2, 4,6}
Wahrscheinlichkeit des Ereignisses: p( A) 1/ 2
11
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Zufallsvariable X: Abbildung von Elementarereignissen auf
numerische Werte
X :
Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt
(Zufallsvariable X wird mit Wert x belegt).
x
Experiment weißt Zufallsvariable X
den Wert x X ( ) zu
p( X x) p({ | X () x})
Zusammenfassen in Wahrscheinlichkeitsverteilung, der
Variable X unterliegt
p( X )
X ~ p( X )
Verteilung gibt an, wie Wahrscheinlichkeiten
über Werte x verteilt sind
„X ist verteilt nach p(X)“
12
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Zufallsvariable: Beispiel
Würfeln mit 2 Würfeln
Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )}) 1/ 36
Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1 2
Wahrscheinlichkeit für Wert der ZV:
p( X 5) ?
13
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Zufallsvariable: Beispiel
Würfeln mit 2 Würfeln
Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )}) 1/ 36
Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1 2
Wahrscheinlichkeit für Wert der ZV:
p( X 5) p({(1, 4), (2,3), (3, 2), (4,1)})
4 / 36
14
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Diskrete/kontinuierliche Zufallsvariablen
Für diskrete Zufallsvariablen gilt:
p ( X x) 1
D diskreter Wertebereich
xD
Beispiel: N Münzwürfe
Zufallsvariablen X1 ,..., X N {0,1}
Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an
p( X i 1)
p( X i 0) 1
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
X i ~ Bern( X i | ) X i (1 )1 X i
Bernoulli-Verteilung
15
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Diskrete Zufallsvariablen: D=X(Ω) diskret
Kontinuierliche Zufallsvariablen: D=X(Ω) kontinuierlich
Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N
ZV „Anzahl Köpfe“: X X i ,
X {0,..., N }
i 1
Binomial-Verteilung
X ~ Bin( X | N , )
Bin( X | N , ) ?
16
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N
ZV „Anzahl Köpfe“: X X i ,
X {0,..., N }
i 1
Binomial-Verteilung
X ~ Bin( X | N , )
N X
Bin( X | N , ) (1 ) N X
X
Anzahl möglicher
Ergebnisserien, in denen
X Münzen „Kopf“ zeigen
Wahrscheinlichkeit einer
Ergebnisserie, in der
X Münzen „Kopf“ zeigen
N 10,
0.5
17
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Kontinuierliche Zufallsvariablen
Kontinuierliche Zufallsvariablen
Unendlich (überabzählbar) viele Werte möglich
Wahrscheinlichkeit p( X x) 0
Statt Wahrscheinlichkeiten für einzelne Werte:
Dichtefunktion
fX :
„Dichte“ der ZV X
x : f X ( x) 0,
f X ( x) 1
f X ( x) 1 möglich
Wahrscheinlichkeit, dass ZV X Wert zwischen a und b
annimmt
b
p( X [a, b]) f X ( x)dx,
a
18
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Kontinuierliche Zufallsvariablen
Beispiel: Körpergröße X
X annähernd Gaußverteilt („Normalverteilt“)
X~
( x | , 2 )
Dichte der Normalverteilung
z.B. 170, 10
19
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Kontinuierliche Zufallsvariablen
Beispiel: Körpergröße
Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
genau 180cm groß ist?
p( X 180) 0
Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
zwischen 180cm und 181cm groß ist?
p( X [180,181])
181
180
( x |170,102 )dx
20
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Kontinuierliche Zufallsvariablen
Verteilungsfunktion
x
F ( x) p( X x) f X ( z )dz,
p( X [a, b]) F (b) F (a)
Dichte ist Ableitung der Verteilungsfunktion
f X ( x)
dF ( x)
dx
Veranschaulichung Dichte:
f X ( x) lim 0
p( X [ x , x ])
2
21
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Notation
Notation: wenn der Zusammenhang klar ist,
schreiben wir kompakter
Für diskrete Variablen:
p( x) statt p( X x) (diskrete Wahrscheinlichkeit)
Für kontinuierliche Variablen:
p( x) statt f X ( x) (kontinuierliche Dichte)
22
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Verteilungen über mehrere Zufallsvariablen
Verteilung über mehrere Zufallsvariablen X, Y:
Gemeinsame Wahrscheinlichkeit
p( X x, Y y) ,
p( X x, Y y) =1
x, y
Gemeinsame Dichte
f X ,Y ( x, y) ,
f X ,Y ( x, y)dxdy 1
Gemeinsame Verteilung (diskret/kontinuierlich)
p( X , Y )
23
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit:
p ( X x, Y y )
p( X x | Y y )
p(Y y )
Bedingte Dichte:
f X |Y ( x | y )
f X ,Y ( x, y )
fY ( y )
kontinuierlich
Bedingte Verteilung (diskret/kontinuierlich):
p( X | Y )
diskret
p( X , Y )
p(Y )
Für festes y ist p ( X | Y y ) wieder Verteilung über X: wie
beeinflusst Information über Y die Verteilung über X?
24
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Rechenregeln Wahrscheinlichkeiten
Produktregel
p( X , Y ) p( X | Y ) p(Y )
diskret/kontinuierlich
Auch für bedingte Verteilung: p( X , Y | Z ) p( X | Y , Z ) p(Y | Z )
Summenregel
p( X x) p( X x, Y y)
diskret
yD
f X ( x)
f X ,Y ( x, y )dy
kontinuierlich
p( X x) heisst auch "Randwahrscheinlichkeit"
25
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:
Äquivalent dazu
p( X , Y ) p( X ) p(Y )
p( X | Y ) p( X ) und p(Y | X ) p(Y )
Bedingte Unabhängigkeit: p( X , Y | Z ) p( X | Z ) p(Y | Z )
Beispiel: wir würfeln zweimal mit fairem Würfel,
bekommen Augenzahlen x1 , x2 .
ZV X 1 , X 2 sind unabhängig
ZV X X 1 X 2 und X X X sind abhängig
1
2
26
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert
Erwartungswert einer Zufallsvariable:
E ( X ) x xp( X x)
X diskrete ZV
E ( X ) xp( x)dx
X kontinuierliche ZV mit Dichte p(x)
Veranschaulichung: gewichtetes Mittel
Rechenregeln Erwartungswert
E (aX b) aE ( X ) b
a, b Konstanten
E( X Y ) E( X ) E(Y )
27
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Varianz, Standardabweichung
Varianz:
Erwartete quadrierte Abweichung von X von E(X)
Mass für die Stärke der Streuung
Var ( X ) E (( X E ( X ))2 ) (diskret oder kontinuierlich)
Standardabweichung
X Var (X )
Verschiebungssatz
Var ( X ) E( X 2 ) E( X )2
28
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Varianz, Standardabweichung
Verschiebungssatz
Var ( X ) E (( X E ( X ))2 )
E ( X 2 2E ( X ) X E ( X )2 )
E ( X 2 ) 2E ( X ) E ( X ) E ( X )2
E ( X 2 ) E ( X )2
29
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Rechenregeln Varianz
Rechenregeln Varianz/Standardabweichung
Var (aX b) a 2Var ( X ),
aX b a X
Var ( X Y ) Var ( X ) Var (Y ) 2Cov( X , Y )
Cov( X , Y ) E( XY ) E( X ) E(Y )
Kovarianz misst „gemeinsame Schwankung“ der
Variablen
Falls Variablen unabhängig:
Cov( X , Y ) 0,
Var ( X Y ) Var ( X ) Var (Y )
30
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i ) ?
31
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i )
x{0,1}
xp( X i x)
1 0(1 )
32
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i )
x{0,1}
xp( X i x)
1 0(1 )
Erwartungswert Binomialverteilung
X ~ Bin( X | N , )
N
X Xi
N
E ( X ) xp( X x)
i 1
x 0
N x
x (1 ) N x
x 0 x
?
N
33
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i | ) X i (1 )1 X i
E( X i )
x{0,1}
xp( X i x)
1 0(1 )
Erwartungswert Binomialverteilung
X ~ Bin( X | N , )
N
E ( X ) xp( X x)
N
X Xi
i 1
x 0
N x
x (1 ) N x
x 0 x
Summe der Erwartungswerte
N
N
der Bernoulli-Variablen
34
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Varianz Bernoulliverteilung?
X i ~ Bern( X i | )
Var ( X i ) ?
35
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Varianz Bernoulliverteilung?
X i ~ Bern( X i | )
Var ( X i ) ?
Verschiebungssatz:
Var ( X i )
Var ( X i ) E ( X i 2 ) E ( X i ) 2
2 (1 )
36
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz
Binomialverteilung
Varianz Binomialverteilung
X ~ Bin( X | N , )
Var ( X ) ?
N
X Xi
i 1
X i ~ Bern( X i | )
Var ( X i ) (1 ) Var ( X ) N (1 )
X i unabhängig
37
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~
E( X )
x
x
z x
( x | , 2 )
( x | , 2 )dx
1
2
exp
(
x
)
dx
2 1/2
2
(2 )
2
1
(z )
1 2
exp
2 z dz
2 1/2
(2 )
2
1
1
1 2
1 2
exp 2 z dz z
exp 2 z dz
2 1/2
2 1/2
(2
)
2
(2
)
2
1
38
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~
E( X )
x
x
z x
( x | , 2 )
( x | , 2 )dx
1
2
exp
(
x
)
dx
2 1/2
2
(2 )
2
1
1 2
exp
2 z dz
2 1/2
(2 )
2
1
1
1 2
1 2
exp
z
dz
z
exp
2 z dz
2 1/2
2
2 1/2
(2 )
(2 )
2
2
(z )
1
1
0
39
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Erwartungswert, Varianz Normalverteilung
Varianz Normalverteilung
Man kann zeigen dass
X~
( x | , 2 )
Var ( X ) 2
40
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
MAP-Hypothese und regularisierter Verlust
Bayesian Model Averaging
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
41
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen