Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen (III)
Niels Landwehr
Binomialverteilte Daten Schätzen
Was ist der Prior p( ) im Münzwurfbeispiel?
Besser mit Vorwissen: Unwahrscheinlich, dass Münze
immer Kopf oder immer Zahl zeigt
Gutes Modell für Vorwissen über : Beta-Verteilung.
Beta( | 5,5)
p ( ) Beta ( | k z
( [0,1])
k z k 1
(1 z 1
k z
0.5
Gamma-Funktion ) kontinuierliche Fortsetzung der
Fakultätsfunktion
( z ) t z 1et dt
0
n : (n) (n 1)!
2
Sawade/Landwehr/Scheffer Maschinelles Lernen
Binomialverteilte Daten Schätzen
k und z sind Parameter der Beta-Verteilung
Sawade/Landwehr/Scheffer Maschinelles Lernen
(„Hyperparameter“)
K 5, Z 5
K 1, Z 1
1
Normalisierte Dichte
Beta( |
K
K 4, Z 2
, Z )d 1
0
3
Binomialverteilte Daten Schätzen
Warum gerade diese a-priori-Verteilung?
Strukturelle Ähnlichkeit mit Likelihood:
Prior
p ( ) Beta ( | k z
Sawade/Landwehr/Scheffer Maschinelles Lernen
k z k 1
(1 z 1
k z
N Nk
N
Likelihood p ( L | ) Bin( N k | N , ) (1 ) z
Nk
Einfach, Beobachtungen zu berücksichtigen: Produkt aus
Likelihood und Prior hat wieder dieselbe Form wie Prior
p ( | L) p( L | p(
4
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
p ( | L)
Sawade/Landwehr/Scheffer Maschinelles Lernen
p ( L | p (
p ( L)
1
Bin( N K | N , ) Beta ( | k z )
Z
k z k 1
1 N Nk
(1 ) N z
(1 z 1
Z Nk
k )( z )
1 k Nk 1
(1 z N z 1
Z'
? Wie sieht der Normalisierer Z‘ aus?
5
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
p ( | L)
Sawade/Landwehr/Scheffer Maschinelles Lernen
p ( L | p(
p ( L)
1
Bin( N K | N , ) Beta ( | k z )
Z
k z k 1
1 N Nk
(1 ) N z
(1 z 1
Z Nk
k )( z )
1 k Nk 1
(1 z N z 1
Z'
k N k z N z k Nk 1
(1 z N z 1
k N k )( z N z )
Beta ( | k N k , z N z
Beta-Verteilung ist „konjugierter“ Prior: Posterior ist
wieder Beta-verteilt
6
Zusammenfassung Bayessche
Parameterschätzung Binomialverteilung
Zusammenfassung Berechnung der a-posteriori Verteilung:
Bayessche Regel
p ( L | p (
p ( | L)
p ( L)
Sawade/Landwehr/Scheffer Maschinelles Lernen
Posterior p( | L): Wie wahrscheinlich ist Modell , nachdem wir
Daten L gesehen haben?
Vorwissen p( ) und Evidenz der Trainingsdaten L werden zu
neuem Gesamtwissen p( | L) integriert.
Beispiel Münzwurf: Vorwissen Beta( | k, z) und
Beobachtungen Nk, Nz werden zu Posterior
Beta( | k +Nk, z +Nz).
7
Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter .
arg max p( | L) arg max Beta( | k N k , z N z
Ableiten, Ableitung
null setzen
( z 1, k 1 )
k z N k N z k Nk 1
arg max
(1 z N z 1
k N k )( z N z )
Nk k 1
Nk N z k z 2
Normalisierer,
unabhängig von
Für z k 1 ergibt sich ML Schätzung
Interpretation der Hyperparameter z 1/ k 1 :
z 1/ k 1 „Pseudocounts“ , die auf beobachtete „Counts“
aufgeschlagen werden
wie oft im Leben Münzwurf mit „Kopf“/“Zahl“ gesehen?
N z / Nk
8
Sawade/Landwehr/Scheffer Maschinelles Lernen
Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Beispiel MAP Schätzung Parameter
Sawade/Landwehr/Scheffer Maschinelles Lernen
Prior p( ) Beta( | 5 5
Posterior nach L={50x Kopf, 25x Zahl}:
p ( | L) Beta ( | 55 30
N k 50, N z 25, k 5, z 5
MAP Schätzung: * arg max p( | L)
54
0.65
54 29
9
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression
Sawade/Landwehr/Scheffer Maschinelles Lernen
10
Lineare Regression
Regressionsprobleme: Label y .
Modellraum: Lineare Modelle, gegeben durch Parametervektor θ
m
fθ (x) 0 i xi
i 1
xT θ
θ „Gewichtsvektor“
Zusätzliches konstantes Attribut x0 = 1.
Eindimensional
f ( x)
Zweidimensional
f ( x)
x
x1
x2
11
Sawade/Landwehr/Scheffer Maschinelles Lernen
Probabilistische Lineare Regression
Lineare Regression als probabilistisches Modell:
p ( y | x, θ )
Sawade/Landwehr/Scheffer Maschinelles Lernen
( y | xT θ, 2 ).
f ( x)
f ( x)
p ( y | x, θ)
( y | xT θ, 2 )
x
12
Probabilistische Lineare Regression
Lineare Regression als probabilistisches Modell:
p ( y | x, θ )
Sawade/Landwehr/Scheffer Maschinelles Lernen
( y | xT θ, 2 ).
f ( x)
f ( x)
p ( y | x, θ)
( y | xT θ, 2 )
x
T *
Label yi generiert durch lineares Modell fθ* (xi ) xi θ plus
normalverteiltes Rauschen:
yi xTi θ*
i
mit
i
~
( | 0, 2 ).
13
Ziel: Optimale Vorhersage
Ziel: Optimale Vorhersage
Sawade/Landwehr/Scheffer Maschinelles Lernen
y* arg max y p( y | x, L)
Berechnung mit Bayesian Model Averaging
p( y | x, L) p( y | x, θ p(θ | L)dθ
p (θ | L)
A-priori Verteilung
über Parameter θ
1
p ( L | θ ) p ( θ)
Z
Likelihood: Wahrscheinlichkeit
der Daten, gegeben Modell θ
14
Bayessche Regression: Likelihood
Likelihood der Daten:
Sawade/Landwehr/Scheffer Maschinelles Lernen
Merkmalsvektoren xi
unabhängig von θ
p ( L | θ) p( y1 ,..., yn | x1 , , x n , θ)
i 1 p( yi | xi , θ)
n
Beispiele unabhängig
Multidimensionale
Normalverteilung mit
Kovarianzmatrix I
i 1
n
X (x1 ,..., x n )T
x1T θ
XT θ ...
x Tθ
n
f θ (xi ) xiT θ
( yi | xiT θ, 2 )
y | X θ, I
T
y ( y1 ,..., yn )T
Vektor der Vorhersagen
15
Multivariate Normalverteilung
x
Zufallsvariable x mit d Dimensionen.
d
normalverteilt, wenn Verteilung beschrieben wird durch Dichte
( x | μ, )
1
1
T 1
exp
(
x
μ
)
(
x
μ
)
2 d /2 | |1/2
2
Beispiel d=2
Determinante
Mittelwertvektor μ
d
Kovarianzmatrix
d d
Koarianzmatrix entscheidet, wie Punkte streuen
μ
16
Sawade/Landwehr/Scheffer Maschinelles Lernen
Bayessche Regression: Prior
A-Priori Verteilung über Gewichtsvektoren θ.
Geeignete Prior-Verteilung: Normalverteilung.
p (θ)
(θ | 0, p2 I )
1
2
exp 2 | θ |
m/ 2 m
2 p
2
1
p2
Sawade/Landwehr/Scheffer Maschinelles Lernen
p (θ)
0
2
0
1
steuert Stärke des Priors
Normalverteilung ist konjugiert zu sich selbst:
normalverteilter Prior und normalverteilte Likelihood
ergeben wieder normalverteilten Posterior.
17
Bayessche Regression: Posterior
Posterior-Verteilung über Modelle gegeben Daten
p (θ | L)
1
p ( L | θ ) p ( θ)
Z
1
Z
(y | XT θ, I )
Bayessche Regel
(θ | 0, p2 I)
(θ | θ, A1 )
mit θ A1Xy
Sawade/Landwehr/Scheffer Maschinelles Lernen
A XXT p2 I
Posterior ist wieder normalverteilt, mit neuem Mittelwert
θ und Kovarianzmatrix A1 .
18
Bayessche Regression: Posterior
Posterior:
p (θ | L)
Sawade/Landwehr/Scheffer Maschinelles Lernen
(θ | θ, A1 )
MAP-Modell:
θ MAP ?
19
Bayessche Regression: Posterior
Posterior:
p (θ | L)
Sawade/Landwehr/Scheffer Maschinelles Lernen
(θ | θ, A1 )
MAP-Modell:
θ MAP θ
mit θ A1Xy
A XXT p2 I
20
Sequentielles Update des Posteriors
Berechnung des Posterior als sequentielles Update:
Aufmultiplizieren der Likelihood einzelner Instanzen
Sawade/Landwehr/Scheffer Maschinelles Lernen
p (θ | L) p (θ) p (y | X, θ)
Instanzen
unabhängig
p(θ) i 1 p( yi | xi , θ)
n
„Likelihood für yi einzeln
an Prior multiplizieren“
Sei p0 (θ) p(θ) , pk (θ) der Posterior, wenn wir nur die
ersten k Instanzen in L verwenden:
p (θ | L) p(θ) p( y1 | x1 , θ) p( y2 | x 2 , θ) p( y3 | x3 , θ) ... p( yn | x n , θ)
p1 ( θ )
p2 ( θ )
p3 ( θ )
pn ( θ )
21
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
p0 (θ) p(θ)
Sequentielles Update:
p0 (θ) p(θ)
Sample aus p0 (θ)
1
0
22
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x) 0 1 x
Beispiel: Sequentielles Update Posterior
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x) 0 1 x
(eindimensionale Regression)
Sequentielles Update:
p1 (θ) p0 (θ) p( y1 | x1 , θ)
Sample aus
Likelihood p( y1 | x1 , θ)
P1 (w)
P1 (w)
Datenpunkt x1 , y1
1
y1 f ( x1 ) 1
0 1 x1 1
0
0 1 x1 y1 1
23
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
p1 (θ) p0 (θ) p( y1 | x1 , θ)
Sequentielles Update:
Posterior p1 (θ)
Likelihood p( y1 | x1 , θ)
Sample aus p1 (θ)
1
1
0
0
24
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x) 0 1 x
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
p2 (θ) p1 (θ) p( y2 | x2 , θ)
Sequentielles Update:
Sample aus p2 (θ)
p2 (θ)
p ( y2 | x2 , θ)
1
1
0
0
25
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x) 0 1 x
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
pn (θ) pn 1 (θ) p( yn | xn , θ)
Sequentielles Update:
Sample aus pn (θ)
pn (θ)
p ( yn | xn , θ)
1
1
0
0
26
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x) 0 1 x
Bayessche Regression: Vorhersage
Ziel: Bayessche Vorhersage, wahrscheinlichstes Label y.
Sawade/Landwehr/Scheffer Maschinelles Lernen
y* arg max y p( y | x, L)
Erinnerung: Berechnung mit Bayesian Model Averaging
Integration über Raum aller Modelle:
Bayesian Model Averaging
Gewichtung der Modelle mit ihrer
a-posteriori Wahrscheinlichkeit
p( y | x, L) p( y | x, θ p(θ | L)dθ
27
Bayessche Regression:
Vorhersageverteilung
Vorhersageverteilung wieder normalverteilt:
Sawade/Landwehr/Scheffer Maschinelles Lernen
p( y | x, L) p( y | x, θ) p(θ | L)dθ
( y | xT θ, 2 )
y | x θ,
T
mit θ A1Xy
2
(θ | θ, A1 )dθ
xT A1x
A XXT p2 I
Optimale Vorhersage: Eingabevektor x wird mit θ
multipliziert:
y * xT θ
28
Bayessche Regression: Konfidenzkorridor
Bayessche Regression liefert nicht nur optimale
Vorhersage y* xT θ sondern Verteilung über y und damit
auch einen Konfidenzkorridor.
y | x θ,
T
2
xT A1x
y * xT θ
x
z.B. 95% Konfidenz
29
Sawade/Landwehr/Scheffer Maschinelles Lernen
Nichtlineare Regression
Einschränkung der bisherigen Modelle: nur lineare
Abhängigkeiten zwischen x und f(x).
Lineare Daten
Sawade/Landwehr/Scheffer Maschinelles Lernen
Nicht-lineare Daten
Oft wollen wir nicht-lineare Abhängigkeiten in Daten
modellieren.
30
Nichtlineare Basisfunktionen
Einfachster Weg: Lineare Regression auf
nichtlinearen Basisfunktionen
Sawade/Landwehr/Scheffer Maschinelles Lernen
Idee: Nicht auf den ursprünglichen x arbeiten,
sondern auf nichtlinearer Transformation (x)
Vorteil: Berechnung von Posterior und Bayes‘scher
Vorhersage im Prinzip unverändert
Basisfunktionen
1 ,..., d :
m
1 (x)
(
x
)
( x) 2
...
(
x
)
d
m
d
:
ursprünglicher Instanzenraum
m
meistens d
d
m
31
Nichtlineare Basisfunktionen
Lineare Regression in den Basisfunktionen
f (x) θT (x)
d
0 ii (x)
f(x) ist lineare Kombination
von Basisfunktionen, θ
d
Sawade/Landwehr/Scheffer Maschinelles Lernen
.
i 1
Anschauung: Abbildung in höherdimensionalen
Raum ( ) , lineare Regression dort
32
Nichtlineare Basisfunktionen: Beispiel
Beispiel
1 ( x) x
Sawade/Landwehr/Scheffer Maschinelles Lernen
2 ( x) x 2
f ( x) 0 11 ( x) 22 ( x)
Nichtlineare Funktion in x darstellbar als lineare
Funktion in ( x)
f ( x) 1 3 x x 2
y
y
x
x2
x
33
Nichtlineare Basisfunktionen
Beispiele für nicht-lineare Basisfunktionen
Sawade/Landwehr/Scheffer Maschinelles Lernen
Polynome
j ( x) x j
34
Nichtlineare Basisfunktionen
Beispiele für nicht-lineare Basisfunktionen
Sawade/Landwehr/Scheffer Maschinelles Lernen
Gauss-Kurven
( x j )2
j ( x) exp
2
2
s
1 ,..., d Mittelwerte
s2 feste Varianz
35
Regression mit Basisfunktionen
Wie funktioniert die Vorhersage mit nichtlinearem Modell?
Funktion bildet m-dimensionalen Eingabevektor x auf
d-dimensionalen Merkmalsvektor (x) ab.
T
Regressionsmodell: f (x) θ (x) .
Optimale Vorhersage wie bisher, mit (x) statt x.
Transformierte Testinstanz
y* arg max y p ( y | x, L) x)T θ
Transformierte Datenmatrix
θ A1y ,
A T p2I
und X )
36
Sawade/Landwehr/Scheffer Maschinelles Lernen
Beispiel Regression mit Nichtlinearen
Basisfunktionen
Beispiel für Regression mit nicht-linearen
Basisfunktionen
Generiere nicht-lineare Datenpunkte durch
y sin(2 x)
~
( | 0, 2 ), x [0,1]
9 Gaussche Basisfunktionen
( x j )2
j ( x) exp
2
2
s
Sawade/Landwehr/Scheffer Maschinelles Lernen
1 0.1,..., 9 0.9
Wie sieht der Posterior p (θ | L) und die
Vorhersageverteilung p ( y | x, L) aus?
37
Vorhersageverteilung
f ( x)
Datenpunkt
N=1
y sin(2 x)
N=4
N=25
38
Sawade/Landwehr/Scheffer Maschinelles Lernen
N=2
Samples aus dem Posterior
N=4
N=25
39
Sawade/Landwehr/Scheffer Maschinelles Lernen
N=1
N=2