Bayessches Lernen

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen (III)
Niels Landwehr
Binomialverteilte Daten Schätzen


Was ist der Prior p( ) im Münzwurfbeispiel?
Besser mit Vorwissen: Unwahrscheinlich, dass Münze
immer Kopf oder immer Zahl zeigt
Gutes Modell für Vorwissen über  : Beta-Verteilung.
Beta( | 5,5)
p ( )  Beta ( |  k   z 
( [0,1])

 k   z   k 1
 (1    z 1
 k  z 
0.5

Gamma-Funktion  ) kontinuierliche Fortsetzung der
Fakultätsfunktion

( z )   t z 1et dt
0
n  : (n)  (n  1)!
2
Sawade/Landwehr/Scheffer Maschinelles Lernen

Binomialverteilte Daten Schätzen
k und z sind Parameter der Beta-Verteilung
Sawade/Landwehr/Scheffer Maschinelles Lernen

(„Hyperparameter“)
 K  5,  Z  5
 K  1,  Z  1
1

Normalisierte Dichte
 Beta( | 
K
 K  4,  Z  2
,  Z )d  1
0
3
Binomialverteilte Daten Schätzen
Warum gerade diese a-priori-Verteilung?

Strukturelle Ähnlichkeit mit Likelihood:
Prior
p ( )  Beta ( |  k   z  
Sawade/Landwehr/Scheffer Maschinelles Lernen

 k   z   k 1
 (1    z 1
 k  z 
 N  Nk
N
Likelihood p ( L |  )  Bin( N k | N ,  )     (1   ) z
 Nk 

Einfach, Beobachtungen zu berücksichtigen: Produkt aus
Likelihood und Prior hat wieder dieselbe Form wie Prior
p ( | L)  p( L |   p( 
4
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
p ( | L) 
Sawade/Landwehr/Scheffer Maschinelles Lernen

p ( L |   p ( 
p ( L)
1
Bin( N K | N ,  ) Beta ( |  k   z )
Z
 k   z   k 1
1  N  Nk
    (1   ) N z
 (1    z 1
Z  Nk 
 k )( z )

1  k  Nk 1

(1    z  N z 1
Z'
 ? Wie sieht der Normalisierer Z‘ aus?

5
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
p ( | L) 
Sawade/Landwehr/Scheffer Maschinelles Lernen

p ( L |   p( 
p ( L)
1
Bin( N K | N ,  ) Beta ( |  k   z )
Z
 k   z   k 1
1  N  Nk
    (1   ) N z
 (1    z 1
Z  Nk 
 k )( z )

1  k  Nk 1

(1    z  N z 1
Z'
 k  N k   z  N z   k  Nk 1


(1    z  N z 1
 k  N k )( z  N z )

 Beta ( |  k  N k ,  z  N z 

Beta-Verteilung ist „konjugierter“ Prior: Posterior ist
wieder Beta-verteilt
6
Zusammenfassung Bayessche
Parameterschätzung Binomialverteilung




Zusammenfassung Berechnung der a-posteriori Verteilung:
Bayessche Regel
p ( L |   p ( 
p ( | L) 
p ( L)
Sawade/Landwehr/Scheffer Maschinelles Lernen

Posterior p( | L): Wie wahrscheinlich ist Modell , nachdem wir
Daten L gesehen haben?
Vorwissen p( ) und Evidenz der Trainingsdaten L werden zu
neuem Gesamtwissen p( | L) integriert.
Beispiel Münzwurf: Vorwissen Beta( | k, z) und
Beobachtungen Nk, Nz werden zu Posterior
Beta( | k +Nk, z +Nz).
7
Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter .
arg max p( | L)  arg max Beta( |  k  N k ,  z  N z 
Ableiten, Ableitung
null setzen
(  z  1,  k  1 )


 k   z  N k  N z   k  Nk 1
 arg max

(1    z  N z 1
 k  N k )( z  N z )

Nk  k 1
Nk  N z  k   z  2
Normalisierer,
unabhängig von 
Für  z   k  1 ergibt sich ML Schätzung
Interpretation der Hyperparameter  z  1/  k  1 :

 z  1/  k  1 „Pseudocounts“ , die auf beobachtete „Counts“

aufgeschlagen werden
wie oft im Leben Münzwurf mit „Kopf“/“Zahl“ gesehen?
N z / Nk
8
Sawade/Landwehr/Scheffer Maschinelles Lernen

Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Beispiel MAP Schätzung Parameter
Sawade/Landwehr/Scheffer Maschinelles Lernen

Prior p( )  Beta( | 5 5
Posterior nach L={50x Kopf, 25x Zahl}:
p ( | L)  Beta ( | 55 30 
N k  50, N z  25,  k  5,  z  5
MAP Schätzung:  *  arg max p( | L) 
54
 0.65
54  29
9
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression
Sawade/Landwehr/Scheffer Maschinelles Lernen

10
Lineare Regression

Regressionsprobleme: Label y  .
Modellraum: Lineare Modelle, gegeben durch Parametervektor θ
m
fθ (x)   0   i xi
i 1
 xT θ
θ „Gewichtsvektor“
Zusätzliches konstantes Attribut x0 = 1.
Eindimensional
f ( x)
Zweidimensional
f ( x)
x
x1
x2
11
Sawade/Landwehr/Scheffer Maschinelles Lernen

Probabilistische Lineare Regression
Lineare Regression als probabilistisches Modell:
p ( y | x, θ ) 
Sawade/Landwehr/Scheffer Maschinelles Lernen

( y | xT θ,  2 ).
f ( x)
f ( x)
p ( y | x, θ) 
( y | xT θ,  2 )
x
12
Probabilistische Lineare Regression
Lineare Regression als probabilistisches Modell:
p ( y | x, θ ) 
Sawade/Landwehr/Scheffer Maschinelles Lernen

( y | xT θ,  2 ).
f ( x)
f ( x)
p ( y | x, θ) 
( y | xT θ,  2 )
x

T *
Label yi generiert durch lineares Modell fθ* (xi )  xi θ plus
normalverteiltes Rauschen:
yi  xTi θ* 
i
mit
i
~
( | 0,  2 ).
13
Ziel: Optimale Vorhersage
Ziel: Optimale Vorhersage


Sawade/Landwehr/Scheffer Maschinelles Lernen

y*  arg max y p( y | x, L)
Berechnung mit Bayesian Model Averaging
p( y | x, L)   p( y | x, θ  p(θ | L)dθ
p (θ | L) 
A-priori Verteilung
über Parameter θ
1
p ( L | θ ) p ( θ)
Z
Likelihood: Wahrscheinlichkeit
der Daten, gegeben Modell θ
14
Bayessche Regression: Likelihood
Likelihood der Daten:
Sawade/Landwehr/Scheffer Maschinelles Lernen

Merkmalsvektoren xi
unabhängig von θ
p ( L | θ)  p( y1 ,..., yn | x1 , , x n , θ)
  i 1 p( yi | xi , θ)
n
Beispiele unabhängig
Multidimensionale
Normalverteilung mit

Kovarianzmatrix  I
  i 1
n

X  (x1 ,..., x n )T
 x1T θ 


XT θ   ... 
 x Tθ
 n 
f θ (xi )  xiT θ
( yi | xiT θ,  2 )
 y | X θ, I 
T

y  ( y1 ,..., yn )T
Vektor der Vorhersagen
15
Multivariate Normalverteilung
x
Zufallsvariable x mit d Dimensionen.
d
normalverteilt, wenn Verteilung beschrieben wird durch Dichte
( x | μ, ) 
1
 1

T 1
exp

(
x

μ
)

(
x

μ
)


2 d /2 |  |1/2
2


Beispiel d=2
Determinante

Mittelwertvektor μ 
d

Kovarianzmatrix  
d d

Koarianzmatrix entscheidet, wie Punkte streuen
μ
16
Sawade/Landwehr/Scheffer Maschinelles Lernen

Bayessche Regression: Prior

A-Priori Verteilung über Gewichtsvektoren θ.
Geeignete Prior-Verteilung: Normalverteilung.
p (θ) 
(θ | 0,  p2 I )
 1

2

exp   2 | θ | 
m/ 2 m
 2 p

2 


1
 p2 

Sawade/Landwehr/Scheffer Maschinelles Lernen

p (θ)
0
2
0
1
steuert Stärke des Priors
Normalverteilung ist konjugiert zu sich selbst:
normalverteilter Prior und normalverteilte Likelihood
ergeben wieder normalverteilten Posterior.
17
Bayessche Regression: Posterior
Posterior-Verteilung über Modelle gegeben Daten
p (θ | L) 


1
p ( L | θ ) p ( θ)
Z
1
Z
(y | XT θ,   I ) 
Bayessche Regel
(θ | 0,  p2 I)
(θ | θ, A1 )
mit θ    A1Xy

Sawade/Landwehr/Scheffer Maschinelles Lernen

A    XXT   p2 I
Posterior ist wieder normalverteilt, mit neuem Mittelwert
θ und Kovarianzmatrix A1 .
18
Bayessche Regression: Posterior
Posterior:
p (θ | L) 

Sawade/Landwehr/Scheffer Maschinelles Lernen

(θ | θ, A1 )
MAP-Modell:

θ MAP  ?
19
Bayessche Regression: Posterior
Posterior:
p (θ | L) 

Sawade/Landwehr/Scheffer Maschinelles Lernen

(θ | θ, A1 )
MAP-Modell:

θ MAP  θ
mit θ    A1Xy
A    XXT   p2 I
20
Sequentielles Update des Posteriors
Berechnung des Posterior als sequentielles Update:
Aufmultiplizieren der Likelihood einzelner Instanzen
Sawade/Landwehr/Scheffer Maschinelles Lernen

p (θ | L)  p (θ) p (y | X, θ)
Instanzen
unabhängig

 p(θ) i 1 p( yi | xi , θ)
n
„Likelihood für yi einzeln
an Prior multiplizieren“
Sei p0 (θ)  p(θ) , pk (θ) der Posterior, wenn wir nur die
ersten k Instanzen in L verwenden:
p (θ | L)  p(θ) p( y1 | x1 , θ) p( y2 | x 2 , θ) p( y3 | x3 , θ)  ...  p( yn | x n , θ)
p1 ( θ )
p2 ( θ )
p3 ( θ )
pn ( θ )
21
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
p0 (θ)  p(θ)
Sequentielles Update:
p0 (θ)  p(θ)
Sample aus p0 (θ)
1
0
22
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x)   0  1 x
Beispiel: Sequentielles Update Posterior
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x)   0  1 x
(eindimensionale Regression)
Sequentielles Update:
p1 (θ)  p0 (θ) p( y1 | x1 , θ)
Sample aus
Likelihood p( y1 | x1 , θ)
P1 (w)
P1 (w)
Datenpunkt x1 , y1
1
y1  f ( x1 )  1
  0  1 x1  1
0
  0  1 x1  y1  1
23
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
p1 (θ)  p0 (θ) p( y1 | x1 , θ)
Sequentielles Update:
Posterior p1 (θ)
Likelihood p( y1 | x1 , θ)
Sample aus p1 (θ)
1
1
0
0
24
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x)   0  1 x
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
p2 (θ)  p1 (θ) p( y2 | x2 , θ)
Sequentielles Update:
Sample aus p2 (θ)
p2 (θ)
p ( y2 | x2 , θ)
1
1
0
0
25
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x)   0  1 x
Beispiel: Sequentielles Update Posterior
(eindimensionale Regression)
pn (θ)  pn 1 (θ) p( yn | xn , θ)
Sequentielles Update:
Sample aus pn (θ)
pn (θ)
p ( yn | xn , θ)
1
1
0
0
26
Sawade/Landwehr/Scheffer Maschinelles Lernen
f ( x)   0  1 x
Bayessche Regression: Vorhersage
Ziel: Bayessche Vorhersage, wahrscheinlichstes Label y.


Sawade/Landwehr/Scheffer Maschinelles Lernen

y*  arg max y p( y | x, L)
Erinnerung: Berechnung mit Bayesian Model Averaging
Integration über Raum aller Modelle:
Bayesian Model Averaging
Gewichtung der Modelle mit ihrer
a-posteriori Wahrscheinlichkeit
p( y | x, L)   p( y | x, θ  p(θ | L)dθ
27
Bayessche Regression:
Vorhersageverteilung
Vorhersageverteilung wieder normalverteilt:
Sawade/Landwehr/Scheffer Maschinelles Lernen

p( y | x, L)   p( y | x, θ) p(θ | L)dθ


( y | xT θ,  2 )
 y | x θ, 
T
mit θ    A1Xy

2
(θ | θ, A1 )dθ
 xT A1x 
A    XXT   p2 I
Optimale Vorhersage: Eingabevektor x wird mit θ
multipliziert:
y *  xT θ
28
Bayessche Regression: Konfidenzkorridor
Bayessche Regression liefert nicht nur optimale
Vorhersage y*  xT θ sondern Verteilung über y und damit
auch einen Konfidenzkorridor.
 y | x θ, 
T
2
 xT A1x 
y *  xT θ
x
z.B. 95% Konfidenz
29
Sawade/Landwehr/Scheffer Maschinelles Lernen

Nichtlineare Regression
Einschränkung der bisherigen Modelle: nur lineare
Abhängigkeiten zwischen x und f(x).
Lineare Daten

Sawade/Landwehr/Scheffer Maschinelles Lernen

Nicht-lineare Daten
Oft wollen wir nicht-lineare Abhängigkeiten in Daten
modellieren.
30
Nichtlineare Basisfunktionen
Einfachster Weg: Lineare Regression auf
nichtlinearen Basisfunktionen



Sawade/Landwehr/Scheffer Maschinelles Lernen

Idee: Nicht auf den ursprünglichen x arbeiten,
sondern auf nichtlinearer Transformation  (x)
Vorteil: Berechnung von Posterior und Bayes‘scher
Vorhersage im Prinzip unverändert
Basisfunktionen
1 ,..., d :
m

 1 (x) 



(
x
)
 ( x)   2  
 ...




(
x
)
 d 
m
d
:
ursprünglicher Instanzenraum
m

meistens d
d
m
31
Nichtlineare Basisfunktionen
Lineare Regression in den Basisfunktionen
f (x)  θT  (x)
d
  0   ii (x)
f(x) ist lineare Kombination
von Basisfunktionen, θ 
d
Sawade/Landwehr/Scheffer Maschinelles Lernen

.
i 1

Anschauung: Abbildung in höherdimensionalen
Raum  ( ) , lineare Regression dort
32
Nichtlineare Basisfunktionen: Beispiel
Beispiel

1 ( x)  x
Sawade/Landwehr/Scheffer Maschinelles Lernen

2 ( x)  x 2
f ( x)   0  11 ( x)   22 ( x)

Nichtlineare Funktion in x darstellbar als lineare
Funktion in  ( x)
f ( x)  1  3 x  x 2

y
y
x
x2
x
33
Nichtlineare Basisfunktionen
Beispiele für nicht-lineare Basisfunktionen

Sawade/Landwehr/Scheffer Maschinelles Lernen

Polynome
 j ( x)  x j
34
Nichtlineare Basisfunktionen
Beispiele für nicht-lineare Basisfunktionen

Sawade/Landwehr/Scheffer Maschinelles Lernen

Gauss-Kurven
 ( x   j )2 
 j ( x)  exp  

2
2
s


1 ,..., d Mittelwerte
s2 feste Varianz
35
Regression mit Basisfunktionen
Wie funktioniert die Vorhersage mit nichtlinearem Modell?

Funktion  bildet m-dimensionalen Eingabevektor x auf
d-dimensionalen Merkmalsvektor  (x) ab.
T
Regressionsmodell: f (x)  θ  (x) .

Optimale Vorhersage wie bisher, mit  (x) statt x.

Transformierte Testinstanz
y*  arg max y p ( y | x, L)    x)T θ
Transformierte Datenmatrix
θ    A1y ,
A   T   p2I
und     X )
36
Sawade/Landwehr/Scheffer Maschinelles Lernen

Beispiel Regression mit Nichtlinearen
Basisfunktionen
Beispiel für Regression mit nicht-linearen
Basisfunktionen

Generiere nicht-lineare Datenpunkte durch
y  sin(2 x)  

~
( | 0,  2 ), x [0,1]
9 Gaussche Basisfunktionen
 ( x   j )2 
 j ( x)  exp  

2
2
s



Sawade/Landwehr/Scheffer Maschinelles Lernen

1  0.1,..., 9  0.9
Wie sieht der Posterior p (θ | L) und die
Vorhersageverteilung p ( y | x, L) aus?
37
Vorhersageverteilung
f ( x)
Datenpunkt
N=1
y  sin(2 x)
N=4
N=25
38
Sawade/Landwehr/Scheffer Maschinelles Lernen
N=2
Samples aus dem Posterior
N=4
N=25
39
Sawade/Landwehr/Scheffer Maschinelles Lernen
N=1
N=2
Herunterladen