Bayessches Lernen - Institut für Informatik

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen
Christoph Sawade/Niels Landwehr/Paul Prasse
Dominik Lahmann
Tobias Scheffer
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen

2
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen

3
Statistik & Maschinelles Lernen

Sawade/Landwehr/Scheffer, Maschinelles Lernen

Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:

Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte

Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Thomas Bayes



Sawade/Landwehr/Scheffer, Maschinelles Lernen

1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Frequentistische / Bayessche
Wahrscheinlichkeit
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Frequentistische Wahrscheinlichkeiten


Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher
Ergebnisse eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Grund der Unsicherheit ein Mangel an Informationen
 Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
 Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen

Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:


Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Wahrscheinlichkeitstheorie,
Zufallsvariablen



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Zufallsexperiment: definierter Prozess, in dem ein
Elementarereignis ω erzeugt wird.
Ereignisraum Ω: Menge aller Elementarereignisse.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeitsfunktion p: Funktion, die
Ereignissen A   Wahrscheinlichkeiten zuweist.
9
Wahrscheinlichkeitstheorie
Gültige Wahrscheinlichkeitsfunktion p
(Kolmogorow‐Axiome)



Wahrscheinlichkeit von Ereignis A   : 0  p( A)  1
Sicheres Ereignis: p()  1 , und p()  0
Für die Wahrscheinlichkeit zweier inkompatibler Ereignisse
A  , B   (d.h. A  B   ) gilt:
p( A  B)  p( A)  p( B)
10
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Wahrscheinlichkeitstheorie: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Würfeln




Ereignisraum   {1, 2,3, 4,5,6}
Elementarereignisse haben Wsk p({})  1/ 6
Ereignis gerade Zahl: A  {2, 4,6}
Wahrscheinlichkeit des Ereignisses: p( A)  1/ 2
11
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Zufallsvariable X: Abbildung von Elementarereignissen auf
numerische Werte
X : 


x
Experiment weißt Zufallsvariable X
den Wert x  X ( ) zu
Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt
(Zufallsvariable X wird mit Wert x belegt).


Sawade/Landwehr/Scheffer, Maschinelles Lernen

p( X  x)  p({  | X ()  x})
Zusammenfassen in Wahrscheinlichkeitsverteilung, der
Variable X unterliegt
p( X )
X ~ p( X )
Verteilung gibt an, wie Wahrscheinlichkeiten
über Werte x verteilt sind
„X ist verteilt nach p(X)“
12
Zufallsvariable: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Würfeln mit 2 Würfeln


Ereignisraum   {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )})  1/ 36

Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1  2

Wahrscheinlichkeit für Wert der ZV:
p( X  5)  ?
13
Zufallsvariable: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Würfeln mit 2 Würfeln


Ereignisraum   {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )})  1/ 36

Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1  2

Wahrscheinlichkeit für Wert der ZV:
p( X  5)  p({(1, 4), (2,3), (3, 2), (4,1)})
 4 / 36
14
Diskrete/kontinuierliche Zufallsvariablen

Für diskrete Zufallsvariablen gilt:
 p ( X  x)  1
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Diskrete Zufallsvariablen: D=X(Ω) diskret
Kontinuierliche Zufallsvariablen: D=X(Ω) kontinuierlich

D diskreter Wertebereich
xD

Beispiel: N Münzwürfe


Zufallsvariablen X1 ,..., X N {0,1}
Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an
p( X i  1)  
p( X i  0)  1  
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
X i ~ Bern( X i |  )   X i (1   )1 X i
Bernoulli-Verteilung
15
Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N

ZV „Anzahl Köpfe“: X   X i ,
Sawade/Landwehr/Scheffer, Maschinelles Lernen

X {0,..., N }
i 1

Binomial-Verteilung
X ~ Bin( X | N ,  )
Bin( X | N ,  )  ?
16
Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N

ZV „Anzahl Köpfe“: X   X i ,
Sawade/Landwehr/Scheffer, Maschinelles Lernen

X {0,..., N }
i 1

Binomial-Verteilung
X ~ Bin( X | N ,  )
N  X
Bin( X | N ,  )     (1   ) N  X
X
Anzahl möglicher
Ergebnisserien, in denen
X Münzen „Kopf“ zeigen
Wahrscheinlichkeit einer
Ergebnisserie, in der
X Münzen „Kopf“ zeigen
N  10,
  0.5
17
Kontinuierliche Zufallsvariablen
Kontinuierliche Zufallsvariablen



Unendlich (überabzählbar) viele Werte möglich
Wahrscheinlichkeit p( X  x)  0
Statt Wahrscheinlichkeiten für einzelne Werte:
Dichtefunktion
fX :

„Dichte“ der ZV X
x : f X ( x)  0,

Sawade/Landwehr/Scheffer, Maschinelles Lernen




f X ( x)  1
f X ( x)  1 möglich
Wahrscheinlichkeit, dass ZV X Wert zwischen a und b
annimmt
b
p( X  [a, b])   f X ( x)dx,
a
18
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel: Körpergröße X

X annähernd Gaußverteilt („Normalverteilt“)

X~
( x | , 2 )
Dichte der Normalverteilung
z.B.   170,   10
19
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel: Körpergröße

Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
genau 180cm groß ist?
p( X  180)  0

Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
zwischen 180cm und 181cm groß ist?
p( X [180,181])  
181
180
( x |170,102 )dx
20
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Verteilungsfunktion
x
F ( x)  p( X  x)   f X ( z )dz,

p( X [a, b])  F (b)  F (a)

Dichte ist Ableitung der Verteilungsfunktion
f X ( x) 

dF ( x)
dx
Veranschaulichung Dichte:
f X ( x)  lim 0
p( X  [ x   , x   ])
2
21
Notation
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Notation: wenn der Zusammenhang klar ist,
schreiben wir kompakter

Für diskrete Variablen:
p( x) statt p( X  x) (diskrete Wahrscheinlichkeit)

Für kontinuierliche Variablen:
p( x) statt f X ( x) (kontinuierliche Dichte)
22
Verteilungen über mehrere Zufallsvariablen
Verteilung über mehrere Zufallsvariablen X, Y:

Sawade/Landwehr/Scheffer, Maschinelles Lernen

Gemeinsame Wahrscheinlichkeit
p( X  x, Y  y) ,

p( X  x, Y  y) =1
x, y

Gemeinsame Dichte
f X ,Y ( x, y) ,


f X ,Y ( x, y)dxdy  1
Gemeinsame Verteilung (diskret/kontinuierlich)
p( X , Y )
23
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?


p( X | zusätzliche Information)
Bedingte Wahrscheinlichkeit:


p( X  x | Y  y ) 
p ( X  x, Y  y )
p(Y  y )
diskret
Bedingte Dichte:
f X |Y ( x | y ) 

Sawade/Landwehr/Scheffer, Maschinelles Lernen

f X ,Y ( x, y )
fY ( y )
kontinuierlich
Bedingte Verteilung (diskret/kontinuierlich):

p( X | Y ) 
p( X , Y )
p(Y )
24
Rechenregeln Wahrscheinlichkeiten
Produktregel
p( X , Y )  p( X | Y ) p(Y )

Sawade/Landwehr/Scheffer, Maschinelles Lernen

diskret/kontinuierlich
Summenregel
p( X  x)   p( X  x, Y  y)
yD
diskret

f X ( x) 

f X ,Y ( x, y )dy
kontinuierlich

p( X  x) heisst auch "Randwahrscheinlichkeit"
25
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:


p( X , Y )  p( X ) p(Y )
Äquivalent dazu


Sawade/Landwehr/Scheffer, Maschinelles Lernen

p( X | Y )  p( X ) und p(Y | X )  p(Y )
Beispiel: wir würfeln zweimal mit fairem Würfel,
bekommen Augenzahlen x1 , x2
 ZV X 1 , X 2 sind unabhängig
 ZV X   X 1  X 2 und X   X 1  X 2 sind abhängig
26
Erwartungswert
Erwartungswert einer Zufallsvariable:
E ( X )   x xp( X  x)
X diskrete ZV
E ( X )   xp( x)dx
X kontinuierliche ZV mit Dichte p(x)

Veranschaulichung: gewichtetes Mittel

Rechenregeln Erwartungswert
E(aX  b)  aE( X )  b
E( X  Y )  E( X )  E(Y )
27
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz:


Erwartete quadrierte Abweichung von X von E(X)
Mass für die Stärke der Streuung
Var ( X )  E (( X  E ( X ))2 ) (diskret oder kontinuierlich)

Standardabweichung
 X  Var (X )

Verschiebungssatz
Var ( X )  E( X 2 )  E( X )2
28
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Verschiebungssatz
Var ( X )  E (( X  E ( X ))2 )
 E ( X 2  2E ( X ) X  E ( X )2 )
 E ( X 2 )  2E ( X ) E ( X )  E ( X )2
 E ( X 2 )  E ( X )2
29
Rechenregeln Varianz
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Rechenregeln Varianz/Standardabweichung
Var (aX  b)  a 2Var ( X ),
 aX b  a X
Var ( X  Y )  Var ( X )  Var (Y )  2Cov( X , Y )
Cov( X , Y )  E( XY )  E( X ) E(Y )

Covarianz misst „gemeinsame Schwankung“ der
Variablen

Falls Variablen unabhängig:
Cov( X , Y )  0,
Var ( X  Y )  Var ( X )  Var (Y )
30
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i )  ?
31
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i ) 

x{0,1}
xp( X i  x)
 1  0(1   )  
32
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i ) 

x{0,1}
xp( X i  x)
 1  0(1   )  

Erwartungswert Binomialverteilung
X ~ Bin( X | N ,  )
N
X   Xi
N
E ( X )   xp( X  x)
i 1
x 0
N x
  x    (1   ) N  x
x 0  x 
?
N
33
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i ) 

x{0,1}
xp( X i  x)
 1  0(1   )  

Erwartungswert Binomialverteilung
X ~ Bin( X | N ,  )
N
E ( X )   xp( X  x)
N
X   Xi
i 1
x 0
N x
  x    (1   ) N  x
x 0  x 
Summe der Erwartungswerte
 N
N
der Bernoulli-Variablen
34
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Bernoulliverteilung?
X i ~ Bern( X i |  )
Var ( X i )  ?
35
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Bernoulliverteilung?
X i ~ Bern( X i |  )
Var ( X i )  ?
Verschiebungssatz:
Var ( X i )
Var ( X i )  E ( X i 2 )  E ( X i ) 2
    2   (1   )

36
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Binomialverteilung
X ~ Bin( X | N ,  )
Var ( X )  ?
N
X   Xi
i 1
X i ~ Bern( X i |  )
Var ( X i )   (1   )  Var ( X )  N  (1   )
X i unabhängig
37
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~

E( X ) 

x

x




z  x
( x | , 2 )
( x |  ,  2 )dx
 1
2
exp

(
x


)

 dx
2 1/2
2
(2 )
 2

1


 (z  )


 1 2
exp
  2 z  dz
2 1/2
(2 )
 2

1

1
 1 2
 1 2

exp   2 z  dz   z
exp   2 z  dz  
2 1/2
2 1/2
(2

)
2

(2

)


 2



1
38
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~

E( X ) 

x

x



z  x


( x | , 2 )
( x |  ,  2 )dx
 1
2
exp

(
x


)

 dx
2 1/2
2
(2 )
 2

1
 1 2
exp
  2 z  dz
2 1/2
(2 )
 2




1
1
 1 2
 1 2
 
exp

z
dz

z
exp


  2 z  dz  
2 1/2
2
2 1/2

(2 )
(2 )
 2

 2




 (z  )
1
1
0
39
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert, Varianz Normalverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Normalverteilung

Man kann zeigen dass
X~
( x | , 2 )

Var ( X )   2
40
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens


Sawade/Landwehr/Scheffer, Maschinelles Lernen

MAP-Hypothese und regularisierter Verlust
Bayesian Model Averaging

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
41
Herunterladen