X - Institut für Informatik

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen
Niels Landwehr
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
2
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
3
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Statistik & Maschinelles Lernen

Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:

Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte

Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Thomas Bayes



1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentistische Wahrscheinlichkeiten


Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher
Ergebnisse eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten



Grund der Unsicherheit ein Mangel an Informationen
 Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
 Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen

Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen



Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:


Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Wahrscheinlichkeitstheorie,
Zufallsvariablen



Zufallsexperiment: definierter Prozess, in dem ein
Elementarereignis ω erzeugt wird.
Ereignisraum Ω: Menge aller Elementarereignisse.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeitsfunktion p: Funktion, die
Ereignissen A   Wahrscheinlichkeiten zuweist.
9
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Wahrscheinlichkeitstheorie
Gültige Wahrscheinlichkeitsfunktion p
(Kolmogorow‐Axiome)



Wahrscheinlichkeit von Ereignis A   : 0  p( A)  1
Sicheres Ereignis: p()  1 , und p()  0
Für die Wahrscheinlichkeit zweier inkompatibler Ereignisse
A  , B   (d.h. A  B   ) gilt:
p( A  B)  p( A)  p( B)
10
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Wahrscheinlichkeitstheorie: Beispiel
Würfeln




Ereignisraum   {1, 2,3, 4,5,6}
Elementarereignisse haben Wsk p({})  1/ 6
Ereignis gerade Zahl: A  {2, 4,6}
Wahrscheinlichkeit des Ereignisses: p( A)  1/ 2
11
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Wahrscheinlichkeitstheorie,
Zufallsvariablen
Zufallsvariable X: Abbildung von Elementarereignissen auf
numerische Werte
X : 


Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt
(Zufallsvariable X wird mit Wert x belegt).


x
Experiment weißt Zufallsvariable X
den Wert x  X ( ) zu
p( X  x)  p({  | X ()  x})
Zusammenfassen in Wahrscheinlichkeitsverteilung, der
Variable X unterliegt
p( X )
X ~ p( X )
Verteilung gibt an, wie Wahrscheinlichkeiten
über Werte x verteilt sind
„X ist verteilt nach p(X)“
12
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Zufallsvariable: Beispiel
Würfeln mit 2 Würfeln


Ereignisraum   {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )})  1/ 36

Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1  2

Wahrscheinlichkeit für Wert der ZV:
p( X  5)  ?
13
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Zufallsvariable: Beispiel
Würfeln mit 2 Würfeln


Ereignisraum   {(1 , 2 ) | i {1, 2,3, 4,5, 6}}
Elementarereignisse haben Wahrscheinlichkeit
p({(1 , 2 )})  1/ 36

Zufallsvariable: Summe der beide Augenzahlen
X ((1 , 2 ))1  2

Wahrscheinlichkeit für Wert der ZV:
p( X  5)  p({(1, 4), (2,3), (3, 2), (4,1)})
 4 / 36
14
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Diskrete/kontinuierliche Zufallsvariablen

Für diskrete Zufallsvariablen gilt:
 p ( X  x)  1
D diskreter Wertebereich
xD

Beispiel: N Münzwürfe


Zufallsvariablen X1 ,..., X N {0,1}
Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an
p( X i  1)  
p( X i  0)  1  
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
X i ~ Bern( X i |  )   X i (1   )1 X i
Bernoulli-Verteilung
15
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Diskrete Zufallsvariablen: D=X(Ω) diskret
Kontinuierliche Zufallsvariablen: D=X(Ω) kontinuierlich

Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N

ZV „Anzahl Köpfe“: X   X i ,
X {0,..., N }
i 1

Binomial-Verteilung
X ~ Bin( X | N ,  )
Bin( X | N ,  )  ?
16
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Diskrete Zufallsvariablen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
N

ZV „Anzahl Köpfe“: X   X i ,
X {0,..., N }
i 1

Binomial-Verteilung
X ~ Bin( X | N ,  )
N  X
Bin( X | N ,  )     (1   ) N  X
X
Anzahl möglicher
Ergebnisserien, in denen
X Münzen „Kopf“ zeigen
Wahrscheinlichkeit einer
Ergebnisserie, in der
X Münzen „Kopf“ zeigen
N  10,
  0.5
17
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Kontinuierliche Zufallsvariablen
Kontinuierliche Zufallsvariablen



Unendlich (überabzählbar) viele Werte möglich
Wahrscheinlichkeit p( X  x)  0
Statt Wahrscheinlichkeiten für einzelne Werte:
Dichtefunktion
fX :

„Dichte“ der ZV X
x : f X ( x)  0,




f X ( x)  1
f X ( x)  1 möglich
Wahrscheinlichkeit, dass ZV X Wert zwischen a und b
annimmt
b
p( X  [a, b])   f X ( x)dx,
a
18
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Kontinuierliche Zufallsvariablen
Beispiel: Körpergröße X

X annähernd Gaußverteilt („Normalverteilt“)

X~
( x | , 2 )
Dichte der Normalverteilung
z.B.   170,   10
19
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Kontinuierliche Zufallsvariablen
Beispiel: Körpergröße

Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
genau 180cm groß ist?
p( X  180)  0

Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
zwischen 180cm und 181cm groß ist?
p( X [180,181])  
181
180
( x |170,102 )dx
20
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Kontinuierliche Zufallsvariablen
Verteilungsfunktion
x
F ( x)  p( X  x)   f X ( z )dz,

p( X [a, b])  F (b)  F (a)

Dichte ist Ableitung der Verteilungsfunktion
f X ( x) 

dF ( x)
dx
Veranschaulichung Dichte:
f X ( x)  lim 0
p( X  [ x   , x   ])
2
21
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Notation
Notation: wenn der Zusammenhang klar ist,
schreiben wir kompakter

Für diskrete Variablen:
p( x) statt p( X  x) (diskrete Wahrscheinlichkeit)

Für kontinuierliche Variablen:
p( x) statt f X ( x) (kontinuierliche Dichte)
22
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Verteilungen über mehrere Zufallsvariablen
Verteilung über mehrere Zufallsvariablen X, Y:

Gemeinsame Wahrscheinlichkeit
p( X  x, Y  y) ,

p( X  x, Y  y) =1
x, y

Gemeinsame Dichte
f X ,Y ( x, y) ,


f X ,Y ( x, y)dxdy  1
Gemeinsame Verteilung (diskret/kontinuierlich)
p( X , Y )
23
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit:
p ( X  x, Y  y )
p( X  x | Y  y ) 
p(Y  y )

Bedingte Dichte:
f X |Y ( x | y ) 

f X ,Y ( x, y )
fY ( y )
kontinuierlich
Bedingte Verteilung (diskret/kontinuierlich):
p( X | Y ) 

diskret
p( X , Y )
p(Y )
Für festes y ist p ( X | Y  y ) wieder Verteilung über X: wie
beeinflusst Information über Y die Verteilung über X?
24
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Rechenregeln Wahrscheinlichkeiten
Produktregel
p( X , Y )  p( X | Y ) p(Y )
diskret/kontinuierlich
Auch für bedingte Verteilung: p( X , Y | Z )  p( X | Y , Z ) p(Y | Z )

Summenregel
p( X  x)   p( X  x, Y  y)
diskret
yD

f X ( x) 

f X ,Y ( x, y )dy
kontinuierlich

p( X  x) heisst auch "Randwahrscheinlichkeit"
25
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:


Äquivalent dazu



p( X , Y )  p( X ) p(Y )
p( X | Y )  p( X ) und p(Y | X )  p(Y )
Bedingte Unabhängigkeit: p( X , Y | Z )  p( X | Z ) p(Y | Z )
Beispiel: wir würfeln zweimal mit fairem Würfel,
bekommen Augenzahlen x1 , x2 .
 ZV X 1 , X 2 sind unabhängig
 ZV X   X 1  X 2 und X  X  X sind abhängig

1
2
26
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert
Erwartungswert einer Zufallsvariable:
E ( X )   x xp( X  x)
X diskrete ZV
E ( X )   xp( x)dx
X kontinuierliche ZV mit Dichte p(x)

Veranschaulichung: gewichtetes Mittel

Rechenregeln Erwartungswert
E (aX  b)  aE ( X )  b
a, b Konstanten
E( X  Y )  E( X )  E(Y )
27
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Varianz, Standardabweichung
Varianz:


Erwartete quadrierte Abweichung von X von E(X)
Mass für die Stärke der Streuung
Var ( X )  E (( X  E ( X ))2 ) (diskret oder kontinuierlich)

Standardabweichung
 X  Var (X )

Verschiebungssatz
Var ( X )  E( X 2 )  E( X )2
28
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Varianz, Standardabweichung
Verschiebungssatz
Var ( X )  E (( X  E ( X ))2 )
 E ( X 2  2E ( X ) X  E ( X )2 )
 E ( X 2 )  2E ( X ) E ( X )  E ( X )2
 E ( X 2 )  E ( X )2
29
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Rechenregeln Varianz
Rechenregeln Varianz/Standardabweichung
Var (aX  b)  a 2Var ( X ),
 aX b  a X
Var ( X  Y )  Var ( X )  Var (Y )  2Cov( X , Y )
Cov( X , Y )  E( XY )  E( X ) E(Y )

Kovarianz misst „gemeinsame Schwankung“ der
Variablen

Falls Variablen unabhängig:
Cov( X , Y )  0,
Var ( X  Y )  Var ( X )  Var (Y )
30
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i )  ?
31
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i ) 

x{0,1}
xp( X i  x)
 1  0(1   )  
32
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i ) 

x{0,1}
xp( X i  x)
 1  0(1   )  

Erwartungswert Binomialverteilung
X ~ Bin( X | N ,  )
N
X   Xi
N
E ( X )   xp( X  x)
i 1
x 0
N x
  x    (1   ) N  x
x 0  x 
?
N
33
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i |  )   X i (1   )1 X i
E( X i ) 

x{0,1}
xp( X i  x)
 1  0(1   )  

Erwartungswert Binomialverteilung
X ~ Bin( X | N ,  )
N
E ( X )   xp( X  x)
N
X   Xi
i 1
x 0
N x
  x    (1   ) N  x
x 0  x 
Summe der Erwartungswerte
 N
N
der Bernoulli-Variablen
34
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Varianz Bernoulliverteilung?
X i ~ Bern( X i |  )
Var ( X i )  ?
35
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Varianz Bernoulliverteilung?
X i ~ Bern( X i |  )
Var ( X i )  ?
Verschiebungssatz:
Var ( X i )
Var ( X i )  E ( X i 2 )  E ( X i ) 2
    2   (1   )

36
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz
Binomialverteilung
Varianz Binomialverteilung
X ~ Bin( X | N ,  )
Var ( X )  ?
N
X   Xi
i 1
X i ~ Bern( X i |  )
Var ( X i )   (1   )  Var ( X )  N  (1   )
X i unabhängig
37
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~

E( X ) 

x

x




z  x
( x | , 2 )
( x |  ,  2 )dx
 1
2
exp

(
x


)

 dx
2 1/2
2
(2 )
 2

1


 (z  )


 1 2
exp
  2 z  dz
2 1/2
(2 )
 2

1

1
 1 2
 1 2

exp   2 z  dz   z
exp   2 z  dz  
2 1/2
2 1/2
(2

)
2

(2

)


 2



1
38
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X~

E( X ) 

x

x



z  x


( x | , 2 )
( x |  ,  2 )dx
 1
2
exp

(
x


)

 dx
2 1/2
2
(2 )
 2

1
 1 2
exp
  2 z  dz
2 1/2
(2 )
 2




1
1
 1 2
 1 2
 
exp

z
dz

z
exp


  2 z  dz  
2 1/2
2
2 1/2

(2 )
(2 )
 2

 2




 (z  )
1
1
0
39
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Erwartungswert, Varianz Normalverteilung
Varianz Normalverteilung

Man kann zeigen dass
X~
( x | , 2 )

Var ( X )   2
40
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens


MAP-Hypothese und regularisierter Verlust
Bayesian Model Averaging

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
41
Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen

Herunterladen