Mathematische Grundlagen - Institut für Informatik

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Mathematische Grundlagen
(Bayes‘sches Lernen)
Tobias Scheffer
Michael Großhans
Paul Prasse
Anwendungsbeispiel 1: Diagnostik


Scheffer/Großhans/Prasse: Sprachtechnologie

Neuer Test wurde
entwickelt
Frage: Wie sicher ist
die Person krank,
wenn positives
Testergebnis vorliegt?
Studie: Auf kranken
und gesunden
Testpersonen (Zustand
ist bekannt) wird Test
angewandt
2
Anwendungsbeispiel 2: Impfstoff


Scheffer/Großhans/Prasse: Sprachtechnologie

Neuer Impfstoff wurde
entwickelt
Frage: Wie wirksam ist
er? Wie oft verhindert
er eine Infektion?
Studie: Testpersonen
werden geimpft; später
wird untersucht, ob sie
sich angesteckt haben
3
Was untersucht man?
Deskriptive Statistik: Beschreibung, Untersuchung
von Eigenschaften von Stichproben (langweilig).


Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Welcher Anteil der Testpersonen ist gesund geblieben?
(= abzählen)
Induktive Statistik: Welche Schlussfolgerungen
über die Grundgesamtheit lassen sich aus
Stichproben ziehen? (spannend, maschinelles
Lernen).


Wie viele Personen werden in Zukunft gesund bleiben?
Wie sicher sind wir uns dessen?
4
Wahrscheinlichkeiten
Frequentistische „objektive“ Wahrscheinlichkeiten


Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Wahrscheinlichkeit als relative Häufigkeit mit der ein
Ereignis bei einer großen Zahl unabhängiger und
wiederholter Experimente eintritt.
Bayes‘sche, „subjektive“ Wahrscheinlichkeiten


Wahrscheinlichkeit als persönliche Überzeugung, dass ein
Ereignis eintritt.
Unsicherheit bedeutet hier Mangel an Information.
 Wie wahrscheinlich ist es, dass der Impfstoff wirkt?
 Neue Informationen (z.B. Studienergebnisse) können
diese subjektive Wahrscheinlichkeiten verändern.
5
Wahrscheinlichkeitstheorie

Zufallsexperiment: Definierter Prozess in dem eine
Beobachtung ω erzeugt wird (Elementarereignis).
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Ereignisraum Ω: Menge aller möglichen Elementarereignisse; Anzahl aller Elementarereignisse ist |Ω|.

Ereignis A: Teilmenge des Ereignisraums.

Wahrscheinlichkeit P: Funktion welche Wahrscheinlichkeitsmasse auf Ereignisse A aus Ω
verteilt.
P( A) : P   A
6
Wahrscheinlichkeitstheorie

Wahrscheinlichkeit = normiertes Maß
definiert durch Kolmogorow-Axiome:

Wahrscheinlichkeit von Ereignis A   : 0  P ( A)  1

Sicheres Ereignis: P ()  1


Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Wahrscheinlichkeit dass Ereignis A   oder Ereignis
B   eintritt mit A  B   (beide Ereignisse sind
inkompatibel): P ( A  B )  P ( A)  P ( B )
Allgemein gilt: P ( A  B )  P ( A)  P ( B )  P ( A  B )
7
Zufallsvariablen
Zufallsvariable X ist Abbildung eines elementaren
Ereignisses auf numerischen Wert X :  
x
bzw. auf m-dimensionalen Vektor X :   .x 



m
Maschinelles Lernen: auch Abbildungen auf Bäume und
andere Strukturen möglich.
Maschinelles Lernen: gleichgesetzt mit Ereignisraum.
Bild der Zufallsvariable:
:  X ( ) |   
8
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Diskrete Zufallsvariablen
X nennt man eine diskrete Zufallsvariable, wenn
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

sie nur diskrete Werte annehmen kann.

Wahrscheinlichkeitsfunktion P weist jedem
möglichen Wert einer Zufallsvariable eine
Wahrscheinlichkeit P  X  x    0;1 zu.

Summe der Verteilungsfunktion über alle Werte
 P  X  x  1
x
9
Stetige Zufallsvariablen


X nennt man eine stetige Zufallsvariable, wenn sie
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

sie kontinuierliche Werte annehmen kann.
Die Werte der Verteilungsfunktion P entsprechen
an jeder Stelle den kumulierten
Wahrscheinlichkeiten PX  x   P  X  x    0;1
Die Werte der Dichtefunktion p entsprechen an
jeder Stelle den Änderungen der
Verteilungsfunktion
pX  a  
PX  x 
x

mit
xa
 p  x  dx  1
X

10
Feinheiten der Notation


P X 
pX
Wahrscheinlichkeitsfunktion bzw.
Dichtefunktion über alle möglichen
Werte von X
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

P  X  x  konkreter Wahrscheinlichkeitswert bzw.
konkreter Wert der Dichtefunktion
pX  x 
P  x
p  x
verkürzte Schreibweise von P  X  x 
bzw. von p X  x  wenn eindeutig ist,
welche Zufallsvariable gemeint ist. Meist
werden Wahrscheinlichkeitsfunktion und
Dichtefunktion nicht getrennt.
11
Erwartungswert
Der Erwartungswert E(X) ist der gewichtete
Mittelwert der möglichen Werte von X

Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

diskrete Zufallsvariable:
E  X    xP  X  x 
x

kontinuierliche Zufallsvariable:
E  X    xp X  x  dx

Die Varianz Var(X) ist der erwarte quadratische
Abstand zum Erwartungswert von X
2
Var  X   E  X  E  X   


12
Erwartungswert: Beispiel
St. Petersburger Spiel:

Werfen einer Münze, bis sie zum ersten Mal „Kopf“ zeigt
passiert dies gleich beim ersten Wurf, gewinnt man 1 Euro
falls nicht, verdoppelt sich der Gewinn so oft man „Zahl“
geworfen hat
der Gewinn den man am Ende erhält ist Zufallsvariable X

Erwarteter (durchschnittlicher) Gewinn:



Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

E  X    xP  X  x 
x
1
1
1
 1  2   4  
2
4
8

13
Gemeinsame Wahrscheinlichkeit

ist die gemeinsame
Wahrscheinlichkeitsverteilung der Zufallsvariablen
X1 und X2
gemeinsamer Wertebereich:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

kartesisches Produkt
1


2
z.B.:
1
×
2
 { (infiziert,infiziert), (infiziert, gesund),
(gesund, infiziert), (gesund, gesund) }
14
Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit
eines der möglichen Werte von X mit
Zusatzinformation:

Diskrete Zufallsvariable:

Stetige Zufallsvariable:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

P  X  x | zusätzliche Information 
p X  x | zusätzliche Information 
15
Abhängige Zufallsvariablen
Zufallsvariablen X1 und X2 können abhängig oder
unabhängig sein

Unabhängig: P(X1, X2) = P(X1) P(X2)

Beispiel:




Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

2 aufeinanderfolgende Münzwürfe
Ergebnis des zweiten hängt nicht vom ersten ab
Impliziert: P(X2 | X1) = P(X2)
Abhängig: P(X1, X2)= P(X1) P(X2 | X1)  P(X1) P(X2)

Beispiel:

Grippeinfektionen von 2 Sitznachbarn
16
Bedingte Unabhängigkeit
Zufallsvariablen können abhängig sein, jedoch
unabhängig gegeben eine weitere Zufallsvariable

Die Zufallsvariablenvariablen X1 und X2 heißen
bedingt unabhängig gegeben Y wenn gilt:
 P(X1,X2|Y) = P(X1|Y) P(X2|Y)

Beispiel:


Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Wirkrate des Impfstoffs bekannt 
Infektionswahrscheinlichkeiten der Personen unabhängig
Wirkrate des Impfstoffs unbekannt  Beobachtung eines
Teils der Testpersonen gibt Information über restliche
Testpersonen
17
Rechenregeln

Produktregel:

verallgemeinert:
Summenregel:


Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Sind Ereignisse A, B inkombatibel:
P( A  B )  P ( A)  P ( B )
Randverteilung:
18
Rechenregeln
Satz von Bayes:

Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Inferiere P  X | Y  aus P Y | X  , P  X  und P Y 
P  X , Y   P Y , X 
 P  X | Y  P Y   P Y | X  P  X 
P Y | X  P  X 
 P X |Y  
P Y 
19
Satz von Bayes: Beispiel
Diagnostik-Beispiel:




Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

P(positiv | krank) = 0,98
P(positiv | gesund) = 0,05
P(krank) = 0,02
Gesucht für Testergebnis Test:

Wahrscheinlichkeit, dass der Patient krank ist:
P  krank | Test 

Plausibelste Ursache
arg max P Test | P 
Pkrank , gesund 

Wahrscheinlichste Ursache
arg max P  P | Test 
Pkrank , gesund 
20
Satz von Bayes
Wahrscheinlichkeit der Ursache Urs. für eine
Beobachtung Beob.:
P  Urs.
P  Urs. | Beob.  P  Beob. | Urs.
P  Beob.
P  Beob. 

P  Beob. | u  P  u 
uUrsachen



P(Urs.):
P(Beob.|Urs.):
P(Urs.|Beob.):
A-Priori-Wahrscheinlichkeit, „Prior“.
Likelihood.
A-Posteriori-Wahrscheinlichkeit,
„Posterior“.
21
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Prior, Likelihood und Posterior


Subjektive Einschätzung, bevor man die Daten
gesehen hat (a priori): Prior-Verteilung über die
Modelle
 P(Krankheit)
 P(q),
q  Wirksamkeit des Impfstoffes
Wie gut passen die Daten zum Modell: Likelihood
 P(Test | Krankheit)
 P(Studie| q),
Subjektive Einschätzung, nachdem man die Daten
gesehen hat (a posteriori): Posterior-Verteilung
 P(Krankheit | Test)
 P(q | Studie)
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

22
Prior
Woher bekommt man die Prior-Verteilung?
 P(Krankheit) relativ naheliegend; diskret
 P(q): schwieriger; stetig; z.B. aus allen bisherigen
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Studien anderer Impfstoffe schätzen

Es gibt keine „richtige“ Prior-Verteilung!


aber: unterschiedliche Prior-Verteilungen
ermöglichen unterschiedlich gute Vorhersagen für
die Zukunft
Posterior-Verteilung ergibt sich deterministisch aus
Prior und Likelihood der Beobachtungen

durch Satz von Bayes
23
Beispiel Likelihood: Bernoulli-Verteilung


Eine diskrete Verteilung mit den 2 möglichen
Ereignissen 0 und 1 ist eine Bernoulli-Verteilung
bestimmt durch genau einen Parameter:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Verteilungsfunktion:
24
Beispiel Likelihood: Binomialverteilung
Zusammenfassung mehrerer Bernoulli-verteilter
Zufallsvariablen X1,…,Xn mit gleichem Parameter q

neue Zufallsvariable Y, die angibt, wie viele der Xi positiv
n
sind:
Y   Xi
i 1

Y ist Binomial-verteilt mit Parametern q und n

Verteilungsfunktion:
n y
n y
P Y  y | q , n     q 1  q 
 y
Binomialkoeffizient: Anzahl der
Möglichkeiten, aus n Elementen y
auszuwählen
Wahrscheinlichkeit, dass y der Xi
positiv sind
Wahrscheinlichkeit, dass n-y der Xi
negativ sind
25
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Beispiel Prior: Beta-Verteilung

Häufige Wahl (bei Parameterraum



Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Verteilung über alle Wirkraten
keine diskrete, sondern kontinuierliche Verteilung
P(q) beschreibt eine Dichtefunktion

):
Beta-Verteilung
definiert durch 2 Parameter a und b
Beta-Funktion; dient der Normalisierung
26
Beispiel Prior: Beta-Verteilung
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Spezialfall: a = b = 1 ist Gleichverteilung

27
Schema für Ermittlung der PosteriorVerteilung
Gegeben:

Prior-Verteilung P(q)

Beobachtungen x1,…,xn

Likelihood
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

P(x1,…,xn | q)

Gesucht: Posterior-Verteilung P(q | x1,…,xn)

1. Satz von Bayes anwenden

2. Randverteilung für kontinuierliche Parameter
einsetzen
28
Ermittlung der Posterior-Verteilung:
Beispiel
Gegeben:




Modellparameterraum
Beta-Prior mit Parametern a und b : P(q)=Beta(q |a,b)
Bernoulli-Likelihood
binäre Beobachtungen x1,…,xn, bedingt unabhängig
gegeben Modellparameter q
a

Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

positive Beobachtungen, b negative
Gesucht:

Posterior P(q | x1,…,xn)
29
Ermittlung der Posterior-Verteilung
, xn 
 P  x1 ,
, xn | q  P q  / P  x1 ,
, xn 
 n

  P  xi | q   P q  / P  x1 , , xn 
 i 1

a
b
 P  X  1 | q  P  X  0 | q  P q  / P  x1 ,
 q a 1  q 
b
q a 1 1  q 
B a , b 
q a a 1 1  q 

B a , b 
b  b 1
q a a 1 1  q 

B a , b 
b  b 1
b 1
/ P  x1 ,
, xn 
Satz von Bayes
Bedingte Unabhängigkeit
, xn 
a positive, b negative
Bernoulli- und
Beta-Verteilung einsetzen
 q a a 1 1  q b  b 1 
/ 
dq 
B a , b 


Terme zusammenfassen,
Randverteilungsformel
 B a  a,b  b  
/

B
a
,
b




Definition der
Beta-Funktion
 Beta q | a  a , b  b 
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P q | x1 ,
Kürzen, Definition
der Beta-Verteilung
30
Konjugierter Prior
Im vorherigen Beispiel:
 Übergang vom Prior Beta(q |a,b)





Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

durch a positive und b negative Beobachtungen
zum Posterior Beta(q |a+a,b+b)
algebraische Form von Posterior und Prior identisch
Die Beta-Verteilung ist der konjugierte Prior zur
Bernoulli-Likelihood
Immer vorteilhaft, den konjugierten Prior zu
verwenden, um zu garantieren, dass der Posterior
effizient berechenbar ist
31
Rechenbeispiel: Impfstudie


Prior: Beta mit a=1, b=5
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit a=9, b=7
32
Parameterschätzung

Bayes‘sche Inferenz liefert keinen
Modellparameter, sondern Verteilung über
Modellparameter
Ermittlung des Modells mit der höchsten
Wahrscheinlichkeit: MAP-Schätzung



Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

„maximum-a-posteriori“ = maximiert den Posterior
qMAP = argmaxq P(q | Beobachtungen)
Im Gegensatz dazu: plausibelstes Modell = MLSchätzung



„maximum-likelihood“ = maximiert die Likelihood
ohne Berücksichtigung des Priors
qML = argmaxq P(Beobachtungen | q)
33
Parameterschätzung: Beispiel
Impfstudie:




Prior: Beta mit a=1, b=5
8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit a=9, b=7
ML-Schätzung:
 qML = argmaxq P(Beob. | q)


MAP-Schätzung:
 qMAP = argmaxq P(q | Beob.)
Likelihood-Funktion
(keine Wahrscheinlichkeitsverteilung)
34
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Vorhersage
Welche Beobachtungen kann man in Zukunft erwarten,
gegeben die Beobachtungen der Vergangenheit?


Vorhersage für Testdaten, gegeben eine Menge von
Trainingsdaten P(Xneu | Xalt)
Vorhersage mit MAP-Schätzung:
 erst qMAP bestimmen durch qMAP = argmaxq P(q | Xalt)
 dann P(Xneu | qMAP) bestimmen (Likelihood-Verteilung)

Mit Informationsverlust verbunden:
 qMAP nicht „echter“ Parameter, sondern wahrscheinlichster

ignoriert, dass auch andere Modelle in Frage kommen
35
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

Bayes-optimale Vorhersage
Kein Zwischenschritt über das MAP-Modell,
sondern direkte Herleitung der Vorhersage:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

P  X neu | X alt  
1. Randverteilung
  P  X neu | q , X alt  P q | X alt  dq
q
2. bedingte
Unabhängigkeit
  P  X neu | q  P q | X alt  dq
q
mitteln über alle Modelle
(Bayesian Model-Averaging)
gewichtet durch: wie gut passt
das Modell zu den früheren
Beobachtungen? (Posterior)
Vorhersage gegeben Modell
36
Vorhersage: Beispiel
Impfstudie: Mit welcher Wahrscheinlichkeit bleibt
neue Person gesund, gegeben die Studie?

Vorhersage mit MAP-Modell:
 qMAP = argmaxq P(q | Beob.) = 4/7
 P(gesund | qMAP) = qMAP = 4/7

Bayes-optimale Vorhersage:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

P  gesund | X alt    P  gesund | q  P q | X alt  dq
q
9
  q  Beta q | 9, 7  dq 
16
q
Erwartungswert einer Beta-Verteilung
37
Rekapitulation
Bayes‘sches Lernen:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:

subjektiver Prior: Ausgangsverteilung über die Modelle
 Beobachtungen aus der Vergangenheit: Likelihood
gegeben Modellparameter
 ergibt durch Satz von Bayes Posterior: Verteilung über
Modelle gegeben die Beobachtungen
 Mögliche Wege für Vorhersagen in der Zukunft:
einfacher   MAP-Modell berechnen (Maximierung des Posteriors),
dann Vorhersage mit MAP-Modell
besser   Bayes-optimale Vorhersage: über alle Modelle mitteln,
gewichtet mit ihrer Posterior-Wahrscheinlichkeit

38
Fragen?
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
39
Herunterladen