Maschinelles Lernen und Data Mining

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Mathematische Grundlagen
Tobias Scheffer
Peter Haider
Uwe Dick
Paul Prasse
Bayes‘sches Lernen: Anwendungsbeispiel


Neuer Impfstoff wurde
entwickelt
Frage: Wie wirksam ist
er? In wie viel % der
Fälle verhindert er eine
Infektion?
Studie: Testpersonen
werden geimpft; nach
1 Jahr wird untersucht,
ob sie sich angesteckt
haben
Scheffer/Vanck: Sprachtechnologie

2
Was untersucht man?
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten (langweilig).
 Welcher Anteil der Testpersonen ist gesund geblieben?
(= abzählen)

Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen? (spannend,
maschinelles Lernen.)
 Wie viele Personen werden in Zukunft gesund bleiben?
 Wie sicher sind wir uns dessen?
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

3
Wahrscheinlichkeiten
Frequentistische Wahrscheinlichkeiten


Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Beschreiben die Möglichkeit des Eintretens
intrinsisch stochastischer Ereignisse (z.B.
Teilchenzerfall).
Bayes‘sche, „subjektive“ Wahrscheinlichkeiten


Beschreiben die Möglichkeit des Eintretens von
Ereignissen bezogen auf einen Grad von
Informiertheit.
Unsicherheit bedeutet hier Mangel an Information.


Thomas Bayes
1702-1761
Wie wahrscheinlich ist es, dass der Impfstoff wirkt?
Neue Informationen (z.B. Studienergebnisse) können
diese subjektive Wahrscheinlichkeiten verändern.
4
Begriffe
Entität

Bezeichung

Wirksamkeit: Rate der
Nicht-Infektionen
Untersuchungen der n
Patienten
mögliche Untersuchungsergebnisse pro Patient
Wahrscheinlichkeit, dass
ein Patient gesund bleibt

Modellparameter

Zufallsvariablen

Wertebereich der Zufallsv.

Likelihood



5
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Zufallsvariablen

Ein Zufallsexperiment ist ein definierter Prozess, in
dem eine Beobachtung erzeugt wird
Zufallsvariablen (mit Großbuchstaben bezeichnet)
sind Variablen, deren Wert vom Ausgang eines
Zufallsexperiments abhängt


Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Formell: Zufallsvariablen bilden Elemente eines
Ereignisraums auf numerische Werte ab
Maschinelles Lernen: Wertebereich einer
Zufallsvariable gleichgesetzt mit Ereignisraum;
nichtnumerische Werte erlaubt (Vektoren, Bäume,
Wörter, …)
6
Wahrscheinlichkeitsfunktion
Wahrscheinlichkeitsfunktion P weist jedem jedem
möglichen Wert (mit Kleinbuchstaben bezeichnet)
einer Zufallsvariable eine Wahrscheinlichkeit zu
= Wahrscheinlichkeit, dass die
Zufallsvariable X den Wert x annimmt

Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines
der möglichen Werte von X mit Zusatzinformation
7
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Likelihood
Ereignis
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
Wahrscheinlichkeit, dass der i-te Patient gesund bleibt, …
… gegeben, dass die Wirksamkeitsrate gleich q ist
Modellparameter
8
Feinheiten der Notation


P(X)
Wahrscheinlichkeitsverteilung über alle
möglichen Werte von X
P(X = x) konkreter Wahrscheinlichkeitswert
P(x)
verkürzte Schreibweise von P(X = x),
wenn eindeutig ist, welche Zufallsvariable gemeint
ist
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

9
Diskrete Wahrscheinlichkeitsverteilung


nennt man eine diskrete
Wahrscheinlichkeitsverteilung, wenn X nur diskrete
(im Gegensatz zu kontinuierlichen) Werte
annehmen kann
Wahrscheinlichkeiten liegen immer im Intervall
Summe der Verteilungsfunktion über alle Werte = 1
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

10
Bernoulli-Verteilung


Eine diskrete Verteilung mit den 2 möglichen
Ereignissen 0 und 1 ist eine Bernoulli-Verteilung
bestimmt durch genau einen Parameter:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Verteilungsfunktion:
11
Binomialverteilung
Zusammenfassung mehrerer Bernoulli-verteilter
Zufallsvariablen X1,…,Xn mit gleichem Parameter q



neue Zufallsvariable Z, die angibt, wie viele der Xi
positiv sind:
Z ist Binomial-verteilt mit Parametern q und n
Verteilungsfunktion:
Binomialkoeffizient: Anzahl der
Möglichkeiten, aus n Elementen z
auszuwählen
Wahrscheinlichkeit, dass z der Xi
positiv sind
Wahrscheinlichkeit, dass n-z der Xi
negativ sind
12
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Gemeinsame Wahrscheinlichkeit

ist die gemeinsame
Wahrscheinlichkeitsverteilung der Zufallsvariablen
X1 und X2
gemeinsamer Wertebereich:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

kartesisches Produkt

z.B.: {beidePatientenInfiziert,
Patient1infiziert&Patient2gesund,
Patient1gesund&Patient2infiziert,
beidePatientenGesund}
13
Abhängige Zufallsvariablen

Zufallsvariablen X1 und X2 können abhängig oder
unabhängig sein
Unabhängig: P(X1, X2) = P(X1) P(X2)

Beispiel:




Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

2 aufeinanderfolgende Münzwürfe
Ergebnis des zweiten hängt nicht vom ersten ab
Impliziert: P(X2 | X1) = P(X2)
Abhängig: P(X1, X2)  P(X1) P(X2)

Beispiel:

Grippeinfektionen von 2 Sitznachbarn
14
Bedingte Unabhängigkeit

Zwei oder mehrere Zufallsvariablen können für sich
genommen abhängig sein, aber unabhängig
gegeben eine weitere Zufallsvariable
wenn gilt:



Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

P(X1,X2|Y) = P(X1|Y) P(X2|Y)
dann heißen X1 und X2 bedingt unabhängig gegeben
Y
Beispiel:


Wirkrate des Impfstoffs bekannt 
Infektionswahrscheinlichkeiten der Testpersonen unabhängig
Wirkrate des Impfstoffs unbekannt  Beobachtung eines Teils
der Testpersonen gibt Information über restliche Testpersonen
15
Rechenregeln
Summenregel:
Sind a und b disjunkte Ereignisse, dann gilt
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Beispiel: Sei X eine Zufallsvariable, die das
Ergebnis eines Würfelwurfes beschreibt
ungleich, da man P(X=2) doppelt zählen würde
16
Rechenregeln
Randverteilung:

Produktregel:


Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

egal, ob abhängig oder unabhängig
verallgemeinert:
17
Satz von Bayes
Umformungen der Produktregel

Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
ergibt zusammen:
Satz von Bayes
18
Satz von Bayes
Erklärung, Ursache für eine Beobachtung:
P(Ursache | Beobachtun g )  P( Beobachtun g | Ursache)
P(Ursache)
P( Beobachtun g )
P( Beobachtun g )  u P( Beobachtun g | Ursache  u) P(Ursache  u)



P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“.
P(Beobachtung|Ursache): Likelihood.
P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“.
19
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Satz von Bayes: Beispiel
Diagnostik:



P(Test positiv | Patient hat Krankheit) = 0,98
P(Test positiv | Patient hat die Krankheit nicht) = 0,05
P(Patient hat Krankheit) = 0,02


Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Gesamtrate des Vorkommens dieser Krankheit
Gesucht:



Wahrscheinlichkeit, dass der Patient krank ist:
P(krank=1 | Test=1)
Plausibelste (Maximum-Likelihood-) Ursache
argmaxk P(Test=1 | krank=k)
Wahrscheinlichste (Maximum-A-Posteriori-) Ursache
argmaxk P(krank=k | Test=1)
20
Prior und Posterior


Subjektive Einschätzung, bevor man die Daten
gesehen hat (a priori): Prior-Verteilung über die
Modelle
 P(Patient ist krank)
 P(Wirksamkeit des Impfstoffs)
Wie gut passen die Daten zum Modell: Likelihood
 P(Test | Krankheit)
 P(Testperson gesund | Wirksamkeit), P(X | q)
Subjektive Einschätzung, nachdem man die Daten
gesehen hat (a posteriori): Posterior-Verteilung
 P(Krankheit | Test)
 P(Wirksamkeit | Studie), P(q | X1,…,Xn)
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

21
Prior
Woher bekommt man die Prior-Verteilung?



Im Diagnostik-Beispiel relativ naheliegend
Impfstudie: schwieriger; z.B. aus allen bisherigen
Studien anderer Impfstoffe schätzen
Es gibt keine „richtige“ Prior-Verteilung!


Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

aber: unterschiedliche Prior-Verteilungen
ermöglichen unterschiedlich gute Vorhersagen für
die Zukunft
Posterior-Verteilung ergibt sich deterministisch aus
Prior und Likelihood der Beobachtungen

durch Satz von Bayes
22
Prior der Impfstudie


Verteilung über alle Wirkraten
keine diskrete, sondern kontinuierliche Verteilung
P(q) beschreibt eine Dichtefunktion
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie




Häufige Wahl (bei Parameterraum


):
Beta-Verteilung
definiert durch 2 Parameter a und b
Beta-Funktion; dient der Normalisierung
23
Beta-Verteilung
Gleichverteilung
24
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
Spezialfall: a = b = 1

Schema für Ermittlung der PosteriorVerteilung
Gegeben:

Prior-Verteilung P(q)
Beobachtungen x1,…,xn,

Likelihood P(x1,…,xn | q)


Gesucht: Posterior-Verteilung P(q | x1,…,xn)

1. Satz von Bayes anwenden

2. Randverteilung für kontinuierliche Parameter
einsetzen
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

25
Ermittlung der Posterior-Verteilung:
Beispiel
Gegeben:




Modellparameterraum
Beta-Prior mit Parametern a und b : P(q)=Beta(q |a,b)
Bernoulli-Likelihood
binäre Beobachtungen x1,…,xn, bedingt unabhängig
gegeben Modellparameter q
a

Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

positive Beobachtungen, b negative
Gesucht:

Posterior P(q | x1,…,xn)
26
1. Satz von Bayes
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
2. bedingte
Unabhängigkeit
3. a positive,
b negative Beob.
4. Bernoulli- und
Beta-Verteilung einsetzen
5. Terme zus.-fassen,
Randverteilungsformel
6. Definition der
Beta-Funktion
7. Kürzen, Definition
der Beta-Verteilung
27
Konjugierter Prior
Im vorherigen Beispiel:
 Übergang vom Prior Beta(q |a,b)





Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

durch a positive und b negative Beobachtungen
zum Posterior Beta(q |a+a,b+b)
algebraische Form von Posterior und Prior identisch
Die Beta-Verteilung ist der konjugierte Prior zur
Bernoulli-Likelihood
Immer vorteilhaft, den konjugierten Prior zu
verwenden, um zu garantieren, dass der Posterior
effizient berechenbar ist
28
Rechenbeispiel: Impfstudie


Prior: Beta mit a=1, b=5
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit a=9, b=7
29
Ermittlung des Posteriors: mechanisch
Füllhöhe zu Beginn: Prior

Likelihood-Funktion (nach
hinten gewölbt) als Filter

ergibt Posterior als
resultierende Sandmenge
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
Francis Galton, 1877

30
Parameterschätzung

Bayes‘sche Inferenz liefert keinen
Modellparameter, sondern Verteilung über
Modellparameter
Ermittlung des Modells mit der höchsten
Wahrscheinlichkeit: MAP-Schätzung



Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

„maximum-a-posteriori“ = maximiert den Posterior
qMAP = argmaxq P(q | Beobachtungen)
Im Gegensatz dazu: plausibelstes Modell = MLSchätzung



„maximum-likelihood“ = maximiert die Likelihood
ohne Berücksichtigung des Priors
qML = argmaxq P(Beobachtungen | q)
31
Parameterschätzung: Beispiel
Impfstudie:




Prior: Beta mit a=1, b=5
8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit a=9, b=7
ML-Schätzung:
 qML = argmaxq P(Beobachtungen | q)

Lösungstipp: www.wolframalpha.com
max(theta^8*(1-theta)^2)

Likelihood-Funktion
(keine Wahrscheinlichkeitsverteilung)
MAP-Schätzung:
 qMAP = argmaxq P(q | Beobachtungen)
32
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Vorhersage




= Vorhersage für Testdaten, gegeben eine Menge von
Trainingsdaten
P(Xneu | x1,…,xn)
Vorhersage mit MAP-Schätzung:
 erst qMAP bestimmen durch qMAP = argmaxq P(q | x1,…,xn)
 dann P(Xneu | qMAP) bestimmen (Likelihood-Verteilung)

ist manchmal einfach zu berechnen, ist aber mit
Informationsverlust verbunden
 qMAP nicht der „wahre“ Modellparameter, sondern nur der

wahrscheinlichste
es wird ignoriert, dass auch andere Modelle in Frage
kommen
33
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
Fragestellung: Welche Beobachtungen kann man in
Zukunft erwarten, gegeben die Beobachtungen der
Vergangenheit?
Bayes-optimale Vorhersage
Kein Zwischenschritt über das MAP-Modell,
sondern direkte Herleitung der Vorhersage:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

1. Randverteilung
2. bedingte
Unabhängigkeit
mitteln über alle Modelle
(Bayesian Model-Averaging)
gewichtet durch: wie gut passt
das Modell zu den früheren
Beobachtungen? (Posterior)
Vorhersage gegeben Modell
34
Vorhersage: Beispiel


Impfstudie: Mit welcher Wahrscheinlichkeit bleibt
eine neue Person gesund, gegeben die
Beobachtungen aus der Studie?
Vorhersage mit MAP-Modell:
 qMAP = argmaxq P(q | Beobachtungen) = 4/7
 P(Xneu = gesund | qMAP) = qMAP = 4/7
Bayes-optimale Vorhersage:
Erwartungswert einer Beta-Verteilung
mit Parametern a und b:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

35
Erwartungswert
Zufallsvariable X mit Verteilung P(X):
Der Erwartungswert E(X) ist der gewichtete
Mittelwert der möglichen Werte von X

Werte werden mit ihrer Wahrscheinlichkeit gewichet

diskrete Zufallsvariable:

kontinuierliche Zufallsvariable:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

36
Erwartungswert: Beispiel
St. Petersburger Spiel:





Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

Man wirft eine Münze so lange, bis sie zum ersten
Mal „Kopf“ zeigt
passiert dies gleich beim ersten Wurf, gewinnt man 1
Euro
falls nicht, verdoppelt sich der Gewinn so oft man
„Zahl“ geworfen hat
der Gewinn den man am Ende erhält ist eine
Zufallsvariable X
Erwarteter (durchschnittlicher) Gewinn:
37
Rekapitulation
Bayes‘sches Lernen:




einfacher 
besser 
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie

subjektiver Prior: Ausgangsverteilung über die
Modelle
Beobachtungen aus der Vergangenheit: Likelihood
gegeben Modellparameter
ergibt durch Satz von Bayes Posterior: Verteilung
über Modelle gegeben die Beobachtungen
Vorhersagen für die Zukunft: entweder


MAP-Modell berechnen (Maximierung des Posteriors),
dann Vorhersage damit
oder Bayes-optimale Vorhersage: über alle Modelle
mitteln, gewichtet mit ihrer PosteriorWahrscheinlichkeit
38
Fragen?
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Dick/Prasse:
Sprachtechnologie
39
Herunterladen