Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen
Christoph Sawade/Niels Landwehr
Jules Rasetaharison
Tobias Scheffer
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
2
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
3
Statistik & Maschinelles Lernen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte
Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Thomas Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Frequentistische / Bayessche
Wahrscheinlichkeit
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Frequentistische Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher
Ergebnisse eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Grund der Unsicherheit ein Mangel an Informationen
Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen
Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Vorwissen (Prior über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:
Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Zufallsexperiment: definierter Prozess, in dem ein
Elementarereignis ω erzeugt wird.
Ereignisraum Ω: Menge aller Elementarereignisse.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeitsfunktion P: Funktion, die
Ereignissen A ⊆ Ω Wahrscheinlichkeiten zuweist.
Zufallsvariable X: Abbildung von
Elementarereignissen auf numerische Werte.
X :Ω
X :ω x
9
Wahrscheinlichkeitstheorie,
Zufallsvariablen
Experiment weist Zufallsvariable (Großbuchstabe)
einen Wert (Kleinbuchstabe) zu
Wahrscheinlichkeit dafür, dass Ereignis X=x
eintritt (Zufallsvariable X wird mit Wert x belegt).
Sawade/Landwehr/Scheffer, Maschinelles Lernen
P ( X= x=
) P ({ω ∈ Ω | X (ω=
) x})
Zusammenfassen in Wahrscheinlichkeitsverteilung,
der Variable X unterliegt.
P( X )
Verteilung gibt an, wie Wahrscheinlichkeiten
über Werte x verteilt sind
X ~ P( X )
„X ist verteilt nach P(X)“
10
Diskrete Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Diskrete Zufallsvariablen:
∑ P( X=
x=
) 1
D diskreter Wertebereich
x∈D
Beispiel: N Münzwürfe
Unabhängige Zufallsvariablen X 1 ,..., X N ∈ {0,1}
Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an
P=
( X i 1|=
µ) µ
P( X i = 0 | µ ) = 1 − µ
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
Bernoulli-Verteilung
11
Diskrete Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
ZV „Anzahl Köpfe“:
=
X
N
∑X ,
i =1
i
X ∈ {0,..., N }
Binomial-Verteilung
X ~ Bin( X | N , µ )
Bin( X | N , µ ) = ?
12
Diskrete Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel: Anzahl „Köpfe“ bei N Münzwürfen
ZV „Anzahl Köpfe“:
=
X
N
∑X ,
i =1
i
X ∈ {0,..., N }
Binomial-Verteilung
X ~ Bin( X | N , µ )
N X
X | N , µ ) µ (1 − µ ) N − X
Bin( =
X
13
Kontinuierliche Zufallsvariablen
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Unendlich (meist überabzählbar) viele Werte möglich
Typischerweise Wahrscheinlichkeit P( X= x=
) 0
Statt Wahrscheinlichkeiten für einzelne Werte:
Dichtefunktion
f X : → „Dichte“ der ZV X
∀x : f X ( x) ≥ 0,
∫
∞
−∞
f X ( x) = 1
f X ( x) > 1 möglich
Wahrscheinlichkeit, dass ZV X Wert zwischen a und b
annimmt
b
P ( X ∈ [a, b]) = ∫ f X ( x)dx,
a
14
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel: Körpergröße X
X annähernd Gaußverteilt („Normalverteilt“)
X ~ N ( x | µ ,σ 2 )
Dichte der Normalverteilung
=
µ 170,
=
σ 10
z.B.
15
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel: Körpergröße
Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
genau 180cm groß ist?
P=
( X 180)
= 0
Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
zwischen 180cm und 181cm groß ist?
181
2
P( X ∈ [180,181]) =
N
(
x
|170,10
)dx
∫
180
16
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Verteilungsfunktion
x
F ( x) = P ( X ≤ x) = ∫ f X ( x)dx,
−∞
P( X ∈ [a, b]) =F (b) − F (a )
Dichte ist Ableitung der Verteilungsfunktion
f X ( x) =
dF ( x)
dx
Veranschaulichung Dichte:
f X ( x) = limε →0
P( X ∈ [ x − ε , x + ε ])
2ε
17
Konjunktion von Ereignissen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Wahrscheinlichkeit für Eintreten mehrerer
Ereignisse:
P (=
X x=
, Y y ) gemeinsame Wahrscheinlichkeit
f X ,Y ( x, y ) gemeinsame Dichte
Gemeinsame Verteilung (diskret/kontinuierlich)
P( X , Y )
18
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?
P ( X | zusätzliche Information )
Bedingte Wahrscheinlichkeit eines Ereignisses:
P( X = x | Y = y ) =
P ( X = x, Y = y )
P(Y = y )
diskret
Bedingte Dichte:
f X |Y ( x | y ) =
Sawade/Landwehr/Scheffer, Maschinelles Lernen
f X ,Y ( x, y )
fY ( y )
kontinuierlich
Bedingte Verteilung (diskret/kontinuierlich):
P( X | Y ) =
P( X , Y )
P(Y )
19
Bedingte Wahrscheinlichkeiten
Produktregel
P ( X , Y ) = P ( X | Y ) P (Y )
Sawade/Landwehr/Scheffer, Maschinelles Lernen
diskret/kontinuierlich
Summenregel
P( X= x=
)
∑
y
P( X= x, Y= y )
diskret
∞
f X ( x) =
∫
f X ,Y ( x, y )dy
kontinuierlich
−∞
20
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:
P( X , Y ) = P( X ) P(Y )
Äquivalent dazu
Sawade/Landwehr/Scheffer, Maschinelles Lernen
P( X | Y ) = P( X ) und P(Y | X ) = P (Y )
Beispiel: wir würfeln zweimal mit fairem Würfel,
bekommen Augenzahlen x1 , x2
ZV X , X sind unabhängig
1
2
X 1 − X 2 sind abhängig
ZV X=
X 1 + X 2 und X=
−
+
21
Erwartungswert
Erwartungswert einer Zufallsvariable:
=
E( X )
xP ( X
∑=
x
x)
E ( X ) = ∫ xp ( x)dx
X diskrete ZV
X kontinuierliche ZV mit Dichte p(x)
Veranschaulichung: gewichtetes Mittel,
Schwerpunkt eines Stabes mit Dichte p(x)
Rechenregeln Erwartungswert
E (aX +=
b) aE ( X ) + b
E ( X + Y=
) E ( X ) + E (Y )
22
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert
Erwartungswert additiv
E( X + Y ) =
∑ ( x + y ) P( X =
Sawade/Landwehr/Scheffer, Maschinelles Lernen
x, Y = y )
x, y
=
x, Y y ) + ∑ yP ( X ==
x, Y y )
∑ xP( X ==
x, y
x, y
=
x, Y =
y ) +∑ y ∑ P( X =
x, Y =
y)
∑ x∑ P( X =
Summenregel
x
y
y
x
=
x) + ∑ yP (Y =
y)
∑ xP( X =
x
y
= E ( X ) + E (Y )
23
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz:
Erwartete quadrierte Abweichung von X von E(X)
Mass für die Stärke der Streuung
Var ( X ) = E (( X − E ( X )) 2 ) = ∑ x ( x − E ( X )) 2 P ( X = x)
Var ( X ) = E (( X − E ( X )) 2 ) = ∫ ( x − E ( X )) 2 p ( x)dx
x
Standardabweichung
σ X = Var ( X )
Verschiebungssatz
Var
=
( X ) E ( X 2 ) − E ( X )2
24
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Verschiebungssatz
Var=
( X ) E (( X − E ( X )) 2 )
=
E ( X 2 − 2 E ( X ) X + E ( X )2 )
=
E ( X 2 ) − 2 E ( X ) E ( X ) + E ( X )2
= E ( X 2 ) − E ( X )2
25
Rechenregeln Varianz
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Rechenregeln Varianz/Standardabweichung
Var (aX + b) =
a 2Var ( X ),
σ aX +b = aσ X
Var ( X +=
Y ) Var ( X ) + Var (Y ) + 2Cov( X , Y )
Cov( X , Y ) =E (( X − E ( X ))(Y − E (Y ))) =E ( XY ) − E ( X ) E (Y )
Covarianz misst „gemeinsame Schwankung“ der
Variablen
Falls Variablen unabhängig:
Cov( X , Y ) = 0,
Var ( X +=
Y ) Var ( X ) + Var (Y )
26
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
E( X i ) = ?
27
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
=
E( X i )
=
∑ xP( X i x)
x∈{0,1}
= 1µ + 0(1 − µ ) = µ
28
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
=
E( X i )
=
∑ xP( X i x)
x∈{0,1}
= 1µ + 0(1 − µ ) = µ
Erwartungswert Binomialverteilung
N
X = ∑ Xi
X ~ Bin( X | N , µ )
=
E( X )
i =1
N
xP ( X
∑=
x)
x =0
N x
= ∑ x µ (1 − µ ) N − x
x =0 x
=?
N
29
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
=
E( X i )
=
∑ xP( X i x)
x∈{0,1}
= 1µ + 0(1 − µ ) = µ
Erwartungswert Binomialverteilung
N
X = ∑ Xi
X ~ Bin( X | N , µ )
=
E( X )
i =1
N
xP ( X
∑=
x)
x =0
N x
= ∑ x µ (1 − µ ) N − x
x =0 x
Summe der Erwartungswerte
= Nµ
N
der Bernoulli-Variablen
30
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Bernoulliverteilung?
X i ~ Bern( X i | µ )
Var ( X i ) = ?
31
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Bernoulliverteilung?
X i ~ Bern( X i | µ )
Var ( X i ) = ?
Verschiebungssatz:
Var ( X i )
Var ( X i ) = E ( X i 2 ) − E ( X i ) 2
=µ − µ 2 =µ (1 − µ )
µ
32
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Binomialverteilung
X ~ Bin( X | N , µ )
Var ( X ) = ?
n
X = ∑ Xi
i =1
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
Var ( X i ) = µ (1 − µ ) ⇒ Var ( X ) = N µ (1 − µ )
X i unabhängig
33
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X ~ N ( x | µ ,σ 2 )
∞
E( X ) =
∫
xN ( x | µ , σ 2 )dx
∫
x
−∞
∞
=
z= x − µ
−∞
1
2
exp
(
x
)
−
−
µ
dx
2 1/2
2
(2πσ )
2σ
1
∞
1
1 2
(
z
)
exp
=
+
µ
− 2 z dz
2 1/2
∫−∞
(2πσ )
2σ
∞
∞
1
1
1 2
1 2
exp
z
dz
z
exp
z dz µ
= µ∫
−
+
− 2 =
2 1/2
2
2 1/2
∫
(2πσ )
(2πσ )
2σ
−∞
2σ
−∞
1= 0
34
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Erwartungswert, Varianz Normalverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz Normalverteilung
Man kann zeigen dass
X ~ N ( x | µ ,σ 2 )
⇒
Var ( X ) =
σ2
35
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
36
Lernen und Vorhersage
Bisher: Lernproblemstellung getrennt von Vorhersage
Lernen:
f MAP = arg max f w P( f w |L)
Vorhersage:
x f MAP (x)
x neue Testinstanz
„Wahrscheinlichstes Modell
gegeben die Daten“
„Vorhersage des
MAP Modells“
Wenn wir uns auf ein Modell festlegen müssen, ist MAP
Modell sinnvoll
Aber eigentliches Ziel ist Vorhersage einer Klasse!
Besser, sich nicht auf ein Modell festlegen - direkt nach
der optimalen Vorhersage zu suchen
37
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Lernen und Vorhersage: Beispiel
Modellraum mit 4 Modellen: H = { f1 , f 2 , f3 , f 4 }
Trainingdaten L
Wir haben a-posteriori-Wahrscheinlichkeiten berechnet
P ( f1 | L) = 0.3
P ( f 3 | L) = 0.25
P ( f 2 | L) = 0.25
P ( f 4 | L) = 0.2
Sawade/Landwehr/Scheffer, Maschinelles Lernen
MAP Modell ist f1 = arg max f p( fi |L)
i
38
Lernen und Vorhersage: Beispiel
Modelle fi probabilistische Klassifikatoren:
Sawade/Landwehr/Scheffer, Maschinelles Lernen
binäre Klassifikation:
=
P( y 1| x, fi ) ∈ [0,1]
Z.B lineares Modell:
w T x Entscheidungsfunktionswert
p(y=1)
P( y 1|=
=
x, w ) σ (w T x)
Entscheidungsfunktionswert wx
w Parametervektor
1
σ ( z) =
1 + exp(− z )
„logistische
Regression“
39
Lernen und Vorhersage: Beispiel
Wir wollen neues Testbeispiel x klassifizieren
=
P ( y 1|=
x, f1 ) 0.6
=
P ( y 1|=
x, f3 ) 0.2
=
P ( y 1|=
x, f 2 ) 0.1
=
P ( y 1|=
x, f 4 ) 0.3
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Klassifikation mit MAP Modell f1 : y = 1
Andererseits (Rechenregeln der Wsk!):
=
P( y 1|=
x, L )
=
4
p( y
∑=
1, fi | x, L)
p( y
∑=
1| f i , x, L) P( fi | x, L)
i =1
4
i =1
=
Summenregel
Produktregel
4
p( y
∑=
i =1
1| x, f i ) P( f i | L)
= 0.6*0.3 + 0.1*0.25 + 0.2*0.25 + 0.3*0.2 = 0.315
40
Lernen und Vorhersage: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Wenn Ziel Vorhersage ist, sollten wir P( y = 1| x, L)
verwenden
Nicht auf ein Modell festlegen, solange noch
Unsicherheit über Modelle besteht
Grundidee des Bayesschen Lernens/Vorhersage!
41
Bayessches Lernen und Vorhersage
Problemstellung Vorhersage
Gegeben:
Trainingsdaten L,
neue Testinstanz x.
Gesucht:
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Verteilung über Werte y für gegebenes x.
P ( y | x, L )
Bayessche Vorhersage: wahrscheinlichstes y.
y* = arg max y P( y | x, L)
Minimiert Risiko einer falschen Vorhersage.
Heißt auch Bayes-optimale Entscheidung oder
Bayes-Hypothese.
42
Bayessches Lernen und Vorhersage
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Berechnung Bayessche Vorhersage
y* = arg max y P( y | x, L)
Summenregel
arg max y ∫ P( y,θ | x, L )dθ
θ Modell
Produktregel
= arg max y ∫ P( y | θ , x ) P(θ | L)dθ
Bayesian Model
Averaging
Vorhersage,
gegeben Modell
Modell gegeben
Trainingsdaten
Bayessches Lernen:
Mitteln der Vorhersage über alle Modelle.
Gewichtung: wie gut passt Modell zu Trainingsdaten.
43
Bayessches Lernen und Vorhersage
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayessche Vorhersage praktikabel?
y* = arg max y P( y | x, L)
= arg max y ∫ P( y | x, θ ) P(θ | L)dθ
Bayesian Model Averaging: Mitteln über i.A. unendlich
viele Modelle
Wie berechnen? Nur manchmal praktikabel, geschlossene
Lösung.
Kontrast zu Entscheidungsbaumlernen:
Finde ein Modell, das gut zu den Daten passt.
Triff Vorhersagen für neue Instanzen basierend auf
diesem Modell.
Trennt zwischen Lernen eines Modells und Vorhersage.
44
Bayessches Lernen und Vorhersage
Wie Bayes-Hypothese ausrechnen?
y* = arg max y P( y | x, L)
= arg max y ∫ P( y | x, θ ) P(θ | L)dθ
Wir brauchen:
1) Wsk für Klassenlabel gegeben Modell, P( y | x,θ )
z.B. linearer probabilistischer Klassifikator (logistische Regression)
=
P( y 1|=
x, θ ) σ (w T x)
P( =
y 0 | x, θ=
) σ ( − w T x)
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayessches Lernen und Vorhersage
Wie Bayes-Hypothese ausrechnen?
y* = arg max y P( y | x, L)
= arg max y ∫ P( y | x, θ ) P(θ | L)dθ
Wir brauchen:
2) Wsk für Modell gegeben Daten, a-posterioriWahrscheinlichkeit P(θ | L)
→ Ausrechnen mit Bayes Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayessches Lernen und Vorhersage
Berechnung der a-posteriori Verteilung über
Modelle
Likelihood,
Wie gut passt
Modell zu Daten?
Bayes‘ Gleichung
Posterior,
A-PosterioriVerteilung
Bayessche Regel:
Posterior = Likelihood x Prior.
P(θ | L) =
P( L | θ ) P(θ )
P ( L)
Prior,
A-PrioriVerteilung
1
= P ( L | θ ) P (θ )
Z
Normierungskonstante
47
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayessche Regel
Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
Brauchen: Likelihood P(L | θ).
Wie wahrscheinlich wären die Trainingsdaten, wenn θ
das richtige Modell wäre.
Wie gut passt Modell zu den Daten.
Typischerweise Unabhängigkeitsannahme:
L = {(x1 , y1 ),..., (x N , yN )}
Wahrscheinlichkeit des in L
beobachteten Klassenlabels
gegeben Modell θ
N
P( L | θ ) = ∏ P ( yi | xi , θ )
i =1
48
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
Brauchen: Prior P(θ ).
Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel lineare Modelle:
49
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
Brauchen: Prior P(θ ).
Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel lineare Modelle:
^2
|w|
möglichst niedrig (w = θ )
50
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
Brauchen: Prior P(θ ).
Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel Entscheidungsbaumlernen:
51
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
Brauchen: Prior P(θ ).
Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel Entscheidungsbaumlernen:
Kleine Bäume sind in vielen Fällen besser als
komplexe Bäume.
Algorithmen bevorzugen deshalb kleine Bäume.
52
Zusammenfassung Bayessche/MAP/MLHypothese
Um Risiko einer Fehlentscheidung zu minimieren:
wähle Bayessche Vorhersage
y* = arg max y ∫ P( y | x, θ ) P(θ | L)dθ
Problem: In vielen Fällen gibt es keine geschlossene
Lösung, Integration über alle Modelle unpraktikabel.
Maximum-A-Posteriori- (MAP-)Hypothese: wähle
θ* = arg maxθ P(θ | L)
y* = arg max y P( y | x, θ* )
Entspricht Entscheidungsbaumlernen.
Finde bestes Modell aus Daten,
Klassifiziere nur mit diesem Modell.
53
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Zusammenfassung Bayessche/MAP/MLHypothese
Um MAP-Hypothese zu bestimmen müssen wir
Posterior (Likelihood x Prior) kennen.
Unmöglich, wenn kein Vorwissen (Prior) existiert.
Maximum-Likelihood- (ML-)Hypothese:
Sawade/Landwehr/Scheffer, Maschinelles Lernen
θ* = arg maxθ P( L | θ )
y* arg max y P( y | x, θ* )
=
Berücksichtigt nur Beobachtungen in L, kein
Vorwissen.
Problem der Überanpassung an Daten
54