Bayessches Lernen - Institut für Informatik

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen
Christoph Sawade/Niels Landwehr
Jules Rasetaharison
Tobias Scheffer
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen

2
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen

3
Statistik & Maschinelles Lernen

Sawade/Landwehr/Scheffer, Maschinelles Lernen

Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:

Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Mittelwerte

Varianzen
Unterschiede zwischen
Populationen
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
4
Thomas Bayes

Sawade/Landwehr/Scheffer, Maschinelles Lernen

1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.

Arbeiten von Bayes grundlegend
für induktive Statistik.

„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
5
Frequentistische / Bayessche
Wahrscheinlichkeit
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Frequentistische Wahrscheinlichkeiten


Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher
Ergebnisse eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
6
Frequentistische / Bayessche
Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Grund der Unsicherheit ein Mangel an Informationen
 Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
 Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
7
Bayessche Wahrscheinlichkeiten im
Maschinellen Lernen
Modellbildung: Erklärungen für Beobachtungen finden

Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Vorwissen (Prior über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:


Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Wahrscheinlichkeitstheorie,
Zufallsvariablen




Sawade/Landwehr/Scheffer, Maschinelles Lernen

Zufallsexperiment: definierter Prozess, in dem ein
Elementarereignis ω erzeugt wird.
Ereignisraum Ω: Menge aller Elementarereignisse.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeitsfunktion P: Funktion, die
Ereignissen A ⊆ Ω Wahrscheinlichkeiten zuweist.
Zufallsvariable X: Abbildung von
Elementarereignissen auf numerische Werte.
X :Ω  
X :ω  x
9
Wahrscheinlichkeitstheorie,
Zufallsvariablen

Experiment weist Zufallsvariable (Großbuchstabe)
einen Wert (Kleinbuchstabe) zu
Wahrscheinlichkeit dafür, dass Ereignis X=x
eintritt (Zufallsvariable X wird mit Wert x belegt).


Sawade/Landwehr/Scheffer, Maschinelles Lernen

P ( X= x=
) P ({ω ∈ Ω | X (ω=
) x})
Zusammenfassen in Wahrscheinlichkeitsverteilung,
der Variable X unterliegt.

P( X )
Verteilung gibt an, wie Wahrscheinlichkeiten
über Werte x verteilt sind
X ~ P( X )
„X ist verteilt nach P(X)“
10
Diskrete Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Diskrete Zufallsvariablen:
∑ P( X=
x=
) 1
D diskreter Wertebereich
x∈D

Beispiel: N Münzwürfe


Unabhängige Zufallsvariablen X 1 ,..., X N ∈ {0,1}
Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an
P=
( X i 1|=
µ) µ
P( X i = 0 | µ ) = 1 − µ
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
Bernoulli-Verteilung
11
Diskrete Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel: Anzahl „Köpfe“ bei N Münzwürfen

ZV „Anzahl Köpfe“:
=
X
N
∑X ,
i =1

i
X ∈ {0,..., N }
Binomial-Verteilung
X ~ Bin( X | N , µ )
Bin( X | N , µ ) = ?
12
Diskrete Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel: Anzahl „Köpfe“ bei N Münzwürfen

ZV „Anzahl Köpfe“:
=
X
N
∑X ,
i =1

i
X ∈ {0,..., N }
Binomial-Verteilung
X ~ Bin( X | N , µ )
N  X
X | N , µ )   µ (1 − µ ) N − X
Bin( =
X
13
Kontinuierliche Zufallsvariablen
Kontinuierliche Zufallsvariablen



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Unendlich (meist überabzählbar) viele Werte möglich
Typischerweise Wahrscheinlichkeit P( X= x=
) 0
Statt Wahrscheinlichkeiten für einzelne Werte:
Dichtefunktion
f X :  →  „Dichte“ der ZV X
∀x : f X ( x) ≥ 0,

∫
∞
−∞
f X ( x) = 1
f X ( x) > 1 möglich
Wahrscheinlichkeit, dass ZV X Wert zwischen a und b
annimmt
b
P ( X ∈ [a, b]) = ∫ f X ( x)dx,
a
14
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel: Körpergröße X

X annähernd Gaußverteilt („Normalverteilt“)

X ~ N ( x | µ ,σ 2 )
Dichte der Normalverteilung
=
µ 170,
=
σ 10
z.B.
15
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel: Körpergröße

Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
genau 180cm groß ist?
P=
( X 180)
= 0

Wie groß ist die Wahrscheinlichkeit, dass ein Mensch
zwischen 180cm und 181cm groß ist?
181
2
P( X ∈ [180,181]) =
N
(
x
|170,10
)dx
∫
180
16
Kontinuierliche Zufallsvariablen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Verteilungsfunktion
x
F ( x) = P ( X ≤ x) = ∫ f X ( x)dx,
−∞
P( X ∈ [a, b]) =F (b) − F (a )

Dichte ist Ableitung der Verteilungsfunktion
f X ( x) =

dF ( x)
dx
Veranschaulichung Dichte:
f X ( x) = limε →0
P( X ∈ [ x − ε , x + ε ])
2ε
17
Konjunktion von Ereignissen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Wahrscheinlichkeit für Eintreten mehrerer
Ereignisse:
P (=
X x=
, Y y ) gemeinsame Wahrscheinlichkeit
f X ,Y ( x, y ) gemeinsame Dichte

Gemeinsame Verteilung (diskret/kontinuierlich)
P( X , Y )
18
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?


P ( X | zusätzliche Information )
Bedingte Wahrscheinlichkeit eines Ereignisses:


P( X = x | Y = y ) =
P ( X = x, Y = y )
P(Y = y )
diskret
Bedingte Dichte:
f X |Y ( x | y ) =

Sawade/Landwehr/Scheffer, Maschinelles Lernen

f X ,Y ( x, y )
fY ( y )
kontinuierlich
Bedingte Verteilung (diskret/kontinuierlich):

P( X | Y ) =
P( X , Y )
P(Y )
19
Bedingte Wahrscheinlichkeiten
Produktregel
P ( X , Y ) = P ( X | Y ) P (Y )

Sawade/Landwehr/Scheffer, Maschinelles Lernen

diskret/kontinuierlich
Summenregel
P( X= x=
)
∑
y
P( X= x, Y= y )
diskret
∞
f X ( x) =
∫
f X ,Y ( x, y )dy
kontinuierlich
−∞
20
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:


P( X , Y ) = P( X ) P(Y )
Äquivalent dazu


Sawade/Landwehr/Scheffer, Maschinelles Lernen

P( X | Y ) = P( X ) und P(Y | X ) = P (Y )
Beispiel: wir würfeln zweimal mit fairem Würfel,
bekommen Augenzahlen x1 , x2
 ZV X , X sind unabhängig
1
2
X 1 − X 2 sind abhängig
 ZV X=
X 1 + X 2 und X=
−
+
21
Erwartungswert
Erwartungswert einer Zufallsvariable:
=
E( X )
xP ( X
∑=
x
x)
E ( X ) = ∫ xp ( x)dx
X diskrete ZV
X kontinuierliche ZV mit Dichte p(x)

Veranschaulichung: gewichtetes Mittel,
Schwerpunkt eines Stabes mit Dichte p(x)

Rechenregeln Erwartungswert
E (aX +=
b) aE ( X ) + b
E ( X + Y=
) E ( X ) + E (Y )
22
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert
Erwartungswert additiv
E( X + Y ) =
∑ ( x + y ) P( X =
Sawade/Landwehr/Scheffer, Maschinelles Lernen

x, Y = y )
x, y
=
x, Y y ) + ∑ yP ( X ==
x, Y y )
∑ xP( X ==
x, y
x, y
=
x, Y =
y ) +∑ y ∑ P( X =
x, Y =
y)
∑ x∑ P( X =
Summenregel
x
y
y
x
=
x) + ∑ yP (Y =
y)
∑ xP( X =
x
y
= E ( X ) + E (Y )
23
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz:


Erwartete quadrierte Abweichung von X von E(X)
Mass für die Stärke der Streuung
Var ( X ) = E (( X − E ( X )) 2 ) = ∑ x ( x − E ( X )) 2 P ( X = x)
Var ( X ) = E (( X − E ( X )) 2 ) = ∫ ( x − E ( X )) 2 p ( x)dx
x

Standardabweichung
σ X = Var ( X )

Verschiebungssatz
Var
=
( X ) E ( X 2 ) − E ( X )2
24
Varianz, Standardabweichung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Verschiebungssatz
Var=
( X ) E (( X − E ( X )) 2 )
=
E ( X 2 − 2 E ( X ) X + E ( X )2 )
=
E ( X 2 ) − 2 E ( X ) E ( X ) + E ( X )2
= E ( X 2 ) − E ( X )2
25
Rechenregeln Varianz
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Rechenregeln Varianz/Standardabweichung
Var (aX + b) =
a 2Var ( X ),
σ aX +b = aσ X
Var ( X +=
Y ) Var ( X ) + Var (Y ) + 2Cov( X , Y )
Cov( X , Y ) =E (( X − E ( X ))(Y − E (Y ))) =E ( XY ) − E ( X ) E (Y )

Covarianz misst „gemeinsame Schwankung“ der
Variablen

Falls Variablen unabhängig:
Cov( X , Y ) = 0,
Var ( X +=
Y ) Var ( X ) + Var (Y )
26
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
E( X i ) = ?
27
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
=
E( X i )
=
∑ xP( X i x)
x∈{0,1}
= 1µ + 0(1 − µ ) = µ
28
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
=
E( X i )
=
∑ xP( X i x)
x∈{0,1}
= 1µ + 0(1 − µ ) = µ

Erwartungswert Binomialverteilung
N
X = ∑ Xi
X ~ Bin( X | N , µ )
=
E( X )
i =1
N
xP ( X
∑=
x)
x =0
N x
= ∑ x   µ (1 − µ ) N − x
x =0  x 
=?
N
29
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert Bernoulli-Verteilung
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
=
E( X i )
=
∑ xP( X i x)
x∈{0,1}
= 1µ + 0(1 − µ ) = µ

Erwartungswert Binomialverteilung
N
X = ∑ Xi
X ~ Bin( X | N , µ )
=
E( X )
i =1
N
xP ( X
∑=
x)
x =0
N x
= ∑ x   µ (1 − µ ) N − x
x =0  x 
Summe der Erwartungswerte
= Nµ
N
der Bernoulli-Variablen
30
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Bernoulliverteilung?
X i ~ Bern( X i | µ )
Var ( X i ) = ?
31
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Bernoulliverteilung?
X i ~ Bern( X i | µ )
Var ( X i ) = ?
Verschiebungssatz:
Var ( X i )
Var ( X i ) = E ( X i 2 ) − E ( X i ) 2
=µ − µ 2 =µ (1 − µ )
µ
32
Erwartungswert, Varianz
Binomialverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Binomialverteilung
X ~ Bin( X | N , µ )
Var ( X ) = ?
n
X = ∑ Xi
i =1
X i ~ Bern( X i=
| µ ) µ X i (1 − µ )1− X i
Var ( X i ) = µ (1 − µ ) ⇒ Var ( X ) = N µ (1 − µ )
X i unabhängig
33
Erwartungswert, Varianz Normalverteilung
Erwartungswert Normalverteilung
X ~ N ( x | µ ,σ 2 )
∞
E( X ) =
∫
xN ( x | µ , σ 2 )dx
∫
x
−∞
∞
=
z= x − µ
−∞
 1
2
exp
(
x
)
−
−
µ

 dx
2 1/2
2
(2πσ )
 2σ

1
∞
1
 1 2
(
z
)
exp
=
+
µ
 − 2 z  dz
2 1/2
∫−∞
(2πσ )
 2σ

∞
∞
1
1
 1 2
 1 2
exp
z
dz
z
exp
z  dz µ
= µ∫
−
+


− 2 =
2 1/2
2
2 1/2
∫
(2πσ )
(2πσ )
 2σ
 −∞
 2σ

−∞


1= 0
34
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Erwartungswert, Varianz Normalverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz Normalverteilung

Man kann zeigen dass
X ~ N ( x | µ ,σ 2 )
⇒
Var ( X ) =
σ2
35
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

36
Lernen und Vorhersage
Bisher: Lernproblemstellung getrennt von Vorhersage

Lernen:
f MAP = arg max f w P( f w |L)

Vorhersage:
x  f MAP (x)
x neue Testinstanz



„Wahrscheinlichstes Modell
gegeben die Daten“
„Vorhersage des
MAP Modells“
Wenn wir uns auf ein Modell festlegen müssen, ist MAP
Modell sinnvoll
Aber eigentliches Ziel ist Vorhersage einer Klasse!
Besser, sich nicht auf ein Modell festlegen - direkt nach
der optimalen Vorhersage zu suchen
37
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Lernen und Vorhersage: Beispiel



Modellraum mit 4 Modellen: H = { f1 , f 2 , f3 , f 4 }
Trainingdaten L
Wir haben a-posteriori-Wahrscheinlichkeiten berechnet
P ( f1 | L) = 0.3
P ( f 3 | L) = 0.25
P ( f 2 | L) = 0.25
P ( f 4 | L) = 0.2
Sawade/Landwehr/Scheffer, Maschinelles Lernen

MAP Modell ist f1 = arg max f p( fi |L)
i
38
Lernen und Vorhersage: Beispiel
Modelle fi probabilistische Klassifikatoren:


Sawade/Landwehr/Scheffer, Maschinelles Lernen

binäre Klassifikation:
=
P( y 1| x, fi ) ∈ [0,1]
Z.B lineares Modell:
w T x Entscheidungsfunktionswert
p(y=1)
P( y 1|=
=
x, w ) σ (w T x)
Entscheidungsfunktionswert wx
w Parametervektor
1
σ ( z) =
1 + exp(− z )
„logistische
Regression“
39
Lernen und Vorhersage: Beispiel


Wir wollen neues Testbeispiel x klassifizieren
=
P ( y 1|=
x, f1 ) 0.6
=
P ( y 1|=
x, f3 ) 0.2
=
P ( y 1|=
x, f 2 ) 0.1
=
P ( y 1|=
x, f 4 ) 0.3
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Klassifikation mit MAP Modell f1 : y = 1
Andererseits (Rechenregeln der Wsk!):
=
P( y 1|=
x, L )
=
4
p( y
∑=
1, fi | x, L)
p( y
∑=
1| f i , x, L) P( fi | x, L)
i =1
4
i =1
=
Summenregel
Produktregel
4
p( y
∑=
i =1
1| x, f i ) P( f i | L)
= 0.6*0.3 + 0.1*0.25 + 0.2*0.25 + 0.3*0.2 = 0.315
40
Lernen und Vorhersage: Beispiel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Wenn Ziel Vorhersage ist, sollten wir P( y = 1| x, L)
verwenden


Nicht auf ein Modell festlegen, solange noch
Unsicherheit über Modelle besteht
Grundidee des Bayesschen Lernens/Vorhersage!
41
Bayessches Lernen und Vorhersage

Problemstellung Vorhersage
Gegeben:



Trainingsdaten L,
neue Testinstanz x.
Gesucht:



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Verteilung über Werte y für gegebenes x.
P ( y | x, L )
Bayessche Vorhersage: wahrscheinlichstes y.



y* = arg max y P( y | x, L)
Minimiert Risiko einer falschen Vorhersage.
Heißt auch Bayes-optimale Entscheidung oder
Bayes-Hypothese.
42
Bayessches Lernen und Vorhersage
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Berechnung Bayessche Vorhersage

y* = arg max y P( y | x, L)
Summenregel
arg max y ∫ P( y,θ | x, L )dθ
θ Modell
Produktregel
= arg max y ∫ P( y | θ , x ) P(θ | L)dθ
Bayesian Model
Averaging

Vorhersage,
gegeben Modell
Modell gegeben
Trainingsdaten
Bayessches Lernen:


Mitteln der Vorhersage über alle Modelle.
Gewichtung: wie gut passt Modell zu Trainingsdaten.
43
Bayessches Lernen und Vorhersage
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayessche Vorhersage praktikabel?

y* = arg max y P( y | x, L)
= arg max y ∫ P( y | x, θ ) P(θ | L)dθ



Bayesian Model Averaging: Mitteln über i.A. unendlich
viele Modelle
Wie berechnen? Nur manchmal praktikabel, geschlossene
Lösung.
Kontrast zu Entscheidungsbaumlernen:



Finde ein Modell, das gut zu den Daten passt.
Triff Vorhersagen für neue Instanzen basierend auf
diesem Modell.
Trennt zwischen Lernen eines Modells und Vorhersage.
44
Bayessches Lernen und Vorhersage
Wie Bayes-Hypothese ausrechnen?
y* = arg max y P( y | x, L)
= arg max y ∫ P( y | x, θ ) P(θ | L)dθ

Wir brauchen:

1) Wsk für Klassenlabel gegeben Modell, P( y | x,θ )
z.B. linearer probabilistischer Klassifikator (logistische Regression)
=
P( y 1|=
x, θ ) σ (w T x)
P( =
y 0 | x, θ=
) σ ( − w T x)
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayessches Lernen und Vorhersage
Wie Bayes-Hypothese ausrechnen?
y* = arg max y P( y | x, L)
= arg max y ∫ P( y | x, θ ) P(θ | L)dθ

Wir brauchen:

2) Wsk für Modell gegeben Daten, a-posterioriWahrscheinlichkeit P(θ | L)
→ Ausrechnen mit Bayes Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayessches Lernen und Vorhersage
Berechnung der a-posteriori Verteilung über
Modelle

Likelihood,
Wie gut passt
Modell zu Daten?
Bayes‘ Gleichung
Posterior,
A-PosterioriVerteilung
Bayessche Regel:
Posterior = Likelihood x Prior.
P(θ | L) =
P( L | θ ) P(θ )
P ( L)
Prior,
A-PrioriVerteilung
1
= P ( L | θ ) P (θ )
Z
Normierungskonstante
47
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayessche Regel
Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)

Brauchen: Likelihood P(L | θ).



Wie wahrscheinlich wären die Trainingsdaten, wenn θ
das richtige Modell wäre.
Wie gut passt Modell zu den Daten.
Typischerweise Unabhängigkeitsannahme:
L = {(x1 , y1 ),..., (x N , yN )}
Wahrscheinlichkeit des in L
beobachteten Klassenlabels
gegeben Modell θ
N
P( L | θ ) = ∏ P ( yi | xi , θ )
i =1
48
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)

Brauchen: Prior P(θ ).



Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel lineare Modelle:

49
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)

Brauchen: Prior P(θ ).



Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel lineare Modelle:
^2
 |w|
möglichst niedrig (w = θ )
50
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)

Brauchen: Prior P(θ ).



Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel Entscheidungsbaumlernen:

51
Bayessche Regel
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Bayes‘ Gleichung
P( L | θ ) P(θ )
P(θ | L) =
P ( L)

Brauchen: Prior P(θ ).



Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ ) drücken datenunabhängiges
Vorwissen über Problem aus.
Beispiel Entscheidungsbaumlernen:


Kleine Bäume sind in vielen Fällen besser als
komplexe Bäume.
Algorithmen bevorzugen deshalb kleine Bäume.
52
Zusammenfassung Bayessche/MAP/MLHypothese
Um Risiko einer Fehlentscheidung zu minimieren:
wähle Bayessche Vorhersage
y* = arg max y ∫ P( y | x, θ ) P(θ | L)dθ


Problem: In vielen Fällen gibt es keine geschlossene
Lösung, Integration über alle Modelle unpraktikabel.
Maximum-A-Posteriori- (MAP-)Hypothese: wähle
θ* = arg maxθ P(θ | L)
y* = arg max y P( y | x, θ* )

Entspricht Entscheidungsbaumlernen.


Finde bestes Modell aus Daten,
Klassifiziere nur mit diesem Modell.
53
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Zusammenfassung Bayessche/MAP/MLHypothese


Um MAP-Hypothese zu bestimmen müssen wir
Posterior (Likelihood x Prior) kennen.
Unmöglich, wenn kein Vorwissen (Prior) existiert.
Maximum-Likelihood- (ML-)Hypothese:
Sawade/Landwehr/Scheffer, Maschinelles Lernen

θ* = arg maxθ P( L | θ )
y* arg max y P( y | x, θ* )
=



Berücksichtigt nur Beobachtungen in L, kein
Vorwissen.
Problem der Überanpassung an Daten
54
Herunterladen