Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayessches Lernen Christoph Sawade/Niels Landwehr Jules Rasetaharison Tobias Scheffer Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 2 Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 3 Statistik & Maschinelles Lernen Sawade/Landwehr/Scheffer, Maschinelles Lernen Maschinelles Lernen: eng verwandt mit (induktiver) Statistik Zwei Gebiete in der Statistik: Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Daten. Mittelwerte Varianzen Unterschiede zwischen Populationen Induktive Statistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? Modellbildung Erklärungen für Beobachtungen Zusammenhänge, Muster in Daten 4 Thomas Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 1702-1761 „An essay towards solving a problem in the doctrine of chances“, 1764 veröffentlicht. Arbeiten von Bayes grundlegend für induktive Statistik. „Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise auf Unsicherheit & Wahrscheinlichkeit 5 Frequentistische / Bayessche Wahrscheinlichkeit Sawade/Landwehr/Scheffer, Maschinelles Lernen Frequentistische Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.B. Münzwurf). Definition über relative Häufigkeiten möglicher Ergebnisse eines wiederholbaren Versuches „Wenn man eine faire Münze 1000 Mal wirft, wird etwa 500 Mal Kopf fallen“ „In 1 Gramm Potassium-40 zerfallen pro Sekunde ca. 260.000 Atomkerne“ 6 Frequentistische / Bayessche Wahrscheinlichkeit Bayessche, „subjektive“ Wahrscheinlichkeiten Sawade/Landwehr/Scheffer, Maschinelles Lernen Grund der Unsicherheit ein Mangel an Informationen Wie wahrscheinlich ist es, dass der Verdächtige X das Opfer umgebracht hat? Neue Informationen (z.B. Fingerabdrücke) können diese subjektiven Wahrscheinlichkeiten verändern. Bayessche Sichtweise im maschinellen Lernen wichtiger Frequentistische Sichtweise auch manchmal verwendet, mathematisch äquivalent 7 Bayessche Wahrscheinlichkeiten im Maschinellen Lernen Modellbildung: Erklärungen für Beobachtungen finden Was ist das „wahrscheinlichste“ Modell? Abwägen zwischen Sawade/Landwehr/Scheffer, Maschinelles Lernen Vorwissen (Prior über Modelle) Evidenz (Daten, Beobachtungen) Bayessche Sichtweise: Evidenz (Daten) verändert „subjektive“ Wahrscheinlichkeiten für Modelle (Erklärungen) A-posteriori Modellwahrscheinlichkeit, MAP Hypothese 8 Wahrscheinlichkeitstheorie, Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Zufallsexperiment: definierter Prozess, in dem ein Elementarereignis ω erzeugt wird. Ereignisraum Ω: Menge aller Elementarereignisse. Ereignis A: Teilmenge des Ereignisraums. Wahrscheinlichkeitsfunktion P: Funktion, die Ereignissen A ⊆ Ω Wahrscheinlichkeiten zuweist. Zufallsvariable X: Abbildung von Elementarereignissen auf numerische Werte. X :Ω X :ω x 9 Wahrscheinlichkeitstheorie, Zufallsvariablen Experiment weist Zufallsvariable (Großbuchstabe) einen Wert (Kleinbuchstabe) zu Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt (Zufallsvariable X wird mit Wert x belegt). Sawade/Landwehr/Scheffer, Maschinelles Lernen P ( X= x= ) P ({ω ∈ Ω | X (ω= ) x}) Zusammenfassen in Wahrscheinlichkeitsverteilung, der Variable X unterliegt. P( X ) Verteilung gibt an, wie Wahrscheinlichkeiten über Werte x verteilt sind X ~ P( X ) „X ist verteilt nach P(X)“ 10 Diskrete Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Diskrete Zufallsvariablen: ∑ P( X= x= ) 1 D diskreter Wertebereich x∈D Beispiel: N Münzwürfe Unabhängige Zufallsvariablen X 1 ,..., X N ∈ {0,1} Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an P= ( X i 1|= µ) µ P( X i = 0 | µ ) = 1 − µ Wahrscheinlichkeit für „Kopf“ Wahrscheinlichkeit für „Zahl“ X i ~ Bern( X i= | µ ) µ X i (1 − µ )1− X i Bernoulli-Verteilung 11 Diskrete Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel: Anzahl „Köpfe“ bei N Münzwürfen ZV „Anzahl Köpfe“: = X N ∑X , i =1 i X ∈ {0,..., N } Binomial-Verteilung X ~ Bin( X | N , µ ) Bin( X | N , µ ) = ? 12 Diskrete Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel: Anzahl „Köpfe“ bei N Münzwürfen ZV „Anzahl Köpfe“: = X N ∑X , i =1 i X ∈ {0,..., N } Binomial-Verteilung X ~ Bin( X | N , µ ) N X X | N , µ ) µ (1 − µ ) N − X Bin( = X 13 Kontinuierliche Zufallsvariablen Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Unendlich (meist überabzählbar) viele Werte möglich Typischerweise Wahrscheinlichkeit P( X= x= ) 0 Statt Wahrscheinlichkeiten für einzelne Werte: Dichtefunktion f X : → „Dichte“ der ZV X ∀x : f X ( x) ≥ 0, ∫ ∞ −∞ f X ( x) = 1 f X ( x) > 1 möglich Wahrscheinlichkeit, dass ZV X Wert zwischen a und b annimmt b P ( X ∈ [a, b]) = ∫ f X ( x)dx, a 14 Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel: Körpergröße X X annähernd Gaußverteilt („Normalverteilt“) X ~ N ( x | µ ,σ 2 ) Dichte der Normalverteilung = µ 170, = σ 10 z.B. 15 Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel: Körpergröße Wie groß ist die Wahrscheinlichkeit, dass ein Mensch genau 180cm groß ist? P= ( X 180) = 0 Wie groß ist die Wahrscheinlichkeit, dass ein Mensch zwischen 180cm und 181cm groß ist? 181 2 P( X ∈ [180,181]) = N ( x |170,10 )dx ∫ 180 16 Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Verteilungsfunktion x F ( x) = P ( X ≤ x) = ∫ f X ( x)dx, −∞ P( X ∈ [a, b]) =F (b) − F (a ) Dichte ist Ableitung der Verteilungsfunktion f X ( x) = dF ( x) dx Veranschaulichung Dichte: f X ( x) = limε →0 P( X ∈ [ x − ε , x + ε ]) 2ε 17 Konjunktion von Ereignissen Sawade/Landwehr/Scheffer, Maschinelles Lernen Wahrscheinlichkeit für Eintreten mehrerer Ereignisse: P (= X x= , Y y ) gemeinsame Wahrscheinlichkeit f X ,Y ( x, y ) gemeinsame Dichte Gemeinsame Verteilung (diskret/kontinuierlich) P( X , Y ) 18 Bedingte Wahrscheinlichkeiten Wie beeinflusst zusätzliche Information die Wahrscheinlichkeitsverteilung? P ( X | zusätzliche Information ) Bedingte Wahrscheinlichkeit eines Ereignisses: P( X = x | Y = y ) = P ( X = x, Y = y ) P(Y = y ) diskret Bedingte Dichte: f X |Y ( x | y ) = Sawade/Landwehr/Scheffer, Maschinelles Lernen f X ,Y ( x, y ) fY ( y ) kontinuierlich Bedingte Verteilung (diskret/kontinuierlich): P( X | Y ) = P( X , Y ) P(Y ) 19 Bedingte Wahrscheinlichkeiten Produktregel P ( X , Y ) = P ( X | Y ) P (Y ) Sawade/Landwehr/Scheffer, Maschinelles Lernen diskret/kontinuierlich Summenregel P( X= x= ) ∑ y P( X= x, Y= y ) diskret ∞ f X ( x) = ∫ f X ,Y ( x, y )dy kontinuierlich −∞ 20 Unabhängigkeit Zwei Zufallsvariablen sind unabhängig, wenn: P( X , Y ) = P( X ) P(Y ) Äquivalent dazu Sawade/Landwehr/Scheffer, Maschinelles Lernen P( X | Y ) = P( X ) und P(Y | X ) = P (Y ) Beispiel: wir würfeln zweimal mit fairem Würfel, bekommen Augenzahlen x1 , x2 ZV X , X sind unabhängig 1 2 X 1 − X 2 sind abhängig ZV X= X 1 + X 2 und X= − + 21 Erwartungswert Erwartungswert einer Zufallsvariable: = E( X ) xP ( X ∑= x x) E ( X ) = ∫ xp ( x)dx X diskrete ZV X kontinuierliche ZV mit Dichte p(x) Veranschaulichung: gewichtetes Mittel, Schwerpunkt eines Stabes mit Dichte p(x) Rechenregeln Erwartungswert E (aX += b) aE ( X ) + b E ( X + Y= ) E ( X ) + E (Y ) 22 Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Erwartungswert additiv E( X + Y ) = ∑ ( x + y ) P( X = Sawade/Landwehr/Scheffer, Maschinelles Lernen x, Y = y ) x, y = x, Y y ) + ∑ yP ( X == x, Y y ) ∑ xP( X == x, y x, y = x, Y = y ) +∑ y ∑ P( X = x, Y = y) ∑ x∑ P( X = Summenregel x y y x = x) + ∑ yP (Y = y) ∑ xP( X = x y = E ( X ) + E (Y ) 23 Varianz, Standardabweichung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz: Erwartete quadrierte Abweichung von X von E(X) Mass für die Stärke der Streuung Var ( X ) = E (( X − E ( X )) 2 ) = ∑ x ( x − E ( X )) 2 P ( X = x) Var ( X ) = E (( X − E ( X )) 2 ) = ∫ ( x − E ( X )) 2 p ( x)dx x Standardabweichung σ X = Var ( X ) Verschiebungssatz Var = ( X ) E ( X 2 ) − E ( X )2 24 Varianz, Standardabweichung Sawade/Landwehr/Scheffer, Maschinelles Lernen Verschiebungssatz Var= ( X ) E (( X − E ( X )) 2 ) = E ( X 2 − 2 E ( X ) X + E ( X )2 ) = E ( X 2 ) − 2 E ( X ) E ( X ) + E ( X )2 = E ( X 2 ) − E ( X )2 25 Rechenregeln Varianz Sawade/Landwehr/Scheffer, Maschinelles Lernen Rechenregeln Varianz/Standardabweichung Var (aX + b) = a 2Var ( X ), σ aX +b = aσ X Var ( X += Y ) Var ( X ) + Var (Y ) + 2Cov( X , Y ) Cov( X , Y ) =E (( X − E ( X ))(Y − E (Y ))) =E ( XY ) − E ( X ) E (Y ) Covarianz misst „gemeinsame Schwankung“ der Variablen Falls Variablen unabhängig: Cov( X , Y ) = 0, Var ( X += Y ) Var ( X ) + Var (Y ) 26 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i= | µ ) µ X i (1 − µ )1− X i E( X i ) = ? 27 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i= | µ ) µ X i (1 − µ )1− X i = E( X i ) = ∑ xP( X i x) x∈{0,1} = 1µ + 0(1 − µ ) = µ 28 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i= | µ ) µ X i (1 − µ )1− X i = E( X i ) = ∑ xP( X i x) x∈{0,1} = 1µ + 0(1 − µ ) = µ Erwartungswert Binomialverteilung N X = ∑ Xi X ~ Bin( X | N , µ ) = E( X ) i =1 N xP ( X ∑= x) x =0 N x = ∑ x µ (1 − µ ) N − x x =0 x =? N 29 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i= | µ ) µ X i (1 − µ )1− X i = E( X i ) = ∑ xP( X i x) x∈{0,1} = 1µ + 0(1 − µ ) = µ Erwartungswert Binomialverteilung N X = ∑ Xi X ~ Bin( X | N , µ ) = E( X ) i =1 N xP ( X ∑= x) x =0 N x = ∑ x µ (1 − µ ) N − x x =0 x Summe der Erwartungswerte = Nµ N der Bernoulli-Variablen 30 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Bernoulliverteilung? X i ~ Bern( X i | µ ) Var ( X i ) = ? 31 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Bernoulliverteilung? X i ~ Bern( X i | µ ) Var ( X i ) = ? Verschiebungssatz: Var ( X i ) Var ( X i ) = E ( X i 2 ) − E ( X i ) 2 =µ − µ 2 =µ (1 − µ ) µ 32 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Binomialverteilung X ~ Bin( X | N , µ ) Var ( X ) = ? n X = ∑ Xi i =1 X i ~ Bern( X i= | µ ) µ X i (1 − µ )1− X i Var ( X i ) = µ (1 − µ ) ⇒ Var ( X ) = N µ (1 − µ ) X i unabhängig 33 Erwartungswert, Varianz Normalverteilung Erwartungswert Normalverteilung X ~ N ( x | µ ,σ 2 ) ∞ E( X ) = ∫ xN ( x | µ , σ 2 )dx ∫ x −∞ ∞ = z= x − µ −∞ 1 2 exp ( x ) − − µ dx 2 1/2 2 (2πσ ) 2σ 1 ∞ 1 1 2 ( z ) exp = + µ − 2 z dz 2 1/2 ∫−∞ (2πσ ) 2σ ∞ ∞ 1 1 1 2 1 2 exp z dz z exp z dz µ = µ∫ − + − 2 = 2 1/2 2 2 1/2 ∫ (2πσ ) (2πσ ) 2σ −∞ 2σ −∞ 1= 0 34 Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert, Varianz Normalverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Normalverteilung Man kann zeigen dass X ~ N ( x | µ ,σ 2 ) ⇒ Var ( X ) = σ2 35 Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Sawade/Landwehr/Scheffer, Maschinelles Lernen 36 Lernen und Vorhersage Bisher: Lernproblemstellung getrennt von Vorhersage Lernen: f MAP = arg max f w P( f w |L) Vorhersage: x f MAP (x) x neue Testinstanz „Wahrscheinlichstes Modell gegeben die Daten“ „Vorhersage des MAP Modells“ Wenn wir uns auf ein Modell festlegen müssen, ist MAP Modell sinnvoll Aber eigentliches Ziel ist Vorhersage einer Klasse! Besser, sich nicht auf ein Modell festlegen - direkt nach der optimalen Vorhersage zu suchen 37 Sawade/Landwehr/Scheffer, Maschinelles Lernen Lernen und Vorhersage: Beispiel Modellraum mit 4 Modellen: H = { f1 , f 2 , f3 , f 4 } Trainingdaten L Wir haben a-posteriori-Wahrscheinlichkeiten berechnet P ( f1 | L) = 0.3 P ( f 3 | L) = 0.25 P ( f 2 | L) = 0.25 P ( f 4 | L) = 0.2 Sawade/Landwehr/Scheffer, Maschinelles Lernen MAP Modell ist f1 = arg max f p( fi |L) i 38 Lernen und Vorhersage: Beispiel Modelle fi probabilistische Klassifikatoren: Sawade/Landwehr/Scheffer, Maschinelles Lernen binäre Klassifikation: = P( y 1| x, fi ) ∈ [0,1] Z.B lineares Modell: w T x Entscheidungsfunktionswert p(y=1) P( y 1|= = x, w ) σ (w T x) Entscheidungsfunktionswert wx w Parametervektor 1 σ ( z) = 1 + exp(− z ) „logistische Regression“ 39 Lernen und Vorhersage: Beispiel Wir wollen neues Testbeispiel x klassifizieren = P ( y 1|= x, f1 ) 0.6 = P ( y 1|= x, f3 ) 0.2 = P ( y 1|= x, f 2 ) 0.1 = P ( y 1|= x, f 4 ) 0.3 Sawade/Landwehr/Scheffer, Maschinelles Lernen Klassifikation mit MAP Modell f1 : y = 1 Andererseits (Rechenregeln der Wsk!): = P( y 1|= x, L ) = 4 p( y ∑= 1, fi | x, L) p( y ∑= 1| f i , x, L) P( fi | x, L) i =1 4 i =1 = Summenregel Produktregel 4 p( y ∑= i =1 1| x, f i ) P( f i | L) = 0.6*0.3 + 0.1*0.25 + 0.2*0.25 + 0.3*0.2 = 0.315 40 Lernen und Vorhersage: Beispiel Sawade/Landwehr/Scheffer, Maschinelles Lernen Wenn Ziel Vorhersage ist, sollten wir P( y = 1| x, L) verwenden Nicht auf ein Modell festlegen, solange noch Unsicherheit über Modelle besteht Grundidee des Bayesschen Lernens/Vorhersage! 41 Bayessches Lernen und Vorhersage Problemstellung Vorhersage Gegeben: Trainingsdaten L, neue Testinstanz x. Gesucht: Sawade/Landwehr/Scheffer, Maschinelles Lernen Verteilung über Werte y für gegebenes x. P ( y | x, L ) Bayessche Vorhersage: wahrscheinlichstes y. y* = arg max y P( y | x, L) Minimiert Risiko einer falschen Vorhersage. Heißt auch Bayes-optimale Entscheidung oder Bayes-Hypothese. 42 Bayessches Lernen und Vorhersage Sawade/Landwehr/Scheffer, Maschinelles Lernen Berechnung Bayessche Vorhersage y* = arg max y P( y | x, L) Summenregel arg max y ∫ P( y,θ | x, L )dθ θ Modell Produktregel = arg max y ∫ P( y | θ , x ) P(θ | L)dθ Bayesian Model Averaging Vorhersage, gegeben Modell Modell gegeben Trainingsdaten Bayessches Lernen: Mitteln der Vorhersage über alle Modelle. Gewichtung: wie gut passt Modell zu Trainingsdaten. 43 Bayessches Lernen und Vorhersage Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayessche Vorhersage praktikabel? y* = arg max y P( y | x, L) = arg max y ∫ P( y | x, θ ) P(θ | L)dθ Bayesian Model Averaging: Mitteln über i.A. unendlich viele Modelle Wie berechnen? Nur manchmal praktikabel, geschlossene Lösung. Kontrast zu Entscheidungsbaumlernen: Finde ein Modell, das gut zu den Daten passt. Triff Vorhersagen für neue Instanzen basierend auf diesem Modell. Trennt zwischen Lernen eines Modells und Vorhersage. 44 Bayessches Lernen und Vorhersage Wie Bayes-Hypothese ausrechnen? y* = arg max y P( y | x, L) = arg max y ∫ P( y | x, θ ) P(θ | L)dθ Wir brauchen: 1) Wsk für Klassenlabel gegeben Modell, P( y | x,θ ) z.B. linearer probabilistischer Klassifikator (logistische Regression) = P( y 1|= x, θ ) σ (w T x) P( = y 0 | x, θ= ) σ ( − w T x) Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayessches Lernen und Vorhersage Wie Bayes-Hypothese ausrechnen? y* = arg max y P( y | x, L) = arg max y ∫ P( y | x, θ ) P(θ | L)dθ Wir brauchen: 2) Wsk für Modell gegeben Daten, a-posterioriWahrscheinlichkeit P(θ | L) → Ausrechnen mit Bayes Regel Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayessches Lernen und Vorhersage Berechnung der a-posteriori Verteilung über Modelle Likelihood, Wie gut passt Modell zu Daten? Bayes‘ Gleichung Posterior, A-PosterioriVerteilung Bayessche Regel: Posterior = Likelihood x Prior. P(θ | L) = P( L | θ ) P(θ ) P ( L) Prior, A-PrioriVerteilung 1 = P ( L | θ ) P (θ ) Z Normierungskonstante 47 Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayessche Regel Bayes‘ Gleichung P( L | θ ) P(θ ) P(θ | L) = P ( L) Brauchen: Likelihood P(L | θ). Wie wahrscheinlich wären die Trainingsdaten, wenn θ das richtige Modell wäre. Wie gut passt Modell zu den Daten. Typischerweise Unabhängigkeitsannahme: L = {(x1 , y1 ),..., (x N , yN )} Wahrscheinlichkeit des in L beobachteten Klassenlabels gegeben Modell θ N P( L | θ ) = ∏ P ( yi | xi , θ ) i =1 48 Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayessche Regel Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayes‘ Gleichung P( L | θ ) P(θ ) P(θ | L) = P ( L) Brauchen: Prior P(θ ). Wie wahrscheinlich ist Modell θ bevor wir irgendwelche Trainingsdaten gesehen haben. Annahmen über P(θ ) drücken datenunabhängiges Vorwissen über Problem aus. Beispiel lineare Modelle: 49 Bayessche Regel Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayes‘ Gleichung P( L | θ ) P(θ ) P(θ | L) = P ( L) Brauchen: Prior P(θ ). Wie wahrscheinlich ist Modell θ bevor wir irgendwelche Trainingsdaten gesehen haben. Annahmen über P(θ ) drücken datenunabhängiges Vorwissen über Problem aus. Beispiel lineare Modelle: ^2 |w| möglichst niedrig (w = θ ) 50 Bayessche Regel Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayes‘ Gleichung P( L | θ ) P(θ ) P(θ | L) = P ( L) Brauchen: Prior P(θ ). Wie wahrscheinlich ist Modell θ bevor wir irgendwelche Trainingsdaten gesehen haben. Annahmen über P(θ ) drücken datenunabhängiges Vorwissen über Problem aus. Beispiel Entscheidungsbaumlernen: 51 Bayessche Regel Sawade/Landwehr/Scheffer, Maschinelles Lernen Bayes‘ Gleichung P( L | θ ) P(θ ) P(θ | L) = P ( L) Brauchen: Prior P(θ ). Wie wahrscheinlich ist Modell θ bevor wir irgendwelche Trainingsdaten gesehen haben. Annahmen über P(θ ) drücken datenunabhängiges Vorwissen über Problem aus. Beispiel Entscheidungsbaumlernen: Kleine Bäume sind in vielen Fällen besser als komplexe Bäume. Algorithmen bevorzugen deshalb kleine Bäume. 52 Zusammenfassung Bayessche/MAP/MLHypothese Um Risiko einer Fehlentscheidung zu minimieren: wähle Bayessche Vorhersage y* = arg max y ∫ P( y | x, θ ) P(θ | L)dθ Problem: In vielen Fällen gibt es keine geschlossene Lösung, Integration über alle Modelle unpraktikabel. Maximum-A-Posteriori- (MAP-)Hypothese: wähle θ* = arg maxθ P(θ | L) y* = arg max y P( y | x, θ* ) Entspricht Entscheidungsbaumlernen. Finde bestes Modell aus Daten, Klassifiziere nur mit diesem Modell. 53 Sawade/Landwehr/Scheffer, Maschinelles Lernen Zusammenfassung Bayessche/MAP/MLHypothese Um MAP-Hypothese zu bestimmen müssen wir Posterior (Likelihood x Prior) kennen. Unmöglich, wenn kein Vorwissen (Prior) existiert. Maximum-Likelihood- (ML-)Hypothese: Sawade/Landwehr/Scheffer, Maschinelles Lernen θ* = arg maxθ P( L | θ ) y* arg max y P( y | x, θ* ) = Berücksichtigt nur Beobachtungen in L, kein Vorwissen. Problem der Überanpassung an Daten 54