Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayessches Lernen Niels Landwehr Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes 2 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes 3 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Statistik & Maschinelles Lernen Maschinelles Lernen: eng verwandt mit (induktiver) Statistik Zwei Gebiete in der Statistik: Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Daten. Mittelwerte Varianzen Unterschiede zwischen Populationen Induktive Statistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? Modellbildung Erklärungen für Beobachtungen Zusammenhänge, Muster in Daten 4 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Thomas Bayes 1702-1761 „An essay towards solving a problem in the doctrine of chances“, 1764 veröffentlicht. Arbeiten von Bayes grundlegend für induktive Statistik. „Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise auf Unsicherheit & Wahrscheinlichkeit 5 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Frequentistische / Bayessche Wahrscheinlichkeit Frequentistische Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.B. Münzwurf). Definition über relative Häufigkeiten möglicher Ergebnisse eines wiederholbaren Versuches „Wenn man eine faire Münze 1000 Mal wirft, wird etwa 500 Mal Kopf fallen“ „In 1 Gramm Potassium-40 zerfallen pro Sekunde ca. 260.000 Atomkerne“ 6 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Frequentistische / Bayessche Wahrscheinlichkeit Bayessche, „subjektive“ Wahrscheinlichkeiten Grund der Unsicherheit ein Mangel an Informationen Wie wahrscheinlich ist es, dass der Verdächtige X das Opfer umgebracht hat? Neue Informationen (z.B. Fingerabdrücke) können diese subjektiven Wahrscheinlichkeiten verändern. Bayessche Sichtweise im maschinellen Lernen wichtiger Frequentistische Sichtweise auch manchmal verwendet, mathematisch äquivalent 7 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Bayessche Wahrscheinlichkeiten im Maschinellen Lernen Modellbildung: Erklärungen für Beobachtungen finden Was ist das „wahrscheinlichste“ Modell? Abwägen zwischen Vorwissen (a-priori Verteilung über Modelle) Evidenz (Daten, Beobachtungen) Bayessche Sichtweise: Evidenz (Daten) verändert „subjektive“ Wahrscheinlichkeiten für Modelle (Erklärungen) A-posteriori Modellwahrscheinlichkeit, MAP Hypothese 8 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Wahrscheinlichkeitstheorie, Zufallsvariablen Zufallsexperiment: definierter Prozess, in dem ein Elementarereignis ω erzeugt wird. Ereignisraum Ω: Menge aller Elementarereignisse. Ereignis A: Teilmenge des Ereignisraums. Wahrscheinlichkeitsfunktion p: Funktion, die Ereignissen A Wahrscheinlichkeiten zuweist. 9 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Wahrscheinlichkeitstheorie Gültige Wahrscheinlichkeitsfunktion p (Kolmogorow‐Axiome) Wahrscheinlichkeit von Ereignis A : 0 p( A) 1 Sicheres Ereignis: p() 1 , und p() 0 Für die Wahrscheinlichkeit zweier inkompatibler Ereignisse A , B (d.h. A B ) gilt: p( A B) p( A) p( B) 10 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Wahrscheinlichkeitstheorie: Beispiel Würfeln Ereignisraum {1, 2,3, 4,5,6} Elementarereignisse haben Wsk p({}) 1/ 6 Ereignis gerade Zahl: A {2, 4,6} Wahrscheinlichkeit des Ereignisses: p( A) 1/ 2 11 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Wahrscheinlichkeitstheorie, Zufallsvariablen Zufallsvariable X: Abbildung von Elementarereignissen auf numerische Werte X : Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt (Zufallsvariable X wird mit Wert x belegt). x Experiment weißt Zufallsvariable X den Wert x X ( ) zu p( X x) p({ | X () x}) Zusammenfassen in Wahrscheinlichkeitsverteilung, der Variable X unterliegt p( X ) X ~ p( X ) Verteilung gibt an, wie Wahrscheinlichkeiten über Werte x verteilt sind „X ist verteilt nach p(X)“ 12 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Zufallsvariable: Beispiel Würfeln mit 2 Würfeln Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}} Elementarereignisse haben Wahrscheinlichkeit p({(1 , 2 )}) 1/ 36 Zufallsvariable: Summe der beide Augenzahlen X ((1 , 2 ))1 2 Wahrscheinlichkeit für Wert der ZV: p( X 5) ? 13 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Zufallsvariable: Beispiel Würfeln mit 2 Würfeln Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}} Elementarereignisse haben Wahrscheinlichkeit p({(1 , 2 )}) 1/ 36 Zufallsvariable: Summe der beide Augenzahlen X ((1 , 2 ))1 2 Wahrscheinlichkeit für Wert der ZV: p( X 5) p({(1, 4), (2,3), (3, 2), (4,1)}) 4 / 36 14 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Diskrete/kontinuierliche Zufallsvariablen Für diskrete Zufallsvariablen gilt: p ( X x) 1 D diskreter Wertebereich xD Beispiel: N Münzwürfe Zufallsvariablen X1 ,..., X N {0,1} Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an p( X i 1) p( X i 0) 1 Wahrscheinlichkeit für „Kopf“ Wahrscheinlichkeit für „Zahl“ X i ~ Bern( X i | ) X i (1 )1 X i Bernoulli-Verteilung 15 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Diskrete Zufallsvariablen: D=X(Ω) diskret Kontinuierliche Zufallsvariablen: D=X(Ω) kontinuierlich Diskrete Zufallsvariablen Beispiel: Anzahl „Köpfe“ bei N Münzwürfen N ZV „Anzahl Köpfe“: X X i , X {0,..., N } i 1 Binomial-Verteilung X ~ Bin( X | N , ) Bin( X | N , ) ? 16 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Diskrete Zufallsvariablen Beispiel: Anzahl „Köpfe“ bei N Münzwürfen N ZV „Anzahl Köpfe“: X X i , X {0,..., N } i 1 Binomial-Verteilung X ~ Bin( X | N , ) N X Bin( X | N , ) (1 ) N X X Anzahl möglicher Ergebnisserien, in denen X Münzen „Kopf“ zeigen Wahrscheinlichkeit einer Ergebnisserie, in der X Münzen „Kopf“ zeigen N 10, 0.5 17 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Kontinuierliche Zufallsvariablen Kontinuierliche Zufallsvariablen Unendlich (überabzählbar) viele Werte möglich Wahrscheinlichkeit p( X x) 0 Statt Wahrscheinlichkeiten für einzelne Werte: Dichtefunktion fX : „Dichte“ der ZV X x : f X ( x) 0, f X ( x) 1 f X ( x) 1 möglich Wahrscheinlichkeit, dass ZV X Wert zwischen a und b annimmt b p( X [a, b]) f X ( x)dx, a 18 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Kontinuierliche Zufallsvariablen Beispiel: Körpergröße X X annähernd Gaußverteilt („Normalverteilt“) X~ ( x | , 2 ) Dichte der Normalverteilung z.B. 170, 10 19 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Kontinuierliche Zufallsvariablen Beispiel: Körpergröße Wie groß ist die Wahrscheinlichkeit, dass ein Mensch genau 180cm groß ist? p( X 180) 0 Wie groß ist die Wahrscheinlichkeit, dass ein Mensch zwischen 180cm und 181cm groß ist? p( X [180,181]) 181 180 ( x |170,102 )dx 20 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Kontinuierliche Zufallsvariablen Verteilungsfunktion x F ( x) p( X x) f X ( z )dz, p( X [a, b]) F (b) F (a) Dichte ist Ableitung der Verteilungsfunktion f X ( x) dF ( x) dx Veranschaulichung Dichte: f X ( x) lim 0 p( X [ x , x ]) 2 21 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Notation Notation: wenn der Zusammenhang klar ist, schreiben wir kompakter Für diskrete Variablen: p( x) statt p( X x) (diskrete Wahrscheinlichkeit) Für kontinuierliche Variablen: p( x) statt f X ( x) (kontinuierliche Dichte) 22 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Verteilungen über mehrere Zufallsvariablen Verteilung über mehrere Zufallsvariablen X, Y: Gemeinsame Wahrscheinlichkeit p( X x, Y y) , p( X x, Y y) =1 x, y Gemeinsame Dichte f X ,Y ( x, y) , f X ,Y ( x, y)dxdy 1 Gemeinsame Verteilung (diskret/kontinuierlich) p( X , Y ) 23 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit: p ( X x, Y y ) p( X x | Y y ) p(Y y ) Bedingte Dichte: f X |Y ( x | y ) f X ,Y ( x, y ) fY ( y ) kontinuierlich Bedingte Verteilung (diskret/kontinuierlich): p( X | Y ) diskret p( X , Y ) p(Y ) Für festes y ist p ( X | Y y ) wieder Verteilung über X: wie beeinflusst Information über Y die Verteilung über X? 24 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Rechenregeln Wahrscheinlichkeiten Produktregel p( X , Y ) p( X | Y ) p(Y ) diskret/kontinuierlich Auch für bedingte Verteilung: p( X , Y | Z ) p( X | Y , Z ) p(Y | Z ) Summenregel p( X x) p( X x, Y y) diskret yD f X ( x) f X ,Y ( x, y )dy kontinuierlich p( X x) heisst auch "Randwahrscheinlichkeit" 25 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Unabhängigkeit Zwei Zufallsvariablen sind unabhängig, wenn: Äquivalent dazu p( X , Y ) p( X ) p(Y ) p( X | Y ) p( X ) und p(Y | X ) p(Y ) Bedingte Unabhängigkeit: p( X , Y | Z ) p( X | Z ) p(Y | Z ) Beispiel: wir würfeln zweimal mit fairem Würfel, bekommen Augenzahlen x1 , x2 . ZV X 1 , X 2 sind unabhängig ZV X X 1 X 2 und X X X sind abhängig 1 2 26 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert Erwartungswert einer Zufallsvariable: E ( X ) x xp( X x) X diskrete ZV E ( X ) xp( x)dx X kontinuierliche ZV mit Dichte p(x) Veranschaulichung: gewichtetes Mittel Rechenregeln Erwartungswert E (aX b) aE ( X ) b a, b Konstanten E( X Y ) E( X ) E(Y ) 27 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Varianz, Standardabweichung Varianz: Erwartete quadrierte Abweichung von X von E(X) Mass für die Stärke der Streuung Var ( X ) E (( X E ( X ))2 ) (diskret oder kontinuierlich) Standardabweichung X Var (X ) Verschiebungssatz Var ( X ) E( X 2 ) E( X )2 28 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Varianz, Standardabweichung Verschiebungssatz Var ( X ) E (( X E ( X ))2 ) E ( X 2 2E ( X ) X E ( X )2 ) E ( X 2 ) 2E ( X ) E ( X ) E ( X )2 E ( X 2 ) E ( X )2 29 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Rechenregeln Varianz Rechenregeln Varianz/Standardabweichung Var (aX b) a 2Var ( X ), aX b a X Var ( X Y ) Var ( X ) Var (Y ) 2Cov( X , Y ) Cov( X , Y ) E( XY ) E( X ) E(Y ) Kovarianz misst „gemeinsame Schwankung“ der Variablen Falls Variablen unabhängig: Cov( X , Y ) 0, Var ( X Y ) Var ( X ) Var (Y ) 30 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) ? 31 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) x{0,1} xp( X i x) 1 0(1 ) 32 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) x{0,1} xp( X i x) 1 0(1 ) Erwartungswert Binomialverteilung X ~ Bin( X | N , ) N X Xi N E ( X ) xp( X x) i 1 x 0 N x x (1 ) N x x 0 x ? N 33 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) x{0,1} xp( X i x) 1 0(1 ) Erwartungswert Binomialverteilung X ~ Bin( X | N , ) N E ( X ) xp( X x) N X Xi i 1 x 0 N x x (1 ) N x x 0 x Summe der Erwartungswerte N N der Bernoulli-Variablen 34 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Varianz Bernoulliverteilung? X i ~ Bern( X i | ) Var ( X i ) ? 35 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Varianz Bernoulliverteilung? X i ~ Bern( X i | ) Var ( X i ) ? Verschiebungssatz: Var ( X i ) Var ( X i ) E ( X i 2 ) E ( X i ) 2 2 (1 ) 36 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Binomialverteilung Varianz Binomialverteilung X ~ Bin( X | N , ) Var ( X ) ? N X Xi i 1 X i ~ Bern( X i | ) Var ( X i ) (1 ) Var ( X ) N (1 ) X i unabhängig 37 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Normalverteilung Erwartungswert Normalverteilung X~ E( X ) x x z x ( x | , 2 ) ( x | , 2 )dx 1 2 exp ( x ) dx 2 1/2 2 (2 ) 2 1 (z ) 1 2 exp 2 z dz 2 1/2 (2 ) 2 1 1 1 2 1 2 exp 2 z dz z exp 2 z dz 2 1/2 2 1/2 (2 ) 2 (2 ) 2 1 38 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Normalverteilung Erwartungswert Normalverteilung X~ E( X ) x x z x ( x | , 2 ) ( x | , 2 )dx 1 2 exp ( x ) dx 2 1/2 2 (2 ) 2 1 1 2 exp 2 z dz 2 1/2 (2 ) 2 1 1 1 2 1 2 exp z dz z exp 2 z dz 2 1/2 2 2 1/2 (2 ) (2 ) 2 2 (z ) 1 1 0 39 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Erwartungswert, Varianz Normalverteilung Varianz Normalverteilung Man kann zeigen dass X~ ( x | , 2 ) Var ( X ) 2 40 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens MAP-Hypothese und regularisierter Verlust Bayesian Model Averaging (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes 41 Scheffer/Landwehr/Nelson/Prasse, Maschinelles Lernen