Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayessches Lernen Christoph Sawade/Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 2 Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 3 Statistik & Maschinelles Lernen Sawade/Landwehr/Scheffer, Maschinelles Lernen Maschinelles Lernen: eng verwandt mit (induktiver) Statistik Zwei Gebiete in der Statistik: Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Daten. Mittelwerte Varianzen Unterschiede zwischen Populationen Induktive Statistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? Modellbildung Erklärungen für Beobachtungen Zusammenhänge, Muster in Daten 4 Thomas Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 1702-1761 „An essay towards solving a problem in the doctrine of chances“, 1764 veröffentlicht. Arbeiten von Bayes grundlegend für induktive Statistik. „Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise auf Unsicherheit & Wahrscheinlichkeit 5 Frequentistische / Bayessche Wahrscheinlichkeit Sawade/Landwehr/Scheffer, Maschinelles Lernen Frequentistische Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.B. Münzwurf). Definition über relative Häufigkeiten möglicher Ergebnisse eines wiederholbaren Versuches „Wenn man eine faire Münze 1000 Mal wirft, wird etwa 500 Mal Kopf fallen“ „In 1 Gramm Potassium-40 zerfallen pro Sekunde ca. 260.000 Atomkerne“ 6 Frequentistische / Bayessche Wahrscheinlichkeit Bayessche, „subjektive“ Wahrscheinlichkeiten Sawade/Landwehr/Scheffer, Maschinelles Lernen Grund der Unsicherheit ein Mangel an Informationen Wie wahrscheinlich ist es, dass der Verdächtige X das Opfer umgebracht hat? Neue Informationen (z.B. Fingerabdrücke) können diese subjektiven Wahrscheinlichkeiten verändern. Bayessche Sichtweise im maschinellen Lernen wichtiger Frequentistische Sichtweise auch manchmal verwendet, mathematisch äquivalent 7 Bayessche Wahrscheinlichkeiten im Maschinellen Lernen Modellbildung: Erklärungen für Beobachtungen finden Was ist das „wahrscheinlichste“ Modell? Abwägen zwischen Sawade/Landwehr/Scheffer, Maschinelles Lernen Vorwissen (a-priori Verteilung über Modelle) Evidenz (Daten, Beobachtungen) Bayessche Sichtweise: Evidenz (Daten) verändert „subjektive“ Wahrscheinlichkeiten für Modelle (Erklärungen) A-posteriori Modellwahrscheinlichkeit, MAP Hypothese 8 Wahrscheinlichkeitstheorie, Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Zufallsexperiment: definierter Prozess, in dem ein Elementarereignis ω erzeugt wird. Ereignisraum Ω: Menge aller Elementarereignisse. Ereignis A: Teilmenge des Ereignisraums. Wahrscheinlichkeitsfunktion p: Funktion, die Ereignissen A Wahrscheinlichkeiten zuweist. 9 Wahrscheinlichkeitstheorie Gültige Wahrscheinlichkeitsfunktion p (Kolmogorow‐Axiome) Wahrscheinlichkeit von Ereignis A : 0 p( A) 1 Sicheres Ereignis: p() 1 , und p() 0 Für die Wahrscheinlichkeit zweier inkompatibler Ereignisse A , B (d.h. A B ) gilt: p( A B) p( A) p( B) 10 Sawade/Landwehr/Scheffer, Maschinelles Lernen Wahrscheinlichkeitstheorie: Beispiel Sawade/Landwehr/Scheffer, Maschinelles Lernen Würfeln Ereignisraum {1, 2,3, 4,5,6} Elementarereignisse haben Wsk p({}) 1/ 6 Ereignis gerade Zahl: A {2, 4,6} Wahrscheinlichkeit des Ereignisses: p( A) 1/ 2 11 Wahrscheinlichkeitstheorie, Zufallsvariablen Zufallsvariable X: Abbildung von Elementarereignissen auf numerische Werte X : x Experiment weißt Zufallsvariable X den Wert x X ( ) zu Wahrscheinlichkeit dafür, dass Ereignis X=x eintritt (Zufallsvariable X wird mit Wert x belegt). Sawade/Landwehr/Scheffer, Maschinelles Lernen p( X x) p({ | X () x}) Zusammenfassen in Wahrscheinlichkeitsverteilung, der Variable X unterliegt p( X ) X ~ p( X ) Verteilung gibt an, wie Wahrscheinlichkeiten über Werte x verteilt sind „X ist verteilt nach p(X)“ 12 Zufallsvariable: Beispiel Sawade/Landwehr/Scheffer, Maschinelles Lernen Würfeln mit 2 Würfeln Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}} Elementarereignisse haben Wahrscheinlichkeit p({(1 , 2 )}) 1/ 36 Zufallsvariable: Summe der beide Augenzahlen X ((1 , 2 ))1 2 Wahrscheinlichkeit für Wert der ZV: p( X 5) ? 13 Zufallsvariable: Beispiel Sawade/Landwehr/Scheffer, Maschinelles Lernen Würfeln mit 2 Würfeln Ereignisraum {(1 , 2 ) | i {1, 2,3, 4,5, 6}} Elementarereignisse haben Wahrscheinlichkeit p({(1 , 2 )}) 1/ 36 Zufallsvariable: Summe der beide Augenzahlen X ((1 , 2 ))1 2 Wahrscheinlichkeit für Wert der ZV: p( X 5) p({(1, 4), (2,3), (3, 2), (4,1)}) 4 / 36 14 Diskrete/kontinuierliche Zufallsvariablen Für diskrete Zufallsvariablen gilt: p ( X x) 1 Sawade/Landwehr/Scheffer, Maschinelles Lernen Diskrete Zufallsvariablen: D=X(Ω) diskret Kontinuierliche Zufallsvariablen: D=X(Ω) kontinuierlich D diskreter Wertebereich xD Beispiel: N Münzwürfe Zufallsvariablen X1 ,..., X N {0,1} Münzparameter μ gibt Wahrscheinlichkeit für „Kopf“ an p( X i 1) p( X i 0) 1 Wahrscheinlichkeit für „Kopf“ Wahrscheinlichkeit für „Zahl“ X i ~ Bern( X i | ) X i (1 )1 X i Bernoulli-Verteilung 15 Diskrete Zufallsvariablen Beispiel: Anzahl „Köpfe“ bei N Münzwürfen N ZV „Anzahl Köpfe“: X X i , Sawade/Landwehr/Scheffer, Maschinelles Lernen X {0,..., N } i 1 Binomial-Verteilung X ~ Bin( X | N , ) Bin( X | N , ) ? 16 Diskrete Zufallsvariablen Beispiel: Anzahl „Köpfe“ bei N Münzwürfen N ZV „Anzahl Köpfe“: X X i , Sawade/Landwehr/Scheffer, Maschinelles Lernen X {0,..., N } i 1 Binomial-Verteilung X ~ Bin( X | N , ) N X Bin( X | N , ) (1 ) N X X Anzahl möglicher Ergebnisserien, in denen X Münzen „Kopf“ zeigen Wahrscheinlichkeit einer Ergebnisserie, in der X Münzen „Kopf“ zeigen N 10, 0.5 17 Kontinuierliche Zufallsvariablen Kontinuierliche Zufallsvariablen Unendlich (überabzählbar) viele Werte möglich Wahrscheinlichkeit p( X x) 0 Statt Wahrscheinlichkeiten für einzelne Werte: Dichtefunktion fX : „Dichte“ der ZV X x : f X ( x) 0, Sawade/Landwehr/Scheffer, Maschinelles Lernen f X ( x) 1 f X ( x) 1 möglich Wahrscheinlichkeit, dass ZV X Wert zwischen a und b annimmt b p( X [a, b]) f X ( x)dx, a 18 Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel: Körpergröße X X annähernd Gaußverteilt („Normalverteilt“) X~ ( x | , 2 ) Dichte der Normalverteilung z.B. 170, 10 19 Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel: Körpergröße Wie groß ist die Wahrscheinlichkeit, dass ein Mensch genau 180cm groß ist? p( X 180) 0 Wie groß ist die Wahrscheinlichkeit, dass ein Mensch zwischen 180cm und 181cm groß ist? p( X [180,181]) 181 180 ( x |170,102 )dx 20 Kontinuierliche Zufallsvariablen Sawade/Landwehr/Scheffer, Maschinelles Lernen Verteilungsfunktion x F ( x) p( X x) f X ( z )dz, p( X [a, b]) F (b) F (a) Dichte ist Ableitung der Verteilungsfunktion f X ( x) dF ( x) dx Veranschaulichung Dichte: f X ( x) lim 0 p( X [ x , x ]) 2 21 Notation Sawade/Landwehr/Scheffer, Maschinelles Lernen Notation: wenn der Zusammenhang klar ist, schreiben wir kompakter Für diskrete Variablen: p( x) statt p( X x) (diskrete Wahrscheinlichkeit) Für kontinuierliche Variablen: p( x) statt f X ( x) (kontinuierliche Dichte) 22 Verteilungen über mehrere Zufallsvariablen Verteilung über mehrere Zufallsvariablen X, Y: Sawade/Landwehr/Scheffer, Maschinelles Lernen Gemeinsame Wahrscheinlichkeit p( X x, Y y) , p( X x, Y y) =1 x, y Gemeinsame Dichte f X ,Y ( x, y) , f X ,Y ( x, y)dxdy 1 Gemeinsame Verteilung (diskret/kontinuierlich) p( X , Y ) 23 Bedingte Wahrscheinlichkeiten Wie beeinflusst zusätzliche Information die Wahrscheinlichkeitsverteilung? p( X | zusätzliche Information) Bedingte Wahrscheinlichkeit: p( X x | Y y ) p ( X x, Y y ) p(Y y ) diskret Bedingte Dichte: f X |Y ( x | y ) Sawade/Landwehr/Scheffer, Maschinelles Lernen f X ,Y ( x, y ) fY ( y ) kontinuierlich Bedingte Verteilung (diskret/kontinuierlich): p( X | Y ) p( X , Y ) p(Y ) 24 Rechenregeln Wahrscheinlichkeiten Produktregel p( X , Y ) p( X | Y ) p(Y ) Sawade/Landwehr/Scheffer, Maschinelles Lernen diskret/kontinuierlich Summenregel p( X x) p( X x, Y y) yD diskret f X ( x) f X ,Y ( x, y )dy kontinuierlich p( X x) heisst auch "Randwahrscheinlichkeit" 25 Unabhängigkeit Zwei Zufallsvariablen sind unabhängig, wenn: p( X , Y ) p( X ) p(Y ) Äquivalent dazu Sawade/Landwehr/Scheffer, Maschinelles Lernen p( X | Y ) p( X ) und p(Y | X ) p(Y ) Beispiel: wir würfeln zweimal mit fairem Würfel, bekommen Augenzahlen x1 , x2 ZV X 1 , X 2 sind unabhängig ZV X X 1 X 2 und X X 1 X 2 sind abhängig 26 Erwartungswert Erwartungswert einer Zufallsvariable: E ( X ) x xp( X x) X diskrete ZV E ( X ) xp( x)dx X kontinuierliche ZV mit Dichte p(x) Veranschaulichung: gewichtetes Mittel Rechenregeln Erwartungswert E(aX b) aE( X ) b E( X Y ) E( X ) E(Y ) 27 Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz, Standardabweichung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz: Erwartete quadrierte Abweichung von X von E(X) Mass für die Stärke der Streuung Var ( X ) E (( X E ( X ))2 ) (diskret oder kontinuierlich) Standardabweichung X Var (X ) Verschiebungssatz Var ( X ) E( X 2 ) E( X )2 28 Varianz, Standardabweichung Sawade/Landwehr/Scheffer, Maschinelles Lernen Verschiebungssatz Var ( X ) E (( X E ( X ))2 ) E ( X 2 2E ( X ) X E ( X )2 ) E ( X 2 ) 2E ( X ) E ( X ) E ( X )2 E ( X 2 ) E ( X )2 29 Rechenregeln Varianz Sawade/Landwehr/Scheffer, Maschinelles Lernen Rechenregeln Varianz/Standardabweichung Var (aX b) a 2Var ( X ), aX b a X Var ( X Y ) Var ( X ) Var (Y ) 2Cov( X , Y ) Cov( X , Y ) E( XY ) E( X ) E(Y ) Covarianz misst „gemeinsame Schwankung“ der Variablen Falls Variablen unabhängig: Cov( X , Y ) 0, Var ( X Y ) Var ( X ) Var (Y ) 30 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) ? 31 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) x{0,1} xp( X i x) 1 0(1 ) 32 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) x{0,1} xp( X i x) 1 0(1 ) Erwartungswert Binomialverteilung X ~ Bin( X | N , ) N X Xi N E ( X ) xp( X x) i 1 x 0 N x x (1 ) N x x 0 x ? N 33 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert Bernoulli-Verteilung X i ~ Bern( X i | ) X i (1 )1 X i E( X i ) x{0,1} xp( X i x) 1 0(1 ) Erwartungswert Binomialverteilung X ~ Bin( X | N , ) N E ( X ) xp( X x) N X Xi i 1 x 0 N x x (1 ) N x x 0 x Summe der Erwartungswerte N N der Bernoulli-Variablen 34 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Bernoulliverteilung? X i ~ Bern( X i | ) Var ( X i ) ? 35 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Bernoulliverteilung? X i ~ Bern( X i | ) Var ( X i ) ? Verschiebungssatz: Var ( X i ) Var ( X i ) E ( X i 2 ) E ( X i ) 2 2 (1 ) 36 Erwartungswert, Varianz Binomialverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Binomialverteilung X ~ Bin( X | N , ) Var ( X ) ? N X Xi i 1 X i ~ Bern( X i | ) Var ( X i ) (1 ) Var ( X ) N (1 ) X i unabhängig 37 Erwartungswert, Varianz Normalverteilung Erwartungswert Normalverteilung X~ E( X ) x x z x ( x | , 2 ) ( x | , 2 )dx 1 2 exp ( x ) dx 2 1/2 2 (2 ) 2 1 (z ) 1 2 exp 2 z dz 2 1/2 (2 ) 2 1 1 1 2 1 2 exp 2 z dz z exp 2 z dz 2 1/2 2 1/2 (2 ) 2 (2 ) 2 1 38 Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert, Varianz Normalverteilung Erwartungswert Normalverteilung X~ E( X ) x x z x ( x | , 2 ) ( x | , 2 )dx 1 2 exp ( x ) dx 2 1/2 2 (2 ) 2 1 1 2 exp 2 z dz 2 1/2 (2 ) 2 1 1 1 2 1 2 exp z dz z exp 2 z dz 2 1/2 2 2 1/2 (2 ) (2 ) 2 2 (z ) 1 1 0 39 Sawade/Landwehr/Scheffer, Maschinelles Lernen Erwartungswert, Varianz Normalverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz Normalverteilung Man kann zeigen dass X~ ( x | , 2 ) Var ( X ) 2 40 Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens Sawade/Landwehr/Scheffer, Maschinelles Lernen MAP-Hypothese und regularisierter Verlust Bayesian Model Averaging (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes 41