Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayessches Lernen (III) Niels Landwehr Binomialverteilte Daten Schätzen Was ist der Prior p( ) im Münzwurfbeispiel? Besser mit Vorwissen: Unwahrscheinlich, dass Münze immer Kopf oder immer Zahl zeigt Gutes Modell für Vorwissen über : Beta-Verteilung. Beta( | 5,5) p ( ) Beta ( | k z ( [0,1]) k z k 1 (1 z 1 k z 0.5 Gamma-Funktion ) kontinuierliche Fortsetzung der Fakultätsfunktion ( z ) t z 1et dt 0 n : (n) (n 1)! 2 Sawade/Landwehr/Scheffer Maschinelles Lernen Binomialverteilte Daten Schätzen k und z sind Parameter der Beta-Verteilung Sawade/Landwehr/Scheffer Maschinelles Lernen („Hyperparameter“) K 5, Z 5 K 1, Z 1 1 Normalisierte Dichte Beta( | K K 4, Z 2 , Z )d 1 0 3 Binomialverteilte Daten Schätzen Warum gerade diese a-priori-Verteilung? Strukturelle Ähnlichkeit mit Likelihood: Prior p ( ) Beta ( | k z Sawade/Landwehr/Scheffer Maschinelles Lernen k z k 1 (1 z 1 k z N Nk N Likelihood p ( L | ) Bin( N k | N , ) (1 ) z Nk Einfach, Beobachtungen zu berücksichtigen: Produkt aus Likelihood und Prior hat wieder dieselbe Form wie Prior p ( | L) p( L | p( 4 Binomialverteilte Daten Schätzen Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann: p ( | L) Sawade/Landwehr/Scheffer Maschinelles Lernen p ( L | p ( p ( L) 1 Bin( N K | N , ) Beta ( | k z ) Z k z k 1 1 N Nk (1 ) N z (1 z 1 Z Nk k )( z ) 1 k Nk 1 (1 z N z 1 Z' ? Wie sieht der Normalisierer Z‘ aus? 5 Binomialverteilte Daten Schätzen Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann: p ( | L) Sawade/Landwehr/Scheffer Maschinelles Lernen p ( L | p( p ( L) 1 Bin( N K | N , ) Beta ( | k z ) Z k z k 1 1 N Nk (1 ) N z (1 z 1 Z Nk k )( z ) 1 k Nk 1 (1 z N z 1 Z' k N k z N z k Nk 1 (1 z N z 1 k N k )( z N z ) Beta ( | k N k , z N z Beta-Verteilung ist „konjugierter“ Prior: Posterior ist wieder Beta-verteilt 6 Zusammenfassung Bayessche Parameterschätzung Binomialverteilung Zusammenfassung Berechnung der a-posteriori Verteilung: Bayessche Regel p ( L | p ( p ( | L) p ( L) Sawade/Landwehr/Scheffer Maschinelles Lernen Posterior p( | L): Wie wahrscheinlich ist Modell , nachdem wir Daten L gesehen haben? Vorwissen p( ) und Evidenz der Trainingsdaten L werden zu neuem Gesamtwissen p( | L) integriert. Beispiel Münzwurf: Vorwissen Beta( | k, z) und Beobachtungen Nk, Nz werden zu Posterior Beta( | k +Nk, z +Nz). 7 Münzwurf: Wahrscheinlichste Wahrscheinlichkeit Wahrscheinlichster Parameter . arg max p( | L) arg max Beta( | k N k , z N z Ableiten, Ableitung null setzen ( z 1, k 1 ) k z N k N z k Nk 1 arg max (1 z N z 1 k N k )( z N z ) Nk k 1 Nk N z k z 2 Normalisierer, unabhängig von Für z k 1 ergibt sich ML Schätzung Interpretation der Hyperparameter z 1/ k 1 : z 1/ k 1 „Pseudocounts“ , die auf beobachtete „Counts“ aufgeschlagen werden wie oft im Leben Münzwurf mit „Kopf“/“Zahl“ gesehen? N z / Nk 8 Sawade/Landwehr/Scheffer Maschinelles Lernen Münzwurf: Wahrscheinlichste Wahrscheinlichkeit Beispiel MAP Schätzung Parameter Sawade/Landwehr/Scheffer Maschinelles Lernen Prior p( ) Beta( | 5 5 Posterior nach L={50x Kopf, 25x Zahl}: p ( | L) Beta ( | 55 30 N k 50, N z 25, k 5, z 5 MAP Schätzung: * arg max p( | L) 54 0.65 54 29 9 Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression Sawade/Landwehr/Scheffer Maschinelles Lernen 10 Lineare Regression Regressionsprobleme: Label y . Modellraum: Lineare Modelle, gegeben durch Parametervektor θ m fθ (x) 0 i xi i 1 xT θ θ „Gewichtsvektor“ Zusätzliches konstantes Attribut x0 = 1. Eindimensional f ( x) Zweidimensional f ( x) x x1 x2 11 Sawade/Landwehr/Scheffer Maschinelles Lernen Probabilistische Lineare Regression Lineare Regression als probabilistisches Modell: p ( y | x, θ ) Sawade/Landwehr/Scheffer Maschinelles Lernen ( y | xT θ, 2 ). f ( x) f ( x) p ( y | x, θ) ( y | xT θ, 2 ) x 12 Probabilistische Lineare Regression Lineare Regression als probabilistisches Modell: p ( y | x, θ ) Sawade/Landwehr/Scheffer Maschinelles Lernen ( y | xT θ, 2 ). f ( x) f ( x) p ( y | x, θ) ( y | xT θ, 2 ) x T * Label yi generiert durch lineares Modell fθ* (xi ) xi θ plus normalverteiltes Rauschen: yi xTi θ* i mit i ~ ( | 0, 2 ). 13 Ziel: Optimale Vorhersage Ziel: Optimale Vorhersage Sawade/Landwehr/Scheffer Maschinelles Lernen y* arg max y p( y | x, L) Berechnung mit Bayesian Model Averaging p( y | x, L) p( y | x, θ p(θ | L)dθ p (θ | L) A-priori Verteilung über Parameter θ 1 p ( L | θ ) p ( θ) Z Likelihood: Wahrscheinlichkeit der Daten, gegeben Modell θ 14 Bayessche Regression: Likelihood Likelihood der Daten: Sawade/Landwehr/Scheffer Maschinelles Lernen Merkmalsvektoren xi unabhängig von θ p ( L | θ) p( y1 ,..., yn | x1 , , x n , θ) i 1 p( yi | xi , θ) n Beispiele unabhängig Multidimensionale Normalverteilung mit Kovarianzmatrix I i 1 n X (x1 ,..., x n )T x1T θ XT θ ... x Tθ n f θ (xi ) xiT θ ( yi | xiT θ, 2 ) y | X θ, I T y ( y1 ,..., yn )T Vektor der Vorhersagen 15 Multivariate Normalverteilung x Zufallsvariable x mit d Dimensionen. d normalverteilt, wenn Verteilung beschrieben wird durch Dichte ( x | μ, ) 1 1 T 1 exp ( x μ ) ( x μ ) 2 d /2 | |1/2 2 Beispiel d=2 Determinante Mittelwertvektor μ d Kovarianzmatrix d d Koarianzmatrix entscheidet, wie Punkte streuen μ 16 Sawade/Landwehr/Scheffer Maschinelles Lernen Bayessche Regression: Prior A-Priori Verteilung über Gewichtsvektoren θ. Geeignete Prior-Verteilung: Normalverteilung. p (θ) (θ | 0, p2 I ) 1 2 exp 2 | θ | m/ 2 m 2 p 2 1 p2 Sawade/Landwehr/Scheffer Maschinelles Lernen p (θ) 0 2 0 1 steuert Stärke des Priors Normalverteilung ist konjugiert zu sich selbst: normalverteilter Prior und normalverteilte Likelihood ergeben wieder normalverteilten Posterior. 17 Bayessche Regression: Posterior Posterior-Verteilung über Modelle gegeben Daten p (θ | L) 1 p ( L | θ ) p ( θ) Z 1 Z (y | XT θ, I ) Bayessche Regel (θ | 0, p2 I) (θ | θ, A1 ) mit θ A1Xy Sawade/Landwehr/Scheffer Maschinelles Lernen A XXT p2 I Posterior ist wieder normalverteilt, mit neuem Mittelwert θ und Kovarianzmatrix A1 . 18 Bayessche Regression: Posterior Posterior: p (θ | L) Sawade/Landwehr/Scheffer Maschinelles Lernen (θ | θ, A1 ) MAP-Modell: θ MAP ? 19 Bayessche Regression: Posterior Posterior: p (θ | L) Sawade/Landwehr/Scheffer Maschinelles Lernen (θ | θ, A1 ) MAP-Modell: θ MAP θ mit θ A1Xy A XXT p2 I 20 Sequentielles Update des Posteriors Berechnung des Posterior als sequentielles Update: Aufmultiplizieren der Likelihood einzelner Instanzen Sawade/Landwehr/Scheffer Maschinelles Lernen p (θ | L) p (θ) p (y | X, θ) Instanzen unabhängig p(θ) i 1 p( yi | xi , θ) n „Likelihood für yi einzeln an Prior multiplizieren“ Sei p0 (θ) p(θ) , pk (θ) der Posterior, wenn wir nur die ersten k Instanzen in L verwenden: p (θ | L) p(θ) p( y1 | x1 , θ) p( y2 | x 2 , θ) p( y3 | x3 , θ) ... p( yn | x n , θ) p1 ( θ ) p2 ( θ ) p3 ( θ ) pn ( θ ) 21 Beispiel: Sequentielles Update Posterior (eindimensionale Regression) p0 (θ) p(θ) Sequentielles Update: p0 (θ) p(θ) Sample aus p0 (θ) 1 0 22 Sawade/Landwehr/Scheffer Maschinelles Lernen f ( x) 0 1 x Beispiel: Sequentielles Update Posterior Sawade/Landwehr/Scheffer Maschinelles Lernen f ( x) 0 1 x (eindimensionale Regression) Sequentielles Update: p1 (θ) p0 (θ) p( y1 | x1 , θ) Sample aus Likelihood p( y1 | x1 , θ) P1 (w) P1 (w) Datenpunkt x1 , y1 1 y1 f ( x1 ) 1 0 1 x1 1 0 0 1 x1 y1 1 23 Beispiel: Sequentielles Update Posterior (eindimensionale Regression) p1 (θ) p0 (θ) p( y1 | x1 , θ) Sequentielles Update: Posterior p1 (θ) Likelihood p( y1 | x1 , θ) Sample aus p1 (θ) 1 1 0 0 24 Sawade/Landwehr/Scheffer Maschinelles Lernen f ( x) 0 1 x Beispiel: Sequentielles Update Posterior (eindimensionale Regression) p2 (θ) p1 (θ) p( y2 | x2 , θ) Sequentielles Update: Sample aus p2 (θ) p2 (θ) p ( y2 | x2 , θ) 1 1 0 0 25 Sawade/Landwehr/Scheffer Maschinelles Lernen f ( x) 0 1 x Beispiel: Sequentielles Update Posterior (eindimensionale Regression) pn (θ) pn 1 (θ) p( yn | xn , θ) Sequentielles Update: Sample aus pn (θ) pn (θ) p ( yn | xn , θ) 1 1 0 0 26 Sawade/Landwehr/Scheffer Maschinelles Lernen f ( x) 0 1 x Bayessche Regression: Vorhersage Ziel: Bayessche Vorhersage, wahrscheinlichstes Label y. Sawade/Landwehr/Scheffer Maschinelles Lernen y* arg max y p( y | x, L) Erinnerung: Berechnung mit Bayesian Model Averaging Integration über Raum aller Modelle: Bayesian Model Averaging Gewichtung der Modelle mit ihrer a-posteriori Wahrscheinlichkeit p( y | x, L) p( y | x, θ p(θ | L)dθ 27 Bayessche Regression: Vorhersageverteilung Vorhersageverteilung wieder normalverteilt: Sawade/Landwehr/Scheffer Maschinelles Lernen p( y | x, L) p( y | x, θ) p(θ | L)dθ ( y | xT θ, 2 ) y | x θ, T mit θ A1Xy 2 (θ | θ, A1 )dθ xT A1x A XXT p2 I Optimale Vorhersage: Eingabevektor x wird mit θ multipliziert: y * xT θ 28 Bayessche Regression: Konfidenzkorridor Bayessche Regression liefert nicht nur optimale Vorhersage y* xT θ sondern Verteilung über y und damit auch einen Konfidenzkorridor. y | x θ, T 2 xT A1x y * xT θ x z.B. 95% Konfidenz 29 Sawade/Landwehr/Scheffer Maschinelles Lernen Nichtlineare Regression Einschränkung der bisherigen Modelle: nur lineare Abhängigkeiten zwischen x und f(x). Lineare Daten Sawade/Landwehr/Scheffer Maschinelles Lernen Nicht-lineare Daten Oft wollen wir nicht-lineare Abhängigkeiten in Daten modellieren. 30 Nichtlineare Basisfunktionen Einfachster Weg: Lineare Regression auf nichtlinearen Basisfunktionen Sawade/Landwehr/Scheffer Maschinelles Lernen Idee: Nicht auf den ursprünglichen x arbeiten, sondern auf nichtlinearer Transformation (x) Vorteil: Berechnung von Posterior und Bayes‘scher Vorhersage im Prinzip unverändert Basisfunktionen 1 ,..., d : m 1 (x) ( x ) ( x) 2 ... ( x ) d m d : ursprünglicher Instanzenraum m meistens d d m 31 Nichtlineare Basisfunktionen Lineare Regression in den Basisfunktionen f (x) θT (x) d 0 ii (x) f(x) ist lineare Kombination von Basisfunktionen, θ d Sawade/Landwehr/Scheffer Maschinelles Lernen . i 1 Anschauung: Abbildung in höherdimensionalen Raum ( ) , lineare Regression dort 32 Nichtlineare Basisfunktionen: Beispiel Beispiel 1 ( x) x Sawade/Landwehr/Scheffer Maschinelles Lernen 2 ( x) x 2 f ( x) 0 11 ( x) 22 ( x) Nichtlineare Funktion in x darstellbar als lineare Funktion in ( x) f ( x) 1 3 x x 2 y y x x2 x 33 Nichtlineare Basisfunktionen Beispiele für nicht-lineare Basisfunktionen Sawade/Landwehr/Scheffer Maschinelles Lernen Polynome j ( x) x j 34 Nichtlineare Basisfunktionen Beispiele für nicht-lineare Basisfunktionen Sawade/Landwehr/Scheffer Maschinelles Lernen Gauss-Kurven ( x j )2 j ( x) exp 2 2 s 1 ,..., d Mittelwerte s2 feste Varianz 35 Regression mit Basisfunktionen Wie funktioniert die Vorhersage mit nichtlinearem Modell? Funktion bildet m-dimensionalen Eingabevektor x auf d-dimensionalen Merkmalsvektor (x) ab. T Regressionsmodell: f (x) θ (x) . Optimale Vorhersage wie bisher, mit (x) statt x. Transformierte Testinstanz y* arg max y p ( y | x, L) x)T θ Transformierte Datenmatrix θ A1y , A T p2I und X ) 36 Sawade/Landwehr/Scheffer Maschinelles Lernen Beispiel Regression mit Nichtlinearen Basisfunktionen Beispiel für Regression mit nicht-linearen Basisfunktionen Generiere nicht-lineare Datenpunkte durch y sin(2 x) ~ ( | 0, 2 ), x [0,1] 9 Gaussche Basisfunktionen ( x j )2 j ( x) exp 2 2 s Sawade/Landwehr/Scheffer Maschinelles Lernen 1 0.1,..., 9 0.9 Wie sieht der Posterior p (θ | L) und die Vorhersageverteilung p ( y | x, L) aus? 37 Vorhersageverteilung f ( x) Datenpunkt N=1 y sin(2 x) N=4 N=25 38 Sawade/Landwehr/Scheffer Maschinelles Lernen N=2 Samples aus dem Posterior N=4 N=25 39 Sawade/Landwehr/Scheffer Maschinelles Lernen N=1 N=2