Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayessches Lernen (II) Christoph Sawade/Niels Landwehr Jules Rasetaharison Tobias Scheffer Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 2 Parameter von Verteilungen schätzen Oft können wir annehmen, dass Daten einer bestimmten Verteilung folgen Z.B. Binomialverteilung für N Münzwürfe Z.B. Gaußverteilung für Körpergröße, IQ, … Diese Verteilungen sind parametrisiert Sawade/Landwehr/Scheffer, Maschinelles Lernen Binomialverteilung: Parameter µ ist Wahrscheinlichkeit für „Kopf“ Gaußverteilung: Parameter µ , σ für Mittelwert und Standardabweichung „Echte“ Wahrscheinlichkeiten/Parameter kennen wir nie. Welche Aussagen über echte Wahrscheinlichkeiten können wir machen, gegeben Daten? 3 Parameter von Verteilungen schätzen Sawade/Landwehr/Scheffer, Maschinelles Lernen Problemstellung Parameter von Verteilungen schätzen: Gegeben parametrisierte Familie von Verteilungen (z.B. Binomial, Gauß) mit Parametervektor θ Gegeben Daten L Gesucht: a-posteriori Verteilung P (θ | L) bzw. maximum a-posteriori Schätzung θ * = arg maxθ P(θ | L) Verwende Bayessche Regel: P(θ | L) = P( L | θ ) P(θ ) P ( L) 4 Binomialverteilte Daten Schätzen Beispiel: Münzwurf, schätze Parameter μ =θ N Mal Münze werfen. Daten L: Nk mal Kopf, Nz mal Zahl. Beste Schätzung θ gegeben L? Bayes‘ Gleichung: Likelihood der Daten gegeben Parameter, wie gut erklärt Parameter die Beobachtungen? A-posteriori Verteilung über Parameter, charakterisiert wahrscheinliche Parameterwerte und verbleibende Ungewissheit A-priori Verteilung über Parameter, repräsentiert Vorwissen P( L | θ ) P(θ ) P(θ | L) = P ( L) 5 Sawade/Landwehr/Scheffer, Maschinelles Lernen Binomialverteilte Daten Schätzen Sawade/Landwehr/Scheffer, Maschinelles Lernen Likelihood der Daten: P( L | θ ) (θ = μ Wahrscheinlichkeit für „Kopf“) Likelihood ist binomialverteilt: = P( L | θ ) P= ( N k , N z | θ ) Bin( N k | N , θ ) = N Nk + N z N k + N z Nk Nz θ θ = − (1 ) N k Wahrscheinlichkeit, bei N Münzwürfen N k -mal Kopf und N Z -mal Zahl zu sehen, für Münzparameter θ 6 Binomialverteilte Daten Schätzen Was ist der Prior P(θ ) im Münzwurfbeispiel? 1) Versuch: Kein Vorwissen 1: 0 ≤ θ ≤ 1 P(θ ) = 0 : sonst Sawade/Landwehr/Scheffer, Maschinelles Lernen Dichte Beispiel: Daten L = {Zahl,Zahl,Zahl} MAP Modell: P( L | θ ) P(θ ) P( L) 3 0 3 arg maxθ ∈[0,1] = arg max = = θ ∈[0,1] P ( L | θ ) θ (1 − θ ) 0 0 θ* arg = maxθ ∈[0,1] P(θ | L) arg maxθ ∈[0,1] Schlussfolgerung: Münze wird niemals „Kopf“ zeigen Schlecht, Überanpassung an Daten („Overfitting“) 7 Binomialverteilte Daten Schätzen Was ist der Prior P(θ ) im Münzwurfbeispiel? Besser mit Vorwissen: Unwahrscheinlich, dass Münze immer Kopf oder immer Zahl zeigt Gutes Modell für Vorwissen über θ : Beta-Verteilung. Beta (θ | 5,5) P(θ ) Beta (θ | α k , α z ) = (θ ∈ [0,1]) = Γ(α k + α z ) α k −1 θ (1 − θ )α z −1 Γ(α k )Γ(α z ) 0.5 Gamma-Funktion Γ(α ) kontinuierliche Fortsetzung der Fakultätsfunktion ∞ z −1 − t Γ( z ) = t ∫ e dt 0 ∀n ∈ : Γ(n) = (n − 1)! 8 Sawade/Landwehr/Scheffer, Maschinelles Lernen Binomialverteilte Daten Schätzen αk und αz sind Parameter der Beta-Verteilung („Hyperparameter“) Beta-Verteilung ist Verteilung über Verteilungen = α K 5,= αZ 5 = α K 1,= αZ 1 1 Normalisierte Dichte ∫ Beta(θ | α K Sawade/Landwehr/Scheffer, Maschinelles Lernen = α K 4,= αZ 2 , α Z ) dθ = 1 0 9 Binomialverteilte Daten Schätzen Warum gerade diese a-priori-Verteilung? Strukturelle Ähnlichkeit mit Likelihood: Prior P(θ ) Beta (θ= | α k ,α z ) = Γ(α k + α z ) α k −1 θ (1 − θ )α z −1 Γ(α k )Γ(α z ) N k + N Z Nk Nz θ θ = P( L | θ ) P= − ( Nk , N z | θ ) (1 ) Likelihood N k Einfach, Beobachtungen zu berücksichtigen: Produkt aus Likelihood und Prior hat wieder dieselbe Form wie Prior P(θ | L) ∝ P ( L | θ ) P (θ ) 10 Sawade/Landwehr/Scheffer, Maschinelles Lernen Binomialverteilte Daten Schätzen Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann: P(θ | L) = Sawade/Landwehr/Scheffer, Maschinelles Lernen P( L | θ ) P(θ ) P ( L) 1 Bin( N K | N , θ ) Beta(θ | α k , α z ) Z 1 N k + N z Nk α k −1 N z Γ(α k + α z ) (1 ) (1 − θ )α z −1 = θ − θ θ Γ(α k )Γ(α z ) Z Nk 1 α k + Nk −1 (1 − θ )α z + N z −1 θ Z' =? = 11 Binomialverteilte Daten Schätzen Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann: P(θ | L) = Sawade/Landwehr/Scheffer, Maschinelles Lernen P( L | θ ) P(θ ) P ( L) 1 Bin( N K | N , θ ) Beta (θ | α k , α z ) Z 1 N k + N z Nk N z Γ(α k + α z ) (1 ) θ θ θ α k −1 (1 − θ )α z −1 = − Z Nk Γ(α k )Γ(α z ) = 1 α k + Nk −1 (1 − θ )α z + N z −1 θ Z' Γ(α k + N k + α z + N z ) α k + Nk −1 (1 − θ )α z + N z −1 θ Γ(α k + N k )Γ(α z + N z ) = Beta (θ | α k + N k , α z + N z ) Beta-Verteilung ist „konjugierter“ Prior: Posterior ist wieder Beta-verteilt 12 Zusammenfassung Bayessche Parameterschätzung Binomialverteilung Bayessche Regel P(θ | L) = Sawade/Landwehr/Scheffer, Maschinelles Lernen P( L | θ ) P(θ ) P ( L) Posterior P(θ | L): Wie wahrscheinlich ist Modell θ, nachdem wir Daten L gesehen haben? Vorwissen P(θ ) und Evidenz der Trainingsdaten L werden zu neuem Gesamtwissen P(θ | L) integriert. Beispiel Münzwurf: Vorwissen Beta(θ | αk, αz) und Beobachtungen Nk, Nz werden zu Posterior Beta(θ | αk +Nk, αz +Nz). 13 Münzwurf: Wahrscheinlichste Wahrscheinlichkeit Wahrscheinlichster Parameter θ. arg maxθ P(θ | L) arg maxθ Beta(θ | α k + N k , α z + N z ) = Ableiten, Ableitung null setzen ( α z ≥ 1, α k ≥ 1 ) Γ(α k + α z + N k + N z ) α k + Nk −1 arg maxθ (1 − θ )α z + N z −1 θ Γ(α k + N k )Γ(α z + N z ) = Nk + αk −1 Nk + N z + αk + α z − 2 Normalisierer, unabhängig von θ Für α= α= 1 ergibt sich ML Schätzung z k Interpretation der Hyperparameter α z − 1/ α k − 1 : α z − 1/ α k − 1 „Pseudocounts“ , die auf beobachtete „Counts“ aufgeschlagen werden wie oft im Leben Münzwurf mit „Kopf“/“Zahl“ gesehen? N z / Nk 14 Sawade/Landwehr/Scheffer, Maschinelles Lernen Münzwurf: Wahrscheinlichste Wahrscheinlichkeit Sawade/Landwehr/Scheffer, Maschinelles Lernen Beispiel MAP Schätzung Parameter Prior= P(θ ) Beta (θ | 5, 5) Posterior nach 50x Kopf, 25x Zahl: 25 ) Beta (θ | 55, 30 ) P(θ | N K = 50, N= = Z * MAP Schätzung: θ arg maxθ P(θ | N K = 50, N= 25) = = Z 54 ≈ 0.65 54 + 29 15 Bayessche Schätzung als Sequentielles Update der Verteilung Geburt Sawade/Landwehr/Scheffer, Maschinelles Lernen Kopf, Zahl 16 Kopf, 37 Zahl Kopf … 1 N K + N Z Nk θ (1 − θ ) N z Beta(θ | α k , α z ) Beta (θ | α k= + Nk ,α z + N z ) Z N K Posterior Prior Likelihood 16 Verallgemeinerung: Würfelwurf statt Münzwurf Münzwurf: 2 Ausgänge. Sawade/Landwehr/Scheffer, Maschinelles Lernen Prior Beta-verteilt, Binomiale Likelihood, Posterior wieder Beta-verteilt. Modell für Prozesse mit binärem Ergebnis. Verallgemeinerung Würfelwurf: k Ausgänge. Prior Dirichlet-verteilt, Likelihood Multinomial, Posterior wieder Dirichlet-verteilt. Modell für diskrete Prozesse mit mehreren möglichen Ergebnissen 17 Einschub: Begriff „Schätzer“ Wir haben uns mit der Schätzung von Parametern von Verteilungen aus Daten beschäftigt Formalisierung: ein Schätzer ist ein Verfahren, das Beobachtungen L auf einen Schätzwert abbildet. z.B. Münzwurf: Beobachtung Nk, Nz, schätze Münzparameter Schätzer für (unbekannten) Wert θ wird mit θˆ bezeichnet Schätzer ist Zufallsvariable, Verteilung bestimmt durch die Verteilung p ( L | θ ) der Daten gegeben den echten Parameter Schätzer heißt erwartungstreu, wenn E[θˆ] = θ 18 Sawade/Landwehr/Scheffer, Maschinelles Lernen Schätzer Beispiel: Münzwurf, Beobachtung Nk, Nz. MAP-Schätzer Münzwurf: Sawade/Landwehr/Scheffer, Maschinelles Lernen θˆMAP = arg maxθ P(θ | L) = arg maxθ Beta(θ | α k + N k , α z + N z ) α k + Nk −1 = αk + Nk + α z + N z − 2 ML-Schätzer Münzwurf: θˆML = arg maxθ P( L | θ ) = arg maxθ θ N k (1 − θ ) N z = Nk Nk + N z 19 Schätzer Maximum Likelihood Schätzer erwartungstreu: Angenommen echter Münzparameter ist θ Dann Erwartungswert additiv N N N 1 1 1 K ˆ θ ML = = [ NK ] = [ Xi ] Xi ∑ ∑ N N= N i 1= = N i1 1 N = ∑θ Erwartungswert über mögliche „Kopf“ Indikator für N i =1 beobachtete Münzwürfe einzelnen Münzwurf =θ MAP Schätzer nicht erwartungstreu: θˆMAP = N µ + α K −1 N + αK + αZ − 2 20 Sawade/Landwehr/Scheffer, Maschinelles Lernen Schätzen Kontinuierlicher Daten: Normalverteilung Normalverteilung häufige Wahl zur Modellierung kontinuierlicher ZV Hier: eindimensionale Daten, univariate Normalverteilung Mittelwert-Parameter µ Varianz-Parameter σ 2 Dichtefunktion: = ( x | µ ,σ 2 ) 1 (2πσ 2 )1/2 ( x − µ )2 exp − 2 2 σ 21 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilte Daten Schätzen: ML Schätzen einer Normalverteilung aus Daten Annahme: Daten folgen Normalverteilung Aber Mittelwert µ und Standardabweichung σ unbekannt Gegeben: Daten L bestehend aus n unabhängigen Datenpunkten x1 ,..., xn Sawade/Landwehr/Scheffer, Maschinelles Lernen xi ~ ( x | µ ,σ 2 ) unabhängig gezogen , σ für die unbekannten Gesucht: Schätzungen µ Parameter µ , σ 22 Normalverteilte Daten Schätzen: ML Sawade/Landwehr/Scheffer, Maschinelles Lernen Einfachster Ansatz: Maximum Likelihood, finde ,σ ) = arg max p ( L|µ ,σ ) (µ µ ,σ Berechnen der Likelihood p ( L | µ ,σ )= p ( x1 ,..., xn |µ ,σ ) n = ∏ p ( xi |µ ,σ ) Datenpunkte unabhängig i =1 n = ∏ ( xi |µ ,σ 2 ) Verteilungsannahme einsetzen i =1 ( xi − µ ) 2 =∏ exp − 2 1/2 2 πσ σ ) 2 i =1 (2 n 1 23 Normalverteilte Daten Schätzen: ML Sawade/Landwehr/Scheffer, Maschinelles Lernen Logarithmieren: arg max µ ,σ p ( L|µ ,σ ) = arg max µ ,σ log p ( L|µ ,σ ) Log-Likelihood: n ( xi − µ ) 2 1 log p ( L|µ ,σ ) = log ∏ exp − 2 1/2 2 πσ σ (2 ) 2 i =1 2 n − µ x ( ) 2 − n/2 i = log (2πσ ) ∏ exp − 2 2σ i =1 n n 1 n 2 = − log(2π ) − log σ − 2 ∑ ( xi − µ ) 2 2 2 2σ i =1 24 Normalverteilte Daten Schätzen: ML Log-Likelihood n n 1 2 log p ( L|µ ,σ ) = − log(2π ) − log σ − 2 2 2 2σ 2 x ( ) µ − ∑ i i =1 Maximierung über µ : betrachte partielle Ableitung ∂ 1 log p ( L|µ ,σ ) = ∂µ 2σ 2 n Null setzen: n 1 = x ⇒µ ∑ i n i =1 n ∑ 2( x − µ ) i =1 i 1 n = 2 ∑ xi − nµ σ i =1 Null setzen Intuitiv: geschätzter Mittelwert = Durchschnitt 25 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilte Daten Schätzen: ML Log-Likelihood n n n 1 2 log p ( L|µ ,σ ) = − log(2π ) − log σ − 2 2 2 2σ i =1 Maximierung über σ : betrachte partielle Ableitung 2 ∂ 1 n ˆ ,... , = − + log ( | , ) p x x µ σ n 1 ∂σ 2 2σ 2 2σ 4 2 x ( ) µ − ∑ i Null setzen: n 1 )2 ( ⇒ σ= x − µ ∑ i n i =1 2 n ∑ ( x − µˆ ) i =1 2 i 1 1 n 2 ˆ = − − ( ) x µ n ∑ i 2σ 2 σ 2 i =1 Null setzen Intuitiv: geschätzte Varianz = durchschnittliche Abweichung vom Mittelwert 26 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilte Daten Schätzen: ML Sawade/Landwehr/Scheffer, Maschinelles Lernen Mittelwert-Schätzer für Normalverteilung erwartungstreu? n 1 = x µ n ∑ i i =1 1 n = ∑ [ xi ] n i =1 1 n = ∑µ n i =1 =µ erwartungstreu Schätzer µ 27 Normalverteilte Daten Schätzen: ML Sawade/Landwehr/Scheffer, Maschinelles Lernen Varianz-Schätzer für Normalverteilung erwartungstreu? 2 n n 2 1 1 = σ ∑ xi − ∑ x j n j =1 n i =1 = ... n −1 2 σ = n 2 Schätzer σ nicht erwartungstreu – Varianz wird systematisch unterschätzt Schätzer ist aber konsistent – der systematische Fehler verschwindet für n → ∞ 28 Normalverteilte Daten Schätzen: Beispiel ML Schätzung Wir wollen IQ einer Population schätzen = σ 0 15 IQ typischerweise normalverteilt = mit µ0 100, Sawade/Landwehr/Scheffer, Maschinelles Lernen Wir wollen IQ-Verteilung schätzen für Subpopulation Wohl auch normalverteilt, aber evtl andere Parameter Intelligenztest mit n Probanden: ergibt n unabhängige Datenpunkte x1 ,..., xn Annahme: Normalverteilung mit unbekanntem Mittelwert und unbekannter Varianz xi ~ ( x | µ ,σ 2 ) ,σ Maximum-Likelihood Schätzung µ 29 Normalverteilte Daten Schätzen: Beispiel ML Schätzung Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation: n=3 Punkte ziehen aus echter Verteilung mit = µ 120, = σ 15 , ML Parameter schätzen ML-Schätzung Verteilung: Dichte p(x) , σ 2 ) (x | µ 123. = µ = 4, σ 8.1 Echte Verteilung: xi ~ ( x | µ , σ 2 ) = µ 120, = σ 15 Datenpunkte x (gemessener IQ) 30 Normalverteilte Daten Schätzen: Beispiel ML Schätzung Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation: n=30 Punkte ziehen aus echter Verteilung mit = µ 120, = σ 15 , ML Parameter schätzen ML-Schätzung Verteilung: Dichte p(x) , σ 2 ) (x | µ 116. = µ = 4, σ 13.7 Echte Verteilung: xi ~ ( x | µ , σ 2 ) = µ 120, = σ 15 Datenpunkte x (gemessener IQ) 31 Normalverteilte Daten Schätzen: Beispiel ML Schätzung Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation: n=500 Punkte ziehen aus echter Verteilung mit = µ 120, = σ 15 , ML Parameter schätzen ML-Schätzung Verteilung: Dichte p(x) , σ 2 ) (x | µ 120. = µ = 3, σ 15.1 Echte Verteilung: xi ~ ( x | µ , σ 2 ) = µ 120, = σ 15 Datenpunkte x (gemessener IQ) 32 Normalverteilte Daten Schätzen: Bayessche Schätzungen Bisher nur ML-Schätzung Bayessche Schätzungen für Parameter µ ,σ ? Sawade/Landwehr/Scheffer, Maschinelles Lernen Brauchen geeignete a-priori Verteilung Im Allgemeinen gemeinsame a-priori Verteilung p ( µ ,σ ) Zunächst einfacher Fall: Varianz σ bekannt mit Prior p ( µ ) Schätzung des Mittelwertes µ 33 Normalverteilte Daten Schätzen: Bayessche Schätzungen Konjugierter Prior zur Normalverteilung mit bekannter Varianz ist Normalverteilung Prior: p( µ ) = ( µ | µ0 , σ 02 ) Wie stark ist Vorwissen? Vermuteter Mittelwert n Likelihood: p ( x1 ,..., xn | µ ) = ∏ ( xi | µ , σ 2 ) i =1 Posterior:= p ( µ | L) p( L | µ ) p( µ ) = ( µ | µn , σ n2 ) p ( L) nσ 02 σ2 µ0 + 2 µ ML , mit µn = nσ 02 nσ 0 + σ 2 Posterior wieder normalverteilt! σ 2σ 02 σ = σ 2 + nσ 02 ML-Schätzung 2 n 34 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilte Daten Schätzen: Bayessche Schätzungen Sawade/Landwehr/Scheffer, Maschinelles Lernen Weder Mittelwert noch Varianz ist bekannt: geeigneter konjugierter Prior ist Normal-Gamma Definiere λ= 1 σ "Precision" Konjugierter Prior ist Produkt aus Normalverteilung und Gamma-Verteilung: p ( µ , λ ) = ( µ | µ0 , ( βλ ) −1 ) Gam(λ | a, b) mit = Gam(λ | a, b) 1 a a −1 b λ exp(−bλ ) Γ(a ) Posterior p ( µ , λ | x1 ,..., xn ) ist wieder Normal-Gamma 35 Normalverteilte Daten Schätzen: Beispiel Bayessche Schätzung Sawade/Landwehr/Scheffer, Maschinelles Lernen Zurück zum Beispiel: schätzen der IQ-Verteilung anhand von n unabhängigen Datenpunkten Normal-Gamma Prior: erwarte µ ≈ 100, σ ≈ 15 Farbkodierung Dichte p( µ , σ ) Erwartung: µ ≈ 100, σ ≈ 15 36 Normalverteilte Daten Schätzen: Beispiel Bayessche Schätzung Likelihood: Prior: ( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b) n ∏ ( xi | µ ,σ 2 ) Posterior: ( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* ) i =1 Prior bewirkt Korrektur der ML-Schätzung in Richtung des Vorwissens 37 Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation: n=3 Punkte ziehen aus echter Verteilung mit = µ 120, = σ 15 , statt ML-Schätzung berechnen wir Posterior Normalverteilte Daten Schätzen: Beispiel MAP Parameter Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation für n=3: Vergleich ML und MAP Lösung ML MAP 38 Normalverteilte Daten Schätzen: Beispiel Bayessche Schätzung Simulation: n=30 Punkte ziehen aus echter Verteilung, statt ML-Schätzung berechnen wir a posteriori Verteilung Likelihood: Prior: ( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b) n ∏ ( xi | µ ,σ 2 ) Posterior: ( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* ) i =1 Prior bewirkt Korrektur der ML-Schätzung in Richtung des Vorwissens 39 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilte Daten Schätzen: Beispiel MAP Parameter Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation für n=30: Vergleich ML und MAP Lösung ML MAP 40 Normalverteilte Daten Schätzen: Beispiel Bayessche Schätzung Simulation: n=500 Punkte ziehen aus echter Verteilung, statt ML-Schätzung berechnen wir a posteriori Verteilung Likelihood: Prior: ( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b) n ∏ ( xi | µ ,σ 2 ) Posterior: ( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* ) i =1 Für grosse n nähert sich MAP Schätzung der ML Schätzung an 41 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilte Daten Schätzen: Beispiel MAP Parameter Sawade/Landwehr/Scheffer, Maschinelles Lernen Simulation für n=500: Vergleich ML und MAP Lösung ML MAP 42 Normalverteilte Daten Schätzen: Beispiel MAP Parameter Sawade/Landwehr/Scheffer, Maschinelles Lernen Mehrmalige Wiederholung der Simulation: n=3 Punkte ziehen aus echter Verteilung, Vergleich ML/MAP Schätzung: ML MAP 43 Beobachtungen ML vs. MAP Schätzung MAP Schätzungen Kompromiss zwischen Vorwissen und Evidenz der Daten MAP Schätzungen sind stabiler als ML Schätzungen: Schwankungen in den Daten beeinflussen Ergebnis weniger Je mehr Daten, desto kleiner die Varianz der PosteriorVerteilung: immer sicherer, was bestes Modell ist Für unendlich viele Daten ( n → ∞ ) konvergiert die MAP Lösung gegen die ML Lösung 44 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilung: Kumulative Verteilungsfunktion Gegeben Normalverteilung: was ist p(beobachteter Wert ≥ x) ? Beispiel: IQ einer zufällig gezogenen Person Zufallsvariable mit µ 100, = σ 15 X ~ ( x | µ ,σ 2 ) = Was ist p ( X ≥ 120) ? Normalisierung zur Standardnormalverteilung X −µ X ~ ( x | µ ,σ 2 ) ⇒ Z = ~ ( x | 0,1) σ Wahrscheinlichkeit, IQ von 120 oder größer zu sehen? 4 4 X − 100 120 − 100 p ( X ≥ 120) =P ≥ = p ( Z ≥ ) =− 1 p ( Z ≤ ) 15 15 3 3 Kumulative Verteilungsfunktion 45 Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilung: Kumulative Verteilungsfunktion Sawade/Landwehr/Scheffer, Maschinelles Lernen Kumulative Verteilungsfunktion Φ( z ) = p(Z ≤ z ) z = ∫ ( x | 0,1)dx −∞ z = ∫ −∞ 1 exp ( − x 2 / 2 ) dx 2π Keine geschlossene Lösung, nachschlagen in Tabelle 46 Verteilungsfunktion der Normalverteilung Sawade/Landwehr/Scheffer, Maschinelles Lernen 4 Φ ≈ 0.9082 3 p ( X ≥ 120) ≈ 0.0918 47 Normalverteilung: Kumulative Verteilungsfunktion Sawade/Landwehr/Scheffer, Maschinelles Lernen Normalverteilung konzentriert die meiste Wahrscheinlichkeitsmasse „nahe“ dem Mittelwert p ( µ − σ ≤ X ≤ µ − σ ) ≈ 0.68 p ( µ − 2σ ≤ X ≤ µ − 2σ ) ≈ 0.95 p ( µ − 3σ ≤ X ≤ µ − 3σ ) ≈ 0.997 48 Multivariate Normalverteilung Zufallsvariable x mit d Dimensionen. x ∈ d normalverteilt, wenn Verteilung beschrieben wird durch Dichte = (xμ| , Σ) 1 1 T −1 − x − μ xμ exp ( ) ( ) Σ − 2π d /2 | Σ |1/2 2 Determinante Beispiel d=2 d Mittelwertvektor μ ∈ Kovarianzmatrix Σ Koarianzmatrix entscheidet, wie Punkte streuen μ 49 Sawade/Landwehr/Scheffer, Maschinelles Lernen Überblick Wahrscheinlichkeiten, Erwartungswerte, Varianz Grundkonzepte des Bayesschen Lernens (Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen Bayessche Lineare Regression, Naive Bayes Sawade/Landwehr/Scheffer, Maschinelles Lernen 50