Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II: Zusammenfassung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zB. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. → Temporal Credit Assignment Problem. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Problemstellungen des maschinellen Lernens Umgebung •Reward •Beobachtung Aktionen Agent Controller Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Lernen aus Interaktionen Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Discount factor . Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Markov Decision Processes Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 MDP Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Markov-Eigenschaft Value function V¼( s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Bewertungsfunktion für Zustand-Aktions-Paar: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Value Functions – Bewertungsfunktionen Für Bewertungsfunktionen gelten die BellmanGleichungen (durch Markov-Eigenschaft): Zustand-Aktions-Bewertungsfunktion: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Bellman-Gleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Bellman-Optimalitätsgleichungen P,R bekannt. P(s‘|s,a) können abgefragt werden. → Planen. P,R nicht explizit bekannt. Aber aus den Verteilungen P(s‘|s,a) kann gesamplet werden. Annahme: Generatives Modell von P und R. P,R nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. → Reinforcement Learning. Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Problemstellungen Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Arten von Reinforcement Learning 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V¼ berechnen für festes ¼k Policy Improvement: Neues ¼k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 MDP vollständig bekannt – Dynamische Programmierung Allgemeines Verfahren zum Bestimmen der optimalen Policy. Iteriere: Policy Evaluation: Gegeben Policy ¼k, bestimme Policy Improvement: Inferiere verbesserte Policy ¼k+1 aus z.B. greedy Policy: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Policy Iteration Iteratives Verfahren zur Berechnung von V¼ bzw. Q¼ Konvergiert gegen V¼bzw. Q¼ für k→1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Value Iteration Value Iteration für das Kontrollproblem. Für V *: für Q* : Konvergiert gegen V* bzw. Q* für k→1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Value Iteration Updateregel: TD(¸ ) Update: 0· ¸ · 1 interpoliert zwischen 1-step und MC. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 TD(¸ ) Algorithmische Sicht auf TD(¸ ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2 S. Nach Beobachtung <st ,a t ,R t ,s t+1>, berechne Update für alle Zustände Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Eligibility Traces Tradeoff zwischen Verfolgen der derzeit besten Policy, um den (greedy) Gewinn zu maximieren. (Exploitation) und Erkunden derzeit suboptimaler Aktionen, über deren Wert noch Unsicherheit besteht, um eine potentiell bessere Policy zu finden. (Exploration) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Exploration / Exploitation Problem ¼stochastische Policy. Schätzungen sollen Einfluss auf Auswahlwahrscheinlichkeit haben. → Softmax Beispiel: Gibbs-Verteilung: ¿t ist Temperaturparameter. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Stochastische Policy: Softmax In realistischen Anwendungen sind Zustandsräume i.A. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.B. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Große und unendliche Zustandsräume Angenommen, S sehr groß Ziel: Finde Q, so dass ||Q-Q*||1 <². Sparse Lookahead Trees: [Kearns et al. 02] Monte-Carlo: Samplen eines sparsen Aktions-Zustands-Baums. Tiefe des Baums: Effektiver Horizont H (²) = O( 1/(1-° ) log(1/²(1-° )) ) MC unabhängig von |S| Aber exponentiell in H (²): min. Größe des Baums Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Monte-Carlo Sampling Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Sparse Lookahead Trees Besser: Nur solche Teilbäume genauer untersuchen, die vielversprechend sind. Optimismus bei Unsicherheit! Nutze das gleiche Prinzip wie bei Bandit Problem. UCT: UCB for Trees. [Kocsis & Szepesvári 06] Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Upper Confidence Bounds for Trees Kontinuierlicher Zustandsraum S. Random Discretization Method: [Rust 97] Sampling von Zuständen S‘ nach uniformer Verteilung über den Zustandsraum. Value Iteration. Kontinuierliche Value Iteration: Diskretisierung: Weighted Importance Sampling Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Diskretisierung Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V¼, bzw. Q¼am besten approximiert wird. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s‘|s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <st , at , R t , st+1> aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹ (s). Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Funktionsapproximation Online Updates: Anpassen von µt nach jeder Interaktion <st , at , R t , st+1>. Qˆ (⋅;θt ) → Qπ t →∞ Qˆ (⋅;θt ) → Q* t →∞ Gradientenabstieg: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 FA für Reinforcement Learning Spezialfall: lineare Methoden. Qˆ (⋅;θ ) = φ Tθ t Gradientenabstieg: 2 1 π ˆ θt +1 =θt − α t ∇θ Q ( st , at ) − Q( st , at ;θt ) 2 θt + α t Qπ ( st , at ) − Qˆ ( st , at ;θ ) ∇θ Qˆ ( st , at ;θt ) = θt + α t Qπ ( st , at ) − Qˆ ( st , at ;θ ) φ ( st , at ) = Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 FA für Reinforcement Learning Value Function V¼unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für ®t) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 FA für Reinforcement Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 2 1 * ˆ θt +1 =θt − α t ∇θ Q ( st , at ) − Q( st , at ;θt ) 2 θt + α t R( st , at ) + γ max Qˆ ( st +1 , a;θt ) − Qˆ ( st , at ;θt ) ∇θ Qˆ ( st , at ;θt ) = a θt + α t R( st , at ) + γ max φ ( st +1 , a )T θt − φ ( st , at )T θt φ ( st , at ) = a Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Approximatives Q-Learning TD(¸ ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 FA für Reinforcement Learning Kontrollproblem: SARSA(¸ ) (On-Policy) Off-policy kann divergieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 SARSA(¸ ) [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹ (s). Für jedes s und a2 A, Ziehe M Nachfolgezustände s‘ aus P(¢|s,a) und Rewards R(s,a). Iteriere: Mit diesen Samples <s, a, R, s‘> wird ein BellmanUpdate-Schritt durchgeführt: Dann least-squares Fitting: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Fitted Value Iteration mit Samples Q = 0. Ziehe N Samples s,a aus ¹ (s),p(a). Ziehe R und Nachfolgezustand s‘ entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s‘> wird ein BellmanUpdate-Schritt durchgeführt: M Qk +1 ( s, a ) ← ∑ R( s, a ) + γ Qk ( s ', π ( s ')) i =1 Dann least-squares Fitting: M Qˆ k +1 ( s, a ) ← arg min ∑ Qk +1 ( si , ai ) − f ( si , ai ) f ∈ℑ i =1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Fitted Policy Evaluation mit Samples Falls Samples von Q¼(s,a) bekannt, lerne Q¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a)) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Approximate Policy Iteration Q ist aus Funktionsraum F. T¼Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T¼Q auf F. Unbiased. LSTD oft bessere Ergebnisse. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Least-Squares Temporal Difference In (linearer) Operatorschreibweise: Mit linearem Operator T¼: Q¼ist ein Fixpunkt des Bellman-Operators T¼ . Iteration: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2 Bellman-Operatoren Recommendation Landwehr/Sawade/Scheffer, Maschinelles Lernen II Empfehlung von Produkten, Informationen, Personen, Musik, … Ziel: Rausfilterung von unwichtigen / unerwünschten / unsympathischen Optionen; Finden von wichtigen / gefallenden / beliebten Optionen Basierend auf Transaktionen aus der Vergangenheit: Käufe, Bewertungen, Klicks, … Nutzerspezifisch: Keine globale Sortierung der Optionen, sondern persönliche Empfehlung 1 Inhaltsbasierte Recommendation Featureabbildung φ: X → Rd notwendig Unabhängige Lernprobleme: Landwehr/Sawade/Scheffer, Maschinelles Lernen II Normale Regressions- oder Klassifikationsformalisierung Gemeinsames Lernproblem: Verteilung der Gewichtsvektoren um gemeinsamen, gleichzeitig gelernten, Mittelpunkt 2 Kollaborative Recommendation Keine Featureabbildung nötig. K-Nearest-Neighbor: Landwehr/Sawade/Scheffer, Maschinelles Lernen II Vorhersage berechnet sich als gewichtetes Mittel der Bewertungen der ähnlichsten Nutzer Latente Features: Gleichzeitiges Lernen von versteckten „Geschmacks“-Featurevektoren von Benutzern und Objekten 3 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer Graphische Modelle Sawade/Landwehr/Scheffer, Maschinelles Lernen II Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten 2 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Sawade/Landwehr/Scheffer, Maschinelles Lernen II 3 Graphische Modelle: Einführung am Beispiel Beispiel: „Alarm“ Szenario Sawade/Landwehr/Scheffer, Maschinelles Lernen II Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B Burglary – Einbruch hat stattgefunden E Earthquake – Erdbeben hat stattgefunden A Alarm – Alarmanlage geht los N NeighborCalls – Nachbar ruft an R RadioReport – Bericht über Erdbeben im Radio 4 Graphische Modelle: Einführung am Beispiel Sawade/Landwehr/Scheffer, Maschinelles Lernen II Ziel: Repräsentation der gemeinsamen Verteilung p(B,E,A,N,R) Wähle Variablenordnung: z.B. B<E<A<N<R Produktregel: p( B, E , A, N , R) p( B, E , A, N ) p( R | B, E, A, N ) p( B, E, A) p( N | B, E, A) p( R | B, E, A, N ) p( B, E ) p( A | B, E ) p( N | B, E , A) p( R | B, E , A, N ) p( B) p( E | B) p( A | B, E ) p( N | B, E , A) p( R | B, E , A, N ) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. 5 Graphische Modelle: Einführung am Beispiel Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen p( E | B) p( E ) p ( A | B, E ) p ( A | B, E ) p( N | B, E , A) p( N | A) p( R | B, E , A, N ) p( R | E ) Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von Nachbar hängt nur von Alarm ab Nachricht im Radio hängt nur von Erdbeben ab Vereinfachte Darstellung der gemeinsamen Verteilung: p( B, E, A, N , R) p( B) p( E) p( A | E, B) p( N | A) p( R | E) Vereinfachte Faktoren 6 Sawade/Landwehr/Scheffer, Maschinelles Lernen II p( B, E, A, N , R) p( B) p( E | B) p( A | B, E) p( N | B, E, A) p( R | B, E, A, N ) Graphische Modelle: Einführung am Beispiel P(B=1) P(E=1) 0.1 0.2 B B E P(A=1|B,E) 0 0 0.01 0 1 0.5 1 0 0.9 1 1 0.95 Modellierte Verteilung: p( B, E, A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) E A N E P(R=1|E) 0 0.01 1 0.5 R A P(N=1|A) 0 0.1 1 0.7 Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X | X 1 ,..., X k ) fügen wir gerichtete Kanten von den X i zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen p( X | X 1 ,..., X k ) 7 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Graphisches Modell für „Alarm“ Szenario Graphische Modelle: Unabhängigkeit Sawade/Landwehr/Scheffer, Maschinelles Lernen II Die Graphstruktur impliziert Unabhängigkeiten zwischen Mengen von ZV „D-separation“ Kriterium, um Unabhängigkeiten aus Graphstruktur abzulesen A,B unabhängig gegeben C gdw jeder Pfad von Knoten in A zu Knoten in B blockiert ist gegeben C Menge einfacher Regeln, wann Pfade blockiert sind 8 Divergierende Verbindungen B E A R B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ N Betrachte Pfad A←E→R. Gilt R | ? Nein, p( A | R) p( A) RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm ZV R beeinflusst ZV A über die divergierende Verbindung R E A 9 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Divergierende Verbindung Divergierende Verbindungen B E A R B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ beobachteter Knoten N Betrachte Pfad A←E→R. Gilt R | E ? Ja, p( A | R) p( A) Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende Pfad R E A wird durch Beobachtung von E blockiert 10 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Divergierende Verbindung Serielle Verbindungen Sawade/Landwehr/Scheffer, Maschinelles Lernen II B E A B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ R N=„Nachbar ruft an“ R=„Radio Bericht“ Serielle Verbindung N Betrachte Pfad N ← A ← B. Gilt | ? Nein, p( B | N ) p( B) Intuitiv: NeighborCalls wahrscheinlich Alarm wahrscheinlich Burglary [Ausrechnen mit gemeinsamer Verteilung] p( B 1| N 1) p( B 1| N 0) ZV N beeinflusst ZV B über den seriellen Pfad N A B 11 Serielle Verbindungen Sawade/Landwehr/Scheffer, Maschinelles Lernen II B E A R Serielle Verbindung B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ beobachteter Knoten N Betrachte Pfad N ← A ← B. Gilt | A ? Ja, p( B | N , A) p( B | A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft Der serielle Pfad N A B wird durch Beobachtung von A blockiert. 12 Konvergierende Verbindung B E A B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ R N Betrachte Pfad B → A ← E. Gilt | ? Ja, p( B | E) p( B) Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben Der konvergierende Pfad B A E ist blockiert wenn A nicht beobachtet ist 13 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Konvergierende Verbindung Konvergierende Verbindung B E A B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ R beobachteter Knoten N Betrachte Pfad B → A ← E. Gilt | A ? Nein, p( B | E) p( B) Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B A E wird freigegeben durch Beobachtung von A 14 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Konvergierende Verbindung D-Separation: Korrektheit, Vollständigkeit Gegeben ein graphisches Modell über {X1,…,XN} mit Graphstruktur G. Das GM modelliert eine Verteilung durch N p( X 1 ,..., X N ) p( X i | pa( X i )) i 1 abhängig von den bedingten Verteilungen p( X n | pa( X n )) . Theorem (Korrektheit, Vollständigkeit d-separation) Falls A,B d-separiert gegeben C in G, dann p( A | B, C ) p( A | C ) Es gibt keine anderen Unabhängigkeiten, die für jede Wahl der bedingten Verteilungen p( X i | pa( X i )) gelten. 15 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Sawade/Landwehr/Scheffer, Maschinelles Lernen II 16 Münzwürfe als graphisches Modell Sawade/Landwehr/Scheffer, Maschinelles Lernen II Münzwurf: N Bernoulli-verteilte Zufallsvariablen X1 ,..., X N Parameter , Beta-Prior N p k z ( X 1 ,..., X N , ) p k z ( p( X i | ) Prior i 1 Likelihood Darstellung als graphisches Modell: pa( ) pa( X i ) {} … X1 X2 X3 … XN 17 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Münzwurf arg max p Sawade/Landwehr/Scheffer, Maschinelles Lernen II k z ( | x1 ,..., xN ) Inferenzproblem: pk , z ( ) … p( X | ) X 1 X2 X3 … XN p( X | ) Evidenz auf den Knoten X1,…, XN Wahrscheinlichster Zustand des Knotens μ gegeben X1,…, XN 18 Plate-Modelle Plate Notation … X1 Sawade/Landwehr/Scheffer, Maschinelles Lernen II X2 X3 Plate Notation … Plate XN Xi N Ein „Plate“ ist eine abkürzende Notation für N Variablen der gleichen Form Bezeichnet mit Anzahl der Variablen, N Variablen haben Index (z.B. Xi ). 19 Erinnerung: Bayessche Lineare Regression Sawade/Landwehr/Scheffer, Maschinelles Lernen II Diskriminatives Setting: xi fest, Verteilung über Label yi Lineares Modell plus Gaußsches Rauschen y p( y | x, w) wT x N ( y | 0, 2 ) wT x x Bayessches Setting: Prior auf Parametervektor p(w | 2 ) N (w | 0, 2 I ) Zufallsvariablen: w, y1 ,..., yN (nicht: x1 ,..., x N , , ) 20 Bayessche Lineare Regression als Graphisches Modell Sawade/Landwehr/Scheffer, Maschinelles Lernen II N p( y1 , ..., yN , w | x1 ,..., x N , , ) p(w | ) p( yi | xi , w, 2 ) 2 2 2 Prior i 1 Likelihood Graphisches Modell, N=3 Graphisches Modell, Plate-Notation w w yi y1 y2 y3 xi x1 x2 N x3 21 MAP Parameterschätzung als Inferenzproblem w Sawade/Landwehr/Scheffer, Maschinelles Lernen II w yn y1 y2 y3 xn x1 x2 N x3 MAP Parameterschätzung: wahrscheinlichstes Modell gegeben Daten w* arg max w p(w | y1 ,..., yN , x1 ,..., x N , 2 , 2 ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten w, gegeben beobachtete Knoten y1,…, yN ? 22 Bayes-optimale Vorhersage Klassifikation mit MAP Modell: w* arg max w p(w | L, X , 2 , 2 ) y* arg max y p( y | x, w* , 2 ) X x1 ... x N Merkmalsvektoren w*T x Statt MAP Modell kann man auch direkt die Bayes‘sche Vorhersageverteilung ausrechnen: p( y | x, L, X , 2 , 2 ) p( y | x, w, 2 ) p( w | L, X , 2 , 2 )dw Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen 23 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage: Erweiterung des Modells durch neue Testinstanz (neue Zufallsvariable y) N p( y1 ,..., yN , y, w | x1 ,..., x N , x, , ) p(w | ) p( yi | w, xi , 2 ) p( y | w, x, 2 ) i 1 2 2 2 Graphisches Modell, N=3 w y1 x1 y2 x2 Plate Notation x3 yn y y3 x w xn y N x 24 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Bayessche Lineare Regression als Graphisches Modell Sawade/Landwehr/Scheffer, Maschinelles Lernen II Bayessche Vorhersage y* arg max y p( y | x, L, X , 2 , 2 ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten y, gegeben beobachtete Knoten y1,…, yN ? 25 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Sawade/Landwehr/Scheffer, Maschinelles Lernen II 26 Problemstellung Inferenz Gegeben Bayessches Netz über Menge von ZV {X1,…,XN }. Problemstellung Inferenz: Variablen mit Evidenz X i ,..., X i 1 m Anfrage-Variable X a Sawade/Landwehr/Scheffer, Maschinelles Lernen II {i1 ,..., im } {1,..., N} a {1,..., N} {i1 ,..., im} Berechne Randverteilung über Anfrage-Variable gegeben Evidenz Bedingte Verteilung über ZV X a Evidenz: beobachtete Werte für ZV X i1 ,..., X im Berechne p( xa | xi1 ,..., xim ) 27 Exakte Inferenz: Naiv Sawade/Landwehr/Scheffer, Maschinelles Lernen II Naive Inferenz: Notation :{ X 1 ,..., X N } { X a , X i1 ,..., X im , X j1 ,..., X jk } Anfrage- Evidenz-Variablen restliche Variablen Variable p( xa | xi1 ,..., xim ) p( xa , xi1 ,..., xim ) p( xi1 ,..., xim ) 1 p( xa , xi1 ,..., xim ) Z 1 p( x1 ,..., xN ) Z x j1 x j2 x jk Zentrales Problem: Aussummieren aller restlichen Variablen (exponentiell, wenn naiv gelöst) 28 Graphische Modelle: Inferenz Inferenz schwieriges Problem Sawade/Landwehr/Scheffer, Maschinelles Lernen II Allgemeine Graphische Modelle: exakte Inferenz NP-hart Es gibt Algorithmen für exakte Inferenz in Graphischen Modellen, deren Laufzeit von den Eigenschaften der Graphstruktur abhängt („Message-Passing“) Es gibt verschiedene Techniken für approximative Inferenz (Sampling, Variational Inference, Expectation Propagation) Wir betrachten Message-Passing Algorithmus: in Spezialfällen Sampling-basierte approximative Inferenz 29 Effiziente exakte Inferenzmethoden? Sawade/Landwehr/Scheffer, Maschinelles Lernen II Idee „Message Passing“: Lokale Berechnungen, die entlang der Graphstruktur propagiert werden Knoten schicken sich gegenseitig „Nachrichten“, die Ergebnisse von Teilberechnungen enthalten 30 Graphische Modelle: Inferenz auf linearer Kette Sawade/Landwehr/Scheffer, Maschinelles Lernen II Wir betrachten zunächst Spezialfall mit besonders einfacher Struktur: lineare Kette von Zufallsvariablen x1 x2 p ( x1 ) p ( x2 |x1 ) x3 p ( x3|x2 ) … x4 p ( xN |xN 1 ) p( x1 ,..., xN ) 1,2 ( x1 , x2 ) 2,3 ( x2 , x3 ) ... N 1, N ( xN , xN 1 ) Darstellung der gemeinsamen Verteilung als Produkt von Potenzialen i ,i 1 ( xi , xi 1 ) über je zwei ZV 31 „Message Passing“ Algorithmus Sawade/Landwehr/Scheffer, Maschinelles Lernen II Austausch von „Alpha“ Nachrichten von links nach rechts ( x1 ) 1 Für k 2,..., a: ( xk ) k 1,k ( xk 1, xk ) ( xk 1 ) xk 1 ( x2 ) ( xa 1 ) ( xa ) xa Anschauung: wir summieren Knoten xk 1 aus, und schicken das Ergebnis weiter an Knoten xk 32 „Message Passing“ Algorithmus Sawade/Landwehr/Scheffer, Maschinelles Lernen II Austausch von „Beta“ Nachrichten von rechts nach links ( xN ) 1 Für k N -1,..., a: ( xk ) k ,k 1 ( xk , xk 1 ) ( xk 1 ) xk 1 ( xa ) ( xa 1 ) ( xN 1 ) xa Anschauung: wir summieren Knoten xk 1 aus, und schicken das Ergebnis weiter an Knoten xk 33 „Message Passing“ Algorithmus Sawade/Landwehr/Scheffer, Maschinelles Lernen II Nachrichten treffen sich im Anfrageknoten xa ( x2 ) ( xa 1 ) ( xa ) ( xa ) ( xa 1 ) ( xN 1 ) xa Randverteilung ohne Evidenz ergibt sich als Produkt der Nachrichten p( xa ) ( xa ) ( xa ) 34 „Message Passing“ mit Evidenz Evidenz: Leichte Modifikation des Message-Passing Algorithmus Falls xk+1 unbeobachtet ist, summieren wir diesen Knoten aus k 1{i1 , ..., im } ( xk ) k ,k 1 ( xk , xk 1 ) ( xk 1 ) xk 1 Falls xk+1 beobachtet ist, verwenden wir nur den entsprechenden Summanden x k 1 beobachteter Wert (Evidenz) k 1{i1 ,..., im} ( xk ) k ,k 1 ( xk , xk 1 ) ( xk 1 ) 35 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Inferenz: Message-Passing Sawade/Landwehr/Scheffer, Maschinelles Lernen II Laufzeit: Berechnung einer Nachricht: xk : ( xk ) k ,k 1 ( xk , xk 1 ) ( xk 1 ) xk 1 O( K 2 ) für Berechnung einer Nachricht (K diskrete Zustände) N Nachrichten insgesamt O( NK 2 ) Gesamtlaufzeit Viel besser als naive Inferenz mit O( K N ) 36 Inferenz in Allgemeinen Graphen Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum) Ursprünglicher Graph x1 x Faktor-Graph 2 x4 x3 x5 Gemeinsame Verteilung p( x1 , x2 , x3 , x4 , x5 ) p( x1 ) p( x2 ) p( x3 | x1 , x2 ) p( x4 ) p( x5 | x3 , x4 ) Faktor Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen 37 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Inferenz in Allgemeinen Graphen (Skizze) Falls der ursprüngliche Graph ein Polytree war, ist der FaktorGraph ein ungerichteter Baum (dh zykelfrei). Spezialfall lineare Kette Blätter xa Sawade/Landwehr/Scheffer, Maschinelles Lernen II xa Betrachten Anfragevariable xa als Wurzel des Baumes Nachrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum) Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und Variablen-Nachrichten 38 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approximativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht exakt x1 x2 x3 „Loopy Belief Propagation“ x4 p(x) p( x1 ) p( x2 | x1 ) p( x3 | x1 ) p( x4 | x2 , x3 ) Alternative für exakte Inferenz in allgemeinen Graphen: Graph in einen äquivalenten azyklischen Graphen umwandeln „Junction Tree“ Algorithmus, (i.A. exponentielle Laufzeit) 39 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Approximative Inferenz Exakte Inferenz NP-hart: In der Praxis spielen approximative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Sawade/Landwehr/Scheffer, Maschinelles Lernen II Relativ einfach zu verstehen/implementieren Praktisch brauchbar 40 Inferenz: Sampling-basiert Sawade/Landwehr/Scheffer, Maschinelles Lernen II Grundidee Sampling: Wir interessieren uns für eine Verteilung p(z ) , z.B. bedingte Verteilung über Anfragevariablen in graphischem Modell) Es ist schwierig, p(z ) direkt auszurechnen Stattdessen ziehen wir „Samples“ (Stichproben) z ( k ) ~ p( z ) i.i.d., k 1,..., K , jedes Sample z ( k ) ist eine vollständige Belegung der Zufallsvariablen in z Die Samples z (1) , z (2) ,..., z ( K ) approximieren die Verteilung 41 Inferenz: Sampling-basiert Sawade/Landwehr/Scheffer, Maschinelles Lernen II Beispiel: Eindimensionale Verteilung, z {z} Diskrete Variable mit Zuständen {0,…,6}: Anzahl „Kopf“ bei 6 Münzwürfen Sample-Histogramm Echte Verteilung (Binomial) Anteil K Samples mit Wert z z 42 Inferenz: Sampling-basiert Wie erhalten wir Samples aus der gesuchten Verteilung p(z ) ? Markov Chain Monte Carlo: Klasse von SamplingVerfahren, die in der Praxis oft effizientes Samplen ermöglichen Sawade/Landwehr/Scheffer, Maschinelles Lernen II z 43 Inferenz: MCMC Sawade/Landwehr/Scheffer, Maschinelles Lernen II Markov Chain Monte Carlo („MCMC“) Idee: Strategie: Konstruiere Folge von Samples z (0) z (1) z (2) z (3) z (4) z(5) ... z (0) zufällig initialisiert z (t 1) update(zt ) durch mehrfache probabilistische Update-Schritte Wenn Updates geeignet gewählt, gilt asymptotisch z (T ) ~ p ( z ) ungefähr, für sehr grosse T ZV: T-te Variablenbelegung 44 Inferenz: Gibbs Sampling Sawade/Landwehr/Scheffer, Maschinelles Lernen II Gibbs Sampling: Eine Version von MCMC Lokales Ziehen einer ZV gegeben den Zustand aller anderen Variablen Gegeben aktueller Zustand x ( x1 ,..., xN ) Ziehen des neuen Zustands x ' ( x1 ',..., xN ') : Bisher gesampelte (alte) Werte x1 ' ~ p( x1 | x2 ,..., xN ) x2 ' ~ p( x2 | x1 ', x3 , ..., xN ) x3 ' ~ p( x3 | x1 ', x2 ', x4 , ..., xN ) ... xN ' ~ p( xN | x1 ', x2 ', ..., xN 1 ') 45 Gibbs-Sampling mit Evidenz Gibbs Sampling kann einfach Evidenz berücksichtigen Sawade/Landwehr/Scheffer, Maschinelles Lernen II Mit Evidenz: Nur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert gesetzt Satz: Falls p( xn | x1, x2 ,..., xn1, xn1,..., xN 1 ) 0 für alle n und alle möglichen Zustände xi , dann folgen die generierten Samples asymptotisch der gesuchten Verteilung 46 Hidden Markov Modelle Sawade/Landwehr/Scheffer, Maschinelles Lernen II Hidden Markov Modelle für sequentielle Daten Probabilistischer Automat: Versteckte Zustände, Beobachtungen Zustände (versteckt) q1 q2 q3 q4 … Beobachtungen O1 O2 O3 O4 … 47 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 48 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse I Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Sawade/Landwehr/Scheffer, Maschinelles Lernen II 50 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Sawade/Landwehr/Scheffer, Maschinelles Lernen II Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in „Cluster“ 51 Problemstellung Clustering (Deterministisch) Problemstellung k-Means: Gesucht sind Zuweisung der Daten zu Clustern: K k 1,..., K Clusterzentren 1 ,..., K , K-Means Algorithmus: abwechselnde Neuberechnung von Clusterzentren und Clusterzugehörigkeiten 52 Sawade/Landwehr/Scheffer, Maschinelles Lernen II K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 53 K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 54 K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 55 K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 56 K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 57 K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 58 K-Means: Beispiel K = 2 Sawade/Landwehr/Scheffer, Maschinelles Lernen II 59 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Sawade/Landwehr/Scheffer, Maschinelles Lernen II 60 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess zur Erzeugung der Daten Cluster wählen, anschliessend Datenpunkt generieren versteckt p(z, x) p(z) p(x | z) beobachtet Wähle Clusterkomponente Sawade/Landwehr/Scheffer, Maschinelles Lernen II Generiere Daten aus Komponente 61 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung über Clusterkomponenten: Multinomialverteilung Verteilung der Daten in einem Cluster k: normalverteilt Clusterzentrum p(x | zk 1) (x | k , k ) Clusterkovarianz 1 1 exp ( x k )T k 1 (x k ) Z 2 Normalisierer Z 2 D /2 | |1/2 Beispiel D=2: Dichte, Samples aus Verteilung 62 Sawade/Landwehr/Scheffer, Maschinelles Lernen II EM Algorithmus Betrachte Q-Funktion Sawade/Landwehr/Scheffer, Maschinelles Lernen II Clustern = Anpassen des Modells an Daten (Maximum Likelihood) Iteratives Verfahren EM: bestimme Parameter 1 , 2 , 3 ,... Parameterwert im letzten Schritt Erwartungswert über p(Z | X , ) Beginne mit zufälligem 1 . Iteriere: Expectation: Maximization: 63 Beispiel Gaußsches Mischmodell Clustering Sawade/Landwehr/Scheffer, Maschinelles Lernen II 64 Beispiel Gaußsches Mischmodell Clustering Sawade/Landwehr/Scheffer, Maschinelles Lernen II 65 Beispiel Gaußsches Mischmodell Clustering Sawade/Landwehr/Scheffer, Maschinelles Lernen II 66 Beispiel Gaußsches Mischmodell Clustering Sawade/Landwehr/Scheffer, Maschinelles Lernen II 67 Beispiel Gaußsches Mischmodell Clustering Sawade/Landwehr/Scheffer, Maschinelles Lernen II 68 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Zusammenfassung Christoph Sawade/Niels Landwehr Tobias Scheffer Überblick Clusterverfahren III Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Sawade/Landwehr/Scheffer, Maschinelles Lernen II Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-Wert Vorzeichen-, Wald-, t- und Pearsons –Test 2 Überblick Clusterverfahren III Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Sawade/Landwehr/Scheffer, Maschinelles Lernen II Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-Wert Vorzeichen-, Wald-, t- und Pearsons –Test 3 Graphen-basiertes Clustern Ähnlichkeitsgraph Sawade/Landwehr/Scheffer, Maschinelles Lernen II Ähnlichkeit zwischen Datenpunkten V (Knoten) bilden gewichtete Kanten: 4 Spectral-Clustering (unnormalisiert) Relaxation Sawade/Landwehr/Scheffer, Maschinelles Lernen II NP-hart RatioCut min f T Lf , wobei PV n n i 1 i 1 2 f 0, f i i n Eigenwertproblem (Unnormalisiertes) Spectral-Clustering n n T minn f Lf , wobei fi 0, fi2 n f Diskretisierung: i 1 i 1 sign(fi ) 5 Überblick Clusterverfahren III Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Sawade/Landwehr/Scheffer, Maschinelles Lernen II Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-Wert Vorzeichen-, Wald-, t- und Pearsons –Test 6 PCA Beispiel Repräsentation von Digits als m m -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature Aussagelos sind oder sich aus anderen ergeben Ziel: Reduktion auf d -dimensionalen Hauptunterraum 7 Sawade/Landwehr/Scheffer, Maschinelles Lernen II PCA Projektion Eine Projektion ist eine idempotente lineare Abbildung Sei u1 mit u u 1 y1 x u1T x stellt Projektion in einen eindimensionalen Unterraum dar m T 1 1 x xi y1 x i u1T x y1 x Für Daten im Projektionsraum gilt: y1 x u1T x Mittelpunkt: 1 n T T Varianz: u1 x i u1 x n i 1 2 u1Tu1 8 Sawade/Landwehr/Scheffer, Maschinelles Lernen II PCA Optimierungsproblem Ziel: Varianz der projizierten Daten u1T u1 soll nicht verloren gehen Maximiere u1T u1 bzgl. u1 , wobei u1T u1 1 T T Lagrangian:u1 u1 1 1 u1 u1 Ableiten, Nullsetzen: u1 1u1 … Lösung muss Eigenvektor sein u1Tu1 1 … Varianz ist entsprechender Eigenwert Bestimmung des größten Eigenwert Sawade/Landwehr/Scheffer, Maschinelles Lernen II Größter Eigenvektor ist erste Hauptkomponente 9 Fisher-Diskriminante Original Space PCA Subspace Fisher Subpace 30 30 0.15 20 20 0.1 X T u PC A 10 X T u FIS 10 x x x 2 0 2 0 2 0 0.05 -10 -10 -0.05 -20 -20 -0.1 -30 -30 -0.15 -40 -5 -4 -3 -2 -1 0 x1 1 2 3 4 5 -40 -1 -0.5 0 x1 0.5 1 u PCA PCA u PCA -0.2 -1 -0.5 0 x1 0.5 1 b u FIS FIS w u FIS 10 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Durch die PCA induzierter Unterraum erhält maximale Varianz der gesamten Daten Nicht das richtige Kriterium für Klassifikation… Überblick Clusterverfahren III Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Sawade/Landwehr/Scheffer, Maschinelles Lernen II Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-Wert Vorzeichen-, Wald-, t- und Pearsons –Test 11 Bayes-Point Herleitung Mitteln der Vorhersage über alle (linearen) Modelle mit ineffiziente der Gewichtung wie gut ein Modell zu Klassifikation den Daten passt: h*PAC x sign wVS sign w, x p w dw Approximation der Bayes-Hypothese durch den BayesPunkt h *PAC x sign wVS w, x p w dw sign w cm , x Sawade/Landwehr/Scheffer, Maschinelles Lernen II w cm wVS wp w | L dw ist der Masseschwerpunkt des Version-Space 12 Billiard-Algorithmus Duale Darstellung v i xi i vi xi Sawade/Landwehr/Scheffer, Maschinelles Lernen II di yi x i , w 0 xi di v w0 w0 i v' w1 i wi vi pi w i w i 1 2 w0 i w i 1 13 Überblick Clusterverfahren III Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Sawade/Landwehr/Scheffer, Maschinelles Lernen II Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-Wert Vorzeichen-, Wald-, t- und Pearsons –Test 14 Konfidenzintervalle Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells? R f Sawade/Landwehr/Scheffer, Maschinelles Lernen II y, f (x) p x, y dxdy Da p x, y unbekannt ist, muss es aus Daten geschätzt werden, z.B.: n 1 Rˆ f yi , f (xi ) , wobei yi , xi ~ p y, x n i 1 Was sagt R̂ f über R f aus? 15 Konfidenzintervalle Punktschätzer R̂ f sagt nichts über die Unsicherheit der Schätzung (Schätzfehler) aus. Sawade/Landwehr/Scheffer, Maschinelles Lernen II Idee: Intervall um den geschätzten Fehler angeben, so dass der echte Fehler „meistens“ im Intervall liegt Ein zweiseitiges Konfidenzintervall C L ,U mit Konfidenz 1 gibt an, dass R C mit Wahrscheinlichkeit 1 gilt. Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable [ ] R Rˆ 16 Konfidenzintervalle Übergang von der Verteilung zum Konfidenzintervall: Schätzer ist binomialverteilt (Clopper-Pearson): CCP 1 Beta 1 | n k , k 1 , Beta 1 1 | n k 1, k 2 2 Schätzer ist annähernd normalverteilt (Wald): CWald k 1 n n 2 n R̂ f R̂ f R R Experimente Experimente 17 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Statistische Tests Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? R f1 R f 2 Da p x, y unbekannt ist, müssen Risiken aus Daten geschätzt werden. n 1 Rˆ f yi , f (xi ) , wobei yi , xi ~ p y, x n i 1 Was sagt der beobachtete Unterschied Rˆ f1 Rˆ f 2 über R f1 R f 2 aus? 18 Sawade/Landwehr/Scheffer, Maschinelles Lernen II Statistische Tests Nullhypothese: Aussage, von der wir bis auf weiteres ausgehen, die wir aber überprüfen möchten und zu widerlegen bereit sind. Bedingung für einen statistischen Test: Sawade/Landwehr/Scheffer, Maschinelles Lernen II Wenn die Nullhypothese gilt, dann darf sie nur mit einer Wahrscheinlichkeit von höchstens abgelehnt werden. Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. 19 Statistische Tests Sawade/Landwehr/Scheffer, Maschinelles Lernen II Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. c T 20 p-Wert Sawade/Landwehr/Scheffer, Maschinelles Lernen II p-Wert: kleinste Signifikanz-Niveau , für das die Nullhypothese abgelehnt wird T x c T 21 Dualität Ein Test mit Signifikanzniveau verwirft die Nullhypothese h 0 : 0 , genau dann nicht, wenn 0 innerhalb des 1 -Vertrauensintervalls liegt. 22 Sawade/Landwehr/Scheffer, Maschinelles Lernen II