Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Zusammenfassung Uwe Dick/Peter Haider/Niels Landwehr/Blaine Nelson/Christoph Sawade Tobias Scheffer Maschinelles Lernen II Part 1: Uwe Dick ZUSAMMENFASSUNG: REINFORCEMENT LEARNING 2 Lernen aus Interaktionen Maschinelles Lernen II Umgebung •Reward •Beobachtu ng Aktionen Agent Controller Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : Zustandsmenge A : Aktionsmenge P : Übergangswahrscheinlichkeiten: Markov R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn: Markov Discount factor . Maschinelles Lernen II MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren. Maschinelles Lernen II Value Functions und BellmanGleichungen Value function V¼(s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Bellman-Gleichung: Maschinelles Lernen II Policy Iteration Allgemeines Verfahren zum Bestimmen der optimalen Policy. Iteriere: Policy Evaluation: Gegeben Policy ¼k, bestimme Policy Improvement: Inferiere verbesserte Policy ¼k+1 aus z.B. greedy Policy: Maschinelles Lernen II Policy Evaluation Monte-Carlo Methoden: Simulieren bzw. Samplen von Trajektorien. Mitteln der beobachteten kumulativen Gewinne. Iteratives Verfahren: TD(0) Für V¼ bzw. Q¼ Konvergiert gegen V¼ bzw. Q¼ für k→1 Maschinelles Lernen II Value Iteration für Q* : Konvergiert gegen V* bzw. Q* für k→1 Maschinelles Lernen II Value Iteration für das Kontrollproblem. Für V *: TD(¸) Maschinelles Lernen II Updateregel: TD(¸) Update: 0·¸·1 interpoliert zwischen 1-step und MC. Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V¼, bzw. Q¼ am besten approximiert wird. Maschinelles Lernen II Bellman-Residuen-Minimierung—Residual Gradient Temporal Difference Methode. Bellman-Gleichung als Fixpunkt-Gleichung. Linke Seite als Fehler interpretieren: Bellman Residuum. ¹ stationäre Verteilung von Zuständen. Empirisch: Maschinelles Lernen II Least-Squares Temporal Difference Q ist aus Funktionsraum F. T¼Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T¼Q auf F. LSTD oft bessere Ergebnisse als Residual Gradient. Maschinelles Lernen II TD(0) und Gradientenabstieg Update-Regel für TD(0): θt +1 = θt + α t R( st , at ) + γ Qˆ ( st +1 , at +1 ;θ ) − Qˆ ( st , at ;θ ) ∇θ Qˆ ( st , at ;θt ) Spezialfall lineare Funktionsapproximation θt +1 = θt + α t R( st , at ) + γφ T ( st +1 , at +1 )θt − φ T ( st , at )θt φ ( st , at ) TD(0) leider kein echter Gradient. Idee: Verwende anderes Optimierungskriterium. E[δ t (θ )φt ]T E[δ t (θ )φt ] Maschinelles Lernen II Policy Gradient Lernen einer stochastischen Policy. Die Policy wird explizit repräsentiert, z.B. als Gibbs Verteilung Lerne , so dass minimiert wird Idee: (stochastische) Gradientenmethode Maschinelles Lernen II Maschinelles Lernen II Part 2: Peter Haider ZUSAMMENFASSUNG: RECOMMENDATION 16 Recommendation Maschinelles Lernen II Empfehlung von Produkten, Informationen, Personen, Musik, … Ziel: Rausfilterung von unwichtigen / unerwünschten / unsympathischen Optionen; Finden von wichtigen / gefallenden / beliebten Optionen Basierend auf Transaktionen aus der Vergangenheit: Käufe, Bewertungen, Klicks, … Nutzerspezifisch: Keine globale Sortierung der Optionen, sondern persönliche Empfehlung 17 Inhaltsbasierte Recommendation Featureabbildung φ: X → Rd notwendig Unabhängige Lernprobleme: Maschinelles Lernen II Normale Regressions- oder Klassifikationsformalisierung Gemeinsames Lernproblem: Verteilung der Gewichtsvektoren um gemeinsamen, gleichzeitig gelernten, Mittelpunkt 18 Kollaborative Recommendation Keine Featureabbildung nötig. K-Nearest-Neighbor: Maschinelles Lernen II Vorhersage berechnet sich als gewichtetes Mittel der Bewertungen der ähnlichsten Nutzer Latente Features: Gleichzeitiges Lernen von versteckten „Geschmacks“-Featurevektoren von Benutzern und Objekten 19 Maschinelles Lernen II Part 3: Niels Landwehr ZUSAMMENFASSUNG: GRAPHISCHE MODELLE 20 Graphische Modelle Maschinelles Lernen II Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten 21 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Maschinelles Lernen II 22 Graphische Modelle: Einführung am Beispiel Beispiel: „Alarm“ Szenario Maschinelles Lernen II Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B Burglary – Einbruch hat stattgefunden E Earthquake – Erdbeben hat stattgefunden A Alarm – Alarmanlage geht los N NeighborCalls – Nachbar ruft an R RadioReport – Bericht über Erdbeben im Radio 23 Graphische Modelle: Einführung am Beispiel Maschinelles Lernen II Ziel: Repräsentation der gemeinsamen Verteilung p(B,E,A,N,R) Wähle Variablenordnung: z.B. B<E<A<N<R Produktregel: p ( B, E , A, N , R) = p ( B, E , A, N ) p ( R | B, E , A, N ) = p ( B, E , A) p ( N | B, E , A) p ( R | B, E , A, N ) = p ( B, E ) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N ) = p ( B) p ( E | B ) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N ) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. 24 Graphische Modelle: Einführung am Beispiel Maschinelles Lernen II p ( B, E , A, N , R) = p ( B) p ( E | B) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N ) Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen p( E | B) = p( E ) p ( A | B, E ) = p ( A | B, E ) p ( N | B, E , A) = p ( N | A) p ( R | B, E , A, N ) = p( R | E ) Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von Nachbar hängt nur von Alarm ab Nachricht im Radio hängt nur von Erdbeben ab p ( B, E , A, N , R) = p ( B) p ( E ) p ( A | E , B) p ( N | A) p ( R | E ) Vereinfachte Darstellung der gemeinsamen Verteilung: Vereinfachte Faktoren 25 Graphische Modelle: Einführung am Beispiel P(B=1) P(E=1) 0.1 0.2 B B E P(A=1|B,E) 0 0 0.01 0 1 0.5 1 0 0.9 1 1 0.95 Modellierte Verteilung: p ( B, E , A, N , R) = p ( B) p ( E ) p ( A | E , B) p ( N | A) p ( R | E ) E A E P(R=1|E) 0 0.01 1 0.5 R Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X | X 1 ,..., X k ) N A P(N=1|A) 0 0.1 1 0.7 fügen wir gerichtete Kanten von den X i zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen p( X | X 1 ,..., X k ) 26 Maschinelles Lernen II Graphisches Modell für „Alarm“ Szenario Graphische Modelle: Unabhängigkeit Die Graphstruktur impliziert Unabhängigkeiten zwischen Mengen von ZV „D-separation“ Kriterium, um Unabhängigkeiten aus Graphstruktur abzulesen Maschinelles Lernen II A,B unabhängig gegeben C gdw jeder Pfad von Knoten in A zu Knoten in B blockiert ist gegeben C Menge einfacher Regeln, wann Pfade blockiert sind 27 Divergierende Verbindungen B Maschinelles Lernen II Divergierende Verbindung E A R B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ N Α ⊥ R|∅ Betrachte Pfad A←E→R. Gilt ? Nein, p( A | R) ≠ p ( A) RadioReport ⇒ wahrscheinlich Erdbeben ⇒ wahrscheinlich Alarm ZV R beeinflusst ZV A über die divergierende Verbindung R ← E → A 28 Divergierende Verbindungen B E A R N B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ beobachteter Knoten Α⊥ R|E Betrachte Pfad A←E→R. Gilt Maschinelles Lernen II Divergierende Verbindung ? Ja, p( A | R) = p( A) Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende Pfad R ← E → A wird durch Beobachtung von E blockiert 29 Serielle Verbindungen Maschinelles Lernen II B E A B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ R N=„Nachbar ruft an“ R=„Radio Bericht“ Serielle Verbindung N Β ⊥ Ν|∅ Betrachte Pfad N ← A ← B. Gilt Nein, p ( B | N ) ≠ p ( B) ? [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: NeighborCalls ⇒ wahrscheinlich Alarm ⇒ wahrscheinlich Burglary p ( B = 1| N = 1) > p ( B = 1| N = 0) ZV N beeinflusst ZV B über den seriellen Pfad N ← A ← B 30 Serielle Verbindungen E A R Serielle Verbindung N B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ Ja, p ( B | N , A) = p ( B | A) N=„Nachbar ruft an“ R=„Radio Bericht“ beobachteter Knoten Β⊥Ν| A Betrachte Pfad N ← A ← B. Gilt Maschinelles Lernen II B ? [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft Der serielle Pfad N ← A ← B wird durch Beobachtung von A blockiert. 31 Konvergierende Verbindung B E A B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ Maschinelles Lernen II Konvergierende Verbindung N=„Nachbar ruft an“ R=„Radio Bericht“ R N Β ⊥ Ε|∅ Betrachte Pfad B → A ← E. Gilt ? Ja, p ( B | E ) = p( B) Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben Der konvergierende Pfad B → A ← E ist blockiert wenn A nicht beobachtet ist 32 Konvergierende Verbindung B E A N B=„Einbruch“ E=„Erdbeben“ A=„Alarm“ N=„Nachbar ruft an“ R=„Radio Bericht“ R beobachteter Knoten Β ⊥Ε| A Betrachte Pfad B → A ← E. Gilt Maschinelles Lernen II Konvergierende Verbindung ? Nein, p( B | E ) ≠ p( B) Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B → A ← E wird freigegeben durch Beobachtung von A 33 D-Separation: Korrektheit, Vollständigkeit Maschinelles Lernen II Gegeben ein graphisches Modell über {X1,…,XN} mit Graphstruktur G. Das GM modelliert eine Verteilung durch N p ( X 1 ,..., X N ) = ∏ p ( X i | pa ( X i )) i =1 abhängig von den bedingten Verteilungenp( X n | pa( X n )) . Theorem (Korrektheit, Vollständigkeit d-separation) ( A | B, C ) = p ( A | C ) Falls A,B d-separiert gegeben C in G, pdann Es gibt keine anderen Unabhängigkeiten, die für jede p ( X i | pa ( X i )) Wahl der bedingten Verteilungen gelten. 34 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Maschinelles Lernen II 35 Münzwürfe als graphisches Modell Maschinelles Lernen II X 1 ,..., X N Münzwurf: N Bernoulli-verteilte Zufallsvariablen µ Parameter , Beta-Prior N pα k ,α z ( X 1 ,..., = X N , µ ) pα k ,α z ( µ ) ∏ p ( X i | µ ) i =1 Prior Likelihood Darstellung als graphisches Modell: µ pa ( µ ) = ∅ pa ( X i ) = {µ} … X1 X2 X3 … XN 36 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Münzwurf µ = arg max µ pα k ,α z ( µ | x1 ,..., xN ) Inferenzproblem: pα k ,α z ( µ ) Maschinelles Lernen II µ … p( X | µ ) X 1 X2 X3 … XN p( X | µ ) Evidenz auf den Knoten X1,…, XN Wahrscheinlichster Zustand des Knotens μ gegeben X1,…, XN 37 Plate-Modelle Plate Notation µ µ … X2 X1 Maschinelles Lernen II X3 Plate Notation … Plate XN Xi N Ein „Plate“ ist eine abkürzende Notation für N Variablen der gleichen Form Bezeichnet mit Anzahl der Variablen, N Variablen haben Index (z.B. Xi ). 38 Erinnerung: Bayessche Lineare Regression Maschinelles Lernen II Diskriminatives Setting: xi fest, Verteilung über Label yi Lineares Modell plus Gaußsches y Rauschen p ( y | x,= w ) w T x + N ( y | 0, σ 2 ) wT x x Bayessches Setting: Prior auf Parametervektor 2 2 p (w | τ ) = N (w | 0,τ I ) w, y1 ,..., y N x1 ,..., x N , σ ,τ 39 Bayessche Lineare Regression als Graphisches Modell p ( y1 , ..., yN , w | x1 ,..., x N , σ ,τ ) = p (w | τ ) ∏ p ( yi | xi , w, σ 2 ) i =1 Prior 2 2 Likelihood Graphisches Modell, N=3 τ Graphisches Modell, Plate-Notation τ w σ w σ yi y1 y2 y3 xi x1 x2 N x3 40 Maschinelles Lernen II N 2 MAP Parameterschätzung als Inferenzproblem τ w Maschinelles Lernen II τ σ w σ yn y1 y2 y3 xn x1 x2 N x3 MAP Parameterschätzung: wahrscheinlichstes Modell gegeben Daten w * = arg max w p (w | y1 ,..., y N , x1 ,..., x N , σ 2 ,τ 2 ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten w, gegeben beobachtete Knoten y1,…, yN ? 41 Bayes-optimale Vorhersage Klassifikation mit MAP Modell: w * = arg max w p (w | L, X , σ 2 ,τ 2 ) y* = arg max y p ( y | x, w * , σ 2 ) X = ( x1 ... x N ) Merkmalsvektoren = w *T x Statt MAP Modell kann man auch direkt die Bayes‘sche Vorhersageverteilung ausrechnen: p ( y | x, L, X , σ 2 ,τ 2 ) = ∫ p ( y | x, w, σ 2 ) p (w | L, X , σ 2 ,τ 2 )dw Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen 42 Maschinelles Lernen II Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage: Erweiterung des Modells durch neue Testinstanz (neue Zufallsvariable y) N p ( y1 ,..., yN , y, w | x1 ,..., x N , x, σ ,τ ) = p (w | τ ) ∏ p ( yi | w, xi , σ 2 ) p ( y | w, x, σ 2 ) i =1 2 2 2 Graphisches Modell, N=3 τ w y1 x1 y2 x2 τ σ x σ w yn y y3 x3 Plate Notation xn y N x 43 Maschinelles Lernen II Bayessche Lineare Regression als Graphisches Modell Maschinelles Lernen II Bayessche Vorhersage y* = arg max y p ( y | x, L, X , σ 2 ,τ 2 ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten y, gegeben beobachtete Knoten y1,…, yN ? 44 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Maschinelles Lernen II 45 Problemstellung Inferenz Gegeben Bayessches Netz über Menge von ZV {X1,…,XN }. Problemstellung Inferenz: {i1 ,..., im } ⊆ {1,..., N } a ∈ {1,..., N } {i1 ,..., im } Variablen mit EvidenzX i ,..., X i Anfrage-VariableX a Berechne Randverteilung über Anfrage-Variable gegeben Evidenz 1 Bedingte Verteilung über ZV X a m Maschinelles Lernen II Evidenz: beobachtete Werte für ZV X i1 ,..., X im Berechne p( xa | xi1 ,..., xim ) 46 Exakte Inferenz: Naiv Maschinelles Lernen II Naive Inferenz: Notation :{ X 1 ,..., X N } = { X a , X i1 ,..., X im , X j1 ,..., X jk } AnfrageVariable p ( xa | xi1 ,..., xim ) = Evidenz-Variablen restliche Variablen p ( xa , xi1 ,..., xim ) p ( xi1 ,..., xim ) 1 p ( xa , xi1 ,..., xim ) Z 1 = ⋅⋅⋅∑ p ( x1 ,..., xN ) ∑∑ Z x j1 x j2 x jk = Zentrales Problem: Aussummieren aller restlichen Variablen (exponentiell, wenn naiv gelöst) 47 Graphische Modelle: Inferenz Inferenz schwieriges Problem Maschinelles Lernen II Allgemeine Graphische Modelle: exakte Inferenz NPhart Es gibt Algorithmen für exakte Inferenz in Graphischen Modellen, deren Laufzeit von den Eigenschaften der Graphstruktur abhängt („Message-Passing“) Es gibt verschiedene Techniken für approximative Inferenz (Sampling, Variational Inference, Expectation Propagation) Wir betrachten Message-Passing Algorithmus: in Spezialfällen Sampling-basierte approximative Inferenz 48 Effiziente exakte Inferenzmethoden? Maschinelles Lernen II Idee „Message Passing“: Lokale Berechnungen, die entlang der Graphstruktur propagiert werden Knoten schicken sich gegenseitig „Nachrichten“, die Ergebnisse von Teilberechnungen enthalten 49 Graphische Modelle: Inferenz auf linearer Kette Maschinelles Lernen II Wir betrachten zunächst Spezialfall mit besonders einfacher Struktur: lineare Kette von Zufallsvariablen x1 x2 p ( x1 ) p ( x2 |x1 ) x3 p ( x |x ) … x4 p ( x |x ) 3 2 N −1 N = p ( x1 ,..., xN ) ψ 1,2 ( x1 , x2 ) ψ 2,3 ( x2 , x3 ) ⋅ ... ⋅ψ N −1, N ( xN , xN −1 ) Darstellung der gemeinsamen Verteilung als Produkt von Potenzialenψ i ,i +1 ( xi , xi +1 ) über je zwei ZV 50 „Message Passing“ Algorithmus Maschinelles Lernen II Austausch von „Alpha“ Nachrichten von links nach rechts µ (x ) = 1 α 1 = = Für k 2,..., a: µα ( xk ) ∑ψ k −1, k ( xk −1 , xk ) µα ( xk −1 ) xk −1 µα ( x2 ) µα ( xa −1 ) µα ( xa ) xa xk −1 xk Anschauung: wir summieren Knoten aus, und schicken das Ergebnis weiter an Knoten 51 „Message Passing“ Algorithmus Maschinelles Lernen II Austausch von „Beta“ Nachrichten von rechts nach links µ (x ) = 1 β N = Für k N= -1,..., a: µ β ( xk ) ∑ψ k , k +1 ( xk , xk +1 ) µ β ( xk +1 ) xk +1 µ β ( xa ) µ β ( xa +1 ) µ β ( xN −1 ) xa xk +1 xk Anschauung: wir summieren Knoten aus, und schicken das Ergebnis weiter an Knoten 52 „Message Passing“ Algorithmus Maschinelles Lernen II xa Nachrichten treffen sich im Anfrageknoten µα ( x2 ) µα ( xa −1 ) µα ( xa ) µ β ( xa ) µ β ( xa +1 ) µ β ( xN −1 ) xa Randverteilung ohne Evidenz ergibt sich als Produkt der Nachrichten p ( xa ) = µ β ( xa ) µα ( xa ) 53 „Message Passing“ mit Evidenz Maschinelles Lernen II Evidenz: Leichte Modifikation des MessagePassing Algorithmus Falls xk+1 unbeobachtet ist, summieren wir diesen Knoten aus k + 1 ∉ {i1 , ..., im } ⇒ µ β ( xk ) =∑ ψ k ,k +1 ( xk , xk +1 ) µ β ( xk +1 ) xk +1 Falls xk+1 beobachtet ist, verwenden wir nur den entsprechenden Summanden x k +1 beobachteter Wert (Evidenz) k + 1 ∈ {i1 ,..., im } ⇒ µ β ( xk ) = ψ k ,k +1 ( xk , xk +1 ) µ β ( xk +1 ) 54 Inferenz: Message-Passing Maschinelles Lernen II Laufzeit: Berechnung einer Nachricht: ∀ xk : µ β ( xk ) = ∑ ψ k ,k +1 ( xk , xk +1 )µβ ( xk +1 ) xk +1 ⇒ O( K 2 ) für Berechnung einer Nachricht (K diskrete Zustände) N Nachrichten insgesamt ⇒ O( NK 2 ) Gesamtlaufzeit O( K N ) Viel besser als naive Inferenz mit 55 Inferenz in Allgemeinen Graphen Maschinelles Lernen II Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum) Ursprünglicher Graph x1 x2 Faktor-Graph x3 x4 x5 Gemeinsame Verteilung p ( x1 , x2 , x3 , x4 , x5 ) = p( x1 ) p( x2 ) p ( x3 | x1 , x2 ) p ( x4 ) p ( x5 | x3 , x4 ) Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen Faktor 56 Inferenz in Allgemeinen Graphen (Skizze) Falls der ursprüngliche Graph ein Polytree war, ist der FaktorGraph ein ungerichteter Baum (dh zykelfrei). Spezialfall lineare Kette Blätter xa Maschinelles Lernen II xa xa Betrachten Anfragevariable als Wurzel des Baumes Nachrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum) Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und Variablen-Nachrichten 57 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approximativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht exakt x1 x2 x3 „Loopy Belief Propagation“ x4 p (x) = p ( x1 ) p ( x2 | x1 ) p ( x3 | x1 ) p ( x4 | x2 , x3 ) Alternative für exakte Inferenz in allgemeinen Graphen: Graph in einen äquivalenten azyklischen Graphen umwandeln „Junction Tree“ Algorithmus, (i.A. exponentielle Laufzeit) 58 Maschinelles Lernen II Approximative Inferenz Exakte Inferenz NP-hart: In der Praxis spielen approximative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Maschinelles Lernen II Relativ einfach zu verstehen/implementieren Praktisch brauchbar 59 Inferenz: Sampling-basiert Maschinelles Lernen II Grundidee Sampling: p(z ) Wir interessieren uns für eine Verteilung , z.B. bedingte Verteilung über Anfragevariablen in p(z ) graphischem Modell) Es ist schwierig, direkt auszurechnen (k ) z p(z ) wir „Samples“ i.i.d., k = 1,...,(Stichproben) K, Stattdessen ~ziehen z(k ) z jedes Sample ist eine vollständige Belegung der Zufallsvariablen in z (1) , z (2) ,..., z ( K ) Die Samples Verteilung approximieren die 60 Inferenz: Sampling-basiert Maschinelles Lernen II Beispiel: z = {z} Eindimensionale Verteilung, Diskrete Variable mit Zuständen {0,…,6}: Anzahl „Kopf“ bei 6 Münzwürfen Sample-Histogramm Anteil Samples Echte Verteilung (Binomial) K →∞ mit Wert z z 61 Inferenz: Sampling-basiert Maschinelles Lernen II Wie erhalten wir Samples aus der gesuchten p (Verteilung z) ? Markov Chain Monte Carlo: Klasse von SamplingVerfahren, die in der Praxis oft effizientes Samplen ermöglichen z 62 Inferenz: MCMC Maschinelles Lernen II Markov Chain Monte Carlo („MCMC“) Idee: Strategie: Konstruiere Folge von Samples z (0) → z (1) → z (2) → z (3) → z (4) → z (5) → ... z (0) zufällig initialisiert z (t +1) = update(z t ) durch mehrfache probabilistische Update-Schritte Wenn Updates geeignet gewählt, gilt asymptotisch z (T ) ~ p ( z ) ungefähr, für sehr grosse T ZV: T-te Variablenbelegung 63 Inferenz: Gibbs Sampling Maschinelles Lernen II Gibbs Sampling: Eine Version von MCMC Lokales Ziehen einer ZV gegeben den Zustand aller anderen Variablen x = ( x1 ,..., xN ) Gegeben aktueller Zustand x ' = ( x1 ',..., xN ') Ziehen des neuen Zustands : Bisher gesampelte (alte) Werte x1 ' ~ p ( x1 | x2 ,..., xN ) x2 ' ~ p ( x2 | x1 ', x3 , ..., xN ) x3 ' ~ p ( x3 | x1 ', x2 ', x4 , ..., xN ) ... xN ' ~ p ( xN | x1 ', x2 ', ..., xN −1 ') 64 Gibbs-Sampling mit Evidenz Gibbs Sampling kann einfach Evidenz berücksichtigen Maschinelles Lernen II Mit Evidenz: Nur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert p ( x | x , x , ..., xn−1 , xn+1 ,..., xN −1 ) ≠ 0 gesetzt n 1 2 Satz: Falls für alle n und alle möglichen Zustände xi , dann folgen die generierten Samples asymptotisch der gesuchten Verteilung 65 Hidden Markov Modelle Maschinelles Lernen II Hidden Markov Modelle für sequentielle Daten Probabilistischer Automat: Versteckte Zustände, Beobachtungen Zustände (versteckt) q1 q2 q3 q4 … Beobachtungen O1 O2 O3 O4 … 66 Maschinelles Lernen II Part 4: Niels Landwehr ZUSAMMENFASSUNG: CLUSTERANALYSE I 67 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Maschinelles Lernen II 68 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Maschinelles Lernen II Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in „Cluster“ 69 Problemstellung Clustering (Deterministisch) Problemstellung k-Means: Gesucht sind Zuweisung der Daten zu Clustern: µ1 ,..., µ K ∈ K , k= 1,..., K Clusterzentren K-Means Algorithmus: abwechselnde Neuberechnung von Clusterzentren und Clusterzugehörigkeiten 70 Maschinelles Lernen II K-Means: Beispiel K = 2 Maschinelles Lernen II 71 K-Means: Beispiel K = 2 Maschinelles Lernen II 72 K-Means: Beispiel K = 2 Maschinelles Lernen II 73 K-Means: Beispiel K = 2 Maschinelles Lernen II 74 K-Means: Beispiel K = 2 Maschinelles Lernen II 75 K-Means: Beispiel K = 2 Maschinelles Lernen II 76 K-Means: Beispiel K = 2 Maschinelles Lernen II 77 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Maschinelles Lernen II 78 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess zur Erzeugung der Daten Cluster wählen, anschliessend Datenpunkt generieren versteckt p ( z , x) = p ( z ) p ( x | z ) beobachtet Wähle Clusterkomponente Maschinelles Lernen II Generiere Daten aus Komponente 79 Probabilistisches Clustern: Gaußsches Mischmodell Maschinelles Lernen II Verteilung über Clusterkomponenten: Multinomialverteilung Verteilung der Daten in einem Cluster k: normalverteilt Clusterzentrum p (x | zk= 1)= (x | µk , Σ k ) = Clusterkovarianz 1 1 exp − (x − µk )T Σ k −1 (x − µk ) Z 2 Normalisierer Z = 2π D /2 | Σ |1/2 Beispiel D=2: Dichte, Samples aus Verteilung 80 EM Algorithmus Betrachte Q-Funktion Maschinelles Lernen II Clustern = Anpassen des Modells an Daten (Maximum Likelihood) Iteratives Verfahren EM: bestimme Parameter Θ1 , Θ 2 , Θ3 ,... Parameterwert im letzten Schritt Erwartungswert über p ( Z | X , Θ) Beginne mit zufälligem Θ1 . Iteriere: Expectation: Maximization: 81 Beispiel Gaußsches Mischmodell Clustering Maschinelles Lernen II 82 Beispiel Gaußsches Mischmodell Clustering Maschinelles Lernen II 83 Beispiel Gaußsches Mischmodell Clustering Maschinelles Lernen II 84 Beispiel Gaußsches Mischmodell Clustering Maschinelles Lernen II 85 Beispiel Gaußsches Mischmodell Clustering Maschinelles Lernen II 86 Maschinelles Lernen II Part 5: Christoph Sawade ZUSAMMENFASSUNG: CLUSTERANALYSE II 87 Überblick Hierarchische Clusterverfahren Graphen-basierte Clusterverfahren Maschinelles Lernen II 88 Clustern Gegeben: Maschinelles Lernen II Objekte V = {x1 ,..., x n } Distanzfunktion dist ( x i , x j ) ≥ 0 oder = w ij sim ( x i , x j ) ≥ 0 Ähnlichkeitsfunktion Erwartete Clusteranzahl k Ziel: Partition P1 ,...Pk , wobei Pi ∩ Pj = ∅, hoher intra-cluster-Ähnlichkeit niedriger inter-cluster-Ähnlichkeit P =V i mit… i =1...n 89 Optimales Clustering Maschinelles Lernen II Berechnung des globalen Optimum bzgl. inter- und intra-cluster-Ähnlichkeit ist nicht effizient Vgl. k-means: n k min r ∑∑ rij x i − µ j 2 =i 1 =j 1 Bestimmung eines lokalen Optimums EM-Algorithmus (siehe letzte VL) Heuristik (Hierarchisches Clustering) Relaxation (Spectral Clustering) 90 Hierarchisches Clustern Agnes (Algorithmus) Geg.: Objekte V , Inter-Cluster Metrik d 0 {{x} | ∀x ∈ V} Setze = Solange unterschiedliche Cluster existieren Maschinelles Lernen II berechne min. Distanz über alle C v , C w ∈ i −1 = min v,w d ( C v , C w ) ; Di min v,w d ( C v , C w ) ( s, t ) arg v s t Setze =i {C | ∀v ≠ s, t} ∪ {C ∪ C } Liefere 0 , 1 ,... zurück 91 Hierarchisches Clustern Diana (Algorithmus) Maschinelles Lernen II Geg.: Objekte V , Inter-Cluster Metrik d Setze 0 = {V} Solange mehr-elementige Cluster existieren Bestimme Cluster mit höchsten Durchmesser Bestimme unähnlichstes Element s = arg max v∈C d ( C, C {v} ) und setze C = {s} = D ( v ) d ( v, C C ) − d ( v, C ) Solange m ax v∈C C D ( v ) > 0 , wobei C = arg max C∈i−1 max s,t∈C d ( s, t ) t = arg m ax v∈C C D ( v ) C= C ∪ {t} i ( i −1 {C} Setze = )∪ CC ∪ C { } {} Liefere 0 , 1 ,... zurück 92 Graphen-basiertes Clustern Ähnlichkeitsgraph Maschinelles Lernen II Ähnlichkeit zwischen Datenpunkten V (Knoten) bilden gewichtete Kanten: Vollständiger Graph: Kantengewichte = Ähnlichkeit knn-Graph: Kante, wenn Knoten i (oder j) einer der k nächsten Nachbarn von j (bzw. i) ε -Nachbarschaftsgraph: Kante, wenn dist vi , v j < ε ( ) 93 Beobachtung Zusammenhängende Teilgraphen… entspricht Anzahl Eigenwerte von L mit Wert 0. zugehörige (unnormierte) Eigenvektoren enthalten Indikatorvektoren der Teilgraphen. Erkenntnis für schwach zusammenhäng. Teilgraphen? λ1 =λ 2 =λ 3 =0 f1 = (1,...1, 0,...0, 0,...0 ) / # Bsp. in C1 f 2 = ( 0,...0,1,...1, 0,...0 ) / # Bsp. in C2 f 3 = ( 0,...0, 0,...0,1,...1) / # Bsp. in C3 2 1 n λ =f L un f = f Df − f = Wf w f − f ∑ i, j ( i j ) 2 i, j=1 T T T 94 Maschinelles Lernen II Minimaler Schnitt Spezialfall k=2 Der minimale s-t-Schnitt ist P* = arg min P⊂ V Cut s,t (P) s t Problem ist in polynomieller Laufzeit lösbar (Ford/Fulkerson; Dinic) Der minimale Schnitt ist der minimale s-t-Schnitt über alle s-t-Schnitte: Cut(P) = ∑ v ∈P,v ∈P w ij i j Problem ist in polynomieller Laufzeit lösbar ( nm + n 2 log n ) 95 Maschinelles Lernen II Minimaler Schnitt Balanzierung MinCut-Lösung separiert häufig einzelne Knoten. Balanzierung: Maschinelles Lernen II 1 Cut(P) Cut(P) = ut ( P, P ) + RatioC , 2 P P wobei |P| die Anzahl der Knoten in P ist. = Ncut ( P ) 1 Cut(P) Cut(P) + , wobei vol ( P ) = ∑ d i 2 vol(P) vol(P) vi ∈P Balanziertes MinCut-Problem ist NP-hart. 96 Minimaler Schnitt Balanzierung , wenn vi ∈ P Maschinelles Lernen II P/P Lemma 1: Sei fi = − P / P dann gilt , sonst V ⋅ RatioCut ( P ) = f T L un f vol ( P ) / vol ( P ) , wenn vi ∈ P Lemma 2: Sei fi = − vol ( P ) / vol ( P ) , sonst dann gilt vol(V) ⋅ NCut ( P ) = f T Lsym f 97 Spectral-Clustering (unnormalisiert) Relaxation Maschinelles Lernen II RatioCut n n 2 = min f T Lf , wobei= f 0, f ∑i ∑i n P⊂V =i 1 =i 1 98 Spectral-Clustering (unnormalisiert) Relaxation Maschinelles Lernen II NP-hart RatioCut n n 2 min f T Lf , wobei= f 0, f = ∑i ∑i n P⊂V =i 1 =i 1 Eigenwertproblem (Unnormalisiertes) Spectral-Clustering n n T 2 minn f Lf , wobei= f 0, f = ∑i ∑i n f ∈ =i 1 =i 1 Diskretisierung: sign(f i ) 99 Spectral-Clustering (unnormalisiert) Verallgemeinerung auf k>2 1 Cut ( Pi ) ∑ 2 i =1...k Cut(Pi ) 1 RatioCut(P1 ,...Pk ) = ∑ 2 i =1...k | Pi | Cut(Pi ) 1 Ncut(P1 ,...Pk ) = ∑ 2 i =1...k vol(Pi ) Maschinelles Lernen II Cut(P1 ,...Pk ) = P/P fi = − P / P , wenn vi ∈ P , sonst 1/ P j Fij = − 1/ Pj , wenn vi ∈ Pj , sonst RatioCut(P1 ,...Pk ) = Tr ( FT LF ) 100 Spectral-Clustering (unnormalisiert) Relaxierung (k>2) Maschinelles Lernen II NP-hart RatioCut min Tr ( FT LF ) , wobei FT F = I P1 ,...,Pk Eigenwertproblem (Unnormalisiertes) Spectral-Clustering T T min Tr F LF , wobei F F=I ( ) n ×k F∈ Diskretisierung: k-means auf Fi 101 Spectral-Clustering (unnormalisiert) Algorithmus n×n Geg.: Adjazenzmatrix W ∈ ≥ 0 , Clusteranzahl k Berechne zugehörige Laplacematrix L un Berechne die kleinsten k Eigenvektoren u i ∈ n von L un Setze − x1 − | | − x n Maschinelles Lernen II = u ... u k 1 − | | Berechne Cluster C j aus Datenpunkte x i Liefere C j zurück 102 Maschinelles Lernen II Part 6: Blaine Nelson SUMMARY: PCA & SUBSPACE ANALYSIS 103 Overview – Subspace Methods Maschinelles Lernen II Principal Component Analysis (PCA) Kernel-PCA Fisher Linear Discriminant Analysis Canonical Correlation Analysis 104 Principal Component Analysis (PCA) Find direction 𝐰 maximizing projected variance Consider random variable 𝐱~𝑃𝑋 . The projected variance onto (normalized) 𝐮1 is E proj𝐮1 𝐱 2 = E 𝐮1 T 𝐱𝐱 T 𝐮1 = 𝐮1 T 𝐸 𝐱𝐱 T 𝐮1 𝚺𝐱𝐱 �𝑥𝑥 = 1 𝐗𝐗T Empirical covariance matrix is: 𝚺 𝑛 �𝑥𝑥 𝐮1 w.r.t. 𝐮1 , with 𝐮1 T 𝐮1 = 1 Maximize 𝐮1 T 𝚺 Maschinelles Lernen II �𝑥𝑥 𝐮1 + 𝜆1 1 − 𝐮1 T 𝐮1 Lagrangian: 𝐮1 T 𝚺 �𝑥𝑥 𝐮1 = 𝜆1 𝐮1 Taking its derivative & setting it to 0: 𝚺 This is an eigenvalue problem 105 Kernel PCA Maschinelles Lernen II Idea: data spans subspace of ≤ min 𝑚, 𝑛 dims 𝑚×𝑛 Let 𝐱 = 𝟎, then with help from the data, 𝐗 ∈ ℝ �𝑥𝑥 𝐮1 = 𝜆1 𝐮1 𝐯1 = 𝐗T𝐮1 𝚺 𝐗𝐯1 = 𝑛𝜆1 𝐮1 , 𝐗 T 𝐗𝐗1 = 𝑛𝜆1 𝐯1 Kernel Matrix 𝐊 𝑥𝑥 Has same 𝑛 − 1 eigen-solutions: 𝐮𝑖 = 1 𝑛𝜆𝑖 𝐗𝐯𝑖 The eigenvector problem is thus equivalently transformed: 𝚺𝐮𝑖 = 𝜆𝑖 𝐮𝑖 𝐊𝛂𝑖 = 𝑛𝜆𝑖 𝛂𝑖 106 Fisher-Discriminant Analysis (FDA) Optimization criterion of PCA: Maximize the data‘s variance in the subspace. max𝐮 𝐮T 𝚺𝐮, where 𝐮T 𝐮 = 1 Optimization criterion of FDA: Maximize between-class variance and minimize withinclass variance within the subspace. Variance max𝐮 Maschinelles Lernen II per class 𝚺𝑤 = 𝚺+1 + 𝚺−1 , where 𝚺𝑏 = 𝐱+1 − 𝐱−1 𝐱+1 − 𝐱−1 𝐮T 𝚺𝑏 𝐮 𝐮T 𝚺𝑤 𝐮 Optimization criterion of FDA for 𝑘 classes yields a generalized eigenvalue problem T 107 Canonical Correlation Analysis (CCA) We have 2 different representations of same data 𝐱: & 𝐱 𝑏 ← 𝜓𝑏 𝐱 𝐱 𝑎 ← 𝜓𝑎 𝐱 Find correlated directions 𝐮𝑎 ∈ 𝑋𝑎 & 𝐮𝑏 ∈ 𝑋𝑏 Correlation of its projection onto 𝐮𝑎 & 𝐮𝑏 is E 𝐮𝑎 T 𝐱𝑎 𝐮𝑏 T 𝐱 𝑏 𝜌𝑎𝑎 = E 𝐮𝑎 T 𝐱 𝑎 𝐮𝑎 T 𝐱𝑎 ∙ E 𝐮𝑏 T 𝐱𝑏 𝐮𝑏 T 𝐱 𝑏 CCA finds pair of directions to maximize covariance T� max 𝐮 𝑋 𝚺𝑎𝑎 𝐮𝑌 T T 𝐮𝑎 𝚺𝑎𝑎 𝐮𝑎 =𝐮𝑏 𝚺𝑏𝑏 𝐮𝑏 =1 One can show that we must solve a generalized eigenvalue problem 108 Maschinelles Lernen II Maschinelles Lernen II Part 7: Blaine Nelson SUMMARY: ADVERSARIAL LEARNING 109 Adversarial Learning Benefits of machine learning Maschinelles Lernen II Classifier Evasion Adversarial-Aware Classification Game Theoretic Approaches Rapid adaptability to changing trends Scalability to large, diverse data Statistically sound decision-making We’d like to use learning in security domains 110 Attack Taxonomy Attack Properties Influence Causative – influences training and test data Exploratory – influences test data Security violation Integrity – goal is false negatives (FNs) Availability – goal is false positives (FPs) Specificity Targeted – influence prediction on particular test instance Indiscriminate – influence prediction on all test instances Maschinelles Lernen II Axis Can Machine Learning be Secure? (2006) The Security of Machine Learning (2010) 111 Near-Optimal Evasion Problem 𝑚-dimensional space known by adversary Initial negative point 𝐱 − & positive target 𝐱 ∗ Adversary cost is a weighted 1 cost from 𝐱 ∗ Desired accuracy 𝜀 binary search within (1 + 𝜀) factor of opt. in 𝐿𝜀 steps Find near-optimum with polynomial queries 𝐱− positive class negative class classifier boundary (1 + 𝜀) 0 𝐿𝜀 steps 1 cost Maschinelles Lernen II Near-Optimal Evasion Convex-Inducing Classifier: 1 classifier set is convex positive class negative class positive class 𝐾-step Line Search (positive set is convex) negative class Motivation: breadth- or depth-first both 𝑂 𝑚 ∙ 𝐿𝜀 Tradeoff between bound progress & pruning Take 𝐾 steps in one direction & query remaining For 𝐾 = 𝐿𝜀 : 𝑂 𝐿𝜀 + 𝑚 ∙ 𝐿𝜀 queries Maschinelles Lernen II Evasion-Resistant Classifiers We want classifiers to be robust to evasion P 𝑥𝑓 | + P +|𝐱 P + log = log + � log P −|𝐱 P − P 𝑥𝑓 | − 𝑓 After learning, the adversary attempts to evade 𝑓 by transforming data with adversarial transform 𝐴: 𝐱 → 𝐱′ To counter, we adjust P 𝑥𝑓 | + Naïve Bayes log-odds estimate is We need to account for all P 𝐱′| + s.t. 𝐴 𝐱′ = 𝐱. We anticipate whether adversary should change 𝐱. P𝐴 derived to define adversary-aware classifier, 𝑓𝐴 114 Maschinelles Lernen II Adversarial Games in Machine Learning Player 1 (Learner): 𝑓𝐰 𝐱 = sgn 𝐰 T 𝐱 Learner chooses model 𝐰 to minimize loss 𝜃−1 𝐰, 𝐷̇ = � 𝑐−1,𝑖 𝐿−1 𝑓𝐰 𝐱 𝑖 , 𝑦𝑖 + Ω−1 𝐰 𝐱 𝑖 ,𝑦𝑖 ∈𝐷̇ Player 2 (Attacker): 𝐴 changes test data: 𝐷 → 𝐷̇ Maschinelles Lernen II The transform is limited by regularizer Ω+1 𝜃+1 𝐰, 𝐷̇ = � 𝑐+1,𝑖 𝐿+1 𝑓𝐰 𝐱 𝑖 , 𝑦𝑖 + Ω+1 𝐷, 𝐷̇ 𝐱𝑖 ,𝑦𝑖 ∈𝐷̇ If 𝜃−1 & 𝜃+1 are antagonistic, minimax is optimal A Nash equilibrium may exists & be unique 115 Maschinelles Lernen II Part 8: Christoph Sawade ZUSAMMENFASSUNG: HYPOTHESENBEWERTUNG 116 Überblick Konfidenzintervalle Statistische Tests Maschinelles Lernen II 117 Konfidenzintervalle Maschinelles Lernen II Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells? R [ f ] = ∫ ( y, f (x) ) p ( x, y ) dxdy Da p ( x, y ) unbekannt ist, muss es aus Daten geschätzt werden, z.B.: n 1 Rˆ [ f ] = ∑ ( yi , f (xi ) ) , wobei ( yi , xi ) ~ p ( y, x ) n i =1 Was sagt R̂ [ f ] über R [ f ] aus? 118 Konfidenzintervalle Idee Konfidenzintervall: Maschinelles Lernen II Intervall um den geschätzten Fehler R̂ angeben so dass der echte Fehler „meistens“ im Intervall liegt Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable R̂ R̂ [ ] R 119 Verteilung für Fehlerschätzer Maschinelles Lernen II Betrachten zunächst unnormalisierten Fehlerschätzer m mRˆ = ∑ j =1 0 /1 ( y j , f (x j )) Summe über Beispielverluste 0/1 ( y j , f (x j )) ∈{0,1} Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R 120 Binomialverteilung Unnormalisiertes empirisches Risiko m mRˆ = ∑ j =1 0 /1 ( y j , f (x j )) ist Summe von Bernouilli-Variablen, also binomialverteilt: mRˆ ~ Bin(mRˆ | m, R) Wir beobachten k = ∑ i =1 0/1 ( yi , f (xi )) Fehler. m Was sagt k über den wirklichen Fehler aus? Wir suchen „Münzparameter“, unter denen die Wahrscheinlichkeit der Beobachtung mindestens 1 − α ist. Oder: Finde Münzparameter U und L, so dass α pU mRˆ ≤= k pL mRˆ ≥= k 2 ( ) ( ) Binomiale Zufallsvariable mit Parameter L bzw. U 121 Maschinelles Lernen II Clopper-Pearson-Konfidenzintervall Maschinelles Lernen II α 0.05, = m 100, = k 15 Beispiel:= 122 Clopper-Pearson-Konfidenzintervall Maschinelles Lernen II α 0.05, = m 100, = k 15 Beispiel:= ( ) pL mRˆ ≥ 15 = 0.025 [ L 123 Clopper-Pearson-Konfidenzintervall Maschinelles Lernen II α 0.05, = m 100, = k 15 Beispiel:= ( ) pU mRˆ ≤ 15 = 0.025 [ ] L U 124 Clopper-Pearson-Konfidenzintervall Maschinelles Lernen II Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable m Münzwürfen Fehlerschätzer entspricht m Wir beobachten k = ∑ 0/1 ( yi , f (xi )) Fehler. i =1 α Wir suchen U und L, so dass pU ( mRˆ ≤= k ) pL ( mRˆ ≥= k) 2 α = pU mRˆ ≤ k 2 ( ) k α = pL mRˆ ≥ k 2 ( ) k −1 = ∑Bin ( i | U , m ) = 1 − ∑Bin ( i | L, m ) = Beta (1 − U | m − k , k + 1) = 1 − Beta (1 − L | m − k + 1, k ) α U = 1 − Beta −1 | m − k , k + 1 2 α 1 − Beta −1 1 − | m − k + 1, k L= 2 i =0 i =0 125 Wald-Konfidenzintervall Empirisches Risiko annähernd normalverteilt: ( Rˆ ~ Rˆ | R, σ rˆ 2 σ Rˆ = 2 ) [approximativ, für große m] Rˆ (1− Rˆ ) m Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: Rˆ − R σ Rˆ Maschinelles Lernen II Rˆ − R ~ | 0,1 σˆ R [approximativ, für große m] Schätzen der Varianz des empirischen Risikos: σ Rˆ ≈ sRˆ 2 2 Rˆ (1− Rˆ ) s = m −1 2 Rˆ 126 Wald-Konfidenzintervall Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable Fehlerschätzer ist Summe aus n i.i.d. Zufallsvariablen asymptotisch normalverteilt α Wir suchen U und L, so dass pU ( nRˆ ≤ = k ) pL ( nRˆ ≥ = k) 2 α α = = pU nRˆ ≤ k 2 2 Rˆ − U k / n −U = = pU n ≤ n σ σ k / n −U = = Φ n σ k α σ L= U= − Φ −1 n n 2 n ( ) ( pL nRˆ ≥ k ) L − Rˆ L−k /n ≤ n pL n σ σ L−k /n Φ n σ k α σ + Φ −1 n 2 n 127 Maschinelles Lernen II Wilson-Konfidenzintervall Maschinelles Lernen II Aus Normalverteilungsannahme folgt, dass mit Wahrscheinlichkeit 1 − α gilt Rˆ − R m α ≤ Φ −1 1 − 2 R (1 − R ) Quadrieren ergibt quadratische Ungleichung, die geschlossene Lösung für R hat: RL ,U 2 z Rˆ + α 2n ± z = α zα2 1+ n 2 z α Rˆ (1 − Rˆ ) + 4n , 2 z n+ α n α Φ −1 1 − zα = 2 128 Konfidenzintervall Maschinelles Lernen II Theoretische Konfidenz: 1 − α CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) Wilson adäquat n=100 1 coverage 0.95 0.9 0.85 0 0.5 k/n 1 129 Statistische Tests Maschinelles Lernen II Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? R [ f1 ] < R [ f 2 ] Da p ( x, y ) unbekannt ist, müssen Risiken aus Daten geschätzt werden. n 1 Rˆ [ f ] = ∑ ( yi , f (xi ) ) , wobei ( yi , xi ) ~ p ( y, x ) n i =1 Was sagt der beobachtete Unterschied Rˆ [ f1 ] − Rˆ [ f 2 ] über R [ f1 ] − R [ f 2 ] aus? 130 Statistische Tests Was sagt der beobachtete Unterschied Rˆ [ f1 ] − Rˆ [ f 2 ] über R [ f1 ] − R [ f 2 ] aus? Wenn Rˆ [ f1 ] − Rˆ [ f 2 ] < 0 gibt es Grund zur Annahme, dass Modell 1 besser ist. Wenn man sich daraufhin für Modell 1 entscheidet, verwirft man die (Null-) Hypothese, dass Rˆ [ f1 ] − Rˆ [ f 2 ] < 0 nur ein Zufallseffekt war. Ein statistischer Test kann die Entscheidung für ein scheinbar besseres Modell rechtfertigen. 131 Maschinelles Lernen II Statistische Tests Ein Test ist eine Prozedur mit den Eingaben Maschinelles Lernen II Nullhypothese, Beobachtungen Parameter (Type 1 Fehler) α Ein Test hat die möglichen Ausgaben „Nullhypothese abgelehnt“ – das Gegenteil der Nullhypothese gilt. „nicht abgelehnt“ – keine Schlussfolgerung möglich, kein neues Wissen gewonnen. 132 Statistische Tests Maschinelles Lernen II Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. cα T 133 p-Wert Die Aussage „Nullhypothese abgelehnt“ ist nicht sehr informativ p-Wert: kleinste Signifikanz-Niveau α , für das die Nullhypothese abgelehnt wird Maschinelles Lernen II Wahrscheinlichkeit unter Annahme der Nullhypothese, dass die wirkliche Teststatistik größer ist, als die beobachtete Achtung: keine Wahrscheinlichkeit, dass Nullhypothese richtig ist! Ursache für großen p-Wert Nullhypothese richtig ODER Nullhypothese falsch, aber Test zu schwach 134 p-Wert Maschinelles Lernen II p-Wert: kleinste Signifikanz-Niveau α , für das die Nullhypothese abgelehnt wird T ( x ) cα T 135 Vorzeichen-Test Seien x1 ,…, x n unabhängig und identisch verteilt mit Median m h 0 : m = µ 0 vs. h1 : m ≠ µ 0 Lehne Nullhypothese ab, gdw. T ( x ) > c unter h 0 binomial-verteilt n n T ( x ) max ∑ x i − µ 0 > 0, ∑ x i − µ 0 < 0 = = i 1 =i 1 α −1 = c BinCDFn,0.5 1 − 2 Maschinelles Lernen II θˆ − θ0 n ( 0,1) σ Wald-Test Seien x1 ,…, x n unabhängig normalverteilt mit Erwartungswert µ und bekannter Varianz σ2 h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0 Lehne Nullhypothese ab, gdw. T ( x ) > c T(x) = n µˆ n − µ 0 σ α −1 c Φ 1 − = 2 unter h 0 normalverteilt 1 n , µn = ∑ xi n i =1 Maschinelles Lernen II θˆ − θ0 n t n ( 0,1) Sn t-Test Seien x1 ,…, x n unabhängig normalverteilt mit Erwartungswert µ und unbekannter Varianz h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0 Lehne Nullhypothese ab, gdw. T ( x ) > c unter h 0 t-verteilt (n-1 Freiheitsgrade) n µˆ n − µ 0 1 2 ˆ = − µ , S2n x T(x) n ( i n) ∑ Sn n i =1 α −1 = c Fn −1 1 − 2 Für kleine n besser geeignet als Wald-Test. Maschinelles Lernen II Dualität Ein Test mit Signifikanzniveau α verwirft die Nullhypothese h 0 : µ = µ 0 , genau dann nicht, wenn µ 0 innerhalb des 1 − α -Vertrauensintervalls liegt. 139 Maschinelles Lernen II