Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Maschinelles Lernen II
Zusammenfassung
Uwe Dick/Peter Haider/Niels Landwehr/Blaine Nelson/Christoph Sawade
Tobias Scheffer
Maschinelles Lernen II
Part 1: Uwe Dick
ZUSAMMENFASSUNG:
REINFORCEMENT LEARNING
2
Lernen aus Interaktionen
Maschinelles Lernen II
Umgebung
•Reward
•Beobachtu
ng
Aktionen
Agent
Controller
Markov Decision Processes
Markov-Entscheidungsprozess (S,A,R,P)
S : Zustandsmenge
A : Aktionsmenge
P : Übergangswahrscheinlichkeiten: Markov
R : Erwarteter Reward. Beschreibt den sofort
erzielten Gewinn: Markov
Discount factor
.
Maschinelles Lernen II
MDP
Eine deterministische stationäre Policy bildet
Zustände auf Aktionen ab.
Stochastische Policy: Funktion von Zuständen auf
eine Verteilung von Aktionen.
Ziel: Finde Policy ¼, die den erwarteten
kumulativen (discounted) Gewinn maximieren.
Maschinelles Lernen II
Value Functions und BellmanGleichungen
Value function V¼(s) für einen Zustand s und Policy ¼
beschreibt den erwarteten kumulativen Gewinn der
von diesem Zustand aus erreicht wird.
Bellman-Gleichung:
Maschinelles Lernen II
Policy Iteration
Allgemeines Verfahren zum Bestimmen der
optimalen Policy.
Iteriere:
Policy Evaluation:
Gegeben Policy ¼k, bestimme
Policy Improvement:
Inferiere verbesserte Policy ¼k+1 aus
z.B. greedy Policy:
Maschinelles Lernen II
Policy Evaluation
Monte-Carlo Methoden: Simulieren bzw. Samplen
von Trajektorien. Mitteln der beobachteten
kumulativen Gewinne.
Iteratives Verfahren: TD(0)
Für V¼
bzw. Q¼
Konvergiert gegen V¼ bzw. Q¼ für k→1
Maschinelles Lernen II
Value Iteration
für Q* :
Konvergiert gegen V* bzw. Q* für k→1
Maschinelles Lernen II
Value Iteration für das Kontrollproblem.
Für V *:
TD(¸)
Maschinelles Lernen II
Updateregel:
TD(¸) Update:
0·¸·1 interpoliert zwischen 1-step und MC.
Funktionsapproximation
Darstellen der Value Function als parametrisierte
Funktion aus dem Funktionsraum F mit
Parametervektor µ.
Vorhersageproblem: Finde Parametervektor µ, so
dass V¼, bzw. Q¼ am besten approximiert wird.
Maschinelles Lernen II
Bellman-Residuen-Minimierung—Residual
Gradient
Temporal Difference Methode.
Bellman-Gleichung als Fixpunkt-Gleichung.
Linke Seite als Fehler interpretieren: Bellman
Residuum. ¹ stationäre Verteilung von Zuständen.
Empirisch:
Maschinelles Lernen II
Least-Squares Temporal Difference
Q ist aus Funktionsraum F.
T¼Q aber nicht notwendigerweise.
LSTD minimiert den quadratischen Abstand
zwischen Q und der Projektion von T¼Q auf F.
LSTD oft bessere Ergebnisse als Residual
Gradient.
Maschinelles Lernen II
TD(0) und Gradientenabstieg
Update-Regel für TD(0):
θt +1 =
θt + α t R( st , at ) + γ Qˆ ( st +1 , at +1 ;θ ) − Qˆ ( st , at ;θ ) ∇θ Qˆ ( st , at ;θt )
Spezialfall lineare Funktionsapproximation
θt +1 =
θt + α t R( st , at ) + γφ T ( st +1 , at +1 )θt − φ T ( st , at )θt φ ( st , at )
TD(0) leider kein echter Gradient. Idee: Verwende
anderes Optimierungskriterium.
E[δ t (θ )φt ]T E[δ t (θ )φt ]
Maschinelles Lernen II
Policy Gradient
Lernen einer stochastischen Policy.
Die Policy wird explizit repräsentiert, z.B. als Gibbs
Verteilung
Lerne , so dass
minimiert wird
Idee: (stochastische) Gradientenmethode
Maschinelles Lernen II
Maschinelles Lernen II
Part 2: Peter Haider
ZUSAMMENFASSUNG:
RECOMMENDATION
16
Recommendation
Maschinelles Lernen II
Empfehlung von Produkten, Informationen,
Personen, Musik, …
Ziel: Rausfilterung von unwichtigen /
unerwünschten / unsympathischen Optionen;
Finden von wichtigen / gefallenden / beliebten
Optionen
Basierend auf Transaktionen aus der
Vergangenheit: Käufe, Bewertungen, Klicks, …
Nutzerspezifisch: Keine globale Sortierung der
Optionen, sondern persönliche Empfehlung
17
Inhaltsbasierte Recommendation
Featureabbildung φ: X → Rd notwendig
Unabhängige Lernprobleme:
Maschinelles Lernen II
Normale Regressions- oder
Klassifikationsformalisierung
Gemeinsames Lernproblem:
Verteilung der Gewichtsvektoren um gemeinsamen,
gleichzeitig gelernten, Mittelpunkt
18
Kollaborative Recommendation
Keine Featureabbildung nötig.
K-Nearest-Neighbor:
Maschinelles Lernen II
Vorhersage berechnet sich als gewichtetes Mittel der
Bewertungen der ähnlichsten Nutzer
Latente Features:
Gleichzeitiges Lernen von versteckten
„Geschmacks“-Featurevektoren von Benutzern und
Objekten
19
Maschinelles Lernen II
Part 3: Niels Landwehr
ZUSAMMENFASSUNG: GRAPHISCHE
MODELLE
20
Graphische Modelle
Maschinelles Lernen II
Modellierung einer Domäne mit verschiedenen
Zufallsgrössen
Gemeinsame Verteilung, insb. Abhängigkeiten
21
Überblick
Graphische Modelle: Einführung
Graphische Modelle im Maschinellen Lernen
Inferenz in Graphischen Modellen
Maschinelles Lernen II
22
Graphische Modelle: Einführung am
Beispiel
Beispiel: „Alarm“ Szenario
Maschinelles Lernen II
Unser Haus in LA hat eine Alarmanlage.
Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm
hört. Wenn eingebrochen wurde, wollen wir zurück kommen.
Leider ist der Nachbar nicht immer zu Hause
Leider geht die Alarmanlage auch bei kleinen Erdbeben los
5 binäre Zufallsvariablen
B
Burglary – Einbruch hat stattgefunden
E
Earthquake – Erdbeben hat stattgefunden
A
Alarm – Alarmanlage geht los
N
NeighborCalls – Nachbar ruft an
R
RadioReport – Bericht über Erdbeben im Radio
23
Graphische Modelle: Einführung am
Beispiel
Maschinelles Lernen II
Ziel: Repräsentation der gemeinsamen Verteilung
p(B,E,A,N,R)
Wähle Variablenordnung: z.B. B<E<A<N<R
Produktregel:
p ( B, E , A, N , R) = p ( B, E , A, N ) p ( R | B, E , A, N )
= p ( B, E , A) p ( N | B, E , A) p ( R | B, E , A, N )
= p ( B, E ) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N )
= p ( B) p ( E | B ) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N )
Faktoren beschreiben die Verteilung einer Zufallsvariablen in
Abhängigkeit anderer Zufallsvariablen.
24
Graphische Modelle: Einführung am
Beispiel
Maschinelles Lernen II
p ( B, E , A, N , R) = p ( B) p ( E | B) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N )
Idee: vereinfache Faktoren durch
Unabhängigkeitsannahmen
p( E | B) = p( E )
p ( A | B, E ) = p ( A | B, E )
p ( N | B, E , A) = p ( N | A)
p ( R | B, E , A, N ) = p( R | E )
Erdbeben hängt nicht von Einbruch ab
Alarm hängt von Einbruch und Erdbeben ab
Anruf von Nachbar hängt nur von Alarm ab
Nachricht im Radio hängt nur von Erdbeben ab
p ( B, E , A, N , R) = p ( B) p ( E ) p ( A | E , B) p ( N | A) p ( R | E )
Vereinfachte Darstellung der gemeinsamen Verteilung:
Vereinfachte Faktoren
25
Graphische Modelle: Einführung am
Beispiel
P(B=1)
P(E=1)
0.1
0.2
B
B
E
P(A=1|B,E)
0
0
0.01
0
1
0.5
1
0
0.9
1
1
0.95
Modellierte Verteilung:
p ( B, E , A, N , R) = p ( B) p ( E ) p ( A | E , B) p ( N | A) p ( R | E )
E
A
E
P(R=1|E)
0
0.01
1
0.5
R
Graphisches Modell:
- Jede ZV ist ein Knoten
- Für jeden Faktor der Form p( X | X 1 ,..., X k )
N
A
P(N=1|A)
0
0.1
1
0.7
fügen wir gerichtete Kanten von den X i zu X ein
- Modell ist parametrisiert mit den bedingten
Verteilungen p( X | X 1 ,..., X k )
26
Maschinelles Lernen II
Graphisches Modell für „Alarm“ Szenario
Graphische Modelle: Unabhängigkeit
Die Graphstruktur impliziert Unabhängigkeiten
zwischen Mengen von ZV
„D-separation“ Kriterium, um Unabhängigkeiten aus
Graphstruktur abzulesen
Maschinelles Lernen II
A,B unabhängig gegeben C gdw jeder Pfad von
Knoten in A zu Knoten in B blockiert ist gegeben C
Menge einfacher Regeln, wann Pfade blockiert sind
27
Divergierende Verbindungen
B
Maschinelles Lernen II
Divergierende Verbindung
E
A
R
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
N
Α ⊥ R|∅
Betrachte Pfad A←E→R. Gilt
?
Nein, p( A | R) ≠ p ( A)
RadioReport ⇒ wahrscheinlich Erdbeben ⇒ wahrscheinlich Alarm
ZV R beeinflusst ZV A über die divergierende Verbindung R ← E → A
28
Divergierende Verbindungen
B
E
A
R
N
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
beobachteter Knoten
Α⊥ R|E
Betrachte Pfad A←E→R. Gilt
Maschinelles Lernen II
Divergierende Verbindung
?
Ja, p( A | R) = p( A)
Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die
Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport
Der divergierende Pfad R ← E → A wird durch Beobachtung von E blockiert
29
Serielle Verbindungen
Maschinelles Lernen II
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
R
N=„Nachbar ruft an“
R=„Radio Bericht“
Serielle
Verbindung
N
Β ⊥ Ν|∅
Betrachte Pfad N ← A ← B. Gilt
Nein, p ( B | N ) ≠ p ( B)
?
[Ausrechnen mit gemeinsamer Verteilung]
Intuitiv:
NeighborCalls ⇒ wahrscheinlich Alarm ⇒ wahrscheinlich Burglary
p ( B = 1| N = 1) > p ( B = 1| N = 0)
ZV N beeinflusst ZV B über den seriellen Pfad N ← A ← B
30
Serielle Verbindungen
E
A
R
Serielle
Verbindung
N
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
Ja, p ( B | N , A) = p ( B | A)
N=„Nachbar ruft an“
R=„Radio Bericht“
beobachteter Knoten
Β⊥Ν| A
Betrachte Pfad N ← A ← B. Gilt
Maschinelles Lernen II
B
?
[Ausrechnen mit gemeinsamer Verteilung]
Intuitiv:
Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die
Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft
Der serielle Pfad N ← A ← B wird durch Beobachtung von A blockiert.
31
Konvergierende Verbindung
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
Maschinelles Lernen II
Konvergierende
Verbindung
N=„Nachbar ruft an“
R=„Radio Bericht“
R
N
Β ⊥ Ε|∅
Betrachte Pfad B → A ← E. Gilt
?
Ja, p ( B | E ) = p( B)
Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben
Der konvergierende Pfad B → A ← E ist blockiert wenn A nicht beobachtet ist
32
Konvergierende Verbindung
B
E
A
N
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
R
beobachteter Knoten
Β ⊥Ε| A
Betrachte Pfad B → A ← E. Gilt
Maschinelles Lernen II
Konvergierende
Verbindung
?
Nein, p( B | E ) ≠ p( B)
Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das
den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away").
Der konvergierende Pfad B → A ← E wird freigegeben durch Beobachtung von A
33
D-Separation: Korrektheit, Vollständigkeit
Maschinelles Lernen II
Gegeben ein graphisches Modell über {X1,…,XN} mit
Graphstruktur G.
Das GM modelliert eine Verteilung durch
N
p ( X 1 ,..., X N ) = ∏ p ( X i | pa ( X i ))
i =1
abhängig von den bedingten Verteilungenp( X n | pa( X n )) .
Theorem (Korrektheit, Vollständigkeit d-separation)
( A | B, C ) = p ( A | C )
Falls A,B d-separiert gegeben C in G, pdann
Es gibt keine anderen Unabhängigkeiten, die für jede
p ( X i | pa ( X i ))
Wahl der bedingten Verteilungen
gelten.
34
Überblick
Graphische Modelle: Einführung
Graphische Modelle im Maschinellen Lernen
Inferenz in Graphischen Modellen
Maschinelles Lernen II
35
Münzwürfe als graphisches Modell
Maschinelles Lernen II
X 1 ,..., X N
Münzwurf: N Bernoulli-verteilte Zufallsvariablen
µ
Parameter
, Beta-Prior
N
pα k ,α z ( X 1 ,..., =
X N , µ ) pα k ,α z ( µ ) ∏ p ( X i | µ )
i =1
Prior
Likelihood
Darstellung als graphisches Modell:
µ
pa ( µ ) = ∅
pa ( X i ) = {µ}
…
X1
X2
X3
…
XN
36
Parameterschätzung als Inferenzproblem
MAP-Parameterschätzung Münzwurf
µ = arg max µ pα k ,α z ( µ | x1 ,..., xN )
Inferenzproblem:
pα k ,α z ( µ )
Maschinelles Lernen II
µ
…
p( X | µ ) X
1
X2
X3
…
XN
p( X | µ )
Evidenz auf den Knoten X1,…, XN
Wahrscheinlichster Zustand des Knotens μ gegeben X1,…, XN
37
Plate-Modelle
Plate Notation
µ
µ
…
X2
X1
Maschinelles Lernen II
X3
Plate Notation
…
Plate
XN
Xi
N
Ein „Plate“ ist eine abkürzende Notation für N
Variablen der gleichen Form
Bezeichnet mit Anzahl der Variablen, N
Variablen haben Index (z.B. Xi ).
38
Erinnerung: Bayessche Lineare
Regression
Maschinelles Lernen II
Diskriminatives Setting: xi fest, Verteilung über
Label yi Lineares Modell plus Gaußsches
y
Rauschen
p ( y | x,=
w ) w T x + N ( y | 0, σ 2 )
wT x
x
Bayessches
Setting:
Prior auf Parametervektor
2
2
p (w | τ ) = N (w | 0,τ I )
w, y1 ,..., y N
x1 ,..., x N , σ ,τ
39
Bayessche Lineare Regression als
Graphisches Modell
p ( y1 , ..., yN , w | x1 ,..., x N , σ ,τ ) = p (w | τ ) ∏ p ( yi | xi , w, σ 2 )
i =1
Prior
2
2
Likelihood
Graphisches Modell, N=3
τ
Graphisches Modell, Plate-Notation
τ
w
σ
w
σ
yi
y1
y2
y3
xi
x1
x2
N
x3
40
Maschinelles Lernen II
N
2
MAP Parameterschätzung als
Inferenzproblem
τ
w
Maschinelles Lernen II
τ
σ
w
σ
yn
y1
y2
y3
xn
x1
x2
N
x3
MAP Parameterschätzung: wahrscheinlichstes Modell
gegeben Daten
w * = arg max w p (w | y1 ,..., y N , x1 ,..., x N , σ 2 ,τ 2 )
Inferenzproblem: was ist der wahrscheinlichste Zustand für
Knoten w, gegeben beobachtete Knoten y1,…, yN ?
41
Bayes-optimale Vorhersage
Klassifikation mit MAP Modell:
w * = arg max w p (w | L, X , σ 2 ,τ 2 )
y* = arg max y p ( y | x, w * , σ 2 )
X = ( x1 ... x N ) Merkmalsvektoren
= w *T x
Statt MAP Modell kann man auch direkt die
Bayes‘sche Vorhersageverteilung ausrechnen:
p ( y | x, L, X , σ 2 ,τ 2 ) = ∫ p ( y | x, w, σ 2 ) p (w | L, X , σ 2 ,τ 2 )dw
Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu
legen
42
Maschinelles Lernen II
Bayessche Lineare Regression als
Graphisches Modell
Bayessche Vorhersage: Erweiterung des Modells
durch neue Testinstanz (neue Zufallsvariable y)
N
p ( y1 ,..., yN , y, w | x1 ,..., x N , x, σ ,τ ) = p (w | τ ) ∏ p ( yi | w, xi , σ 2 ) p ( y | w, x, σ 2 )
i =1
2
2
2
Graphisches Modell, N=3
τ
w
y1
x1
y2
x2
τ
σ
x
σ
w
yn
y
y3
x3
Plate Notation
xn
y
N
x
43
Maschinelles Lernen II
Bayessche Lineare Regression als
Graphisches Modell
Maschinelles Lernen II
Bayessche Vorhersage
y* = arg max y p ( y | x, L, X , σ 2 ,τ 2 )
Inferenzproblem: was ist der wahrscheinlichste Zustand für
Knoten y, gegeben beobachtete Knoten y1,…, yN ?
44
Überblick
Graphische Modelle: Einführung
Graphische Modelle im Maschinellen Lernen
Inferenz in Graphischen Modellen
Maschinelles Lernen II
45
Problemstellung Inferenz
Gegeben Bayessches Netz über Menge von ZV {X1,…,XN }.
Problemstellung Inferenz:
{i1 ,..., im } ⊆ {1,..., N }
a ∈ {1,..., N } {i1 ,..., im }
Variablen mit EvidenzX i ,..., X i
Anfrage-VariableX a
Berechne Randverteilung über Anfrage-Variable gegeben Evidenz
1
Bedingte Verteilung
über ZV X a
m
Maschinelles Lernen II
Evidenz: beobachtete
Werte für ZV X i1 ,..., X im
Berechne p( xa | xi1 ,..., xim )
46
Exakte Inferenz: Naiv
Maschinelles Lernen II
Naive Inferenz:
Notation :{ X 1 ,..., X N } = { X a , X i1 ,..., X im , X j1 ,..., X jk }
AnfrageVariable
p ( xa | xi1 ,..., xim ) =
Evidenz-Variablen restliche Variablen
p ( xa , xi1 ,..., xim )
p ( xi1 ,..., xim )
1
p ( xa , xi1 ,..., xim )
Z
1
=
⋅⋅⋅∑ p ( x1 ,..., xN )
∑∑
Z x j1 x j2 x jk
=
Zentrales Problem: Aussummieren aller restlichen
Variablen (exponentiell, wenn naiv gelöst)
47
Graphische Modelle: Inferenz
Inferenz schwieriges Problem
Maschinelles Lernen II
Allgemeine Graphische Modelle: exakte Inferenz NPhart
Es gibt Algorithmen für exakte Inferenz in
Graphischen Modellen, deren Laufzeit von den
Eigenschaften der Graphstruktur abhängt
(„Message-Passing“)
Es gibt verschiedene Techniken für approximative
Inferenz (Sampling, Variational Inference,
Expectation Propagation)
Wir betrachten
Message-Passing Algorithmus: in Spezialfällen
Sampling-basierte approximative Inferenz
48
Effiziente exakte Inferenzmethoden?
Maschinelles Lernen II
Idee „Message Passing“: Lokale Berechnungen, die entlang der
Graphstruktur propagiert werden
Knoten schicken sich gegenseitig „Nachrichten“, die Ergebnisse
von Teilberechnungen enthalten
49
Graphische Modelle: Inferenz auf linearer
Kette
Maschinelles Lernen II
Wir betrachten zunächst Spezialfall mit besonders einfacher
Struktur: lineare Kette von Zufallsvariablen
x1
x2
p ( x1 ) p ( x2 |x1 )
x3
p ( x |x )
…
x4
p ( x |x
)
3 2
N −1
N
=
p ( x1 ,..., xN ) ψ 1,2 ( x1 , x2 ) ψ 2,3 ( x2 , x3 ) ⋅ ... ⋅ψ N −1, N ( xN , xN −1 )
Darstellung der gemeinsamen Verteilung als Produkt von
Potenzialenψ i ,i +1 ( xi , xi +1 )
über je zwei ZV
50
„Message Passing“ Algorithmus
Maschinelles Lernen II
Austausch von „Alpha“ Nachrichten von links nach
rechts
µ (x ) = 1
α
1
=
=
Für k 2,...,
a:
µα ( xk )
∑ψ
k −1, k
( xk −1 , xk ) µα ( xk −1 )
xk −1
µα ( x2 ) µα ( xa −1 ) µα ( xa )
xa
xk −1
xk
Anschauung: wir summieren Knoten
aus, und
schicken das Ergebnis weiter an Knoten
51
„Message Passing“ Algorithmus
Maschinelles Lernen II
Austausch von „Beta“ Nachrichten von rechts nach
links
µ (x ) = 1
β
N
=
Für k N=
-1,..., a: µ β ( xk )
∑ψ
k , k +1
( xk , xk +1 ) µ β ( xk +1 )
xk +1
µ β ( xa )
µ β ( xa +1 ) µ β ( xN −1 )
xa
xk +1
xk
Anschauung: wir summieren Knoten
aus, und
schicken das Ergebnis weiter an Knoten
52
„Message Passing“ Algorithmus
Maschinelles Lernen II
xa
Nachrichten treffen sich im Anfrageknoten
µα ( x2 ) µα ( xa −1 ) µα ( xa )
µ β ( xa )
µ β ( xa +1 ) µ β ( xN −1 )
xa
Randverteilung ohne Evidenz ergibt sich als Produkt
der Nachrichten
p ( xa ) = µ β ( xa ) µα ( xa )
53
„Message Passing“ mit Evidenz
Maschinelles Lernen II
Evidenz: Leichte Modifikation des MessagePassing Algorithmus
Falls xk+1 unbeobachtet ist, summieren wir diesen Knoten aus
k + 1 ∉ {i1 , ..., im }
⇒ µ β ( xk ) =∑ ψ k ,k +1 ( xk , xk +1 ) µ β ( xk +1 )
xk +1
Falls xk+1 beobachtet ist, verwenden wir nur den
entsprechenden Summanden
x k +1 beobachteter Wert (Evidenz)
k + 1 ∈ {i1 ,..., im }
⇒ µ β ( xk ) =
ψ k ,k +1 ( xk , xk +1 ) µ β ( xk +1 )
54
Inferenz: Message-Passing
Maschinelles Lernen II
Laufzeit:
Berechnung einer Nachricht:
∀ xk :
µ β ( xk ) =
∑ ψ k ,k +1 ( xk , xk +1 )µβ ( xk +1 )
xk +1
⇒ O( K 2 ) für Berechnung einer Nachricht (K diskrete Zustände)
N Nachrichten insgesamt
⇒ O( NK 2 ) Gesamtlaufzeit
O( K N )
Viel besser als naive Inferenz mit
55
Inferenz in Allgemeinen Graphen
Maschinelles Lernen II
Grundidee Message-Passing auf Polytrees:
Umwandlung in Faktor-Graph (ungerichteter Baum)
Ursprünglicher Graph
x1
x2
Faktor-Graph
x3
x4
x5
Gemeinsame Verteilung
p ( x1 , x2 , x3 , x4 , x5 ) =
p( x1 ) p( x2 ) p ( x3 | x1 , x2 ) p ( x4 ) p ( x5 | x3 , x4 )
Faktor-Knoten
- Für jeden Faktor in der gemeinsamen
Verteilung gibt es einen Faktor-Knoten
- Ungerichtete Kanten von den Faktor-Knoten
zu den im Faktor auftauchenden Variablen
Faktor
56
Inferenz in Allgemeinen Graphen (Skizze)
Falls der ursprüngliche Graph ein Polytree war, ist der FaktorGraph ein ungerichteter Baum (dh zykelfrei).
Spezialfall
lineare Kette
Blätter
xa
Maschinelles Lernen II
xa
xa
Betrachten Anfragevariable
als Wurzel des Baumes
Nachrichten von den Blättern zur Wurzel schicken (immer
eindeutiger Pfad, weil Baum)
Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und
Variablen-Nachrichten
57
Inferenz in Allgemeinen Graphen
Inferenz in Graphen, die keine Polytrees sind?
Approximativer Ansatz: Iteratives Message-Passing Schema,
wegen Zyklen im Graph nicht exakt
x1
x2
x3
„Loopy Belief
Propagation“
x4
p (x) = p ( x1 ) p ( x2 | x1 ) p ( x3 | x1 ) p ( x4 | x2 , x3 )
Alternative für exakte Inferenz in allgemeinen Graphen:
Graph in einen äquivalenten azyklischen Graphen umwandeln
„Junction Tree“ Algorithmus, (i.A. exponentielle Laufzeit)
58
Maschinelles Lernen II
Approximative Inferenz
Exakte Inferenz NP-hart: In der Praxis spielen
approximative Inferenzverfahren wichtige Rolle
Wir betrachten Sampling-basierte Verfahren
Maschinelles Lernen II
Relativ einfach zu verstehen/implementieren
Praktisch brauchbar
59
Inferenz: Sampling-basiert
Maschinelles Lernen II
Grundidee Sampling:
p(z )
Wir interessieren uns für eine Verteilung
, z.B.
bedingte Verteilung über Anfragevariablen in
p(z )
graphischem Modell)
Es ist schwierig,
direkt auszurechnen
(k )
z
p(z ) wir „Samples“
i.i.d., k = 1,...,(Stichproben)
K,
Stattdessen ~ziehen
z(k )
z
jedes Sample
ist eine vollständige Belegung der
Zufallsvariablen
in
z (1) , z (2) ,..., z ( K )
Die Samples
Verteilung
approximieren die
60
Inferenz: Sampling-basiert
Maschinelles Lernen II
Beispiel:
z = {z}
Eindimensionale Verteilung,
Diskrete Variable mit Zuständen {0,…,6}: Anzahl
„Kopf“ bei 6 Münzwürfen
Sample-Histogramm
Anteil
Samples
Echte Verteilung (Binomial)
K →∞
mit Wert z
z
61
Inferenz: Sampling-basiert
Maschinelles Lernen II
Wie erhalten wir Samples aus der gesuchten
p (Verteilung
z)
?
Markov Chain Monte Carlo: Klasse von SamplingVerfahren, die in der Praxis oft effizientes Samplen
ermöglichen
z
62
Inferenz: MCMC
Maschinelles Lernen II
Markov Chain Monte Carlo („MCMC“)
Idee:
Strategie: Konstruiere Folge von Samples
z (0) → z (1) → z (2) → z (3) → z (4) → z (5) → ...
z (0) zufällig initialisiert
z (t +1) = update(z t )
durch mehrfache probabilistische Update-Schritte
Wenn Updates geeignet gewählt, gilt asymptotisch
z (T ) ~ p ( z )
ungefähr, für sehr grosse T
ZV: T-te Variablenbelegung
63
Inferenz: Gibbs Sampling
Maschinelles Lernen II
Gibbs Sampling: Eine Version von MCMC
Lokales Ziehen einer ZV gegeben den Zustand
aller anderen Variablen
x = ( x1 ,..., xN )
Gegeben aktueller Zustand
x ' = ( x1 ',..., xN ')
Ziehen des neuen Zustands
:
Bisher gesampelte
(alte) Werte
x1 ' ~ p ( x1 | x2 ,..., xN )
x2 ' ~ p ( x2 | x1 ', x3 , ..., xN )
x3 ' ~ p ( x3 | x1 ', x2 ', x4 , ..., xN )
...
xN ' ~ p ( xN | x1 ', x2 ', ..., xN −1 ')
64
Gibbs-Sampling mit Evidenz
Gibbs Sampling kann einfach Evidenz
berücksichtigen
Maschinelles Lernen II
Mit Evidenz: Nur die unbeobachteten Variablen
werden jeweils neu gezogen, die beobachteten
Variablen werden fest auf den beobachteten Wert
p ( x | x , x , ..., xn−1 , xn+1 ,..., xN −1 ) ≠ 0
gesetzt n 1 2
Satz: Falls
für alle n
und alle möglichen Zustände xi , dann folgen die
generierten Samples asymptotisch der gesuchten
Verteilung
65
Hidden Markov Modelle
Maschinelles Lernen II
Hidden Markov Modelle für sequentielle Daten
Probabilistischer Automat:
Versteckte Zustände, Beobachtungen
Zustände
(versteckt)
q1
q2
q3
q4
…
Beobachtungen
O1
O2
O3
O4
…
66
Maschinelles Lernen II
Part 4: Niels Landwehr
ZUSAMMENFASSUNG:
CLUSTERANALYSE I
67
Überblick
Deterministischer Ansatz: K-Means
Probabilistischer Ansatz: Gaußsche Mischmodelle
Maschinelles Lernen II
68
Clusteranalyse: Was ist Clustern?
Wir haben Datenpunkte
Maschinelles Lernen II
Merkmalsvektoren
Wir wollen Einteilung der Datenpunkte in „Cluster“
69
Problemstellung Clustering
(Deterministisch)
Problemstellung k-Means: Gesucht sind
Zuweisung der Daten zu Clustern:
µ1 ,..., µ K ∈ K ,
k=
1,..., K
Clusterzentren
K-Means Algorithmus: abwechselnde Neuberechnung
von Clusterzentren und Clusterzugehörigkeiten
70
Maschinelles Lernen II
K-Means: Beispiel K = 2
Maschinelles Lernen II
71
K-Means: Beispiel K = 2
Maschinelles Lernen II
72
K-Means: Beispiel K = 2
Maschinelles Lernen II
73
K-Means: Beispiel K = 2
Maschinelles Lernen II
74
K-Means: Beispiel K = 2
Maschinelles Lernen II
75
K-Means: Beispiel K = 2
Maschinelles Lernen II
76
K-Means: Beispiel K = 2
Maschinelles Lernen II
77
Überblick
Deterministischer Ansatz: K-Means
Probabilistischer Ansatz: Gaußsche Mischmodelle
Maschinelles Lernen II
78
Probabilistisches Clustern: Gaußsches
Mischmodell
Generativer Prozess zur Erzeugung der Daten
Cluster wählen, anschliessend Datenpunkt
generieren
versteckt
p ( z , x) = p ( z ) p ( x | z )
beobachtet
Wähle
Clusterkomponente
Maschinelles Lernen II
Generiere Daten
aus Komponente
79
Probabilistisches Clustern: Gaußsches
Mischmodell
Maschinelles Lernen II
Verteilung über Clusterkomponenten: Multinomialverteilung
Verteilung der Daten in einem Cluster k: normalverteilt
Clusterzentrum
p (x | zk= 1)= (x | µk , Σ k )
=
Clusterkovarianz
1
1
exp − (x − µk )T Σ k −1 (x − µk )
Z
2
Normalisierer
Z = 2π D /2 | Σ |1/2
Beispiel D=2: Dichte, Samples aus Verteilung
80
EM Algorithmus
Betrachte Q-Funktion
Maschinelles Lernen II
Clustern = Anpassen des Modells an Daten (Maximum
Likelihood)
Iteratives Verfahren EM: bestimme Parameter Θ1 , Θ 2 , Θ3 ,...
Parameterwert
im letzten Schritt
Erwartungswert über p ( Z | X , Θ)
Beginne mit zufälligem Θ1 . Iteriere:
Expectation:
Maximization:
81
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
82
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
83
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
84
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
85
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
86
Maschinelles Lernen II
Part 5: Christoph Sawade
ZUSAMMENFASSUNG:
CLUSTERANALYSE II
87
Überblick
Hierarchische Clusterverfahren
Graphen-basierte Clusterverfahren
Maschinelles Lernen II
88
Clustern
Gegeben:
Maschinelles Lernen II
Objekte V = {x1 ,..., x n }
Distanzfunktion dist ( x i , x j ) ≥ 0 oder
=
w ij sim ( x i , x j ) ≥ 0
Ähnlichkeitsfunktion
Erwartete Clusteranzahl k
Ziel: Partition P1 ,...Pk , wobei Pi ∩ Pj =
∅,
hoher intra-cluster-Ähnlichkeit
niedriger inter-cluster-Ähnlichkeit
P =V
i
mit…
i =1...n
89
Optimales Clustering
Maschinelles Lernen II
Berechnung des globalen Optimum bzgl. inter- und
intra-cluster-Ähnlichkeit ist nicht effizient
Vgl. k-means:
n
k
min r ∑∑ rij x i − µ j
2
=i 1 =j 1
Bestimmung eines lokalen Optimums
EM-Algorithmus (siehe letzte VL)
Heuristik (Hierarchisches Clustering)
Relaxation (Spectral Clustering)
90
Hierarchisches Clustern
Agnes (Algorithmus)
Geg.: Objekte V , Inter-Cluster Metrik d
0 {{x} | ∀x ∈ V}
Setze =
Solange unterschiedliche Cluster existieren
Maschinelles Lernen II
berechne min. Distanz über alle C v , C w ∈ i −1
=
min v,w d ( C v , C w ) ; Di min v,w d ( C v , C w )
( s, t ) arg
v
s
t
Setze =i {C | ∀v ≠ s, t} ∪ {C ∪ C }
Liefere 0 , 1 ,... zurück
91
Hierarchisches Clustern
Diana (Algorithmus)
Maschinelles Lernen II
Geg.: Objekte V , Inter-Cluster Metrik d
Setze 0 = {V}
Solange mehr-elementige Cluster existieren
Bestimme Cluster mit höchsten Durchmesser
Bestimme unähnlichstes Element
s = arg max v∈C d ( C, C {v} ) und setze C = {s}
=
D ( v ) d ( v, C C ) − d ( v, C )
Solange m ax v∈C C D ( v ) > 0 , wobei
C = arg max C∈i−1 max s,t∈C d ( s, t )
t = arg m ax v∈C C D ( v )
C= C ∪ {t}
i ( i −1 {C}
Setze =
)∪ CC ∪ C
{
} {}
Liefere 0 , 1 ,... zurück
92
Graphen-basiertes Clustern
Ähnlichkeitsgraph
Maschinelles Lernen II
Ähnlichkeit zwischen Datenpunkten V
(Knoten) bilden gewichtete Kanten:
Vollständiger Graph: Kantengewichte = Ähnlichkeit
knn-Graph: Kante, wenn
Knoten i (oder j) einer der k
nächsten Nachbarn von j (bzw. i)
ε -Nachbarschaftsgraph:
Kante, wenn dist vi , v j < ε
(
)
93
Beobachtung
Zusammenhängende Teilgraphen…
entspricht Anzahl Eigenwerte von L mit Wert 0.
zugehörige (unnormierte) Eigenvektoren enthalten
Indikatorvektoren der Teilgraphen.
Erkenntnis für schwach zusammenhäng. Teilgraphen?
λ1 =λ 2 =λ 3 =0
f1 = (1,...1, 0,...0, 0,...0 ) / # Bsp. in C1
f 2 = ( 0,...0,1,...1, 0,...0 ) / # Bsp. in C2
f 3 = ( 0,...0, 0,...0,1,...1) / # Bsp. in C3
2
1 n
λ =f L un f = f Df − f =
Wf
w
f
−
f
∑ i, j ( i j )
2 i, j=1
T
T
T
94
Maschinelles Lernen II
Minimaler Schnitt
Spezialfall k=2
Der minimale s-t-Schnitt
ist P* = arg min P⊂ V Cut s,t (P)
s
t
Problem ist in polynomieller
Laufzeit lösbar (Ford/Fulkerson; Dinic)
Der minimale Schnitt ist der minimale
s-t-Schnitt über alle s-t-Schnitte: Cut(P) = ∑ v ∈P,v ∈P w ij
i
j
Problem ist in polynomieller Laufzeit lösbar
( nm + n 2 log n )
95
Maschinelles Lernen II
Minimaler Schnitt
Balanzierung
MinCut-Lösung separiert häufig einzelne Knoten.
Balanzierung:
Maschinelles Lernen II
1 Cut(P) Cut(P)
=
ut ( P, P )
+
RatioC
,
2 P
P
wobei |P| die Anzahl der Knoten in P ist.
=
Ncut ( P )
1 Cut(P) Cut(P)
+
, wobei vol ( P ) = ∑ d i
2 vol(P) vol(P)
vi ∈P
Balanziertes MinCut-Problem ist NP-hart.
96
Minimaler Schnitt
Balanzierung
, wenn vi ∈ P
Maschinelles Lernen II
P/P
Lemma 1: Sei fi =
− P / P
dann gilt
, sonst
V ⋅ RatioCut ( P ) =
f T L un f
vol ( P ) / vol ( P )
, wenn vi ∈ P
Lemma 2: Sei fi =
− vol ( P ) / vol ( P ) , sonst
dann gilt
vol(V) ⋅ NCut ( P ) =
f T Lsym f
97
Spectral-Clustering (unnormalisiert)
Relaxation
Maschinelles Lernen II
RatioCut
n
n
2
=
min f T Lf , wobei=
f
0,
f
∑i ∑i n
P⊂V
=i 1 =i 1
98
Spectral-Clustering (unnormalisiert)
Relaxation
Maschinelles Lernen II
NP-hart
RatioCut
n
n
2
min f T Lf , wobei=
f
0,
f
=
∑i ∑i n
P⊂V
=i 1 =i 1
Eigenwertproblem
(Unnormalisiertes)
Spectral-Clustering
n
n
T
2
minn f Lf , wobei=
f
0,
f
=
∑i ∑i n
f ∈
=i 1 =i 1
Diskretisierung:
sign(f i )
99
Spectral-Clustering (unnormalisiert)
Verallgemeinerung auf k>2
1
Cut ( Pi )
∑
2 i =1...k
Cut(Pi )
1
RatioCut(P1 ,...Pk ) = ∑
2 i =1...k | Pi |
Cut(Pi )
1
Ncut(P1 ,...Pk ) = ∑
2 i =1...k vol(Pi )
Maschinelles Lernen II
Cut(P1 ,...Pk ) =
P/P
fi =
− P / P
, wenn vi ∈ P
, sonst
1/ P
j
Fij =
− 1/ Pj
, wenn vi ∈ Pj
, sonst
RatioCut(P1 ,...Pk ) = Tr ( FT LF )
100
Spectral-Clustering (unnormalisiert)
Relaxierung (k>2)
Maschinelles Lernen II
NP-hart
RatioCut
min Tr ( FT LF ) , wobei FT F = I
P1 ,...,Pk
Eigenwertproblem
(Unnormalisiertes) Spectral-Clustering
T
T
min
Tr
F
LF
,
wobei
F
F=I
(
)
n ×k
F∈
Diskretisierung: k-means auf Fi
101
Spectral-Clustering (unnormalisiert)
Algorithmus
n×n
Geg.: Adjazenzmatrix W ∈ ≥ 0 , Clusteranzahl k
Berechne zugehörige Laplacematrix L un
Berechne die kleinsten k Eigenvektoren u i ∈ n
von L un
Setze − x1 − |
|
− x
n
Maschinelles Lernen II
=
u
...
u
k
1
− |
|
Berechne Cluster C j aus Datenpunkte x i
Liefere C j zurück
102
Maschinelles Lernen II
Part 6: Blaine Nelson
SUMMARY: PCA & SUBSPACE
ANALYSIS
103
Overview – Subspace Methods
Maschinelles Lernen II
Principal Component Analysis (PCA)
Kernel-PCA
Fisher Linear Discriminant Analysis
Canonical Correlation Analysis
104
Principal Component Analysis (PCA)
Find direction 𝐰 maximizing projected variance
Consider random variable 𝐱~𝑃𝑋 .
The projected variance onto (normalized) 𝐮1 is
E proj𝐮1 𝐱
2
= E 𝐮1 T 𝐱𝐱 T 𝐮1 = 𝐮1 T 𝐸 𝐱𝐱 T 𝐮1
𝚺𝐱𝐱
�𝑥𝑥 = 1 𝐗𝐗T
Empirical covariance matrix is:
𝚺
𝑛
�𝑥𝑥 𝐮1 w.r.t. 𝐮1 , with 𝐮1 T 𝐮1 = 1
Maximize 𝐮1 T 𝚺
Maschinelles Lernen II
�𝑥𝑥 𝐮1 + 𝜆1 1 − 𝐮1 T 𝐮1
Lagrangian: 𝐮1 T 𝚺
�𝑥𝑥 𝐮1 = 𝜆1 𝐮1
Taking its derivative & setting it to 0: 𝚺
This is an eigenvalue problem
105
Kernel PCA
Maschinelles Lernen II
Idea: data spans subspace of ≤ min 𝑚, 𝑛 dims
𝑚×𝑛
Let 𝐱 = 𝟎, then with help from the data, 𝐗 ∈ ℝ
�𝑥𝑥 𝐮1 = 𝜆1 𝐮1 𝐯1 = 𝐗T𝐮1
𝚺
𝐗𝐯1 = 𝑛𝜆1 𝐮1 , 𝐗 T 𝐗𝐗1 = 𝑛𝜆1 𝐯1
Kernel Matrix 𝐊 𝑥𝑥
Has same 𝑛 − 1 eigen-solutions: 𝐮𝑖 =
1
𝑛𝜆𝑖
𝐗𝐯𝑖
The eigenvector problem is thus equivalently
transformed:
𝚺𝐮𝑖 = 𝜆𝑖 𝐮𝑖
𝐊𝛂𝑖 = 𝑛𝜆𝑖 𝛂𝑖
106
Fisher-Discriminant Analysis (FDA)
Optimization criterion of PCA:
Maximize the data‘s variance in the subspace.
max𝐮 𝐮T 𝚺𝐮, where 𝐮T 𝐮 = 1
Optimization criterion of FDA:
Maximize between-class variance and minimize withinclass variance within the subspace.
Variance
max𝐮
Maschinelles Lernen II
per class
𝚺𝑤 = 𝚺+1 + 𝚺−1
, where
𝚺𝑏 = 𝐱+1 − 𝐱−1 𝐱+1 − 𝐱−1
𝐮T 𝚺𝑏 𝐮
𝐮T 𝚺𝑤 𝐮
Optimization criterion of FDA for 𝑘 classes yields a
generalized eigenvalue problem
T
107
Canonical Correlation Analysis (CCA)
We have 2 different representations of same data 𝐱:
&
𝐱 𝑏 ← 𝜓𝑏 𝐱
𝐱 𝑎 ← 𝜓𝑎 𝐱
Find correlated directions 𝐮𝑎 ∈ 𝑋𝑎 & 𝐮𝑏 ∈ 𝑋𝑏
Correlation of its projection onto 𝐮𝑎 & 𝐮𝑏 is
E 𝐮𝑎 T 𝐱𝑎 𝐮𝑏 T 𝐱 𝑏
𝜌𝑎𝑎 =
E 𝐮𝑎 T 𝐱 𝑎 𝐮𝑎 T 𝐱𝑎 ∙ E 𝐮𝑏 T 𝐱𝑏 𝐮𝑏 T 𝐱 𝑏
CCA finds pair of directions to maximize covariance
T�
max
𝐮
𝑋 𝚺𝑎𝑎 𝐮𝑌
T
T
𝐮𝑎 𝚺𝑎𝑎 𝐮𝑎 =𝐮𝑏 𝚺𝑏𝑏 𝐮𝑏 =1
One can show that we must solve a generalized
eigenvalue problem
108
Maschinelles Lernen II
Maschinelles Lernen II
Part 7: Blaine Nelson
SUMMARY: ADVERSARIAL
LEARNING
109
Adversarial Learning
Benefits of machine learning
Maschinelles Lernen II
Classifier Evasion
Adversarial-Aware Classification
Game Theoretic Approaches
Rapid adaptability to changing trends
Scalability to large, diverse data
Statistically sound decision-making
We’d like to use learning in security domains
110
Attack Taxonomy
Attack Properties
Influence
Causative – influences
training and test data
Exploratory –
influences test data
Security
violation
Integrity – goal is false
negatives (FNs)
Availability – goal is
false positives (FPs)
Specificity
Targeted – influence
prediction on particular
test instance
Indiscriminate –
influence prediction on
all test instances
Maschinelles Lernen II
Axis
Can Machine Learning be Secure? (2006)
The Security of Machine Learning (2010)
111
Near-Optimal Evasion Problem
𝑚-dimensional space known by adversary
Initial negative point 𝐱 − & positive target 𝐱 ∗
Adversary cost is a weighted 1 cost from 𝐱 ∗
Desired accuracy 𝜀
binary search within (1 + 𝜀) factor of opt. in 𝐿𝜀 steps
Find near-optimum with polynomial queries
𝐱−
positive class
negative class
classifier
boundary (1 + 𝜀)
0
𝐿𝜀 steps
1 cost
Maschinelles Lernen II
Near-Optimal Evasion
Convex-Inducing Classifier: 1 classifier set is convex
positive class
negative class
positive class
𝐾-step Line Search (positive set is convex)
negative class
Motivation: breadth- or depth-first both 𝑂 𝑚 ∙ 𝐿𝜀
Tradeoff between bound progress & pruning
Take 𝐾 steps in one direction & query remaining
For 𝐾 =
𝐿𝜀 :
𝑂 𝐿𝜀 + 𝑚 ∙ 𝐿𝜀 queries
Maschinelles Lernen II
Evasion-Resistant Classifiers
We want classifiers to be robust to evasion
P 𝑥𝑓 | +
P +|𝐱
P +
log
= log
+ � log
P −|𝐱
P −
P 𝑥𝑓 | −
𝑓
After learning, the adversary attempts to evade 𝑓 by
transforming data with adversarial transform
𝐴: 𝐱 → 𝐱′
To counter, we adjust P 𝑥𝑓 | +
Naïve Bayes log-odds estimate is
We need to account for all P 𝐱′| + s.t. 𝐴 𝐱′ = 𝐱.
We anticipate whether adversary should change 𝐱.
P𝐴 derived to define adversary-aware classifier, 𝑓𝐴
114
Maschinelles Lernen II
Adversarial Games in Machine Learning
Player 1 (Learner):
𝑓𝐰 𝐱 = sgn 𝐰 T 𝐱
Learner chooses model 𝐰 to minimize loss
𝜃−1 𝐰, 𝐷̇ = � 𝑐−1,𝑖 𝐿−1 𝑓𝐰 𝐱 𝑖 , 𝑦𝑖 + Ω−1 𝐰
𝐱 𝑖 ,𝑦𝑖 ∈𝐷̇
Player 2 (Attacker): 𝐴 changes test data: 𝐷 → 𝐷̇
Maschinelles Lernen II
The transform is limited by regularizer Ω+1
𝜃+1 𝐰, 𝐷̇ = � 𝑐+1,𝑖 𝐿+1 𝑓𝐰 𝐱 𝑖 , 𝑦𝑖 + Ω+1 𝐷, 𝐷̇
𝐱𝑖 ,𝑦𝑖 ∈𝐷̇
If 𝜃−1 & 𝜃+1 are antagonistic, minimax is optimal
A Nash equilibrium may exists & be unique
115
Maschinelles Lernen II
Part 8: Christoph Sawade
ZUSAMMENFASSUNG:
HYPOTHESENBEWERTUNG
116
Überblick
Konfidenzintervalle
Statistische Tests
Maschinelles Lernen II
117
Konfidenzintervalle
Maschinelles Lernen II
Hypothesenbewertung: Was ist der erwartete
Fehler (Risiko) eines Modells?
R [ f ] = ∫ ( y, f (x) ) p ( x, y ) dxdy
Da p ( x, y ) unbekannt ist, muss es aus Daten
geschätzt werden, z.B.:
n
1
Rˆ [ f ] = ∑ ( yi , f (xi ) ) , wobei ( yi , xi ) ~ p ( y, x )
n i =1
Was sagt R̂ [ f ] über R [ f ] aus?
118
Konfidenzintervalle
Idee Konfidenzintervall:
Maschinelles Lernen II
Intervall um den geschätzten Fehler R̂ angeben
so dass der echte Fehler „meistens“ im Intervall liegt
Quantifiziert Unsicherheit der Schätzung
Weg zum Konfidenzintervall: Analyse der Verteilung der
Zufallsvariable R̂
R̂
[
]
R
119
Verteilung für Fehlerschätzer
Maschinelles Lernen II
Betrachten zunächst unnormalisierten Fehlerschätzer
m
mRˆ = ∑ j =1 0 /1 ( y j , f (x j ))
Summe über Beispielverluste 0/1 ( y j , f (x j )) ∈{0,1}
Beispiele unabhängig: Summe über Münzwürfe
Münzparameter ist Fehlerwahrscheinlichkeit R
120
Binomialverteilung
Unnormalisiertes empirisches Risiko
m
mRˆ = ∑ j =1 0 /1 ( y j , f (x j ))
ist Summe von Bernouilli-Variablen, also binomialverteilt:
mRˆ ~ Bin(mRˆ | m, R)
Wir beobachten k = ∑ i =1 0/1 ( yi , f (xi )) Fehler.
m
Was sagt k über den wirklichen Fehler aus?
Wir suchen „Münzparameter“, unter denen die
Wahrscheinlichkeit der Beobachtung mindestens 1 − α ist.
Oder: Finde Münzparameter U und L, so dass
α
pU mRˆ ≤=
k
pL mRˆ ≥=
k
2
(
)
(
)
Binomiale Zufallsvariable
mit Parameter L bzw. U
121
Maschinelles Lernen II
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II
α 0.05,
=
m 100,
=
k 15
Beispiel:=
122
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II
α 0.05,
=
m 100,
=
k 15
Beispiel:=
(
)
pL mRˆ ≥ 15 =
0.025
[
L
123
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II
α 0.05,
=
m 100,
=
k 15
Beispiel:=
(
)
pU mRˆ ≤ 15 =
0.025
[
]
L
U
124
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II
Weg zum Konfidenzintervall: Analyse der
Verteilung der Zufallsvariable
m Münzwürfen
Fehlerschätzer entspricht
m
Wir beobachten k = ∑ 0/1 ( yi , f (xi )) Fehler.
i =1
α
Wir suchen U und L, so dass pU ( mRˆ ≤=
k ) pL ( mRˆ ≥=
k)
2
α
= pU mRˆ ≤ k
2
(
)
k
α
= pL mRˆ ≥ k
2
(
)
k −1
= ∑Bin ( i | U , m )
= 1 − ∑Bin ( i | L, m )
= Beta (1 − U | m − k , k + 1)
= 1 − Beta (1 − L | m − k + 1, k )
α
U = 1 − Beta −1 | m − k , k + 1
2
α
1 − Beta −1 1 − | m − k + 1, k
L=
2
i =0
i =0
125
Wald-Konfidenzintervall
Empirisches Risiko annähernd normalverteilt:
(
Rˆ ~ Rˆ | R, σ rˆ 2
σ Rˆ =
2
)
[approximativ, für große m]
Rˆ (1− Rˆ )
m
Für die weitere Analyse betrachten wir das
standardisierte Risiko, dieses ist standardnormalverteilt:
Rˆ − R
σ Rˆ
Maschinelles Lernen II
Rˆ − R
~
| 0,1
σˆ
R
[approximativ, für große m]
Schätzen der Varianz des empirischen Risikos:
σ Rˆ ≈ sRˆ
2
2
Rˆ (1− Rˆ )
s =
m −1
2
Rˆ
126
Wald-Konfidenzintervall
Weg zum Konfidenzintervall: Analyse der
Verteilung der Zufallsvariable
Fehlerschätzer ist Summe aus n i.i.d. Zufallsvariablen
asymptotisch normalverteilt
α
Wir suchen U und L, so dass pU ( nRˆ ≤ =
k ) pL ( nRˆ ≥ =
k)
2
α
α
=
= pU nRˆ ≤ k
2
2
Rˆ − U
k / n −U
=
= pU n
≤ n
σ
σ
k / n −U
=
= Φ n
σ
k
α σ
L=
U=
− Φ −1 n
n
2
n
(
)
(
pL nRˆ ≥ k
)
L − Rˆ
L−k /n
≤ n
pL n
σ
σ
L−k /n
Φ n
σ
k
α σ
+ Φ −1
n
2 n
127
Maschinelles Lernen II
Wilson-Konfidenzintervall
Maschinelles Lernen II
Aus Normalverteilungsannahme folgt, dass mit
Wahrscheinlichkeit 1 − α gilt
Rˆ − R
m
α
≤ Φ −1 1 −
2
R (1 − R )
Quadrieren ergibt quadratische Ungleichung, die
geschlossene Lösung für R hat:
RL ,U
2
z
Rˆ + α
2n ± z
=
α
zα2
1+
n
2
z
α
Rˆ (1 − Rˆ ) +
4n
,
2
z
n+ α
n
α
Φ −1 1 −
zα =
2
128
Konfidenzintervall
Maschinelles Lernen II
Theoretische Konfidenz: 1 − α
CP-Intervall zu pessimistisch (hoher Typ II Fehler)
Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler)
Wilson adäquat
n=100
1
coverage
0.95
0.9
0.85
0
0.5
k/n
1
129
Statistische Tests
Maschinelles Lernen II
Hypothesenvergleich: Ist mein Modell besser als
die Baseline-Methode?
R [ f1 ] < R [ f 2 ]
Da p ( x, y ) unbekannt ist, müssen Risiken aus
Daten geschätzt werden.
n
1
Rˆ [ f ] = ∑ ( yi , f (xi ) ) , wobei ( yi , xi ) ~ p ( y, x )
n i =1
Was sagt der beobachtete Unterschied Rˆ [ f1 ] − Rˆ [ f 2 ]
über R [ f1 ] − R [ f 2 ] aus?
130
Statistische Tests
Was sagt der beobachtete Unterschied Rˆ [ f1 ] − Rˆ [ f 2 ]
über R [ f1 ] − R [ f 2 ] aus?
Wenn Rˆ [ f1 ] − Rˆ [ f 2 ] < 0 gibt es Grund zur Annahme,
dass Modell 1 besser ist.
Wenn man sich daraufhin für Modell 1 entscheidet,
verwirft man die (Null-) Hypothese, dass Rˆ [ f1 ] − Rˆ [ f 2 ] < 0
nur ein Zufallseffekt war.
Ein statistischer Test kann die Entscheidung für ein
scheinbar besseres Modell rechtfertigen.
131
Maschinelles Lernen II
Statistische Tests
Ein Test ist eine Prozedur mit den Eingaben
Maschinelles Lernen II
Nullhypothese,
Beobachtungen
Parameter (Type 1 Fehler) α
Ein Test hat die möglichen Ausgaben
„Nullhypothese abgelehnt“ – das Gegenteil der
Nullhypothese gilt.
„nicht abgelehnt“ – keine Schlussfolgerung möglich,
kein neues Wissen gewonnen.
132
Statistische Tests
Maschinelles Lernen II
Weg zu einem statischen Test: Analyse der
Verteilung der Zufallsvariable unter der
Nullhypothese.
cα
T
133
p-Wert
Die Aussage „Nullhypothese abgelehnt“ ist nicht
sehr informativ
p-Wert: kleinste Signifikanz-Niveau α , für das die
Nullhypothese abgelehnt wird
Maschinelles Lernen II
Wahrscheinlichkeit unter Annahme der
Nullhypothese, dass die wirkliche Teststatistik größer
ist, als die beobachtete
Achtung: keine Wahrscheinlichkeit, dass
Nullhypothese richtig ist!
Ursache für großen p-Wert
Nullhypothese richtig ODER
Nullhypothese falsch, aber Test zu schwach
134
p-Wert
Maschinelles Lernen II
p-Wert: kleinste Signifikanz-Niveau α , für das die
Nullhypothese abgelehnt wird
T ( x ) cα
T
135
Vorzeichen-Test
Seien x1 ,…, x n unabhängig und identisch verteilt
mit Median m
h 0 : m = µ 0 vs. h1 : m ≠ µ 0
Lehne Nullhypothese ab, gdw. T ( x ) > c
unter h 0 binomial-verteilt
n
n
T ( x ) max ∑ x i − µ 0 > 0, ∑ x i − µ 0 < 0
=
=
i 1 =i 1
α
−1
=
c BinCDFn,0.5 1 −
2
Maschinelles Lernen II
θˆ − θ0
n
( 0,1)
σ
Wald-Test
Seien x1 ,…, x n unabhängig normalverteilt mit
Erwartungswert µ und bekannter Varianz σ2
h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0
Lehne Nullhypothese ab, gdw. T ( x ) > c
T(x)
=
n
µˆ n − µ 0
σ
α
−1
c Φ 1 −
=
2
unter h 0 normalverteilt
1 n
, µn = ∑ xi
n i =1
Maschinelles Lernen II
θˆ − θ0
n
t n ( 0,1)
Sn
t-Test
Seien x1 ,…, x n unabhängig normalverteilt mit
Erwartungswert µ und unbekannter Varianz
h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0
Lehne Nullhypothese ab, gdw. T ( x ) > c
unter h 0 t-verteilt
(n-1 Freiheitsgrade)
n
µˆ n − µ 0
1
2
ˆ
=
−
µ
, S2n
x
T(x)
n
( i n)
∑
Sn
n i =1
α
−1
=
c Fn −1 1 −
2
Für kleine n besser geeignet als Wald-Test.
Maschinelles Lernen II
Dualität
Ein Test mit Signifikanzniveau α verwirft die
Nullhypothese h 0 : µ = µ 0 , genau dann nicht, wenn µ 0
innerhalb des 1 − α -Vertrauensintervalls liegt.
139
Maschinelles Lernen II