Maschinelles Lernen und Data Mining

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Maschinelles Lernen II
Zusammenfassung
Uwe Dick/Peter Haider/Niels Landwehr/Blaine Nelson/Christoph Sawade
Tobias Scheffer
Maschinelles Lernen II
Part 1: Uwe Dick
ZUSAMMENFASSUNG:
REINFORCEMENT LEARNING
2
Lernen aus Interaktionen
Maschinelles Lernen II
Umgebung
•Reward
•Beobachtu
ng
Aktionen
Agent
Controller
Markov Decision Processes
Markov-Entscheidungsprozess (S,A,R,P)

S : Zustandsmenge

A : Aktionsmenge

P : Übergangswahrscheinlichkeiten: Markov

R : Erwarteter Reward. Beschreibt den sofort
erzielten Gewinn: Markov

Discount factor
.
Maschinelles Lernen II

MDP
Eine deterministische stationäre Policy bildet
Zustände auf Aktionen ab.

Stochastische Policy: Funktion von Zuständen auf
eine Verteilung von Aktionen.

Ziel: Finde Policy ¼, die den erwarteten
kumulativen (discounted) Gewinn maximieren.
Maschinelles Lernen II

Value Functions und BellmanGleichungen
Value function V¼(s) für einen Zustand s und Policy ¼
beschreibt den erwarteten kumulativen Gewinn der
von diesem Zustand aus erreicht wird.

Bellman-Gleichung:
Maschinelles Lernen II

Policy Iteration
Allgemeines Verfahren zum Bestimmen der
optimalen Policy.

Iteriere:

Policy Evaluation:


Gegeben Policy ¼k, bestimme
Policy Improvement:


Inferiere verbesserte Policy ¼k+1 aus
z.B. greedy Policy:
Maschinelles Lernen II

Policy Evaluation
Monte-Carlo Methoden: Simulieren bzw. Samplen
von Trajektorien. Mitteln der beobachteten
kumulativen Gewinne.

Iteratives Verfahren: TD(0)

Für V¼

bzw. Q¼

Konvergiert gegen V¼ bzw. Q¼ für k→1
Maschinelles Lernen II

Value Iteration

für Q* :

Konvergiert gegen V* bzw. Q* für k→1
Maschinelles Lernen II

Value Iteration für das Kontrollproblem.
Für V *:

TD(¸)
Maschinelles Lernen II

Updateregel:

TD(¸) Update:

0·¸·1 interpoliert zwischen 1-step und MC.
Funktionsapproximation
Darstellen der Value Function als parametrisierte
Funktion aus dem Funktionsraum F mit
Parametervektor µ.

Vorhersageproblem: Finde Parametervektor µ, so
dass V¼, bzw. Q¼ am besten approximiert wird.
Maschinelles Lernen II

Bellman-Residuen-Minimierung—Residual
Gradient
Temporal Difference Methode.

Bellman-Gleichung als Fixpunkt-Gleichung.

Linke Seite als Fehler interpretieren: Bellman
Residuum. ¹ stationäre Verteilung von Zuständen.

Empirisch:
Maschinelles Lernen II

Least-Squares Temporal Difference



Q ist aus Funktionsraum F.
T¼Q aber nicht notwendigerweise.
LSTD minimiert den quadratischen Abstand
zwischen Q und der Projektion von T¼Q auf F.
LSTD oft bessere Ergebnisse als Residual
Gradient.
Maschinelles Lernen II

TD(0) und Gradientenabstieg
Update-Regel für TD(0):
θt +1 =
θt + α t  R( st , at ) + γ Qˆ ( st +1 , at +1 ;θ ) − Qˆ ( st , at ;θ )  ∇θ Qˆ ( st , at ;θt )

Spezialfall lineare Funktionsapproximation
θt +1 =
θt + α t  R( st , at ) + γφ T ( st +1 , at +1 )θt − φ T ( st , at )θt  φ ( st , at )

TD(0) leider kein echter Gradient. Idee: Verwende
anderes Optimierungskriterium.
E[δ t (θ )φt ]T E[δ t (θ )φt ]
Maschinelles Lernen II

Policy Gradient

Lernen einer stochastischen Policy.
Die Policy wird explizit repräsentiert, z.B. als Gibbs
Verteilung

Lerne , so dass
minimiert wird

Idee: (stochastische) Gradientenmethode
Maschinelles Lernen II

Maschinelles Lernen II
Part 2: Peter Haider
ZUSAMMENFASSUNG:
RECOMMENDATION
16
Recommendation



Maschinelles Lernen II

Empfehlung von Produkten, Informationen,
Personen, Musik, …
Ziel: Rausfilterung von unwichtigen /
unerwünschten / unsympathischen Optionen;
Finden von wichtigen / gefallenden / beliebten
Optionen
Basierend auf Transaktionen aus der
Vergangenheit: Käufe, Bewertungen, Klicks, …
Nutzerspezifisch: Keine globale Sortierung der
Optionen, sondern persönliche Empfehlung
17
Inhaltsbasierte Recommendation

Featureabbildung φ: X → Rd notwendig
Unabhängige Lernprobleme:


Maschinelles Lernen II

Normale Regressions- oder
Klassifikationsformalisierung
Gemeinsames Lernproblem:

Verteilung der Gewichtsvektoren um gemeinsamen,
gleichzeitig gelernten, Mittelpunkt
18
Kollaborative Recommendation

Keine Featureabbildung nötig.
K-Nearest-Neighbor:


Maschinelles Lernen II

Vorhersage berechnet sich als gewichtetes Mittel der
Bewertungen der ähnlichsten Nutzer
Latente Features:

Gleichzeitiges Lernen von versteckten
„Geschmacks“-Featurevektoren von Benutzern und
Objekten
19
Maschinelles Lernen II
Part 3: Niels Landwehr
ZUSAMMENFASSUNG: GRAPHISCHE
MODELLE
20
Graphische Modelle

Maschinelles Lernen II

Modellierung einer Domäne mit verschiedenen
Zufallsgrössen
Gemeinsame Verteilung, insb. Abhängigkeiten
21
Überblick
Graphische Modelle: Einführung

Graphische Modelle im Maschinellen Lernen

Inferenz in Graphischen Modellen
Maschinelles Lernen II

22
Graphische Modelle: Einführung am
Beispiel
Beispiel: „Alarm“ Szenario





Maschinelles Lernen II

Unser Haus in LA hat eine Alarmanlage.
Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm
hört. Wenn eingebrochen wurde, wollen wir zurück kommen.
Leider ist der Nachbar nicht immer zu Hause
Leider geht die Alarmanlage auch bei kleinen Erdbeben los
5 binäre Zufallsvariablen
B
Burglary – Einbruch hat stattgefunden
E
Earthquake – Erdbeben hat stattgefunden
A
Alarm – Alarmanlage geht los
N
NeighborCalls – Nachbar ruft an
R
RadioReport – Bericht über Erdbeben im Radio
23
Graphische Modelle: Einführung am
Beispiel


Maschinelles Lernen II

Ziel: Repräsentation der gemeinsamen Verteilung
p(B,E,A,N,R)
Wähle Variablenordnung: z.B. B<E<A<N<R
Produktregel:
p ( B, E , A, N , R) = p ( B, E , A, N ) p ( R | B, E , A, N )
= p ( B, E , A) p ( N | B, E , A) p ( R | B, E , A, N )
= p ( B, E ) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N )
= p ( B) p ( E | B ) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N )
Faktoren beschreiben die Verteilung einer Zufallsvariablen in
Abhängigkeit anderer Zufallsvariablen.
24
Graphische Modelle: Einführung am
Beispiel
Maschinelles Lernen II
p ( B, E , A, N , R) = p ( B) p ( E | B) p ( A | B, E ) p ( N | B, E , A) p ( R | B, E , A, N )

Idee: vereinfache Faktoren durch
Unabhängigkeitsannahmen
p( E | B) = p( E )
p ( A | B, E ) = p ( A | B, E )
p ( N | B, E , A) = p ( N | A)
p ( R | B, E , A, N ) = p( R | E )
Erdbeben hängt nicht von Einbruch ab
Alarm hängt von Einbruch und Erdbeben ab
Anruf von Nachbar hängt nur von Alarm ab
Nachricht im Radio hängt nur von Erdbeben ab
p ( B, E , A, N , R) = p ( B) p ( E ) p ( A | E , B) p ( N | A) p ( R | E )

Vereinfachte Darstellung der gemeinsamen Verteilung:
Vereinfachte Faktoren
25
Graphische Modelle: Einführung am
Beispiel
P(B=1)
P(E=1)
0.1
0.2
B
B
E
P(A=1|B,E)
0
0
0.01
0
1
0.5
1
0
0.9
1
1
0.95
Modellierte Verteilung:
p ( B, E , A, N , R) = p ( B) p ( E ) p ( A | E , B) p ( N | A) p ( R | E )
E
A
E
P(R=1|E)
0
0.01
1
0.5
R
Graphisches Modell:
- Jede ZV ist ein Knoten
- Für jeden Faktor der Form p( X | X 1 ,..., X k )
N
A
P(N=1|A)
0
0.1
1
0.7
fügen wir gerichtete Kanten von den X i zu X ein
- Modell ist parametrisiert mit den bedingten
Verteilungen p( X | X 1 ,..., X k )
26
Maschinelles Lernen II
Graphisches Modell für „Alarm“ Szenario

Graphische Modelle: Unabhängigkeit
Die Graphstruktur impliziert Unabhängigkeiten
zwischen Mengen von ZV

„D-separation“ Kriterium, um Unabhängigkeiten aus
Graphstruktur abzulesen


Maschinelles Lernen II

A,B unabhängig gegeben C gdw jeder Pfad von
Knoten in A zu Knoten in B blockiert ist gegeben C
Menge einfacher Regeln, wann Pfade blockiert sind
27
Divergierende Verbindungen
B
Maschinelles Lernen II
Divergierende Verbindung
E
A
R
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
N

Α ⊥ R|∅
Betrachte Pfad A←E→R. Gilt
?

Nein, p( A | R) ≠ p ( A)

RadioReport ⇒ wahrscheinlich Erdbeben ⇒ wahrscheinlich Alarm

ZV R beeinflusst ZV A über die divergierende Verbindung R ← E → A
28
Divergierende Verbindungen
B
E
A
R
N

B=„Einbruch“
E=„Erdbeben“
A=„Alarm“


N=„Nachbar ruft an“
R=„Radio Bericht“
beobachteter Knoten
Α⊥ R|E
Betrachte Pfad A←E→R. Gilt

Maschinelles Lernen II
Divergierende Verbindung
?
Ja, p( A | R) = p( A)
Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die
Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport
Der divergierende Pfad R ← E → A wird durch Beobachtung von E blockiert
29
Serielle Verbindungen
Maschinelles Lernen II
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
R
N=„Nachbar ruft an“
R=„Radio Bericht“
Serielle
Verbindung
N

Β ⊥ Ν|∅
Betrachte Pfad N ← A ← B. Gilt


Nein, p ( B | N ) ≠ p ( B)
?
[Ausrechnen mit gemeinsamer Verteilung]
Intuitiv:
NeighborCalls ⇒ wahrscheinlich Alarm ⇒ wahrscheinlich Burglary
p ( B = 1| N = 1) > p ( B = 1| N = 0)

ZV N beeinflusst ZV B über den seriellen Pfad N ← A ← B
30
Serielle Verbindungen
E
A
R
Serielle
Verbindung
N

B=„Einbruch“
E=„Erdbeben“
A=„Alarm“

Ja, p ( B | N , A) = p ( B | A)
N=„Nachbar ruft an“
R=„Radio Bericht“
beobachteter Knoten
Β⊥Ν| A
Betrachte Pfad N ← A ← B. Gilt

Maschinelles Lernen II
B
?
[Ausrechnen mit gemeinsamer Verteilung]
Intuitiv:
Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die
Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft

Der serielle Pfad N ← A ← B wird durch Beobachtung von A blockiert.
31
Konvergierende Verbindung
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
Maschinelles Lernen II
Konvergierende
Verbindung
N=„Nachbar ruft an“
R=„Radio Bericht“
R
N

Β ⊥ Ε|∅
Betrachte Pfad B → A ← E. Gilt
?

Ja, p ( B | E ) = p( B)

Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben

Der konvergierende Pfad B → A ← E ist blockiert wenn A nicht beobachtet ist
32
Konvergierende Verbindung
B
E
A
N

B=„Einbruch“
E=„Erdbeben“
A=„Alarm“


N=„Nachbar ruft an“
R=„Radio Bericht“
R
beobachteter Knoten
Β ⊥Ε| A
Betrachte Pfad B → A ← E. Gilt

Maschinelles Lernen II
Konvergierende
Verbindung
?
Nein, p( B | E ) ≠ p( B)
Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das
den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away").
Der konvergierende Pfad B → A ← E wird freigegeben durch Beobachtung von A
33
D-Separation: Korrektheit, Vollständigkeit

Maschinelles Lernen II

Gegeben ein graphisches Modell über {X1,…,XN} mit
Graphstruktur G.
Das GM modelliert eine Verteilung durch
N
p ( X 1 ,..., X N ) = ∏ p ( X i | pa ( X i ))
i =1
abhängig von den bedingten Verteilungenp( X n | pa( X n )) .

Theorem (Korrektheit, Vollständigkeit d-separation)


( A | B, C ) = p ( A | C )
Falls A,B d-separiert gegeben C in G, pdann
Es gibt keine anderen Unabhängigkeiten, die für jede
p ( X i | pa ( X i ))
Wahl der bedingten Verteilungen
gelten.
34
Überblick
Graphische Modelle: Einführung

Graphische Modelle im Maschinellen Lernen

Inferenz in Graphischen Modellen
Maschinelles Lernen II

35
Münzwürfe als graphisches Modell

Maschinelles Lernen II

X 1 ,..., X N
Münzwurf: N Bernoulli-verteilte Zufallsvariablen
µ
Parameter
, Beta-Prior
N
pα k ,α z ( X 1 ,..., =
X N , µ ) pα k ,α z ( µ ) ∏ p ( X i | µ )


 i =1



Prior
Likelihood

Darstellung als graphisches Modell:
µ
pa ( µ ) = ∅
pa ( X i ) = {µ}
…
X1
X2
X3
…
XN
36
Parameterschätzung als Inferenzproblem
MAP-Parameterschätzung Münzwurf

µ = arg max µ pα k ,α z ( µ | x1 ,..., xN )

Inferenzproblem:
pα k ,α z ( µ )
Maschinelles Lernen II

µ
…
p( X | µ ) X
1


X2
X3
…
XN
p( X | µ )
Evidenz auf den Knoten X1,…, XN
Wahrscheinlichster Zustand des Knotens μ gegeben X1,…, XN
37
Plate-Modelle
Plate Notation
µ
µ
…
X2
X1

Maschinelles Lernen II

X3
Plate Notation
…
Plate
XN
Xi
N
Ein „Plate“ ist eine abkürzende Notation für N
Variablen der gleichen Form


Bezeichnet mit Anzahl der Variablen, N
Variablen haben Index (z.B. Xi ).
38
Erinnerung: Bayessche Lineare
Regression
Maschinelles Lernen II

Diskriminatives Setting: xi fest, Verteilung über
Label yi Lineares Modell plus Gaußsches
y
Rauschen
p ( y | x,=
w ) w T x + N ( y | 0, σ 2 )
wT x
x

Bayessches
Setting:
Prior auf Parametervektor
2
2
p (w | τ ) = N (w | 0,τ I )
w, y1 ,..., y N
x1 ,..., x N , σ ,τ
39
Bayessche Lineare Regression als
Graphisches Modell
p ( y1 , ..., yN , w | x1 ,..., x N , σ ,τ ) = p (w | τ ) ∏ p ( yi | xi , w, σ 2 )


 i =1
Prior


2
2
Likelihood
Graphisches Modell, N=3
τ
Graphisches Modell, Plate-Notation
τ
w
σ
w
σ
yi
y1
y2
y3
xi
x1
x2
N
x3
40
Maschinelles Lernen II
N
2
MAP Parameterschätzung als
Inferenzproblem
τ
w
Maschinelles Lernen II
τ
σ
w
σ
yn
y1
y2
y3
xn
x1

x2
N
x3
MAP Parameterschätzung: wahrscheinlichstes Modell
gegeben Daten

w * = arg max w p (w | y1 ,..., y N , x1 ,..., x N , σ 2 ,τ 2 )

Inferenzproblem: was ist der wahrscheinlichste Zustand für
Knoten w, gegeben beobachtete Knoten y1,…, yN ?
41
Bayes-optimale Vorhersage
Klassifikation mit MAP Modell:
w * = arg max w p (w | L, X , σ 2 ,τ 2 )
y* = arg max y p ( y | x, w * , σ 2 )
X = ( x1 ... x N ) Merkmalsvektoren
= w *T x

Statt MAP Modell kann man auch direkt die
Bayes‘sche Vorhersageverteilung ausrechnen:
p ( y | x, L, X , σ 2 ,τ 2 ) = ∫ p ( y | x, w, σ 2 ) p (w | L, X , σ 2 ,τ 2 )dw
Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu
legen
42
Maschinelles Lernen II

Bayessche Lineare Regression als
Graphisches Modell
Bayessche Vorhersage: Erweiterung des Modells
durch neue Testinstanz (neue Zufallsvariable y)
 N

p ( y1 ,..., yN , y, w | x1 ,..., x N , x, σ ,τ ) = p (w | τ )  ∏ p ( yi | w, xi , σ 2 )  p ( y | w, x, σ 2 )
 i =1

2
2
2
Graphisches Modell, N=3
τ
w
y1
x1
y2
x2
τ
σ
x
σ
w
yn
y
y3
x3
Plate Notation
xn
y
N
x
43
Maschinelles Lernen II

Bayessche Lineare Regression als
Graphisches Modell
Maschinelles Lernen II

Bayessche Vorhersage


y* = arg max y p ( y | x, L, X , σ 2 ,τ 2 )
Inferenzproblem: was ist der wahrscheinlichste Zustand für
Knoten y, gegeben beobachtete Knoten y1,…, yN ?
44
Überblick
Graphische Modelle: Einführung

Graphische Modelle im Maschinellen Lernen

Inferenz in Graphischen Modellen
Maschinelles Lernen II

45
Problemstellung Inferenz
Gegeben Bayessches Netz über Menge von ZV {X1,…,XN }.

Problemstellung Inferenz:
{i1 ,..., im } ⊆ {1,..., N }
a ∈ {1,..., N }  {i1 ,..., im }

Variablen mit EvidenzX i ,..., X i
Anfrage-VariableX a

Berechne Randverteilung über Anfrage-Variable gegeben Evidenz

1
Bedingte Verteilung
über ZV X a
m
Maschinelles Lernen II

Evidenz: beobachtete
Werte für ZV X i1 ,..., X im
Berechne p( xa | xi1 ,..., xim )
46
Exakte Inferenz: Naiv
Maschinelles Lernen II

Naive Inferenz:
Notation :{ X 1 ,..., X N } = { X a , X i1 ,..., X im , X j1 ,..., X jk }
  
AnfrageVariable
p ( xa | xi1 ,..., xim ) =
Evidenz-Variablen restliche Variablen
p ( xa , xi1 ,..., xim )
p ( xi1 ,..., xim )
1
p ( xa , xi1 ,..., xim )
Z
1
=
⋅⋅⋅∑ p ( x1 ,..., xN )
∑∑
Z x j1 x j2 x jk
=
Zentrales Problem: Aussummieren aller restlichen
Variablen (exponentiell, wenn naiv gelöst)
47
Graphische Modelle: Inferenz
Inferenz schwieriges Problem




Maschinelles Lernen II

Allgemeine Graphische Modelle: exakte Inferenz NPhart
Es gibt Algorithmen für exakte Inferenz in
Graphischen Modellen, deren Laufzeit von den
Eigenschaften der Graphstruktur abhängt
(„Message-Passing“)
Es gibt verschiedene Techniken für approximative
Inferenz (Sampling, Variational Inference,
Expectation Propagation)
Wir betrachten


Message-Passing Algorithmus: in Spezialfällen
Sampling-basierte approximative Inferenz
48
Effiziente exakte Inferenzmethoden?
Maschinelles Lernen II

Idee „Message Passing“: Lokale Berechnungen, die entlang der
Graphstruktur propagiert werden

Knoten schicken sich gegenseitig „Nachrichten“, die Ergebnisse
von Teilberechnungen enthalten
49
Graphische Modelle: Inferenz auf linearer
Kette
Maschinelles Lernen II

Wir betrachten zunächst Spezialfall mit besonders einfacher
Struktur: lineare Kette von Zufallsvariablen
x1
x2
p ( x1 ) p ( x2 |x1 )
x3
p ( x |x )
…
x4
p ( x |x
)
3 2
N −1
 

N

=
p ( x1 ,..., xN ) ψ 1,2 ( x1 , x2 ) ψ 2,3 ( x2 , x3 ) ⋅ ... ⋅ψ N −1, N ( xN , xN −1 )

Darstellung der gemeinsamen Verteilung als Produkt von
Potenzialenψ i ,i +1 ( xi , xi +1 )
über je zwei ZV
50
„Message Passing“ Algorithmus
Maschinelles Lernen II

Austausch von „Alpha“ Nachrichten von links nach
rechts
µ (x ) = 1
α
1
=
=
Für k 2,...,
a:
µα ( xk )
∑ψ
k −1, k
( xk −1 , xk ) µα ( xk −1 )
xk −1
µα ( x2 ) µα ( xa −1 ) µα ( xa )
xa
xk −1
xk

Anschauung: wir summieren Knoten
aus, und
schicken das Ergebnis weiter an Knoten
51
„Message Passing“ Algorithmus
Maschinelles Lernen II

Austausch von „Beta“ Nachrichten von rechts nach
links
µ (x ) = 1
β
N
=
Für k N=
-1,..., a: µ β ( xk )
∑ψ
k , k +1
( xk , xk +1 ) µ β ( xk +1 )
xk +1
µ β ( xa )
µ β ( xa +1 ) µ β ( xN −1 )
xa
xk +1
xk

Anschauung: wir summieren Knoten
aus, und
schicken das Ergebnis weiter an Knoten
52
„Message Passing“ Algorithmus
Maschinelles Lernen II

xa
Nachrichten treffen sich im Anfrageknoten
µα ( x2 ) µα ( xa −1 ) µα ( xa )
µ β ( xa )
µ β ( xa +1 ) µ β ( xN −1 )
xa

Randverteilung ohne Evidenz ergibt sich als Produkt
der Nachrichten
p ( xa ) = µ β ( xa ) µα ( xa )
53
„Message Passing“ mit Evidenz
Maschinelles Lernen II

Evidenz: Leichte Modifikation des MessagePassing Algorithmus

Falls xk+1 unbeobachtet ist, summieren wir diesen Knoten aus
k + 1 ∉ {i1 , ..., im }
⇒ µ β ( xk ) =∑ ψ k ,k +1 ( xk , xk +1 ) µ β ( xk +1 )
xk +1

Falls xk+1 beobachtet ist, verwenden wir nur den
entsprechenden Summanden
x k +1 beobachteter Wert (Evidenz)
k + 1 ∈ {i1 ,..., im }
⇒ µ β ( xk ) =
ψ k ,k +1 ( xk , xk +1 ) µ β ( xk +1 )
54
Inferenz: Message-Passing
Maschinelles Lernen II

Laufzeit:

Berechnung einer Nachricht:
∀ xk :
µ β ( xk ) =
∑ ψ k ,k +1 ( xk , xk +1 )µβ ( xk +1 )
xk +1
⇒ O( K 2 ) für Berechnung einer Nachricht (K diskrete Zustände)

N Nachrichten insgesamt
⇒ O( NK 2 ) Gesamtlaufzeit
O( K N )

Viel besser als naive Inferenz mit
55
Inferenz in Allgemeinen Graphen
Maschinelles Lernen II

Grundidee Message-Passing auf Polytrees:

Umwandlung in Faktor-Graph (ungerichteter Baum)
Ursprünglicher Graph
x1
x2
Faktor-Graph
x3
x4
x5
Gemeinsame Verteilung
p ( x1 , x2 , x3 , x4 , x5 ) =
p( x1 ) p( x2 ) p ( x3 | x1 , x2 ) p ( x4 ) p ( x5 | x3 , x4 )

Faktor-Knoten
- Für jeden Faktor in der gemeinsamen
Verteilung gibt es einen Faktor-Knoten
- Ungerichtete Kanten von den Faktor-Knoten
zu den im Faktor auftauchenden Variablen
Faktor
56
Inferenz in Allgemeinen Graphen (Skizze)
Falls der ursprüngliche Graph ein Polytree war, ist der FaktorGraph ein ungerichteter Baum (dh zykelfrei).
Spezialfall
lineare Kette
Blätter
xa



Maschinelles Lernen II

xa
xa
Betrachten Anfragevariable
als Wurzel des Baumes
Nachrichten von den Blättern zur Wurzel schicken (immer
eindeutiger Pfad, weil Baum)
Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und
Variablen-Nachrichten
57
Inferenz in Allgemeinen Graphen

Inferenz in Graphen, die keine Polytrees sind?
Approximativer Ansatz: Iteratives Message-Passing Schema,
wegen Zyklen im Graph nicht exakt
x1
x2
x3
„Loopy Belief
Propagation“
x4
p (x) = p ( x1 ) p ( x2 | x1 ) p ( x3 | x1 ) p ( x4 | x2 , x3 )

Alternative für exakte Inferenz in allgemeinen Graphen:


Graph in einen äquivalenten azyklischen Graphen umwandeln
„Junction Tree“ Algorithmus, (i.A. exponentielle Laufzeit)
58
Maschinelles Lernen II

Approximative Inferenz
Exakte Inferenz NP-hart: In der Praxis spielen
approximative Inferenzverfahren wichtige Rolle

Wir betrachten Sampling-basierte Verfahren


Maschinelles Lernen II

Relativ einfach zu verstehen/implementieren
Praktisch brauchbar
59
Inferenz: Sampling-basiert
Maschinelles Lernen II

Grundidee Sampling:

p(z )
Wir interessieren uns für eine Verteilung
, z.B.
bedingte Verteilung über Anfragevariablen in
p(z )
graphischem Modell)
Es ist schwierig,
direkt auszurechnen

(k )
z
p(z ) wir „Samples“
i.i.d., k = 1,...,(Stichproben)
K,
Stattdessen ~ziehen

z(k )
z
jedes Sample
ist eine vollständige Belegung der
Zufallsvariablen
in
z (1) , z (2) ,..., z ( K )

Die Samples
Verteilung
approximieren die
60
Inferenz: Sampling-basiert
Maschinelles Lernen II

Beispiel:


z = {z}
Eindimensionale Verteilung,
Diskrete Variable mit Zuständen {0,…,6}: Anzahl
„Kopf“ bei 6 Münzwürfen
Sample-Histogramm
Anteil
Samples
Echte Verteilung (Binomial)
K →∞
mit Wert z
z
61
Inferenz: Sampling-basiert

Maschinelles Lernen II

Wie erhalten wir Samples aus der gesuchten
p (Verteilung
z)
?
Markov Chain Monte Carlo: Klasse von SamplingVerfahren, die in der Praxis oft effizientes Samplen
ermöglichen
z
62
Inferenz: MCMC

Maschinelles Lernen II

Markov Chain Monte Carlo („MCMC“)
Idee:

Strategie: Konstruiere Folge von Samples
z (0) → z (1) → z (2) → z (3) → z (4) → z (5) → ...
z (0) zufällig initialisiert
z (t +1) = update(z t )
durch mehrfache probabilistische Update-Schritte

Wenn Updates geeignet gewählt, gilt asymptotisch
z (T ) ~ p ( z )
ungefähr, für sehr grosse T
ZV: T-te Variablenbelegung
63
Inferenz: Gibbs Sampling

Maschinelles Lernen II

Gibbs Sampling: Eine Version von MCMC
Lokales Ziehen einer ZV gegeben den Zustand
aller anderen Variablen


x = ( x1 ,..., xN )
Gegeben aktueller Zustand
x ' = ( x1 ',..., xN ')
Ziehen des neuen Zustands
:
Bisher gesampelte
(alte) Werte



x1 ' ~ p ( x1 | x2 ,..., xN )
x2 ' ~ p ( x2 | x1 ', x3 , ..., xN )
x3 ' ~ p ( x3 | x1 ', x2 ', x4 , ..., xN )
...
xN ' ~ p ( xN | x1 ', x2 ', ..., xN −1 ')
64
Gibbs-Sampling mit Evidenz
Gibbs Sampling kann einfach Evidenz
berücksichtigen


Maschinelles Lernen II

Mit Evidenz: Nur die unbeobachteten Variablen
werden jeweils neu gezogen, die beobachteten
Variablen werden fest auf den beobachteten Wert
p ( x | x , x , ..., xn−1 , xn+1 ,..., xN −1 ) ≠ 0
gesetzt n 1 2
Satz: Falls
für alle n
und alle möglichen Zustände xi , dann folgen die
generierten Samples asymptotisch der gesuchten
Verteilung
65
Hidden Markov Modelle
Maschinelles Lernen II

Hidden Markov Modelle für sequentielle Daten
Probabilistischer Automat:
Versteckte Zustände, Beobachtungen
Zustände
(versteckt)
q1
q2
q3
q4
…
Beobachtungen
O1
O2
O3
O4
…
66
Maschinelles Lernen II
Part 4: Niels Landwehr
ZUSAMMENFASSUNG:
CLUSTERANALYSE I
67
Überblick
Deterministischer Ansatz: K-Means

Probabilistischer Ansatz: Gaußsche Mischmodelle
Maschinelles Lernen II

68
Clusteranalyse: Was ist Clustern?
Wir haben Datenpunkte
Maschinelles Lernen II

Merkmalsvektoren

Wir wollen Einteilung der Datenpunkte in „Cluster“
69
Problemstellung Clustering
(Deterministisch)
Problemstellung k-Means: Gesucht sind



Zuweisung der Daten zu Clustern:
µ1 ,..., µ K ∈  K ,
k=
1,..., K
Clusterzentren
K-Means Algorithmus: abwechselnde Neuberechnung
von Clusterzentren und Clusterzugehörigkeiten
70
Maschinelles Lernen II

K-Means: Beispiel K = 2
Maschinelles Lernen II
71
K-Means: Beispiel K = 2
Maschinelles Lernen II
72
K-Means: Beispiel K = 2
Maschinelles Lernen II
73
K-Means: Beispiel K = 2
Maschinelles Lernen II
74
K-Means: Beispiel K = 2
Maschinelles Lernen II
75
K-Means: Beispiel K = 2
Maschinelles Lernen II
76
K-Means: Beispiel K = 2
Maschinelles Lernen II
77
Überblick
Deterministischer Ansatz: K-Means

Probabilistischer Ansatz: Gaußsche Mischmodelle
Maschinelles Lernen II

78
Probabilistisches Clustern: Gaußsches
Mischmodell
Generativer Prozess zur Erzeugung der Daten

Cluster wählen, anschliessend Datenpunkt
generieren
versteckt
p ( z , x) = p ( z ) p ( x | z )
beobachtet
Wähle
Clusterkomponente
Maschinelles Lernen II

Generiere Daten
aus Komponente
79
Probabilistisches Clustern: Gaußsches
Mischmodell

Maschinelles Lernen II

Verteilung über Clusterkomponenten: Multinomialverteilung
Verteilung der Daten in einem Cluster k: normalverteilt
Clusterzentrum
p (x | zk= 1)=  (x | µk , Σ k )
=
Clusterkovarianz
1
 1

exp  − (x − µk )T Σ k −1 (x − µk ) 
Z
 2

Normalisierer
Z = 2π D /2 | Σ |1/2
Beispiel D=2: Dichte, Samples aus Verteilung
80
EM Algorithmus

Betrachte Q-Funktion
Maschinelles Lernen II

Clustern = Anpassen des Modells an Daten (Maximum
Likelihood)
Iteratives Verfahren EM: bestimme Parameter Θ1 , Θ 2 , Θ3 ,...

Parameterwert
im letzten Schritt
Erwartungswert über p ( Z | X , Θ)

Beginne mit zufälligem Θ1 . Iteriere:

Expectation:

Maximization:
81
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
82
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
83
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
84
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
85
Beispiel Gaußsches Mischmodell
Clustering
Maschinelles Lernen II
86
Maschinelles Lernen II
Part 5: Christoph Sawade
ZUSAMMENFASSUNG:
CLUSTERANALYSE II
87
Überblick
Hierarchische Clusterverfahren

Graphen-basierte Clusterverfahren
Maschinelles Lernen II

88
Clustern
Gegeben:




Maschinelles Lernen II

Objekte V = {x1 ,..., x n }
Distanzfunktion dist ( x i , x j ) ≥ 0 oder
=
w ij sim ( x i , x j ) ≥ 0
Ähnlichkeitsfunktion
Erwartete Clusteranzahl k
Ziel: Partition P1 ,...Pk , wobei Pi ∩ Pj =
∅,


hoher intra-cluster-Ähnlichkeit
niedriger inter-cluster-Ähnlichkeit
 P =V
i
mit…
i =1...n
89
Optimales Clustering
Maschinelles Lernen II

Berechnung des globalen Optimum bzgl. inter- und
intra-cluster-Ähnlichkeit ist nicht effizient

Vgl. k-means:
n
k
min r ∑∑ rij x i − µ j
2
=i 1 =j 1

Bestimmung eines lokalen Optimums



EM-Algorithmus (siehe letzte VL)
Heuristik (Hierarchisches Clustering)
Relaxation (Spectral Clustering)
90
Hierarchisches Clustern
Agnes (Algorithmus)


Geg.: Objekte V , Inter-Cluster Metrik d
0 {{x} | ∀x ∈ V}
Setze =
Solange unterschiedliche Cluster existieren



Maschinelles Lernen II

berechne min. Distanz über alle C v , C w ∈ i −1
=
min v,w d ( C v , C w ) ; Di min v,w d ( C v , C w )
( s, t ) arg
v
s
t
Setze =i {C | ∀v ≠ s, t} ∪ {C ∪ C }
Liefere 0 , 1 ,... zurück
91
Hierarchisches Clustern
Diana (Algorithmus)


Maschinelles Lernen II

Geg.: Objekte V , Inter-Cluster Metrik d
Setze 0 = {V}
Solange mehr-elementige Cluster existieren

Bestimme Cluster mit höchsten Durchmesser

Bestimme unähnlichstes Element
s = arg max v∈C d ( C, C  {v} ) und setze C = {s}
=
D ( v ) d ( v, C  C ) − d ( v, C )
Solange m ax v∈C C D ( v ) > 0 , wobei

C = arg max C∈i−1 max s,t∈C d ( s, t )
t = arg m ax v∈C C D ( v )
 C= C ∪ {t}
i ( i −1  {C}
Setze =
)∪ CC ∪ C



{
} {}
Liefere 0 , 1 ,... zurück
92
Graphen-basiertes Clustern
Ähnlichkeitsgraph
Maschinelles Lernen II

Ähnlichkeit zwischen Datenpunkten V
(Knoten) bilden gewichtete Kanten:

Vollständiger Graph: Kantengewichte = Ähnlichkeit

knn-Graph: Kante, wenn
Knoten i (oder j) einer der k
nächsten Nachbarn von j (bzw. i)

ε -Nachbarschaftsgraph:
Kante, wenn dist vi , v j < ε
(
)
93
Beobachtung
Zusammenhängende Teilgraphen…



entspricht Anzahl Eigenwerte von L mit Wert 0.
zugehörige (unnormierte) Eigenvektoren enthalten
Indikatorvektoren der Teilgraphen.
Erkenntnis für schwach zusammenhäng. Teilgraphen?
λ1 =λ 2 =λ 3 =0
f1 = (1,...1, 0,...0, 0,...0 ) / # Bsp. in C1
f 2 = ( 0,...0,1,...1, 0,...0 ) / # Bsp. in C2
f 3 = ( 0,...0, 0,...0,1,...1) / # Bsp. in C3
2
1 n
λ =f L un f = f Df − f =
Wf
w
f
−
f
∑ i, j ( i j )
2 i, j=1
T
T
T
94
Maschinelles Lernen II

Minimaler Schnitt
Spezialfall k=2
Der minimale s-t-Schnitt
ist P* = arg min P⊂ V Cut s,t (P)


s
t
Problem ist in polynomieller
Laufzeit lösbar (Ford/Fulkerson; Dinic)
Der minimale Schnitt ist der minimale
s-t-Schnitt über alle s-t-Schnitte: Cut(P) = ∑ v ∈P,v ∈P w ij
i

j
Problem ist in polynomieller Laufzeit lösbar
 ( nm + n 2 log n )
95
Maschinelles Lernen II

Minimaler Schnitt
Balanzierung
MinCut-Lösung separiert häufig einzelne Knoten.

Balanzierung:

Maschinelles Lernen II

1  Cut(P) Cut(P) 
=
ut ( P, P )
+
RatioC

,
2  P
P 
wobei |P| die Anzahl der Knoten in P ist.

=
Ncut ( P )
1  Cut(P) Cut(P) 
+

 , wobei vol ( P ) = ∑ d i
2  vol(P) vol(P) 
vi ∈P

Balanziertes MinCut-Problem ist NP-hart.
96
Minimaler Schnitt
Balanzierung
, wenn vi ∈ P
Maschinelles Lernen II

 P/P

Lemma 1: Sei fi = 
− P / P
dann gilt

, sonst
V ⋅ RatioCut ( P ) =
f T L un f

 vol ( P ) / vol ( P )
, wenn vi ∈ P

Lemma 2: Sei fi = 
− vol ( P ) / vol ( P ) , sonst
dann gilt

vol(V) ⋅ NCut ( P ) =
f T Lsym f
97
Spectral-Clustering (unnormalisiert)
Relaxation
Maschinelles Lernen II

RatioCut
n
n
2
=
min f T Lf , wobei=
f
0,
f
∑i ∑i n
P⊂V
=i 1 =i 1
98
Spectral-Clustering (unnormalisiert)
Relaxation
Maschinelles Lernen II

NP-hart
RatioCut
n
n
2
min f T Lf , wobei=
f
0,
f
=
∑i ∑i n
P⊂V
=i 1 =i 1
Eigenwertproblem

(Unnormalisiertes)
Spectral-Clustering
n
n
T
2
minn f Lf , wobei=
f
0,
f
=
∑i ∑i n
f ∈

=i 1 =i 1
Diskretisierung:
sign(f i )
99
Spectral-Clustering (unnormalisiert)
Verallgemeinerung auf k>2


1
Cut ( Pi )
∑
2 i =1...k
Cut(Pi )
1
RatioCut(P1 ,...Pk ) = ∑
2 i =1...k | Pi |
Cut(Pi )
1
Ncut(P1 ,...Pk ) = ∑
2 i =1...k vol(Pi )
Maschinelles Lernen II

Cut(P1 ,...Pk ) =
 P/P

fi = 
− P / P

, wenn vi ∈ P
, sonst
 1/ P
j

Fij = 
− 1/ Pj

, wenn vi ∈ Pj
, sonst
RatioCut(P1 ,...Pk ) = Tr ( FT LF )
100
Spectral-Clustering (unnormalisiert)
Relaxierung (k>2)
Maschinelles Lernen II

NP-hart
RatioCut
min Tr ( FT LF ) , wobei FT F = I
P1 ,...,Pk
Eigenwertproblem

(Unnormalisiertes) Spectral-Clustering
T
T
min
Tr
F
LF
,
wobei
F
F=I
(
)
n ×k
F∈

Diskretisierung: k-means auf Fi
101
Spectral-Clustering (unnormalisiert)
Algorithmus





n×n
Geg.: Adjazenzmatrix W ∈  ≥ 0 , Clusteranzahl k
Berechne zugehörige Laplacematrix L un
Berechne die kleinsten k Eigenvektoren u i ∈  n
von L un
Setze  − x1 −   |
| 



− x
n

Maschinelles Lernen II

 

=
u
...
u
k
  1
−   |
| 
Berechne Cluster C j aus Datenpunkte x i
Liefere C j zurück
102
Maschinelles Lernen II
Part 6: Blaine Nelson
SUMMARY: PCA & SUBSPACE
ANALYSIS
103
Overview – Subspace Methods



Maschinelles Lernen II

Principal Component Analysis (PCA)
Kernel-PCA
Fisher Linear Discriminant Analysis
Canonical Correlation Analysis
104
Principal Component Analysis (PCA)

Find direction 𝐰 maximizing projected variance
Consider random variable 𝐱~𝑃𝑋 .



The projected variance onto (normalized) 𝐮1 is
E proj𝐮1 𝐱
2
= E 𝐮1 T 𝐱𝐱 T 𝐮1 = 𝐮1 T 𝐸 𝐱𝐱 T 𝐮1
𝚺𝐱𝐱
�𝑥𝑥 = 1 𝐗𝐗T
Empirical covariance matrix is:
𝚺
𝑛
�𝑥𝑥 𝐮1 w.r.t. 𝐮1 , with 𝐮1 T 𝐮1 = 1
Maximize 𝐮1 T 𝚺


Maschinelles Lernen II

�𝑥𝑥 𝐮1 + 𝜆1 1 − 𝐮1 T 𝐮1
Lagrangian: 𝐮1 T 𝚺
�𝑥𝑥 𝐮1 = 𝜆1 𝐮1
Taking its derivative & setting it to 0: 𝚺

This is an eigenvalue problem
105
Kernel PCA
Maschinelles Lernen II
Idea: data spans subspace of ≤ min 𝑚, 𝑛 dims
𝑚×𝑛
 Let 𝐱 = 𝟎, then with help from the data, 𝐗 ∈ ℝ
�𝑥𝑥 𝐮1 = 𝜆1 𝐮1 𝐯1 = 𝐗T𝐮1
𝚺
𝐗𝐯1 = 𝑛𝜆1 𝐮1 , 𝐗 T 𝐗𝐗1 = 𝑛𝜆1 𝐯1



Kernel Matrix 𝐊 𝑥𝑥
Has same 𝑛 − 1 eigen-solutions: 𝐮𝑖 =
1
𝑛𝜆𝑖
𝐗𝐯𝑖
The eigenvector problem is thus equivalently
transformed:
𝚺𝐮𝑖 = 𝜆𝑖 𝐮𝑖
𝐊𝛂𝑖 = 𝑛𝜆𝑖 𝛂𝑖
106
Fisher-Discriminant Analysis (FDA)
Optimization criterion of PCA:


Maximize the data‘s variance in the subspace.
max𝐮 𝐮T 𝚺𝐮, where 𝐮T 𝐮 = 1
Optimization criterion of FDA:

Maximize between-class variance and minimize withinclass variance within the subspace.
Variance
max𝐮

Maschinelles Lernen II

per class
𝚺𝑤 = 𝚺+1 + 𝚺−1
, where
𝚺𝑏 = 𝐱+1 − 𝐱−1 𝐱+1 − 𝐱−1
𝐮T 𝚺𝑏 𝐮
𝐮T 𝚺𝑤 𝐮
Optimization criterion of FDA for 𝑘 classes yields a
generalized eigenvalue problem
T
107
Canonical Correlation Analysis (CCA)
We have 2 different representations of same data 𝐱:
&
𝐱 𝑏 ← 𝜓𝑏 𝐱
𝐱 𝑎 ← 𝜓𝑎 𝐱



Find correlated directions 𝐮𝑎 ∈ 𝑋𝑎 & 𝐮𝑏 ∈ 𝑋𝑏
Correlation of its projection onto 𝐮𝑎 & 𝐮𝑏 is
E 𝐮𝑎 T 𝐱𝑎 𝐮𝑏 T 𝐱 𝑏
𝜌𝑎𝑎 =
E 𝐮𝑎 T 𝐱 𝑎 𝐮𝑎 T 𝐱𝑎 ∙ E 𝐮𝑏 T 𝐱𝑏 𝐮𝑏 T 𝐱 𝑏
CCA finds pair of directions to maximize covariance
T�
max
𝐮
𝑋 𝚺𝑎𝑎 𝐮𝑌
T
T
𝐮𝑎 𝚺𝑎𝑎 𝐮𝑎 =𝐮𝑏 𝚺𝑏𝑏 𝐮𝑏 =1

One can show that we must solve a generalized
eigenvalue problem
108
Maschinelles Lernen II

Maschinelles Lernen II
Part 7: Blaine Nelson
SUMMARY: ADVERSARIAL
LEARNING
109
Adversarial Learning

Benefits of machine learning





Maschinelles Lernen II

Classifier Evasion
Adversarial-Aware Classification
Game Theoretic Approaches

Rapid adaptability to changing trends
Scalability to large, diverse data
Statistically sound decision-making
We’d like to use learning in security domains
110
Attack Taxonomy
Attack Properties
Influence
Causative – influences
training and test data
Exploratory –
influences test data
Security
violation
Integrity – goal is false
negatives (FNs)
Availability – goal is
false positives (FPs)
Specificity
Targeted – influence
prediction on particular
test instance
Indiscriminate –
influence prediction on
all test instances


Maschinelles Lernen II
Axis
Can Machine Learning be Secure? (2006)
The Security of Machine Learning (2010)
111
Near-Optimal Evasion Problem



𝑚-dimensional space known by adversary
Initial negative point 𝐱 − & positive target 𝐱 ∗
Adversary cost is a weighted 1 cost from 𝐱 ∗
Desired accuracy 𝜀


binary search within (1 + 𝜀) factor of opt. in 𝐿𝜀 steps
Find near-optimum with polynomial queries
𝐱−
positive class
negative class
classifier
boundary (1 + 𝜀)
0
𝐿𝜀 steps
1 cost
Maschinelles Lernen II

Near-Optimal Evasion
Convex-Inducing Classifier: 1 classifier set is convex
positive class
negative class

positive class
𝐾-step Line Search (positive set is convex)




negative class
Motivation: breadth- or depth-first both 𝑂 𝑚 ∙ 𝐿𝜀
Tradeoff between bound progress & pruning
Take 𝐾 steps in one direction & query remaining
For 𝐾 =
𝐿𝜀 :
𝑂 𝐿𝜀 + 𝑚 ∙ 𝐿𝜀 queries
Maschinelles Lernen II

Evasion-Resistant Classifiers
We want classifiers to be robust to evasion



P 𝑥𝑓 | +
P +|𝐱
P +
log
= log
+ � log
P −|𝐱
P −
P 𝑥𝑓 | −
𝑓
After learning, the adversary attempts to evade 𝑓 by
transforming data with adversarial transform
𝐴: 𝐱 → 𝐱′
To counter, we adjust P 𝑥𝑓 | +



Naïve Bayes log-odds estimate is
We need to account for all P 𝐱′| + s.t. 𝐴 𝐱′ = 𝐱.
We anticipate whether adversary should change 𝐱.
P𝐴 derived to define adversary-aware classifier, 𝑓𝐴
114
Maschinelles Lernen II

Adversarial Games in Machine Learning
Player 1 (Learner):



𝑓𝐰 𝐱 = sgn 𝐰 T 𝐱
Learner chooses model 𝐰 to minimize loss
𝜃−1 𝐰, 𝐷̇ = � 𝑐−1,𝑖 𝐿−1 𝑓𝐰 𝐱 𝑖 , 𝑦𝑖 + Ω−1 𝐰
𝐱 𝑖 ,𝑦𝑖 ∈𝐷̇
Player 2 (Attacker): 𝐴 changes test data: 𝐷 → 𝐷̇


Maschinelles Lernen II

The transform is limited by regularizer Ω+1
𝜃+1 𝐰, 𝐷̇ = � 𝑐+1,𝑖 𝐿+1 𝑓𝐰 𝐱 𝑖 , 𝑦𝑖 + Ω+1 𝐷, 𝐷̇
𝐱𝑖 ,𝑦𝑖 ∈𝐷̇
If 𝜃−1 & 𝜃+1 are antagonistic, minimax is optimal
A Nash equilibrium may exists & be unique
115
Maschinelles Lernen II
Part 8: Christoph Sawade
ZUSAMMENFASSUNG:
HYPOTHESENBEWERTUNG
116
Überblick
Konfidenzintervalle

Statistische Tests
Maschinelles Lernen II

117
Konfidenzintervalle
Maschinelles Lernen II

Hypothesenbewertung: Was ist der erwartete
Fehler (Risiko) eines Modells?
R [ f ] = ∫  ( y, f (x) ) p ( x, y ) dxdy


Da p ( x, y ) unbekannt ist, muss es aus Daten
geschätzt werden, z.B.:
n
1
Rˆ [ f ] = ∑ ( yi , f (xi ) ) , wobei ( yi , xi ) ~ p ( y, x )
n i =1
Was sagt R̂ [ f ] über R [ f ] aus?
118
Konfidenzintervalle
Idee Konfidenzintervall:




Maschinelles Lernen II

Intervall um den geschätzten Fehler R̂ angeben
so dass der echte Fehler „meistens“ im Intervall liegt
Quantifiziert Unsicherheit der Schätzung
Weg zum Konfidenzintervall: Analyse der Verteilung der
Zufallsvariable R̂
R̂
[
]
R
119
Verteilung für Fehlerschätzer
Maschinelles Lernen II

Betrachten zunächst unnormalisierten Fehlerschätzer
m
mRˆ = ∑ j =1  0 /1 ( y j , f (x j ))



Summe über Beispielverluste  0/1 ( y j , f (x j )) ∈{0,1}
Beispiele unabhängig: Summe über Münzwürfe
Münzparameter ist Fehlerwahrscheinlichkeit R
120
Binomialverteilung
Unnormalisiertes empirisches Risiko
m
mRˆ = ∑ j =1  0 /1 ( y j , f (x j ))
ist Summe von Bernouilli-Variablen, also binomialverteilt:
mRˆ ~ Bin(mRˆ | m, R)

Wir beobachten k = ∑ i =1  0/1 ( yi , f (xi )) Fehler.
m



Was sagt k über den wirklichen Fehler aus?
Wir suchen „Münzparameter“, unter denen die
Wahrscheinlichkeit der Beobachtung mindestens 1 − α ist.
Oder: Finde Münzparameter U und L, so dass
α
pU mRˆ ≤=
k
pL mRˆ ≥=
k
2
(
)
(
)
Binomiale Zufallsvariable
mit Parameter L bzw. U
121
Maschinelles Lernen II

Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II

α 0.05,
=
m 100,
=
k 15
Beispiel:=
122
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II

α 0.05,
=
m 100,
=
k 15
Beispiel:=
(
)
pL mRˆ ≥ 15 =
0.025
[
L
123
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II

α 0.05,
=
m 100,
=
k 15
Beispiel:=
(
)
pU mRˆ ≤ 15 =
0.025
[
]
L
U
124
Clopper-Pearson-Konfidenzintervall
Maschinelles Lernen II

Weg zum Konfidenzintervall: Analyse der
Verteilung der Zufallsvariable


m Münzwürfen
Fehlerschätzer entspricht
m
Wir beobachten k = ∑  0/1 ( yi , f (xi )) Fehler.
i =1

α
Wir suchen U und L, so dass pU ( mRˆ ≤=
k ) pL ( mRˆ ≥=
k)
2
α
= pU mRˆ ≤ k
2
(
)
k
α
= pL mRˆ ≥ k
2
(
)
k −1
= ∑Bin ( i | U , m )
= 1 − ∑Bin ( i | L, m )
= Beta (1 − U | m − k , k + 1)
= 1 − Beta (1 − L | m − k + 1, k )
α

U = 1 − Beta −1  | m − k , k + 1
2

 α

1 − Beta −1 1 − | m − k + 1, k 
L=
 2

i =0
i =0
125
Wald-Konfidenzintervall
Empirisches Risiko annähernd normalverteilt:
(
Rˆ ~  Rˆ | R, σ rˆ 2
σ Rˆ =
2

)
[approximativ, für große m]
Rˆ (1− Rˆ )
m
Für die weitere Analyse betrachten wir das
standardisierte Risiko, dieses ist standardnormalverteilt:
Rˆ − R
σ Rˆ

Maschinelles Lernen II

 Rˆ − R

~ 
| 0,1
 σˆ

 R

[approximativ, für große m]
Schätzen der Varianz des empirischen Risikos:
σ Rˆ ≈ sRˆ
2
2
Rˆ (1− Rˆ )
s =
m −1
2
Rˆ
126
Wald-Konfidenzintervall
Weg zum Konfidenzintervall: Analyse der
Verteilung der Zufallsvariable



Fehlerschätzer ist Summe aus n i.i.d. Zufallsvariablen
asymptotisch normalverteilt
α
Wir suchen U und L, so dass pU ( nRˆ ≤ =
k ) pL ( nRˆ ≥ =
k)
2
α
α
=
= pU nRˆ ≤ k
2
2

Rˆ − U
k / n −U 
=
= pU  n
≤ n

σ
σ


k / n −U 

=
= Φ n

σ


k
α  σ
L=
U=
− Φ −1   n
n
2
n
 
(
)
(
pL nRˆ ≥ k
)

L − Rˆ
L−k /n
≤ n
pL  n

σ
σ


L−k /n

Φ n

σ


k
α  σ
+ Φ −1  
n
2 n
127
Maschinelles Lernen II

Wilson-Konfidenzintervall
Maschinelles Lernen II

Aus Normalverteilungsannahme folgt, dass mit
Wahrscheinlichkeit 1 − α gilt
Rˆ − R
m

 α
≤ Φ −1 1 − 
2
R (1 − R )

Quadrieren ergibt quadratische Ungleichung, die
geschlossene Lösung für R hat:
RL ,U
2
z
Rˆ + α
2n ± z
=
α
zα2
1+
n
2
z
α
Rˆ (1 − Rˆ ) +
4n
,
2
z
n+ α
n
 α
Φ −1 1 − 
zα =
2

128
Konfidenzintervall
Maschinelles Lernen II
Theoretische Konfidenz: 1 − α



CP-Intervall zu pessimistisch (hoher Typ II Fehler)
Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler)
Wilson adäquat
n=100
1
coverage

0.95
0.9
0.85
0
0.5
k/n
1
129
Statistische Tests
Maschinelles Lernen II

Hypothesenvergleich: Ist mein Modell besser als
die Baseline-Methode?
R [ f1 ] < R [ f 2 ]


Da p ( x, y ) unbekannt ist, müssen Risiken aus
Daten geschätzt werden.
n
1
Rˆ [ f ] = ∑ ( yi , f (xi ) ) , wobei ( yi , xi ) ~ p ( y, x )
n i =1
Was sagt der beobachtete Unterschied Rˆ [ f1 ] − Rˆ [ f 2 ]
über R [ f1 ] − R [ f 2 ] aus?
130
Statistische Tests
Was sagt der beobachtete Unterschied Rˆ [ f1 ] − Rˆ [ f 2 ]
über R [ f1 ] − R [ f 2 ] aus?



Wenn Rˆ [ f1 ] − Rˆ [ f 2 ] < 0 gibt es Grund zur Annahme,
dass Modell 1 besser ist.
Wenn man sich daraufhin für Modell 1 entscheidet,
verwirft man die (Null-) Hypothese, dass Rˆ [ f1 ] − Rˆ [ f 2 ] < 0
nur ein Zufallseffekt war.
Ein statistischer Test kann die Entscheidung für ein
scheinbar besseres Modell rechtfertigen.
131
Maschinelles Lernen II

Statistische Tests
Ein Test ist eine Prozedur mit den Eingaben




Maschinelles Lernen II

Nullhypothese,
Beobachtungen
Parameter (Type 1 Fehler) α
Ein Test hat die möglichen Ausgaben


„Nullhypothese abgelehnt“ – das Gegenteil der
Nullhypothese gilt.
„nicht abgelehnt“ – keine Schlussfolgerung möglich,
kein neues Wissen gewonnen.
132
Statistische Tests
Maschinelles Lernen II

Weg zu einem statischen Test: Analyse der
Verteilung der Zufallsvariable unter der
Nullhypothese.
cα
T
133
p-Wert

Die Aussage „Nullhypothese abgelehnt“ ist nicht
sehr informativ
p-Wert: kleinste Signifikanz-Niveau α , für das die
Nullhypothese abgelehnt wird



Maschinelles Lernen II

Wahrscheinlichkeit unter Annahme der
Nullhypothese, dass die wirkliche Teststatistik größer
ist, als die beobachtete
Achtung: keine Wahrscheinlichkeit, dass
Nullhypothese richtig ist!
Ursache für großen p-Wert


Nullhypothese richtig ODER
Nullhypothese falsch, aber Test zu schwach
134
p-Wert
Maschinelles Lernen II

p-Wert: kleinste Signifikanz-Niveau α , für das die
Nullhypothese abgelehnt wird
T ( x ) cα
T
135
Vorzeichen-Test
Seien x1 ,…, x n unabhängig und identisch verteilt
mit Median m

h 0 : m = µ 0 vs. h1 : m ≠ µ 0

Lehne Nullhypothese ab, gdw. T ( x ) > c
unter h 0 binomial-verteilt
n
 n


T ( x ) max  ∑  x i − µ 0 > 0, ∑  x i − µ 0 < 0 
=
=
 i 1 =i 1

α
−1 

=
c BinCDFn,0.5 1 − 
 2
Maschinelles Lernen II

θˆ − θ0
n
  ( 0,1)
σ
Wald-Test
Seien x1 ,…, x n unabhängig normalverteilt mit
Erwartungswert µ und bekannter Varianz σ2

h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0

Lehne Nullhypothese ab, gdw. T ( x ) > c
 T(x)
=

n
µˆ n − µ 0
σ
α
−1 
c Φ 1 − 
=
 2
unter h 0 normalverteilt
1 n
, µn = ∑ xi
n i =1
Maschinelles Lernen II

θˆ − θ0
n
 t n ( 0,1)
Sn
t-Test
Seien x1 ,…, x n unabhängig normalverteilt mit
Erwartungswert µ und unbekannter Varianz

h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0

Lehne Nullhypothese ab, gdw. T ( x ) > c



unter h 0 t-verteilt
(n-1 Freiheitsgrade)
n
µˆ n − µ 0
1
2
ˆ
=
−
µ
, S2n
x
T(x)
n
( i n)
∑
Sn
n i =1
α
−1 
=
c Fn −1 1 − 
 2
Für kleine n besser geeignet als Wald-Test.
Maschinelles Lernen II

Dualität
Ein Test mit Signifikanzniveau α verwirft die
Nullhypothese h 0 : µ = µ 0 , genau dann nicht, wenn µ 0
innerhalb des 1 − α -Vertrauensintervalls liegt.
139
Maschinelles Lernen II

Herunterladen