Maschinelles Lernen II: Zusammenfassung

Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Maschinelles Lernen II:
Zusammenfassung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Reinforcement Learning

Überwachtes Lernen:
Lernen einer Entscheidungsfunktion aus Beispielen der
richtigen Entscheidung.

Unüberwachtes Lernen:
Lernen von zB. Partitionierungen von Daten (Clustern)
ohne Beispiele für die richtige Partitionierung.

Reinforcement Learning:
Lernen von sequenziellen Entscheidungen. Die Güte
einer Entscheidung wird durch die Güte der
Entscheidungssequenz bestimmt.
→ Temporal Credit Assignment Problem.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Problemstellungen des
maschinellen Lernens
Umgebung
•Reward
•Beobachtung
Aktionen
Agent
Controller
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Lernen aus Interaktionen

Markov-Entscheidungsprozess (S,A,R,P)

S : endliche Zustandsmenge

A : endliche Aktionsmenge

P : Übergangswahrscheinlichkeiten

R : Erwarteter Reward. Beschreibt den sofort
erzielten Gewinn.

Discount factor
.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Markov Decision Processes

Eine deterministische stationäre Policy bildet
Zustände auf Aktionen ab.

Stochastische Policy: Funktion von Zuständen auf
eine Verteilung von Aktionen.

Ziel: Finde Policy ¼, die den erwarteten kumulativen
(discounted) Gewinn maximieren.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
MDP

Markov-Eigenschaft:

Aus Sequenz von Beobachtungen und Aktionen
wird Zustand.

Markov-Eigenschaft in Realität selten genau erfüllt.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Markov-Eigenschaft

Value function V¼( s) für einen Zustand s und Policy ¼
beschreibt den erwarteten kumulativen Gewinn der
von diesem Zustand aus erreicht wird.

Bewertungsfunktion für Zustand-Aktions-Paar:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Value Functions – Bewertungsfunktionen

Für Bewertungsfunktionen gelten die BellmanGleichungen (durch Markov-Eigenschaft):

Zustand-Aktions-Bewertungsfunktion:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Bellman-Gleichungen

Bellman-Gleichungen für das Kontrollproblem.

Rekursive Beziehungen der optimalen Value
Functions.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Bellman-Optimalitätsgleichungen

P,R bekannt. P(s‘|s,a) können abgefragt werden.
→ Planen.

P,R nicht explizit bekannt. Aber aus den
Verteilungen P(s‘|s,a) kann gesamplet werden.
Annahme: Generatives Modell von P und R.

P,R nicht oder teilweise bekannt. Es kann
Erfahrung gesammelt werden durch Interaktion mit
der Umgebung.
→ Reinforcement Learning.

Batch Reinforcement Learning: Es muss von einer
fixen Menge von Beispielepisoden gelernt werden.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Problemstellungen

Reinforcement Learning-Methoden können
eingeteilt werden bezüglich der Verwendung der
Interaktionsbeispiele.

Indirekte Methoden:


Model learning
Direkte Methoden:


Direct Policy Search
Value function estimation
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Arten von Reinforcement Learning

2 Schritte zum Berechnen der optimalen Policy:


Policy Evaluation: V¼ berechnen für festes ¼k
Policy Improvement: Neues ¼k+1 bestimmen

Policy Iteration.

Bellman-Gleichungen bilden ein lineares
Gleichungssystem.
Zustandsmengen sind allerdings in der Realität in
der Regel zu groß um Standardlösungsverfahren
für LGS zu verwenden.

Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
MDP vollständig bekannt –
Dynamische Programmierung

Allgemeines Verfahren zum Bestimmen der
optimalen Policy.

Iteriere:

Policy Evaluation:


Gegeben Policy ¼k, bestimme
Policy Improvement:


Inferiere verbesserte Policy ¼k+1 aus
z.B. greedy Policy:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Policy Iteration

Iteratives Verfahren zur Berechnung
von V¼

bzw. Q¼

Konvergiert gegen V¼bzw. Q¼ für k→1

Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Value Iteration

Value Iteration für das Kontrollproblem.
Für V *:

für Q* :

Konvergiert gegen V* bzw. Q* für k→1

Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Value Iteration

Updateregel:

TD(¸ ) Update:

0· ¸ · 1 interpoliert zwischen 1-step und MC.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
TD(¸ )

Algorithmische Sicht auf TD(¸ )
Einführung eines zusätzlichen Speichers e(s) für
jeden Zustand s2 S.
Nach Beobachtung <st ,a t ,R t ,s t+1>, berechne

Update für alle Zustände


Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Eligibility Traces

Tradeoff zwischen

Verfolgen der derzeit besten Policy, um den (greedy)
Gewinn zu maximieren.
(Exploitation)

und Erkunden derzeit suboptimaler Aktionen, über
deren Wert noch Unsicherheit besteht, um eine
potentiell bessere Policy zu finden.
(Exploration)
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Exploration / Exploitation Problem




¼stochastische Policy.
Schätzungen sollen Einfluss auf
Auswahlwahrscheinlichkeit haben.
→ Softmax
Beispiel: Gibbs-Verteilung:
¿t ist Temperaturparameter.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Stochastische Policy: Softmax



In realistischen Anwendungen sind Zustandsräume
i.A. sehr groß bzw. kontinuierlich.
Bisherige Annahme: tabellarische Repräsentation
der Value Function.
Mögliche Lösungen:

Planen:




Monte-Carlo Sampling
Diskretisierung und anschließend z.B. Value Iteration
Approximation der Value Function durch
Funktionsapproximationsmethoden.
Direktes Lernen der Policy.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Große und unendliche Zustandsräume



Angenommen, S sehr groß
Ziel: Finde Q, so dass ||Q-Q*||1 <².
Sparse Lookahead Trees:
[Kearns et al. 02]




Monte-Carlo: Samplen eines sparsen
Aktions-Zustands-Baums.
Tiefe des Baums: Effektiver Horizont
H (²) = O( 1/(1-° ) log(1/²(1-° )) )
MC unabhängig von |S|
Aber exponentiell in H (²):
min. Größe des Baums
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Monte-Carlo Sampling
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Sparse Lookahead Trees


Besser: Nur solche Teilbäume genauer
untersuchen, die vielversprechend sind.
Optimismus bei Unsicherheit!


Nutze das gleiche Prinzip wie bei Bandit Problem.
UCT: UCB for Trees.
[Kocsis & Szepesvári 06]
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Upper Confidence Bounds for Trees


Kontinuierlicher Zustandsraum S.
Random Discretization Method: [Rust 97]


Sampling von Zuständen S‘ nach uniformer
Verteilung über den Zustandsraum.
Value Iteration.

Kontinuierliche Value Iteration:

Diskretisierung: Weighted Importance Sampling
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Diskretisierung

Darstellen der Value Function als parametrisierte
Funktion aus dem Funktionsraum F mit
Parametervektor µ.

Vorhersageproblem: Finde Parametervektor µ, so
dass V¼, bzw. Q¼am besten approximiert wird.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Funktionsapproximation

Generatives Modell



Annahme: Es kann jederzeit aus P und R gesamplet
werden.
Nicht aber P(s‘|s,a) abgefragt werden.
Das Reinforcement Learning Problem:


Beispiele <st , at , R t , st+1> aus Interaktion mit der
Umgebung.
Mögliche Annahme: Interaktion folgt der zu
lernenden Policy

On-policy-Verteilung von Zuständen ¹ (s).
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Funktionsapproximation


Online Updates: Anpassen von µt nach jeder
Interaktion <st , at , R t , st+1>.
Qˆ (⋅;θt ) → Qπ
t →∞
Qˆ (⋅;θt ) → Q*
t →∞
Gradientenabstieg:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
FA für Reinforcement Learning

Spezialfall: lineare Methoden.
Qˆ (⋅;θ ) =
φ Tθ
t

Gradientenabstieg:
2
1
π
ˆ
θt +1 =θt − α t ∇θ Q ( st , at ) − Q( st , at ;θt ) 
2
θt + α t Qπ ( st , at ) − Qˆ ( st , at ;θ )  ∇θ Qˆ ( st , at ;θt )
=
θt + α t Qπ ( st , at ) − Qˆ ( st , at ;θ )  φ ( st , at )
=
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
FA für Reinforcement Learning

Value Function V¼unbekannt. Ersetze mit
Schätzung.

Monte-Carlo: Erwartungstreue Schätzung von V¼.


Konvergenz zu lokalem Optimum.
(Unter Bedingungen für ®t)
Temporal Difference (TD(0)): Gebiaste Schätzung.

keine Konvergenz zu lokalem Optimum beweisbar.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
FA für Reinforcement Learning

Lineare Parametrisierung der Q-Funktion

Iterationsschritt:
2
1
*
ˆ


θt +1 =θt − α t ∇θ Q ( st , at ) − Q( st , at ;θt ) 
2
θt + α t  R( st , at ) + γ max Qˆ ( st +1 , a;θt ) − Qˆ ( st , at ;θt )  ∇θ Qˆ ( st , at ;θt )
=
a


θt + α t  R( st , at ) + γ max φ ( st +1 , a )T θt − φ ( st , at )T θt  φ ( st , at )
=
a


Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Approximatives Q-Learning

TD(¸ )

Eligibility traces:

Lineare Methode: Konvergenzgarantie nur für on-policy.

Fehlerabschätzung:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
FA für Reinforcement Learning

Kontrollproblem: SARSA(¸ ) (On-Policy)

Off-policy kann divergieren.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
SARSA(¸ )





[Szepesvári & Munos 05]
V = 0.
Ziehe N Zustände s aus ¹ (s).
Für jedes s und a2 A, Ziehe M Nachfolgezustände
s‘ aus P(¢|s,a) und Rewards R(s,a).
Iteriere:


Mit diesen Samples <s, a, R, s‘> wird ein BellmanUpdate-Schritt durchgeführt:
Dann least-squares Fitting:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Fitted Value Iteration mit Samples



Q = 0.
Ziehe N Samples s,a aus ¹ (s),p(a). Ziehe R und
Nachfolgezustand s‘ entsprechend Modell.
Iteriere:

Mit diesen Samples <s, a, R, s‘> wird ein BellmanUpdate-Schritt durchgeführt:
M
Qk +1 ( s, a ) ← ∑ R( s, a ) + γ Qk ( s ', π ( s '))
i =1

Dann least-squares Fitting:
M
Qˆ k +1 ( s, a ) ← arg min ∑ Qk +1 ( si , ai ) − f ( si , ai )
f ∈ℑ
i =1
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Fitted Policy Evaluation mit Samples

Falls Samples von Q¼(s,a) bekannt, lerne Q¼ vom
Trainingssample mit Hilfe einer überwachten
Regressionsmethode.

Problem: Oft off-policy, d.h. Trainingsbeispiele
werden beobachtet während einer Verhaltenspolicy
gefolgt wird.

Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a))
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Approximate Policy Iteration





Q ist aus Funktionsraum F.
T¼Q aber nicht notwendigerweise.
LSTD minimiert den quadratischen Abstand
zwischen Q und der Projektion von T¼Q auf F.
Unbiased.
LSTD oft bessere Ergebnisse.
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Least-Squares Temporal Difference

In (linearer) Operatorschreibweise:

Mit linearem Operator T¼:

Q¼ist ein Fixpunkt des Bellman-Operators T¼ .

Iteration:
Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
Bellman-Operatoren
Recommendation



Landwehr/Sawade/Scheffer, Maschinelles Lernen II

Empfehlung von Produkten, Informationen,
Personen, Musik, …
Ziel: Rausfilterung von unwichtigen /
unerwünschten / unsympathischen Optionen;
Finden von wichtigen / gefallenden / beliebten
Optionen
Basierend auf Transaktionen aus der
Vergangenheit: Käufe, Bewertungen, Klicks, …
Nutzerspezifisch: Keine globale Sortierung der
Optionen, sondern persönliche Empfehlung
1
Inhaltsbasierte Recommendation

Featureabbildung φ: X → Rd notwendig
Unabhängige Lernprobleme:


Landwehr/Sawade/Scheffer, Maschinelles Lernen II

Normale Regressions- oder
Klassifikationsformalisierung
Gemeinsames Lernproblem:

Verteilung der Gewichtsvektoren um gemeinsamen,
gleichzeitig gelernten, Mittelpunkt
2
Kollaborative Recommendation

Keine Featureabbildung nötig.
K-Nearest-Neighbor:


Landwehr/Sawade/Scheffer, Maschinelles Lernen II

Vorhersage berechnet sich als gewichtetes Mittel der
Bewertungen der ähnlichsten Nutzer
Latente Features:

Gleichzeitiges Lernen von versteckten
„Geschmacks“-Featurevektoren von Benutzern und
Objekten
3
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Graphische Modelle
Christoph Sawade/Niels Landwehr/Tobias Scheffer
Graphische Modelle

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Modellierung einer Domäne mit verschiedenen
Zufallsgrössen
Gemeinsame Verteilung, insb. Abhängigkeiten
2
Überblick
Graphische Modelle: Einführung

Graphische Modelle im Maschinellen Lernen

Inferenz in Graphischen Modellen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

3
Graphische Modelle: Einführung am
Beispiel
Beispiel: „Alarm“ Szenario





Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Unser Haus in LA hat eine Alarmanlage.
Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm
hört. Wenn eingebrochen wurde, wollen wir zurück kommen.
Leider ist der Nachbar nicht immer zu Hause
Leider geht die Alarmanlage auch bei kleinen Erdbeben los
5 binäre Zufallsvariablen
B
Burglary – Einbruch hat stattgefunden
E
Earthquake – Erdbeben hat stattgefunden
A
Alarm – Alarmanlage geht los
N
NeighborCalls – Nachbar ruft an
R
RadioReport – Bericht über Erdbeben im Radio
4
Graphische Modelle: Einführung am
Beispiel


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Ziel: Repräsentation der gemeinsamen Verteilung
p(B,E,A,N,R)
Wähle Variablenordnung: z.B. B<E<A<N<R
Produktregel:
p( B, E , A, N , R)  p( B, E , A, N ) p( R | B, E, A, N )
 p( B, E, A) p( N | B, E, A) p( R | B, E, A, N )
 p( B, E ) p( A | B, E ) p( N | B, E , A) p( R | B, E , A, N )
 p( B) p( E | B) p( A | B, E ) p( N | B, E , A) p( R | B, E , A, N )
Faktoren beschreiben die Verteilung einer Zufallsvariablen in
Abhängigkeit anderer Zufallsvariablen.
5
Graphische Modelle: Einführung am
Beispiel

Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen
p( E | B)  p( E )
p ( A | B, E )  p ( A | B, E )
p( N | B, E , A)  p( N | A)
p( R | B, E , A, N )  p( R | E )

Erdbeben hängt nicht von Einbruch ab
Alarm hängt von Einbruch und Erdbeben ab
Anruf von Nachbar hängt nur von Alarm ab
Nachricht im Radio hängt nur von Erdbeben ab
Vereinfachte Darstellung der gemeinsamen Verteilung:
p( B, E, A, N , R)  p( B) p( E) p( A | E, B) p( N | A) p( R | E)
Vereinfachte Faktoren
6
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
p( B, E, A, N , R)  p( B) p( E | B) p( A | B, E) p( N | B, E, A) p( R | B, E, A, N )
Graphische Modelle: Einführung am
Beispiel
P(B=1)
P(E=1)
0.1
0.2
B
B
E
P(A=1|B,E)
0
0
0.01
0
1
0.5
1
0
0.9
1
1
0.95
Modellierte Verteilung:
p( B, E, A, N , R)  p( B) p( E ) p( A | E, B) p( N | A) p( R | E )
E
A
N
E
P(R=1|E)
0
0.01
1
0.5
R
A
P(N=1|A)
0
0.1
1
0.7
Graphisches Modell:
- Jede ZV ist ein Knoten
- Für jeden Faktor der Form p( X | X 1 ,..., X k )
fügen wir gerichtete Kanten von den X i zu X ein
- Modell ist parametrisiert mit den bedingten
Verteilungen p( X | X 1 ,..., X k )
7
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Graphisches Modell für „Alarm“ Szenario

Graphische Modelle: Unabhängigkeit

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Die Graphstruktur impliziert Unabhängigkeiten zwischen
Mengen von ZV
„D-separation“ Kriterium, um Unabhängigkeiten aus
Graphstruktur abzulesen


A,B unabhängig gegeben C gdw jeder Pfad von Knoten in
A zu Knoten in B blockiert ist gegeben C
Menge einfacher Regeln, wann Pfade blockiert sind
8
Divergierende Verbindungen
B
E
A
R
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
N

Betrachte Pfad A←E→R. Gilt   R |  ?

Nein, p( A | R)  p( A)

RadioReport  wahrscheinlich Erdbeben  wahrscheinlich Alarm

ZV R beeinflusst ZV A über die divergierende Verbindung R  E  A
9
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Divergierende Verbindung
Divergierende Verbindungen
B
E
A
R
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
beobachteter Knoten
N

Betrachte Pfad A←E→R. Gilt   R | E ?

Ja, p( A | R)  p( A)

Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die
Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport

Der divergierende Pfad R  E  A wird durch Beobachtung von E blockiert
10
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Divergierende Verbindung
Serielle Verbindungen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
R
N=„Nachbar ruft an“
R=„Radio Bericht“
Serielle
Verbindung
N

Betrachte Pfad N ← A ← B. Gilt    |  ?

Nein, p( B | N )  p( B)

Intuitiv:
NeighborCalls  wahrscheinlich Alarm  wahrscheinlich Burglary
[Ausrechnen mit gemeinsamer Verteilung]
p( B  1| N  1)  p( B  1| N  0)

ZV N beeinflusst ZV B über den seriellen Pfad N  A  B
11
Serielle Verbindungen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
B
E
A
R
Serielle
Verbindung
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
beobachteter Knoten
N

Betrachte Pfad N ← A ← B. Gilt    | A ?


Ja, p( B | N , A)  p( B | A)
[Ausrechnen mit gemeinsamer Verteilung]
Intuitiv:
Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die
Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft

Der serielle Pfad N  A  B wird durch Beobachtung von A blockiert.
12
Konvergierende Verbindung
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
R
N

Betrachte Pfad B → A ← E. Gilt    |  ?

Ja, p( B | E)  p( B)

Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben

Der konvergierende Pfad B  A  E ist blockiert wenn A nicht beobachtet ist
13
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Konvergierende
Verbindung
Konvergierende Verbindung
B
E
A
B=„Einbruch“
E=„Erdbeben“
A=„Alarm“
N=„Nachbar ruft an“
R=„Radio Bericht“
R
beobachteter Knoten
N

Betrachte Pfad B → A ← E. Gilt    | A ?


Nein, p( B | E)  p( B)
Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das
den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away").

Der konvergierende Pfad B  A  E wird freigegeben durch Beobachtung von A
14
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Konvergierende
Verbindung
D-Separation: Korrektheit, Vollständigkeit

Gegeben ein graphisches Modell über {X1,…,XN} mit
Graphstruktur G.
Das GM modelliert eine Verteilung durch
N
p( X 1 ,..., X N )   p( X i | pa( X i ))
i 1
abhängig von den bedingten Verteilungen p( X n | pa( X n )) .

Theorem (Korrektheit, Vollständigkeit d-separation)
 Falls A,B d-separiert gegeben C in G, dann p( A | B, C )  p( A | C )
 Es gibt keine anderen Unabhängigkeiten, die für jede
Wahl der bedingten Verteilungen p( X i | pa( X i )) gelten.
15
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Überblick
Graphische Modelle: Einführung

Graphische Modelle im Maschinellen Lernen

Inferenz in Graphischen Modellen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

16
Münzwürfe als graphisches Modell

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Münzwurf: N Bernoulli-verteilte Zufallsvariablen X1 ,..., X N
Parameter  , Beta-Prior
N
p k  z ( X 1 ,..., X N ,  )  p k  z (    p( X i |  )
Prior
i 1
Likelihood

Darstellung als graphisches Modell:

pa(  )  
pa( X i )  {}
…
X1
X2
X3
…
XN
17
Parameterschätzung als Inferenzproblem
MAP-Parameterschätzung Münzwurf
  arg max  p

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

k  z
( | x1 ,..., xN )
Inferenzproblem:
pk , z (  )

…
p( X |  ) X
1


X2
X3
…
XN
p( X |  )
Evidenz auf den Knoten X1,…, XN
Wahrscheinlichster Zustand des Knotens μ gegeben X1,…, XN
18
Plate-Modelle
Plate Notation


…
X1

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

X2
X3
Plate Notation
…
Plate
XN
Xi
N
Ein „Plate“ ist eine abkürzende Notation für N Variablen
der gleichen Form


Bezeichnet mit Anzahl der Variablen, N
Variablen haben Index (z.B. Xi ).
19
Erinnerung: Bayessche Lineare
Regression
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Diskriminatives Setting: xi fest, Verteilung über Label yi
Lineares Modell plus Gaußsches Rauschen
y
p( y | x, w)  wT x  N ( y | 0,  2 )
wT x
x

Bayessches Setting: Prior auf Parametervektor
p(w |  2 )  N (w | 0, 2 I )

Zufallsvariablen: w, y1 ,..., yN (nicht: x1 ,..., x N ,  , )
20
Bayessche Lineare Regression als
Graphisches Modell
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
N
p( y1 , ..., yN , w | x1 ,..., x N ,  , )  p(w |  )  p( yi | xi , w,  2 )
2
2
2
Prior
i 1
Likelihood
Graphisches Modell, N=3

Graphisches Modell, Plate-Notation

w

w

yi
y1
y2
y3
xi
x1
x2
N
x3
21
MAP Parameterschätzung als
Inferenzproblem

w
Sawade/Landwehr/Scheffer, Maschinelles Lernen II


w

yn
y1
y2
y3
xn
x1

x2
N
x3
MAP Parameterschätzung: wahrscheinlichstes Modell
gegeben Daten

w*  arg max w p(w | y1 ,..., yN , x1 ,..., x N ,  2 , 2 )

Inferenzproblem: was ist der wahrscheinlichste Zustand für
Knoten w, gegeben beobachtete Knoten y1,…, yN ?
22
Bayes-optimale Vorhersage
Klassifikation mit MAP Modell:
w*  arg max w p(w | L, X ,  2 , 2 )
y*  arg max y p( y | x, w* ,  2 )
X   x1 ... x N  Merkmalsvektoren
 w*T x

Statt MAP Modell kann man auch direkt die Bayes‘sche
Vorhersageverteilung ausrechnen:
p( y | x, L, X ,  2 , 2 )   p( y | x, w,  2 ) p( w | L, X ,  2 , 2 )dw
Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen
23
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Bayessche Lineare Regression als
Graphisches Modell
Bayessche Vorhersage: Erweiterung des Modells durch
neue Testinstanz (neue Zufallsvariable y)
 N

p( y1 ,..., yN , y, w | x1 ,..., x N , x,  , )  p(w |  )   p( yi | w, xi ,  2 )  p( y | w, x,  2 )
 i 1

2
2
2
Graphisches Modell, N=3

w
y1
x1
y2
x2
Plate Notation


x3
yn
y
y3
x

w
xn
y
N
x
24
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Bayessche Lineare Regression als
Graphisches Modell
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Bayessche Vorhersage


y*  arg max y p( y | x, L, X ,  2 , 2 )
Inferenzproblem: was ist der wahrscheinlichste Zustand für
Knoten y, gegeben beobachtete Knoten y1,…, yN ?
25
Überblick
Graphische Modelle: Einführung

Graphische Modelle im Maschinellen Lernen

Inferenz in Graphischen Modellen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

26
Problemstellung Inferenz

Gegeben Bayessches Netz über Menge von ZV {X1,…,XN }.
Problemstellung Inferenz:
 Variablen mit Evidenz X i ,..., X i
1
m
 Anfrage-Variable X a

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

{i1 ,..., im }  {1,..., N}
a {1,..., N} {i1 ,..., im}
Berechne Randverteilung über Anfrage-Variable gegeben Evidenz
Bedingte Verteilung
über ZV X a
Evidenz: beobachtete
Werte für ZV X i1 ,..., X im
Berechne p( xa | xi1 ,..., xim )
27
Exakte Inferenz: Naiv
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Naive Inferenz:
Notation :{ X 1 ,..., X N }  { X a , X i1 ,..., X im , X j1 ,..., X jk }
Anfrage- Evidenz-Variablen restliche Variablen
Variable
p( xa | xi1 ,..., xim ) 
p( xa , xi1 ,..., xim )
p( xi1 ,..., xim )
1
p( xa , xi1 ,..., xim )
Z
1
   p( x1 ,..., xN )
Z x j1 x j2 x jk

Zentrales Problem: Aussummieren aller restlichen
Variablen (exponentiell, wenn naiv gelöst)
28
Graphische Modelle: Inferenz
Inferenz schwieriges Problem




Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Allgemeine Graphische Modelle: exakte Inferenz NP-hart
Es gibt Algorithmen für exakte Inferenz in Graphischen
Modellen, deren Laufzeit von den Eigenschaften der
Graphstruktur abhängt („Message-Passing“)
Es gibt verschiedene Techniken für approximative Inferenz
(Sampling, Variational Inference, Expectation Propagation)
Wir betrachten


Message-Passing Algorithmus: in Spezialfällen
Sampling-basierte approximative Inferenz
29
Effiziente exakte Inferenzmethoden?
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Idee „Message Passing“: Lokale Berechnungen, die entlang der
Graphstruktur propagiert werden

Knoten schicken sich gegenseitig „Nachrichten“, die Ergebnisse
von Teilberechnungen enthalten
30
Graphische Modelle: Inferenz auf linearer
Kette
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wir betrachten zunächst Spezialfall mit besonders einfacher
Struktur: lineare Kette von Zufallsvariablen
x1
x2
p ( x1 ) p ( x2 |x1 )
x3
p ( x3|x2 )
…
x4
p ( xN |xN 1 )
p( x1 ,..., xN )   1,2 ( x1 , x2 )  2,3 ( x2 , x3 )  ...  N 1, N ( xN , xN 1 )

Darstellung der gemeinsamen Verteilung als Produkt von
Potenzialen  i ,i 1 ( xi , xi 1 ) über je zwei ZV
31
„Message Passing“ Algorithmus
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Austausch von „Alpha“ Nachrichten von links nach rechts
 ( x1 )  1
Für k  2,..., a:
 ( xk )    k 1,k ( xk 1, xk )  ( xk 1 )
xk 1
 ( x2 )  ( xa 1 )  ( xa )
xa

Anschauung: wir summieren Knoten xk 1 aus, und
schicken das Ergebnis weiter an Knoten xk
32
„Message Passing“ Algorithmus
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Austausch von „Beta“ Nachrichten von rechts nach links
 ( xN )  1
Für k  N -1,..., a:  ( xk )    k ,k 1 ( xk , xk 1 )  ( xk 1 )
xk 1
 ( xa )
 ( xa 1 )  ( xN 1 )
xa

Anschauung: wir summieren Knoten xk 1 aus, und
schicken das Ergebnis weiter an Knoten xk
33
„Message Passing“ Algorithmus
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Nachrichten treffen sich im Anfrageknoten xa
 ( x2 )  ( xa 1 )  ( xa )
 ( xa )
 ( xa 1 )  ( xN 1 )
xa

Randverteilung ohne Evidenz ergibt sich als Produkt der
Nachrichten
p( xa )    ( xa )  ( xa )
34
„Message Passing“ mit Evidenz
Evidenz: Leichte Modifikation des Message-Passing
Algorithmus

Falls xk+1 unbeobachtet ist, summieren wir diesen Knoten aus
k  1{i1 , ..., im }
  ( xk )    k ,k 1 ( xk , xk 1 )  ( xk 1 )
xk 1

Falls xk+1 beobachtet ist, verwenden wir nur den
entsprechenden Summanden
x k 1 beobachteter Wert (Evidenz)
k  1{i1 ,..., im}
  ( xk )   k ,k 1 ( xk , xk 1 ) ( xk 1 )
35
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Inferenz: Message-Passing
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Laufzeit:

Berechnung einer Nachricht:
 xk :
 ( xk )    k ,k 1 ( xk , xk 1 ) ( xk 1 )
xk 1
 O( K 2 ) für Berechnung einer Nachricht (K diskrete Zustände)

N Nachrichten insgesamt
 O( NK 2 ) Gesamtlaufzeit

Viel besser als naive Inferenz mit O( K N )
36
Inferenz in Allgemeinen Graphen
Grundidee Message-Passing auf Polytrees:

Umwandlung in Faktor-Graph (ungerichteter Baum)
Ursprünglicher Graph
x1
x
Faktor-Graph
2
x4
x3
x5
Gemeinsame Verteilung
p( x1 , x2 , x3 , x4 , x5 ) 
p( x1 ) p( x2 ) p( x3 | x1 , x2 ) p( x4 ) p( x5 | x3 , x4 )
Faktor
Faktor-Knoten
- Für jeden Faktor in der gemeinsamen
Verteilung gibt es einen Faktor-Knoten
- Ungerichtete Kanten von den Faktor-Knoten
zu den im Faktor auftauchenden Variablen
37
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Inferenz in Allgemeinen Graphen (Skizze)
Falls der ursprüngliche Graph ein Polytree war, ist der FaktorGraph ein ungerichteter Baum (dh zykelfrei).
Spezialfall
lineare Kette
Blätter
xa



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

xa
Betrachten Anfragevariable xa als Wurzel des Baumes
Nachrichten von den Blättern zur Wurzel schicken (immer
eindeutiger Pfad, weil Baum)
Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und
Variablen-Nachrichten
38
Inferenz in Allgemeinen Graphen

Inferenz in Graphen, die keine Polytrees sind?
Approximativer Ansatz: Iteratives Message-Passing Schema,
wegen Zyklen im Graph nicht exakt
x1
x2
x3
„Loopy Belief
Propagation“
x4
p(x)  p( x1 ) p( x2 | x1 ) p( x3 | x1 ) p( x4 | x2 , x3 )

Alternative für exakte Inferenz in allgemeinen Graphen:


Graph in einen äquivalenten azyklischen Graphen umwandeln
„Junction Tree“ Algorithmus, (i.A. exponentielle Laufzeit)
39
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Approximative Inferenz
Exakte Inferenz NP-hart: In der Praxis spielen
approximative Inferenzverfahren wichtige Rolle

Wir betrachten Sampling-basierte Verfahren


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Relativ einfach zu verstehen/implementieren
Praktisch brauchbar
40
Inferenz: Sampling-basiert
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Grundidee Sampling:

Wir interessieren uns für eine Verteilung p(z ) , z.B. bedingte
Verteilung über Anfragevariablen in graphischem Modell)
Es ist schwierig, p(z ) direkt auszurechnen

Stattdessen ziehen wir „Samples“ (Stichproben)

z ( k ) ~ p( z )
i.i.d., k  1,..., K ,
jedes Sample z ( k ) ist eine vollständige Belegung der
Zufallsvariablen in z

Die Samples z (1) , z (2) ,..., z ( K ) approximieren die Verteilung
41
Inferenz: Sampling-basiert
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Beispiel:


Eindimensionale Verteilung, z  {z}
Diskrete Variable mit Zuständen {0,…,6}: Anzahl „Kopf“
bei 6 Münzwürfen
Sample-Histogramm
Echte Verteilung (Binomial)
Anteil
K 
Samples
mit Wert z
z
42
Inferenz: Sampling-basiert
Wie erhalten wir Samples aus der gesuchten Verteilung
p(z ) ?

Markov Chain Monte Carlo: Klasse von SamplingVerfahren, die in der Praxis oft effizientes Samplen
ermöglichen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

z
43
Inferenz: MCMC

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Markov Chain Monte Carlo („MCMC“)
Idee:

Strategie: Konstruiere Folge von Samples
z (0)  z (1)  z (2)  z (3)  z (4)  z(5)  ...
z (0) zufällig initialisiert
z (t 1)  update(zt )
durch mehrfache probabilistische Update-Schritte

Wenn Updates geeignet gewählt, gilt asymptotisch
z (T ) ~ p ( z )
ungefähr, für sehr grosse T
ZV: T-te Variablenbelegung
44
Inferenz: Gibbs Sampling

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Gibbs Sampling: Eine Version von MCMC
Lokales Ziehen einer ZV gegeben den Zustand aller
anderen Variablen


Gegeben aktueller Zustand x  ( x1 ,..., xN )
Ziehen des neuen Zustands x '  ( x1 ',..., xN ') :
Bisher gesampelte
(alte) Werte
x1 ' ~ p( x1 | x2 ,..., xN )
x2 ' ~ p( x2 | x1 ', x3 , ..., xN )
x3 ' ~ p( x3 | x1 ', x2 ', x4 , ..., xN )
...
xN ' ~ p( xN | x1 ', x2 ', ..., xN 1 ')
45
Gibbs-Sampling mit Evidenz
Gibbs Sampling kann einfach Evidenz berücksichtigen


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Mit Evidenz: Nur die unbeobachteten Variablen werden
jeweils neu gezogen, die beobachteten Variablen werden
fest auf den beobachteten Wert gesetzt
Satz: Falls p( xn | x1, x2 ,..., xn1, xn1,..., xN 1 )  0 für alle n und
alle möglichen Zustände xi , dann folgen die generierten
Samples asymptotisch der gesuchten Verteilung
46
Hidden Markov Modelle
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Hidden Markov Modelle für sequentielle Daten
Probabilistischer Automat:
Versteckte Zustände, Beobachtungen
Zustände
(versteckt)
q1
q2
q3
q4
…
Beobachtungen
O1
O2
O3
O4
…
47
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
48
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Clusteranalyse I
Christoph Sawade/Niels Landwehr/Tobias Scheffer
Überblick
Deterministischer Ansatz: K-Means

Probabilistischer Ansatz: Gaußsche Mischmodelle
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

50
Clusteranalyse: Was ist Clustern?
Wir haben Datenpunkte
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Merkmalsvektoren

Wir wollen Einteilung der Datenpunkte in „Cluster“
51
Problemstellung Clustering
(Deterministisch)
Problemstellung k-Means: Gesucht sind



Zuweisung der Daten zu Clustern:
K
k  1,..., K
Clusterzentren 1 ,..., K  ,
K-Means Algorithmus: abwechselnde Neuberechnung von
Clusterzentren und Clusterzugehörigkeiten
52
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
53
K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
54
K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
55
K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
56
K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
57
K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
58
K-Means: Beispiel K = 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
59
Überblick
Deterministischer Ansatz: K-Means

Probabilistischer Ansatz: Gaußsche Mischmodelle
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

60
Probabilistisches Clustern: Gaußsches
Mischmodell
Generativer Prozess zur Erzeugung der Daten

Cluster wählen, anschliessend Datenpunkt generieren
versteckt
p(z, x)  p(z) p(x | z)
beobachtet
Wähle
Clusterkomponente
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Generiere Daten
aus Komponente
61
Probabilistisches Clustern: Gaußsches
Mischmodell

Verteilung über Clusterkomponenten: Multinomialverteilung
Verteilung der Daten in einem Cluster k: normalverteilt
Clusterzentrum
p(x | zk  1) 

(x | k ,  k )
Clusterkovarianz
1
 1

exp   ( x  k )T  k 1 (x  k ) 
Z
 2

Normalisierer
Z  2 D /2 |  |1/2
Beispiel D=2: Dichte, Samples aus Verteilung
62
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

EM Algorithmus

Betrachte Q-Funktion
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Clustern = Anpassen des Modells an Daten (Maximum
Likelihood)
Iteratives Verfahren EM: bestimme Parameter 1 , 2 , 3 ,...

Parameterwert
im letzten Schritt
Erwartungswert über p(Z | X , )

Beginne mit zufälligem 1 . Iteriere:

Expectation:

Maximization:
63
Beispiel Gaußsches Mischmodell
Clustering
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
64
Beispiel Gaußsches Mischmodell
Clustering
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
65
Beispiel Gaußsches Mischmodell
Clustering
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
66
Beispiel Gaußsches Mischmodell
Clustering
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
67
Beispiel Gaußsches Mischmodell
Clustering
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
68
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Maschinelles Lernen II
Zusammenfassung
Christoph Sawade/Niels Landwehr
Tobias Scheffer
Überblick
Clusterverfahren III




Optimierungsproblem
Fisher Linear Discriminant
Bayes Point Machine


Hierarchisches Clustern
Graphen-basiertes Clustern
Principal Component Analysis


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Billiard-Algorithmus
Statistische Tests



Konfidenzintervalle
Teststärke, Konfidenz, p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
2
Überblick
Clusterverfahren III




Optimierungsproblem
Fisher Linear Discriminant
Bayes Point Machine


Hierarchisches Clustern
Graphen-basiertes Clustern
Principal Component Analysis


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Billiard-Algorithmus
Statistische Tests



Konfidenzintervalle
Teststärke, Konfidenz, p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
3
Graphen-basiertes Clustern
Ähnlichkeitsgraph
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Ähnlichkeit zwischen Datenpunkten V
(Knoten) bilden gewichtete Kanten:
4
Spectral-Clustering (unnormalisiert)
Relaxation
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

NP-hart
RatioCut
min f T Lf , wobei
PV
n
n
i 1
i 1
2
f

0,
f
 i  i n
Eigenwertproblem

(Unnormalisiertes)
Spectral-Clustering
n
n
T
minn f Lf , wobei  fi  0,  fi2  n
f

Diskretisierung:
i 1
i 1
sign(fi )
5
Überblick
Clusterverfahren III




Optimierungsproblem
Fisher Linear Discriminant
Bayes Point Machine


Hierarchisches Clustern
Graphen-basiertes Clustern
Principal Component Analysis


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Billiard-Algorithmus
Statistische Tests



Konfidenzintervalle
Teststärke, Konfidenz, p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
6
PCA
Beispiel
Repräsentation von Digits als m  m -Pixelmatrix

Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner,
da viele Feature



Aussagelos sind oder
sich aus anderen ergeben
Ziel: Reduktion auf d -dimensionalen Hauptunterraum
7
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

PCA
Projektion


Eine Projektion ist eine idempotente lineare
Abbildung
Sei u1 
mit u u  1
y1  x   u1T x stellt Projektion in einen
eindimensionalen Unterraum dar
m
T
1 1
x
xi
y1  x i 

u1T x

y1 x
Für Daten im Projektionsraum gilt:

y1 x  u1T x

Mittelpunkt:

1 n T
T
Varianz:  u1 x i  u1 x
n i 1


2
 u1Tu1
8
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

PCA
Optimierungsproblem


Ziel: Varianz der projizierten Daten u1T u1 soll nicht
verloren gehen
Maximiere u1T u1 bzgl. u1 , wobei u1T u1  1
T
T
 Lagrangian:u1 u1  1 1  u1 u1 
Ableiten, Nullsetzen:

u1  1u1 … Lösung muss Eigenvektor sein
u1Tu1  1 … Varianz ist entsprechender Eigenwert

Bestimmung des größten Eigenwert


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Größter Eigenvektor ist erste Hauptkomponente
9
Fisher-Diskriminante

Original Space
PCA Subspace
Fisher Subpace
30
30
0.15
20
20
0.1
X T u PC A
10
X T u FIS
10
x
x
x
2
0
2
0
2
0
0.05
-10
-10
-0.05
-20
-20
-0.1
-30
-30
-0.15
-40
-5
-4
-3
-2
-1
0
x1
1
2
3
4
5
-40
-1
-0.5
0
x1
0.5
1
u PCA   PCA u PCA
-0.2
-1
-0.5
0
x1
0.5
1
 b u FIS   FIS w u FIS
10
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Durch die PCA induzierter Unterraum erhält maximale
Varianz der gesamten Daten
Nicht das richtige Kriterium für Klassifikation…

Überblick
Clusterverfahren III




Optimierungsproblem
Fisher Linear Discriminant
Bayes Point Machine


Hierarchisches Clustern
Graphen-basiertes Clustern
Principal Component Analysis


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Billiard-Algorithmus
Statistische Tests



Konfidenzintervalle
Teststärke, Konfidenz, p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
11
Bayes-Point
Herleitung
Mitteln der Vorhersage über alle (linearen)
Modelle mit
ineffiziente
der Gewichtung wie gut ein Modell zu Klassifikation
den Daten passt:
h*PAC  x   sign


wVS
sign  w, x  p  w  dw

Approximation der Bayes-Hypothese durch den BayesPunkt
h *PAC  x   sign

wVS
w, x p  w  dw
 sign  w cm , x

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

w cm  
wVS


wp  w | L  dw ist der Masseschwerpunkt des
Version-Space
12
Billiard-Algorithmus
Duale Darstellung
v
i
xi
i
vi
xi
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
di 
yi x i , w 0
xi
di
v
w0
w0
i
v'
w1
i
wi
vi
pi 
w i  w i 1
2
w0
i
w i 1
13
Überblick
Clusterverfahren III




Optimierungsproblem
Fisher Linear Discriminant
Bayes Point Machine


Hierarchisches Clustern
Graphen-basiertes Clustern
Principal Component Analysis


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Billiard-Algorithmus
Statistische Tests



Konfidenzintervalle
Teststärke, Konfidenz, p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
14
Konfidenzintervalle
Hypothesenbewertung: Was ist der erwartete
Fehler (Risiko) eines Modells?
R f   


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

 y, f (x)  p  x, y  dxdy
Da p  x, y  unbekannt ist, muss es aus Daten
geschätzt werden, z.B.:
n
1
Rˆ  f     yi , f (xi )  , wobei  yi , xi  ~ p  y, x 
n i 1
Was sagt R̂  f  über R  f  aus?
15
Konfidenzintervalle



Punktschätzer R̂  f  sagt nichts über die Unsicherheit
der Schätzung (Schätzfehler) aus.
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Idee: Intervall um den geschätzten Fehler angeben, so
dass der echte Fehler „meistens“ im Intervall liegt
Ein zweiseitiges Konfidenzintervall C   L ,U 
mit Konfidenz 1   gibt an, dass R  C mit
Wahrscheinlichkeit 1   gilt.
Weg zum Konfidenzintervall: Analyse der Verteilung der
Zufallsvariable
[
]
R
Rˆ
16
Konfidenzintervalle
Übergang von der Verteilung zum Konfidenzintervall:

Schätzer ist binomialverteilt (Clopper-Pearson):



 

CCP  1   Beta 1  | n  k , k  1 , Beta 1 1  | n  k  1, k  
2

 2



Schätzer ist annähernd normalverteilt (Wald):
CWald 
k
  
  1   n
n
2 n
R̂  f 
R̂  f 
R
R
Experimente
Experimente
17
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Statistische Tests
Hypothesenvergleich: Ist mein Modell besser als
die Baseline-Methode?
R  f1   R  f 2 


Da p  x, y  unbekannt ist, müssen Risiken aus
Daten geschätzt werden.
n
1
Rˆ  f     yi , f (xi )  , wobei  yi , xi  ~ p  y, x 
n i 1
Was sagt der beobachtete Unterschied Rˆ  f1   Rˆ  f 2 
über R  f1   R  f 2  aus?
18
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Statistische Tests
Nullhypothese:



Aussage, von der wir bis auf weiteres ausgehen,
die wir aber überprüfen möchten und zu widerlegen
bereit sind.
Bedingung für einen statistischen Test:


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wenn die Nullhypothese gilt, dann darf sie nur mit
einer Wahrscheinlichkeit von höchstens  abgelehnt
werden.
Weg zu einem statischen Test: Analyse der
Verteilung der Zufallsvariable unter der
Nullhypothese.
19
Statistische Tests
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Weg zu einem statischen Test: Analyse der
Verteilung der Zufallsvariable unter der
Nullhypothese.
c
T
20
p-Wert
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert: kleinste Signifikanz-Niveau  , für das die
Nullhypothese abgelehnt wird
T  x  c
T
21
Dualität
Ein Test mit Signifikanzniveau  verwirft die
Nullhypothese h 0 :   0 , genau dann nicht, wenn  0
innerhalb des 1  -Vertrauensintervalls liegt.
22
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
