Statistische Mustererkennung WS 2014

Statistische Mustererkennung WS 2014
V 1.16
Thomas Melzer
[email protected]
1
Change Log
• V 1.5: Anmerkung zur Nomenklatur (Seite 15) eingefügt
• V 1.6:
– Der Abschnitt ”Grundbegriffe der Wahrscheinlichkeitstheorie” wurde
eingefügt (hinter dem ”Perceptron”)
– Der Abschnitt ”Stetige Verteilungen” wurde hinter den Abschnitt
”Randverteilung und Unabhaengigkeit” verschoben.
– Kleinere Änderungen in den Abschnitten ”Diskrete Verteilungen” und
”Stetige Verteilungen”
– Der Abschnitt ”Eigenschaften von Schaetzern”wurde überarbeitet.
2
• V 1.7: Abschnitt ”Produkt- und Summenregel” wurde eingefügt, kleinere
Aenderungen im Abschnitt ”Diskrete Verteilungen”.
• V 1.8: Abschnitte ”Kenngroessen von Klassifikatoren” . ”Summe zweier
diskreter Zufallsvariablen” und ”Summe zweier stetiger Zufallsvariablen”
wurden eingefügt. Abschnitt ”Produkt- und Summenregel”wurde erweitert.
• V 1.9: Abschnitte ”Diskrete Verteilungen” und ”Stetige Verteilungen”
wurden ergaenzt. Kleinere Aenderungen und Ergaenzungen in anderen
Abschnitten.
• V 1.10 Abschnitte ”Konfidenz-Intervalle” und ”Hypothesen-Tests” wurden eingefügt, Abschnitt ”Parameter-Schaetzung” wurde erweitert.
• V 1.11 Notation in den Abschnitten ”Loss Function” und ”Risk” wur3
de geringfuegig geaendert. Kleinere Aenderungen und Ergaenzungen in
anderen Abschnitten.
• V 1.12 Kleinere Aenderungen und Ergaenzungen, insbesondere in den
Abschnitten ”Stetige Verteilungen III” und ”Lineare Regression”
• V 1.13 Abschnitt ”Kenngroessen von Verteilungen” wurde ueberarbeitet.
Der Begriff Mittelwertschaetzer wurde durch Stichprobenmittel ersetzt.
• V 1.14 Abschnitt ”Kenngroessen von Verteilungen” wurde in die zwei
Abschnitte ”Erwargungswerte” und ”Parameterschaetzung” aufgeteilt,
letzterer wurde ueberarbeitet und um den Unterabschnitt ”Maximum
Likelihood” ergaenzt.
• V 1.15 Abschnitt ”Schaetzung des Korrelationskoeffizienten” wurde hinzugefuegt.
4
• V 1.16 Abschnitt ”Lineare Regression als Parameterschaetzung” wurde
hinzugefuegt.
5
Literaturhinweise
• C. Bishop, Pattern Recognition and Machine Learning, Springer,
2006
Gute und ausführliche Einführung in den modernen, “bayesianisch” geprägten Zugang zur Mustererkennung, einschließlich Parameterschätzung, Klassifizierung und Regression.
• T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical
Learning, Springer, 2001
Ein Klassiker. Sehr gute und ausführliche Behandlung linearer und kernelbasierter Verfahren. Mittlerweile ist eine zweite Auflage verfügbar.
Thomas Melzer, GEO Department
6
• R. Duda, P. Hart, D. Stork, Pattern Classification, 2nd edition, Wiley,
2001
Die erste Ausgabe ist eines der meistzitierten Standardwerke der Mustererkennung. Die zweite Ausgabe deckt so gut wie alle Bereiche der
Mustererkennung ab. Der erste Teil der Vorlesung orientiert sich an
diesem Buch.
• K. Fukunaga, Introduction to Statistical Pattern Recognition, 2nd
edition, Academic Press, 1990
Ebenfalls ein Klassiker, jedoch streckenweise schwierig zu lesen. Das zweite Kapitel ist jedoch eine hervorragende Einführung in die multivariate
Statistik.
Thomas Melzer, GEO Department
7
• V. Cherkassky, F. Mulier, Learning from Data, Wiley, 1998
Guter Überblick über das gesamte Feld des machine learning. Deckt
insbesondere Regularisierung, Statistical Learning Theory und Support
Vector Machines ab. Für Fortgeschrittene.
• E.T. Jaynes. Probability Theory. The Logic of Science., Cambridge,
2003
Herleitung und Rechtfertigung der Wahrscheinlichkeitstheorie als Erweiterung der Aussagen-Logik! Äußerst empfehlenswert, setzt jedoch gute
Mathematik-Grundkenntnisse voraus.
Thomas Melzer, GEO Department
8
• Gerd Gigerenzer. Calculated Risks, 2002, Übersetzung: Das Einmaleins
der Skepsis, BTV, 2004.
Über die Zahlenblindheit von Entscheidungsträgern, deren Ursachen,
und was man dagegen tun kann. Pflichtlektüre für alle, die anhand
von Statistiken Entscheidungen treffen müssen. Grundlegendes Wissen
über Entscheidungstheorie (Bayes Theorem ...) ist hilfreich, jedoch nicht
Voraussetzung.
• Der Hund, der Eier legt von Dubben und Beck-Bornholdt und Lügen
mit Zahlen von Bosbach und Korff sind zwei weitere äußerst empfehlenswerte populärwissenschaftliche Titel, die sich mit fehlerhaftem
Gebrauch bzw. dem Mißbrauch der Statistik in der Praxis auseinandersetzten, ersterer eher im wissenschaftlichen, zweiterer eher im politischen
Bereich.
Thomas Melzer, GEO Department
9
• Journale: IEEE Transactions on
– Pattern Analysis and Machine Intelligence (PAMI)
– Neural Networks
– Robotics and Automation
Thomas Melzer, GEO Department
10
Was ist Statistische Mustererkennung (SME)?
• Aufgabe: Klassifizierung von Mustern (patterns) anhand quantitativer
Merkmale (features).
• Muster: “the opposite of chaos” (Watanabe). Muster folgen gewissen
Gesetzmäßigkeiten, haben Struktur. Beispiele: Gesichter, Buchstaben,
Herztätigkeit eines Patienten, Bewegungslinien (Trajektorien) von Passanten.
In der Praxis wird nicht auf den interessierenden Mustern selbst, sondern
auf Messungen dieser Muster gearbeitet (Bild eines Gesichts, eingescannter Buchstabe, EKG, Ausgabe eines Personentrackers):
Welt (distales Muster) → Messung → Computersystem (proximales
Muster).
Thomas Melzer, GEO Department
11
• Muster werden durch Merkmale beschrieben. Personen könnten z.B.
durch Merkmale wie Alter und Körpergröße beschrieben werden. Der
konkrete Wert, den ein Merkmal für ein gegebenes Muster annimmt,
wird als Merkmalsausprägung (realisation) bezeichnet (Claudia ist 17
Jahre alt und 1,60m groß).
• In der SME werden Merkmale als stetige oder diskrete Zufallsvariablen
aufgefasst, welche in Merkmalsvektoren (feature vectors) zusammengefasst werden. Einer konkreten Merkmalsausprägung entspricht somit eine
Realisation (Messung) des korrespondierenden Merkmalsvektors (z.B.
x = (17, 1.60)T ).
Thomas Melzer, GEO Department
12
• Die in der SME verwendeten Merkmale haben i.a. kardinales Messniveau
(quantitative Daten), d.h. es können Aussagen über die
– relative Ordnung (Claudia ist jünger als Paul)
– Ähnlichkeit (Claudia ist 3 Monate jünger als Paul) oder
– das Verhältnis (Claudia ist doppelt so alt wie Egon)
von Merkmalsausprägungen gemacht werden.
Thomas Melzer, GEO Department
13
• Merkmalsextraktion (feature extraction)
Ein Merkmal kann als Abbildung ϕ aus dem Muster-Raum (pattern
space) P in den Merkmalsraum (feature space) F verstanden werden:
ϕ:P →F
(1)
Die Merkmalsausprägungen sind dann gerade die Elemente von F , welche durch Merkmalsberechnung (feature computation) als Bilder der
Elemente von P erhalten werden.
Der Begriff der Merkmalsextraktion (feature extraction) wird in der
Literatur nicht einheitlich verwendet. Im engeren Sinn versteht man
darunter die Auswahl oder Bestimmung der Abbildungsfunktion ϕ . Im
weiteren Sinn wird unter Merkmalsextraktion auch die Merkmalsberechnung verstanden (insbesondere im Bereich Bildverarbeitung/Computer
Vision).
Thomas Melzer, GEO Department
14
• Bei der Merkmalsselektion (feature selection) geht es - im Unterschied zur Merkmalsextraktion - darum, aus einer gegebenen Menge von
Merkmalen {ϕ1, . . . , ϕN }, eine kleine, bzg. der gegebenen Klassifizierungssaufgabe maximal “informative” Untermenge auszuwählen.
Thomas Melzer, GEO Department
15
Verwandte Gebiete
• Nichtmetrische Methoden der Mustererkennung:
– Entscheidungsbäume (decision trees): für nominale, qualitative Attribute (z.B. Farbe, Geschmack).
– Strukturelle und Syntaktische Mustererkennung: Muster werden hierarchisch durch Regelanwendung aus sog. Primitiven erzeugt.
• Statistik: Die SME bedient sich statistischer Methoden, beschränkt sich
jedoch nicht auf diese. Implementierbarkeit, Performance und numerische
Stabilität der Algorithmen spielen in der SME eine wichtige Rolle.
Thomas Melzer, GEO Department
16
• Machine Learning: “Estimating an unknown dependency or structure
of a system using a limited number of observations.” (Cherkassky)
–
–
–
–
Regression
Klassifizierung
Dichteschätzung (density estimation)
Clustering/Vektorquantisierung
Thomas Melzer, GEO Department
17
Anmerkung zur Nomenklatur
Regression und Klassifikation gehören zur Kategorie der überwachten (supervised) Verfahren. Hier wird versucht, anhand von gegebenen Paaren
von Merkmalsausprägungen xi und zugeordneten abhängigen Werten yi
den funktionalen Zusammenhang zwischen den Größen y = f (x) zu bestimmen. Je nach Disziplin und Kontext sind verschiedene Bezeichnungen
für die Größen (x, y) gebräuchlich, z.B
–
–
–
–
unabhängige Variable, abhängige Variable (Mathematik)
Input-Variable, Output-Variable
Merkmals-Variable, Target-Variable (Machine Learning, Neurale Netze)
explanatory / predictor variable, response variable (Statistik)
Thomas Melzer, GEO Department
18
Merkmalsbasierte Klassifizierung: ein Beispiel
In einer Fischfabrik soll automatisch anhand eines Grauwertbilds zwischen Lachsen und Brassen unterschieden werden. Das System muss
also im laufenden Betrieb pro Fisch (Muster) folgende Arbeitsschritte
durchlaufen:
1.
2.
3.
4.
5.
6.
Sensor-Messung (Bildaufnahme)
Vorverarbeitung (z.B. Rauschfilterung)
Segmentierung, Labeling
Merkmalsberechnung (Helligkeit, Länge)
Klassierung (Zuweisung an eine gegebene Klasse)
Weiterverarbeitung
Thomas Melzer, GEO Department
19
• Design/Implementierung des Systems
Wir beschäftigen uns im folgenden nur mit den Punkten 4 und 5
(Merkmalsauswahl und Auswahl/Training des Klassifikators). Nehmen wir
an, dass je 100 Brassen und Lachse vermessen wurden, und uns somit also
200 korrekt mit ihrer Klassenzugehörigkeit “gelabelte” Merkmalsvektoren
zur Verfügung stehen (Trainings/Design-Set).
Die Güte eines Merkmals hängt davon ab, a) wie einfach/schnell es
berechnet werden kann und b), wie “diskriminativ” es ist, d.h., wie
gut es zwischen den interessierenden Klassen unterscheidet. b) lässt
sich z.B. mit Hilfe eines Histogramms visualisieren, in welchem auf der
Abszisse die Merkmalsausprägungen und auf der Ordinate die beobachteten Häufigkeiten für jede Merkmalsausprägung (separat für jede
Klasse!) aufgetragen werden. Im Idealfall sollten die Histogramme der
unterschiedlichen Klassen nicht (oder nur wenig) überlappen.
Thomas Melzer, GEO Department
20
salmon
sea bass
count
count
22
20
18
16
12
sea bass
12
10
8
10
8
6
6
4
4
2
0
salmon
14
2
length
5
10
15
l*
20
25
0
2
4
x* 6
lightness
8
10
FIGURE 1.2. Histograms for the length feature for the two categories. No single threshFIGURE 1.3. Histograms for the lightness feature for the two categories. No single
old value of the length will serve to unambiguously discriminate between the two catthreshold value x ∗ (decision boundary) will serve to unambiguously discriminate beegories; using length alone, we will have some errors. The value marked l ∗ will lead to
tween
the two categories; using lightness alone, we will have some errors. The value x ∗
the smallest number of errors, on average. From: Richard O. Duda, Peter E. Hart, and
marked
c 2001 by John Wiley & Sons,
Inc. will lead to the smallest number of errors, on average. From: Richard O. Duda,
David G. Stork, Pattern Classification. Copyright Abbildung 1: Histogramme der Häufigkeiten
der gemessenen Längen c(links)
Peter E. Hart, and David G. Stork, Pattern Classification. Copyright 2001 by John
Wiley & Sons, Inc.
und Helligkeiten (rechts) für Lachse (schwarz) und Brassen (rot). Obwohl
Lachse eher länger als Brassen sind, ist das Merkmal Länge für sich allein nur
schlecht geeignet, um zwischen den beiden Fischarten zu unterscheiden. Die
klassenspezifischen Ausprägungen des Merkmals Helligkeit überlappen sich
zwar in geringerem Maße, jedoch lässt auch dieses Merkmal keine eindeutige,
fehlerfreie Klassifizierung bzg. der gegebenen Klassenzugehörigkeiten (class
labels)
zu.
Thomas Melzer, GEO Department
21
width
22
salmon
width
22
sea bass
21
21
20
20
19
19
18
18
17
17
16
16
15
15
14
lightness
2
4
6
8
10
salmon
sea bass
?
14
lightness
2
4
6
8
10
FIGURE 1.4. The two features of lightness and width for sea bass and
salmon.1.5.
The dark
FIGURE
Overly complex models for the fish will lead to decision boundaries that
line could serve as a decision boundary of our classifier. Overall classification error on
are complicated. While such a decision may lead to perfect classification of our training
the data shown is lower than if we use only one feature as in Fig. 1.3, but there will
samples,
would lead to poor performance on future patterns. The novel test point
still be some errors. From: Richard O. Duda, Peter E. Hart, and David
G. Stork,it Pattern
marked
?
is
evidently most likely a salmon, whereas the complex decision boundary
c 2001 by John Wiley & Sons, Inc.
Classification. Copyright Abbildung 2: Die Kombination mehrerer Merkmale führt oft zu besseren
Ergebnissen. Die beiden Klassenshown
sindleadsimit tozwei-dimensionalen
Merkmalsraum
be classified as a sea bass. From: Richard O. Duda, Peter E. Hart, and
c Problem
Copyright 2001 by John Wiley
Sons, Inc.
Stork, Pattern Classification
(Länge/Helligkeit) bereits rechtDavid
gutG. separiert.
Das n. ächste
ist &die
Auswahl eines geeigneten Klassifikators (Modells). Links ist ein Beispiel für
einen einfachen, linearen Klassifikator zu sehen: dieser ist offensichlich nicht
in der Lage, die beiden Klassen fehlerfrei zu unterscheiden. Der Klassifikator
rechts leistet zwar eine fehlerfreie Klassifikation der Trainingsdaten, jedoch
auf Kosten einer komplexen Entscheidungsgrenze.
Thomas Melzer, GEO Department
22
Nachdem man sich für einen bestimmten Klassifikator (Modell) entschieden hat, muss dieser noch auf den vorhandenen Daten trainiert werden
(das Modell wird an die Daten gefittet); z.B. könnte die Gerade in
Fig. 2 mittels least squares (Methode der kleinsten Quadrate) bestimmt
werden.
Das Ziel des Designs/Trainings besteht letztendlich nicht darin, die Trainingsdaten, sondern die Gesamtheit aller Muster (bzw. aller möglichen
Merkmalsausprägungen) korrekt bzw. mit möglichst geringem “mittleren
Fehler” zu klassifizieren; man spricht in diesem Zusammenhang auch von
der Generalisierungsfähigkeit des Klassifikators.
Während zu einfache Modelle zu schlechten Ergebnisen bereits auf dem
Trainingsset führen, weil sie die den Daten zugrundeliegende Struktur
nicht erklären können (underfitting ), sind zu komplexe Modelle sehr sensitiv bzg. der Auswahl der Trainingsdaten sowie bzg. zufälliger Messfehler
(Rauschen) in den Trainingsdaten, was ebenfalls zu schlechter GeneraThomas Melzer, GEO Department
23
lisierungsfähigkeit (hoher Prozentsatz falscher Klassifikationen auf nicht
im Trainingsset enthaltenen Daten) führen kann (overfitting ).
width
22
salmon
sea bass
21
20
19
18
17
16
15
14
lightness
2
4
6
8
10
FIGURE 1.6. The decision boundary shown might represent the optimal tradeoff between performance on the training set and simplicity of classifier, thereby giving the
highest accuracy on new patterns. From: Richard O. Duda, Peter E. Hart, and David G.
c 2001 by John Wiley & Sons, Inc.
Stork, Pattern Classification. Copyright Abbildung 3: Beispiel für einen quadratischen Klassifikator “mittlerer Komplexität”.
Thomas Melzer, GEO Department
24
Die Minimierung des “mittleren Fehlers” eines Klassifikators ist möglich,
falls die statistische Verteilung (Dichtefunktion) der Merkmale bekannt
ist oder zumindest geschätzt werden kann. Dies motiviert den Einsatz
statistischer Methoden zum Design optimaler Klassifikatoren (mit minimalem mittleren Fehler) sowie zur Dichteschätzung.
Thomas Melzer, GEO Department
25
Ein einfacher binärer Klassifikator: das Perceptron
• Das Perceptron stellt einen Speziallfall eines binären, linearen Klassifikators dar. Lineare Modelle sind schnell und einfach zu trainieren und
auszuwerten.
Wir gehen im folgenden von d-dimensionalen Merkmalsvektoren x ∈ IRd
und zwei Klassen ω1, ω2 aus. Ziel ist es, eine Abbildung g : IRd → IR zu
finden, welche die Klassenzugehörigkeit wie folgt kodiert
g(x) > 0
falls x ∈ ω1
(2)
g(x) < 0
falls x ∈ ω2
(3)
wobei der Absolutbetrag von g das “Vertrauen” in die vorhergesagte
Thomas Melzer, GEO Department
26
Klassenzugehörigkeit von x widerspiegelt. g wird auch als Diskriminantenfunktion (discriminant function) bezeichnet.
Im speziellen Fall einer linearen Diskriminantenfunktion hat g die folgende
Form
d
X
g(x) =
wixi − θ = wT x − θ,
(4)
i=1
wobei


x1
 x2 

x=
 ... ,
xd


w1
 w2 

w=
 ... .
wd
(5)
w ∈ IRd wird oft als Gewichtsvektor und θ ∈ IR als bias oder threshold
bezeichnet. Die Aufgabe besteht nun darin, geeignete Werte für w und
θ zu finden.
Thomas Melzer, GEO Department
27
Das Perceptron wurde gegen Ende der 1950er von Rosenblatt als Modell eines künstlichen neuralen Neztwerks entwickelt. Die Architektur
des Perceptrons entspricht einer linearen Diskriminantenfunktion mit
nachgeschalteter Signum-Funktion. Wenn wir mit o(x) die Ausgabe des
Percpetrons bezeichnen, so haben wir
T
o = o(x) = sgn(w x − θ) =
1 if wT x ≥ θ
−1 if wT x < θ
(6)
Das Ziel ist nun, den Gewichtsvektor w und bias θ zu bestimmen, sodass:
o(x) = 1
o(x) = −1
Thomas Melzer, GEO Department
(⇔ wT x ≥ θ) falls x ∈ ω1
(⇔ wT x < θ) falls x ∈ ω2
(7)
(8)
28
• Geometrische Interpretation
Für w, x ∈ IRd, legt
d
X
wixi = wT x = θ,
(9)
i=1
eine in den IRd eingebettete (d − 1)-dimensionale Hyper-Ebene (hyperplane) (im Fall d = 2 eine Gerade) mit Normalvektor w fest. Im Fall
θ = 0 geht die Hyper-Ebene durch den Ursprung, andrenfalls ist sie
entlang w um den Betrag θ/kwk vom Ursprung verschoben.
Das innere Produkt wT x kann alternativ als
wT x = cos(w, x)kxkkwk
(10)
geschrieben werden, und entspricht daher der Projektion von x auf w
(cos(w, x)kxk) mal der Norm von w, kwk.
Thomas Melzer, GEO Department
29
x2
w
x1
θ
Abbildung 4: Die gestrichelte Gerade wT x = θ ist durch ihren Normalvektor
w und ihre Distanz vom Ursprung θ/kwk, gemessen entlang w, festgelegt
(hier für den Fall kwk = 1). Für schwarze Punkte (∈ ω1) gilt, wT x > θ,
wohingegen für die weißen Punkte (∈ ω2) wT x < θ gilt.
Thomas Melzer, GEO Department
30
Die Hyper-Ebene wT x = θ partitioniert IRd in zwei Halbräume:
R1 = {x : wT x ≥ θ} and R2 = {x : wT x < θ}.
Da wir eine Beobachtung x an ω1 zuweisen falls x ∈ R1 und an ω2
falls x ∈ R2, werden die Ri auch Entscheidungsregionen decision
regions genannt; die separierende Hyper-Ebene wT x = θ wird auch
Entscheidungsgrenze (decision boundary ) genannt.
• Lineare Separierbarkeit (linear separability )
Sei X = (x1, . . . , xN ) ∈ IRd×N eine Menge von N Merkmalsvektoren
mit zugeordneten Klassen-Labels yT = (y1, . . . , yN ), yi ∈ {1, −1}. Wir
sagen dass X linear separierbar (bzg. y) ist, falls es einen Gewichtsvektor
w und bias θ gibt, sodass
o(xi) = sgn(wT xi − θ) = yi, 1 ≤ i ≤ N.
Thomas Melzer, GEO Department
(11)
31
• Kanonische Repräsentation (Canonical Representation)
Wenn wir w und θ mit demselben positiven Faktor α ∈ IR+ multiplizieren,
bleiben die Entscheidungsregionen unverändert:
wT x = θ ⇔ (αw)T x = αθ
(∀x ∈ IRd)
(12)
wT x ≥ θ ⇔ (αw)T x ≥ αθ
(∀x ∈ IRd)
(13)
Setzen wir speziell α = 1/kwk, so erhalten wir die sogenannte kanow
θ
nische Repräsentation der Hyper-Ebene wc = kw
,
θ
=
c
k
kwk mit auf
Einheitlänge normiertem Normalvektor kwck = 1. In diesem Fall
– entspricht das innere Produkt wcT x der Projektion von x auf wc (siehe
Eq. 10), and
– gibt der Wert der Diskriminantenfunktion g(x) = wcT x − θc den
Abstand von x zur Entscheidungsebene an (parallel zu wc).
Thomas Melzer, GEO Department
32
• Homogene Koordinaten (Homogeneous Coordinates)
Der bias kann durch einen kleinen Kunstgriff in den Gewichtsvektor
“hineingezogen” werden. Wir führen zu diesem Zweck zusätzliche Koordinaten x0 ≡ 1 and w0 = −θ ein.



a
T T
x = (1, x ) = 


Thomas Melzer, GEO Department
1
x1
x2
...
xd



,





a
T T
w = (−θ, w ) = 


−θ
w1
w2
...
wd






(14)
33
Wir haben somit
g(x) = awT ax =
d
X
wixi = −θ +
i=0
d
X
wixi = wT x − θ.
(15)
i=1
Im speziellen ist g linear in ax (und ebenso in aw):
g(α1ax1 + α2ax2) =
a
wT (α1ax1 + α2ax2) =
α1awT ax1 + α2awT ax2 = α1g(ax1) + α2g(ax2).
(16)
Man beachte, das g nicht linear - im obigen, strengen Sinn - in den
nicht-homogenen Koordinaten w bzw. x ist.
Die Transformation in homogene Koordinaten vereinfacht unser ursprüngliches Problem, indem es dessen Dimensionalität um 1 (von d
Thomas Melzer, GEO Department
34
auf d + 1) erhöht; Eq. 15 definiert nun eine d-dimensionale Hyper-Ebene
im IR(d+1), welche welche durch den Ursprung geht.
Wir werden im folgenden - falls nicht anders erwähnt - stets homogene
Koordinaten annehmen und daher das Superscript a weglassen.
Thomas Melzer, GEO Department
35
−θ
Abbildung 5: Beispiel für homogene Koordinaten im Fall d = 2. Ansicht parallel zur Entscheidungsebene). Die homogenen Merkmalsvektoren (xi ∈ IR3)
liegen auf der (x0 = 1)-Ebene. Die Hyperebene ist nun 2-dimensional,
geht durch den Ursprung und liegt im IR3. Die Entscheidungsgrenze für
nicht-homogene Daten ist durch die Projektion der Schnittgeraden der
Hyper-Ebene mit der (x0 = 1)-Ebene auf (x0 = 0) gegeben.
Thomas Melzer, GEO Department
36
• Training
Sei ST r = {X, y} eine Menge von N homogenen Merkmalsvektoren
X = (x1, . . . , xN ) ∈ IR(d+1)×N und korrespondierenden Klassen-Labels
yT = (y1, . . . , yN ), yi ∈ {1, −1}. ST r ist das sogenannte Trainingsset.
Wollten wir z.B. das binäre AND-Problem mittels eines Perceptrons
lösen, so hätte unser Trainingsset folgende Form:


1 1 1 1
X = 0 1 0 1 
0 0 1 1
yT = (−1, −1, −1, 1).
(17)
Ziel: finde einen homogenen Gewichtsvektor w, sodass
o(xi) = sgn(wT xi) = yi, 1 ≤ i ≤ N.
Thomas Melzer, GEO Department
(18)
37
Idee: falls ein “positiver” Trainingsvektor xj mit yj = 1 falsch klassifiziert
wurde (⇒ wT xj < 0), so addiere ein Vielfaches von xj to w: dadurch
wird die Hyper-Ebene auf den falsch klassifizierten Vektor hinbewegt.
Man sieht dass
(w + γxj )T xj = wT xi + γkxj k2 > wT xj , γ > 0.
(19)
Der positive Faktor γ wird auch Lernrate genannt.
Analog zum obigen Fall, sollte im Fall eines misklassifizierten “negativen”
Trainingsvektors xj die Hyper-Ebene von diesem wegbewegt werden
(indem wir Vielfaches von xj von w subtrahieren).
In beiden Fällen ist es möglich, dass (abhängig vom Wert von γ und dem
ursprügnlichen w), zuvor korrekt klassifizierte Vektoren durch die neue
Hyper-Ebene nun falsch klassifiziert werden.
Thomas Melzer, GEO Department
38
x2
x2
w
w
x1
x1
Abbildung 6: Perceptron Training: in der linken Abbildung wurde der obere
linke “positive” Vektor xj falsch klassifiziert. Indem wiederholt ein Vielfaches
von xj , γxj , γ > 0 zu w addiert wird, bewegt sich die Entscheidungsgrenze
schließlich über xj hinweg (wodurch xj richtig klassifiziert wird). Dies ist in
der rechten Abbildung dargestellt (γ << 1).
Thomas Melzer, GEO Department
39
Wir können beide Fälle abdecken, indem wir beachten dass
sgn(wT xi) = yi ⇔ sgn(wT xi)yi = 1
(20)
⇐ (wT xi)yi > 0 ⇔ wT (xiyi) > 0.
(21)
Ausgehend von Eq. 21, welche eine etwas strengere Bedingung als Eq. 20
darstellt (da die Merkmalsvektoren nicht direkt auf der Entscheidungsebene liegen dürfen), suchen wir nun nach einem Gewichtsvektor welcher das
modifizierte Trainingsset xiyi, 1 ≤ i ≤ N (mit ausschließlich positiven
Klassen-Labels) in die positive Halb-Ebene abbildet.
Thomas Melzer, GEO Department
40
Dies führt uns zum Online Perceptron Training Algorithmus:
1. Initialize w, γ
2. do
3.
for i = 1 to N
4.
if wT (xiyi) ≤ 0 (misclassified ith pattern)
5.
w ← w + γxiyi
6.
end if
7.
end for
8. until all patterns correctly classified
Die Schritte 3. - 7. (Präsentation aller N Trainingsbeispiele) werden
häufig als Epoche bezeichnet, der Schritt 5. als Gewichts-Update.
Zwei wichtige Fragen
– Wie sollen w, γ initialisiert werden?
– Terminiert der Algorithmus in einer endlichen Anzahl von Schritten?
Thomas Melzer, GEO Department
41
Initialisierung
Sei w = 0. In diesem Fall ist der mit dem obigen Algorithmus erhaltene
Gewichtsvektor wp eine Linearkombination der während des Trainings
falsch klassifizierten Merkmalsvektoren:
wp =
N
X
i=1
xi(yiγki) = γ
N
X
xi(yiki), ki ∈ IN0,
(22)
i=1
wobei ki angibt, wie oft der i-te Merkmalsvektor falsch klassifiziert wurde.
Folglich ist γ lediglich ein Skalierungsfaktor und hat - wie im Abschnitt
über homogene Koordinaten erklärt (siehe Eqs. 12-13) - keinen Einfluss
auf die Entscheidungsgrenze. Daher können wir bequemerweise einfach
γ = 1 setzen. (Achtung, dies gilt i.a. nicht für andere Lernverfahren wie
z.B. LMS).
Thomas Melzer, GEO Department
42
Perceptron Konvergenz-Theorem
Der online Perceptron Algorithmus mit fixer Lernrate γ terminiert für
jedes linear separierbare Trainingsset mit Lösung wp, d.h., falls eine
separierende Hyper-Ebene mit Normalvektor w∗ existiert.
Der Algorithmus terminiert nicht im Falle eines nicht linear separierbaren
Trainingssets (z.B. XOR-Problem).
Die Anzahl der Korrekturschritte (5.) ist nach oben beschränkt durch
∗
maxj kxj kkw k
mini(w∗T xi)
2
, 1 ≤ i, j ≤ N.
(23)
Die obige Formel ist jedoch nicht zur praktischen Berechnung der maximalen Anzahl der Iterationsschritte geeignet, da ja die Kenntnis einer
Lösung w∗ voraussetzt wird.
Thomas Melzer, GEO Department
43
• Margin
Eq. 23 steht in engem Zusammenhang mit der Größe
w∗T (xiyi)
gm(xi) =
,
∗
k
kw(1:d)
(24)
welche den Abstand des i-ten Merkmalsvektors von der durch w∗ festgelegten Hyper-Ebene angibt und als geometrische margin (geometric
margin) des Vektors xi bzg. w∗ bezeichnet wird. Man beachte, dass
gm(xi) > 0 g.d.w. xi korrekt klassifiziert wird.
Der Vektor xj mit minimaler geometrischer margin gm(xj ), also
j = arg min gm(xi), 1 ≤ i ≤ N,
i
Thomas Melzer, GEO Department
(25)
44
legt die geometrische margin gm(w∗) der Hyper-Ebene bzg. des Trainingssets {X, y} fest: gm(w∗) = gm(xj ).
Thomas Melzer, GEO Department
45
x2
x2
x1
gm(w)
x1
gm(w)
Abbildung 7: Links: eine Hyper-Ebene (fett gestrichelt dargestellt), welche
eine Menge von 7 Punkten separiert. Ebenfalls eingezeichnet sind die margins
der der Hyper-Ebene nächstgelegenen positiven bzw. negativen Beispiele.
Die geometrische margin der Hyper-Ebene gm(w) ist das Minimum dieser
beiden Werte.
Rechts: optimale separierende Hyper-Ebene, welche gm(w) maximiert. 46
Thomas Melzer, GEO Department
Eq. 23 sagt somit aus, dass die Anzahl der Gewichts-Updates
– reziprok proportional zu gm(w∗)2 und
– direkt proportional zum Quadrat der Norm des längsten Merkmalsvektors (Radius der kleinsten Hyper-Kugel, welche alle Merkmalsvektoren
in X enthält)
ist. (Man beachte, dass in Eq. 24 durch kw(1:d)k, also durch die Länge
des Normalvektors dividiert wird. Da kw(1:d)k ≤ kw(0:d)k, bleibt die
Ausssage jedoch richtig.)
Für gegebenen Radius der Hyper-Kugel, welche alle Trainingsvektoren
enthält, wird der “Schwierigkeitsgrad” des Lernproblems durch jene
Vektoren bestimmt, welche am nächsten zur Hyper-Ebene liegen (oder,
anders formuliert, durch jene Vektoren, die fast “orthogonal” zu w∗
liegen).
Thomas Melzer, GEO Department
47
Die Generalisierungsfähigkeit des Perceptrons wird um so besser sein, je
größer gm(w∗) ist; diese Idee - den minimalen Abstand der TrainingsPunkte von der Hyper-Ebene respektive die margin gm(w∗) zu maximieren - liegt der support vector machine (SVM) zugrunde. Man spricht
in diesem Zusammenhang auch von maximum margin classifiers. Siehe
auch Fig. 7.
Thomas Melzer, GEO Department
48
• Verwandte Verfahren
Der Perceptron-Algorithmus in der hier präsentierten Form hat zwei wesentliche Nachteile, welche die Entwicklung leistungsfähigerer Verfahren
motiviert haben:
– Der Perceptron-Algorithmus terminiert nicht im Fall nicht linear separierbarer Daten. Der mit dem Perceptron verwandte Ho-KashyapAlgorithmus erkennt diesen Fall und terminiert auch auf nicht linear
separierbaren Daten.
– Das Perceptron findet nicht unbedingt die optimale Lösung
w∗ = arg max gm(w)
w
(26)
mit maximaler margin. Die moderneren SVMs hingegen finden die
optimale Lösung (hierzu muss in der SVM-Formulierung allerdings ein
quadratisches Optimierungsproblem unter linearen Nebenbedingungen
Thomas Melzer, GEO Department
49
gelöst werden). Es gibt auch verschiedene Erweiterungen der SVMs
für nicht linear separierbare Daten (Schlupfvariablen, Kernelisierung).
SVMs unterscheiden sich von den meisten im folgenden diskutierten
Verfahren dadurch, dass sie “verteilungsfreie” Verfahren sind, also
nicht auf einer Schätzung der zugrundeliegenden Dichtefunktion der
Daten basieren; statt dessen minimieren Sie das worst-case risk, also
den schlimmsten anzunehmenden Fehler.
Thomas Melzer, GEO Department
50
Grundbegriffe der Wahrscheinlichkeitstheorie
• Ein Elementar-Ereignis ist ein möglicher Ausfall eines Zufallsexperiments, z.B. die geworfene Augenzahl beim Würfeln, das Geschlecht einer
Person etc. Die Menge aller Elementar-Ereignisse wird als Stichprobenraum Ω = {e1, ..., en} bezeichnet, für die beiden obigen Beispiele wäre
dies Ω = { , ..., }, bzw. Ω = {”maennlich”, ”weiblich”}.
Der Stichprobenraum ist somit das wahrscheinlichkeitstheoretische Pendant zum Merkmalsraum; ein Elementar-Ereignis enstpricht einer Ausprägung/Realisierung eines (distalen) Merkmals.
• Ereignisse sind Mengen von Elementar-Ereignissen, z.B ist das Ereignis
”Augenzahl gerade”durch { , , } gegeben. Die Menge aller interessierenden Ereignisse wird als Ereignisraum Σ bezeichnet.
Thomas Melzer, GEO Department
51
• Axiomatische Definition der Wahrscheinlichkeit
Die Wahrscheinlichkeit P (A) eines Ereignisses A ist durch eine Funktion
P : Σ → IR gegeben. Die klassischen Kolmogorov -Axiome fordern, daß
– P ∈ [0..1]
– P (Ω) = 1
– P (A ∪ B) = P (A) + P (B) für diskjunkte Ereignisse A, B ⊂ Σ mit
A ∩ B = ∅ (σ-Additivität)
Es sei jedoch darauf hingewiesen, daß auch andere Axiomatisierungen
des Wahrscheinlichkeitsbegriffs möglich sind (siehe im speziellen Jaynes,
Logic of Science).
Thomas Melzer, GEO Department
52
• Unter einer Zufallsvariable (random variable) X versteht man eine Abbildung X : Ω → Ω0 ⊆ IR. Zufallsvariablen kodieren Ereignisse; sie stellen
formal den Zusammenhang zwischen Ereignissen bezüglich distaler Objekte (Würfel, Gruppe von Personen) und numerisch kodierten Merkmalsausprägungen dieser Objekte her, z.B. X( ) = 3, X(”weiblich”) = 0.
Des weiteren legt eine Zufallsvariable via
PX (X ∈ r) = P X
−1
(r) = P ({e : X(e) = r})
(27)
fest, wie sich die Wahrscheinlichkeitsmasse 1 auf Teilmengen r ⊂ IR
verteilt: X legt die Verteilung des kodierten Merkmals fest.
Man beachte, daß PX () auf dem Bildberreich IR, P () jedoch auf dem
ursprünglichen Stichprobenraum definiert ist. Wir werden im folgenden
die kürzere Schreibweise P () statt PX () verwenden, wenn P () aus dem
Kontext eindeutig bestimmt ist. Dies ist in Ausdrücken wie P (X > 3)
Thomas Melzer, GEO Department
53
(durch die explizite Angabe der Zufallsvariable X) stets der Fall.
Thomas Melzer, GEO Department
54
Diskrete Verteilungen
• Eine Verteilung heißt diskret, wenn die Anzahl der ElementarEreignisse (der möglichen Versuchsausfälle) |Ω| endlich oder abzählbar
ist. Elementar-Ereignisse (Merkmalsausprägungen) werden typischerweise durch ganze Zahlen i kodiert, wobei dieser Zusammenhang formal
durch eine diskrete Zufallsvariable X(ei) = i hergestellt wird. Sei
X(Ω) = Ω0 ⊂ IN.
– Münzwurf X(Kopf ) = 0, X(Zahl) = 1
Ω0 = {0, 1}, |Ω| = 2
– Augenzahl beim Würfeln
Ω0 = {1, 2, 3, 4, 5, 6}, |Ω| = 6
– Anzahl der pro Senkunde gemessenen Teilchen eines radioaktiven
Thomas Melzer, GEO Department
55
Zerfallsprozesses
Ω0 = IN, |Ω| = ℵ0
• Die Wahrscheinlichkeit, daß das Elementar-Ereignis i eintritt, ist durch
die Wahrscheinlichkeitsfunktion (probability mass function)
pi = p(i) = P (X = i)
(28)
gegeben. Die Verteilung
ist durch die Gesamtheit aller pi festgelegt,
P
wobei pi ≥ 0 und i∈Ω0 i = 1 gelten muß.
• Die Bernoulli-Verteilung B(1, θ) mit Parameter 0 ≤ θ ≤ 1 beschreibt
einen Zufallsversuch, der nur zwei mögliche Ausfälle haben kann (z.B.
Münzwurf). Für eine Bernoulli-verteilte Zufallsvariable X ∼ B(1, θ) gilt:
P (X = 1) = θ, P (X = 0) = 1 − θ.
Thomas Melzer, GEO Department
(29)
56
• Die Verteilungsfunktion ist durch
F (k) = P (X ≤ k) =
k
X
pi
(30)
i=1
gegeben.
• Seien X, Y zwei diskrete Zufallsvariablen, und bezeichne weiters A ein
Elementar-Ereignis bzg. X (z.B. X = i) und B ein Elementar-Ereignis
bzg Y (z.B. Y = j). Die Wahrscheinlichkeit, dass die Ereignisse A und B
gemeinsam auftreten, ist durch die Verbundwahrscheinlichkeit (joint
probability )
pij = P (A, B) = P (A ∩ B)
(31)
gegeben.
Thomas Melzer, GEO Department
57
Randverteilung und Unabhängigkeit
• Beispiel: Länge und Helligkeit von Lachsen
Seien X und Y zwei diskrete Zufallsvariablen, welche die Verteilung der
Länge (X) und Helligkeit (Y ) von Lachsen beschreiben, wobei wir von
nX = 4 Längen- und nY = 2 Helligkeitsstufen ausgehen.
Seien weiters pi = P (X = i) und pj = P (Y = j) die entsprechenden
Wahrscheinlichkeitsfunktionen, wobei wir annehmen, dass beide Helligkeitsstufen gleich wahrscheinlich sind und sich die Längen wie im
folgenden Histogramm dargestellt verteilen:
Thomas Melzer, GEO Department
58
40
35
30
25
20
15
10
5
0
5
10
15
20
Abbildung 8: Histogramm der Längen (Ordinate = pi*100).
Thomas Melzer, GEO Department
59
pi
pj
1
0.1
0.5
2
0.3
0.5
3
0.4
4
0.2
Tabelle 1: Wahrscheinlichkeitsfunktionen für Länge X und Helligkeit Y .
Thomas Melzer, GEO Department
60
Y /X
1
2
pi,.
1
0.08
0.02
0.1
2
0.12
0.18
0.3
3
0.15
0.25
0.4
4
0.15
0.05
0.2
p.,j
0.5
0.5
1
Tabelle 2: Verbundwahrscheinlichkeiten pij
• Die Randverteilung (marginal distribution) von X, pi,., erhält man aus
pij , indem man für jede Merkmalsausprägung (jedes Elementar-Ereignis)
bzg. X über alle möglichen Merkmalsausprägungen bzg. Y summiert:
pi = pi,. =
nY
X
pij
(32)
j=1
Analog erhält man die Randverteilung von Y , p.,j .
Thomas Melzer, GEO Department
61
Y /X
1
2
pi,.
1
0.05
0.05
0.1
2
0.15
0.15
0.3
3
0.2
0.2
0.4
4
0.1
0.1
0.2
p.,j
0.5
0.5
1
Tabelle 3: Verbundwahrscheinlichkeiten im Falle der Unabhängigkeit von
X, Y .
• Im Falle der Unabhängigkeit (independence) von X, Y gilt
pij = pi,. p.,j ,
(33)
für 1 ≤ i ≤ nX , 1 ≤ j ≤ nY , d.h., die joint probabilities ergeben sich als
das Produkt der korrespondierenden Randverteilungen.
Thomas Melzer, GEO Department
62
• Bedingte Wahrscheinlichkeit (conditional probability )
Bezeichne A das Ereignis X = i und B das Ereignis Y = j.
Die bedinge Wahrscheinlichkeit von A unter B, P (A|B), (d.h. die
Wahrscheinlichkeit, dass A eintritt, nachdem B bereits eingetreten ist),
ist gegeben durch
P (A, B) P (X = i, Y = j)
pij
P (A|B) =
=
=
.
P (B)
P (Y = j)
p.,j
(34)
Sind die bedingten Wahrscheinlichkeiten und die Randverteilungen bekannt, so kann die joint probability wie folgt berechnet werden
P (A, B) = P (A|B)P (B) = P (B|A)P (A).
Thomas Melzer, GEO Department
(35)
63
• Sind X, Y unabhängig, so gilt (für alle i, j)
P (A, B) = P (A|B)P (B) = P (A)P (B)
(36)
P (A|B) = P (A)
(37)
und somit
• Für festes j erhält man die bedingte Verteilung von X unter Y = j.
P (X = i|Y = 1)
P (X = i|Y = 2)
1
0.16
0.04
2
0.24
0.36
3
0.30
0.50
4
0.30
0.10
1
1
Tabelle 4: Bedingte Verteilungen von X (für Tab. 2).
Thomas Melzer, GEO Department
64
30
50
45
25
40
35
20
30
15
25
20
10
15
10
5
5
0
5
10
15
20
0
5
10
15
20
Abbildung 9: Bedingte Verteilungen P (X = i|Y = 1) (links) und
P (X = i|Y = 2) (rechts) für die joint probabilites in Tab. 2.
Thomas Melzer, GEO Department
65
Produkt- und Summenregel der
Wahrscheinlichkeitsrechnung
Seien A und B beliebige Ereignisse (also nicht notwendigerweise
Elementar-Ereignisse) bezüglich der Zufallsvariablen X resp. Y.
• Produktregel (product rule)
P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A)
(38)
(siehe Gleichung 35).
• Summenregel (sum rule)
Die Wahrscheinlichkeit, daß Ereignis A oder Ereignis B eintritt, ist die
Thomas Melzer, GEO Department
66
Summe der Einzelwahrscheinlichkeiten minus der Wahrscheinlichkeit, daß
sowohl A als auch B eintritt:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(39)
Z.B. gilt für die Verbundverteilung in Tabelle 2:
P (X = 1 ∪ Y = 1) = p1,. + p.,1 − p1,1 = 0.1 + 0.5 − 0.08 = 0.52.
• Erweiterte Summenregel (auch: law of total probability )
Wenn die Ereignisse B1, .., Bn eine Partitionierung des Stichprobenraums
darstellen, d.h. ∪ni=1Bi = Ω und Bi ∩ Bj = ∅ für i 6= j, dann gilt:
n
X
i=1
Thomas Melzer, GEO Department
P (A ∩ Bi) =
n
X
P (A|Bi)P (Bi) = P (A)
(40)
i=1
67
Summe zweier diskreter Zufallsvariablen
Für die Summe Z = X + Y zweier unabhängiger diskreter Zufallsvariablen (z.B. Summe der Augenzahlen beim Würfeln) gilt:
P (Z = z) = P (X + Y = z) =
X
P (X = i, Y = z − i)
i
=
X
i
pi,z−i =
X
pi,.p.,z−i
(41)
i
d.h. die Wahrscheinlichkeitsfunktion der Summe erhält man als Faltung der
Wahrscheinlichkeitsfunktionen der Summanden.
Thomas Melzer, GEO Department
68
Stetige Verteilungen
• Stetige Zufallsvariable
Elementar-Ereignisse werden durch reelle Zahlen kodiert, z.B.
Körpergröße von 1.6m: X == 1.6, Ereignisse durch Teilmengen des
IR, z.B. Größe zwischen 1.5m und 1.7m: X ∈ [1.5, 1.7]
• Verteilungsfunktion, VF ( cumulative distribution function, cdf )
FX (x) = P (X ≤ x) gibt die Wahrscheinlichkeit an, dass eine Beobachtung in das Intervall (−∞, x] fällt.
• Dichtefunktion, DF (probability density function, pdf )
Im Falle einer stetigen Verteilung läßt sich FX (x) als Integral
einer nichtRx
negativen Dichtefunktion pX (x) darstellen: FX (x) = −∞ pX (x0)dx0.
Thomas Melzer, GEO Department
69
• Beziehung zwischen Zufallsvariable und VF bzw. DF
Eine Zufallsvariable kann als eine spezielle Repäsentation einer Verteilung
betrachtet werden. Der Zusammenhang ist durch
Z
b
pX (x)dx = FX (b) − FX (a)
P (a ≤ X ≤ b) =
(42)
a
gegeben.
Man beachte, dass die diskrete Wahrscheinlichkeitsfunktion pi tatsächlich
die Wahrscheinlichkeit des Eintretens eines Ereignisses angibt , während
ihr stetiges Gegenstück, die Dichtefunktion pX (x), x ∈ IR, nicht als
Wahrscheinlichkeit interpretiert werden kann; insbesondere gilt im Falle
Thomas Melzer, GEO Department
70
einer stetigen Zufallsvariablen X
Z
α
pX (x)dx = 0 (∀α ∈ IR).
P (X = α) =
(43)
α
Thomas Melzer, GEO Department
71
• Beispiel: Normalverteilung N (µ, σ 2).
µ . . . Mittelwert (mean)
σ . . . Standardabweichung (std, standard deviation)
σ 2 . . . Varianz (variance)
1
0.9
cdf F (x) =
0.8
Rx
0
0
p(x
)dx
−∞
0.7
0.6
0.5
pdf p(x) =
0.4
√1
2πσ
−
exp
(x−µ)2
2σ 2
0.3
0.2
0.1
0
−5
−4
−3
−2
−1
Thomas Melzer, GEO Department
0
1
2
3
4
5
72
• Eigenschaften der pdf und cdf.
–
–
–
–
F (x) ist monoton wachsend
limx→−∞ F (x) = 0 und limx→∞ F (x) = 1
p(x) ≥ 0 (∀x ∈ IR)
p(x) = dF (x)/dx
• Quantile
Für das α-Quantil xα gilt, dass ein α-Anteil der Daten kleiner und ein
(1 − α)-Anteil der Daten größer als xα ist: P (xα) = α.
• Quantile der Standard-Normalverteilung N (0, 1)
α
0.5
0.95
0.975
xα
0
1.64
1.96
Thomas Melzer, GEO Department
73
• Z-Standardisierung
Eine normalverteilte Zufallsvariable X ∼ N (µ, σ 2) lässt sich mittels
X −µ
Z=
σ
(44)
in eine standard-normalverteilte Zufallsvariable Z ∼ N (0, 1) transformieren. Die Umkehrung der obigen Beziehung kann verwendet werden, um
die Quantile von N (µ, σ 2) aus jenen von N (0, 1) zu berechnen. So ergibt
sich z.B. x0.95 von N (30, 9) zu
1.64 ∗ 3 + 30 = 34.92
Thomas Melzer, GEO Department
74
• Zufallsvariable vs. Variable – Wiederholung
Zufallsvariablen (random variable) beschreiben formal die zugrunde liegende Wahrscheinlichkeitsstruktur (Verteilung) eines Merkmals. Kodieren wir z.B. ein Merkmal durch die Zufallsvariable X, so bedeutet
X ∼ N (µ, σ 2), dass die Merkmalsausprägungen einer Normalverteilung
folgen.
Zufallsvariablen sind von “kontrollierten” Variablen zu unterscheiden,
welche z.B. als Integrationsgrenzen oder als Laufvariablen verwendet
werden; insbesondere sind die Argumente x von F (x) und p(x) keine
Zufallsvariablen.
In der Praxis wird diese Unterscheidung jedoch nicht immer getroffen
Während wir in den einführenden Kapiteln Zufallsvariablen noch speziell durch Großbuchstaben (z.B. X) kennzeichnen, werden wir diese
Unterscheidung später ebenfalls aufgeben.
Thomas Melzer, GEO Department
75
Stetige Vereilungen II
Der multivariate Fall
• p-dimensionaler Zufallsvektor
(random vector )


X1
~ = (X1, . . . , Xp)T =  . . . 
X
Xp
• p-dimensionaler Merkmalsvektor
(feature vector )


x1
x = (x1, . . . , xp)T =  . . . 
xp
Vektoren (ausgenommen Zufallsvektoren) werden im folgenden mit fetten
Kleinbuchstaben bezeichnet und stets als Spaltenvektoren aufgefasst.
Thomas Melzer, GEO Department
76
• Joint pdf und Joint cdf
Die mulitvariate Verteilungsfunktion (joint cdf ) ist wie folgt definiert:
~ ≤ x) = P (X1 ≤ x1, . . . , Xp ≤ xp).
F (x) = P (X
(45)
F (x) ergibt sich, analog zum skalaren Fall, als p-faches Integral über
eine nicht-negative mulitvariate Dichtefunktion (joint pdf )
Z
x
F (x) =
p(x0)px0 =
−∞
Thomas Melzer, GEO Department
Z
x1
Z
xp
...
−∞
p(x01, . . . , x0p)dx01 . . . dx0p.
(46)
−∞
77
• Eigenschaften der joint pdf und joint cdf
– F (x) ist monoton wachsend in allen Koordinaten
– limxi→−∞ F (x) = 0, d.h. F (x) wird 0 wenn nur eines der xi gegen
−∞ geht
– limx1,...,xp→+∞ F (x) = 1, d.h. F (x) wird 1 wenn alle xi gegen +∞
gehen
– p(x) ≥ 0 ∀x ∈ IRp
– p(x) = ∂ pF (x)/∂x1 . . . ∂xp
Thomas Melzer, GEO Department
78
• Randverteilung (marginal distribution)
Seien X, Y zwei stetige Zufallsvariablen mit pdf p(x, y) und cdf F (x, y).
Die Randverteilung der Dichtefunktion (marginal pdf) bzg. X ergibt
sich durch Integration über alle möglichen Ausprägungen von Y
Z
+∞
p(x, y 0)dy 0
pX (x) =
(47)
−∞
Die Randverteilung der Verteilungsfunktion (marginal cdf) bzg. X erhält
man als Integral über die marginal pdf
Z
x
Z
+∞
FX (x) =
−∞
Z x
=
p(x0, y 0)dy 0dx0
−∞
pX (x0)dx0 = F (x, +∞).
(48)
−∞
Thomas Melzer, GEO Department
79
Die marginal pdf pY (y) und marginal cdf FY (y) bzg. Y berechnen sich
analog.
In der Praxis wird oft kurz p(x) für pX (x) bzw. F (x) für FX (x)
geschrieben (analog für Y ).
Thomas Melzer, GEO Department
80
• Beispiel: Rechtecksverteilung
Gleichverteilung im Bereich B = B1 × B2 = [a1, b1] × [a2, b2]. Die joint
pdf ist innerhalb von B konstant:
p(x, y) =
1
(b1 − a1)(b2 − a2)
(49)
für (x, y) ∈ B, 0 sonst.
Die joint cdf berechnet sich wie folgt:
F (x, y) =
–
–
–
–
–
0, falls x < a1 oder y < a2
(x − a1)/(b1 − a1), falls x ∈ B1, y > b2 (Randverteilung von x)
(y − a2)/(b2 − a2), falls y ∈ B2, x > b1 (Randverteilung von y)
(x − a1)(y − a2)/(b1 − a1)(b2 − a2), falls (x, y) ∈ B
1, falls x > b1 und y > b2.
Thomas Melzer, GEO Department
81
1.2
1
1.2
1
0.8
F(x,y)
y
0.8
0.6
0.6
0.4
0.2
0
1.5
0.4
1
0.2
1.5
0.5
0
1
0.5
0.2
0.4
0.6
x
0.8
1
y
0
0
x
Abbildung 10: Rechtecksverteilung im Bereich [0.3, 0.9] × [0.2, 1].
Links: Die Dichtefunktion (joint pdf ) p(x, y) ist innerhalb der schwarz
gepunktete Umrandung konstant und positiv mit 1/(0.6 ∗ 0.8). Die Werte
der Verteilungsfunktion (joint cdf ) F (0.7, 0.5) und F (0.5, 1) = F (0.5, +∞)
ergeben sich als Gebietsintegrale (x−0.3)(y−0.2)/(0.6∗0.8) über die jeweils
gestrichelt umrandeten Bereiche.
Rechts:
Verteilungsfunktion F (x, y) .
Thomas Melzer, GEO Department
82
• Unabhängigkeit
X und Y sind unabhängig (independent), wenn
F (x, y) = FX (x)FY (y) = F (x)F (y),
(50)
d.h., wenn die joint cdf gleich dem Produkt der marginal cdfs ist (F (x, y)
faktorisiert in FX (x) und FY (y)).
Im Falle der Unabhängkeit gilt ebenfalls
p(x, y) = pX (x)pY (y) = p(x)p(y).
Thomas Melzer, GEO Department
(51)
83
• Bedingte Verteilung
Die bedingte Verteilung der Dichtefunktion (conditional pdf ) von X
unter Y = y erhält man als
p(x|y) =
p(x, y)
,
pY (y)
die korrespondierende conditional cdf als
Z x
p(x0|y)dx0.
F (x|y) =
(52)
(53)
−∞
Ebenso wie im diskreten Fall gilt für unabhängige Zufallsvariablen X, Y ,
dass
pX (x)pY (y)
p(x|y) =
= pX (x) = p(x).
pY (y)
Thomas Melzer, GEO Department
(54)
84
• Summe zweier stetiger Zufallsvariablen
Die Dichtefunktion der Summe Z = X + Y zweier unabhängiger stetiger
Zufallsvariablen erhält man - analog zum diskreten Fall - als Faltung der
Randdichtefunktion von X mit jener von Y :
Z
+∞
pZ (z) =
pX (x0)pY (z − x0)dx0
(55)
−∞
Thomas Melzer, GEO Department
85
Erwartungswerte
Der Erwartungswert (expectation) E[] einer Funktion h(X) einer stetigen Zufallsvariablen X ist definiert als
Z
∞
E[h(X)] =
h(x)p(x)dx,
(56)
−∞
bzw. im bivariaten Fall als
Z
+∞ Z +∞
E[h(X, Y )] =
h(x, y)p(x, y)dxdy.
−∞
Thomas Melzer, GEO Department
(57)
−∞
86
Im diskreten Fall wird das Integral zur Summe über alle möglichen
Elementarereignisse, und das Differential p(x)dx zur Wahrscheinlichkeitsfunktion pi:
X
h(i)pi
(58)
E[h(X)] =
i∈Ω0
Im folgenden betrachten wird jedoch vornehmlich stetige Verteilungen.
Thomas Melzer, GEO Department
87
• Momente als Parameter von Verteilungen
Für h(X) = X i erhält man das Moment i-ter Ordnung der Verteilung.
Viele wichtige Parameter von Verteilungen sind als Erwartungswerte
definiert. Speziell erhält man für i = 1 den Mittelwert (mean) µ
Z ∞
xp(x)dx
(59)
µ = E[X] =
−∞
Die Varianz σ 2 ergibt sich als zentrales Moment 2-ter Ordnung
Z ∞
σ 2 = V ar[X] = E[(X − µ)2] =
(x − µ)2p(x)dx
(60)
−∞
Es gilt außerdem
σ 2 = E[X 2] − E[X]2.
Thomas Melzer, GEO Department
(61)
88
• Summe zweier Zufallsvariablen
Der Erwartungswert der Summe zweier Zufallsvariablen X, Y ist gleich
der Summe der Erwartungswerte, im speziellen
E[aX + bY ] = aE[X] + bE[Y ],
(62)
für a, b konstant.
• Produkt zweier Zufallsvariablen
Für unabhängige Zufallsvariablen X, Y gilt
E[XY ] = E[X]E[Y ].
Thomas Melzer, GEO Department
(63)
89
• Varianz der Summe zweier Zufallsvariablen
2
σX+Y
= E[(X + Y − E[X + Y ])2] = σx2 + σY2 + 2σXY ,
(64)
wobei σXY als Kovarianz (covariance) bezeichnet wird. Es gilt
σXY = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ].
(65)
Im Falle der Unabhängigkeit von X, Y gilt σXY = 0, sodass
2
2
σX+Y
= σX
+ σY2
(66)
• Varianz einer skalierten Zufallsvariablen aX
(a konstant):
2
2
= E[(aX − E[aX])2] = a2σX
V ar[aX] = σaX
Thomas Melzer, GEO Department
(67)
90
Parameterschätzung
Aufgabe der Parameterschätzung (parameter estimation) ist die Bestimmung der Verteilungsparameter (z.B. µ, σ) anhand einer Stichprobe des
Umfangs N , D = [x1, .., xN ], wobei die Stichprobenelemente xi als Realisierungen von N unabhängig und identisch verteilten (iid, independent and
identically distributed) Zufallsvariablen Xi angenommen werden. Genauer
gesagt, wird vorausgesetzt, daß die Xi bedingt unabhängig gegeben den
wahren – aber unbekannten – Wert des gesuchten Parameters θ sind
p(x1, .., xN |θ) =
N
Y
p(xi|θ).
(68)
i=1
Thomas Melzer, GEO Department
91
Eine Funktion einer Zufallsstichprobe θ̂ = f (X1, ..., XN ) wird als Statistik bezeichnet; diese ist wiederum eine Zufallsvariable. Im Kontext der
Parameterschätzung ist zu unterscheiden ist zwischen dem
• wahren Parameter (auch estimand) θ, dem
• Schätzer bzw. der Schätzfunktion (estimator ) θ̂ = f (X1, ..., XN ),
sowie dem
• Schätzwert (estimate) t̂ = f (x1, ..., xN ) = f (D) als Realisierung des
Schätzers.
In der Literatur wird allerdings oft nicht deutlich zwischen Schätzer und
Schätzwert unterschieden.
Thomas Melzer, GEO Department
92
Die Stichprobenelemente Xi repräsentieren N Wiederholungen desselben
Zufallsversuches X (oder, anders formuliert, N Messungen desselben Merkmals X an zufällig ausgewählten Populationsmitgliedern), z.B N-maliges
Werfen einer Münze, oder Messung der Körpergröße von N zufällig ausgewählten Personen.
Die Xi folgen alle derselben Verteilung und besitzen daher dieselben Verteilungsparameter. Insbesondere gilt für beliebige Erwartungen
E[h(Xi)] = E[h(Xj )] = E[h(X)].
Ist, wie im obigen Fall, die Unterscheidung zwischen den Wiederholungen
nicht relevant, schreiben wir auch kurz X statt Xi.
Achtung: Das Produkt XiXj ist nur im Falle i 6= j unabhängig, jedoch
für i = j abhängig (da im letzteren Fall beide Zufallsvariablen für jede
mögliche Realisierung denselben Wert annehmen müssen).
Thomas Melzer, GEO Department
93
• Die Maximum likelihood-Methode (ML)
Dies ist das wichtigste Verfahren, um zu einer Schätzfunktionen zu
gelangen. Ausgangspunkt ist die bedingte Dichtefunktion (bzw. Wahrscheinlichkeitsfunktion im diskreten Fall) der Stichprobe, gegeben den
wahren Wert des Parameters θ
p(D|θ) = p(x1, .., xn|θ)
(69)
Dies ist, für gegebenen Parameter θ, eine Funktion der Stichprobe D.
ML faßt nun die Stichprobe (genauer: deren Realisation) als Funktion
des gesuchten Parameters θ (likelihood-Funktion) auf
l(θ) = p(D|θ) =
N
Y
p(xi|θ)
(70)
i=1
Thomas Melzer, GEO Department
94
wobei der letzte Schritt aus der bedingten Unabhängigkeit der Xi folgt.
ML wählt jenen Wert des Parameters θ∗, welcher die joint-likelihood
Eq. 256 maximiert. Oft ist es einfacher, den Logarithmus von Eq. 256 zu
maximieren; dies führt zur log-likelihood-Funktion
ll(θ) = log l(θ) =
N
X
ln p(xi|θ).
(71)
i=1
Den ML-Schätzer θ∗ erhält man dann durch Nullsetzen der ersten Ableitung der (log-)likelihood-Funktion und Auflösen nach θ
∂l(θ)
=0
∂θ
Thomas Melzer, GEO Department
(72)
95
x
1
2
3
4
5
6
7
4
5
6
7
p(D|θ )
1.2 x 10-7
0.8 x 10-7
θˆ
0.4 x 10-7
1
2
3
θ
l(θ )
-20
Abbildung 11: Beispiel
zur ML-Parameterschätzung. Gesucht ist der Mittel-40
2
θˆ (σ 2 bekannt).
wert θ = µ einer N (µ,
σ
)-Verteilung
-60
θ
-80 und Kandidaten für die generierende
Oben: Trainingspunkte
pdf.
1
2
3
4
5
6
7
-100
Unten: Verlauf der joint-likelihood
p(D|θ). Diese wird mit zunehmendem N
3.1. The top graph shows several training points in one dimension, known or
enger. FIGURE
assumed to be drawn from a Gaussian of a particular variance, but unknown mean.
(Aus Duda,
Stork:
Pattern
Classification,
2nd
Four of Hart,
the infinite
number
of candidate
source distributions
are ed.)
shown in dashed
lines.
TheDepartment
middle figure shows the likelihood p(D|θ ) as a function of the mean. If we
Thomas Melzer,
GEO
had a very large number of training points, this likelihood would be very narrow. The
value that maximizes the likelihood is marked θ̂ ; it also maximizes the logarithm of
the likelihood—that is, the log-likelihood l (θ ), shown at the bottom. Note that even
though they look similar, the likelihood p(D|θ ) is shown as a function of θ whereas the
96
Beispiel: Schätzung des Mittels der Nomalverteilung mittels ML
Die Dichtefunktion der Stichprobe gegeben µ (σ wird als bekannt vorausgesetzt) ist:
N
Y
(x −µ)2
1
− i 2
l(µ) = p(x1, ..xn|µ) = √
exp 2σ
N
( 2πσ) i=1
(73)
Durch Logarithmieren erhalten wir
N
1X
ll(µ) = −
(xi − µ)2 + const,
2 i=1
(74)
wobei const ausschließlich Terme enthält, die nicht vom gesuchten ParaThomas Melzer, GEO Department
97
meter µ abhängen. Anstatt Eq.74 zu maximieren, können wir genausogut
N
1X
(xi − µ)2
2 i=1
(75)
minimieren. Anders formuliert: unter Annahme einer Normalverteilung
erhalten wir den Schätzer des Populationsmittels, indem wir die Fehlerquadratsumme Eq. 75 minimieren. Bilden der ersten Ableitung bezüglich
des Parameters µ und Nullsetzen derselben liefert
1∂
2
PN
i=1 (xi
= 0
(76)
xi − N µ = 0
(77)
∂µ
N
X
− µ)2
i=1
Thomas Melzer, GEO Department
98
µ∗ = x̄ =
PN
i=1 xi
N
(78)
Der ML-Schätzwert für den Mittelwert µ ist also das arithmetische
Mittel x̄. Dieser wurde für eine gegebene, aber beliebige Stichprobe D
hergeleitet, und ist somit eine Realisierung des Schätzers. Um von diesem
ausgehend eine Schätzfunktion zu erhalten, substituieren wir formal die
xi durch ihre korrespondierenden Xi, und erhalten auf diese Weise das
sogenannte Stichprobenmittel (siehe unten).
Thomas Melzer, GEO Department
99
• Schätzung des Populationsmittels: Das Stichprobenmittel
Der wahre Mittelwert gemäß Eq. 59, welcher auch als Populationsmittel
(population mean) bezeichnet wird, kann mittels des Stichprobenmittels
(sample mean)
N
1 X
Xi
µ̂ = X̄ =
N i=1
(79)
geschätzt werden.
µ̂ ist als Funktion einer Zufallsstichprobe (Statistik, Schätzer) selbst eine
Zufallsgröße.
Thomas Melzer, GEO Department
100
Eine Realisierung des Stichprobenmittels µ̂ – d.h. seinen Wert für ein
konkretes sample [x1, . . . , xN ] – werden wir im folgenden mit m̂ bezeichnen:
N
1 X
m̂ = x̄ =
xi
N i=1
Thomas Melzer, GEO Department
(80)
101
• Erwartungstreue des Stichprobenmittels
µ̂ ist erwartungstreu (unbiased), da
N
N
1 X
1 X
E[µ̂] =
E[Xi] =
E[X] = µ,
N i=1
N i=1
(81)
d.h. der Erwartungswert des Schätzers ist der gesuchte Parameter. Man
beachte, daß der Erwartungswert hier bezüglich der Verteilung aller
Stichproben des Umfangs N , d.h. einer N-dimensionalen Zufallsvariablen
berechnet wird.
Thomas Melzer, GEO Department
102
• Varianz des Stichprobenmittels
Gemäß Eq. 66 (Unabhängigkeit der Xi!) und Eq. 67 berechnet sich die
Varianz σµ̂ des Schätzers µ̂ als
N
2
1 X 2
σX
2
σµ̂ = 2
σX =
,
N i=1
N
(82)
2
σX
bezeichnet hier die wahre (und für alle Xi identische) Populationsvarianz.
Thomas Melzer, GEO Department
103
• Eigenschaften von Schätzern
Sei Θ̂ ein Schätzer des Parameters Θ. Es sei noch einmal angemerkt,
daß Erwartungswerte im Kontext von Schätzern sich auf die Verteilung
aller Stichproben vom Umfang N beziehen, siehe Eq. 68.
– Erwartungstreue
Der bias ist definiert als
bias(Θ̂) = E[Θ̂] − Θ.
(83)
Im Falle der Erwartungstreue gilt bias = 0.
– Varianz (variance)
var(Θ̂) = E
Thomas Melzer, GEO Department
2 Θ̂ − E[Θ̂]
(84)
104
q
– Die Standardabweichung eines Schätzers
var(Θ̂) wird auch als
dessen Standardfehler (standard error) bezeichnet.
– Mean Squared Error MSE
mse(Θ̂) = E[(Θ − Θ̂)2] = bias2(Θ̂) + var(Θ̂)
(85)
– Effizienz
Je geringer die Varianz var(Θ̂), desto effizienter ist Θ̂.
– (Asymptotische) Konsistenz
Der wahre Populationsparameter lässt sich für N → ∞ beliebig genau
schätzen. Hierfür ist notwendig, dass sowohl bias als auch variance
(und somit der MSE) für N → ∞ gegen 0 gehen.
Thomas Melzer, GEO Department
105
Verwandte Größen sind trueness, welche als Abwesenheit von bias definiert ist, und precision, welche üblicherweise – vor allem in der Statistik
– als Kehrwert der Varianz – aufgefaßt wird. Accuracy wird sowohl im
Sinne von trueness, als auch als im Sinne einer Kombination von trueness
und precison verwendet, daher ist Vorsicht angebracht!
Thomas Melzer, GEO Department
106
• Schätzer von Erwartungswerten
Das Populationsmittel Eq. 59 ist als spezieller Erwartungswert definiert.
Asymptotisch konsistente Schätzer für andere Erwartungswerte gemäß
Eq.56 können analog zum Stichprobenmittel konstruiert werden, sprich
N
1 X
h(Xi)
h(X) =
N i=1
(86)
ist ein asymptotisch konsistenter Schätzer von E[h(X)]. Für den Fall
h(X) = (X − µ)2 erhalten wir die sogenannte Stichprobenvarianz
(sample variance).
Thomas Melzer, GEO Department
107
• Schätzung der Populationsvarianz
2
σ̂X
2
σ̂X
=
N
1 X
(Xi − µ)2
N i=1
(87)
=
N
1 X
(Xi − µ̂)2).
N − 1 i=1
(88)
Eq. 87, die Stichprobenvarianz, ist anwendbar, wenn das Populationsmittel µ bekannt ist. Muß es jedoch aus der Stichprobe geschätzt werden,
2
ergibt sich der Schätzer σ̂X
gemäß Eq. 88. Beide Schätzer sind erwartungstreu (beachten Sie jedoch, dass in Eq. 88 durch (N − 1) und nicht
durch N dividiert werden muss, um Erwartungstreue zu gewährleisten).
2
Eine Realisierung von σ̂X
werden wir im folgenden mit ŝ2X bezeichnen.
Thomas Melzer, GEO Department
108
• Schätzung der Kovarianz
σ̂XY
σ̂XY
=
N
1 X
(Xi − µX )(Yi − µY )
N i=1
(89)
=
N
1 X
(Xi − µ̂X )(Yi − µ̂Y ),
N − 1 i=1
(90)
wobei µX das Populationsmittel von X und µ̂X den Schätzer von µX
bezeichne (analog für Y ). Bezüglich der Erwartungstreue gilt Ähnliches
wie für die Varianz.
Eine Realisierung von σ̂XY werden wir im folgenden mit ŝXY bezeichnen.
Thomas Melzer, GEO Department
109
• Konfidenzintervall am Beispiel des Stichprobenmittels
Wenn die Strichprobenelemente Xi iid normalverteilt sind, d.h, Xi ∼
N (µ, σ 2), 1 ≤ i ≤ N , so ist das Stichprobenmittel µ̂ ebenfalls normalσ2
verteilt mit µ̂ ∼ N (µ, N ). Bezeichne zα das α-Quantil der Standardnormalverteilung. Es gilt
P (z0.025 ≤
µ̂ − µ
√σ
N
≤ z0.975) = 0.95,
(91)
bzw. der Schätzer µ̂ liegt mit 95%iger Wahrscheinlichkeit (für 95 von
100 Stichproben) im Intervall:
σ
σ
[µ + z0.025 √ , µ + z0.975 √ ]
N
N
Thomas Melzer, GEO Department
(92)
110
Durch Umformung erhält man
σ
σ
P (µ̂ − z0.975 √ ≤ µ ≤ µ̂ + z0.025 √ ) = 0.05
N
N
(93)
sprich: für 95 von 100 Stichproben liegt der wahre Population-Parameter
µ im obigen 0.95-Konfidenz-Intervall (confidence interval). Für eine
Realisierung m̂ von µ̂ bezeichnet man
σ
σ
[m̂ − z0.975 √ , m̂ + z0.025 √ ]
N
N
(94)
auch als Schätz-Intervall. Man beachte allerdings, daß für eine gegebene
Stichprobe (Realisierung des Schätzers) das obige Intervall nichts über
die Verteilung des Schätzers oder gar des Populationsmittels aussagt.
Thomas Melzer, GEO Department
111
• Hypothesentest am Beispiel des Stichprobenmittels
Ein verwandtes Problem besteht darin, zu überprüfen, ob eine Stichprobe
mit einer gegebenen Null-Hypothese H0 : µ = µ0 kompatibel ist. Wir
betrachten also die hypothetische Verteilung des Schätzers unter H0
σ
µ̂|H0 ∼ N (µ0, )
N
(95)
Ist für eine gegebene Stichprobe die Abweichung zwischen m̂ und µ0 zu
groß, so wird man die H0 nicht mehr akzeptieren. Setzen wir z.B. in Eq. 92
µ = µ0, so liegt das Stichprobenmittel mit 95%iger Wahrscheinlichkeit
innerhalb des Intervalls
σ
σ
[µ0 + z0.025 √ , µ0 + z0.975 √ ]
N
N
Thomas Melzer, GEO Department
(96)
112
Angenommen, die H0 ist wahr. Kommt m̂ außerhalb des Intervalls
Eq. 92 zu liegen, verwerfen wir die H0, obwohl sie wahr ist: wir begehen
einen Fehler erster Art. Die Wahrscheinlichkeit, daß dies geschieht,
ist im obigen Beispiel α = 0.05. Ein Testergebnis, welches in den
Ablehnungsbereich der H0 fällt, wird als signifikant bezeichnet, α als
Signifikanz-Niveau (significance level) des Tests.
Für den oben formulierten Test gilt, daß für gegebenes Stichprobenmittel
m̂ alle Null-Hypothesen auf dem α = 0.05-Niveau akzeptiert werden,
für welche µ0 innerhalb des Schätz-Intervalls Eq. 94 liegt; in andereren
Worten:
– µ0 liegt in Eq. 94 g.d.w. m̂ liegt in Eq. 92
Dieser Zusammenhang zwischen Konfidenz-Intervallen und HypothesenTests gilt jedoch nicht für alle Tests!
Thomas Melzer, GEO Department
113
Kenngrößen von Klassifikatoren
Sei im folgenden S ein interessierendes Ereignis bzg. einer gegebenen
Population Ω, S C das komplementäre Ereignis Ω\S, und T ein binärer
Klassifkator, der entscheiden soll, ob ein gegebenes Objekt zu S gehört
(T = +) oder zu S C (T = −). Damit zerfällt Ω in 4 paarweise disjunkte
Ereignisse:
+
-
S
true positive (tp)
false negative (fn)
SC
false positive (fp)
true negative (tn)
Tabelle 5: Tatsächliche Klassenzugehörigkeit (Spalten) vs. vorhergesagte
Klassenzugehörigkeit (Zeilen)
.
Thomas Melzer, GEO Department
114
Wenn in obiger Tabelle für jedes Ereignis (z.B tp) dessen Häufigkeit (z.B.
#tp) eingetragen wird, erhalten wir eine Kontingenztafel. Die nachfolgenden
Kennzahlen lassen sich aus einer solchen Kontingenztafel berechnen.
• Sensitivität (sensitivity, true positive rate tpr)
#tp
P (+|S), #tp+#f
n
• Falsch Negativ Rate (false negative rate, fnr)
#f n
P (−|S) = 1 − P (+|S), #tp+#f
n
• Spezifität (specificity, true negative rate tnr)
#tn
P (−|S C ), #tn+#f
p
• Falsch Positiv Rate (false positive rate, fpr)
#f p
P (+|S C ) = 1 − P (−|S C ), #tn+#f
p
Thomas Melzer, GEO Department
115
• Positiver Vorhersagewert (positive predictive value, ppv)
#tp
P (S|+), #tp+#f
p
• Negativer Vorhersagewert (negative predictive value, npv)
#tn
P (S C |−), #tn+#f
n
Man beachte, daß z.B
P (tp) = P (+, S) = P (+|S)P (S) = tprP (S)
Thomas Melzer, GEO Department
(97)
116
Bayes-Theorem
• Das Bayes-Theorem erlaubt es, die bedingte Wahrscheinlichkeit P (B|A)
als Funktion der Randverteilungen P (A), P (B) und der bedingten Wahrscheinlichkeit P (A|B) auszudrücken:
P (A|B)P (B)
P (B|A) =
.
P (A)
(98)
P (B) . . . a priori Wahrscheinlichkeit (prior ) von B
P (B|A) . . . a posteriori Wahrscheinlichkeit (posterior ) von B unter A
Thomas Melzer, GEO Department
117
Repräsentiert insbesondere X ein Merkmal und ω die Klassenzugehörigkeit von Mustern, so gibt im Falle der beobachteten Merkmalsausprägung X = i
P (X = i|ω = j)P (ω = j)
P (ω = j|X = i) =
P (X = i)
(99)
die Wahrscheinlichkeit an, dass das Muster zur Klasse j gehört.
Wir schreiben im folgenden, wie in der Literatur üblich, oft kurz ωj für
ω = j, um anzuzeigen, dass die Zufallsvariable ω den Wert j annimmt;
dies sollte nicht mit der Aussage verwechselt werden , dass ωj die j-te
Komponente eines Zufallsvektors darstellt!
Thomas Melzer, GEO Department
118
• Bayesian Inference
Eq. 99
P (X = i|ωj )P (ωj )
P (ωj |X = i) =
P (X = i)
transformiert die a priori Wahrscheinlichkeit P (ωj ), dass ein Muster
in die jte Klasse fällt, nach Beobachtung einer Merkmalsausprägung
X = i in die a posteriori Wahrscheinlichkeit P (ωj |X = i), welche diese
zusätzliche Information über den Versuchsausgang widerspiegelt.
• Bayes Decision Rule
Gegeben die Beobachtung (Merkmalsausprägung) X = i, entscheide für
die Klasse k, welche die größte a posteriori Wahrscheinlichkeit aufweist:
k = arg max P (ωj |X = i).
j
Thomas Melzer, GEO Department
(100)
119
• Bezeichne im folgenden c die Anzahl der Klassen
P (ωj |Xi) =
P (Xi|ωj )P (ωj )
P (Xi)
Es gilt
c
X
P (ωj |Xi) = 1
(101)
P (Xi|ωj )P (ωj )
(102)
j=1
P (Xi) =
c
X
j=1
Thomas Melzer, GEO Department
120
• Bayes-Theorem für stetige Merkmale
Wir nehmen im folgenden eine stetige Merkmalsvariable X mit zugeordneter pdf p(x) an. Eq. 99 wird zu
P (ωj |x) =
p(x|ωj )P (ωj )
.
p(x)
(103)
p(x|ωj ) wird (als Funktion von x) als class conditional pdf von x
bzg. ωj bezeichnet. Diese beschreibt die Verteilung des Merkmals X für
eine gegebene Klasse ωj und besitzt alle Eigenschaften einer “normalen”
Dichtefunktion.
Betrachtet man p(x|ωj ) hingegen als Funktion der Klasse ωj für festes
x, so spricht man von der likelihood von ωj bzg. x.
Man bemerkt, dass die priors and posteriors weiterhin Wahrscheinlichkeiten sind.
Thomas Melzer, GEO Department
121
p(x|ωi)
P(ωi|x)
0.4
ω2
1
ω1
0.3
ω1
0.8
0.6
0.2
0.4
ω2
0.1
0.2
x
9
10
11
12
13
14
15
x
9
10
11
12
13
14
15
FIGURE 2.1. Hypothetical class-conditional probability density functions
the
FIGURE show
2.2. Posterior
probabilities for the particular priors P (ω1 ) = 2/3 and P (ω2 )
probability density of measuring a particular feature value x given=the
pattern
is
in
1/3 for the class-conditional
probability densities shown in Fig. 2.1. Thus in this
describe
category ωi . If x represents the lightness of a fish, the two curves might
case, given
that the
a pattern is measured to have feature value x = 14, the probability it is
difference in lightness of populations of two types of fish. Density functions
are normalin category
ω2 is roughly 0.08, and that it is in ω1 is 0.92. At every x , the posteriors sum
ized, and thus the area under each curve is 1.0. From: 1
Richard O. Duda,
Peter
E.
Hart, 2O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification.
to 1.0. From: Richard
c 2001 by John
Wiley &
and David G. Stork, Pattern Classification. Copyright c Sons,
Copyright
2001 by John Wiley & Sons, Inc.
Inc.
Abbildung 12: Class conditional pdfs (links) und korrepondierende a posteriori probabilities für P (ω ) = 2/3 und P (ω ) = 1/3 (rechts).
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
122
Den Nenner p(x) in Eq. 103 (evidence) erhält man - analog zum diskreten
Fall - als
c
X
p(x) =
p(x|ωj )P (ωj ).
(104)
j=1
Die evidence fungiert als Normalisierungsfaktor und stellt sicher, dass die
Summe der posteriors über alle Klassen 1 ergibt.
Man bemerkt jedoch, dass die evidence p(x) für alle Klassen identisch
ist und daher keinen Einfluss auf das Verhältnis der posteriors hat. Für
die Bestimmung der Klasse mit der größten a posteriori Wahrscheinlichkeit ist daher das Verhältnis der mit den korrespondierenden priors
gewichteten likelihoods p(x|ωi)P (ωi) hinreichend.
Ähnliches gilt im Falle identischer priors P (ωi) = P (ωj ), 1 ≤ i, j ≤ c: in
diesem Fall müssen nur likelihoods berücksichtigt werden.
Thomas Melzer, GEO Department
123
• Likelihood Ratio
Die obigen Überlegegungen führen für den Fall c = 2 zu folgender,
äquivalenter Formulierung der Bayes rule:
– Entscheide für ω1, falls
P (ω1|x) > P (ω2|x)
p(x|ω1)P (ω1) > p(x|ω2)P (ω2)
p(x|ω1)
p(x|ω2)
Der Ausdruck
p(x|ω1 )
p(x|ω2 )
>
P (ω2)
.
P (ω1)
(105)
wird als likelihood ratio bezeichnet, der Aus-
P (ω2 )
druck P
(ω1 ) als threshold. Übersteigt die likelihood ratio den threshold,
entscheidet man für ω1, sonst für ω2.
Thomas Melzer, GEO Department
124
Fehlerwahrscheinlichkeit, Loss und Risk
Wir gehen bis auf weiters von einem binären Klassifikationsproblem
(c = 2) aus.
Laut Bayes-Theorem Eq. 103 ergibt sich für jede Merkmalsausprägung
x die (bedingte) Wahrscheinlichkeit der Fehlklassifikation (conditional
error) P (error|x) zu
– P (ω2|x), falls wir für ω1 entscheiden
– P (ω1|x), falls wir für ω2 entscheiden.
Der mittlere Fehler P (error), die error rate (Fehlerrate), berechnet sich
gemäß Eq. 56 als
Z
+∞
P (error) =
P (error|x)p(x)dx.
(106)
−∞
Thomas Melzer, GEO Department
125
• Optimalität der Bayes Decision Rule
Die Bayes Decision Rule entscheidet für die Klasse ωk mit der höchsten
a posteriori Wahrscheinlichkeit
k = arg max P (ωj |x).
j
(107)
Daher ergibt sich die bedingte Fehlerwahrscheinlichkeit P (error|x) zu
min[P (ω1|x), (P (ω2|x)] = 1 − max[P (ω1|x), (P (ω2|x)].
(108)
Die Bayes Rule minimiert also den Integranden P (error|x) in Eq. 106
für jede Merkmalsausprägung x, und folglich auch die mittlere Fehlerwahrscheinlichkeit P (error).
Die unter Verwendung der Bayes rule erzielte mittlere Fehlerwahrscheinlichkeit wird auch als Bayes error rate bezeichnet.
Thomas Melzer, GEO Department
126
• Der allgemeine Fall: c ≥ 2
Entscheidet man sich im Punkt x für die Klasse ωi, so ergibt sich die
bedingte Fehlerwahrscheinlichkeit im allgemeinen Fall zu
P (error|x) =
X
P (ωj |x) = 1 − P (ωi|x),
(109)
j6=i
bzw. unter der Bayes decision rule zu
P (error|x) = 1 − max P (ωj |x).
j
Thomas Melzer, GEO Department
(110)
127
• Entscheidungsfunktion α(x) : x 7→ j
Assoziiert mit jeder Merkmalsausprägung x eine bestimmte Aktion j,
i.a. die Zuweisung eines Klassenlabels j ∈ {1 . . . c} (z.B. Bayes rule).
– α partitioniert den Merkmalsraum vollständig in c disjunkte
Entscheidungs-Regionen (decision regions) Ri, wobei
Ri = {x : α(x) = i}.
(111)
– Die Grenze zwischen jeweils zwei decision regions wird als Entscheidungsgrenze (decision boundary ) bezeichnet.
– Entlang der decision boundaries bestehen sogenannte ties in Form von
Merkmalausprägungen, welche bzg. des gewählten Klassifikationskriteriums (z.B. posterior probability ) denselben Wert erzielen.
– Die decision regions müssen nicht zusammenhängend sein.
Im Fall der Bayes rule verschieben größere priors die Entscheidungsgrenze
Thomas Melzer, GEO Department
128
in Richtung der a priori weniger wahrscheinlichen Klasse.
Thomas Melzer, GEO Department
129
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
R1
0.4
0.5
R2
0.3
0.3
0.2
0.2
0.1
0.1
0
0
1
2
3
4
5
6
7
8
P (ω1) = 0.5, P (ω2) = 0.5
9
R1
0.4
10
0
0
1
2
R2
3
4
5
6
7
8
9
10
P (ω1) = 0.9, P (ω2) = 0.1
Abbildung 13: Bayes decision boundaries (schwarz gestrichelt) und korrespondierende decision regions für zwei Klassen ω1 und ω2 mit normalverteilten Merkmalen (Mittel µ1 = 4, µ2 = 6, Varianz σ12 = σ22 = 1). Die pdfs
sind gestrichelt, die posteriors durchgezogen dargestelt.
Thomas Melzer, GEO Department
130
0.25
0.4
0.2
0.3
0.15
R1
0.1
R2
R2
0.1
0.05
0
R1
0.2
0
1
2
3
4
5
6
7
8
P (ω1) = 0.5, P (ω2) = 0.5
9
10
0
0
1
2
3
4
5
6
7
8
9
10
P (ω1) = 0.9, P (ω2) = 0.1
Abbildung 14: Bayes decision boundaries (schwarz gestrichelt) für die
Klassen aus Abb. 13. Dargestellt ist der Verlauf der gewichteten pdfs
p(x|ω1)P (ω1) und p(x|ω2)P (ω2).
Thomas Melzer, GEO Department
131
• Im Fall c = 2 lässt sich für eine gegebene Entscheidungsfunktion α(x)
die Fehlerrate (error rate) Eq. 106 auch folgendermaßen formulieren
Z
+∞
P (error|x)p(x)dx =
P (error) =
−∞
Z
Z
P (ω2|x)p(x)dx +
R1
P (ω1|x)p(x)dx =
(112)
P (ω1)p(x|ω1)dx =
(113)
R2
Z
Z
P (ω2)p(x|ω2)dx +
R1
R2
P (ω2)ε2 + P (ω1)ε1.
(114)
Hierbei gibt εj die Wahrscheinlichkeit an, dass ein ein Muster aus Klasse
ωj von α(x) falsch klassifiziert wird (d.h. in eine Entscheidungs-Region Ri
mit i 6= j fällt). Die Fehlerrate ergibt sich als mit den korrespondierenden
priors gewichtetes Mittel der εi.
Thomas Melzer, GEO Department
132
p(x|ωi)P(ωi)
ω2
ω1
reducible
error
x
R1
∫p(x|ω )P(ω ) dx
2
R1
2
xB x*
R2
∫p(x|ω )P(ω ) dx
1
1
R2
FIGURE 2.17. Components of the probability of error for equal priors and (nonoptimal)
x ∗ .beiden
The pink Komponenten
area corresponds toder
the probability
of errors
deciding
ω1 und
decision
point
Abbildung
15:
Die
Fehlerrate
P (ωfor
1 )ε
1 (grau)
when the state of nature is in fact ω2 ; the gray area represents the converse, as given in
P (ω2)ε
(rosa) für zwei Entscheidungsgrenzen: die optimale Grenze xB
Eq.2 70. If the decision boundary is instead at the point of equal posterior probabilities,
und eine
nicht-optimale
Grenze
x∗. Die
Enscheidungsgrenze
xB , then
this reducible error
is eliminated
andnichtoptimale
the total shaded area
is the minimum
is the
Bayes
and gives Bereich
the Bayes error
rate. From:
Richard
führt possible;
zu einerthisum
den
rotdecision
umrandeten
(reducible
error
) grO.
ößeren
c
Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright 2001 by
Fehlerrate.
(Aus
Duda,
John Wiley
& Sons,
Inc. Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
133
• Loss Function L(α(x), j)
Die loss function (kurz: loss) gibt die mit der Entscheidung α(x) verbundenen Kosten (cost) an, wenn die wahre Klassenzugehörigkeit durch
ω = j gegeben ist. Meistens findet der sogenannte 0/1-loss Anwendung
L(α(x), j) = 1 − δα(x),j =
1 if α(x) 6= j
0 if α(x) = j.
(115)
Der für eine gegebene Merkmalsausprägung x erwartete loss bzg. der
Klassenzugehörigkeit ω ergibt sich zu
R(α(x)|x) = E[L(α(x), ω)] =
c
X
L(α(x), j)P (ωj |x).
(116)
j=1
Thomas Melzer, GEO Department
134
• Risk
Der Erwartungswert einer loss-Funktion wird risk genannt. Da R(α(x)|x)
in Eq. 116 den Erwartungswert von L bzg. aller Klassen an der Stelle x
berechnet, wird R(α(x)|x) als conditional risk (bzg. x) bezeichnet.
Das total risk R über alle möglichen Merkmalsausprägungen erhalten
wir wiederum gemäß Eq. 56
Z
+∞
R(α(x)|x)p(x)dx.
R=
(117)
−∞
Analog zur Bayes rule lässt sich das total risk R minimieren, indem man
das conditional risk R(α(x)|x) in jedem Punkt x minimiert.
Thomas Melzer, GEO Department
135
Klarerweise hängt R(α(x)|x) von α(x) ab; um die optimale Entscheidung
im Punkt x zu bestimmen, führen wir zunächst folgende Kurzbezeichnung
ein; sei λij der Wert der loss-Funktion im Falle dass x zur Klasse ωj
gehört und α(x) = i (kurz: αi) zurückliefert
λij = L(i, j)
(118)
Eq. 116 läßt sich somit folgendermaßen schreiben
R(i|x) =
c
X
λij P (ωj |x).
(119)
j=1
Für 0/1-loss gilt λij = 1 − δij , sodass
X
R(i|x) =
P (ωj |x) = 1 − P (ωi|x).
(120)
j6=i
Thomas Melzer, GEO Department
136
Das conditional risk R(i|x) unter 0/1-loss (Eq. 120) ist also identisch
mit dem conditional error P (error|x) (Eq. 109).
R(α(x)|x) wird in jedem Punkt x minimal, wenn α(x) die Bayes decision
rule implementiert, d.h. das Label der Klasse mit der größten a posteriori
Wahrscheinlichkeit zurückliefert
α(x) = arg max P (ωj |x).
j
(121)
• Asymmetrischer Loss
Der 0/1-loss wird häufig auch als symmetrical loss bezeichnet. Eine
asymmetrische loss-Funktion kann verwendet werden, um die Fehlklassifikation von verschiedenen Klassen unterschiedlich stark zu “bestrafen”.
Achtung: das total risk kann jedoch nur unter 0/1-loss als Fehlerrate,
d.h. als mittere Fehlerwahrscheinlichkeit interpretiert wird.
Thomas Melzer, GEO Department
137
• Beispiel: Früherkennung von Krankheiten
Sei X ein Merkmal, welches verwendet wird, um gesunde (ω1) von
potentiell kranken (ω2) Patienten zu unterscheiden; in diesem Fall ist
es “kostspieliger”, einen kranken Patienten als gesund zu klassifieren als
einen gesunden Patienten als krank.
Schreiben wir Eq. 119 für die beiden möglichen Entscheidungen α(x) = 1
und α(x) = 2 explizit aus, so erhalten wir
R(1|x) = λ11P (ω1|x) + λ12P (ω2|x)
R(2|x) = λ21P (ω1|x) + λ22P (ω2|x).
(122)
In unserem Beispiel sollte klarerweise λ12 > λ21 gelten.
Thomas Melzer, GEO Department
138
Um das conditional Risk im Punkt x zu minimieren, entscheiden wir für
ω1, falls
R(2|x) > R(1|x)
λ21P (ω1|x) + λ22P (ω2|x) > λ11P (ω1|x) + λ12P (ω2|x)
(λ21 − λ11)P (ω1|x) > (λ12 − λ22)P (ω2|x)
(λ21 − λ11)P (ω1)p(x|ω1) > (λ12 − λ22)P (ω2)p(x|ω2). (123)
Man sieht, dass der loss effektiv die priors neu gewichtet und somit
die Entscheidungsgrenze von der stärker gewichteteten Klasse weg verschiebt.
Um die Diskussion zu vereinfachen, nehmen im folgenden λ11 = λ22 = 0
an.
Thomas Melzer, GEO Department
139
0.4
0.4
0.3
0.3
R1
0.2
R2
0.1
0
R1
0.2
R2
0.1
0
1
2
3
4
5
6
λ21 = 1
7
8
λ12 = 1
9
10
0
0
1
2
λ21 = 1
3
4
5
6
7
8
9
10
λ12 = 5
Abbildung 16: Minimum risk decision boundaries für die Klassen aus Abb. 13
mit priors P (ω1) = 0.9 und P (ω2) = 0.1. Dargestellt sind die Funktionen
p(x|ω1)λ21P (ω1) und p(x|ω2)λ12P (ω2).
Für 0/1-loss (links) sind risk minimization und minimum error rate classification äquivalent. Für λ12 > λ21 (rechts) verschiebt sich die Entscheidungsgrenze in Richtung der Klasse ω1.
Thomas Melzer, GEO Department
140
Die Ungleichung Eq. 123 lässt sich analog zu Eq. 105 äquivalent als
likelihood ratio formulieren
(λ21 − λ11)P (ω1)p(x|ω1) > (λ12 − λ22)P (ω2)p(x|ω2)
p(x|ω1)
p(x|ω2)
Thomas Melzer, GEO Department
>
P (ω2) (λ12 − λ22)
.
P (ω1) (λ21 − λ11)
(124)
141
p(x|ωi)
0.4
ω2
p(x|ω1)
p(x|ω2)
ω1
0.3
θb
θa
0.2
0.1
x
x
9
10
11
12
13
14
15
R2
R1
R2
R1
FIGURE 2.1. Hypothetical class-conditional probability density functions
the likelihood ratio p(x |ω1 )/p(x |ω2 ) for the distributions shown in
FIGUREshow
2.3. The
probability density of measuring a particular feature value x given Fig.
the 2.1.
pattern
in
If weis employ
a zero-one or classification loss, our decision boundaries are
describe
category ωi . If x represents the lightness of a fish, the two curves might
determined
by the
the threshold θa . If our loss function penalizes miscategorizing ω2 as ω1
difference in lightness of populations of two types of fish. Density functions
aremore
normalpatterns
than the converse, we get the larger threshold θb , and hence R1 becomes
smaller.
Richard O.1Duda, Peter E. Hart, and David G. Stork,
ized, and thus the area under each curve is 1.0. From: Richard O. Duda,
PeterFrom:
E. Hart,
2 Pattern Classificac 2001 by John Wiley & Sons, Inc.
. Copyright
tionWiley
c 2001 by John
& Sons,
and David G. Stork, Pattern Classification. Copyright Inc.
a
12
21
Abbildung 17: Class conditional pdfs (links) und korrepondierende likelihood
ratio (rechts) . Für 0/1-loss und priors P (ω ) = 2/3 und P (ω ) = 1/3
erhält man den threshold θ . Ein asymmetrischer loss mit λ > λ erhöht
den threshold (θb) und verkleinert somit die Entscheidungsregion für ω1.
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
142
Stetige Verteilungen III
Der allgemeine multivariate Fall: p ≥ 2
~ =
• Die marginal pdf der i-ten Variable (Komponente) von X
(X1, . . . , XP )T erhält man durch Integration der joint pdf über alle
anderen Variablen
Z
+∞
Z
+∞
p(x1, . . . , xp)dx1 . . . dxi−1dxi+1 . . . dxp. (125)
...
pi(xi) =
−∞
Thomas Melzer, GEO Department
−∞
143
Die marginal pdf einer Menge von Variablen S erhält man durch Integration der joint pdf über die restlichen Variablen {X1, . . . , Xp} − S.
Z.B. ergibt sich die marginal pdf von S = {X1, . . . , Xr } zu
p1...r (x1, . . . , xr ) =
Z
+∞
Z
+∞
p(x1, . . . , xr , xr+1, . . . , xp)dxr+1 . . . dxp.
...
−∞
(126)
−∞
Die marginal cdf der i-ten Komponente erhält man durch Integration
über die marginal pdf der i-ten Komponente
Z
xi
Fi(xi) = F (+∞, . . . , +∞, xi, +∞, . . . , +∞) =
pi(x0i)dx0i. (127)
−∞
(Analog für eine Menge von Variablen.)
Thomas Melzer, GEO Department
144
• Sind X1, . . . , Xp wechselseitig unabhängig (mutually independent), so
faktorisieren die Dichte- und Verteilungsfunktion in ihre jeweiligen Randverteilungsfunktionen:
F (x1, . . . , xp) = F1(x1) . . . Fp(xp) =
Y
Fi(xi),
(128)
i
p(x1, . . . , xp) = p1(x1) . . . pp(xp) =
Y
pi(xi).
(129)
i
Thomas Melzer, GEO Department
145
• Erwartung und Momente
Die Erwartung E[] einer reellwertigen Funktion einer multivariaten Zufallsvariablen X h : IRp → IR ist definiert als
~
E[h(X)]
=
Z
+∞
h(x)p(x)dx
−∞
Z +∞
Z
+∞
h(x1, . . . , xp)p(x1, . . . , xp)dx1 . . . dxp.
...
=
−∞
(130)
−∞
Für
h(X1, . . . , Xp) =
p
Y
i=1
Xili , li ∈ IN,
p
X
li = k,
(131)
i=1
~
erhält man die Momente k-ter Ordnung (k-th order moments) von X.
Thomas Melzer, GEO Department
146
Speziell erhält man für k = 1 die p Momente erster Ordnung µi
Z
+∞
Z
+∞
...
µi =
x01 . . . x0i−1x1i x0i−1 . . . x0p p(x1, . . . , xp)dx1 . . . dxp
−∞
−∞
Z +∞
Z
+∞
xpi(x)dx = E[Xi].
xipi(xi)dxi =
=
−∞
(132)
−∞
Wie man leicht sieht, ist Eq. 132 äquivalent zu Eq. ??, dem Mittelwert
im univariaten Fall; µi ist also das Mittel von Xi.
~ µ
Die µi sind die Kompomenten des Mittelwertvektors von X,
~ = (µ1, . . . , µp)T = (E[x1], . . . , E[xp])T .
µ = E[X]
(133)
µ beschreibt als Ortparameter das Zentrum (den Schwerpunkt) der
~
Verteilung von X.
Thomas Melzer, GEO Department
147
Die zentralen (d.h. mittelwertbereinigten) Momente zweiter Ordnung σij
bezeichnet man als Varianz von Xi (i = j)
σii =
σi2
Z
+∞
=
−∞
(xi − µi)2pi(xi)dxi
= E[(Xi − µi)(Xj − µj )]
(134)
bzw. als Kovarianz (i 6= j) von Xi und Xj
Z
σij
+∞ Z +∞
=
−∞
−∞
(xi − µi)1(xj − µj )1pij (xi, xj )dxi dxj
= E[(Xi − µi)(Xj − µj )]
Thomas Melzer, GEO Department
(135)
148
(vergleiche Eq. 60 und Eq. 65). Die Matrix


σ11 . . . σ1p
~
Cov(X)
= Σ = (σij ) =  . . . . . . . . . 
σp1 . . . σpp
~ − µ )(X
~ − µ )T ]
= E[(X
(136)
~
bezeichnet man als Kovarianzmatrix von X.
Matrizen werden im folgenden durch fette Großbuchstaben bezeichnet.
Thomas Melzer, GEO Department
149
Die Kovarianz-Matrix beschreibt sowohl die Dispersion (Energie) der
~ i (Varianz σii = σ 2) als auch den linearen
einzelnen Komponenten X
i
Zusammenhang zwischen den Komponenten (Kovarianz σij ).
Analog zum bivariaten Fall (Eq. 65) lässt sich Σ unter Verwendung der
Linearität des Erwartungsoperators, Eq. 62, folgendermaßen schreiben
(vergleiche hierzu auch Übungsbeispiel T-2)
~ − µ )(X
~ − µ )T ]
Σ = E[(X
~X
~ T ] − E[X]µ
~ µT − µ E[X]
~ T + µµT
= E[X
= S − µµT ,
(137)
~X
~ T ] die (nicht mittelwertbereinigten) Momente 2-ter
wobei S = E[X
Ordnung enthält.
Thomas Melzer, GEO Department
150
In der Herleitung von Eq. 137 wurde von folgendem Lemma Gebrauch
gemacht, welches wir im folgenden noch häufiger benötigen werden.
Lemma 1. Sei A = (aij ) eine p×q Zufallsmatrix, d.h. eine Matrix deren
Elemente aij Zufallsvariablen darstellen. Seien weiters F ∈ IRn×p, G ∈
IRq×m, H ∈ IRn×m reelle Matrizen. Es gilt
E[FAG + H] = FE[A]G + H.
(138)
Als Spezialfall erhält man
~ T ] = µ E[X
~ T ].
E[µ
µX
Thomas Melzer, GEO Department
(139)
151
• Schätzung des Mittels
Gegeben seien N p-dimensionale Beobachtungen xi (Realisierungen von
~ i ∈ IRp), welche wir (als SpaltenvektoN iid verteilten Zufallsvektoren X
ren) in der sample matrix X = (x1, . . . , xN ) ∈ IRp×N zusammenfassen.
Der (erwartungstreue) Schätzer des Mittelwerts ergibt sich, analog zum
univariaten Fall, als
N
1 X~
Xi,
µ̂
µ=
N i=1
(140)
d.h. der Schätzer für die i-te Komponente ist durch Eq. 59 gegeben.
Man beachte, dass µ̂
µ wiederum ein Zufallsvektor ist.
Thomas Melzer, GEO Department
152
Der konkrete Wert des Schätzers für gegebene sample matrix X berechnet sich daher wie folgt
N
1 X
m̂ =
xi.
N i=1
Thomas Melzer, GEO Department
(141)
153
• Schätzung der Kovarianz-Matrix
Ein erwartungstreuer Schätzer der Kovarianz ist durch
Σ̂ = (σ̂ij ) =
N
1 X ~
~ i − µ̂
(Xi − µ̂
µ)(X
µ)T
N − 1 i=1
(142)
gegeben. Alle Komponenten σ̂ij sind wiederum Zufallsvariablen (und Σ̂
somit eine Zufallsmatrix). Auch hier muss, wie im univariaten Fall (siehe
Eq. 88), durch N − 1 und nicht durch N dividiert werden, um die
Erwartungstreue von Σ̂ zu gewährleisten.
Thomas Melzer, GEO Department
154
Bezeichne im folgenden X̃ die mittelwertbereinigten (mean normalized)
samples
X̃ = (x̃1, . . . , x̃N ) = ((x1 − m̂), . . . , (xN − m̂)).
(143)
Die Realisierung von Σ̂ für gegebene sample matrix X (bzw. X̃) berechnet sich wie folgt
Ĉ = (ŝij ) =
Thomas Melzer, GEO Department
N
1 X
(xi − m̂)(xi − m̂)T
N − 1 i=1
=
N
1 X
x̃ix̃iT
N − 1 i=1
(144)
=
1
X̃X̃T .
N −1
(145)
155
Die analytisch äquivalente Formulierung
1
Ĉ =
(XXT − N m̂m̂T )
N −1
(146)
sollte aus numerischen Gründen (Akkumulation von Rundungsfehlern)
vermieden wenden.
Thomas Melzer, GEO Department
156
Eigenschaften der Kovarianz-Matrix
• Symmetrie
~ ∈ IRp ist symmeDie Kovarianz-Matrix (σij )1≤i,j≤p = Σ ∈ IRp×p von X
trisch, d.h. σij = σji für 1 ≤ i, j ≤ p, und somit
Σ = ΣT
(147)
(folgt direkt aus Eq. 135). Σ legt somit einen symmetrischen Operator
IRp × IRp → IR fest
X
X
T
< x, y >Σ = x Σy =
σij xiyj =
σjiyj xi
1≤i,j≤p
= yT Σx.
Thomas Melzer, GEO Department
1≤i,j≤p
(148)
157
Weiters ist < x, y >Σ bilinear, d.h linear in beiden Argumenten
< λ1x1 + λ2x2, y >Σ= λ1 < x1, y >Σ +λ2 < x2, y >Σ
(149)
(ebenso für das zweite Argument y).
Im Fall x = y spricht man von einer quadratischen Form < x, x >Σ
T
< x, x >Σ= x Σx =
X
i=j
σiixixi +
X
2σij xixj ,
(150)
i<j
z.B. für x = (x1, x2)T ∈ IR2
< x, x >Σ= σ11x21 + 2σ12x1x2 + σ22x22.
Thomas Melzer, GEO Department
(151)
158
• Σ ist positiv semi-definit
Σ - und somit auch < x, x >Σ - ist stets positiv semi-definit, d.h.
< x, x >Σ= xT Σx ≥ 0 ∀x ∈ IRp.
(152)
Ist Σ darüberhinaus positiv definit
< x, x >Σ= xT Σx > 0 ∀(x 6= 0) ∈ IRp,
(153)
dann definiert < x, x >Σ ein inneres Produkt im IRp und induziert
somit auch eine Norm im IRp
kxkΣ =
√
< x, x >Σ .
(154)
Ist Σ hingegen nur positiv semi-definit, so bezeichnet man kxkΣ auch
als Semi-Norm.
Thomas Melzer, GEO Department
159
Anmerkung: Positive Definitheit einer Matrix ist eine hinreichende Bedingung für Invertierbarkeit, d.h. jede positiv definite Matrix ist auch invertierbar. Positiv definite Matrizen haben positive, positiv semi-definite
Matrizen haben nicht-negative Eigenwerte.
Thomas Melzer, GEO Department
160
• Varianz einer Linearkombination von Zufallsvariablen
Angenommen, wir sind an der Varianz der Linearkombination von p
~ = (X1, . . . , Xp) ∈ IRp mit dem Koeffizientenvektor
Zufallsvariablen X
w ∈ IRp interessiert. Die transformierte Variable Y erhält man als
Linearkombinationen der Xi mit Koeffizienten wi.
~ =
Y =w X
T
X
wiXi.
(155)
~ = 0 und somit E[Y ] = 0. Es gilt
Sei E[X]
~X
~ T w]
V ar(Y ) = E[Y 2] = E[Y Y T ] = E[wT X
~X
~ T ]w = wT Σw,
= wT E[X
(156)
d.h. die Varianz von Y ergibt sich als Wert von < w, w >Σ für den
Richtungsvektor w.
Thomas Melzer, GEO Department
161
Bezeichne I = {i1, . . . , ik } eine Teilmenge von {1, . . . , p}, und sei wI ∈
IRp definiert als
w Ii =
1 falls i ∈ I
0 sonst.
Dann liefert Eq. 156 die Varianz der Summe der k Komponen~ So erhält man z.B. für p = 5 und
ten {Xi1 , . . . , Xik } von X.
wI = (1, 1, 0, 0, 0)T
V ar(X1 + X2) = wIT ΣwI = σ11 + 2σ12 + σ22
(157)
(vergleiche Eq. 64). Ist die Kovarianz σ12 zwischen der ersten und zweiten
Komponente 0, so ergibt sich die Varianz der Summe X1 +X2 als Summe
der Einzelvarianzen.
Thomas Melzer, GEO Department
162
~ ∈ IRp
Ein Spezialfall ist die Ermittlung Varianz des Zufallsvektors X
entlang der Richtung w ∈ IRp, oder, anders formuliert, der Varianz der
~ unter der Nebenbedingung kwk = 1.
Projektion Y = wT X
wT Σw
wT Σw
V ar(Y ) =
=
.
T
kwkkwk
w w
(158)
Man sieht, dass sich die Varianz der Projektion Y als Quotient zweier
(symmetrischer) quadratischer Formen auffassen lässt.
Thomas Melzer, GEO Department
163
Seien allgemein A, B symmetrische Matrizen und B darüberhinaus positiv definit. Der Quotient der durch A, B induzierten quadratischen
Formen
wT Aw
r(w) = T
w Bw
(159)
wird als Rayleigh Quotient bezeichnet.
Thomas Melzer, GEO Department
164
• Mittelwert und Kovarianz unter affiner Transformation
~ ∈ IRp eine p-dimensionale Zufallsvariable mit MittelLemma 2. Sei X
wert µ und Kovarianzmatrix Σ. Dann berechnen sich Mittelwert und
Varianz der unter der affinen Transformation
~ = FX
~ + H,
Y
(160)
~ wie folgt
F ∈ IRq×p, H ∈ IRq , q ≤ p, erhaltenen Zufallsvariablen Y
~ ] = Fµ
E[Y
µ+H
~ ) = FΣFT .
Cov(Y
(161)
(162)
Eq. 161 folgt direkt aus Lemma 1, Eq. 162 erhält man durch Einsetzen
~ − E[Y
~ ])(Y
~ − E[Y
~ ])]T .
von Eq. 160 und Eq. 161 in E[(Y
Thomas Melzer, GEO Department
165
• Kovarianz und Korrelation
Die Kovarianz
Cov(X, Y ) = σXY = E[(X − µx)(Y − µy )]
(163)
ist ein Maß für den linearen Zusammenhang zwischen X und Y . Allerdings
hängt die Kovarianz auch von der Varianz (Skalierung) der Variablen ab
V ar(αX) = E[(α(X − µx))2] = α2V ar(X)
(164)
Cov(αX, Y ) = E[(α(X − µx))(Y − µy )] = αCov(X, Y ). (165)
Thomas Melzer, GEO Department
166
Ein skalierungsunabhängiges Maß für den linearen Zusammenhang ist
durch die Korrelation
p
Corr(X, Y ) = Cov(X, Y )/ V ar(X)V ar(Y )
(166)
σXY
(167)
ρXY =
σX σY
gegeben, welche man aus der Kovarianz durch Division durch das Produkt
der Standardabweichungen der betreffenden Variablen erhält.
Für den Korrelationskoeffizienten ρXY gilt
−1 ≤ ρXY ≤ 1,
(168)
wobei im Fall |ρXY | = 1 ein perfekter (deterministischer) linearer Zusammenhang zwischen X und Y besteht. Im Fall ρXY = 0 besteht keinerlei
linearer Zusammenhang zwischen den Variablen (sie sind dekorreliert).
Thomas Melzer, GEO Department
167
Aus der Definition des Korrelationskoeffizienten Eq. 167 folgt
σXY = ρXY σX σY .
(169)
Daher muss die Kovarianz stets im Intervall [−σX σY , σX σY ] liegen.
Für Z-standardisierte Variablen Z1 = (X −µX )/σX ), Z2 = (Y −µY )/σX
(V ar(Z1) = V ar(Z2) = 1) erhält man
Corr(Z1, Z2) = Cov(Z1, Z2)/(1 ∗ 1),
(170)
d.h. die Kovarianz ist gleich der Korrelation. Weiter ist der Korrelationskoeffizient unter Z-Normalisierung (Skalierung der Achsen) invariant
Corr(Z1, Z2) = E[(X − µX )/σX (Y − µY )/σY ]
= σXY /(σX σY ) = Corr(XY ).
Thomas Melzer, GEO Department
(171)
(172)
168
8
8
6
6
4
4
2
2
0
0
−2
−2
−4
−4
−6
−6
−8
−8
−10
−5
0
5
10
−12
−10
−8
−6
−4
−2
0
2
4
6
8
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
−0.5
−0.5
−1
−1
−1.5
−1.5
−2
−2
−2.5
−2.5
−3
−2
−1
0
1
2
3
−3
−2
−1
0
1
2
3
Abbildung 18: Kovarianz vs. Korrelation am Beispiel einer bivariaten
Normalverteilung.
2
2
Oben: σX
= 12, σY2 = 2. Unten: Z-normalisierte Variablen (σX
= σY2 = 1).
Links: ρXY = 0.9. Rechts: ρXY = 0.1
Thomas Melzer, GEO Department
169
Eine bivariate Normalverteilung mit Kovarianzmatrix Σ hat eine elliptische Form, wobei die Hauptachse in Richtung der größten Varianz
wT Σw
w = arg max T
w w
∗
(173)
liegt (die Nebenachse liegt in Richtung der minimalen Varianz). Für ρ = 0
fallen die Achsen der Ellipse mit den Koordinatenachsen xi zusammen
(die Xi sind somit dekorreliert).
Werden die Variablen Z-standardisiert, so liegt die Hauptachse der Ellipse auf der ersten (ρ > 0) bzw. auf der zweiten (ρ < 0) Mediane.
Das Verhältnis der Achsen der Ellipse hängt vom Absolutbetrag des
Korrelationskoeffizienten ρ ab: je größer |ρ|, desto elongierter, je kleiner
|ρ|, desto kreisförmiger die Ellipse. Für ρ = 0 erhält man einen perfekten
Kreis (d.h. , es gibt keine “ausgezeichnete” Hauptachse mehr).
Thomas Melzer, GEO Department
170
• Schätzung des Korrelationskoeffizienten
Ein erwartungstreuer Schätzer des Korrelatioskoeffizienten (StichprobenKorrelationskoeffizient bzw.sample correlation coefficient) ist durch
PN
ρ̂ =
− X̄)(Yi − Ȳ )
PN
2
2
i=1 (Xi − X̄)
i=1 (Yi − Ȳ )
σ̂XY
= qP
σ̂X σ̂Y
N
i=1 (Xi
(174)
gegeben. Einen konkreten Schätzwert erhält man, wie gehabt, durch
Ersetzen der Zufallsvariablen Xi, Yi durch die Elemente einer gegebenen
Stichprobe
PN
− x̄)(yi − ȳ)
PN
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ)
ŝXY
= qP
r=
ŝX ŝY
N
Thomas Melzer, GEO Department
i=1 (xi
(175)
171
Wir haben an dieser Stelle die vorherrschende Konvention übernommen,
den Schätzwert des Korrelationskoeffizienten mit r (ohne Dach) zu
bezeichnen.
Im Falle einer bivariaten Normalverteilung von X, Y mit ρ = 0 ist die
Statistik
s
N −2
T = ρ̂
(176)
1 − ρ̂2
Student-t verteilt mit N − 2 Freiheitsgraden. Mittels dieser Statistik kann
also ein Hypothesentest H1 : |ρ| > 0 unter der Null-Hypothese H0 : ρ = 0
konstruiert werden. Liegt der beobachtete Wert (die Realisierung von T )
z.B. außerhalb des Intervalls [t0.025;N −2, t0.975;N −2], so wird die H0:
X und Y sind unkorreliert
auf dem 5%-Niveau abgelehnt (tα;N −2 bezeichne hier das α-Quantil der
Student-t Verteilung mit N − 2 Freiheitsgraden).
Thomas Melzer, GEO Department
172
Lineare Regression
• Überblick
Die Regression (Funktionsapproximation) ist mit dem Problem befaßt,
den Wert einer
– abhängigen Variablen (output, response or target variable) y = f (x) ∈
IR anhand einer
– unabhängigen Variable (input, predictor or explanatory variable) x ∈
IRp
vorherzusagen, wobei die zugrundeliegende Funktion f meist als stetig
(continuous) oder sogar als einmal oder mehrfach stetig differenzierbar
(smooth) vorausgesetzt wird. Das “klassische” Regressions-Problem kann
wie folgt formuliert werden:
Thomas Melzer, GEO Department
173
Gegeben sei ein Familie parametrisierter Funktionen f (x, w) mit Parametervektor w, z.B. die affinen (linearen) Funktionen
f (x, w) = w2x2 + w1x1 + w0.
(177)
Da der Wert von y an der Stelle x von w abhängt, wird für f (x, w) oft
auch f (x|w) geschrieben.
Der Zusammenhang zwischen x und y sei durch
y(x) = f (w∗, x) + (178)
gegeben, wobei w∗ den wahren Wert des Parametervektors und zufälliges Rauschen (noise) mit Mittel 0 bezeichne. Die Werte y(x)
setzen sich also aus einer deterministischen Komponente f (x, w∗) und
einer stochastischen (zufälligen) Komponente zusammen.
Thomas Melzer, GEO Department
174
Anders formuliert, stellt y(x) eine von x abhängige Zufallsvariable Y |x
Zufallsvariable mit pdf p(y|x) dar. Eq. 178 wird somit zu
Y |x = f (w∗, x) + Thomas Melzer, GEO Department
(179)
175
40
35
30
25
20
y
15
10
5
0
−5
−10
−5
0
5
10
15
x
Abbildung 19: Beispiel eines linearen Modells mit additivem Gaußschem Rauschen. Für jeden Wert von x sind die Werte von y normalverteilt - Y |x - mit
Mittel (deterministischer Komponente) E[Y |x] = f (x, w∗) = w0 + w1 ∗ x.
Thomas Melzer, GEO Department
176
Man beachte, dass
E[Y |x] = E[f (w∗, x) + ] = E[f (w∗, x)] + E[] = E[f (w∗, x)], (180)
d.h., das Mittel von Y an der Stelle x ist durch die deterministische
Komponente f (w∗, x) gegeben.
Ziel ist es nun, einen Parametervektor w zu finden, welcher die mittlere
“Diskrepanz” zwischen Y |x und der Vorhersage f (x, w) minimiert. Ein
häufig verwendetes Maß für die Abweichung im Punkt x - bei gegebenem
(gemessenem) y - ist der quadratische Fehler (squared loss, L2-loss)
L(y, f (w, x)) = (y − f (w, x))2.
Thomas Melzer, GEO Department
(181)
177
Da y allerdings eine - i.a. von x abhängige! - Zufallsvariable Y |x mit
Dichtefunktion p(y|x) darstellt, müssen wir den mittleren Fehler im
Punkt x - das conditional risk - minimieren:
Z
R(w|x) =
(y − f (w, x))2p(y|x)dy.
(182)
Um ein globales Fehlermaß zu erhalten, fassen wir auch x als Zufallsvariable auf und berechnen schließlich den Mittelwert von R(w|x) bzg. x,
das sogenannte total risk
Z Z
R(w) =
(y − f (w, x))2p(y|x)p(x)dydx.
(183)
Unter den oben genannten Voraussetzungen lässt sich leicht zeigen, dass
das total risk Eq. 183 durch Wahl von w = w∗ minimal wird, wobei
Thomas Melzer, GEO Department
178
der Residualfehler durch die - von w unabhängige - Rausch-Varianz
V ar() = 2 gegeben ist.
Die Bestimmung des optimalen Parametervektors bezeichnet man als
Regression (Funktions-Approximation). Unter der Annahme eines linearen
Modells für die deterministische Komponente von y, d.h. f (x, w) = wT x
erhalten wir den wichtigen Spezialfall der linearen Regression.
Thomas Melzer, GEO Department
179
• Lineare Regression (linear least squares)
Sei ST r = {X, y} ein Trainingsset, wobei X = (x1, . . . , xN ) ∈
IR(d+1)×N die Spaltenmatrix homogenisierter Merkmalsvektoren und
y = (y1, . . . , yN ) ∈ IR1×N den Zeilenvektor korrespondierender (verrauschter!) Ausgabewerte bezeichne.
Eine Schätzung des total risk Eq. 183 ist durch
Re(w) =
=
N
1 X
1
T
2
(yi − w xi) = ky − wT Xk2
N i=1
N
1
(y − wT X)(y − wT X)T
N
(184)
gegeben. Man spricht in diesem Zusammenhang auch vom empirical risk
bzw. im speziellen Fall einer quadratischen loss-Funktion (wie in Eq. 184)
vom mean squared error (mse).
Thomas Melzer, GEO Department
180
Ist die gesuchte Funktion - wie im vorliegenden Fall der linearen Regression - linear in den Parametern w, so hat die Kostenfunktion Eq. 184
(mse) folgende Eigenschaften. Sie
– ist glatt (hat eine stetige erste Ableitung)
– ist nicht-negativ und wird 0 g.d.w. yi = wT xi für alle 1 ≤ i ≤ N , und
– ist eine quadratische (⇒ und somit konvexe!) Funktion der Parameter
w. Somit ist garantiert, dass es keine lokalen Minima gibt.
– Der Gradient (s.u.) von Eq. 184 bzg. w ist eine lineare Funktion des
Parameter-Vektors w.
Thomas Melzer, GEO Department
181
Exkurs: Gradienten und Lineare Algebra
Der Gradient einer Funktion f : IRp → IR
∂f
∂f T
df T
∇w f (w) = ∇f = (
,...,
) =( )
∂w1
∂wd
dw
(185)
(sprich: nabla f ) bzg. w ist definiert als Transponierte der ersten Ableitung nach w; er zeigt (als Vektor) in die Richtung des steilsten
Anstiegs (bei linearer Fortsetzung) von f . Folglich zeigt −∇f in die
Richtung des steilsten Abfalls von f ; −∇f wird auch als Richtung
des steepest descent bezeichnet. Das “Verschwinden” des Gradienten
∇w f (w)|w=w∗ = 0 an der Stelle w = w∗ ist eine notwendige Voraussetzung dafür, dass f an der Stelle w∗ ein Extremum annimmt.
Im allgemeinen Fall einer vektorwertigen Funktion f : IRp → IRq
erhält man den Gradienten als Transponierte der Jacobi-Matrix
(∂fi/∂wj )1≤i≤q,1≤j≤p.
Thomas Melzer, GEO Department
182
Beispiel
Sei w ∈ IR2 und f1(w) = sin(w1) cos(w2) sowie f2(w) = 3w12w2 + 2w1.
∂fi
Bezeichne weiters fij = ∂w
die partielle Ableitung von fi nach wj . Es
j
gilt
∇w f1(w) =
∇w f2(w) =
Thomas Melzer, GEO Department
f11
f12
f21
f22
cos(w1) cos(w2)
− sin(w1) sin(w2)
6w1w2 + 2
=
.
3w12
=
183
Fassen nun
1 , f2 als Komponenten der vektorwertigen Funktion
wir f
f1(w)
f (w) =
: IR2 → IR2 auf, so ist der Gradient von f durch
f2(w)
∇w f = (fij )T = (∇f1∇f2) =
f11 f21
f12 f22
gegeben.
Thomas Melzer, GEO Department
184
Für zwei Matrizen A ∈ IRp×q , B ∈ IRq×r gilt, dass
(AB)T = BT AT .
(186)
Der Gradient einer affinen Funktion ist durch
∇w (Aw + b) = AT ,
w ∈ IRq , b ∈ IRp, A ∈ IRp×q
(187)
gegeben.
Der Gradient einer symmetrischen
Koeffizienten-Matrix A = AT ist durch
∇w (wT Aw) = 2Aw,
quadratischen
w ∈ IRp, A ∈ IRp×p
Form
mit
(188)
gegeben. Man beachte, dass Matrizen der Gestalt C = AAT immer
symmetrisch sind, d.h., C = CT .
Thomas Melzer, GEO Department
185
• Pseudo-Inverse
Unser Ziel ist es, das durch den mse gegebene empirical risk Eq. 184
1
ky − wT Xk2 =
N
=
1
(y − wT X)(y − wT X)T
N
1
(y − wT X)(yT − XT w)
N
(189)
zu minimieren.
Multiplizieren wir Eq. 189 aus und setzen wir den Gradienten gleich 0
(notwendige - und im Fall einer konvexen Funktion auch hinreichende Bedingung für ein Minimum), so erhalten wir
Thomas Melzer, GEO Department
186
1
∇w (wT XXT w − 2yXT w + yyT ) = 0
N
XXT w = XyT .
(190)
(191)
Nachdem die Kostenfunktion Eq. 189 konvex ist, liefert uns jede Lösung
w∗ der sogennanten normal equations Eq. 191 ein globales Minimum
von Eq. 184. Ist XXT invertierbar, so erhalten wir schließlich
w∗ = (XXT )−1XyT .
(192)
Eq. 192 gibt uns also die Lösung des linear least squares Problems in
geschlossener (nicht-iterativer) Form.
Der Ausdruch (XXT )−1X wird als Pseudo-Inverse oder auch als
Moore-Penrose-Inverse von XT bezeichnet.
Thomas Melzer, GEO Department
187
Bei der praktischen Anwendung der Pseudo-Inversen in der Form Eq. 192
ist zu beachten, dass die Trainingsvektoren (Spalten xi von X) in
homogenen Koordinaten vorliegen müssen. Alternativ kann auch mit
mittelwert-normalisierten Größen X̃, ỹ gearbeitet werden.
Thomas Melzer, GEO Department
188
• Lineare Regression als Parameterschätzung
Wir können die oben gefundene Lösung des quadratischen Minmierungsproblems auch als Schätzung ŵ des wahren Parametervektors w
auffassen. Die korrespondierende Schätzfunktion (Statistik)
~ = (XXT )−1XY
~T
W
(193)
erhalten wir, wenn wir in Gleichung Eq. 192 den Vektor der beobachteten
Größen y durch den Zufallsvektor
~ = [Y1, .., YN ] = [Y |x1, ..., Y |xN ] = E[Y
~ ] + ~
Y
(194)
ersetzen, welcher die Verteilung des Fehlers um die bedingten Erwartungswerte
E[Yi] = xTi w
(195)
Thomas Melzer, GEO Department
189
beschreibt.
Bezeichne Σ die Kovarianz-Marix der Meßfehler, dann erhalten wir
~ mit
gemäß Lemma 2 die Kovarianzmatrix des Fehlers von W
T −1
T
T −1
ΣW
~ = (XX ) XΣ X (XX )
(196)
Im Fall daß die Fehlerkomponenten i unabhängig sind und der gleichen
Verteilung folgen (iid), haben wir Σ = Iσ2, und Eq. 196 vereinfacht
sich zu
T −1 2
ΣW
(197)
~ = (XX ) σ
Unter den obigen Voraussetzungen ist der Schätzer Eq. 193 auch erwarungstreu, da
~ ] = E[(XXT )−1XY
~ T ] = (XXT )−1XE[Y
~ T]
E[W
= (XXT )−1XXT w = w
Thomas Melzer, GEO Department
(198)
(199)
190
Eigenwertzerlegung und Hauptachsentransformation
~ ∼
• Die Dichtefunktion (joint pdf) eines normalverteilten Zufallsvektors X
N (µ
µ, Σ) mit Mittelwert µ und Kovarianzmatrix Σ ist wie folgt definiert
p(x) =
1
p 12
1
− 2 (x−µ)
e
1
T
Σ−1 (x−µ)
(2π) |Σ| 2
,
(200)
wobei |Σ| die Determinante von Σ bezeichnet.
Der Exponent in Eq. 200 hängt vom Wert der quadratischen Form
(x − µ )T Σ−1(x − µ ) =< x − µ , x − µ >Σ−1 = d2(x)
(201)
ab, welche auch als Mahalanobis-Distanz bezeichnet wird (Σ−1 ist
ebenfalls symmetrisch und positiv semi-definit).
Thomas Melzer, GEO Department
191
0.12
p(x1,x2)
0.1
0.08
0.06
0.04
0.02
0
5
5
0
0
X2
−5
−5
X1
Abbildung 20: Beispiel für die Dichtefunktion einer bivariaten Normalverteilung.
Thomas Melzer, GEO Department
192
• Rechenregeln für Determinanten
– |A| = Q
0 g.d.w. A singulär
– |A| = i aii falls A = (aij ) eine Diagonalmatrix ist
(speziell gilt |I| = 1)
– |AB| = |A||B|
– |A−1| = |A|−1
– |A| > 0(≥ 0), für positiv definites (positiv semi-definites) A.
• Mahalanobis-Distanz
Die Menge aller Punkte {x : d2(x) = c}, für welche die MahalanobisDistanz gleich einer Konstanten c ist, ist durch ein Hyperellipsoid im IRp
mit Mittelpunkt µ gegeben. Für alle auf einem solchen Hyperellipsoid
liegenden Punkte liefert die pdf p(x) denselben Wert.
Thomas Melzer, GEO Department
193
10
8
6
600
4
500
2
400
300
0
200
−2
100
−4
0
10
−6
10
5
5
0
−8
0
−5
−10
−10
−8
−6
−4
−2
0
2
4
6
8
10
−5
−10
−10
Abbildung 21: Mahalanobis-Distanz
2
= 12, σY2 = 2, ρXY = 0.9
der bivariaten Normalverteilung µ = 0, σX
Links: Konturplot, jede Ellipse entspricht einem konstanten Wert c für
d2(x).
Rechts: Darstellung der Mahalanobis-Distanz als Fläche über (x1, x2). Die
Konturlinien erhält man als Schnittkurven der Fläche mit zur x1 − x2-Ebene
parallelen Ebenen.
Thomas Melzer, GEO Department
194
Nehmen wir zunächst an, dass Σ = (σij ) = diag(σii) eine Diagonalmatrix ist (d.h. σij = 0 für i 6= j) und somit die Komponenten Xi
wechselseitig dekorreliert sind. In diesem Fall gilt
−1
Σ−1 = diag(σii
)1≤i≤p
(202)
und somit
d2(x) = (x − µ )T Σ−1(x − µ ) =
p
X
(xi − µi)2
i=1
σii
= c,
(203)
d.h. wir erhalten tatsächlich die Gleichung eines Hyperellipsoids in IRp
√
mit Achsenlängen cσii und Mittelpunkt µ .
Thomas Melzer, GEO Department
195
Wir werden im folgenden beweisen, dass d2(x) = c auch im allgemeinen
Fall ein Hyperellipsoid beschreibt, indem wir
~ ∈ IRp in einen Zufallsvektor Y
~ = ET X
~ ∈ IRp mit dekorrelierten
– X
Komponenten Yi transformieren und anschließend zeigen, dass
– d2(x) unter der Transformation ET invariant ist und
– eine Transformation ET mit den geforderten Eigenschaften stets existiert.
Angenommen, es gäbe eine Transformationsmatrix ET ∈ IRp×p, |E| 6= 0,
~ = ET X
~
sodass die Kovarianzmatrix der transformierten Variablen Y
Diagonalform hat
~ ) = Cov(ET X)
~ = Λ = diag(λii)1≤i≤p
Cov(Y
(204)
(und somit die Gleichung d2(y) = c wiederum ein Hyperellipsoid im IRp
beschreibt).
Thomas Melzer, GEO Department
196
Es gilt mit Lemma 2
~ ] = µ y = ET µ x
E[Y
(205)
~ ) = Λ = ET ΣE
Cov(Y
(206)
Unter Verwendung der Identitäten (AB)T = BT AT und (AB)−1 =
B−1A−1 erhalten wir
d2(y) = (y − µ y )T Λ−1(y − µ y )
= (ET (x − µ x))T (ET ΣE)−1ET (x − µ x)
= (x − µ x)T EE−1Σ−1(ET )−1ET (x − µ x)
= (x − µ x)T Σ−1(x − µ x) = d2(x),
(207)
d.h. d2(x) ist unter ET (allgemein: unter jeder invertierbaren linearen
Transformation) invariant.
Thomas Melzer, GEO Department
197
Es bleibt zu zeigen, dass die Transformation ET , welche die Kovarianz~ diagonalisiert, tatsächlich existiert.
matrix Σ von X
• Eigenwert-Dekomposition
Sei A ∈ IRp×p eine quadratische Matrix. Gilt für ein e ∈ Cp, e 6= 0 und
einen Skalar λ ∈ C
Ae = λe,
(208)
so nennen wir e einen Eigenvektor von A mit korrespondierendem
Eigenwert λ = λ(e). Man beachte, dass mit e auch jedes Vielfache
αe, α ∈ IR ein Eigenvektor von A mit Eigenwert λ ist, d.h. ein Eigenvektor
legt einen eindimensionalen Unterraum fest.
Thomas Melzer, GEO Department
198
Die Eigenwerte erhält man z.B. als Lösung der Gleichung
p
Y
pA(λ) = |A − λI| =
(λ − λi) = 0,
(209)
i
d.h. als Nullstellen des charakteristischen Polynoms pA(λ) von A.
Thomas Melzer, GEO Department
199
pA(λ) ist ein Polynom p-ter Ordnung in λ, und hat somit p
(möglicherweise komplexe) Lösungen. Somit verfügt jede p × p-Matrix
über p Eigenwert/Eigenvektor-Paare (λi, ei).
Speziallfälle:
– 0-Eigenwerte: treten im Fall singulärer Matrizen für Eigenvektoren
im Kern der Matrix ({x : Ax = 0}) auf.
– Multiple Eigenwerte, d.h. λi = λj , i 6= j, es tritt also mindestens
ein Eigenwert mit Vielfachheit > 1 auf. Eine Linearkombination von
Eigenvektoren emi , emj , welche über denselben Eigenwert λm mit
Vielfachheit m verfügen, ist wiederum ein Eigenvektor von A:
A(αmi emi + αmj emj ) = λm(αmi emi + αmj emj ),
(210)
d.h. sie spannen einen maximal m-dimensionalen Unterraum des IRp
auf.
Thomas Melzer, GEO Department
200
Fassen wir nun die p Eigenvektoren von A in der Eigenvektormatrix
E = (e1, . . . , ep) und die zugehörigen Eigenwerte in der Diagonalmatrix Λ = diag(λ1, . . . , λp) zusammen, so lässt sich Eq. 208 für alle p
Eigenvektoren simultan als
AE = EΛ
(211)
formulieren. Sind die Eigenvektoren darüberhinaus linear unabhängig, so
ist E invertierbar und wir erhalten mit
A = EΛE−1
(212)
die Eigenwertzerlegung (eigenvalue decomposition, EVD, auch spectral
factorization) von A.
Thomas Melzer, GEO Department
201
Im Fall einer symmetrischen, reellen Matrix A gelten folgende Aussagen
– A hat ausschließlich reelle Eigenwerte und Eigenvektoren.
– Zu verschiedenen Eigenwerten gehörende Eigenvektoren sind orthogonal. Auch im Fall von Eigenwerten mit Vielfachheit > 1 (oder
0-Eigenwerten) lassen sich stets p wechselseitig orthogonale Eigenvektoren finden.
Normalisieren wir die Eigenvektoren weiters auf Einheitslänge, so ist
E eine Orthonormalmatrix (mit |E| = ±1). Da die Inverse einer
Orthonormalmatrix durch ihre Transponierte gegeben ist, d.h. E−1 =
ET , erhalten wir für Eq. 212
A = EΛET =
p
X
λieieTi .
(213)
i=1
Thomas Melzer, GEO Department
202
Man bemerkt, dass die Eigenwertdekomposition Eq. 212 nicht eindeutig
ist, da wir die Eigenvektor/Eigenwert-Paare (Zeilen von E bzw. Λ)
beliebig permutieren können.
Wir gehen im folgenden davon aus, dass die Eigenwerte absteigend
sortiert sind, d.h. λ1 ≥ λ2 . . . λp−1 ≥ λp. Unter dieser Konvention wird
e1 (ep) auch als größter (kleinster) Eigenvektor bezeichnet.
Thomas Melzer, GEO Department
203
• Invertierung einer reellen symmetrischen Matrix
Die Inverse einer symmetrischen Matrix A mit Eigenwertzerlegung
A = EΛET
(214)
−1
T
A−1 = EΛ−1ET = E diag(λ−1
1 , . . . , λp ) E
(215)
ist durch
gegeben, lässt sich also durch Invertieren der Eigenwerte berechnen.
A−1 besitzt somit dieselben Eigenvektoren wie A, jedoch mit reziproken
Eigenwerten.
Insbesondere ist die Inverse einer symmetrischen Matrix wiederum symmetrisch.
Thomas Melzer, GEO Department
204
• Diagonalisierung der Kovarianzmatrix
Betrachten wir nun die EVD der (symmetrischen!) Kovarianzmatrix Σ
~ Aus Eq. 213 folgt, dass
von X.
ET ΣE = Λ.
(216)
Man sieht, dass die durch
~
Y
~
Y
~
= ET X
~ − µ x)
= ET (X
(217)
(218)
(sprich: durch Projektion auf die Eigenvektoren) gegebenen affinen Abbildungen die Kovarianzmatrix diagonalisieren.
Der i-te Eigenwert λi entspricht der Varianz der Projektion auf den
Thomas Melzer, GEO Department
205
~ d.h. λi = V ar(Yi). Weiters sind die
i-ten Eigenvektor Yi = eTi X,
Komponenten Yi dekorreliert, da Cov(Yi, Yj ) = λij = 0 für i 6= j.
Thomas Melzer, GEO Department
206
Die Eigenvektoren ei entsprechen den Achsen der Ellipsoide konstanter
~ und Y
~ , wobei die Achsenlängen
pdf (iso-Linien bzw. iso-Flächen) von X
√
proportional zu den Quadratwurzeln der Eigenwerte λi (Standardab√
~ ) sind.
weichungen σii von Y
Geometrisch kann Eq. 218 als Transformation des ursprünglichen Koordinatensystem Cx aufgefasst werden, wobei
– der Ursprung des neuen Systems Cy (relativ zu Cx) durch µ x gegeben
ist und
– die Achsen des neuen System (relativ zu Cx) durch die Eigenvektoren
(Achsen des Ellipsoide konstanter pdf) gegeben sind.
Fig. 22 auf der nächsten Seite veranschaulicht diesen Prozess
anhand einer
bivariaten Normalverteilung mit Kovarianzmatrix
12 4.41
. Die Kovarianzmatrix der diagonalisierten Verteilung
4.41
2
ist durch diag(13.66, 0.33) gegeben.
Thomas Melzer, GEO Department
207
8
15
6
10
4
5
2
0
0
−2
−5
−4
−10
−6
−8
−20
−15
−15
−10
−5
0
5
10
15
20
0
5
10
15
20
−20
−15
−10
−5
0
5
10
15
20
15
10
5
0
−5
−10
−15
−20
−15
−10
−5
Abbildung 22: KLT und Whitening
Von links oben nach rechts unten: Ursprüngliche Verteilung, diagonalisierte
Verteilung (die Achsen der Ellipsoide koinzidieren mit den Achsen des
Koordinatensystems), whitened distribution mit Kovarianzmatrix diag(1, 1).
Thomas Melzer, GEO Department
208
Aus vektor-algebraischer Sicht entspricht die Transformation
y = ET (x − µ x) = ET x̃
(219)
einem Basiswechsel von der kanonischen Basis zur Basis E (bzg. der
mittelwert-normalisierten Koordinaten x̃). Man spricht in diesem Zusammenhang auch von der (diskreten) Karhunen-Loeve Transformation (KLT). Achtung: die absteigende Sortierung der Eigenwerte/Eigenvektoren ist hier wesentlich.
Für einen Punkt y ist dessen Repräsentation bzg. der kanonischen Basis
(Urbild) durch die inverse Transformation
x̃ = Ey
(220)
gegeben. Eq. 220 ist die Karhunen-Loeve Expansion von x̃, wobei
Thomas Melzer, GEO Department
209
sich die Koeffizienten der Expansion (Linearkombination) gemäß Eq. 219
berechnen.
Thomas Melzer, GEO Department
210
Skaliert man die Basisvektoren ei der KLT mit
resultierende Transformation
− 12
λi ,
− 21 T ~
− 12 T ~
~
Y = (EΛ ) (X − µ x) = Λ E (X − µ x)
so liefert die
(221)
einen Zufallsvektor mit dekorrelierten und Z-normalisierten Variablen
(V ar(Yi) = 1 für 1 ≤ i ≤ p). Die resultierende Verteilung ist kreisförmig;
man spricht auch von whitening.
1
1
Genauer wird Λ− 2 ET (manchmal jedoch auch EΛ− 2 ) als whitening
transformation und die resultierende Verteilung als whitened distribution bezeichnet.
Mittels der inversen whitening transformation lassen sich sich aus Vektoren von je p N (0, 1) verteilten samples N (µ
µ, Σ) verteilte samples
generieren.
Thomas Melzer, GEO Department
211
• Beziehung zwischen Rayleigh Quotient und EVD
Eine notwendige Bedingung daür, dass der Rayleigh Quotient
wT Aw
r(w) =
wT w
(222)
im Punkt w ein Extremum annimmt, ist durch
∇r(w) = (
dr(w) T
) = (∂r(w)/∂wp, . . . , ∂r(w)/∂wp)T = 0
dw
(223)
gegeben, wobei ∇r(w) ∈ IRp den Gradienten von r bezeichnet (der
Gradient ist die Transponierte der Funktionalmatrix bzw. der ersten
Ableitung von r nach w).
Thomas Melzer, GEO Department
212
Die Extremstellen w∗, welche Eq. 223 erfüllen, werden im Englischen
auch stationary points genannt.
Lemma 3. Die Extremstellen w∗ (Extremwerte r(w∗)) des RayleighQuotienten Eq.222 sind durch die Eigenvektoren e (Eigenwerte λ(e))
von A gegeben, können also als Lösungen der korrespondierenden symmetrischen Eigenwertproblems erhalten werden.
• Anwendungen der KLT am Beispiel Bildverarbeitung
– Schätzung der Orientierung einer Punktwolke (bzw. eines Blobs).
– Merkmalsberechnung, z.B. Elongation (definiert als λλ12 .
– Komprimierung (PCA): Bilder eines Objekts lassen sich als Linearkombination einiger weniger Bilder darstellen.
Thomas Melzer, GEO Department
213
• Einige Eigenschaften der multivariaten Normalverteilung
~ normalverteilt mit X
~ ∼ N (µ
Ist X
µ, Σ), so ist die Verteilung der transfor~ = FX
~ + H durch Y
~ ∼ N (Fµ
mierten Variablen Y
µ + H, FΣFT ) gegeben
(dieses Ergebnis folgt nicht trivial aus Lemma 2).
Weiters sind die Randverteilungen und bedingten Verteilungen einer multivariat normal verteilten Zufallsvariablen wiederum multivariat normal.
Thomas Melzer, GEO Department
214
Bayes-Klassifikation für normalverteilte Merkmale
• Diskriminanten-Funktionen
Gemäß der Bayes decision rule entscheiden wir uns für gegebenen Merkmalsvektor x ∈ IRp für die Klasse ωk mit der größten a posteriori
Wahrscheinlichkeit
α(x) = k = arg max P (ωj |x), 1 ≤ j ≤ p.
j
(224)
Die Enscheidungsfunktion α(x) läßt sich allgemeiner durch sogenannte
Diskriminanten-Funktionen gj (x) ausdrücken
α(x) = k = arg max gj (x).
j
Thomas Melzer, GEO Department
(225)
215
Die Entscheidungsgrenze zwischen den Klassen ωj und ωk ist durch
die Gleichung
gj (x) = gk (x)
(226)
gegeben. Berechnen sich die gj (x) als streng monoton wachsende Funktion der posteriors
gj (x) = f (P (ωj |x)), wobei
(227)
x > y ⇒ f (x) > f (y),
(228)
so ist die Enscheidungsregel Eq. 225 wiederum optimal, z.B. für
P (ωj )p(x|ωj )
gj (x) = P (ωj |x)p(x) =
p(x)
p(x)
= P (ωj )p(x|ωj ).
Thomas Melzer, GEO Department
(229)
216
Sind im speziellen die Mermale für alle Klassen normalverteilt, d.h.
~ j ) ∼ N (µ
(X|ω
µj , Σj ) mit pdf
p(x|ωj ) =
1
p 12
1
j 2
(2π) |Σ |
e
− 12 (x−µj )T Σ−1
j (x−µj )
,
(230)
so erhält man durch Logarithmieren der posteriors die folgenden (optimalen) Diskriminantenfunktionen
P (ωj )p(x|ωj )
gj (x) = ln
p(x)
1
= − (x − µ j )T Σj −1(x − µ j )
2
1
− ln |Σj | + ln P (ωj )
2
Thomas Melzer, GEO Department
(231)
217
p
− ln 2π − ln p(x).
2
(232)
Man bemerkt, dass die beiden Terme in der letzten Zeile
p
− ln 2π − ln p(x)
2
nicht von ωj abhängen und daher beim Vergleich der gj nicht
berücksichtigt werden müssen.
Die gj sind im Falle normalverteilter Merkmale somit quadratische Funktionen in x
1 2
1
gj (x) = − dj (x) + (− ln |Σj | + ln P (ωj )),
2
2
(233)
wobei d2j (x) die Mahalanobis-Distanz der Klasse ωj bezeichnet.
Thomas Melzer, GEO Department
218
Wir betrachten im folgenden zwei Spezialfälle, die zu linearen Diskrimininantenfunktionen bzw. Entscheidungsgrenzen führen.
Thomas Melzer, GEO Department
219
• Σj = Iσ
Die Mermale Xij = (Xi|ωj ) sind also innerhalb jeder Klasse ωj dekorreliert (Cov(Xij , Xkj ) = 0 für i 6= k) und somit unabhängig. Weiters
weisen alle Komponenten dieselbe Varianz auf, d.h. V ar(Xij ) = σ für
1 ≤ i ≤ p, 1 ≤ j ≤ c.
Die gj berechnen sich als affine Funktion der Mahalanobis-Distanz d2j (x)
1 1
1
T
gj (x) = (− ) 2 (x − µ j ) (x − µ j ) − ln |Σj | + ln P (ωj )
2 σ
2
1
1
= − 2 (xT x − 2µ
µTj x + µ Tj µ j ) − ln |Σj | + ln P (ωj )
2σ
2
(234)
(235)
Nachdem die Terme − 12 ln |Σj | und − 2σ1 2 xT x für alle Klassen gleich sind,
können diese weggelassen werden.
Thomas Melzer, GEO Department
220
Wir erhalten somit die äquivalente lineare Diskriminantenfunktion
gj (x) =
1 T
µ x
σ2 j
wjT x
+ − 2σ1 2 µ Tj µ j + ln P (ωj )
+
bj ,
(236)
welche für jede Klasse ωj eine Ebene im IRp+1 festlegt. Die Entscheidungsgrenzen gj (x) = gk (x) ergeben sich als Schnittmenge je zweier
solcher Ebenen, d.h. als als (p − 1)-dimensionale Hyperebenen im IRp
wT (x − b) = 0,
(237)
wobei
w = µj − µk
b =
Thomas Melzer, GEO Department
1
σ2
P (ωj )
(µ
µj + µ k ) −
ln
(µ
µj − µ k ).
2
kµ
µj − µ k k2 P (ωk )
(238)
(239)
221
0
4
2
2
-2
ω1
0.15
p(x|ωi)
0.4
ω2
1
0
0.1
ω2
ω1
2
0.05
1
0.3
ω1
0
0
0.2
-1
P(ω2)=.5
0.1
P(ω1)=.5
x
-2
0
R1
P(ω1)=.5
2
4
R2
P(ω2)=.5
R2
R1
-2
P(ω1)=.
-2
-2
-1
0
0
2
4
FIGURE 2.10. If the covariance matrices for two distributions are equal and proportional
Abbildungmatrix,
23: Entscheidungsgrenzen
für zwei
bzw. bivathen the distributions are spherical
in d univariate
dimensions, (links)
and the boundary
is a generalize
riate (rechts)
Normalverteilungen
mit
Σ1line
=separating
Σ2 = Iσ.
Entscheidungsd − 1 dimensions,
perpendicular
to the
the Die
means.
In these one-, two-, and thr
examples,
indicate
p(x|ωzur
the boundaries for thezwischen
case P (ω1 ) den
= P (ω
i ) and
2 ). In the three-dim
grenzen sind
linearweund
normal
Verbindungsstrecke
beiden
the grid plane separates R1 from R2 . From: Richard O. Duda, Peter E. Hart, and David G
Klassenmitteln.
Für gleiche priors verläuft die Entscheidungsgrenze durch
c 2001 by John Wiley & Sons, Inc.
Classification. Copyright (µ
µi + µ j )/2, ansonsten wird sie von der a priori wahrscheinlicheren Klasse
wegverschoben.
Thomas Melzer, GEO Department
222
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
• Σj = Σ
Alle Klassen haben dieselbe Kovarianzmatrix. Die Form der Verteilungen ist durch Hyperellipsoide im IRp gegeben (genauer: die iso-Flächen
konstanter pdf sind Hyperellipsoide).
Schreiben wir in Eq. 233 die Mahalonobis-Distanz d2j (x) aus und lassen
wir den von ωj unabhängigen Term − 21 |Σ| weg, so erhalten wir
1
gj (x) = − (x − µ j )T Σ−1(x − µ j ) + ln P (ωj ).
2
(240)
d2j (x) zerfällt in einen quadratischen und einen affinen Anteil
d2j (x) = xT Σ−1x − 2µ
µTj Σ−1x + µ Tj Σ−1µ j ,
(241)
wobei der quadratische Anteil wiederum nicht von ωj abhängt und somit
weggelassen werden kann.
Thomas Melzer, GEO Department
223
Die äquivalente lineare Diskriminantenfunktion ist - analog zum Fall
Σj = Iσ - durch
µ Tj Σ−1x + − 21 µ Tj Σ−1µ j + ln P (ωj )
gj (x) =
wjT x
+
bj ,
(242)
gegeben, die Entscheidungsgrenzen gj (x) = gk (x) durch
wT (x − b) = 0,
(243)
wobei
w = Σ−1(µ
µj − µ k )
b =
Thomas Melzer, GEO Department
1
1
P (ωj )
(µ
µj + µ k ) − 2
ln
(µ
µj − µ k ).
2
dk (µ
µj ) P (ωk )
(244)
(245)
224
ω2
0.2
ω1
ω2
0.2
-0.1
ω1
-0.1
0
0
P(ω2)=.5
R2
P(ω2)=.9
R1
P(ω1)=.5
-5
5
R2
0
P(ω1)=.1
0
-5
0
5
R1
0
5
-5
5
-5
Abbildung 24: Entscheidungsgrenzen
für zwei bivariate Normalverteilungen
10
7.5
mit Σ1 = Σ2. Die Entscheidungsgrenzen sind wieder linear, jedoch i.a. nicht
R
7.5
R
5
normal zur Verbindungsstrecke
den beiden
Klassenmitteln.
Für
P(ω )=.5 zwischen
gleiche priors verläuft die Entscheidungsgrenze durch (µ
µ
P(ωi +µ
)=.1µ5j )/2, ansonsten
2.5
ω
wird sie von der a priori wahrscheinlicheren
Klasse wegverschoben.
ω
R
-2.5
(Aus Duda, Hart,
Stork: Pattern Classification,
2nd
ed.)
0
R
1
1
1
1
1
1
2
ω
Thomas Melzer, GEO Department 2
P(ω2)=.5
2
225
ω2
-2.5
-2
-2
0
2
-2
0
2
4
0
P(ω2)=.9
0
2
-2
0
2
4
• Σi beliebig
Im allgemeinen Fall berechnen sich die Diskriminantenfunktionen gemäß
Eq. 233
1
1
gj (x) = − d2j (x) + (− ln |Σj | + ln P (ωj ))
2
2
(246)
Die Entscheidungsgrenzen sind durch sogenannte hyperquadrics gegeben, wobei die korrespondierenden Entscheidungsregionen nicht einfach
zusammenhängend sein müssen.
Thomas Melzer, GEO Department
226
Abbildung 25: Entscheidungsgrenzen für zwei bivariate Normalverteilungen
mit Σ1 6= Σ2. Die Entscheidungsgrenzen sind i.a. nicht linear, sondern durch
sogenannte hyperquadrics gegeben. Die Entscheidungsregionen müssen in
diesem Fall nicht einfach zusammenhängend sein.
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
227
FIGURE 2.14. Arbitrary Gaussian distributions lead to Bayes decision boundaries that
• Fehlerabschätzung
Die Berechnung der Fehlerrate (error rate) ist im allgemeinen äußerst
schwierig. Sind die Merkmale innerhalb jeder Klasse normalverteilt, so
kann zumindest für den Fall c = 2 eine obere Schranke für die Fehlerrate
(error bound) berechnet werden.
Die Fehlerrate wurde (für c = 2) wie folgt definiert
Z
+∞
P (error) =
P (error|x)p(x)dx,
(247)
−∞
wobei die bedingte Fehlerwahrscheinlichkeit P (error|x) im Punkt x unter
der Bayes rule durch min[P (ω1|x), P (ω2|x)] gegeben ist, d.h. Eq. 247
Thomas Melzer, GEO Department
228
ist äquivalent zu
Z
+∞
min[P (ω1|x), P (ω2|x)]p(x)dx.
P (error) =
(248)
−∞
Unter Verwendung der Ungleichung
min[a, b] ≤ aβ b1−β , a, b ≥ 0, 0 ≤ β ≤ 1
(249)
und Anwendung des Bayes Theorems erhalten wir folgende obere Schranke für die Fehlerrate
Z +∞
P (error) ≤ P (ω1)β P (ω2)1−β
p(ω1|x)β p(ω2|x)1−β dx. (250)
−∞
Man beachte, dass über den gesamten Merkmalsraum (nicht über separate Entscheidungsregionen) integriert wird. Das Integral in Eq. 250 läßt
Thomas Melzer, GEO Department
229
sich unter der Annahme innerhalb jeder Klasse normalverteilter Merkmale
wie folgt darstellen
Z
+∞
p(ω1|x)β p(ω2|x)1−β dx = e−k(β),
(251)
−∞
wobei
k(β) =
+
β(1 − β)
(µ
µ2 − µ 1)T (βΣ1 + (1 − β)Σ2)−1(µ
µ2 − µ 1)
2
1 |βΣ1 + (1 − β)Σ2|
ln
.
(252)
2
|Σ1|β |Σ2|1−β
Eine obere Schranke für die Fehlerrate erhält man durch (numerisches)
Minimieren von Eq. 251 (oder Maximieren von Eq. 252) bzg. β und
Einsetzen des gefundenen Wertes β ∗ in Eq. 250; diese Grenze wird auch
als Chernoff bound bezeichnet.
Thomas Melzer, GEO Department
230
Eine obere Schranke für die Chernoff bound ergibt sich durch die Wahl
β = 0.5; diese so genannte Bhattacharya bound ist zwar etwas ungenauer,
aber wesentlich einfacher (und schneller) zu berechnen.
Thomas Melzer, GEO Department
231
1
e-k(β)
0.8
0.6 Bhattacharyya bound
Chernoff bound
0.4
0.2
0
0
0.25
0.5
β ∗ 0.75
β
1
FIGURE 2.18. The Chernoff error bound is never looser than the Bhattacharyya bound.
∗
= 0.66,
and is slightly
For this 26:
example,
the Chernoff
bound happens
to be at
Abbildung
Typischer
Verlauf
von e−k(β)
. βDas
Minumum
ist tighter
durch β ∗
than the Bhattacharyya bound (β = 0.5). From: Richard O. Duda, Peter E. Hart, and
bezeichnet
und
liefert
Chernoff-bound.
Schranke,
cEine
Patterndie
Classification
. Copyright 2001etwas
by Johnschw
Wileyächere
& Sons, Inc.
David G.
Stork,
die Bhattacharyya-bound, erhält man durch die Wahl β = 0.5
Thomas
GEOHart,
Department
(Aus Melzer,
Duda,
Stork: Pattern Classification, 2nd ed.)
232
• Minimax Kriterium
Die optimale Bayes Entscheidungsgrenze hängt sowohl von den class
conditional pdfs p(x|ωi) als auch von den priors P (ωi) ab. Die für
gegebene priors P (ωi) gefundene Entscheidunsgrenze ist jedoch nicht
(mehr) optimal, falls die beim Training verwendeten priors nicht korrekt
waren bzw. diese sich nachträglich ändern. In diesem Fall wird die
tatsächliche Fehlerrate über der Bayes-Fehlerrate liegen.
Wir betrachten im folgenden wieder den Fall c = 2. Für feste Entscheidungsgrenzen (-Regionen) ist die Fehlerrate P (error) eine lineare
Funktion in P (ω1) und nimmt entweder für P (ω1) = 0 oder P (ω1) = 1
das Maximum an. Das Minimax-Kriterium wählt jene Entscheidungsgrenze, für welche dieses Maximum minimal wird und begrenzt somit
den “Schaden” (die Fehlerrate) im ungünstigsten (worst-case) Fall.
Thomas Melzer, GEO Department
233
P(error)
.4
.4
.3
.3
.2
.2
.1
.1
P(ω1)
0
.2
.4
.6
.8
1
FIGURE 2.4. The curve at the bottom shows the minimum (Bayes) error as a function of
prior probability P (ω1 ) in a two-category classification problem of fixed distributions.
For each value of the priors (e.g., P (ω1 ) = 0.25) there is a corresponding optimal decision boundary and associated Bayes error rate. For any (fixed) such boundary, if the
priors are then changed, the probability of error will change as a linear function of P (ω1 )
(shown by the dashed line). The maximum such error will occur at an extreme value of
the prior, here at P (ω1 ) = 1. To minimize the maximum of such error, we should design our decision boundary for the maximum Bayes error (here P (ω1 ) = 0.6), and thus
the error will not change as a function of prior, as shown by the solid red horizontal
line. From: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification.
c 2001 by John Wiley & Sons, Inc.
Copyright Abbildung 27: Die konvexe Kurve gibt den Verlauf des Bayes-Risk
(bzw. der Fehlerrate) als Funktion der priors wieder. Ändern sich die priors
nachträglich, so ändert sich das Risk ebenfalls, und zwar als lineare Funktion
von P (ω1). Für den Punkt links nimmt diese Funktion ihr Maximum (3.3)
für P (ω1) = 1 an. Wird die Entscheidungsgrenze nach dem Minimax-Kriterium gewählt (rechter Punkt), so wird der Anstieg der Geraden 0, d.h. das
Risk bleibt auch bei nachträglicher Änderung der priors konstant.
Thomas Melzer, GEO Department
234
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Das Minimax-Risk Rmm (welches den Mininmax-Fehler als Spezialfall
enthält) ist wie folgt definiert
Z
Rmm = λ22 + (λ12 − λ22)
p(x|ω2)dx
R1
Z
= λ11 + (λ21 − λ11)
p(x|ω1)dx.
(253)
R2
Die Entscheidungsgrenze ist also dadurch definiert, dass die Beiträge
der beiden Klassen zum Risk jeweils gleich groß sind. Man bemerkt,
dass das Minimax-Risk nicht von den priors abhängt (die Steigung der
Fehlergeraden ist 0).
Thomas Melzer, GEO Department
235
• Receiver Operating Characteristics - ROC
ROC haben ihren Ursprung in der Radartechnologie; sie wurden ursprünglich für den Zweck konzipiert, anhand eines gemessenen Signals
X (z.B. Spannung) einen interessierenden Impuls (Radarsignal) von Hintergrundrauschen zu unterscheiden.
Im Zusammenhang mit ROC wird meist die Annahme getroffen, dass
sowohl der interessierende Impuls als auch das Rauschen normalverteilt
mit gleicher Varianz sind. Bezeichne im folgenden ω1 das Rauschen und
ω2 den Impuls, und seien die Verteilungen durch N (µi, σ) gegeben, wobei
wir weiters µ2 > µ1 annehmen.
Thomas Melzer, GEO Department
236
Rauschen und Impuls werden umso leichter zu unterscheiden sein, je
größer die Differenz ihrer Mittelwerte reltativ zur Standardabweichung
ist; die (von der Entscheidungsgrenze x∗ unabhängige) Kenngröße
d0 =
|µ1 − µ2|
σ
(254)
wird auch discriminability genannt.
Bei der Klassifikation des Signals können vier verschiedene Ereignisse
eintreten
–
–
–
–
X
X
X
X
> x∗|ω2:
< x∗|ω2:
< x∗|ω1:
> x∗|ω1:
hit, Impuls wurde erkannt
miss, Impuls wurde nicht erkannt
correct recejction, Rauschen wurde erkannt
false alarm, Rauschen wurde als Impuls erkannt.
Thomas Melzer, GEO Department
237
hit
1
d'=3
p(x|ωi)
d'=2
ω2
ω1
d'=1
d'=0
σ
σ
µ1
x*
µ2
x
false alarm
1
FIGURE 2.19. During any instant when no external pulse is present,
probability
FIG U REthe
2.20.
In a receiver operating characteristic (RO C) curve, the abscissa is the
2
of false
alarm, P x
x x
); when the
external
density for an internal signal is normal, that is, p(x |ω1 ) ∼ N (µ1 , σprobability
1 , and the ordinate is the probability of hit,
P x threshold
x x
From the measured hit and false alarm rates (here corresponding to
signal is present, the density is p(x |ω2 ) ∼ N (µ2 , σ 2 ). Any decision
x2 ∗. will
x inabove
Fig. 2.19
and of
shown
as the red dot), we can deduce that d
3. From: Richard O .
x ∗ ) and
a
determine the probability of a hit (the pink area under the ω2 curve,
∗
D uda, Peter
E. H art,
and D avid G . Stork, Pattern ClassiÞcation. Copyright c 2001 by
false alarm (the black area under the ω1 curve, above x ). From: Richard
O. Duda,
Peter
& Sons,
c John
2001Wbyiley
John
WileyInc.
&
E. Hart, and David G. Stork, Pattern Classification. Copyright Sons, Inc.
Abbildung 28:
Links: Verteilung des Rauschens und des Impulses. Dargestellt sind außerdem
die Wahrscheinlichkeiten P (hit) (rosa) sowie P (f alse alarm) (schwarz).
Rechts: ROC-curves. Je größer d0, desto schneller konvergiert die Kurve (als
Funktion von P (f alse alarm) betrachtet) gegen 1.
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
238
Von Bedeutung ist hier insbesondere das Verhältnis von P (hit) zu
P (f alse alarm). Wünschenswert ist natürlich eine große hit-rate bei
gleichzeitig möglichst geringer Wahrscheinlichkeit für einen false alarm.
Dieser Zusammenhang wird i.a. durch sogenannte ROC-curves dargestellt. Jede ROC-curve ist durch die discriminability des Systems eindeutig festgelegt (je größer, desto schneller steigt die Kurve anfangs an).
Jeder Punkt auf einer solchen Kurve enstpricht einer Entscheidungsgrenze
x∗ .
Achtung: im allgemeinen Fall (keine Normalverteilungen oder ungleiche
Varianz) sind die ROC-curves nicht symmetrisch.
Thomas Melzer, GEO Department
239
Dichteschätzung
• Motivation
Die bisher diskutierten Klassifikatoren basieren auf dem Bayes-Kriterium.
Um die posteriors berechnen zu können, benötigt man für jede Klasse ωj
– die priors P (ωj )
– die class-conditional pdfs p(x|ωj ).
Die priors sind i.a. bekannt, bzw. kann der Klassifikator robust gegenüber
falschen priors gemacht werden (siehe Minimax-Kriterium).
Die Schätzung der class-conditional pdfs ist wesentlich schwieriger. Man
unterscheidet zwischen parametrischen und nicht parametrischen Methoden zur Dichteschätzung (density estimation).
Thomas Melzer, GEO Department
240
Parametrische Methoden sind anwendbar, wenn die pdf einer bekannten,
parametrischen Form folgt; so ist z.B. die Normalverteilung N (µ
µ, Σ)
durch die Parameter µ und Σ festgelegt, aus welchen sich die pdf im
Punkt x gemäß
p(x) =
1
p 12
1
− 2 (x−µ)
e
1
(2π) |Σ| 2
T
Σ−1 (x−µ)
,
(255)
berechnet. (Wir nehmen im folgenden an, dass wir die Dichtefunktion für
jede Klasse separat schätzen können und lassen daher die Klasenlabels
ωj weg).
Nichtparametrische Methoden machen hingegen keine Annahmen über
die Form der Verteilung.
Thomas Melzer, GEO Department
241
• Parametrische Methoden
Die gesuchte pdf p(x) ist duch einen Parametervektor Θ festgelegt; dies
wird auch durch die Schreibweise p(x|Θ) ausgedrückt.
Wir nehmen im folgenden an, dass p(x|Θ), x ∈ IRp anhand einer Stich~ 1, . . . , X
~ N ) vom Umfang N geschätzt werden soll, wobei sich die
probe (X
~ i gemäß p(x|Θ) i.i.d. verteilen. Die Realisation einer solchen Stichprobe
X
bezeichnen wir wieder mit X = (x1, . . . , xN ).
Thomas Melzer, GEO Department
242
Maximum likelihood-Methode (ML)
ML fasst die Stichprobe (genauer: deren Realisation) als Funktion des
gesuchten Parameters Θ (likelihood-Funktion) auf
l(Θ, X) = p(X|Θ) =
p
Y
p(xi|Θ),
(256)
i=1
~ i folgt.
wobei der letzte Schritt aus der Unabhängigkeit der X
Die ML-Methode wählt jenen Wert des Parameters Θ∗, welcher die
joint-likelihood Eq. 256 maximiert. Oft ist es einfacher, den Logarithmus
von Eq. 256 zu maximieren; dies führt zur log-likelihood-Funktion
ln l(Θ, X) =
N
X
ln p(xi|Θ).
(257)
i=1
Thomas Melzer, GEO Department
243
x
1
2
3
4
5
6
7
4
5
6
7
p(D|θ )
1.2 x 10-7
0.8 x 10-7
θˆ
0.4 x 10-7
1
2
3
θ
l(θ )
-20
Abbildung 29: Beispiel
zur ML-Parameterschätzung. Gesucht ist der Mittel-40
θˆ
wert Θ = µ einer N -60
(µ, σ 2)-Verteilung
(σ 2) bekannt.
θ
-80 und Kandidaten für die generierende
Oben: Trainingspunkte
pdf.
1
2
3
4
5
6
7
Unten: Verlauf der -100
joint-likelihood p(X|Θ). Diese wird mit zunehmendem
FIGURE 3.1. The top graph shows several training points in one dimension, known or
N enger.
assumed to be drawn from a Gaussian of a particular variance, but unknown mean.
(Aus Duda,
Stork:
Pattern
Classification,
2nd
Four of Hart,
the infinite
number
of candidate
source distributions
are ed.)
shown in dashed
lines.
TheDepartment
middle figure shows the likelihood p(D|θ ) as a function of the mean. If we
Thomas Melzer,
GEO
had a very large number of training points, this likelihood would be very narrow. The
value that maximizes the likelihood is marked θ̂ ; it also maximizes the logarithm of
the likelihood—that is, the log-likelihood l (θ ), shown at the bottom. Note that even
though they look similar, the likelihood p(D|θ ) is shown as a function of θ whereas the
244
Achtung: die likelihood-Funktion p(X|Θ) ist - als Funktion des Parameters Θ) - keine Dichtefunktion (pdf)!
Thomas Melzer, GEO Department
245
Beispiel: Schätzung des Mittels der Nomalverteilung mittels ML
~ i ∼ N (µ
Sei X
µ, Σ), wobei Σ als bekannt vorausgesetzt wird; wir haben
also Θ = µ . Logarithmieren wir Eq. 255 und lassen jene Terme weg,
welche nicht von µ abhängen, so erhalten wir
ln l(µ
µ, X) =
N
X
1
− (xi − µ )T Σ−1(xi − µ ).
2
i=1
(258)
Setzen wir den Gradienten von Eq. 258 bzg. µ (Θ) Null, so erhalten wir
die notwendige Bedingung
N
X
Σ−1(xi − µ ∗) = 0
(259)
i=1
Thomas Melzer, GEO Department
246
und somit die Schätzung
N
X
1
µ ∗ = Θ∗ = m̂ =
xi .
N i=1
(260)
Die ML-Methode liefert somit als Schätzer des Mittels das sample-mean.
Thomas Melzer, GEO Department
247
Bayesian Parameter Estimation
Im Unterschied zur ML-Methode wird hier der Parameter Θ als Zufallsvariable betrachtet, wobei das a priori vorhandene Wissen über die
Verteilung von Θ durch die Dichtefunktion p(Θ) repäsentiert wird.
Bayes-Learning führt die ursprüngliche pdf p(Θ) nach Beobachtung
von N Stichprobenwerten X in eine neue a posteriori pdf p(Θ|X) über,
welche das in den Trainingsbeispielen enthaltene Wissen reflektiert.
p(Θ) → p(Θ|X).
(261)
Die obige Abbildung berechnet sich gemäß der Bayes Rule
p(Θ|X) = R
p(X|Θ)
p(Θ),
p(X|Θ)p(Θ)dΘ
(262)
wobei p(X|Θ) die likelihood von Θ bzg. X bezeichnet (siehe ML !).
Thomas Melzer, GEO Department
248
Bezeichne Xi eine Stichprobe vom Umfang i; dann lässt sich Eq. 262
folgendermaßen rekursiv formulieren
p(Θ|Xi) = R
p(xi|Θ)
p(Θ|Xi−1),
p(xi|Θ)p(Θ|Xi−1)dΘ
(263)
wobei wir p(Θ) = p(Θ|X0) gesetzt und wiederum die i.i.d. Verteilung
der samples ausgenutzt haben (Faktorisierung der likelihood bzw. joint
pdf p(X|Θ)).
Jede weitere Beobachtung xi führt also zu einer neuen - i.a. schmaleren
- a posteriori pdf für den Parameter Θ; im Unterschied zur ML-Methode
erhält man also nicht eine Punktschätzung, sondern eine Schätzung der
Verteilung von Θ. p(Θ|X) ist, im Unterschied zu likelihood-Funktion
p(X|Θ), eine “korrekte” Dichtefunktion von Θ.
Thomas Melzer, GEO Department
249
Hinweis: die a priori pdf p(Θ) kann theoretisch eine andere parametrische Form als die conditional pdfs p(x|Θ) haben, was eine analytische
Auswertung von Eq. 262 jedoch erschwert.
Thomas Melzer, GEO Department
250
p(µ|x1,x2,...,xn)
p(µ|x1,x2,...,xn)
30
3
20
50
2
24
1
1
10
12
0
5
-2
1
-1
0
1
0
1
5
µ
-4
-2
0
-1
-2
1
2
4
-3
2
-4
FIGURE 3.2. Bayesian learning of the mean of normal distributions in one and two dimensions. The posterior
distribution estimates are labeled by the number of training samples used in the estimation. From: Richard O.
c 2001 by John Wiley & Sons, Inc.
Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright Abbildung 30: Beispiel zum Bayes-Learning. Dargestellt ist der Verlauf
der a posteriori pdf p(Θ|Xi) für das Mittel einer univariaten (links) und
bivariaten (rechts) Normalverteilung. Die Verteilung des Parameters wird
durch Hinzunahme neuerTrainingsbeispiele xi+1 enger.
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
251
Dichteschätzung im Punkt x
Ausgehend von der a posteriori Dichteschätzung des Parameters p(Θ|X)
erhält man eine Schätzung der gesuchten Dichte im Punkt x mit
Z
p(x|X) =
p(x|Θ)p(Θ|X)dΘ
(264)
(ohne Beweis).
Gemäß Eq.264 berechnet sich die Dichte im Punkt x als gewichtetes
Integral von p(x|Θ) über alle möglichen Werte des Parameters, wobei die
Gewichtungsfunktion durch die a posteriori pdf des Parameters gegeben
ist.
Im Idealfall besitzt die Gewichtungsfunktion p(Θ|X) einen einzigen,
hohen “peak” an der Stelle des wahren Parameterwerts Θ∗; in diesem
Thomas Melzer, GEO Department
252
Fall liefert Eq.264 ebenfalls eine gute Näherung des wahren Wertes der
Dichtefunktion p(x|Θ∗).
Anmerkung: Man bemerkt, dass in der linken Seite von Eq. 264 der
Parameter Θ nicht mehr explizit vorkommt. Dieses “Wegintegrieren”
bzw. “Wegmitteln” von Variablen (to marginalize) wird auch häufig im
Zusammenhang mit fehlenden Trainingsdaten (missing features) eingesetzt.
Thomas Melzer, GEO Department
253
• Nichtparametrische Methoden zur Dichteschätzung
Die besprochenen parametrischen Verfahren setzen voraus, dass die Form
der gesuchten Dichtefunktion bekannt ist. Weiters sind parametrische
Verfahren zur Schätzung multimodaler Dichtefunktionen (mit mehreren
Maxima) i.a. nicht geeignet, d.h. ihre Anwendbarkeit ist auf eine relativ kleine Klasse von Verteilungen bzw. Dichtefunktionen beschränkt
(narrowness). Nichtparametrische Verfahren machen hingegen keine Annahme über die Form der Verteilung.
Gegeben seien wieder N Stichtprobenwerte xi, welche als Realisitionen
~i
von gemäß der gesuchten pdf p(x) i.i.d. verteilten Zufallsvariablen X
erhalten wurden.
Thomas Melzer, GEO Department
254
Sei P die Wahrscheinlichkeit, dass eine Beobachtung in die Region R
des Merkmalsraums fällt:
Z
P = p(x)dx.
(265)
Fallen k der N Beobachtungen xi in R, so lässt sich P durch den Anteil
k
P '
N
(266)
schätzen.
~ i ∈ R als Zufallsvariable
Fasst man die Anzahl k der Beobachtungen X
auf, so folgt diese einer Binomialverteilung k ∼ Bi(N, P ) mit
E[k] = N P
Thomas Melzer, GEO Department
V ar(k) = N P (1 − P ).
(267)
255
Für die transformierte Variable k/N (den Anteil) ergibt sich somit
E[k/N ] = P
V ar(k/N ) = P (1 − P )/N,
(268)
d.h. der Anteil ist ein asymptotisch konsistenter Schätzer der Wahrscheinlichkeit P .
Nehmen wir weiters an, dass die pdf p(x) innerhalb von R annähernd
konstant ist, so erhalten wir
Z
P =
p(x0)dx0 ' V p(x),
(269)
wobei x ∈ R und V das von R umschlossene Volumen bezeichnet.
Thomas Melzer, GEO Department
256
Fassen wir die bisherigen Ergebnisse zusammen, so erhalten wir folgenenden Schätzer der Dichtefunktion
p(x) '
P
k/N
'
.
V
V
(270)
Ist V (bwz. R) zu groß, so gehen feine, lokale Strukturen innerhalb von
R verloren (da Eq. 270 den Mittelwert von p(x) innerhalb von R schätzt:
oversmoothing ).
Aus praktischer Sicht kann V (R) jedoch nicht beliebig klein gemacht
werden, da - für endliches N - die Wahrscheinlichkeit, dass eine Beobachtung in R fällt, gegen 0 geht.
Dieses Problem kann auf zwei verschiedene Arten adressiert werden:
√
– Setze V = VN in Abhängigkeit von N , z.B. VN =√1/ N (Parzen)
– Setze k = kN in Abhängigkeit von N , z.B. kN = N (k-NN).
Thomas Melzer, GEO Department
257
Parzen Windows
Nehmen wir zunächst an, dass die Regionen R durch p-dimensionale
Hyperwürfel mit Seitenlängen h und Volumen V = hp gegeben sind. Die
sogenannte Fensterfunktion (window function)
ϕ(w) =
1 |wi| ≤ 1/2, 1 ≤ i ≤ p
0
sonst
(271)
legt einen Hyperwürfel mit Seitenlängen 1 und Mittelpunkt im Ursprung
fest. Allgemein ist ein Hyperwürfel mit Seitenlängen (window width) h
und Mittelpunkt x durch
w−x
ϕ
h
(272)
gegeben.
Thomas Melzer, GEO Department
258
Die Anzahl der Beobachtungen xi, welche in einen solchen Hyperwürfel
mit Mittelpunkt x fallen, ist demnach
N
X
xi − x
k=
ϕ
.
h
i=1
(273)
Setzen wir das so erhaltene k in Eq. 270 ein, so erhalten wir schließlich
N
N
X
1
1
x − xi
1 X
p(x) ' p̃(x) =
ϕ
=
δ(x − xi)
N i=1 V
h
N i=1
(274)
R
Da δ(x − xi) ≥ 0 und δ(x − xi)dx = 1, besitzen die Summanden
- und somit auch ihr arithmetisches Mittel - p̃(x) - alle erforderlichen
Eigenschaften einer Dichtefunktion.
Thomas Melzer, GEO Department
259
Der obige Ansatz lässt sich leicht auf andere (symmetrische) Dichtefunktionen verallgemeinern; eine populäre Wahl ist die pdf der Normalverteilung N (xi, diag(h2)).
In jedem Fall erhält man die Schätzung p̃(x) als arithmetisches Mittel
von N pdfs. Dies ist ein Spezialfall einer sogenannten mixture density
(im Falle einer Normalverteilung auch mixture of Gaussians genannt)
N
X
i=1
πiδ(x − xi),
wobei
N
X
πi = 1.
(275)
i=1
Achtung: die obige Berechnungsvorschrift liefert nicht die pdf der Verteilung der Summe von N Zufallsvariablen; letztere ist nach dem zentralen
Grenzwertsatz asymptotisch normal, während mit mixture densities eine
breite Palette verschiedener, auch multi-modaler, Verteilungen modelliert
werden kann.
Thomas Melzer, GEO Department
260
h1 = 1
h1 = 0.5
h1 = 0.1
n=1
-2
0
2
-2
0
2
-2
0
2
-2
0
2
-2
0
2
-2
0
2
-2
0
2
-2
0
2
-2
0
2
-2
0
2
0
2
0
2
n = 10
n = 100
n =∞
-2
-2
FIGURE 4.5. Parzen-window estimates of a univariate normal density using different
window widths and numbers of samples. The vertical axes have been scaled to best
show the structure in each graph. Note particularly that the n = ∞ estimates are the
same (and match the true density function), regardless of window width. From: Richard
c 2001
O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright by John Wiley & Sons, Inc.
Abbildung 31: Schätzung einer univariaten Normalverteilung mit Parzen-Windows. Horizontale Achse: Fensterbreite h. Vertikale Achse: Anzahl
der Trainingsbeispiele N .
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
261
h1=1
h1=0.5
1
h1=0.2
1
1
n=1
0
1
2
3
4
1
0
1
2
3
4
1
0
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
n=16
0
1
2
3
4
1
0
1
2
3
4
1
0
1
n=256
0
1
2
3
4
1
0
1
2
3
4
1
0
1
n=∞
0
1
2
3
4
0
1
2
3
4
0
FIGURE 4.7. Parzen-window estimates of a bimodal distribution using different window
widths and numbers of samples. Note particularly that the n = ∞ estimates are the same
(and match the true distribution), regardless of window width. From: Richard O. Duda,
c 2001 by John
Peter E. Hart, and David G. Stork, Pattern Classification. Copyright Wiley & Sons, Inc.
Abbildung 32: Schätzung einer bimodalen Verteilung mit Parzen-Windows.
Horizontale Achse: Fensterbreite h. Vertikale Achse: Anzahl der Trainingsbeispiele N .
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
262
Konvergenz des Parzen-Window-Estimators
Der Schätzer p̃(x) ist (wie auch der Mittelwertschätzer) als Funktion von
N iid verteilten Zufallsvariablen selbst eine Zufallsvariable. Insbesondere
hängt der konkrete Wert der Schätzung im Punkt x von der gewählten
Stichprobe ab.
Es kann, unter einigen milden Annahmen, gezeigt werden, dass der
Schätzer p̃(x) der pdf p(x) im Punkt x asymptotisch konsistent ist, d.h.
lim E[p̃(x)] = p(x)
(276)
lim V ar(p̃(x)) = 0,
(277)
N →∞
N →∞
wobei die Erwartung und Varianz bzg. aller möglichen Realisationen des
Trainingssets zu verstehen sind.
Thomas Melzer, GEO Department
263
Wir betrachten im folgenden den Erwartungswert von p̃(x). Es gilt
E[p̃(x)] =
1
N
N
X
"
1
E
ϕ
V
i=1
~i
x−X
h
!#
N Z
0
X
1
1
x−x
=
ϕ
p(x0)dx0
N i=1 V
h
Z
=
δ(x − x0)p(x0)dx0
(278)
Der Ausdruck in der letzten Zeile entspricht der Faltung (convolution)
der wahren Dichtefunktion p(x0) mit der Funktion δ(x. Für h → 0 geht
δ(x − x0) in einen Dirac-Stoß an der Stelle x über, und Eq. 278 liefert
somit den wahren Wert p(x) zurück. Für größer werdendes h erhält
man hingegen eine verschmierte (blurred) Version der ursprünglichen pdf
Thomas Melzer, GEO Department
264
(Tiefpass-Filterung).
Thomas Melzer, GEO Department
265
Klassifikation
Schätzt man die class conditional pdfs separat für alle Klassen, so können
die Schätzungen p̃(x|ωj ) zur Berechnung der a posteriori probabilities
herangezogen werden
p̃(x|ωj )P (ωj )
P
P (ωj |x) ' c
.
p̃(x|ω
)P
(ω
)
i
i
i=1
(279)
Das Ergebnis (und die Fehlerrate) wird klarerweise von der Wahl des
Parameters h abhängen; der Wert von h kann in der Praxis durch
cross-validation ermittelt werden.
Thomas Melzer, GEO Department
266
x2
x2
x1
x1
FIGURE 4.8. The decision boundaries in a two-dimensional Parzen-window dichotomizer depend on the window width h. At the left a small h leads to boundaries
that are more complicated than for large h on same data set, shown at the right. Apparently, for these data a small h would be appropriate for the upper region, while a large
h would be appropriate for the lower region; no single window width is ideal overall. From: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification.
c 2001 by John Wiley & Sons, Inc.
Copyright Abbildung 33: Entscheidungsregionen für ein binäres Klassifikationsproblem
basierend auf Parzen-Windows. Die Fensterbreite h ist links kleiner als
rechts.
(Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.)
Thomas Melzer, GEO Department
267
K-Nearest Neighbor Klassifikator (K-NN)
• Einführung
K-NN ist ein klassischer Vertreter sogenannter nicht-parametrischer Verfahren: diese treffen keine Annahme über die parametrische Form der
zugrundeliegenden Verteilungen (z.B. Normalverteilung) bzw. gehen nicht
von einem (spezifischen) Modell der interessierenden Funktion aus.
• Der NN Algorithmus
Sei ST r = {X, y} ein Trainingsset, wobei X = (x1, . . . , xN ) ∈ IRd×N
die Spaltenmatrix (nicht homogenisierter!) Merkmalsvektoren und y =
(y1, . . . , yN ) ∈ IR1×N den Zeilenvektor korrespondierender KlassenLabels bezeichne (yi ∈ {1, . . . , c}).
Thomas Melzer, GEO Department
268
Der NN-1 (kurz NN) Algorithmus weist einem neuen Merkmalsvektor x
einfach das Klassen-Label des ähnlichsten Trainingsvektors zu:
α(x) = ys, wobei
s = arg min kx − xik, 1 ≤ i ≤ N
i
(280)
(281)
Hierdurch wird eine sogenannte Voronoi-Tessellation des Merkmalsraums
induziert; das Einzugsgebiet des i-ten Trainingsvektors
Pi = {x | kx − xik ≤ kx − xj k, 1 ≤ j ≤ N }
(282)
wird auch als Voronoi-Polyeder (eng: polyhedron) von xi bezeichnet.
Thomas Melzer, GEO Department
269
x3
x2
x1
x1
FIGURE 4.13. In two dimensions,
the nearest-neighbor algorithm leads to a partition2
Abbildung 34: Voronoi-Tessellation
desintoIRVoronoi
für cells,
ein each
binäres
ing of the input space
labeledKlassifikationsby the category of the training
point it contains.der
In three
dimensions,
the cellsunterlegt
are three-dimensional,
and the decision
problem. Die Entscheidungsregion
Klasse
ω1 (grau
dargestellt)
boundary resembles the surface of a crystal. From: Richard O. Duda, Peter E. Hart, and
ist die Vereinigung allerDavid
Voronoi-Polyehedra
der . zur
Klasse
gehbyörigen
Traic 2001
Copyright
John Wiley
& Sons, Inc.
G. Stork, Pattern Classification
ningsvektoren (rot dargestellt).
Thomas Melzer, GEO Department
270
Der K-NN Algorithmus
Hier werden für einen zu klassifizierenden Merkmalsvektor x zunächst die
K ähnlichsten Trainingsvektoren
bestimmt. Gehören kj dieser Vektoren
Pc
zur Klasse ωj (wobei j=1 kj = K gelten muss), so wird für die Klasse
mit dem größten Anteil an “Repräsentanten” entschieden:
α(x) = i, wobei
i = arg max kj , 1 ≤ i ≤ c.
j
Thomas Melzer, GEO Department
(283)
(284)
271
• Eigenschaften des K-NN Klassifikators
K-NN erfordert kein Training im eigentlichen Sinn, sondern speichert einfach das gesamte Trainingsset als “Referenz-Menge” ab. Das Verfahren
abstrahiert also nicht über das Trainingsset (im Sinne einer kompakten
Repräsentation des zugrundeliegenden Datengenerators), sondern lernt
es auswendig (rote learning ). Sowohl Speicher- als auch Laufzeitaufwand
wachsen linear mit der Größe des Trainingssets (O(N )).
Es lässt sich zeigen, dass für K → ∞(⇒ N → ∞) die Fehlerrate des
K-NN Verfahrens gegen die Bayes-Fehlerrate konvergiert. Die Fehlerrate
des 1-NN Klassifikators ist für N → ∞ maximal doppelt so groß wie die
Bayes-Fehlerrate. Diese Ergebnisse sind allerdings von geringer praktischer Bedeutung, da sie ein unendlich großes Trainingsset voraussetzen.
Thomas Melzer, GEO Department
272
Fisher’s Linear Discriminant (FLD)
• Motivation
Fisher’s linear discriminant ist, wie die PCA, ein weiterer wichtiger
Vertreter der Klasse der linearen, dimensionalitäts-reduzierenden Merkmalsextraktoren.
Im Unterschied zur PCA, welche die Varianz entlang der ProjektionsRichtungen w maximiert - und somit den erwarteten Rekonstruktionsfehler minimiert -, versucht die FLD, eine Projektionsrichtung w zu finden,
welche zwei Klassen möglichst möglichst gut separiert, oder, anders formuliert, die Überschneidung (overlap) zwischen den klassen-bedingten
Verteilungen minimiert. Dieser Sachverhalt ist in Fig. 35 dargestellt.
Thomas Melzer, GEO Department
273
C1
x2
C2
x1
Abbildung 35: Dargestellt sind die Mittelwerte und die iso-Linien konstanter
pdf der Merkmalsverteilungen für zwei Klassen, wobei die gezeigten Ellipsoide den Großteil der Masse der Verteilungen abdecken. Die PCA würde als
wichtigste Richtung die Achse x1 liefern, da diese die projizierte Gesamtvarianz maximiert. Allerdings überlappen sich Projektionen der Verteilungen
auf x1 stark. Die auf x2 projizierten Mekmalsverteilungen überlappen sich
hingegen nicht.
Thomas Melzer, GEO Department
274
FLD bezieht also die bekannten Klassenzugehörigkeiten der Merkmalsvektoren in die Bestimmung der Projektionsrichtungen mit ein, während
PCA ausschließlich die Verteilung der Merkmalsvektoren, nicht jedoch
deren Klassenzugehörigkeit berücksichtigt.
Thomas Melzer, GEO Department
275
• Das Fisher-Kriterium
Sei X ∈ IRp×N ein Trainingsset vom Umfang N , wobei N1 Beispiele zur
Klasse ω1 und N2 Beispiele zur Klasse ω2 gehören (N1 + N2 = N ). Die
klassen-spezifischen empirischen Mittelwerte sind durch
1 X
m̂1 =
xi
N1 x ∈ω
(285)
1 X
m̂2 =
xi
N2 x ∈ω
(286)
i
i
1
2
gegeben.
FLD versucht eine Projektionsrichtung w zu finden, sodaß die Distanz
der projizierten Mitttelwerte (der between-class scatter )
(wT (m̂1 − m̂2))2 = wT (m̂1 − m̂2)(m̂1 − m̂2)T w
Thomas Melzer, GEO Department
(287)
276
möglich groß wird. Dies allein garantiert jedoch noch nicht die
bestmögliche Trennung der beiden Klassen (siehe Fig. 35): gleichzeitig sollte auch die Varianz der projizierten Merkmale möglichst klein
werden. Die empirische, “gepoolte” Varianz des gesamten Trainingssets
(within-class scatter ) ist durch
1
N1 − 1 + N2 − 1
(N1 − 1)ŝ21 + (N2 − 1)ŝ22
=
N1 − 1 + N2 − 1
X
X
T
2
(
(w (xi − m̂1)) +
(wT (xi − m̂2))2) (288)
xi ∈ω1
xi ∈ω2
gegeben.
Thomas Melzer, GEO Department
277
Setzen wir
Sb = (m̂1 − m̂2)(m̂1 − m̂2)T
(289)
X
X
T
Sw =
(xi − m̂1)(xi − m̂1) +
(xi − m̂2)(xi − m̂2(290)
)T
xi ∈ω1
xi ∈ω2
(between-set/within-set scatter matrices), Sb, Sw ∈ IRp×p, so erhalten
wir schließlich durch Zusammenfassen der beiden obigen Forderungen
das Fisher-Kriterium
wT Sbw
JF LD (w) = T
→ max .
w Sw w
(291)
(Der Skalierungsfaktor 1/(N1 +N2 −2) hat keinen Einfluss auf die Lösung
und wird deshalb in der Definition von Sw weggelassen; vergleiche SSE
vs. MSE).
Thomas Melzer, GEO Department
278
Eq. 291 ist ein generalisierter Rayleigh-Quotient, dessen Extremstellen/werte ident mit jenen des korrespondierenden generalisierten Eigenwertproblems
Sbw = λSw w
(292)
sind, welches sich im Falle der Invertierbarkeit von Sw auf das StandardEigenwertproblem
S−1
w Sb w = λw
(293)
reduzieren lässt. Man bemerkt weiters, dass
Sbw = (m̂1 − m̂2)((m̂1 − m̂2)T w) ∝ (m̂1 − m̂2).
Thomas Melzer, GEO Department
(294)
279
Nachdem wir nur an der Richtung, nicht jedoch an der Länge von w interessiert sind, erhalten wir schließlich die (bis auf einen Skalierungsfaktor
eindeutige) Lösung
S−1
w (m̂1 − m̂2 ) ∝ w.
Thomas Melzer, GEO Department
(295)
280
• Anmerkungen
– Nachdem im Fall zweier Klassen Sb Rang 1 hat, gibt es genau
einen Lösungsvektor w. Allgemein liefert FLD für c Klassen (c −
1) Projektionsrichtungen, welche einen c − 1-dimensionalen linearen
Unterraum des Merkmalsraums IRp aufspannen.
– Wir haben oben vorausgesetzt, dass Sw invertierbar ist; diese Annahme gilt jedoch insbesondere für hochdimensionale Daten (p >> N )
nicht. Ein Lösungsansatz besteht in diesem Fall darin, zunächst die
Dimensionalität der Merkmale mittels PCA auf N − c zu reduzieren
(Fisherfaces), sodass Sw vollen Rang hat.
– FLD ist im strengen Sinn kein Klassifikator, da keine Vorschrift für die
Zuordnung von Merkmalen zu Klassen, sondern lediglich eine niedrigdimensionale, für Klassifikationszwecke gut geeigntete Repräsentation
berechnet wird. Insbesondere liefert FLD keine Entscheidungsgrenze.
Thomas Melzer, GEO Department
281
• Beziehung zwischen FLD und Linearer Regression
Wie im Abschnitt über Regression besprochen, lässt sich jedes Klassifikationsproblem auch als Regressionsproblem auffassen, indem wir die
Klassen-Labels des Trainingssets als Target-Werte interpretieren (jedoch müssen Regressionsverfahren nicht immer zu zufriedenstellenden
Lösungen - im Sinne einer optimalen Klassifikations-Fehlerrate - führen).
Sei {X, y}, X ∈ IRp×N , y ∈ IR1×N ein Trainingsset, wobei yi, wie üblich,
die Klassenzugehörigkeit des i-ten Merkmalsvektors xi bezeichne. Die
Summe der quadratischen Abweichungen zwischen vorhergesagten und
tatsächlichen Klassen-Labels auf dem Trainingsset ist durch Eq. 184
(y − wT X)(y − wT X)T
(296)
gegeben. Die optimale Lösung w - bezüglich des least squares-Kriteriums
- kann, wie wir wissen, z.B. mittels der Pseudo-Inversen gefunden werden.
Thomas Melzer, GEO Department
282
Kodieren wir nun die Klassenlabels gemäß
yi = N/N1, für xi ∈ ω1, sowie
(297)
yi = −N/N2, für xi ∈ ω2,
(298)
so ist die mittels der Pseudo-Inversen berechnete Lösung (Eq. 192) wpi
ident (bis auf einen Skalierungsfaktor) mit der durch die FLD gegebenen
Lösung Eq. 295 wf ld, d.h. wpi ∝ wf ld (ohne Beweis).
Verwenden wir außerdem homogene Koordinaten, so erhalten wir
zusätzlich die Entscheidungsgrenze als bias −w0, d.h., als das Negative der homogene Komponente w0 des Gewichtsvektors awpi:
w0 = −nawT m̂ = −
p
X
wim̂i,
(299)
i=1
Thomas Melzer, GEO Department
283
wobei
1
m̂ = (N1m̂1 + N2m̂2)
N
das Gesamt-Mittel bezeichnet und die Superskripte a und
(augmented) bzw. nicht homogene Vektoren bezeichnen.
(300)
na
homogene
Wir entscheiden uns somit für Klasse ω1, falls
na
wT x + w0 =
na
wT (x − m̂) = awT x ≥ 0,
(301)
und für ω2 andrenfalls.
Thomas Melzer, GEO Department
284