Statistische Mustererkennung WS 2016 V 1.19 Thomas Melzer [email protected] 1 Sollten Sie im Skriptum einen Fehler entdecken, so bitte ich Sie, mir dies an obige e-mail Adresse mitzuteilen. An dieser Stelle vielen Dank an alle Studenten, die durch ihre Rückmeldungen dazu beigetragen haben, die Qualität dieses Skriptums zu verbessern (im speziellen Andreas Roncat). 2 Change Log • 2016-10-03, 1.1: Kapitel “Test- vs. Trainingsfehler“ hinzugefügt (nach kNN). • 2016-10-10, 1.11: ”Kapitel Erwartungswerte”: Fehler in der Darstellung der stetigen Verteilungsfunktion als Spezialfall der Indikatorfunktion wurde korrigiert. • 2016-10-11, 1.12: ”Kapitel Test- vs. Trainingsfehler”: der Abschnitt über cross validation wurde überarbeitet. • 2016-10-24, 1.13: ”Kapitel Stetige Verteilungen II”, Summe zweier stetiger Zufallsvariablen: Diskussion der Chi-Quadrat Verteilung wurde eingefügt. 3 • 2016-10-24, 1.13: ”Kapitel Erwartungswerte”: Abschnitt über den Zentralen Grenzwertsatz wurde hierher verschoben (war vorher im Kapitel Schätztheorie). • 2016-10-24, 1.13: ”Kapitel Parameterschätzung”, Schätzung der Populationsvarianz: Diskussion der Form der Verteilung des Varianzschätzers wurde eingefügt. • 2016-11-11, 1.14: ”Kapitel Schätztheorie”: Unterkapitel “Einführende Betrachtungen zum Thema Konfidenzintervalle“ eingefügt. • 2016-11-15, 1.15: ”Kapitel Schätztheorie”, Unterkapitel “Einführende Betrachtungen zum Thema Konfidenzintervalle“ : 5 und 95 Perzentil wurden teilweise fälschlich als 2.5 und 97.5 Perzentil bezeichnet. Korrigiert. 4 • 2016-11-28, 1.16: ”Kapitel Eigenschaften der Kovarianz-Matrix”, Unterkapitel “Zusammenhang zwischen univariater linearer Regression und Korrelation” wurde eingefügt. • 2016-12-05, 1.17: ”Kapitel Hauptachsentransformationëinige Umstellungen und Ergänzungen, • 2016-12-016, 1.18: ”Kapitel Hauptachsentransformation”, ”Kapitel Bayes-Klassifizierung für normalverteilte Merkmale”: einige Korrekturen und Ergänzungen. • 2017-01-09: ”Kapitel Dichteschätzung”: Anpassung der Notatation. 5 Literaturhinweise • C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006 Gute und ausführliche Einführung in den modernen, “bayesianisch” geprägten Zugang zur Mustererkennung, einschließlich Parameterschätzung, Klassifizierung und Regression. • T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, Springer, 2001 Ein Klassiker. Sehr gute und ausführliche Behandlung linearer und kernelbasierter Verfahren. Mittlerweile ist eine zweite Auflage verfügbar. Die elektronische Version ist kostenlos erhältlich. Thomas Melzer, GEO Department 6 • E.T. Jaynes. Probability Theory. The Logic of Science., Cambridge, 2003 Herleitung und Rechtfertigung der Wahrscheinlichkeitstheorie als Erweiterung der Aussagen-Logik; eine mit Leidenschaft und ohne Selbstzweifel verfaßte Kampfschrift für den Bayesianismus. Äußerst empfehlenswert, setzt jedoch gute Mathematik-Grundkenntnisse voraus. Thomas Melzer, GEO Department 7 • Gerd Gigerenzer. Calculated Risks, 2002, Übersetzung: Das Einmaleins der Skepsis, BTV, 2004. Über die Zahlenblindheit von Entscheidungsträgern, deren Ursachen, und was man dagegen tun kann. Empfehlenswert für alle, die anhand von Statistiken Entscheidungen treffen müssen (oder davon betroffen sind). Grundlegendes Wissen über Entscheidungstheorie (Bayes Theorem ...) ist hilfreich, jedoch nicht Voraussetzung. • Der Hund, der Eier legt von Dubben und Beck-Bornholdt und Lügen mit Zahlen von Bosbach und Korff sind zwei weitere äußerst empfehlenswerte populärwissenschaftliche Titel, die sich mit fehlerhaftem Gebrauch bzw. dem Mißbrauch der Statistik in der Praxis auseinandersetzten, ersterer eher im wissenschaftlichen, zweiterer eher im politischen Bereich. Thomas Melzer, GEO Department 8 Was ist Statistische Mustererkennung (SME)? • Aufgabe: Klassifizierung von Mustern (patterns) anhand quantitativer Merkmale (features). • Muster: “the opposite of chaos” (Watanabe). Muster folgen gewissen Gesetzmäßigkeiten, haben Struktur. Beispiele: Gesichter, Buchstaben, Herztätigkeit eines Patienten, Bewegungslinien (Trajektorien) von Passanten. In der Praxis wird nicht auf den interessierenden Mustern selbst, sondern auf Messungen dieser Muster gearbeitet (Bild eines Gesichts, eingescannter Buchstabe, EKG, Ausgabe eines Personentrackers): Welt (distales Muster) → Messung → Computersystem (proximales Muster). Thomas Melzer, GEO Department 9 • Muster werden durch Merkmale beschrieben. Personen könnten z.B. durch Merkmale wie Alter und Körpergröße beschrieben werden. Der konkrete Wert, den ein Merkmal für ein gegebenes Muster annimmt, wird als Merkmalsausprägung (realisation) bezeichnet (Claudia ist 17 Jahre alt und 1,60m groß). • In der SME werden Merkmale als stetige oder diskrete Zufallsvariablen aufgefasst, welche in Merkmalsvektoren (feature vectors) zusammengefasst werden. Einer konkreten Merkmalsausprägung entspricht somit eine Realisation (Messung) des korrespondierenden Merkmalsvektors (z.B. x = (17, 1.60)T ). • Die interessierenden Klassen werden als Grundgesamtheiten (Populationen) im statistischen Sinn aufgefaßt; diese können endlich (Buchstaben von ’A’-’Z’) oder (praktisch) unendlich sein (gesunde vs. herzkranke Patienten). Thomas Melzer, GEO Department 10 • Die in der SME verwendeten Merkmale haben i.a. kardinales Skalenniveau (quantitative Daten), d.h. es können Aussagen über die 1. relative Häufigkeit (es gibt mehr Männer als Frauen - Nominalskala) 2. relative Ordnung (Claudia ist jünger als Paul - Ordinalskala) 3. Ähnlichkeit (Claudia ist 3 Monate jünger als Paul - Intervallskala) sowie möglicherweise 4. das Verhältnis (Egon ist doppelt so alt wie Claudia - Verhältnisskala, absoluter Nullpunkt erforderlich) von Merkmalsausprägungen gemacht werden. Die Stärke der Skala nimmt in obiger Liste nach unten zu, d.h. jedes Skalennivau i impliziert alle Skalenniveaus < i. Von einer Kardinal-Skala spricht man, wenn die Merkmale zumindest auf Intervall-Skalen-Niveau vorliegen, also Abstände (Metriken) sinnvoll interpretiert werden können. Dies ist im technisch-naturwissenschaftlichen Bereich typischerweise der Fall. Thomas Melzer, GEO Department 11 • Merkmalsextraktion (feature extraction) Ein Merkmal kann als Abbildung ϕ aus dem Muster-Raum (pattern space) P in den Merkmalsraum (feature space) F verstanden werden: ϕ:P →F (1) Die Merkmalsausprägungen sind dann gerade die Elemente von F , welche durch Merkmalsberechnung (feature computation) als Bilder der Elemente von P erhalten werden. Der Begriff der Merkmalsextraktion (feature extraction) wird in der Literatur nicht einheitlich verwendet. Im engeren Sinn versteht man darunter die Auswahl oder Bestimmung der Abbildungsfunktion ϕ . Im weiteren Sinn wird unter Merkmalsextraktion auch die Merkmalsberechnung verstanden (insbesondere im Bereich Bildverarbeitung/Computer Vision). Thomas Melzer, GEO Department 12 • Bei der Merkmalsselektion (feature selection) geht es - im Unterschied zur Merkmalsextraktion - darum, aus einer gegebenen Menge von Merkmalen {ϕ1, . . . , ϕN }, eine kleine, bzg. der gegebenen Klassifizierungssaufgabe maximal “informative” Untermenge auszuwählen. Thomas Melzer, GEO Department 13 Verwandte Gebiete • Nichtmetrische Methoden der Mustererkennung: – Entscheidungsbäume (decision trees): für nominale, qualitative Attribute (z.B. Farbe, Geschmack). – Strukturelle und Syntaktische Mustererkennung: Muster werden hierarchisch durch Regelanwendung aus sog. Primitiven erzeugt. • Statistik: Die SME bedient sich statistischer Methoden, beschränkt sich jedoch nicht auf diese. Implementierbarkeit, Performance und numerische Stabilität der Algorithmen spielen in der SME eine wichtige Rolle. Thomas Melzer, GEO Department 14 • Machine Learning: “Estimating an unknown dependency or structure of a system using a limited number of observations.” (Cherkassky) – – – – Regression Klassifizierung Dichteschätzung (density estimation) Clustering/Vektorquantisierung Thomas Melzer, GEO Department 15 Anmerkung zur Nomenklatur Regression und Klassifikation gehören zur Kategorie der überwachten (supervised) Verfahren. Hier wird versucht, anhand von gegebenen Paaren von Merkmalsausprägungen xi und zugeordneten abhängigen Werten yi den funktionalen Zusammenhang zwischen den Größen y = f (x) zu bestimmen. Je nach Disziplin und Kontext sind verschiedene Bezeichnungen für die Größen (x, y) gebräuchlich, z.B – – – – unabhängige Variable, abhängige Variable (Mathematik) Input-Variable, Output-Variable Merkmals-Variable, Target-Variable (Machine Learning, Neurale Netze) explanatory / predictor variable, response variable (Statistik) Thomas Melzer, GEO Department 16 Merkmalsbasierte Klassifizierung: ein Beispiel In einer Fischfabrik soll automatisch anhand eines Grauwertbilds zwischen Lachsen und Brassen unterschieden werden. Das System muss also im laufenden Betrieb pro Fisch (Muster) folgende Arbeitsschritte durchlaufen: 1. 2. 3. 4. 5. 6. Sensor-Messung (Bildaufnahme) Vorverarbeitung (z.B. Rauschfilterung) Segmentierung, Labeling Merkmalsberechnung (Helligkeit, Länge) Klassierung (Zuweisung an eine gegebene Klasse) Weiterverarbeitung Thomas Melzer, GEO Department 17 • Design/Implementierung des Systems Wir beschäftigen uns im folgenden nur mit den Punkten 4 und 5 (Merkmalsauswahl und Auswahl/Training des Klassifikators). Nehmen wir an, dass je 100 Brassen und Lachse vermessen wurden, und uns somit also 200 korrekt mit ihrer Klassenzugehörigkeit “gelabelte” Merkmalsvektoren zur Verfügung stehen (Trainings/Design-Set). Die Güte eines Merkmals hängt davon ab, a) wie einfach/schnell es berechnet werden kann und b), wie “diskriminativ” es ist, d.h., wie gut es zwischen den interessierenden Klassen unterscheidet. b) lässt sich z.B. mit Hilfe eines Histogramms visualisieren, in welchem auf der Abszisse die Merkmalsausprägungen und auf der Ordinate die beobachteten Häufigkeiten für jede Merkmalsausprägung (separat für jede Klasse!) aufgetragen werden. Im Idealfall sollten die Histogramme der unterschiedlichen Klassen nicht (oder nur wenig) überlappen. Thomas Melzer, GEO Department 18 salmon sea bass count count 22 20 18 16 12 sea bass 12 10 8 10 8 6 6 4 4 2 0 salmon 14 2 length 5 10 15 l* 20 25 0 2 4 x* 6 lightness 8 10 FIGURE 1.2. Histograms for the length feature for the two categories. No single threshFIGURE 1.3. Histograms for the lightness feature for the two categories. No single old value of the length will serve to unambiguously discriminate between the two catthreshold value x ∗ (decision boundary) will serve to unambiguously discriminate beegories; using length alone, we will have some errors. The value marked l ∗ will lead to tween the two categories; using lightness alone, we will have some errors. The value x ∗ the smallest number of errors, on average. From: Richard O. Duda, Peter E. Hart, and marked c 2001 by John Wiley & Sons, Inc. will lead to the smallest number of errors, on average. From: Richard O. Duda, David G. Stork, Pattern Classification. Copyright Abbildung 1: Histogramme der Häufigkeiten der gemessenen Längen c(links) Peter E. Hart, and David G. Stork, Pattern Classification. Copyright 2001 by John Wiley & Sons, Inc. und Helligkeiten (rechts) für Lachse (schwarz) und Brassen (rot). Obwohl Lachse eher länger als Brassen sind, ist das Merkmal Länge für sich allein nur schlecht geeignet, um zwischen den beiden Fischarten zu unterscheiden. Die klassenspezifischen Ausprägungen des Merkmals Helligkeit überlappen sich zwar in geringerem Maße, jedoch lässt auch dieses Merkmal keine eindeutige, fehlerfreie Klassifizierung bzg. der gegebenen Klassenzugehörigkeiten (class labels) zu. Thomas Melzer, GEO Department 19 width 22 salmon width 22 sea bass 21 21 20 20 19 19 18 18 17 17 16 16 15 15 14 lightness 2 4 6 8 10 salmon sea bass ? 14 lightness 2 4 6 8 10 FIGURE 1.4. The two features of lightness and width for sea bass and salmon.1.5. The dark FIGURE Overly complex models for the fish will lead to decision boundaries that line could serve as a decision boundary of our classifier. Overall classification error on are complicated. While such a decision may lead to perfect classification of our training the data shown is lower than if we use only one feature as in Fig. 1.3, but there will samples, would lead to poor performance on future patterns. The novel test point still be some errors. From: Richard O. Duda, Peter E. Hart, and David G. Stork,it Pattern marked ? is evidently most likely a salmon, whereas the complex decision boundary c 2001 by John Wiley & Sons, Inc. Classification. Copyright Abbildung 2: Die Kombination mehrerer Merkmale führt oft zu besseren Ergebnissen. Die beiden Klassenshown sindleadsimit tozwei-dimensionalen Merkmalsraum be classified as a sea bass. From: Richard O. Duda, Peter E. Hart, and c Problem Copyright 2001 by John Wiley Sons, Inc. Stork, Pattern Classification (Länge/Helligkeit) bereits rechtDavid gutG. separiert. Das n. ächste ist &die Auswahl eines geeigneten Klassifikators (Modells). Links ist ein Beispiel für einen einfachen, linearen Klassifikator zu sehen: dieser ist offensichlich nicht in der Lage, die beiden Klassen fehlerfrei zu unterscheiden. Der Klassifikator rechts leistet zwar eine fehlerfreie Klassifikation der Trainingsdaten, jedoch auf Kosten einer komplexen Entscheidungsgrenze. Thomas Melzer, GEO Department 20 Nachdem man sich für einen bestimmten Klassifikator (Modell) entschieden hat, muss dieser noch auf den vorhandenen Daten trainiert werden (das Modell wird an die Daten gefittet); z.B. könnte die Gerade in Fig. 2 mittels least squares (Methode der kleinsten Quadrate) bestimmt werden. Das Ziel des Designs/Trainings besteht letztendlich nicht darin, die Trainingsdaten, sondern die Gesamtheit aller Muster (bzw. aller möglichen Merkmalsausprägungen) korrekt bzw. mit möglichst geringem “mittleren Fehler” zu klassifizieren; man spricht in diesem Zusammenhang auch von der Generalisierungsfähigkeit des Klassifikators. Während zu einfache Modelle zu schlechten Ergebnisen bereits auf dem Trainingsset führen, weil sie die den Daten zugrundeliegende Struktur nicht erklären können (underfitting ), sind zu komplexe Modelle sehr sensitiv bzg. der Auswahl der Trainingsdaten sowie bzg. zufälliger Messfehler (Rauschen) in den Trainingsdaten, was ebenfalls zu schlechter GeneraThomas Melzer, GEO Department 21 lisierungsfähigkeit (hoher Prozentsatz falscher Klassifikationen auf nicht im Trainingsset enthaltenen Daten) führen kann (overfitting ). width 22 salmon sea bass 21 20 19 18 17 16 15 14 lightness 2 4 6 8 10 FIGURE 1.6. The decision boundary shown might represent the optimal tradeoff between performance on the training set and simplicity of classifier, thereby giving the highest accuracy on new patterns. From: Richard O. Duda, Peter E. Hart, and David G. c 2001 by John Wiley & Sons, Inc. Stork, Pattern Classification. Copyright Abbildung 3: Beispiel für einen quadratischen Klassifikator “mittlerer Komplexität”. Thomas Melzer, GEO Department 22 Die Minimierung des “mittleren Fehlers” eines Klassifikators ist möglich, falls die statistische Verteilung (Dichtefunktion) der Merkmale bekannt ist oder zumindest geschätzt werden kann. Dies motiviert den Einsatz statistischer Methoden zum Design optimaler Klassifikatoren (mit minimalem mittleren Fehler) sowie zur Dichteschätzung. Thomas Melzer, GEO Department 23 Ein einfacher binärer Klassifikator: das Perceptron • Das Perceptron stellt einen Speziallfall eines binären, linearen Klassifikators dar. Lineare Modelle sind schnell und einfach zu trainieren und auszuwerten. Wir gehen im folgenden von d-dimensionalen Merkmalsvektoren x ∈ IRd und zwei Klassen ω1, ω2 aus. Ziel ist es, eine Abbildung g : IRd → IR zu finden, welche die Klassenzugehörigkeit wie folgt kodiert g(x) > 0 falls x ∈ ω1 (2) g(x) < 0 falls x ∈ ω2 (3) wobei der Absolutbetrag von g das “Vertrauen” in die vorhergesagte Thomas Melzer, GEO Department 24 Klassenzugehörigkeit von x widerspiegelt. g wird auch als Diskriminantenfunktion (discriminant function) bezeichnet. Im speziellen Fall einer linearen Diskriminantenfunktion hat g die folgende Form d X g(x) = wixi − θ = wT x − θ, (4) i=1 wobei x1 x2 x= ... , xd w1 w2 w= ... . wd (5) w ∈ IRd wird oft als Gewichtsvektor und θ ∈ IR als bias oder threshold bezeichnet. Die Aufgabe besteht nun darin, geeignete Werte für w und θ zu finden. Thomas Melzer, GEO Department 25 Das Perceptron wurde gegen Ende der 1950er von Rosenblatt als Modell eines künstlichen neuralen Neztwerks entwickelt. Die Architektur des Perceptrons entspricht einer linearen Diskriminantenfunktion mit nachgeschalteter Signum-Funktion. Wenn wir mit o(x) die Ausgabe des Percpetrons bezeichnen, so haben wir T o = o(x) = sgn(w x − θ) = 1 if wT x ≥ θ −1 if wT x < θ (6) Das Ziel ist nun, den Gewichtsvektor w und bias θ zu bestimmen, sodass: o(x) = 1 o(x) = −1 Thomas Melzer, GEO Department (⇔ wT x ≥ θ) falls x ∈ ω1 (⇔ wT x < θ) falls x ∈ ω2 (7) (8) 26 • Geometrische Interpretation Für w, x ∈ IRd, legt d X wixi = wT x = θ, (9) i=1 eine in den IRd eingebettete (d − 1)-dimensionale Hyper-Ebene (hyperplane) (im Fall d = 2 eine Gerade) mit Normalvektor w fest. Im Fall θ = 0 geht die Hyper-Ebene durch den Ursprung, andrenfalls ist sie entlang w um den Betrag θ/kwk vom Ursprung verschoben. Das innere Produkt wT x kann alternativ als wT x = cos(w, x)kxkkwk (10) geschrieben werden, und entspricht daher der Projektion von x auf w (cos(w, x)kxk) mal der Norm von w, kwk. Thomas Melzer, GEO Department 27 x2 w x1 θ Abbildung 4: Die gestrichelte Gerade wT x = θ ist durch ihren Normalvektor w und ihre Distanz vom Ursprung θ/kwk, gemessen entlang w, festgelegt (hier für den Fall kwk = 1). Für schwarze Punkte (∈ ω1) gilt, wT x > θ, wohingegen für die weißen Punkte (∈ ω2) wT x < θ gilt. Thomas Melzer, GEO Department 28 Die Hyper-Ebene wT x = θ partitioniert IRd in zwei Halbräume: R1 = {x : wT x ≥ θ} and R2 = {x : wT x < θ}. Da wir eine Beobachtung x an ω1 zuweisen falls x ∈ R1 und an ω2 falls x ∈ R2, werden die Ri auch Entscheidungsregionen decision regions genannt; die separierende Hyper-Ebene wT x = θ wird auch Entscheidungsgrenze (decision boundary ) genannt. • Lineare Separierbarkeit (linear separability ) Sei X = (x1, . . . , xN ) ∈ IRd×N eine Menge von N Merkmalsvektoren mit zugeordneten Klassen-Labels yT = (y1, . . . , yN ), yi ∈ {1, −1}. Wir sagen dass X linear separierbar (bzg. y) ist, falls es einen Gewichtsvektor w und bias θ gibt, sodass o(xi) = sgn(wT xi − θ) = yi, 1 ≤ i ≤ N. Thomas Melzer, GEO Department (11) 29 • Kanonische Repräsentation (Canonical Representation) Wenn wir w und θ mit demselben positiven Faktor α ∈ IR+ multiplizieren, bleiben die Entscheidungsregionen unverändert: wT x = θ ⇔ (αw)T x = αθ (∀x ∈ IRd) (12) wT x ≥ θ ⇔ (αw)T x ≥ αθ (∀x ∈ IRd) (13) Setzen wir speziell α = 1/kwk, so erhalten wir die sogenannte kanow θ nische Repräsentation der Hyper-Ebene wc = kw , θ = c k kwk mit auf Einheitlänge normiertem Normalvektor kwck = 1. In diesem Fall – entspricht das innere Produkt wcT x der Projektion von x auf wc (siehe Eq. 10), and – gibt der Wert der Diskriminantenfunktion g(x) = wcT x − θc den Abstand von x zur Entscheidungsebene an (parallel zu wc). Thomas Melzer, GEO Department 30 • Homogene Koordinaten (Homogeneous Coordinates) Der bias kann durch einen kleinen Kunstgriff in den Gewichtsvektor “hineingezogen” werden. Wir führen zu diesem Zweck zusätzliche Koordinaten x0 ≡ 1 and w0 = −θ ein. a T T x = (1, x ) = Thomas Melzer, GEO Department 1 x1 x2 ... xd , a T T w = (−θ, w ) = −θ w1 w2 ... wd (14) 31 Wir haben somit g(x) = awT ax = d X wixi = −θ + i=0 d X wixi = wT x − θ. (15) i=1 Im speziellen ist g linear in ax (und ebenso in aw): g(α1ax1 + α2ax2) = a wT (α1ax1 + α2ax2) = α1awT ax1 + α2awT ax2 = α1g(ax1) + α2g(ax2). (16) Man beachte, das g nicht linear - im obigen, strengen Sinn - in den nicht-homogenen Koordinaten w bzw. x ist. Die Transformation in homogene Koordinaten vereinfacht unser ursprüngliches Problem, indem es dessen Dimensionalität um 1 (von d Thomas Melzer, GEO Department 32 auf d + 1) erhöht; Eq. 15 definiert nun eine d-dimensionale Hyper-Ebene im IR(d+1), welche welche durch den Ursprung geht. Wir werden im folgenden - falls nicht anders erwähnt - stets homogene Koordinaten annehmen und daher das Superscript a weglassen. Thomas Melzer, GEO Department 33 −θ Abbildung 5: Beispiel für homogene Koordinaten im Fall d = 2. Ansicht parallel zur Entscheidungsebene). Die homogenen Merkmalsvektoren (xi ∈ IR3) liegen auf der (x0 = 1)-Ebene. Die Hyperebene ist nun 2-dimensional, geht durch den Ursprung und liegt im IR3. Die Entscheidungsgrenze für nicht-homogene Daten ist durch die Projektion der Schnittgeraden der Hyper-Ebene mit der (x0 = 1)-Ebene auf (x0 = 0) gegeben. Thomas Melzer, GEO Department 34 • Training Sei ST r = {X, y} eine Menge von N homogenen Merkmalsvektoren X = (x1, . . . , xN ) ∈ IR(d+1)×N und korrespondierenden Klassen-Labels yT = (y1, . . . , yN ), yi ∈ {1, −1}. ST r ist das sogenannte Trainingsset. Wollten wir z.B. das binäre AND-Problem mittels eines Perceptrons lösen, so hätte unser Trainingsset folgende Form: 1 1 1 1 X = 0 1 0 1 0 0 1 1 yT = (−1, −1, −1, 1). (17) Ziel: finde einen homogenen Gewichtsvektor w, sodass o(xi) = sgn(wT xi) = yi, 1 ≤ i ≤ N. Thomas Melzer, GEO Department (18) 35 Idee: falls ein “positiver” Trainingsvektor xj mit yj = 1 falsch klassifiziert wurde (⇒ wT xj < 0), so addiere ein Vielfaches von xj to w: dadurch wird die Hyper-Ebene auf den falsch klassifizierten Vektor hinbewegt. Man sieht dass (w + γxj )T xj = wT xi + γkxj k2 > wT xj , γ > 0. (19) Der positive Faktor γ wird auch Lernrate genannt. Analog zum obigen Fall, sollte im Fall eines misklassifizierten “negativen” Trainingsvektors xj die Hyper-Ebene von diesem wegbewegt werden (indem wir Vielfaches von xj von w subtrahieren). In beiden Fällen ist es möglich, dass (abhängig vom Wert von γ und dem ursprügnlichen w), zuvor korrekt klassifizierte Vektoren durch die neue Hyper-Ebene nun falsch klassifiziert werden. Thomas Melzer, GEO Department 36 x2 x2 w w x1 x1 Abbildung 6: Perceptron Training: in der linken Abbildung wurde der obere linke “positive” Vektor xj falsch klassifiziert. Indem wiederholt ein Vielfaches von xj , γxj , γ > 0 zu w addiert wird, bewegt sich die Entscheidungsgrenze schließlich über xj hinweg (wodurch xj richtig klassifiziert wird). Dies ist in der rechten Abbildung dargestellt (γ << 1). Thomas Melzer, GEO Department 37 Wir können beide Fälle abdecken, indem wir beachten dass sgn(wT xi) = yi ⇔ sgn(wT xi)yi = 1 (20) ⇐ (wT xi)yi > 0 ⇔ wT (xiyi) > 0. (21) Ausgehend von Eq. 21, welche eine etwas strengere Bedingung als Eq. 20 darstellt (da die Merkmalsvektoren nicht direkt auf der Entscheidungsebene liegen dürfen), suchen wir nun nach einem Gewichtsvektor welcher das modifizierte Trainingsset xiyi, 1 ≤ i ≤ N (mit ausschließlich positiven Klassen-Labels) in die positive Halb-Ebene abbildet. Thomas Melzer, GEO Department 38 Dies führt uns zum Online Perceptron Training Algorithmus: 1. Initialize w, γ 2. do 3. for i = 1 to N 4. if wT (xiyi) ≤ 0 (misclassified ith pattern) 5. w ← w + γxiyi 6. end if 7. end for 8. until all patterns correctly classified Die Schritte 3. - 7. (Präsentation aller N Trainingsbeispiele) werden häufig als Epoche bezeichnet, der Schritt 5. als Gewichts-Update. Zwei wichtige Fragen – Wie sollen w, γ initialisiert werden? – Terminiert der Algorithmus in einer endlichen Anzahl von Schritten? Thomas Melzer, GEO Department 39 Initialisierung Sei w = 0. In diesem Fall ist der mit dem obigen Algorithmus erhaltene Gewichtsvektor wp eine Linearkombination der während des Trainings falsch klassifizierten Merkmalsvektoren: wp = N X i=1 xi(yiγki) = γ N X xi(yiki), ki ∈ IN0, (22) i=1 wobei ki angibt, wie oft der i-te Merkmalsvektor falsch klassifiziert wurde. Folglich ist γ lediglich ein Skalierungsfaktor und hat - wie im Abschnitt über homogene Koordinaten erklärt (siehe Eqs. 12-13) - keinen Einfluss auf die Entscheidungsgrenze. Daher können wir bequemerweise einfach γ = 1 setzen. (Achtung, dies gilt i.a. nicht für andere Lernverfahren wie z.B. LMS). Thomas Melzer, GEO Department 40 Perceptron Konvergenz-Theorem Der online Perceptron Algorithmus mit fixer Lernrate γ terminiert für jedes linear separierbare Trainingsset mit Lösung wp, d.h., falls eine separierende Hyper-Ebene mit Normalvektor w∗ existiert. Der Algorithmus terminiert nicht im Falle eines nicht linear separierbaren Trainingssets (z.B. XOR-Problem). Die Anzahl der Korrekturschritte (5.) ist nach oben beschränkt durch ∗ maxj kxj kkw k mini(w∗T xi) 2 , 1 ≤ i, j ≤ N. (23) Die obige Formel ist jedoch nicht zur praktischen Berechnung der maximalen Anzahl der Iterationsschritte geeignet, da ja die Kenntnis einer Lösung w∗ voraussetzt wird. Thomas Melzer, GEO Department 41 • Margin Eq. 23 steht in engem Zusammenhang mit der Größe w∗T (xiyi) gm(xi) = , ∗ k kw(1:d) (24) welche den Abstand des i-ten Merkmalsvektors von der durch w∗ festgelegten Hyper-Ebene angibt und als geometrische margin (geometric margin) des Vektors xi bzg. w∗ bezeichnet wird. Man beachte, dass gm(xi) > 0 g.d.w. xi korrekt klassifiziert wird. Der Vektor xj mit minimaler geometrischer margin gm(xj ), also j = arg min gm(xi), 1 ≤ i ≤ N, i Thomas Melzer, GEO Department (25) 42 legt die geometrische margin gm(w∗) der Hyper-Ebene bzg. des Trainingssets {X, y} fest: gm(w∗) = gm(xj ). Thomas Melzer, GEO Department 43 x2 x2 x1 gm(w) x1 gm(w) Abbildung 7: Links: eine Hyper-Ebene (fett gestrichelt dargestellt), welche eine Menge von 7 Punkten separiert. Ebenfalls eingezeichnet sind die margins der der Hyper-Ebene nächstgelegenen positiven bzw. negativen Beispiele. Die geometrische margin der Hyper-Ebene gm(w) ist das Minimum dieser beiden Werte. Rechts: optimale separierende Hyper-Ebene, welche gm(w) maximiert. 44 Thomas Melzer, GEO Department Eq. 23 sagt somit aus, dass die Anzahl der Gewichts-Updates – reziprok proportional zu gm(w∗)2 und – direkt proportional zum Quadrat der Norm des längsten Merkmalsvektors (Radius der kleinsten Hyper-Kugel, welche alle Merkmalsvektoren in X enthält) ist. (Man beachte, dass in Eq. 24 durch kw(1:d)k, also durch die Länge des Normalvektors dividiert wird. Da kw(1:d)k ≤ kw(0:d)k, bleibt die Ausssage jedoch richtig.) Für gegebenen Radius der Hyper-Kugel, welche alle Trainingsvektoren enthält, wird der “Schwierigkeitsgrad” des Lernproblems durch jene Vektoren bestimmt, welche am nächsten zur Hyper-Ebene liegen (oder, anders formuliert, durch jene Vektoren, die fast “orthogonal” zu w∗ liegen). Thomas Melzer, GEO Department 45 Die Generalisierungsfähigkeit des Perceptrons wird um so besser sein, je größer gm(w∗) ist; diese Idee - den minimalen Abstand der TrainingsPunkte von der Hyper-Ebene respektive die margin gm(w∗) zu maximieren - liegt der support vector machine (SVM) zugrunde. Man spricht in diesem Zusammenhang auch von maximum margin classifiers. Siehe auch Fig. 7. Thomas Melzer, GEO Department 46 • Verwandte Verfahren Der Perceptron-Algorithmus in der hier präsentierten Form hat zwei wesentliche Nachteile, welche die Entwicklung leistungsfähigerer Verfahren motiviert haben: – Der Perceptron-Algorithmus terminiert nicht im Fall nicht linear separierbarer Daten. Der mit dem Perceptron verwandte Ho-KashyapAlgorithmus erkennt diesen Fall und terminiert auch auf nicht linear separierbaren Daten. – Das Perceptron findet nicht unbedingt die optimale Lösung w∗ = arg max gm(w) w (26) mit maximaler margin. Die moderneren SVMs hingegen finden die optimale Lösung (hierzu muss in der SVM-Formulierung allerdings ein quadratisches Optimierungsproblem unter linearen Nebenbedingungen Thomas Melzer, GEO Department 47 gelöst werden). Es gibt auch verschiedene Erweiterungen der SVMs für nicht linear separierbare Daten (Schlupfvariablen, Kernelisierung). SVMs unterscheiden sich von den meisten im folgenden diskutierten Verfahren dadurch, dass sie “verteilungsfreie” Verfahren sind, also nicht auf einer Schätzung der zugrundeliegenden Dichtefunktion der Daten basieren; statt dessen minimieren Sie das worst-case risk, also den schlimmsten anzunehmenden Fehler. Thomas Melzer, GEO Department 48 K-Nearest Neighbor Klassifikator (K-NN) • Einführung K-NN ist ein klassischer Vertreter sogenannter nicht-parametrischer Verfahren: diese treffen keine Annahme über die parametrische Form der zugrundeliegenden Verteilungen (z.B. Normalverteilung) bzw. gehen nicht von einem (spezifischen) Modell der interessierenden Funktion aus. • Der NN Algorithmus Sei ST r = {X, y} ein Trainingsset, wobei X = (x1, . . . , xN ) ∈ IRd×N die Spaltenmatrix (nicht homogenisierter!) Merkmalsvektoren und y = (y1, . . . , yN ) ∈ IR1×N den Zeilenvektor korrespondierender KlassenLabels bezeichne (yi ∈ {1, . . . , c}). Thomas Melzer, GEO Department 49 Der NN-1 (kurz NN) Algorithmus weist einem neuen Merkmalsvektor x einfach das Klassen-Label des ähnlichsten Trainingsvektors zu: α(x) = ys, wobei s = arg min kx − xik, 1 ≤ i ≤ N i (27) (28) Hierdurch wird eine sogenannte Voronoi-Tessellation des Merkmalsraums induziert; das Einzugsgebiet des i-ten Trainingsvektors Pi = {x | kx − xik ≤ kx − xj k, 1 ≤ j ≤ N } (29) wird auch als Voronoi-Polyeder (eng: polyhedron) von xi bezeichnet. Thomas Melzer, GEO Department 50 x3 x2 x1 x1 FIGURE 4.13. In two dimensions, the nearest-neighbor algorithm leads to a partition2 Abbildung 8: Voronoi-Tessellation des IR ür eincells, bineach äreslabeled Klassifikationsproing of the input space into fVoronoi by the category of the training point it contains. three dimensions, the cells are three-dimensional, and the decision blem. Die Entscheidungsregion derIn Klasse ω1 (grau unterlegt dargestellt) boundary resembles the surface of a crystal. From: Richard O. Duda, Peter E. Hart, and ist die Vereinigung allerDavid Voronoi-Polyehedra der . zur Klasse gehbyörigen Traic 2001 Copyright John Wiley & Sons, Inc. G. Stork, Pattern Classification ningsvektoren (rot dargestellt). Thomas Melzer, GEO Department 51 Der K-NN Algorithmus Hier werden für einen zu klassifizierenden Merkmalsvektor x zunächst die K ähnlichsten Trainingsvektoren bestimmt. Gehören kj dieser Vektoren Pc zur Klasse ωj (wobei j=1 kj = K gelten muss), so wird für die Klasse mit dem größten Anteil an “Repräsentanten” entschieden: α(x) = i, wobei i = arg max kj , 1 ≤ i ≤ c. j Thomas Melzer, GEO Department (30) (31) 52 • Eigenschaften des K-NN Klassifikators K-NN erfordert kein Training im eigentlichen Sinn, sondern speichert einfach das gesamte Trainingsset als “Referenz-Menge” ab. Das Verfahren abstrahiert also nicht über das Trainingsset (im Sinne einer kompakten Repräsentation des zugrundeliegenden Datengenerators), sondern lernt es auswendig (rote learning ). Sowohl Speicher- als auch Laufzeitaufwand wachsen linear mit der Größe des Trainingssets (O(N )). Thomas Melzer, GEO Department 53 Test- vs. Trainingsfehler, Modellkomplexität • Ein naheliegendes Maß für die Güte eines Klassifikators ist der Anteil der falsch klassierten Muster. Wird dieser Anteil auf die für das Training verwendete Datenmenge (training set) bezogen, so spricht man vom Traingsfehler. • Es interessiert jedoch die Leistungsfähigkeit des trainierten Klassifikators auf der Gesamtheit aller möglichen Mustervektoren. Diese läßt sich abschätzen, indem man den Klassifkator auf eine repräsentative Datenmenge anwendet, die nicht fürs Training verwendet wurde (test set); den Anteil der Falschklassierungen bezogen auf diese Menge nennt man entsprechend Testfehler. Thomas Melzer, GEO Department 54 • Der Trainingsfehler unterschätzt i.a. den Testfehler, und zwar umso mehr, je flexibler das Modell ist, d.h. je besser es sich an eine gegebene Datenmenge anpassen läßt. Führt eine Erhöhung der Modell-Flexibilität (auch Modell-Komplexität genannt) zu einer Verringerung des Trainingsfehlers, aber zu einer Erhöhung des Testfehlers, so liegt overfitting vor. • Wird eine von der Trainingsmenge unabhängige Datenmenge verwendet, um die optimale Komplexität des Klassifikators zu ermitteln (k = 7 in Abb. 9), spricht man von einer Validierungsmenge validation set. • Die Trainings-, Test- und Validierungsmenge sollten idealerweise disjunkt sein. Sollte dies nicht möglich sein, kann cross validation verwendet werden, um die optimale Modell-Komplexität auf dem Trainingsset zu bestimmen. Thomas Melzer, GEO Department 55 Abbildung 9: Test- vs. Trainingsfehler eines kNN-Klassifikators als Funktion der Parameters k. Für großes k ist das Modell sehr starr, und paßt sich kaum den Daten an. Je kleiner k, desto flexibler das Modell: der Trainingsfehler fällt monoton bis auf 0 für k=1. Der Testfehler hingegen fällt zunächst mit fallendem k (bis ca. 7), steigt dann aber wieder. Thomas Melzer, GEO Department 56 • k-fold Cross Validation Die Trainingsmenge ST r wird in k möglichst gleich große Teilmengen S1, . . . , Sk zerlegt.1 Bezeichne Ui = ST r \ Si, 1 ≤ i ≤ k die Trainingsmenge ohne den i-ten Teil Si. Sei weiters C die Menge der möglichen Werte des Komplexitätsparameters, sowie Mc eine Modellinstanz des Klassifikators mit Komplexität c. Eine mögliche Zerlegung in Trainings- und Validierungsuntermengen für den Fall k = 5 ist in Abb. 10 dargestellt. 1 Dieses k hat nichts mit jenem in kN N zu tun! Thomas Melzer, GEO Department 57 Abbildung 10: Schematische Darstellung der 5-fachen cross validation. Oben links: Partitionierung der Trainingsmenge ST r in 5 gleich große Teile Si (folds). Rest: die 5 möglichen Zerlegungen in Trainingsset Ui mit |Ui| = 4/5|ST r | und Validierungsset Si mit mit |Si| = 1/5|ST r |. Thomas Melzer, GEO Department 58 – for c in C ∗ for i = 1 to k do · Trainiere Mc,i auf Ui · Berechne den Validierungsfehler errc,i von Mc,i auf Si Pk 1 ∗ Berechne errc = k i=1 errc,i Wähle den Komplexitätsparameter mit minimalem cross validation error c = arg min errc. Thomas Melzer, GEO Department 59 Grundbegriffe der Wahrscheinlichkeitstheorie • Ein Elementar-Ereignis ist ein möglicher Ausfall eines Zufallsexperiments, z.B. die geworfene Augenzahl beim Würfeln, das Geschlecht einer Person etc. Die Menge aller Elementar-Ereignisse wird als Stichprobenraum Ω = {e1, ..., en} bezeichnet, für die beiden obigen Beispiele wäre dies Ω = { , ..., }, bzw. Ω = {”maennlich”, ”weiblich”}. Der Stichprobenraum ist somit das wahrscheinlichkeitstheoretische Pendant zum Merkmalsraum; ein Elementar-Ereignis enstpricht einer Ausprägung/Realisierung eines (distalen) Merkmals. • Ereignisse sind Mengen von Elementar-Ereignissen, z.B ist das Ereignis ”Augenzahl gerade”durch { , , } gegeben. Die Menge aller interessierenden Ereignisse wird als Ereignisraum Σ bezeichnet. Thomas Melzer, GEO Department 60 • Wahrscheinlichkeiten sind, grob gesprochen, idealisierte relative Häufigkeiten von Ereignissen (Anzahl der interessierenden durch Anzahl der möglichen Vorkommnisse). Die Wahrscheinlichkeiten P (ei) für Elementarereignisse können – aus Symmetrieüberlegungen als gleichverteilt angenommen werden, z.B. P (ei) = 1/|Ω| = 1/6 für den Fall eines 6-seitigen Würfels (klassischer Wahrscheinlichkeitsbegriff, Laplacesches Indifferenzprinzip) oder – als Grenzwert der relativen Häufigkeit des Ereignisses bei einer (theoretisch) unendlichen Anzahl von unabhängigen Wiederholungen des Zufallsexperiments aufgefaßt werden, z.B P ( ) = 0.2, wenn unter 1000 Würfen 200 er vorkommen (frequentistischer Wahrscheinlichkeitsbegriff). Wir werden später einen weiteren Wahrscheinlichkeitsbegriff kennenlernen. Thomas Melzer, GEO Department 61 • Axiomatische Definition der Wahrscheinlichkeit Die Wahrscheinlichkeit P (A) eines Ereignisses A ist durch eine Funktion P : Σ → IR gegeben. Die klassischen Kolmogorov -Axiome fordern, daß – P ∈ [0..1] – P (Ω) = 1 – P (A ∪ B) = P (A) + P (B) für diskjunkte Ereignisse A, B ⊂ Σ mit A ∩ B = ∅ (σ-Additivität) Es sei jedoch darauf hingewiesen, daß auch andere Axiomatisierungen des Wahrscheinlichkeitsbegriffs möglich sind (siehe im speziellen Jaynes, Logic of Science). Thomas Melzer, GEO Department 62 • Unter einer Zufallsvariable (random variable) X versteht man eine Abbildung X : Ω → Ω0 ⊆ IR. Zufallsvariablen kodieren Ereignisse; sie stellen formal den Zusammenhang zwischen Ereignissen bezüglich distaler Objekte (Würfel, Gruppe von Personen) und numerisch kodierten Merkmalsausprägungen dieser Objekte her, z.B. X( ) = 3, X(”weiblich”) = 0. Des weiteren legt eine Zufallsvariable via PX (X ∈ r) = P X −1 (r) = P ({e : X(e) = r}) (32) fest, wie sich die Wahrscheinlichkeitsmasse 1 auf Teilmengen r ⊂ IR verteilt: X legt die Verteilung des kodierten Merkmals fest. Man beachte, daß PX () auf dem Bildberreich IR, P () jedoch auf dem ursprünglichen Stichprobenraum definiert ist. Wir werden im folgenden die kürzere Schreibweise P () statt PX () verwenden, wenn P () aus dem Kontext eindeutig bestimmt ist. Dies ist in Ausdrücken wie P (X > 3) Thomas Melzer, GEO Department 63 (durch die explizite Angabe der Zufallsvariable X) stets der Fall. Thomas Melzer, GEO Department 64 Diskrete Verteilungen • Eine Verteilung heißt diskret, wenn die Anzahl der ElementarEreignisse (der möglichen Versuchsausfälle) |Ω| endlich oder abzählbar ist. Elementar-Ereignisse (Merkmalsausprägungen) werden typischerweise durch ganze Zahlen i kodiert, wobei dieser Zusammenhang formal durch eine diskrete Zufallsvariable X(ei) = i hergestellt wird. Sei X(Ω) = Ω0 ⊂ IN. – Geschlecht eines Probanden X(”weiblich”) = 0, X(”maennlich”) = 1 Ω0 = {0, 1}, |Ω| = 2 – Augenzahl beim Würfeln Ω0 = {1, 2, 3, 4, 5, 6}, |Ω| = |Ω0| = 6 Thomas Melzer, GEO Department 65 – Anzahl der pro Senkunde gemessenen Teilchen eines radioaktiven Zerfallsprozesses Ω0 = IN, |Ω| = |Ω0| = ℵ0 • Die Wahrscheinlichkeit, daß das Elementar-Ereignis i eintritt, ist durch die Wahrscheinlichkeitsfunktion (probability mass function) pi = p(i) = P (X = i) (33) gegeben. Die Verteilung ist durch die Gesamtheit aller pi festgelegt, P wobei pi ≥ 0 und i∈Ω0 pi = 1 gelten muß. • Die Bernoulli-Verteilung B(1, θ) mit Parameter 0 ≤ θ ≤ 1 beschreibt einen Zufallsversuch, der nur zwei mögliche Ausfälle haben kann (z.B. Münzwurf). Für eine Bernoulli-verteilte Zufallsvariable X ∼ B(1, θ) gilt: P (X = 1) = θ, P (X = 0) = 1 − θ. Thomas Melzer, GEO Department (34) 66 • Die (kumulative) Verteilungsfunktion ist durch F (k) = P (X ≤ k) = k X pi (35) i=0 gegeben. • Seien X, Y zwei diskrete Zufallsvariablen, und bezeichne weiters A ein Elementar-Ereignis bzg. X (z.B. X = i) und B ein Elementar-Ereignis bzg Y (z.B. Y = j). Die Wahrscheinlichkeit, dass die Ereignisse A und B gemeinsam auftreten, ist durch die Verbundwahrscheinlichkeit (joint probability ) pij = P (A, B) = P (A ∩ B) (36) gegeben. Thomas Melzer, GEO Department 67 Randverteilung und Unabhängigkeit • Beispiel: Länge und Helligkeit von Lachsen Seien X und Y zwei diskrete Zufallsvariablen, welche die Verteilung der Länge (X) und Helligkeit (Y ) von Lachsen beschreiben, wobei wir von nX = 4 Längen- und nY = 2 Helligkeitsstufen ausgehen. Seien weiters pi = P (X = i) und pj = P (Y = j) die entsprechenden Wahrscheinlichkeitsfunktionen, wobei wir annehmen, dass beide Helligkeitsstufen gleich wahrscheinlich sind und sich die Längen wie im folgenden Histogramm dargestellt verteilen: Thomas Melzer, GEO Department 68 40 35 30 25 20 15 10 5 0 5 10 15 20 Abbildung 11: Histogramm der Längen (Ordinate = pi*100). Thomas Melzer, GEO Department 69 pi pj 1 0.1 0.5 2 0.3 0.5 3 0.4 4 0.2 Tabelle 1: Wahrscheinlichkeitsfunktionen für Länge X und Helligkeit Y . Thomas Melzer, GEO Department 70 Y /X 1 2 pi,. 1 0.08 0.02 0.1 2 0.12 0.18 0.3 3 0.15 0.25 0.4 4 0.15 0.05 0.2 p.,j 0.5 0.5 1 Tabelle 2: Verbundwahrscheinlichkeiten pij • Die Randverteilung (marginal distribution) von X, pi,., erhält man aus pij , indem man für jede Merkmalsausprägung (jedes Elementar-Ereignis) bzg. X über alle möglichen Merkmalsausprägungen bzg. Y summiert: pi = pi,. = nY X pij (37) j=1 Analog erhält man die Randverteilung von Y , p.,j . Thomas Melzer, GEO Department 71 Y /X 1 2 pi,. 1 0.05 0.05 0.1 2 0.15 0.15 0.3 3 0.2 0.2 0.4 4 0.1 0.1 0.2 p.,j 0.5 0.5 1 Tabelle 3: Verbundwahrscheinlichkeiten im Falle der Unabhängigkeit von X, Y . • Im Falle der Unabhängigkeit (independence) von X, Y gilt pij = pi,. p.,j , (38) für 1 ≤ i ≤ nX , 1 ≤ j ≤ nY , d.h., die joint probabilities ergeben sich als das Produkt der korrespondierenden Randverteilungen. Thomas Melzer, GEO Department 72 • Bedingte Wahrscheinlichkeit (conditional probability ) Bezeichne A das Ereignis X = i und B das Ereignis Y = j. Die bedinge Wahrscheinlichkeit von A unter B, P (A|B), (d.h. die Wahrscheinlichkeit, dass A eintritt, nachdem B bereits eingetreten ist), ist gegeben durch P (A, B) P (X = i, Y = j) pij P (A|B) = = = . P (B) P (Y = j) p.,j (39) Sind die bedingten Wahrscheinlichkeiten und die Randverteilungen bekannt, so kann die joint probability wie folgt berechnet werden P (A, B) = P (A|B)P (B) = P (B|A)P (A). Thomas Melzer, GEO Department (40) 73 • Sind X, Y unabhängig, so gilt (für alle i, j) P (A, B) = P (A|B)P (B) = P (A)P (B) (41) P (A|B) = P (A) (42) und somit • Für festes j erhält man die bedingte Verteilung von X unter Y = j. P (X = i|Y = 1) P (X = i|Y = 2) 1 0.16 0.04 2 0.24 0.36 3 0.30 0.50 4 0.30 0.10 1 1 Tabelle 4: Bedingte Verteilungen von X (für Tab. 2). Thomas Melzer, GEO Department 74 30 50 45 25 40 35 20 30 15 25 20 10 15 10 5 5 0 5 10 15 20 0 5 10 15 20 Abbildung 12: Bedingte Verteilungen P (X = i|Y = 1) (links) und P (X = i|Y = 2) (rechts) für die joint probabilites in Tab. 2. Thomas Melzer, GEO Department 75 Produkt- und Summenregel der Wahrscheinlichkeitsrechnung Seien A und B beliebige Ereignisse (also nicht notwendigerweise Elementar-Ereignisse) bezüglich der Zufallsvariablen X resp. Y. • Produktregel (product rule) P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A) (43) (siehe Gleichung 40). • Summenregel (sum rule) Die Wahrscheinlichkeit, daß Ereignis A oder Ereignis B eintritt, ist die Thomas Melzer, GEO Department 76 Summe der Einzelwahrscheinlichkeiten minus der Wahrscheinlichkeit, daß sowohl A als auch B eintritt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (44) Z.B. gilt für die Verbundverteilung in Tabelle 2: P (X = 1 ∪ Y = 1) = p1,. + p.,1 − p1,1 = 0.1 + 0.5 − 0.08 = 0.52. • Erweiterte Summenregel (auch: law of total probability ) Wenn die Ereignisse B1, .., Bn eine Partitionierung des Stichprobenraums darstellen, d.h. ∪ni=1Bi = Ω und Bi ∩ Bj = ∅ für i 6= j, dann gilt: n X i=1 Thomas Melzer, GEO Department P (A ∩ Bi) = n X P (A|Bi)P (Bi) = P (A) (45) i=1 77 Summe zweier diskreter Zufallsvariablen Für die Summe Z = X + Y zweier unabhängiger diskreter Zufallsvariablen (z.B. Summe der Augenzahlen beim Würfeln) gilt: P (Z = z) = P (X + Y = z) = X P (X = i, Y = z − i) i = X i pi,z−i = X pi,.p.,z−i (46) i d.h. die Wahrscheinlichkeitsfunktion der Summe erhält man als Faltung der Wahrscheinlichkeitsfunktionen der Summanden. Thomas Melzer, GEO Department 78 Stetige Verteilungen • Stetige Zufallsvariable Elementar-Ereignisse werden durch reelle Zahlen kodiert, z.B. Körpergröße von 1.6m: X == 1.6, Ereignisse durch Teilmengen des IR, z.B. Größe zwischen 1.5m und 1.7m: X ∈ [1.5, 1.7] • Verteilungsfunktion, VF ( cumulative distribution function, cdf ) FX (x) = P (X ≤ x) gibt die Wahrscheinlichkeit an, dass eine Beobachtung in das Intervall (−∞, x] fällt. • Dichtefunktion, DF (probability density function, pdf ) Im Falle einer stetigen Verteilung läßt sich FX (x) als Integral einer nichtRx negativen Dichtefunktion pX (x) darstellen: FX (x) = −∞ pX (x0)dx0. Thomas Melzer, GEO Department 79 • Beziehung zwischen Zufallsvariable und VF bzw. DF Eine Zufallsvariable kann als eine spezielle Repäsentation einer Verteilung betrachtet werden. Der Zusammenhang ist durch Z b pX (x)dx = FX (b) − FX (a) P (a ≤ X ≤ b) = (47) a gegeben. Man beachte, dass die diskrete Wahrscheinlichkeitsfunktion pi tatsächlich die Wahrscheinlichkeit des Eintretens eines Ereignisses angibt , während ihr stetiges Gegenstück, die Dichtefunktion pX (x), x ∈ IR, nicht als Wahrscheinlichkeit interpretiert werden kann; insbesondere gilt im Falle Thomas Melzer, GEO Department 80 einer stetigen Zufallsvariablen X Z α pX (x)dx = 0 (∀α ∈ IR). P (X = α) = (48) α Thomas Melzer, GEO Department 81 • Beispiel: Normalverteilung N (µ, σ 2). µ . . . Mittelwert (mean) σ . . . Standardabweichung (std, standard deviation) σ 2 . . . Varianz (variance) 1 0.9 cdf F (x) = 0.8 Rx 0 0 p(x )dx −∞ 0.7 0.6 0.5 pdf p(x) = 0.4 √1 2πσ − exp (x−µ)2 2σ 2 0.3 0.2 0.1 0 −5 −4 −3 −2 −1 Thomas Melzer, GEO Department 0 1 2 3 4 5 82 • Eigenschaften der pdf und cdf. – – – – F (x) ist monoton wachsend limx→−∞ F (x) = 0 und limx→∞ F (x) = 1 p(x) ≥ 0 (∀x ∈ IR) p(x) = dF (x)/dx • Quantile Für das α-Quantil xα gilt, dass ein α-Anteil der Daten kleiner und ein (1 − α)-Anteil der Daten größer als xα ist: F (xα) = P (X ≤ xα) = α. • Quantile der Standard-Normalverteilung N (0, 1) α 0.5 0.95 0.975 xα 0 1.64 1.96 Thomas Melzer, GEO Department 83 • Z-Standardisierung Eine normalverteilte Zufallsvariable X ∼ N (µ, σ 2) lässt sich mittels X −µ Z= σ (49) in eine standard-normalverteilte Zufallsvariable Z ∼ N (0, 1) transformieren. Die Umkehrung der obigen Beziehung kann verwendet werden, um die Quantile von N (µ, σ 2) aus jenen von N (0, 1) zu berechnen. So ergibt sich z.B. x0.95 von N (30, 9) zu 1.64 ∗ 3 + 30 = 34.92 Thomas Melzer, GEO Department 84 • Zufallsvariable vs. Variable – Wiederholung Zufallsvariablen (random variable) beschreiben formal die zugrunde liegende Wahrscheinlichkeitsstruktur (Verteilung) eines Merkmals. Kodieren wir z.B. ein Merkmal durch die Zufallsvariable X, so bedeutet X ∼ N (µ, σ 2), dass die Merkmalsausprägungen einer Normalverteilung folgen. Zufallsvariablen sind von “kontrollierten” Variablen zu unterscheiden, welche z.B. als Integrationsgrenzen oder als Laufvariablen verwendet werden; insbesondere sind die Argumente x von F (x) und p(x) keine Zufallsvariablen. In der Praxis wird diese Unterscheidung jedoch nicht immer getroffen. Thomas Melzer, GEO Department 85 Stetige Vereilungen II Der multivariate Fall • p-dimensionaler Zufallsvektor (random vector ) X1 ~ = (X1, . . . , Xp)T = . . . X Xp • p-dimensionaler Merkmalsvektor (feature vector ) x1 x = (x1, . . . , xp)T = . . . xp Vektoren (ausgenommen Zufallsvektoren) werden im folgenden mit fetten Kleinbuchstaben bezeichnet und stets als Spaltenvektoren aufgefasst. Thomas Melzer, GEO Department 86 • Joint pdf und Joint cdf Die mulitvariate Verteilungsfunktion (joint cdf ) ist wie folgt definiert: ~ ≤ x) = P (X1 ≤ x1, . . . , Xp ≤ xp). F (x) = P (X (50) F (x) ergibt sich, analog zum skalaren Fall, als p-faches Integral über eine nicht-negative mulitvariate Dichtefunktion (joint pdf ) Z x F (x) = p(x0)px0 = −∞ Thomas Melzer, GEO Department Z x1 Z xp ... −∞ p(x01, . . . , x0p)dx01 . . . dx0p. (51) −∞ 87 • Eigenschaften der joint pdf und joint cdf – F (x) ist monoton wachsend in allen Koordinaten – limxi→−∞ F (x) = 0, d.h. F (x) wird 0 wenn nur eines der xi gegen −∞ geht – limx1,...,xp→+∞ F (x) = 1, d.h. F (x) wird 1 wenn alle xi gegen +∞ gehen – p(x) ≥ 0 ∀x ∈ IRp – p(x) = ∂ pF (x)/∂x1 . . . ∂xp Thomas Melzer, GEO Department 88 • Randverteilung (marginal distribution) Seien X, Y zwei stetige Zufallsvariablen mit pdf p(x, y) und cdf F (x, y). Die Randverteilung der Dichtefunktion (marginal pdf) bzg. X ergibt sich durch Integration über alle möglichen Ausprägungen von Y Z +∞ p(x, y 0)dy 0 pX (x) = (52) −∞ Die Randverteilung der Verteilungsfunktion (marginal cdf) bzg. X erhält man als Integral über die marginal pdf Z x Z +∞ FX (x) = −∞ Z x = p(x0, y 0)dy 0dx0 −∞ pX (x0)dx0 = F (x, +∞). (53) −∞ Thomas Melzer, GEO Department 89 Die marginal pdf pY (y) und marginal cdf FY (y) bzg. Y berechnen sich analog. In der Praxis wird oft kurz p(x) für pX (x) bzw. F (x) für FX (x) geschrieben (analog für Y ). Thomas Melzer, GEO Department 90 • Beispiel: Rechtecksverteilung Gleichverteilung im Bereich B = B1 × B2 = [a1, b1] × [a2, b2]. Die joint pdf ist innerhalb von B konstant: p(x, y) = 1 (b1 − a1)(b2 − a2) (54) für (x, y) ∈ B, 0 sonst. Die joint cdf berechnet sich wie folgt: F (x, y) = – – – – – 0, falls x < a1 oder y < a2 (x − a1)/(b1 − a1), falls x ∈ B1, y > b2 (Randverteilung von x) (y − a2)/(b2 − a2), falls y ∈ B2, x > b1 (Randverteilung von y) (x − a1)(y − a2)/(b1 − a1)(b2 − a2), falls (x, y) ∈ B 1, falls x > b1 und y > b2. Thomas Melzer, GEO Department 91 1.2 1 1.2 1 0.8 F(x,y) y 0.8 0.6 0.6 0.4 0.2 0 1.5 0.4 1 0.2 1.5 0.5 0 1 0.5 0.2 0.4 0.6 x 0.8 1 y 0 0 x Abbildung 13: Rechtecksverteilung im Bereich [0.3, 0.9] × [0.2, 1]. Links: Die Dichtefunktion (joint pdf ) p(x, y) ist innerhalb der schwarz gepunktete Umrandung konstant und positiv mit 1/(0.6 ∗ 0.8). Die Werte der Verteilungsfunktion (joint cdf ) F (0.7, 0.5) und F (0.5, 1) = F (0.5, +∞) ergeben sich als Gebietsintegrale (x−0.3)(y−0.2)/(0.6∗0.8) über die jeweils gestrichelt umrandeten Bereiche. Rechts: Verteilungsfunktion F (x, y) . Thomas Melzer, GEO Department 92 • Unabhängigkeit X und Y sind unabhängig (independent), wenn F (x, y) = FX (x)FY (y) = F (x)F (y), (55) d.h., wenn die joint cdf gleich dem Produkt der marginal cdfs ist (F (x, y) faktorisiert in FX (x) und FY (y)). Im Falle der Unabhängkeit gilt ebenfalls p(x, y) = pX (x)pY (y) = p(x)p(y). Thomas Melzer, GEO Department (56) 93 • Bedingte Verteilung Die bedingte Verteilung der Dichtefunktion (conditional pdf ) von X unter Y = y erhält man als p(x|y) = p(x, y) , pY (y) die korrespondierende conditional cdf als Z x p(x0|y)dx0. F (x|y) = (57) (58) −∞ Ebenso wie im diskreten Fall gilt für unabhängige Zufallsvariablen X, Y , dass pX (x)pY (y) p(x|y) = = pX (x) = p(x). pY (y) Thomas Melzer, GEO Department (59) 94 • Summe zweier stetiger Zufallsvariablen Die Dichtefunktion der Summe Z = X + Y zweier unabhängiger stetiger Zufallsvariablen erhält man - analog zum diskreten Fall - als Faltung der Randdichtefunktion von X mit jener von Y : Z +∞ pZ (z) = pX (x0)pY (z − x0)dx0 (60) −∞ Thomas Melzer, GEO Department 95 Beispiel: Chi-Quadrat Verteilung Die Summe der Quadrate von k unabhängig standard-normalverteilten Größen Xi ∼ N (0, 1) ist χ2 (sprich: ki Quadrat) verteilt mit k Freiheitsgraden: k X Q= Xi2 ∼ χ2(k). (61) i=1 Eine χ2(k)-Verteilung hat das Mittel E[χ2(k)] = k und die Varianz V ar[χ2(k)] = 2k. Thomas Melzer, GEO Department 96 Abbildung 14: Dichtefunktion der χ2-Verteilung für verschieden Freiheitsgrade df=k. Für großes k geht die χ2-Verteilung in eine Normalverteilung über. Thomas Melzer, GEO Department 97 Erwartungswerte • Der Erwartungswert (expectation) E[] einer Funktion h(X) einer stetigen Zufallsvariablen X ist definiert als Z ∞ E[h(X)] = h(x)p(x)dx, (62) −∞ bzw. im bivariaten Fall als Z +∞ Z +∞ E[h(X, Y )] = h(x, y)p(x, y)dxdy. −∞ Thomas Melzer, GEO Department (63) −∞ 98 Im diskreten Fall wird das Integral zur Summe über alle möglichen Elementarereignisse, und das Differential p(x)dx zur Wahrscheinlichkeitsfunktion pi: X h(i)pi (64) E[h(X)] = i∈Ω0 Thomas Melzer, GEO Department 99 • Die Wahrscheinlichkeit für ein Ereignis A bezüglich X läßt sich als Erwartungswert der Indikatorfunktion h(x) = IA(x) = 1 für x ∈ A 0 sonst (65) ausdrücken, z.B. im stetigen Fall die Verteilungsfunktion Z x F (x) = P (X ∈] − ∞, x]) = E[I]−∞,x](X)] = p(x0)dx0 (66) −∞ und im diskreten Fall die Wahrscheinlichkeitsfunktion pi = P (X = i) = P (X ∈ {i}) = E[I{i}(X)] Thomas Melzer, GEO Department (67) 100 • Momente als Parameter von Verteilungen Für h(X) = X i erhält man das Moment i-ter Ordnung der Verteilung. Viele wichtige Parameter von Verteilungen sind als Erwartungswerte definiert. Speziell erhält man für i = 1 den Mittelwert (mean) µ Z ∞ xp(x)dx (68) µ = E[X] = −∞ Die Varianz σ 2 ergibt sich als zentrales Moment 2-ter Ordnung Z ∞ σ 2 = V ar[X] = E[(X − µ)2] = (x − µ)2p(x)dx (69) −∞ Es gilt außerdem σ 2 = E[X 2] − E[X]2. Thomas Melzer, GEO Department (70) 101 • Summe zweier Zufallsvariablen Der Erwartungswert der Summe zweier Zufallsvariablen X, Y ist gleich der Summe der Erwartungswerte, im speziellen E[aX + bY ] = aE[X] + bE[Y ], (71) für a, b konstant. • Produkt zweier Zufallsvariablen Für unabhängige Zufallsvariablen X, Y gilt E[XY ] = E[X]E[Y ]. Thomas Melzer, GEO Department (72) 102 • Varianz der Summe zweier Zufallsvariablen 2 σX+Y = E[(X + Y − E[X + Y ])2] = σx2 + σY2 + 2σXY , (73) wobei σXY als Kovarianz (covariance) bezeichnet wird. Es gilt σXY = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ]. (74) Im Falle der Unabhängigkeit von X, Y gilt σXY = 0, sodass 2 2 σX+Y = σX + σY2 (75) • Varianz einer skalierten Zufallsvariablen aX (a konstant): 2 2 = E[(aX − E[aX])2] = a2σX V ar[aX] = σaX Thomas Melzer, GEO Department (76) 103 • Zentraler Grenzwertsatz (Central Limit Theorem) Es wurde gezeigt, daß Mittelwert und Varianz einer Summe von unabhängigen Zufallsvariablen durch die Summe der Mittelwerte bzw. Varianzen gegeben sind. Wir wissen außerdem, daß man die Dichte- bzw. Wahrscheinlichkeitsfunktion einer Summe von unabhängigen Zufallsvariablen als deren Faltungsprodukt erhält. Sind die Stichprobenelemente Xi iid normalverteilt, so ist deren Summe ebenfalls normalverteilt, und zwar mit N X i=1 Thomas Melzer, GEO Department Xi ∼ N N X i=1 E[Xi], N X ! V ar[Xi] . (77) i=1 104 Dieses Resultat gilt asymptotisch auch für nicht-normalverteilte, unabhängige Summanden. Der Grenzwert der Verteilung einer Folge von Summen von Zufallsvariablen bzw. Faltungen der korrespondierenden Dichtefunktionen ist durch den zentralen Grenzwertsatz gegeben: Die Summe von N unabhängigen Zufallsvariablen Xi konvergiert (für N → ∞) gegen eine Normalverteilung.2 2 Mittelwert und Varianz wie in Gl. 77. Thomas Melzer, GEO Department 105 Parameterschätzung I: Frequentistischer Ansatz • Aufgabe der Parameterschätzung (parameter estimation) ist die Bestimmung der Verteilungsparameter (z.B. µ, σ) anhand einer Stichprobe des Umfangs N , D = [x1, .., xN ], wobei die Stichprobenelemente xi als Realisierungen von N unabhängig und identisch verteilten (iid, independent and identically distributed) Zufallsvariablen Xi angenommen werden. Genauer gesagt, wird vorausgesetzt, daß die Xi bedingt unabhängig gegeben den wahren – aber unbekannten – Wert des gesuchten Parameters θ sind p(x1, .., xN |θ) = N Y p(xi|θ). (78) i=1 Thomas Melzer, GEO Department 106 Eine Funktion einer Zufallsstichprobe θ̂ = f (X1, ..., XN ) wird als Statistik bezeichnet; diese ist wiederum eine Zufallsvariable. Im Kontext der Parameterschätzung ist zu unterscheiden ist zwischen dem – wahren Parameter (auch estimand) θ = g[X] als Funktional der wahren Verteilung (z.B. Erwartungswert), dem – Schätzer bzw. der Schätzfunktion (estimator ) θ̂ = f (X1, ..., XN ), sowie dem – Schätzwert (estimate) t̂ = f (x1, ..., xN ) = f (D) als Realisierung des Schätzers. In der Literatur wird allerdings oft nicht deutlich zwischen Schätzer und Schätzwert unterschieden. Thomas Melzer, GEO Department 107 Die Stichprobenelemente Xi repräsentieren N Wiederholungen desselben Zufallsversuches X (oder, anders formuliert, N Messungen desselben Merkmals X an zufällig ausgewählten Populationsmitgliedern), z.B Nmaliges Werfen einer Münze, oder Messung der Körpergröße von N zufällig ausgewählten Personen. Die Xi folgen alle derselben Verteilung und besitzen daher dieselben Verteilungsparameter. Insbesondere gilt für beliebige Erwartungen E[h(Xi)] = E[h(Xj )] = E[h(X)]. Ist, wie im obigen Fall, die Unterscheidung zwischen den Wiederholungen nicht relevant, schreiben wir auch kurz X statt Xi. Achtung: Das Produkt XiXj ist nur im Falle i 6= j unabhängig, jedoch für i = j abhängig (da im letzteren Fall beide Zufallsvariablen für jede mögliche Realisierung denselben Wert annehmen müssen). Thomas Melzer, GEO Department 108 • Die Maximum likelihood-Methode (ML) Dies ist das wichtigste Verfahren, um zu einer Schätzfunktionen zu gelangen. Ausgangspunkt ist die bedingte Dichtefunktion (bzw. Wahrscheinlichkeitsfunktion im diskreten Fall) der Stichprobe, gegeben den wahren Wert des Parameters θ p(D|θ) = p(x1, .., xn|θ) (79) Dies ist, für gegebenen Parameter θ, eine Funktion der Stichprobe D. ML faßt nun die Stichprobe (genauer: deren Realisation) als Funktion des gesuchten Parameters θ (likelihood-Funktion) auf l(θ) = p(D|θ) = N Y p(xi|θ) (80) i=1 Thomas Melzer, GEO Department 109 wobei der letzte Schritt aus der bedingten Unabhängigkeit der Xi folgt. ML wählt jenen Wert des Parameters θ∗, welcher die joint-likelihood Eq. 274 maximiert. Oft ist es einfacher, den Logarithmus von Eq. 274 zu maximieren; dies führt zur log-likelihood-Funktion ll(θ) = log l(θ) = N X ln p(xi|θ). (81) i=1 Den ML-Schätzer θ∗ erhält man dann durch Nullsetzen der ersten Ableitung der (log-)likelihood-Funktion und Auflösen nach θ ∂l(θ) =0 ∂θ Thomas Melzer, GEO Department (82) 110 x 1 2 3 4 5 6 7 4 5 6 7 p(D|θ ) 1.2 x 10-7 0.8 x 10-7 θˆ 0.4 x 10-7 1 2 3 θ l(θ ) -20 Abbildung 15: Beispiel zur ML-Parameterschätzung. Gesucht ist der Mittel-40 2 θˆ (σ 2 bekannt). wert θ = µ einer N (µ, σ )-Verteilung -60 θ -80 und Kandidaten für die generierende Oben: Trainingspunkte pdf. 1 2 3 4 5 6 7 -100 Unten: Verlauf der joint-likelihood p(D|θ). Diese wird mit zunehmendem N 3.1. The top graph shows several training points in one dimension, known or enger. FIGURE assumed to be drawn from a Gaussian of a particular variance, but unknown mean. (Aus Duda, Stork: Pattern Classification, 2nd Four of Hart, the infinite number of candidate source distributions are ed.) shown in dashed lines. TheDepartment middle figure shows the likelihood p(D|θ ) as a function of the mean. If we Thomas Melzer, GEO had a very large number of training points, this likelihood would be very narrow. The value that maximizes the likelihood is marked θ̂ ; it also maximizes the logarithm of the likelihood—that is, the log-likelihood l (θ ), shown at the bottom. Note that even though they look similar, the likelihood p(D|θ ) is shown as a function of θ whereas the 111 Beispiel: Schätzung des Mittels der Nomalverteilung mittels ML Die Dichtefunktion der Stichprobe gegeben µ (σ wird als bekannt vorausgesetzt) ist: N Y (x −µ)2 1 − i 2 l(µ) = p(x1, ..xn|µ) = √ exp 2σ N ( 2πσ) i=1 (83) Durch Logarithmieren erhalten wir N 1X ll(µ) = − (xi − µ)2 + const, 2 i=1 (84) wobei const ausschließlich Terme enthält, die nicht vom gesuchten ParaThomas Melzer, GEO Department 112 meter µ abhängen. Anstatt Eq.84 zu maximieren, können wir genausogut N 1X (xi − µ)2 2 i=1 (85) minimieren. Anders formuliert: unter Annahme einer Normalverteilung erhalten wir den Schätzer des Populationsmittels, indem wir die Fehlerquadratsumme Eq. 85 minimieren. Bilden der ersten Ableitung bezüglich des Parameters µ und Nullsetzen derselben liefert 1∂ 2 PN i=1 (xi = 0 (86) xi − N µ = 0 (87) ∂µ N X − µ)2 i=1 Thomas Melzer, GEO Department 113 µ∗ = x̄ = PN i=1 xi N (88) Der ML-Schätzwert für den Mittelwert µ ist also das arithmetische Mittel x̄. Dieser wurde für eine gegebene, aber beliebige Stichprobe D hergeleitet, und ist somit eine Realisierung des Schätzers. Um von diesem ausgehend eine Schätzfunktion zu erhalten, substituieren wir formal die xi durch ihre korrespondierenden Xi, und erhalten auf diese Weise das sogenannte Stichprobenmittel (siehe unten). Thomas Melzer, GEO Department 114 • Schätzung des Populationsmittels: Das Stichprobenmittel Der wahre Mittelwert gemäß Eq. 68, welcher auch als Populationsmittel (population mean) bezeichnet wird, kann mittels des Stichprobenmittels (sample mean) N 1 X µ̂ = X̄ = Xi N i=1 (89) geschätzt werden. µ̂ ist als Funktion einer Zufallsstichprobe (Statistik, Schätzer) selbst eine Zufallsgröße. Thomas Melzer, GEO Department 115 Eine Realisierung des Stichprobenmittels X̄ – d.h. seinen Wert für ein konkretes sample [x1, . . . , xN ] – werden wir im folgenden mit m̂ bezeichnen: N 1 X m̂ = x̄ = xi N i=1 Thomas Melzer, GEO Department (90) 116 • Erwartungstreue des Stichprobenmittels µ̂ = X̄ ist erwartungstreu (unbiased), da N N 1 X 1 X E[µ̂] = E[X̄] = E[Xi] = E[X] = µ, N i=1 N i=1 (91) d.h. der Erwartungswert des Schätzers ist der gesuchte Parameter. Man beachte, daß der Erwartungswert hier bezüglich der Verteilung aller Stichproben des Umfangs N , d.h. einer N-dimensionalen Zufallsvariablen berechnet wird. Thomas Melzer, GEO Department 117 • Varianz des Stichprobenmittels Gemäß Eq. 75 (Unabhängigkeit der Xi!) und Eq. 76 berechnet sich die Varianz σµ̂ des Schätzers µ̂ als N 2 1 X 2 σX 2 σµ̂ = 2 σX = , N i=1 N (92) 2 σX bezeichnet hier die wahre (und für alle Xi identische) Populationsvarianz. Thomas Melzer, GEO Department 118 • Asymptotische Verteilung des Mittelwertschätzers Die asymptotische Verteilung des Mittelwertschätzers X̄ einer Stichprobe von N iid Beobachtungen mit E[Xi] = µ und V ar[Xi] = σ 2 folgt aus dem zentralen Grenzwertsatz: σ2 X̄ ∼ N (µ, ) N Thomas Melzer, GEO Department (93) 119 • Eigenschaften von Schätzern Sei θ̂ ein Schätzer des Parameters θ. Es sei noch einmal angemerkt, daß Erwartungswerte im Kontext von Schätzern sich auf die Verteilung aller Stichproben vom Umfang N beziehen, siehe Eq. 78. – Erwartungstreue Der bias ist definiert als bias(θ̂) = E[θ̂] − θ. (94) Im Falle der Erwartungstreue gilt bias = 0. – Varianz (variance) var(θ̂) = E Thomas Melzer, GEO Department 2 θ̂ − E[θ̂] (95) 120 q – Die Standardabweichung eines Schätzers se(θ̂) = var(θ̂) wird auch als dessen Standardfehler (standard error) bezeichnet. – Mean Squared Error MSE mse(θ̂) = E[(θ − θ̂)2] = bias2(θ̂) + var(θ̂) (96) – Effizienz Je geringer die Varianz var(θ̂), desto effizienter ist θ̂. – (Asymptotische) Konsistenz Der wahre Populationsparameter lässt sich für N → ∞ beliebig genau Thomas Melzer, GEO Department 121 schätzen. Hierfür ist notwendig, dass sowohl bias als auch variance (und somit der MSE) für N → ∞ gegen 0 gehen. – Robustheit (robustness) Unempfindlichkeit gegenüber Ausreißern (extremen Werten) in der Stichprobe. Das Stichprobenmittel ist z.B. nicht robust, da ein einzelner Ausreißer die Schätzung beliebig weit vom wahren Mittel wegziehen kann. Robuste Schätzer wie der Median sind jedoch i.a. weniger effizient als ihre nicht-robusten Gegenstücke. Thomas Melzer, GEO Department 122 Verwandte Größen sind trueness, welche als Abwesenheit von bias definiert ist, und precision, welche üblicherweise – vor allem in der Statistik – als Kehrwert der Varianz – aufgefaßt wird. Accuracy wird sowohl im Sinne von trueness, als auch als im Sinne einer Kombination von trueness und precison verwendet, daher ist Vorsicht angebracht! Thomas Melzer, GEO Department 123 • Schätzung von Erwartungswerten: Gesetz der großen Zahl Das Populationsmittel Eq. 68 ist als spezieller Erwartungswert definiert. Asymptotisch konsistente Schätzer für andere Erwartungswerte gemäß Eq.62 können analog als Stichprobenmittel konstruiert werden, sprich ZN N 1 X = h(X) = h(Xi) N i=1 (97) ist unter den üblichen Voraussetzungen (Xi iid) ein asymptotisch konsistenter Schätzer von E[h(X)]. Formal wird dies durch das (schwache) Gesetz der großen Zahl ausgedrückt: lim P (|ZN − E[h(X)]| > ) = 0 N →∞ Thomas Melzer, GEO Department (98) 124 Für jedes (beliebig kleine, jedoch positive) und unabhängige Xi geht die Wahrscheinlichkeit, daß sich das Stichprobenmittel um mehr als vom Erwartungswert unterscheidet, mit wachsender Stichprobengröße gegen 0. Wir betrachten im folgenden zwei Spezialfälle, die Schätzung von Anteilen h(X) = IA(X) und die Schätzung der Populationsvarianz h(X) = (X − µ)2. Thomas Melzer, GEO Department 125 • Anteilsschätzer Sei X die Augenzahl beim Würfeln und h(x) = I{4}(x) die Indikatorfunktion für das Elementarereignis “Augenzahl 4“. ZN entspricht somit dem “Anteil der 4er in einer Stichprobe vom Umfang N“, und E[h(X)] dem wahren Anteil (sprich: der Wahrscheinlichkeit), einen 4er zu Würfeln. Salopp formuliert, sagt das Gesetz der großen Zahl, daß sich der beobachtete Anteil ZN mit wachsender Stichprobengröße N beliebig genau der Wahrscheinlichkeit p des Ereignisses annähert. Schätzer des Anteils werden oft mit ZN = p̂ bezeichnet. Anteilsmerkmale sind binomialverteilt; die Verteilung des Schätzers wird in der Praxis aber oft durch eine Normalverteilung p̂ ∼ N Thomas Melzer, GEO Department p(1 − p) p, N (99) 126 mit Mittel p (dem wahren Anteil) und Standardfehler se = angenähert. Thomas Melzer, GEO Department p p(1 − p)/N 127 • Schätzung der Populationsvarianz 2 σ̂X 2 σ̂X = N 1 X (Xi − µ)2 N i=1 (100) = N 1 X (Xi − µ̂)2). N − 1 i=1 (101) Beide Schätzer bezeichnet man als Stichprobenvarianz (sample variance) von X Eq. 100 ist anwendbar, wenn das Populationsmittel µ bekannt ist. Muß es jedoch aus der Stichprobe geschätzt werden, unterschätzt Eq. 100 die Varianz; Eq. 101 korrigiert diesen bias und ist auch bei Verwendung des geschätzten Mittelwerts erwartungstreu. 2 Eine Realisierung von σ̂X werden wir im folgenden mit ŝ2X bezeichnen. Thomas Melzer, GEO Department 128 Form der Verteilung des Varianzschätzers Sind die Stichprobenelemente iid normalverteilt mit Xi ∼ N (µ, σ 2), so gilt: N 1 X 2 2 (X − µ) ∼ χ (N ) i 2 σ i=1 (102) N 1 X 2 2 (X − µ̂) ∼ χ (N − 1) i σ 2 i=1 Thomas Melzer, GEO Department (103) 129 Angabe der Genauigkeit von Schätzungen Ein interessierender Parameter θ ist durch Angabe des Schätzwerts allein i.a. nicht ausreichend bestimmt; es muß auch die mit dem Schätzer verbundene Unsicherheit angegeben werden; im einfachsten Fall kann dies durch Angabe des (geschätzten) Standardfehlers se(θ̂) geschehen. Wird z.B. der Mittelwert eines Merkmals mit bekannter Varianz σ 2 aus einer Stichprobe vom √ Umfang N geschätzt, so ist der pStandardfehler durch se(X̄) = σ/ N gegeben, für Anteilsschätzer durch p(1 − p)/N . Ist die Verteilung des Schätzers bekannt, so läßt sich ein Bereich angeben, welcher den wahren Parameter mit einer gegebenen Wahrscheinlichkeit überdeckt, ein sogenanntes Konfidenz- bzw. Schätzintervall. Thomas Melzer, GEO Department 130 • Einführende Betrachtungen zum Thema Konfidenzintervalle Bei bekannter Verteilung läßt sich für einen interessierenden Parameter θ ein Intervall [θ − a, θ + b] angegeben, welches θ enthält und einen 1 − αAnteil der Verteilung abdeckt. Dieses Intervall ist i.a. nicht eindeutig; wir wollen im folgenden davon ausgehen, daß das Intervall vom linken und rechten Schwanz der Verteilung eine Fläche von je α/2 abschneidet. Wir haben somit P (xα/2 ≤ X ≤ x1−α/2) = (104) P (xα/2 − θ ≤ X − θ ≤ x1−α/2 − θ) = (105) P (−a ≤ X − θ ≤ b) = (106) P (X − b ≤ θ ≤ X + a) = α. (107) Thomas Melzer, GEO Department 131 Man beachte den Positions- und Vorzeichenenwechsel von a und b zwischen Gl. 106 und Gl. 107, welche ein ein sogenanntes αKonfidenzintervall für θ festlegt . Man beachte weiters, daß in Gl. 107 nun die Intervallgrenzen (als Funktionen von X) Zufallsgrößen sind, wohingegen die Größe θ, welche im Inneren des Intervalls liegt, eine (wenn auch unbekannte) Konstante ist. Thomas Melzer, GEO Department 132 Abb. 16 illustriert dies am Beispiel des Medians einer χ2(3)-Verteilung. Die Längen der beiden roten Teilintervalle a und b entsprechen genau dem Abstand vom Median zum 5 bzw. 95-Perzentil der Verteilung; aufgrund der Asymmetrie der χ2-Verteilung sind diese Strecken jedoch ungleich lang; das rote Gesamtintervall [x0.05, x0.95] gibt einen zentralen 0.9-Überdeckungsbereich der Verteilung an. Die beiden grünen Intervalle entsprechen Realisierungen des Konfidenzintervalls (sogenannte SchätzIntervalle) für die zwei Werte X = x0.05 und X = x0.95, welche gerade noch im zentralen 0.95 Überdeckungsbereich der Verteilung (rotes Intervall) liegen. Man sieht, daß diese beiden Schätz-Intervalle gerade noch den Parameter θ überdecken (man beachte auch die Vertauschung der Teilintervalle in den Schätzintervallen im Vergleich zum wahren Überdeckungsbereich); in jenen 10% der Fälle, wo X außerhalb des roten 0.9-Überdeckungsbereichs liegt, enthält das Konfidenzintervall den Parameter θ nicht. Thomas Melzer, GEO Department 133 Abbildung 16: DF der χ2(3) Verteilung. Die Markierungen auf der roten Strecke entsprechen dem 5, 50 und 95-Perzentil. Die grünen Strecken sind Schätzintervalle für θ = x0.5 für zwei extreme Beobachtungen an der unteren und oberen Grenze des zentralen 95%-Überdeckungsbereichs der Verteilung. Thomas Melzer, GEO Department 134 • Konfidenzintervall am Beispiel des Stichprobenmittels Wenn die Strichprobenelemente Xi iid normalverteilt sind, d.h, Xi ∼ N (µ, σ 2), 1 ≤ i ≤ N , so ist das Stichprobenmittel µ̂ ebenfalls normalσ2 verteilt mit µ̂ ∼ N (µ, N ). Bezeichne zα das α-Quantil der Standardnormalverteilung. Es gilt P (zα/2 ≤ µ̂ − µ √σ N ≤ z1−α/2) = 1 − α, (108) bzw. konkret für α = 0.05: P (z0.025 ≤ µ̂ − µ √σ N ≤ z0.975) = 0.95, (109) sprich: der Schätzer µ̂ liegt mit 95%iger Wahrscheinlichkeit (für 95 von Thomas Melzer, GEO Department 135 100 Stichproben) im Intervall: σ σ √ √ [µ + z0.025 , µ + z0.975 ] N N bzw. unter Verwendung der Identität zα = −z1−α σ σ [µ − z0.975 √ , µ + z0.975 √ ] N N (110) Durch Umformung erhält man σ σ P (µ̂ − z0.975 √ ≤ µ ≤ µ̂ + z0.975 √ ) = 0.05 N N (111) sprich: für 95 von 100 Stichproben überdeckt das obige 0.95-KonfidenzIntervall (confidence interval) den wahren Populations-Parameter µ. Thomas Melzer, GEO Department 136 Für eine Realisierung m̂ von µ̂ bezeichnet man σ σ [m̂ − z0.975 √ , m̂ + z0.975 √ ] N N (112) auch als Schätz-Intervall. Thomas Melzer, GEO Department 137 – Man beachte, daß für eine gegebene Stichprobe (Realisierung des Schätzers) das obige Intervall nichts über die Verteilung des Schätzers aussagt: der wahre Parameter wird entweder vom Schätz-Intervall überdeckt oder nicht. – Ist die Populationsvarianz nicht bekannt, sondern muß diese aus der Stichprobe geschätzt werden, so ist die standardisierte√ Abweichung N µ−µ̂ des Stichprobenmittels vom wahren Mittel se(µ̂) = (µ̂−µ) Student-t σ̂ verteilt mit N − 1 Freiheitsgraden. Da sich die Student-t Verteilung jedoch (als Funktion von N ) der Normalverteilung recht schnell annähert, wird in der Praxis meist die Normalverteilung verwendet. – Für Stichproben-Mittelwerte kann, auch wenn das Merkmal in der Grundgesamtheit nicht normalverteilt ist, bei nicht zu kleinen Stichproben die Normalverteilung angenommen werden(zentraler Grenzwertsatz); dies gilt jedoch nicht für andere Schätzer. Thomas Melzer, GEO Department 138 Testtheorie • Die Testtheorie ist mit dem Problem befaßt, festzustellen, ob eine Beobachtung zu einer gegebenen Population (Klasse) gehört; diese Klasse (genauer gesagt, die Annahme, daß ein Objekt dieser Klasse angehört) wird als Null-Hypothese H0 bezeichnet. Dieser Klasse wird normalerweise eine zweite Klasse, die Alternativ-Hypothese H1 gegenübergestellt. Die betrachten Klassen bzw. Hypothesen sind jedoch nicht gleichwertig; die Semantik der Klassen ist anwendungsabhängig, i.a. bedeutet H0 jedoch Normalfall”bzw. ”keine Veränderung”, H1 hingegen ”deutliche Veränderung”. Anmerkung: H0 und H1 sind in der statistischen Testtheorie übliche Bezeichnungen, welche wir hier übernehmen. Thomas Melzer, GEO Department 139 Beispiele: – Ist ein Patient gesund (H0) oder krank (H1)? – Genügt ein Werkstück den Qualitätsanforderungen (H0) oder ist es defekt (H1)? – Führt ein Tempolimit zu weniger Unfällen (H1) oder nicht (H0)? – Verringert eine neue Krebstherapie die Mortalitätsrate (H1) oder nicht? – Wurde ein Radarecho von einem Objekt verursacht (H1) oder handelt es sich um Rauschen (H0)? Die Testtheorie stellt einen statistischen Rahmen für die Behandlung von asymmetrischen, binären Klassifizierungsproblemen zur Verfügung; in der Signalverarbeitung spricht man auch in diesem Zusammenhang auch von Detektion. Für viele der relevanten Begriffe gibt es in den verschiedenen Disziplinen unterschiedliche Bezeichnungen; wir beginnen zunächst mit jenen in der Mustererkennung üblichen. Thomas Melzer, GEO Department 140 • Kenngrößen von binären Klassifikatoren Wir gehen im folgenden von zwei Populationen (Klassen) H1 und H0 aus, die anhand eines gemeinsamen Merkmals X unterschieden werden sollen. Sei T ein Test (binärer Klassifikator), der entscheiden soll, ob ein gegebenes Objekt zu H1 gehört (T = +) oder zu H0 (T = −). Es gibt 4 mögliche Kombinationen von Testergebnissen und wahren Klassenzugehörigkeiten: + - H1 true positive (tp) false negative (fn) H0 false positive (fp) true negative (tn) Tabelle 5: Tatsächliche Klassenzugehörigkeit (Spalten) vs. vorhergesagte Klassenzugehörigkeit (Zeilen) . Thomas Melzer, GEO Department 141 Wenn in obiger Tabelle für jedes Ereignis (z.B tp) dessen Häufigkeit (z.B. #tp) eingetragen wird, erhalten wir eine Kontingenztafel. Die nachfolgenden Wahrscheinlichkeiten lassen sich aus einer solchen Kontingenztafel berechnen (endliche Grundgesamtheit) bzw. schätzen (Stichprobe): – Sensitivität (sensitivity, true positive rate tpr) #tp P (+|H1), #tp+#f n – Falsch-Negativ-Rate (false negative rate, fnr) #f n P (−|H1) = 1 − P (+|H1), #tp+#f n – Spezifität (specificity, true negative rate, tnr) #tn P (−|H0), #tn+#f p – Falsch-Positiv-Rate (false positive rate, fpr) #f p P (+|H0) = 1 − P (−|H0), #tn+#f p Thomas Melzer, GEO Department 142 Man beachte, daß z.B P (tp) = P (+, H1) = P (+|H1)P (H1) = tprP (H1) (113) Werden die Zeilen statt der Spalten als Referenz (bedingende Größen) verwendet, erhält man z.B. folgende Wahrscheinlichkeiten: – Positiver Vorhersagewert (positive predictive value, ppv) #tp P (H1|+), #tp+#f p – Negativer Vorhersagewert (negative predictive value, npv) #tn P (H0|−), #tn+#f n Wir werden auf diese Zusammenhänge im Rahmen der BayesKlassifizierung näher eingehen. Thomas Melzer, GEO Department 143 • Eine falsch positive Entscheidung wird in der statistischen Test-Theorie auch als α-Fehler oder Fehler der ersten Art, eine falsch negative Entscheidung als β-Fehler oder Fehler der zweiten Art, und die Sensitivität als Macht (power) des Tests bezeichnet. α bzw. β bezeichnen die korrespondierenden bedingten Wahrscheinlichkeiten. Hier noch einmal die Entsprechungen zu den oben eingeführten Bezeichnungen. – – – – P (+|H0): P (−|H0): P (+|H1): P (−|H1): fpr, α, Signifikanz-Niveau (siehe unten) tnr, 1 − α tpr, 1 − β, Macht fnr, β Thomas Melzer, GEO Department 144 • Bespiel: Münzwurf Im nachfolgenden Beispiel wird die Statistik ” Anzahl von Kopf in 100 Münzwürfen” herangezogen, um zu entscheiden, ob eine Münze fair ist. Tatsächlich ist das betrachtete Merkmal binomialverteilt Bi(100, 0.5), wir nutzen hier jedoch die p Normalverteilungs-Approximation des Anteils mit Standarfehler se = p(1 − p)/100 = 0.5/10 = 0.05. Wir nehmen an, daß der Anteil für die H0 und H1 jeweils normalverteilt mit Mittel µ0 = 0.5 bwz. µ1 = 0.6 und identischer Varianz σ 2 = 0.052 ist. Die H0 wird akzeptiert, wenn die Ausprägung von X in ein symmetrisches Intervall 0.5 ± 1.96 ∗ 0.05 fällt, welches die Verteilung von H0 zu 95 % abdeckt. Dies ist in Abb. 17 dargestellt. Fällt eine Ausprägung hingegen in den blau schraffierten Ablehnungsbereich (Schwänze der H0), so wird die H1 angenommen, und die H0 abgelehnt; in der Statistik spricht man von einem (auf α-Niveau) signifikanten Ergebnis. Thomas Melzer, GEO Department 145 Abbildung 17: Links: α (fpr) und β (fnr) für H0 X ∼ N (0.5, 0.052) und H1 X ∼ N (0.6, 0.052). Thomas Melzer, GEO Department 146 Die fpr α sagt, wie wahrscheinlich es ist, daß eine faire Münze als unfair erkannt wird (hier: 0.05). Die fnr β hingegen sagt, wie wahrscheinlich es ist, daß ein tatsächlicher Unterschied nicht erkannt wird. Dies hängt u.a. von der Größe des in der H1 postulierten Unterschieds zur H0 ab: je größer der zu erkennende Unterschied, desto geringer β. Dieser Zusammenhang ist in Abb. 18 dargestellt . Die blaue Kurve entspricht dem in Abb. 17 dargestellten Fall; für N = 100 wird für µ1 = 0.6 eine unfaire Münze nur in 50% der Fälle detektiert. Thomas Melzer, GEO Department 147 Abbildung 18: Sensitivität 1 − β (Macht) als Funktion des wahren Mittels µ1 für unterschiedliche Stichprobengroßen (Standardfehler). Thomas Melzer, GEO Department 148 Weitere Möglichkeiten, β zu verringern (also die Sensitivität zu vergrößern), bestehen darin ein größeres α zuzulassen, oder den Standardfehler zu verringern (z.B. durch Vergrößerung des Stichprobenumfangs). Die Sensitivität 1 − β dargestellt als Funktion von α wird als ROC-Kurve bezeichnet (siehe auch Anhang A). Thomas Melzer, GEO Department 149 Abbildung 19: ROC-Kurven für µ1 = 0.6 und unterschiedliche Stichprobengrößen. Man sieht wiederum, daß für N = 100 mit einer fpr von α = 0.05 eine Sensitiviät von 1 − β = 0.5 erzielt werden kann. Thomas Melzer, GEO Department 150 • Hypothesentest am Beispiel des Stichprobenmittels Angenommen, wir sind daran interessiert, ob eine neue Behandlungsmethode H1 deutlich andere Ergebnisse als eine etablierte Methode H0 mit Populationsmittel µ0 liefert. Sei m̂ sei das Mittel einer Stichprobe vom Umfang N , und wir möchten nun überprüfen, ob dieses mit der gegebenen Null-Hypothese H0 : µ = µ0 kompatibel ist. Wir betrachten dazu die hypothetische Verteilung des Schätzers unter H0 µ̂|H0 ∼ N (µ0, σ ) N (114) Ist für eine gegebene Stichprobe die Abweichung zwischen m̂ und µ0 zu groß, so wird man die H0 nicht mehr akzeptieren. Setzen wir z.B. in Eq. 110 µ = µ0, so liegt das Stichprobenmittel mit 95%iger WahrscheinThomas Melzer, GEO Department 151 lichkeit innerhalb des Intervalls σ σ [µ0 − z0.975 √ , µ0 + z0.975 √ ] N N (115) Angenommen, die H0 ist wahr. Kommt m̂ außerhalb des Intervalls Eq. 110 zu liegen, verwerfen wir die H0, obwohl sie wahr ist: wir begehen einen Fehler erster Art. Die Wahrscheinlichkeit, daß dies geschieht, ist im obigen Beispiel α = 0.05. Ein Testergebnis, welches in den Ablehnungsbereich der H0 fällt, wird als signifikant bezeichnet, α als Signifikanz-Niveau (significance level) des Tests. Für den oben formulierten Test gilt, daß für gegebenes Stichprobenmittel m̂ alle Null-Hypothesen auf dem α = 0.05-Niveau akzeptiert werden, für welche µ0 innerhalb des Schätz-Intervalls Eq. 112 liegt; in andereren Worten: – µ0 liegt im Intervall Eq. 112 g.d.w. m̂ liegt im Intervall Eq. 115 Thomas Melzer, GEO Department 152 Dieser Zusammenhang zwischen Konfidenz-Intervallen und HypothesenTests gilt jedoch nicht für alle Tests. Man beachte, daß die Aussage ”Das Ergebnis ist auf 0.05-Nivau signifikant.” deutlich weniger Information liefert als die Angabe des Schätzwertes plus Standardfehler bzw. des korrespondierenden Schätzintervalls; letztere sind einem Signifikanztest stets vorzuziehen! Thomas Melzer, GEO Department 153 • p-Wert (p-value) Dies ist ein aus der Statistik stammender Begriff, der in der Musterkennung kaum verwendet wird, wohl aber in den Naturwissenschaften. Unter dem p-Wert eines Ereignisses (Merkmalsausprägung) x versteht man die Wahrscheinlichkeit, daß unter Voraussetzung der H0 ! x oder ein extremerer Wert (extrem im Sinne von: nicht mit der H0 vereinbar) beobachtet wird. Der p-Wert darf nicht mit dem Signifikanz-Niveau α verwechselt werden: α (fpr) ist eine Eigenschaft des Tests, der p-Wert hingegen eine Eigenschaft einer konkreten Messung bzw. Stichprobe. Beobachtungen, deren p-Wert kleiner als das vorab gewählte Signifikanzniveau α ist, gelten als signifikant und führen zu einem Verwerfen der H0. Thomas Melzer, GEO Department 154 Beispiel: Wir betrachten die Verbesserung der Durchschnittsnoten X̄ einer nach einer neuen Methode unterrichteten Schulklasse im Vergleich zum nationalen Durchschnitt µ0. X̄ sei unter der H0: ” Es besteht kein Unterschied in den Leistungen” normalverteilt mit N (µ0, se2). Wir wählen einen einseitigen Test mit 0.05-Signifikanzniveau und H1: ”Die neue Methode ist besser”. Eine beobachtete Differenz von x = 1.88 ∗ se entspricht einem p-Wert von 1−F (1.88) = 0.03, was kleiner als das vorab gewählte Signifikanz-Niveau 0.05 ist und somit zu einem signifikanten Test-Ergebnis führt (H1 wird akzeptiert). Thomas Melzer, GEO Department 155 Bayes-Theorem • Das Bayes-Theorem erlaubt es, die bedingte Wahrscheinlichkeit P (B|A) als Funktion der Randverteilungen P (A), P (B) und der bedingten Wahrscheinlichkeit P (A|B) auszudrücken: P (A|B)P (B) P (B|A) = . P (A) (116) P (B) . . . a priori Wahrscheinlichkeit (prior ) von B P (B|A) . . . a posteriori Wahrscheinlichkeit (posterior ) von B unter A Thomas Melzer, GEO Department 156 Repräsentiert insbesondere X ein Merkmal und ω die Klassenzugehörigkeit von Mustern, so gibt im Falle der beobachteten Merkmalsausprägung X = i P (X = i|ω = j)P (ω = j) P (ω = j|X = i) = P (X = i) (117) die Wahrscheinlichkeit an, dass das Muster zur Klasse j gehört. Wir schreiben im folgenden, wie in der Literatur üblich, oft kurz ωj für ω = j, um anzuzeigen, dass die Zufallsvariable ω den Wert j annimmt; dies sollte nicht mit der Aussage verwechselt werden , dass ωj die j-te Komponente eines Zufallsvektors darstellt! Thomas Melzer, GEO Department 157 • Bayes-Inferenz Eq. 117 P (X = i|ωj )P (ωj ) P (ωj |X = i) = P (X = i) transformiert die a priori Wahrscheinlichkeit P (ωj ), dass ein Muster in die jte Klasse fällt, nach Beobachtung einer Merkmalsausprägung X = i in die a posteriori Wahrscheinlichkeit P (ωj |X = i), welche diese zusätzliche Information über den Versuchsausgang widerspiegelt. • Bayessche Entscheidungsregel (Bayes Decision Rule) Gegeben die Beobachtung (Merkmalsausprägung) X = i, entscheide für die Klasse k, welche die größte a posteriori Wahrscheinlichkeit aufweist: k = arg max P (ωj |X = i). j Thomas Melzer, GEO Department (118) 158 Dies ist ein diskreter Spezialfall des Bayesschen Pendants zu Maximum Likelihood, der sogenannten Maximum A Posteriori (MAP) Regel: wähle jenen Wert für den gesuchten Parameter (hier: Klassenzugehörigkeit) mit maximaler a posteriori Wahrscheinlichkeit. Ist der gesuchte Parameter hingegen eine stetige Größe, so ist auch die a posteriori Verteilung stetig (der posterior wäre in diesem Fall eine Dichtefunktion). Thomas Melzer, GEO Department 159 • Bezeichne im folgenden c die Anzahl der Klassen P (ωj |Xi) = P (Xi|ωj )P (ωj ) P (Xi) Es gilt c X P (ωj |Xi) = 1 (119) P (Xi|ωj )P (ωj ) (120) j=1 P (Xi) = c X j=1 Thomas Melzer, GEO Department 160 • Bayes-Theorem für stetige Merkmale Wir nehmen im folgenden eine stetige Merkmalsvariable X mit zugeordneter pdf p(x) an. Eq. 117 wird zu P (ωj |x) = p(x|ωj )P (ωj ) . p(x) (121) p(x|ωj ) wird (als Funktion von x) als class conditional pdf von x bzg. ωj bezeichnet. Diese beschreibt die Verteilung des Merkmals X für eine gegebene Klasse ωj und besitzt alle Eigenschaften einer “normalen” Dichtefunktion. Betrachtet man p(x|ωj ) hingegen als Funktion der Klasse ωj für festes x, so spricht man von der likelihood von ωj bzg. x. Man bemerkt, dass die priors and posteriors weiterhin Wahrscheinlichkeiten sind. Thomas Melzer, GEO Department 161 p(x|ωi) P(ωi|x) 0.4 ω2 1 ω1 0.3 ω1 0.8 0.6 0.2 0.4 ω2 0.1 0.2 x 9 10 11 12 13 14 15 x 9 10 11 12 13 14 15 FIGURE 2.1. Hypothetical class-conditional probability density functions the FIGURE show 2.2. Posterior probabilities for the particular priors P (ω1 ) = 2/3 and P (ω2 ) probability density of measuring a particular feature value x given=the pattern is in 1/3 for the class-conditional probability densities shown in Fig. 2.1. Thus in this describe category ωi . If x represents the lightness of a fish, the two curves might case, given that the a pattern is measured to have feature value x = 14, the probability it is difference in lightness of populations of two types of fish. Density functions are normalin category ω2 is roughly 0.08, and that it is in ω1 is 0.92. At every x , the posteriors sum ized, and thus the area under each curve is 1.0. From: 1 Richard O. Duda, Peter E. Hart, 2O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. to 1.0. From: Richard c 2001 by John Wiley & and David G. Stork, Pattern Classification. Copyright c Sons, Copyright 2001 by John Wiley & Sons, Inc. Inc. Abbildung 20: Class conditional pdfs (links) und korrepondierende a posteriori probabilities für P (ω ) = 2/3 und P (ω ) = 1/3 (rechts). (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 162 Den Nenner p(x) in Eq. 121 (evidence) erhält man - analog zum diskreten Fall - als c X p(x) = p(x|ωj )P (ωj ). (122) j=1 Die evidence fungiert als Normalisierungsfaktor und stellt sicher, dass die Summe der posteriors über alle Klassen 1 ergibt. Man bemerkt jedoch, dass die evidence p(x) für alle Klassen identisch ist und daher keinen Einfluss auf das Verhältnis der posteriors hat. Für die Bestimmung der Klasse mit der größten a posteriori Wahrscheinlichkeit ist daher das Verhältnis der mit den korrespondierenden priors gewichteten likelihoods p(x|ωi)P (ωi) hinreichend. Ähnliches gilt im Falle identischer priors P (ωi) = P (ωj ), 1 ≤ i, j ≤ c: in diesem Fall müssen nur likelihoods berücksichtigt werden. Thomas Melzer, GEO Department 163 • Likelihood Ratio Die obigen Überlegegungen führen für den Fall c = 2 zu folgender, äquivalenter Formulierung der Bayes rule: – Entscheide für ω1, falls P (ω1|x) > P (ω2|x) p(x|ω1)P (ω1) > p(x|ω2)P (ω2) p(x|ω1) p(x|ω2) Der Ausdruck p(x|ω1 ) p(x|ω2 ) > P (ω2) . P (ω1) (123) wird als likelihood ratio bezeichnet, der Aus- P (ω2 ) druck P (ω1 ) als threshold. Übersteigt die likelihood ratio den threshold, entscheidet man für ω1, sonst für ω2. Thomas Melzer, GEO Department 164 Fehlerwahrscheinlichkeit, Loss und Risk Wir gehen bis auf weiters von einem binären Klassifikationsproblem (c = 2) aus. Laut Bayes-Theorem Eq. 121 ergibt sich für jede Merkmalsausprägung x die (bedingte) Wahrscheinlichkeit der Fehlklassifikation (conditional error) P (error|x) zu – P (ω2|x), falls wir für ω1 entscheiden – P (ω1|x), falls wir für ω2 entscheiden. Der mittlere Fehler P (error), die error rate (Fehlerrate), berechnet sich gemäß Eq. 62 als Z +∞ P (error) = P (error|x)p(x)dx. (124) −∞ Thomas Melzer, GEO Department 165 • Optimalität der Bayes Decision Rule Die Bayes Decision Rule entscheidet für die Klasse ωk mit der höchsten a posteriori Wahrscheinlichkeit k = arg max P (ωj |x). j (125) Daher ergibt sich die bedingte Fehlerwahrscheinlichkeit P (error|x) zu min[P (ω1|x), (P (ω2|x)] = 1 − max[P (ω1|x), (P (ω2|x)]. (126) Die Bayes Rule minimiert also den Integranden P (error|x) in Eq. 124 für jede Merkmalsausprägung x, und folglich auch die mittlere Fehlerwahrscheinlichkeit P (error). Die unter Verwendung der Bayes rule erzielte mittlere Fehlerwahrscheinlichkeit wird auch als Bayes error rate bezeichnet. Thomas Melzer, GEO Department 166 • Der allgemeine Fall: c ≥ 2 Entscheidet man sich im Punkt x für die Klasse ωi, so ergibt sich die bedingte Fehlerwahrscheinlichkeit im allgemeinen Fall zu P (error|x) = X P (ωj |x) = 1 − P (ωi|x), (127) j6=i bzw. unter der Bayes decision rule zu P (error|x) = 1 − max P (ωj |x). j Thomas Melzer, GEO Department (128) 167 • Entscheidungsfunktion α(x) : x 7→ j Assoziiert mit jeder Merkmalsausprägung x eine bestimmte Aktion j, i.a. die Zuweisung eines Klassenlabels j ∈ {1 . . . c} (z.B. Bayes rule). – α partitioniert den Merkmalsraum vollständig in c disjunkte Entscheidungs-Regionen (decision regions) Ri, wobei Ri = {x : α(x) = i}. (129) – Die Grenze zwischen jeweils zwei decision regions wird als Entscheidungsgrenze (decision boundary ) bezeichnet. – Entlang der decision boundaries bestehen sogenannte ties in Form von Merkmalausprägungen, welche bzg. des gewählten Klassifikationskriteriums (z.B. posterior probability ) denselben Wert erzielen. – Die decision regions müssen nicht zusammenhängend sein. Im Fall der Bayes rule verschieben größere priors die Entscheidungsgrenze Thomas Melzer, GEO Department 168 in Richtung der a priori weniger wahrscheinlichen Klasse. Thomas Melzer, GEO Department 169 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 R1 0.4 0.5 R2 0.3 0.3 0.2 0.2 0.1 0.1 0 0 1 2 3 4 5 6 7 8 P (ω1) = 0.5, P (ω2) = 0.5 9 R1 0.4 10 0 0 1 2 R2 3 4 5 6 7 8 9 10 P (ω1) = 0.9, P (ω2) = 0.1 Abbildung 21: Bayes decision boundaries (schwarz gestrichelt) und korrespondierende decision regions für zwei Klassen ω1 und ω2 mit normalverteilten Merkmalen (Mittel µ1 = 4, µ2 = 6, Varianz σ12 = σ22 = 1). Die pdfs sind gestrichelt, die posteriors durchgezogen dargestelt. Thomas Melzer, GEO Department 170 0.25 0.4 0.2 0.3 0.15 R1 0.1 R2 R2 0.1 0.05 0 R1 0.2 0 1 2 3 4 5 6 7 8 P (ω1) = 0.5, P (ω2) = 0.5 9 10 0 0 1 2 3 4 5 6 7 8 9 10 P (ω1) = 0.9, P (ω2) = 0.1 Abbildung 22: Bayes decision boundaries (schwarz gestrichelt) für die Klassen aus Abb. 21. Dargestellt ist der Verlauf der gewichteten pdfs p(x|ω1)P (ω1) und p(x|ω2)P (ω2). Thomas Melzer, GEO Department 171 • Im Fall c = 2 lässt sich für eine gegebene Entscheidungsfunktion α(x) die Fehlerrate (error rate) Eq. 124 auch folgendermaßen formulieren Z +∞ P (error|x)p(x)dx = P (error) = −∞ Z Z P (ω2|x)p(x)dx + R1 P (ω1|x)p(x)dx = (130) P (ω1)p(x|ω1)dx = (131) R2 Z Z P (ω2)p(x|ω2)dx + R1 R2 P (ω2)ε2 + P (ω1)ε1. (132) Hierbei gibt εj die Wahrscheinlichkeit an, dass ein ein Muster aus Klasse ωj von α(x) falsch klassifiziert wird (d.h. in eine Entscheidungs-Region Ri mit i 6= j fällt). Die Fehlerrate ergibt sich als mit den korrespondierenden priors gewichtetes Mittel der εi. Thomas Melzer, GEO Department 172 p(x|ωi)P(ωi) ω2 ω1 reducible error x R1 ∫p(x|ω )P(ω ) dx 2 R1 2 xB x* R2 ∫p(x|ω )P(ω ) dx 1 1 R2 FIGURE 2.17. Components of the probability of error for equal priors and (nonoptimal) x ∗ .beiden The pink Komponenten area corresponds toder the probability of errors deciding ω1 und decision point Abbildung 23: Die Fehlerrate P (ωfor 1 )ε 1 (grau) when the state of nature is in fact ω2 ; the gray area represents the converse, as given in P (ω2)ε (rosa) für zwei Entscheidungsgrenzen: die optimale Grenze xB Eq.2 70. If the decision boundary is instead at the point of equal posterior probabilities, und eine nicht-optimale Grenze x∗. Die Enscheidungsgrenze xB , then this reducible error is eliminated andnichtoptimale the total shaded area is the minimum is the Bayes and gives Bereich the Bayes error rate. From: Richard führt possible; zu einerthisum den rotdecision umrandeten (reducible error ) grO. ößeren c Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright 2001 by Fehlerrate. (Aus Duda, John Wiley & Sons, Inc. Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 173 • Loss Function L(α(x), j) Die loss function (kurz: loss) gibt die mit der Entscheidung α(x) verbundenen Kosten (cost) an, wenn die wahre Klassenzugehörigkeit durch ω = j gegeben ist. Meistens findet der sogenannte 0/1-loss Anwendung L(α(x), j) = 1 − δα(x),j = 1 if α(x) 6= j 0 if α(x) = j. (133) Der für eine gegebene Merkmalsausprägung x erwartete loss bzg. der Klassenzugehörigkeit ω ergibt sich zu R(α(x)|x) = E[L(α(x), ω)] = c X L(α(x), j)P (ωj |x). (134) j=1 Thomas Melzer, GEO Department 174 • Risk Der Erwartungswert einer loss-Funktion wird risk genannt. Da R(α(x)|x) in Eq. 134 den Erwartungswert von L bzg. aller Klassen an der Stelle x berechnet, wird R(α(x)|x) als conditional risk (bzg. x) bezeichnet. Das total risk R über alle möglichen Merkmalsausprägungen erhalten wir wiederum gemäß Eq. 62 Z +∞ R(α(x)|x)p(x)dx. R= (135) −∞ Analog zur Bayes rule lässt sich das total risk R minimieren, indem man das conditional risk R(α(x)|x) in jedem Punkt x minimiert. Thomas Melzer, GEO Department 175 Klarerweise hängt R(α(x)|x) von α(x) ab; um die optimale Entscheidung im Punkt x zu bestimmen, führen wir zunächst folgende Kurzbezeichnung ein; sei λij der Wert der loss-Funktion im Falle dass x zur Klasse ωj gehört und α(x) = i (kurz: αi) zurückliefert λij = L(i, j) (136) Eq. 134 läßt sich somit folgendermaßen schreiben R(i|x) = c X λij P (ωj |x). (137) j=1 Für 0/1-loss gilt λij = 1 − δij , sodass X R(i|x) = P (ωj |x) = 1 − P (ωi|x). (138) j6=i Thomas Melzer, GEO Department 176 Das conditional risk R(i|x) unter 0/1-loss (Eq. 138) ist also identisch mit dem conditional error P (error|x) (Eq. 127). R(α(x)|x) wird in jedem Punkt x minimal, wenn α(x) die Bayes decision rule implementiert, d.h. das Label der Klasse mit der größten a posteriori Wahrscheinlichkeit zurückliefert α(x) = arg max P (ωj |x). j (139) • Asymmetrischer Loss Der 0/1-loss wird häufig auch als symmetrical loss bezeichnet. Eine asymmetrische loss-Funktion kann verwendet werden, um die Fehlklassifikation von verschiedenen Klassen unterschiedlich stark zu “bestrafen”. Achtung: das total risk kann jedoch nur unter 0/1-loss als Fehlerrate, d.h. als mittere Fehlerwahrscheinlichkeit interpretiert wird. Thomas Melzer, GEO Department 177 • Beispiel: Früherkennung von Krankheiten Sei X ein Merkmal, welches verwendet wird, um gesunde (ω1) von potentiell kranken (ω2) Patienten zu unterscheiden; in diesem Fall ist es “kostspieliger”, einen kranken Patienten als gesund zu klassifieren als einen gesunden Patienten als krank. Schreiben wir Eq. 137 für die beiden möglichen Entscheidungen α(x) = 1 und α(x) = 2 explizit aus, so erhalten wir R(1|x) = λ11P (ω1|x) + λ12P (ω2|x) R(2|x) = λ21P (ω1|x) + λ22P (ω2|x). (140) In unserem Beispiel sollte klarerweise λ12 > λ21 gelten. Thomas Melzer, GEO Department 178 Um das conditional Risk im Punkt x zu minimieren, entscheiden wir für ω1, falls R(2|x) > R(1|x) λ21P (ω1|x) + λ22P (ω2|x) > λ11P (ω1|x) + λ12P (ω2|x) (λ21 − λ11)P (ω1|x) > (λ12 − λ22)P (ω2|x) (λ21 − λ11)P (ω1)p(x|ω1) > (λ12 − λ22)P (ω2)p(x|ω2). (141) Man sieht, dass der loss effektiv die priors neu gewichtet und somit die Entscheidungsgrenze von der stärker gewichteteten Klasse weg verschiebt. Um die Diskussion zu vereinfachen, nehmen im folgenden λ11 = λ22 = 0 an. Thomas Melzer, GEO Department 179 0.4 0.4 0.3 0.3 R1 0.2 R2 0.1 0 R1 0.2 R2 0.1 0 1 2 3 4 5 6 λ21 = 1 7 8 λ12 = 1 9 10 0 0 1 2 λ21 = 1 3 4 5 6 7 8 9 10 λ12 = 5 Abbildung 24: Minimum risk decision boundaries für die Klassen aus Abb. 21 mit priors P (ω1) = 0.9 und P (ω2) = 0.1. Dargestellt sind die Funktionen p(x|ω1)λ21P (ω1) und p(x|ω2)λ12P (ω2). Für 0/1-loss (links) sind risk minimization und minimum error rate classification äquivalent. Für λ12 > λ21 (rechts) verschiebt sich die Entscheidungsgrenze in Richtung der Klasse ω1. Thomas Melzer, GEO Department 180 Die Ungleichung Eq. 141 lässt sich analog zu Eq. 123 äquivalent als likelihood ratio formulieren (λ21 − λ11)P (ω1)p(x|ω1) > (λ12 − λ22)P (ω2)p(x|ω2) p(x|ω1) p(x|ω2) Thomas Melzer, GEO Department > P (ω2) (λ12 − λ22) . P (ω1) (λ21 − λ11) (142) 181 p(x|ωi) 0.4 ω2 p(x|ω1) p(x|ω2) ω1 0.3 θb θa 0.2 0.1 x x 9 10 11 12 13 14 15 R2 R1 R2 R1 FIGURE 2.1. Hypothetical class-conditional probability density functions the likelihood ratio p(x |ω1 )/p(x |ω2 ) for the distributions shown in FIGUREshow 2.3. The probability density of measuring a particular feature value x given Fig. the 2.1. pattern in If weis employ a zero-one or classification loss, our decision boundaries are describe category ωi . If x represents the lightness of a fish, the two curves might determined by the the threshold θa . If our loss function penalizes miscategorizing ω2 as ω1 difference in lightness of populations of two types of fish. Density functions aremore normalpatterns than the converse, we get the larger threshold θb , and hence R1 becomes smaller. Richard O.1Duda, Peter E. Hart, and David G. Stork, ized, and thus the area under each curve is 1.0. From: Richard O. Duda, PeterFrom: E. Hart, 2 Pattern Classificac 2001 by John Wiley & Sons, Inc. . Copyright tionWiley c 2001 by John & Sons, and David G. Stork, Pattern Classification. Copyright Inc. a 12 21 Abbildung 25: Class conditional pdfs (links) und korrepondierende likelihood ratio (rechts) . Für 0/1-loss und priors P (ω ) = 2/3 und P (ω ) = 1/3 erhält man den threshold θ . Ein asymmetrischer loss mit λ > λ erhöht den threshold (θb) und verkleinert somit die Entscheidungsregion für ω1. (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 182 Stetige Verteilungen III Der allgemeine multivariate Fall: p ≥ 2 ~ = • Die marginal pdf der i-ten Variable (Komponente) von X (X1, . . . , XP )T erhält man durch Integration der joint pdf über alle anderen Variablen Z +∞ Z +∞ p(x1, . . . , xp)dx1 . . . dxi−1dxi+1 . . . dxp. (143) ... pi(xi) = −∞ Thomas Melzer, GEO Department −∞ 183 Die marginal pdf einer Menge von Variablen S erhält man durch Integration der joint pdf über die restlichen Variablen {X1, . . . , Xp} − S. Z.B. ergibt sich die marginal pdf von S = {X1, . . . , Xr } zu p1...r (x1, . . . , xr ) = Z +∞ Z +∞ p(x1, . . . , xr , xr+1, . . . , xp)dxr+1 . . . dxp. ... −∞ (144) −∞ Die marginal cdf der i-ten Komponente erhält man durch Integration über die marginal pdf der i-ten Komponente Z xi Fi(xi) = F (+∞, . . . , +∞, xi, +∞, . . . , +∞) = pi(x0i)dx0i. (145) −∞ (Analog für eine Menge von Variablen.) Thomas Melzer, GEO Department 184 • Sind X1, . . . , Xp wechselseitig unabhängig (mutually independent), so faktorisieren die Dichte- und Verteilungsfunktion in ihre jeweiligen Randverteilungsfunktionen: F (x1, . . . , xp) = F1(x1) . . . Fp(xp) = Y Fi(xi), (146) i p(x1, . . . , xp) = p1(x1) . . . pp(xp) = Y pi(xi). (147) i Thomas Melzer, GEO Department 185 • Erwartung und Momente Die Erwartung E[] einer reellwertigen Funktion einer multivariaten Zufallsvariablen X h : IRp → IR ist definiert als ~ E[h(X)] = Z +∞ h(x)p(x)dx −∞ Z +∞ Z +∞ h(x1, . . . , xp)p(x1, . . . , xp)dx1 . . . dxp. ... = −∞ (148) −∞ Für h(X1, . . . , Xp) = p Y i=1 Xili , li ∈ IN, p X li = k, (149) i=1 ~ erhält man die Momente k-ter Ordnung (k-th order moments) von X. Thomas Melzer, GEO Department 186 Speziell erhält man für k = 1 die p Momente erster Ordnung µi Z +∞ Z +∞ ... µi = x01 . . . x0i−1x1i x0i−1 . . . x0p p(x1, . . . , xp)dx1 . . . dxp −∞ −∞ Z +∞ Z +∞ xpi(x)dx = E[Xi]. xipi(xi)dxi = = −∞ (150) −∞ Wie man leicht sieht, ist Eq. 150 äquivalent zu Eq. ??, dem Mittelwert im univariaten Fall; µi ist also das Mittel von Xi. ~ µ Die µi sind die Kompomenten des Mittelwertvektors von X, ~ = (µ1, . . . , µp)T = (E[x1], . . . , E[xp])T . µ = E[X] (151) µ beschreibt als Ortparameter das Zentrum (den Schwerpunkt) der ~ Verteilung von X. Thomas Melzer, GEO Department 187 Die zentralen (d.h. mittelwertbereinigten) Momente zweiter Ordnung σij bezeichnet man als Varianz von Xi (i = j) σii = σi2 Z +∞ = −∞ (xi − µi)2pi(xi)dxi = E[(Xi − µi)(Xj − µj )] (152) bzw. als Kovarianz (i 6= j) von Xi und Xj Z σij +∞ Z +∞ = −∞ −∞ (xi − µi)1(xj − µj )1pij (xi, xj )dxi dxj = E[(Xi − µi)(Xj − µj )] Thomas Melzer, GEO Department (153) 188 (vergleiche Eq. 69 und Eq. 74). Die Matrix σ11 . . . σ1p ~ Cov(X) = Σ = (σij ) = . . . . . . . . . σp1 . . . σpp ~ − µ )(X ~ − µ )T ] = E[(X (154) ~ bezeichnet man als Kovarianzmatrix von X. Matrizen werden im folgenden durch fette Großbuchstaben bezeichnet. Thomas Melzer, GEO Department 189 Die Kovarianz-Matrix beschreibt sowohl die Dispersion (Energie) der ~ i (Varianz σii = σ 2) als auch den linearen einzelnen Komponenten X i Zusammenhang zwischen den Komponenten (Kovarianz σij ). Analog zum bivariaten Fall (Eq. 74) lässt sich Σ unter Verwendung der Linearität des Erwartungsoperators, Eq. 71, folgendermaßen schreiben (vergleiche hierzu auch Übungsbeispiel T-2) ~ − µ )(X ~ − µ )T ] Σ = E[(X ~X ~ T ] − E[X]µ ~ µT − µ E[X] ~ T + µµT = E[X = S − µµT , (155) ~X ~ T ] die (nicht mittelwertbereinigten) Momente 2-ter wobei S = E[X Ordnung enthält. Thomas Melzer, GEO Department 190 In der Herleitung von Eq. 155 wurde von folgendem Lemma Gebrauch gemacht, welches wir im folgenden noch häufiger benötigen werden. Lemma 1. Sei A = (aij ) eine p×q Zufallsmatrix, d.h. eine Matrix deren Elemente aij Zufallsvariablen darstellen. Seien weiters F ∈ IRn×p, G ∈ IRq×m, H ∈ IRn×m reelle Matrizen. Es gilt E[FAG + H] = FE[A]G + H. (156) Als Spezialfall erhält man ~ T ] = µ E[X ~ T ]. E[µ µX Thomas Melzer, GEO Department (157) 191 • Schätzung des Mittels Gegeben seien N p-dimensionale Beobachtungen xi (Realisierungen von ~ i ∈ IRp), welche wir (als SpaltenvektoN iid verteilten Zufallsvektoren X ren) in der sample matrix X = (x1, . . . , xN ) ∈ IRp×N zusammenfassen. Der (erwartungstreue) Schätzer des Mittelwerts ergibt sich, analog zum univariaten Fall, als N 1 X~ Xi, µ̂ µ= N i=1 (158) d.h. der Schätzer für die i-te Komponente ist durch Eq. 68 gegeben. Man beachte, dass µ̂ µ wiederum ein Zufallsvektor ist. Thomas Melzer, GEO Department 192 Der konkrete Wert des Schätzers für gegebene sample matrix X berechnet sich daher wie folgt N 1 X m̂ = xi. N i=1 Thomas Melzer, GEO Department (159) 193 • Schätzung der Kovarianz-Matrix Ein erwartungstreuer Schätzer der Kovarianz ist durch Σ̂ = (σ̂ij ) = N 1 X ~ ~ i − µ̂ (Xi − µ̂ µ)(X µ)T N − 1 i=1 (160) gegeben. Alle Komponenten σ̂ij sind wiederum Zufallsvariablen (und Σ̂ somit eine Zufallsmatrix). Auch hier muss, wie im univariaten Fall (siehe Eq. 101), durch N − 1 und nicht durch N dividiert werden, um die Erwartungstreue von Σ̂ zu gewährleisten. Thomas Melzer, GEO Department 194 Bezeichne im folgenden X̃ die mittelwertbereinigten (mean normalized) samples X̃ = (x̃1, . . . , x̃N ) = ((x1 − m̂), . . . , (xN − m̂)). (161) Die Realisierung von Σ̂ für gegebene sample matrix X (bzw. X̃) berechnet sich wie folgt Ĉ = (ŝij ) = Thomas Melzer, GEO Department N 1 X (xi − m̂)(xi − m̂)T N − 1 i=1 = N 1 X x̃ix̃iT N − 1 i=1 (162) = 1 X̃X̃T . N −1 (163) 195 Die analytisch äquivalente Formulierung 1 Ĉ = (XXT − N m̂m̂T ) N −1 (164) sollte aus numerischen Gründen (Akkumulation von Rundungsfehlern) vermieden wenden. Thomas Melzer, GEO Department 196 Eigenschaften der Kovarianz-Matrix • Symmetrie ~ ∈ IRp ist symmeDie Kovarianz-Matrix (σij )1≤i,j≤p = Σ ∈ IRp×p von X trisch, d.h. σij = σji für 1 ≤ i, j ≤ p, und somit Σ = ΣT (165) (folgt direkt aus Eq. 153). Σ legt somit einen symmetrischen Operator IRp × IRp → IR fest X X T < x, y >Σ = x Σy = σij xiyj = σjiyj xi 1≤i,j≤p = yT Σx. Thomas Melzer, GEO Department 1≤i,j≤p (166) 197 Weiters ist < x, y >Σ bilinear, d.h linear in beiden Argumenten < λ1x1 + λ2x2, y >Σ= λ1 < x1, y >Σ +λ2 < x2, y >Σ (167) (ebenso für das zweite Argument y). Im Fall x = y spricht man von einer quadratischen Form < x, x >Σ T < x, x >Σ= x Σx = X i=j σiixixi + X 2σij xixj , (168) i<j z.B. für x = (x1, x2)T ∈ IR2 < x, x >Σ= σ11x21 + 2σ12x1x2 + σ22x22. Thomas Melzer, GEO Department (169) 198 • Σ ist positiv semi-definit Σ - und somit auch < x, x >Σ - ist stets positiv semi-definit, d.h. < x, x >Σ= xT Σx ≥ 0 ∀x ∈ IRp. (170) Ist Σ darüberhinaus positiv definit < x, x >Σ= xT Σx > 0 ∀(x 6= 0) ∈ IRp, (171) dann definiert < x, x >Σ ein inneres Produkt im IRp und induziert somit auch eine Norm im IRp kxkΣ = √ < x, x >Σ . (172) Ist Σ hingegen nur positiv semi-definit, so bezeichnet man kxkΣ auch als Semi-Norm. Thomas Melzer, GEO Department 199 Anmerkung: Positive Definitheit einer Matrix ist eine hinreichende Bedingung für Invertierbarkeit, d.h. jede positiv definite Matrix ist auch invertierbar. Positiv definite Matrizen haben positive, positiv semi-definite Matrizen haben nicht-negative Eigenwerte. Thomas Melzer, GEO Department 200 • Varianz einer Linearkombination von Zufallsvariablen Angenommen, wir sind an der Varianz der Linearkombination von p ~ = (X1, . . . , Xp) ∈ IRp mit dem Koeffizientenvektor Zufallsvariablen X w ∈ IRp interessiert. Die transformierte Variable Y erhält man als Linearkombinationen der Xi mit Koeffizienten wi. ~ = Y =w X T X wiXi. (173) ~ = 0 und somit E[Y ] = 0. Es gilt Sei E[X] ~X ~ T w] V ar(Y ) = E[Y 2] = E[Y Y T ] = E[wT X ~X ~ T ]w = wT Σw, = wT E[X (174) d.h. die Varianz von Y ergibt sich als Wert von < w, w >Σ für den Richtungsvektor w. Thomas Melzer, GEO Department 201 Bezeichne I = {i1, . . . , ik } eine Teilmenge von {1, . . . , p}, und sei wI ∈ IRp definiert als w Ii = 1 falls i ∈ I 0 sonst. Dann liefert Eq. 174 die Varianz der Summe der k Komponen~ So erhält man z.B. für p = 5 und ten {Xi1 , . . . , Xik } von X. wI = (1, 1, 0, 0, 0)T V ar(X1 + X2) = wIT ΣwI = σ11 + 2σ12 + σ22 (175) (vergleiche Eq. 73). Ist die Kovarianz σ12 zwischen der ersten und zweiten Komponente 0, so ergibt sich die Varianz der Summe X1 +X2 als Summe der Einzelvarianzen. Thomas Melzer, GEO Department 202 ~ ∈ IRp Ein Spezialfall ist die Ermittlung Varianz des Zufallsvektors X entlang der Richtung w ∈ IRp, oder, anders formuliert, der Varianz der ~ unter der Nebenbedingung kwk = 1. Projektion Y = wT X wT Σw wT Σw V ar(Y ) = = . T kwkkwk w w (176) Man sieht, dass sich die Varianz der Projektion Y als Quotient zweier (symmetrischer) quadratischer Formen auffassen lässt. Thomas Melzer, GEO Department 203 Seien allgemein A, B symmetrische Matrizen und B darüberhinaus positiv definit. Der Quotient der durch A, B induzierten quadratischen Formen wT Aw r(w) = T w Bw (177) wird als Rayleigh Quotient bezeichnet. Thomas Melzer, GEO Department 204 • Mittelwert und Kovarianz unter affiner Transformation ~ ∈ IRp eine p-dimensionale Zufallsvariable mit MittelLemma 2. Sei X wert µ und Kovarianzmatrix Σ. Dann berechnen sich Mittelwert und Varianz der unter der affinen Transformation ~ = FX ~ + H, Y (178) ~ wie folgt F ∈ IRq×p, H ∈ IRq , q ≤ p, erhaltenen Zufallsvariablen Y ~ ] = Fµ E[Y µ+H ~ ) = FΣFT . Cov(Y (179) (180) Eq. 179 folgt direkt aus Lemma 1, Eq. 180 erhält man durch Einsetzen ~ − E[Y ~ ])(Y ~ − E[Y ~ ])]T . von Eq. 178 und Eq. 179 in E[(Y Thomas Melzer, GEO Department 205 • Einige Eigenschaften der multivariaten Normalverteilung ~ normalverteilt mit X ~ ∼ N (µ Ist X µ, Σ), so ist die Verteilung der transfor~ = FX ~ + H durch Y ~ ∼ N (Fµ mierten Variablen Y µ + H, FΣFT ) gegeben (dieses Ergebnis folgt nicht trivial aus Lemma 2). Weiters sind die Randverteilungen und bedingten Verteilungen einer multivariat normal verteilten Zufallsvariablen wiederum multivariat normal. Thomas Melzer, GEO Department 206 • Kovarianz und Korrelation Die Kovarianz Cov(X, Y ) = σXY = E[(X − µx)(Y − µy )] (181) ist ein Maß für den linearen Zusammenhang zwischen X und Y . Allerdings hängt die Kovarianz auch von der Varianz (Skalierung) der Variablen ab V ar(αX) = E[(α(X − µx))2] = α2V ar(X) (182) Cov(αX, Y ) = E[(α(X − µx))(Y − µy )] = αCov(X, Y ). (183) Thomas Melzer, GEO Department 207 Ein skalierungsunabhängiges Maß für den linearen Zusammenhang ist durch die Korrelation p Corr(X, Y ) = Cov(X, Y )/ V ar(X)V ar(Y ) (184) σXY (185) ρXY = σX σY gegeben, welche man aus der Kovarianz durch Division durch das Produkt der Standardabweichungen der betreffenden Variablen erhält. Für den Korrelationskoeffizienten ρXY gilt −1 ≤ ρXY ≤ 1, (186) wobei im Fall |ρXY | = 1 ein perfekter (deterministischer) linearer Zusammenhang zwischen X und Y besteht. Im Fall ρXY = 0 besteht keinerlei linearer Zusammenhang zwischen den Variablen (sie sind dekorreliert). Thomas Melzer, GEO Department 208 Aus der Definition des Korrelationskoeffizienten Eq. 185 folgt σXY = ρXY σX σY . (187) Daher muss die Kovarianz stets im Intervall [−σX σY , σX σY ] liegen. Für Z-standardisierte Variablen Z1 = (X −µX )/σX ), Z2 = (Y −µY )/σX (V ar(Z1) = V ar(Z2) = 1) erhält man Corr(Z1, Z2) = Cov(Z1, Z2)/(1 ∗ 1), (188) d.h. die Kovarianz ist gleich der Korrelation. Weiter ist der Korrelationskoeffizient unter Z-Normalisierung (Skalierung der Achsen) invariant Corr(Z1, Z2) = E[(X − µX )/σX (Y − µY )/σY ] = σXY /(σX σY ) = Corr(XY ). Thomas Melzer, GEO Department (189) (190) 209 8 8 6 6 4 4 2 2 0 0 −2 −2 −4 −4 −6 −6 −8 −8 −10 −5 0 5 10 −12 −10 −8 −6 −4 −2 0 2 4 6 8 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 −0.5 −0.5 −1 −1 −1.5 −1.5 −2 −2 −2.5 −2.5 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 Abbildung 26: Kovarianz vs. Korrelation am Beispiel einer bivariaten Normalverteilung. 2 2 Oben: σX = 12, σY2 = 2. Unten: Z-normalisierte Variablen (σX = σY2 = 1). Links: ρXY = 0.9. Rechts: ρXY = 0.1 Thomas Melzer, GEO Department 210 Eine bivariate Normalverteilung mit Kovarianzmatrix Σ hat eine elliptische Form, wobei die Hauptachse in Richtung der größten Varianz wT Σw w = arg max T w w ∗ (191) liegt (die Nebenachse liegt in Richtung der minimalen Varianz). Für ρ = 0 fallen die Achsen der Ellipse mit den Koordinatenachsen xi zusammen (die Xi sind somit dekorreliert). Werden die Variablen Z-standardisiert, so liegt die Hauptachse der Ellipse auf der ersten (ρ > 0) bzw. auf der zweiten (ρ < 0) Mediane. Das Verhältnis der Achsen der Ellipse hängt vom Absolutbetrag des Korrelationskoeffizienten ρ ab: je größer |ρ|, desto elongierter, je kleiner |ρ|, desto kreisförmiger die Ellipse. Für ρ = 0 erhält man einen perfekten Kreis (d.h. , es gibt keine “ausgezeichnete” Hauptachse mehr). Thomas Melzer, GEO Department 211 • Schätzung des Korrelationskoeffizienten Ein erwartungstreuer Schätzer des Korrelatioskoeffizienten (StichprobenKorrelationskoeffizient bzw.sample correlation coefficient) ist durch PN ρ̂ = − X̄)(Yi − Ȳ ) PN 2 2 i=1 (Xi − X̄) i=1 (Yi − Ȳ ) σ̂XY = qP σ̂X σ̂Y N i=1 (Xi (192) gegeben. Einen konkreten Schätzwert erhält man, wie gehabt, durch Ersetzen der Zufallsvariablen Xi, Yi durch die Elemente einer gegebenen Stichprobe PN − x̄)(yi − ȳ) PN 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) ŝXY = qP r= ŝX ŝY N Thomas Melzer, GEO Department i=1 (xi (193) 212 Wir haben an dieser Stelle die vorherrschende Konvention übernommen, den Schätzwert des Korrelationskoeffizienten mit r (ohne Dach) zu bezeichnen. Im Falle einer bivariaten Normalverteilung von X, Y mit ρ = 0 ist die Statistik s N −2 T = ρ̂ (194) 1 − ρ̂2 Student-t verteilt mit N − 2 Freiheitsgraden. Mittels dieser Statistik kann also ein Hypothesentest H1 : |ρ| > 0 unter der Null-Hypothese H0 : ρ = 0 konstruiert werden. Liegt der beobachtete Wert (die Realisierung von T ) z.B. außerhalb des Intervalls [t0.025;N −2, t0.975;N −2], so wird die H0: X und Y sind unkorreliert auf dem 5%-Niveau abgelehnt (tα;N −2 bezeichne hier das α-Quantil der Student-t Verteilung mit N − 2 Freiheitsgraden). Thomas Melzer, GEO Department 213 • Zusammenhang zwischen univariater linearer Regression und Korrelation Gegeben seien N Paare (xi, yi). Unter Annahme eines linearen Modells y = a + bx bestimmt lineare Regression von y auf x die Koeffizienten a, b dergestalt, daß die Summe der quadratischen Abweichungen (Residuen) PN 2 i=1 (yi − a − bxi ) minimal wird. Es gilt a = ȳ − bx̄ ŝxy ŝxŝy b = = r ŝ2x ŝ2x ŝy = r ŝx (195) (196) Im Unterschied zu Gl. 193 schreiben wir die Subskripte klein, um anzudeuThomas Melzer, GEO Department 214 ten, daß die Variablen x, y hier nicht unbedingt als stochastische Größen anzusehen sind. Der Beweis für den allgemeinen, d.h. multivariaten, Fall folgt im nächsten Abschnitt. Thomas Melzer, GEO Department 215 Lineare Regression • Überblick Die Regression (Funktionsapproximation) ist mit dem Problem befaßt, den Wert einer – abhängigen Variablen (output, response or target variable) y = f (x) ∈ IR anhand einer – unabhängigen Variable (input, predictor or explanatory variable) x ∈ IRp vorherzusagen, wobei die zugrundeliegende Funktion f meist als stetig (continuous) oder sogar als einmal oder mehrfach stetig differenzierbar (smooth) vorausgesetzt wird. Das “klassische” Regressions-Problem kann wie folgt formuliert werden: Thomas Melzer, GEO Department 216 Gegeben sei ein Familie parametrisierter Funktionen f (x, w) mit Parametervektor w, z.B. die affinen (linearen) Funktionen f (x, w) = w2x2 + w1x1 + w0. (197) Da der Wert von y an der Stelle x von w abhängt, wird für f (x, w) oft auch f (x|w) geschrieben. Der Zusammenhang zwischen x und y sei durch y(x) = f (w∗, x) + (198) gegeben, wobei w∗ den wahren Wert des Parametervektors und zufälliges Rauschen (noise) mit Mittel 0 bezeichne. Die Werte y(x) setzen sich also aus einer deterministischen Komponente f (x, w∗) und einer stochastischen (zufälligen) Komponente zusammen. Thomas Melzer, GEO Department 217 Anders formuliert, stellt y(x) eine von x abhängige Zufallsvariable Y |x Zufallsvariable mit pdf p(y|x) dar. Eq. 198 wird somit zu Y |x = f (w∗, x) + Thomas Melzer, GEO Department (199) 218 40 35 30 25 20 y 15 10 5 0 −5 −10 −5 0 5 10 15 x Abbildung 27: Beispiel eines linearen Modells mit additivem Gaußschem Rauschen. Für jeden Wert von x sind die Werte von y normalverteilt - Y |x - mit Mittel (deterministischer Komponente) E[Y |x] = f (x, w∗) = w0 + w1 ∗ x. Thomas Melzer, GEO Department 219 Man beachte, dass E[Y |x] = E[f (w∗, x) + ] = E[f (w∗, x)] + E[] = E[f (w∗, x)], (200) d.h., das Mittel von Y an der Stelle x ist durch die deterministische Komponente f (w∗, x) gegeben. Ziel ist es nun, einen Parametervektor w zu finden, welcher die mittlere “Diskrepanz” zwischen Y |x und der Vorhersage f (x, w) minimiert. Ein häufig verwendetes Maß für die Abweichung im Punkt x - bei gegebenem (gemessenem) y - ist der quadratische Fehler (squared loss, L2-loss) L(y, f (w, x)) = (y − f (w, x))2. Thomas Melzer, GEO Department (201) 220 Da y allerdings eine - i.a. von x abhängige! - Zufallsvariable Y |x mit Dichtefunktion p(y|x) darstellt, müssen wir den mittleren Fehler im Punkt x - das conditional risk - minimieren: Z R(w|x) = (y − f (w, x))2p(y|x)dy. (202) Um ein globales Fehlermaß zu erhalten, fassen wir auch x als Zufallsvariable auf und berechnen schließlich den Mittelwert von R(w|x) bzg. x, das sogenannte total risk Z Z R(w) = (y − f (w, x))2p(y|x)p(x)dydx. (203) Unter den oben genannten Voraussetzungen lässt sich leicht zeigen, dass das total risk Eq. 203 durch Wahl von w = w∗ minimal wird, wobei Thomas Melzer, GEO Department 221 der Residualfehler durch die - von w unabhängige - Rausch-Varianz V ar() = 2 gegeben ist. Die Bestimmung des optimalen Parametervektors bezeichnet man als Regression (Funktions-Approximation). Unter der Annahme eines linearen Modells für die deterministische Komponente von y, d.h. f (x, w) = wT x erhalten wir den wichtigen Spezialfall der linearen Regression. Thomas Melzer, GEO Department 222 • Lineare Regression (linear least squares) Sei ST r = {X, y} ein Trainingsset, wobei X = (x1, . . . , xN ) ∈ IR(d+1)×N die Spaltenmatrix homogenisierter Merkmalsvektoren und y = (y1, . . . , yN ) ∈ IR1×N den Zeilenvektor korrespondierender (verrauschter!) Ausgabewerte bezeichne. Eine Schätzung des total risk Eq. 203 ist durch Re(w) = = N 1 X 1 T 2 (yi − w xi) = ky − wT Xk2 N i=1 N 1 (y − wT X)(y − wT X)T N (204) gegeben. Man spricht in diesem Zusammenhang auch vom empirical risk bzw. im speziellen Fall einer quadratischen loss-Funktion (wie in Eq. 204) vom mean squared error (mse). Thomas Melzer, GEO Department 223 Ist die gesuchte Funktion - wie im vorliegenden Fall der linearen Regression - linear in den Parametern w, so hat die Kostenfunktion Eq. 204 (mse) folgende Eigenschaften. Sie – ist glatt (hat eine stetige erste Ableitung) – ist nicht-negativ und wird 0 g.d.w. yi = wT xi für alle 1 ≤ i ≤ N , und – ist eine quadratische (⇒ und somit konvexe!) Funktion der Parameter w. Somit ist garantiert, dass es keine lokalen Minima gibt. – Der Gradient (s.u.) von Eq. 204 bzg. w ist eine lineare Funktion des Parameter-Vektors w. Thomas Melzer, GEO Department 224 Exkurs: Gradienten und Lineare Algebra Der Gradient einer Funktion f : IRp → IR ∂f ∂f T df T ∇w f (w) = ∇f = ( ,..., ) =( ) ∂w1 ∂wd dw (205) (sprich: nabla f ) bzg. w ist definiert als Transponierte der ersten Ableitung nach w; er zeigt (als Vektor) in die Richtung des steilsten Anstiegs (bei linearer Fortsetzung) von f . Folglich zeigt −∇f in die Richtung des steilsten Abfalls von f ; −∇f wird auch als Richtung des steepest descent bezeichnet. Das “Verschwinden” des Gradienten ∇w f (w)|w=w∗ = 0 an der Stelle w = w∗ ist eine notwendige Voraussetzung dafür, dass f an der Stelle w∗ ein Extremum annimmt. Im allgemeinen Fall einer vektorwertigen Funktion f : IRp → IRq erhält man den Gradienten als Transponierte der Jacobi-Matrix (∂fi/∂wj )1≤i≤q,1≤j≤p. Thomas Melzer, GEO Department 225 Beispiel Sei w ∈ IR2 und f1(w) = sin(w1) cos(w2) sowie f2(w) = 3w12w2 + 2w1. ∂fi Bezeichne weiters fij = ∂w die partielle Ableitung von fi nach wj . Es j gilt ∇w f1(w) = ∇w f2(w) = Thomas Melzer, GEO Department f11 f12 f21 f22 cos(w1) cos(w2) − sin(w1) sin(w2) 6w1w2 + 2 = . 3w12 = 226 Fassen nun 1 , f2 als Komponenten der vektorwertigen Funktion wir f f1(w) f (w) = : IR2 → IR2 auf, so ist der Gradient von f durch f2(w) ∇w f = (fij )T = (∇f1∇f2) = f11 f21 f12 f22 gegeben. Thomas Melzer, GEO Department 227 Für zwei Matrizen A ∈ IRp×q , B ∈ IRq×r gilt, dass (AB)T = BT AT . (206) Der Gradient einer affinen Funktion ist durch ∇w (Aw + b) = AT , w ∈ IRq , b ∈ IRp, A ∈ IRp×q (207) gegeben. Der Gradient einer symmetrischen Koeffizienten-Matrix A = AT ist durch ∇w (wT Aw) = 2Aw, quadratischen w ∈ IRp, A ∈ IRp×p Form mit (208) gegeben. Man beachte, dass Matrizen der Gestalt C = AAT immer symmetrisch sind, d.h., C = CT . Thomas Melzer, GEO Department 228 • Pseudo-Inverse Unser Ziel ist es, das durch den mse gegebene empirical risk Eq. 204 1 ky − wT Xk2 = N = 1 (y − wT X)(y − wT X)T N 1 (y − wT X)(yT − XT w) N (209) zu minimieren. Multiplizieren wir Eq. 209 aus und setzen wir den Gradienten gleich 0 (notwendige - und im Fall einer konvexen Funktion auch hinreichende Bedingung für ein Minimum), so erhalten wir Thomas Melzer, GEO Department 229 1 ∇w (wT XXT w − 2yXT w + yyT ) = 0 N XXT w = XyT . (210) (211) Nachdem die Kostenfunktion Eq. 209 konvex ist, liefert uns jede Lösung w∗ der sogennanten normal equations Eq. 211 ein globales Minimum von Eq. 204. Ist XXT invertierbar, so erhalten wir schließlich w∗ = (XXT )−1XyT . (212) Eq. 212 gibt uns also die Lösung des linear least squares Problems in geschlossener (nicht-iterativer) Form. Der Ausdruch (XXT )−1X wird als Pseudo-Inverse oder auch als Moore-Penrose-Inverse von XT bezeichnet. Thomas Melzer, GEO Department 230 Bei der praktischen Anwendung der Pseudo-Inversen in der Form Eq. 212 ist zu beachten, dass die Trainingsvektoren (Spalten xi von X) in homogenen Koordinaten vorliegen müssen. Alternativ kann auch mit mittelwert-normalisierten Größen X̃, ỹ gearbeitet werden. Thomas Melzer, GEO Department 231 • Lineare Regression als Parameterschätzung Wir können die oben gefundene Lösung des quadratischen Minmierungsproblems auch als Schätzung ŵ des wahren Parametervektors w auffassen. Die korrespondierende Schätzfunktion (Statistik) ~ = (XXT )−1XY ~T W (213) erhalten wir, wenn wir in Gleichung Eq. 212 den Vektor der beobachteten Größen y durch den Zufallsvektor ~ = [Y1, .., YN ] = [Y |x1, ..., Y |xN ] = E[Y ~ ] + ~ Y (214) ersetzen, welcher die Verteilung des Fehlers um die bedingten Erwartungswerte E[Yi] = xTi w (215) Thomas Melzer, GEO Department 232 beschreibt. Bezeichne Σ die Kovarianz-Marix der Meßfehler, dann erhalten wir ~ mit gemäß Lemma 2 die Kovarianzmatrix des Fehlers von W T −1 T T −1 ΣW ~ = (XX ) XΣ X (XX ) (216) Im Fall daß die Fehlerkomponenten i unabhängig sind und der gleichen Verteilung folgen (iid), haben wir Σ = Iσ2, und Eq. 216 vereinfacht sich zu T −1 2 ΣW (217) ~ = (XX ) σ Unter den obigen Voraussetzungen ist der Schätzer Eq. 213 auch erwarungstreu, da ~ ] = E[(XXT )−1XY ~ T ] = (XXT )−1XE[Y ~ T] E[W = (XXT )−1XXT w = w Thomas Melzer, GEO Department (218) (219) 233 Eigenwertzerlegung und Hauptachsentransformation ~ ∼ • Die Dichtefunktion (joint pdf) eines normalverteilten Zufallsvektors X N (µ µ, Σ) mit Mittelwert µ und Kovarianzmatrix Σ ist wie folgt definiert p(x) = 1 p 12 (2π) |Σ| 1 2 e − 12 (x−µ)T Σ−1 (x−µ) , (220) wobei |Σ| die Determinante von Σ bezeichnet. Der Exponent in Eq. 220 hängt vom Wert der quadratischen Form (x − µ )T Σ−1(x − µ ) =< x − µ , x − µ >Σ−1 = d2(x) (221) ab. Σ−1 ist, wie auch Σ, symmetrisch und positiv semi-definit. Thomas Melzer, GEO Department 234 0.12 p(x1,x2) 0.1 0.08 0.06 0.04 0.02 0 5 5 0 0 X2 −5 −5 X1 Abbildung 28: Beispiel für die Dichtefunktion einer bivariaten Normalverteilung. Thomas Melzer, GEO Department 235 • Mahalanobis-Distanz Die an der gemeinsamen Kovarianzmatrix standardisierte Distanz (Metrik) zweier Punkte x, y: q (x − y)T Σ−1(x − y) = d(x, y) (222) bezeichnet man als deren Mahalanobis-Distanz. Ist das zweite Argument das Mittel der Verteilung, kann es weggelassen werden. Die Menge aller Punkte {x : d2(x) = c2}, für welche die Mahalanobis-Distanz vom Mittel einer Normalverteilung gleich einer Konstanten c ist, ist durch ein Hyperellipsoid im IRp mit Mittelpunkt µ gegeben. Für alle auf einem solchen Hyperellipsoid liegenden Punkte liefert die pdf p(x) denselben Wert. Thomas Melzer, GEO Department 236 10 8 6 600 4 500 2 400 300 0 200 −2 100 −4 0 10 −6 10 5 5 0 −8 0 −5 −10 −10 −8 −6 −4 −2 0 2 4 6 8 10 −5 −10 −10 Abbildung 29: Mahalanobis-Distanz 2 = 12, σY2 = 2, ρXY = 0.9 der bivariaten Normalverteilung µ = 0, σX Links: Konturplot, jede Ellipse entspricht einem konstanten Wert c2 für d2(x). Rechts: Darstellung der Mahalanobis-Distanz als Fläche über (x1, x2). Die Konturlinien erhält man als Schnittkurven der Fläche mit zur x1 − x2-Ebene parallelen Ebenen. Thomas Melzer, GEO Department 237 Nehmen wir zunächst an, dass Σ = (σij ) = diag(σii) eine Diagonalmatrix ist (d.h. σij = 0 für i 6= j) und somit die Komponenten Xi wechselseitig dekorreliert sind. In diesem Fall gilt −1 Σ−1 = diag(σii )1≤i≤p (223) und somit d2(x) = (x − µ )T Σ−1(x − µ ) = p X (xi − µi)2 i=1 σii = c2, (224) d.h. wir erhalten tatsächlich die Gleichung eines Hyperellipsoids in IRp √ mit Achsenlängen c σii und Mittelpunkt µ . Thomas Melzer, GEO Department 238 Wir werden im folgenden beweisen, dass d2(x) = c auch im allgemeinen Fall ein Hyperellipsoid beschreibt, indem wir ~ ∈ IRp in einen Zufallsvektor Y ~ = ET X ~ ∈ IRp mit dekorrelierten – X Komponenten Yi transformieren und anschließend zeigen, dass – d2(x) unter der Transformation ET invariant ist und – eine Transformation ET mit den geforderten Eigenschaften stets existiert. Angenommen, es gäbe eine Transformationsmatrix ET ∈ IRp×p, |E| 6= 0, ~ = ET X ~ sodass die Kovarianzmatrix der transformierten Variablen Y Diagonalform hat ~ ) = Cov(ET X) ~ = Λ = diag(λii)1≤i≤p Cov(Y (225) (und somit die Gleichung d2(y) = c wiederum ein Hyperellipsoid im IRp beschreibt). Thomas Melzer, GEO Department 239 Es gilt mit Lemma 2 ~ ] = µ y = ET µ x E[Y (226) ~ ) = Λ = ET ΣE Cov(Y (227) Unter Verwendung der Identitäten (AB)T = BT AT und (AB)−1 = B−1A−1 erhalten wir d2(y) = (y − µ y )T Λ−1(y − µ y ) = (ET (x − µ x))T (ET ΣE)−1ET (x − µ x) = (x − µ x)T EE−1Σ−1(ET )−1ET (x − µ x) = (x − µ x)T Σ−1(x − µ x) = d2(x), (228) d.h. d2(x) ist unter ET (allgemein: unter jeder invertierbaren linearen Transformation) invariant. Thomas Melzer, GEO Department 240 Es bleibt zu zeigen, dass die Transformation ET , welche die Kovarianz~ diagonalisiert, tatsächlich existiert. matrix Σ von X • Eigenwert-Dekomposition Sei A ∈ IRp×p eine quadratische Matrix. Gilt für ein e ∈ Cp, e 6= 0 und einen Skalar λ ∈ C Ae = λe, (229) so nennen wir e einen Eigenvektor von A mit korrespondierendem Eigenwert λ = λ(e). Man beachte, dass mit e auch jedes Vielfache αe, α ∈ IR ein Eigenvektor von A mit Eigenwert λ ist, d.h. ein Eigenvektor legt einen eindimensionalen Unterraum fest. Thomas Melzer, GEO Department 241 Die Eigenwerte erhält man z.B. als Lösung der Gleichung p Y pA(λ) = |A − λI| = (λ − λi) = 0, (230) i d.h. als Nullstellen des charakteristischen Polynoms pA(λ) von A. Thomas Melzer, GEO Department 242 pA(λ) ist ein Polynom p-ter Ordnung in λ, und hat somit p (möglicherweise komplexe) Lösungen. Somit verfügt jede p × p-Matrix über p Eigenwert/Eigenvektor-Paare (λi, ei). Speziallfälle: – 0-Eigenwerte: treten im Fall singulärer Matrizen für Eigenvektoren im Kern der Matrix ({x : Ax = 0}) auf. – Multiple Eigenwerte, d.h. λi = λj , i 6= j, es tritt also mindestens ein Eigenwert mit Vielfachheit > 1 auf. Eine Linearkombination von Eigenvektoren emi , emj , welche über denselben Eigenwert λm mit Vielfachheit m verfügen, ist wiederum ein Eigenvektor von A: A(αmi emi + αmj emj ) = λm(αmi emi + αmj emj ), (231) d.h. sie spannen einen maximal m-dimensionalen Unterraum des IRp auf. Thomas Melzer, GEO Department 243 Fassen wir nun die p Eigenvektoren von A in der Eigenvektormatrix E = (e1, . . . , ep) und die zugehörigen Eigenwerte in der Diagonalmatrix Λ = diag(λ1, . . . , λp) zusammen, so lässt sich Eq. 229 für alle p Eigenvektoren simultan als AE = EΛ (232) formulieren. Sind die Eigenvektoren darüberhinaus linear unabhängig, so ist E invertierbar und wir erhalten mit A = EΛE−1 (233) die Eigenwertzerlegung (eigenvalue decomposition, EVD, auch spectral factorization) von A. Thomas Melzer, GEO Department 244 Im Fall einer symmetrischen, reellen Matrix A gelten folgende Aussagen – A hat ausschließlich reelle Eigenwerte und Eigenvektoren. – Zu verschiedenen Eigenwerten gehörende Eigenvektoren sind orthogonal. Auch im Fall von Eigenwerten mit Vielfachheit > 1 (oder 0-Eigenwerten) lassen sich stets p wechselseitig orthogonale Eigenvektoren finden. Normalisieren wir die Eigenvektoren weiters auf Einheitslänge, so ist E eine Orthonormalmatrix (mit |E| = ±1). Da die Inverse einer Orthonormalmatrix durch ihre Transponierte gegeben ist, d.h. E−1 = ET , erhalten wir für Eq. 233 A = EΛET = p X λieieTi . (234) i=1 Thomas Melzer, GEO Department 245 Man bemerkt, dass die Eigenwertdekomposition Eq. 233 nicht eindeutig ist, da wir die Eigenvektor/Eigenwert-Paare (Zeilen von E bzw. Λ) beliebig permutieren können. Wir gehen im folgenden davon aus, dass die Eigenwerte absteigend sortiert sind, d.h. λ1 ≥ λ2 . . . λp−1 ≥ λp. Unter dieser Konvention wird e1 (ep) auch als größter (kleinster) Eigenvektor bezeichnet. Thomas Melzer, GEO Department 246 • Invertierung einer reellen symmetrischen Matrix Die Inverse einer symmetrischen Matrix A mit Eigenwertzerlegung A = EΛET (235) −1 T A−1 = EΛ−1ET = E diag(λ−1 1 , . . . , λp ) E (236) ist durch gegeben, lässt sich also durch Invertieren der Eigenwerte berechnen. A−1 besitzt somit dieselben Eigenvektoren wie A, jedoch mit reziproken Eigenwerten. Insbesondere ist die Inverse einer symmetrischen Matrix wiederum symmetrisch. Thomas Melzer, GEO Department 247 • Beziehung zwischen Rayleigh Quotient und EVD Eine notwendige Bedingung daür, dass der Rayleigh Quotient wT Aw r(w) = wT w (237) im Punkt w ein Extremum annimmt, ist durch dr(w) T ) = (∂r(w)/∂wp, . . . , ∂r(w)/∂wp)T = 0 ∇r(w) = ( dw (238) gegeben, wobei ∇r(w) ∈ IRp den Gradienten von r bezeichnet (der Gradient ist die Transponierte der Funktionalmatrix bzw. der ersten Ableitung von r nach w). Die Extremstellen w∗, welche Eq. 238 erfüllen, werden im Englischen auch stationary points genannt. Thomas Melzer, GEO Department 248 Lemma 3. Die Extremstellen w∗ (Extremwerte r(w∗)) des RayleighQuotienten Eq.237 sind durch die Eigenvektoren e (Eigenwerte λ(e)) von A gegeben, können also als Lösungen der korrespondierenden symmetrischen Eigenwertproblems erhalten werden. Thomas Melzer, GEO Department 249 • Diagonalisierung der Kovarianzmatrix Betrachten wir nun die EVD der (symmetrischen!) Kovarianzmatrix Σ ~ Aus Eq. 234 folgt, dass von X. ET ΣE = Λ. (239) Man sieht, dass die durch ~ Y ~ Y ~ = ET X ~ − µ x) = ET (X (240) (241) (sprich: durch Projektion auf die Eigenvektoren) gegebenen affinen Abbildungen die Kovarianzmatrix diagonalisieren3. 3 ~ natürlich keinen Einfluß, so Eine allfällige Mittelwertnormalisierung hat auf die Kovarianzmatrix von Y daß beide Abbildungsvorschriften als Diagonalisierung bezeichnet werden. Wir werden im folgenden jedoch von Gl. 241 ausgehen. Thomas Melzer, GEO Department 250 Der i-te Eigenwert λi entspricht der Varianz der Projektion auf den ~ d.h. λi = V ar(Yi). Weiters sind die i-ten Eigenvektor Yi = eTi X, Komponenten Yi dekorreliert, da Cov(Yi, Yj ) = λij = 0 für i 6= j. Die Eigenvektoren erklärend sukzessive (absteigend vom größten zum kleinsten) maximale Varianz (siehe auch vorhergehendes Lemma). Thomas Melzer, GEO Department 251 Die Eigenvektoren ei entsprechen den Achsen der Ellipsoide konstanter ~ und Y ~ , wobei die Achsenlängen pdf (iso-Linien bzw. iso-Flächen) von X √ proportional zu den Quadratwurzeln der Eigenwerte λi (Standardab√ ~ ) sind. weichungen σii von Y Geometrisch kann Eq. 241 als Transformation des ursprünglichen Koordinatensystem Cx aufgefasst werden, wobei – der Ursprung des neuen Systems Cy (relativ zu Cx) durch µ x gegeben ist und – die Achsen des neuen System (relativ zu Cx) durch die Eigenvektoren (Achsen des Ellipsoide konstanter pdf) gegeben sind. Fig. 30 auf der nächsten Seite veranschaulicht diesen Prozess anhand einer bivariaten Normalverteilung mit Kovarianzmatrix 12 4.41 . Die Kovarianzmatrix der diagonalisierten Verteilung 4.41 2 ist durch diag(13.66, 0.33) gegeben. Thomas Melzer, GEO Department 252 8 15 6 10 4 5 2 0 0 −2 −5 −4 −10 −6 −8 −20 −15 −15 −10 −5 0 5 10 15 20 0 5 10 15 20 −20 −15 −10 −5 0 5 10 15 20 15 10 5 0 −5 −10 −15 −20 −15 −10 −5 Abbildung 30: KLT und Whitening Von links oben nach rechts unten: Ursprüngliche Verteilung, diagonalisierte Verteilung (die Achsen der Ellipsoide koinzidieren mit den Achsen des Koordinatensystems), whitened distribution mit Kovarianzmatrix diag(1, 1). Thomas Melzer, GEO Department 253 • Karhunen-Loeve Transformation Aus vektor-algebraischer Sicht entspricht die Transformation y = ET (x − µ x) = ET x̃ (242) einem Basiswechsel von der kanonischen Basis zur Basis E (bzg. der mittelwert-normalisierten Koordinaten x̃). Man spricht in diesem Zusammenhang von der – (diskreten) Karhunen-Loeve Transformation (KLT), – Hauptachsentransformation oder – Principal Components Analysis (PCA.) Achtung: die absteigende Sortierung der Eigenwerte/Eigenvektoren ist hier wesentlich. Thomas Melzer, GEO Department 254 Für einen Punkt y ist dessen Repräsentation bzg. der kanonischen Basis (Urbild) durch die inverse Transformation x̃ = Ey = p X eiyi (243) i=1 gegeben. Eq. 243 ist die Rekonstruktion (Karhunen-Loeve expansion) von x̃, wobei sich die Koeffizienten der Linearkombination gemäß Eq. 242 berechnen. Lassen wir in Gl. 243 jene Richtungen, welche den p − k kleinsten Eigenwerten (d.h. Varianzen) entsprechen, weg, so erhalten wir eine eine unvollständige Rekonstruktion x̂(k) = E[k]y[k] = k X eiyi, ∈ IRp, k < p (244) i=1 Thomas Melzer, GEO Department 255 des Originalvektors x̃. Wie man leicht zeigt, entspricht der Erwartungswert des Rekonstruktionsfehlers der Summe der Eigenwerte der weggelassenen Richtungen E[kx̂ − x̃k2] = p X λi (245) i=k+1 Es läßt sich zeigen, daß die KLT-Basis von allen Basen der Dimension k < p den mittleren Rekonstruktionsfehler im obigen Sinne minmiert, also bzg. der Minimierung des Rekonstruktionsfehlers optimal ist. Diesen Zusammenhang kann man für Datenkompromierung bzw. Dimensionalitätsreduktion verwenden. Statt der Originaldaten speichert man nur die Projektionen auf die k größten Eigenvektoren. Die Originale lassen sich dann aus den Projektionen und den Eigenvektoren rekonstruieren. Thomas Melzer, GEO Department 256 • Whitening − 12 λi , so liefert die ~ w = (EΛ− 21 )T (X ~ − µ x) = Λ− 12 ET (X ~ − µ x) Y (246) Skaliert man die Basisvektoren ei der KLT mit resultierende Transformation einen Zufallsvektor mit dekorrelierten und Z-normalisierten Variablen (V ar(Yi) = 1 für 1 ≤ i ≤ p). Die resultierende Verteilung ist kreisförmig; man spricht auch von whitening. 1 1 Genauer wird Λ− 2 ET (manchmal jedoch auch EΛ− 2 ) als whitening transformation und die resultierende Verteilung als whitened distribution bezeichnet. Thomas Melzer, GEO Department 257 • Zusammenhang mit der Mahalanobis-Distanz Betrachten wir das Quadrat der Länge eines gemäß Gl. 246 transformierten Vektors x: kyk2 = yT y 1 1 = (x − µ x)T EΛ− 2 Λ− 2 ET (x − µ x) = (x − µ x)T Σ−1(x − µ x), (247) wobei wir beim Übergang von der vorletzten zu letzten Zeile Gl. 236 benutzt haben. Die euklidische Norm eines durch whitening erhaltenen Vektors entspricht also der Mahalanobis-Distanz seines Urbilds; dies gilt klarerweise auch für Distanzen zwischen zwei beliebigen Punkten im Bildbzw. Urbildraum. Um unsere Eingangsgrößen zu standardisieren, können wir also entweder Thomas Melzer, GEO Department 258 explizit ein whitening durchführen, oder wir verwenden bei Distanzberechnungen statt der euklidischen Metrik die Mahalanobis-Distanz. Thomas Melzer, GEO Department 259 • KLT und Faktoranalyse Es besteht ein enger Zusammenhang zwischen der KLT und der sogenannten Faktoranalyse, welche vor allem in der Psychologie eingesetzt wird. Unterschiede bestehen hauptsächlich in den Grundannahmen bezüglich der Kovarianzstruktur der Fehler, worauf hier aber nicht näher eingegangen werden soll. Ziel ist es, Vektoren von p korrelierten Variablen als Linearkombination von k < p sogenannten Faktoren darzustellen. – Unter den Faktoren versteht man die mit den Wurzeln ihrer korrespondierenden Eigenwerte (d.h. Standardabweichungen) skalierten 1 Eigenvektoren EΛ 2 . – Die Elemente der Faktoren bezeichnet man als Faktorladungen. Die Faktorladungen sind die Kovarianzen zwischen den Xi und den gemäß Gl. 246 erhaltenen Yjw . Thomas Melzer, GEO Department 260 – Die Elemente yi der Ausprägungen der transformierten Größe Gl. 246 1 yw = (y1, ..., yk )T = (Λ− 2 ET )[k](x − µ x) (248) bezeichnet man als Faktorwerte. Thomas Melzer, GEO Department 261 • Beispiele für Anwendungen der KLT – Zufallszahlengenerator: Mittels der inversen whitening transformation lassen sich sich aus Vektoren von je p N (0, 1) verteilten samples N (µ µ, Σ) verteilte samples generieren. – Schätzung der Orientierung einer Punktwolke, Extraktion von Ebenen in 3D-Punktwolken. – Merkmalsberechnung in Bildern, z.B. Elongation (definiert als λλ12 , Kanten- und Eck-Detektion. – Komprimierung: Bilder eines Objekts lassen sich als Linearkombination einiger weniger Bilder (eigenimages) darstellen. Thomas Melzer, GEO Department 262 Bayes-Klassifizierung für normalverteilte Merkmale • Diskriminanten-Funktionen Gemäß der Bayes decision rule entscheiden wir uns für gegebenen Merkmalsvektor x ∈ IRp für die Klasse ωk mit der größten a posteriori Wahrscheinlichkeit α(x) = k = arg max P (ωj |x), 1 ≤ j ≤ p. j (249) Die Enscheidungsfunktion α(x) läßt sich allgemeiner durch sogenannte Diskriminanten-Funktionen gj (x) ausdrücken α(x) = k = arg max gj (x). j Thomas Melzer, GEO Department (250) 263 Die Entscheidungsgrenze zwischen den Klassen ωj und ωk ist durch die Gleichung gj (x) = gk (x) (251) gegeben. Berechnen sich die gj (x) als streng monoton wachsende Funktion der posteriors gj (x) = f (P (ωj |x)), wobei (252) x > y ⇒ f (x) > f (y), (253) so ist die Enscheidungsregel Eq. 250 wiederum optimal, z.B. für P (ωj )p(x|ωj ) gj (x) = P (ωj |x)p(x) = p(x) p(x) = P (ωj )p(x|ωj ). Thomas Melzer, GEO Department (254) 264 Sind im speziellen die Mermale für alle Klassen normalverteilt, d.h. ~ j ) ∼ N (µ (X|ω µj , Σj ) mit pdf p(x|ωj ) = 1 p 12 1 j 2 (2π) |Σ | e − 12 (x−µj )T Σ−1 j (x−µj ) , (255) so erhält man durch Logarithmieren der posteriors die folgenden (optimalen) Diskriminantenfunktionen P (ωj )p(x|ωj ) gj (x) = ln p(x) 1 = − (x − µ j )T Σj −1(x − µ j ) 2 1 − ln |Σj | + ln P (ωj ) 2 Thomas Melzer, GEO Department (256) 265 p − ln 2π − ln p(x). 2 (257) Man bemerkt, dass die beiden Terme in der letzten Zeile p − ln 2π − ln p(x) 2 nicht von ωj abhängen und daher beim Vergleich der gj nicht berücksichtigt werden müssen. Die gj sind im Falle normalverteilter Merkmale somit quadratische Funktionen in x 1 2 1 gj (x) = − dj (x) + (− ln |Σj | + ln P (ωj )), 2 2 (258) wobei d2j (x) die Mahalanobis-Distanz der Klasse ωj bezeichnet. Thomas Melzer, GEO Department 266 Wir betrachten im folgenden zwei Spezialfälle, die zu linearen Diskrimininantenfunktionen bzw. Entscheidungsgrenzen führen. Thomas Melzer, GEO Department 267 • Naive Bayes Σj = Iσ Die Mermale Xij = (Xi|ωj ) sind also innerhalb jeder Klasse ωj dekorreliert (Cov(Xij , Xkj ) = 0 für i 6= k) und somit unabhängig. Weiters weisen alle Komponenten dieselbe Varianz auf, d.h. V ar(Xij ) = σ für 1 ≤ i ≤ p, 1 ≤ j ≤ c. Die gj berechnen sich als affine Funktion der Mahalanobis-Distanz d2j (x) 1 1 1 T gj (x) = (− ) 2 (x − µ j ) (x − µ j ) − ln |Σj | + ln P (ωj ) 2 σ 2 1 1 = − 2 (xT x − 2µ µTj x + µ Tj µ j ) − ln |Σj | + ln P (ωj ) 2σ 2 (259) (260) Nachdem die Terme − 12 ln |Σj | und − 2σ1 2 xT x für alle Klassen gleich sind, können diese weggelassen werden. Thomas Melzer, GEO Department 268 Wir erhalten somit die äquivalente lineare Diskriminantenfunktion gj (x) = 1 T µ x σ2 j wjT x + − 2σ1 2 µ Tj µ j + ln P (ωj ) + bj , (261) welche für jede Klasse ωj eine Ebene im IRp+1 festlegt. Die Entscheidungsgrenzen gj (x) = gk (x) ergeben sich als Schnittmenge je zweier solcher Ebenen, d.h. als als (p − 1)-dimensionale Hyperebenen im IRp wT (x − b) = 0, (262) wobei w = µj − µk b = Thomas Melzer, GEO Department 1 σ2 P (ωj ) (µ µj + µ k ) − ln (µ µj − µ k ). 2 kµ µj − µ k k2 P (ωk ) (263) (264) 269 0 4 2 2 -2 ω1 0.15 p(x|ωi) 0.4 ω2 1 0 0.1 ω2 ω1 2 0.05 1 0.3 ω1 0 0 0.2 -1 P(ω2)=.5 0.1 P(ω1)=.5 x -2 0 R1 P(ω1)=.5 2 4 R2 P(ω2)=.5 R2 R1 -2 P(ω1)=. -2 -2 -1 0 0 2 4 FIGURE 2.10. If the covariance matrices for two distributions are equal and proportional Abbildungmatrix, 31: Entscheidungsgrenzen für zwei bzw. bivathen the distributions are spherical in d univariate dimensions, (links) and the boundary is a generalize riate (rechts) Normalverteilungen mit Σ1line =separating Σ2 = Iσ. Entscheidungsd − 1 dimensions, perpendicular to the the Die means. In these one-, two-, and thr examples, indicate p(x|ωzur the boundaries for thezwischen case P (ω1 ) den = P (ω i ) and 2 ). In the three-dim grenzen sind linearweund normal Verbindungsstrecke beiden the grid plane separates R1 from R2 . From: Richard O. Duda, Peter E. Hart, and David G Klassenmitteln. Für gleiche priors verläuft die Entscheidungsgrenze durch c 2001 by John Wiley & Sons, Inc. Classification. Copyright (µ µi + µ j )/2, ansonsten wird sie von der a priori wahrscheinlicheren Klasse wegverschoben. Thomas Melzer, GEO Department 270 (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) • Linear Discriminant Analysis (LDA) Σj = Σ Alle Klassen haben dieselbe Kovarianzmatrix. Die Form der Verteilungen ist durch Hyperellipsoide im IRp gegeben (genauer: die iso-Flächen konstanter pdf sind Hyperellipsoide). Schreiben wir in Eq. 258 die Mahalonobis-Distanz d2j (x) aus und lassen wir den von ωj unabhängigen Term − 21 |Σ| weg, so erhalten wir 1 gj (x) = − (x − µ j )T Σ−1(x − µ j ) + ln P (ωj ). 2 (265) d2j (x) zerfällt in einen quadratischen und einen affinen Anteil d2j (x) = xT Σ−1x − 2µ µTj Σ−1x + µ Tj Σ−1µ j , (266) wobei der quadratische Anteil wiederum nicht von ωj abhängt und somit weggelassen werden kann. Thomas Melzer, GEO Department 271 Die äquivalente lineare Diskriminantenfunktion ist - analog zum Fall Σj = Iσ - durch µ Tj Σ−1x + − 21 µ Tj Σ−1µ j + ln P (ωj ) gj (x) = wjT x + bj , (267) gegeben, die Entscheidungsgrenzen gj (x) = gk (x) durch wT (x − b) = 0, (268) wobei w = Σ−1(µ µj − µ k ) b = Thomas Melzer, GEO Department 1 1 P (ωj ) (µ µj + µ k ) − 2 ln (µ µj − µ k ). 2 dk (µ µj ) P (ωk ) (269) (270) 272 ω2 0.2 ω1 ω2 0.2 -0.1 ω1 -0.1 0 0 P(ω2)=.5 R2 P(ω2)=.9 R1 P(ω1)=.5 -5 5 R2 0 P(ω1)=.1 0 -5 0 5 R1 0 5 -5 5 -5 Abbildung 32: Entscheidungsgrenzen für zwei bivariate Normalverteilungen 10 7.5 mit Σ1 = Σ2. Die Entscheidungsgrenzen sind wieder linear, jedoch i.a. nicht R 7.5 R 5 normal zur Verbindungsstrecke den beiden Klassenmitteln. Für P(ω )=.5 zwischen gleiche priors verläuft die Entscheidungsgrenze durch (µ µ P(ωi +µ )=.1µ5j )/2, ansonsten 2.5 ω wird sie von der a priori wahrscheinlicheren Klasse wegverschoben. ω R -2.5 (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) 0 R 1 1 1 1 1 1 2 ω Thomas Melzer, GEO Department 2 P(ω2)=.5 2 273 ω2 -2.5 -2 -2 0 2 -2 0 2 4 0 P(ω2)=.9 0 2 -2 0 2 4 • Quadratic Discriminant Analysis (QDA) Σi beliebig Im allgemeinen Fall berechnen sich die Diskriminantenfunktionen gemäß Eq. 258 1 2 1 gj (x) = − dj (x) + (− ln |Σj | + ln P (ωj )) 2 2 (271) Die Entscheidungsgrenzen sind durch sogenannte hyperquadrics gegeben, wobei die korrespondierenden Entscheidungsregionen nicht einfach zusammenhängend sein müssen. Thomas Melzer, GEO Department 274 Abbildung 33: Entscheidungsgrenzen für zwei bivariate Normalverteilungen mit Σ1 6= Σ2. Die Entscheidungsgrenzen sind i.a. nicht linear, sondern durch sogenannte hyperquadrics gegeben. Die Entscheidungsregionen müssen in diesem Fall nicht einfach zusammenhängend sein. (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 275 FIGURE 2.14. Arbitrary Gaussian distributions lead to Bayes decision boundaries that Minimax Kriterium Die optimale Bayes Entscheidungsgrenze hängt sowohl von den class conditional pdfs p(x|ωi) als auch von den priors P (ωi) ab. Die für gegebene priors P (ωi) gefundene Entscheidunsgrenze ist jedoch nicht (mehr) optimal, falls die beim Training verwendeten priors nicht korrekt waren bzw. diese sich nachträglich ändern. In diesem Fall wird die tatsächliche Fehlerrate über der Bayes-Fehlerrate liegen. Wir betrachten im folgenden wieder den Fall c = 2. Für feste Entscheidungsgrenzen (-Regionen) ist die Fehlerrate P (error) eine lineare Funktion in P (ω1) und nimmt entweder für P (ω1) = 0 oder P (ω1) = 1 das Maximum an. Das Minimax-Kriterium wählt jene Entscheidungsgrenze, für welche dieses Maximum minimal wird und begrenzt somit den “Schaden” (die Fehlerrate) im ungünstigsten (worst-case) Fall. Thomas Melzer, GEO Department 276 P(error) .4 .4 .3 .3 .2 .2 .1 .1 P(ω1) 0 .2 .4 .6 .8 1 FIGURE 2.4. The curve at the bottom shows the minimum (Bayes) error as a function of prior probability P (ω1 ) in a two-category classification problem of fixed distributions. For each value of the priors (e.g., P (ω1 ) = 0.25) there is a corresponding optimal decision boundary and associated Bayes error rate. For any (fixed) such boundary, if the priors are then changed, the probability of error will change as a linear function of P (ω1 ) (shown by the dashed line). The maximum such error will occur at an extreme value of the prior, here at P (ω1 ) = 1. To minimize the maximum of such error, we should design our decision boundary for the maximum Bayes error (here P (ω1 ) = 0.6), and thus the error will not change as a function of prior, as shown by the solid red horizontal line. From: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. c 2001 by John Wiley & Sons, Inc. Copyright Abbildung 34: Die konvexe Kurve gibt den Verlauf des Bayes-Risk (bzw. der Fehlerrate) als Funktion der priors wieder. Ändern sich die priors nachträglich, so ändert sich das Risk ebenfalls, und zwar als lineare Funktion von P (ω1). Für den Punkt links nimmt diese Funktion ihr Maximum (3.3) für P (ω1) = 1 an. Wird die Entscheidungsgrenze nach dem Minimax-Kriterium gewählt (rechter Punkt), so wird der Anstieg der Geraden 0, d.h. das Risk bleibt auch bei nachträglicher Änderung der priors konstant. Thomas GEOHart, Department 277 (Aus Melzer, Duda, Stork: Pattern Classification, 2nd ed.) Das Minimax-Risk Rmm (welches den Mininmax-Fehler als Spezialfall enthält) ist wie folgt definiert Z Rmm = λ22 + (λ12 − λ22) p(x|ω2)dx R1 Z = λ11 + (λ21 − λ11) p(x|ω1)dx. (272) R2 Die Entscheidungsgrenze ist also dadurch definiert, dass die Beiträge der beiden Klassen zum Risk jeweils gleich groß sind. Man bemerkt, dass das Minimax-Risk nicht von den priors abhängt (die Steigung der Fehlergeraden ist 0). Thomas Melzer, GEO Department 278 Dichteschätzung • Motivation Die bisher diskutierten Klassifikatoren basieren auf dem Bayes-Kriterium. Um die posteriors berechnen zu können, benötigt man für jede Klasse ωj – die priors P (ωj ) – die class-conditional pdfs p(x|ωj ). Die priors sind i.a. bekannt, bzw. kann der Klassifikator robust gegenüber falschen priors gemacht werden (siehe Minimax-Kriterium). Die Schätzung der class-conditional pdfs ist wesentlich schwieriger. Man unterscheidet zwischen parametrischen und nicht parametrischen Methoden zur Dichteschätzung (density estimation). Thomas Melzer, GEO Department 279 Parametrische Methoden sind anwendbar, wenn die pdf einer bekannten, parametrischen Form folgt; so ist z.B. die Normalverteilung N (µ µ, Σ) durch die Parameter µ und Σ festgelegt, aus welchen sich die pdf im Punkt x gemäß p(x) = 1 p 12 1 − 2 (x−µ) e 1 (2π) |Σ| 2 T Σ−1 (x−µ) , (273) berechnet. (Wir nehmen im folgenden an, dass wir die Dichtefunktion für jede Klasse separat schätzen können und lassen daher die Klasenlabels ωj weg). Nichtparametrische Methoden machen hingegen keine Annahmen über die Form der Verteilung. Thomas Melzer, GEO Department 280 • Parametrische Methoden Die gesuchte pdf p(x) ist duch einen Parametervektor Θ festgelegt; dies wird auch durch die Schreibweise p(x|Θ) ausgedrückt. Wir nehmen im folgenden an, dass p(x|Θ), x ∈ IRp anhand einer Stich~ 1, . . . , X ~ N ) vom Umfang N geschätzt werden soll, wobei sich die probe (X ~ i gemäß p(x|Θ) i.i.d. verteilen. Die Realisation einer solchen Stichprobe X bezeichnen wir wieder mit X = (x1, . . . , xN ). Thomas Melzer, GEO Department 281 Maximum likelihood-Methode (ML) ML fasst die Stichprobe (genauer: deren Realisation) als Funktion des gesuchten Parameters Θ (likelihood-Funktion) auf l(Θ, X) = p(X|Θ) = p Y p(xi|Θ), (274) i=1 ~ i folgt. wobei der letzte Schritt aus der Unabhängigkeit der X Die ML-Methode wählt jenen Wert des Parameters Θ∗, welcher die joint-likelihood Eq. 274 maximiert. Oft ist es einfacher, den Logarithmus von Eq. 274 zu maximieren; dies führt zur log-likelihood-Funktion ln l(Θ, X) = N X ln p(xi|Θ). (275) i=1 Thomas Melzer, GEO Department 282 x 1 2 3 4 5 6 7 4 5 6 7 p(D|θ ) 1.2 x 10-7 0.8 x 10-7 θˆ 0.4 x 10-7 1 2 3 θ l(θ ) -20 Abbildung 35: Beispiel zur ML-Parameterschätzung. Gesucht ist der Mittel-40 θˆ wert Θ = µ einer N -60 (µ, σ 2)-Verteilung (σ 2) bekannt. θ -80 und Kandidaten für die generierende Oben: Trainingspunkte pdf. 1 2 3 4 5 6 7 Unten: Verlauf der -100 joint-likelihood p(X|Θ). Diese wird mit zunehmendem FIGURE 3.1. The top graph shows several training points in one dimension, known or N enger. assumed to be drawn from a Gaussian of a particular variance, but unknown mean. (Aus Duda, Stork: Pattern Classification, 2nd Four of Hart, the infinite number of candidate source distributions are ed.) shown in dashed lines. TheDepartment middle figure shows the likelihood p(D|θ ) as a function of the mean. If we Thomas Melzer, GEO had a very large number of training points, this likelihood would be very narrow. The value that maximizes the likelihood is marked θ̂ ; it also maximizes the logarithm of the likelihood—that is, the log-likelihood l (θ ), shown at the bottom. Note that even though they look similar, the likelihood p(D|θ ) is shown as a function of θ whereas the 283 Achtung: die likelihood-Funktion p(X|Θ) ist - als Funktion des Parameters Θ) - keine Dichtefunktion (pdf)! Thomas Melzer, GEO Department 284 Beispiel: Schätzung des Mittels der Nomalverteilung mittels ML ~ i ∼ N (µ Sei X µ, Σ), wobei Σ als bekannt vorausgesetzt wird; wir haben also Θ = µ . Logarithmieren wir Eq. 273 und lassen jene Terme weg, welche nicht von µ abhängen, so erhalten wir ln l(µ µ, X) = N X 1 − (xi − µ )T Σ−1(xi − µ ). 2 i=1 (276) Setzen wir den Gradienten von Eq. 276 bzg. µ (Θ) Null, so erhalten wir die notwendige Bedingung N X Σ−1(xi − µ ∗) = 0 (277) i=1 Thomas Melzer, GEO Department 285 und somit die Schätzung N X 1 µ ∗ = Θ∗ = m̂ = xi . N i=1 (278) Die ML-Methode liefert somit als Schätzer des Mittels das sample-mean. Thomas Melzer, GEO Department 286 Bayesian Parameter Estimation Im Unterschied zur ML-Methode wird hier der Parameter Θ als Zufallsvariable betrachtet, wobei das a priori vorhandene Wissen über die Verteilung von Θ durch die Dichtefunktion p(Θ) repäsentiert wird. Bayes-Learning führt die ursprüngliche pdf p(Θ) nach Beobachtung von N Stichprobenwerten X in eine neue a posteriori pdf p(Θ|X) über, welche das in den Trainingsbeispielen enthaltene Wissen reflektiert. p(Θ) → p(Θ|X). (279) Die obige Abbildung berechnet sich gemäß der Bayes Rule p(Θ|X) = R p(X|Θ) p(Θ), p(X|Θ)p(Θ)dΘ (280) wobei p(X|Θ) die likelihood von Θ bzg. X bezeichnet (siehe ML !). Thomas Melzer, GEO Department 287 Bezeichne Xi eine Stichprobe vom Umfang i; dann lässt sich Eq. 280 folgendermaßen rekursiv formulieren p(Θ|Xi) = R p(xi|Θ) p(Θ|Xi−1), p(xi|Θ)p(Θ|Xi−1)dΘ (281) wobei wir p(Θ) = p(Θ|X0) gesetzt und wiederum die i.i.d. Verteilung der samples ausgenutzt haben (Faktorisierung der likelihood bzw. joint pdf p(X|Θ)). Jede weitere Beobachtung xi führt also zu einer neuen - i.a. schmaleren - a posteriori pdf für den Parameter Θ; im Unterschied zur ML-Methode erhält man also nicht eine Punktschätzung, sondern eine Schätzung der Verteilung von Θ. p(Θ|X) ist, im Unterschied zu likelihood-Funktion p(X|Θ), eine “korrekte” Dichtefunktion von Θ. Thomas Melzer, GEO Department 288 Hinweis: die a priori pdf p(Θ) kann theoretisch eine andere parametrische Form als die conditional pdfs p(x|Θ) haben, was eine analytische Auswertung von Eq. 280 jedoch erschwert. Thomas Melzer, GEO Department 289 p(µ|x1,x2,...,xn) p(µ|x1,x2,...,xn) 30 3 20 50 2 24 1 1 10 12 0 5 -2 1 -1 0 1 0 1 5 µ -4 -2 0 -1 -2 1 2 4 -3 2 -4 FIGURE 3.2. Bayesian learning of the mean of normal distributions in one and two dimensions. The posterior distribution estimates are labeled by the number of training samples used in the estimation. From: Richard O. c 2001 by John Wiley & Sons, Inc. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright Abbildung 36: Beispiel zum Bayes-Learning. Dargestellt ist der Verlauf der a posteriori pdf p(Θ|Xi) für das Mittel einer univariaten (links) und bivariaten (rechts) Normalverteilung. Die Verteilung des Parameters wird durch Hinzunahme neuerTrainingsbeispiele xi+1 enger. (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 290 Dichteschätzung im Punkt x Ausgehend von der a posteriori Dichteschätzung des Parameters p(Θ|X) erhält man eine Schätzung der gesuchten Dichte im Punkt x mit Z p(x|X) = p(x|Θ)p(Θ|X)dΘ (282) (ohne Beweis). Gemäß Eq.282 berechnet sich die Dichte im Punkt x als gewichtetes Integral von p(x|Θ) über alle möglichen Werte des Parameters, wobei die Gewichtungsfunktion durch die a posteriori pdf des Parameters gegeben ist. Im Idealfall besitzt die Gewichtungsfunktion p(Θ|X) einen einzigen, hohen “peak” an der Stelle des wahren Parameterwerts Θ∗; in diesem Thomas Melzer, GEO Department 291 Fall liefert Eq.282 ebenfalls eine gute Näherung des wahren Wertes der Dichtefunktion p(x|Θ∗). Anmerkung: Man bemerkt, dass in der linken Seite von Eq. 282 der Parameter Θ nicht mehr explizit vorkommt. Dieses “Wegintegrieren” bzw. “Wegmitteln” von Variablen (to marginalize) wird auch häufig im Zusammenhang mit fehlenden Trainingsdaten (missing features) eingesetzt. Thomas Melzer, GEO Department 292 • Nichtparametrische Methoden zur Dichteschätzung Die besprochenen parametrischen Verfahren setzen voraus, dass die Form der gesuchten Dichtefunktion bekannt ist. Weiters sind parametrische Verfahren zur Schätzung multimodaler Dichtefunktionen (mit mehreren Maxima) i.a. nicht geeignet, d.h. ihre Anwendbarkeit ist auf eine relativ kleine Klasse von Verteilungen bzw. Dichtefunktionen beschränkt (narrowness). Nichtparametrische Verfahren machen hingegen keine Annahme über die Form der Verteilung. Gegeben seien wieder N Stichtprobenwerte xi, welche als Realisitionen ~i von gemäß der gesuchten pdf p(x) i.i.d. verteilten Zufallsvariablen X erhalten wurden. Thomas Melzer, GEO Department 293 Sei P die Wahrscheinlichkeit, dass eine Beobachtung in die Region R des Merkmalsraums fällt: Z P = p(x)dx. (283) Fallen k der N Beobachtungen xi in R, so lässt sich P durch den Anteil k P ≈ N (284) schätzen. ~ i ∈ R als Zufallsvariable Fasst man die Anzahl k der Beobachtungen X auf, so folgt diese einer Binomialverteilung k ∼ Bi(N, P ) mit E[k] = N P Thomas Melzer, GEO Department V ar(k) = N P (1 − P ). (285) 294 Für die transformierte Variable k/N (den Anteil) ergibt sich somit E[k/N ] = P V ar(k/N ) = P (1 − P )/N, (286) d.h. der Anteil ist ein asymptotisch konsistenter Schätzer der Wahrscheinlichkeit P . Nehmen wir weiters an, dass die pdf p(x) innerhalb von R annähernd konstant ist, so erhalten wir Z P = p(x0)dx0 ≈ V p(x), (287) wobei x ∈ R und V das von R umschlossene Volumen bezeichnet. Thomas Melzer, GEO Department 295 Fassen wir die bisherigen Ergebnisse zusammen, so erhalten wir folgenenden Schätzer der Dichtefunktion p(x) ≈ P k/N ≈ . V V (288) Ist V (bwz. R) zu groß, so gehen feine, lokale Strukturen innerhalb von R verloren (da Eq. 288 den Mittelwert von p(x) innerhalb von R schätzt: oversmoothing ). Aus praktischer Sicht kann V (R) jedoch nicht beliebig klein gemacht werden, da - für endliches N - die Wahrscheinlichkeit, dass eine Beobachtung in R fällt, gegen 0 geht. Dieses Problem kann auf zwei verschiedene Arten adressiert werden: √ – Setze V = VN in Abhängigkeit von N , z.B. VN =√1/ N (Parzen) – Setze k = kN in Abhängigkeit von N , z.B. kN = N (k-NN). Thomas Melzer, GEO Department 296 Parzen Windows Nehmen wir zunächst an, dass die Regionen R durch p-dimensionale Hyperwürfel mit Seitenlängen h und Volumen V = hp gegeben sind. Die sogenannte Fensterfunktion (window function) ϕ(w) = 1 |wi| ≤ 1/2, 1 ≤ i ≤ p 0 sonst (289) legt einen Hyperwürfel mit Seitenlängen 1 und Mittelpunkt im Ursprung fest. Allgemein ist ein Hyperwürfel mit Seitenlängen (window width) h und Mittelpunkt x durch w−x ϕ h (290) gegeben. Thomas Melzer, GEO Department 297 Die Anzahl der Beobachtungen xi, welche in einen solchen Hyperwürfel mit Mittelpunkt x fallen, ist demnach N X xi − x k= ϕ . h i=1 (291) Setzen wir das so erhaltene k in Eq. 288 ein, so erhalten wir schließlich N N X 1 1 x − xi 1 X p(x) ≈ p̂(x) = ϕ = ϕ̃(x − xi) N i=1 V h N i=1 (292) R Da ϕ̃(x − xi) ≥ 0 und ϕ̃(x − xi)dx = 1, besitzen die Summanden - und somit auch ihr arithmetisches Mittel - p̂(x) - alle erforderlichen Eigenschaften einer Dichtefunktion. Thomas Melzer, GEO Department 298 Der obige Ansatz lässt sich leicht auf andere (symmetrische) Dichtefunktionen verallgemeinern; eine populäre Wahl ist die pdf der Normalverteilung N (xi, diag(h2)). In jedem Fall erhält man die Schätzung p̂(x) als arithmetisches Mittel von N pdfs. Dies ist ein Spezialfall einer sogenannten mixture density (im Falle einer Normalverteilung auch mixture of Gaussians genannt) N X i=1 πiϕ̃(x − xi), wobei N X πi = 1. (293) i=1 Achtung: die obige Berechnungsvorschrift liefert nicht die pdf der Verteilung der Summe von N Zufallsvariablen; letztere ist nach dem zentralen Grenzwertsatz asymptotisch normal, während mit mixture densities eine breite Palette verschiedener, auch multi-modaler, Verteilungen modelliert werden kann. Thomas Melzer, GEO Department 299 h1 = 1 h1 = 0.5 h1 = 0.1 n=1 -2 0 2 -2 0 2 -2 0 2 -2 0 2 -2 0 2 -2 0 2 -2 0 2 -2 0 2 -2 0 2 -2 0 2 0 2 0 2 n = 10 n = 100 n =∞ -2 -2 FIGURE 4.5. Parzen-window estimates of a univariate normal density using different window widths and numbers of samples. The vertical axes have been scaled to best show the structure in each graph. Note particularly that the n = ∞ estimates are the same (and match the true density function), regardless of window width. From: Richard c 2001 O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright by John Wiley & Sons, Inc. Abbildung 37: Schätzung einer univariaten Normalverteilung mit Parzen-Windows. Horizontale Achse: Fensterbreite h. Vertikale Achse: Anzahl der Trainingsbeispiele N . (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 300 h1=1 h1=0.5 1 h1=0.2 1 1 n=1 0 1 2 3 4 1 0 1 2 3 4 1 0 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 n=16 0 1 2 3 4 1 0 1 2 3 4 1 0 1 n=256 0 1 2 3 4 1 0 1 2 3 4 1 0 1 n=∞ 0 1 2 3 4 0 1 2 3 4 0 FIGURE 4.7. Parzen-window estimates of a bimodal distribution using different window widths and numbers of samples. Note particularly that the n = ∞ estimates are the same (and match the true distribution), regardless of window width. From: Richard O. Duda, c 2001 by John Peter E. Hart, and David G. Stork, Pattern Classification. Copyright Wiley & Sons, Inc. Abbildung 38: Schätzung einer bimodalen Verteilung mit Parzen-Windows. Horizontale Achse: Fensterbreite h. Vertikale Achse: Anzahl der Trainingsbeispiele N . (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 301 Konvergenz des Parzen-Window-Estimators Der Schätzer p̂(x) ist (wie auch der Mittelwertschätzer) als Funktion von N iid verteilten Zufallsvariablen selbst eine Zufallsvariable. Insbesondere hängt der konkrete Wert der Schätzung im Punkt x von der gewählten Stichprobe ab. Es kann, unter einigen milden Annahmen, gezeigt werden, dass der Schätzer p̂(x) der pdf p(x) im Punkt x asymptotisch konsistent ist, d.h. lim E[p̂(x)] = p(x) (294) lim V ar(p̂(x)) = 0, (295) N →∞ N →∞ wobei die Erwartung und Varianz bzg. aller möglichen Realisationen des Trainingssets zu verstehen sind. Thomas Melzer, GEO Department 302 Wir betrachten im folgenden den Erwartungswert von p̂(x). Es gilt E[p̂(x)] = 1 N N X " 1 E ϕ V i=1 ~i x−X h !# N Z 0 X 1 1 x−x = ϕ p(x0)dx0 N i=1 V h Z = ϕ̃(x − x0)p(x0)dx0 (296) Der Ausdruck in der letzten Zeile entspricht der Faltung (convolution) der wahren Dichtefunktion p(x0) mit der Funktion ϕ̃(x. Für h → 0 geht ϕ̃(x − x0) in einen Dirac-Stoß an der Stelle x über, und Eq. 296 liefert somit den wahren Wert p(x) zurück. Für größer werdendes h erhält man hingegen eine verschmierte (blurred) Version der ursprünglichen pdf Thomas Melzer, GEO Department 303 (Tiefpass-Filterung). Thomas Melzer, GEO Department 304 Klassifikation Schätzt man die class conditional pdfs separat für alle Klassen, so können die Schätzungen p̂(x|ωj ) zur Berechnung der a posteriori probabilities herangezogen werden p̂(x|ωj )P (ωj ) P P (ωj |x) ≈ c . p̂(x|ω )P (ω ) i i i=1 (297) Das Ergebnis (und die Fehlerrate) wird klarerweise von der Wahl des Parameters h abhängen; der Wert von h kann in der Praxis durch cross-validation ermittelt werden. Thomas Melzer, GEO Department 305 x2 x2 x1 x1 FIGURE 4.8. The decision boundaries in a two-dimensional Parzen-window dichotomizer depend on the window width h. At the left a small h leads to boundaries that are more complicated than for large h on same data set, shown at the right. Apparently, for these data a small h would be appropriate for the upper region, while a large h would be appropriate for the lower region; no single window width is ideal overall. From: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. c 2001 by John Wiley & Sons, Inc. Copyright Abbildung 39: Entscheidungsregionen für ein binäres Klassifikationsproblem basierend auf Parzen-Windows. Die Fensterbreite h ist links kleiner als rechts. (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 306 Fisher’s Linear Discriminant (FLD) • Motivation Fisher’s linear discriminant ist, wie die PCA, ein weiterer wichtiger Vertreter der Klasse der linearen, dimensionalitäts-reduzierenden Merkmalsextraktoren. Im Unterschied zur PCA, welche die Varianz entlang der ProjektionsRichtungen w maximiert - und somit den erwarteten Rekonstruktionsfehler minimiert -, versucht die FLD, eine Projektionsrichtung w zu finden, welche zwei Klassen möglichst möglichst gut separiert, oder, anders formuliert, die Überschneidung (overlap) zwischen den klassen-bedingten Verteilungen minimiert. Dieser Sachverhalt ist in Fig. 40 dargestellt. Thomas Melzer, GEO Department 307 C1 x2 C2 x1 Abbildung 40: Dargestellt sind die Mittelwerte und die iso-Linien konstanter pdf der Merkmalsverteilungen für zwei Klassen, wobei die gezeigten Ellipsoide den Großteil der Masse der Verteilungen abdecken. Die PCA würde als wichtigste Richtung die Achse x1 liefern, da diese die projizierte Gesamtvarianz maximiert. Allerdings überlappen sich Projektionen der Verteilungen auf x1 stark. Die auf x2 projizierten Mekmalsverteilungen überlappen sich hingegen nicht. Thomas Melzer, GEO Department 308 FLD bezieht also die bekannten Klassenzugehörigkeiten der Merkmalsvektoren in die Bestimmung der Projektionsrichtungen mit ein, während PCA ausschließlich die Verteilung der Merkmalsvektoren, nicht jedoch deren Klassenzugehörigkeit berücksichtigt. Thomas Melzer, GEO Department 309 • Das Fisher-Kriterium Sei X ∈ IRp×N ein Trainingsset vom Umfang N , wobei N1 Beispiele zur Klasse ω1 und N2 Beispiele zur Klasse ω2 gehören (N1 + N2 = N ). Die klassen-spezifischen empirischen Mittelwerte sind durch 1 X m̂1 = xi N1 x ∈ω (298) 1 X m̂2 = xi N2 x ∈ω (299) i i 1 2 gegeben. FLD versucht eine Projektionsrichtung w zu finden, sodaß die Distanz der projizierten Mitttelwerte (der between-class scatter ) (wT (m̂1 − m̂2))2 = wT (m̂1 − m̂2)(m̂1 − m̂2)T w Thomas Melzer, GEO Department (300) 310 möglich groß wird. Dies allein garantiert jedoch noch nicht die bestmögliche Trennung der beiden Klassen (siehe Fig. 40): gleichzeitig sollte auch die Varianz der projizierten Merkmale möglichst klein werden. Die empirische, “gepoolte” Varianz des gesamten Trainingssets (within-class scatter ) ist durch 1 N1 − 1 + N2 − 1 (N1 − 1)ŝ21 + (N2 − 1)ŝ22 = N1 − 1 + N2 − 1 X X T 2 ( (w (xi − m̂1)) + (wT (xi − m̂2))2) (301) xi ∈ω1 xi ∈ω2 gegeben. Thomas Melzer, GEO Department 311 Setzen wir Sb = (m̂1 − m̂2)(m̂1 − m̂2)T (302) X X T Sw = (xi − m̂1)(xi − m̂1) + (xi − m̂2)(xi − m̂2(303) )T xi ∈ω1 xi ∈ω2 (between-set/within-set scatter matrices), Sb, Sw ∈ IRp×p, so erhalten wir schließlich durch Zusammenfassen der beiden obigen Forderungen das Fisher-Kriterium wT Sbw JF LD (w) = T → max . w Sw w (304) (Der Skalierungsfaktor 1/(N1 +N2 −2) hat keinen Einfluss auf die Lösung und wird deshalb in der Definition von Sw weggelassen; vergleiche SSE vs. MSE). Thomas Melzer, GEO Department 312 Eq. 304 ist ein generalisierter Rayleigh-Quotient, dessen Extremstellen/werte ident mit jenen des korrespondierenden generalisierten Eigenwertproblems Sbw = λSw w (305) sind, welches sich im Falle der Invertierbarkeit von Sw auf das StandardEigenwertproblem S−1 w Sb w = λw (306) reduzieren lässt. Man bemerkt weiters, dass Sbw = (m̂1 − m̂2)((m̂1 − m̂2)T w) ∝ (m̂1 − m̂2). Thomas Melzer, GEO Department (307) 313 Nachdem wir nur an der Richtung, nicht jedoch an der Länge von w interessiert sind, erhalten wir schließlich die (bis auf einen Skalierungsfaktor eindeutige) Lösung S−1 w (m̂1 − m̂2 ) ∝ w. Thomas Melzer, GEO Department (308) 314 • Anmerkungen – Nachdem im Fall zweier Klassen Sb Rang 1 hat, gibt es genau einen Lösungsvektor w. Allgemein liefert FLD für c Klassen (c − 1) Projektionsrichtungen, welche einen c − 1-dimensionalen linearen Unterraum des Merkmalsraums IRp aufspannen. – Wir haben oben vorausgesetzt, dass Sw invertierbar ist; diese Annahme gilt jedoch insbesondere für hochdimensionale Daten (p >> N ) nicht. Ein Lösungsansatz besteht in diesem Fall darin, zunächst die Dimensionalität der Merkmale mittels PCA auf N − c zu reduzieren (Fisherfaces), sodass Sw vollen Rang hat. – FLD ist im strengen Sinn kein Klassifikator, da keine Vorschrift für die Zuordnung von Merkmalen zu Klassen, sondern lediglich eine niedrigdimensionale, für Klassifikationszwecke gut geeigntete Repräsentation berechnet wird. Insbesondere liefert FLD keine Entscheidungsgrenze. Thomas Melzer, GEO Department 315 • Beziehung zwischen FLD und Linearer Regression Wie im Abschnitt über Regression besprochen, lässt sich jedes Klassifikationsproblem auch als Regressionsproblem auffassen, indem wir die Klassen-Labels des Trainingssets als Target-Werte interpretieren (jedoch müssen Regressionsverfahren nicht immer zu zufriedenstellenden Lösungen - im Sinne einer optimalen Klassifikations-Fehlerrate - führen). Sei {X, y}, X ∈ IRp×N , y ∈ IR1×N ein Trainingsset, wobei yi, wie üblich, die Klassenzugehörigkeit des i-ten Merkmalsvektors xi bezeichne. Die Summe der quadratischen Abweichungen zwischen vorhergesagten und tatsächlichen Klassen-Labels auf dem Trainingsset ist durch Eq. 204 (y − wT X)(y − wT X)T (309) gegeben. Die optimale Lösung w - bezüglich des least squares-Kriteriums - kann, wie wir wissen, z.B. mittels der Pseudo-Inversen gefunden werden. Thomas Melzer, GEO Department 316 Kodieren wir nun die Klassenlabels gemäß yi = N/N1, für xi ∈ ω1, sowie (310) yi = −N/N2, für xi ∈ ω2, (311) so ist die mittels der Pseudo-Inversen berechnete Lösung (Eq. 212) wpi ident (bis auf einen Skalierungsfaktor) mit der durch die FLD gegebenen Lösung Eq. 308 wf ld, d.h. wpi ∝ wf ld (ohne Beweis). Verwenden wir außerdem homogene Koordinaten, so erhalten wir zusätzlich die Entscheidungsgrenze als bias −w0, d.h., als das Negative der homogene Komponente w0 des Gewichtsvektors awpi: w0 = −nawT m̂ = − p X wim̂i, (312) i=1 Thomas Melzer, GEO Department 317 wobei 1 m̂ = (N1m̂1 + N2m̂2) N das Gesamt-Mittel bezeichnet und die Superskripte a und (augmented) bzw. nicht homogene Vektoren bezeichnen. (313) na homogene Wir entscheiden uns somit für Klasse ω1, falls na wT x + w0 = na wT (x − m̂) = awT x ≥ 0, (314) und für ω2 andrenfalls. Thomas Melzer, GEO Department 318 Anhang A: Receiver Operating Characteristics - ROC ROC sind ein aus der Signalverarbeitung kommender Ansatz zur Beschreibung bzw. Behandlung von Testproblemen. Sie haben ihren Ursprung in der Radartechnologie, wo sie ursprünglich für den Zweck konzipiert wurden, ein Signal – ein von einem Objekt reflektiertes Radarecho – vom Hintergrundrauschen zu unterscheiden. Wir treffen im folgenden die Annahme, dass sowohl das Signal als auch das Rauschen normalverteilt mit gleicher Varianz sind. Bezeichne im folgenden ω1 das Rauschen und ω2 das wahre Signal, und seien die Verteilungen durch N (µi, σ) gegeben, wobei wir weiters µ2 > µ1 annehmen. Thomas Melzer, GEO Department 319 Rauschen und Signal werden umso leichter zu unterscheiden sein, je größer die Differenz ihrer Mittelwerte relativ zur Standardabweichung ist; die (von der Entscheidungsgrenze x∗ unabhängige) Kenngröße d0 = |µ1 − µ2| σ (315) wird auch discriminability genannt. Thomas Melzer, GEO Department 320 Bei der Klassierung des Signals können vier verschiedene Ereignisse eintreten • X > x∗|ω2: hit (tp), • X < x∗|ω2: miss (fn), • X < x∗|ω1: tn • X > x∗|ω1: false alarm (fp) Thomas Melzer, GEO Department 321 hit 1 d'=3 p(x|ωi) d'=2 ω2 ω1 d'=1 d'=0 σ σ µ1 x* µ2 x false alarm 1 FIGURE 2.19. During any instant when no external pulse is present, probability FIG U REthe 2.20. In a receiver operating characteristic (RO C) curve, the abscissa is the 2 of false alarm, P x x x ); when the external density for an internal signal is normal, that is, p(x |ω1 ) ∼ N (µ1 , σprobability 1 , and the ordinate is the probability of hit, P x threshold x x From the measured hit and false alarm rates (here corresponding to signal is present, the density is p(x |ω2 ) ∼ N (µ2 , σ 2 ). Any decision x2 ∗. will x inabove Fig. 2.19 and of shown as the red dot), we can deduce that d 3. From: Richard O . x ∗ ) and a determine the probability of a hit (the pink area under the ω2 curve, D uda, Peter E. H art, and D avid G . Stork, Pattern ClassiÞcation. Copyright c 2001 by false alarm (the black area under the ω1 curve, above x ∗ ). From: Richard O. Duda, Peter & Sons, c John 2001Wbyiley John WileyInc. & E. Hart, and David G. Stork, Pattern Classification. Copyright Sons, Inc. Abbildung 41: Links: Verteilung des Rauschens und des Nutz-Signals. Dargestellt sind außerdem die Wahrscheinlichkeiten P (hit) (rosa) sowie P (f alse alarm) (schwarz). Rechts: ROC-curves. Je größer d0, desto schneller konvergiert die Kurve (als Funktion von P (f alse alarm) betrachtet) gegen 1. (Aus Duda, Hart, Stork: Pattern Classification, 2nd ed.) Thomas Melzer, GEO Department 322 Von Bedeutung ist hier insbesondere das Verhältnis von P (hit) zu P (f alse alarm). Wünschenswert ist natürlich eine große hit-rate bei gleichzeitig möglichst geringer Wahrscheinlichkeit für einen false alarm. Dieser Zusammenhang wird i.a. durch sogenannte ROC-curves dargestellt. Jede ROC-curve ist durch die discriminability des Systems eindeutig festgelegt (je größer, desto schneller steigt die Kurve anfangs an). Jeder Punkt auf einer solchen Kurve enstpricht einer Entscheidungsgrenze x∗. Achtung: im allgemeinen Fall (keine Normalverteilungen oder ungleiche Varianz) sind die ROC-curves nicht symmetrisch. Thomas Melzer, GEO Department 323 Appendix B: Lineare Algebra Rechenregeln für Determinanten • |A| = 0 g.d.w. A singulär Q • |A| = i aii falls A = (aij ) eine Diagonalmatrix ist (speziell gilt |I| = 1) • |AB| = |A||B| • |A−1| = |A|−1 • |A| > 0(≥ 0), für positiv definites (positiv semi-definites) A. Thomas Melzer, GEO Department 324