Klassifikation von Daten – Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 1/1 Messwerte sind nie ganz exakt Beispiel: Restzuckergehalt in vergorenem Apfelmost I I In zwei verschiedenen Gärballons (rot bzw. grün) wird mehrfach hintereinander der Restzuckergehalt bestimmt. Jeder Messwert gibt einen Wert zwischen -1 und +7 %mas (Masseanteil) an. Lassen sich die Ballons anhand der Messwerte unterscheiden? Vergleich von drei Fällen Die Werte “streuen”. Je nach Stärke der Streuung und Abstand der “richtigen” Werte fällt die “optische” Unterscheidung unterschiedlich schwer. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 2/1 Annäherung an eine algorithmische Unterscheidung Wir können versuchen, für jeden Gäransatz den “richtigen” Wert zu rekonstruieren. Dabei gehen wir von einem Sensormodell aus: I I I Der Sensor trifft grundsätzlich den richtigen Wert. Oft liegt er ein bißchen daneben. Selten liegt er sehr weit daneben. Mit einem Histogram lässt sich abzählen, wie oft der Sensor welchen Wert getroffen hat. Bei zwei verschiedenen “richtigen” Werten müssten sich im Histogramm zwei Häufungspunkte zeigen. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 3/1 Analytische Annahmen zum Sensormodell Wir können das Sensormodell mathematisch präziser formulieren, wenn wir eine Messung als Zufallsexperiment betrachten. Für die Messung gibt es dann eine Zufallsvariable, die verschiedene (Mess-)Werte annimmt. Der Zufallsvariablen wird eine Verteilungsfunktion zugeordnet. Ein Messwert x kann in einer von K Klassen liegen. P (Ck |x) ist die Wahrscheinlichkeit, dass x in der k-ten Klasse liegt. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 4/1 Entscheidungsregel (Klassifikator) Zur Bestimmung einer Entscheidungsregel gehen wir von drei Größen aus: Einflussgrößen für eine Entscheidung 1 Welche Wahrscheinlichkeit gibt ein Orakel dafür an, dass das Muster x auftritt, wenn man Beispiele für die Klasse Ck sucht: P (x|C) 2 Welche Wahrscheinlichkeit berechnet der Klassifikator für die Klasse Cl , wenn ihm das Muster x gegeben wird: P (Cl |x) 3 Mit welcher Wahrscheinlichkeit tritt x auf: P (x) Die Ereignisse in 1. und 2. sind voneinander unabhängig, weil der Klassifikator die Antwort des Orakels nicht kennen kann. Eine Entscheidung ist optimal, wenn der Klassifikator im Mittel die Wahrscheinlichkeit minimiert, eine falsche Klasse zu wählen. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 5/1 Entscheidungsregel (2) Der Raum der Beobachtungen X wird in ‘Entscheidungsregionen’ Rk (typischerweise nicht zusammenhängend!) aufgeteilt. Der Klassifikator entscheidet sich für ein x ∈ Rk für die Klasse k Welches ist die beste Aufteilung? Diejenige, welche die Fehlerwahrscheinlichkeit minimiert! Für zwei Klassen Cl und Ck ist der Verwechslungswahrscheinlichkeit1 folgendermaßen gegeben: P (Ver.wech.) = P (x ∈ Rl , Ck ) + P (x ∈ Rk Cl ) Z Z = P (x, Ck )dx + P (x, Cl )dx Rl Rk Wie also Rl und Rk wählen? Für jeden Vektor x ∈ X so, dass die kleinere der beiden Verwechslungswahrscheinlichkeiten verbleibt Wenn also P (x, Ck ) > P (x, Cl ): Fordere x ∈ Rk 1 = Fehlerwahrscheinlichkeit (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 6/1 Entscheidungsregel (3) Beachte: P (x, Ck ) = P (Ck |x)P (x) und P (x, Cl ) = P (Cl |x)P (x) Da der Faktor P (x) in beiden Fällen gleich ist, gilt: Die Fehlerwahrscheinlichkeit wird minimiert, wenn man sich für die Klasse mit der höchsten a-posteriori Wahrscheinlichkeit entscheidet. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 7/1 Entscheidungsregel (4) Für K Klassen (bisher K=2): Betrachte die Wahrscheinlichkeit, eine korrekte Entscheidung zu treffen: P (korrekt) = = K X P (x ∈ Rk , Ck ) k=1 K Z X k=1 P (x, Ck )dx Rk Analog zu vorher: I I Wie die Regionen Rk wählen, so dass P (korrekt) maximal? → Für jeden Vektor x ∈ X diejenige Klasse Ck , für die P (x, Ck ) maximal (jede andere Wahl wäre schlechter) Somit: Die Korrektheit wird maximiert, wenn man sich für die Klasse mit der höchsten a-posteriori Wahrscheinlichkeit entscheidet. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 8/1 Entscheidungsregel (5) – Illustration (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 9/1 Entschedungsregel (6) – Verwechslungskosten Typischerweise sind mit verschiednen Verwechslungspaaren (Ci , Cj ) unterschiedliche Kosten verbunden Die Kostenmatrix Lkj gibt an, wieviel eine Verwechslung von Ck mit Cj kostet Der Erwartungswert der Kosten für Verwechslungen: XX Lkj P (x ∈ Rj , Ck ) E[L] = k (Lehrstuhl Informatik 8) j Klassifikation von Daten – Einleitung 10 / 1 Wähle die Regionen Rj so, dass der Erwartungswert der Verwechslungskosten minimal ist Analog zu vorher: Minimiere den ‘Beitrag’, den jedes x ∈ Rj zu den Gesamtkosten leistet Dies ist für jeden Vektor x ∈ Rj die Größe X Lkj P (x, Ck ) k → wähle für jedes x das Rj für welches diese Größe minimal ist (Bei bekannten Wahrscheinlichkeiten und Kostenfunktion einfach!) Ein Klassifikator (eine Entscheidungsfunktion), der diese Regionen realisiert heißt optimal. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 11 / 1 Maximum-Likelihood Maximum-Likelihood-Methode zur Parameterschätzung (1821, C ARL F. G AUSS; 1922, S IR R ONALD A. F ISHER): Ausgangspunkt: Gegen die Stichproben x = x1 , . . . , xN einer Zufallsvariable X mit einer Verteilungsfunktion (Dichte) f (X; θ) = P (X = xi ; θ) deren ‘Typ’ bekannt ist θ = (θ1 , θ2 , ..., θm ) ist Parametervektor der Wahrscheinlichkeitsfunktion Ziel: Wähle den Parametervektor θ so, dass L(x; θ) = Pθ (X1 = x1 , . . . , Xn = xn ) = f (x1 ; θ) · . . . · f (xn ; θ) des Ereignisses {X1 = x1 , . . . , Xn = xn } maximiert wird. Beachte: Es wird angenommen, dass die Elemente von x i.i.d! L heißt Likelihood von x für Parameter θ (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 12 / 1 Beispiel: Normalverteilung Normalverteilung mit Parametern Mittelwert µ ∈ R und Standardabweichung σ > 0 ist gegeben durch: N (x; µ, σ 2 ) = √ 1 e− (x−µ)2 2σ 2 2πσ 2 Die Likelihood-Funktion eines Satzes von N i.i.d. Stichproben x ist L(x; µ, σ) = N Y N (xn ; µ, σ 2 ) n=1 Maximiere L durch geeignete Wahl von µ und σ Rezept Beachte Max. von L ist Max. von ln L Betrachte µ und σ getrennt: I I Bestimme die ersten und zweiten Ableitungen Finde Maxima: Beachte u.a. für festes µ̄ die Grenzen limσ→0 und limσ→∞ (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 13 / 1 Grundsätzliche Schwierigkeiten bei der Klassifikation Selbst wenn eine Verteilungsfunktion bekannt ist, kann nicht immer richtig zwischen den verschiedenen Klassen getrennt werden. Je nach “wahren” Werten und Messfehlern fällt die Aufgabe unterschiedlich schwer. Das Bestimmen der Parameter für eine Verteilungsfunktion aus Messwerten ist ein komplexes Optimierungsproblem. Oft ist es gar nicht möglich, eine plausible Annahme über die Verteilung einer Zufallsvariablen zu machen. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 14 / 1 Parameterfreie Klassifikation Aus der MAP-Entscheidung leitet sich eine geometrische Interpretation ab: Im eindimensionalen Fall lassen sich Klassen also durch Intervalle repräsentieren. Gefahr: Verschiedene Klassen lassen sich nicht ohne falsche Zuordnung einzelner Punkte trennen. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 15 / 1 Parameterfreie Klassifikation in mehreren Dimensionen Fast immer besteht eine Beobachtung aus mehreren simultanen Messungen. Jede Beobachtung wird also als Vektor von Messwerten definiert. Oft wird die Annahme getroffen, dass die einzelnen Messungen voneinander stochastisch Qn unabhängig sind: T P (x1 , x2 , ..., xn ) = i=1 P (xi ) Beispiel für den (noch darstellbaren) zweidimensionalen Fall: (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 16 / 1 Parameterfreie Klassifikation in mehreren Dimensionen Ab Dimension 2 gibt es viele Möglichkeiten, Klassengrenzen geometrisch zu definieren: Die entscheidende Frage bei der Klassifikation lautet also: Welches geometrische Modell ermöglicht eine optimale Anpassung der Klassengrenzen an eine gegebene Menge von Beispielen? (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 17 / 1 Parameterfreie Klassifikation in mehreren Dimensionen Dabei gibt es viele Schwierigkeiten: Überlappung, nicht zusammenhängende Gebiete, Ausreißer, Formen ohne geometrisches Modell Wenn die Form nicht zu den Beispielen passt, ist die Gefahr der Fehlklassifikation sehr hoch. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 18 / 1 Fluch der Dimension Bei Dimension 2 ist der Einheitswürfel ein Quadrat mit Seitenlänge 1 und Fläche 1. Um eine Klasse „unterzubringen“, die einen Anteil 0 < c < 1 am Einheitswürfel hat (die Wahrscheinlichkeit der Klasse ist also c), benötigt man die Seitenlänge d mit: √ d= c Bei Dimension k gilt für d: 1 d = ck Wegen 0 < c < 1 konvergiert d gegen 1 für k → ∞! (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 19 / 1 Optimale Merkmalsauswahl Konsequenz aus dem Fluch der Dimension ist, dass man immer versuchen muss, so wenige Merkmale wie möglich zu benutzen. Um aus einer Menge von Merkmalen diejenigen herauszufinden, die das beste Klassifikationsergebnis liefern, gibt es zahlreiche Gütemaße. I I I I SignifikanzTests Korrelationstests Informationstheoretische Tests ... Bekanntes Verfahren zur Elimination korrelierter Dimensionen: Die Hauptachsentransformation. (Lehrstuhl Informatik 8) Klassifikation von Daten – Einleitung 20 / 1