Klassifikation von Daten -

Klassifikation von Daten – Einleitung
Lehrstuhl für Künstliche Intelligenz
Institut für Informatik
Friedrich-Alexander-Universität Erlangen-Nürnberg
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
1/1
Messwerte sind nie ganz exakt
Beispiel: Restzuckergehalt in vergorenem Apfelmost
I
I
In zwei verschiedenen Gärballons (rot bzw. grün) wird mehrfach
hintereinander der Restzuckergehalt bestimmt.
Jeder Messwert gibt einen Wert zwischen -1 und +7 %mas
(Masseanteil) an.
Lassen sich die Ballons anhand der Messwerte unterscheiden?
Vergleich von drei Fällen
Die Werte “streuen”.
Je nach Stärke der Streuung und Abstand der “richtigen” Werte
fällt die “optische” Unterscheidung unterschiedlich schwer.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
2/1
Annäherung an eine algorithmische Unterscheidung
Wir können versuchen, für jeden Gäransatz den “richtigen” Wert
zu rekonstruieren.
Dabei gehen wir von einem Sensormodell aus:
I
I
I
Der Sensor trifft grundsätzlich den richtigen Wert.
Oft liegt er ein bißchen daneben.
Selten liegt er sehr weit daneben.
Mit einem Histogram lässt sich abzählen, wie oft der Sensor
welchen Wert getroffen hat.
Bei zwei verschiedenen “richtigen” Werten müssten sich im
Histogramm zwei Häufungspunkte zeigen.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
3/1
Analytische Annahmen zum Sensormodell
Wir können das Sensormodell mathematisch präziser formulieren,
wenn wir eine Messung als Zufallsexperiment betrachten.
Für die Messung gibt es dann eine Zufallsvariable, die
verschiedene (Mess-)Werte annimmt.
Der Zufallsvariablen wird eine Verteilungsfunktion zugeordnet.
Ein Messwert x kann in einer von K Klassen liegen.
P (Ck |x) ist die Wahrscheinlichkeit, dass x in der k-ten Klasse liegt.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
4/1
Entscheidungsregel (Klassifikator)
Zur Bestimmung einer Entscheidungsregel gehen wir von drei
Größen aus:
Einflussgrößen für eine Entscheidung
1
Welche Wahrscheinlichkeit gibt ein Orakel dafür an, dass das Muster x
auftritt, wenn man Beispiele für die Klasse Ck sucht: P (x|C)
2
Welche Wahrscheinlichkeit berechnet der Klassifikator für die Klasse Cl ,
wenn ihm das Muster x gegeben wird: P (Cl |x)
3
Mit welcher Wahrscheinlichkeit tritt x auf: P (x)
Die Ereignisse in 1. und 2. sind voneinander unabhängig, weil der
Klassifikator die Antwort des Orakels nicht kennen kann.
Eine Entscheidung ist optimal, wenn der Klassifikator im Mittel die
Wahrscheinlichkeit minimiert, eine falsche Klasse zu wählen.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
5/1
Entscheidungsregel (2)
Der Raum der Beobachtungen X wird in ‘Entscheidungsregionen’
Rk (typischerweise nicht zusammenhängend!) aufgeteilt.
Der Klassifikator entscheidet sich für ein x ∈ Rk für die Klasse k
Welches ist die beste Aufteilung? Diejenige, welche die
Fehlerwahrscheinlichkeit minimiert!
Für zwei Klassen Cl und Ck ist der
Verwechslungswahrscheinlichkeit1 folgendermaßen gegeben:
P (Ver.wech.) = P (x ∈ Rl , Ck ) + P (x ∈ Rk Cl )
Z
Z
=
P (x, Ck )dx +
P (x, Cl )dx
Rl
Rk
Wie also Rl und Rk wählen?
Für jeden Vektor x ∈ X so, dass die kleinere der beiden
Verwechslungswahrscheinlichkeiten verbleibt
Wenn also P (x, Ck ) > P (x, Cl ): Fordere x ∈ Rk
1
= Fehlerwahrscheinlichkeit
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
6/1
Entscheidungsregel (3)
Beachte:
P (x, Ck ) = P (Ck |x)P (x)
und P (x, Cl ) = P (Cl |x)P (x)
Da der Faktor P (x) in beiden Fällen gleich ist, gilt:
Die Fehlerwahrscheinlichkeit wird minimiert, wenn man sich für die
Klasse mit der höchsten a-posteriori Wahrscheinlichkeit entscheidet.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
7/1
Entscheidungsregel (4)
Für K Klassen (bisher K=2): Betrachte die Wahrscheinlichkeit,
eine korrekte Entscheidung zu treffen:
P (korrekt) =
=
K
X
P (x ∈ Rk , Ck )
k=1
K Z
X
k=1
P (x, Ck )dx
Rk
Analog zu vorher:
I
I
Wie die Regionen Rk wählen, so dass P (korrekt) maximal?
→ Für jeden Vektor x ∈ X diejenige Klasse Ck , für die P (x, Ck )
maximal (jede andere Wahl wäre schlechter)
Somit:
Die Korrektheit wird maximiert, wenn man sich für die Klasse mit der
höchsten a-posteriori Wahrscheinlichkeit entscheidet.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
8/1
Entscheidungsregel (5) – Illustration
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
9/1
Entschedungsregel (6) – Verwechslungskosten
Typischerweise sind mit verschiednen Verwechslungspaaren
(Ci , Cj ) unterschiedliche Kosten verbunden
Die Kostenmatrix Lkj gibt an, wieviel eine Verwechslung von Ck
mit Cj kostet
Der Erwartungswert der Kosten für Verwechslungen:
XX
Lkj P (x ∈ Rj , Ck )
E[L] =
k
(Lehrstuhl Informatik 8)
j
Klassifikation von Daten – Einleitung
10 / 1
Wähle die Regionen Rj so, dass der Erwartungswert der
Verwechslungskosten minimal ist
Analog zu vorher: Minimiere den ‘Beitrag’, den jedes x ∈ Rj zu
den Gesamtkosten leistet
Dies ist für jeden Vektor x ∈ Rj die Größe
X
Lkj P (x, Ck )
k
→ wähle für jedes x das Rj für welches diese Größe minimal ist
(Bei bekannten Wahrscheinlichkeiten und Kostenfunktion einfach!)
Ein Klassifikator (eine Entscheidungsfunktion), der diese Regionen
realisiert heißt optimal.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
11 / 1
Maximum-Likelihood
Maximum-Likelihood-Methode zur Parameterschätzung (1821,
C ARL F. G AUSS; 1922, S IR R ONALD A. F ISHER):
Ausgangspunkt: Gegen die Stichproben x = x1 , . . . , xN einer
Zufallsvariable X mit einer Verteilungsfunktion (Dichte)
f (X; θ) = P (X = xi ; θ) deren ‘Typ’ bekannt ist
θ = (θ1 , θ2 , ..., θm ) ist Parametervektor der
Wahrscheinlichkeitsfunktion
Ziel: Wähle den Parametervektor θ so, dass
L(x; θ) = Pθ (X1 = x1 , . . . , Xn = xn ) = f (x1 ; θ) · . . . · f (xn ; θ)
des Ereignisses {X1 = x1 , . . . , Xn = xn } maximiert wird.
Beachte: Es wird angenommen, dass die Elemente von x i.i.d!
L heißt Likelihood von x für Parameter θ
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
12 / 1
Beispiel: Normalverteilung
Normalverteilung mit Parametern Mittelwert µ ∈ R und
Standardabweichung σ > 0 ist gegeben durch:
N (x; µ, σ 2 ) = √
1
e−
(x−µ)2
2σ 2
2πσ 2
Die Likelihood-Funktion eines Satzes von N i.i.d. Stichproben x ist
L(x; µ, σ) =
N
Y
N (xn ; µ, σ 2 )
n=1
Maximiere L durch geeignete Wahl von µ und σ
Rezept
Beachte Max. von L ist Max. von ln L
Betrachte µ und σ getrennt:
I
I
Bestimme die ersten und zweiten Ableitungen
Finde Maxima: Beachte u.a. für festes µ̄ die Grenzen limσ→0 und
limσ→∞
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
13 / 1
Grundsätzliche Schwierigkeiten bei der Klassifikation
Selbst wenn eine Verteilungsfunktion bekannt ist, kann nicht
immer richtig zwischen den verschiedenen Klassen getrennt
werden.
Je nach “wahren” Werten und Messfehlern fällt die Aufgabe
unterschiedlich schwer.
Das Bestimmen der Parameter für eine Verteilungsfunktion aus
Messwerten ist ein komplexes Optimierungsproblem.
Oft ist es gar nicht möglich, eine plausible Annahme über die
Verteilung einer Zufallsvariablen zu machen.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
14 / 1
Parameterfreie Klassifikation
Aus der MAP-Entscheidung leitet sich eine geometrische
Interpretation ab:
Im eindimensionalen Fall lassen sich Klassen also durch Intervalle
repräsentieren.
Gefahr: Verschiedene Klassen lassen sich nicht ohne falsche
Zuordnung einzelner Punkte trennen.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
15 / 1
Parameterfreie Klassifikation in mehreren
Dimensionen
Fast immer besteht eine Beobachtung aus mehreren simultanen
Messungen.
Jede Beobachtung wird also als Vektor von Messwerten definiert.
Oft wird die Annahme getroffen, dass die einzelnen Messungen
voneinander stochastisch
Qn unabhängig sind:
T
P (x1 , x2 , ..., xn ) = i=1 P (xi )
Beispiel für den (noch darstellbaren) zweidimensionalen Fall:
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
16 / 1
Parameterfreie Klassifikation in mehreren
Dimensionen
Ab Dimension 2 gibt es viele Möglichkeiten, Klassengrenzen
geometrisch zu definieren:
Die entscheidende Frage bei der Klassifikation lautet also:
Welches geometrische Modell ermöglicht eine optimale
Anpassung der Klassengrenzen an eine gegebene Menge von
Beispielen?
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
17 / 1
Parameterfreie Klassifikation in mehreren
Dimensionen
Dabei gibt es viele Schwierigkeiten: Überlappung, nicht
zusammenhängende Gebiete, Ausreißer, Formen ohne
geometrisches Modell
Wenn die Form nicht zu den Beispielen passt, ist die Gefahr der
Fehlklassifikation sehr hoch.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
18 / 1
Fluch der Dimension
Bei Dimension 2 ist der Einheitswürfel ein Quadrat mit
Seitenlänge 1 und Fläche 1.
Um eine Klasse „unterzubringen“, die einen Anteil 0 < c < 1 am
Einheitswürfel hat (die Wahrscheinlichkeit der Klasse ist also c),
benötigt man die Seitenlänge d mit:
√
d= c
Bei Dimension k gilt für d:
1
d = ck
Wegen 0 < c < 1 konvergiert d gegen 1 für k → ∞!
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
19 / 1
Optimale Merkmalsauswahl
Konsequenz aus dem Fluch der Dimension ist, dass man immer
versuchen muss, so wenige Merkmale wie möglich zu benutzen.
Um aus einer Menge von Merkmalen diejenigen herauszufinden,
die das beste Klassifikationsergebnis liefern, gibt es zahlreiche
Gütemaße.
I
I
I
I
SignifikanzTests
Korrelationstests
Informationstheoretische Tests
...
Bekanntes Verfahren zur Elimination korrelierter Dimensionen:
Die Hauptachsentransformation.
(Lehrstuhl Informatik 8)
Klassifikation von Daten – Einleitung
20 / 1