Statistik IV für Nebenfachstudierende - LMU Moodle

Werbung
Statistik IV für Nebenfachstudierende
5 Diskriminanzanalyse I
Prof. Dr. Andreas Mayr
Institut für Statistik, LMU München
Sommersemester 2017
Motivation
Die Grundgesamtheit zerfällt in k verschiedene Gruppen
oder Klassen.
Y ∈ {1, ..., k}
Die Gruppen / Klassen unterscheiden sich bezüglicher
Merkmale.
Ziel ist es von den Merkmalen auf die Klasse zu schließen.
Für jedes Objekt verfügbar: x> = (x1 , ..., xp )
Gesucht: Klasse des Objekts
Statistik IV - NF
2/17
Beispiele
Statistik IV - NF
3/17
Synonyme
Diskriminanzanalyse
Klassifikation
Pattern recognition
Supervised Learning
Statistik IV - NF
4/17
Beispiel: Diagnostischer Test
Sensitivität:
Spezifität:
Statistik IV - NF
5/17
Wichtige Größen
a priori–Wahrscheinlichkeiten
p(r) = P(Y = r), r = 1, . . . , k,
a posteriori–Wahrscheinlichkeiten
P(r | x) = P(Y = r | x), r = 1, . . . k,
Verteilung der Merkmale, gegeben die Klasse, bestimmt
durch die Dichten
f (x | 1), . . . , f (x | k).
Mischverteilung der Population (bzw. die unbedingte
Verteilung von x):
f (x) = p(1)f (x | 1) + . . . + p(k)f (x | k).
Statistik IV - NF
6/17
Bayes Zuordnung
Gesucht: Zuordnungsregel
δ : Rp −→ {1, ..., k}
x −→ δ(x)
Bayes Zuordnung:
δ ∗ (x) = r ⇐⇒ P(Y = r | x) = P(r | x) = max P(i | x)
i=1,...,k
Statistik IV - NF
7/17
Satz von Bayes
Für die Bayes Zuordnung brauchen wir P(Y = r | x)
Wenn f (x | Y = r) bekannt, nutzt man dazu den Satz von
Bayes:
Satz von Bayes
P(r | x) =
f (x | r)p(r)
f (x | r)p(r)
= k
f (x)
X
f (x | i)p(i)
i=1
Statistik IV - NF
8/17
Fehlklassifikationswahrscheinlichkeiten
Betrachtet wird eine feste Zuordnung
δ : Rp −→ {1, ..., k}
Zufällige Beobachtung (Y, x)
Statistik IV - NF
9/17
Globale Fehlerrate
Globale Fehlerrate (Gesamt-Fehlerrate)
entspricht Fehlklassifikations-Wahrscheinlichkeit
ε = P(δ(x) 6= Y)
Statistik IV - NF
10/17
Fehlerrate bei gegebenen x
Wahrscheinlichkeit einer Fehlklassifikation, gegeben der
feste Merkmalsvektor x
ε(x) = P(δ(x) 6= Y | x)
= 1 − P(δ(x) = Y | x)
= 1 − P(δ(x) | x).
Statistik IV - NF
11/17
Individuelle Fehlerrate
Verwechslungswahrscheinlichkeit oder individuelle
Fehlerrate
εrs = P(δ(x) = s | Y = r)
Z
=
f (x | r)dx, r 6= s
x:δ(x)=s
Statistik IV - NF
12/17
Fehlerrate für Klasse r
Wahrscheinlichkeit einer Fehlklassifikation, gegeben das
Objekt entstammt der Klasse r
εr = P(δ(x) 6= r | Y = r)
X
εrs
=
s6=r
Statistik IV - NF
13/17
Es gilt der Zusammenhang
Für die globale Fehlerrate gilt:
ε = P(δ(x) 6= Y) =
k
X
P(δ(x) 6= r | Y = r)p(r) =
r=1
=
k X
X
k
X
εr p(r)
r=1
εrs p(r)
r=1 s6=r
Z
ε = P(δ(x) 6= Y) =
Statistik IV - NF
Z
P(δ(x) 6= Y | x)f (x)dx =
ε(x)f (x)dx
14/17
Verbindung zur Bayes-Zuordnung
Die Bayes–Zuordnung
δ ∗ (x) = r ⇐⇒ P(r | x) = max P(i | x)
i=1,...,k
minimiert die Gesamtfehlerrate ε.
Statistik IV - NF
15/17
Beispiel
Statistik IV - NF
16/17
Statistik IV - NF
17/17
Herunterladen