Datenanalyse I und II - Datenanalyse I WT 2012

Werbung
Klassikation (und Dimensionsreduktion)
I
Klassikation ist eine
der
Aufgaben der Statistik. Dies wird
auch deutlich, wenn man sich vor Augen führt, dass eine der
groÿen Statistikgesellschaften im deutschsprachigen Raum
Gesellschaft für Klassikation heiÿt.
I
Die Aufgabe der Klassikation ist eng verbunden mit dem
Problem der Dimensionsreduktion hochdimensionaler Daten
(curse of dimensionality) und dem Problem der Prognose.
I
I
Was bedeutet Klassikation?
Ein Individuum (Beobachtung) soll einer Klasse (Attribut)
zugeordnet werden. Die Klassenzugehörigkeit ist ein
nominales
Merkmal, es gibt insbesondere keine Ordnung der Attribute.
Die wahre Klassenzugehörigkeit des Individuums ist nicht
bekannt. Sie soll aus messbaren Eigenschaften des Individuums
abgeleitet werden.
Beispiele für Klassikationsaufgaben
I
Ein einfaches Beispiel ist das allgegenwärtige Kreditscoring.
Der Kunde
X
wird beschrieben durch eine groÿe Anzahl von
Attributen, z.B. Alter, Familienstand, Einkommen,
Telefonrechnung, durchschnittliches Einkommen der Nachbarn
etc. Ein Kreditscoringverfahren ordnet ihn entsprechend in eine
der beiden Gruppen kreditwürdig oder nicht kreditwürdig
ein.
I
Die Anwendung von Klassikation hat auch überraschende
Ergebnisse gebracht. Bei der routinemäÿigen Anwendung von
Clusteranalysen auf eine Stichprobe aus einer Population von
Fluÿkrebsen, lieferten die Verfahren der Statistik die ersten
Hinweise darauf, dass es sich keineswegs um Individuen einer
homogenen Gruppe handelte. Vielmehr waren zwei klar
getrennte Cluster von Individuen in den Daten auszumachen.
Anschlieÿende Genom-Analysen bestätigten die Vermutung,
dass es sich um zwei Spezies handelte.
Prinzipielles Vorgehen in der Klassikation
I
Wie wird eine solche Klassikation praktisch durchgeführt?
Wie ordnet sich die Theorie in die Statistik ein?
I
Es muÿ eine statistische Entscheidungsregel hergeleitet werden,
die ein Individuum auf Grund der beobachteten Eigenschaften
(Messungen) einer der möglichen Klassen zuordnet.
I
Eine solche Regel heiÿt
I
Um eine solche Entscheidungsregel herzuleiten, benutzt man in
Klassikationsregel. Sie ist eine
p
Abbildung von R ! fC1 ; C2 ; : : : ; Ck g, bei p messbaren
Attributen und k Klassen.
der Regel eine Stichprobe, für deren Individuen die
Klassenzugehörigkeit bekannt ist (Trainingsdaten). Aus den
Zusammenhängen zwischen den gemessenen Eigenschaften
und den bekannten Klassenzugehörigkeiten sollen eine
Klassikationsregel hergeleitet werden.
I
Hier wird lediglich der einfachste Fall betrachtet, nämlich eine
Klassikation in eine von zwei Klassen.
Abgrenzung Clusteranalyse/Klassikation
I
Es gibt auch Verfahren, die versuchen, zunächst automatisch
die Anzahl von Klassen in den Daten zu bestimmen. Hier wird
der Zusammenhang zwischen Clusteranalyse und Klassikation
klar. Solche Verfahren werden in dieser Vorlesung nicht
behandelt.
Formalia für die Diskussion der Klassikation
I
Im Folgenden haben die
n
= 1; : : : ; n
C1 ; C2
erfolgen.
= 1; : : : ; p und eine Beobachung Xi
wird durch den den Vektor Xi = (xi 1 ; : : : ; xip ) beschrieben. Die
messbare Attribute
xi ; i
Zuordnung soll in eine von zwei Klassen
I
Xi ; i
Beobachungen
Ein Klassikationsverfahren ist in diesem Falle also eine
: Rp ! fC1 ; C2 g die einem Individuum Xi
zugehörige Klasse C (Xi ) zuweist.
Abbildung
K
die
Kurze historische Einordnung
I
Die Fragestellung der Klassikation ist in der Statistik schon
sehr lange präsent, spätestens seit Sir Fisher 1936 die Lineare
I
Diskriminanzanalyse eingeführt hat.
In den 90er Jahren des 20. Jhds. hat die Statistik die
Deutungshoheit über diese Fragen (vorübergehend) an die
I
I
Informatik verloren.
neuronale Netze, machine learning,
supervised and unsupervised learning, data mining behandeln
All die Schlagworte
im Prinzip das alte Klassikations-Problem.
Das Problem der Statistik war, dass ihre alten Methoden nicht
mit den immens steigenden Beobachtungszahlen skalierten.
I
(Matrizenmultiplikation!)
Die Informatik hatte als einzige Wissenschaft das
Handwerkszeug (Datenbanken), aber überhaupt keine Theorie
I
zur Datenanalyse. Viele Dinge wurden deshalb neu erfunden.
Seit ca. 10-15 Jahren wird miteinander geredet! Statistiker
lernen mit Datenbanken umzugehen und Informatiker lernen
die statistische Theorie.
Anforderungen an ein Klassikationsverfahren
I
Ein Klassikationsverfahren soll korrekt sein, jedes
Individuum soll in seine korrekte Klasse einsortiert werden.
Wie kann man sinnvoll die Korrektheit messen?
I
Da keine vollständig korrekte Klassikation zu erwarten ist, ist
die sogenannte Fehlklassikationsrate
P (C (X ) = C1 j X
einer Klassikationsregel
I
2 C2 [ C (X ) = C2 j X 2 C1)
C
eine vernünftige Maÿzahl.
Bei einer perfekten Klassikationsregel ist die
Fehlklassikationsrate 0.
I
Bei jedem Klassikationsverfahren ist es das Ziel, eine
möglichst geringe Fehlerrate zu erreichen.
Bestimmung der Fehlklassikationsrate
I
In der Regel, da ja die wahren, zugrundeliegenden Verteilungen
der Daten unbekannt sind, läÿt sich die Fehlerrate nicht
explizit berechnen.
I
Folglich wird durch einfachen Abzählen auf den Trainingsdaten
versuchen, die Fehlklassikationrate zu optimieren. Allerdings
sollte diese Rate, wenn möglich, nicht nur auf dem
Trainingsset überprüft werden. Das eigentliche Problem ist ja
die Prognose für in der Zukunft zu beobachtende Individuen.
I
In der Regel teilt man deshalb den vorhandenen Datensatz in
einen Trainings- und einen Testdatensatz auf. Die
Fehlklassikationsrate wird dann auf dem Testdatensatz
bestimmt. Dabei dürfen keine Informationen aus dem
Testdatensatz zur Konstruktion der Klassikationsregel
herangezogen werden.
Einschub: Multivariate Normalverteilung
I
Bekannt ist die (Dichte der) Normalverteilung mit Parametern
und 2 .
f (x ) =
I
p
1
2
2
) )
2
2 2
Die Dichte der multivariaten Normalverteilung in
wie folgt:
f (x ) =
I
(x
exp
Dabei ist
1
(2)d =2 jj
1 exp
2
:
Rd lautet
(
x )T 1 (x ) :
2
1
der d -dimensionale Mittelwert (Schwerpunkt) und
die d xd
Kovarianzmatrix der Verteilung. Besitzt
nur
identische Einträge auf der Hauptdiagonalen, so ist die
resultierende Dichte rotationssymmetrisch, ansonsten haben
I
die Isolinien der Dichtefunktion die Form eine Ellipse.
Geschätzt werden
und durch das empirische Mittel X
bzw. die empirische Kovarianzmatrix
Cov (X ).
Einschub: Multivariate Normalverteilung in R
I
In
R haben Sie Zugri auf die üblichen Funktionen für
mvtnorm
(rmvnorm, dmvnorm, pmvnorm etc.)
Verteilungsfunktionen, wenn Sie das Paket
installieren.
Unkorrelierter Fall
Two dimensional Normal Distribution
µ1 = 0, µ2 = 0, σ11 = 10, σ22 = 10, σ12 = 15, ρ = 0.5
0.015
z
0.010
0.005
10
5
−10
0
−5
0
x1
−5
5
x2
Korrelierter Fall
Two dimensional Normal Distribution
µ1 = 0, µ2 = 0, σ11 = 10, σ22 = 10, σ12 = 15, ρ = 0.5
0.025
0.020
0.015
z
0.010
10
0.005
5
0.000
−10
0
−5
0
x1
−5
5
x2
Lineare Diskriminanzanalyse: Ausgangssituation
I
Gegeben ist ein Trainingsdatensatz von Individuen, deren
1:10
Zugehörigkeit zu einer von zwei Gruppen jeweils bekannt ist.
Index
Idee Diskriminanzanalyse (LDA) von Fisher
Reduktion auf den univariaten Fall. Das Bild veranschaulicht
0.2
0.3
0.4
0.5
die Situation für univariate Klassikation.
0.1
I
2
4
6
8
10
Idee der Fischerschen Diskriminanzanalyse
I
Hat man univariat beobachtete Individuen, also nur ein
Merkmal pro Beobachtung, bei denen die Messungen des
Merkmals innerhalb der verschiedenen Gruppen mit derselben
Varianz
2
gestreut vorliegen, dann erhält man eine
Klassikationsregel mit minimaler Fehlerrate, wenn man links
1 2 die Beobachtungen der Klasse 1 und rechts davon
von
+
2
der Klasse 2 zuschlägt.
I
Der nächste Mittelwert gewinnt.
Übertragung in den multivariaten Fall
I
Suche ein Richtung im Raum, in der die Gruppen maximal
getrennt sind.
I
Fishers geniale Idee: Finde eine optimale Linearkombination
< W ; X >, mit W
2 Rp nf0g, um das einfache Verfahren aus
dem univariaten Fall anzuwenden.
I
Wenn E
(X ) = i
und Cov
(X ) = für X 2 Ci ; i = 1; 2
gelten, dann gilt für eine Linearkombination
(< W ; X >) =< W ; i >
E
und
Cov
< W;X >
wobei i die Klasse von
(< W ; X >) = W T W :
X
I
Die Diskriminanzanalyse ist also auch ein Verfahren zur
Dimensionsreduktion! Die Daten werden aus dem
Raum
I
R herunterprojeziert.
Rp in den
Die Modellannahme in der klassischen Diskriminanzanalyse ist,
dass die Individuen der Klasse 1 mutivariat normalverteilt
gemäÿ
N (1 ; )
N (2 ; )
und die Individuen der Klasse 2 gemäÿ
mit identischer Kovarianzmatrix
.
(Homoskedastizität)
I
Gibt man die Voraussetzung der linearen Kombination auf und
erlaubt allgemeinere Ansätze zur Bestimmung einer
trennenden Funktion, gelangt man beipielsweise zur QDA.
Optimalitätskriterien in der Diskriminanzanalyse
I
Leider liefert jede Richtung im Raum
W
2 Rp eine Lösung,
die dem eindimensionalen Fall entspricht.
I
I
Wie kann man zwischen diesen Richtungen dierenzieren?
Fishers Idee: Wähle die Linearkombination so, dass die Klassen
maximal getrennt sind.
I
Formalisiert bedeutete dies: Minimiere die Varianz innerhalb
der einzelnen Klassen und maximiere die Varianz zwischen den
Klassen!
Formale Lösung der Diskriminanzanalyse
I
Mit den Bezeichnungen
:= (< W ; 1 > < W ; 2 >)2 und
2
swithin
:= 2W T W
2
sbetween
soll der Quotient
S
:=
über die Wahl des Vektors
W
Aufgabe mit
I
W
maximiert werden. Da diese
auch für jedes
W
gelöst wird, muss man
noch die Nebenbedingung einführen, dass
jjW jj = 1.
Dieses Optimierungsproblem ist analytisch lösbar und zwar löst
Wmax
I
2
sbetween
2
swithin
= 21 1 (1 0 )
das Optimierungsproblem.
Wmax
heiÿt erste
Diskriminante.
Insgesamt wird also das eindimensionale Klassikationsproblem
mit den Daten
f< Wmax ; X1 >; : : : ; < Wmax ; Xn >g gelöst.
Formale Lösung der Diskriminanzanalyse
I
Um eine neue Beobachtung
Xn+1
nunmehr die transformierte Gröÿe
zu klassizieren würde
Y
:=< Wmax ; Xn+1 >
betrachtet und geschaut, ob dieser Wert näher am
transformierten Mittel der ersten oder der zweiten Klasse liegt.
I
Die Diskriminanzanalyse liefert also sowohl eine
Klassikationsregel, als auch eine Dimensionsreduktion von
Dimension
p
auf Dimension 1!
Diskussion der Vorraussetzungen der Diskriminanzanalyse
I
Die strengen Voraussetzungen in der Herleitung sind nur der
möglichst einfachen Vermittlung der Idee zu schulden.
I
Diskriminanzanalyse ist auch im Falle von Heteroskedastizität
zwischen den Klassen (verschiedene
i ) oder wenn im
Trainingsdatensatz unterschiedlich starke Besetzungen der
Klassen vorliegen gut anzuwenden.
I
Die Diskriminanzanalyse wird auch für Probleme mit mehr als
zwei Klassen angewendet und läÿt sich analog formulieren.
Anwendung der LDA in R
I
Die Funktion
R
lda
ndet sich im Paket
MASS,
welches bei einer
Standard- -Installation vorhanden ist.
I
Die Daten der Grak, die die Ausgangssituation der LDA
veranschaulichensollte, wurden z.B. wie folgt erzeugt:
I
>
>
>
>
>
>
library(mvtrnorm)
library(MASS)
set1 <- rmvnorm(50, mean=c(3.5,4.5), sigma=diag(c(1,2)))
set2 <- rmvnorm(50, mean=c(6.5,3.5), sigma=diag(c(1,2)))
known <- c(rep("class1", 50), rep("class2",50))
punkte <- rbind(set1, set2)
Es liegen also jeweils 50 Beobachtungen jeder Klasse mit
bekannter Klassikation vor.
Anwendung der LDA in R
I
Die Funktion
dataframe
lda()
erwartet als erstes Argument einen
oder eine Matrix mit den Beobachtungen und als
zweites Argument den Vektor, der die bekannten
Klassenzugehörigkeiten angibt.
> ?lda ; lda(punkte, known)
Prior probabilities of groups:
class1 class2
0.5
0.5
Group means:
1
2
class1 3.322418 4.285684
class2 6.401199 3.834064
Coefficients of linear discriminants:
LD1
[1,] 1.070120078
[2,] 0.001494093
Der LDA-Plot
Zu
lda()
existiert eine eigene Plotmethode, die sehr schön die
ursprüngliche Idee von Fisher widerspiegelt:
0.0
0.2
0.4
> plot(lda(punkte, known))
−4
−2
0
2
4
2
4
0.2
0.4
group class1
0.0
I
−4
−2
0
group class2
Bestimmung der Fehlklassikationsrate
I
Die Funktion
I
Also eine Fehlklassikationsrate von 4%! (Allerdings auf dem
predict arbeitet auch für Objekte
> diskr <- lda(punkte, known)
> predict(diskr)
...
> > table(predict(diskr)$class, known)
known
class1 class2
class1
48
2
class2
2
48
Trainigsset)
vom Typ
lda.
Aufgabe zur LDA
I
Führen Sie für den Iris-Datensatz für die verschiedenen
Kombinationen von Spezies jeweils eine LDA durch.
Bestimmen Sie die Diskriminanten und die
Fehlklassikationsraten.
I
Wiederholen Sie die LDA indem Sie jeweils 80% der Daten in
den Trainingsset nehmen und die Fehlklassikation auf den
übrigen 20% als Testset bestimmen!
Herunterladen