Klassikation (und Dimensionsreduktion) I Klassikation ist eine der Aufgaben der Statistik. Dies wird auch deutlich, wenn man sich vor Augen führt, dass eine der groÿen Statistikgesellschaften im deutschsprachigen Raum Gesellschaft für Klassikation heiÿt. I Die Aufgabe der Klassikation ist eng verbunden mit dem Problem der Dimensionsreduktion hochdimensionaler Daten (curse of dimensionality) und dem Problem der Prognose. I I Was bedeutet Klassikation? Ein Individuum (Beobachtung) soll einer Klasse (Attribut) zugeordnet werden. Die Klassenzugehörigkeit ist ein nominales Merkmal, es gibt insbesondere keine Ordnung der Attribute. Die wahre Klassenzugehörigkeit des Individuums ist nicht bekannt. Sie soll aus messbaren Eigenschaften des Individuums abgeleitet werden. Beispiele für Klassikationsaufgaben I Ein einfaches Beispiel ist das allgegenwärtige Kreditscoring. Der Kunde X wird beschrieben durch eine groÿe Anzahl von Attributen, z.B. Alter, Familienstand, Einkommen, Telefonrechnung, durchschnittliches Einkommen der Nachbarn etc. Ein Kreditscoringverfahren ordnet ihn entsprechend in eine der beiden Gruppen kreditwürdig oder nicht kreditwürdig ein. I Die Anwendung von Klassikation hat auch überraschende Ergebnisse gebracht. Bei der routinemäÿigen Anwendung von Clusteranalysen auf eine Stichprobe aus einer Population von Fluÿkrebsen, lieferten die Verfahren der Statistik die ersten Hinweise darauf, dass es sich keineswegs um Individuen einer homogenen Gruppe handelte. Vielmehr waren zwei klar getrennte Cluster von Individuen in den Daten auszumachen. Anschlieÿende Genom-Analysen bestätigten die Vermutung, dass es sich um zwei Spezies handelte. Prinzipielles Vorgehen in der Klassikation I Wie wird eine solche Klassikation praktisch durchgeführt? Wie ordnet sich die Theorie in die Statistik ein? I Es muÿ eine statistische Entscheidungsregel hergeleitet werden, die ein Individuum auf Grund der beobachteten Eigenschaften (Messungen) einer der möglichen Klassen zuordnet. I Eine solche Regel heiÿt I Um eine solche Entscheidungsregel herzuleiten, benutzt man in Klassikationsregel. Sie ist eine p Abbildung von R ! fC1 ; C2 ; : : : ; Ck g, bei p messbaren Attributen und k Klassen. der Regel eine Stichprobe, für deren Individuen die Klassenzugehörigkeit bekannt ist (Trainingsdaten). Aus den Zusammenhängen zwischen den gemessenen Eigenschaften und den bekannten Klassenzugehörigkeiten sollen eine Klassikationsregel hergeleitet werden. I Hier wird lediglich der einfachste Fall betrachtet, nämlich eine Klassikation in eine von zwei Klassen. Abgrenzung Clusteranalyse/Klassikation I Es gibt auch Verfahren, die versuchen, zunächst automatisch die Anzahl von Klassen in den Daten zu bestimmen. Hier wird der Zusammenhang zwischen Clusteranalyse und Klassikation klar. Solche Verfahren werden in dieser Vorlesung nicht behandelt. Formalia für die Diskussion der Klassikation I Im Folgenden haben die n = 1; : : : ; n C1 ; C2 erfolgen. = 1; : : : ; p und eine Beobachung Xi wird durch den den Vektor Xi = (xi 1 ; : : : ; xip ) beschrieben. Die messbare Attribute xi ; i Zuordnung soll in eine von zwei Klassen I Xi ; i Beobachungen Ein Klassikationsverfahren ist in diesem Falle also eine : Rp ! fC1 ; C2 g die einem Individuum Xi zugehörige Klasse C (Xi ) zuweist. Abbildung K die Kurze historische Einordnung I Die Fragestellung der Klassikation ist in der Statistik schon sehr lange präsent, spätestens seit Sir Fisher 1936 die Lineare I Diskriminanzanalyse eingeführt hat. In den 90er Jahren des 20. Jhds. hat die Statistik die Deutungshoheit über diese Fragen (vorübergehend) an die I I Informatik verloren. neuronale Netze, machine learning, supervised and unsupervised learning, data mining behandeln All die Schlagworte im Prinzip das alte Klassikations-Problem. Das Problem der Statistik war, dass ihre alten Methoden nicht mit den immens steigenden Beobachtungszahlen skalierten. I (Matrizenmultiplikation!) Die Informatik hatte als einzige Wissenschaft das Handwerkszeug (Datenbanken), aber überhaupt keine Theorie I zur Datenanalyse. Viele Dinge wurden deshalb neu erfunden. Seit ca. 10-15 Jahren wird miteinander geredet! Statistiker lernen mit Datenbanken umzugehen und Informatiker lernen die statistische Theorie. Anforderungen an ein Klassikationsverfahren I Ein Klassikationsverfahren soll korrekt sein, jedes Individuum soll in seine korrekte Klasse einsortiert werden. Wie kann man sinnvoll die Korrektheit messen? I Da keine vollständig korrekte Klassikation zu erwarten ist, ist die sogenannte Fehlklassikationsrate P (C (X ) = C1 j X einer Klassikationsregel I 2 C2 [ C (X ) = C2 j X 2 C1) C eine vernünftige Maÿzahl. Bei einer perfekten Klassikationsregel ist die Fehlklassikationsrate 0. I Bei jedem Klassikationsverfahren ist es das Ziel, eine möglichst geringe Fehlerrate zu erreichen. Bestimmung der Fehlklassikationsrate I In der Regel, da ja die wahren, zugrundeliegenden Verteilungen der Daten unbekannt sind, läÿt sich die Fehlerrate nicht explizit berechnen. I Folglich wird durch einfachen Abzählen auf den Trainingsdaten versuchen, die Fehlklassikationrate zu optimieren. Allerdings sollte diese Rate, wenn möglich, nicht nur auf dem Trainingsset überprüft werden. Das eigentliche Problem ist ja die Prognose für in der Zukunft zu beobachtende Individuen. I In der Regel teilt man deshalb den vorhandenen Datensatz in einen Trainings- und einen Testdatensatz auf. Die Fehlklassikationsrate wird dann auf dem Testdatensatz bestimmt. Dabei dürfen keine Informationen aus dem Testdatensatz zur Konstruktion der Klassikationsregel herangezogen werden. Einschub: Multivariate Normalverteilung I Bekannt ist die (Dichte der) Normalverteilung mit Parametern und 2 . f (x ) = I p 1 2 2 ) ) 2 2 2 Die Dichte der multivariaten Normalverteilung in wie folgt: f (x ) = I (x exp Dabei ist 1 (2)d =2 jj 1 exp 2 : Rd lautet ( x )T 1 (x ) : 2 1 der d -dimensionale Mittelwert (Schwerpunkt) und die d xd Kovarianzmatrix der Verteilung. Besitzt nur identische Einträge auf der Hauptdiagonalen, so ist die resultierende Dichte rotationssymmetrisch, ansonsten haben I die Isolinien der Dichtefunktion die Form eine Ellipse. Geschätzt werden und durch das empirische Mittel X bzw. die empirische Kovarianzmatrix Cov (X ). Einschub: Multivariate Normalverteilung in R I In R haben Sie Zugri auf die üblichen Funktionen für mvtnorm (rmvnorm, dmvnorm, pmvnorm etc.) Verteilungsfunktionen, wenn Sie das Paket installieren. Unkorrelierter Fall Two dimensional Normal Distribution µ1 = 0, µ2 = 0, σ11 = 10, σ22 = 10, σ12 = 15, ρ = 0.5 0.015 z 0.010 0.005 10 5 −10 0 −5 0 x1 −5 5 x2 Korrelierter Fall Two dimensional Normal Distribution µ1 = 0, µ2 = 0, σ11 = 10, σ22 = 10, σ12 = 15, ρ = 0.5 0.025 0.020 0.015 z 0.010 10 0.005 5 0.000 −10 0 −5 0 x1 −5 5 x2 Lineare Diskriminanzanalyse: Ausgangssituation I Gegeben ist ein Trainingsdatensatz von Individuen, deren 1:10 Zugehörigkeit zu einer von zwei Gruppen jeweils bekannt ist. Index Idee Diskriminanzanalyse (LDA) von Fisher Reduktion auf den univariaten Fall. Das Bild veranschaulicht 0.2 0.3 0.4 0.5 die Situation für univariate Klassikation. 0.1 I 2 4 6 8 10 Idee der Fischerschen Diskriminanzanalyse I Hat man univariat beobachtete Individuen, also nur ein Merkmal pro Beobachtung, bei denen die Messungen des Merkmals innerhalb der verschiedenen Gruppen mit derselben Varianz 2 gestreut vorliegen, dann erhält man eine Klassikationsregel mit minimaler Fehlerrate, wenn man links 1 2 die Beobachtungen der Klasse 1 und rechts davon von + 2 der Klasse 2 zuschlägt. I Der nächste Mittelwert gewinnt. Übertragung in den multivariaten Fall I Suche ein Richtung im Raum, in der die Gruppen maximal getrennt sind. I Fishers geniale Idee: Finde eine optimale Linearkombination < W ; X >, mit W 2 Rp nf0g, um das einfache Verfahren aus dem univariaten Fall anzuwenden. I Wenn E (X ) = i und Cov (X ) = für X 2 Ci ; i = 1; 2 gelten, dann gilt für eine Linearkombination (< W ; X >) =< W ; i > E und Cov < W;X > wobei i die Klasse von (< W ; X >) = W T W : X I Die Diskriminanzanalyse ist also auch ein Verfahren zur Dimensionsreduktion! Die Daten werden aus dem Raum I R herunterprojeziert. Rp in den Die Modellannahme in der klassischen Diskriminanzanalyse ist, dass die Individuen der Klasse 1 mutivariat normalverteilt gemäÿ N (1 ; ) N (2 ; ) und die Individuen der Klasse 2 gemäÿ mit identischer Kovarianzmatrix . (Homoskedastizität) I Gibt man die Voraussetzung der linearen Kombination auf und erlaubt allgemeinere Ansätze zur Bestimmung einer trennenden Funktion, gelangt man beipielsweise zur QDA. Optimalitätskriterien in der Diskriminanzanalyse I Leider liefert jede Richtung im Raum W 2 Rp eine Lösung, die dem eindimensionalen Fall entspricht. I I Wie kann man zwischen diesen Richtungen dierenzieren? Fishers Idee: Wähle die Linearkombination so, dass die Klassen maximal getrennt sind. I Formalisiert bedeutete dies: Minimiere die Varianz innerhalb der einzelnen Klassen und maximiere die Varianz zwischen den Klassen! Formale Lösung der Diskriminanzanalyse I Mit den Bezeichnungen := (< W ; 1 > < W ; 2 >)2 und 2 swithin := 2W T W 2 sbetween soll der Quotient S := über die Wahl des Vektors W Aufgabe mit I W maximiert werden. Da diese auch für jedes W gelöst wird, muss man noch die Nebenbedingung einführen, dass jjW jj = 1. Dieses Optimierungsproblem ist analytisch lösbar und zwar löst Wmax I 2 sbetween 2 swithin = 21 1 (1 0 ) das Optimierungsproblem. Wmax heiÿt erste Diskriminante. Insgesamt wird also das eindimensionale Klassikationsproblem mit den Daten f< Wmax ; X1 >; : : : ; < Wmax ; Xn >g gelöst. Formale Lösung der Diskriminanzanalyse I Um eine neue Beobachtung Xn+1 nunmehr die transformierte Gröÿe zu klassizieren würde Y :=< Wmax ; Xn+1 > betrachtet und geschaut, ob dieser Wert näher am transformierten Mittel der ersten oder der zweiten Klasse liegt. I Die Diskriminanzanalyse liefert also sowohl eine Klassikationsregel, als auch eine Dimensionsreduktion von Dimension p auf Dimension 1! Diskussion der Vorraussetzungen der Diskriminanzanalyse I Die strengen Voraussetzungen in der Herleitung sind nur der möglichst einfachen Vermittlung der Idee zu schulden. I Diskriminanzanalyse ist auch im Falle von Heteroskedastizität zwischen den Klassen (verschiedene i ) oder wenn im Trainingsdatensatz unterschiedlich starke Besetzungen der Klassen vorliegen gut anzuwenden. I Die Diskriminanzanalyse wird auch für Probleme mit mehr als zwei Klassen angewendet und läÿt sich analog formulieren. Anwendung der LDA in R I Die Funktion R lda ndet sich im Paket MASS, welches bei einer Standard- -Installation vorhanden ist. I Die Daten der Grak, die die Ausgangssituation der LDA veranschaulichensollte, wurden z.B. wie folgt erzeugt: I > > > > > > library(mvtrnorm) library(MASS) set1 <- rmvnorm(50, mean=c(3.5,4.5), sigma=diag(c(1,2))) set2 <- rmvnorm(50, mean=c(6.5,3.5), sigma=diag(c(1,2))) known <- c(rep("class1", 50), rep("class2",50)) punkte <- rbind(set1, set2) Es liegen also jeweils 50 Beobachtungen jeder Klasse mit bekannter Klassikation vor. Anwendung der LDA in R I Die Funktion dataframe lda() erwartet als erstes Argument einen oder eine Matrix mit den Beobachtungen und als zweites Argument den Vektor, der die bekannten Klassenzugehörigkeiten angibt. > ?lda ; lda(punkte, known) Prior probabilities of groups: class1 class2 0.5 0.5 Group means: 1 2 class1 3.322418 4.285684 class2 6.401199 3.834064 Coefficients of linear discriminants: LD1 [1,] 1.070120078 [2,] 0.001494093 Der LDA-Plot Zu lda() existiert eine eigene Plotmethode, die sehr schön die ursprüngliche Idee von Fisher widerspiegelt: 0.0 0.2 0.4 > plot(lda(punkte, known)) −4 −2 0 2 4 2 4 0.2 0.4 group class1 0.0 I −4 −2 0 group class2 Bestimmung der Fehlklassikationsrate I Die Funktion I Also eine Fehlklassikationsrate von 4%! (Allerdings auf dem predict arbeitet auch für Objekte > diskr <- lda(punkte, known) > predict(diskr) ... > > table(predict(diskr)$class, known) known class1 class2 class1 48 2 class2 2 48 Trainigsset) vom Typ lda. Aufgabe zur LDA I Führen Sie für den Iris-Datensatz für die verschiedenen Kombinationen von Spezies jeweils eine LDA durch. Bestimmen Sie die Diskriminanten und die Fehlklassikationsraten. I Wiederholen Sie die LDA indem Sie jeweils 80% der Daten in den Trainingsset nehmen und die Fehlklassikation auf den übrigen 20% als Testset bestimmen!