Multivariate Statistische Verfahren

Werbung
Multivariate Statistische
Verfahren
Diskriminanzanalyse
Universität Mainz
Institut für Psychologie
WS 2010/2011
Uwe Mortensen
Einführung I
Es soll entschieden werden, ob
ein Schulkind unter ADHS leidet oder nur eine situativ bedingte
Verhaltensabweichung vorliegt.
Ein Bewerber für eine leitende Position für diese Position geeignet ist
oder nicht.
der Schatten auf dem Röntgen-Foto ein Tumor oder nur eine
harmlose Variation im Gewebe ist,
Ein Gemälde aus der Zeit Rembrandts von der Hand des Meisters oder
von der eines Epigonen ist,
Einführung II
In jedem Fall müssen Symptome oder Merkmale von Personen oder
Objekten so interpretiert werden, dass sie möglichst fehlerfrei klassifiziert
werden.
Viele Symptome (Kopfweh, Bauchweh, etc) zeigen sich bei völlig verschiedenen Erkrankungen.
Viele Fähigkeiten sind wichtig für eine leitende Position, ohne dabei auf
eine spezifische Fähigkeit für eine bestimmte leitende Funktion zu weisen.
Merkmale auf Röntgen-Fotos, die bei Tumoren zu beobachten sind, treten
auch bei harmlosen Gewebeveränderungen auf
Merkmale von Rembrandt-Bildern können auch bei Bildern gefunden
werden, die nicht von Rembrandt gemalt wurden.
Einführung III
Im Allgemeinen muss nur zwischen einer endlichen Menge von
alternativen Klassen entschieden werden.
Der Ansatz von Fisher (1936): Die Symptome (Indikatoren, Prädiktoren)
müssen so gewichtet werden, dass die Zuordnung einer Person oder
eines Objekts zu einer Klasse möglichst fehlerfrei ist.
Dazu müssen die Personen/Objekte so auf einer noch zu konstruierenden
Skala abgebildet werden, dass sie möglichst eng beieinander auf der Skala
liegen, wenn sie zur gleichen Klasse gehören, und möglichst weit separiert
werden, wenn sie zu verschiedenen Klassen gehören.
Aufgabe: finde die optimalen Gewichte und die Skala oder die Skalen, die
eine Klassifikation mit minimalem Fehler erlauben.
Spezifizierung der Idee
X1, X 2 ,
, X p sind gegebene Prädiktoren (Symptome etc), anhand derer
eine Klassifikation einer Person oder eines Objekts vorgenommen werden
soll.
Yi  u1 X i1  u2 X i 2 
Maximale Diskriminierbarkeit
bezüglich Y
 u p X ip , i  1, 2,
,n
(Y = Kanonische
Variable,
Diskriminanzfunktion)
Zu bestimmende „Gewichte“ der
Prädiktoren (hier: Bildpunkte)
Umsetzung der Idee I
Intuitive Einführung: Erinnerung an die Varianzanalyse:
Die Gesamtvarianz der Daten wird in eine Varianzkomponente „innerhalb“
der Gruppen und in eine Varianzkomponente „zwischen“ den Gruppen
aufgeteilt. Beide Komponenten werden für eine Schätzung der Fehlervarianz
herangezogen. Ist die Schätzung auf der Basis der „Zwischen“-Komponente
zu groß, wird die Nullhypothese („Es gibt keine Effekte der experimentellen
Variablen“) verworfen.
Fishers Idee: Die Prädiktoren (entsprechend den unabhängigen Variablen
der Varianzanalyse) werden so gewichtet, dass die Varianz „zwischen“ den
Klassen relativ zu der „innerhalb“ der Klassen maximal wird.
Umsetzung der Idee II
 (u1 , u2 ,
,up ) 
QS zw (u1 , u2 ,
,up )
QSinn (u1 , u2 ,
,up )
soll maximiert werden.
Diskriminanzkriterium
Kanon.
Variable
Daten - Prädiktoren
1.
Kategorien,
Gruppen
2 .
K .
Die Quadratsummen I
yik  u1x ik 1  u2 xik 2 
 u p xikp , für i  1,
y k  u1 x k1  u2 x k 2 
 u p x kp ,
y  u1 x1  u2 x 2 
, m; k  1,
,K
 up x p ,
K
nk
QS ges   ( yik  y )2
k 1 i 1
K
nk
QSinn   ( yik  y k )2
k 1 i 1
K
QS zw   nk ( y k  y ) 2
QS ges  QSinn  QS zw
k 1
Die Quadratsummen II
Die Quadratsummen III
Zur Quadratsumme
„innerhalb“:
Die Quadratsummen IV
Varianzen und Kovarianzen von a
"Pooled" Varianzen und Kovarianzen
Die Lösung
Matrix der Varianzen und Kovarianzen „zwischen“:
 (u1 ,
, u p ) wird maximiert, wenn W 1Bur  r u r .
u r Eigenvektor von W 1B, r zugehöriger Eigenvektor
(= Diskriminanzkriterium), r  1, 2,
,s
Die Lösung
Wie entscheidet man, in welche Klasse eine Person oder ein Objekt
fällt?
Es sei y der Vektor, der sich anhand der Messungen X 1 ,
,Xp
ergeben habe, und  j sei der mittlere y  Vektor in der Klasse  j .
Dann entscheidet man für k , wenn
y  k
 min j y  j
(Minimum-Distance-Classifier)
In welcher Beziehung stehen y  k und die
X1,
,X n zueinander?
Die Mahalanobis-Distanz
Es sei  k der Vektor der Mittelwerte der p Prädiktoren in k .
Dann gilt
2
y  k =( x   k ) 'W 1 ( x   k ).
 ( x,  k )=[( x   k ) 'W 1 ( x   k )]1/2
heißt Mahalanobis-Distanz zwischen x und  k .
Spezialfall: W  I (gleiche Varianzen, Kovarianzen gleich Null)
 ( x,  k )=[( x   k ) '( x   k )]1/2
und die Mahalanobis-Distanz ist gleich der Euklidischen Distanz, d.h.
der Ort gleichen Abstands von  k ist ein Kreis.
Allgemeiner Fall:
( x   k ) 'W 1 ( x   k )  Konst definiert eine Ellipse bzw. ein Ellipsoid.
Beispiel 1:
Nach Amthauer (1970) erhalten Ärzte, Juristen und Pädagogen in den
Untertests Analogien (AN), Figurenauswahl (FA) und Würfelaufgaben
(WÜ) des IST (Intelligenz-Struktur-Test) die folgenden mittleren
Scores:
mit der Varianz-Kovarianz-Matrix (und ihrer Inversen)
Beispiel 1 (Fortsetzung):
Ein Abiturient hat in diesen Untertests die Scores 108 (AN), 112 (FA) und
101 (WÜ) erzielt. Welche Berufswahl ist für ihn optimal?
Für die Gruppe der Ärzte findet man die Distanz
d.h. d1 = .9441. Für die Juristen findet man d2 = 1.1236 und für die
Pädagogen d3 = 1.1676.
Die kleinste Distanz bzw. die größte Nähe findet man zu den
Medizinern, also sollte er Medizin studieren.
Annahme: die multivariate Gauss-Verteilung
Bei der Fisherschen Diskriminanzanalyse wird (zunächst) keine Annahme
über die Verteilung der Prädiktoren gemacht, - insofern ist das Verfahren
verteilungsfrei.
Kann man annehmen, dass die Prädiktoren multivariat normalverteilt sind, so
können weitere Entscheidungskriterien eingeführt werden sowie bestimmte
statistische Tests durchgeführt werden.
f ( x1 , x2 .
1
1
1
, xp ) 
exp[

(
x


)
'
S
( x   )]
p /2
1/2
(2 ) | S |
2
S ist die Varianz-Kovarianz-Matrix, und
( x   ) ' S 1 ( x   ) ist wieder die Mahalanobis-Distanz von
x zu .
Multivariate Gauss-Verteilung und Klassifikation I
Zur Erinnerung: der Satz von Bayes: für irgend zwei zufällige
Ereignisse A und B gilt die Beziehung
P( A & B
P( A)
P( A | B) 
 P( B | A)
P( B)
P( B)
Dementsprechend hat man
(  steht für "ist proportional zu". Der
f ( k | x )  f ( x |  k ) P (  k )
Propertionalitätsfaktor ist 1/ f ( x).)
a posteriori
Dichte
Likelihood
A priori
Wahrscheinlichkeit
Multivariate Gauss-Verteilung und Klassifikation II
Zur Entscheidung zwischen zwei Klassen:
 jk ( x) 
f ( j | x )
f ( k | x )

f ( x |  j ) P ( j )
f ( x |  k ) P ( k )
Für gleiche a priori-Wahrscheinlichkeiten der Klassen hat man
 jk ( x) 
f ( j | x )
f ( k | x )

f (x |  j )
f ( x | k )
Und der Vergleich der a posteriori-Wahrscheinlichkeit entpricht einer
Entscheidung nach dem Likelihodd-Quotienten.
Multivariate Gauss-Verteilung und Klassifikation III
Spezielle Entscheidungsregeln:
Die Maximum- aposteriori-Regel: entscheide für k ,
wenn P(k | x) maximal.
Die Maximum- Likelihood-Regel: entscheide für k ,
wenn P( x | k ) maximal.
Allgemein: entscheide für  2 ,
wenn f ( x |  2 ) P( 2 )  f ( x|1 )P(1 ), d.h. wenn
log f ( x |  2 )  log P( 2 )  log f ( x|1 )  log P(1 )
Multivariate Gauss-Verteilung und Klassifikation IV
Definition:
d k ( x)  log f ( x |  k )  log P( k )
heißt Diskriminanzfunktion
Trennflächen: Menge der x 0 mit
d j ( x)  d k ( x).
Die Form der Trennflächen hängt davon ab, ob die Varianz-KovarianzMatrizen für die verschiedenen Klassen gleich oder ungleich sind.
Multivariate Gauss-Verteilung und Klassifikation V
Ungleiche Varianz-Kovarianz-Matrizen:
1
d k ( x)  ( x   k ) ' Sk1 ( x   k )  log | S k1 |  log P(k )
2
Multivariate Gauss-Verteilung und Klassifikation VI
Gleiche Varianz-Kovarianz-Matrizen:
1
d k ( x)  ( x   k ) ' S 1 ( x   k )  log | S 1 |  log P( k )
2
bzw.
1
d k ( x)  ( x   k ) ' S 1 ( x   k )  log P( k ),
2
da log S 1 für alle Klassen gleich ist.
Sind alle a priori-Wahrscheinlichkeiten gleich groß, kann
1
( x   k ) ' S 1 ( x   k )
2
betrachtet werden; dies ist äquivalent dem Fisher-Ansatz
d k ( x) 
Multivariate Gauss-Verteilung und Klassifikation VII
Klassenbereiche im Falle homogener Varianz-Kovarianz-Matrizen
und gleicher a priori-Wahrscheinlichkeiten:
Multivariate Gauss-Verteilung und Klassifikation VII
Statistische Tests:
H 0 : 1  2 
 p
H1 :  j  k für mindestens ein Paar ( j, k )
Wilk's Lambda:
( p, N  K , K  1) 
|W |
|W  B |
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) I
Optical Coherence
Tomography (OCT)-Bild
Luminanzprofil
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) II
Aufgabe: Klassifiziere ein OCT-Bild in eine von 6 CIN-Klassen:
(CIN = Cervical Intraepithelial Neoplasia = abnormale Erscheinungsform
von Zellen im Cervixepithel)
00 = gesund
10 = Entzündung
21
22 = verschiedene Schweregrade
23
30 = Krebs
1. Wahrer Befund: Histologie/Pathologie
2. Visuelle Klassifikation durch ExpertIn – wie weit stimmen Pathologen
und ExpertIn überein, existieren systematische Unterschiede?
3. Enthalten die Luminanzprofile die gesamte relevante Information?
4. Implizieren Wartezeiten bis zur pathologischen Untersuchung (oh bis
4h) Veränderungen im Gewebe, die für die Diagnose relevant sind?
5. Gibt es prä- und postoperative Unterschiede?
Beispiel 2: Zur Problematik von Diskriminanzanalysen – Anzahl der
Prädiktoren und Anzahl der „Fälle“ (Beobachtungen, hier: Profile)
Es werden zur Klassifikation nur Profile verwendet, die unmittelbar während
der Operation (0h) gewonnen wurden: N = 152, - aber nur 150 Prädiktoren (=
Anzahl der Bildpunkte).
Können die Klassifikationen anhand der OCT-Bilder einerseits und anhand
der histologischen Befunde andererseits aufgrund der Profile vorausgesagt
werden?
Wenn ja: sollte die Konfiguration der CIN-Klassen in beiden Fällen
identisch sein, und was bedeutet es, wenn die Konfiguration nicht
identisch ist?
Beispiel 2: Zur Problematik von Diskriminanzanalysen – Anzahl der
Prädiktoren und Anzahl der „Fälle“ (Beobachtungen, hier: Profile)
1. Die Klassifikationen scheinen in beiden Fällen perfekt zu sein: es gibt keine
Streuung der individuellen Profile um die Kategorienmittelpunkte
2. OCT-Klassifikationen und Klassifikationen auf der Basis pathologischer Befunde
sind ähnlich, aber auch deutlich verschieden, -- wie ist dieser Befund zu deuten?
3. Oder sind die perfekten Klassifikationen Artefakte?
Beispiel 2: Zur Problematik von Diskriminanzanalysen – Anzahl der
Prädiktoren und Anzahl der „Fälle“ (Beobachtungen, hier: Profile)
Generell gilt:
Ist die Anzahl der „Beobachtungen“ (hier: Profile) relativ zur Anzahl
der Prädiktoren (hier: Bildpunkte) zu „klein“ und/oder sind die
Korrelationen zwischen den Prädiktoren zu groß – die Matrix der
Prädiktorwerte ist „ill conditioned“ – kommt es zu Artefakten. Im
hier vorliegenden Fall kommt es zu perfekt erscheinenden
Klassifikationen, über die ein weiteres Nachdenken aber gar nicht
lohnt!
(Faust-)Regel: man sollte mindestens 2.5- bis 3-mal so viele
Beobachtungen wie Prädiktoren haben!
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) IV: Existieren
Unterschiede im Gewebe in Abhängigkeit von der Wartezeit bis zur
histologischen Untersuchung?
Beispiele für Profile: 0h bis 4h (I)
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) V
Es existieren Unterschiede im Mikrobereich, allerdings scheinen sie
nicht systematischer Natur zu sein!
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) VI
Diskriminanzanalyse in Bezug auf die zeitlichen Abstände bis zur
histologischen Untersuchung (0h, 1h, 2h, 3h und 4h): lassen sich die Profile
nach dem zeitlichen Abstand klassifizieren?
(Statt der Punkte kann man die
Nummer des Profils anzeigen
lassen und so überprüfen, ob es
wenigstens einen Ansatz zur
Klassenbildung gibt: Befund =
negativ!)
Es sind keine den Zeitpunkten entsprechenden Cluster erkennbar, d.h. die Daten
korrespondieren zur Nullhypothese, nach der die Zeitpunkte keinen systematischen
Einfluss auf die Profile haben.
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) VI
Folgerung: da es keine systematischen Unterschiede zwischen den
Untersuchungszeitpunkten zu geben scheint, können alle Profile zu einer
Stichprobe zusammengefasst werden. Statt nur 152 Profile können nun 464
Profile untersucht werden!
Dazu werden zunächst die mittleren Profile für jede CIN-Klasse und die
zugehörigen Standardabweichungen der Luminanzwerte pro Bildpunkt
betrachtet. Die Form der mittleren Profile könnte sich von CIN-Klasse zu
CIN-Klasse unterscheiden.
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) VII
Mittlere Profile pro Klasse, wie anhand der OCT-Bilder klassifiziert:
Kommentar: Die mittleren Verläufe erscheinen spezifisch für die
Kategorien, sind aber insbesondere für CIN = 10, 21, 22, 23 gering.
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) VIII
Standardabweichungen der Profile pro Klasse (Klassifikation anhand der
OCT-Bilder)
Kommentar: Auch die Standardabweichungen haben charakteristische Verläufe.
Keine Homogenität bezüglich der Bildpunkte!
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) IX
OCT-Klassifikation
Mittl.
Prof.
Stand
‘abw.
Pathologie
Plots der mittleren Profile 1h, 2h, 3h, und 4h versus 0h
Der Befund korrespondiert zu dem, dass keine h-spezifische Kategorisierung der
Profile möglich zu sein scheint. Aber man kann von derartigen Beziehungen nicht
auf die Unmöglichkeit von Klassifikationen schließen!
Plots der Standardabweichungen 1h, 2h, 3h, und 4h versus 0h
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) X
1. Die mittleren Profile in den Klassen sind einander ähnlich, aber
2. Die Standardabweichungen sind relativ groß – kann dies zu
unterschiedlichen Klassifikationen anhand der OCT-Bilder
einerseits und der pathologischen Befunde andererseits kommen?
Diskriminanzanalysen zur Zuordnung von Profilen zu CIN-Kategorien (i) auf der Basis von
OCT-Bildern und (ii) auf der Basis pathologischer Befunde (464 Profile, 151 Bildpunkte als
Prädiktoren) I
Kan. Var. 1: p = .000
Kan. Var. 2: p = .065
Kan. Var. 1: p = .000
Kan. Var. 2: p = .152
Diskriminanzanalysen für RMG und Histolog.
(464 Profile, 151 Bildpunkte als Prädiktoren) II
Mittlere Positionen der Profile für die einzelnen CIN-Klassen, (i) für die
OCT-Beurteilungen, (ii) für die histologischen Beurteilungen. Bis auf die
Klassen 22 und 23 stimmen die mittleren Positionen gut überein.
Übereinstimmung von Klassifikation und prognostizierter (DA-Klassifikation)
Beispiel 2: Klassifikation von Geweben (Cervix-Krebs) III
Chi-Quadrat = 261.437
df =16, p = .000
I
J
  
2
(oij  eij )2
i 1 j 1
Residuen: xij 
eij
oij  eij
eij
, df  ( I  1)( J  1)
, X  ( xij )
SVD: X  Q1/2 P '
plus Reskalierung zur Erklärung des  2
Prä- und Post-Op-Daten:
Existieren spezifische Prä- und Post-Cluster?
Die Profile werden alle auf einen von zwei möglichen, jeweils sehr kleinen
Bereich einer Diskriminanzfunktion (Kanonische Variable)
Abgebildet: ca – 25 für post-op-Profile, + 25 für prä-op-Profile!
Allerdings gibt es nur 78 Profile, bei 151 Prädiktoren. In diesem Fall erzeugt die
DA eine perfekte Klassifikation auch bei rein zufälligen Helligkeitswerten, d.h. die
gezeigte Klassifikation muß als Artefakt betrachtet werden! S ist sehr
wahrscheinlich,dass keinerlei Prä-Post-Unterschiede existieren!
Mittlere Prä- und Post-Profiles sowie Standardabweichungen
Die mittleren Profile sind sich extrem ähnlich (allerdings: die Steigung sollte gleich 1
und die add. Konstante sollte gleich Null sein! Analog: Standardabweichungen:
Beispiel 2: Gibt es Unterschiede zwischen prä- und postoperativem Gewebe?
Prä-Post-Op Partielle LDAs, II
Probleme der praktischen Anwendung
der linearen Diskriminanzanalyse, I
Die partiellen DAs zeigen, dass eine Prä-Post-Klassifizierung schon bei
wenigen Prädiktoren erfolgt. Dieser Sachverhalt spiegelt aber nicht eine
besondere Leistungsfähigkeit der DA (oder LDA = Lineare DA) wieder,
sondern eher eine Begrenzung ihrer Möglichkeiten:
Der Stichprobenumfang (hier: die Anzahl der Profile) sollte stets
mindestens um den Faktor 3 größer als die Anzahl der Prädiktoren sein
(hier: 151), und
Die Korrelationen zwischen den Prädiktoren sollten möglichst nahe bei
Null sein.
Wie Simulationen mit zufälligen Helligkeitswerten (allgemein: mit zufälligen
Prädiktorwerten) zeigen, können schon perfekte Kategorisierungen
vorgenommen werden, wenn die Anzahl der Profile kleiner als die Anzahl der
Prädiktoren ist. Diese Klassifikationen sind, wegen der Zufälligkeit der
Prädiktorwerte, reine Artefakte.
Probleme der praktischen Anwendung
der linearen Diskriminanzanalyse, II
Hohe Korrelationen zwischen den Prädiktoren erzeugen in jedem Fall
kaum interpretierbare Gewichte u1, …, up, deren Absolutwerte im
Allgemeinen zu groß ausfallen. Die Schätzungen dieser Gewichte führen
zu Fehleinschätzungen der Rolle der einzelnen Prädiktoren.
Es werden eine Reihe von Verfahren zur Reduktion des Fehlers bei den
Parameterschätzungen (der Bestimmung der Gewichte) vorgeschlagen. Im
Wesentlichen bestehen diese Korrekturen in der Addition von Konstanten,
die von den u1, …, up abhängen, zu den Diagonalwerten der VarianzKovarianz-Matrizen; man spricht dann von einer ‚Regularisierung‘. Auf die
Details kann hier nicht eingegangen werden, es soll nur auf diese
Möglichkeit hingewiesen werden. In Statistikprogrammen wie R werden
Module für die Regularisierte Diskriminanzanalyse angeboten.
Danke für Ihre Aufmerksamkeit!
Herunterladen