Grenzen einzelner diagnostischer Gene mehr als nur ein Gen

Werbung
Diagnostische Signaturen
Grenzen einzelner
diagnostischer Gene
A
B
Genomische Datenanalyse
14. Kapitel
... mehr als nur ein Gen
In Kapitel 12 haben wir die Diagnose aufgrund eines einzigen
Markergens getroffen.
Dabei kamen wir über eine Erfolgsrate von 75% nicht hinaus. Dies
war der Bayesfehler des einen Markergens. Er läßt sich nicht
überbieten, wie kreativ man mit dem Ausdenken von
Diagnosemodellen auch ist. Ist 75% Genauigkeit nicht gut genug,
braucht man entweder ein anderes Markergen, das informativer ist,
oder ...
Akute Lymphoblastische
Training
Leukämie
Klassifikation mit 2 Genen:
Zwei unterschiedliche
Formen der ALL
Beide Gene sind differentiell exprimiert
Test
Beide Gene sind nicht differentiell
exprimiert
Kann so etwas von Nutzen sein ??
Die Gene sind nicht
differenziell exprimiert, aber
ihre Differenz ist es.
Möglicher Grund:
Zwei Proteine inhibieren
einander: Differenz = Menge
aktiven Proteins
Separation in zwei
Dimensionen
Regulation der Genexpression
durch Transkriptionsfaktoren
A
B
z.B. Lac Operon in E. Coli
Und wie funktioniert es im Menschen?
Regulationsnetzwerk
?
im Prinzip genauso ... nur komplizierter ...
Die Regulierung der Genexpression führt zu einer
Wechselwirkung zwischen Genen und damit zu einer
Korrelation der Expressionswerte
Diagnose Problem
So kommt es zu diesem Bild
Eine erhöhte Expression
von Gen A führt zu einer
erhöhten Expression von
Gen B
A
Es gibt eine
Wechselwirkung zwischen
der Expression von Gen A
und der von Gen B
B
Zum Beispiel könnte a ein
Transkriptionsfaktor sein,
der die Expression von B
reguliert ... oder
umgekehrt ...
Diagnose
Wie wird jetzt ein neuer
Patient diagnostiziert?
A
B
Man mißt die
Expressionswerte für beide
Gene, trägt diesen Punkt
in den Scatterplot ein
(gelber Punkt) und sieht
nach, auf welcher Seite der
Trenngeraden der Punkt
liegt.
Die Trenngerade
übernimmt die Rolle des
kritischen Wertes
A
A
B
B
Aus den Daten muß eine möglichst gute Trenngerade
gefunden werden. Sie muß aus den Daten abgeleitet
werden. Oder anders ausgedrückt sie muß geschätzt
werden.
Probleme
1. Wie schätzt man die Trenngerade?
2. Wie entscheidet man auf welcher Seite
der Trenngerade der neu zu
diagnostizierende Patient zu liegen
kommt, ohne künstlerisch tätig werden zu
müssen?
Geraden im
zweidimensionalen Raum
Entscheidungsfunktion
A
Wie kann man eine beliebige
Gerade im zweidimensionalen
Raum mathematisch beschreiben?
Z.B. Mit einem Offset und einem
Normalenvektor
B
Was ist der Normalenvektor?
Eine Linearkombination von
Expressionswerten
Was ist der Offset?
Eine Zahl: Der Abstand der
Trenngeraden zum Ursprung
Diese Linearkombination von Expressionswerten nennen wir
eine diagnostische Signatur
Der Offset ist der kritische Wert für die Signatur
Zentroide
Ansatz wie bei einem Gen
Wie kommt man zu der Geraden?
Jetzt haben wir zwei Gene, sagen wir x und y.
Erinnerung bei der Diagnose mit nur einem
Markergen, hatten wir den kritischen Wert
als:
geschätzt.
Wir können für beide Klassen die Zentroide:
berechnen
Die Trennung zwischen den beiden Gruppen
lag also auf halben Weg zwischen den beiden
Gruppenmittelwerten.
Man kann sie als mehrdimensionale
Verallgemeinerung der Mittelwerte auffassen.
Sie beschreiben die Lage der Daten. Sie sind
Punkte in Mitten der Daten
Konstruktion einer
Trenngeraden
1. Berechne die beiden
Klassenzentroide
2. Verbinde diese beiden
Zentroide mit einer Geraden
Nearest Centroid Classifier
Ein Patient wird als hellblau diagnostiziert wenn er
näher am hellblauen als am dunkelblauen Zentroid liegt.
Man spricht deshalb auch von einem nearest centroid
classifier. Die Gerade besteht aus allen Punkten die
gleich weit von beiden Zentroiden entfernt liegen.
3. Bestimme den Mittelpunkt der
Strecke zwischen den beiden
Zentroiden
4. Konstruiere durch diesen Punkt
eine Gerade die senkrecht zur
Verbindungsgerade der Zentroide
steht
Likelihoodvergleich
Unabhängige Gene
Wie paßt der nearest centroid classifier in das Konzept des
Likelihoodvergleichs ?
Sind die Modelle für die beiden Krankheitsklassen vollständig
bestimmt?
Modelliere die Expression beider Gene in beiden Klassen als
Normalverteilungen
Nein, bis jetzt haben wir nur die Randverteilungen bestimmt,
wir müssen uns noch auf eine gemeinsame Verteilung einigen.
Nehmen wir an, daß die beiden Gene unabhängig sind. Damit
haben wir für einen Patienten mit Expressionswerten (zA,zB) die
Log-Likelihoods:
Varianz?
Nehmen wir an sie ist konstant σ sowohl für die beiden Gene als
auch für die beiden Klassen
Erwartungswerte?
Die nehmen wir wieder als unterschiedlich in den beiden Klassen
an und auch unterschiedlich für die beiden Gene
Wir schätzen sie mit
Abstand zu den
Zentroiden
C ist eine von zA und zB unabhängige Konstante
In diesem Modell ist also Maximum-Likelihood-Klassifikation
gleichbedeutend mit nearest centroid Klassifikation
Nearest Centroid und
Maximum Likelihood
Für unabhängige Gene:
Die Kreise beim nearest
centroid Klassifikator lassen
sich als Höhenlinien der
Dichte der gemeinsamen
Verteilung der beiden Gene
in den beiden Klassen
interpretieren
Punkte auf diesen Kreisen
bezeichnen
Expressionswerte mit
gleicher Dichte.
Annahme 3
Implizite Annahmen des
Nearest Centroid
Classifiers
1. Die mittlere Expression ist für beide Gene in den beiden
Klassen unterschiedlich.
2. Die Varianz ist für beide Gene in beiden Klassen die gleiche
3. Die beiden Gene haben auch untereinander keine Unterschiede
bezüglich der Varianz in den Expressionswerten
4. Die Expression beider Gene ist unabhängig
Während die ersten beiden Annahmen akzeptabel erscheinen
sind die Annahmen 3 und 4 eher fragwürdig, wie wir uns jetzt
veranschaulichen werden.
Unnötiger Fehler
Die beiden Gene haben auch untereinander keine
Unterschiede bezüglich der Varianz in den
Expressionswerten. Dies ist in der Regel nicht der Fall.
Typisch ist eher das folgende Bild:
Zwei Gene, das eine streut
deutlich stärker als das
andere.
Ist das ein Problem?
Auch mehrdimensionale Klassifikatoren machen im allgemeinen
Fehler. Das ist ganz normal. Signaturen können wie einzelne
Gene einen Überlapp haben. Was in obiger Situation stört, ist
das der Fehler unnötig zu sein scheint. Und das Konzept in
Frage stellt.
Individuelle Varianzen
Was hier die Schwierigkeiten
macht, ist die hohe Varianz von
Gen A.
Likelihoodvergleich mit
individuellen Varianzen
Die Diagnose trifft man dann wiederum aufgrund
der höheren Log-Likelihood:
Wie könnte man das Modell
verändern, so daß man dieses
Problem vermeidet?
Man läßt Annahme 3 Fallen und
schätzt für jedes Gen eine eigene
Varianz:
DLDA
Auch aus diesen Klassenmodellen
läßt sich wieder eine
Entscheidungsfunktion
(Diagnosemodell) ableiten. Das
Modell mit der höheren Likelihood
bezüglich der Daten wird gewählt.
Unterschiedliche
Skalierung für die
Achsen (Gene)
Nearest Centroid vs. DLDA
Nearest Centroid
Die Höhenlinien
der Verteilungen
in den
Klassenmodellen
verzerren sich zu
Ellipsen
Dieses Verfahren wird auch
Diagonal Linear Discriminant
Analysis DLDA genannt.
Welchen Einfluß haben die
genspezifischen Skalierungen auf
den Klassifikator?
Wie verändert sich dieses Bild?
Nearest Centroid
DLDA
Offensichtlich führt DLDA bei Genen mit unterschiedlichen
Varianzen zu einer Verbesserung des Trainingsfehlers. Für den
Testfehler ist das nicht so klar.
Unabhängige Gene?
Auch bei der DLDA werden die Dichten der
beiden Modelle für die Krankheitsklassen
miteinander multipliziert. Also liegt auch der
DLDA die Annahme zugrunde, daß die
Expression der beiden Gene in beiden
Klassen voneinander unabhängig ist.
Schlechte Modellierung
Die konzentrischen Kreise scheinen die Daten innerhalb
der Klassen nicht gut zu modellieren
Hier liegen noch
dunkelblaue Punkte
Ist das plausibel aus biologischer Sicht ?
Ist das plausibel aufgrund der Datenlage ?
Zurück zum ursprünglichen Beispiel:
In beiden Klassen sehen die
Expressionslevel stark
korreliert aus!
Bessere Modellierung
Aber hier ist die
Dichte für das
Modell der
dunkelblauen
Punkte höher
Abhängige Gene
Die Dichten sollten dort hoch sein, wo die meisten Daten liegen
und in Gebieten mit wenig Daten sollten sie eher niedrig sein:
Wie konstruiert man so ein
Modell ?
Nicht so ...
... sondern so
Wie konstruiert man so ein Modell ?
Wir wollen die
Genexpressionswerte
weiterhin mit zwei
Normalverteilungen
modellieren, aber eben
nicht mehr mit
unabhängigen
Normalverteilungen.
Kovarianz
Randverteilungen
Bezeichnen wir den Expressionswert für Gen A mit X1
und den für Gen B mit X2
Es gilt: X1~N(µ1,σ1) und X2~N(µ2,σ2)
Die beiden Mittelwerte fassen wir in einem Vektor
zusammen:
Dies sind nur die Randverteilungen, die gemeinsame
Verteilung von (X1,X1) liegt damit noch nicht fest!
Schätzen der Kovarianzmatrix
Varianzen:
Für die Kovarianz erhält man analog einen erwartungstreuen
Schätzer als:
Die Kovarianz ist definiert als:
Insbesondere gilt:
Für n Zufallsvariablen X1,...,Xn definieren wir die Kovarianzmatrix Σ:
Für unsere zwei Gene ergibt das:
Standardisierte Daten
Für eindimensionale Daten haben wir eine kanonische Einheit
eingeführt in dem wir die Daten zunächst zentriert haben
(Mittelwert abziehen) und dann standardisiert haben (durch die
Varianz teilen). Die so standardisierten Daten haben Mittelwert
Null und Varianz Eins.
Das wollen wir auch für mehrdimensionale Daten tun:
Transformation XÆZ
Zusammen gibt das die empirische Kovarianzmatrix:
Angestrebte Situation für Z:
Erwartungswerte: Alle Null
Varianzen: Alle Eins
Bemerkung: Sowohl die Kovarianzmatrix als auch die empirische
Kovarianzmatrix sind symmetrisch.
Kovarianzen: Alle Null
Matrix und Räumliche
Transformation
Wenn man einen Vektor x∈
R2 mit Σ multipliziert entsteht
wieder ein Vektor Σ x. Die
Multiplikation entspricht also
einer räumlichen
Transformation ... Sie
„verschiebt“ Punkte im
zweidimensionalen Raum
Drehungen
Drehung eines Vektors
Drehung einer
Höhenlinie
Spektralzerlegung
Eines der Hauptergebnisse der Linearen Algebra
besagt, daß sich die Matrix Σ wie folgt als ein
Produkt von 3 Matrizen schreiben läßt:
Drehung
Es gilt:
Streckung
entlang der
KoordinatenAchsen
Streckungen entlang
der Koordinatenachsen
Streckung eines
Vektors
Streckung einer
Höhenlinie
Umformungen
D ist von der Form:
Datentransformation
haben wir:
Dabei ist:
Mit:
Xi das Paar von Expressionswerten im Patient i
und
Und
wird durch Spektralzerlegung von
berechnet
Ein Befehl in R
Standardisierung
Mit etwas Linearer Algebra folgt:
Sphering
Im Englischen benutzt man statt standardisieren den
anschaulicheren Ausdruck:
Also hat die Transformation die Daten standardisiert.
to sphere the data
Anschaulich macht diese Transformation das folgende:
1. In Nullpunkt
schieben
2. Entlang der den
Koordinatenachsen
ausrichten
3. Entzerren
Eine längliche schiefliegende und unzentrierte Punktwolke wird
in eine runde um Null liegende Punktwolke transformiert
Zweidimensionale
Standardnormalverteilung
Die gemeinsame Verteilung von zwei unabhängigen standard
normalverteilten Zufallsvariablen X~N(0,1) und Y~N(0,1) ist
gegeben durch
Familie der zweidimensionalen
Normalverteilungen
Wie bei den eindimensionalen Normalverteilungen bilden wir jetzt
auch für die multivariaten (zweidimensionalen)
Normalverteilungen eine Parametrisierte Familie, indem wir die
Variable Z affin transformieren:
Für einen Vektor:
... und eine invertierbare Matrix
oder für Z=(X,Y)
Wobei ||z|| die Norm von z ist,
oder der Abstand von z zum
Nullpunkt
Es gilt:
... definieren wir die zweidimensionale Zufallsvariable
E [Z] = 0
Cov (Z) = Id
Z ist also standardisiert (sphärisch)
Dichte, Erwartungswert(e)
und Kovarianzmatrix
Die Dichte von X ergibt sich zu:
Matrix mal Vektor
Transformationen
Ausgehend von:
... kommen wir zu ...
... durch:
wobei:
Es gilt: E[X] = µ, Cov(X) = Σ
Dies ist die allgemeine Form einer zweidimensionalen
Normalverteilung als Parameter haben wir die zwei Einträge des
Lagevektors µ und die drei(!) freien Einträge der symmetrischen
Kovarianzmatrix Σ
1. Verzerren
2. Drehen
3. Verschieben
Die gleiche Kovarianzmatrix in
beiden Klassen bedeutet, dass die
Punktwolke in beiden Klassen
parallel liegen ... gleich ausgerichtet
sind
Zurück zur Klassifikation
Die Voraussetzung der unabhängigen Genexpressionslevel bei
der DLDA lassen wir fallen
Dies macht Sinn, wenn die Gene
koreguliert sind: Eine erhöhte
Expression von Gen A führt zu einer
erhöhten Expression von Gen B. Es
gibt eine Wechselwirkung zwischen
der Expression von Gen A und der
von Gen B
Wir nehmen aber an, daß die Kovarianzmatrix in beiden Klassen
die gleiche ist:
Dies ist zum Beispiel der Fall wenn A
ein Transkriptionsfaktor ist, der die
Expression von B steuert
Wir modellieren diese Situation ...
Unterschiedliche
Kovarianzmatritzen, bedeuten, daß
die Wechselwirkung zwischen den
Genen durch die Krankheit verändert
wird, was eher selten ist
.... und nicht diese
Parameterschätzung
Log-Likelihood
Zentroide:
Gemeinsame Kovarianzmatrix für beide Klassen:
Entscheidungsfunktion:
Log-Likelihood-Ratio:
z.B.
Wobei die Schätzer für die Varianzen und Kovarianzen gepoolt
werden: D.h. in den Klassen einzeln geschätzt und dann gewichtet
nach den Klassengrößen gemittelt.
Offset
Normalenvektor
LDA
Entscheidungsfunktion:
DLDA & LDA
Diagonal discriminant analysis (DLDA) ist ein Spezialfall von LDA:
Bei DLDA gingen wir davon aus, dass die Expressionslevel der
beiden Gene unabhängig sind. Dann ist ihre Kovarianz auch Null
und die Kovarianzmatrix Σ hat die spezielle Form:
Dieser Klassifikator wird
auch Linear Discriminant
Analysis (LDA) genannt.
Er beruht auf der
Berechnung dieser Geraden:
Bias
Sie ist eine Diagonal Matrix, daher der Name DLDA
Alles andere bleibt bei DLDA und LDA das gleiche.
Varianz der Schätzer
DLDA:
Durch die Einschränkung auf diagonale
Kovarianzmatrizen sind wir weniger flexibel
bei der Bestimmung geeigneter
Trenngeraden.
Wir machen häufig mehr Trainingsfehler. Wir
modelliern schlechter.
Die Kovarianz von vorne herein auf Null zu
setzen egal wie die Daten aussehen ist ein
systematischer Fehler (Bias) falls die Gene
korreliert sind.
Die Varianz der Parameter β0,β1,β2 ist bei der
DLDA im allgemeinen geringer als bei der LDA
Damit generalisiert DLDA besser als LDA
Dies kann (muß aber nicht) zu weniger
Testfehlern führen
Ob LDA oder DLDA das bessere
Diagnosemodell ist, läßt sich nur dadurch
bestimmen, das man die Performance auf dem
Testset wirklich evaluiert
Nearest Centroid & DLDA
Nearest centroid Klassifikation ist ein Spezialfall von DLDA.
Hier nehmen wir an, dass die Kovarianzmatrix Σ die Form
besitzt, egal wie die Daten aussehen.
Zusammenfassung
Zentroid
Nearest Centroid Classifier
DLDA
LDA
Kovarianz
Auch dies ist ein Bias. Nearest centroid Klassifikation hat im
Allgemeinen einen höheren Trainingsfehler als DLDA und
LDA, aber generalisiert besser.
Damit ist es durchaus möglich, daß es der Klassifikator mit
dem kleinsten Testfehler ist.
Kovarianzmatrix
Sphering
Herunterladen