Diagnostische Signaturen Grenzen einzelner diagnostischer Gene A B Genomische Datenanalyse 14. Kapitel ... mehr als nur ein Gen In Kapitel 12 haben wir die Diagnose aufgrund eines einzigen Markergens getroffen. Dabei kamen wir über eine Erfolgsrate von 75% nicht hinaus. Dies war der Bayesfehler des einen Markergens. Er läßt sich nicht überbieten, wie kreativ man mit dem Ausdenken von Diagnosemodellen auch ist. Ist 75% Genauigkeit nicht gut genug, braucht man entweder ein anderes Markergen, das informativer ist, oder ... Akute Lymphoblastische Training Leukämie Klassifikation mit 2 Genen: Zwei unterschiedliche Formen der ALL Beide Gene sind differentiell exprimiert Test Beide Gene sind nicht differentiell exprimiert Kann so etwas von Nutzen sein ?? Die Gene sind nicht differenziell exprimiert, aber ihre Differenz ist es. Möglicher Grund: Zwei Proteine inhibieren einander: Differenz = Menge aktiven Proteins Separation in zwei Dimensionen Regulation der Genexpression durch Transkriptionsfaktoren A B z.B. Lac Operon in E. Coli Und wie funktioniert es im Menschen? Regulationsnetzwerk ? im Prinzip genauso ... nur komplizierter ... Die Regulierung der Genexpression führt zu einer Wechselwirkung zwischen Genen und damit zu einer Korrelation der Expressionswerte Diagnose Problem So kommt es zu diesem Bild Eine erhöhte Expression von Gen A führt zu einer erhöhten Expression von Gen B A Es gibt eine Wechselwirkung zwischen der Expression von Gen A und der von Gen B B Zum Beispiel könnte a ein Transkriptionsfaktor sein, der die Expression von B reguliert ... oder umgekehrt ... Diagnose Wie wird jetzt ein neuer Patient diagnostiziert? A B Man mißt die Expressionswerte für beide Gene, trägt diesen Punkt in den Scatterplot ein (gelber Punkt) und sieht nach, auf welcher Seite der Trenngeraden der Punkt liegt. Die Trenngerade übernimmt die Rolle des kritischen Wertes A A B B Aus den Daten muß eine möglichst gute Trenngerade gefunden werden. Sie muß aus den Daten abgeleitet werden. Oder anders ausgedrückt sie muß geschätzt werden. Probleme 1. Wie schätzt man die Trenngerade? 2. Wie entscheidet man auf welcher Seite der Trenngerade der neu zu diagnostizierende Patient zu liegen kommt, ohne künstlerisch tätig werden zu müssen? Geraden im zweidimensionalen Raum Entscheidungsfunktion A Wie kann man eine beliebige Gerade im zweidimensionalen Raum mathematisch beschreiben? Z.B. Mit einem Offset und einem Normalenvektor B Was ist der Normalenvektor? Eine Linearkombination von Expressionswerten Was ist der Offset? Eine Zahl: Der Abstand der Trenngeraden zum Ursprung Diese Linearkombination von Expressionswerten nennen wir eine diagnostische Signatur Der Offset ist der kritische Wert für die Signatur Zentroide Ansatz wie bei einem Gen Wie kommt man zu der Geraden? Jetzt haben wir zwei Gene, sagen wir x und y. Erinnerung bei der Diagnose mit nur einem Markergen, hatten wir den kritischen Wert als: geschätzt. Wir können für beide Klassen die Zentroide: berechnen Die Trennung zwischen den beiden Gruppen lag also auf halben Weg zwischen den beiden Gruppenmittelwerten. Man kann sie als mehrdimensionale Verallgemeinerung der Mittelwerte auffassen. Sie beschreiben die Lage der Daten. Sie sind Punkte in Mitten der Daten Konstruktion einer Trenngeraden 1. Berechne die beiden Klassenzentroide 2. Verbinde diese beiden Zentroide mit einer Geraden Nearest Centroid Classifier Ein Patient wird als hellblau diagnostiziert wenn er näher am hellblauen als am dunkelblauen Zentroid liegt. Man spricht deshalb auch von einem nearest centroid classifier. Die Gerade besteht aus allen Punkten die gleich weit von beiden Zentroiden entfernt liegen. 3. Bestimme den Mittelpunkt der Strecke zwischen den beiden Zentroiden 4. Konstruiere durch diesen Punkt eine Gerade die senkrecht zur Verbindungsgerade der Zentroide steht Likelihoodvergleich Unabhängige Gene Wie paßt der nearest centroid classifier in das Konzept des Likelihoodvergleichs ? Sind die Modelle für die beiden Krankheitsklassen vollständig bestimmt? Modelliere die Expression beider Gene in beiden Klassen als Normalverteilungen Nein, bis jetzt haben wir nur die Randverteilungen bestimmt, wir müssen uns noch auf eine gemeinsame Verteilung einigen. Nehmen wir an, daß die beiden Gene unabhängig sind. Damit haben wir für einen Patienten mit Expressionswerten (zA,zB) die Log-Likelihoods: Varianz? Nehmen wir an sie ist konstant σ sowohl für die beiden Gene als auch für die beiden Klassen Erwartungswerte? Die nehmen wir wieder als unterschiedlich in den beiden Klassen an und auch unterschiedlich für die beiden Gene Wir schätzen sie mit Abstand zu den Zentroiden C ist eine von zA und zB unabhängige Konstante In diesem Modell ist also Maximum-Likelihood-Klassifikation gleichbedeutend mit nearest centroid Klassifikation Nearest Centroid und Maximum Likelihood Für unabhängige Gene: Die Kreise beim nearest centroid Klassifikator lassen sich als Höhenlinien der Dichte der gemeinsamen Verteilung der beiden Gene in den beiden Klassen interpretieren Punkte auf diesen Kreisen bezeichnen Expressionswerte mit gleicher Dichte. Annahme 3 Implizite Annahmen des Nearest Centroid Classifiers 1. Die mittlere Expression ist für beide Gene in den beiden Klassen unterschiedlich. 2. Die Varianz ist für beide Gene in beiden Klassen die gleiche 3. Die beiden Gene haben auch untereinander keine Unterschiede bezüglich der Varianz in den Expressionswerten 4. Die Expression beider Gene ist unabhängig Während die ersten beiden Annahmen akzeptabel erscheinen sind die Annahmen 3 und 4 eher fragwürdig, wie wir uns jetzt veranschaulichen werden. Unnötiger Fehler Die beiden Gene haben auch untereinander keine Unterschiede bezüglich der Varianz in den Expressionswerten. Dies ist in der Regel nicht der Fall. Typisch ist eher das folgende Bild: Zwei Gene, das eine streut deutlich stärker als das andere. Ist das ein Problem? Auch mehrdimensionale Klassifikatoren machen im allgemeinen Fehler. Das ist ganz normal. Signaturen können wie einzelne Gene einen Überlapp haben. Was in obiger Situation stört, ist das der Fehler unnötig zu sein scheint. Und das Konzept in Frage stellt. Individuelle Varianzen Was hier die Schwierigkeiten macht, ist die hohe Varianz von Gen A. Likelihoodvergleich mit individuellen Varianzen Die Diagnose trifft man dann wiederum aufgrund der höheren Log-Likelihood: Wie könnte man das Modell verändern, so daß man dieses Problem vermeidet? Man läßt Annahme 3 Fallen und schätzt für jedes Gen eine eigene Varianz: DLDA Auch aus diesen Klassenmodellen läßt sich wieder eine Entscheidungsfunktion (Diagnosemodell) ableiten. Das Modell mit der höheren Likelihood bezüglich der Daten wird gewählt. Unterschiedliche Skalierung für die Achsen (Gene) Nearest Centroid vs. DLDA Nearest Centroid Die Höhenlinien der Verteilungen in den Klassenmodellen verzerren sich zu Ellipsen Dieses Verfahren wird auch Diagonal Linear Discriminant Analysis DLDA genannt. Welchen Einfluß haben die genspezifischen Skalierungen auf den Klassifikator? Wie verändert sich dieses Bild? Nearest Centroid DLDA Offensichtlich führt DLDA bei Genen mit unterschiedlichen Varianzen zu einer Verbesserung des Trainingsfehlers. Für den Testfehler ist das nicht so klar. Unabhängige Gene? Auch bei der DLDA werden die Dichten der beiden Modelle für die Krankheitsklassen miteinander multipliziert. Also liegt auch der DLDA die Annahme zugrunde, daß die Expression der beiden Gene in beiden Klassen voneinander unabhängig ist. Schlechte Modellierung Die konzentrischen Kreise scheinen die Daten innerhalb der Klassen nicht gut zu modellieren Hier liegen noch dunkelblaue Punkte Ist das plausibel aus biologischer Sicht ? Ist das plausibel aufgrund der Datenlage ? Zurück zum ursprünglichen Beispiel: In beiden Klassen sehen die Expressionslevel stark korreliert aus! Bessere Modellierung Aber hier ist die Dichte für das Modell der dunkelblauen Punkte höher Abhängige Gene Die Dichten sollten dort hoch sein, wo die meisten Daten liegen und in Gebieten mit wenig Daten sollten sie eher niedrig sein: Wie konstruiert man so ein Modell ? Nicht so ... ... sondern so Wie konstruiert man so ein Modell ? Wir wollen die Genexpressionswerte weiterhin mit zwei Normalverteilungen modellieren, aber eben nicht mehr mit unabhängigen Normalverteilungen. Kovarianz Randverteilungen Bezeichnen wir den Expressionswert für Gen A mit X1 und den für Gen B mit X2 Es gilt: X1~N(µ1,σ1) und X2~N(µ2,σ2) Die beiden Mittelwerte fassen wir in einem Vektor zusammen: Dies sind nur die Randverteilungen, die gemeinsame Verteilung von (X1,X1) liegt damit noch nicht fest! Schätzen der Kovarianzmatrix Varianzen: Für die Kovarianz erhält man analog einen erwartungstreuen Schätzer als: Die Kovarianz ist definiert als: Insbesondere gilt: Für n Zufallsvariablen X1,...,Xn definieren wir die Kovarianzmatrix Σ: Für unsere zwei Gene ergibt das: Standardisierte Daten Für eindimensionale Daten haben wir eine kanonische Einheit eingeführt in dem wir die Daten zunächst zentriert haben (Mittelwert abziehen) und dann standardisiert haben (durch die Varianz teilen). Die so standardisierten Daten haben Mittelwert Null und Varianz Eins. Das wollen wir auch für mehrdimensionale Daten tun: Transformation XÆZ Zusammen gibt das die empirische Kovarianzmatrix: Angestrebte Situation für Z: Erwartungswerte: Alle Null Varianzen: Alle Eins Bemerkung: Sowohl die Kovarianzmatrix als auch die empirische Kovarianzmatrix sind symmetrisch. Kovarianzen: Alle Null Matrix und Räumliche Transformation Wenn man einen Vektor x∈ R2 mit Σ multipliziert entsteht wieder ein Vektor Σ x. Die Multiplikation entspricht also einer räumlichen Transformation ... Sie „verschiebt“ Punkte im zweidimensionalen Raum Drehungen Drehung eines Vektors Drehung einer Höhenlinie Spektralzerlegung Eines der Hauptergebnisse der Linearen Algebra besagt, daß sich die Matrix Σ wie folgt als ein Produkt von 3 Matrizen schreiben läßt: Drehung Es gilt: Streckung entlang der KoordinatenAchsen Streckungen entlang der Koordinatenachsen Streckung eines Vektors Streckung einer Höhenlinie Umformungen D ist von der Form: Datentransformation haben wir: Dabei ist: Mit: Xi das Paar von Expressionswerten im Patient i und Und wird durch Spektralzerlegung von berechnet Ein Befehl in R Standardisierung Mit etwas Linearer Algebra folgt: Sphering Im Englischen benutzt man statt standardisieren den anschaulicheren Ausdruck: Also hat die Transformation die Daten standardisiert. to sphere the data Anschaulich macht diese Transformation das folgende: 1. In Nullpunkt schieben 2. Entlang der den Koordinatenachsen ausrichten 3. Entzerren Eine längliche schiefliegende und unzentrierte Punktwolke wird in eine runde um Null liegende Punktwolke transformiert Zweidimensionale Standardnormalverteilung Die gemeinsame Verteilung von zwei unabhängigen standard normalverteilten Zufallsvariablen X~N(0,1) und Y~N(0,1) ist gegeben durch Familie der zweidimensionalen Normalverteilungen Wie bei den eindimensionalen Normalverteilungen bilden wir jetzt auch für die multivariaten (zweidimensionalen) Normalverteilungen eine Parametrisierte Familie, indem wir die Variable Z affin transformieren: Für einen Vektor: ... und eine invertierbare Matrix oder für Z=(X,Y) Wobei ||z|| die Norm von z ist, oder der Abstand von z zum Nullpunkt Es gilt: ... definieren wir die zweidimensionale Zufallsvariable E [Z] = 0 Cov (Z) = Id Z ist also standardisiert (sphärisch) Dichte, Erwartungswert(e) und Kovarianzmatrix Die Dichte von X ergibt sich zu: Matrix mal Vektor Transformationen Ausgehend von: ... kommen wir zu ... ... durch: wobei: Es gilt: E[X] = µ, Cov(X) = Σ Dies ist die allgemeine Form einer zweidimensionalen Normalverteilung als Parameter haben wir die zwei Einträge des Lagevektors µ und die drei(!) freien Einträge der symmetrischen Kovarianzmatrix Σ 1. Verzerren 2. Drehen 3. Verschieben Die gleiche Kovarianzmatrix in beiden Klassen bedeutet, dass die Punktwolke in beiden Klassen parallel liegen ... gleich ausgerichtet sind Zurück zur Klassifikation Die Voraussetzung der unabhängigen Genexpressionslevel bei der DLDA lassen wir fallen Dies macht Sinn, wenn die Gene koreguliert sind: Eine erhöhte Expression von Gen A führt zu einer erhöhten Expression von Gen B. Es gibt eine Wechselwirkung zwischen der Expression von Gen A und der von Gen B Wir nehmen aber an, daß die Kovarianzmatrix in beiden Klassen die gleiche ist: Dies ist zum Beispiel der Fall wenn A ein Transkriptionsfaktor ist, der die Expression von B steuert Wir modellieren diese Situation ... Unterschiedliche Kovarianzmatritzen, bedeuten, daß die Wechselwirkung zwischen den Genen durch die Krankheit verändert wird, was eher selten ist .... und nicht diese Parameterschätzung Log-Likelihood Zentroide: Gemeinsame Kovarianzmatrix für beide Klassen: Entscheidungsfunktion: Log-Likelihood-Ratio: z.B. Wobei die Schätzer für die Varianzen und Kovarianzen gepoolt werden: D.h. in den Klassen einzeln geschätzt und dann gewichtet nach den Klassengrößen gemittelt. Offset Normalenvektor LDA Entscheidungsfunktion: DLDA & LDA Diagonal discriminant analysis (DLDA) ist ein Spezialfall von LDA: Bei DLDA gingen wir davon aus, dass die Expressionslevel der beiden Gene unabhängig sind. Dann ist ihre Kovarianz auch Null und die Kovarianzmatrix Σ hat die spezielle Form: Dieser Klassifikator wird auch Linear Discriminant Analysis (LDA) genannt. Er beruht auf der Berechnung dieser Geraden: Bias Sie ist eine Diagonal Matrix, daher der Name DLDA Alles andere bleibt bei DLDA und LDA das gleiche. Varianz der Schätzer DLDA: Durch die Einschränkung auf diagonale Kovarianzmatrizen sind wir weniger flexibel bei der Bestimmung geeigneter Trenngeraden. Wir machen häufig mehr Trainingsfehler. Wir modelliern schlechter. Die Kovarianz von vorne herein auf Null zu setzen egal wie die Daten aussehen ist ein systematischer Fehler (Bias) falls die Gene korreliert sind. Die Varianz der Parameter β0,β1,β2 ist bei der DLDA im allgemeinen geringer als bei der LDA Damit generalisiert DLDA besser als LDA Dies kann (muß aber nicht) zu weniger Testfehlern führen Ob LDA oder DLDA das bessere Diagnosemodell ist, läßt sich nur dadurch bestimmen, das man die Performance auf dem Testset wirklich evaluiert Nearest Centroid & DLDA Nearest centroid Klassifikation ist ein Spezialfall von DLDA. Hier nehmen wir an, dass die Kovarianzmatrix Σ die Form besitzt, egal wie die Daten aussehen. Zusammenfassung Zentroid Nearest Centroid Classifier DLDA LDA Kovarianz Auch dies ist ein Bias. Nearest centroid Klassifikation hat im Allgemeinen einen höheren Trainingsfehler als DLDA und LDA, aber generalisiert besser. Damit ist es durchaus möglich, daß es der Klassifikator mit dem kleinsten Testfehler ist. Kovarianzmatrix Sphering