technische universität dortmund Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 33 - technische universität dortmund Analyse eines Microarray-Experiments • Microarray-Experimente • werden seit Ende der 90er in großem Umfang durchgeführt • haben viele Kooperationen zwischen Statistikern und Biologen/Medizinern generiert und ermöglicht • Vielzahl und Brandbreite der eingesetzten statistischen Methoden ist beeindruckend • Übersicht der Microarray-Analyse (ausschnitthaft und grob) auf den nächsten 17 Folien, später ausführlicher • Statistische Methoden (Beispiele) • Versuchsplanung (Experimentelles Design) • Clusteranalyse (Bildverarbeitung) • Lokal lineare Regression, varianzstabilisierende Transformation (Normalisierung) • Varianzanalyse, Diskriminanzanalyse, Testtheorie (Analyse verschiedener Proben) Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 34 - technische universität dortmund Zwei-Farben Microarray-Experiment Kontrolle Tumor cDNA von Kontroll- und Tumorgewebe Markieren (labeling) von Proben mit grüner (532 nm) und roter (635 nm) Farbe Kompetitive Hybridisierung Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 35 - technische universität dortmund Zwei-Farben Microarray-Experiment Microarray Slide Scannen des Bildes mit konfokalem Scanner Identifikation der Spots Quantifizierung der roten und grünen Intensität Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 36 - technische universität dortmund Gründe für niedrige Datenqualität 1. Abnehmende Pin-Qualität Nach 500.000 Spots 2. Räumliche Effekte auf dem Microarray Farb-Repräsentation Expressionswerte sind sortiert (Ränge) von blau nach gelb G Nach 300.000 Spots H. Sueltmann DKFZ/MGA Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund R Rb R-Rb 16.04.2009 - 37 - technische universität dortmund Affymetrix Gene Chips Zelle (cell) einer hybridisierten * Probe GeneChip Probe Array * * * * Oligonukleotid-Probe 20 µm 1.28 cm Jede Zelle enthält Millionen von Kopien einer spezifischen Oligonukleotid-Probe Über 400,000 verschiedene Proben, jeweils komplementär zu (Teilen von) Genen Bild eines hybridisierten Arrays Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 38 - technische universität dortmund Analyse eines Microarray-Experiments 1. Biologische Frage • Wahl des Designs • • • • 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse • Nebenbedingungen • Anzahl der Experimente: Kosten pro Exp. ~ 500-800 € • Material (mRNA): Oft schwer zu erhalten 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation Behandlung vs. Kontrolle Mehrere Behandlungen Faktorielles Design Zeitreihen • Anzahl der Replikate Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund • Fallzahlplanung? • Keine allgemein akzeptierten Modelle 16.04.2009 - 39 - technische universität dortmund Experimentelles Design: 2 x 2 faktorielles Design Indirekt I) A Balance von direkt und indirekt II) B A.B C C B III) A IV) C A.B B # Experimente A C A A.B B A.B N=6 Haupteffekt A 0.5 0.67 0.5 NA Haupteffekt B 0.5 0.43 0.5 0.3 1.5 0.67 1 0.67 Wechselwirkung A.B Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 40 - technische universität dortmund Experimentelles Design: Zeitreihen Lag 1 Lag 2 Lag 3 Varianzvergleich Ave T1T2 T2T3 T3T4 T1T3 T2T4 T1T4 T1 T2 T3 T4 1 2 2 1 2 1 1.5 T1 T2 T3 T4 1 1 1 2 2 3 1.67 T1 T2 T3 T4 2 2 2 2 2 2 2 0.67 0.67 1.67 0.67 1.67 1 1.06 0.75 0.75 0.75 1 1 .75 .83 1 .75 1 .75 .75 .75 .83 N=3 C T1 T2 T3 T4 N=4 T1 T2 T1 T2 T3 T4 T3 T4 Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 41 - technische universität dortmund Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation • Addressierung: • Finden der Bereiche im Bild die zu einzelnen Spots gehören. • Bereich von Spot und zugehörigem Hintergrund heißt „target area“. • Segmentierung: • Aufteilen der „target area“ in Vordergrund (fg) und Hintergrund (bg). • Reduktion: • Extrahieren zweier skalarer Werte R and G für rote und grüne Intensität. • Berechnung eines Wertes R/G für relative Abundanz. Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 42 - technische universität dortmund Bildanalyse – Clusteranalyse Spot mit Loch im Zentrum Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 43 - technische universität dortmund Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation • Globale Normalisierung • Experimentelle Varianz: Verschiedene Größenordnungen für grün bzw. rot markierte Proben • Annahme: Die meisten Gene sind nicht differentiell exprimiert • Intensitäts-abhängige Normalisierung • Varianz von Genexpressions-Quotienten größer für niedrige Intensitäten • Varianz-stabilisierende Transformation • Modell-basierte Normalisierung • Macht Varianz konstant über ganzen Intensitätsbereich Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 44 - technische universität dortmund Normalisierung MA-plot M = log2 ( R G ) A = log2 ( RG ) 2 M … log ratio A … average log intensity Annahme: Differentiell exprimierte Gene gleichmäßig verteilt über Intensitätsbereich Lösung: Ziehe lokal lineare Regressionsschätzung von den Daten ab Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 45 - technische universität dortmund Normalisierung MA-plot M = log2 ( R G ) A = log2 ( RG ) 2 M … log ratio A … average log intensity Annahme: Differentiell exprimierte Gene gleichmäßig verteilt über Intensitätsbereich Lösung: Ziehe lokal lineare Regressionsschätzung von den Daten ab Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 46 - technische universität dortmund Normalisierung – VSN: Fehlermodell Gemessene Intensität = offset + Faktor × wahre Abundanz y ik = aik + bik xik bik = bi bk exp(ηik ) aik = ai + ε ik ai per-sample offset bi per-sample Normalisierungsfaktor εik ~ N(0, bi2s12) bk Sequenzabhängige Effizienz “additives Rauschen” ηik ~ N(0,s22) i… Sample, Experiment, Array k… Gen “multiplikatives Rauschen” ppt-Folien adaptiert von W. Huber Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 47 - technische universität dortmund Normalisierung: Fehlermodell (ppt-Folien: W. Huber) • Für das vereinfachte Modell mit bk=1 für alle Gene k gilt: y ik = ai + ε ik + bi exp(ηik )xik ⇒ Var ( y ik ) = c 2 (E ( y ik ) − ai )2 + bi2s12 mit c 2 = Var (eη ) / E 2 (eη ) • Varianz ist quadratische Funktion des Erwartungswerts • Dieser Effekt kann durch eine varianzstabilisierende Transformation kompensiert werden x f (x) = ∫ 1 v (u ) 2 du • In diesem Fall: v (u ) ∝ (u + u0 ) + s Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 2 u + u0 ⇒ f ∝ arsinh s 16.04.2009 - 48 - technische universität dortmund Differenz rot-grün Normalisierung: Validität von VSN Gene sortiert nach Expression Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 49 - technische universität dortmund Differentiell exprimierte Gene Teststatistik für die Identifizierung von differentiell exprimierten Genen (im Fall von n Replikaten): Mittelwert m t = m / sd S = m / (sd+a) t-Test (Mittelwert/Standardabweichung) adaptiver t-Test, a = 90th perc. von allen sd’s (Stanford) 2 2 2 log ( p (1 − p ) ) a +s +m B = a 2 + s 2 + m 2 (1 + nc ) 1 + nc ( ν+ ) n 2 ‘empirical Bayes log odds’ Teststatistik (Berkeley) p… apriori Wahrscheinlichkeit für differentielle Expression ν, a, c… Hyperparameter, geschätzt aus Daten Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 50 - technische universität dortmund Differentiell exprimierte Gene log ( p (1 − p )) a2 + s 2 + m2 B = a 2 + s 2 + m 2 (1 + nc ) 1 + nc ( ν+ ) n 2 ist „empirical Bayes posterior log odds statistic“, wenn für jedes Gen gilt log(R/G) ~ N(µ,σ2), τ = na/2σ2 ~ Γ(ν,1), µ|τ = 0 für nicht-differentiell exprimierte Gene, µ|τ = N(0,cna/2σ2) für differentiell exprimierte Gene • Parameter a, ν, c werden aus Daten geschätzt, p apriori festgelegt • Simulierte MA-plots sind ähnlich zu MA-plots von realen Daten • Kompromiss zwischen M and t wie auch bei Efrons Statistik S Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 51 - 2. Markovketten – Sequenzmodellierung – Hidden Markov Modelle (HMMs) Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 52 - technische universität dortmund Markovketten • Bedeutung von Markovketten in der Bioinformatik • Modellierung von Sequenzevolution (stochastische Prozesse) • Modellierung von Zufallsequenzen als sogenannte Nullmodelle (Generierung der Nullhypothese) • Grundlage für HMMs (Hidden-Markov-Modelle) • HMMs sind wesentlicher Bestandteil in der Sequenzanalyse • Markovketten • Stochastische Prozesse • Übergänge zwischen Zuständen werden stochastisch modelliert • Gedächtnislosigkeit (oder Markov-Eigenschaft) der Zustände: Übergangswahrscheinlichkeiten von einem Zustand in den nächsten hängen nur vom derzeitigen Zustand ab, nicht von vorherigen Zuständen Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 53 - technische universität dortmund Markovketten • Beispiel für Markovkette • Nukleotid an fester Position in Sequenz im Laufe der Evolution • Mögliche Zustände: A,G,C,T • Zeiteinheit (z.B.): 1 Million Jahre • Hypothetische Übergangsmatrix P • P stochastische Matrix mit Zeilensumme 1 • Die Wahrscheinlichkeit, dass sich ein bestimmtes Nukleotid innerhalb von 1 Million Jahre von A nach G geändert hat, sei 0.01 (analog für alle anderen Kombinationen) → A →G →C →T A → 0.97 0.01 0.01 0.01 • Die i-te Zeile von P gibt die Verteilung des P = G → 0.01 0.97 0.01 0.01 nächsten Zustandes an, C → 0.01 0.01 0.97 0.01 wenn die Kette gegenwärtig T → 0.01 0.01 0.01 0.97 im Zustand i ist Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 54 - technische universität dortmund Markovketten • Definition: Stochastischer Prozess • Ein stochastischer Prozess ist eine Zufallsvariable X(t) im Verlauf der Zeit t. Die Zufallsvariable nimmt Werte aus einem vorgegebenen Zustandsraum X an. • Die Zeit kann diskret oder stetig sein • Wahrscheinlichkeits-Aussagen über X(t) werden mit P beschrieben, d.h. P(X(0)=A) ist die Wahrscheinlichkeit, dass A das Startsymbol ist • Nukleotid-Beispiel • X = {1,2,3,4} endlich (Kodierung zum Beispiel A=1, G=2, C=3, T=4). • Aminosäure-Beispiel • X = {1,...,20} endlich (zum Beispiel mit Alanin=1, Aspartat=2, ...). Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 55 - technische universität dortmund Markovketten • Definition Markovkette • Eine (zeitdiskrete und homogene) Markovkette ist ein stochastischer Prozess, der vollständig durch eine Startverteilung π(0) auf X und eine Übergangsmatrix P zwischen den Zuständen gegeben ist. • Der Wert Pij gibt die bedingte Wahrscheinlichkeit an, zum nächsten Zeitpunkt in Zustand j zu landen, wenn i der jetzige Zustand ist. • Bei nichthomogenen Markovketten kann sich P mit der Zeit ändern • In Gleichungen: π i( 0 ) = P ( X ( 0 ) = i ) Pij = P ( X ( t + 1) = j X ( t ) = i ) Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 56 - technische universität dortmund Markovketten Typische Fragestellungen • Heute steht hier ein A, was steht dort vermutlich in 10 Millionen Jahren? • Gegeben X(t) = i, wie ist die Verteilung von X(t+k) für ein k>0? • Gegeben die 1-Schritt Übergangswahrscheinlichkeiten Pij , was sind die kSchritt Übergangswahrscheinlichkeiten Pij(k)? • Wie häufig sieht man im Mittel jedes Nukleotid A,C,G,T? • Was ist die Zustandsverteilung im Zeitmittel? • Oft äquivalent zur Frage nach einer stationären Verteilung, d.h. einer Verteilung, die sich durch Anwenden der Übergangsmatrix P nicht ändert • Das Modell sieht sehr symmetrisch aus. Sind Mutationswahrscheinlichkeiten nicht eher unterschiedlich für Transitionen/Transversionen? • Woher kommen die Übergangswahrscheinlichkeiten, d.h. wie findet man die Parameter des Markovmodells, wenn Beobachtungsreihen von Zuständen gegeben ist sind? Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 57 - technische universität dortmund Markovketten • Heute steht hier ein A, was steht dort vermutlich in 10 Millionen Jahren? • Gegeben X(t) = i, wie ist die Verteilung von X(t+k) für ein k>0? • Gegeben die 1-Schritt Übergangswahrscheinlichkeiten Pij , was sind die k-Schritt Übergangswahrscheinlichkeiten Pij(k)? • Für den Übergang von Zustand i nach Zustand j nach zwei Schritten gilt P X ( 2 ) = j X ( 0 ) = i = ∑ P X ( 2 ) = j , X (1) = y X ( 0 ) = i y = ∑ P X (1) = y X ( 0 ) = i ⋅ P X ( 2 ) = j X (1) = y , X ( 0 ) = i y und damit Pij( 2) = ∑ Piy ⋅ Pyj y • In Matrixschreibweise ergibt sich: P ( 2) = P ⋅ P = P 2 Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 58 - technische universität dortmund Markovketten • Heute steht hier ein A, was steht dort vermutlich in 10 Millionen Jahren? • Gegeben X(t) = i, wie ist die Verteilung von X(t+k) für ein k>0? • Gegeben die 1-Schritt Übergangswahrscheinlichkeiten Pij , was sind die k-Schritt Übergangswahrscheinlichkeiten Pij(k)? • Analog erhält man für die k-Schritt Übergangswahrscheinlichkeiten Pij( k ) = ∑ Piy( k −1) ⋅ Pyj y und damit in Matrixschreibweise P ( k ) = P ( k −1) ⋅ P = P k • Übungen: Berechnung von k-Schritt Übergangswahrscheinlichkeiten • Bemerkung: Auch wenn an einer bestimmten Stelle ein Nukleotid nach einer bestimmten Zeit noch steht, kann es sich mehrfach zwischendurch geändert haben! Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 16.04.2009 - 59 -