Markow-Ketten Jens Keienburg, Nora Rieber, Samuel Bandara, Felix Bonowski Übersicht • Definitionen • Veranschaulichung; ‚Bienen-Modell‘ – die Übergangsmatrix – die Grenzmatrix • Anwendung in Genomics Stochastischer Prozess • • • • • Folge von Zufallsexperimenten beschreibbar durch Funktion X(t), t g T X(t): ‚Zufallsvariable‘ T: ‚Parameterraum‘ M: ‚Zustandsraum‘; M = {X(t) | t g T} • Bsp: n-maliger Münzwurf Markow-Ketten • diskret in Zeit und Raum • Besonderheit: Wahrscheinlichkeit eines Zustands hängt nur von der Wahrscheinlichkeit des vorherigen ab • Markow-Kette ist bestimmt durch – Anfangsverteilung – Übergangswahrscheinlichkeiten – ihren Zustandsraum Das Bienen-Modell Chrysantheme Akelei • Wohin geht die Biene als nächstes? Tulpe Geranie Übergangswahrscheinlicheiten Chrysantheme 1/2 1/3 1/3 1/2 Akelei Tulpe 1/4 1/3 1/3 1/3 1/4 1/3 1/4 Geranie A G C T A 1/3 1/3 1/3 0 G 1/4 1/4 1/4 1/4 C 1/2 0 0 1/2 T 0 1/3 1/3 1/3 1/4 Die Übergangsmatrix • P= • Allgemein: in der i-ten Zeile und der k-ten Spalte Wahrscheinlichkeit pik für einen Übergang vom Zustand i in den Zustand k Die Übergangsmatrix • P= • Matrix ist stochastisch pik g [ 0;1] i,k = 1,2,...,N Mehrstufige Übergänge Chrysantheme • Wo ist die Biene in n Zügen? Akelei Tulpe • Grenzwert? Geranie Definitionen • p(n)= (p1(n), p2(n), …, PN(n)) Wahrscheinlichkeiten für jeden Zustand nach n Durchgängen • Anfangsverteilung: p(0) • z.B. (1 0 0 0) Biene sitzt auf Akelei • oder (0.25 0.25 0.25 0.25) Anfangsort unbekannt Spätere Verteilungen • Zustände auf mehreren Wegen erreichbar • Nächster Zustand durch Anwendung der Übergangsmatrix zugänglich • p(n+1)= P*p(n) Beispiel: p(0) * n = p(n) Langfristiges Verhalten • Die Matrix limn ¥(P)n heißt Grenzmatrix • Wenn sie existiert erlaubt sie Aussagen über das langfristige Verhalten des Systems. • In unserem Beispiel: • limn ¥(P)n = Diskussion des Beispiels • In unserer Grenzmatrix sind die Elemente einer Spalte gleich (Ergodische Matrix) Jede Anfangsverteilung führt im Grenzwert zur gleichen Verteilung p(¥)= (0,265 0,235 0,235 0,264) • Das dann der Fall, wenn es zwischen allen Zuständen irgendeinen zulässigen Weg gibt. Wahrscheinlichkeiten von Pfaden Chrysantheme Akelei •Pfad: (C T G C A) Tulpe Geranie p(CTGCA)=p(C®T)*p(T®G)… *P(G®A) Zwei Gärten… Garten 1 mit Übergangsmatrix P1 C A Gegeben: Die Biene hat die Blumen in der Reihenfolge CTGATC besucht. T G Frage: In welchen Garten war sie? C A T G Garten 2 mit Übergangsmatrix P2 Genomics Problematik : Entschlüsselung des Genoms Welche Bereiche codieren ? Wo befinden sich Gene? Genomics Gene Prediction : Codierende und nicht codierende DNA-Sequenzen besitzen unterschiedliche Übergangswahrscheinlichkeiten. Mit Hilfe von Markovketten lassen sich Gene zuverlässig finden ! Genomics Definition : Ein Open Reading Frame (ORF) ist eine Gensequenz, die von einem Start- und einem Stopcodon terminiert wird. Ein Gen ist ein codierender ORF Jeder ORF ist ein möglicher Kandidat für ein Gen. Wesentlich mehr ORF als Gene. Genomics Markowmodell : Xt(b) sei Zufallsvariable T ist Indexmenge mit T ={1, ...N}, wobei N = Anzahl der Basen Zustandsraum B ={A, C, T, G}, und b1, b2, ... g B Markow‘sche Eigenschaft : P( Xn(b) = b1 | Xn-1(b) = b1 , Xn-2(b) = b2, ... ) = P( Xn(b1) | Xn-1(b2) ) Genomics Produkt aller Wahrscheinlichkeiten ist ein Maß für die Wahrscheinlichkeit eines Gens. Genom : Abhängigkeit Xn von Xn-1, ... Xn-j mit 0 < j < 8 ist Grad der Markowkette Auf jedes j-Tupel von Basen folgt eine Base. Erfassung der Übergangswahrscheinlichkeiten mit einer höher dimensionalen Übergangsmatrix. Genomics Versuch am Genom von E. Coli liefert folgende Ergebnisse score ORFs 0.07 Gene 1.49 0.08 1.46 1.43 1.4 1.37 1.34 1.31 1.28 1.25 1.22 1.19 1.16 1.13 1.1 1.07 1.04 1.01 0.98 0.95 0.92 0.89 0.86 0.83 0.8 0.77 0.74 0.71 0.68 0.65 0.62 0.59 0.56 0.53 0.5 rel. Häufigkeit Verteilung von Genen und ORFs : 0.09 0.06 0.05 0.04 0.03 0.02 0.01 0 Gene Prediction Ergebnisse : 1) Der Algorithmus identifiziert ein Gen mit einer Wahrscheinlichkeit von 94% richtig. 2) ORFs werden zu weniger als 10% fälschlicherweise als Gene erkannt. Vielen Dank für Eure Aufmerksamkeit!