Mehr über konservierte Sequenzen Konservierte Globine Wir wollen uns noch etwas mehr mit den beiden Globinsequenzen beschäftigen, der humanen und der aus dem Genom der Ratte. HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... Ein gemeinsamer Vorfahre der beiden Sequenzen scheint noch sichtbar zu sein, das drückt sich in auffallend vielen identischen Positionen aus. Genomische Datenanalyse 7. Kapitel Modell für konservierte Sequenzen HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... Im letzten Kapitel hatten wir ein Modell konstruiert, daß die Sequenzen als von einander abhängig modelliert. In diesem Modell wurde die erste Sequenz als i.i.d. mit Verteilung (0.25, 0.25, 0.25, 0.25) angenommen und die zweite Sequenz wurde dann mit Hilfe einer Transitionsmatrix generiert: Match & Mismatch Alternativ zu diesem Evolutionsmodell hatten wir noch den naiven Ansatz verfolgt, beide Sequenzen als voneinander unabhängige i.i.d. Sequenzen zu modellieren. In beiden Fällen induzieren die Modelle eine Folge Zi von Nullen und Einsen. Wobei 1 für eine Matchposition und 0 für eine Mismatchposition steht. X1(ω),...,X70(ω): GTTGAAGGGCTGTCCGTGCCCCCACAAAGTACCAGACAACGTAGCACAATAATAACGGAGCCCCGGTACT Y1(ω),...,Y70(ω): AGGACATTCGTTCGTTGGTCTTAAATTTATATAGCTACTCAACACGGTCTCCATGCGGGGTACGTTGAAC Z1(ω),...,Z70(ω): 0000010000100000010100010000011000000001000010000000000111010010000100 Die Randverteilung der Zi ist in beiden Fällen eine i.i.d. Folge von Nullen und Einsen wobei: 1. im Modell mit Unabhängigkeit (Nullmodell): P [ Zi = 1 ] = 0.25 2. im Evolutionsmodell: P [ Zi = 1 ] = 0.64. Bernoulli-Verteilung Interessiert man sich also nicht für die beiden Sequenzen sondern nur für die Abfolge von Match und Mismatchpositionen, kann man jede einzelne Position durch ein einfacheres Zufallsexperiment realisieren: 1 Bernoulli-Verteilung Sei X~Bernoulli(p) Jakob Bernoulli 1654-1705 0 E[X]= 1 × p + 0 × (1-p) = p 0 p 1 Ein solches Experiment heißt Bernoulli-Experiment, und die zugehörige Zufallsvariable hat eine Bernoulli-Verteilung mit Erfolgsparameter p. Var (X) = p(1-p)2+(1-p)(0-p)2 = p(1-p) Also X~Bernoulli(p) bedeutet das gleiche wie X~ (p, 1-p) mit Werten (0,1). Anzahl Erfolge Binominalverteilung In anderen Worten: Hat man eine i.i.d. Sequenz von n Bernoulli-Variablen Z1,...,Zn, dann ist die Anzahl der Erfolge (Einsen): S ~ (b0,...,bn) mit Werten in (0,...,n) wieder eine Zufallsvariable. S kann als Werte (0,...,n) annehmen. P [ S=k ] = Man sagt auch S ist binominal verteilt mit Parameter (p,n) S ~ Bin (p,n) ? E [ S ] = E [ ∑ Zi ] = ∑ E [ Zi ] = np ? Anzahl der mögliche Positionen der Einsen k Einsen ... und nicht mehr Var (S) = Var (∑ Zi) = n Var (Zi) = np(1-p) Erwartungswert der Summe von Zufallsvariablen Varianz der Summe von Zufallsvariablen Es gilt allgemein: E [ X + Y ] = E [ X ] + E [ Y ] Es gilt: E [ X ] := ∑i xi P [ X = xi ] Var ( X+Y ) = E [ (X + Y – E [ X + Y ] )2 ] = E [ ((X – EX) + (Y – EY))2 ] = E [ (X – EX)2] + E [(Y – EY)2] + 2 E [ (X-EX)(Y-EY)] E [ X + Y ] = ∑i,j (xi + yj) P [X=xi, Y=yj] = Var ( X ) + Var ( Y ) + 2 E [ (X-EX)(Y-EY) ] = ∑i,j xi P [X=xi, Y=yj] + ∑i,j yj P [X=xi, Y=yj] = ∑i xi (∑j P [X=xi, Y=yj]) + ∑j yj (∑i P [X=xi, Y=yj]) = ∑i xi P [X=xi] + ∑j yj P [Y=yj] = E[X]+E[Y] Erwartungswert eines Produktes unabhängiger Zufallsvariablen Sind X und Y unabhängig, dann gilt: Unabhängige Ereignisse Varianz der Summe unabhängiger Zufallsvariablen Unabhängige Zufallsvariablen Es gilt: Var ( X+Y ) = Var ( X ) + Var ( Y ) + 2 E [ (X-EX) (Y-EY) ] E [ X Y ] = ∑i ∑j xi yj P [ X=xi, Y=yj ] = ∑i ∑j xi yj P [ X=xi ] P [ Y=yj ] = Var ( X ) + Var ( Y ) + 2 E [ (X-EX) ] E [ (Y-EY) ] = Var ( X ) + Var ( Y ) + 2 ( EX-E[ EX ]) (EY –E [ EY ] ] = Var ( X ) + Var ( Y ) = ∑i ∑j xi P [ X=xi ] yj P [ Y=yj ] E [ EX ] = EX = ∑i xi P [ X=xi ] ∑j yj P [ Y=yj ] Erwartungswert einer konstanten Zufallsvariablen =E [ X ] E [ Y ] Binominalverteilung Also wirklich: S ~ Bin (p,n) E [ Zi ] =p für alle n Summanden Konservierten Sequenzen: Nullmodel HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... 1011010001111110010101111000011011111101101010111011011111110011010101 Bei diesem Sequenzvergleich beobachten wir 45 Matchpositionen von 70 Möglichen. Summe von BernoulliVariablen Zi Wir haben n = 70 E [ S ] = E [ ∑ Zi ] = ∑ E [ Zi ] = np Nullmodel: p=0.25, also S~Bin (0.25,70) Wie wahrscheinlich ist die Beobachtung S=45? Var (S) = Var (∑ Zi) = n Var (Zi) = np(1-p) Summe von unabhängigen BernoulliVariablen Zi Var ( Zi ) = p(1-p) für alle n Summanden Konservierten Sequenzen: Evolutionsmodel Punktwahrscheinlichkeit Im Evolutionsmodel gilt p=0.64: S~ Bin (0.64,70) P [ S=45 ] = Hat man die beiden Alternativen: 1. Die Sequenzen sind nicht verwandt (repräsentiert durch das Nullmodell) 2. Die Sequenzen sind evolutionär verwandt (repräsentiert durch das Evolutionsmodel) Dann liefert die Beobachtung von 45 Matchpositionen eine erschlagende Evidenz zugunsten von 2. Die Beobachtung erscheint aber auch im Evolutionsmodell nicht sonderlich wahrscheinlich, nur 10%. Woran liegt das? Die Wahrscheinlichkeit, genau 45 Matches (Erfolge) zu generieren ist in der Tat klein. Aber bei 46, 47 , ... Matches haben wir ja immernoch Evidenz für evolutionäre Konservierung ... dann erst recht. Die Wahrscheinlichkeit punktgenau 45 Matche zu haben, nennt man auch Punktwahrscheinlichkeit ... ... Sie ist wenig hilfreich, es empfiehlt sich, wieder ein gröberes Maß anzulegen. Extremalwahrscheinlichkeit Betrachten wir an Stelle des Ereignisses S=45, das Ereignis Extremalwahrscheinlichkeit S ≥ 45 ... S=0, S=1, S=2,...,S=k sind disjunkte Ereignisse. „Mindestens 45 Matches oder noch mehr Konservierung“ Unter dem Nullmodell (p=0.25) erhalten wir: P [ S ≥ 45 ] = 1 – P [s < 45] = 1-F (45) P [ S ≥ 45 ] ≈ 0 (immer noch extrem klein) wobei F(k) die Verteilungsfunktion von S ist: Unter dem Evolutionsmodell (p=0.64) P [ S ≥ 45 ] ≈ 0.44 (... also ein typisches Ergebnis) Statt von Punktwahrscheinlichkeit sprechen wir hier von Extremalwahrscheinlichkeit (tail probability) Zusammenfassung 45 Match-Positionen scheinen eine sehr deutliche Sprache zu sprechen: Large Scale Effects Könnte unsere Beobachtung so etwas ähnliches sein, wie wir sie bei den Splice-Positionen hatten ... ... eine „Fata Morgana“, die man beim Durchsuchen großer Datenmengen ja haben kann (Borel-Cantelli). Die Sequenzen wurden ja erst in den riesigen Genomsequenzen gefunden ... Die Sequenzen sind verwandt ... haben vermutlich einen gemeinsamen Vorfahren. Wir haben zweierlei Evidenz: 1. Signifikanz: 45 Match-Positionen sind für nicht verwandte Sequenzen (Nullmodell) sehr ungewöhnlich. ... GTGGTAAGT... 2. Modellvergleich: (Likelihood-Ratio) 45 Match-Positionen sind im Evolutionsmodell viel wahrscheinlicher als im Nullmodell. ... ACGGTAAGC ... ...AAGGTAAAA... ...AGGGTAAGA.. . ... kann es da nicht mal zufällig vorkommen, daß es nach Konservierung aussieht obwohl nichts dahinter steckt? Statt von einer Fata Morgana sprechen wir ab jetzt nüchterner vom „Problem multipler Tests“ oder von einem Large Scale Effect. Large Scale Effects Zurück zu den Globinen HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... Diese Large Scale Effects sind ein generelles Problem in der Bioinformatik und spielen auch bei der Einschätzung von Sequenzähnlichkeiten eine entscheidende Rolle. RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... Zum Beispiel ist das Datenbank-Suchprogramm BLAST ein Spezialist auf dem Gebiet. Man kann in BLAST eine Querysequenz eingeben, und Blast sucht dann ganze Datenbanken von Sequenzen (mit diversen vollständigen Genomen darin) nach kleinen Segmenten ab, die Ähnlichkeit zu einem Stück der Query haben. Weitgehend mutierter Bereich. Wenig selektiver Druck. Perfekt konservierter Bereich. Mutationen wurden von der Selektion nicht toleriert. Dabei muß BLAST so gut wie möglich zwischen zufälliger und echter Ähnlichkeit unterscheiden. Beobachten wir hier so etwas wie einen Unterschied im Ausmaß des selektiven Drucks? Mehr dazu später in der Vorlesung. Konnte der rote Bereich nicht mutieren, da diese Mutationen unvorteilhaft waren? Wenn ja, dann muß dieser Bereich besonders wichtig sein. Headruns Headruns HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... 1011010001111110010101111000011011111101101010111011011111110011010101 1011010001111110010101111000011011111101101010111011011111110011010101 In der Sequenz von Nullen und Einsen, entsprechen dem roten Bereich 7 Einsen direkt hintereinander. 7 Einsen direkt hintereinander: Eine ununterbrochene Abfolge von Einsen nennt man einen Headrun. Also Z1,...,Zn i.i.d. mit Zi ~ Bernoulli (0.64) Perfekt konservierte Sequenzabschnitte im Alignment entsprechen also Headruns der Zi. Ist das auffällig ? Nehmen wir das Evolutionsmodell: Die Länge des längsten Headruns in Z1,...,Zn nennen wir Rn. Wir sind an P [ Rn ≥ 7 ] interessiert. Startruns Verteilung von Startruns Betrachten wir zunächst nur Headruns, die gleich zu Anfang der Sequenz auftreten: Die Wahrscheinlichkeit, daß die ersten r Positionen alle Einsen sind: P [ Z1=1,...,Zr=1 ] = pr SR ist eine Zufallsvariable. Wie ist sie verteilt? P [ SR=r ] = pr (1-p) Als Länge des Startruns einer Sequenz SR bezeichnen wir die Anzahl von Einsen zur Beginn der Sequenz: Also: SR(„111010“) = 3 Die ersten r Positionen sind Einsen ... und dann folgt eine Null,sonst wäre der Startrun ja mindestens r+1 lang. SR(„011111“) = 0 Geometrische Verteilung Für eine unendlich lange Bernoulli-Sequenz und gr:=pr(1-p), ist der Startrun: SR ~ (g0,g1,...) mit Werten in (0,1,...) Eine Zufallsvariable X für die P [ X=r ] = pr (1-p) gilt, nennt man geometrisch verteilt mit Parameter p ... ... und wir schreiben kurz X ~ Geo(p). Signifikanz von Startruns Wir können damit Aussagen über die Verteilung der Länge des Startruns machen. Für ein Alignment, das mit einem konservierten Bereich beginnt, können wir entscheiden, ob diese Beobachtung eine zufällige Fluktuation sein könnte oder erhöhte Sequenzkonservierung widerspiegelt. Es gibt eine Einschränkung: Das Alignment hat nur eine endliche Länge n=70. E[X]= Eine Geo(p) verteilte Zufallsvariable kann aber auch größere Werte annehmen. Das würde in unserem Fall keinen Sinn machen (Randeffekt). Ein Startrun größer als 70 ist aber sehr unwahrscheinlich. Var (X) = ... kann man nachrechnen. Deshalb vernachlässigen wir das Problem Startruns vs. Headruns Für ein Alignment, das mit einem konservierten Bereich beginnt, können wir entscheiden, ob diese Beobachtung eine zufällige Fluktuation sein könnte oder erhöhte Sequenzkonservierung widerspiegelt. Nur sind wir daran ja nicht interessiert: Identische Ereignisse Die folgenden zwei Ereignisse sind identisch: A: Die (0-1) Sequenz startet nicht mit r Einsen. B: SR < r. A lautet im Kontext des Alignments auch: HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... 1011010001111110010101111000011011111101101010111011011111110011010101 Unsere Beobachtung war ja nicht Konservierung am Beginn des Alignments sondern in seinem Inneren. Wir sind am längsten Headrun Rn und nicht am längsten Startrun SR interessiert. Signifikanz von Headruns (A‘)c ist genau das Ereignis, das zu unserer Beobachtung paßt: Es gibt einen konservierten Bereich der Länge r oder länger. HUM ...ACGTCAAGGCCGCCTGGGGCAAGGTTGGCGCGCACGGCGAGTATGGTGCGGAGGCCCTGGAGAATGTTCC... RAT ...ATGTAAGCCCCGGCTCTGCCCAGGTCAAGGCTCACGGCAAGAAGGTTGCTGATGCCCTGGCCAAAGCTGC... 1011010001111110010101111000011011111101101010111011011111110011010101 Um festzustellen ob die Beobachtung weitere Aufmerksamkeit rechtfertigt (Hypothesen-Generierung) müssen wir ... P[ (A‘)c ] = 1 – P [ Rn < r ] ... berechnen. Gesucht ist die Verteilung der Länge Rn des längsten Headruns. A: Das Alignment startet nicht mit r identischen Positionen Die folgenden Ereignisse sind ebenfalls identisch: A‘: Die (0-1) Sequenz enthält keinen Headrun der Länge r B‘ : Rn < r. (Der längste Headrun ist kürzer als r). Headrun = lokaler Startrun Der Startrun ist ein Headrun, dessen Startpunkt wir kennen. Er muß bei Position 1 starten. Der längste Headrun, könnte theoretisch überall starten. Es gibt damit n mögliche Startpunkte, wobei n die Länge des Alignment ist. Für jede beliebige Startposition i sei SR(i) die Länge des längsten dort startenden Headrun. Für unendlich lange (0-1) Sequenzen sind alle SR(i) ~ Geo(p). Für eine endlich lange Sequenz taucht wieder das Problem der Randeffekte auf. Jetzt aber in verschärfter Form, da die Randeffekte für Startpunkte nahe dem Ende der Sequenz erheblich sein können. Erster Versuch Zweiter Versuch Es gibt keinen Headrun der Länge r. Versuchen wir es anders: Dann gibt es auch keinen Startpunkt für einen solchen Headrun. Für eine feste Position i und eine feste Runlänge r definieren wir: Es gilt SR(i) < r für alle i · n. Xi = 1 falls Zi × ... × Zi+r-1 = 1 Sei Ai das Ereignis { SR(i) <r }, Xi = 0 sonst. Dann ist P [ Rn < r ] = P [ A1 ∩ A2 ∩ ... ∩ An ]. Wären die SR(i) i.i.d., dann wären wir fertig: Xi zeigt an, ob in i ein Headrun beginnt, der mindestens r Positionen lang ist. P [ Kein konservierter Bereich der Läng r ] = Sei W = ∑ Xi W zählt wie häufig Headruns die länger als r sind auftreten: = P [ A1 ] n = ( pr (1-p) ) n ... nur sind sie das gerade nicht ! (überlappende Positionen) Zi(ω): 0100100111010100111110101111111001010101010 Xi(ω): 0000000100000000111000001111000000000000000 Das war eine Sackgasse ... aber eine lehrreiche! Abhängigkeit durch überlappende Positionen in der Runs P[Xi=1]= pr ... also Xi ~ ( pr, 1-pr ) ... aber die Xi sind auch hier nicht unabhängig! z.B. P[ Xi=1 | Xi+1=1] Abhängigkeit durch überlappende Positionen in der Runs Aus dem gleichen Grund sind auch Xi und Xi+∆ genau dann abhängig, wenn ∆ < r ist. E[ Xi ] = pr =p E[W] P[ Xi=1] = pr Also sind Xi und Xi+1 abhängig. = (n-r+1) pr Approximation mit Binominalverteilung Analoges i.i.d. Modell Die Xi sind zwar identisch verteilt: Xi ~ ( pr, 1-pr ) ... ... aber nicht unabhängig ( independent ) ... Wie ist W‘ verteilt? × Sequenz. da fehlt ein i zur i.i.d. W‘ ~ Bin(pr,n) Definieren wir uns trotzdem die entsprechende i.i.d. Sequenz: W ist eine binominal verteilte Zufallsvariable ... Y1,...,Yn Yi i.i.d. mit Yi ~ Xi mit Erfolgsparameter pr ... ( Achtung: Yi ~ Xi aber ( Xi, Xi+1 ) ¿ ( Yi, Yi+1 ) ) Im Globin-Alignment: Sei W‘ = ∑ Yi p=0.64, r=7 pr= 0.04 Wie ist W‘ verteilt? Weniger als t: Weniger als t Headruns der Mindestlänge r Poissonverteilung Entweder 0 oder 1 ... oder t-1 ( Disjunkte Ereignisse ) Mindestens i Headruns ... Eine Zufallsvariable W mit Werten 0,1,2,3, ... und der Verteilung: heißt poissonverteilt mit Intensität λ. λx ... i von n-r+1 möglichen Startpunkten P[ W‘ = i ] ... und nicht mehr x! ... e-λ ... ... und das alles in einer Formel ... wer denkt sich denn so was aus? Simon Denis Poisson (1781- 1840) Ausgedünnte Erfolge X binominal verteilt mit Erfolgsparameter p und n Versuchen Binominalverteilung Æ Poissonverteilung λ= E [ X ] = n p Legen wir eine Intensität λ fest ... Verdoppeln wir die Anzahl von Versuchen und halbieren die Erfolgswahrscheinlichkeit: ... und betrachten immer größer werdende Versuchsgrößen: X‘ ~ Bin(p/2,2n) Dann konvergiert: n =1,2,3, ... und dazugehörige pn= λ, λ\2, λ\3, .... ( pn = λ\n) E [ X‘ ] = n p = λ Wir erwarten wieder λ Erfolge, nur jetzt auf doppelt soviele Versuche aufgeteilt. Ausdünnen der Erfolge Machen wir weiter so ... ... wir teilen λ erwartete Erfolge auf immer mehr Versuche auf. Dazu müssen wir p auch im richtigen Verhältnis immer kleiner machen. Seltene Ereignisse Was betrachten wir für große n? Wir zählen Ereignisse: • die selten sind (pn klein) ... • ... unter vielen (n groß) ... • bei mittel großer Gesamthäufigkeit (λ=const.) Zusätzlich haben wir noch verlangt: • Das die Ereignisse unabhängig und gleich wahrscheinlich sind. • Das pn proportional zu 1/n ist. Also Xn ~ Bin( pn,n ) und Y ~ Poisson(λ): P [Xn=t] Æ P [ Y=t ] Für große n und entsprechend kleines p ist eine binominalverteilte Zufallsvariable einer poissonverteilten Zufallsvariablen ähnlich. Poissonapproximation Man muß sich nicht auf den Fall verdünnter binominal Verteilungen beschränken. Es gibt das allgemeine Prinzip der Poissonapproximation: Die Anzahl seltener Ereignisse ist annähernd poissonverteilt. Poissonapproximation Es gibt hunderte Lehrsätze in denen dieses Prinzip in speziellen Situationen nachgewiesen wurde. Die Konvergenz der Binonimalverteilung ist nur eines davon. Die Voraussetzungen: 1. Das die Ereignisse unabhängig und gleich wahrscheinlich sind. 2. Das pn proportional zu 1/n ist. braucht man nicht in voller Strenge. Es genügt in der Regel: 1‘: Das die Experimente nicht zu sehr abhängig sind. 2‘: Das p hinreichend klein ist im Vergleich zu n. Allgemeines Prinzip der Wahrscheinlichkeitstheorie Poissonapproximation Es genügt in der Regel: 1‘: Das die Experimente nicht zu sehr abhängig sind. 2‘: Das p hinreichend klein ist im Vergleich zu n. Das sind keine präzisen Auskünfte. Was ist zu abhängig und was ist hinreichend klein? Zum einen gibt es eine umfangreiche mathematische Literatur zu diesem Thema. Zum anderen kann man es anhand der Daten überprüfen, mehr dazu später. Mehr als nur ein Theorem: Das Prinzip: Seltene Ereignisse sind oft poissonverteilt ... Das Prinzip: Die Anzahl seltene Ereignisse sind poissonverteilt ... ... gehört zu den wichtigen Prinzipien der Wahrscheinlichkeitstheorie, wie auch - das Gesetz der großen Zahlen - der zentrale Grenzwertsatz (Normalapproximation, später in der Vorlesung) Es ist auch unter dem Namen: ... ist sehr allgemein und geht auch über mathematische Theorie hinaus. Man hat auch bei statistisch erhobenen Daten häufig Poissonverteilungen beobachtet, wenn seltene Ereignisse gezählt wurden. z.B. -Tote durch Hufschlag in preußischen Kavallerieregimenten. - Anzahl von Verkehrsunfällen in einem festen Zeitraum. Gesetz der kleinen Zahlen bekannt. ... und in der Bioinformatik? Häufige Konzepte mit selten Ereignissen in der Bioinformatik - Lange „Wörter“ im Genom - Die selbe Sequenz in zwei Genomen - Anzahl von Mutationen in einem langen DNA-Abschnitt. - Die Anzahl von Headruns ? Zurück zum Alignment Xi = 1 falls Zi × ... × Zi+r-1 = 1 Xi = 0 sonst. Xi zeigt an, ob in i ein Headrun beginnt, der mindestens r Positionen lang ist. Für r groß (lange Headruns) ist P [Xi=1] klein. Das Zählen von langen Headruns ist also ein Zählen von seltenen Ereignissen. Das ist schon mal gut im Hinblick auf eine Poissonapproximation. Die Xi sind aber nicht unabhängig, ... deswegen folgt die Poissonapproximation nicht automatisch. Vielleicht sind sie aber doch nicht zu abhängig. Simulation Antwort: Nein 500 i.i.d. (0-1) Sequenzen der Länge 1000 p=0.64 (für eine 1) Headruns mit mindest Länge 15 wurden gezählt. Die Wahrscheinlichkeit, daß an einer festen Position ein Headrun länger als 15 startet ist gleich pr=0.0012 (seltenes Ereignis) Intensität: λ = (0.64)15*1000 ≈ 1.2 Frage: Ist die Anzahl Headruns mit einer Mindestlänge von 15 poissonverteilt? Woran liegt das? Woran liegt das? Zi(ω): 0100100111010100111110101111111001010101010 Xi(ω): 0000000100000000111000001111000000000000000 Clumping Zi(ω): 0100100111010100111110101111111001010101010 Xi(ω): 0000000100000000111000001111000000000000000 Die entscheidende Sequenz sind die Xi Xi ist 1 falls in i ein Headrun länger als r startet (oben r=3) Das sind seltene Ereignisse Es fällt auf, daß die Einsen in der Sequenz gehäuft hinter einander auftreten P [ Xi+1=1 | Xi=1 ] =p Im Vergleich zur Randverteilung P[ Xi=1 ] = pr Die Abhängigkeit ist zu stark. Die Xi zeigen ein Clumping. Ein Headrun der Länge 6 führt zu gleich 4 Headruns der Mindestlänge 3. Die Headruns sind zwar seltene Ereignisse, wir zählen sie teilweise aber öfters als einmal. Startend mit Xi+1 gibt es auf alle Fälle bereits Einsen auf den r-1 nächsten Positionen. Zum Erfolg fehlt nur noch eine weitere Eins. Die Poissonapproximation ist fehlgeschlagen. Declumping Hilft Declumping bei der Poissonapproximation? Zi(ω): 0100100111010100111110101111111001010101010 Xi(ω): 0000000100000000111000001111000000000000000 Yi(ω): 0000000100000000100000001000000000000000000 Wir wollen jeden Headrun von 3 Einsen und mehr nur einmal zählen, auch wenn er 5 oder 10 Positionen lang ist. Für die Sequenz Zi wollen wir also 3 Headruns zählen und nicht 8. Wir wollen die Position i nur dann als Beginn eines Headruns zählen, wenn er auch wirklich dort beginnt ... und nicht schon früher. Definiere Y1=1 falls X1=1 Für i>1 definiere Yi=1 falls Xi=1 und Xi-1=0 W‘‘= ∑ Yi ist die Anzahl der Headrun-Clumps Den Übergang von Xi zu Yi nennt man Declumping Ja! Die Anzahl von Headrun Clumps ist in der Tat annähernd poissonverteilt. Zusammenfassung: - Bernoulliverteilung - Erfolgsparameter - Binominalverteilung - geometrische Verteilung - Randeffekten - Poissonverteilung - Intensität - seltene Ereignisse - Poissonapproximation - Headruns - Declumping - Large scale Effekt Erwartungswert der Summe von Zufallsvariablen Es gilt allgemein: E [ X + Y ] = E [ X ] + E [ Y ] E [ X ] := ∑i xi P [ X = xi ] = ∑i ∑ω:X(ω)=x ) xi P [ ω ] i = ∑ω X(ω) P[ ω ] E [ X + Y ] = ∑ω X+Y (ω) P [ ω ] = ∑ω ( X(ω) + Y(ω)) P [ ω ] = ∑ω X(ω) P [ ω ] +∑ω Y(ω) P [ ω ] = E[X]+E[Y]