Zufällige Proteine Proteine MEEPGAQCAPPPPAGSETWVPQANLSSA PSQNCSAKDYIYQDSISLPWKVLLVMLL ALITLATTLSNAFVIATVYRTRKLHTPA NYLIASLAVTDLLVSILVMPISTMYTVT GRWTLGQVVCDFWLSSDITCCTASILHL CVIALDRYWAITDAVEYSAKRTPKRAAV MIALVWVFSISISLPPFFWRQAKAEEEV SECVVNTDHILYTVYSTVGAFYFPTLLL IALYGRIYVEARSRILKQTPNRTGKRLT RAQLITDSPGSTSSVTSINSRVPDVPSE SGSPVYVNQVKVRVSDALLEKKKLMAAR ERKATKTLGIILGAFIVCWLPFFIISLV MPICKDACWFHLAIFDFFTWLGYLNSLI NPIIYTMSNEDFKQAFHKLIRFKCTS Proteine bestehen aus Aminosäuren. Diese haben unterschiedliche Eigenschaften ... Genomische Datenanalyse 4. Kapitel Aminosäure Häufigkeiten AA rel H‘keit % L H‘keit AA rel H‘keit % L H‘keit L 0.098 100 R 0.05 51.3 A 0.077 78.9 P 0.048 48.8 N 0.046 47.4 S 0.071 72.4 V 0.067 68.5 F 0.041 42.3 G 0.066 67.1 Q 0.041 41.9 E 0.063 64.9 Y 0.032 33.2 K 0.059 60.6 M 0.022 22.6 I 0.059 60.6 H 0.022 22.4 T 0.057 58.1 C 0.014 14.8 D 0.054 55.1 W 0.013 13 ... und kommen auch unterschiedlich häufig in Proteinen vor. AA L Zufallszahl : 0.732 rel H‘keit 0.098 A 0.077 S 0.071 V 0.067 G 0.066 E 0.063 K 0.059 I 0.059 T 0.057 D 0.054 R 0.05 P 0.048 N 0.046 F 0.041 Q 0.041 Y 0.032 M 0.022 H 0.022 C 0.014 W 0.013 0 L A S V G E K I T D R P N F Q YMHCW1 Zufallsaminosäure: D Zufalls-Hydro-Wert: -3.5 Zufallszahl : 0.732 0 L A S V G E K I T D R P N F Dreistufiges Zufallsexperiment 1 1. Zunächst produziert der Computer eine Zufallszahl. Diese ist das Elementarereignis. 2. Im zweiten Schritt wird der Zufallszahl eine Aminosäure zugeordnet. Und zwar so, daß häufige Aminosäuren eine höhere Wahrscheinlichkeit haben. Q YMHCW Zufallsaminosäure: D Zufalls-Hydro-Wert: -3.5 3. Diese wird in einen Hydrophobizitäts-wert umgewandelt. Also in eine diskrete numerische Größe. Realisation einer Zufallsvariablen Wenn man das Zufallsexperiment ausgeführt hat, dann kennt man auch den Wert der Zufallsvariablen genau: z.B. X(ω)= -3.5. Also: X(ω) ist eine feste reelle Zahl. Führt man das Experiment nochmal durch, so erhält man ein anderes Elementarereignis ω0 und damit auch einen neuen Wert für die Zufallsvariable X(ω0)= 4.2. Man nennt X(ω) eine Realisation der Zufallsvariablen X. Man macht sich keine Gedanken darüber, was das Elementarereignis wirklich ist. Schreibt man X(ω), so heißt das soviel wie: Das Zufallsexperiment wurde ausgeführt und dadurch hat X einen zufälligen Wert erhalten. Zufallsvariablen Numerische Größen, die von einem Zufallsexperiment abhängen, nennt man Zufallsvariablen. Können sie nur endlich viele Werte annehmen, so nennt man sie diskret. Das zugrunde liegende Elementarereignis bezeichnen wir mit ω, in unserem Fall die Zufallszahl aus dem Computer. Die Zufallsvariablen selbst bezeichnen wir mit großen lateinischen Buchstaben vom Ende des Alphabets: X, Y, X1, X2, ... Vor dem Zufallsexperiment Nach dem Zufallsexperiment X(ω) beschreibt unseren Wissensstand nach Ausführung des Zufallsexperiments. Nach dem Experiment ist aber alles klar. Man kennt den Wert von X(ω). Er ist eine reelle Zahl, die jetzt bekannt ist. Ungewißheit gibt es nicht mehr. Was ist aber vor der Ausführung des Experiments? Können wir etwas über X aussagen? Einen Wert können wir X noch nicht zuordnen, dazu muß der Computer ja zunächst eine Zufallszahl erzeugen. Wissen vor dem Zufallsexperiment Trotzdem wissen wir schon etwas über X: Wir wissen, daß X = 3.8 von der zufälligen Aminosäure L stammen muß, und daß X = - 0.9 von der Aminosäure W stammen muß. L ist die häufigste Aminosäure und W die seltenste. Das Experiment wurde so angelegt, daß das W-Intervall nur 13% der Länge des L-Intervalls aufweist. 0 L A S V G E K I T D R P N F 1 Q YMHCW Aussagen vor dem Experiment 0 L AA A S V G E K rel H‘keit Hydro 3.8 I T D p L 0.098 0.098 A 0.077 1.8 S 0.071 -0.8 0.071 V 0.067 4.2 0.067 0.066 G 0.066 -0.4 E 0.063 -3.5 0.241 K 0.059 -3.9 0.059 I 0.059 4.5 0.059 0.057 T 0.057 -0.7 D 0.054 -3.5 R 0.05 -4.5 0.05 P 0.048 -1.6 0.048 N 0.046 -3.5 F 0.041 2.8 Q 0.041 -3.5 0.032 -1.3 0.032 0.022 1.9 0.022 Diese Aussage kann man schon vor Ausführung des Experiments treffen. H 0.022 -3.2 0.022 C 0.014 2.5 0.0.14 W 0.013 -0.9 0.013 P[X=x1] = p1 ,..., P[X=x17] = p17. Wissensstand nach dem Experiment kann als feste Zahl ausgedrückt werden: X(ω)=3.5. Es gibt keine Ungewißheit mehr. Es ist im allgemeinen nicht wichtig, was ω ist. Man benutzt es eher um deutlich zu machen, daß man den Ausgang des Experiments bereits kennt. 2. Die Wahrscheinlichkeit das X=x (wobei x für eine reelle Zahl steht) ist null, falls x keiner der Hydrowerte ist und ist gleich der Summe der Länge der Intervalle, die für Aminosäuren mit Hydrowert x stehen. 3. Also P[X= -3.5]= 1 Q YMHCW 0.063+0.054+0.046+0.041=0.241 P[X= -1.3]=0.032 4. Legt man eine Reihenfolge für die möglichen Ausgänge fest (x1,...,x17), dann kann man die Wahrscheinlichkeiten für alle möglichen Ausgänge in einem Vektor p=(p1,...,p17) ausdrücken. 5. p ist die Verteilung von X. 0.041 M kann als Verteilung ausgedrückt werden: X~p wobei p=(0.098,0.077,0.071, ...., 0.013). Zu lesen ist das als: N F P[X=5.1]=0 Y Wissensstand vor dem Experiment P X kann 17 verschiedene Werte annehmen. Es gibt zwar 20 Aminosäuren, aber (E,D,N,Q) haben alle den Hydrowert –3.5 0.077 Also ist X = 3.8 ca. 7.7 mal wahrscheinlicher als X = -0.9 Vor dem Zufallsexperiment Nach dem Zufallsexperiment R 1. Verteilung einer Zufallsvariablen Bisher sind wir von einem Zufallsexperiment ausgegangen, und haben daraus die Verteilung einer Zufallsvariablen abgeleitet. Im Allgemeinen geht man eher umgekehrt vor: Man definiert eine Verteilung p ( einen Vektor, der sich zu eins summiert ) und weist ihn einer Zufallsvariablen zu. Man schreibt einfach X~p (sprich: X ist p-verteilt). Genauso, wie man bei einer normalen reellen Variable x:=3 schreiben würde um anzuzeigen, daß man x auf den Wert 3 gesetzt hat, schreibt man jetzt X~p, und sagt damit, daß man der Zufallsvariablen X die Verteilung p zuweist. Was bedeutet X~p? Gleichverteilung Eine Zuweisung X~p kann in unterschiedlichen Zusammenhängen geschehen: Hat man n mögliche Ausgänge, und sieht sie alle als gleich wahrscheinlich an, also: p=( 1/n,...,1/n ) , Wie bereits gesehen im Zusammenhang mit Zufallsexperimenten ... ... aber auch in einem Satz wie : „Die Regenwahrscheinlichkeit beträgt heute 20%“ ... ... oder ... dann sagt man auch: „Wie gut glauben Sie, in der Statistik-Klausur abzuschneiden? A: 10%, B: 40%, C: 30%, D: 10%, E: 5%, F: 5%“ ... X ist gleichverteilt. ... oder ... „Die Wahrscheinlichkeit, daß eine gegebene (nicht zufällige) Sequenz ein CpG Island ist, ist doppelt so groß wie die, daß sie es nicht ist.“ Gemisch aus Information und Ungewißheit Es gibt eine auffallende Gemeinsamkeit zwischen den Aussagen und dem zuvor besprochenen Zufallsexperiment: In beiden Fällen wird ein Gemisch aus Information und Ungewißheit ausgedrückt: 1. Man erwartet den Hydrowert 3.8 eher als –0.9, hält aber beides für möglich. 2. Man geht eher davon aus, daß es nicht regnen wird, ist sich aber auch nicht sicher. 3. Man geht davon aus, die Klausur zu bestehen, hält sich nicht für einen A Kandidaten , sondern erwartet eher ein B oder C, aber auch hier will man nichts ausschließen. Alle Aussagen sind von der Form X~p. Die Verteilung p Ein Gemisch von Information und Ungewißheit drückt man in einer Verteilung p aus. 1. Es regnet oder es regnet nicht : Die Wahrscheinlichkeiten sind 20% und 80%, also p = (0.2,0.8) 2. Bei der Klausur: p = (0.1, 0.4, 0.3, 0.1, 0.05, 0.05) 3. Bei der Sequenz: p=(1/3,2/3) Das Experiment, das zu p gehört Wir definieren: X~p, wobei p=(p1,...,pn) mit ∑ pi = 1 Dazu können wir ein passendes Zufallsexperiment konstruieren: Das Als-Ob-Prinzip Natürlich entscheidet dieses Zufallsexperiment weder über das Wetter noch über die Klausur. 2. Sie haben Wahrscheinlichkeiten pi Es beschreibt aber unseren momentanen Wissensstand über diese Ereignisse adäquat. Unterteile das Intervall [0,1] in n Teilintervalle mit den Längen pi und verfahre wie zuvor. Wir betrachten reale Variablen (Wetter, Klausur), als ob sie Zufallsvariablen wären. 1. Es gibt n mögliche Ausgänge 1 2 ... n Ungewißheit in der Bioinformatik Ungewisser Regen Es regnet mit einer Wahrscheinlichkeit von 20% Das bedeutet: Mein Wissensstand über das heutige Wetter ist gleich dem über den Ausgang des folgenden Zufallsexperiments: 0 0.2 X ∼ (0.2, 0.8) Die Wahrscheinlichkeit, daß die untersuchte Sequenz ein CpG Island ist, ist doppelt so groß wie die, daß sie keines ist. Das bedeutet: Unser Wissensstand darüber, ob die Sequenz ein CpG Island ist, ist gleich dem über den Ausgang dieses Experiments: 1 0 1/3 Oder kürzer: X~(1/3,2/3) 1 Verteilungsfunktion Es gibt zwei gleichwertige Darstellungen der Verteilung p Verteilungsvektor, Kumulative Summe & Verteilungsfunktion 1. Den Verteilungsvektor: p = ( p1,...,pn ) Es ist gleichgültig ob man eine Verteilung über den Verteilungsvektor, die kumulative Summe oder die Verteilungsfunktion definiert. 2. Die kumulativen Summen: Umrechnungsformeln: c = ( p1, p1+p2, ..., p1+...+pn) X~c, oder Fn (x) = P[ X · x] X~Fn. Es gilt: Wahrscheinlichkeitsplot & Fn-Plot X~p, oder oder allgemeiner die Verteilungsfunktion: pi = P [ X = xi ] und ci = P[ X · xi] Man schreibt: wobei i* der größte Wert i ist für den xi < x gilt. Verteilung von Daten und Verteilung von Zufallsvariablen Numerischer Datensatz - Relative Häufigkeit ri: Es gilt ∑ ri =1, und die Verteilung der Daten ist durch ( r1,...,rn ) vollständig beschrieben. Zufallsvariable - Wahrscheinlichkeit pi: Eine diskrete Verteilung p kann als Wahrscheinlichkeitsplot dargestellt werden ... ... oder als Fn-Plot. Es gilt ∑ pi=1, und die Verteilung der Zufallsvariablen ist durch ( p1,...,pn ) vollständig beschrieben. Die Höhe der vertikalen Sprünge entspricht der Höhe der entsprechenden Linie im Wahrscheinlichkeitsplot. Den relativen Häufigkeiten der Daten entsprechen die Wahrscheinlichkeiten der Verteilung. Visualisierung von Daten und Zufallsvariablen Das Histogramm stellt die Verteilung der Daten dar und der Wahrscheinlichkeitsplot die Verteilung der Zufallsvariablen. Und die empirische Verteilungsfunktion der Daten ist in Analogie zur Verteilungsfunktion der Zufallsvariablen. Erwartungswert Wir wollen auch für Zufallsvariablen ein analoges Lagemaß definieren. Wir lassen uns dabei von der Analogie .... Relative Häufigkeiten --- Wahrscheinlichkeiten .... leiten. In Analogie definieren wir für eine Zufallsvariable X~p ihren Erwartungswert E [ X ] Verteilungen und Meßzahlen Wir haben bei den Zur Erinnerung: Verteilungen von Daten festgestellt, daß es hilfreich ist diese mit Hilfe von Meßzahlen, die Lage und Streuung beschreiben, zusammenzufassen. Varianz einer Zufallsvariablen Die Varianz eines numerischen Datensatzes ist der mittlere quadratische Abstand der Datenpunkte zu ihrem Mittelwert. Für Zufallsvariablen definieren wir die Varianz als den erwarteten quadratischen Abstand der Zufallsvariablen zu ihrem Erwartungswert: ... und ihre Standardabweichung als deren Wurzel Bester Tip & erwarteter Fehler Beispiel Wie die Verteilung beziehen sich auch Erwartungswert und Varianz auf den Wissensstand vor einem Experiment. Müßten wir den Ausgang des Experiments erraten und möchten dabei verhindern, weit neben dem Ausgang des Experiments zu liegen (gemessen als quadratischer Fehler), dann ist E[X] der beste Tip. Wir wissen aber, daß wir mit dem Tip daneben liegen können, Var (x) beschreibt den erwarteten Fehler. Auch wenn man E[X] und Var(X) schreibt, so ist die Varianz weniger eine Eigenschaft der Zufallsvariablen sondern eine Eigenschaft ihrer Verteilung. Hydrophobizitäts-Beispiel: Zufallsvariable Analogie der Begriffswelt für Daten und Zufallsvariablen Die Verteilung einer Zufallsvariable definiert ein Experiment. Führt man das Experiment 100 mal durch, erhält man einen simulierten Datensatz. Die Zufallsvariable besitzt eine Verteilung und die simulierten Daten besitzen eine Verteilung, die Zufallsvariable besitzt einen Erwartungswert und eine Varianz, die simulierten Daten besitzen einen Mittelwert und eine („empirische“) Varianz. Was haben diese Verteilungen und Maßzahlen miteinander zu tun? AA rel H‘keit Hydro p L 0.098 3.8 0.098 A 0.077 1.8 0.077 S 0.071 -0.8 0.071 V 0.067 4.2 0.067 G 0.066 -0.4 0.066 .... Wir können den Erwartungswert berechnen als: E[X] = 3.8*0.098 +....+ -0.9*0.013 = - 0.243 und Var[X] = 9.37 und der Wahrscheinlichkeitsplot ist: Hydrophobizitäts-Beispiel: Experiment Das Ganze nochmal Wir simulieren 1000 neue Hydrowerte Diesmal: L A S V G E K I T D R P N F 0 Q YMHCW 1 Histogramm W-Plot Wir haben 1000 mal das Experiment durchgeführt. Mittelwert = –2.47 (E[X] = -2.43) Mittelwert = –2.57 (zuvor –2.47) und E[X] = -2.43 Emp. Varianz = 9.43 (zuvor 9.33) und Var[X]=9.37 Das Histogramm zuvor der W-Plot Emp. Varianz = 9.33 (Var[X] = 9.37) Beobachtungen Und noch 16 mal! W-Plot 1. Die arithmetischen Mittel der simulierten Daten sind nicht gleich dem Erwartungswert. Sie ändern sich auch von einem Simulationslauf zum nächsten. 2. Aber sie liegen alle in der Nähe des Erwartungswerts. 3. Sie streuen um den Erwartungswert. 4. Das gleiche gilt für die Varianzen ... die Varianz der simulierten Daten streut um die Varianz der zugrunde liegenden Zufallsvariable. Mehr Beobachtungen 1. Die Verteilung simulierter Daten ist in etwa gleich der Verteilung der zugrunde liegenden Zufallsvariablen. 2. Bei den Simulation spielt der Zufall eine Rolle, trotzdem sind die Ergebnisse der einzelnen Versuchsreihen nicht völlig zufällig. Sie sind sich untereinander ähnlich, und sie ähneln der Verteilung der Zufallsvariablen. Hydrophobizität im CannabinoidRezeptor und in einer Zufallssequenz Transmembransegmente CannabinoidRezeptor Zufällig hydrophober Bereich X1(ω),...,X472(ω) E[X] = –0.24 Die grüne Linie weist auch Peaks auf. Diese sind aber nicht so hoch. Ist das Zufall? Mehrdeutiger Sprachgebrauch Wir unterscheiden sprachlich zwischen dem Mittelwert (Daten) und dem Erwartungswert (Zufallsvariable). Bei der Varianz, der Standardabweichung und der Verteilung sind wir weniger vorsichtig bei der Wortwahl. Wenn Mißverständnisse zu vermeiden sind, muß man deutlich sagen, wovon man spricht: • Bei Daten spricht man dann von empirischer Varianz und empirischer Verteilung • Bei Zufallsvariablen spricht man dann von theoretische Varianz und theoretische Verteilung Zwei andere zufällige Sequenzen 10 weitere 100 zufällige Sequenzen Diese Peaks wurde von keiner der hundert zufälligen Sequenzen überschritten. Dieser von genau einer Sequenz aus hundert. Dieser schon einige Male Signifikanz Hier haben wir eine Zufallsvariable verwendet, um die Signifikanz einer Beobachtung zu bestimmen. Beobachtung: Hydrophobe Bereiche in der Sequenz des Cannabinoid-Rezeptors. Zufallsvariable: Maximale Hydrophobizität in einer geeigneten zufälligen Sequenz gleicher Länge. Signifikanz: Nur wenige (keine) zufällige Sequenzen weisen eine vergleichbare lokale Anhäufung hydrophober Aminosäuren auf. Signifikanz Wenn wir von der Signifikanz einer Beobachtung sprechen, dann meinen wir, daß sie nicht nur eine Laune des Zufalls ist. Bei dem, was Zufall ist, haben wir dabei eine recht genaue Vorstellung. Und zwar in Form von einer oder mehrerer Zufallsvariablen, deren Verteilungen wir von vorne herein festlegen. Signifikanz ist also immer Signifikanz mit Bezug auf ein Zufallsexperiment . Alles-Nur-Das-Nicht-Prinzip Zusammenfassung: Hat man ein Zufallsexperiment festgelegt, dann bedeutet Signifikanz, daß die Beobachtung nicht aus diesem Experiment stammt. - Zufallsvariable Dabei bleibt auch immer ein Rest Ungewißheit. In der Simulation läßt sich die Ungewißheit quantifizieren: - Realisierung - Verteilung (Daten, Zufallsvariable) - Dichteplot - Verteilungsfunktion - keinmal in 100 Simulationen - Erwartungswert - zweimal in 100 Simulationen etc.) - Varianz (Daten, Zufallsvariable) Signifikanz bedeutet: Die Beobachtung kann alles sein, aber kein Zufall: - Signifikanz Das Alles-Nur-Das-Nicht-Prinzip