Proteine Aminosäure Häufigkeiten

Werbung
Zufällige Proteine
Proteine
MEEPGAQCAPPPPAGSETWVPQANLSSA
PSQNCSAKDYIYQDSISLPWKVLLVMLL
ALITLATTLSNAFVIATVYRTRKLHTPA
NYLIASLAVTDLLVSILVMPISTMYTVT
GRWTLGQVVCDFWLSSDITCCTASILHL
CVIALDRYWAITDAVEYSAKRTPKRAAV
MIALVWVFSISISLPPFFWRQAKAEEEV
SECVVNTDHILYTVYSTVGAFYFPTLLL
IALYGRIYVEARSRILKQTPNRTGKRLT
RAQLITDSPGSTSSVTSINSRVPDVPSE
SGSPVYVNQVKVRVSDALLEKKKLMAAR
ERKATKTLGIILGAFIVCWLPFFIISLV
MPICKDACWFHLAIFDFFTWLGYLNSLI
NPIIYTMSNEDFKQAFHKLIRFKCTS
Proteine bestehen aus
Aminosäuren. Diese haben
unterschiedliche Eigenschaften ...
Genomische Datenanalyse
4. Kapitel
Aminosäure Häufigkeiten
AA
rel H‘keit
% L H‘keit
AA
rel H‘keit
% L H‘keit
L
0.098
100
R
0.05
51.3
A
0.077
78.9
P
0.048
48.8
N
0.046
47.4
S
0.071
72.4
V
0.067
68.5
F
0.041
42.3
G
0.066
67.1
Q
0.041
41.9
E
0.063
64.9
Y
0.032
33.2
K
0.059
60.6
M
0.022
22.6
I
0.059
60.6
H
0.022
22.4
T
0.057
58.1
C
0.014
14.8
D
0.054
55.1
W
0.013
13
... und kommen auch unterschiedlich häufig in
Proteinen vor.
AA
L
Zufallszahl : 0.732
rel H‘keit
0.098
A
0.077
S
0.071
V
0.067
G
0.066
E
0.063
K
0.059
I
0.059
T
0.057
D
0.054
R
0.05
P
0.048
N
0.046
F
0.041
Q
0.041
Y
0.032
M
0.022
H
0.022
C
0.014
W
0.013
0
L
A
S
V
G
E
K
I
T
D
R
P
N F
Q YMHCW1
Zufallsaminosäure: D
Zufalls-Hydro-Wert: -3.5
Zufallszahl : 0.732
0
L
A
S
V
G
E
K
I
T
D
R
P
N F
Dreistufiges
Zufallsexperiment
1
1.
Zunächst produziert der
Computer eine
Zufallszahl. Diese ist
das Elementarereignis.
2.
Im zweiten Schritt wird
der Zufallszahl eine
Aminosäure
zugeordnet. Und zwar
so, daß häufige
Aminosäuren eine
höhere
Wahrscheinlichkeit
haben.
Q YMHCW
Zufallsaminosäure: D
Zufalls-Hydro-Wert: -3.5
3.
Diese wird in einen
Hydrophobizitäts-wert
umgewandelt. Also in
eine diskrete
numerische Größe.
Realisation einer Zufallsvariablen
Wenn man das Zufallsexperiment ausgeführt hat, dann
kennt man auch den Wert der Zufallsvariablen genau:
z.B. X(ω)= -3.5. Also: X(ω) ist eine feste reelle Zahl.
Führt man das Experiment nochmal durch, so erhält
man ein anderes Elementarereignis ω0 und damit auch
einen neuen Wert für die Zufallsvariable X(ω0)= 4.2.
Man nennt X(ω) eine Realisation der Zufallsvariablen X.
Man macht sich keine Gedanken darüber, was das
Elementarereignis wirklich ist. Schreibt man X(ω), so
heißt das soviel wie: Das Zufallsexperiment wurde
ausgeführt und dadurch hat X einen zufälligen Wert
erhalten.
Zufallsvariablen
Numerische Größen, die von einem
Zufallsexperiment abhängen, nennt man
Zufallsvariablen.
Können sie nur endlich viele Werte annehmen, so
nennt man sie diskret.
Das zugrunde liegende Elementarereignis
bezeichnen wir mit ω, in unserem Fall die Zufallszahl
aus dem Computer.
Die Zufallsvariablen selbst bezeichnen wir mit
großen lateinischen Buchstaben vom Ende des
Alphabets: X, Y, X1, X2, ...
Vor dem Zufallsexperiment
Nach dem Zufallsexperiment
X(ω) beschreibt unseren Wissensstand nach
Ausführung des Zufallsexperiments.
Nach dem Experiment ist aber alles klar. Man kennt
den Wert von X(ω). Er ist eine reelle Zahl, die jetzt
bekannt ist. Ungewißheit gibt es nicht mehr.
Was ist aber vor der Ausführung des Experiments?
Können wir etwas über X aussagen?
Einen Wert können wir X noch nicht zuordnen, dazu
muß der Computer ja zunächst eine Zufallszahl
erzeugen.
Wissen vor dem
Zufallsexperiment
Trotzdem wissen wir schon etwas über X: Wir wissen, daß X = 3.8
von der zufälligen Aminosäure L stammen muß, und daß X = - 0.9
von der Aminosäure W stammen muß.
L ist die häufigste Aminosäure und W die seltenste. Das
Experiment wurde so angelegt, daß das W-Intervall nur 13% der
Länge des L-Intervalls aufweist.
0
L
A
S
V
G
E
K
I
T
D
R
P N
F
1
Q YMHCW
Aussagen vor dem Experiment
0
L
AA
A
S
V
G
E
K
rel H‘keit Hydro
3.8
I
T
D
p
L
0.098
0.098
A
0.077
1.8
S
0.071
-0.8
0.071
V
0.067
4.2
0.067
0.066
G
0.066
-0.4
E
0.063
-3.5
0.241
K
0.059
-3.9
0.059
I
0.059
4.5
0.059
0.057
T
0.057
-0.7
D
0.054
-3.5
R
0.05
-4.5
0.05
P
0.048
-1.6
0.048
N
0.046
-3.5
F
0.041
2.8
Q
0.041
-3.5
0.032
-1.3
0.032
0.022
1.9
0.022
Diese Aussage kann man schon vor Ausführung des
Experiments treffen.
H
0.022
-3.2
0.022
C
0.014
2.5
0.0.14
W
0.013
-0.9
0.013
P[X=x1] = p1 ,..., P[X=x17] = p17.
Wissensstand nach dem Experiment
kann als feste Zahl ausgedrückt werden: X(ω)=3.5.
Es gibt keine Ungewißheit mehr.
Es ist im allgemeinen nicht wichtig, was ω ist. Man benutzt es eher
um deutlich zu machen, daß man den Ausgang des Experiments
bereits kennt.
2.
Die Wahrscheinlichkeit das X=x
(wobei x für eine reelle Zahl steht) ist
null, falls x keiner der Hydrowerte ist
und ist gleich der Summe der Länge
der Intervalle, die für Aminosäuren mit
Hydrowert x stehen.
3.
Also P[X= -3.5]=
1
Q YMHCW
0.063+0.054+0.046+0.041=0.241
P[X= -1.3]=0.032
4.
Legt man eine Reihenfolge für die
möglichen Ausgänge fest (x1,...,x17),
dann kann man die
Wahrscheinlichkeiten für alle
möglichen Ausgänge in einem Vektor
p=(p1,...,p17) ausdrücken.
5.
p ist die Verteilung von X.
0.041
M
kann als Verteilung ausgedrückt werden: X~p wobei
p=(0.098,0.077,0.071, ...., 0.013). Zu lesen ist das als:
N F
P[X=5.1]=0
Y
Wissensstand vor dem Experiment
P
X kann 17 verschiedene Werte
annehmen. Es gibt zwar 20
Aminosäuren, aber (E,D,N,Q) haben
alle den Hydrowert –3.5
0.077
Also ist X = 3.8 ca. 7.7 mal wahrscheinlicher als X = -0.9
Vor dem Zufallsexperiment
Nach dem Zufallsexperiment
R
1.
Verteilung einer
Zufallsvariablen
Bisher sind wir von einem Zufallsexperiment ausgegangen,
und haben daraus die Verteilung einer Zufallsvariablen
abgeleitet.
Im Allgemeinen geht man eher umgekehrt vor:
Man definiert eine Verteilung p ( einen Vektor, der sich zu eins
summiert ) und weist ihn einer Zufallsvariablen zu. Man
schreibt einfach X~p (sprich: X ist p-verteilt).
Genauso, wie man bei einer normalen reellen Variable x:=3
schreiben würde um anzuzeigen, daß man x auf den Wert 3
gesetzt hat, schreibt man jetzt X~p, und sagt damit, daß man
der Zufallsvariablen X die Verteilung p zuweist.
Was bedeutet X~p?
Gleichverteilung
Eine Zuweisung X~p kann in unterschiedlichen
Zusammenhängen geschehen:
Hat man n mögliche Ausgänge, und sieht sie
alle als gleich wahrscheinlich an,
also:
p=( 1/n,...,1/n ) ,
Wie bereits gesehen im Zusammenhang mit Zufallsexperimenten
...
... aber auch in einem Satz wie :
„Die Regenwahrscheinlichkeit beträgt heute 20%“ ...
... oder ...
dann sagt man auch:
„Wie gut glauben Sie, in der Statistik-Klausur abzuschneiden? A:
10%, B: 40%, C: 30%, D: 10%, E: 5%, F: 5%“ ...
X ist gleichverteilt.
... oder ...
„Die Wahrscheinlichkeit, daß eine gegebene (nicht zufällige)
Sequenz ein CpG Island ist, ist doppelt so groß wie die, daß sie es
nicht ist.“
Gemisch aus Information
und Ungewißheit
Es gibt eine auffallende Gemeinsamkeit zwischen den Aussagen und dem
zuvor besprochenen Zufallsexperiment:
In beiden Fällen wird ein Gemisch aus Information und Ungewißheit
ausgedrückt:
1.
Man erwartet den Hydrowert 3.8 eher als –0.9, hält aber beides für
möglich.
2.
Man geht eher davon aus, daß es nicht regnen wird, ist sich aber auch
nicht sicher.
3.
Man geht davon aus, die Klausur zu bestehen, hält sich nicht für einen A
Kandidaten , sondern erwartet eher ein B oder C, aber auch hier will man
nichts ausschließen.
Alle Aussagen sind von der Form X~p.
Die Verteilung p
Ein Gemisch von Information und Ungewißheit drückt man
in einer Verteilung p aus.
1. Es regnet oder es regnet nicht : Die
Wahrscheinlichkeiten sind 20% und 80%, also
p = (0.2,0.8)
2. Bei der Klausur:
p = (0.1, 0.4, 0.3, 0.1, 0.05, 0.05)
3. Bei der Sequenz:
p=(1/3,2/3)
Das Experiment,
das zu p gehört
Wir definieren:
X~p, wobei p=(p1,...,pn) mit ∑ pi = 1
Dazu können wir ein passendes Zufallsexperiment
konstruieren:
Das Als-Ob-Prinzip
Natürlich entscheidet dieses
Zufallsexperiment weder über das Wetter
noch über die Klausur.
2. Sie haben Wahrscheinlichkeiten pi
Es beschreibt aber unseren momentanen
Wissensstand über diese Ereignisse
adäquat.
Unterteile das Intervall [0,1] in n Teilintervalle mit den
Längen pi und verfahre wie zuvor.
Wir betrachten reale Variablen (Wetter,
Klausur), als ob sie Zufallsvariablen wären.
1. Es gibt n mögliche Ausgänge
1
2
...
n
Ungewißheit in der
Bioinformatik
Ungewisser Regen
Es regnet mit einer Wahrscheinlichkeit von 20%
Das bedeutet:
Mein Wissensstand über das heutige Wetter ist
gleich dem über den Ausgang des folgenden
Zufallsexperiments:
0
0.2
X ∼ (0.2, 0.8)
Die Wahrscheinlichkeit, daß die untersuchte
Sequenz ein CpG Island ist, ist doppelt so groß wie
die, daß sie keines ist.
Das bedeutet:
Unser Wissensstand darüber, ob die Sequenz ein
CpG Island ist, ist gleich dem über den Ausgang
dieses Experiments:
1
0
1/3
Oder kürzer: X~(1/3,2/3)
1
Verteilungsfunktion
Es gibt zwei gleichwertige Darstellungen der
Verteilung p
Verteilungsvektor, Kumulative
Summe & Verteilungsfunktion
1. Den Verteilungsvektor: p = ( p1,...,pn )
Es ist gleichgültig ob man eine Verteilung über
den Verteilungsvektor, die kumulative Summe
oder die Verteilungsfunktion definiert.
2. Die kumulativen Summen:
Umrechnungsformeln:
c = ( p1, p1+p2, ..., p1+...+pn)
X~c,
oder
Fn (x) = P[ X · x]
X~Fn.
Es gilt:
Wahrscheinlichkeitsplot
& Fn-Plot
X~p,
oder
oder allgemeiner die Verteilungsfunktion:
pi = P [ X = xi ] und ci = P[ X · xi]
Man schreibt:
wobei i* der größte Wert i ist
für den xi < x gilt.
Verteilung von Daten und
Verteilung von
Zufallsvariablen
Numerischer Datensatz - Relative Häufigkeit ri:
Es gilt ∑ ri =1, und die Verteilung der Daten ist durch
( r1,...,rn ) vollständig beschrieben.
Zufallsvariable - Wahrscheinlichkeit pi:
Eine diskrete Verteilung
p kann als
Wahrscheinlichkeitsplot
dargestellt werden ...
... oder als Fn-Plot.
Es gilt ∑ pi=1, und die Verteilung der Zufallsvariablen
ist durch ( p1,...,pn ) vollständig beschrieben.
Die Höhe der vertikalen Sprünge
entspricht der Höhe der
entsprechenden Linie im
Wahrscheinlichkeitsplot.
Den relativen Häufigkeiten der Daten entsprechen
die Wahrscheinlichkeiten der Verteilung.
Visualisierung von Daten
und Zufallsvariablen
Das Histogramm stellt die
Verteilung der Daten dar
und der
Wahrscheinlichkeitsplot
die Verteilung der
Zufallsvariablen.
Und die empirische
Verteilungsfunktion
der Daten ist in
Analogie zur
Verteilungsfunktion
der Zufallsvariablen.
Erwartungswert
Wir wollen auch für Zufallsvariablen ein analoges Lagemaß
definieren. Wir lassen uns dabei von der Analogie ....
Relative Häufigkeiten --- Wahrscheinlichkeiten
.... leiten.
In Analogie definieren wir für
eine Zufallsvariable X~p ihren
Erwartungswert E [ X ]
Verteilungen und Meßzahlen
Wir haben bei den
Zur Erinnerung:
Verteilungen von
Daten festgestellt,
daß es hilfreich ist
diese mit Hilfe von
Meßzahlen, die
Lage und Streuung
beschreiben,
zusammenzufassen.
Varianz einer
Zufallsvariablen
Die Varianz eines numerischen Datensatzes ist der
mittlere quadratische Abstand der Datenpunkte zu
ihrem Mittelwert.
Für Zufallsvariablen definieren wir die Varianz als
den erwarteten quadratischen Abstand der
Zufallsvariablen zu ihrem Erwartungswert:
... und ihre Standardabweichung als deren Wurzel
Bester Tip &
erwarteter Fehler
Beispiel
Wie die Verteilung beziehen sich auch Erwartungswert
und Varianz auf den Wissensstand vor einem
Experiment.
Müßten wir den Ausgang des Experiments erraten und
möchten dabei verhindern, weit neben dem Ausgang des
Experiments zu liegen (gemessen als quadratischer
Fehler), dann ist E[X] der beste Tip. Wir wissen aber, daß
wir mit dem Tip daneben liegen können, Var (x)
beschreibt den erwarteten Fehler.
Auch wenn man E[X] und Var(X) schreibt, so ist die
Varianz weniger eine Eigenschaft der Zufallsvariablen
sondern eine Eigenschaft ihrer Verteilung.
Hydrophobizitäts-Beispiel:
Zufallsvariable
Analogie der Begriffswelt für
Daten und Zufallsvariablen
Die Verteilung einer Zufallsvariable definiert ein
Experiment. Führt man das Experiment 100 mal durch,
erhält man einen simulierten Datensatz.
Die Zufallsvariable besitzt eine Verteilung und die
simulierten Daten besitzen eine Verteilung, die
Zufallsvariable besitzt einen Erwartungswert und eine
Varianz, die simulierten Daten besitzen einen
Mittelwert und eine („empirische“) Varianz.
Was haben diese Verteilungen und Maßzahlen
miteinander zu tun?
AA
rel H‘keit Hydro
p
L
0.098
3.8
0.098
A
0.077
1.8
0.077
S
0.071
-0.8
0.071
V
0.067
4.2
0.067
G
0.066
-0.4
0.066
....
Wir können den Erwartungswert
berechnen als:
E[X] = 3.8*0.098 +....+ -0.9*0.013
= - 0.243
und Var[X] = 9.37
und der Wahrscheinlichkeitsplot
ist:
Hydrophobizitäts-Beispiel:
Experiment
Das Ganze nochmal
Wir simulieren 1000 neue Hydrowerte
Diesmal:
L
A
S
V
G
E
K
I
T
D
R
P
N F
0
Q YMHCW
1
Histogramm
W-Plot
Wir haben 1000 mal
das Experiment
durchgeführt.
Mittelwert = –2.47
(E[X] = -2.43)
Mittelwert = –2.57 (zuvor –2.47) und E[X] = -2.43
Emp. Varianz = 9.43 (zuvor 9.33) und Var[X]=9.37
Das Histogramm
zuvor
der W-Plot
Emp. Varianz = 9.33
(Var[X] = 9.37)
Beobachtungen
Und noch 16 mal!
W-Plot
1. Die arithmetischen Mittel der simulierten Daten
sind nicht gleich dem Erwartungswert. Sie
ändern sich auch von einem Simulationslauf zum
nächsten.
2. Aber sie liegen alle in der Nähe des
Erwartungswerts.
3. Sie streuen um den Erwartungswert.
4. Das gleiche gilt für die Varianzen ... die Varianz
der simulierten Daten streut um die Varianz der
zugrunde liegenden Zufallsvariable.
Mehr Beobachtungen
1. Die Verteilung simulierter
Daten ist in etwa gleich der
Verteilung der zugrunde
liegenden Zufallsvariablen.
2. Bei den Simulation spielt
der Zufall eine Rolle,
trotzdem sind die
Ergebnisse der einzelnen
Versuchsreihen nicht völlig
zufällig. Sie sind sich
untereinander ähnlich, und
sie ähneln der Verteilung
der Zufallsvariablen.
Hydrophobizität im CannabinoidRezeptor und in einer
Zufallssequenz
Transmembransegmente
CannabinoidRezeptor
Zufällig hydrophober
Bereich
X1(ω),...,X472(ω)
E[X] = –0.24
Die grüne Linie weist auch Peaks auf. Diese sind
aber nicht so hoch. Ist das Zufall?
Mehrdeutiger Sprachgebrauch
Wir unterscheiden sprachlich zwischen dem
Mittelwert (Daten) und dem Erwartungswert
(Zufallsvariable). Bei der Varianz, der
Standardabweichung und der Verteilung sind wir
weniger vorsichtig bei der Wortwahl.
Wenn Mißverständnisse zu vermeiden sind, muß man
deutlich sagen, wovon man spricht:
• Bei Daten spricht man dann von empirischer Varianz
und empirischer Verteilung
• Bei Zufallsvariablen spricht man dann von
theoretische Varianz und theoretische Verteilung
Zwei andere zufällige
Sequenzen
10 weitere
100 zufällige Sequenzen
Diese Peaks wurde von
keiner der hundert zufälligen
Sequenzen überschritten.
Dieser von genau einer
Sequenz aus hundert.
Dieser schon einige Male
Signifikanz
Hier haben wir eine
Zufallsvariable
verwendet, um die
Signifikanz einer
Beobachtung zu
bestimmen.
Beobachtung: Hydrophobe
Bereiche in der Sequenz des
Cannabinoid-Rezeptors.
Zufallsvariable: Maximale
Hydrophobizität in einer
geeigneten zufälligen Sequenz
gleicher Länge.
Signifikanz: Nur wenige (keine)
zufällige Sequenzen weisen eine
vergleichbare lokale Anhäufung
hydrophober Aminosäuren auf.
Signifikanz
Wenn wir von der Signifikanz einer
Beobachtung sprechen, dann meinen wir, daß
sie nicht nur eine Laune des Zufalls ist.
Bei dem, was Zufall ist, haben wir dabei eine
recht genaue Vorstellung. Und zwar in Form
von einer oder mehrerer Zufallsvariablen,
deren Verteilungen wir von vorne herein
festlegen.
Signifikanz ist also immer Signifikanz mit
Bezug auf ein Zufallsexperiment .
Alles-Nur-Das-Nicht-Prinzip
Zusammenfassung:
Hat man ein Zufallsexperiment festgelegt, dann
bedeutet Signifikanz, daß die Beobachtung nicht
aus diesem Experiment stammt.
- Zufallsvariable
Dabei bleibt auch immer ein Rest Ungewißheit. In
der Simulation läßt sich die Ungewißheit
quantifizieren:
- Realisierung
- Verteilung (Daten, Zufallsvariable)
- Dichteplot
- Verteilungsfunktion
- keinmal in 100 Simulationen
- Erwartungswert
- zweimal in 100 Simulationen etc.)
- Varianz (Daten, Zufallsvariable)
Signifikanz bedeutet: Die Beobachtung kann alles
sein, aber kein Zufall:
- Signifikanz
Das Alles-Nur-Das-Nicht-Prinzip
Herunterladen