Muster in der DNA

Werbung
Muster in der DNA
Replikationsursprung im Virus
HCMV
Grundlegende Definitionen




DNA (deoxyribose nucleic acid):
Informationsträger für Lebensprozesse
(z.B. Vermehrung)
Gen: Sequenz in der DNA, die ein Protein
mit gewisser Funktion codiert
Genom: Gesamtgenbestand einer Zelle
Genomics: Erforschung von Lebewesen
unter voller Kenntnis der DNA-Sequenz
Aufbau der DNA




Nucleotid: stickstoffhaltige
Base + Zucker + Phosphatrest
Basen:
 Pyrimidine: Thymin, Cytosin
 Purine: Adenin, Guanin
DNA ist Polynucleotidkette
Komplement zu ACGT ist
TGCA
DNA ist Doppelhelix
Replikation von DNA




Replikation: Prozess des Kopierens von
DNA
Initiation der Replikation erfolgt durch das
Primosom
Synthese der Tochterstränge erfolgt durch
das Replisom
Replikationsursprung: Stelle in der DNA,
an der Replikation initiiert wird
Human Cytomegalovirus
(HCMV)




Virus: von Proteinhülle (Kapsid) umgebene DNA
HCMV ist Virus der Herpes-Familie und hat
Inzidenz von 30-80% (latent)
Länge von HCMV: 229 354 b
in produktivem Zyklus gefährlich für Menschen
mit geschwächtem Immunsystem:
 Transplantationspatienten
 AIDS-Patienten
Human Cytomegalovirus
(HCMV)

Auswirkungen (teils lethal):
 Lungenentzündung
 neurologische Störungen
 Magen-Darm-Krankheiten
 angeborene Taubheit
Forschungsziel




Auffinden des Replikationsursprungs
Kennzeichen in der DNA-Sequenz sind
vermutlich Anhäufungen sogenannter
Palindrome
Palindrom: Sequenz, die mit ihrem
umgekehrt gelesenen Komplement
übereinstimmt, z.B. GGGCATGCCC
Entwicklung eines Impfstoffes
Daten



Positionen der insgesamt 296 Palindrome
mit Länge  10 b
zu häufige Palindrome (z.B. AT) zählt man
dabei nicht
Hypothese: Palindrome sind auf der DNA
gleichverteilt
χ2-Test auf Gleichverteilung

Segmentierung der DNA in 10 gleich lange
Abschnitte
Segment
1
2
3
4
5
beobachtet
29
21
32
30
32
erwartet
29.6
29.6
29.6
29.6
29.6
Segment
6
7
8
9
10
beobachtet
31
28
32
34
27
29.6
29.6
29.6
29.6
29.6
erwartet
χ2-Test auf Gleichverteilung

R-Code:






l<-read.table("HCMV.txt",header=TRUE)[,1]
v<-cut(l,breaks=22935.4*(0:10))
f<-as.vector(table(v))
p<-rep(0.1,10)
chisq.test(f,y=NULL,correct=TRUE,p)
p-Wert = 0.90
Homogener Poisson-Prozess



Fasse gleichverteilte Palindrome als
unabhängige Treffer auf der DNA auf.
X... Anzahl der Treffer in Teilintervall
 hängt nicht von der Position des
Teilintervalls ab, nur von dessen Länge
 ist für disjunkte Intervalle unabhängig
P(X=k) = λk/k! e-λ
χ2-Test auf Poisson-Verteilung


Anzahl der Palindrome
beobachte Intervallzahl
erwartete Intervallzahl
0-2
7
6.4
3
8
7.5
4
10
9.7
5
9
10.0
6
8
8.6
7
5
6.3
8
4
4.1
9
6
4.5
gesamt
57
57
57 Intervalle à 4000 b
P-Wert = 0.98
χ2-Test auf maximale Palindromzahl




Teilung der DNA in 57 Intervalle à 4000 b
Schätzwert λ = 5.16
größte Beobachtung: 14
P(Maximum  14) = 0.06
Schlussfolgerungen


Sowohl Hypothese der Gleichverteilung
der Palindrome als auch der PoissonVerteilung für die Trefferzahl sind
stichhaltig.
Das gezählte Maximum an Treffern ist
aber recht unwahrscheinlich, also könnte
man Replikationsursprung im zugehörigen
Intervall suchen.
Herunterladen