Muster in der DNA Replikationsursprung im Virus HCMV Grundlegende Definitionen DNA (deoxyribose nucleic acid): Informationsträger für Lebensprozesse (z.B. Vermehrung) Gen: Sequenz in der DNA, die ein Protein mit gewisser Funktion codiert Genom: Gesamtgenbestand einer Zelle Genomics: Erforschung von Lebewesen unter voller Kenntnis der DNA-Sequenz Aufbau der DNA Nucleotid: stickstoffhaltige Base + Zucker + Phosphatrest Basen: Pyrimidine: Thymin, Cytosin Purine: Adenin, Guanin DNA ist Polynucleotidkette Komplement zu ACGT ist TGCA DNA ist Doppelhelix Replikation von DNA Replikation: Prozess des Kopierens von DNA Initiation der Replikation erfolgt durch das Primosom Synthese der Tochterstränge erfolgt durch das Replisom Replikationsursprung: Stelle in der DNA, an der Replikation initiiert wird Human Cytomegalovirus (HCMV) Virus: von Proteinhülle (Kapsid) umgebene DNA HCMV ist Virus der Herpes-Familie und hat Inzidenz von 30-80% (latent) Länge von HCMV: 229 354 b in produktivem Zyklus gefährlich für Menschen mit geschwächtem Immunsystem: Transplantationspatienten AIDS-Patienten Human Cytomegalovirus (HCMV) Auswirkungen (teils lethal): Lungenentzündung neurologische Störungen Magen-Darm-Krankheiten angeborene Taubheit Forschungsziel Auffinden des Replikationsursprungs Kennzeichen in der DNA-Sequenz sind vermutlich Anhäufungen sogenannter Palindrome Palindrom: Sequenz, die mit ihrem umgekehrt gelesenen Komplement übereinstimmt, z.B. GGGCATGCCC Entwicklung eines Impfstoffes Daten Positionen der insgesamt 296 Palindrome mit Länge 10 b zu häufige Palindrome (z.B. AT) zählt man dabei nicht Hypothese: Palindrome sind auf der DNA gleichverteilt χ2-Test auf Gleichverteilung Segmentierung der DNA in 10 gleich lange Abschnitte Segment 1 2 3 4 5 beobachtet 29 21 32 30 32 erwartet 29.6 29.6 29.6 29.6 29.6 Segment 6 7 8 9 10 beobachtet 31 28 32 34 27 29.6 29.6 29.6 29.6 29.6 erwartet χ2-Test auf Gleichverteilung R-Code: l<-read.table("HCMV.txt",header=TRUE)[,1] v<-cut(l,breaks=22935.4*(0:10)) f<-as.vector(table(v)) p<-rep(0.1,10) chisq.test(f,y=NULL,correct=TRUE,p) p-Wert = 0.90 Homogener Poisson-Prozess Fasse gleichverteilte Palindrome als unabhängige Treffer auf der DNA auf. X... Anzahl der Treffer in Teilintervall hängt nicht von der Position des Teilintervalls ab, nur von dessen Länge ist für disjunkte Intervalle unabhängig P(X=k) = λk/k! e-λ χ2-Test auf Poisson-Verteilung Anzahl der Palindrome beobachte Intervallzahl erwartete Intervallzahl 0-2 7 6.4 3 8 7.5 4 10 9.7 5 9 10.0 6 8 8.6 7 5 6.3 8 4 4.1 9 6 4.5 gesamt 57 57 57 Intervalle à 4000 b P-Wert = 0.98 χ2-Test auf maximale Palindromzahl Teilung der DNA in 57 Intervalle à 4000 b Schätzwert λ = 5.16 größte Beobachtung: 14 P(Maximum 14) = 0.06 Schlussfolgerungen Sowohl Hypothese der Gleichverteilung der Palindrome als auch der PoissonVerteilung für die Trefferzahl sind stichhaltig. Das gezählte Maximum an Treffern ist aber recht unwahrscheinlich, also könnte man Replikationsursprung im zugehörigen Intervall suchen.