Struktur des Genoms

Werbung
1
1. Das Genom
Struktur des Genoms
Zwei Sorten von Genomen können in der Zelle gefunden werden: Kern-Genom und das mitochondriale
Genom bzw. Chloroplasten-Genom in Pflanzen.
Das mitochondriale Genom
• Mitochondrion: Entstand vor 1.5x10^9 Jahren aus einem Purpurbakterium durch Endosymbiosis.
• Säugetierisches Mitochondrium:
- Die meisten Gene gingen verloren oder wanderten ins Chromosom. Was überblieb:
- 13 Polypeptide (Alle Gene codieren für Enzyme der oxidativen Phosphorylierung)
- 12S and 16S rRNA Gene
- 22 tRNA Gene, erkennen mehr als einen Codon der selben Aminosäure
-Ringförmiges Genom
-Kein Intron in den Gene
-Ribosomen ähneln an bakteriellen (70 S
-Teilen sich binar wie Bakterien
• Mitochondrien: ~ 1000 pro Zelle, fünf Genoms pro Mitochondrium
Mitochondrien alternative-Codierung verwenden:
• Abweichung vom universalen-Code:
Codon Aminosäure, universal
Aminosäure in Mitochondrien
UGA
stop
Trp (Säuger, Insekten,Hefe, Fungi)
AGA
Arg
stop (Säuger, Insekten)
ACG
Arg
stop (Säuger)
AUA
Ile
Met (Säuger, Insekten, Hefe)
CUN
Leu
Thr (Hefe)
CGG
Arg
Trp (Mais)
Genom-Programme
Die Kosten zur Sequenzierung fallen drastisch (1990: 1 $/Base; 2010: 10-4 $/Base)
Die ersten Organisma, deren Genom sequenziert wurde sind: Modelorganismen der Wissenschaft:
E.coli,Hefe, C.elegans, Fruchtfliege, Arabidopsis (Ackerschmale), Maus
Verwandte des Menschen: Chimpanse, Oran-gutan, Gorilla
Pathogene und ihre Vektoren: Viren, Bacterien, Plasmodium Malariae + Malariamosquito
Tiere und Pflanzen der Landwirtschaft: Weizen, Huhn, Kuh, Schwein
Haus-Tiere: Hund
Andere: Archaebacteria, Amoebe, Wallabi Kangaroo, etc.
-Die Sequenzierung von mehreren Spezies ist im Vorgang
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
2
1. Das Genom
Human Genome Project (HGP)
Der Plan bestand im Sequenzieren des kompletten menschlichen Genoms innerhalb von 15Jahren mit 3Mrd.
Dollar Budget
- 1990 James Watson, der erste Vorsitzende resignierte frühzeitig, wegen Uneinstimmigkeit zur Patentierung
des Genoms.
1992 Francis Collins (NIH), der neue Leiter rekrutierte ein internationals Konsortium: USA, China, UK,
Japan, Deutschland, Frankreich.
Die US Regierung gab den Plan auf das menschliche Genom zu patentieren
1998 Craig Venter verlässt das staatliche Projekt und gründet sein eigenes Unternehmen mit Namen
Celera Genomics, welches in Konkurenz zum Konsortium stand. Er setzte ein neues Verfahren ein, das
sogenannte Shot-Gun Sequencing, welche ohne zeitraubender vorheriger physikalischer Kartierung der DNA
funktioniert, dauerte das Projekt weniger als ein Jahr.
3 Die Sorge, ein privates Unternehmem besitzt die Rechte am menschlichen Genom und wird der
Öffentlichkeit nur gegen Bares zugänglich (was tatsächlich mit dem Mausgenom passierte). Schlussendlich
entschlossen beide Parteien zusammen zu arbeiten, womit das menschliche Genom frei untersuchbar wurde.
Die Hoffnung: Wir knacken die Nucleotidsequenz, damit verstehen wir wie das Genetische Material arbeitet
und damit wären wir im Stande Krankheiten zu heilen.
Das diploide Genom eines Einzelnpersons
Craig Venter liess sein eigenes diploides Genom sequenzieren. Vorher wurde es angenommen, dass der
Unterschied zwischen den Genomen von zwei Individuen etwa 0.1% im Durchschnitt beträge. Wie auch
immer nach Venters Versuch kann man von mindestens 0.5% ausgehen. Die mütterlichen und väterlichen
Chromosomen von C. Venter wiesen 4 Millionen SNPs (single nucleotide polymorphism), einzelnbaseUnterschiede auf, zusätzlich zahlreiche Indels (kurze Insertion/Deletion). Kopienummer-Änderungen
der Gene (copy number variation, CNV) kamen auch vor. Insgesamt, 44% der Gene der ElternChromosomen sind unterschiedlich. Diese Beweise zeigen es, dass die Sequenz-Unterschiede zwischen
beliebten Personen liegen bei ~0.5%. Im Vergleich, unterscheidet sich die Menschliche- und
Chimpanssche-DNA mit 1.2%, eingenommen Punktmutationen (1% in Codierenden Sequenzen). Aber
insgesamt, inklusive Indel-Stellen und Chromosom-Strukturänderungen die Unterschiede liegen auf 3%.
Menschliche Genomsequenzen wurden später (2008) von Afrikanischen und Asiatischen Sequenzen ergänzt.
Das menschliche Variom-Projekt
Sammeln von variablen Sequenzen von verschiedenen Individuen – Primärer Fokus die medizinische
Anwendung. Die ZUKUNFT: Individuen-basierte Medizin. Die genetische Unterschiede unter Menschen
können die individuelle, personalisierte Therapie gründen. Die Pharmazeutika-Entwicklung und
Genehmigung soll auch geändert werden, als die heutige Voraussetzungen mehrere ’zig Millionen Dollar
Investition benötigen. Das 1000-Genom-Projekt zielt die Untersuchung des menschlichen Varioms.
Die Teilnehmer sind:
Wellcome Trust Sanger Institute
Beijing Genomics Institute
National Human Genome Research Institute
National Institutes of Health
Budget: $ 30-50 million
Ziel: - Analyse von Variationen zwischen Individuen
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
3
1. Das Genom
Genoms der Menschenrassen Die ersten Genom-Sequenzdaten stammen von C. Venter, aber im gleichen
Jahr (2007) wurde die Genomsequenz von James Watson veröffentlicht. Da die beiden an kaukasischen
Menschen gehören, sollte es von Vertreter anderer Menschenrassen erweitert werden. In 2008 wurde das
genetische Material eines Han-Chinesen und eines Yoruba-Nigerianer komplett bestimmt.
Süd-Afrika Projekt
Die Firma J. Craig Venter Institute (JCVI) derzeit führt die genetische Analyse der einheimlicher
Südafrikaner durch. Diese Stämme verwenden eine snappende Sprache und unterscheiden sich von den
meisten anderen Menschen. Die Tatsache ist, dass es tritt mehr genetische Variation zwischen zwei
afrikanische Buschmänner in dem selben Dorf auf als zwischen kaukasischer und asiantischer
Menschen. Neuere Erkenntnisse zeigen, dass der moderne Mensch (Homo sapiens) nicht in Ostafrika,
aber Südafrika entstanden wurde. Die auf Hautfarbe gegründete rassischen Kategorien sind nicht richtig,
weil ein äthiopischer schwarzer Mann näher an einem europäischen oder ein von Asien steht als an
Buschmänner.
Genstruktur – Diagnose und Therapie: Hoffnung und Limitierung
Kenntnis der Genstruktur ist ungenügend zur Genfunktion-Bestimmung. Unterschiede des Phenotyps
spiegeln die funktionellen Unterschiede der Gene wieder.
Nur ein Teil aller Krankheiten ist genetisch.
Die monogenen Krankheiten vertreten bloss 2% der genetischen Erkrankungen; der restliche 98% sind
polygenische Erkrankungen. Aber Kenntnis der Genfunktionen kann in Diagnose und Prognose helfen.
Die Bedeutung der Varianten in den regulatorischen Bereiche der Gene ist fast unbekannt, obwohl man
vermutet, dass die regulatorischen Mutationen können Krankheiten hervorrufen. Die genetische
Variabilität unter Menschen ist doch niedrig, so die Hoffnung besteht, dass Verstehen die Funktion der
regulatorischen Sequenzen näher zur Diagnose und Therapie bringt.
Das Verhältnis der Umgebung und Gene auch nicht eindeutig ist: Umweltänderungen rufen Antworte
der Genexpression und DNA-, Histon-Methylierung.
Das menschliche Genom ist 3,2 Gigabase-Paar (billion) DNA, welche in 23 Chromosomen
(haploides Genom) verteilt ist. Mehr als die Hälfte des Genoms machen
Wiederholungssequenzen aus: ~3% simple repeats, ~5% Duplikationen von grossen chromosomalen
Segmenten, ~44% Transposons (anderer Name: springende Gene, mobile genetische Elemente. Die
Zusammensetzung des Transposons ist: (1) DNA Transposons (3%), Retrotransposons (45%). Transposons
häufig unerkennbar wegen Mutationen sind; man vermutet, dass sogar 75% der menschlichen DNA hat
Transposon-Ursprung.
Manchen unterscheiden Retrotransposons von Retroposons: ersterer kann autonom springen, während
letzterer dies nur mit Hilfe Genprodukte anderer Transposons kann. Man kann sehen das kodierende
Sequenzen (Exon spezifische Proteinsequenzen) nur 1.1% der DNA ausmachen, während Introns 25.9% (die
aktuellste Schätzung 30%). Der Anteil der hochkonservierten Sequenzen ist 4%, darunter 1.1% kodiert für
Proteine, die Reste erfüllt regulatorische Funktion oder kodiert RNAs.
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
4
1. Das Genom
3 Typen Sequenzen kommen im menschlichen Genom vor: Kodierend (1.1%), genverwandt (36%) und
intergene-Regionen (62.5%). Die transkribierten nicht Protein kodierenden Sequenzen sind verteilt in
Kategorien. Gen-verwandte Sequenzen sind: Pseudogene, Gen-Fragmente, Introns, UTRs, cDNA coding
DNA stretch
Intergene Sequenzen: Repetitive Sequencen + andere, repetitive Sequencen: Transposons (Retrotransposons
+ DNA-Transposons), einfache- und grosse Wiederholungen.
A. Kodierende Sequenzen
Struktur eines Gens
Kodierende Sequenzen sind die Protein-kodierenden Teile des Exons. Die premRNAs/Primärtranskripts enthalten Introns (welche im Durchschnitt 25x mehr als die
Exons sind), mRNAs enthalten nicht translatierte Teile: 5’ UTR (leader) and 3’ UTR (trailer). Die
kodierende Sequenz startet mit der Initiationscodon, AUG (kodiert Methionine) und endet mit einem der
3 Stopp-Codons (UAA, UAG, UGA). Der RNA-Bereich ab AUG (Startcodon) bis auf einer der StoppCodon nennen wir ORF (open reading frame, geöffneter Leseraster). Die regulatorische Sequenzen der
Gene sind hauptsächlich die Promotoren und Enhancers, die in Transkriptionsaktivierung aktiv
teilnehmen; Silencer-Sequenzen, im Gegenteil, die Transkription hemmen.
Vor Genomik-Era man vermutete eine hohe menschliche Gebzahl (100000); tatsächlich, die 22000 Gene
überraschte unsere Erwartungen. Craig Venter: Es ist daher zu niedrig Gene, der genetischen
Determinismus (die Idee, dass ein Individuum durch Gene bestimmt wird) ein großer Fehler ist.
Ist diese Ansicht richtig? Diese Feststellung ähnelt an Argument, welches besagt, dass die nur fünf
Atomen der DNA (C, N, O, H, P) können nicht die benötigte Informationen tragen wie zB. das
menschliche Gehirn. Die Anzahl der Proteine aber beträgt etwa 100.000, die viel höher als die Gene
sind. Der Grund dafür liegt in alternativen mRNA Reifungsprozesse (alternetives Spleissen,
Promotorverwendung, Polyadenylierung, usw.).
Gene des Menschen
Ess ind 10-12 tausend funktionsmässig bekannte Gene. Die Funktion des Rests ist unbekannt. Die
funktionsmässige Einteilug der Gene ist wie folgt:
1. Expression, Replikation, Erhaltung des Genoms: 23.2%
2. Signaltransduktion: 21.1%
3. Grundlegende biochemische Funktionen: 17.5%
4. verschiedene andere Funktionen (Transport, strukturell, immunologisch): 38.2%
Änderungen der Genfunktion während Evolution
Konservative Gene:
- erfüllen Grundlegende Funktionen in der Zelle: metabolische Enzymes, Cytoskelett
- regulatorische Gene: Hox-Gene, Elemente der Signaltransduktions Pathways
Schnell evolvierende Gene:
- Maus: sex, immune protektion, Geruch-verwandte Gene
- Mensch: sex, immune protektion, (Geruch-verwandthe Gene sind degradiert)
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
5
1. Das Genom
Was ist ein Gen?
Gendefinitionen
(1) EIn Gen ein Enzym-Hypothese.
Beadle und Tatum (1941) haben ein experimentelles System eingerichtet, das Ihnen erlaubt, um die Beziehung zwischen
Genen und Enzymen zu suchen. Die Forscher’s Hypothese war, dass zwischen Gene und Enzyme eine Eins-zu-EinsBeziehung besteht; da es möglich ist, Mutanten, die nicht in der Lage sind, eine bestimmte Enzymreaktion bewerkstelligen zu
produzieren. Der Schimmelpilz (Neurospora crassa) wurde durch Röntgen-oder UV-Strahlung mutagenisiert, und die
resultierenden Mutanten untersucht. Die Mutante hatten einen Anspruch an Nährstoffe (Aminosäuren, Vitamine), die im
Gegensatz zu den normalen Pilzen überlebten nur wenn diese Substanzen zum Medium zugegeben wurden. Die Mutantenn
waren in einem bestimmten Schritt der Stoffwechselwege blockiert, so dass Zwischenprodukte an großen Mengen in den
Zellen akkumuliert.
Der Vermutungen nach die Forscher generierten einzelne Gen-Mutationen und das betroffene Genprodukt, das Emzym
erfüllte nicht ihre Aufgaben, so sollte externe Nährstoffe an das System zugeben. Basierend auf diesen Ergebnissen, Beadle
und Tatum stellten die ein Gen - ein Enzym-Hypothese ein.
Die Versuche zu verstehen nehmen wir dass Enzym 5 nicht arbeitet. Substrat E anreichert, und findet keine Bildung von FProdukt statt. Es kann durch biochemische Tests (Messung der Enzym-Reaktionen) detektiert werden. Wie es später
herauskam das Konzept des Gens von Beadle und Tatum war nicht genau definiert, da nicht alle Proteine Enzyme sind,
Proteine können auch aus Untereinheiten (zB Hämoglobin aus 4) bestehen.
(2) Ein Cistron ein Polypeptid Hypothese
Seymour Benzer (1955) hat die Struktur der Gene E. coli T4 Phages durch induzierten Mutationen und genetische
Rekombination untersucht. Basierend auf den Ergebnissen dieser Untersuchungen haben das Konzept eingeführt, daß die
Cistrons die Funktionseinheit der Gene ist, sowie ein Cistron für ein Polypeptid-Molekül kodiert. Später ist das Konzept
einfach aus der Mode gegangen.
(3) Ein Gen ein Polypeptid Hypothese
Der Einsatz moderner Techniken Tatsachen ans Licht kam, dass die RNA wegen der Reifung eine Vielzahl von alternativen Verfahren (alternative
Promotornutzung, alternative Spleißen - Capping – Polyadenylierung) Synthese mehrerer Proteinen erlaubt.
1941: Beadle and Tatum: 1 Gen – 1 Enzym Hypothese. Funktion von Proteinen wurde untersucht durch
Mutationen in Fungi Spezies (Neurospora crassa). ZB, wenn das 5te Enzym defekt ist, häuft das Substrat
E an und das Produkt F wird nicht hergestellt. (Bestimmt wurde durch biochemische Vorgänge).
1955: 1 Cistron - 1 Polypeptide - rII Phage: Mutation/Recombination cistron: funktionelle Einheit
- 1 Polypeptid kann aus verschiedenen Untereinheiten zusammengesetzt sein (zum Beispiel das
Hämoglobin besteht aus 4 Untereinheiten).
- Nicht jedes Protein ein Enzym ist, die spätere Definition besagt: 1 Gen – 1 Polypeptid, die Idee vom
Cistron wurde unpopulär.
Heute: Wegen alternativer Prozessmöglichkeiten schwierig einzuschätzen: alternatives-Spleissen, Promotor-Verwendung, -Capping, -Polyadenylierung bieten zahlreiche Möglichkeiten zur Bildung
mehrerer Proteine auf die genetische Information eines Gens gegründet.
Gen-Analyse
Die Struktur des Gens
Ein Gen besteht aus regulatorischen und codierenden Bereich. Der transkribierte mRNA enthält Exons
(kodierendend), Introns (nicht-kodierende Regionen), und 5’ und 3’ nicht-kodierende Regionen. Die
Ausdrücke sind dass Introns hatte im Zellkern bleiben, während die Exons Verlassen des Zellkerns. Die
überwiegende Mehrheit der menschlichen Gene enthalten Introns. Es gibt jedoch ein paar Ausnahmen zu
dieser Regel, zum Beispiel. mehrere G-Protein-gekoppelten Rezeptor- und Histon-Gene enthalten keine
Introns. Besondere Ausnahmen sind die sogenannten retroviralen Gene. Die Proteine ähnlich an RNA
durchlaufen auch Reifung. Vor der Exon-Sequenzen befindet sich das 5'-UTR, 5’ untranslatierte Region
(Leiter); am 3’ Ende der Exons befindet sich die 3'-UTR-Sequenz (Anhänger). Beide codieren keine
Aminosäuren. Diese Regionen spielen eine wichtige Rolle bei der Regulation des mRNA-Translation.
Jene Teile der codierenden Region von Exons wird in Aminosäuresequenzen translatiert Die codierende
Sequenz der mRNA in der Regel beginnt mit AUG-Triplett (kodiert für Methionin) und endet mit einer der
drei Stoppcodons (üblicherweise mehrere Stopp-Sequenzen aufeinander folgen). Ab Methionin bis auf
Stopp-Codon liegende RNA-Segmente als ORF (open reading frame, geöffneter Leseraster) genannt wird.
Die DNA-Gene enthalten nur die ORFs, wenn die Intron-frei sind. Die Gene, deren Funktion nicht bekannt
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
6
1. Das Genom
ist, werden oft als ORF bezeichnet. Die regulatorischen Sequenzen der Gene sind Promotoren und EnhancerSequenzen, die jeweils die Transkription stimulieren. Im Gegenteil, SIlencer-Sequenzen die Transkription
inhibieren.
Analyse von einzelnen Genen
1. Klassische (Mendelsche) Genetik – 20.Jhdt, 1.Hälfte.
Drosophila war der Modellorganismus .
Der typische Ansatz in dieser Era war die “Vorwärts-Genetik”.
In den Experimenten wurde zunächst eine Mutation induziert, wonach der genetische Hintergrund mit
Hilfe von Karteirungstechnik untersucht wurde.
2. Molekulargenetik – 20. Jhdt 2te Hälfte.
Der typische Modellorganismus zu begin der Era war der Bakteriophage.
Später die Bakterien (Escherichia coli) ersetzten den Bakteriophage, danach wechselten Wissenschaftler
auf höhere Lebewesen, wie z.B. Nematoden (Cenorhabditis elegans), Fruchtfliege und Mäuse. Dieser
Ansatz wurde als reverse-Genetik bezeichnet, da in einem typischen Experiment zunächst, geplante
genetische Veränderungen (z.B. Ziel-Gen Deletion: knockout technology) im Genom ausgeführt
wurden, gefolgt von Suche und Charakterisierung des erhaltenen Phenotyps.
Analyse von multiplen Genen (zur gleichen Zeit)
Genomik 21. Jhdt. Dank technischen Fortschritts können wir multiple Gene oder mehrere DNASequenzen untersuchen.
Strukturelle Genomik: Bestimmung von Genstruktur (Basensequenz). Durch Fortschritt in
Sequenzierungstechnologie wird die Sequenzierung fortlaufend immer günstiger.
Funktionelle Genomik wird auch als Wissenschaft der Postgenom-Era bezeichnet, da nun nach
Aufdecken der DNA Struktur die Funktion der DNA zu erforschen gilt. Heutzutage ist es möglich, die
Expression von einer Großzahl von Genen zu untersuchen durch Verwendung von DNA- und ProteinChiptechnologie. Dies erlaubt das Erforschen von Transkription und Funktion von Genen in erkrankten
und zum Vergleich in behandelten Zellen, Geweben.
Integratives Genomik beschäftigt schich mit der Wechselwirkungen der Komponenten molekularer
Systems.
Genom-Annotation
Der Prozess bedeutet Anhängen biologische Information an Sequenzen (Genom-Annotation). Bezieht
sich eigentlich auf Gene, kann aber auch auf Sequenzen bezogen werden).
Strukturelle Annotation: Identifikation einer Sequenz als Gen
- Lokalisation auf einem Chromosom
- Identifikation von Exons und Introns
- Lokalisation von regulierenden Regionen
Funktionelle Annotation: anheften einer Funktion an eine Sequenz
- biochemisch
- Zell- und molekularbiologisch
- Teilnahme an Regulation und Interaktion
- Expression (wann, in welcher Zelle, wieviel), auf RNA- und Protein-Ebene
Die oben genannten Annotationen involvieren feuchte- (experimentelle) und in silico-Untersuchungen.
B. Nicht-kodierende Sequenzen
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
7
1. Das Genom
Erhöht sich der Anteil der nicht-kodierenden Sequenzen mit der Komplexität der Tiere.
Interessanterweise das Hund-Genom ist frei von intergene-Sequenzen, dessen Grund ist unbekannt.
Introns und UTRs
UTR: Regulation von Translation und Halbslebenszeit der RNAs
Introns
Introns werden herausgespleisst während der RNA-Reifung. Ihre möglichen Rollen sind:
1. Genetischer Abfall;
2. Regulation: (a) kann cis-Elemente enthalten, oder (b) reguliert als RNA;
3. im alternativen Spleissen kann es als Exon dienen.
Pseudogene & Genfragmente
Genfragmente sind funktionslose Teilgene die durch unvolkommener Duplikation entständen.
Genefragmente: Abfall
Pseudogene (pseudo: nicht echt): Promotorlose Gene, sind unfunktionsfähig
2 Sorten: 1. Intron-enthaltend: chromosomale Segment-Duplikationen
2. Intronlos: reverse Transkription, dann Reinsertion
Funktion: 1. In einigen Fällen Genregulation des original Gens durch antisensaktion
2. Genetischer Abfall
Unter der 15.000 menschlichen Pseudogene die hälfte sind intronlos. Dies können sich Promotor-nah
integrieren, und als retro-Gene wiedererleben. Das häufigste Pseudogen hat ribosomale Ursprung (13%), da
rRNA befindet sich an grossen Anteil in der Zelle.
B2. Intergenisch Sequenzen-Transposons
Transposons sind Springende Gene (präziser DNA Transposons) und wurden duch Barbara McClintock
im Mais entdeckt in 1951 und wurde mit dem Nobelpreis belohnt 1983.
Verteilung der Transposons:
Alien invaders
1. Retroviren
2. Degradierte Retroviren
3. DNA Transposons: Ihr eigener Ursprung ist unbekannt
Stabile Retrovirusinsertion in das Genom: Der Vorfahre des Retroviruses in unserem Genom infizierte
die Keimbahn. Die einzelsträngige RNA wird in zwei Schritten in doppelsträndige DNA konvertiert und
ins Genom sich integriert. Nun werden strukturelle Proteine und das RNA-Genom synthetisiert, die
reifen Viren treten in den extrazellulären Raum und sind für weitere Infektion bereit.
Runaway elements: Alu- und MIR-Sequenzen (siehe später)
Koala-retrovirus
Das Genom von Koala-Bär ist jedoch von einem Koala-Retrovirus besiedelt. In Australien, in
bestimmten Regionen, der Virus vererbt wird, breitet sich die Infektion auf andere Regionen. HIV-Virus
ist am Anfang dieses Weges, wurde noch nicht in die Keimbahn integriert, und es sit fraglich, ob dies
überhaupt geschieht.
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
8
1. Das Genom
Transposons - II
Klassifizierung von Transposons:
I. Klasse: Retrotransposons, darunter:
1. LTR-Transposons (LTR: long terminal repeat)
2. Nicht-LTR-Transposons
- 2a. LINEs (long interspersed nuclear elements)
- 2b. SINEs (short interspersed nuclear elements)
Das Genom eines funktionsfähiges Retroviruses aus der folgenden Elemente besteht: LTR (long
terminal repeat), am beiden Ende des Genoms fonktioniert als Promotor; die GAG-region kodiert für
Capsid-Elemente; POL kodiert für Enzyme (reverse Transkriptase schreibt RNA in DNA um; RNaseH
liefert RNA-Primers zur zweiter-Strang DNA-Synthese; Integrase ist zur Integrierung des Virusgenoms
ins Wirtsgenom benötigt; ENV kodiert für Glycoproteine der äussere Virushülle).
LTR (long terminal repeat): Funktioniert als Promoter
gag: Komponenten des Capsids (capsomers)
pol: Enzyme des Retroviruses: Reverse Transkriptase konvertiert RNA in DNA; RNAse H produziert die
Primer für den 2ten Strang-Synthese; Integrase is ist verantwortlich fuer das Insertieren der DNA in die WirtDNA; Protease schneided ein langes Polypeptides in kleinere Stücke . env: produziert die Komponenten
(Glycoproteine) für den äußeren Layer (envelope) des Virus.
LTR Retrotransposons (8% des Genoms) haben LTRs. 1% enthalten die gleichen Komponenten wie der
vorherige Retrovirus, die human endogenous retroviruses (HERVs). Jedoch können sie aufgrund von
verschiedenen Mutationen nicht alle Komponenten herstellen die zur Replikation notwendig sind. Es wurde
kürzlich herausgefunden, dass der K-type HERVs voll funktionfähig ist. Dem Rest (7%) der LTR
Retrotransposons (genaugenommen Retroposons ) fehlen verschiedene Teile des Genoms (meist das env
gen).
Non-LTR retrotransposons: feht das LTR. LINEs sind degenerierte Viren, SINEs sind entweder
degenerierte Viren oder, wie ihr häufgister Vertreter, die Alu-Sequencen evolved von RNA Komponent der
SRPs* Host Zelle (siehe Später).
.
II. Klasse: DNA Transposons
DNA Transposons: Das Enzym Transposase führt den Vorgang der Transposition aus (schneiden und
insertieren) der DNA Sequenz ins Host Genom. Transposase Gen wird beiderseits flankiert von inverted
repeats. Die menschlichen DNA-Transposons häuften Mutationen an ind sind inaktiv geworden.
Die LINE-Transposons vertreten insg. 20 % des menschlichen Genoms (850.000 Kopien); SineSequenzen 13 %, darunter 11 % Alu-Sequenz sind, und die Reste mutierte tRNA-Sequenzen (MIR) oder
Retrovirus-Überreste (SINE-R) sind.
Human endogene Retroviren (HERV) & LTR transposons
LTR Retrotransposons machen 8% des Genoms aus, aber nur 1% hat eine Struktur ähnlich eines
Retroviruses, die restlichen sind degeneriert. Alle von ihnen sind mutiert: sie sind nicht in der lage infektiöse
Viren zu formen aber, einige von ihnen können sich mit Hilfe von Enzymen anderer Elemente vortbewegen.
Neuentdeckung: HERV-K ist aktiv! Das Transposon MaLR transzpozon ein LTR- Transposon ist,
hochdegeneriert, hat keine pol und env Gene.
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
9
1. Das Genom
Die Wirkung von endogenen Retroviren in der Genexpression in menschlichen Zellen.
Die HERV's mehrere Effekte im menschlichen Gen-Expression ausüben.
(1) Der häufigste Fall ist, dass diese Sequenzen haben keine Wirkung auf die Expression zellulärer
Gene.
(2) Die HERV-LTR die Aktivität eines menschlichen Gens regulieren können.
(3) Wenn das Gen eine aktive oder latente Splice Akzeptor-Stelle hat, kann sie mit der des retroviralen
Spleißdonor-DNA zusammenarbeiten, und damit eine neue Spleißvariante bilden.
(4) Die LTR Aktivität kann moduliert werden: LTR kann methyliert oder mutiert sein, was sich auf das
Genexpressionsmuster der Zelle auswirkt (z.B. Zellspezifizität).
Nicht-LTR Retrotrasposons enthalten LINE-s und SINE-s.
LINEs besetzen 21% des menschlichen Genoms (850,000 Kopien). 17% von ihnen sind LINE-1 (L1) das
macht 500 tausend Kopien. cca. 10,000 Kopien von L1 haben volle Länge, aber nur 500 – 1000 Kopien sind
funktionell im Sinne das jedes Ihrer Gene intakt ist. Der Rest der L1 kann auch springen durch das Benutzen
von Enzymen anderer Elemente. Daher ist die Mehrheit von L1 Pseudogen; die anwendung des Begriffs
(autonom) für die ganze Gruppe ist irreführend. LINEs kann sowohl in somatischen als auch in Keimzellen
mobilisiert werden.
2 unübliche Eigenschaften weisen sie auf: 1. Neben Cap, kann die Translation von einer inneren Position aus
gestartet werden (IRES: internal ribosome entry site), was charakteritisch fuer Prokaryoten ist. 2. Langes
Protein wird in zwei gespalten, was zwar auch in Eukaryoten vorkommt, allerdings eher selten.
Die Retro-Elemente sind nicht nur die Abbauprodukte von Retroviren, aber ändern ihre Sequenz
plötzlich, wodurch eine neue oder kombinierten Funktionen von Proteinen gebildet werden, zB. L1
ORF-2-Gen. Viele junge L1-Elemente verbreiten sich erst jetzt in der menschlichen Bevölkerung, damit
die "vorhanden / nicht vorhanden" (Anwesenheit / Abwesenheit) sein können.
LINE-1 duplication
LINE-1 kann als perfekte oder imperfekte Kopie relokalisiert werden.
Die Wirkung von LINE-1 auf das Genom – Bildung von Pseudeogenen
Durch seine Enzyme (Reverse Transkriptase, Integrase, etc) LINE-1 kann von zellulärer mRNA DNA
synthetisieren, welche sich als introloses Pseudogen ins Genom einbaut werden kann. Meistens Pseudogene
unfuktionelle Gene sind, da sie regulatorische Elemente (Promotor) nicht enthalten.
Die Wirkung von LINE-1 auf das Genom- Geninaktivierung
Das mobile Element kann in eines Gens insertiert werden (in ein Exon oder Intron), was zur Inaktivierung
des Gens führen kann. Insertion in ein Intron kann zu einem Stopcodon führen durch alternatives Splicen. In
diesem Fall ist das Protein verkürzt, was nicht zwangsläufig heist, dass das Protein komplett funktionslos ist.
Die Wirkung von LINE-1 auf das Genom- Transduktion
1. Das Poly-A Signal von LINE ist schwach → read-through von benachbartem Gen exon
2. Insertion eines Stücks von LINE und das Exon von Gen „A” an Gen „B”
3. … oder nur das Exon von Gen „A”
Anmerkungen:
1. Normalerweise trägt LINE-1 kein Exon sondern eine zufällige DNA-Sequenz.
2. Translokation von DNA tritt meist in somatischen Zellen auf (albeit L1 ist sehr aktiv in Keimzellen) →
nicht vererbt (jedoch kann dieser Prozess zur Tumorbildung führen)
3. Wenn dieser Prozess in der Keimbahn eintritt (spermium oder Eizelle), muss das Rearrangement der DNA
selektiv von vorteil sein um sich in einer Population durchzusetzen. In kleineren Populationen können sich
solche Umstrukturierungen verteilen durch eher zufällig Prozesse.
SINEs
Vertreten 13% des Genoms, darunter 11% Alu-Sequenzen sind (nicht Proteinkodierend)
- Tragen eine AluI Restriktionsenzym-Erkennungsstelle (5’AG/CT3’, daher der Name)
- Ein durchschnittlicher SINE repeat Einheit besteht aus 100 - 400 Bp (Alu: 300 bp: 280 bp + pol III
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
10
1. Das Genom
promoter)
- mehr als 1 millionen Kopien, das erfolgreichste Transposon im Menschen
- Vorfahr: SRP (signal recognition particle; ribonucleoprotein) RNA Komponente (7SL
RNA)
- SINE-R retroposon Familie (4-5000 Kopien/haploides Genom): Retrovirus Ursprung
Die Alu-Sequenzen befinden sich in G/C-reichen Region des Genom (R Giemsa-Band des metaphaseChromosom), während die LINE-1 in A/T-reichen Region (G-Band des Chromosoms).
Interessanterweise sind die Maus B1 Retroposons auch aus 7SL RNA gebildet, unabhängig von der AluSequenzen. Die MIR-Sequenzen (mammalian interspersed repeats) befinden sich in 450.000 Kopien (haploides
Genom) und der MIR-3 (85000 Kopien / haploid Genom) Retroposon stammen aus eine tRNA Gen-Familie.
Alu Sequenz der Hyperparasit:
Alu-Sequenz benutzt reverse Transkriptase von LINE-1 zur Bildung DNA aus RNA. Sie ist ein
Hyperparasit, das sie LINE-1 ausnutzt, welche selbst ein Parasit im DNA genom darstellt.
Alu-Sequenz-verbundene Krankheiten
Brustkrebs, Ewing sarcoma, familiäre Hypercholesterolemie, Hemophilie, Neurofibromatosis, Diabetes
Mellitus Typ II können durch Alu-Mobilisierung entstehen.
DNA Transposons
DNA-Transposons bestehen aus einem Transposase-Gen und der umliegenden umgekehrt wiederholt (IR)Sequenzen.
Normalerweise, das genetische Element wird durch Transposase-Enzym ausgeschnitten und in das Genom
an einen anderen Ort mit dem "cut and paste"-Mechanismus eingefügt. (Retrotransposons verwenden den
"copy and paste"-Mechanismus).
- Infektionsmechanismus und Vektor der DNA-Transposons ist unbekannt
- Transposase verursacht das springen: „cut and space” Mechanismus – wie vermehren sie sich?
- Mehr als 60 Familien: Charlie, mariner, Tigger, THE1, etc
- Die Mariner Transposons ähnelt den Insekten Transposons: Kam horizontaler Gentransfer vor? – detailierte
genetische Analyse zeigt eher unwarscheinlich.
- Es können kaum funktionale DNA Transpons in der DNA von Wirbeltieren gefunden werden: kein
einziges im Menschen.
Host Verteidigungsmechanismen gegen Transposons
1. Heterochromatinisation (Methylierung der DNA); Folge: Inhibierung der Transkription
2. RNA Interferenz: Inhibierung der Transkription & Translation
3. Lokal erhöhte Mutationsrate: Inaktivierung
Vorteile für den Host durch Transposons
1. Variabilität in Genen die für Antiköper, B- und T-Zell-Rezeptoren kodieren
2. Genomplastizität: Leichtere Umstrukturierung des Genoms
B3. Intergenische Sequenzen – kleine und grosse DNA-Wiederholungen
Tandem Repeats
Sind consecutive, identische oder nahezu identische (degenerierte) Wiederholungseinheiten
Variabilität in Länge von: (1) Wiederholungseinheit und (2) dem ganzen Repeat
Drei Klassen unterschieden werden können:
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
11
1. Das Genom
(Macro)satelliten: von 1 bis mehrere hundert kB Wiederholungen: Centromer und konstitutives
Heterochromatin
- Telomer: 15 kb: TTAGGG hexamer – Telomerase bindet an die Enden des Chromosoms
- Satellit 2 und 3: GGAAT-Einheit
- Alpha-Satellit: 171 bp Einheiten
Minisatelliten (VNTR, variable number of tandem repeats, STR, short tandem repeats): Sind kürzer als
Macrosatelliten. Genetische Marker (Vaterschaftstest,); steht in Zusammenhang mit verschiedenen
Krankheiten, z.B. Diabetes
Microsatelliten: klein 1-5 Basenpaare Repetitionen: bis zu mehreren hundert Wiederholungen
- CA/TG Wiederholungen 0.5% des Genoms – keine bekannte Funktion
- Trinucleotid repeats: CAA (Gln), ACA (Ala): tritt bei neurodegenerativen Krankheiten auf;
STR: short tandem repeats; VNTR: variable number of tandem repeat
B4. Andere Intergene Sequenzen
1. Unerkenntlich degradierte Sequenzen, Transposons, Pseudogene
2. Regulatorische Bereiche: Promoter, Enhancer, Silencer
3. andere
Glossar
Die cDNA (englisch complementary DNA oder copy DNA, deutsch komplementäre DNS) ist eine DNA, die
mittels des Enzyms Reverse Transkriptase aus RNA (wie mRNA und ncRNA) synthetisiert wird. Anwendung
findet die cDNA in der Molekularbiologie, Transkriptomanalyse sowie in der medizinischen Diagnostik.
Der C- oder Chromatinwert ist in der Genetik ein Maß für die Gesamtmenge an DNA in einem haploiden
Genom.
In den Jahren 1940 wurde beobachtet, dass die Menge der DNA in den Zellen jeder Arten konstant (c kommt
constant) ist – gegensatz die Menge der Proteine. Einige Forscher haben deshalb gedacht, dass das Erbmaterial
die DNA ist.
Das C- oder Chromatin-Wertparadoxon beschreibt die Beobachtung, dass der Chromatingehalt eukaryotischer
Genome nicht mit der Komplexität des jeweiligen Organismus und nicht mit der Anzahl der Gene, über die ein
Organismus verfügt, korreliert.
Keimzellen: Zellen die Spermien und Eizellen formen
DNA-Sequenzierung ist die Bestimmung der Nukleotid-Abfolge in einem DNA-Molekül mit Hilfe einem
Sequenator (mit einem speziellen Gerät).
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
12
1. Das Genom
Als Endonuklease wird eine Nuklease bezeichnet, die ein Substrat (DNA und/oder RNA) durch Spaltung einer
inneren Phosphodiesterbindung abbaut, also nicht endständig, spaltet.
Euchromatin: Histone binden sich an DNA locker, so Transkription ist emöglich
Als Exonuklease wird eine Nuklease bezeichnet, die von ihrem Substrat (DNA und/oder RNA) pro
Reaktionszyklus jeweils ein Nukleinsäuremonomer vom Ende des Moleküls her abspaltet.
Phenotyp: jegliche observierbare Struktur, Funktion oder Verhalten eines Indiviuums
Das Heterochromatin sind die Bereiche des verdichteten Chromatingerüsts im Karyoplasma einer Zelle.
Konstitutives Heterochromatin oder auch zentromerisches Heterochromatin. Im Bereich der Zentromers und
Telomers liegen kurze repetitive DNA-Sequenzen in Millionen von Kopien vor (Satellit DNA). Auf Grund dieser
kurzen Sequenzen befinden sich keine Gene an diesem Ort und es können keine Proteine synthetisiert werden.
Nach neueren Erkenntnissen kodieren diese Sequenzen zwar nicht für Proteine, liefern aber nach der
Transkription kleine RNAs mit 21 bis 28 Nucleotiden. Wie und wo sie wirken, ist bis heute noch relativ unklar.
Fakultatives Heterochromatin (oder auch Sexchromatin, Barr Körperchen: Die Histonproteine können entfert
werden, so wird Genexpression ermöglicht.
Introns (englisch Intervening regions) sind die nicht codierenden Abschnitte der DNA innerhalb eines Gens
(intragen), die benachbarte Exons trennen. Introns werden transkribiert, aber dann aus der prä-mRNA
herausgespleißt, bevor diese zur Translation aus dem Zellkern herausgeschleust wird.
Kinasen sind Enzyme, die andere Proteine phosphorilieren (eine PO4 – Gruppe auf bestimmten Aminosäuren
übertragen). So können andere Moleküle (z. B. Enzyme) aktiviert werden.
Knockout (K.O.) tier: ein Tier das ein oder mehrere Gene enthält die durch molekulargenetische Verfahren
inaktiviert wurden
Retrogen: es ähnelt sich auf einem Pseudogen, sie werden durch Transkription hergestellt (also sie enthalten
keine Introne), und haben eigene Promoter, so sie sind funktionsfähig.
Ribonukleoprotein: es besteht aus Proteine und RNA
SRP (signal recognition particle): binden an Signasequenzen an entstehenden sekretorischen Proteinen und
führen das Protein an die Membran des ER
Short tandem repeats (STR) , (englisch, etwa kurze hintereinander auftretende Wiederholungen) bezeichnet in
der Genetik die Wiederholung kurzer Basenpaar-Muster hintereinander in einem DNA-Strang. Diese repetitiven
DNA-Elemente werden auch als Mikrosatelliten bezeichnet. STR sind das zur Zeit gebräuchlichste DNA-Motiv,
das für die genetische Individualisierung von Personen verwendet wird, weil die Anzahl der Wiederholungen ist
in einem Lokus persönlich.
Substrat: ein chemisher Stoff, auf den ein Enzym wirken kann (z. B. verdaut)
Minisatelliten, Minisatelliten-DNA oder VNTRs (variable number tandem repeats) werden in der Genetik
Abschnitte der DNA im Genom bezeichnet, die aus tandemartigen Wiederholungen einer kurzen (ca. 10–100
Nukleotiden langer) DNA-Sequenz bestehen. Anders als andere Satelliten-DNAs ist die Anzahl der
Wiederholungen wesentlich geringer, sie besteht in der Regel aus fünf bis 50 Wiederholungen. Diese Sequenzen
für die genetische Individualisierung von Personen verwendet wird, weil die Anzahl der Wiederholungen ist in
einem Lokus persönlich.
GRUNDANFORDERUNG
6.Vorlesung
Boldogkői Zsolt ©
Herunterladen