1 1. Das Genom Struktur des Genoms Zwei Sorten von Genomen können in der Zelle gefunden werden: Kern-Genom und das mitochondriale Genom bzw. Chloroplasten-Genom in Pflanzen. Das mitochondriale Genom • Mitochondrion: Entstand vor 1.5x10^9 Jahren aus einem Purpurbakterium durch Endosymbiosis. • Säugetierisches Mitochondrium: - Die meisten Gene gingen verloren oder wanderten ins Chromosom. Was überblieb: - 13 Polypeptide (Alle Gene codieren für Enzyme der oxidativen Phosphorylierung) - 12S and 16S rRNA Gene - 22 tRNA Gene, erkennen mehr als einen Codon der selben Aminosäure -Ringförmiges Genom -Kein Intron in den Gene -Ribosomen ähneln an bakteriellen (70 S -Teilen sich binar wie Bakterien • Mitochondrien: ~ 1000 pro Zelle, fünf Genoms pro Mitochondrium Mitochondrien alternative-Codierung verwenden: • Abweichung vom universalen-Code: Codon Aminosäure, universal Aminosäure in Mitochondrien UGA stop Trp (Säuger, Insekten,Hefe, Fungi) AGA Arg stop (Säuger, Insekten) ACG Arg stop (Säuger) AUA Ile Met (Säuger, Insekten, Hefe) CUN Leu Thr (Hefe) CGG Arg Trp (Mais) Genom-Programme Die Kosten zur Sequenzierung fallen drastisch (1990: 1 $/Base; 2010: 10-4 $/Base) Die ersten Organisma, deren Genom sequenziert wurde sind: Modelorganismen der Wissenschaft: E.coli,Hefe, C.elegans, Fruchtfliege, Arabidopsis (Ackerschmale), Maus Verwandte des Menschen: Chimpanse, Oran-gutan, Gorilla Pathogene und ihre Vektoren: Viren, Bacterien, Plasmodium Malariae + Malariamosquito Tiere und Pflanzen der Landwirtschaft: Weizen, Huhn, Kuh, Schwein Haus-Tiere: Hund Andere: Archaebacteria, Amoebe, Wallabi Kangaroo, etc. -Die Sequenzierung von mehreren Spezies ist im Vorgang GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 2 1. Das Genom Human Genome Project (HGP) Der Plan bestand im Sequenzieren des kompletten menschlichen Genoms innerhalb von 15Jahren mit 3Mrd. Dollar Budget - 1990 James Watson, der erste Vorsitzende resignierte frühzeitig, wegen Uneinstimmigkeit zur Patentierung des Genoms. 1992 Francis Collins (NIH), der neue Leiter rekrutierte ein internationals Konsortium: USA, China, UK, Japan, Deutschland, Frankreich. Die US Regierung gab den Plan auf das menschliche Genom zu patentieren 1998 Craig Venter verlässt das staatliche Projekt und gründet sein eigenes Unternehmen mit Namen Celera Genomics, welches in Konkurenz zum Konsortium stand. Er setzte ein neues Verfahren ein, das sogenannte Shot-Gun Sequencing, welche ohne zeitraubender vorheriger physikalischer Kartierung der DNA funktioniert, dauerte das Projekt weniger als ein Jahr. 3 Die Sorge, ein privates Unternehmem besitzt die Rechte am menschlichen Genom und wird der Öffentlichkeit nur gegen Bares zugänglich (was tatsächlich mit dem Mausgenom passierte). Schlussendlich entschlossen beide Parteien zusammen zu arbeiten, womit das menschliche Genom frei untersuchbar wurde. Die Hoffnung: Wir knacken die Nucleotidsequenz, damit verstehen wir wie das Genetische Material arbeitet und damit wären wir im Stande Krankheiten zu heilen. Das diploide Genom eines Einzelnpersons Craig Venter liess sein eigenes diploides Genom sequenzieren. Vorher wurde es angenommen, dass der Unterschied zwischen den Genomen von zwei Individuen etwa 0.1% im Durchschnitt beträge. Wie auch immer nach Venters Versuch kann man von mindestens 0.5% ausgehen. Die mütterlichen und väterlichen Chromosomen von C. Venter wiesen 4 Millionen SNPs (single nucleotide polymorphism), einzelnbaseUnterschiede auf, zusätzlich zahlreiche Indels (kurze Insertion/Deletion). Kopienummer-Änderungen der Gene (copy number variation, CNV) kamen auch vor. Insgesamt, 44% der Gene der ElternChromosomen sind unterschiedlich. Diese Beweise zeigen es, dass die Sequenz-Unterschiede zwischen beliebten Personen liegen bei ~0.5%. Im Vergleich, unterscheidet sich die Menschliche- und Chimpanssche-DNA mit 1.2%, eingenommen Punktmutationen (1% in Codierenden Sequenzen). Aber insgesamt, inklusive Indel-Stellen und Chromosom-Strukturänderungen die Unterschiede liegen auf 3%. Menschliche Genomsequenzen wurden später (2008) von Afrikanischen und Asiatischen Sequenzen ergänzt. Das menschliche Variom-Projekt Sammeln von variablen Sequenzen von verschiedenen Individuen – Primärer Fokus die medizinische Anwendung. Die ZUKUNFT: Individuen-basierte Medizin. Die genetische Unterschiede unter Menschen können die individuelle, personalisierte Therapie gründen. Die Pharmazeutika-Entwicklung und Genehmigung soll auch geändert werden, als die heutige Voraussetzungen mehrere ’zig Millionen Dollar Investition benötigen. Das 1000-Genom-Projekt zielt die Untersuchung des menschlichen Varioms. Die Teilnehmer sind: Wellcome Trust Sanger Institute Beijing Genomics Institute National Human Genome Research Institute National Institutes of Health Budget: $ 30-50 million Ziel: - Analyse von Variationen zwischen Individuen GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 3 1. Das Genom Genoms der Menschenrassen Die ersten Genom-Sequenzdaten stammen von C. Venter, aber im gleichen Jahr (2007) wurde die Genomsequenz von James Watson veröffentlicht. Da die beiden an kaukasischen Menschen gehören, sollte es von Vertreter anderer Menschenrassen erweitert werden. In 2008 wurde das genetische Material eines Han-Chinesen und eines Yoruba-Nigerianer komplett bestimmt. Süd-Afrika Projekt Die Firma J. Craig Venter Institute (JCVI) derzeit führt die genetische Analyse der einheimlicher Südafrikaner durch. Diese Stämme verwenden eine snappende Sprache und unterscheiden sich von den meisten anderen Menschen. Die Tatsache ist, dass es tritt mehr genetische Variation zwischen zwei afrikanische Buschmänner in dem selben Dorf auf als zwischen kaukasischer und asiantischer Menschen. Neuere Erkenntnisse zeigen, dass der moderne Mensch (Homo sapiens) nicht in Ostafrika, aber Südafrika entstanden wurde. Die auf Hautfarbe gegründete rassischen Kategorien sind nicht richtig, weil ein äthiopischer schwarzer Mann näher an einem europäischen oder ein von Asien steht als an Buschmänner. Genstruktur – Diagnose und Therapie: Hoffnung und Limitierung Kenntnis der Genstruktur ist ungenügend zur Genfunktion-Bestimmung. Unterschiede des Phenotyps spiegeln die funktionellen Unterschiede der Gene wieder. Nur ein Teil aller Krankheiten ist genetisch. Die monogenen Krankheiten vertreten bloss 2% der genetischen Erkrankungen; der restliche 98% sind polygenische Erkrankungen. Aber Kenntnis der Genfunktionen kann in Diagnose und Prognose helfen. Die Bedeutung der Varianten in den regulatorischen Bereiche der Gene ist fast unbekannt, obwohl man vermutet, dass die regulatorischen Mutationen können Krankheiten hervorrufen. Die genetische Variabilität unter Menschen ist doch niedrig, so die Hoffnung besteht, dass Verstehen die Funktion der regulatorischen Sequenzen näher zur Diagnose und Therapie bringt. Das Verhältnis der Umgebung und Gene auch nicht eindeutig ist: Umweltänderungen rufen Antworte der Genexpression und DNA-, Histon-Methylierung. Das menschliche Genom ist 3,2 Gigabase-Paar (billion) DNA, welche in 23 Chromosomen (haploides Genom) verteilt ist. Mehr als die Hälfte des Genoms machen Wiederholungssequenzen aus: ~3% simple repeats, ~5% Duplikationen von grossen chromosomalen Segmenten, ~44% Transposons (anderer Name: springende Gene, mobile genetische Elemente. Die Zusammensetzung des Transposons ist: (1) DNA Transposons (3%), Retrotransposons (45%). Transposons häufig unerkennbar wegen Mutationen sind; man vermutet, dass sogar 75% der menschlichen DNA hat Transposon-Ursprung. Manchen unterscheiden Retrotransposons von Retroposons: ersterer kann autonom springen, während letzterer dies nur mit Hilfe Genprodukte anderer Transposons kann. Man kann sehen das kodierende Sequenzen (Exon spezifische Proteinsequenzen) nur 1.1% der DNA ausmachen, während Introns 25.9% (die aktuellste Schätzung 30%). Der Anteil der hochkonservierten Sequenzen ist 4%, darunter 1.1% kodiert für Proteine, die Reste erfüllt regulatorische Funktion oder kodiert RNAs. GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 4 1. Das Genom 3 Typen Sequenzen kommen im menschlichen Genom vor: Kodierend (1.1%), genverwandt (36%) und intergene-Regionen (62.5%). Die transkribierten nicht Protein kodierenden Sequenzen sind verteilt in Kategorien. Gen-verwandte Sequenzen sind: Pseudogene, Gen-Fragmente, Introns, UTRs, cDNA coding DNA stretch Intergene Sequenzen: Repetitive Sequencen + andere, repetitive Sequencen: Transposons (Retrotransposons + DNA-Transposons), einfache- und grosse Wiederholungen. A. Kodierende Sequenzen Struktur eines Gens Kodierende Sequenzen sind die Protein-kodierenden Teile des Exons. Die premRNAs/Primärtranskripts enthalten Introns (welche im Durchschnitt 25x mehr als die Exons sind), mRNAs enthalten nicht translatierte Teile: 5’ UTR (leader) and 3’ UTR (trailer). Die kodierende Sequenz startet mit der Initiationscodon, AUG (kodiert Methionine) und endet mit einem der 3 Stopp-Codons (UAA, UAG, UGA). Der RNA-Bereich ab AUG (Startcodon) bis auf einer der StoppCodon nennen wir ORF (open reading frame, geöffneter Leseraster). Die regulatorische Sequenzen der Gene sind hauptsächlich die Promotoren und Enhancers, die in Transkriptionsaktivierung aktiv teilnehmen; Silencer-Sequenzen, im Gegenteil, die Transkription hemmen. Vor Genomik-Era man vermutete eine hohe menschliche Gebzahl (100000); tatsächlich, die 22000 Gene überraschte unsere Erwartungen. Craig Venter: Es ist daher zu niedrig Gene, der genetischen Determinismus (die Idee, dass ein Individuum durch Gene bestimmt wird) ein großer Fehler ist. Ist diese Ansicht richtig? Diese Feststellung ähnelt an Argument, welches besagt, dass die nur fünf Atomen der DNA (C, N, O, H, P) können nicht die benötigte Informationen tragen wie zB. das menschliche Gehirn. Die Anzahl der Proteine aber beträgt etwa 100.000, die viel höher als die Gene sind. Der Grund dafür liegt in alternativen mRNA Reifungsprozesse (alternetives Spleissen, Promotorverwendung, Polyadenylierung, usw.). Gene des Menschen Ess ind 10-12 tausend funktionsmässig bekannte Gene. Die Funktion des Rests ist unbekannt. Die funktionsmässige Einteilug der Gene ist wie folgt: 1. Expression, Replikation, Erhaltung des Genoms: 23.2% 2. Signaltransduktion: 21.1% 3. Grundlegende biochemische Funktionen: 17.5% 4. verschiedene andere Funktionen (Transport, strukturell, immunologisch): 38.2% Änderungen der Genfunktion während Evolution Konservative Gene: - erfüllen Grundlegende Funktionen in der Zelle: metabolische Enzymes, Cytoskelett - regulatorische Gene: Hox-Gene, Elemente der Signaltransduktions Pathways Schnell evolvierende Gene: - Maus: sex, immune protektion, Geruch-verwandte Gene - Mensch: sex, immune protektion, (Geruch-verwandthe Gene sind degradiert) GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 5 1. Das Genom Was ist ein Gen? Gendefinitionen (1) EIn Gen ein Enzym-Hypothese. Beadle und Tatum (1941) haben ein experimentelles System eingerichtet, das Ihnen erlaubt, um die Beziehung zwischen Genen und Enzymen zu suchen. Die Forscher’s Hypothese war, dass zwischen Gene und Enzyme eine Eins-zu-EinsBeziehung besteht; da es möglich ist, Mutanten, die nicht in der Lage sind, eine bestimmte Enzymreaktion bewerkstelligen zu produzieren. Der Schimmelpilz (Neurospora crassa) wurde durch Röntgen-oder UV-Strahlung mutagenisiert, und die resultierenden Mutanten untersucht. Die Mutante hatten einen Anspruch an Nährstoffe (Aminosäuren, Vitamine), die im Gegensatz zu den normalen Pilzen überlebten nur wenn diese Substanzen zum Medium zugegeben wurden. Die Mutantenn waren in einem bestimmten Schritt der Stoffwechselwege blockiert, so dass Zwischenprodukte an großen Mengen in den Zellen akkumuliert. Der Vermutungen nach die Forscher generierten einzelne Gen-Mutationen und das betroffene Genprodukt, das Emzym erfüllte nicht ihre Aufgaben, so sollte externe Nährstoffe an das System zugeben. Basierend auf diesen Ergebnissen, Beadle und Tatum stellten die ein Gen - ein Enzym-Hypothese ein. Die Versuche zu verstehen nehmen wir dass Enzym 5 nicht arbeitet. Substrat E anreichert, und findet keine Bildung von FProdukt statt. Es kann durch biochemische Tests (Messung der Enzym-Reaktionen) detektiert werden. Wie es später herauskam das Konzept des Gens von Beadle und Tatum war nicht genau definiert, da nicht alle Proteine Enzyme sind, Proteine können auch aus Untereinheiten (zB Hämoglobin aus 4) bestehen. (2) Ein Cistron ein Polypeptid Hypothese Seymour Benzer (1955) hat die Struktur der Gene E. coli T4 Phages durch induzierten Mutationen und genetische Rekombination untersucht. Basierend auf den Ergebnissen dieser Untersuchungen haben das Konzept eingeführt, daß die Cistrons die Funktionseinheit der Gene ist, sowie ein Cistron für ein Polypeptid-Molekül kodiert. Später ist das Konzept einfach aus der Mode gegangen. (3) Ein Gen ein Polypeptid Hypothese Der Einsatz moderner Techniken Tatsachen ans Licht kam, dass die RNA wegen der Reifung eine Vielzahl von alternativen Verfahren (alternative Promotornutzung, alternative Spleißen - Capping – Polyadenylierung) Synthese mehrerer Proteinen erlaubt. 1941: Beadle and Tatum: 1 Gen – 1 Enzym Hypothese. Funktion von Proteinen wurde untersucht durch Mutationen in Fungi Spezies (Neurospora crassa). ZB, wenn das 5te Enzym defekt ist, häuft das Substrat E an und das Produkt F wird nicht hergestellt. (Bestimmt wurde durch biochemische Vorgänge). 1955: 1 Cistron - 1 Polypeptide - rII Phage: Mutation/Recombination cistron: funktionelle Einheit - 1 Polypeptid kann aus verschiedenen Untereinheiten zusammengesetzt sein (zum Beispiel das Hämoglobin besteht aus 4 Untereinheiten). - Nicht jedes Protein ein Enzym ist, die spätere Definition besagt: 1 Gen – 1 Polypeptid, die Idee vom Cistron wurde unpopulär. Heute: Wegen alternativer Prozessmöglichkeiten schwierig einzuschätzen: alternatives-Spleissen, Promotor-Verwendung, -Capping, -Polyadenylierung bieten zahlreiche Möglichkeiten zur Bildung mehrerer Proteine auf die genetische Information eines Gens gegründet. Gen-Analyse Die Struktur des Gens Ein Gen besteht aus regulatorischen und codierenden Bereich. Der transkribierte mRNA enthält Exons (kodierendend), Introns (nicht-kodierende Regionen), und 5’ und 3’ nicht-kodierende Regionen. Die Ausdrücke sind dass Introns hatte im Zellkern bleiben, während die Exons Verlassen des Zellkerns. Die überwiegende Mehrheit der menschlichen Gene enthalten Introns. Es gibt jedoch ein paar Ausnahmen zu dieser Regel, zum Beispiel. mehrere G-Protein-gekoppelten Rezeptor- und Histon-Gene enthalten keine Introns. Besondere Ausnahmen sind die sogenannten retroviralen Gene. Die Proteine ähnlich an RNA durchlaufen auch Reifung. Vor der Exon-Sequenzen befindet sich das 5'-UTR, 5’ untranslatierte Region (Leiter); am 3’ Ende der Exons befindet sich die 3'-UTR-Sequenz (Anhänger). Beide codieren keine Aminosäuren. Diese Regionen spielen eine wichtige Rolle bei der Regulation des mRNA-Translation. Jene Teile der codierenden Region von Exons wird in Aminosäuresequenzen translatiert Die codierende Sequenz der mRNA in der Regel beginnt mit AUG-Triplett (kodiert für Methionin) und endet mit einer der drei Stoppcodons (üblicherweise mehrere Stopp-Sequenzen aufeinander folgen). Ab Methionin bis auf Stopp-Codon liegende RNA-Segmente als ORF (open reading frame, geöffneter Leseraster) genannt wird. Die DNA-Gene enthalten nur die ORFs, wenn die Intron-frei sind. Die Gene, deren Funktion nicht bekannt GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 6 1. Das Genom ist, werden oft als ORF bezeichnet. Die regulatorischen Sequenzen der Gene sind Promotoren und EnhancerSequenzen, die jeweils die Transkription stimulieren. Im Gegenteil, SIlencer-Sequenzen die Transkription inhibieren. Analyse von einzelnen Genen 1. Klassische (Mendelsche) Genetik – 20.Jhdt, 1.Hälfte. Drosophila war der Modellorganismus . Der typische Ansatz in dieser Era war die “Vorwärts-Genetik”. In den Experimenten wurde zunächst eine Mutation induziert, wonach der genetische Hintergrund mit Hilfe von Karteirungstechnik untersucht wurde. 2. Molekulargenetik – 20. Jhdt 2te Hälfte. Der typische Modellorganismus zu begin der Era war der Bakteriophage. Später die Bakterien (Escherichia coli) ersetzten den Bakteriophage, danach wechselten Wissenschaftler auf höhere Lebewesen, wie z.B. Nematoden (Cenorhabditis elegans), Fruchtfliege und Mäuse. Dieser Ansatz wurde als reverse-Genetik bezeichnet, da in einem typischen Experiment zunächst, geplante genetische Veränderungen (z.B. Ziel-Gen Deletion: knockout technology) im Genom ausgeführt wurden, gefolgt von Suche und Charakterisierung des erhaltenen Phenotyps. Analyse von multiplen Genen (zur gleichen Zeit) Genomik 21. Jhdt. Dank technischen Fortschritts können wir multiple Gene oder mehrere DNASequenzen untersuchen. Strukturelle Genomik: Bestimmung von Genstruktur (Basensequenz). Durch Fortschritt in Sequenzierungstechnologie wird die Sequenzierung fortlaufend immer günstiger. Funktionelle Genomik wird auch als Wissenschaft der Postgenom-Era bezeichnet, da nun nach Aufdecken der DNA Struktur die Funktion der DNA zu erforschen gilt. Heutzutage ist es möglich, die Expression von einer Großzahl von Genen zu untersuchen durch Verwendung von DNA- und ProteinChiptechnologie. Dies erlaubt das Erforschen von Transkription und Funktion von Genen in erkrankten und zum Vergleich in behandelten Zellen, Geweben. Integratives Genomik beschäftigt schich mit der Wechselwirkungen der Komponenten molekularer Systems. Genom-Annotation Der Prozess bedeutet Anhängen biologische Information an Sequenzen (Genom-Annotation). Bezieht sich eigentlich auf Gene, kann aber auch auf Sequenzen bezogen werden). Strukturelle Annotation: Identifikation einer Sequenz als Gen - Lokalisation auf einem Chromosom - Identifikation von Exons und Introns - Lokalisation von regulierenden Regionen Funktionelle Annotation: anheften einer Funktion an eine Sequenz - biochemisch - Zell- und molekularbiologisch - Teilnahme an Regulation und Interaktion - Expression (wann, in welcher Zelle, wieviel), auf RNA- und Protein-Ebene Die oben genannten Annotationen involvieren feuchte- (experimentelle) und in silico-Untersuchungen. B. Nicht-kodierende Sequenzen GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 7 1. Das Genom Erhöht sich der Anteil der nicht-kodierenden Sequenzen mit der Komplexität der Tiere. Interessanterweise das Hund-Genom ist frei von intergene-Sequenzen, dessen Grund ist unbekannt. Introns und UTRs UTR: Regulation von Translation und Halbslebenszeit der RNAs Introns Introns werden herausgespleisst während der RNA-Reifung. Ihre möglichen Rollen sind: 1. Genetischer Abfall; 2. Regulation: (a) kann cis-Elemente enthalten, oder (b) reguliert als RNA; 3. im alternativen Spleissen kann es als Exon dienen. Pseudogene & Genfragmente Genfragmente sind funktionslose Teilgene die durch unvolkommener Duplikation entständen. Genefragmente: Abfall Pseudogene (pseudo: nicht echt): Promotorlose Gene, sind unfunktionsfähig 2 Sorten: 1. Intron-enthaltend: chromosomale Segment-Duplikationen 2. Intronlos: reverse Transkription, dann Reinsertion Funktion: 1. In einigen Fällen Genregulation des original Gens durch antisensaktion 2. Genetischer Abfall Unter der 15.000 menschlichen Pseudogene die hälfte sind intronlos. Dies können sich Promotor-nah integrieren, und als retro-Gene wiedererleben. Das häufigste Pseudogen hat ribosomale Ursprung (13%), da rRNA befindet sich an grossen Anteil in der Zelle. B2. Intergenisch Sequenzen-Transposons Transposons sind Springende Gene (präziser DNA Transposons) und wurden duch Barbara McClintock im Mais entdeckt in 1951 und wurde mit dem Nobelpreis belohnt 1983. Verteilung der Transposons: Alien invaders 1. Retroviren 2. Degradierte Retroviren 3. DNA Transposons: Ihr eigener Ursprung ist unbekannt Stabile Retrovirusinsertion in das Genom: Der Vorfahre des Retroviruses in unserem Genom infizierte die Keimbahn. Die einzelsträngige RNA wird in zwei Schritten in doppelsträndige DNA konvertiert und ins Genom sich integriert. Nun werden strukturelle Proteine und das RNA-Genom synthetisiert, die reifen Viren treten in den extrazellulären Raum und sind für weitere Infektion bereit. Runaway elements: Alu- und MIR-Sequenzen (siehe später) Koala-retrovirus Das Genom von Koala-Bär ist jedoch von einem Koala-Retrovirus besiedelt. In Australien, in bestimmten Regionen, der Virus vererbt wird, breitet sich die Infektion auf andere Regionen. HIV-Virus ist am Anfang dieses Weges, wurde noch nicht in die Keimbahn integriert, und es sit fraglich, ob dies überhaupt geschieht. GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 8 1. Das Genom Transposons - II Klassifizierung von Transposons: I. Klasse: Retrotransposons, darunter: 1. LTR-Transposons (LTR: long terminal repeat) 2. Nicht-LTR-Transposons - 2a. LINEs (long interspersed nuclear elements) - 2b. SINEs (short interspersed nuclear elements) Das Genom eines funktionsfähiges Retroviruses aus der folgenden Elemente besteht: LTR (long terminal repeat), am beiden Ende des Genoms fonktioniert als Promotor; die GAG-region kodiert für Capsid-Elemente; POL kodiert für Enzyme (reverse Transkriptase schreibt RNA in DNA um; RNaseH liefert RNA-Primers zur zweiter-Strang DNA-Synthese; Integrase ist zur Integrierung des Virusgenoms ins Wirtsgenom benötigt; ENV kodiert für Glycoproteine der äussere Virushülle). LTR (long terminal repeat): Funktioniert als Promoter gag: Komponenten des Capsids (capsomers) pol: Enzyme des Retroviruses: Reverse Transkriptase konvertiert RNA in DNA; RNAse H produziert die Primer für den 2ten Strang-Synthese; Integrase is ist verantwortlich fuer das Insertieren der DNA in die WirtDNA; Protease schneided ein langes Polypeptides in kleinere Stücke . env: produziert die Komponenten (Glycoproteine) für den äußeren Layer (envelope) des Virus. LTR Retrotransposons (8% des Genoms) haben LTRs. 1% enthalten die gleichen Komponenten wie der vorherige Retrovirus, die human endogenous retroviruses (HERVs). Jedoch können sie aufgrund von verschiedenen Mutationen nicht alle Komponenten herstellen die zur Replikation notwendig sind. Es wurde kürzlich herausgefunden, dass der K-type HERVs voll funktionfähig ist. Dem Rest (7%) der LTR Retrotransposons (genaugenommen Retroposons ) fehlen verschiedene Teile des Genoms (meist das env gen). Non-LTR retrotransposons: feht das LTR. LINEs sind degenerierte Viren, SINEs sind entweder degenerierte Viren oder, wie ihr häufgister Vertreter, die Alu-Sequencen evolved von RNA Komponent der SRPs* Host Zelle (siehe Später). . II. Klasse: DNA Transposons DNA Transposons: Das Enzym Transposase führt den Vorgang der Transposition aus (schneiden und insertieren) der DNA Sequenz ins Host Genom. Transposase Gen wird beiderseits flankiert von inverted repeats. Die menschlichen DNA-Transposons häuften Mutationen an ind sind inaktiv geworden. Die LINE-Transposons vertreten insg. 20 % des menschlichen Genoms (850.000 Kopien); SineSequenzen 13 %, darunter 11 % Alu-Sequenz sind, und die Reste mutierte tRNA-Sequenzen (MIR) oder Retrovirus-Überreste (SINE-R) sind. Human endogene Retroviren (HERV) & LTR transposons LTR Retrotransposons machen 8% des Genoms aus, aber nur 1% hat eine Struktur ähnlich eines Retroviruses, die restlichen sind degeneriert. Alle von ihnen sind mutiert: sie sind nicht in der lage infektiöse Viren zu formen aber, einige von ihnen können sich mit Hilfe von Enzymen anderer Elemente vortbewegen. Neuentdeckung: HERV-K ist aktiv! Das Transposon MaLR transzpozon ein LTR- Transposon ist, hochdegeneriert, hat keine pol und env Gene. GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 9 1. Das Genom Die Wirkung von endogenen Retroviren in der Genexpression in menschlichen Zellen. Die HERV's mehrere Effekte im menschlichen Gen-Expression ausüben. (1) Der häufigste Fall ist, dass diese Sequenzen haben keine Wirkung auf die Expression zellulärer Gene. (2) Die HERV-LTR die Aktivität eines menschlichen Gens regulieren können. (3) Wenn das Gen eine aktive oder latente Splice Akzeptor-Stelle hat, kann sie mit der des retroviralen Spleißdonor-DNA zusammenarbeiten, und damit eine neue Spleißvariante bilden. (4) Die LTR Aktivität kann moduliert werden: LTR kann methyliert oder mutiert sein, was sich auf das Genexpressionsmuster der Zelle auswirkt (z.B. Zellspezifizität). Nicht-LTR Retrotrasposons enthalten LINE-s und SINE-s. LINEs besetzen 21% des menschlichen Genoms (850,000 Kopien). 17% von ihnen sind LINE-1 (L1) das macht 500 tausend Kopien. cca. 10,000 Kopien von L1 haben volle Länge, aber nur 500 – 1000 Kopien sind funktionell im Sinne das jedes Ihrer Gene intakt ist. Der Rest der L1 kann auch springen durch das Benutzen von Enzymen anderer Elemente. Daher ist die Mehrheit von L1 Pseudogen; die anwendung des Begriffs (autonom) für die ganze Gruppe ist irreführend. LINEs kann sowohl in somatischen als auch in Keimzellen mobilisiert werden. 2 unübliche Eigenschaften weisen sie auf: 1. Neben Cap, kann die Translation von einer inneren Position aus gestartet werden (IRES: internal ribosome entry site), was charakteritisch fuer Prokaryoten ist. 2. Langes Protein wird in zwei gespalten, was zwar auch in Eukaryoten vorkommt, allerdings eher selten. Die Retro-Elemente sind nicht nur die Abbauprodukte von Retroviren, aber ändern ihre Sequenz plötzlich, wodurch eine neue oder kombinierten Funktionen von Proteinen gebildet werden, zB. L1 ORF-2-Gen. Viele junge L1-Elemente verbreiten sich erst jetzt in der menschlichen Bevölkerung, damit die "vorhanden / nicht vorhanden" (Anwesenheit / Abwesenheit) sein können. LINE-1 duplication LINE-1 kann als perfekte oder imperfekte Kopie relokalisiert werden. Die Wirkung von LINE-1 auf das Genom – Bildung von Pseudeogenen Durch seine Enzyme (Reverse Transkriptase, Integrase, etc) LINE-1 kann von zellulärer mRNA DNA synthetisieren, welche sich als introloses Pseudogen ins Genom einbaut werden kann. Meistens Pseudogene unfuktionelle Gene sind, da sie regulatorische Elemente (Promotor) nicht enthalten. Die Wirkung von LINE-1 auf das Genom- Geninaktivierung Das mobile Element kann in eines Gens insertiert werden (in ein Exon oder Intron), was zur Inaktivierung des Gens führen kann. Insertion in ein Intron kann zu einem Stopcodon führen durch alternatives Splicen. In diesem Fall ist das Protein verkürzt, was nicht zwangsläufig heist, dass das Protein komplett funktionslos ist. Die Wirkung von LINE-1 auf das Genom- Transduktion 1. Das Poly-A Signal von LINE ist schwach → read-through von benachbartem Gen exon 2. Insertion eines Stücks von LINE und das Exon von Gen „A” an Gen „B” 3. … oder nur das Exon von Gen „A” Anmerkungen: 1. Normalerweise trägt LINE-1 kein Exon sondern eine zufällige DNA-Sequenz. 2. Translokation von DNA tritt meist in somatischen Zellen auf (albeit L1 ist sehr aktiv in Keimzellen) → nicht vererbt (jedoch kann dieser Prozess zur Tumorbildung führen) 3. Wenn dieser Prozess in der Keimbahn eintritt (spermium oder Eizelle), muss das Rearrangement der DNA selektiv von vorteil sein um sich in einer Population durchzusetzen. In kleineren Populationen können sich solche Umstrukturierungen verteilen durch eher zufällig Prozesse. SINEs Vertreten 13% des Genoms, darunter 11% Alu-Sequenzen sind (nicht Proteinkodierend) - Tragen eine AluI Restriktionsenzym-Erkennungsstelle (5’AG/CT3’, daher der Name) - Ein durchschnittlicher SINE repeat Einheit besteht aus 100 - 400 Bp (Alu: 300 bp: 280 bp + pol III GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 10 1. Das Genom promoter) - mehr als 1 millionen Kopien, das erfolgreichste Transposon im Menschen - Vorfahr: SRP (signal recognition particle; ribonucleoprotein) RNA Komponente (7SL RNA) - SINE-R retroposon Familie (4-5000 Kopien/haploides Genom): Retrovirus Ursprung Die Alu-Sequenzen befinden sich in G/C-reichen Region des Genom (R Giemsa-Band des metaphaseChromosom), während die LINE-1 in A/T-reichen Region (G-Band des Chromosoms). Interessanterweise sind die Maus B1 Retroposons auch aus 7SL RNA gebildet, unabhängig von der AluSequenzen. Die MIR-Sequenzen (mammalian interspersed repeats) befinden sich in 450.000 Kopien (haploides Genom) und der MIR-3 (85000 Kopien / haploid Genom) Retroposon stammen aus eine tRNA Gen-Familie. Alu Sequenz der Hyperparasit: Alu-Sequenz benutzt reverse Transkriptase von LINE-1 zur Bildung DNA aus RNA. Sie ist ein Hyperparasit, das sie LINE-1 ausnutzt, welche selbst ein Parasit im DNA genom darstellt. Alu-Sequenz-verbundene Krankheiten Brustkrebs, Ewing sarcoma, familiäre Hypercholesterolemie, Hemophilie, Neurofibromatosis, Diabetes Mellitus Typ II können durch Alu-Mobilisierung entstehen. DNA Transposons DNA-Transposons bestehen aus einem Transposase-Gen und der umliegenden umgekehrt wiederholt (IR)Sequenzen. Normalerweise, das genetische Element wird durch Transposase-Enzym ausgeschnitten und in das Genom an einen anderen Ort mit dem "cut and paste"-Mechanismus eingefügt. (Retrotransposons verwenden den "copy and paste"-Mechanismus). - Infektionsmechanismus und Vektor der DNA-Transposons ist unbekannt - Transposase verursacht das springen: „cut and space” Mechanismus – wie vermehren sie sich? - Mehr als 60 Familien: Charlie, mariner, Tigger, THE1, etc - Die Mariner Transposons ähnelt den Insekten Transposons: Kam horizontaler Gentransfer vor? – detailierte genetische Analyse zeigt eher unwarscheinlich. - Es können kaum funktionale DNA Transpons in der DNA von Wirbeltieren gefunden werden: kein einziges im Menschen. Host Verteidigungsmechanismen gegen Transposons 1. Heterochromatinisation (Methylierung der DNA); Folge: Inhibierung der Transkription 2. RNA Interferenz: Inhibierung der Transkription & Translation 3. Lokal erhöhte Mutationsrate: Inaktivierung Vorteile für den Host durch Transposons 1. Variabilität in Genen die für Antiköper, B- und T-Zell-Rezeptoren kodieren 2. Genomplastizität: Leichtere Umstrukturierung des Genoms B3. Intergenische Sequenzen – kleine und grosse DNA-Wiederholungen Tandem Repeats Sind consecutive, identische oder nahezu identische (degenerierte) Wiederholungseinheiten Variabilität in Länge von: (1) Wiederholungseinheit und (2) dem ganzen Repeat Drei Klassen unterschieden werden können: GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 11 1. Das Genom (Macro)satelliten: von 1 bis mehrere hundert kB Wiederholungen: Centromer und konstitutives Heterochromatin - Telomer: 15 kb: TTAGGG hexamer – Telomerase bindet an die Enden des Chromosoms - Satellit 2 und 3: GGAAT-Einheit - Alpha-Satellit: 171 bp Einheiten Minisatelliten (VNTR, variable number of tandem repeats, STR, short tandem repeats): Sind kürzer als Macrosatelliten. Genetische Marker (Vaterschaftstest,); steht in Zusammenhang mit verschiedenen Krankheiten, z.B. Diabetes Microsatelliten: klein 1-5 Basenpaare Repetitionen: bis zu mehreren hundert Wiederholungen - CA/TG Wiederholungen 0.5% des Genoms – keine bekannte Funktion - Trinucleotid repeats: CAA (Gln), ACA (Ala): tritt bei neurodegenerativen Krankheiten auf; STR: short tandem repeats; VNTR: variable number of tandem repeat B4. Andere Intergene Sequenzen 1. Unerkenntlich degradierte Sequenzen, Transposons, Pseudogene 2. Regulatorische Bereiche: Promoter, Enhancer, Silencer 3. andere Glossar Die cDNA (englisch complementary DNA oder copy DNA, deutsch komplementäre DNS) ist eine DNA, die mittels des Enzyms Reverse Transkriptase aus RNA (wie mRNA und ncRNA) synthetisiert wird. Anwendung findet die cDNA in der Molekularbiologie, Transkriptomanalyse sowie in der medizinischen Diagnostik. Der C- oder Chromatinwert ist in der Genetik ein Maß für die Gesamtmenge an DNA in einem haploiden Genom. In den Jahren 1940 wurde beobachtet, dass die Menge der DNA in den Zellen jeder Arten konstant (c kommt constant) ist – gegensatz die Menge der Proteine. Einige Forscher haben deshalb gedacht, dass das Erbmaterial die DNA ist. Das C- oder Chromatin-Wertparadoxon beschreibt die Beobachtung, dass der Chromatingehalt eukaryotischer Genome nicht mit der Komplexität des jeweiligen Organismus und nicht mit der Anzahl der Gene, über die ein Organismus verfügt, korreliert. Keimzellen: Zellen die Spermien und Eizellen formen DNA-Sequenzierung ist die Bestimmung der Nukleotid-Abfolge in einem DNA-Molekül mit Hilfe einem Sequenator (mit einem speziellen Gerät). GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt © 12 1. Das Genom Als Endonuklease wird eine Nuklease bezeichnet, die ein Substrat (DNA und/oder RNA) durch Spaltung einer inneren Phosphodiesterbindung abbaut, also nicht endständig, spaltet. Euchromatin: Histone binden sich an DNA locker, so Transkription ist emöglich Als Exonuklease wird eine Nuklease bezeichnet, die von ihrem Substrat (DNA und/oder RNA) pro Reaktionszyklus jeweils ein Nukleinsäuremonomer vom Ende des Moleküls her abspaltet. Phenotyp: jegliche observierbare Struktur, Funktion oder Verhalten eines Indiviuums Das Heterochromatin sind die Bereiche des verdichteten Chromatingerüsts im Karyoplasma einer Zelle. Konstitutives Heterochromatin oder auch zentromerisches Heterochromatin. Im Bereich der Zentromers und Telomers liegen kurze repetitive DNA-Sequenzen in Millionen von Kopien vor (Satellit DNA). Auf Grund dieser kurzen Sequenzen befinden sich keine Gene an diesem Ort und es können keine Proteine synthetisiert werden. Nach neueren Erkenntnissen kodieren diese Sequenzen zwar nicht für Proteine, liefern aber nach der Transkription kleine RNAs mit 21 bis 28 Nucleotiden. Wie und wo sie wirken, ist bis heute noch relativ unklar. Fakultatives Heterochromatin (oder auch Sexchromatin, Barr Körperchen: Die Histonproteine können entfert werden, so wird Genexpression ermöglicht. Introns (englisch Intervening regions) sind die nicht codierenden Abschnitte der DNA innerhalb eines Gens (intragen), die benachbarte Exons trennen. Introns werden transkribiert, aber dann aus der prä-mRNA herausgespleißt, bevor diese zur Translation aus dem Zellkern herausgeschleust wird. Kinasen sind Enzyme, die andere Proteine phosphorilieren (eine PO4 – Gruppe auf bestimmten Aminosäuren übertragen). So können andere Moleküle (z. B. Enzyme) aktiviert werden. Knockout (K.O.) tier: ein Tier das ein oder mehrere Gene enthält die durch molekulargenetische Verfahren inaktiviert wurden Retrogen: es ähnelt sich auf einem Pseudogen, sie werden durch Transkription hergestellt (also sie enthalten keine Introne), und haben eigene Promoter, so sie sind funktionsfähig. Ribonukleoprotein: es besteht aus Proteine und RNA SRP (signal recognition particle): binden an Signasequenzen an entstehenden sekretorischen Proteinen und führen das Protein an die Membran des ER Short tandem repeats (STR) , (englisch, etwa kurze hintereinander auftretende Wiederholungen) bezeichnet in der Genetik die Wiederholung kurzer Basenpaar-Muster hintereinander in einem DNA-Strang. Diese repetitiven DNA-Elemente werden auch als Mikrosatelliten bezeichnet. STR sind das zur Zeit gebräuchlichste DNA-Motiv, das für die genetische Individualisierung von Personen verwendet wird, weil die Anzahl der Wiederholungen ist in einem Lokus persönlich. Substrat: ein chemisher Stoff, auf den ein Enzym wirken kann (z. B. verdaut) Minisatelliten, Minisatelliten-DNA oder VNTRs (variable number tandem repeats) werden in der Genetik Abschnitte der DNA im Genom bezeichnet, die aus tandemartigen Wiederholungen einer kurzen (ca. 10–100 Nukleotiden langer) DNA-Sequenz bestehen. Anders als andere Satelliten-DNAs ist die Anzahl der Wiederholungen wesentlich geringer, sie besteht in der Regel aus fünf bis 50 Wiederholungen. Diese Sequenzen für die genetische Individualisierung von Personen verwendet wird, weil die Anzahl der Wiederholungen ist in einem Lokus persönlich. GRUNDANFORDERUNG 6.Vorlesung Boldogkői Zsolt ©