Humane Genetische Diversität Peter Ahnert www.uni-leipzig.de/~ahnert/ Gliederung • Das menschliche Genom • Definition “Gen” • Variabilität im Genom • Genetisch Bedingte Erkrankungen • Das Humangenomprojekt Biologie ist Komplex Sichtbarer Phenotype Organe, Gewebe, und Zellen Proteom Transkriptom Genom Verschiedene Genome Das Menschliche Genom ca. 3,3 Mrd. Basenpaare, ca. 40 000 Gene, ca. 1,12 Meter lang Das Menschliche Genom Eigenschaften: • ca. 3.3 Mrd. Basenpaare (haploid) • 30,000-35,000 Gene (?) • Durchschnittliche Gengröße: 3000 Basenpaare. Das größte ist das Dystrophin Gen mit 2.4 Millionen Basenpaaren • Nur ca. 2% kodierende DNA • Für 50% der bekannten Gene ist die Funktion unbekannt • 98% des Genoms hat keine bekannte Funktion (?) • Verschiedene Gendichte der Chromosomen: • Chromosom 1 hat die meisten Gene (2968) •Y-chromosom hat die wenigsten (231) • Mindestens 50% der nicht-kodierenden DNA sind repetitive Sequenzen Das Menschliche Genom Organisation des Genoms Humanes Genom 3,300 Mb 16,6 kb Nukleares Genom 25% Gene 10% Kodierend Pseudogene Mitochondriales Genom 75% Extragenisch 2 rRNA 22 tRNA 13 Gene 90% Nicht-kodierend Gen Fragmente Nicht-Repetitiv Introns usw. Tandem und Cluster Repetitiv Interspersed Gen-Definition Bis Ende der 40er Jahre “Das Gen ist etwas, was ein Phenotypisches Merkmal bestimmt.” Gen-Definition bis Ende der 70er Jahre DNA Protein “Das Gen ist ein DNA Abschnitt, der für eine kontinuierliche Polypeptidkette kodiert.” Gen-Definition seit den 80er Jahren DNA prä-mRNA mRNA Protein DNA Segment, welches als eine Einheit transkribiert wird und für ein Set verwandter Proteine kodiert Alternatives Spleißen TNFR14 im Genom • Gen: ca. 7500 Basenpaare • 238 Aminosäuren • Zelloberflächenmolekül • Wichtig für Signale in der Immunantwort auf Infektionen • Mitglied der Tumor Necrose Faktor Rezeptor Familie • Identifiziert als zellulärer Mediator für das Eindringen von Herpes Simplex Virus TNFR14 Transkript 1 Transkript (mRNA): 1634 bp, 8 Exons Dystrophin im Genom • Größe des Gens: 2,4 Megabasen • 79 Exons • Muskelprotein, lokalisiert in der Membran des Sarkolemma • Meist nicht vorhanden in Individuen mit Duchenne Muskeldystrophie • Meist falsche Größe in Becker Muskeldystrophie • Genaue Funktion unklar • Mögliche Rolle im Zusammenspiel von Membranen und Myofibrillen während der Muskelkontraktion Dystrophin Transkripte Transkript 1 2076 bp 13 Exons Transkript 2 1818 bp 12 Exons Transkript 3 1284 bp 8 Exons Einige Definitionen Genom: Gesamtheit der Gene eines Organismus Gen: DNA Segment, welches als eine Einheit transkribiert wird und für verwandte Proteine kodiert Allel: Eine bestimmte Variante eines Gens Mutation: Sprunghafte Veränderung des Genoms von einem Zustand in einen anderen (von einem Allel in ein anderes) Individualität Unterschiede zwischen Menschen: • Physische Merkmale: Größe, Geschlecht, Augenfarbe, Gesichtsform, … • Verhalten: Agressivität, Gruppeninteraktion, Flirtverhalten • Kognitive Fähigkeiten: Lernen, Erinnerung, Abstraktionsvermögen Kommen Zustande durch: Gene Umwelt Zufall Variabilität im Genom • ca. 3,3 Mrd Basenpaare im Genom • ca. 99,9% identisch zwischen Individuen • ca. 0,1% Unterschiede = 3 Millionen Variable Stellen Variabilität im Genom – Ursachen • Unvermeidlich da - Replikation nicht fehlerlos - Spontanes auftreten von Mutationen - Unvollkommene Reparaturmechanismen • Notwendig zur Anpassung an neue Umweltbedingungen - Krankheiten - Klima Variabilität im Genom – in Populationen • Stabilisierende Kraft - Hardy-Weinberg Prinzip • Verändernde Kräfte - Mutation - Genetische Drift - Migration - Selektion Beispiel Selektion • FY… - Oberflächenmolekül auf Erythrozyten (Duffy Blutgruppe) - Notwendig für das Eindringen von Plasmodium vivax in Erythrozyten • HP… - Haptoglobin, bindet freies Hämoglobin - Osteoporose Risikofaktor • GC… - “Group-specific component”, bindet und transportiert Vitamin D - Assoziiert mit Graves’ Krankheit (Schildrüsenleiden) Beispiel Selektion GC-1 FY-0 HP-1 Plasmodium vivax Malaria Variabilität im Genom – Mechanismen • Mutationen - Somatisch - Keimbahn • Sexuelle Fortpflanzung / diploides Genom - “Mischung” mütterlicher und väterlicher Allele - Crossing over Chromosomen Mutationen Intrachromosomal Interchromosomal Insertion Translokation Sequenzmutationen Basensubstitution Baseninsertion / Basendeletion Variable Elemente des Genoms • Mutationen • Single Nucleotide Polymorphisms (SNPs) • Repeats (meist nicht kodierend) - Megasatelliten (mehrere kbp, Blocks bis 100e kbp) - Satelliten (5-171 bp, Blocks 100 kbp bis Mbp) - Minisatelliten (6-64 bp, Blocks 0,1 – 20 kbp) - Microsatelliten (1-4 bp, Blocks bis 150bp) • Repetitive kodierende DNA • “Variable Number Tandem Repeats” (VNTRs) • “Transposable Elements” Individualität – Gene, Umwelt, Zufall? • Zwillingsstudien • Kopplungs Kartierung (Linkage Mapping) • Assoziationsstudien • Mutationsanalysen Zwillingsstudien Kopplungskartierung (Linkage Mapping) Genetisch Bedingte Erkrankungen “Alle Krankheiten sind genetisch” Umwelt Gene Hämophilie Diabetes Asthma Rheumatoide Arthritis Lungenkrebs Genetisch Bedingte Erkrankungen Monogenisch Bedingte Erkrankungen: • Mendelisch oder nahezu mendelisch • Erkennbar in Stammbäumen • Kausales Gen mittels Kopplungsanalyse gut zu identifizieren Polygenisch Bedingte Erkrankungen • Meist nicht-mendelisch • Anscheinend sporadisch • Kausale Gene mittels nicht-parametrischer Kopplungsanalyse eingrenzbar Hämophilie A • • • • Blutgerinnungsstörung Gerinnungsfaktor Faktor 8 ist betroffen X-gebunden rezessiv (Xq28) In ca. 80% isolierter Fälle ist die Mutter Trägerin Phänotyp - Genotyp Analyse der Rheumatoiden Arthritis (RA) • Autoimmunkrankheit: Progressive Gelenkzerstörung • Ca. 1% der Bevölkerung betroffen • Lebenserwartung 5 - 10 Jahre reduziert • Entstehungsmechanismus unklar • Genetische Suszeptibilität 30-60% RA - Ätiologie und Pathogenese genetic predisposition unknown antigens other risk factors Activation Adhesion Permeabilization T-cells & Bcell activation Synovial membrane Migration of inflammatory cells Cytokines Mediators TNF IL-1 Pannus formation Lining cells T-cells, M Production of Collagenase (MMPs) by fibroblasts, chondrocytes and osteoclasts Joint destruction Dinarello C.A., Moldawer L.L. Amgen 1999, Proinflammatory and Anti-inflammatory Cytokines in Rheumatoid Arthritis RA-Gene im Humanen Genom RA Suszeptibilitäts-Loci identifiziert durch Genom-weite Kopplungsanalyse Biologische Kandidaten MacKay, et al.: Arthritis & Rheumatism Vol. 46, No. 3, March 2002, pp 632-639 Andere Studien Unsere Analyse Assoziationsstudien Analysis & Gene Selection Clinical-Biological System Candidate Genes SNP Retrieval Clinical Problem Clinical Study Candidate SNPs SNP Evaluation and Selection SNP Short List Assay Design & Genotyping Clinical Data Genotype Data Statistics / Data Mining Pattern Recognition Associations Auswahl von SNPs für die Genotypisierung SNP rs# Distance SNP from gene Band Alleles Gene position previous position SNP SNPrange104913005 1 ende 496045 104909393 11q22.2 3E+06 104909359 11q22.2 632478 104909345 11q22.2 Role Amino Amino acid acid Flanks change position Contig Sub- Valimap snp- chr cfg total ctg ctg ctg ctg rs # chr mitters dated weight type hits hits hits acc vers ID pos chr local avg s.e. max. vali- geno- link orig upd Promoter biological notes pos loci het*100 het probe dated types outs build build effect effect 34 -5000 -1388 A/G MMP3 Promoter TTATCTTCTTGTCTTTATTTTTATCATCTATGAAATATAAATACAATGATATCAGCCCTGGTTATTTCTTCATTACCGTTGACTACTGTATTAGCCAGAACTTGTAGTAGGGAAAATTAAAGTGTTGTTCAATTTCTTATGAGAGGGTTTACTTTGGCAAGTTAAACAAATGATGATATAGTAATTACCTTTAAAAATGAAAACGAGGTCCTTGCTAGTAACTTCATATGCGGCATCCACGCCTGAAGGAAGAGA 6E+06 1E+08 0 0 0 91 0 0 0 1 14 -1354 C/G MMP3 Promoter AGGTCAAATGAGAGAATTTACAACTCTGGGTAATTTATCTTCTTGTCTTTATTTTTATCATCTATGAAATATAAATACAATGATATCAGCCCTGGTTATTTCTTCATTACCGTTGACTACTGTATTAGCCAGAACTTGTAGTAGGGAAAATTAAAGTGTTGTTCAATTTCTTATGAGAGGGTTTACTTTGGCAAGTTAAACAAATGATGATATAGTAATTACCTTTAAAAATGAAAACGAGGTCCTTGCTAGTAA 6E+06 1E+08 0 4 6 0 2 1 0 102 102 0 1 633 -1340 A/C MMP3 Promoter keine rs 1E+08 5A/6A Promoter 522616 1E+08 11q22.2 165 -707 A/G MMP3 Promoter U78045:1 U78045:1 KWOK,KWOK,KWOK,SC_JCM N 5E+05 1 PGA-UW-FHCRC Y 3E+06 1 0 1 1 1 11 NT_009151 13 Hs11_9308 0 1 1 1 11 NT_009151 13 Hs11_9308 GAATGAATGAACTAAGGTCAAATGAGAGAATTTACAACTCTGGGTAATTTATCTTCTTGTCTTTATTTTTATCATCTATGAAATATAAATACAATGATATCAGCCCTGGTTATTTCTTCATTACCGTTGACTACTGTATTAGCCAGAACTTGTAGTAGGGAAAATTAAAGTGTTGTTCAATTTCTTATGAGAGGGTTTACTTTGGCAAGTTAAACAAATGATGATATAGTAATTACCTTTAAAAATGAAAACGAG U78045:1 YUSUKE,PGA-UW-FHCRC,KWOK,KWOK,SC_JCM Y 6E+05 1 0 1 1 1 11 NT_009151 13 Hs11_9308 6E+06 1E+08 0 47 3 87 1 1 1 83 108 0 1 0 U78045:1 PGA-UW-FHCRC,KWOK,KWOK,KWOK,KWOK,SC_JCM Y ## 1 0 1 1 1 11 NT_009151 13 Hs11_9308 0 24 3 0 2 1 TGAAAGCAGGAGAGCCTAAGGTGCTGCTGTTTTAAAGTAAGAACTTTCCCACAGTTNTCTGAAGTCCCATCCTTCCTACTNAGAGAGAAGCAGGCCTAAGGTTGGGGTGGGGGATTTCCTTAGTANAAGAAACTAATTTCCCTAATTAGGCTCCATACAAAGTCATTTNTCTTGCATCTCACCTCCAGGAAGTCCCATCCTTCCTACTAAGAGAGAAGCAGGCCTAAGGTTGGGGTGGGGGATTTCCTTAGTAA 6E+06 1E+08 Eine Genotypisierungsmethode • Single Base Extension • Photocleavage and Purification ACGTAGTGGTxCAA AGTCATGCATCACCAnGTTGATAC ACGTAGTGGTxCAAC l Intens. [a.u.] ACGTAGTGGTxCAAC AGTCATGCATCACCAnGTTGATAC ACGTAGTGGT 2500 2000 1500 1000 500 0 2800 3000 3200 3400 3600 3800 4000 4200 m /z Das GENOLINK System HUGO – Das Humangenomprojekt Ziele: • Identifikation aller Gene • Sequenzierung des gesamten humanen Genoms • Daten in öffentlicher Datenbank ablegen • Werkzeuge für die Datenanalyse verbessern • Umgang mit ELSI HUGO – Das Humangenomprojekt • Zukunft: “Feinarbeit” und Interpretation • 2003 Gesamtsequenz ist “fertig” • 2001 Publikation des “Working Draft” in “Science” & “Nature” • 2000 Bekanntgabe des 1. “Working Draft” • 1999 Chromosom 22 und 1. Mrd Basenpaare sequenziert • 1998 Celera Genomics beginnt Sequenzierung • 1995 Das DHGP beginnt (Chromosomen 7, 21, X) • 1990 Förmlicher Beginn des Genomprojektes für 15 Jahre • 1989 ELSI Arbeitsgruppe etabliert (DOE & NIH) • 1986 Ankündigung der Humangenom Initiative (DOE OHER) • 1983 Erste Gedanken (LANL & LLNL) Sequenzierungsstrategien Ergebnisse der Sequenzierung Dezember 2000 Dezember 2001 N50 length > 5mb N50 length > 1mb N50 length > 500kb N50 length > 100kb N50 length > 10kb More than 50% of bin in golden path Less than 50% of bin in golden path -Clear- None of bin in golden path Juni 2002 ELSI - Ethische, Rechtliche und Soziale Aspekte HUGO – Was Kommt Danach? • Anzahl der Gene, exakte Lokalisierung und Funktion • Genregulation • DNA Sequenz Organisation • Chromosomale Strukturen und Organisation • Nicht-kodierende DNA Typen, Menge, Verteilung, Informationsgehalt und Funktion • Koordinierung der Genexpression, Proteinsynthese, post-translationaler Prozesse • Interaktion von Proteinen in komplexen molekularen Maschinen • Vergleich vorhergesagter und experimenteller Genfunktion • Evolutionäre Konservierung zwischen Organismen • Protein Konservation (Struktur und Funktion) • Transkriptom (Gesamt-mRNA-Gehalt) in Organismen • Proteom (Gesamtproteingehalt und –funktion) in Organismen • Korrelation Korrelation von vonSNPs SNPs(Single (Single Nucleotide Nucleotide Polymorphisms) Polymorphisms) mit Krankheiten mit Krankheiten • Krankheitsanfälligkeitsvorhersage Krankheitsanfälligkeitsvorhersage basierend basierend auf Gensequenz auf Gensequenz Variationen Variationen • Gene in in komplexen komplexenEigenschaften Eigenschaften und und multigenischen multigenischen Krankheiten Krankheiten • Biologie Biologie komplexer komplexerSysteme Systeme (inclusive mikrobieller Consortien für Bioremediation) • Genetik und Genomik von Entwicklungsprozessen