Humane Genetische Diversität

Werbung
Humane Genetische Diversität
Peter Ahnert
[email protected]
Verschiedene Genome
Gliederung
• Das menschliche Genom
• Definition “Gen”
• Variabilität im Genom
• Genetisch Bedingte Erkrankungen
• Das Humangenomprojekt
Biologie ist Komplex
Sichtbarer Phenotype
Organe, Gewebe, und Zellen
Proteom
Transkriptom
Genom
Das Menschliche Genom
ca. 3,3 Mrd. Basenpaare, ca. 40 000 Gene, ca. 1,12 Meter lang
Das Menschliche Genom
Eigenschaften:
• ca. 3.3 Mrd. Basenpaare (haploid)
• 30,000-35,000 Gene (?)
• Durchschnittliche Gengröße: 3000 Basenpaare. Das größte ist das
Dystrophin Gen mit 2.4 Millionen Basenpaaren
• Nur ca. 2% kodierende DNA
• Für 50% der bekannten Gene ist die Funktion unbekannt
• 98% des Genoms hat keine bekannte Funktion (?)
• Verschiedene Gendichte der Chromosomen:
• Chromosom 1 hat die meisten Gene (2968)
•Y-chromosom hat die wenigsten (231)
• Mindestens 50% der nicht-kodierenden DNA sind repetitive
Sequenzen
Das Menschliche Genom
Organisation des Genoms
Humanes Genom
3,300 Mb
16,6 kb
Nukleares Genom
25%
Gene
10%
Kodierend
Pseudogene
Mitochondriales Genom
75%
Extragenisch
2 rRNA
22 tRNA
13 Gene
90%
Nicht-kodierend
Gen Fragmente
Nicht-Repetitiv
Introns
usw.
Tandem und
Cluster
Repetitiv
Interspersed
Gen-Definition Bis Ende der 40er Jahre
“Das Gen ist etwas, was ein Phenotypisches Merkmal bestimmt.”
Gen-Definition bis Ende der 70er Jahre
DNA
Protein
“Das Gen ist ein DNA Abschnitt, der für eine
kontinuierliche Polypeptidkette kodiert.”
Gen-Definition seit den 80er Jahren
DNA
prä-mRNA
mRNA
Protein
DNA Segment, welches als eine Einheit transkribiert
wird und für ein Set verwandter Proteine kodiert
Alternatives Spleißen
TNFR14 im Genom
• Gen: ca. 7500 Basenpaare
• 238 Aminosäuren
• Zelloberflächenmolekül
• Wichtig für Signale in der
Immunantwort auf Infektionen
• Mitglied der Tumor Necrose Faktor
Rezeptor Familie
• Identifiziert als zellulärer Mediator
für das Eindringen von
Herpes Simplex Virus
TNFR14 Transkript
1 Transkript (mRNA): 1634 bp, 8 Exons
Dystrophin im Genom
• Größe des Gens: 2,4 Megabasen
• 79 Exons
• Muskelprotein, lokalisiert in der
Membran des Sarkolemma
• Meist nicht vorhanden in Individuen
mit Duchenne Muskeldystrophie
• Meist falsche Größe in Becker
Muskeldystrophie
• Genaue Funktion unklar
• Mögliche Rolle im Zusammenspiel
von Membranen und Myofibrillen
während der Muskelkontraktion
Dystrophin Transkripte
Transkript 1
2076 bp
13 Exons
Transkript 2
1818 bp
12 Exons
Transkript 3
1284 bp
8 Exons
Einige Definitionen
Genom:
Gesamtheit der Gene eines Organismus
Gen:
DNA Segment, welches als eine Einheit transkribiert wird
und für verwandte Proteine kodiert
Allel:
Eine bestimmte Variante eines Gens
Mutation:
Sprunghafte Veränderung des Genoms von einem
Zustand in einen anderen (von einem Allel in ein anderes)
Individualität
Unterschiede zwischen Menschen:
• Physische Merkmale: Größe, Geschlecht, Augenfarbe, Gesichtsform, …
• Verhalten: Agressivität, Gruppeninteraktion, Flirtverhalten
• Kognitive Fähigkeiten: Lernen, Erinnerung, Abstraktionsvermögen
Kommen Zustande durch:
Gene
Umwelt
Zufall
Variabilität im Genom
• ca. 3,3 Mrd Basenpaare im Genom
• ca. 99,9% identisch zwischen Individuen
• ca. 0,1% Unterschiede = 3 Millionen Variable Stellen
Variabilität im Genom – Ursachen
• Unvermeidlich da
- Replikation nicht fehlerlos
- Spontanes auftreten von Mutationen
- Unvollkommene Reparaturmechanismen
• Notwendig zur Anpassung an neue Umweltbedingungen
- Krankheiten
- Klima
Variabilität im Genom – in Populationen
• Stabilisierende Kraft
- Hardy-Weinberg Prinzip
• Verändernde Kräfte
- Mutation
- Genetische Drift
- Migration
- Selektion
Beispiel Selektion
• FY…
- Oberflächenmolekül auf Erythrozyten (Duffy Blutgruppe)
- Notwendig für das Eindringen von Plasmodium vivax in
Erythrozyten
• HP…
- Haptoglobin, bindet freies Hämoglobin
- Osteoporose Risikofaktor
• GC…
- “Group-specific component”, bindet und transportiert
Vitamin D
- Assoziiert mit Graves’ Krankheit (Schildrüsenleiden)
Beispiel Selektion
GC-1
FY-0
HP-1
Plasmodium vivax Malaria
Variabilität im Genom – Mechanismen
• Mutationen
- Somatisch
- Keimbahn
• Sexuelle Fortpflanzung / diploides Genom
- “Mischung” mütterlicher und väterlicher Allele
- Crossing over
Chromosomen Mutationen
Intrachromosomal
Interchromosomal
Insertion
Translokation
Sequenzmutationen
Basensubstitution
Baseninsertion / Basendeletion
Variable Elemente des Genoms
• Mutationen
• Single Nucleotide Polymorphisms (SNPs)
• Repeats (meist nicht kodierend)
- Megasatelliten
(mehrere kbp, Blocks bis 100e kbp)
- Satelliten
(5-171 bp,
Blocks 100 kbp bis Mbp)
- Minisatelliten
(6-64 bp,
Blocks 0,1 – 20 kbp)
- Microsatelliten
(1-4 bp,
Blocks bis 150bp)
• Repetitive kodierende DNA
• “Variable Number Tandem Repeats” (VNTRs)
• “Transposable Elements”
Individualität – Gene, Umwelt, Zufall?
• Zwillingsstudien
• Kopplungs Kartierung (Linkage Mapping)
• Assoziationsstudien
• Mutationsanalysen
Zwillingsstudien
Kopplungskartierung (Linkage Mapping)
Genetisch Bedingte Erkrankungen
“Alle Krankheiten sind genetisch”
Umwelt
Gene
Hämophilie
Diabetes
Asthma
Rheumatoide Arthritis
Lungenkrebs
Genetisch Bedingte Erkrankungen
Monogenisch Bedingte Erkrankungen:
• Mendelisch oder nahezu mendelisch
• Erkennbar in Stammbäumen
• Kausales Gen mittels Kopplungsanalyse
gut zu identifizieren
Polygenisch Bedingte Erkrankungen
• Meist nicht-mendelisch
• Anscheinend sporadisch
• Kausale Gene mittels nicht-parametrischer
Kopplungsanalyse eingrenzbar
Hämophilie A
•
•
•
•
Blutgerinnungsstörung
Gerinnungsfaktor Faktor 8 ist betroffen
X-gebunden rezessiv (Xq28)
In ca. 80% isolierter Fälle ist die Mutter Trägerin
Phänotyp - Genotyp Analyse
der Rheumatoiden Arthritis (RA)
• Autoimmunkrankheit: Progressive Gelenkzerstörung
• Ca. 1% der Bevölkerung betroffen
• Lebenserwartung 5 - 10 Jahre reduziert
• Entstehungsmechanismus unklar
• Genetische Suszeptibilität 30-60%
RA - Ätiologie und Pathogenese
genetic predisposition
unknown antigens
other risk factors
Activation
Adhesion
Permeabilization
T-cells & Bcell activation
Synovial
membrane
Migration of
inflammatory cells
Cytokines
Mediators
TNF IL-1
Pannus formation
Lining cells
T-cells, MΦ
Production of Collagenase (MMPs) by
fibroblasts, chondrocytes and osteoclasts
Joint destruction
Dinarello C.A., Moldawer L.L. Amgen 1999, Proinflammatory and
Anti-inflammatory Cytokines in Rheumatoid Arthritis
RA-Gene im Humanen Genom
RA Suszeptibilitäts-Loci identifiziert durch
Genom-weite Kopplungsanalyse
Biologische Kandidaten
MacKay, et al.: Arthritis & Rheumatism
Vol. 46, No. 3, March 2002, pp 632-639
Andere Studien
Unsere Analyse
Assoziationsstudien
Analysis & Gene Selection
Clinical-Biological
System
Candidate Genes
SNP Retrieval
Clinical Problem
Clinical Study
Candidate SNPs
SNP Evaluation
and Selection
SNP Short List
Assay Design & Genotyping
Clinical Data
Genotype Data
Statistics / Data Mining
Pattern Recognition
Associations
Auswahl von SNPs für die Genotypisierung
SNP
rs#
Distance
SNP
from
gene
Band
Alleles Gene
position
previous position
SNP
SNPrange104913005
1 ende
496045 104909393 11q22.2
3E+06 104909359 11q22.2
632478 104909345 11q22.2
keine rs
522616
Role
Amino Amino
acid
acid
change position
Flanks
Contig
Sub- Valimap snp- chr cfg total
ctg ctg ctg ctg
rs #
chr
mitters dated
weight type hits hits hits
acc vers ID pos
chr local avg s.e. max. vali- geno- link orig upd Promoter biological
notes
pos loci het*100 het probe dated types outs build build effect
effect
-5000
-1388
A/G
MMP3
Promoter
TTATCTTCTTGTCTTTATTTTTATCATCTATGAAATATAAATACAATGATATCAGCCCTGGTTATTTCTTCATTACCGTTGACTACTGTATTAGCCAGAACTTGTAGTAGGGAAAATTAAAGTGTTGTTCAATTTCTTATGAGAGGGTTTACTTTGGCAAGTTAAACAAATGATGATATAGTAATTACCTTTAAAAATGAAAACGAGGTCCTTGCTAGTAACTTCATATGCGGCATCCACGCCTGAAGGAAGAGA
14
-1354
C/G
MMP3
Promoter
AGGTCAAATGAGAGAATTTACAACTCTGGGTAATTTATCTTCTTGTCTTTATTTTTATCATCTATGAAATATAAATACAATGATATCAGCCCTGGTTATTTCTTCATTACCGTTGACTACTGTATTAGCCAGAACTTGTAGTAGGGAAAATTAAAGTGTTGTTCAATTTCTTATGAGAGGGTTTACTTTGGCAAGTTAAACAAATGATGATATAGTAATTACCTTTAAAAATGAAAACGAGGTCCTTGCTAGTAA
633
-1340
A/C
MMP3
Promoter
GAATGAATGAACTAAGGTCAAATGAGAGAATTTACAACTCTGGGTAATTTATCTTCTTGTCTTTATTTTTATCATCTATGAAATATAAATACAATGATATCAGCCCTGGTTATTTCTTCATTACCGTTGACTACTGTATTAGCCAGAACTTGTAGTAGGGAAAATTAAAGTGTTGTTCAATTTCTTATGAGAGGGTTTACTTTGGCAAGTTAAACAAATGATGATATAGTAATTACCTTTAAAAATGAAAACGAG
1E+08 11q22.2 165
1E+08 5A/6A
Promoter
-707 A/G MMP3Promoter
U78045:1
5E+05
KWOK,KWOK,KWOK,SC_JCM
N
1
3E+06
PGA-UW-FHCRC
Y
1
34
U78045:1
U78045:1
1
1
1 1 NT_009151
13 Hs11_9308
6E+06 1E+08
0
0
0
91
0
0
0
1
0
1
1
6E+05
YUSUKE,PGA-UW-FHCRC,KWOK,KWOK,SC_JCM
Y
1
0
1
1
0
1
1
1 1 NT_009151
13 Hs11_9308
6E+06 1E+08
0
4
6
0
2
1
0
102
102
0
1
1
1 1 NT_009151
13 Hs11_9308
6E+06 1E+08
0
47
3
87
1
1
1
83
108
0
1
U78045:1
PGA-UW-FHCRC,KWOK,KWOK,KWOK,KWOK,SC_JCM
Y ##
1
0
1 1
1 11 NT_009151
13 Hs11_9308
6E+06 1E+08
0
24
3
0
2
1
0
TGAAAGCAGGAGAGCCTAAGGTGCTGCTGTTTTAAAGTAAGAACTTTCCCACAGTTNTCTGAAGTCCCATCCTTCCTACTNAGAGAGAAGCAGGCCTAAGGTTGGGGTGGGGGATTTCCTTAGTANAAGAAACTAATTTCCCTAATTAGGCTCCATACAAAGTCATTTNTCTTGCATCTCACCTCCAGGAAGTCCCATCCTTCCTACTAAGAGAGAAGCAGGCCTAAGGTTGGGGTGGGGGATTTCCTTAGTA
Eine Genotypisierungsmethode
• Single Base Extension
• Photocleavage and Purification
ACGTAGTGGTxCAA
AGTCATGCATCACCAnGTTGATAC
ACGTAGTGGTxCAAC
λ
Intens. [a.u.]
ACGTAGTGGTxCAAC
AGTCATGCATCACCAnGTTGATAC
2
5
0
0
2
0
0
0
1
5
0
0
1
0
0
0
5
0
0
ACGTAGTGGT
CA
A
C
0
2
8
0
0
3
0
0
0
3
2
0
0
3
4
0
0
3
6
0
0
3
8
0
0
4
0
0
0
4
2
0
0
m
/ z
Das GENOLINK System
HUGO – Das Humangenomprojekt
Ziele:
• Identifikation aller Gene
• Sequenzierung des gesamten humanen Genoms
• Daten in öffentlicher Datenbank ablegen
• Werkzeuge für die Datenanalyse verbessern
• Umgang mit ELSI
HUGO – Das Humangenomprojekt
• Zukunft: “Feinarbeit” und Interpretation
• 2003 Gesamtsequenz ist “fertig”
• 2001 Publikation des “Working Draft” in “Science” & “Nature”
• 2000 Bekanntgabe des 1. “Working Draft”
• 1999 Chromosom 22 und 1. Mrd Basenpaare sequenziert
• 1998 Celera Genomics beginnt Sequenzierung
• 1995 Das DHGP beginnt (Chromosomen 7, 21, X)
• 1990 Förmlicher Beginn des Genomprojektes für 15 Jahre
• 1989 ELSI Arbeitsgruppe etabliert (DOE & NIH)
• 1986 Ankündigung der Humangenom Initiative (DOE OHER)
• 1983 Erste Gedanken (LANL & LLNL)
Sequenzierungsstrategien
Ergebnisse der Sequenzierung
Dezember 2000
Dezember 2001
N50 length > 5mb
N50 length > 1mb
N50 length > 500kb
N50 length > 100kb
N50 length > 10kb
More than 50% of bin in golden path
Less than 50% of bin in golden path
-Clear-
None of bin in golden path
Juni 2002
ELSI - Ethische, Rechtliche und Soziale Aspekte
HUGO – Was Kommt Danach?
• Anzahl der Gene, exakte Lokalisierung und Funktion
• Genregulation
• DNA Sequenz Organisation
• Chromosomale Strukturen und Organisation
• Nicht-kodierende DNA Typen, Menge, Verteilung, Informationsgehalt und Funktion
• Koordinierung der Genexpression, Proteinsynthese, post-translationaler Prozesse
• Interaktion von Proteinen in komplexen molekularen Maschinen
• Vergleich vorhergesagter und experimenteller Genfunktion
• Evolutionäre Konservierung zwischen Organismen
• Protein Konservation (Struktur und Funktion)
• Transkriptom (Gesamt-mRNA-Gehalt) in Organismen
• Proteom (Gesamtproteingehalt und –funktion) in Organismen
• Korrelation
Korrelation von
vonSNPs
SNPs(Single
(Single
Nucleotide
Nucleotide
Polymorphisms)
Polymorphisms)
mit Krankheiten
mit Krankheiten
• Krankheitsanfälligkeitsvorhersage
Krankheitsanfälligkeitsvorhersage basierend
basierend
auf Gensequenz
auf Gensequenz
Variationen
Variationen
• Gene in
in komplexen
komplexenEigenschaften
Eigenschaften
und
und
multigenischen
multigenischen
Krankheiten
Krankheiten
• Biologie
Biologie komplexer
komplexerSysteme
Systeme
(inclusive mikrobieller Consortien für Bioremediation)
• Genetik und Genomik von Entwicklungsprozessen
Herunterladen