Genetische Diversität: SNPs, Indels, VNTRs

Werbung
Genetische Diversität:
SNPs, Indels, VNTRs
Gründe für ein Interesse an der genetischen
Diversität
•Aufklärung der Geschichte von Populationen (Migrationen,
demographische Ereignisse)
•Forensik / Aussagen über Abstammung eines Individuums
•Identifizierung von krankheitsrelevanten Allelen
NB: Ob der von einem bestimmten Allel verursachte Phänotyp als
Krankheit angesehen wird, kann von den Lebensumständen abhängen.
Bsp. thrifty genotype
Identifizierung von krankheitsrelevanten Allelen
1. Suche nach Kandidatengenen
2. Nachweis, dass dieses verantwortlich ist,
z.B. über Suche nach Mutationen/Polymorphismen
in den Kandidatengenen bei Betroffenen; oder
Komplementation von zellulärem Phänotyp.
Wie Kandidaten finden?
- positions-unabhängig
- positions-abhängig
Positions-unabhängige Methoden
•Protein bekannt (Bsp.Phenylketonurie):
Protein ansequenzieren und Sequenz im Genom suchen:
z.B. über degenerierte Oligonukleotide und screenen
von cDNA-Bank (Hybridisierung oder PCR)
ODER Antikörper herstellen und cDNA-Expressionsbank
screenen
ODER über in silico Analyse
•Kenntnisse aus Modellorganismen
z.B. Mausmodell
NB: vor Molekularbio-Ära waren positionsunabhängige Verfahren Standard
(Reihenfolge: Protein Gen)
Positions-abhängige Methoden
•über Chromosomenanomalien in Patienten
(z.B. bei Mikrodeletionssyndromen/
Segmentale Aneusomie-Syndromen)
•über Kopplungsanalyse oder Assoziationsstudien
Im historischen Kontext "reverse genetics"
(Reihenfolge Gen
Protein)
Kopplungsanalyse (linkage analysis) =
genetische Kartierung (Mapping) von Loci
(für Eigenschaften, die nach den Mendel-Gesetzen
vererbt werden)
•Prinzip der genetischen Kartierung: Finde heraus, wie oft
meiotische Rekombination zwischen zwei Loci stattfindet
•Nötig: mindestens 2 Loci mit mindestens 2 unterscheidbaren
Allelen
(z.B. zwei selektierbare Stoffwechselgene in Hefe oder
zwei anonyme DNA-Sequenzen (= Marker) oder
ein Phänotyp und ein anonymer Marker)
GENE ODER SEQUENZEN MÜSSEN NICHT BEKANNT SEIN!
•Die Rekombinationsfrequenz ist ein Maß für die genetische
Distanz
Aufspaltung bei Syntänie mit meiotischem
Rekombinationsmechanismus
Gameten:
A
B
a
diploider
Organismus:
A
B
A
b
>0.25
>0.25
Meioseprodukte:
a
b
a
B
b
<0.25
<0.25
A
b
a
B
rekombinante
Kombination
parentale
Kombination
Allele bei Oma (krank)
8
7
G en
G en
6
G en
M a rk
e rD
5
G en
erC
M a rk
G en
4
3
G en
e rB
M a rk
M ark
e rA
G en
G en
1
2
Anordnung der Loci auf dem Chromosom
Allele bei Opa (gesund)
Gen1*1
MA*1
Gen1*1
MA*6
Gen1*1
MA*2
Gen1*1
MA*5
Gen2*1
Gen2*2
Gen2*1
Gen2*1
MB*5
Gen3*2
Gen4*Mut
MB*3
Gen3*1
Gen4*1
MB*2
Gen3*1
Gen4*1
MB*1
Gen3*2
Gen4*1
Gen5*1
MC*2
Gen6*2
Gen5*2
MC*1
Gen6*1
Gen5*2
MC*1
Gen6*1
Gen5*2
MC*1
Gen6*1
Gen7*1
MD*6
Gen8*3
Gen7*1
MD*2
Gen8*2
Gen7*2
MD*3
Gen8*1
Gen7*1
MD*4
Gen8*2
Allele bei Oma (krank)
Allele bei Opa (gesund)
MA*1
MA*6
MA*2
MA*5
MB*5
MB*3
MB*2
MB*1
Gen4*Mut
Gen4*1
Gen4*1
MC*2
MC*1
MC*1
MC*1
MD*6
MD*2
MD*3
MD*4
Gen4*1
Allele bei Mutter (krank)
MA*1
MA*2
MB*5
MB*1
Gen4*Mut
Gen4*1
MC*1
MC*1
MD*2
MD*4
Allele bei Mutter (krank)
Kind 1
(krank)
MA*1
MA*2
MB*5
MB*1
Gen4*Mut
Gen4*1
MC*1
MC*1
MD*2
MD*4
Kind 2
(gesund)
Kind 3
(krank)
Allele bei Vater (gesund)
Kind 4
(krank)
Kind 5
(gesund)
Kind 6
(krank)
MA*1
MA*2
MA*1
MA*1
MA*2
MA*2
MB*5
MB*1
MB*5
MB*5
MB*1
MB*5
Gen4*Mut
Gen4*1
Gen4*Mut
Gen4*1
Gen4*Mut
MC*1
MC*1
MC*1
MC*1
MC*1
MC*1
MD*2
MD*2
MD*4
MD*4
MD*2
MD*2
Gen4*Mut
autosomal dominant vererbte Krankheit;
typisiert für Marker A (von dem es mindestens 6 Allele gibt)
A2 A5
A1 A6
A1 A2
A1 A3
A3 A4
A1 A4
A2 A3
A2 A4
A1 A4
A2 A3
autosomal dominant vererbte Krankheit;
typisiert für Marker A (von dem es mindestens 6 Allele gibt)
A2 A5
A1 A6
A1 A2
A1 A3
A3 A4
A1 A4
A2 A3
A2 A4
A1 A4
5 nicht-rekombinant
A2 A3
1 rekombinant
A2 A5
A1 A6
A1 A2
A1 A3
A3 A4
A1 A4
A2 A3
A1 A2
A2 A4
A1 A4
A1 A3
A2 A3
A2 A5
A2 A4
A1 A4
A2 A3
A1 A6
A1 A2
A3 A4
A1 A4
A2 A3
A1 A4
A2 A3
Phase unbekannt
Phase bekannt
A1 A3
A3 A4
A1 A2
A2 A4
A1 A4
A1 A3
A2 A3
A3 A4
A1 A4
A2 A3
A2 A4
A1 A4
A2 A3
5 nicht-rekombinant + 1 rekombinant
ODER
5 rekombinant + 1 nicht-rekombinant
Strachan Read, Human Molecular Genetics 3, 2004
Begriffe in der Statistik:
Probability: berechne Wahrscheinlichkeit für
ein Ergebnis bei bekannten Parametern
(Bsp: wie wahrscheinlich ist es, dass man bei
100 Würfen einer Münze 60x Kopf und 40x Zahl
erhält? Dabei ist Parameter: beide Seiten
sind gleich wahrscheinlich)
Likelihood: bestimme Parameter (ist Münze
manipuliert oder sind beide Seiten gleich?)
ausgehend vom Ergebnis (60 x Kopf, 40x Zahl)
Statistische Bewertung von Stammbäumen:
lod scores
Berechnung der Likelihood eines Stammbaumes unter den
beiden alternativen Annahmen (Loci sind gekoppelt versus
Loci sind nicht gekoppelt).
Das Verhältnis von beiden Likelihoods gibt das
odds of linkage
Der Logarithmus des odds of linkage ist der lod score
Kopplung wird bei lod score > 3 angenommen,
Ausschluss bei lod score < -2
Falls die Loci wirklich gekoppelt sind (mit Rekombinationshäufigkeit !),
dann ist die Wahrscheinlichkeit für eine rekombinante Meiose gleich !,
und die Wahrscheinlichkeit für eine nicht-rekombinante Meiose gleich
1-!.
Falls die Loci wirklich nicht gekoppelt sind, ist die Wahrscheinlichkeit
jeweils 0.5
Familie 1:
5 nicht-rekombinante und 1 rekombinante
Likelihood bei Kopplung ist (1- !)5 x !
Likelihood bei Nicht-Kopplung ist (0.5)6
Das Likelihood-Verhältnis ist (1- !)5 x !
(0.5)6
Der lod score, Z, ist der Logarithmus des Verhältnisses
!
Z
0
-!
0.1
0.577
0.2
0.623
0.3
0.509
0.4
0.299
0.5
0
Falls die Loci wirklich gekoppelt sind (mit Rekombinationshäufigkeit !),
dann ist die Likelihood für eine rekombinante Meiose gleich !,
und die Likelihood für eine nicht-rekombinante Meiose gleich
1-!.
Falls die Loci wirklich nicht gekoppelt sind, ist die Likelihood jeweils 0.5
Familie 1:
5 nicht-rekombinante und 1 rekombinante
Likelihood bei Kopplung ist (1- !)5 x !
Likelihood bei Nicht-Kopplung ist (0.5)6
Das Likelihood-Verhältnis ist (1- !)5 x !
(0.5)6
Der lod score, Z, ist der Logarithmus des Verhältnisses
wahrscheinlichster Wert für
!
Z
0
-!
0.1
0.577
0.2
0.623
0.3
0.509
0.4
0.299
! (= 1/6)
0.5
0
Z < 3, d.h. nicht-signifikant
Beispiele für lod score Kurven
1 Hinweis auf Kopplung (keine Rekombination)
2 Hinweis auf Kopplung (wahrscheinlichste
Rekombinationsfrequenz0.08)
4 bei allen Rekombinationsfrequenzen unschlüssig
0.1
0.2
0.3
0.4
0.5
3 Kopplung ausgeschlossen
für Rekombinationsfrequenzen <0.1
sh. auch Strachan Read 3, p407
Familie xy: ! = 1/6 = 0.1667; 6 Meiosen
Z = log (1-0.1667)5 0.1667 = 0.63
(0.5)6
n.s.
das heisst, man würde
keine Kopplung sehen, obwohl
beide Loci nur 17 cM
voneinander entfernt
Familie yz: ! = 1/6 = 0.1667; 30 Meiosen
Z = log (1-0.1667)25 (0.1667)5 = 3.16
(0.5)30
signifikant
NB: Familien mit 30 Meiosen sind selten! Aber lod scores von
verschiedenen Familien können addiert werden!
Marker für Kopplungsanalyse:
•Sollen möglichst polymorph sein (damit möglichst viele Individuen
heterozygot für den Marker sind)
•hauptsächlich Mikrosatelliten-Marker verwendet (Typisierung durch
PCR + Gelauftrennung
•Standard-Marker-Set: ca. 300 Marker
(d.h. Kandidatenregionen ca. 10 Mbp)
Häufigkeit von Heterozygoten bei zufälliger Partnerwahl:
Beispiel:
•Locus mit zwei Allelen, *1 und *2
•Häufigkeit von Allel *1 ist p1, Häufigkeit von Allel *2 ist p2
•Berechnung der Genotyp-Häufigkeiten:
p11 = p1 x p1 = p12
p22 = p2 x p2 = p22
p12 = 2 x p1 x p2 = 1 - (p12 + p22)
allgemein für n Allele:
n
h = 1-"
(pi)
i=1
2
Je größer h, desto polymorpher
ist ein Locus!
Marker für Kopplungsanalyse:
•Sollen möglichst polymorph sein (damit möglichst viele Individuen
heterozygot für den Marker sind)
•hauptsächlich Mikrosatelliten-Marker verwendet (Typisierung durch
PCR + Gelauftrennung
•Standard-Marker-Set: ca. 300 Marker
(d.h. Kandidatenregionen ca. 10 Mbp)
Feinkartierung, Sequenzierung, Identifizierung von
möglichen Genen, Bestimmung guter Kandidaten,
Vergleich der Sequenz in gesund/krank
Erleichterung durch human genome project!
Autozygotie:
Homozygotie für Marker, die von gemeinsamen
Vorfahr geerbt wurden
(identity by descent IBD vs. identity by state IBS)
Feinkartierung durch Autozygosity Mapping
in consanguinen Familien
Strachan Read 3, p410
Kopplungsanalyse erfolgreich genutzt für
für Identifizierung der relevanten Gene für
>1200 "Mendel"-Erbkrankheiten!!!
aber:
mögliche Probleme bei Kopplungsanalyse:
•Locusheterogenität: Mutationen in verschiedenen Genen
verursachen gleichen klinischen Phänotyp
(Bsp. XP)
•die Auflösung ist begrenzt durch die Anzahl der verfügbaren
Meiosen
•Zuordnung gesund/krank muss eindeutig sein
(Probleme bei unvollständiger Penetranz, late-onset,
Phänokopien)
•für komplexe Erkrankungen meist nicht geeignet
Complex disease, common disease,
multigenic disease.....
Zusammenwirken von Suszeptibilitäts-Allelen in mehreren
Genen und Umwelteinflüssen
Bsp.: Herzinfarkt, Schlaganfall, Asthma, Crohn, Diabetes 1,
Diabetes 2, Adipositas, Alzheimer, Schizophrenie, Depression.......
Erste Frage: Gibt es eine genetische Komponente?
Haben Verwandte eines Kranken höheres Risiko, zu erkranken, als
Nicht-Verwandte?
Ev. Problem: Gleiche Umwelt
(daher: Adoptionsstudien, Zwillingsstudien...)
Assoziationsstudien
Assoziation ist ein Begriff der Statistik, der besagt,
dass zwei Ereignisse zusammen auftreten
in unserem Falle:
Allel *1 eines Locus A ist mit einer Krankheit K
assoziiert, wenn A*1 in Kranken öfter beobachtet
wird, als aufgrund der Häufigkeit von A*1 in der
Bevölkerung zu erwarten wäre.
Kopplungsanalyse
Assoziationsstudie
Patienten + "gematchte" Kontrollen
Mögliche Ursachen für Assoziation:
•Typ 1 Fehler (d.h. keine Korrektur für gleichzeitiges
Testen vieler Marker; passierte früher oft!!!)
•Bevölkerungs-Stratifikation (Bsp. HLA-A1 in San Franscisco
assoziiert mit Stäbchenessen)
•Selektion (Leute, die die Krankheit K haben, überleben
besser oder haben mehr Kinder, wenn sie am Locus A
das Allel *1 haben)
•Causal (A ist das krankheitsrelevante Gen für die Krankheit K,
und Allel A*1 macht empfänglich für K (selten!))
•LD (Kopplungsungleichgewicht) (Allel *1 steht in LD mit
dem empfänglich machenden Allel des krankheitsrelevanten
Gens)
„Kopplung“ beschreibt die relative Positionierung
von zwei (oder mehr) Loci zueinander
(unabhängig von den Allelen der betreffenden Loci)
„Kopplungsgleichgewicht“ (Linkage Equilibrium, LE)
bedeutet, dass bestimmte Kombinationen von Allelen
(an unterschiedlichen Loci) in der Population
entsprechend der Allelhäufigkeiten vorkommen.
„Kopplungsungleichgewicht“ (Linkage Disequilibrium,
LD) bedeutet, dass bestimmte Kombinationen von
Allelen häufiger oder weniger häufig vorkommen,
als aufgrund der Allelhäufigkeiten zu erwarten wäre.
Allelhäufigkeiten in der Population:
am Locus A findet man Allel A1 mit einer Häufigkeit von
p1
und Allel A2 mit einer Häufigkeit von p2
am Locus B findet man Allel B1 mit einer Häufigkeit von
q1
und Allel B2 mit einer Häufigkeit von q2
erwartete Allelkombinationen in den Gameten bei LE:
Kombination A1 B1 mit einer Häufigkeit von P11= p1" q1
A1 B2
P12= p1" q2
A2 B1
P21= p2" q1
A2 B2
P22= p2" q2
Allelkombinationen in den Gameten bei LD:
Kombination A1 B1 mit einer Häufigkeit von P11=
A 1 B2
P12=
A 2 B1
P21=
A 2 B2
P22=
p1"
p 1"
p 2"
p 2"
q1 + D
q2 - D
q1 - D
q2 + D
Ursachen für LD:
•Selektion für oder gegen bestimmte Kombination
•genetische Drift
•Gründereffekte, die noch nicht durch Rekombination
aufgebrochen wurden
d.h.: der gemeinsame Vorfahr, in dem die
krankheitsrelevante Mutation erstmals auftritt,
hat zufällig ein bestimmtes Allel an einem
gekoppelten Locus, welches gemeinsam mit
dem Krankheitsallel vererbt wird
Geschätzte Halbwertszeit von LD zwischen zwei
Loci, die 1 cM voneinander entfernt liegen:
69 Meiosen
(0.9969)=0.5
d.h. damit LD entdeckt werden kann, muss
getesteter Marker nahe beim krankheitsrelevanten
Gen liegen (<< 1 Mbp)
für genomweite Analysen bräuchte man vermutlich
ca. 30 000 - 300 000 Marker!
Marker für Assoziationsstudien
ca. 10 Millionen Polymorphismen im menschl.Genom;
geeignet v.a. SNPs (single nucleotide polymorphisms),
da
•sehr häufig
•relativ stabil und
•durch high-throughput Analysen analysierbar
Suche nach geeigneten Markern: HapMapProjekt:
•Identifiziere die Polymorphismen (in 4 versch.
Populationsgruppen: Yoruba (Nigeria), Han,
Japaner, Bevölkerung aus Utah mit West/Nordeurop. Vorfahren);
•Analysiere gemeinsame Vererbung in
Haplotypen
•Bestimme repräsentative Tag SNPs
Goldstein Nature 437, 1241-1242
The International HapMap Consortium, Nature 437, 1299-1320
Haplotyp-Blöcke
Mosaik-Chromosomen in Bevölkerung
RekombinationsHotspots (durchschnittlich alle 122 kb, sh. HapMap Projekt)
Ursachen? Retrotransposonähnliches Element?
Cardon, Trends Genet. 19:135-140, 2003
kontinuierliche
Sequenzen
NUR
variable
Positionen gezeigt!
Charakteristische
Positionen:
ATC identifiziert Haplotyp1
ACG identifiziert Haplotyp2
etc
The International HapMap Project; Nature 426:789-796 (2003)
Bisher keine genomweite Assoziationsstudie erfolgreich!
(aber regional begrenzte Studien zur weiteren
Eingrenzung der Kandidatenregion nach Kopplungsanalyse oder Kandidatengen-Studien)
Two views on testing for genetic
susceptibility
Head in clouds
Head in sand
Cartoon by Maya
Evans
Herunterladen