Genetische Diversität: SNPs, Indels, VNTRs Gründe für ein Interesse an der genetischen Diversität •Aufklärung der Geschichte von Populationen (Migrationen, demographische Ereignisse) •Forensik / Aussagen über Abstammung eines Individuums •Identifizierung von krankheitsrelevanten Allelen NB: Ob der von einem bestimmten Allel verursachte Phänotyp als Krankheit angesehen wird, kann von den Lebensumständen abhängen. Bsp. thrifty genotype Identifizierung von krankheitsrelevanten Allelen 1. Suche nach Kandidatengenen 2. Nachweis, dass dieses verantwortlich ist, z.B. über Suche nach Mutationen/Polymorphismen in den Kandidatengenen bei Betroffenen; oder Komplementation von zellulärem Phänotyp. Wie Kandidaten finden? - positions-unabhängig - positions-abhängig Positions-unabhängige Methoden •Protein bekannt (Bsp.Phenylketonurie): Protein ansequenzieren und Sequenz im Genom suchen: z.B. über degenerierte Oligonukleotide und screenen von cDNA-Bank (Hybridisierung oder PCR) ODER Antikörper herstellen und cDNA-Expressionsbank screenen ODER über in silico Analyse •Kenntnisse aus Modellorganismen z.B. Mausmodell NB: vor Molekularbio-Ära waren positionsunabhängige Verfahren Standard (Reihenfolge: Protein Gen) Positions-abhängige Methoden •über Chromosomenanomalien in Patienten (z.B. bei Mikrodeletionssyndromen/ Segmentale Aneusomie-Syndromen) •über Kopplungsanalyse oder Assoziationsstudien Im historischen Kontext "reverse genetics" (Reihenfolge Gen Protein) Kopplungsanalyse (linkage analysis) = genetische Kartierung (Mapping) von Loci (für Eigenschaften, die nach den Mendel-Gesetzen vererbt werden) •Prinzip der genetischen Kartierung: Finde heraus, wie oft meiotische Rekombination zwischen zwei Loci stattfindet •Nötig: mindestens 2 Loci mit mindestens 2 unterscheidbaren Allelen (z.B. zwei selektierbare Stoffwechselgene in Hefe oder zwei anonyme DNA-Sequenzen (= Marker) oder ein Phänotyp und ein anonymer Marker) GENE ODER SEQUENZEN MÜSSEN NICHT BEKANNT SEIN! •Die Rekombinationsfrequenz ist ein Maß für die genetische Distanz Aufspaltung bei Syntänie mit meiotischem Rekombinationsmechanismus Gameten: A B a diploider Organismus: A B A b >0.25 >0.25 Meioseprodukte: a b a B b <0.25 <0.25 A b a B rekombinante Kombination parentale Kombination Allele bei Oma (krank) 8 7 G en G en 6 G en M a rk e rD 5 G en erC M a rk G en 4 3 G en e rB M a rk M ark e rA G en G en 1 2 Anordnung der Loci auf dem Chromosom Allele bei Opa (gesund) Gen1*1 MA*1 Gen1*1 MA*6 Gen1*1 MA*2 Gen1*1 MA*5 Gen2*1 Gen2*2 Gen2*1 Gen2*1 MB*5 Gen3*2 Gen4*Mut MB*3 Gen3*1 Gen4*1 MB*2 Gen3*1 Gen4*1 MB*1 Gen3*2 Gen4*1 Gen5*1 MC*2 Gen6*2 Gen5*2 MC*1 Gen6*1 Gen5*2 MC*1 Gen6*1 Gen5*2 MC*1 Gen6*1 Gen7*1 MD*6 Gen8*3 Gen7*1 MD*2 Gen8*2 Gen7*2 MD*3 Gen8*1 Gen7*1 MD*4 Gen8*2 Allele bei Oma (krank) Allele bei Opa (gesund) MA*1 MA*6 MA*2 MA*5 MB*5 MB*3 MB*2 MB*1 Gen4*Mut Gen4*1 Gen4*1 MC*2 MC*1 MC*1 MC*1 MD*6 MD*2 MD*3 MD*4 Gen4*1 Allele bei Mutter (krank) MA*1 MA*2 MB*5 MB*1 Gen4*Mut Gen4*1 MC*1 MC*1 MD*2 MD*4 Allele bei Mutter (krank) Kind 1 (krank) MA*1 MA*2 MB*5 MB*1 Gen4*Mut Gen4*1 MC*1 MC*1 MD*2 MD*4 Kind 2 (gesund) Kind 3 (krank) Allele bei Vater (gesund) Kind 4 (krank) Kind 5 (gesund) Kind 6 (krank) MA*1 MA*2 MA*1 MA*1 MA*2 MA*2 MB*5 MB*1 MB*5 MB*5 MB*1 MB*5 Gen4*Mut Gen4*1 Gen4*Mut Gen4*1 Gen4*Mut MC*1 MC*1 MC*1 MC*1 MC*1 MC*1 MD*2 MD*2 MD*4 MD*4 MD*2 MD*2 Gen4*Mut autosomal dominant vererbte Krankheit; typisiert für Marker A (von dem es mindestens 6 Allele gibt) A2 A5 A1 A6 A1 A2 A1 A3 A3 A4 A1 A4 A2 A3 A2 A4 A1 A4 A2 A3 autosomal dominant vererbte Krankheit; typisiert für Marker A (von dem es mindestens 6 Allele gibt) A2 A5 A1 A6 A1 A2 A1 A3 A3 A4 A1 A4 A2 A3 A2 A4 A1 A4 5 nicht-rekombinant A2 A3 1 rekombinant A2 A5 A1 A6 A1 A2 A1 A3 A3 A4 A1 A4 A2 A3 A1 A2 A2 A4 A1 A4 A1 A3 A2 A3 A2 A5 A2 A4 A1 A4 A2 A3 A1 A6 A1 A2 A3 A4 A1 A4 A2 A3 A1 A4 A2 A3 Phase unbekannt Phase bekannt A1 A3 A3 A4 A1 A2 A2 A4 A1 A4 A1 A3 A2 A3 A3 A4 A1 A4 A2 A3 A2 A4 A1 A4 A2 A3 5 nicht-rekombinant + 1 rekombinant ODER 5 rekombinant + 1 nicht-rekombinant Strachan Read, Human Molecular Genetics 3, 2004 Begriffe in der Statistik: Probability: berechne Wahrscheinlichkeit für ein Ergebnis bei bekannten Parametern (Bsp: wie wahrscheinlich ist es, dass man bei 100 Würfen einer Münze 60x Kopf und 40x Zahl erhält? Dabei ist Parameter: beide Seiten sind gleich wahrscheinlich) Likelihood: bestimme Parameter (ist Münze manipuliert oder sind beide Seiten gleich?) ausgehend vom Ergebnis (60 x Kopf, 40x Zahl) Statistische Bewertung von Stammbäumen: lod scores Berechnung der Likelihood eines Stammbaumes unter den beiden alternativen Annahmen (Loci sind gekoppelt versus Loci sind nicht gekoppelt). Das Verhältnis von beiden Likelihoods gibt das odds of linkage Der Logarithmus des odds of linkage ist der lod score Kopplung wird bei lod score > 3 angenommen, Ausschluss bei lod score < -2 Falls die Loci wirklich gekoppelt sind (mit Rekombinationshäufigkeit !), dann ist die Wahrscheinlichkeit für eine rekombinante Meiose gleich !, und die Wahrscheinlichkeit für eine nicht-rekombinante Meiose gleich 1-!. Falls die Loci wirklich nicht gekoppelt sind, ist die Wahrscheinlichkeit jeweils 0.5 Familie 1: 5 nicht-rekombinante und 1 rekombinante Likelihood bei Kopplung ist (1- !)5 x ! Likelihood bei Nicht-Kopplung ist (0.5)6 Das Likelihood-Verhältnis ist (1- !)5 x ! (0.5)6 Der lod score, Z, ist der Logarithmus des Verhältnisses ! Z 0 -! 0.1 0.577 0.2 0.623 0.3 0.509 0.4 0.299 0.5 0 Falls die Loci wirklich gekoppelt sind (mit Rekombinationshäufigkeit !), dann ist die Likelihood für eine rekombinante Meiose gleich !, und die Likelihood für eine nicht-rekombinante Meiose gleich 1-!. Falls die Loci wirklich nicht gekoppelt sind, ist die Likelihood jeweils 0.5 Familie 1: 5 nicht-rekombinante und 1 rekombinante Likelihood bei Kopplung ist (1- !)5 x ! Likelihood bei Nicht-Kopplung ist (0.5)6 Das Likelihood-Verhältnis ist (1- !)5 x ! (0.5)6 Der lod score, Z, ist der Logarithmus des Verhältnisses wahrscheinlichster Wert für ! Z 0 -! 0.1 0.577 0.2 0.623 0.3 0.509 0.4 0.299 ! (= 1/6) 0.5 0 Z < 3, d.h. nicht-signifikant Beispiele für lod score Kurven 1 Hinweis auf Kopplung (keine Rekombination) 2 Hinweis auf Kopplung (wahrscheinlichste Rekombinationsfrequenz0.08) 4 bei allen Rekombinationsfrequenzen unschlüssig 0.1 0.2 0.3 0.4 0.5 3 Kopplung ausgeschlossen für Rekombinationsfrequenzen <0.1 sh. auch Strachan Read 3, p407 Familie xy: ! = 1/6 = 0.1667; 6 Meiosen Z = log (1-0.1667)5 0.1667 = 0.63 (0.5)6 n.s. das heisst, man würde keine Kopplung sehen, obwohl beide Loci nur 17 cM voneinander entfernt Familie yz: ! = 1/6 = 0.1667; 30 Meiosen Z = log (1-0.1667)25 (0.1667)5 = 3.16 (0.5)30 signifikant NB: Familien mit 30 Meiosen sind selten! Aber lod scores von verschiedenen Familien können addiert werden! Marker für Kopplungsanalyse: •Sollen möglichst polymorph sein (damit möglichst viele Individuen heterozygot für den Marker sind) •hauptsächlich Mikrosatelliten-Marker verwendet (Typisierung durch PCR + Gelauftrennung •Standard-Marker-Set: ca. 300 Marker (d.h. Kandidatenregionen ca. 10 Mbp) Häufigkeit von Heterozygoten bei zufälliger Partnerwahl: Beispiel: •Locus mit zwei Allelen, *1 und *2 •Häufigkeit von Allel *1 ist p1, Häufigkeit von Allel *2 ist p2 •Berechnung der Genotyp-Häufigkeiten: p11 = p1 x p1 = p12 p22 = p2 x p2 = p22 p12 = 2 x p1 x p2 = 1 - (p12 + p22) allgemein für n Allele: n h = 1-" (pi) i=1 2 Je größer h, desto polymorpher ist ein Locus! Marker für Kopplungsanalyse: •Sollen möglichst polymorph sein (damit möglichst viele Individuen heterozygot für den Marker sind) •hauptsächlich Mikrosatelliten-Marker verwendet (Typisierung durch PCR + Gelauftrennung •Standard-Marker-Set: ca. 300 Marker (d.h. Kandidatenregionen ca. 10 Mbp) Feinkartierung, Sequenzierung, Identifizierung von möglichen Genen, Bestimmung guter Kandidaten, Vergleich der Sequenz in gesund/krank Erleichterung durch human genome project! Autozygotie: Homozygotie für Marker, die von gemeinsamen Vorfahr geerbt wurden (identity by descent IBD vs. identity by state IBS) Feinkartierung durch Autozygosity Mapping in consanguinen Familien Strachan Read 3, p410 Kopplungsanalyse erfolgreich genutzt für für Identifizierung der relevanten Gene für >1200 "Mendel"-Erbkrankheiten!!! aber: mögliche Probleme bei Kopplungsanalyse: •Locusheterogenität: Mutationen in verschiedenen Genen verursachen gleichen klinischen Phänotyp (Bsp. XP) •die Auflösung ist begrenzt durch die Anzahl der verfügbaren Meiosen •Zuordnung gesund/krank muss eindeutig sein (Probleme bei unvollständiger Penetranz, late-onset, Phänokopien) •für komplexe Erkrankungen meist nicht geeignet Complex disease, common disease, multigenic disease..... Zusammenwirken von Suszeptibilitäts-Allelen in mehreren Genen und Umwelteinflüssen Bsp.: Herzinfarkt, Schlaganfall, Asthma, Crohn, Diabetes 1, Diabetes 2, Adipositas, Alzheimer, Schizophrenie, Depression....... Erste Frage: Gibt es eine genetische Komponente? Haben Verwandte eines Kranken höheres Risiko, zu erkranken, als Nicht-Verwandte? Ev. Problem: Gleiche Umwelt (daher: Adoptionsstudien, Zwillingsstudien...) Assoziationsstudien Assoziation ist ein Begriff der Statistik, der besagt, dass zwei Ereignisse zusammen auftreten in unserem Falle: Allel *1 eines Locus A ist mit einer Krankheit K assoziiert, wenn A*1 in Kranken öfter beobachtet wird, als aufgrund der Häufigkeit von A*1 in der Bevölkerung zu erwarten wäre. Kopplungsanalyse Assoziationsstudie Patienten + "gematchte" Kontrollen Mögliche Ursachen für Assoziation: •Typ 1 Fehler (d.h. keine Korrektur für gleichzeitiges Testen vieler Marker; passierte früher oft!!!) •Bevölkerungs-Stratifikation (Bsp. HLA-A1 in San Franscisco assoziiert mit Stäbchenessen) •Selektion (Leute, die die Krankheit K haben, überleben besser oder haben mehr Kinder, wenn sie am Locus A das Allel *1 haben) •Causal (A ist das krankheitsrelevante Gen für die Krankheit K, und Allel A*1 macht empfänglich für K (selten!)) •LD (Kopplungsungleichgewicht) (Allel *1 steht in LD mit dem empfänglich machenden Allel des krankheitsrelevanten Gens) „Kopplung“ beschreibt die relative Positionierung von zwei (oder mehr) Loci zueinander (unabhängig von den Allelen der betreffenden Loci) „Kopplungsgleichgewicht“ (Linkage Equilibrium, LE) bedeutet, dass bestimmte Kombinationen von Allelen (an unterschiedlichen Loci) in der Population entsprechend der Allelhäufigkeiten vorkommen. „Kopplungsungleichgewicht“ (Linkage Disequilibrium, LD) bedeutet, dass bestimmte Kombinationen von Allelen häufiger oder weniger häufig vorkommen, als aufgrund der Allelhäufigkeiten zu erwarten wäre. Allelhäufigkeiten in der Population: am Locus A findet man Allel A1 mit einer Häufigkeit von p1 und Allel A2 mit einer Häufigkeit von p2 am Locus B findet man Allel B1 mit einer Häufigkeit von q1 und Allel B2 mit einer Häufigkeit von q2 erwartete Allelkombinationen in den Gameten bei LE: Kombination A1 B1 mit einer Häufigkeit von P11= p1" q1 A1 B2 P12= p1" q2 A2 B1 P21= p2" q1 A2 B2 P22= p2" q2 Allelkombinationen in den Gameten bei LD: Kombination A1 B1 mit einer Häufigkeit von P11= A 1 B2 P12= A 2 B1 P21= A 2 B2 P22= p1" p 1" p 2" p 2" q1 + D q2 - D q1 - D q2 + D Ursachen für LD: •Selektion für oder gegen bestimmte Kombination •genetische Drift •Gründereffekte, die noch nicht durch Rekombination aufgebrochen wurden d.h.: der gemeinsame Vorfahr, in dem die krankheitsrelevante Mutation erstmals auftritt, hat zufällig ein bestimmtes Allel an einem gekoppelten Locus, welches gemeinsam mit dem Krankheitsallel vererbt wird Geschätzte Halbwertszeit von LD zwischen zwei Loci, die 1 cM voneinander entfernt liegen: 69 Meiosen (0.9969)=0.5 d.h. damit LD entdeckt werden kann, muss getesteter Marker nahe beim krankheitsrelevanten Gen liegen (<< 1 Mbp) für genomweite Analysen bräuchte man vermutlich ca. 30 000 - 300 000 Marker! Marker für Assoziationsstudien ca. 10 Millionen Polymorphismen im menschl.Genom; geeignet v.a. SNPs (single nucleotide polymorphisms), da •sehr häufig •relativ stabil und •durch high-throughput Analysen analysierbar Suche nach geeigneten Markern: HapMapProjekt: •Identifiziere die Polymorphismen (in 4 versch. Populationsgruppen: Yoruba (Nigeria), Han, Japaner, Bevölkerung aus Utah mit West/Nordeurop. Vorfahren); •Analysiere gemeinsame Vererbung in Haplotypen •Bestimme repräsentative Tag SNPs Goldstein Nature 437, 1241-1242 The International HapMap Consortium, Nature 437, 1299-1320 Haplotyp-Blöcke Mosaik-Chromosomen in Bevölkerung RekombinationsHotspots (durchschnittlich alle 122 kb, sh. HapMap Projekt) Ursachen? Retrotransposonähnliches Element? Cardon, Trends Genet. 19:135-140, 2003 kontinuierliche Sequenzen NUR variable Positionen gezeigt! Charakteristische Positionen: ATC identifiziert Haplotyp1 ACG identifiziert Haplotyp2 etc The International HapMap Project; Nature 426:789-796 (2003) Bisher keine genomweite Assoziationsstudie erfolgreich! (aber regional begrenzte Studien zur weiteren Eingrenzung der Kandidatenregion nach Kopplungsanalyse oder Kandidatengen-Studien) Two views on testing for genetic susceptibility Head in clouds Head in sand Cartoon by Maya Evans