1 Hintergrund Genomforschung Jedes mehrzellige Lebewesen besitzt in jeder einzelnen Zelle seines Körpers die "Baupläne" für alle Bestandteile, aus denen es zusammengesetzt ist. Diese gesamte genetische Information eines Lebewesens wird Genom genannt und befindet sich auf einem langem, dünnen Faden: der Erbsubstanz DNA. Wie sich das Genom zusammensetzt, ist seit dem Jahr 2001 etwas klarer. Damals stellten die im Humangenomprojekt arbeitenden Forschergruppen die Schrift des menschlichen Genoms vor: Sie identifizierten die Abfolge Basenpaare in der menschlichen DNA auf ihren einzelnen Chromosomen durch ein Sequenzierungsverfahren. Aufgabe der Forscher ist es nun, diese Schrift auch zu verstehen. Dafür werden auch die Genome anderer Spezies nach für nach ebenfalls sequenziert und identifiziert. Durch den Vergleich dieser Daten wollen Wissenschaftler herausfinden, wo sich einzelne Gene befinden und welche Aufgabe sie im Körper übernehmen. Das Genom ist die Summe aller genetischen Information eines Organismus. Das Genom unterscheidet sich in Größe, Anzahl der Gene und in der Sequenz der Gene von Spezies zu Spezies. Das menschliche Genom ist ca. 3 x 109 Basenpaare groß und ca. einen Meter lang. Um die Zusammensetzung des menschlichen Genoms herauszufinden, wurde das sogenannte humane Genomprojekt ins Leben gerufen. Es nahm im Jahr 1986 seinen Anfang, als der italienische Forscher und Nobelpreisträger Renato Dulbecco den Bezug zwischen Krebsforschung und Sequenzierung diskutierte. Da das menschliche Genom mit 3 x 109 Basenpaaren relativ groß ist, war mit immensen Kosten für die Realisierung des Projektes zu rechnen. Geschätzte drei Milliarden Dollar waren niemals zuvor für ein biomedizinisches Projekt zur Verfügung gestellt worden. Um das Projekt sinnvoll durchführen zu können, mussten die Aufgaben der beteiligten Labore koordiniert werden und darüber hinaus Computersoftware, Sequenzierstrategien und die technische Ausrüstung verbessert werden. Das humane Genomprojekt wurde 1990 mit Hilfe des amerikanischen National Institute of Health (NIH) und der US-Regierung sowie des britischen Wellcome Trust (Sanger Centre) mit Beteiligung internationaler Forschungseinrichtungen und Firmen gestartet unter Leitung von Francis Collins (in Deutschland wurden 1,5% des Genoms sequenziert). Es wurde von einer eigenen Organisation, der internationalen Human Genome Organisation (HUGO), koordiniert. Der Abschluss des Projektes war zunächst für das Jahr 2005 geplant. Noch vor wenigen Jahren wurde es für unwahrscheinlich gehalten, dieses ehrgeizige Ziel zu erreichen. Durch neue Sequenzierstrategien - vom „map-first-sequence-later“ und 2 „chromosome walking“ zum „whole genome shotgun sequencing“(Craig Venter) wurde das Projekt entscheidend beschleunigt. Francis Collins spottete über die neue Technik zu Beginn noch, dass der Biochemiker Craig Venter auf diese Weise höchstens eine „Mad-Magazine -Version“ des Erbguts liefern könnte. Venter hatte sich 1992 von der öffentlich geförderten Forschergruppe getrennt und arbeitete nach einer eigenen Methode auf eigene Faust weiter. 1998 gründete er die Firma Celera. Die Fertigstellung der Rohdaten des Humanen Genomprojektes wurden am 26.Juni 2000 gemeinsam von Francis Collins und Craig Venter bekannt gegeben. Am 12.02.2001 gaben die Firma Celera (von Craig Venter) und das öffentliche Humane Genomprojekt gemeinsam die Kartierung aller menschlichen Gene bekannt: die eher kleine Menge von 30.000 – 40.000 Genen konnte identifiziert werden (Kartierung oder Mapping gibt Aufschluss darüber, wo im Genom bzw. auf welchem Chromosom welches Gen liegt). Abbildung 1: Das menschliche Erbgut DNA als gewundene Doppelhelix. Neben dem menschlichen Genom werden und wurden auch Genome anderer Organismen sequenziert z. B. die vieler Mikroorganismen oder als erstes eukaryotisches Genom das der Bierhefe (1997). Auch die Gen-Informationen von z. B. Drosophila (2000), Maus, Hund und von verschiedenen Primaten (Schimpanse 3 2005) werden gegenwärtig entschlüsselt. Die Entschlüsselung der Erbinformationen verschiedener Organismen ist notwendig, um durch vergleichende Analysen in der Menge der Sequenzdaten die Bereiche zu finden, die für bestimmte Gene codieren (d. h. diese Bereiche können in Proteine übersetzt werden). Diese vergleichenden Analysen sind möglich, da vor allem die codierenden Gen-Bereiche konserviert sind, d. h. sie haben sich im Verlauf der Evolution nicht so stark weiterverändert wie andere Bereiche des Genoms. Durch die technischen Entwicklungen der letzten Jahre wurde es in manchen Fällen schneller und effizienter, ganze Genome zu sequenzieren als nach einzelnen Genen zu „fischen“. In der Menge der DNA sind nur 3 – 5% der Gesamt-DNA Gene. Die restlichen > 95% der DNA bestehen aus regulatorischen Einheiten, repetitiven Strukturen und sogenannter „junk“-DNA. Hinzu kommen sogenannte Introns, dies sind DNAAbschnitte, die ein Gen in seinen codierenden Bereichen (=Exons) unterbrechen. Diese Introns können bei menschlichen Genen mehr als das 10fache der codierenden Bereiche betragen. Die nicht-codierenden Introns werden bei der Übersetzung der Gene in Proteine herausgeschnitten (=splicing). Die codierenden Bereiche von Genen zu identifizieren, ist eine der schwierigsten Aufgaben der Sequenzanalyse. Es ist daher auch bisher unklar, wie viele Gene in dem menschlichen Genom genau zu finden sind. Nach anfänglichen Schätzungen von bis zu 100.000 Genen wird nach vergleichenden Sequenzanalysen jetzt angenommen, daß nur ca. 30.000 bis 40.000 Gene den Menschen ausmachen. Trotzdem wird geschätzt, daß im Menschen mehr als 300.000 verschiedene Proteine exprimiert werden. Diese große Zahl kommt zustande, da die „Ein-Gen-ein-Protein“-Theorie in höheren Organismen nicht stimmt, sondern durch alternatives „splicing“, d. h. durch das Herausschneiden unterschiedlicher DNA-Abschnitte, und durch andere Mechanismen ein Gen für verschiedenen Proteine codieren kann. Die Aufklärung dieser Mechanismen ist ein Kernproblem für die zukünftige Forschung. Auch die sehr viel schwierigere Entschlüsselung der regulatorischen Bereiche außerhalb der Gene könnte von großem Interesse für die medizinische Forschung werden. 4 Der zu erwartende kommerzielle Nutzen der Gen-Information liegt in (1) der Entwicklung von neuen Protein-Medikamenten (vgl. EPO, Insulin usw.), (2) der Identifikation neuer Protein-„drug targets“ und (3) in der Pharmakogenomik: der DNAbasierenden Diagnostik und personalisierten Medizin. Die Hauptarbeit in Zukunft wird es sein, die Funktion der gefundenen Gene zu verstehen. Wissenschaftler versuchen dabei herauszufinden, in welchen Zellen und zu welchem Zeitpunkt der Entwicklung ein Gen „angeschaltet“ oder „abgeschaltet“ ist. Sie wollen wissen, welche Funktion ein gebildetes Protein in dem komplexen Zusammenwirken unterschiedlicher Proteine in einer Zelle, in einem Organismus übernimmt und was hat eine Fehlfunktion zur Folge hat. Der Sinn der Genomprojekte und damit der Sequenzierung liegt in der Identifizierung von Genen, die für das Verständnis v. a. von Krankheiten notwendig sind. Sowohl die Identifizierung der Ursachen von Krankheiten, die nicht durch Erreger verursacht werden, als auch die Identifikation von Wirkstoffen wird durch die Genom-Forschung revolutionär verändert. Die Identifikation von SNPs (single nucleotide polymorphisms) ist für die individualisierte, genombasierte Medizin eine wichtige Vorraussetzung. Mehr als 99,9% der 3 x 109 Basenpaare der DNA sind bei allen Menschen identisch, aber jedes ca. 1000ste Basenpaar unterscheidet sich zwischen den Individuen. Viele dieser Mutationen sind ohne Bedeutung. Allerdings sind SNPs die Ursache dafür, dass Individuen sich unterscheiden, dass Krankheiten bei einem Teil der Menschen zum Ausbruch kommen oder dass Medikamente nur in bestimmten Gruppen einer Population wirken. Die sogenannte SNP-Analyse dient dazu, diese Unterschiede zu identifiziern, zu kartieren und mit bestimmten Krankheiten in Verbindung zu bringen. Es wurde vor einigen Jahren ein SNP-Konsortium aus Pharmafirmen und dem britischen Wellcome-Trust gebildet. In verschiedenen Datenbanken sollen bereits ca. 3 Millionen SNPs gespeichert sein. Bekannt geworden ist durch SNP-Analysen auch die Tatsache, dass der Austausch eines einzigen Nukleotid-Bausteins im ApoE-Gen den Ausbruch von Alzheimer entscheidend beeinflussen kann oder dass eine Mutation im CCR5-Rezeptor Resistenz gegenüber dem Aids-Erreger HIV hervorruft.