1 Hintergrund Proteomforschung Eiweiße sind die molekularen Arbeitstiere des Körpers. Jede Körperzelle enthält Tausende von verschiedenen Eiweißen, die als winzige Maschinen zusammenarbeiten und in der Zelle "den Laden in Gang halten". Eiweiße sind auch die wichtigsten Baustoffe der Lebewesen. Fast jeder Bestandteil des Körpers ist entweder selbst ein Eiweiß oder wurde durch Eiweiße erzeugt. Die Bedeutung der wissenschaftlichen Erforschung dieser Teilchen ist heute sehr groß, vor allem weil Genforscher inzwischen herausgefunden haben, dass es weitaus mehr Proteine als Gene gibt. Um die genaue Anzahl und die Funktion all dieser Eiweiße zu verstehen, arbeiten Wissenschaftler in der Proteomforschung mit immer komplexeren automatisierten Verfahren. Die Bioninformatik spielt bei der Analyse dieser Daten eine entscheidende Rolle. Die Entschlüsselung des menschlichen Genoms führte zu der Erkenntnis, dass es zwar nur 30.000 – 40.000 Gene aber eine weitaus größere Zahl von Proteinen gibt. Die Anzahl unterschiedlicher Proteine in einem Organismus wird auf mehr als 300.000 geschätzt. Es wurde deutlich, dass die „ein-Gen-ein-Protein“ Theorie nicht stimmt, sondern dass Gene für verschiedene Proteine codieren können. Gene bestehen aus Exons und Introns und werden in einem komplexen Prozess zunächst in die Boten-RNA namens messenger RNA (mRNA) umgeschrieben (= Transkription). Diese mRNA wird nach der Transkription verändert z. B. gespliced, d. h. Introns werden „ausgeschnitten“ bevor die mRNA in eine Aminosäuresequenz „übersetzt“ wird und Proteine daraus entstehen. Dieser Vorgang wird auch als Translation bezeichnet und findet in einem Teil der Zelle statt, die Ribosome genannt werden. Die Vielzahl der Proteine kann z. B. durch alternatives splicing zustande kommen. Zusätzlich können Modifikationen die Proteine nach der Translation verändern. Es wurde zudem bekannt, dass die DNA in bestimmten Abschnitten auf Strang und Gegenstrang Informationen für unterschiedliche Gene enthalten kann. Das Proteom umfasst die Gesamtheit der Proteine, die von einer Zelle/einem Gewebe gebildet (=exprimiert) werden. Proteine sind sehr viel komplexere Moleküle als die sehr einheitlich aufgebaute DNA, die sich aus einer Kombination von nur vier verschiedenen Nukleotiden zusammensetzt. Proteine bestehen aus einer Kombination von mehr als 20 verschiedenen Aminosäuren, die sich in ihrem Aufbau und in ihren chemischen Eigenschaften deutlich voneinander unterscheiden. Die Abfolge der Aminosäuren bezeichnet man als Primärstruktur eines Proteins. Die Aminosäurenstränge falten sich zu einfachen Sekundärstrukturen (beta-Faltblatt, alpha-Helix), welche schließlich eine übergeordnete dreidimensionale Tertiärstruktur formen. Untereinheiten der Proteine bilden häufig Strukturen, die bei verschiedenen Proteinen in gleicher Form vorkommen und mit bestimmten Funktionen assoziiert sind, sogenannte Motive oder Domänen. Unterschiedliche Proteine bilden in einer Quartärstruktur komplexe Moleküle aus verschiedenen Untereinheiten. Die Eigenschaften von Proteinen werden aber nicht nur durch die im Gen festgelegte Primärstruktur festgelegt, sondern können durch nachträgliche Modifikationen noch deutlich verändert werden. Wichtige Modifikationen sind Glycosylierungen 2 (angehängte Zuckerstrukturen), Phosphorylierungen (Phosphorsäurereste) und Acylierungen (Fettsäurereste). Weiterhin werden Proteine häufig in Teilstücke gespalten, die veränderte Eigenschaften besitzen können (der proteolytische Abbau eines Proteins kann z. B. zu dessen Aktivierung führen). Jeder Zell-Typ, jedes Gewebe, jeder Organismus unterscheidet sich in seiner Proteinzusammensetzung und dieses Proteinprofil verändert sich im Verlaufe des Zell-Lebens. Es gibt ca. 250 verschiedene menschliche Zelltypen und diese exprimieren verschiedene Subproteome zu verschiedenen Zeiten unter unterschiedlichen äußeren Bedingungen. Z. B. als Reaktion auf Erkrankungen oder medikamentöse Therapie verändert sich das Proteinmuster. Tumorzellen haben ein anderes Proteom als gesunde Zellen und das Proteinprofil ändert sich je nach Stadium des Tumors. Die Proteom-Analyse soll der Fragestellung dienen: „what-do-we-need-to-know-tomake-sense-of-all-the-genomic-data“. Die Diagnose und Prognose von Krankheiten wie z. B. Krebs könnte in Zukunft erleichtert werden, Krankheits-„Marker“ und Ziele von Medikamenten sollen schneller identifiziert werden. Es wird erwartet, dass ein mehr oder weniger vollständiger Katalog des menschlichen Proteoms in ca. zehn Jahren vorliegt. Die Proteom-Analyse gliedert sich in verschiedene Bereiche: zunächst ein „Transcriptional Profiling“, d. h. welche Gene werden je nach Zelltyp, Entwicklungsstadium oder Krankheitsstadium transkribiert. Dies ist mit einer Analyse der gebildeten mRNA verbunden. Das „Protein-Profiling“ ist die Analyse des Proteoms eines Gewebes oder einer Zelle sowohl nach der Zusammensetzung als auch nach der jeweiligen Menge. Die Standard-Methode der Analyse eines Proteingemisches, wie es in Zellen oder Geweben vorliegt, erfolgt im ersten Schritt über eine 2D-Elektrophorese: die Proteine werden nach ihrer molekularen Masse in der einen Dimension und nach ihrer Ladung in der anderen Dimension in einem Gel aufgetrennt. Man erhält auf einem (z. B. 40 cm x 40 cm) Gel ein komplexes Muster, das für Gewebe, Zelltypen, Entwicklungsstadien, Krankheiten usw. spezifisch ist. Proteine von Interesse können aus diesem Gel isoliert, verdaut und in einer Massen-Spektrometer-Analyse auf ihre Sequenz und ihre Modifikationen hin untersucht werden. Eine funktionelle Zuordnung kann dann über Datenbank-Analysen erfolgen. Die Methode lässt nicht nur qualitative sondern auch quantitative Analysen zu. Da es sich bei der 2DElektrophorese um eine sehr aufwendige und schwer reproduzierbare Methode handelt, gibt es zahlreiche Versuche die Proteom-Analyse zu automatisieren und zu vereinfachen. Nach dem Protein-Profiling müssen Protein-Protein-Interaktionsstudien erfolgen, um die Funktion von Proteinen aufklären zu können. Eine Standard-Methode hierfür ist seit vielen Jahren die Yeast-Two-Hybrid Methode: In dem Modellsystem Hefe wird mit Hilfe eines Transkriptionsfaktors die Interaktion von Proteinen aufgeklärt. Dieser Transkriptionsfaktor hat eine DNA-bindende Domäne und eine Transkriptions aktivierende Domäne. Es werden zwei transgene Fusionsproteine hergestellt: das eine besteht aus dem bekannten Köder-Protein und der DNA-bindenden Domäne das zweite besteht aus einer Vielzahl von möglichen Proteinen (= Beute-Proteine) und der Transkription-aktivierenden Domäne. Bindet ein Beute-Protein an den Köder, 3 werden die beiden funktionellen Domänen des Transkriptionsfaktors zusammengebracht und können zu der Expression eines Selektionsmarkers führen, d. h. nur ein vollständiger Transkriptionsfaktor führt dazu, dass die jeweiligen HefeZellen überleben. Das Beute-Protein kann dann leicht identifiziert werden. Die Idee, die der Yeast-two-Hybrid Methode zugrunde liegt, ist die Hypothese, dass Proteine, die aneinander binden auch miteinander arbeiten bzw. funktionell zusammenhängen. Auch diese Methoden wurden in den vergangen Jahren kontinuierlich verbessert, sind aber prinzipiell ähnlich geblieben. Eine andere wichtige Methode um Proteininteraktionen aufzuklären ist das „Phage Display“, das von der Firma Dyax entwickelt wurde. Peptid- oder Protein Bibliotheken werden auf der Oberfläche von Viren exprimiert und können dort en masse auf ihre Aktivität hin getestet werden. Eine ähnliche Methode ist „Profusion“ der Firma Phylos. Bioinformatik: Bei allen Schritten der Proteom-Forschung ist eine bioinformatische Analyse der Proteom-Daten erforderlich. Die Menge der Proteomic-Daten wird ähnlich wie die Genomic-Daten in Datenbanken mit unterschiedlicher bioinformatischer Aufbereitung zur Verfügung gestellt. Neben der Sequenz von Proteinen werden die räumliche Struktur, die Interaktionen mit anderen Proteinen bzw. Sets von Proteinen, die funktionellen Domänen, der Stoffwechselweg und eventuell die Funktion mit komplizierter Software ermittelt und in umfangreichen Datenbanken erfasst (Bsp. Firmen wie Molecular Simulations und Structural Bioinformatics). Ganze Proteome von verschiedenen Model-Organismen sind bereits in Datenbanken erfasst und aufbereitet (Bsp. die Firma Proteome). Auch die Methoden, die zur Proteom-Aufklärung verwendet werden, sollen durch geeignete Software vereinfacht werden. Dazu gehören die Programme zahlreicher Firmen, um die 2D-Elektrophorese zu automatisieren (z.B. Geneva Bioinformatics, BioRad Laboratories, Amersham Pharmacia Biotech, Phoretix International, LargeScaleProteomics, Compugen, GeneData). Neue methodische Ansätze beschäftigen sich mit der Entwicklung von Biochips, die die Protein-Identifizierung und Charakterisierung sowie das Protein-Profiling in automatisierter Form ermöglichen sollen. Der Protein-Chip kann dabei, um aus einer Proteinprobe die gewünschten Peptide zu fischen, von einer relativ unspezifischen Oberfläche (z. B. chemische Eigenschaften) bis zu einer hochspezifischen Oberfläche (z. B. Rezeptoren, Antikörper oder Enzyme) variieren.