Schlaglicht 492 Fallstricke in der Durchführung von Proteomanalysen Katrin Marcus & Helmut E. Meyer, Medizinisches Proteom-Center, Ruhr-Universität Bochum Die Autoren dieses Essays arbeiten seit mehr als 25 Jahren im Feld der Proteinanalytik. Nachdem diese Disziplin lange Zeit sowohl in Deutschland als auch weltweit ein Schattendasein geführt hat, ist mit dem 1994 von Marc Wilkins geprägten Begriff des Proteoms für die Proteinchemie eine neue Ära angebrochen. Zeitgleich mit der Einführung dieses Begriffes wurde die Proteom-Analyse als Hochdurchsatzmethode definiert. Wie schon bei der zuvor eingeführten Transkriptom-Analyse, die vor allem basierend auf der DNA-Chip Technologie, gleichzeitig zehn- bis hunderttausend oder mehr mRNA Moleküle in einer einzigen Reaktion nachweisen kann, liefert die Proteom-Analyse unter Einsatz von 2D-Gelelektrophorese (2D-PAGE), multidimensionaler Chromatographie (MDLC), Isotopen-Kodierten Markierungstechniken (ICAT u.a.) und anderen Techniken gefolgt von Massenspektrometrie tausende bis mehrere hunderttausend Datensätze aus einer einzigen Probe. Dabei ergeben sich eine ganze Reihe von logistischen Problemen, die erkannt und gelöst werden müssen, damit solche Hochdurchsatzstudien zuverlässige Resultate liefern, die sich in einer nachfolgenden Validierung als haltbar erweisen. Wir werden im Folgenden eine Reihe von Punkten thematisieren, die dabei der besonderen Beachtung bedürfen: Planung einer Proteom-Studie Unter einer Proteom-Studie verstehen wir die Anwendung proteinanalytischer Technologien zum Auffinden neuer Proteine, die in einem Bezug zu bestimmten Funktionen oder im Zusammenhang mit bestimmten Krankheiten stehen. Dabei werden meist differentielle Ansätze gewählt, um durch die Analyse der aufgefundenen Unterschiede relevante Hits = Proteintargets zu finden. Der Erfolg eines solchen Ansatzes ist von einer Vielzahl von Faktoren abhängig auf die wir im Folgenden näher eingehen werden: • Kooperation Die gemeinsame Planung einer ProteomStudie mit dem Biochemiker, Pharmakologen oder Mediziner und dem involvierten Proteinanalytiker von Anfang an ist essentiell. Dabei geht es darum, die Randbedingungen festzulegen, die einen erfolgreichen Studienverlauf garantieren. Dazu gehört festzustellen, welche Einflussparameter (Substanzkonzentration, Temperatur, Stress, Zeitverlauf und sonstige Bedingungen) auf das zu untersuchende System variiert werden sollen und welche typischen messbaren Veränderungen (Expressionsänderung, Posttranslationale Modifikationen etc.) damit im Zusammenhang stehen (funktioneller Readout). • Probengewinnung und Probenvorbereitung Es ist offensichtlich, dass die Qualität und genaue Kontrolle der Proben, die einer differentiellen Proteom-Analyse unterworfen werden, darüber entscheiden, ob in der nachfolgenden Analyse aussagekräftige Ergebnisse zu erzielen sind. Das heißt auch, dass in der Planung genaue Protokolle erarbeitet werden müssen, um eine gleich bleibende Probenqualität zu gewährleisten. Mit anderen Worten: die Probengewinnung und -vorbereitung muss standardisiert werden. Dies muss u.a. auch durch die Definition geeigneter Kontrollproben geschehen. Um niedrig abundante Proteine in einer Proteom-Studie quantitativ zu analysieren, ist eine Vorfraktionierung von Zellen und Geweben unumgänglich. Allein die Vergrößerung des dynamischen Bereichs einer Nachweismethode führt nicht zum gewünschten Ziel, da die niedrigsten Signale bei jeder angewandten Nachweistechnik stets die höchsten Schwankungen aufweisen. • Anzahl der unabhängig zu analysierenden Proben Die Anzahl der notwendigen Proben ist u.a. abhängig von der Reproduzierbarkeit der Probengewinnung und dem zu bearbeitenden System. Dabei steigt die Anzahl (n) mit der Komplexität der Proben: Proteinkomplexe (n = 3) < Proteom einer Zellkultur (n = 5) < Gewebe aus Modellorganismen (Inzuchtstämme) (n = 8–10) < Proben von humanen Gewebe (n = 20). Hierbei ist zu berücksichtigen, dass bei humanen Proben die biologische Variabilität auf Grund von Polymorphismen sehr hoch ist. Unabhängig von diesen Überlegungen ist eine mehrmalige Wiederholung der gesamten Proteom-Analyse inklusive des jeweiligen bio- logischen/biochemischen Experimentes unerlässlich. Es ist sehr verlockend zu glauben, dass sich mit zehntausenden von Datensätzen aus der Analyse einer einzigen Probe die Wiederholung eines solchen Experimentes erübrigt. Dies ist ein gefährlicher Irrtum! In einer differenziellen Proteom-Analyse, bei der gleichzeitig tausende von Proteinen parallel in ihrer relativen Quantität erfasst werden, ist auf Grund der biologischen Probenvariabilität, der Variabilität in der Probenvorbereitung und der Variabilität in der technischen Durchführung der Analyse mit einer erheblichen Streuung der Ergebnisse zu rechnen. Diese Streuung lässt sich in ihrem Ausmaß nur durch eine ausreichende Anzahl von Wiederholungen bestimmen. Gleichzeitig garantieren genügend Wiederholungen, die Proteine zu identifizieren, die sich im Vergleich mit der Kontrollprobe reproduzierbar quantitativ verändern. Für eine handwerklich gut durchgeführte Proteom-Studie ist davon auszugehen, dass zwischen 100 bis ca. 200 unabhängig gewonnene Proben analysiert werden müssen. Der damit verbundene hohe Arbeitsaufwand hat schon bei der Transkriptom-Analyse zu der Unsitte geführt, Proben zu poolen. • Poolen von Proben Wenn eine Proteom-Studie geplant wird, so kommt man auf eine Anzahl von normalerweise 100 bis 200 Proben, die einzeln untersucht werden müssen. Dabei ist es ratsam, jede Probe doppelt zu analysieren (Doppelbestimmung). Diese Anzahl von Proben z.B. mittels 2D-PAGE aufzutrennen und die erhaltenen Proteinspotmuster nach Anfärbung der Gele quantitativ auszuwerten, ist ein sehr zeitaufwändiges Unternehmen, zumal bis heute die computergestützte Bildauswertung alles andere als perfekt ist. Das bedeutet, dass für die Durchführung einer solchen Proteom-Studie leicht ein Arbeitsaufwand von 1 bis 2 Jahren einzukalkulieren ist und zumindest zwei Personen Vollzeit damit beschäftigt sind. Zusätzlich entstehen für eine solche Proteom-Studie sehr hohe Kosten durch die große Menge an benötigtem Verbrauchsmaterial und Personal. Beispielsweise belaufen sich die Kosten für eine Proteom-Studie mittels der ICAT (Isotope Coded Affinity Tags)-Technologie auf 600 € pro durchgeführte Analyse. Da ist es natürlich verführerisch, die Anzahl der zu untersuchenden Proben durch Poolen drastisch zu vermindern und somit Arbeitsaufwand und Kosten zu sparen. Doch was geschieht durch die Reduktion der Probenzahl durch das Poolen? Bei einem Vergleich von nur zwei Proben (gesund – krank) beim Einsatz der 2D-PABIOspektrum · Sonderausgabe · 9. Jahrgang Schlaglicht 493 GE nach Klose (1), mit der bis zu 10 000 Proteinspezies aufgetrennt werden können, treten in der Regel 200 oder mehr zufällige Unterschiede auf. Es kann aus einem so gewonnenen Datensatz nicht zwischen zufälligen und krankheitsspezifischen Differenzen unterschieden werden. Nach dem Poolen aller Proben zu einem Untersuchungszeitpunkt (jeweils ein Pool gesund und krank) ist es daher nicht mehr möglich, die Proteinsignale herauszufinden, die sich reproduzierbar quantitativ verändern. Selbst wenn diese gepoolte Probe mehrfach analysiert wird, bleibt die Anzahl der unabhängig voneinander durchgeführten Experimente (n) undefinierbar zwischen n = 0 bis 1. Erst der Vergleich von jeweils 5 bis 12 oder mehr unabhängig durchgeführten Experimenten (bei Modellorganismen) inklusive der dazugehörigen Kontrollen gewährleistet, die Proteinsignale herauszufinden, die sich in der Mehrzahl der Experimente reproduzierbar quantitativ verändern. BIOspektrum · Sonderausgabe · 9. Jahrgang Dieses Vorgehen führt auch dazu, dass sich die Anzahl der „Proteinhits“ drastisch vermindert, und es wird so gewährleistet, dass die weiterführenden Untersuchungen mit validen Proteomdaten gestartet werden. Beispiel Wir möchten dies am Beispiel einer publizierten Proteom-Studie erläutern: Claus Zabel et al. (2) haben im Rahmen einer Huntington-Studie mit Mäusen jeweils 12 transgene Tiere und 12 gesunde Kontroll-Tiere vor dem Einsetzen der ersten Krankheitssymptome untersucht. Zum nächsten Zeitpunkt (Einsetzen der ersten Symptome) wurden jeweils 8 transgene und 8 gesunde Tiere untersucht und zum Ende der Studie noch einmal jeweils weitere 8 Tiere im Spätstadium der Erkrankung. Das heißt, dass bei dieser Proteom-Studie insgesamt 48 einzelne Gehirnproben untersucht wurden. Bei ei- ner Doppelbestimmung pro Probe ergibt sich daraus eine Anzahl von 96 Analysen. Untersuchungen an weiteren Organen erforderten jeweils die gleiche Anzahl an Analysen. Das Ergebnis dieser Proteom-Studie war, dass im Gehirn der transgenen Mäuse drei Proteingruppen identifiziert wurden, die mit dem Krankheitsverlauf korrelieren. Hochdurchsatzanalyse = schnell und billig? An den obigen Ausführungen ist abzulesen, dass eine solche Proteom-Studie weder schnell durchgeführt werden kann, noch billig ist. Das gilt auch für die neueren nicht 2D-PAGE basierten Techniken wie ICAT-, MudPIT (Multidimensional Protein Identification Technology)-, MDLC (Multidimensionale Chromatographie)-MS/MS. Schlaglicht Auch hier liegt die Anzahl der analytischen Datensätze zum Teil in astronomischer Höhe: Wie bei der Auswertung in der Bildanalyse benötigt hierbei die Validierung massenspektrometrischer Messungen mehrere Wochen Arbeitszeit. Wir haben kalkuliert, dass die Analyse einer einzigen Plasma-Probe aus dem HPPP mittels multidimensionaler LC gefolgt von MS/MS Fragmentanalysen zu einem Datensatz von ca. 400.000 auszuwertenden MS/MS Spektren führt, die sicherlich einige Monate an manueller Nacharbeit erfordern werden. Dabei ist es klar, dass mit der einmaligen Durchführung keine quantitativen Aussagen getroffen werden können; dies ist erst dann möglich, wenn dieselbe Probe mehrfach analysiert wurde. Momentan werden ca. 90% der Zeit, die für eine solche Proteom-Studie aufgewandt werden, für die Validierung massenspektrometrischer Daten benötigt. An dieser Stelle sind die Fachleute der Bioinformatik gefordert, um die zurzeit notwendige manuelle Interpretationsarbeit weitgehend zu automatisieren und damit Hochdurchsatz-Analysen in der Proteomforschung mit den notwendigen Wiederholungen zu ermöglichen. Als erfolgreich und damit preiswert ist sicherlich eine Proteom-Studie zu bezeichnen, die aus sich heraus valide Ergebnisse liefert, die sich in den nachfolgenden Untersuchungen mit anderen biochemischen Methoden validieren lassen. Literatur [1] Klose, J. (1999): Large-gel 2-D electrophoresis. Methods Mol Biol. 112: 147–172 [2] Zabel, C., Chamrad, D.C., Priller, J., Woodman, B., Meyer, H.E., Bates, G.P., Klose, J. (2002): Alterations in the mouse and human proteome caused by Huntington’s disease. Mol Cell Proteomics 1(5): 366–375. Danksagung Die im vorliegenden Artikel beschriebenen Arbeiten wurden vom BMBF finanziert. Korrespondenzadresse: Prof. Dr. Helmut E. Meyer Ruhr-Universität Bochum Protein Struktur/Gebäude MA 2/143 D-44780 Bochum Tel.: 0234-32-22427 Fax: 0234-32-14554 [email protected] BIOspektrum · Sonderausgabe · 9. Jahrgang