Gruppe Nr. 10 Gero Schwenk, Florian Walker, Christina Knoblauch Tübingen, den XV. Mai Anno Domini 2002 Biochemie-Praktikum: Programm BI Angewandte Bioinformatik Allgemeines Als Anfang dieses Jahrtausends die Entschlüsselung des menschlichen Genoms bekannt gegeben wurde, wurde es von vielen als Meilenstein auf dem Weg zum Verständnis der Natur gefeiert. Damit ergeben sich allerdings erst riesige Aufgabenfelder für die Biochemie, die nur mit Hilfe der Bioinformatik einer Erschließung entgegengeführt werden können, denn die Kenntnis der genauen Basenfolge allein ist nur das Rohmaterial für den Bauplan des Lebens und praktische Anwendungen, auch und vor allem im medizinischen Bereich. Das Genom ist die zu einem bestimmten Zeitpunkt in einer Zelle vorhandene gesamte Erbinformation, das Transkriptom entsprechend die Gesamtheit aller daraus übersetzten RNAs. Das Proteom entspricht dem tatsächlichen Proteinbestand einer Zelle, also den transkribierten mRNAs und bestimmt damit direkt Aussehen und Funktionen der Zelle durch Struktur- und Enzymproteine. Nicht alle Bereiche der DNA werden in mRNA transkribiert. Jugendliche Zellen zum Beispiel verhalten sich anders als adulte Zellen; auch wenn Zellen Stress oder schädigenden Einflüssen ausgesetzt werden, ändert sich ihr Transkriptom. Daraus resultiert zeitlich teilweise stark verzögert ein Strukturveränderung auch des Proteoms, da manche Proteine sehr langlebig sind und auch teilweise von Mutter- zu Tochterzelle bei einer Teilung vererbt werden. Man zählt pro forma alles, das transkribiert wurde, zum Transkriptom, also auch rRNA, hnRNA und tRNA. Da über 90% der RNA einer Zelle aus rRNA besteht, die zusammen mit Proteinkomplexen die Ribosomen bildet, spielt auch das Transkriptom in Zusammenarbeit mit dem Proteom eine wichtige Rolle für den ablaufenden Stoffwechsel einer Zelle. Gene, die kodierenden Abschnitte der Erbinformation, liegen beim Prokaryonten immer in der Mehrzahl in Funktionseinheiten, den sog. Operons, zusammen und werden zusammen translatiert und in der Regel auch transkribiert. Bei Eukaryonten kann dagegen jedes Gen gezielt und einzeln angesprochen werden. Sie liegen oft als Aneinanderreihung von kodierenden und nichtkodierenden Abschnitten, den Exons und Introns, vor. Aus der beim Translatieren entstehenden heteronukleäre RNA (hnRNA) werden durch Spleißen die Introns entfernt; die zu transkribierende mRNA entsteht. Dieser Prozess wird von speziellen Basensequenzen gesteuert, die praktisch Sollschnittstellen markieren, an denen der Strang aufgetrennt und na ch Entfernung der Introns wieder zusammengefügt wird. Für die bioinformatische Anwendung wurden Programme mit derselben Funktion entwickelt (z.B. Genefinder), deren ganzer Lebensinhalt darin besteht, virtuos virtuelle Gene zu schneiden. Im Prinzip entstand das heutige Genom nur durch den unglaublichen Einfallsreichtum, mit dem die Natur die immer gleichen Bausteine zu immer neuen Bauplänen von Proteinen zu verbinden vermochte. Durch diesen modularen Aufbau konnte eine einmal durch Mutationen entstandene Funktionseinheit, z.B. eine ATPBindungsstelle, in völlig verschiedene Gene eingebaut werden, um Proteine mit neuen Eigenschaften zu erhalten. Die Säureamid- (Peptid-)Bindungen, mit denen Aminosäuren zu Proteinen kondensiert werden, besitzen partiellen Doppelbindungscharakter, so dass die freie Drehbarkeit dort aufgehoben ist. Die C2 -N- und C1-C2 Bindungen sind jedoch normale Einfachbindungen; sie nehmen jedoch aus energetischen Gründen nur eine begrenzte Anzahl Winkel an: Errechnet man einen Konformationsraum für Peptide (Ramachandran-Plot), gibt es nur kleine energetisch günstige Bereiche, für die meisten möglichen Winkel kollidieren die Van-der-WaalsRadien der beiden Carbonyl-Sauerstoffatome oder der Amino-Wasserstoffatome. Energetisch begünstigt sind nur wenige Strukturen, z.B. die a-Helix oder die ß-Faltblattstruktur. 2 Aminosäuren können förderlich, indifferent oder abweisend für Helix oder Faltblattstruktur sein, so dass sich aus der Primärstruktur (Aminosäurenabfolge) die Sekundärstruktur theoretisch ermitteln lässt. Proteine bestehen meist abwechselnd aus Abschnitten mit Helices und Faltblattstrukturen, die über Schleifen ohne eine spezielle Struktur verbunden sind. Dabei besteht ein ß-Faltblatt vorwiegend aus hydrophoben Aminosäuren und dient dem Zusammenhalt des Proteins; die a-Helices dagegen sind hydrophile, starre Strukturen, die für z.B. für das Binden von Liganden an Enzyme wichtig sind. Hydrophobe Abschnitte sind z.B. für Signalpeptide und Transmembranproteine wichtig, die einfach oder mehrfach die Zellmembran durchqueren; dabei liegt stets der hydrophobe Abschnitt in der innen stark lipophilen Membran. Ansonsten liegen meist hydrophile Aminosäuren außen, um die Löslichkeit der Proteine im wässrigen Medium zu garantieren. Transmembrandomänen besitzen mindestens 12 AS, wenn der durchquerende Abschnitt gestreckt ist, können aber bei a-Helixstruktur auch 23 oder mehr AS lang sein. Abschnitt 1: Datenbanken und deren Abfrage Aufgabenstellung: Die Basensequenzen von DNAs und RNAs verschiedener Organismen sowie ihre Entsprechunge n in Aminosäurensequenzen der jeweiligen Proteine sind über das Internet auf frei verfügbaren Datenbanken problemlos abrufbar. Die Basics im Umgang mit den Suchskripten für diese Datenbanken sollten in diesem Abschnitt vermittelt werden. Verwendete Methoden: Aufgabe 1.1) Aufgabe 1.2) Aufgabe 1.3) Aufgabe 1.4) Aufgabe 1.8) Aufgabe 1.9) Einsatz unserer vollen geistigen Kräfte, intensive Nutzung des WWW, speziell der Homepages des NCBI und EBI, Verwendung des Programms „DNAman“ Es war in der Entrez-Datenbank des NCBI mit Hilfe verschiedener Suchbegriffe ein Enzym von Bazillus subtiles zu finden. Die Suche ergab zwei Treffer: Alpha-L-Arabinofuranosidase 1 + 2 mit den accession numbers (AN) P94531 und P94552. Bei der Suche in der Nukleotid-Datenbank nach dem dieses Enzym kodierende Gen erhielten wir 14 Treffer, von denen vier auf B. subtiles bezogen waren. Davon ließen wir die „Bacillus subtilis DNA for ara… operon“ anzeigen, eine Sequenz mit 6811 Basenpaaren (bp). Danach luden wir im DNAman eine bereits auf der Festplatte gespeicherte Sequenz und ließen den „translation overview“ anzeigen, auf dem für alle sechs verschiedenen Leseraster Exons ermittelt und durch mehr oder weniger lange Pfeile angezeigt wurden. Von einem ATG-Startkodon bis zu einem Stopkodon reicht ein „offenes Leseraster“, das jeweils für ein Protein kodiert (keine Exons / Introns, da bakterielle DNA). Auf dem Plus-Strang lagen lange offene Leseraster, auf dem Minusstrang jedoch nur sehr kurze, die langen auf dem Plus-Strang überlappende Stücke, die somit wohl nicht kodierend sind. Die Gene auf dem Plus-Strang lagen auf allen drei Leserastern, überlappten sich jedoch nie. Das Protein mit der AN P94552 ist, wie zu erwarten war, Alpha- L-Arabinofuranosidase 2. Dasselbe Ergebnis erhält man mit einer Suchanfrage auf der EBI-Homepage für diese AN. Für gleiche Proteine benutzen beide Datenbanken also gleiche ANs (wie praktisch). Bei der Suche auf NCBI in der Pubmed-Datenbank nach arfI und arfII erhält man einen Abstract eines Artikels über Cytophaga xylanolytica („fressender Holzzerstörer“), dessen Gene arfI und arfII anscheinend homolog zu denen von Bacteroides ovatus, Bacillus subtiles und Clostridium stercorarium sind. Bei der Durchsuchung der Pubmed-Datenbank nach Veröffentlichungen von Autoren unseres Nachnamens ergaben sich 240 Treffer für „Knoblauch“, 430 für „Schwenk“ und rekordverdächtige 5035 für „Walker“. Der Name „Blobel“ taucht 628 mal auf, wobei von Gunter Blobel nur 7 Artikel gespeichert sind. 3 Abschnitt 2: Sequenzvergleiche Aufgabens tellung: Eine Vielzahl von bioinformatischen Untersuchungen beruht auf dem Vergleich von Protein- und DNASequenzen. Durch den modularen Aufbau der DNA erhält man beim Vergleich homologer Sequenzen, also solche mit gleicher Vorläufersequenz, die möglichst unterschiedlich sind, die essentiellen Teile, die die Funktion eines Proteins bestimmen, da diese den geringsten Veränderungen unterworfen sind, wenn die Funktion erhalten bleiben soll. Aufgabe 2.1) Aufgabe 2.2) Wir kopierten die gefundene AS-Sequenz des 5-Hydroxytryptamin 2A Rezeptors in den Zwischenspeicher… … und fügten sie im Suchfeld der BLAST-Suche wieder ein. BLAST spuckte eine Reihe von 102 mehr oder weniger ähnlichen Sequenzen aus, die grafisch nach Grad der Ähnlichkeit in verschiedenen Farbbalken dargestellt waren. Wir betrachteten die homologe Sequenz von Mus musculus (der gemeinen Feld-, Wald- und Wiesenmaus) genauer. Der Grad der Ähnlichkeit betrug 49%; dargestellt war es in Form eines dreizeiligen Vergleichs, in dem die obere Zeile die Suc hsequenz darstellte, die untere die von Mus musculus und in der mittleren waren die übereinstimmenden AS aufgeführt und Ähnlichkeiten durch ein „+“ angezeigt. Sodann begab es sich, dass wir uns wieder des DNAmans bedienten und eine weitere Sequenz, diesmal die AS-Sequenz eines Proteins, luden. Wir erstellten das Hydrophobizitätsprofil des Proteins und mittelten es über 12 AS; darauf ließen sich Abschnitte hoher Hydrophobizität durch Peaks im Diagramm erkennen, die typisch für Transmembranproteine sind. Aufgrund der Anzahl der genügend hohen Peaks lässt sich vermuten, über wieviele Membrandurchquerungen ein Protein in seiner endgültigen Konformation verfügt.