Biochemie BI

Werbung
Gruppe Nr. 10
Gero Schwenk, Florian Walker, Christina Knoblauch
Tübingen, den XV. Mai Anno Domini 2002
Biochemie-Praktikum: Programm BI
Angewandte Bioinformatik
Allgemeines
Als Anfang dieses Jahrtausends die Entschlüsselung des menschlichen Genoms bekannt gegeben wurde,
wurde es von vielen als Meilenstein auf dem Weg zum Verständnis der Natur gefeiert. Damit ergeben sich
allerdings erst riesige Aufgabenfelder für die Biochemie, die nur mit Hilfe der
Bioinformatik einer Erschließung entgegengeführt werden können, denn die Kenntnis der
genauen Basenfolge allein ist nur das Rohmaterial für den Bauplan des Lebens und
praktische Anwendungen, auch und vor allem im medizinischen Bereich.
Das Genom ist die zu einem bestimmten Zeitpunkt in einer Zelle vorhandene gesamte
Erbinformation, das Transkriptom entsprechend die Gesamtheit aller daraus übersetzten
RNAs. Das Proteom entspricht dem tatsächlichen Proteinbestand einer Zelle, also den
transkribierten mRNAs und bestimmt damit direkt Aussehen und Funktionen der Zelle
durch Struktur- und Enzymproteine.
Nicht alle Bereiche der DNA werden in mRNA transkribiert. Jugendliche Zellen zum
Beispiel verhalten sich anders als adulte Zellen; auch wenn Zellen Stress oder schädigenden
Einflüssen ausgesetzt werden, ändert sich ihr Transkriptom. Daraus resultiert zeitlich
teilweise stark verzögert ein Strukturveränderung auch des Proteoms, da manche Proteine
sehr langlebig sind und auch teilweise von Mutter- zu Tochterzelle bei einer Teilung vererbt
werden.
Man zählt pro forma alles, das transkribiert wurde, zum Transkriptom, also auch rRNA,
hnRNA und tRNA. Da über 90% der RNA einer Zelle aus rRNA besteht, die zusammen mit
Proteinkomplexen die Ribosomen bildet, spielt auch das Transkriptom in Zusammenarbeit
mit dem Proteom eine wichtige Rolle für den ablaufenden Stoffwechsel einer Zelle.
Gene, die kodierenden Abschnitte der Erbinformation, liegen beim Prokaryonten immer
in der Mehrzahl in Funktionseinheiten, den sog. Operons, zusammen und werden zusammen translatiert und in
der Regel auch transkribiert. Bei Eukaryonten kann dagegen jedes Gen gezielt und einzeln angesprochen
werden. Sie liegen oft als Aneinanderreihung von kodierenden und nichtkodierenden Abschnitten, den Exons
und Introns, vor.
Aus der beim Translatieren entstehenden heteronukleäre RNA (hnRNA) werden durch Spleißen die Introns
entfernt; die zu transkribierende mRNA entsteht. Dieser Prozess wird von speziellen Basensequenzen gesteuert,
die praktisch Sollschnittstellen markieren, an denen der Strang aufgetrennt und na ch Entfernung der Introns
wieder zusammengefügt wird. Für die bioinformatische Anwendung wurden Programme mit derselben
Funktion entwickelt (z.B. Genefinder), deren ganzer Lebensinhalt darin besteht, virtuos virtuelle Gene zu
schneiden.
Im Prinzip entstand das heutige Genom nur durch den unglaublichen Einfallsreichtum, mit dem die Natur
die immer gleichen Bausteine zu immer neuen Bauplänen von Proteinen zu verbinden vermochte. Durch diesen
modularen Aufbau konnte eine einmal durch Mutationen entstandene Funktionseinheit, z.B. eine ATPBindungsstelle, in völlig verschiedene Gene eingebaut werden, um Proteine mit neuen Eigenschaften zu
erhalten.
Die Säureamid- (Peptid-)Bindungen, mit denen Aminosäuren zu Proteinen kondensiert werden, besitzen
partiellen Doppelbindungscharakter, so dass die freie Drehbarkeit dort aufgehoben ist. Die C2 -N- und C1-C2 Bindungen sind jedoch normale Einfachbindungen; sie nehmen jedoch aus energetischen Gründen nur eine
begrenzte Anzahl Winkel an: Errechnet man einen Konformationsraum für Peptide (Ramachandran-Plot), gibt
es nur kleine energetisch günstige Bereiche, für die meisten möglichen Winkel kollidieren die Van-der-WaalsRadien der beiden Carbonyl-Sauerstoffatome oder der Amino-Wasserstoffatome. Energetisch begünstigt sind
nur wenige Strukturen, z.B. die a-Helix oder die ß-Faltblattstruktur.
2
Aminosäuren können förderlich, indifferent oder abweisend für Helix oder Faltblattstruktur sein, so dass
sich aus der Primärstruktur (Aminosäurenabfolge) die Sekundärstruktur theoretisch ermitteln lässt. Proteine
bestehen meist abwechselnd aus Abschnitten mit Helices und Faltblattstrukturen, die über Schleifen ohne eine
spezielle Struktur verbunden sind. Dabei besteht ein ß-Faltblatt vorwiegend aus hydrophoben Aminosäuren und
dient dem Zusammenhalt des Proteins; die a-Helices dagegen sind hydrophile, starre Strukturen, die für z.B. für
das Binden von Liganden an Enzyme wichtig sind.
Hydrophobe Abschnitte sind z.B. für Signalpeptide und Transmembranproteine wichtig, die einfach oder
mehrfach die Zellmembran durchqueren; dabei liegt stets der hydrophobe Abschnitt in der innen stark
lipophilen Membran. Ansonsten liegen meist hydrophile Aminosäuren außen, um die Löslichkeit der Proteine
im wässrigen Medium zu garantieren.
Transmembrandomänen besitzen mindestens 12 AS, wenn der durchquerende Abschnitt gestreckt ist,
können aber bei a-Helixstruktur auch 23 oder mehr AS lang sein.
Abschnitt 1: Datenbanken und deren Abfrage
Aufgabenstellung:
Die Basensequenzen von DNAs und RNAs verschiedener Organismen sowie ihre Entsprechunge n in
Aminosäurensequenzen der jeweiligen Proteine sind über das Internet auf frei verfügbaren Datenbanken
problemlos abrufbar. Die Basics im Umgang mit den Suchskripten für diese Datenbanken sollten in diesem
Abschnitt vermittelt werden.
Verwendete Methoden:
Aufgabe 1.1)
Aufgabe 1.2)
Aufgabe 1.3)
Aufgabe 1.4)
Aufgabe 1.8)
Aufgabe 1.9)
Einsatz unserer vollen geistigen Kräfte, intensive Nutzung des WWW, speziell der
Homepages des NCBI und EBI, Verwendung des Programms „DNAman“
Es war in der Entrez-Datenbank des NCBI mit Hilfe verschiedener Suchbegriffe ein Enzym
von Bazillus subtiles zu finden. Die Suche ergab zwei Treffer: Alpha-L-Arabinofuranosidase
1 + 2 mit den accession numbers (AN) P94531 und P94552.
Bei der Suche in der Nukleotid-Datenbank nach dem dieses Enzym kodierende Gen erhielten
wir 14 Treffer, von denen vier auf B. subtiles bezogen waren. Davon ließen wir die „Bacillus
subtilis DNA for ara… operon“ anzeigen, eine Sequenz mit 6811 Basenpaaren (bp).
Danach luden wir im DNAman eine bereits auf der Festplatte gespeicherte Sequenz und
ließen den „translation overview“ anzeigen, auf dem für alle sechs verschiedenen Leseraster
Exons ermittelt und durch mehr oder weniger lange Pfeile angezeigt wurden. Von einem
ATG-Startkodon bis zu einem Stopkodon reicht ein „offenes Leseraster“, das jeweils für ein
Protein kodiert (keine Exons / Introns, da bakterielle DNA). Auf dem Plus-Strang lagen
lange offene Leseraster, auf dem Minusstrang jedoch nur sehr kurze, die langen auf dem
Plus-Strang überlappende Stücke, die somit wohl nicht kodierend sind. Die Gene auf dem
Plus-Strang lagen auf allen drei Leserastern, überlappten sich jedoch nie.
Das Protein mit der AN P94552 ist, wie zu erwarten war, Alpha- L-Arabinofuranosidase 2.
Dasselbe Ergebnis erhält man mit einer Suchanfrage auf der EBI-Homepage für diese AN.
Für gleiche Proteine benutzen beide Datenbanken also gleiche ANs (wie praktisch).
Bei der Suche auf NCBI in der Pubmed-Datenbank nach arfI und arfII erhält man einen
Abstract eines Artikels über Cytophaga xylanolytica („fressender Holzzerstörer“), dessen
Gene arfI und arfII anscheinend homolog zu denen von Bacteroides ovatus, Bacillus subtiles
und Clostridium stercorarium sind.
Bei der Durchsuchung der Pubmed-Datenbank nach Veröffentlichungen von Autoren unseres
Nachnamens ergaben sich 240 Treffer für „Knoblauch“, 430 für „Schwenk“ und
rekordverdächtige 5035 für „Walker“. Der Name „Blobel“ taucht 628 mal auf, wobei von
Gunter Blobel nur 7 Artikel gespeichert sind.
3
Abschnitt 2: Sequenzvergleiche
Aufgabens tellung:
Eine Vielzahl von bioinformatischen Untersuchungen beruht auf dem Vergleich von Protein- und DNASequenzen. Durch den modularen Aufbau der DNA erhält man beim Vergleich homologer Sequenzen, also
solche mit gleicher Vorläufersequenz, die möglichst unterschiedlich sind, die essentiellen Teile, die die
Funktion eines Proteins bestimmen, da diese den geringsten Veränderungen unterworfen sind, wenn die
Funktion erhalten bleiben soll.
Aufgabe 2.1)
Aufgabe 2.2)
Wir kopierten die gefundene AS-Sequenz des 5-Hydroxytryptamin 2A Rezeptors in den
Zwischenspeicher…
… und fügten sie im Suchfeld der BLAST-Suche wieder ein. BLAST spuckte eine Reihe von
102 mehr oder weniger ähnlichen Sequenzen aus, die grafisch nach Grad der Ähnlichkeit in
verschiedenen Farbbalken dargestellt waren. Wir betrachteten die homologe Sequenz von
Mus musculus (der gemeinen Feld-, Wald- und Wiesenmaus) genauer. Der Grad der
Ähnlichkeit betrug 49%; dargestellt war es in Form eines dreizeiligen Vergleichs, in dem die
obere Zeile die Suc hsequenz darstellte, die untere die von Mus musculus und in der mittleren
waren die übereinstimmenden AS aufgeführt und Ähnlichkeiten durch ein „+“ angezeigt.
Sodann begab es sich, dass wir uns wieder des DNAmans bedienten und eine weitere
Sequenz, diesmal die AS-Sequenz eines Proteins, luden. Wir erstellten das
Hydrophobizitätsprofil des Proteins und mittelten es über 12 AS; darauf ließen sich
Abschnitte hoher Hydrophobizität durch Peaks im Diagramm erkennen, die typisch für
Transmembranproteine sind. Aufgrund der Anzahl der genügend hohen Peaks lässt sich
vermuten, über wieviele Membrandurchquerungen ein Protein in seiner endgültigen
Konformation verfügt.
Herunterladen