Script1

Werbung
WS07/08
Skript zum F1-Praktikum
„Genomforschung und Sequenzanalyse:
Einführung in Methoden der Bioinformatik“
T. Hankeln (Institut für Molekulargenetik) (Leitung)
H. Herlyn (Institut für Anthropologie)
B. Lieb (Institut für Zoologie)
A. Tresch (IMBEI)
In allen Themenbereichen der Biologie und besonders in solchen, die molekularbiologische
Verfahren benutzen, hat sich im Hinblick auf die Arbeitsmethodik ein Paradigmenwechsel
vollzogen. Stand früher am Anfang einer Diplomarbeit meist die Planung eines „wet lab“Experiments (Anm. d. Verf.: ganz früher musste man sich dafür sogar noch Puffer –igittselbst ansetzen (:-))), so ist es heute ratsam, zunächst einmal alles hilfreiche Material zur
Fragestellung durch ausführliche Suchen per Computer in Literatur- oder Sequenzdatenbanken zu beschaffen. Im Extremfall ist es möglich, ganz auf Puffer und Pipetten zu
verzichten und reine in silico-Analysen (z. B. von Genomdaten) zu machen.
Ziel dieses F1-Praktikums ist es daher, grundlegende methodische Kenntnisse in der
Verarbeitung von Sequenzdaten zu vermitteln. Diese Kenntnisse sind bereits jetzt etwa
ebenso wichtig wie z. B. das Klonieren von DNA. Ein weiteres Lernziel ist es, die
methodischen Unterschiede der bioinformatischen Werkzeuge zu erkennen, die bei naiver
Verwendung leicht zu unterschiedlichen (im schlimmsten Falle auch einfach falschen)
Resultaten führen können. Hierbei kommt es nicht zuletzt darauf an, mit seinen eigenen Daten
zu interagieren („herumzuspielen“) und die jeweils best-geeigneten Werkzeuge für die
Fragestellung zu erkennen (und dies ist nicht immer einfach!).
Teil 1 des Praktikums beantwortet die Fragen: Wie finde ich Literatur? Wie finde ich DNAund Proteinsequenzen? Wie nutze ich Alignments, um Sequenzen zu charakterisieren? Wie
mache ich Suchen in Sequenz-Datenbanken? (Tools: Pubmed, Highwire, BLAST, FASTA,
EMBOSS)
Teil 2 erklärt die Benutzung komplexer Genomdatenbanken und –Browser, sowie Tools
für die Genvorhersage (Tools: UCSC, ENSEMBL, GeneMark, Genscan)
Teil 3 besteht in der Auswertung eines eigenen kleinen shotgun-Sequenzierprojekts, bei
dem in dem sequenzierten Genomabschnitt Gene erkannt und ihre Struktur im Vergleich zu
orthologen Genen aus anderen Spezies (comparative genomics) dargestellt werden soll.
(Tools: FinchTV, Seqman, BLAST, ORFfinder, Spidey, GenePalette, Vista)
Teil 4 fokussiert sich auf Methoden der Stammbaumrekonstruktion, inklusive der
erforderlichen multiplen Sequenzvergleiche, der Bewertung von solchen MSAs, der Auswahl
korrekter Substitutionsmodelle und der Unterschiedlichkeit von Baum-Algorithmen. (Tools:
Clustal, GeneDoc, Modeltest, UPGMA, NJ, MP, ML)
Teil 5 erweitert das Kapitel Phylogenie um das gegenwärtig boomende Gebiet der
Phylogenomik (= Phylogenie mit großen Sequenzdatensätzen). In einem Mini-EST-Projekt
werden EST-Daten prozessiert und annotiert. Bestimmte Sequenzen werden dann in Form
konkatenierter multipler Alignments für phylogenetische Berechnungen verwendet. (Tools:
Seqman, Blastclient, Clustal, Prottest, Phyml, Mr. Bayes)
Teil 6 hat zum Ziel, solche Gene/Proteine zu erkennen, die während der Evolution
möglicherweise einen Funktionswechsel durchgemacht haben und im Sinne Darwins durch
„positive bzw. adaptive Selektion“ zum Überleben von Arten beitragen. (Tools: Paml,
Hyphy)
Teil 7 liefert einen Einstieg in die Untersuchung von Transkriptomen mittels Microarrays.
Daten solcher Chip-Hybridisierungsexperimente werden bewertet, normalisiert und im
Hinblick auf differenziell exprimierte Gene analysiert (Tools: Genepix, BioConductor, R)
Zeitplan:
Mo. 18.2.
Literatur
und
Datenbanksuche
Sequenzdaten-Suche,
Datenformate,
Alignments,
Di. 19.2.
Genom-Browser und sekundäre Datenbanken, Genvorhersage
Mi. 20.2.
Shotgun-Sequenzierprojekt mit Auswertung, Promotorvorhersage, komparative
Genomvergleiche
Do. 21.2.
Phylogenie Teil 1 (B. Lieb)
Fr. 22.2.
Phylogenie Teil 2 (B. Lieb)
Mo. 25.2.
Phylogenomik Teil 1
Di. 26.2.
Phylogenomik Teil 2
Mi. 27.2.
Adaptive Evolution von Genen (H. Herlyn)
Do. 28.2.
Micorarrays Teil 1 (A. Tresch)
Fr. 29.2.
Microarrays Teil 2 (A. Tresch)
Kursassistenten:
AG Hankeln: Bettina Ebner, Eva Gleixner, Tina Hinkelmann, Alexander Witek, Dominic
Docter
Leistungsnachweise:
Bearbeitung der Skriptaufgaben und Dokumentation der Ergebnisse, Seminarvortrag (max. 20
min, englisch), Klausur
1.1
Literatur- und Sequenzsuche
Die Literatur- und Sequenzsuche macht einen großen Teil der theoretischen Arbeit eines
Molekularbiologen aus. Das „gewusst wie und gewusst wo“ ist von entscheidender
Bedeutung für die effektive Suche im WWW und meist notwendig um überhaupt zu
sinnvollen Resultaten zu gelangen. In diesem Teil sollen durch praktische Übungen
Erfahrungen vermittelt werden, welche die online-Suchen erheblich erleichtern können.
Lernziele:
Pubmed-Suche, Boole’sche Operatoren, Citation Index, Extrahieren von DNA- und
Proteinsequenzen
Links:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
http://highwire.stanford.edu/
http://scholar.google.de/
http://pubcrawler.gen.tcd.ie/
NCBI-Pubmed
Highwire
google Lit-Suche
‘Alarm’ für Pubmed
Übersicht: MolBio-Tools und persönliche Linklisten
http://molbio.info.nih.gov/molbio/analysis.html
NIHtools
http://www.up.univ-mrs.fr/~wabim/english/logligne.html
ABIM tools
http://www.fruitfly.org/seq_tools/other.html
Flybase
http://www.ebi.ac.uk/InterProScan/
EBI-Proteinanalys
http://ca.expasy.org/alinks.html
Bairoch-Links
http://molbiol-tools.ca/
Kropinski-Links
http://www.bioinformatik-wegweiser.de/Index.html Dipl. Arbeit V. Wiedmann
Durch Klicken auf die Links können die Seiten direkt in Mozilla oder dem Internet Explorer
geladen werden. Natürlich kann man auch im Browser Bookmarks anlegen....
Wir benutzen ENTREZ/PUBMED auf der NCBI-Homepage.
Ein komplettes Tutorial startet unter
http://www.nlm.nih.gov/bsd/pubmed_tutorial/m1001.html.
Zuerst probiere man jedoch einmal das einfache Eingeben von Begriffen in das Suchfenster
aus!
Tips in Kürze :
1. Füllwörter (z.B. it, and, that etc.) werden automatisch weggelassen!
2. Autorensuche: z.B. als „watson j“, besser: „watson jd“
3. Truncation/wildcard setzen durch „*“ (z.B. centrom* für centromere, centromeric etc)
4. Boole’sche Operatoren verwenden:
AND verknüpft zwei Begriffe und findet die Schnittmenge
OR zeigt Ergebnisse für beide individuellen Suchbegriffe nebeneinander
NOT schließt Begriffe aus Suche aus
( ) Klammern bestimmen die Suchordnung/Reihenfolge
5. Preview/Index benutzen, um Anzahl der Treffer zu sehen und um Suchstrategie zu
verfeinern
6. interessierende Referenzen anklicken, auswählen (über „send to clipboard“/ unten auf
Seite) und über „clipboard“ (oben auf Seite) anschauen oder drucken.
Kleine Einführung:

Wann wurde das klassische Paper von Watson und Crick zuletzt noch einmal abgedruckt?
_____________________

Wieviel Paper hat Crick OHNE Watson veröffentlicht? __________

Wann hat Watson sich zuerst Gedanken über mögliche Risiken der „recombinant DNA“
gemacht? ________________

Sie erinnern sich, dass ein gewisser Arthur Kornberg einmal in NATURE etwas zur
Replikation geschrieben hat. Suchen Sie den Artikel über den „Single Citation
Matcher“ im linken Toolbar der Seite.
Klicken Sie einmal Send to Text (oberer Toolbar) an und stellen Sie so eine druckbare
Suchliste ohne die störenden Grafiken der PUBMED-WWW-Seite dar.


Ein beliebter Modellorganismus zur Untersuchung des respiratorischen Proteins
Hämocyanin (Arthropoden, Crustaceen und Mollusken) ist die Vogelspinne Eurypelma
californicum. Finden sie durch PubMed-Suchen heraus, aus wie vielen Untereinheiten das
Hämocyanin von Eurypelma californicum besteht (Anzahl:_______).

Wann wurde die komplette Sequenz des E. californicum Hämocyanins veröffentlicht und
welche Autoren waren daran beteiligt?_______________________________________

Die mRNAs wie vieler Untereinheiten des E. californicum Hämocyanins sind in den
Nukleotiddatenbanken veröffentlicht?_____

Die Hämoxygenase 1 ist ein Protein welches maßgeblich an der zellulären Antioxidantien
Abwehr beteiligt ist. Suchen Sie in den Nukleotid- bzw. Proteindatenbanken deren mRNA
bzw. Aminosäuresequenzen von Mensch und Maus und notieren sich die jeweiligen
Accession No. nicht redundanter Einträge (= RefSeq; mRNA: NM_xxxxxx, Protein:
NP_xxxxxx):
________________________________________________________________________

Suchen sie in der Nukleotiddatenbank nach der Accession No. NM_012580. Worum
handelt es sich hier?________________________

Schauen Sie sich in „History“ (oberer Toolbar) an, welche Suchen Sie bisher gemacht
haben.
Weiterführende Übungen:
Im Folgenden wird die NCBI-Homepage anhand eines Tutorials der University of Virginia
erkundet, wobei weitere tools Verwendung finden. Dies ermöglicht Ihnen in Zukunft eine
effektive und zeitsparende Datenbanksuche durchzuführen.
Das Original-Tutorial findet sich unter
http://people.virginia.edu/~wrp/cshl06/ncbi_workshop1.html
und wurde für unsere Belange leicht verändert.
I. Entrez Searching: Controlled Vocabularies
Goal: Understand how different Entrez databases translate the query "cancer"
1. Term translation in Entrez PubMed
a. On the NCBI Home Page, enter cancer in the search box and click Go. (Leave
the database menu set at All Databases.)
b. Click on the number of hits to PubMed.
How many hits did you get ? ______________________
c. Click the Details tab above the search results.
How did Entrez translate this query? What new terms do you see? What
field limits are used? Look in particular for the field [MeSH Terms].
Medical Subject Headings (MeSH) is a controlled vocabulary used to index all
PubMed abstracts.
d. Edit your query in the text box so that only the term "neoplasms"[MeSH
Terms] remains. Click the Search button under the text box to run the modified
search. The resulting set only contain abstracts relevant to neoplastic disease.
How many hits are left ? _______________________
2. Term translation in Entrez Protein
a. Select Protein from the Database pulldown menu. Clear the search box and
type cancer. Click Go.
b. Click the Details tab above the search results.
How did Entrez translate this query? What field limits are used here and not
in PubMed?
Entrez Taxonomy, searched with the field [organism], is a controlled vocabulary
used to index all molecular biology data at NCBI. In the sequence databases (eg.
nucleotide, protein, genome, popset, snp), Entrez translates this query to retrieve
records from the crustacean genus Cancer rather than records corresponding to
neoplastic disease.
c. To retrieve only sequences from the genus Cancer, edit your query in the text
box so that only the term "cancer"[organism] remains. Click the Search
button under the text box to run the modified search.
d. To retrieve sequences more related to neoplastic disease, change the query to
cancer[title] and click Go. This query retrieves records that contain the
word "cancer" in their definition lines (titles).
How many hits are left ? _______________________
3. Term translation in Entrez Taxonomy
a. Select Taxonomy from the Database pulldown menu. Clear the search box and
type cancer. Click Go.
b. You should see the single record for the genus Cancer. Click the Details tab
above the search results.
How did Entrez translate this query? What field limits are used?
In Taxonomy, Entrez simply searches for unfielded query terms using [All Names].
c. Clear your search box and search Taxonomy for rock crab. Click the name of
the resulting hit. Do you see why the query "rock crab" found this record?
Entrez Taxonomy automatically assoicates scientific names with common names
annotated on the taxonomy record.
II. Exploring Entrez Taxonomy
Goal: Locate all data at NCBI for a particular species (wine grape)
1. Find the record for wine grapes in Entrez Taxonomy
a. On the NCBI Home Page, click TaxBrowser at the top of the box, just above
the Go button.
b. Change the pulldown menu from complete name to token set. Enter grape
in the search box and click Go.
c. This retrieves all taxonomy records that have the word "grape" in their name.
Click the record for wine grapes (Vitis vinifera).
d. The phrase "wine grape" is annotated as a common name for this species. This
means that you could have used the phrase wine grape to find this record with
the pulldown set to complete name. Try it if you like.
2. Locate genome data for wine grapes
a. The table on the right lists all data for this species. There is one Genome
Sequence. Click on the number. What genomic sequence is this?
3. Locate nucleotide sequence data for wine grapes
a. Go back in your browser to the wine grape taxonomy page and click on the
large number of Nucleotide sequences.
b. At the top of the page you will see the number of records in the three
component databases of Entrez Nucleotide (CoreNucleotide, EST and GSS).
Which of these three contains the great majority of data for Vitis vinifera?
4. View data across the entire genus Vitis
a. Again go back to the wine grape taxonomy page. Now click on Vitis in the
lineage in the center of the page (the last node). This displays all species within
the genus Vitis for which NCBI has data.
b. Check the Nucleotide and Protein boxes at the top of the page (check other
ones, too, if you want). Click the Display button. You should now see colored
numbers indicating the number of records in each database for each taxon.
Which other grape species have a large amount of data (>1000
records)? __________________________________
III. Nucleotide Data in Entrez: Using Limits, Fields and Links
Goals:
•View in FASTA format the curated mRNAs for zebrafish estrogen receptors
•Find the Gene records for these receptors
•Retrieve and identify all nucleotide records associated with a given receptor gene
1. Retrieve all zebrafish mRNAs
a. On the NCBI Home Page, set the Database pulldown to Nucleotide and enter
zebrafish[organism] in the search box. Click Go.
b. Click on the Limits tab the above the results.
c. Set the Molecule pulldown menu to mRNA and the Only from menu to RefSeq
(for NCBI Reference Sequences). Click Go. Notice that all the resulting
records are in the CoreNucleotide database.
This set corresponds to the current transcriptome for zebrafish (a nonredundant set of all mRNAs).
2. Limit the set to estrogen receptors
a. Click the Preview/Index tab (to the right of Limits).
b. Now we need to select the subset database. Our records are in CoreNucleotide,
so click CoreNucleotide. You should see your zebrafish[orgn] search, limited
to "mRNA,RefSeq", in your history list.
c. Select Title from the All Fields menu, and type estrogen receptor in the
text box to the right. Click the Index button.
d. Click the first term in the list, estrogen receptor, and then click the AND
button above the list. Notice that the term "estrogen receptor"[title] is
now in your search box at the top of the page.
e. Locate the history number of your zebrafish set limited to mRNA and RefSeq
(the number will be preceded by a # sign). In the search box at the top of the
page, type AND followed by the history number of the zebrafish set, preceded
by a #. Your final query should look something like "estrogen
receptor"[title] AND #25. Click Preview to see how many records this
query retrieves.
f. Click on the number of records retrieved (to the right of the query in your
history).
3. View the FASTA sequences for the estrogen receptor mRNAs
a. Which of these records are actually estrogen receptors (not predicted)? These
should correspond to the three records that are NM RefSeqs.
b. Click the checkboxes to the left of each of the three estrogen receptors. Then
choose FASTA from the Display menu above the results (just below the
Preview/Index tab). FASTA sequences for the three records should appear.
4. Find the Gene records for the estrogen receptor mRNAs
a. Go back in your browser to the Entrez results page. Make sure the three
estrogen receptor mRNAs are still checked.
b. Select Gene Links from the Display menu above the results. You will now be
in Entrez Gene, and the three linked Gene records will appear.
IV. Protein Data in Entrez: Sequences, Structures and Domains
Goals: For the protein target of the drug gleevec, do the following:



compare the bound conformations of the drug and the normal substrate
find the curated protein sequence
1. Retrieve a structure with bound gleevec
a. On the NCBI Home Page, type gleevec in the search box and click Go.
b. Click on the hits to PubChem Compound.
c. Click on the Protein3D tab above the results to limit the records to those bound
to a 3D structure.
d. Click on the image of the resulting chemical (CID 5291), and then on the
Protein Structures link to the right of the image on the summary page.
e. While any of these structures could be used, we will focus on 1IEP. Click on
that accession to open the record.
2. Locate the drug binding site using Cn3D
a. Click the View 3D Structure button to launch Cn3D.
Basic Cn3D controls:
 To rotate, click the left mouse button and drag
 To translate (move), hold down Shift and click/drag
 To zoom, hold down Ctrl and click/drag
b. In the structure window, select Style / Coloring Shortcuts / Molecule. The
gleevec molecules in each of the two chains should now be easily visible as
ball-and-stick models.
c. Zoom in on one of the gleevec molecules and double-click it. It should turn
yellow.
d. In the structure window, select Show/Hide / Select by distance / Residues
Only. Set the distance cutoff to 3.2 Angstroms and click OK.
e. The residues in contact with gleevec should now be highlighted yellow. Point
but do not click your mouse over the letter of each highlighted residue, and
find its residue number in the lower left corner of the sequence window. Make
a note of which residues contact gleevec (use the loc numbers, ie loc 64).
f. Quit Cn3D when you're done.
3. 3D structure of neuroglobin (Ngb)
Finally we want to show you one of our main research objects, neuroglobin, in it`s threedimensional structure.
a. search and view the 3D structure of neuroglobin and compare the available
entries.
What are the decisive differences? ____________________________________
1.2
„BLAST and friends“
Praktische Übungen zu einfachen Sequenzvergleichen und Sequenz-Datenbanksuchen
Das Alignieren von DNA- und Proteinsequenzen ist eine Schlüsseltechnik der Bioinformatik.
Eine der wichtigsten Anwendungen ist es, eine „neue“ Sequenz unbekannten Inhalts mit allen
bekannten Sequenzen der DNA- bzw. Proteindatenbanken zu alignieren und so die „neue“
Sequenz einzuordnen. Auch der einfache Vergleich nur zweier Sequenzen, entweder lokal
oder global, kann wesentliche Eigenschaften dieser Sequenzen erkennen helfen (z. B.
Domänen und Motive, Repetitionen, schnell/langsam evolvierende Abschnitte).
Lernziele:
Optimale Alignments vs. heuristische Methoden; globale vs. lokale Alignments;
Substitutionsmatrizen; gap penalty; dynamic programming; Needleman-Wunsch; SmithWaterman; Blast; Fasta; E-value; Dotplot
Links:
http://myhits.isb-sib.ch/cgi-bin/dotlet
http://www.ebi.ac.uk/emboss/align/
http://www.ncbi.nlm.nih.gov/BLAST/
http://www.ebi.ac.uk/Tools/similarity.html
Dotplot
paarweise Alignments
NCBI BLAST
EBI FASTA, BLAST, u.a.
Zu beantwortende Fragen bzw. Aufgaben sind fettgedruckt.
Aufgabe 1: Dotplot zeigen Strukturen
Mithilfe eines einfachen Dotplots lassen sich strukturelle Eigenschaften von Sequenzen wie
Repetitionen und Domänen darstellen. Benutzen Sie das Internet-Tool Dotlet.
a) Vergleichen Sie die folgenden Sequenzen jeweils mit sich selbst:
X56335 (nur die ersten ca. 1000 Bp nehmen)
NP_002102
• Was für eine besondere Eigenschaft zeigt Sequenz 1? Was ist das für ein Sequenztyp?
• Was beobachtet man in Sequenz 2? Wofür ist dieses Protein ein klassisches Beispiel?
b) Vergleichen Sie die Sequenzen AAB08987 und AAH02824 miteinander.
• Was zeigt der Dotplot?
• Welchen Typ von Sequenz-Alignment würden Sie für diesen Fall für geeignet halten?
Aufgabe 2: Ihr erstes paarweises Alignment (:-))
Paarweise Alignierungen können mit verschiedenen Werkzeugen durchgeführt werden, die
entweder globale oder lokale Alignments als Ausgabe produzieren. Benutzen Sie für diesen
relativ
einfachen
Fall
zunächst
die
EMBOSS-Tool-Seite
am
EBI
(http://www.ebi.ac.uk/emboss/align/).
a) Alignen Sie die unten stehenden Sequenzen. Welches Tool auf der EMBOSS-Seite
halten Sie intuitiv für geeignet?
>GLOBIN CTT-VIIA.
APLSADQASLVKSTWAQVRNSEVEILAAVFTAYPDIQARFPQFAGKDVASIKDTGAFATHAGRIVGFV
SEIIALIGNESNAPAVQTLVGQLAASHKARGISQAQFNEFRAGLVSYVSSNVAWNAAAESAWTAGLDN
IFGLLFAAL
>GLOBIN CTT-E
MKFIILALCVAAASALSGDQIGLVQSTYGKVKGDSVGILYAVFKADPTIQAAFPQFVGKDLDAIKGGA
EFSTHAGRIVGFLGGVIDDLPNIGKHVDALVATHKPRGVTHAQFNNFRAAFIAYLKGHVDYTAAVEAA
WGATFDAFFGAVFAKM
• Ändern Sie einmal drastisch die gap penalty-Werte? Interpretation?
• Probieren Sie den alternativ angebotenen Alignment-Algorithmus aus: was ändert
sich?
Aufgabe 3: Die DNA ist kompliziert...
Probieren Sie ein paarweises Alignment mit den folgenden zwei Sequenzen, die eine mRNA
und eine zu ihr passende microRNA (miRNA) darstellen.
>miRNA
caaagugcuuacagugcagguagu
>TARGET
AAAAUAAAAAUAUCGAGGUAUAGACUAGCAUCCACAUAGAGCACUUGAACCUCCUUUGUACCUGUUUG
GGGAAAAAGUAUAAUGAGUGUACUACCAAUCUAAC
Sie werden sehen, das Ergebnis ist nicht zufriedenstellend. Was müssen Sie tun? Erinnern Sie
sich, wie miRNAs und Ziel-RNAs interagieren. Notwendige Werkzeuge finden Sie auf:
http://www.attotron.com/cybertory/analysis/seqMassager.htm
Jetzt bitte nochmal alignen! (Ein Alignment-Werkzeug zum Assemblieren von shotgunReads hätte diese Aktion übrigens automatisch probiert)
Aufgabe 4: Einfluss von Matrizen und penalties
Ein ziemlich schwieriger Alignment-Fall: vergleichen Sie die relativ divergenten Globine 1
und 2 aus Drosophila melanogaster (ja, D. mel hat trotz Tracheenatmung sogar drei
verschiedene Globine als respiratorische Proteine. Die genauen Funktionen sind allerdings
noch unbekannt).
Dme glob1: NP_524369
Dme glob2: CAJ30424
Das Expertenwissen über Globine sagt, dass drei Aminosäurepositionen (im Folgenden groß
und rot geschrieben) nahezu unveränderlich sind und daher in einem Alignment wenn
möglich als ‚Ankerpunkte’ untereinander stehen sollten:
Dme glob1
Dme glob2
NH2-.....ekFpf.......raHag........vsHip......-COOH
NH2-.....nfFrk.......hgHam.......ptHlk......-COOH
• Probieren Sie nun Needleman-Wunsch mit default-Einstellungen. Notieren Sie die
Werte für identity, gaps, alignment score. Wie gut erfüllt das Alignment unsere
Vorgaben?
• Welche Substitutionsmatrix würden Sie anstatt der default-Matrix wählen? Wechseln
Sie auf eine besser geeignete Matrix! Notieren Sie die Werte! Wird das Alignment
besser?
• Ändern Sie nun die gap extension penalty schrittweise zunächst auf 1.0, dann 5.0.
Betrachten Sie den letzten Fall: erfüllt das alignment nun besser die
strukturbiologischen Vorgaben?
Aufgabe 5: Aus den 70ern was zum Überlegen, ganz ohne Computer (:-))))
Füllen Sie die folgende DP-Matrix aus und schreiben Sie die zwei optimalen AlignmentPfade auf:
Alignment1
Alignment2
Aufgabe 6: BLAST für Anfänger
Datenbanksuchen ermöglichen die Identifizierung unbekannter Sequenzen. Hier ein
literarisches Beispiel aus Michael Crichton’s Jurassic Park.
„At one point in the book, Dr. Henry Wu is asked to explain some of DNA techniques used in
reconstructing the extinct dinosaur genomes. Dr. Wu describes the use of restriction enzymes
and how the fragmented pieces of dino DNA can be spliced together with these enzymes. He
also alludes to the fact that they don't have the entire genome but that they "fill in the gaps"
with modern day frog DNA. At one point during his discussion he points to a computer screen
and remarks "Here you see the actual structure of a small fragment of dinosaur DNA."
Woher stammt die Sequenz?
>DinoDNA from Jurassic Park
GCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCGGTGGCGAAACCCGA
CAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGTTCCGACCCTGCCGCTTACCGGATACCT
GTCCGCCTTTCTCCCTTCGGGAAGCGTGGCTGCTCACGCTGTACCTATCTCAGTTCGGTGTAGGTCGTTCGCTCC
AAGCTGGGCTGTGTGCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAA
AGTAGGACAGGTGCCGGCAGCGCTCTGGGTCATTTTCGGCGAGGACCGCTTTCGCTGGAGATCGGCCTGTCGCTT
GCGGTATTCGGAATCTTGCACGCCCTCGCTCAAGCCTTCGTCACTCCAAACGTTTCGGCGAGAAGCAGGCCATTA
TCGCCGGCATGGCGGCCGACGCGCTGGGCTGGCGTTCGCGACGCGAGGCTGGATGGCCTTCCCCATTATGATTCT
TCTCGCTTCCGGCGGCCCGCGTTGCAGGCCATGCTGTCCAGGCAGGTAGATGACGACCATCAGGGACAGCTTCAA
CGGCTCTTACCAGCCTAACTTCGATCACTGGACCGCTGATCGTCACGGCGATTTATGCCGCACATGGACGCGTTG
CTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAACAAGTCAGAGGTGGCGAAACCCGACAGGAC
TATAAAGATACCAGGCGTTTCCCCCTGGAAGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGC
CTTTCTCCCTTCGGGCTTTCTCAATGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTG
ACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACACGACTTAACGGG
TTGGCATGGATTGTAGGCGCCGCCCTATACCTTGTCTGCCTCCCCGCGGTGCATGGAGCCGGGCCACCTCGACCT
GAATGGAAGCCGGCGGCACCTCGCTAACGGCCAAGAATTGGAGCCAATCAATTCTTGCGGAGAACTGTGAATGCG
CAAACCAACCCTTGGCCATCGCGTCCGCCATCTCCAGCAGCCGCACGCGGCGCATCTCGGGCAGCGTTGGGTCCT
• Benutze NCBI BLASTN: was ist auffällig in den alignments?
• Woher kommt diese Sequenz offenbar?
• Wie hat Crichton die Sequenz „gestrickt“?
• Welche Organismen hätten Sie als Treffer bei der Datenbanksuche erwartet, wenn dies
wirklich Dino-DNA wäre?
In seinem zweiten Buch hat Crichton den Molekularbiologen Mark Boguski vom NIH zu Rate
gezogen und der hat eine „passendere“ Sequenz gebastelt. Ohne Crichton’s Wissen hat er
dabei einen lesbaren Text in der kodierten Protein-Sequenz versteckt....
>DinoDNA from Crichton THE LOST WORLD
GAATTCCGGAAGCGAGCAAGAGATAAGTCCTGGCATCAGATACAGTTGGAGATAAGGACG
GACGTGTGGCAGCTCCCGCAGAGGATTCACTGGAAGTGCATTACCTATCCCATGGGAGCC
ATGGAGTTCGTGGCGCTGGGGGGGCCGGATGCGGGCTCCCCCACTCCGTTCCCTGATGAA
GCCGGAGCCTTCCTGGGGCTGGGGGGGGGCGAGAGGACGGAGGCGGGGGGGCTGCTGGCC
TCCTACCCCCCCTCAGGCCGCGTGTCCCTGGTGCCGTGGGCAGACACGGGTACTTTGGGG
ACCCCCCAGTGGGTGCCGCCCGCCACCCAAATGGAGCCCCCCCACTACCTGGAGCTGCTG
CAACCCCCCCGGGGCAGCCCCCCCCATCCCTCCTCCGGGCCCCTACTGCCACTCAGCAGC
GGGCCCCCACCCTGCGAGGCCCGTGAGTGCGTCATGGCCAGGAAGAACTGCGGAGCGACG
GCAACGCCGCTGTGGCGCCGGGACGGCACCGGGCATTACCTGTGCAACTGGGCCTCAGCC
TGCGGGCTCTACCACCGCCTCAACGGCCAGAACCGCCCGCTCATCCGCCCCAAAAAGCGC
CTGCTGGTGAGTAAGCGCGCAGGCACAGTGTGCAGCCACGAGCGTGAAAACTGCCAGACA
TCCACCACCACTCTGTGGCGTCGCAGCCCCATGGGGGACCCCGTCTGCAACAACATTCAC
GCCTGCGGCCTCTACTACAAACTGCACCAAGTGAACCGCCCCCTCACGATGCGCAAAGAC
GGAATCCAAACCCGAAACCGCAAAGTTTCCTCCAAGGGTAAAAAGCGGCGCCCCCCGGGG
GGGGGAAACCCCTCCGCCACCGCGGGAGGGGGCGCTCCTATGGGGGGAGGGGGGGACCCC
TCTATGCCCCCCCCGCCGCCCCCCCCGGCCGCCGCCCCCCCTCAAAGCGACGCTCTGTAC
GCTCTCGGCCCCGTGGTCCTTTCGGGCCATTTTCTGCCCTTTGGAAACTCCGGAGGGTTT
TTTGGGGGGGGGGCGGGGGGTTACACGGCCCCCCCGGGGCTGAGCCCGCAGATTTAAATA
ATAACTCTGACGTGGGCAAGTGGGCCTTGCTGAGAAGACAGTGTAACATAATAATTTGCA
CCTCGGCAATTGCAGAGGGTCGATCTCCACTTTGGACACAACAGGGCTACTCGGTAGGAC
CAGATAAGCACTTTGCTCCCTGGACTGAAAAAGAAAGGATTTATCTGTTTGCTTCTTGCT
GACAAATCCCTGTGAAAGGTAAAAGTCGGACACAGCAATCGATTATTTCTCGCCTGTGTG
AAATTACTGTGAATATTGTAAATATATATATATATATATATATATCTGTATAGAACAGCC
TCGGAGGCGGCATGGACCCAGCGTAGATCATGCTGGATTTGTACTGCCGGAATTC
• Welches BLAST-Tool muss man anwenden?
• Machen die ersten beiden matches taxonomisch Sinn und hat Boguski die
Stammesgeschichte richtig erfasst? Wie heißt seine versteckte Botschaft?
Aufgabe 7: BLAST für’s Laborleben
Der fiese Kollege vom Nachbarlabor hat einen mysteriösen Klon sequenziert. Er behauptet
frechweg, das müsse eine Kontamination von Ihnen sein (natürlich steckt dahinter der
Vorwurf, daß Sie nicht sauber gearbeitet haben (:-)) Was kann man durch Datenbanksuche
alles über diese Sequenz (und damit u. U. ihren Erzeuger) herausfinden?
Benutzen Sie zunächst BLASTN am NCBI mit Datenbank „nr“, dann auf der EBI-homepage
NCBI-BLAST2 mit Datenbank „Evec“.
>mysterysequence1
CAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATG
TGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATT
CGAGCTCGGTACCCGGGGATCCGCTGACCAACTGACTGAAGAGCAGATTGCAGAATTCAAAGAAGCTTTTTCATT
ATTTGACAAAGATGGTGATGGCACTATAACAACAAAGGAACTTGGGACTGTAATGAGATCTCTTGGGCAGAATCC
CACAGAAGCAGAGTTACAGGACATGATTAATGAAGTAGATGCTGATGGTAATGGCACAATTGACTTTCCTGAATT
TCTGACAATGATGGCAAGAAAATGAAAGACACAGACAGTGAAGAAGAAATTAGAGAAGCATTCCGTGTGTTTGAC
AAGGATGGCAATGGCTATATTAGTGCTGCAGAACTTCGCCATGTGATGACAAACCTTGGAGAGAAGTTAACAGAT
GAAGAAGTTGATGAAAATGATCAGGGAAGCAGATATTGATGGTGATGGTCAAGTAAACTATGAAGAGTTTGTACA
AATGATGACAGCAAAGTGAAGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCTTGGCGTAATCATGGTCATA
GCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGC
CTGGG
• Was für ein Typ von DNA-Sequenz ist hier vermutlich sequenziert? cDNA? Genom?
• Von wo bis wo in der Sequenz geht die kodierende Region ungefähr, was mag der Rest
sein?
• Für welches Protein aus welcher Spezies kodiert die Sequenz?
• Die Sequenz ist im kodierenden Bereich fehlerhaft: wo vermuten Sie Fehler? Schauen
Sie sich zur Bestätigung, dass da etwas faul ist das Ergebnis einer TBLASX/swissprotSuche an. Interpretation?
• Welcher Typ von Klonierungsvektor wurde verwendet? Kann man eine Aussage über
das Markergen-System des Vektors treffen? (BLASTX/nr machen)
• Welche Schnittstellen wurden wohl zur Klonierung benutzt? (Tip: mysterysequence1
mit komplettem Eintrag aus DB paarweise alignen: wie sehen die Enden der
mysterysequence1 aus?
Auch wenn der fiese Kollege Sie mit Sicherheit zu Unrecht der Schlamperei bezichtigt hat:
Sie finden seine Sequenz durchaus interessant und wollen mehr darüber wissen...
• Welche Domänen enthält das Protein? Was tun diese biochemisch? (NCBI, conserved
domain-suche)
Aufgabe 8: BLAST für Entdecker
Die Entdeckung von Globinen in Drosophila gibt Anlass zu der Frage, ob verwandte
respiratorische Proteine auch in anderen Insekten vorkommen. Gehen Sie per BLAST-Suche
dieser Frage nach…
Suchen Sie der D. melanogaster glob1 Sequenz nach verwandten Proteinen, z. B. indem Sie
sehr aktuelle EST-Daten durchforsten (TBLASTN, month)
>gi|24647276|ref|NP_732081.1| globin 1 CG9734-PA, isoform A [Drosophila
melanogaster]
MNSDEVQLIKKTWEIPVATPTDSGAAILTQFFNRFPSNLEKFPFRDVPLEELSGNARFRAHAGRIIRVFD
ESIQVLGQDGDLEKLDEIWTKIAVSHIPRTVSKESYNQLKGVILDVLTAACSLDESQAATWAKLVDHVYG
IIFKAIDDDGNAK
In welcher(n) Spezies finden Sie Treffer? Gibt es dazu schon eine Publikation?
Probieren Sie jetzt eine TBLASTN Suche in der Datenbank „other_ESTs“.
Zunächst werden Sie über das Resultat enttäuscht sein! Was ist zu sehen…?
Was müssen Sie tun, um die Fragestellung vom Anfang zu lösen? (Hinweis: Benutzen
Sie auf der BLAST-Seite die Rubrik ‚Options’. Wenn das BLAST-Ergebnis kommt,
verschaffen Sie sich mit ‚Taxonomy Report’ einen Überblick)
Aufgabe 9: PSI-BLAST für Entdecker
BLAST-Suchen ermöglichen eine funktionelle Einordnung von neuen Proteinen unbekannter
Funktion. Dies ist insbesondere wichtig, wenn das neue Protein nur wenig Ähnlichkeit zu
anderen Proteinen in der Datenbank aufweist. Ein wichtiges Werkzeug hierfür ist PSIBLAST, das zunächst in einer ersten Suche eine positionsspezifische Scoring-Matrix (PSSM)
errechnet, mit der dann iterativ nach entfernten Matches gesucht werden kann (solange, bis
man Hinweis auf mögliche Proteinfunktion findet).
Bearbeiten Sie das sehr gute NCBI-Tutorial zu PSI-BLAST und finden Sie so einen Hinweis,
was das „unbekannte“ Protein MJ0577 aus dem Archaebakterium Methanococcus jannaschii
wohl machen könnte...
• Wie verhindert man bei der BLAST-Suche ungezielte Treffer, die hier im Beispiel von
MJ0577 durch die ‚coiled-coil’-Domäne in der Suchsequenz zustande kommen könnten?
• Was ist überhaupt ‚coiled-coil’ und wodurch zeichnet sich diese Domäne aus? (google)
• Durch welche Maßnahmen kann man analysieren, ob ein per PSI-BLAST gefundener
match zu einem bekannten Protein überhaupt Sinn macht?
Aufgabe 10: BLAT statt BLAST für die, die jetzt eilig heim wollen
Als Reaktion auf die erhöhten Schnelligkeitsanforderungen beim Alignment von cDNA- oder
partiellen Genomsequenzen an das Gesamt-Genom derselben Spezies wurde BLAT (Kent
2002) entwickelt. Probieren Sie es aus!
Wo liegt die folgende cDNA im Humangenom?
>mystery-cDNA
CCCGGCGCGCACAGACACACGCTCCCTCCCTCCGCGCTCTACCCCTCGCCCGCCCGCCGCGCACGCAGCC
GGCCCCGGCTCCCGGCGCCCCGCGCCCCGCGCCCCGCGCCCCGCCACCGCCGCCGCCGAGCAAAGCCGGG
CTGGGCTTGGAGCTGCTCATGGAGAAAGTGCCAGGCGAGATGGAGATCGAGCGCAGGGAGCGGAGCGAGG
AGCTGTCCGAGGCGGAGAGGAAGGCGGTGCAGGCTATGTGGGCCCGGCTCTATGCCAACTGCGAGGACGT
GGGGGTGGCCATCCTGGTGAGGTTCTTTGTGAACTTCCCCTCGGCCAAGCAGTACTTCAGCCAGTTCAAG
CACATGGAGGATCCCCTGGAGATGGAGCGGAGCCCCCAGCTGCGGAAGCACGCCTGCCGAGTCATGGGGG
CCCTCAACACTGTCGTGGAGAACCTGCATGACCCCGACAAGGTGTCCTCTGTGCTCGCCCTTGTGGGGAA
AGCCCACGCCCTCAAGCACAAGGTGGAACCGGTGTACTTCAAGATCCTCTCTGGGGTCATTCTGGAGGTG
GTCGCCGAGGAATTTGCCAGTGACTTCCCACCTGAGACGCAGAGAGCCTGGGCCAAGCTGCGTGGCCTCA
TCTACAGCCACGTGACCGCTGCCTACAAGGAAGTGGGCTGGGTGCAGCAGGTCCCCAACGCCACCACCCC
ACCGGCCACACTGCCCTCTTCGGGGCCGTAGGACCCCTAACTCCACCCCCCTCCCTGGCAGCACCTCGAG
CAGAAGGCCGAGTTCTGAAGACCCTCCTTGACGCTCCATTTCTGGGTGCCAAGGAAGCTGGAGGAATCCC
TGACTCAACTTCCCCGAAGGAGGCCTCTGTGGCGGCCAGGGTCCCCCCCTGGAGCTGCTGGGAGGCGGCG
CTGGCTGCCTGGATGCTGACCCCAGCGCGGCGGGCAGAGCGGGGCCCACTCTTCTTAGCTTTTCTACTCA
CTGTTAGAGAGAGACCTAGCTGAGCGGCTGGCAGGAAGCGGGACAGGTCTAGGAGTCCCTTAGGGAATAA
ACCAGCCCCGTTTCTATCAGCCCGGCCAGCATGCAGGTCTCCACATCACCATCTAGAGTATCACGCACAC
ATCTACCATATATACAGATATATTCTATATACGAGCTATATATAAATATATATATACATATATATATACA
CACATACATATCTAGAATGTGTATCCGCGGCGCCCAGAAGCCTCGGTTTGGCCCACCTGTGAGTGGGGCA
GGGAGGGGTTCCGGTTGTGCAGAGAACAGAGTGTTCTGGCAAAGAGGAAATCCCACAGCAGCGCAGAGGA
CCTGGGCCTGGAGGGGCAGGGCTGGGGCAACCCGGCTTGGCGGCAAAGCCCAGCCCCTTCTCAGACCAGC
TCCCCACATTCCTGAATTCCACTTCCAGGCAGAAAGGAGTGGGCTCCCCCTACTCCCTCAGAGGAACTGA
CTCACCGGCTGTCCTAGAATGGGCAGGGGCAGAGCGAAGTTCTGGGTGGGATGACCGCACTGGGGGAGGG
GCCTCAGTCCAGAAACCTCGACCGCTAGCTCCACCTGCCTTGGCCACCAGGGCAGCCCCGGGGGATCCGG
GCTGCTGGGCAGCAGGTCGGCGGGACCACATGCCTGGGTCTCACCCTCAGCTCCGAGGGCCGAGGGCTTT
CCCCACCCCACCCTCCTCCTGGCCGGCAGTCGGCCCTGTCTATTCATCTGCGTCAGGCTTGCCAGGGGGG
CCCCCCGTGTGTGCCCCTTGGTCACGTGTGTCGTCTTCAAGGATGTTTTGCTGCTGTGGCTCCTGCTGTG
TCCCCTCCTGGCCCATCCTCATCCTCATCTTCATCCTCATCCTCATCTGTGCAACCGCCCGTCCTCCTTT
TCTAGTTTCTGATGTTTGTAACCAGACCCAGCTGTGTCATTAAACAGACCCGTTCTTGCTG
Wieviele Exons hat das dazugehörige Gen?
2.1
Genom-Browser
Suche
nach
Information
in
eukaryotischen Genomsequenzen
kompletten
Genom-Browser mit dahinter angeordneten, vielschichtigen Datenbanken erlauben uns einen
Blick in das Genom, seine primäre DNA-Sequenz und alles, was über diese Sequenz an
Information existiert (z.B. annotierte Gene, repeats, Orthologe, Genexpressionsmuster,
Proteinstrukturen, GeneOntology-Begriffe u.v.m.).
Wir fokussieren uns hier auf den Browser der University of California Santa Cruz (UCSC)
Bioinformatik-Gruppe. Zu diesem Tool gibt es von der Firma OpenHelix ein detailliertes,
animiertes Tutorial zur Einarbeitung.
Links:
http://genome.ucsc.edu/
UCSC Browser
http://www.openhelix.com/downloads/ucsc/ucsc_home.shtml tutorial
http://bioinfo2.weizmann.ac.il/geneloc/index.shtml
GeneLoc
Aufgabe 1: Zum Gen
Der grobe Ablauf unserer Anwendungen ist folgendermaßen:
>Finde ein Gen der Maus per Namensuche
>kopiere seine Protein-Sequenz
>benutze BLAT-Suche zur schnellen Identifizierung des orthologen Gens im Menschen
>downloade die Mensch-Gensequenz mit farbigen Annotationen und mit flankierender DNA
>identifiziere die Nachbargene des Zielgens
>identifiziere Mikrosatelliten im Zielgen
Zu beantwortende Fragen bzw Aufgaben sind fettgedruckt.
1. Öffne die UCSC-Hompage, wähle ‚Genome browser’ in der Linkleiste, gib
‚vertebrate’ als clade und ‚mouse’ als Spezies ein, search term ist ‚cytoglobin’ oder
‚cygb’, klicke ‚submit’
2. folge dem Link unter ‚known genes’ und es erscheint das entsprechende Fenster im
Mausgenom, betrachte die ‚tracks’ mit ihren (in der Vielzahl verwirrenden) Daten,
klicke einmal ‚hide all’ und die tracks sind alle weg. Probiere auch die Einstellungen
‚pack, full, dense’ aus. Gehe dann wieder auf ‚default tracks’
3. klicke auf ‚Cygb’ am linken Rand der tracks, im nun folgenden Fenster ist jede Menge
Information zu Maus-Cygb (scrolle bis unten zur Info), unter ‚sequence’ findet man
die Proteinsequenz (per klick zum FASTA-Format), copy per strg-C
4. zu ‚BLAT’ in oberer Linkleiste, Maussequenz einfügen, Suchgenom ‚human’
einstellen und sich glücklich fühlen…
5. das Mensch-Cygb erscheint im Fenster, für mehr Übersichtlichkeit entfernen wir alle
‚conservation’ Angaben über Einstellen von ‚hide’ sowie ‚refresh’, notiere die
Transkriptionsrichtung des Gens relativ zur Sequenz (Pfeile zeigen das)
6. klick ‚DNA’ in der oberen blauen Linkleiste zum downloaden der Mensch-CygbSequenz
7. Addiere im folgenden Fenster nun z. B. 1000 Bp up- und downstream von Cygb
(ermöglicht z. B. Promotorsuche!), macht es für diese Gen Sinn, die Option
‚Reverse complement’ anzuklicken?
8. klicke ‚extended DNA case/colour options’ und markiere Gen, repeats etc. nach gusto,
dann ‚submit’
9. speichere die farbig annotierte Sequenz des Mensch-Cygb Gens
10. gehe im Browser zurück zu Track-Ansicht, zoome 10x aus und notiere die
Nachbargene von Cygb
11. Zoome schrittweise in das Cygb-Gen ein, zeige die Position von Mikrosatelliten
bzw. simple repeats im Genbereich an: wo findet man solche Sequenzen?
12. Hat das Cygb-Gen eine CpG Island? Wo liegt sie relativ zu den Exons? (Skizze)
Aufgabe 2: Zu den Expressionsdaten
Wir wollen anhand der ESTs im UCSC-Browserfenster etwas über das Expressionmuster von
Cygb und dann über das Protein selbst erfahren.
1. Stelle im ‚Human ESTs’ pulldown-Menu ‚pack’ ein
2. dann klick auf den Link ‚Human ESTs’ und tippe ‚neuroblastoma’ in die Box ‚tissue’
3. markiere die ESTs aus diesem Tumorgewebe rot, dann ‚submit’…
wird Cygb in Neuroblastomen exprimiert? Wieviele EST hits gibt es?
4. Wir wollen Info zur Genexpression noch woanders holen: klicke auf das ‚Cygb’
Symbol im Fenster des Browsers
5. Unter ‚Quick Links To Tools And Datbases’ klicke auf ‚Genecards’ (eine
Konkurrenzdatenbank mit ebenfalls schönen Features’
6. Schau was Genecards alles so bietet, dann scrolle heruter auf die Kategorie
‚Expression in Human Tissues’ (schön bunt!)
Was ist ein electronic Northern? Was bedeutet CGAP-SAGE?
Was sind die Gewebe mit der stärksten Cygb-Expression?
7. wir verlassen Genecards und gehen auf ‚Visigene’ (dort sollten Bilder mit mRNA in
situ-Hybridisierungs- und Antkörperfärbungen für Cygb verlinkt sein), leider stimmt
der Link nicht, wir müssen im Suchbalken ‚Cygb’ eingeben…
Laden Sie ein mRNA-ISH-Bild herunter: erkennen Sie Gehirnstrukturen, die Cygb
exprimieren?
8. Gehe über klicken auf ’Cygb’ im Browserfenster auf ‚Proteome Browser’ (in dem
Feld ‚Quick Links and Tools’)
9. Welches Molekulargwicht hat Cygb? Was kann der Hydrophibizitätsplot aussagen?
10. Klick auf eine der farbigen 3D-Strukturen und betracht die Struktur im WebMolFenster: durch interaktives Drehen kann man gut sehen, wie das Molekül gebaut ist.
(Hier muss JAVA aktiv sein)
11. „Don’t follow leaders, just watch the parking meters“ (Bob Dylan)
Auch einer Annotation muss man nicht blind folgen. Beispiel: schaue die
GeneOntology-Begriffe für Cygb an. Was steht dort unter ‚cellular component’?
So, und jetzt mach eine Pubmed-Suche mit den Begriffen ‚cytoglobin’ AND
‚nucleus’. Lies die Abstracts. Welche zwei Arbeiten widersprechen sich? Was
könnte der Grund sein?
Aufgabe 3: Verknüpfte Suchen
Der „Tables Browser“ der UCSC-Seite ermöglicht es, Daten ausgewählter AnnotationsTracks zu extrahieren und dabei auch Verknüpfungen vorzunehmen.
Beispiel: Extrahiere die Sequenzen aller Gene, die im Bereich des Cygb-Gens auf
Chromosom 17 charakteristische CpG-Inseln besitzen.
1. Rufe die Region des humanen Cygb-Gens auf, zoome etwa 10x aus, um die
Nachbargene auch zu sehen, schreibe die Bp-Koordinaten auf (z. B. chr17:71,988,49172,091,920)
2. gehe auf Tables: dort sollten die Koordinaten von Schritt1 schon stehen. Folgendes
muss eingestellt sein: group=genes and gene prediction tracks, track=known genes,
table=known gene
3. Jetzt erfolgt die verknüpfende Suche nach bekannten Genen mit CpG-Insel: Klicke
Intersection create“, wähle ‚group= Expression and Regulation’, sowie ‚Track=CpG
islands’, klicke ‚submit’ und dann ‚get output’ mit ‚output format = sequence’
4. klicke ‚genomic’, dann ‚submit’, dann spezifiziere durch anklicken, dass man den
5’UTR mitsamt 1000 Bp upstream haben möchte, dabei den Exonteil in grossen
Buchstaben, dann sage ‚get sequence’
5. speichere den File, schreibe die accession nos. der gefundenen Gene mit CpG-Insel
aus der Region auf.
6. Kontrolliere das Ergebnis durch Darstellung des tracks ‚CpG’ im USCSBrowserfenster. Stimmen die zuvor extrahierten Gene damit überein?
Aufgabe 4: In den Fliegenkeller!
Der USCS-Browser ist auch ein guter Einstieg, um Drosophila-Gene zu erforschen.
Dennoch muss man irgendwann auf den dedizierten Drosohila-Browser (FlyBase)
wechseln, da dort noch Spezialdaten vorhanden sind.
1. Steige im USCS-Browser ein und suche das Drosophila globin 1 gen (glob1). Gehe
über die Links dieses Gens zur Flybase
2. Suche dort in Genexpressionsdaten herum: gibt es dort Info zur Aktivität diese
Gens während der Embryogenese? Wann wird glob1 am stärksten transkribiert?
Aufgabe 5: Für molekulare Detektive
Sie haben eine mysteriöse RNA im Labor isoliert.
>mysteryRNA
uagguaguuucauguuguugg
Wo im menschlichen Genom findet man diese RNA? (BLAT/UCSC benutzen)
Wodurch unterscheiden sich die Matches? Bitte Werte aufschreiben! Interpretation?
Ist die RNA konserviert in anderen Säugern?
Wie heissen die zugehörigen Transkriptionseinheiten? (‚ENSEMBL gene prediction’
im Browser anzeigen)
Könnte dies eine microRNA sein? Schreiben Sie einmal die letzten 5-6 Nt an den
Enden der RNA auf!
Da miRNA-Vorläufer ca 70 Bp lang sind, muss man einen solchen Sequenzabschnitt im
USCS-Browserfenster extrahieren (‚Ensembl predicted gene’ muss in den tracks aktiviert
sein) und in einem RNA-Faltungsprogramm falten (RNAfold server)
(Platz zum Einfügen der Struktur)
Wo könnte eine solche miRNA binden? Welches Gen würde sie regulieren? Ist dieses
Gen in der Literatur schon mit miRNA in Verbindung gebracht worden?
In einem Experiment schalten Sie die miRNA per antisense-Technik aus. Designen Sie
eine passende antisense-Nukleinsäure:
5’-_____________________________________________________________-3’
Sie messen dann den Einfluss der antisense-RNA auf die genomweite Transkription durch
einen
(Affymetrix)-Microarray-Versuch.
Sie
finden
die
Sondenposition
„Affy_probe_set_id = 221278_at“ deutlich hochreguliert und wollen wissen, welches Gen
dahintersteht? (Das Verdächtige etwa?).
Geben Sie die Affy-id im Suchfenster des Browsers ein....
Passt das Ergebnis?
Aufgabe 6: Alle Gene einer Umgebung raussuchen
Nicht alle Werkzeuge sind für alle Fragestellungen blendend geeignet. Für das nächste,
häufige Problem ist z. B. das der GeneLoc-Browser wohl am besten.
Sie haben auf der Suche nach einem Krankheitsgen durch Kopplunganalyse festgestellt,
dass das gesuchte Gen gekoppelt mit dem STS-Marker D17S785 vererbt wird. Der Name
sagt schon, dass sich dieser Marker auf Chromosom 17 befindet.
Suchen Sie nun in GeneLoc alle Gene im 1 Mb-Umkreis um diesen Marker herum. Dies
sind Ihre Kandidatengene für die folgenden Untersuchungen...
1. In ‚Search GenLoc integrated map’ spezifizieren Sie ‚chromosome 17’.
2. Geben Sie nun ein ‚within 1 Mb of marker D17S785’. Lassen Sie sich nur ‚approved
genes’ und alle Markertypen anzeigen.
Welches uns bekannte Gen findet sich in dem Bereich?
Was für einen Typ von Marker repräsentiert D17S785?
Folgen Sie den Links zu der Sequenz des Markers: was ist das wichtige
Charakteristikum?
2.2
Genvorhersage
Suche nach Genstrukturen in pro- und
karyotischen Genomen
eu-
Lernziele:
HMMs, Genvorhersage in Pro- vs. Eukaryoten, Homologie-basierte-Genvorhersage
Links:
http://genes.mit.edu/GENSCAN.html
http://www.cbs.dtu.dk/services/
http://genome.imim.es/software/sgp2/sgp2.html
http://www.nslij-genetics.org/gene/programs.html
Genscan prediction
HMM gene prediction
SGP2 prediction
Wentian Li’s Links
Aufgabe 1: In Bakterien ist es noch einfach (?)
Suchen Sie nach Genen in der prokaryotischen Sequenz 1. Benutzen Sie dafür GeneMark.
Speichern Sie den Genemark-output für spätere Vergleiche.
Nun benutzen Sie den NCBI Orffinder, um die offenen Leserahmen in der Sequenz zu
identifizieren. Übersichtlicher wird es, wenn Sie mindestens 300 Bp = 100 As als minimale
ORF-Länge annehmen (Redraw = 300). Vergleichen Sie die ORFs mit den GenmarkVorhersagen.
Was scheint besser zu funktionieren, GeneMark oder der Orffinder?
Sie wissen, dass prokaryotischen ORFs eine Ribosomenbindungsstelle (Shine-Dalgarno Box,
AGGAGG) vorangeht, die bis 20 Bp 5’oberhalb des ATG Kodons liegt. Schauen Sie in der
Sequenz, ob Sie die SD Boxen finden. Dazu ist es essentiell, die Sequenz mit Zahlen zu
versehen (benutzen Sie ‚Readseq’ mit GCG als output file format).
Aufgabe 2: ‚nobody’s perfect’ (Genvorhersage bei Eukaryoten)
Das Gen C11orf17 (bedeutet Gen unbekannter Funktion auf Chromosom 11) soll als Beispiel
für die Effektivität und Probleme von ab initio-Genvorhersagen dienen.
Laden Sie per UCSC-Browser die entsprechende Gen-Sequenz des Menschen herunter (ohne
flankierende Bereiche, Exons in großen Buchstaben).
Benutzen Sie einmal HMMgene, ein anderes Mal Genscan als Vorhersagetools.
Welche Exons sind beiden Vorhersagen gemeinsam, welche unterschiedlich?
Gehen Sie zurück auf das Bild des USCS-Browsers im C11orf17-Genberich: wie hat die
Vorhersage dieser und anderer Genvorhersagetools dort funktioniert? (Tracks zu Gene
prediction’ aktivieren).
Welche Form von Evidenz hat dann zu der real existierenden Genstruktur geführt?
Springen Sie rüber auf das homologe Maus-Gen. Hat die Genvorhersage dort besser
funktioniert?
Bitte ebenfalls die Maus-Sequenz aus dem Browser runterladen und speichern, wir
brauchen sie gleich...
Das Tool SGP-1 kombiniert das ab initio-Programm geneid mit einer tblastx-Suche zwischen
zwei Sequenzen, bezieht also Sequenzkonservierung (auf Proteinebene) mit ein. Schauen Sie
mal, ob das sich lohnt....
Kopieren Sie dazu die Maus- und die Mensch-Sequenz in die entsprechenden Fenster des
SGP-Servers und starten Sie die Analyse.
Wo gibt es Fortschritte, wo nicht? Warum?
Herunterladen