WS07/08 Skript zum F1-Praktikum „Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik“ T. Hankeln (Institut für Molekulargenetik) (Leitung) H. Herlyn (Institut für Anthropologie) B. Lieb (Institut für Zoologie) A. Tresch (IMBEI) In allen Themenbereichen der Biologie und besonders in solchen, die molekularbiologische Verfahren benutzen, hat sich im Hinblick auf die Arbeitsmethodik ein Paradigmenwechsel vollzogen. Stand früher am Anfang einer Diplomarbeit meist die Planung eines „wet lab“Experiments (Anm. d. Verf.: ganz früher musste man sich dafür sogar noch Puffer –igittselbst ansetzen (:-))), so ist es heute ratsam, zunächst einmal alles hilfreiche Material zur Fragestellung durch ausführliche Suchen per Computer in Literatur- oder Sequenzdatenbanken zu beschaffen. Im Extremfall ist es möglich, ganz auf Puffer und Pipetten zu verzichten und reine in silico-Analysen (z. B. von Genomdaten) zu machen. Ziel dieses F1-Praktikums ist es daher, grundlegende methodische Kenntnisse in der Verarbeitung von Sequenzdaten zu vermitteln. Diese Kenntnisse sind bereits jetzt etwa ebenso wichtig wie z. B. das Klonieren von DNA. Ein weiteres Lernziel ist es, die methodischen Unterschiede der bioinformatischen Werkzeuge zu erkennen, die bei naiver Verwendung leicht zu unterschiedlichen (im schlimmsten Falle auch einfach falschen) Resultaten führen können. Hierbei kommt es nicht zuletzt darauf an, mit seinen eigenen Daten zu interagieren („herumzuspielen“) und die jeweils best-geeigneten Werkzeuge für die Fragestellung zu erkennen (und dies ist nicht immer einfach!). Teil 1 des Praktikums beantwortet die Fragen: Wie finde ich Literatur? Wie finde ich DNAund Proteinsequenzen? Wie nutze ich Alignments, um Sequenzen zu charakterisieren? Wie mache ich Suchen in Sequenz-Datenbanken? (Tools: Pubmed, Highwire, BLAST, FASTA, EMBOSS) Teil 2 erklärt die Benutzung komplexer Genomdatenbanken und –Browser, sowie Tools für die Genvorhersage (Tools: UCSC, ENSEMBL, GeneMark, Genscan) Teil 3 besteht in der Auswertung eines eigenen kleinen shotgun-Sequenzierprojekts, bei dem in dem sequenzierten Genomabschnitt Gene erkannt und ihre Struktur im Vergleich zu orthologen Genen aus anderen Spezies (comparative genomics) dargestellt werden soll. (Tools: FinchTV, Seqman, BLAST, ORFfinder, Spidey, GenePalette, Vista) Teil 4 fokussiert sich auf Methoden der Stammbaumrekonstruktion, inklusive der erforderlichen multiplen Sequenzvergleiche, der Bewertung von solchen MSAs, der Auswahl korrekter Substitutionsmodelle und der Unterschiedlichkeit von Baum-Algorithmen. (Tools: Clustal, GeneDoc, Modeltest, UPGMA, NJ, MP, ML) Teil 5 erweitert das Kapitel Phylogenie um das gegenwärtig boomende Gebiet der Phylogenomik (= Phylogenie mit großen Sequenzdatensätzen). In einem Mini-EST-Projekt werden EST-Daten prozessiert und annotiert. Bestimmte Sequenzen werden dann in Form konkatenierter multipler Alignments für phylogenetische Berechnungen verwendet. (Tools: Seqman, Blastclient, Clustal, Prottest, Phyml, Mr. Bayes) Teil 6 hat zum Ziel, solche Gene/Proteine zu erkennen, die während der Evolution möglicherweise einen Funktionswechsel durchgemacht haben und im Sinne Darwins durch „positive bzw. adaptive Selektion“ zum Überleben von Arten beitragen. (Tools: Paml, Hyphy) Teil 7 liefert einen Einstieg in die Untersuchung von Transkriptomen mittels Microarrays. Daten solcher Chip-Hybridisierungsexperimente werden bewertet, normalisiert und im Hinblick auf differenziell exprimierte Gene analysiert (Tools: Genepix, BioConductor, R) Zeitplan: Mo. 18.2. Literatur und Datenbanksuche Sequenzdaten-Suche, Datenformate, Alignments, Di. 19.2. Genom-Browser und sekundäre Datenbanken, Genvorhersage Mi. 20.2. Shotgun-Sequenzierprojekt mit Auswertung, Promotorvorhersage, komparative Genomvergleiche Do. 21.2. Phylogenie Teil 1 (B. Lieb) Fr. 22.2. Phylogenie Teil 2 (B. Lieb) Mo. 25.2. Phylogenomik Teil 1 Di. 26.2. Phylogenomik Teil 2 Mi. 27.2. Adaptive Evolution von Genen (H. Herlyn) Do. 28.2. Micorarrays Teil 1 (A. Tresch) Fr. 29.2. Microarrays Teil 2 (A. Tresch) Kursassistenten: AG Hankeln: Bettina Ebner, Eva Gleixner, Tina Hinkelmann, Alexander Witek, Dominic Docter Leistungsnachweise: Bearbeitung der Skriptaufgaben und Dokumentation der Ergebnisse, Seminarvortrag (max. 20 min, englisch), Klausur 1.1 Literatur- und Sequenzsuche Die Literatur- und Sequenzsuche macht einen großen Teil der theoretischen Arbeit eines Molekularbiologen aus. Das „gewusst wie und gewusst wo“ ist von entscheidender Bedeutung für die effektive Suche im WWW und meist notwendig um überhaupt zu sinnvollen Resultaten zu gelangen. In diesem Teil sollen durch praktische Übungen Erfahrungen vermittelt werden, welche die online-Suchen erheblich erleichtern können. Lernziele: Pubmed-Suche, Boole’sche Operatoren, Citation Index, Extrahieren von DNA- und Proteinsequenzen Links: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi http://highwire.stanford.edu/ http://scholar.google.de/ http://pubcrawler.gen.tcd.ie/ NCBI-Pubmed Highwire google Lit-Suche ‘Alarm’ für Pubmed Übersicht: MolBio-Tools und persönliche Linklisten http://molbio.info.nih.gov/molbio/analysis.html NIHtools http://www.up.univ-mrs.fr/~wabim/english/logligne.html ABIM tools http://www.fruitfly.org/seq_tools/other.html Flybase http://www.ebi.ac.uk/InterProScan/ EBI-Proteinanalys http://ca.expasy.org/alinks.html Bairoch-Links http://molbiol-tools.ca/ Kropinski-Links http://www.bioinformatik-wegweiser.de/Index.html Dipl. Arbeit V. Wiedmann Durch Klicken auf die Links können die Seiten direkt in Mozilla oder dem Internet Explorer geladen werden. Natürlich kann man auch im Browser Bookmarks anlegen.... Wir benutzen ENTREZ/PUBMED auf der NCBI-Homepage. Ein komplettes Tutorial startet unter http://www.nlm.nih.gov/bsd/pubmed_tutorial/m1001.html. Zuerst probiere man jedoch einmal das einfache Eingeben von Begriffen in das Suchfenster aus! Tips in Kürze : 1. Füllwörter (z.B. it, and, that etc.) werden automatisch weggelassen! 2. Autorensuche: z.B. als „watson j“, besser: „watson jd“ 3. Truncation/wildcard setzen durch „*“ (z.B. centrom* für centromere, centromeric etc) 4. Boole’sche Operatoren verwenden: AND verknüpft zwei Begriffe und findet die Schnittmenge OR zeigt Ergebnisse für beide individuellen Suchbegriffe nebeneinander NOT schließt Begriffe aus Suche aus ( ) Klammern bestimmen die Suchordnung/Reihenfolge 5. Preview/Index benutzen, um Anzahl der Treffer zu sehen und um Suchstrategie zu verfeinern 6. interessierende Referenzen anklicken, auswählen (über „send to clipboard“/ unten auf Seite) und über „clipboard“ (oben auf Seite) anschauen oder drucken. Kleine Einführung: Wann wurde das klassische Paper von Watson und Crick zuletzt noch einmal abgedruckt? _____________________ Wieviel Paper hat Crick OHNE Watson veröffentlicht? __________ Wann hat Watson sich zuerst Gedanken über mögliche Risiken der „recombinant DNA“ gemacht? ________________ Sie erinnern sich, dass ein gewisser Arthur Kornberg einmal in NATURE etwas zur Replikation geschrieben hat. Suchen Sie den Artikel über den „Single Citation Matcher“ im linken Toolbar der Seite. Klicken Sie einmal Send to Text (oberer Toolbar) an und stellen Sie so eine druckbare Suchliste ohne die störenden Grafiken der PUBMED-WWW-Seite dar. Ein beliebter Modellorganismus zur Untersuchung des respiratorischen Proteins Hämocyanin (Arthropoden, Crustaceen und Mollusken) ist die Vogelspinne Eurypelma californicum. Finden sie durch PubMed-Suchen heraus, aus wie vielen Untereinheiten das Hämocyanin von Eurypelma californicum besteht (Anzahl:_______). Wann wurde die komplette Sequenz des E. californicum Hämocyanins veröffentlicht und welche Autoren waren daran beteiligt?_______________________________________ Die mRNAs wie vieler Untereinheiten des E. californicum Hämocyanins sind in den Nukleotiddatenbanken veröffentlicht?_____ Die Hämoxygenase 1 ist ein Protein welches maßgeblich an der zellulären Antioxidantien Abwehr beteiligt ist. Suchen Sie in den Nukleotid- bzw. Proteindatenbanken deren mRNA bzw. Aminosäuresequenzen von Mensch und Maus und notieren sich die jeweiligen Accession No. nicht redundanter Einträge (= RefSeq; mRNA: NM_xxxxxx, Protein: NP_xxxxxx): ________________________________________________________________________ Suchen sie in der Nukleotiddatenbank nach der Accession No. NM_012580. Worum handelt es sich hier?________________________ Schauen Sie sich in „History“ (oberer Toolbar) an, welche Suchen Sie bisher gemacht haben. Weiterführende Übungen: Im Folgenden wird die NCBI-Homepage anhand eines Tutorials der University of Virginia erkundet, wobei weitere tools Verwendung finden. Dies ermöglicht Ihnen in Zukunft eine effektive und zeitsparende Datenbanksuche durchzuführen. Das Original-Tutorial findet sich unter http://people.virginia.edu/~wrp/cshl06/ncbi_workshop1.html und wurde für unsere Belange leicht verändert. I. Entrez Searching: Controlled Vocabularies Goal: Understand how different Entrez databases translate the query "cancer" 1. Term translation in Entrez PubMed a. On the NCBI Home Page, enter cancer in the search box and click Go. (Leave the database menu set at All Databases.) b. Click on the number of hits to PubMed. How many hits did you get ? ______________________ c. Click the Details tab above the search results. How did Entrez translate this query? What new terms do you see? What field limits are used? Look in particular for the field [MeSH Terms]. Medical Subject Headings (MeSH) is a controlled vocabulary used to index all PubMed abstracts. d. Edit your query in the text box so that only the term "neoplasms"[MeSH Terms] remains. Click the Search button under the text box to run the modified search. The resulting set only contain abstracts relevant to neoplastic disease. How many hits are left ? _______________________ 2. Term translation in Entrez Protein a. Select Protein from the Database pulldown menu. Clear the search box and type cancer. Click Go. b. Click the Details tab above the search results. How did Entrez translate this query? What field limits are used here and not in PubMed? Entrez Taxonomy, searched with the field [organism], is a controlled vocabulary used to index all molecular biology data at NCBI. In the sequence databases (eg. nucleotide, protein, genome, popset, snp), Entrez translates this query to retrieve records from the crustacean genus Cancer rather than records corresponding to neoplastic disease. c. To retrieve only sequences from the genus Cancer, edit your query in the text box so that only the term "cancer"[organism] remains. Click the Search button under the text box to run the modified search. d. To retrieve sequences more related to neoplastic disease, change the query to cancer[title] and click Go. This query retrieves records that contain the word "cancer" in their definition lines (titles). How many hits are left ? _______________________ 3. Term translation in Entrez Taxonomy a. Select Taxonomy from the Database pulldown menu. Clear the search box and type cancer. Click Go. b. You should see the single record for the genus Cancer. Click the Details tab above the search results. How did Entrez translate this query? What field limits are used? In Taxonomy, Entrez simply searches for unfielded query terms using [All Names]. c. Clear your search box and search Taxonomy for rock crab. Click the name of the resulting hit. Do you see why the query "rock crab" found this record? Entrez Taxonomy automatically assoicates scientific names with common names annotated on the taxonomy record. II. Exploring Entrez Taxonomy Goal: Locate all data at NCBI for a particular species (wine grape) 1. Find the record for wine grapes in Entrez Taxonomy a. On the NCBI Home Page, click TaxBrowser at the top of the box, just above the Go button. b. Change the pulldown menu from complete name to token set. Enter grape in the search box and click Go. c. This retrieves all taxonomy records that have the word "grape" in their name. Click the record for wine grapes (Vitis vinifera). d. The phrase "wine grape" is annotated as a common name for this species. This means that you could have used the phrase wine grape to find this record with the pulldown set to complete name. Try it if you like. 2. Locate genome data for wine grapes a. The table on the right lists all data for this species. There is one Genome Sequence. Click on the number. What genomic sequence is this? 3. Locate nucleotide sequence data for wine grapes a. Go back in your browser to the wine grape taxonomy page and click on the large number of Nucleotide sequences. b. At the top of the page you will see the number of records in the three component databases of Entrez Nucleotide (CoreNucleotide, EST and GSS). Which of these three contains the great majority of data for Vitis vinifera? 4. View data across the entire genus Vitis a. Again go back to the wine grape taxonomy page. Now click on Vitis in the lineage in the center of the page (the last node). This displays all species within the genus Vitis for which NCBI has data. b. Check the Nucleotide and Protein boxes at the top of the page (check other ones, too, if you want). Click the Display button. You should now see colored numbers indicating the number of records in each database for each taxon. Which other grape species have a large amount of data (>1000 records)? __________________________________ III. Nucleotide Data in Entrez: Using Limits, Fields and Links Goals: •View in FASTA format the curated mRNAs for zebrafish estrogen receptors •Find the Gene records for these receptors •Retrieve and identify all nucleotide records associated with a given receptor gene 1. Retrieve all zebrafish mRNAs a. On the NCBI Home Page, set the Database pulldown to Nucleotide and enter zebrafish[organism] in the search box. Click Go. b. Click on the Limits tab the above the results. c. Set the Molecule pulldown menu to mRNA and the Only from menu to RefSeq (for NCBI Reference Sequences). Click Go. Notice that all the resulting records are in the CoreNucleotide database. This set corresponds to the current transcriptome for zebrafish (a nonredundant set of all mRNAs). 2. Limit the set to estrogen receptors a. Click the Preview/Index tab (to the right of Limits). b. Now we need to select the subset database. Our records are in CoreNucleotide, so click CoreNucleotide. You should see your zebrafish[orgn] search, limited to "mRNA,RefSeq", in your history list. c. Select Title from the All Fields menu, and type estrogen receptor in the text box to the right. Click the Index button. d. Click the first term in the list, estrogen receptor, and then click the AND button above the list. Notice that the term "estrogen receptor"[title] is now in your search box at the top of the page. e. Locate the history number of your zebrafish set limited to mRNA and RefSeq (the number will be preceded by a # sign). In the search box at the top of the page, type AND followed by the history number of the zebrafish set, preceded by a #. Your final query should look something like "estrogen receptor"[title] AND #25. Click Preview to see how many records this query retrieves. f. Click on the number of records retrieved (to the right of the query in your history). 3. View the FASTA sequences for the estrogen receptor mRNAs a. Which of these records are actually estrogen receptors (not predicted)? These should correspond to the three records that are NM RefSeqs. b. Click the checkboxes to the left of each of the three estrogen receptors. Then choose FASTA from the Display menu above the results (just below the Preview/Index tab). FASTA sequences for the three records should appear. 4. Find the Gene records for the estrogen receptor mRNAs a. Go back in your browser to the Entrez results page. Make sure the three estrogen receptor mRNAs are still checked. b. Select Gene Links from the Display menu above the results. You will now be in Entrez Gene, and the three linked Gene records will appear. IV. Protein Data in Entrez: Sequences, Structures and Domains Goals: For the protein target of the drug gleevec, do the following: compare the bound conformations of the drug and the normal substrate find the curated protein sequence 1. Retrieve a structure with bound gleevec a. On the NCBI Home Page, type gleevec in the search box and click Go. b. Click on the hits to PubChem Compound. c. Click on the Protein3D tab above the results to limit the records to those bound to a 3D structure. d. Click on the image of the resulting chemical (CID 5291), and then on the Protein Structures link to the right of the image on the summary page. e. While any of these structures could be used, we will focus on 1IEP. Click on that accession to open the record. 2. Locate the drug binding site using Cn3D a. Click the View 3D Structure button to launch Cn3D. Basic Cn3D controls: To rotate, click the left mouse button and drag To translate (move), hold down Shift and click/drag To zoom, hold down Ctrl and click/drag b. In the structure window, select Style / Coloring Shortcuts / Molecule. The gleevec molecules in each of the two chains should now be easily visible as ball-and-stick models. c. Zoom in on one of the gleevec molecules and double-click it. It should turn yellow. d. In the structure window, select Show/Hide / Select by distance / Residues Only. Set the distance cutoff to 3.2 Angstroms and click OK. e. The residues in contact with gleevec should now be highlighted yellow. Point but do not click your mouse over the letter of each highlighted residue, and find its residue number in the lower left corner of the sequence window. Make a note of which residues contact gleevec (use the loc numbers, ie loc 64). f. Quit Cn3D when you're done. 3. 3D structure of neuroglobin (Ngb) Finally we want to show you one of our main research objects, neuroglobin, in it`s threedimensional structure. a. search and view the 3D structure of neuroglobin and compare the available entries. What are the decisive differences? ____________________________________ 1.2 „BLAST and friends“ Praktische Übungen zu einfachen Sequenzvergleichen und Sequenz-Datenbanksuchen Das Alignieren von DNA- und Proteinsequenzen ist eine Schlüsseltechnik der Bioinformatik. Eine der wichtigsten Anwendungen ist es, eine „neue“ Sequenz unbekannten Inhalts mit allen bekannten Sequenzen der DNA- bzw. Proteindatenbanken zu alignieren und so die „neue“ Sequenz einzuordnen. Auch der einfache Vergleich nur zweier Sequenzen, entweder lokal oder global, kann wesentliche Eigenschaften dieser Sequenzen erkennen helfen (z. B. Domänen und Motive, Repetitionen, schnell/langsam evolvierende Abschnitte). Lernziele: Optimale Alignments vs. heuristische Methoden; globale vs. lokale Alignments; Substitutionsmatrizen; gap penalty; dynamic programming; Needleman-Wunsch; SmithWaterman; Blast; Fasta; E-value; Dotplot Links: http://myhits.isb-sib.ch/cgi-bin/dotlet http://www.ebi.ac.uk/emboss/align/ http://www.ncbi.nlm.nih.gov/BLAST/ http://www.ebi.ac.uk/Tools/similarity.html Dotplot paarweise Alignments NCBI BLAST EBI FASTA, BLAST, u.a. Zu beantwortende Fragen bzw. Aufgaben sind fettgedruckt. Aufgabe 1: Dotplot zeigen Strukturen Mithilfe eines einfachen Dotplots lassen sich strukturelle Eigenschaften von Sequenzen wie Repetitionen und Domänen darstellen. Benutzen Sie das Internet-Tool Dotlet. a) Vergleichen Sie die folgenden Sequenzen jeweils mit sich selbst: X56335 (nur die ersten ca. 1000 Bp nehmen) NP_002102 • Was für eine besondere Eigenschaft zeigt Sequenz 1? Was ist das für ein Sequenztyp? • Was beobachtet man in Sequenz 2? Wofür ist dieses Protein ein klassisches Beispiel? b) Vergleichen Sie die Sequenzen AAB08987 und AAH02824 miteinander. • Was zeigt der Dotplot? • Welchen Typ von Sequenz-Alignment würden Sie für diesen Fall für geeignet halten? Aufgabe 2: Ihr erstes paarweises Alignment (:-)) Paarweise Alignierungen können mit verschiedenen Werkzeugen durchgeführt werden, die entweder globale oder lokale Alignments als Ausgabe produzieren. Benutzen Sie für diesen relativ einfachen Fall zunächst die EMBOSS-Tool-Seite am EBI (http://www.ebi.ac.uk/emboss/align/). a) Alignen Sie die unten stehenden Sequenzen. Welches Tool auf der EMBOSS-Seite halten Sie intuitiv für geeignet? >GLOBIN CTT-VIIA. APLSADQASLVKSTWAQVRNSEVEILAAVFTAYPDIQARFPQFAGKDVASIKDTGAFATHAGRIVGFV SEIIALIGNESNAPAVQTLVGQLAASHKARGISQAQFNEFRAGLVSYVSSNVAWNAAAESAWTAGLDN IFGLLFAAL >GLOBIN CTT-E MKFIILALCVAAASALSGDQIGLVQSTYGKVKGDSVGILYAVFKADPTIQAAFPQFVGKDLDAIKGGA EFSTHAGRIVGFLGGVIDDLPNIGKHVDALVATHKPRGVTHAQFNNFRAAFIAYLKGHVDYTAAVEAA WGATFDAFFGAVFAKM • Ändern Sie einmal drastisch die gap penalty-Werte? Interpretation? • Probieren Sie den alternativ angebotenen Alignment-Algorithmus aus: was ändert sich? Aufgabe 3: Die DNA ist kompliziert... Probieren Sie ein paarweises Alignment mit den folgenden zwei Sequenzen, die eine mRNA und eine zu ihr passende microRNA (miRNA) darstellen. >miRNA caaagugcuuacagugcagguagu >TARGET AAAAUAAAAAUAUCGAGGUAUAGACUAGCAUCCACAUAGAGCACUUGAACCUCCUUUGUACCUGUUUG GGGAAAAAGUAUAAUGAGUGUACUACCAAUCUAAC Sie werden sehen, das Ergebnis ist nicht zufriedenstellend. Was müssen Sie tun? Erinnern Sie sich, wie miRNAs und Ziel-RNAs interagieren. Notwendige Werkzeuge finden Sie auf: http://www.attotron.com/cybertory/analysis/seqMassager.htm Jetzt bitte nochmal alignen! (Ein Alignment-Werkzeug zum Assemblieren von shotgunReads hätte diese Aktion übrigens automatisch probiert) Aufgabe 4: Einfluss von Matrizen und penalties Ein ziemlich schwieriger Alignment-Fall: vergleichen Sie die relativ divergenten Globine 1 und 2 aus Drosophila melanogaster (ja, D. mel hat trotz Tracheenatmung sogar drei verschiedene Globine als respiratorische Proteine. Die genauen Funktionen sind allerdings noch unbekannt). Dme glob1: NP_524369 Dme glob2: CAJ30424 Das Expertenwissen über Globine sagt, dass drei Aminosäurepositionen (im Folgenden groß und rot geschrieben) nahezu unveränderlich sind und daher in einem Alignment wenn möglich als ‚Ankerpunkte’ untereinander stehen sollten: Dme glob1 Dme glob2 NH2-.....ekFpf.......raHag........vsHip......-COOH NH2-.....nfFrk.......hgHam.......ptHlk......-COOH • Probieren Sie nun Needleman-Wunsch mit default-Einstellungen. Notieren Sie die Werte für identity, gaps, alignment score. Wie gut erfüllt das Alignment unsere Vorgaben? • Welche Substitutionsmatrix würden Sie anstatt der default-Matrix wählen? Wechseln Sie auf eine besser geeignete Matrix! Notieren Sie die Werte! Wird das Alignment besser? • Ändern Sie nun die gap extension penalty schrittweise zunächst auf 1.0, dann 5.0. Betrachten Sie den letzten Fall: erfüllt das alignment nun besser die strukturbiologischen Vorgaben? Aufgabe 5: Aus den 70ern was zum Überlegen, ganz ohne Computer (:-)))) Füllen Sie die folgende DP-Matrix aus und schreiben Sie die zwei optimalen AlignmentPfade auf: Alignment1 Alignment2 Aufgabe 6: BLAST für Anfänger Datenbanksuchen ermöglichen die Identifizierung unbekannter Sequenzen. Hier ein literarisches Beispiel aus Michael Crichton’s Jurassic Park. „At one point in the book, Dr. Henry Wu is asked to explain some of DNA techniques used in reconstructing the extinct dinosaur genomes. Dr. Wu describes the use of restriction enzymes and how the fragmented pieces of dino DNA can be spliced together with these enzymes. He also alludes to the fact that they don't have the entire genome but that they "fill in the gaps" with modern day frog DNA. At one point during his discussion he points to a computer screen and remarks "Here you see the actual structure of a small fragment of dinosaur DNA." Woher stammt die Sequenz? >DinoDNA from Jurassic Park GCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCGGTGGCGAAACCCGA CAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGTTCCGACCCTGCCGCTTACCGGATACCT GTCCGCCTTTCTCCCTTCGGGAAGCGTGGCTGCTCACGCTGTACCTATCTCAGTTCGGTGTAGGTCGTTCGCTCC AAGCTGGGCTGTGTGCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAA AGTAGGACAGGTGCCGGCAGCGCTCTGGGTCATTTTCGGCGAGGACCGCTTTCGCTGGAGATCGGCCTGTCGCTT GCGGTATTCGGAATCTTGCACGCCCTCGCTCAAGCCTTCGTCACTCCAAACGTTTCGGCGAGAAGCAGGCCATTA TCGCCGGCATGGCGGCCGACGCGCTGGGCTGGCGTTCGCGACGCGAGGCTGGATGGCCTTCCCCATTATGATTCT TCTCGCTTCCGGCGGCCCGCGTTGCAGGCCATGCTGTCCAGGCAGGTAGATGACGACCATCAGGGACAGCTTCAA CGGCTCTTACCAGCCTAACTTCGATCACTGGACCGCTGATCGTCACGGCGATTTATGCCGCACATGGACGCGTTG CTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAACAAGTCAGAGGTGGCGAAACCCGACAGGAC TATAAAGATACCAGGCGTTTCCCCCTGGAAGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGC CTTTCTCCCTTCGGGCTTTCTCAATGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTG ACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACACGACTTAACGGG TTGGCATGGATTGTAGGCGCCGCCCTATACCTTGTCTGCCTCCCCGCGGTGCATGGAGCCGGGCCACCTCGACCT GAATGGAAGCCGGCGGCACCTCGCTAACGGCCAAGAATTGGAGCCAATCAATTCTTGCGGAGAACTGTGAATGCG CAAACCAACCCTTGGCCATCGCGTCCGCCATCTCCAGCAGCCGCACGCGGCGCATCTCGGGCAGCGTTGGGTCCT • Benutze NCBI BLASTN: was ist auffällig in den alignments? • Woher kommt diese Sequenz offenbar? • Wie hat Crichton die Sequenz „gestrickt“? • Welche Organismen hätten Sie als Treffer bei der Datenbanksuche erwartet, wenn dies wirklich Dino-DNA wäre? In seinem zweiten Buch hat Crichton den Molekularbiologen Mark Boguski vom NIH zu Rate gezogen und der hat eine „passendere“ Sequenz gebastelt. Ohne Crichton’s Wissen hat er dabei einen lesbaren Text in der kodierten Protein-Sequenz versteckt.... >DinoDNA from Crichton THE LOST WORLD GAATTCCGGAAGCGAGCAAGAGATAAGTCCTGGCATCAGATACAGTTGGAGATAAGGACG GACGTGTGGCAGCTCCCGCAGAGGATTCACTGGAAGTGCATTACCTATCCCATGGGAGCC ATGGAGTTCGTGGCGCTGGGGGGGCCGGATGCGGGCTCCCCCACTCCGTTCCCTGATGAA GCCGGAGCCTTCCTGGGGCTGGGGGGGGGCGAGAGGACGGAGGCGGGGGGGCTGCTGGCC TCCTACCCCCCCTCAGGCCGCGTGTCCCTGGTGCCGTGGGCAGACACGGGTACTTTGGGG ACCCCCCAGTGGGTGCCGCCCGCCACCCAAATGGAGCCCCCCCACTACCTGGAGCTGCTG CAACCCCCCCGGGGCAGCCCCCCCCATCCCTCCTCCGGGCCCCTACTGCCACTCAGCAGC GGGCCCCCACCCTGCGAGGCCCGTGAGTGCGTCATGGCCAGGAAGAACTGCGGAGCGACG GCAACGCCGCTGTGGCGCCGGGACGGCACCGGGCATTACCTGTGCAACTGGGCCTCAGCC TGCGGGCTCTACCACCGCCTCAACGGCCAGAACCGCCCGCTCATCCGCCCCAAAAAGCGC CTGCTGGTGAGTAAGCGCGCAGGCACAGTGTGCAGCCACGAGCGTGAAAACTGCCAGACA TCCACCACCACTCTGTGGCGTCGCAGCCCCATGGGGGACCCCGTCTGCAACAACATTCAC GCCTGCGGCCTCTACTACAAACTGCACCAAGTGAACCGCCCCCTCACGATGCGCAAAGAC GGAATCCAAACCCGAAACCGCAAAGTTTCCTCCAAGGGTAAAAAGCGGCGCCCCCCGGGG GGGGGAAACCCCTCCGCCACCGCGGGAGGGGGCGCTCCTATGGGGGGAGGGGGGGACCCC TCTATGCCCCCCCCGCCGCCCCCCCCGGCCGCCGCCCCCCCTCAAAGCGACGCTCTGTAC GCTCTCGGCCCCGTGGTCCTTTCGGGCCATTTTCTGCCCTTTGGAAACTCCGGAGGGTTT TTTGGGGGGGGGGCGGGGGGTTACACGGCCCCCCCGGGGCTGAGCCCGCAGATTTAAATA ATAACTCTGACGTGGGCAAGTGGGCCTTGCTGAGAAGACAGTGTAACATAATAATTTGCA CCTCGGCAATTGCAGAGGGTCGATCTCCACTTTGGACACAACAGGGCTACTCGGTAGGAC CAGATAAGCACTTTGCTCCCTGGACTGAAAAAGAAAGGATTTATCTGTTTGCTTCTTGCT GACAAATCCCTGTGAAAGGTAAAAGTCGGACACAGCAATCGATTATTTCTCGCCTGTGTG AAATTACTGTGAATATTGTAAATATATATATATATATATATATATCTGTATAGAACAGCC TCGGAGGCGGCATGGACCCAGCGTAGATCATGCTGGATTTGTACTGCCGGAATTC • Welches BLAST-Tool muss man anwenden? • Machen die ersten beiden matches taxonomisch Sinn und hat Boguski die Stammesgeschichte richtig erfasst? Wie heißt seine versteckte Botschaft? Aufgabe 7: BLAST für’s Laborleben Der fiese Kollege vom Nachbarlabor hat einen mysteriösen Klon sequenziert. Er behauptet frechweg, das müsse eine Kontamination von Ihnen sein (natürlich steckt dahinter der Vorwurf, daß Sie nicht sauber gearbeitet haben (:-)) Was kann man durch Datenbanksuche alles über diese Sequenz (und damit u. U. ihren Erzeuger) herausfinden? Benutzen Sie zunächst BLASTN am NCBI mit Datenbank „nr“, dann auf der EBI-homepage NCBI-BLAST2 mit Datenbank „Evec“. >mysterysequence1 CAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATG TGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATT CGAGCTCGGTACCCGGGGATCCGCTGACCAACTGACTGAAGAGCAGATTGCAGAATTCAAAGAAGCTTTTTCATT ATTTGACAAAGATGGTGATGGCACTATAACAACAAAGGAACTTGGGACTGTAATGAGATCTCTTGGGCAGAATCC CACAGAAGCAGAGTTACAGGACATGATTAATGAAGTAGATGCTGATGGTAATGGCACAATTGACTTTCCTGAATT TCTGACAATGATGGCAAGAAAATGAAAGACACAGACAGTGAAGAAGAAATTAGAGAAGCATTCCGTGTGTTTGAC AAGGATGGCAATGGCTATATTAGTGCTGCAGAACTTCGCCATGTGATGACAAACCTTGGAGAGAAGTTAACAGAT GAAGAAGTTGATGAAAATGATCAGGGAAGCAGATATTGATGGTGATGGTCAAGTAAACTATGAAGAGTTTGTACA AATGATGACAGCAAAGTGAAGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCTTGGCGTAATCATGGTCATA GCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGC CTGGG • Was für ein Typ von DNA-Sequenz ist hier vermutlich sequenziert? cDNA? Genom? • Von wo bis wo in der Sequenz geht die kodierende Region ungefähr, was mag der Rest sein? • Für welches Protein aus welcher Spezies kodiert die Sequenz? • Die Sequenz ist im kodierenden Bereich fehlerhaft: wo vermuten Sie Fehler? Schauen Sie sich zur Bestätigung, dass da etwas faul ist das Ergebnis einer TBLASX/swissprotSuche an. Interpretation? • Welcher Typ von Klonierungsvektor wurde verwendet? Kann man eine Aussage über das Markergen-System des Vektors treffen? (BLASTX/nr machen) • Welche Schnittstellen wurden wohl zur Klonierung benutzt? (Tip: mysterysequence1 mit komplettem Eintrag aus DB paarweise alignen: wie sehen die Enden der mysterysequence1 aus? Auch wenn der fiese Kollege Sie mit Sicherheit zu Unrecht der Schlamperei bezichtigt hat: Sie finden seine Sequenz durchaus interessant und wollen mehr darüber wissen... • Welche Domänen enthält das Protein? Was tun diese biochemisch? (NCBI, conserved domain-suche) Aufgabe 8: BLAST für Entdecker Die Entdeckung von Globinen in Drosophila gibt Anlass zu der Frage, ob verwandte respiratorische Proteine auch in anderen Insekten vorkommen. Gehen Sie per BLAST-Suche dieser Frage nach… Suchen Sie der D. melanogaster glob1 Sequenz nach verwandten Proteinen, z. B. indem Sie sehr aktuelle EST-Daten durchforsten (TBLASTN, month) >gi|24647276|ref|NP_732081.1| globin 1 CG9734-PA, isoform A [Drosophila melanogaster] MNSDEVQLIKKTWEIPVATPTDSGAAILTQFFNRFPSNLEKFPFRDVPLEELSGNARFRAHAGRIIRVFD ESIQVLGQDGDLEKLDEIWTKIAVSHIPRTVSKESYNQLKGVILDVLTAACSLDESQAATWAKLVDHVYG IIFKAIDDDGNAK In welcher(n) Spezies finden Sie Treffer? Gibt es dazu schon eine Publikation? Probieren Sie jetzt eine TBLASTN Suche in der Datenbank „other_ESTs“. Zunächst werden Sie über das Resultat enttäuscht sein! Was ist zu sehen…? Was müssen Sie tun, um die Fragestellung vom Anfang zu lösen? (Hinweis: Benutzen Sie auf der BLAST-Seite die Rubrik ‚Options’. Wenn das BLAST-Ergebnis kommt, verschaffen Sie sich mit ‚Taxonomy Report’ einen Überblick) Aufgabe 9: PSI-BLAST für Entdecker BLAST-Suchen ermöglichen eine funktionelle Einordnung von neuen Proteinen unbekannter Funktion. Dies ist insbesondere wichtig, wenn das neue Protein nur wenig Ähnlichkeit zu anderen Proteinen in der Datenbank aufweist. Ein wichtiges Werkzeug hierfür ist PSIBLAST, das zunächst in einer ersten Suche eine positionsspezifische Scoring-Matrix (PSSM) errechnet, mit der dann iterativ nach entfernten Matches gesucht werden kann (solange, bis man Hinweis auf mögliche Proteinfunktion findet). Bearbeiten Sie das sehr gute NCBI-Tutorial zu PSI-BLAST und finden Sie so einen Hinweis, was das „unbekannte“ Protein MJ0577 aus dem Archaebakterium Methanococcus jannaschii wohl machen könnte... • Wie verhindert man bei der BLAST-Suche ungezielte Treffer, die hier im Beispiel von MJ0577 durch die ‚coiled-coil’-Domäne in der Suchsequenz zustande kommen könnten? • Was ist überhaupt ‚coiled-coil’ und wodurch zeichnet sich diese Domäne aus? (google) • Durch welche Maßnahmen kann man analysieren, ob ein per PSI-BLAST gefundener match zu einem bekannten Protein überhaupt Sinn macht? Aufgabe 10: BLAT statt BLAST für die, die jetzt eilig heim wollen Als Reaktion auf die erhöhten Schnelligkeitsanforderungen beim Alignment von cDNA- oder partiellen Genomsequenzen an das Gesamt-Genom derselben Spezies wurde BLAT (Kent 2002) entwickelt. Probieren Sie es aus! Wo liegt die folgende cDNA im Humangenom? >mystery-cDNA CCCGGCGCGCACAGACACACGCTCCCTCCCTCCGCGCTCTACCCCTCGCCCGCCCGCCGCGCACGCAGCC GGCCCCGGCTCCCGGCGCCCCGCGCCCCGCGCCCCGCGCCCCGCCACCGCCGCCGCCGAGCAAAGCCGGG CTGGGCTTGGAGCTGCTCATGGAGAAAGTGCCAGGCGAGATGGAGATCGAGCGCAGGGAGCGGAGCGAGG AGCTGTCCGAGGCGGAGAGGAAGGCGGTGCAGGCTATGTGGGCCCGGCTCTATGCCAACTGCGAGGACGT GGGGGTGGCCATCCTGGTGAGGTTCTTTGTGAACTTCCCCTCGGCCAAGCAGTACTTCAGCCAGTTCAAG CACATGGAGGATCCCCTGGAGATGGAGCGGAGCCCCCAGCTGCGGAAGCACGCCTGCCGAGTCATGGGGG CCCTCAACACTGTCGTGGAGAACCTGCATGACCCCGACAAGGTGTCCTCTGTGCTCGCCCTTGTGGGGAA AGCCCACGCCCTCAAGCACAAGGTGGAACCGGTGTACTTCAAGATCCTCTCTGGGGTCATTCTGGAGGTG GTCGCCGAGGAATTTGCCAGTGACTTCCCACCTGAGACGCAGAGAGCCTGGGCCAAGCTGCGTGGCCTCA TCTACAGCCACGTGACCGCTGCCTACAAGGAAGTGGGCTGGGTGCAGCAGGTCCCCAACGCCACCACCCC ACCGGCCACACTGCCCTCTTCGGGGCCGTAGGACCCCTAACTCCACCCCCCTCCCTGGCAGCACCTCGAG CAGAAGGCCGAGTTCTGAAGACCCTCCTTGACGCTCCATTTCTGGGTGCCAAGGAAGCTGGAGGAATCCC TGACTCAACTTCCCCGAAGGAGGCCTCTGTGGCGGCCAGGGTCCCCCCCTGGAGCTGCTGGGAGGCGGCG CTGGCTGCCTGGATGCTGACCCCAGCGCGGCGGGCAGAGCGGGGCCCACTCTTCTTAGCTTTTCTACTCA CTGTTAGAGAGAGACCTAGCTGAGCGGCTGGCAGGAAGCGGGACAGGTCTAGGAGTCCCTTAGGGAATAA ACCAGCCCCGTTTCTATCAGCCCGGCCAGCATGCAGGTCTCCACATCACCATCTAGAGTATCACGCACAC ATCTACCATATATACAGATATATTCTATATACGAGCTATATATAAATATATATATACATATATATATACA CACATACATATCTAGAATGTGTATCCGCGGCGCCCAGAAGCCTCGGTTTGGCCCACCTGTGAGTGGGGCA GGGAGGGGTTCCGGTTGTGCAGAGAACAGAGTGTTCTGGCAAAGAGGAAATCCCACAGCAGCGCAGAGGA CCTGGGCCTGGAGGGGCAGGGCTGGGGCAACCCGGCTTGGCGGCAAAGCCCAGCCCCTTCTCAGACCAGC TCCCCACATTCCTGAATTCCACTTCCAGGCAGAAAGGAGTGGGCTCCCCCTACTCCCTCAGAGGAACTGA CTCACCGGCTGTCCTAGAATGGGCAGGGGCAGAGCGAAGTTCTGGGTGGGATGACCGCACTGGGGGAGGG GCCTCAGTCCAGAAACCTCGACCGCTAGCTCCACCTGCCTTGGCCACCAGGGCAGCCCCGGGGGATCCGG GCTGCTGGGCAGCAGGTCGGCGGGACCACATGCCTGGGTCTCACCCTCAGCTCCGAGGGCCGAGGGCTTT CCCCACCCCACCCTCCTCCTGGCCGGCAGTCGGCCCTGTCTATTCATCTGCGTCAGGCTTGCCAGGGGGG CCCCCCGTGTGTGCCCCTTGGTCACGTGTGTCGTCTTCAAGGATGTTTTGCTGCTGTGGCTCCTGCTGTG TCCCCTCCTGGCCCATCCTCATCCTCATCTTCATCCTCATCCTCATCTGTGCAACCGCCCGTCCTCCTTT TCTAGTTTCTGATGTTTGTAACCAGACCCAGCTGTGTCATTAAACAGACCCGTTCTTGCTG Wieviele Exons hat das dazugehörige Gen? 2.1 Genom-Browser Suche nach Information in eukaryotischen Genomsequenzen kompletten Genom-Browser mit dahinter angeordneten, vielschichtigen Datenbanken erlauben uns einen Blick in das Genom, seine primäre DNA-Sequenz und alles, was über diese Sequenz an Information existiert (z.B. annotierte Gene, repeats, Orthologe, Genexpressionsmuster, Proteinstrukturen, GeneOntology-Begriffe u.v.m.). Wir fokussieren uns hier auf den Browser der University of California Santa Cruz (UCSC) Bioinformatik-Gruppe. Zu diesem Tool gibt es von der Firma OpenHelix ein detailliertes, animiertes Tutorial zur Einarbeitung. Links: http://genome.ucsc.edu/ UCSC Browser http://www.openhelix.com/downloads/ucsc/ucsc_home.shtml tutorial http://bioinfo2.weizmann.ac.il/geneloc/index.shtml GeneLoc Aufgabe 1: Zum Gen Der grobe Ablauf unserer Anwendungen ist folgendermaßen: >Finde ein Gen der Maus per Namensuche >kopiere seine Protein-Sequenz >benutze BLAT-Suche zur schnellen Identifizierung des orthologen Gens im Menschen >downloade die Mensch-Gensequenz mit farbigen Annotationen und mit flankierender DNA >identifiziere die Nachbargene des Zielgens >identifiziere Mikrosatelliten im Zielgen Zu beantwortende Fragen bzw Aufgaben sind fettgedruckt. 1. Öffne die UCSC-Hompage, wähle ‚Genome browser’ in der Linkleiste, gib ‚vertebrate’ als clade und ‚mouse’ als Spezies ein, search term ist ‚cytoglobin’ oder ‚cygb’, klicke ‚submit’ 2. folge dem Link unter ‚known genes’ und es erscheint das entsprechende Fenster im Mausgenom, betrachte die ‚tracks’ mit ihren (in der Vielzahl verwirrenden) Daten, klicke einmal ‚hide all’ und die tracks sind alle weg. Probiere auch die Einstellungen ‚pack, full, dense’ aus. Gehe dann wieder auf ‚default tracks’ 3. klicke auf ‚Cygb’ am linken Rand der tracks, im nun folgenden Fenster ist jede Menge Information zu Maus-Cygb (scrolle bis unten zur Info), unter ‚sequence’ findet man die Proteinsequenz (per klick zum FASTA-Format), copy per strg-C 4. zu ‚BLAT’ in oberer Linkleiste, Maussequenz einfügen, Suchgenom ‚human’ einstellen und sich glücklich fühlen… 5. das Mensch-Cygb erscheint im Fenster, für mehr Übersichtlichkeit entfernen wir alle ‚conservation’ Angaben über Einstellen von ‚hide’ sowie ‚refresh’, notiere die Transkriptionsrichtung des Gens relativ zur Sequenz (Pfeile zeigen das) 6. klick ‚DNA’ in der oberen blauen Linkleiste zum downloaden der Mensch-CygbSequenz 7. Addiere im folgenden Fenster nun z. B. 1000 Bp up- und downstream von Cygb (ermöglicht z. B. Promotorsuche!), macht es für diese Gen Sinn, die Option ‚Reverse complement’ anzuklicken? 8. klicke ‚extended DNA case/colour options’ und markiere Gen, repeats etc. nach gusto, dann ‚submit’ 9. speichere die farbig annotierte Sequenz des Mensch-Cygb Gens 10. gehe im Browser zurück zu Track-Ansicht, zoome 10x aus und notiere die Nachbargene von Cygb 11. Zoome schrittweise in das Cygb-Gen ein, zeige die Position von Mikrosatelliten bzw. simple repeats im Genbereich an: wo findet man solche Sequenzen? 12. Hat das Cygb-Gen eine CpG Island? Wo liegt sie relativ zu den Exons? (Skizze) Aufgabe 2: Zu den Expressionsdaten Wir wollen anhand der ESTs im UCSC-Browserfenster etwas über das Expressionmuster von Cygb und dann über das Protein selbst erfahren. 1. Stelle im ‚Human ESTs’ pulldown-Menu ‚pack’ ein 2. dann klick auf den Link ‚Human ESTs’ und tippe ‚neuroblastoma’ in die Box ‚tissue’ 3. markiere die ESTs aus diesem Tumorgewebe rot, dann ‚submit’… wird Cygb in Neuroblastomen exprimiert? Wieviele EST hits gibt es? 4. Wir wollen Info zur Genexpression noch woanders holen: klicke auf das ‚Cygb’ Symbol im Fenster des Browsers 5. Unter ‚Quick Links To Tools And Datbases’ klicke auf ‚Genecards’ (eine Konkurrenzdatenbank mit ebenfalls schönen Features’ 6. Schau was Genecards alles so bietet, dann scrolle heruter auf die Kategorie ‚Expression in Human Tissues’ (schön bunt!) Was ist ein electronic Northern? Was bedeutet CGAP-SAGE? Was sind die Gewebe mit der stärksten Cygb-Expression? 7. wir verlassen Genecards und gehen auf ‚Visigene’ (dort sollten Bilder mit mRNA in situ-Hybridisierungs- und Antkörperfärbungen für Cygb verlinkt sein), leider stimmt der Link nicht, wir müssen im Suchbalken ‚Cygb’ eingeben… Laden Sie ein mRNA-ISH-Bild herunter: erkennen Sie Gehirnstrukturen, die Cygb exprimieren? 8. Gehe über klicken auf ’Cygb’ im Browserfenster auf ‚Proteome Browser’ (in dem Feld ‚Quick Links and Tools’) 9. Welches Molekulargwicht hat Cygb? Was kann der Hydrophibizitätsplot aussagen? 10. Klick auf eine der farbigen 3D-Strukturen und betracht die Struktur im WebMolFenster: durch interaktives Drehen kann man gut sehen, wie das Molekül gebaut ist. (Hier muss JAVA aktiv sein) 11. „Don’t follow leaders, just watch the parking meters“ (Bob Dylan) Auch einer Annotation muss man nicht blind folgen. Beispiel: schaue die GeneOntology-Begriffe für Cygb an. Was steht dort unter ‚cellular component’? So, und jetzt mach eine Pubmed-Suche mit den Begriffen ‚cytoglobin’ AND ‚nucleus’. Lies die Abstracts. Welche zwei Arbeiten widersprechen sich? Was könnte der Grund sein? Aufgabe 3: Verknüpfte Suchen Der „Tables Browser“ der UCSC-Seite ermöglicht es, Daten ausgewählter AnnotationsTracks zu extrahieren und dabei auch Verknüpfungen vorzunehmen. Beispiel: Extrahiere die Sequenzen aller Gene, die im Bereich des Cygb-Gens auf Chromosom 17 charakteristische CpG-Inseln besitzen. 1. Rufe die Region des humanen Cygb-Gens auf, zoome etwa 10x aus, um die Nachbargene auch zu sehen, schreibe die Bp-Koordinaten auf (z. B. chr17:71,988,49172,091,920) 2. gehe auf Tables: dort sollten die Koordinaten von Schritt1 schon stehen. Folgendes muss eingestellt sein: group=genes and gene prediction tracks, track=known genes, table=known gene 3. Jetzt erfolgt die verknüpfende Suche nach bekannten Genen mit CpG-Insel: Klicke Intersection create“, wähle ‚group= Expression and Regulation’, sowie ‚Track=CpG islands’, klicke ‚submit’ und dann ‚get output’ mit ‚output format = sequence’ 4. klicke ‚genomic’, dann ‚submit’, dann spezifiziere durch anklicken, dass man den 5’UTR mitsamt 1000 Bp upstream haben möchte, dabei den Exonteil in grossen Buchstaben, dann sage ‚get sequence’ 5. speichere den File, schreibe die accession nos. der gefundenen Gene mit CpG-Insel aus der Region auf. 6. Kontrolliere das Ergebnis durch Darstellung des tracks ‚CpG’ im USCSBrowserfenster. Stimmen die zuvor extrahierten Gene damit überein? Aufgabe 4: In den Fliegenkeller! Der USCS-Browser ist auch ein guter Einstieg, um Drosophila-Gene zu erforschen. Dennoch muss man irgendwann auf den dedizierten Drosohila-Browser (FlyBase) wechseln, da dort noch Spezialdaten vorhanden sind. 1. Steige im USCS-Browser ein und suche das Drosophila globin 1 gen (glob1). Gehe über die Links dieses Gens zur Flybase 2. Suche dort in Genexpressionsdaten herum: gibt es dort Info zur Aktivität diese Gens während der Embryogenese? Wann wird glob1 am stärksten transkribiert? Aufgabe 5: Für molekulare Detektive Sie haben eine mysteriöse RNA im Labor isoliert. >mysteryRNA uagguaguuucauguuguugg Wo im menschlichen Genom findet man diese RNA? (BLAT/UCSC benutzen) Wodurch unterscheiden sich die Matches? Bitte Werte aufschreiben! Interpretation? Ist die RNA konserviert in anderen Säugern? Wie heissen die zugehörigen Transkriptionseinheiten? (‚ENSEMBL gene prediction’ im Browser anzeigen) Könnte dies eine microRNA sein? Schreiben Sie einmal die letzten 5-6 Nt an den Enden der RNA auf! Da miRNA-Vorläufer ca 70 Bp lang sind, muss man einen solchen Sequenzabschnitt im USCS-Browserfenster extrahieren (‚Ensembl predicted gene’ muss in den tracks aktiviert sein) und in einem RNA-Faltungsprogramm falten (RNAfold server) (Platz zum Einfügen der Struktur) Wo könnte eine solche miRNA binden? Welches Gen würde sie regulieren? Ist dieses Gen in der Literatur schon mit miRNA in Verbindung gebracht worden? In einem Experiment schalten Sie die miRNA per antisense-Technik aus. Designen Sie eine passende antisense-Nukleinsäure: 5’-_____________________________________________________________-3’ Sie messen dann den Einfluss der antisense-RNA auf die genomweite Transkription durch einen (Affymetrix)-Microarray-Versuch. Sie finden die Sondenposition „Affy_probe_set_id = 221278_at“ deutlich hochreguliert und wollen wissen, welches Gen dahintersteht? (Das Verdächtige etwa?). Geben Sie die Affy-id im Suchfenster des Browsers ein.... Passt das Ergebnis? Aufgabe 6: Alle Gene einer Umgebung raussuchen Nicht alle Werkzeuge sind für alle Fragestellungen blendend geeignet. Für das nächste, häufige Problem ist z. B. das der GeneLoc-Browser wohl am besten. Sie haben auf der Suche nach einem Krankheitsgen durch Kopplunganalyse festgestellt, dass das gesuchte Gen gekoppelt mit dem STS-Marker D17S785 vererbt wird. Der Name sagt schon, dass sich dieser Marker auf Chromosom 17 befindet. Suchen Sie nun in GeneLoc alle Gene im 1 Mb-Umkreis um diesen Marker herum. Dies sind Ihre Kandidatengene für die folgenden Untersuchungen... 1. In ‚Search GenLoc integrated map’ spezifizieren Sie ‚chromosome 17’. 2. Geben Sie nun ein ‚within 1 Mb of marker D17S785’. Lassen Sie sich nur ‚approved genes’ und alle Markertypen anzeigen. Welches uns bekannte Gen findet sich in dem Bereich? Was für einen Typ von Marker repräsentiert D17S785? Folgen Sie den Links zu der Sequenz des Markers: was ist das wichtige Charakteristikum? 2.2 Genvorhersage Suche nach Genstrukturen in pro- und karyotischen Genomen eu- Lernziele: HMMs, Genvorhersage in Pro- vs. Eukaryoten, Homologie-basierte-Genvorhersage Links: http://genes.mit.edu/GENSCAN.html http://www.cbs.dtu.dk/services/ http://genome.imim.es/software/sgp2/sgp2.html http://www.nslij-genetics.org/gene/programs.html Genscan prediction HMM gene prediction SGP2 prediction Wentian Li’s Links Aufgabe 1: In Bakterien ist es noch einfach (?) Suchen Sie nach Genen in der prokaryotischen Sequenz 1. Benutzen Sie dafür GeneMark. Speichern Sie den Genemark-output für spätere Vergleiche. Nun benutzen Sie den NCBI Orffinder, um die offenen Leserahmen in der Sequenz zu identifizieren. Übersichtlicher wird es, wenn Sie mindestens 300 Bp = 100 As als minimale ORF-Länge annehmen (Redraw = 300). Vergleichen Sie die ORFs mit den GenmarkVorhersagen. Was scheint besser zu funktionieren, GeneMark oder der Orffinder? Sie wissen, dass prokaryotischen ORFs eine Ribosomenbindungsstelle (Shine-Dalgarno Box, AGGAGG) vorangeht, die bis 20 Bp 5’oberhalb des ATG Kodons liegt. Schauen Sie in der Sequenz, ob Sie die SD Boxen finden. Dazu ist es essentiell, die Sequenz mit Zahlen zu versehen (benutzen Sie ‚Readseq’ mit GCG als output file format). Aufgabe 2: ‚nobody’s perfect’ (Genvorhersage bei Eukaryoten) Das Gen C11orf17 (bedeutet Gen unbekannter Funktion auf Chromosom 11) soll als Beispiel für die Effektivität und Probleme von ab initio-Genvorhersagen dienen. Laden Sie per UCSC-Browser die entsprechende Gen-Sequenz des Menschen herunter (ohne flankierende Bereiche, Exons in großen Buchstaben). Benutzen Sie einmal HMMgene, ein anderes Mal Genscan als Vorhersagetools. Welche Exons sind beiden Vorhersagen gemeinsam, welche unterschiedlich? Gehen Sie zurück auf das Bild des USCS-Browsers im C11orf17-Genberich: wie hat die Vorhersage dieser und anderer Genvorhersagetools dort funktioniert? (Tracks zu Gene prediction’ aktivieren). Welche Form von Evidenz hat dann zu der real existierenden Genstruktur geführt? Springen Sie rüber auf das homologe Maus-Gen. Hat die Genvorhersage dort besser funktioniert? Bitte ebenfalls die Maus-Sequenz aus dem Browser runterladen und speichern, wir brauchen sie gleich... Das Tool SGP-1 kombiniert das ab initio-Programm geneid mit einer tblastx-Suche zwischen zwei Sequenzen, bezieht also Sequenzkonservierung (auf Proteinebene) mit ein. Schauen Sie mal, ob das sich lohnt.... Kopieren Sie dazu die Maus- und die Mensch-Sequenz in die entsprechenden Fenster des SGP-Servers und starten Sie die Analyse. Wo gibt es Fortschritte, wo nicht? Warum?