Gleichheit, Ähnlichkeit, Homologie • Identität (identity) – • • Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) – Verhältnis ähnlicher Aminosäuren (Austauschmatrizen) – Maß der Ähnlichkeit ist modellbehaftet Homologie (homology) – Sequenzen haben eine gemeinsame Vorläufersequenz – "bewertete Ähnlichkeit": Maß der Homologie ist modellbehaftet, kann nicht in % angegeben werden! Softwarewerkzeuge der Bioinformatik SS 2009 1 Verschiedene Arten von Homologie Organismus Y Organismus X A B A Organismus Z Organismus # a Ħ Ħ A-a: Orthologe Gene • in unterschiedlichen Organismen • gleiche Funktion • entstanden durch Artenbildung (speciation) • oft syntenisch, d.h. in genomischer Nachbarschaft mit weiteren Orthologen A-B: Paraloge Gene • im gleichen Organismus • können unterschiedliche Funktion haben • entstanden durch Genduplikation Ħ-Ħ: Xenologe Gene • durch horizontalen Gentransfer erworben • Bsp.: Resistenzgene auf Plasmiden B-Ħ: Analoge Gene: nicht homologe Sequenz, sondern zufällige Ähnlichkeit, entstanden durch Konvergenz; gleiche/ähnliche Funktion Softwarewerkzeuge der Bioinformatik SS 2009 2 BLAST bei NCBI Softwarewerkzeuge der Bioinformatik SS 2009 3 Eingabe Softwarewerkzeuge der Bioinformatik SS 2009 4 Optionen und Parameter BLAST gibt nur Treffer aus, deren EValue unterhalb der Schranke liegt Länge der w-mere besondere Optionen Softwarewerkzeuge der Bioinformatik SS 2009 5 Graphische Alignmentansicht beste Treffer je 2 getrennte Treffer auf derselben Sequenz Eingabesequenz (Query) quergestrichelte Region dazwischen paßt nicht zur Query Softwarewerkzeuge der Bioinformatik SS 2009 6 Trefferliste (Descriptions) (a) gi-Nummer|Datenbank|Accession-Nummer|Locusname der Sequenz - sp swissprot = UniProtKB/Swiss-Prot - Hyperlink zu der Sequenz in der Datenbank (b) Beschreibung der Sequenz (Art, Funktion, Organismus) (c) Bit-Scores sind normalisiert und daher zwischen verschiedenen Suchen – auch in verschiedenen Datenbanken – vergleichbar (d) je kleiner der E-Value, desto signifikanter der Treffer Softwarewerkzeuge der Bioinformatik SS 2009 7 Lokales Alignment raw Score (unnormiert) • • • Softwarewerkzeuge der Bioinformatik SS 2009 Query: Eingabesequenz Sbjct: Treffer X: maskierte low complexity-Region 8 NCBI BLAST für Nukleotidsequenzen • BLASTn – Wortlänge 11 bp – match score 2, mismatch score -3 – auch für Suche nach wenig ähnlichen DNA-Sequenzen • MegaBLAST – Wortlänge 28 bp – bis 10mal schneller – optimiert für Suche nach (sehr ähnlichen) Sequenzen in Genomen • mRNA -> Genom desselben Organismus • homologe Gene: cross-species megablast – verlinkt mit MapViewer Softwarewerkzeuge der Bioinformatik SS 2009 9 MapViewer http://www.ncbi.nlm.nih.gov/mapview/ Softwarewerkzeuge der Bioinformatik SS 2009 10 Konservierte Syntenie von Orthologen Syntenie: Reihenfolge von Genen in Genom Softwarewerkzeuge der Bioinformatik SS 2009 11 ClustalW@EBI http://www.ebi.ac.uk/clustalw/ Default-Matrix: Gonnet250 (ähnlich PAM, aber größerer Datensatz) besondere Optionen für phylogenetische Bäume Softwarewerkzeuge der Bioinformatik SS 2009 12 Ausgabe Softwarewerkzeuge der Bioinformatik SS 2009 13 Ausgabe Softwarewerkzeuge der Bioinformatik SS 2009 13 Konservierung im multiplen Alignment - gap * identische Aminosäuren in allen Sequenzen : konservierende Substitutionen = chemisch ähnliche Aminosäuren (innerhalb der mit gleicher Farbe bezeichneten Gruppen bzw. hydrophile AS) . semi-konservierende Substitutionen (weniger ähnlich) Softwarewerkzeuge der Bioinformatik SS 2009 14 Klassifizierung der Aminosäuren • Farbcode: AVFPMILW klein + hydrophob (incl.aromatisch -Y) DE sauer RHK basisch STYHCNGQ Hydroxylgruppe + Aminogruppe + basisch + Q Rest unterstrichen: "übliche" hydrophile Residuen • An jeder Position innerhalb einer Reihe von mindestens 5 hydrophilen Residuen (hydrophiler stretch) wird GOP herabgesetzt – Loop-Regionen von Proteinstrukturen Softwarewerkzeuge der Bioinformatik SS 2009 15 JalView • Alignment-Editor (http://www.jalview.org/) • Java-Applet in ClustalW • farbliche Darstellung, erlaubt manuelle Veränderungen des Alignments besonders wichtige Optionen: Edit: (Teile von) Sequenzen und Gaps verschieben/löschen Colour – by conservation erleichtert das Auffinden konservierter Bereiche Calculate – Consensus an jeder Position des Alignments die am häufigsten auftretende Aminosäure Softwarewerkzeuge der Bioinformatik SS 2009 16 Phlyogenetischer Baum in ClustalW Cladogramm: alle Kanten gleich lang Phylogramm: Kantenlängen proportional zum evolutionären Abstand Softwarewerkzeuge der Bioinformatik SS 2009 17 Phlyogenetischer Baum in ClustalW Cladogramm: alle Kanten gleich lang Phylogramm: Kantenlängen proportional zum evolutionären Abstand Softwarewerkzeuge der Bioinformatik SS 2009 17 Beispiel für ein lokales Minumum SequenceA SequenceB SequenceC SequenceD GARFIELD THE LAST FAT CAT GARFIELD THE FAST CAT GARFIELD THE VERY FAST CAT THE FAT CAT ClustalW-Alignment SequenceA SequenceB SequenceC SequenceD GARFIELD GARFIELD GARFIELD -------- Softwarewerkzeuge der Bioinformatik SS 2009 THE THE THE THE LAST FAST VERY ---- FA-T CA-T FAST FA-T CAT --CAT CAT 18