technische universität dortmund Sequenzalignments: BLAST • BLAST (im Vergleich zu NW und SW) • Sehr schneller Algorithmus, 50 mal schneller als dynamische Programmierung • Kann verwendet werden um sehr große Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt • Ist ausreichend sensititv und selektiv für die meisten Zwecke • Ist robust – man kann üblicherweise die Default-Parameter verwenden • Konkretes Vorgehen • Erzeuge Liste kurzer Sequenzabschnitte, die einer kurzen TeilSequenz der Query ähnlich sind und suche diese in der Datenbank • Erweitere die einzelnen Treffer iterativ (Ausdehnung der Sequenzen) und verwende sie, um den optimalen Score zu finden Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 152 - technische universität dortmund Sequenzalignments: BLAST • BLAST, Schritt 1 • Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) aus der Query-Sequenz und eine gegebene Bewertungs-Matrix erzeuge zunächst eine Liste aller Worte (w-mers), die eine Bewertung >T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht Test (Query) Sequenz LNKCKTPQGQRLVNQ P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P M G 13 unterhalb Schranke (T=13) Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund Wort an Position 7-9 benachbarte Wörter P Q A 12 P Q N 12 etc. 07.05.2008 - 153 - technische universität dortmund Sequenzalignments: BLAST • Schritt 1 • Für ein gegebenes Wort der Länge w und eine gegebene Bewertungs-Matrix erzeuge eine Liste aller Worte (w-mers), die eine Bewertung >T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht • Schritt 2 • Erzeuge hit list, die alle Wörter und geänderten Wörter an allen passenden Stellen in der Datenbank enthält • Schritt 3 • Benutze diese Sequenzen als seed und versuche, jeden seed in beide Richtungen auszudehnen • Es werden solange Residuenpaare hinzugefügt, bis die zusätzliche Bewertung kleiner als ein Schrankenwert ist • Nachdem die Ausdehnung beendet wurde, wird das Alignment so “zurückbeschnitten”, dass es die maximale Bewertung erhält Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 154 - technische universität dortmund Sequenzalignments: BLAST • PSI-BLAST (“Position-Specific Iterated BLAST”) • Hier beispielhaft angegeben als eine wichtige von vielen Erweiterungen von BLAST • Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil-Suchen entdecken als durch paarweise Vergleiche • PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch • Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren (PSSM), die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank-Suche verwendet wird • PSI-BLAST kann iterativ verwendet werden, bis keine neuen signifikanten Alignments mehr gefunden werden Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 155 - 7. Expressionsdaten: Bildanalyse Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 156 - technische universität dortmund Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 157 - technische universität dortmund Zwei-Farben Microarray-Experiment • Aufbau des klassischen Zwei-Farben-Experiments Kontrolle Tumor cDNA von Kontroll- und Tumorgewebe Markieren (labeling) von Proben mit grüner (532 nm) und roter (635 nm) Farbe Kompetitive Hybridisierung Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 158 - technische universität dortmund Zwei-Farben Microarray-Experiment Microarray Slide Scannen des Bildes mit konfokalem Scanner Identifikation der Spots Quantifizierung der roten und grünen Intensität Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 159 - technische universität dortmund Analyse eines Microarray-Experiments 1. Biologische Frage 2. Experimentelles Design 3. Microarray-Experiment 4. Bildanalyse 5. Normalisierung 6. Statistische Analyse 7. Biologische Verifikation and Interpretation • Addressierung: • Finden der Bereiche im Bild die zu einzelnen Spots gehören. • Bereich von Spot und zugehörigem Hintergrund heißt „target area“ (Zielbereich). • Segmentierung: • Aufteilen des Zielbereichs in Vordergrund (fg) und Hintergrund (bg). • Reduktion: • Extrahieren zweier skalarer Werte R and G für rote und grüne Intensität. • Berechnung eines Wertes R/G für relative Abundanz. Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 160 - technische universität dortmund Expressionsdaten: Bildanalyse • Bildanalyse: Erster Schritt in dem “multi-step process” der statistischen Analyse von Array-HybridisierungsExperimenten • Nach RNA-Gewinnung, farblicher Markierung (labelling) und Hybridisierung werden die Microarrays mit einem Laserscanner oder CCD Scanner gelesen • Für cDNA-Arrays mit kompetitiver Hybridisierung ist das Ergebnis ein Paar von 16-bit TIFF Dateien • Entsprechend dem Labelling wird jeweils für rote und grüne Farbe jedem Pixel in dem Bild ein Wert zwischen 0 und 65535 zugeordnet Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund Wie geht man mit dieser TIFF-Datei um? 07.05.2008 - 161 - technische universität dortmund Zirkuläre Methoden • Erste einfache Methoden, die in der Software zum Scannen der Microarrays integriert waren Addressierung: Segmentierung: Manuelles Alignment eines Gitters von Kreisen Fester Vordergrund- und Hintergrundbereich Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 162 - technische universität dortmund Bildanalyse: Probleme • Variable Spotgröße • Variabler Spot-Umriss (contour) (oft sichelförmig oder DonutForm) • Verkratzte Spots, unterbrochene Umrisse • Hohe Hintergrund-Signale aufgrund von Eigen-Fluoreszenz des Objektträgers (meist aus Glas) • Räumliche Effekte wie z.B. verschmierte Bereiche aufgrund von Schmutz auf dem Objektträger oder falscher Behandlung des Objektträgers • Intensitätsgradienten über das gesamte Array, die durch den Hybridisierungs-Prozess hervorgerufen werden Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 07.05.2008 - 163 -