Sequenzalignments: BLAST

Werbung
technische universität
dortmund
Sequenzalignments: BLAST
• BLAST (im Vergleich zu NW und SW)
• Sehr schneller Algorithmus, 50 mal schneller als dynamische
Programmierung
• Kann verwendet werden um sehr große Datenbanken zu
durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt
• Ist ausreichend sensititv und selektiv für die meisten Zwecke
• Ist robust – man kann üblicherweise die Default-Parameter
verwenden
• Konkretes Vorgehen
• Erzeuge Liste kurzer Sequenzabschnitte, die einer kurzen TeilSequenz der Query ähnlich sind und suche diese in der Datenbank
• Erweitere die einzelnen Treffer iterativ (Ausdehnung der
Sequenzen) und verwende sie, um den optimalen Score zu finden
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 152 -
technische universität
dortmund
Sequenzalignments: BLAST
• BLAST, Schritt 1
• Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) aus der
Query-Sequenz und eine gegebene Bewertungs-Matrix erzeuge zunächst
eine Liste aller Worte (w-mers), die eine Bewertung >T erhalten, wenn
man sie mit dem w-mer der Eingabe vergleicht
Test (Query) Sequenz
LNKCKTPQGQRLVNQ
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P M G 13
unterhalb
Schranke
(T=13)
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
Wort an Position 7-9
benachbarte
Wörter
P Q A 12
P Q N 12
etc.
07.05.2008
- 153 -
technische universität
dortmund
Sequenzalignments: BLAST
• Schritt 1
• Für ein gegebenes Wort der Länge w und eine gegebene
Bewertungs-Matrix erzeuge eine Liste aller Worte (w-mers), die eine
Bewertung >T erhalten, wenn man sie mit dem w-mer der Eingabe
vergleicht
• Schritt 2
• Erzeuge hit list, die alle Wörter und geänderten Wörter an allen
passenden Stellen in der Datenbank enthält
• Schritt 3
• Benutze diese Sequenzen als seed und versuche, jeden seed in
beide Richtungen auszudehnen
• Es werden solange Residuenpaare hinzugefügt, bis die zusätzliche
Bewertung kleiner als ein Schrankenwert ist
• Nachdem die Ausdehnung beendet wurde, wird das Alignment so
“zurückbeschnitten”, dass es die maximale Bewertung erhält
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 154 -
technische universität
dortmund
Sequenzalignments: BLAST
• PSI-BLAST (“Position-Specific Iterated BLAST”)
• Hier beispielhaft angegeben als eine wichtige von vielen
Erweiterungen von BLAST
• Entfernte Verwandtschaften lassen sich besser durch Motiv- oder
Profil-Suchen entdecken als durch paarweise Vergleiche
• PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch
• Das PSI-BLAST Programm verwendet die Information jedes
signifikanten Alignments um eine positionsspezifische
Substitionsmatrix zu konstruieren (PSSM), die an Stelle der
Eingabesequenz in der nächsten Runde der Datenbank-Suche
verwendet wird
• PSI-BLAST kann iterativ verwendet werden, bis keine neuen
signifikanten Alignments mehr gefunden werden
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 155 -
7. Expressionsdaten: Bildanalyse
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 156 -
technische universität
dortmund
Analyse eines Microarray-Experiments
1. Biologische Frage
2. Experimentelles Design
3. Microarray-Experiment
4. Bildanalyse
5. Normalisierung
6. Statistische Analyse
7. Biologische Verifikation
and Interpretation
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 157 -
technische universität
dortmund
Zwei-Farben Microarray-Experiment
• Aufbau des klassischen Zwei-Farben-Experiments
Kontrolle
Tumor
cDNA von Kontroll- und Tumorgewebe
Markieren (labeling) von Proben mit
grüner (532 nm) und roter (635 nm)
Farbe
Kompetitive Hybridisierung
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 158 -
technische universität
dortmund
Zwei-Farben Microarray-Experiment
Microarray Slide
Scannen des Bildes mit
konfokalem Scanner
Identifikation der Spots
Quantifizierung der roten
und grünen Intensität
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 159 -
technische universität
dortmund
Analyse eines Microarray-Experiments
1. Biologische Frage
2. Experimentelles Design
3. Microarray-Experiment
4. Bildanalyse
5. Normalisierung
6. Statistische Analyse
7. Biologische Verifikation
and Interpretation
• Addressierung:
• Finden der Bereiche im Bild die zu
einzelnen Spots gehören.
• Bereich von Spot und zugehörigem
Hintergrund heißt „target area“
(Zielbereich).
• Segmentierung:
• Aufteilen des Zielbereichs in
Vordergrund (fg) und Hintergrund
(bg).
• Reduktion:
• Extrahieren zweier skalarer Werte R
and G für rote und grüne Intensität.
• Berechnung eines Wertes R/G für
relative Abundanz.
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 160 -
technische universität
dortmund
Expressionsdaten: Bildanalyse
• Bildanalyse: Erster Schritt in dem
“multi-step process” der statistischen
Analyse von Array-HybridisierungsExperimenten
• Nach RNA-Gewinnung, farblicher
Markierung (labelling) und
Hybridisierung werden die
Microarrays mit einem Laserscanner
oder CCD Scanner gelesen
• Für cDNA-Arrays mit kompetitiver
Hybridisierung ist das Ergebnis ein
Paar von 16-bit TIFF Dateien
• Entsprechend dem Labelling wird
jeweils für rote und grüne Farbe
jedem Pixel in dem Bild ein Wert
zwischen 0 und 65535 zugeordnet
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
Wie geht man mit dieser
TIFF-Datei um?
07.05.2008
- 161 -
technische universität
dortmund
Zirkuläre Methoden
• Erste einfache Methoden, die in der Software zum
Scannen der Microarrays integriert waren
Addressierung:
Segmentierung:
Manuelles Alignment eines Gitters von
Kreisen
Fester Vordergrund- und
Hintergrundbereich
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 162 -
technische universität
dortmund
Bildanalyse: Probleme
• Variable Spotgröße
• Variabler Spot-Umriss (contour) (oft sichelförmig oder DonutForm)
• Verkratzte Spots, unterbrochene Umrisse
• Hohe Hintergrund-Signale aufgrund von Eigen-Fluoreszenz
des Objektträgers (meist aus Glas)
• Räumliche Effekte wie z.B. verschmierte Bereiche aufgrund
von Schmutz auf dem Objektträger oder falscher Behandlung
des Objektträgers
• Intensitätsgradienten über das gesamte Array, die durch den
Hybridisierungs-Prozess hervorgerufen werden
Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund
07.05.2008
- 163 -
Herunterladen