Document

Werbung
Genexpressionsanalyse
Diplomarbeit
1. Referat
Mohammad Esad-Djou
Ziele





Beschreibung der Probleme
Überblicke: Biologischer Hintergrund
Pre-Processing
Stand der Forschung
Zielsetzung der Diplomrbeit
04.11.2005
Genexpressionsanalyse
2
Gliederung




Problemstellung
Biologischer Hintergrund
Biologische Datenbanken
Pre-Processing




Backgrund-Korrektion
Normalisierung
PM Korrektion
Summarization/ Aggregation

Stand der Forschung: GeWare
Ziel der Diplomarbeit

Zusammenfassung

Literatur

04.11.2005
Genexpressionsanalyse
3
Einführung

Genexpressionsanalyse




Grosse Bedeutung in vielen Bereichen
biomedizinischer Forschung
Ausbildung der einem Gen inhärenten
Eigenschaften
GeneChip-Technologie: Hybridisierung von
Nukleinsäurefragmenten an immobilisierten
Probes
Probe: 25mere Oligonukleotide
04.11.2005
Genexpressionsanalyse
4
Problemstellung:
Messung und Analyse
04.11.2005
Genexpressionsanalyse
5
Problemstellung




Messung der Genexpression: Suche nach
Genen mit gleicher Expression bzw.
differenzieller Expression
Techniken: Northern Blotting, SAGE,
Microarray,…
Vorhandene Verfahren zur Messung und
Analyse sind nicht zufridend!
Optimierung vorhandener Verfahren, um
präzise und effektive Genexpressionsanalyse
möglich zu sein.
04.11.2005
Genexpressionsanalyse
6
Überblicke:
Biologische Hintergrund


Grundbegriffe: Gen, Protein,
Nukleotide, Codon, DANN,
RNA, Basenpaar…
Entstehung der Proteine



04.11.2005
Replikation: Verdoppelung
der DNA
Transkription: umschreiben
der DANN in RNA während
der Genexpression
Translation: Übersetzung
der mRNA in Proteine.
Synthese eines Proteins an
einer mRNA während der
Genexpression
Genexpressionsanalyse
7
Überblicke:
„Materielle Verarbeitung“


Weg des Experimentes von der
Probenentnahme bis zum Scannen eines
Chips
Kombination der Photolithographie und
kombinatorischen Chemie
04.11.2005
Genexpressionsanalyse
8
Überblicke:
„Materielle Verarbeitung“


Entstehung der Proben, die an einem
Silizium-Wafer festgelegt ist
Proben: 25mere Oligonukleotide
04.11.2005
Genexpressionsanalyse
9
Überblicke:
„Materielle Verarbeitung“



Fragmentierung der cRNA
mit Hilfe von Metallsalzen
und Hitze
Hybridisierung:
Doppelstrangbildung von
komplementären
einzelsträngigen DNAund/oder auch RNAMolekülen.
Waschen, Färben, Scannen:
letzte Schritte vor
„Imageanalyse“
GeneChip Probe Array
04.11.2005
Genexpressionsanalyse
10
Überblicke:
„Materielle Verarbeitung“
04.11.2005
Genexpressionsanalyse
11
Überblicke:
Datenanalyse



Übergang von materielle Ebene zur PreProcessing
Image Analyse: gespeicherte Informationen
wird durch Computer analysiert und eine
optimierte Image erstellt
Grund: Probleme bei Vorbereitung in
materielle Ebene, z.B. Räumliche Effekte, wie
die geschmierten Fläche durch Staub auf den
Dia usw.
04.11.2005
Genexpressionsanalyse
12
Überblicke:
Biologische Datenbanken
04.11.2005
Genexpressionsanalyse
13
Überblicke:
Biologische Datenbanken
04.11.2005
Genexpressionsanalyse
14
Pre-Processing:
Backgrundkorrektion - MAS 4.0




Average Difference: PM – MM
Betrachte alle Differenzen ohne Minimum
und Maximum.
Berechne das getrimmte Mittel y und
Standardabweichung sy aus verbleibenden
Differenzen.
Eliminiere nun aus allen Differenzen die, die
außerhalb von
liegen.
04.11.2005
Genexpressionsanalyse
15
Pre-Processing:
Backgrundkorrektion - MAS 5.0


Micro Array Suite: Standard Pre-Processings- verfahren in
Affymetrix
MAS 5.0: Verwendet beide PM und MM Proben







Pre-Processing der Probe-Zelle-Intensitäten: Background
Subtraction und Noise Correction.
Justierung
Tukey’s Biweight Estimator-Algorithmus
Chip: k-dimentionale Array (Default = 16)
Berechnung des Hintergrundes bk und Noise-Value nk
Erhalten des probespezifischen Hintergrundes B(x,y) bzw. einer
Noise-Value n(x,y) durch Berechnen einer bewerteten Summe
alles bk und nk
B(x,y) ist subtrahiert von der roh Intensität: Falls < n(x,y), dann
ersetzte die Probe-Intensität durch n(x,y)
04.11.2005
Genexpressionsanalyse
16
MAS 5.0: Ideal Mismatch





Problem: Falls
physische Schätzung für BG
möglich, sonst unmöglich
Abschätzung IM: auf Basis unserer Kenntnis vom ganzen
Probe-Mengen oder auf dem Benehmen von
Untersuchungen im Allgemeinen
Diese Schätzung kann auch auf dem durchschnittlichen
Verhältnis zwischen PM und MM, oder (wenn dieses Maß
selbst zu klein ist) ein Wert, leicht kleiner als PM basiert
werden.
Bestimmung des Hintergrundbruchvertreters: One-Step
Biweight Algorithmus (Tbi)
Biweight Specific Background (SB) für Probe-Paar j in ProbeMenge i:
04.11.2005
Genexpressionsanalyse
17
MAS 5.0: Ideal Mismatch

Drei Fälle:
04.11.2005
Genexpressionsanalyse
18
MAS 5.0: Ideal Mismatch





Probe-Wert und Signal Log Value
Berechnung der idealen Abweichungswert:
Probe-Wert:
Schätzung der absoluten Expressionswert für
Probe-Menge:
Skalierte Probe-Wert: Wenn die Algorithmeneinrichten
alle oder gewählte skalierte Probe-Mengen auf ein Ziel
indizieren, wird ein gewicht Faktor (sf ) berechnet:
04.11.2005
Genexpressionsanalyse
19
MAS 5.0: Ideal Mismatch

Der berichtete Wert der Probe-Menge i ist:

Normalisierungsfaktor (nf):
mit Scaled Probe Value:
04.11.2005
Genexpressionsanalyse
20
MAS 5.0:
One-Step Tukey’s Biweight Algorithm

eine Methode, um ein robustes Mittel unbeeinflusst von Outlier zu
bestimmen.




04.11.2005
Bestimmung des Zentrum die Median der Daten
Bestimmung des Abstandes von jedem Datenpunkt von der Median,
um zu bestimmen, wie viel jeder Wert zum Mittel beitragen sollte
Berechnung der Gewichte:
korrigierten Werte können jetzt durch Verwenden der One-Step wschätzen berechnet werden:
Genexpressionsanalyse
21
MAS 5.0: Nachteil - Verrechnung













Hauptnachteil: Man kann gleichzeitig nur zwei Proben vergleichen! Dies kommt
schnell aus Hand heraus (ausarten, ausufern), wenn man komplexe Versuche
durchführt.
Die Analyse basiert auf PM-MM
Modell MAS 5.0 (Siehe Folie 17):
log (PMij – CTij) = log (qi) + eij, j = 1, …, J
CT: replaces MM when MM>PM (avoid log of neg. numb.)
qi: expression quantity on array
eij: error
i: arrays
j: probe pairs
Problem: error does not have equal variance for j = 1, …, J
>> larger mean intensities have larger variances!
Signal wird mit Gewalt positiv gestellt. Der „Ideal Match“ ist Mismatch plus .
Dadurch viele sehr kleine Signale.
04.11.2005
Genexpressionsanalyse
22
MAS 5.0: Consequences for Datanalyse
04.11.2005
Genexpressionsanalyse
23
MAS 5.0: Consequences for Datanalyse
04.11.2005
Genexpressionsanalyse
24
Fragen?
Fragen?
04.11.2005
Genexpressionsanalyse
25
Herunterladen