Genexpressionsanalyse Diplomarbeit 1. Referat Mohammad Esad-Djou Ziele Beschreibung der Probleme Überblicke: Biologischer Hintergrund Pre-Processing Stand der Forschung Zielsetzung der Diplomrbeit 04.11.2005 Genexpressionsanalyse 2 Gliederung Problemstellung Biologischer Hintergrund Biologische Datenbanken Pre-Processing Backgrund-Korrektion Normalisierung PM Korrektion Summarization/ Aggregation Stand der Forschung: GeWare Ziel der Diplomarbeit Zusammenfassung Literatur 04.11.2005 Genexpressionsanalyse 3 Einführung Genexpressionsanalyse Grosse Bedeutung in vielen Bereichen biomedizinischer Forschung Ausbildung der einem Gen inhärenten Eigenschaften GeneChip-Technologie: Hybridisierung von Nukleinsäurefragmenten an immobilisierten Probes Probe: 25mere Oligonukleotide 04.11.2005 Genexpressionsanalyse 4 Problemstellung: Messung und Analyse 04.11.2005 Genexpressionsanalyse 5 Problemstellung Messung der Genexpression: Suche nach Genen mit gleicher Expression bzw. differenzieller Expression Techniken: Northern Blotting, SAGE, Microarray,… Vorhandene Verfahren zur Messung und Analyse sind nicht zufridend! Optimierung vorhandener Verfahren, um präzise und effektive Genexpressionsanalyse möglich zu sein. 04.11.2005 Genexpressionsanalyse 6 Überblicke: Biologische Hintergrund Grundbegriffe: Gen, Protein, Nukleotide, Codon, DANN, RNA, Basenpaar… Entstehung der Proteine 04.11.2005 Replikation: Verdoppelung der DNA Transkription: umschreiben der DANN in RNA während der Genexpression Translation: Übersetzung der mRNA in Proteine. Synthese eines Proteins an einer mRNA während der Genexpression Genexpressionsanalyse 7 Überblicke: „Materielle Verarbeitung“ Weg des Experimentes von der Probenentnahme bis zum Scannen eines Chips Kombination der Photolithographie und kombinatorischen Chemie 04.11.2005 Genexpressionsanalyse 8 Überblicke: „Materielle Verarbeitung“ Entstehung der Proben, die an einem Silizium-Wafer festgelegt ist Proben: 25mere Oligonukleotide 04.11.2005 Genexpressionsanalyse 9 Überblicke: „Materielle Verarbeitung“ Fragmentierung der cRNA mit Hilfe von Metallsalzen und Hitze Hybridisierung: Doppelstrangbildung von komplementären einzelsträngigen DNAund/oder auch RNAMolekülen. Waschen, Färben, Scannen: letzte Schritte vor „Imageanalyse“ GeneChip Probe Array 04.11.2005 Genexpressionsanalyse 10 Überblicke: „Materielle Verarbeitung“ 04.11.2005 Genexpressionsanalyse 11 Überblicke: Datenanalyse Übergang von materielle Ebene zur PreProcessing Image Analyse: gespeicherte Informationen wird durch Computer analysiert und eine optimierte Image erstellt Grund: Probleme bei Vorbereitung in materielle Ebene, z.B. Räumliche Effekte, wie die geschmierten Fläche durch Staub auf den Dia usw. 04.11.2005 Genexpressionsanalyse 12 Überblicke: Biologische Datenbanken 04.11.2005 Genexpressionsanalyse 13 Überblicke: Biologische Datenbanken 04.11.2005 Genexpressionsanalyse 14 Pre-Processing: Backgrundkorrektion - MAS 4.0 Average Difference: PM – MM Betrachte alle Differenzen ohne Minimum und Maximum. Berechne das getrimmte Mittel y und Standardabweichung sy aus verbleibenden Differenzen. Eliminiere nun aus allen Differenzen die, die außerhalb von liegen. 04.11.2005 Genexpressionsanalyse 15 Pre-Processing: Backgrundkorrektion - MAS 5.0 Micro Array Suite: Standard Pre-Processings- verfahren in Affymetrix MAS 5.0: Verwendet beide PM und MM Proben Pre-Processing der Probe-Zelle-Intensitäten: Background Subtraction und Noise Correction. Justierung Tukey’s Biweight Estimator-Algorithmus Chip: k-dimentionale Array (Default = 16) Berechnung des Hintergrundes bk und Noise-Value nk Erhalten des probespezifischen Hintergrundes B(x,y) bzw. einer Noise-Value n(x,y) durch Berechnen einer bewerteten Summe alles bk und nk B(x,y) ist subtrahiert von der roh Intensität: Falls < n(x,y), dann ersetzte die Probe-Intensität durch n(x,y) 04.11.2005 Genexpressionsanalyse 16 MAS 5.0: Ideal Mismatch Problem: Falls physische Schätzung für BG möglich, sonst unmöglich Abschätzung IM: auf Basis unserer Kenntnis vom ganzen Probe-Mengen oder auf dem Benehmen von Untersuchungen im Allgemeinen Diese Schätzung kann auch auf dem durchschnittlichen Verhältnis zwischen PM und MM, oder (wenn dieses Maß selbst zu klein ist) ein Wert, leicht kleiner als PM basiert werden. Bestimmung des Hintergrundbruchvertreters: One-Step Biweight Algorithmus (Tbi) Biweight Specific Background (SB) für Probe-Paar j in ProbeMenge i: 04.11.2005 Genexpressionsanalyse 17 MAS 5.0: Ideal Mismatch Drei Fälle: 04.11.2005 Genexpressionsanalyse 18 MAS 5.0: Ideal Mismatch Probe-Wert und Signal Log Value Berechnung der idealen Abweichungswert: Probe-Wert: Schätzung der absoluten Expressionswert für Probe-Menge: Skalierte Probe-Wert: Wenn die Algorithmeneinrichten alle oder gewählte skalierte Probe-Mengen auf ein Ziel indizieren, wird ein gewicht Faktor (sf ) berechnet: 04.11.2005 Genexpressionsanalyse 19 MAS 5.0: Ideal Mismatch Der berichtete Wert der Probe-Menge i ist: Normalisierungsfaktor (nf): mit Scaled Probe Value: 04.11.2005 Genexpressionsanalyse 20 MAS 5.0: One-Step Tukey’s Biweight Algorithm eine Methode, um ein robustes Mittel unbeeinflusst von Outlier zu bestimmen. 04.11.2005 Bestimmung des Zentrum die Median der Daten Bestimmung des Abstandes von jedem Datenpunkt von der Median, um zu bestimmen, wie viel jeder Wert zum Mittel beitragen sollte Berechnung der Gewichte: korrigierten Werte können jetzt durch Verwenden der One-Step wschätzen berechnet werden: Genexpressionsanalyse 21 MAS 5.0: Nachteil - Verrechnung Hauptnachteil: Man kann gleichzeitig nur zwei Proben vergleichen! Dies kommt schnell aus Hand heraus (ausarten, ausufern), wenn man komplexe Versuche durchführt. Die Analyse basiert auf PM-MM Modell MAS 5.0 (Siehe Folie 17): log (PMij – CTij) = log (qi) + eij, j = 1, …, J CT: replaces MM when MM>PM (avoid log of neg. numb.) qi: expression quantity on array eij: error i: arrays j: probe pairs Problem: error does not have equal variance for j = 1, …, J >> larger mean intensities have larger variances! Signal wird mit Gewalt positiv gestellt. Der „Ideal Match“ ist Mismatch plus . Dadurch viele sehr kleine Signale. 04.11.2005 Genexpressionsanalyse 22 MAS 5.0: Consequences for Datanalyse 04.11.2005 Genexpressionsanalyse 23 MAS 5.0: Consequences for Datanalyse 04.11.2005 Genexpressionsanalyse 24 Fragen? Fragen? 04.11.2005 Genexpressionsanalyse 25