Kapitel 4 (Forts.) Genexpression Genexpression ■ Was ist Genexpression? − Aktivierung der Gentranskription durch endogene, exogene Einflüsse • Genexpressionsexperimente – Verfahren – Anwendungsgebiete – Systematische Probleme, Normalisierung − Ausbildung der einem Gen inhärenten Eigenschaften ■ − Charakterisierung der Funktion von Genen, deren Interdependenzen, Interaktionen und Einfluss in verschiedenen Netzwerken (metabolische N., regulatorische N. etc.) • Analyse von Genexpressionsdaten – Differentielle Expression – Clustering zur Ko-Expression ■ • Datenmanagment – Übersicht zu bestehenden Genexpressions-DBs – Datenarten, Datenmodelle Ziele der Genexpressionsanalyse Messung der Genexpression ■ Ziele: − Messung der RNA Konzentration in Zellen unter verschiedenen Bedingungen (gesundes vs. krankes Gewebe) − Suche nach Genen mit gleicher Expression (Koexpression) bzw. differenzieller Expression ■ Techniken: Northern Blotting, SAGE, Microarray ... © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm 68 (C) Prof. E. Rahm, Dr. R. Müller Microarrays ■ Affymetrix GeneChip Technologie ■ verschiedene Chiptypen cDNA Arrays, Oligo Arrays − Abbildung unterschiedlicher Spezies, Transkriptteile − Chiptechnologie (Wafer) ■ Terminologie − ’single stranded’ Sequenzen 1 − Unterscheidung nach Sequenzart, Sequenzlänge 25 A C T A G T C T A G G G T A C C T A G C T G C T A 1 ■ Hersteller: Affymetrix, Agilent, Rosetta Inpharmics etc. ■ einfarbige vs. zweifarbige Arrays A C T A G T C T A G G G A A C C T A G C T G C T A probe probe set probe pair MM komplementäre Mittelbase ■ Hybridisierungsprozess (stark vereinfacht) „Roh“-Chip Bindungsprozess Verteilung von Untersuchungsgewebe + Kontrolle auf einem oder mehreren Chips Bildquelle: Affymetrix, http://www.affymetrix.com (C) Prof. E. Rahm, Dr. R. Müller PM 25 69 (C) Prof. E. Rahm, Dr. R. Müller 70 „hybridisierter“ Chip Expressionsexperiment und -analyse (1) Cell Selection sample Zweifarbaufnahmen spot intensities for experiment series mRNA (2) RNA/DNA Preparation (6) Preprocessing labeling (3) Hybridization gene expression matrix chip x y (4) Array Scan array image (7) Expression Analysis/ Data mining x y (5) Image Analysis ■ array spot intensities Analyse ist abhängig vom verfolgten Ziel bzw. der Fragestellung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm 71 (C) Prof. E. Rahm, Dr. R. Müller Ergebnis © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Anwendungsgebiete © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Diagnostik © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Systematische Probleme 2 © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Systematische Probleme © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Normalisierung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Normalisierung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Analyse von Genexpressionsdaten Vergleich Genexpression - Sequenzierung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Differentielle Exprimierung • Differentielle Expression • Rohdaten – Expressionsintensitäten einzelner Gene – Experimentreihen: Sample 1(Kontrolle), Sample 2 (Krank) © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Simple Fold Probleme des Simple Fold • Vergleicht nur die Mittelwerte • Unabhängig von absoluten Größen und Fehlerraten • Unabhängig von Streuung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Statistischer Test: t-Test © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Anwendung des t-Tests © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Beispiel Differentielle Exprimierung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Ko-Regulation Hierarchische Clusterverfahren • Bisher: Erkennen des auffälligen Verhaltens eines Gens • Jetzt: Erkennen, welche Gene gemeinsam auf einen Stimulus reag. •Ziel – Konstruktion einer Hierarchie von Clustern (Dendrogramm), so daß immer die Cluster mit minimaler Distanz verschmolzen werden •Dendrogramm – ein Baum, dessen Knoten jeweils ein Cluster repräsentieren, mit folgenden – Eigenschaften: • die Wurzel repräsentiert alle Gene • die Blätter repräsentieren einzelne Gene ∑ (s n – Pearson’s Korrelations Koeffizient r= i =1 ∑ (s n i =1 © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm xi xi )( − s x s yi − s y − sx ) ∑ (s 2 n i =1 yi ) − sy • ein innerer Knoten repräsentiert die Vereinigung aller Gene, die im darunterliegenden Teilbaum repräsentiert werden ) 2 © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Hierarchische Clusterverfahren Hierarchische Clusterverfahren •Beispiel eines Dendrogramms Agglomeratives hierarchisches Clustering (bottom up) 1. Bilde initiale Cluster, die jeweils aus einem Gen bestehen, und bestimme die Distanzen zwischen allen Paaren dieser Cluster. 2 7 5 1 1 8 9 1 2 4 6 3 5 1 Distanz zwischen den Clustern 3. Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Clustern. 0 5 1 2 3 4 •Typen von hierarchischen Verfahren 5 6 7 8 2. Bilde einen neuen Cluster aus den zwei Clustern, welche die geringste Distanz zueinander haben. 9 4. Wenn alle Gene sich in einem einzigen Cluster befinden: Fertig, andernfalls wiederhole ab Schritt 2. • Bottom-Up Konstruktion des Dendrogramms (agglomerative) • Top-Down Konstruktion des Dendrogramms (divisive) © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Reale Daten Hierarchische Clusterverfahren •Generische Distanzfunktionen für Cluster • Sei eine Distanzfunktion dist(x,y) für Paare von Genen • Seien X, Y Cluster, d.h. Mengen von Objekten. • Centroid-Link centroidLinkDist( X , Y ) = dist( x, y ), x = 1 X • Single-Link singleLinkDist( X , Y ) = min dist ( x, y ) • Complete-Link completeLinkDist( X , Y ) = max dist( x, y ) • Average-Link averageLinkDist( X , Y ) = ∑ x, x∈X y= 1 Y ∑y y∈Y x∈X , y∈Y x∈X , y∈Y © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm 1 ⋅ ∑ dist ( x, y ) | X | ⋅ | Y | x∈X , y∈Y © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Komplexität und Bewertung Fuzzy k-Means [GE02] • Idee – Model für K überlappende Clusters, Zuordnung der Gene durch member-scores – Ein Gen kann in mehreren Clustern Mitglied sein • Minimiere Zielfunktion: – – – – © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Fuzzy k Means • • © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Fuzzy k Means Beispiel Heuristik um einen guten Wert für k zu bestimmen Drei Zyklen 1. 2. 3. • Xi … Expressionsmuster des i-ten Gens Vj … Repräsentant von Cluster j dXiVj … Pearson Korrelation (zw. -1 und 1) mXiVj … Membership-Score von Xi in Cluster j Init. Zentroide auf Eigenvektoren, bestimme Membership und verschiebe Zentroide zum gewichteten Durchschnitt bis das Verfahren konvergiert Fasse ähnliche Zentroide zusammen (Pearson corr. >0.9), entferne Gene mit Pearson Korr. >0.7, füge neue Zentroide hinzu Wiederhole Schritt 2 Abschluß: bestimme Mitgliedschaft der Gene zu den gefundenen Clustern © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Beispiele bestehender GE-Datenbanken Zusammenfassung Name • Datenanalyse – Differentielle Expression: Signifikanz von Änderungen • Simple Fold • T-Test RDBMS Sybase ExpressDB Havard University, USA http://arep.med.havard.edu/ExpressDB RDBMS Sybase GeneX National Centre for Genome Resources (NCGR), USA http://genebox.ncgr.org/genex RDBMS Sybase GIMS University of Manchester, GB http://www.cs.man.ac.uk/~norm/gims ODBMS Poet M-CHIPS German Cancer Research Centre, Germany http://www.mchips.de RDBMS PostGreSQL RAD2 University of Pennsylvania, USA http://www.cbil.upenn.edu/RAD2 RDBMS Oracle SMD Stanford University, USA http://genome-www4.stanford.edu/MicroArray/SMD RDBMS Oracle YMD Yale University, USA http://info.med.yale.edu/microarray RDBMS Oracle • Viele Methoden und Implementierungen (Exel, R, ...) © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm (C) Prof. E. Rahm, Dr. R. Müller Datenarten forderungen erfordern differenzierte Sichtweise Quelle Datentyp ■ Dokumentation des experimentellen Prozesses ■ vielfach Freitext, keine Benutzung abgestimmter bzw. standardisierter Vokabulare Charakteristik Nutzung Bilddaten Experiment, Scanvorgang binär große Dateien (>20MB) Generierung von Expressionsdaten Expressionsdaten Bildanalyse ASCII, Zahlenformat schnell wachsende Menge statistische Analyse (Clustering), Visualisierung und Annotationsdaten Experiment & Sampleannotation Benutzereingabe Text manuelle Eingabe, oft Textfelder Genannotation externe, öffentliche Quellen Integration in GEAnalyse, notwendig zur Interpretation der Analyseergebnisse regelmäßge Aktualisierungen in den Datenquellen ■ "Minimal Information About Microarray Experiment" - MIAME Standard Bildquelle: MGED − Umfang für spezielle Domains nicht ausreichend J MIAME/Tox (Toxicogenomics) u.a. ■ vielfach keine Speicherung der Bilddaten ■ Management von Daten mehrerer Genexpressionstechniken (C) Prof. E. Rahm, Dr. R. Müller 72 Experimentannotationen ■ Verschiedene Arten von Genexpressionsdaten mit unterschiedlicher Charakteristik und An- Datenart DBMS National Human Genome Research Institute (NHGRI), USA http://genome.nggri.nih.gov/arraydb – Ko-Regulation von Genen: Gemeinsame Aufgaben • Hierarchisches Clustering • K-Means • Bi-Clustering ... Organisation / Institut ArrayDB 74 − Datenaustausch per MAGE-ML (MAGE-OM) − "Microarray Gene Expression Data" (MGED) Society J http://www.mged.org (C) Prof. E. Rahm, Dr. R. Müller 75 Prozesse © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm MAGE © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm MIAME Mage Workflow © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Mage Workflow (2) © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Eigenschaften © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm MAGE Objektmodell © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Bewertung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm Mechanismen zur Datenintegration ■ GeneX Virtuelle Integration: Web Links und föderierte DBS Images Arrays − weit verbreitete Navigation per Link − Beispiel einer URL: http://www.ncbi.nlm.nih.gov/UniGene/clust.cgi?ORG=Hs&CID=75212 ■ Föderierte Datenbanksysteme − Schema Intergation (globales Schema generiert aus lokalen Schemas) − On-the-Fly Datenintegration: Transformation, Bereinigung, Herstellen der Relation (Join) − kaum Anwendung, aber spezifische Tools wie Discovery Link (IBM) Materialisierte Integration (Data Warehouse) − Stanford Microarray Database (SMD), sonst kaum Anwendung Hybride Ansätze − Kombination von materialiserter und föderierter Integration weiterführende Information: siehe Kapitel Datenintegration − speziefische Systeme: SRS (Lion BioScience), BioMax 77 (C) Prof. E. Rahm, Dr. R. Müller Zusammenfassung © Dr. A. Hinneburg, Prof. R. Müller, Prof. E. Rahm RAD2 SMD Experiment Ann. nein cDNA, Oligo, SAGE nein cDNA, Oligo, SAGE Geschlecht, Alter, Gewebe, Sehr umfassendes Stadium, ..., Hardware and Annotationsschema Softwareparameter Vokabulare lokale Vokabulare Web Link SGD, MGD, dbEST, GenBank GenBank, KEGG, SwissProt nein cDNA, Oligo, SAGE Dateisystem cDNA Geschlecht, Alter, Krankh., Geschlecht, Alter, Status, ... Stadium, ..., RNA Amplifikation, Labeling Protokoll, Scanparameter Standardvokabulare lokale Vokabulare lokale Vokabulare Integrationsform GenBank, AllGenes, KEGG dbEST, GeneMap, LocusLink, SwissProt, föderiert Materialisiert nein GO functions Auto. Update - nein nein nein - GO Funktionen (SGD), Gennamen (WormPD), UniGene ja nein XCluster (Web) nein Datenbank API Hier., K-means, SOM, SVD nein nein - zoombare Punktgraphiken, interaktive Clusterbilder Datenanalyse − lokale/zentralisierte Speicherung aller Expressionsdaten und notwendigen (!) Annotationsdaten ■ M-CHIPS Datenarten ■ Web Links auf Basis spezifischer Identifikatoren ■ Systemvergleich Software Tools RClust, Eisen, CyberT (Web) Integration Datenbank API Data Mining Hier., K-means, PCA Statistik Visualisierung proprietär Datenbank API Korrespondenzanalyse, Hier. Clustering nein T-Tests, Bonferonni Korrektur, … interaktive Dendrogramme, Korrespondenzanalyse Clusterbäume Biplot Quelle: Do, Kirsten, Rahm, Proc. 10th BTW. 2003 (C) Prof. E. Rahm, Dr. R. Müller 80