Mittwoch 3. Februar 2010 Systembiologie I Prof. Dr. Tim Beißbarth UMG Überblick – Funktionelle Analyse von Genlisten • Funktionenelle Analyse von Genlisten • Pathways und Pathwaydatenbanken • Ontologien – insbesondere „Gene Ontologies“ • Tests – zuordnen von funktionellen Gruppen zu Genlisten • Fischer‘s Exact Test • Chi-Square Test • Kolmogorov-Smirnov Test • Multiples Testen Tim Beißbarth Bioinformatik Microarray Technologie t ID Name -19.83AA495790 ras homolog gene family -16.83AA598794 connective tissue growth factor -15.22 AA488676 membrane attached signal protein 1 -14.2 AI014487 insulin-like growth factor binding protein 102 -13.62 R77252 microtubule-associated protein 7 -13.6 AA598601 insulin-like growth factor binding protein 31 -13.57 R09561 decay accelerating factor for complement (CD55) -13.38 AA875933 EGF-containing fibulin-like extracellular matrix protein -12.79AA777187 cysteine-rich, angiogenic inducer -12.63AA598601 insulin-like growth factor binding protein 3 -12.01AA055835 caveolin 1, caveolae protein, 22kD" -11.88 AA012944 insulin-like growth factor binding protein 102 -10.86 AA936757 heparin-binding growth factor binding protein -10.86 AA995282 four and a half LIM domains 2 -10.35AA677403 glycoprotein hormones, alpha polypeptide -9.88 AA430032 pituitary tumor-transforming 1 -9.32 AI935290 cysteine and glycine-rich protein 1 -9.18 AA936757 heparin-binding growth factor binding protein2 -9.06 AA424833 bone morphogenetic protein 6 -9.02 AI985398 natriuretic peptide receptor C -8.51AA630794 solute carrier family 3 -8.38 H29897 phospholipase C, beta 42 -8.22 W72207 cystatin A (stefin A) -7.99H45668 Kruppel-like factor 4 (gut) -7.95AA600217 activating transcription factor 4 -7.8 AA149095 dual specificity phosphatase 1 -7.68 W73874 cathepsin L -7.61R09561 decay accelerating factor for complement -7.53AW028846 trefoil factor 2 (spasmolytic protein 1) -7.16 N66177 microphthalmia-associated transcription factor -7.14H03346 protease, serine, 22 -7.06 AA169469 pyruvate dehydrogenase kinase, isoenzyme 4 -6.96 AI989348 protein disulfide isomerase-related protein -6.94H63077 annexin A1 -6.92 AA610004 Homo sapiens putative oncogene protein -6.84AA599145 ZW10 (Drosophila) homolog -6.78 AA521434 B-cell CLL/lymphoma 6 -6.77 AA400128 general transcription factor II -6.68 T53298 insulin-like growth factor binding protein 7 -6.67 T86983 complement component 1 -6.6 AA027240 eukaryotic translation initiation factor 2 -6.57 AA482117 Ras homolog enriched in brain 2 -6.55AA464849 thioredoxin reductase 1 -6.55AA400893 phosphodiesterase 1A, calmodulin-dependent -6.5R91550 arginine-rich, mutated in early stage tumors -6.45AA620433 dihydropyrimidinase-like 3 -6.45AA625628 accessory proteins BAP31/BAP29 Liste von differentiell exprimierten Genen Tim Beißbarth Bioinformatik Lange Listen von d.e. Genen biologisches Verständnis Was kommt als nächstes? • Einige Gene zum Validieren auswählen? • Folgeexperimente mit einigen Genen machen? • Eine große Tabelle mit Ergebnissen publizieren? • Versuchen über alle Gene in der Liste etwas zu lernen (Hunderte von Papern lesen)? • …. Was können wir noch tun? Tim Beißbarth Bioinformatik Regulatorische Netze. Tim Beißbarth Bioinformatik Visualisierung von Expressionsdaten in bekannten Pathways Tim Beißbarth Bioinformatik Bekannte Pathways • Einige Pathway Datenbanken • KEGG (http://www.genome.jp/kegg) • TRANSPATH (http://www.biobase.de) • Biocarta (http://www.biocarta.com) • Reactome (http://www.reactome.org) • HumanCyc (http://humancy.org) • Signal Transduktion Knowledge Environment (http://stke.sciencemag.org) • Software tools • GeneMAPP (www.genemapp.org) • GoMiner (http://discover.nci.nih.gov/gominer) • Ingenuity (http://www.ingenuity.com) • Bioconductor/Graphviz (http://www.bioconductor.org) • Cytoscape (http://www.cytoscape.org) Tim Beißbarth Bioinformatik Beispiel - Zuordnung von Funktionen zu Clustern Tim Beißbarth Bioinformatik Beispiel - Zuordnung von Funktionen zu Clustern Tim Beißbarth Bioinformatik Guilt by Association Gen 1 – Apoptose Pathway Gen 2 – Apoptose Pathway Gen 3 – Apoptose Pathway EST Gen 4 – Apoptose Pathway ... vermutlich auch Apoptose Pathway Tim Beißbarth Bioinformatik Gene Sets und Microarrays – Gene Set Enrichment Analysis • Vermutung: Listen von Genen die ich über Microarray Experimente ausgesucht haben sollten einen funktionellen Zusammenhang haben. • Problem: Finde eine funktionale Gruppe, welche im Zusammenhang mit meiner Liste an Genen steht. • Durchführung: Wähle Gruppen von Genen (Gene Sets) für welche die Funktion bekannt ist, z.B. Pathway, gleiche Funktion, zelluläre Lokalisation. • Teste: Gibt es funktionale Gruppen, welche in meiner Liste an Genen gehäuft auftreten. • Null-Hypothese: Die Auswahl meiner Gene ist zufällig und es kommen keine funktionellen Gruppen vor. Tim Beißbarth Bioinformatik Verschiedene Variationen Gene Sets zu definieren. • Gene Ontology: molecular function, biological process, cellular component. • Pathway • Chromosomale Lokalisation (i.e. Cluster von co- regulierten Genen). • vorkommen gleicher Transkriptionsfaktor Bindestellen (TFBS). • Etc. Tim Beißbarth Bioinformatik Ontologien • Unter einer Ontologie versteht man in der Informatik im Bereich der Wissensrepräsentation ein formal definiertes System von Begriffen und/oder Konzepten und Relationen zwischen diesen Begriffen. Zusätzlich enthalten Ontologien - zumindest implizit - Regeln. • Sprachen zur Beschreibung von Ontologien: RDF, DAML+OIL, F-Logic, Web Ontology Language (OWL), ... • Editoren: DAG-Edit, OilEd, OntoEdit, ... • Können als Directed Acyclic Graph (DAG) repräsentiert werden. • Konzepte: Untergliederung, Attribute, Relationen (is a, part of, ...) • Philosophisch: Kann man die gesamte Welt mit Ontologien beschreiben? Tim Beißbarth Bioinformatik Das Gene Ontology Consortium Ashburner et al. Nature Genetics 25: 25-29. http://www.geneontology.org • Directed Acyclic Graph (DAG) • Top Level • Molecular Function • Biological Process • Cellular Component • Annotationen: • Mouse: 16029 genes • Human: 26444 genes • Yeast: 6454 genes • Drosophila: 10374 • Etc. ... Tim Beißbarth Bioinformatik Annotation von Genen: Zuordnung der Gene zu Knoten von Gene Ontology. • Jeder Knoten von GO ist auch noch mit vielen anderen Knoten verbunden. • Die Struktur des GoGraphen wird vom Gene Ontology Consortium festgelegt. • Die Annotation von Genen wird von verschiedenen Gruppen gemacht. Tim Beißbarth Bioinformatik Gen Ontology und Microarrays P-value für jedes Gen von einem zwei-sample T-test samples GO:3 GO:1 gene GO:2 GO:4 Gewebe Tim Beißbarth Bioinformatik 1 2 Struktur von GO Annotationen Jedes Gen Kann mehrere unnotierte GOs haben und jeder GO Term hat mehrere Splits. Beispiel: DNA topoisomerase II alpha • 8 GO Annotationen • 11 Splits Tim Beißbarth Bioinformatik GOstat: Tool for finding significant GO terms in a list of genes http://gostat.wehi.edu.au Tim Beißbarth Bioinformatik Gene Sets und Microarrays – Gene Set Enrichment Analysis • Vermutung: Listen von Genen die ich über Microarray Experimente ausgesucht haben sollten einen funktionellen Zusammenhang haben. • Problem: Finde eine funktionale Gruppe, welche im Zusammenhang mit meiner Liste an Genen steht. • Durchführung: Wähle Gruppen von Genen (Gene Sets) für welche die Funktion bekannt ist, z.B. Pathway, gleiche Funktion, zelluläre Lokalisation. • Teste: Gibt es funktionale Gruppen, welche in meiner Liste an Genen gehäuft auftreten. • Null-Hypothese: Die Auswahl meiner Gene ist zufällig und es kommen keine funktionellen Gruppen vor. Tim Beißbarth Bioinformatik Statistischer Test ob ein Gene-Set überrepräsentiert auftritt. Kontingenztafel Anzahl Gene in Set und Liste nicht im Set 51 416 467 125 8588 8713 173 9004 9177 Anzahl Gene in Liste (z.B. differentiell exprimierte Gene) Tim Beißbarth Bioinformatik Referenzgruppe (Alle Gene auf dem Array) P-value 8e-52 Fisher's Exact Test oder Chi-Square Test Fisher‘s Exact Test (nach Sir Ronald Aylmer Fisher) • Test auf Kontingenztafeln: k S k S • Funktioniert durch Abzählen aller nk N nS k N S Möglichkeiten – daher „exakt“. n N n N • Es gibt „N über n“ viele Möglichkeiten, n Gene aus einer Liste von N Genen auszuwählen. • Es gibt „S über k“ viele Möglichkeiten, k mal einen Success (Gen ist in Gen Set) zu beobachten. • Es gibt „(N-S) über (n-k)“ Möglichkeiten den Rest der Liste aufzufüllen. Tim Beißbarth Bioinformatik n n! k k !(n k )! n Ck (n choose k ) Hypergeometrische Verteilung • Wahrscheinlichkeit ist definiert als „Anzahl der positiven Ereignisse“ geteilt durch die „Anzahl aller möglichen Ereignisse“. S N S k n k S !( N S )!n !( N n)! P( X k ) N !k !( S k )!(n k )!( N n S k )! N n • Verallgemeinert auf Tabelle aij mit Zeilensummen Ri und Spaltensummen Cj: ( R1 ! R2 ! Rm !)(C1 !C2 ! Cm !) P N ! i , j aij ! Tim Beißbarth Bioinformatik Fisher‘s Exact Test (Fortsetzung) • Die Hypergeometrische Verteilung gibt die Wahrscheinlichkeit, dass man genau k mal einen Erfolg beobachtet. • Um an die Signifikanz zu kommen muss man die Wahrscheinlichkeiten aller Ereignisse, die extremer als das beobachtete aufaddieren. • Fisher zeigt, daß man lediglich Kontingenztafeln mit gleichen Randsummen zu berücksichtigen braucht. • Fisher‘s Exact Test ist bei großen Zahlen extrem Rechenaufwendig. • Bei großen Zahlen (Randsummen>5) sind einige Vereinfachungen möglich: • Annähern der hypergeometrischen Verteilung durch Binomialverteilung. • Annähern durch Normalverteilung (Chi-Quadrat-Test). Tim Beißbarth Bioinformatik Verschiedene Methoden zum Scoren • Basierend auf einer vorher selektierten p-value GO: ? p-value p-value p-value Liste von Genen (z.B. differentiell exprimierte Gene): Fisher‘s Exact Test oder Chi-Square-Test siehe Beißbarth/Speed, „GOstat“, Bioinformatics, 2004 p-value p-value • Basierend auf Rängen (z.B. sortierte Liste mit allen Genen auf dem Microarray sortiert nach T-statistik für Signifikanz der differentiellen GenExpression). • Kolmogorov-Smirnov-Test siehe Mootha et al, Nature Genetics, 2003 Tim Beißbarth Bioinformatik Sind die Ränge, welche mit einem GO-Term assoziiert sind aus einer uniformen Verteilung gezogen, z.B. 1,5,7,10 wäre signifikant, im Gegensatz zu 1,100,1000,10000. Kolmogorov-Smirnov Test – PDF, CDF • Probability Density Function (PDF) • Cumulative Density Function (CDF) Tim Beißbarth Bioinformatik Zwei Sample Kolmogorov-Smirnov Test • Um zwei empirische CDFs SM(x) und SN(x) mit den Stichprobengrößen M und N miteinander zu vergleichen, benutzt der Kolmogorov-Smirnov Test die K-S Distanz DMN = maxx|SM(x) - SN(x)|. Diese wird durch multiplizieren mit (M-1 + N-1) normalisiert. Die K-S Distanz hat eine komplizierte NullVerteilung, welche durch Permutation abgeschätzt werden kann. Tim Beißbarth Bioinformatik Verschiedene Methoden zum Scoren p-value • Basierend auf einer vorher selektierten GO: ? p-value p-value p-value Liste von Genen (z.B. differentiell exprimierte Gene): Fisher‘s Exact Test oder Chi-Square-Test siehe Beißbarth/Speed, „GOstat“, Bioinformatics, 2004 p-value p-value • Basierend auf Rängen (z.B. sortierte Liste mit allen Genen auf dem Microarray sortiert nach T-statistik für signifikanz der differentiellen GenExpression). Sind die Ränge, welche mit einem GO-Term assoziiert sind aus einer uniformen Verteilung gezogen, z.B. 1,5,7,10 oder 5001,5002,5003,5004 wäre signifikant, im Gegensatz zu 1,100,1000,10000. • Kolmogorov-Smirnov-Test siehe Mootha et al, Nature Genetics, 2003 • Wilcoxon-Test Tim Beißbarth Bioinformatik 1,5,7,10 für GO vs. 1-10000 alle Ränge auf dem Array Das Problem mit vielen Tests • Die gleiche Teststatistik wird auf viele hunderte oder tausende von Tests angewendet. Wie oft erwarte ich, dass ich zufällig signifikante Testergebnisse bekomme? • Verschiedene Methoden um für multiples Testen zu korrigieren: Bonferroni: p-value × Anzahl der Tests Holm: Bonferroni verbessert Benjamini-Hochberg: False Discovery Rate Benjamini-Yekutieli: False Discovery Rate (mit Abhängigkeiten) Tim Beißbarth Bioinformatik Multiples Testen (Fortsetzung) Wir testen m Hypothesen H1, H2, , Hm . m0 = # wahre Hypothesen R = # abgelehnte Hypothesen # wahre # falsche null Hypo. null Hypo. # angenommen U T m-R # abgelehnt V S R m0 m-m0 V = # Typ I Fehler [falsch Positive] T = # Typ II Fehler [falsch Negative] Tim Beißbarth Bioinformatik Typ I Fehlerraten • Ein p-value oder beobachteter Signifikanzlevel ist die Chance bei wahrer Null-Hypothese eine Teststatistik zu beobachten, welche mindestens genauso extrem ist wie die beobachtete Teststatistik. 1. Family-Wise Error Rate (FWER): FWER ist definiert als die Wahrscheinlichkeit von mindestens einem Typ I Fehler (falsch positiven). FWER Pr(V 0) 2. False Discovery Rate (FDR): FDR ist definiert als die erwartete Rate von Typ I Fehlern unter den abgelehnten Hypothesen: FDR E (Q) mit V R wenn R 0 Q wenn R 0 0 Tim Beißbarth Bioinformatik Korrektur für multiples Testen - Kontrolle der Typ l Fehlerrate • • Ziel: Für eine vorgegebene Typ l Fehlerrate , korrigiere die p-values pp* so, daß bei Auswahl von p* eine Typ I Fehlerrate garantiert ist. Verschiedene Methoden: • unterschiedlich mächtig • Kontrolliert FWER oder FDR • verschiedene Grundannahmen: z.B. alle Hypothesen sind wahr (schwache Kontrolle), es gibt wahre und/oder falsche Hypothesen (starke Kontrolle). • Berücksichtigung von Korrelationsstruktur zwischen den Tests, i.e. Tests sind nicht unabhängig. Beispiel: 1. 1000 den gleichen Test gemacht, p1=p2=…=p1000, Keine Korrektur nötig. 2. wenn Test 1 positiv ist wird 2 signifikanter stärkere Korrektur nötig. Tim Beißbarth Bioinformatik Bonferroni p min(mp,1) * • Beweis (Bonferroni kontrolliert FWER): m=Anzahl der Tests, pt=p-value von test t, pt*=korrigierter p-value FWER Pr(V 0) Pr(mindestens ein p* ) Pr(mindestens ein p m) m Pr( p m) t 1 m Tim Beißbarth Bioinformatik m Holm (Step down Prozedur) • Abgeänderte Variante der Bonferroni Korrektur. Der kleinste p-value wird nach wie vor mit der Anzahl der Tests m multipliziert. Der nächst größere pvalue muß nur noch mit m-1 multipliziert werden, usw.. • Sortierte p-values: pr1 pr2 prm • Step-down Prozedur: pr*j max min m k 1 prk ,1 k 1 j • Kontrolliert FWER • mächtiger als Bonferroni Tim Beißbarth Bioinformatik Kontrolle der FDR (Benjamini/Hochberg) • Die FWER ist ein sehr konservatives Kriterium. • Kontrolliere die FDR = E(V/R) • Analog zu Holm • Step-up Prozedur: m p min min prk ,1 k j m j * rj • Die Benjamini/Hochberg Methode nimmt unabhängige Tests an. Tim Beißbarth Bioinformatik Literatur zu multiplen Testen • Y. Benjamini and Y. Hochberg (1995). Controlling the false discovery rate: a • • • • • practical and powerful approach to multiple testing. Journal of the Royal Statistical Society B, Vol. 57, 289–300. S. Dudoit, J.P. Shaffer, J.C. Boldrick (2003). Multiple hypothesis testing in microarray experiments. Statistical Science, Vol. 18, 71–103. J.D. Storey and R. Tibshirani (2003). SAM thresholding and false discovery rates for detecting differential gene expression in DNA microarrays. In: The analysis of gene expression data: methods and software. Edited by G. Parmigiani, E.S. Garrett, R.A. Irizarry, S.L. Zeger, Springer, New York. V.G. Tusher et al. (2001). Significance analysis of microarrays applied to the ionizing radiation response. PNAS, Vol. 98, 5116–5121. P.H. Westfall and S.S. Young (1993). Resampling–based multiple testing: examples and methods for p-value adjustment. Wiley. Bonferroni 1936, Tukey 1949, etc. Tim Beißbarth Bioinformatik Funktionale GO Cluster als Graph Tim Beißbarth Bioinformatik TopGO • • • • • TopGO is a GO term analysis program available from Bioconductor It takes the GO hierarchy into account when scoring terms If a parent term is only significant because of child term, it will receive a lower score TopGO uses the Fisher-test or the KS-test (both competitive) TopGO also gives a graphical representation of the results in form of a tree Tim Beißbarth Bioinformatik Tree showing the 15 most significant GO terms Tim Beißbarth Bioinformatik Zooming in Tim Beißbarth Bioinformatik Acknowledgements – Slides geborgt von • Anja von Heydebreck • Terry Speed • Benedikt Brors • Stefan Bentink Tim Beißbarth Bioinformatik