Document

Werbung
Mittwoch
3. Februar 2010
Systembiologie I
Prof. Dr. Tim Beißbarth
UMG
Überblick – Funktionelle Analyse von Genlisten
• Funktionenelle Analyse von Genlisten
• Pathways und Pathwaydatenbanken
• Ontologien – insbesondere „Gene Ontologies“
• Tests – zuordnen von funktionellen Gruppen zu Genlisten
• Fischer‘s Exact Test
• Chi-Square Test
• Kolmogorov-Smirnov Test
• Multiples Testen
Tim Beißbarth
Bioinformatik
Microarray Technologie
t ID
Name
-19.83AA495790 ras homolog gene family
-16.83AA598794 connective tissue growth factor
-15.22 AA488676 membrane attached signal protein 1
-14.2 AI014487 insulin-like growth factor binding protein 102
-13.62 R77252 microtubule-associated protein 7
-13.6 AA598601 insulin-like growth factor binding protein 31
-13.57 R09561 decay accelerating factor for complement (CD55)
-13.38 AA875933 EGF-containing fibulin-like extracellular matrix protein
-12.79AA777187 cysteine-rich, angiogenic inducer
-12.63AA598601 insulin-like growth factor binding protein 3
-12.01AA055835 caveolin 1, caveolae protein, 22kD"
-11.88 AA012944 insulin-like growth factor binding protein 102
-10.86 AA936757 heparin-binding growth factor binding protein
-10.86 AA995282 four and a half LIM domains 2
-10.35AA677403 glycoprotein hormones, alpha polypeptide
-9.88 AA430032 pituitary tumor-transforming 1
-9.32 AI935290 cysteine and glycine-rich protein 1
-9.18 AA936757 heparin-binding growth factor binding protein2
-9.06 AA424833 bone morphogenetic protein 6
-9.02 AI985398 natriuretic peptide receptor C
-8.51AA630794 solute carrier family 3
-8.38 H29897 phospholipase C, beta 42
-8.22 W72207 cystatin A (stefin A)
-7.99H45668 Kruppel-like factor 4 (gut)
-7.95AA600217 activating transcription factor 4
-7.8 AA149095 dual specificity phosphatase 1
-7.68 W73874 cathepsin L
-7.61R09561 decay accelerating factor for complement
-7.53AW028846 trefoil factor 2 (spasmolytic protein 1)
-7.16 N66177 microphthalmia-associated transcription factor
-7.14H03346 protease, serine, 22
-7.06 AA169469 pyruvate dehydrogenase kinase, isoenzyme 4
-6.96 AI989348 protein disulfide isomerase-related protein
-6.94H63077 annexin A1
-6.92 AA610004 Homo sapiens putative oncogene protein
-6.84AA599145 ZW10 (Drosophila) homolog
-6.78 AA521434 B-cell CLL/lymphoma 6
-6.77 AA400128 general transcription factor II
-6.68 T53298 insulin-like growth factor binding protein 7
-6.67 T86983 complement component 1
-6.6 AA027240 eukaryotic translation initiation factor 2
-6.57 AA482117 Ras homolog enriched in brain 2
-6.55AA464849 thioredoxin reductase 1
-6.55AA400893 phosphodiesterase 1A, calmodulin-dependent
-6.5R91550 arginine-rich, mutated in early stage tumors
-6.45AA620433 dihydropyrimidinase-like 3
-6.45AA625628 accessory proteins BAP31/BAP29
Liste von
differentiell
exprimierten
Genen
Tim Beißbarth
Bioinformatik
Lange Listen von d.e. Genen
 biologisches Verständnis
Was kommt als nächstes?
• Einige Gene zum Validieren auswählen?
• Folgeexperimente mit einigen Genen machen?
• Eine große Tabelle mit Ergebnissen publizieren?
• Versuchen über alle Gene in der Liste etwas zu lernen (Hunderte von
Papern lesen)?
• ….
Was können wir noch tun?
Tim Beißbarth
Bioinformatik
Regulatorische Netze.
Tim Beißbarth
Bioinformatik
Visualisierung von Expressionsdaten in bekannten Pathways
Tim Beißbarth
Bioinformatik
Bekannte Pathways
• Einige Pathway Datenbanken
• KEGG (http://www.genome.jp/kegg)
• TRANSPATH (http://www.biobase.de)
• Biocarta (http://www.biocarta.com)
• Reactome (http://www.reactome.org)
• HumanCyc (http://humancy.org)
• Signal Transduktion Knowledge Environment
(http://stke.sciencemag.org)
• Software tools
• GeneMAPP (www.genemapp.org)
• GoMiner (http://discover.nci.nih.gov/gominer)
• Ingenuity (http://www.ingenuity.com)
• Bioconductor/Graphviz (http://www.bioconductor.org)
• Cytoscape (http://www.cytoscape.org)
Tim Beißbarth
Bioinformatik
Beispiel - Zuordnung von Funktionen zu Clustern
Tim Beißbarth
Bioinformatik
Beispiel - Zuordnung von Funktionen zu Clustern
Tim Beißbarth
Bioinformatik
Guilt by Association
Gen 1 – Apoptose Pathway
Gen 2 – Apoptose Pathway
Gen 3 – Apoptose Pathway
EST
Gen 4 – Apoptose Pathway
...
vermutlich auch
Apoptose Pathway
Tim Beißbarth
Bioinformatik
Gene Sets und Microarrays – Gene Set Enrichment Analysis
• Vermutung: Listen von Genen die ich über Microarray Experimente
ausgesucht haben sollten einen funktionellen Zusammenhang
haben.
• Problem: Finde eine funktionale Gruppe, welche im Zusammenhang
mit meiner Liste an Genen steht.
• Durchführung: Wähle Gruppen von Genen (Gene Sets) für welche
die Funktion bekannt ist, z.B. Pathway, gleiche Funktion, zelluläre
Lokalisation.
• Teste: Gibt es funktionale Gruppen, welche in meiner Liste an Genen
gehäuft auftreten.
• Null-Hypothese: Die Auswahl meiner Gene ist zufällig und es
kommen keine funktionellen Gruppen vor.
Tim Beißbarth
Bioinformatik
Verschiedene Variationen Gene Sets zu definieren.
• Gene Ontology: molecular function, biological process,
cellular component.
• Pathway
• Chromosomale Lokalisation (i.e. Cluster von co-
regulierten Genen).
• vorkommen gleicher Transkriptionsfaktor Bindestellen
(TFBS).
• Etc.
Tim Beißbarth
Bioinformatik
Ontologien
• Unter einer Ontologie versteht man in der Informatik im Bereich der
Wissensrepräsentation ein formal definiertes System von Begriffen und/oder
Konzepten und Relationen zwischen diesen Begriffen. Zusätzlich enthalten
Ontologien - zumindest implizit - Regeln.
• Sprachen zur Beschreibung von Ontologien: RDF, DAML+OIL, F-Logic,
Web Ontology Language (OWL), ...
• Editoren: DAG-Edit, OilEd, OntoEdit, ...
• Können als Directed Acyclic Graph (DAG) repräsentiert werden.
• Konzepte: Untergliederung, Attribute, Relationen (is a, part of, ...)
• Philosophisch: Kann man die gesamte Welt mit Ontologien beschreiben?
Tim Beißbarth
Bioinformatik
Das Gene Ontology Consortium
Ashburner et al. Nature Genetics 25: 25-29.
http://www.geneontology.org
• Directed Acyclic Graph
(DAG)
• Top Level
• Molecular Function
• Biological Process
• Cellular Component
• Annotationen:
• Mouse: 16029 genes
• Human: 26444 genes
• Yeast: 6454 genes
• Drosophila: 10374
• Etc. ...
Tim Beißbarth
Bioinformatik
Annotation von Genen: Zuordnung der Gene zu Knoten von
Gene Ontology.
• Jeder Knoten von GO
ist auch noch mit
vielen anderen Knoten
verbunden.
• Die Struktur des GoGraphen wird vom
Gene Ontology
Consortium festgelegt.
• Die Annotation von
Genen wird von
verschiedenen
Gruppen gemacht.
Tim Beißbarth
Bioinformatik
Gen Ontology und Microarrays
P-value für jedes Gen von
einem zwei-sample T-test
samples
GO:3
GO:1
gene
GO:2
GO:4
Gewebe
Tim Beißbarth
Bioinformatik
1
2
Struktur von GO Annotationen
Jedes Gen Kann mehrere unnotierte GOs haben und jeder GO Term hat mehrere Splits.
Beispiel:
DNA topoisomerase II alpha
•
8 GO Annotationen
•
11 Splits
Tim Beißbarth
Bioinformatik
GOstat: Tool for finding significant GO terms in a list of genes
http://gostat.wehi.edu.au
Tim Beißbarth
Bioinformatik
Gene Sets und Microarrays – Gene Set Enrichment Analysis
• Vermutung: Listen von Genen die ich über Microarray Experimente
ausgesucht haben sollten einen funktionellen Zusammenhang
haben.
• Problem: Finde eine funktionale Gruppe, welche im Zusammenhang
mit meiner Liste an Genen steht.
• Durchführung: Wähle Gruppen von Genen (Gene Sets) für welche
die Funktion bekannt ist, z.B. Pathway, gleiche Funktion, zelluläre
Lokalisation.
• Teste: Gibt es funktionale Gruppen, welche in meiner Liste an Genen
gehäuft auftreten.
• Null-Hypothese: Die Auswahl meiner Gene ist zufällig und es
kommen keine funktionellen Gruppen vor.
Tim Beißbarth
Bioinformatik
Statistischer Test ob ein Gene-Set überrepräsentiert auftritt.
Kontingenztafel
Anzahl
Gene in Set
und Liste
nicht im Set
51
416
467
125
8588
8713
173
9004
9177
Anzahl Gene in Liste
(z.B. differentiell
exprimierte Gene)
Tim Beißbarth
Bioinformatik
Referenzgruppe
(Alle Gene auf dem
Array)
P-value
8e-52
Fisher's Exact Test
oder
Chi-Square Test
Fisher‘s Exact Test (nach Sir Ronald Aylmer Fisher)
• Test auf Kontingenztafeln:
k
S k
S
• Funktioniert durch Abzählen aller
nk
N nS k
N S
Möglichkeiten – daher „exakt“.
n
N n
N
• Es gibt „N über n“ viele Möglichkeiten, n
Gene aus einer Liste von N Genen
auszuwählen.
• Es gibt „S über k“ viele Möglichkeiten, k
mal einen Success (Gen ist in Gen Set)
zu beobachten.
• Es gibt „(N-S) über (n-k)“ Möglichkeiten
den Rest der Liste aufzufüllen.
Tim Beißbarth
Bioinformatik
n
n!
 
 k  k !(n  k )!
n Ck (n choose k )
Hypergeometrische Verteilung
• Wahrscheinlichkeit ist definiert als „Anzahl der positiven Ereignisse“ geteilt
durch die „Anzahl aller möglichen Ereignisse“.
 S  N  S 
 

k  n  k 
S !( N  S )!n !( N  n)!

P( X  k ) 

N !k !( S  k )!(n  k )!( N  n  S  k )!
N
 
n
• Verallgemeinert auf Tabelle aij mit Zeilensummen Ri und Spaltensummen
Cj:
( R1 ! R2 ! Rm !)(C1 !C2 ! Cm !)
P
N ! i , j aij !
Tim Beißbarth
Bioinformatik
Fisher‘s Exact Test (Fortsetzung)
• Die Hypergeometrische Verteilung gibt die Wahrscheinlichkeit, dass man
genau k mal einen Erfolg beobachtet.
• Um an die Signifikanz zu kommen muss man die Wahrscheinlichkeiten aller
Ereignisse, die extremer als das beobachtete aufaddieren.
• Fisher zeigt, daß man lediglich Kontingenztafeln mit gleichen Randsummen
zu berücksichtigen braucht.
• Fisher‘s Exact Test ist bei großen Zahlen extrem Rechenaufwendig.
• Bei großen Zahlen (Randsummen>5) sind einige Vereinfachungen möglich:
• Annähern der hypergeometrischen Verteilung durch Binomialverteilung.
• Annähern durch Normalverteilung (Chi-Quadrat-Test).
Tim Beißbarth
Bioinformatik
Verschiedene Methoden zum Scoren
• Basierend auf einer vorher selektierten
p-value
GO:
?
p-value
p-value
p-value
Liste von Genen (z.B. differentiell exprimierte
Gene):
Fisher‘s Exact Test oder Chi-Square-Test
siehe Beißbarth/Speed, „GOstat“, Bioinformatics, 2004
p-value
p-value
• Basierend auf Rängen (z.B. sortierte Liste mit allen Genen auf dem
Microarray sortiert nach T-statistik für Signifikanz der differentiellen GenExpression).
• Kolmogorov-Smirnov-Test
siehe Mootha et al,
Nature Genetics, 2003
Tim Beißbarth
Bioinformatik
Sind die Ränge, welche mit einem GO-Term
assoziiert sind aus einer uniformen Verteilung
gezogen,
z.B. 1,5,7,10 wäre signifikant, im Gegensatz zu
1,100,1000,10000.
Kolmogorov-Smirnov Test –
PDF, CDF
• Probability Density Function (PDF)
• Cumulative Density Function (CDF)
Tim Beißbarth
Bioinformatik
Zwei Sample Kolmogorov-Smirnov Test
• Um zwei empirische CDFs SM(x) und SN(x) mit den Stichprobengrößen M
und N miteinander zu vergleichen, benutzt der Kolmogorov-Smirnov Test
die K-S Distanz DMN = maxx|SM(x) - SN(x)|. Diese wird durch multiplizieren
mit (M-1 + N-1) normalisiert. Die K-S Distanz hat eine komplizierte NullVerteilung, welche durch Permutation abgeschätzt werden kann.
Tim Beißbarth
Bioinformatik
Verschiedene Methoden zum Scoren
p-value
• Basierend auf einer vorher selektierten
GO:
?
p-value
p-value
p-value
Liste von Genen (z.B. differentiell exprimierte
Gene):
Fisher‘s Exact Test oder Chi-Square-Test
siehe Beißbarth/Speed, „GOstat“, Bioinformatics, 2004
p-value
p-value
• Basierend auf Rängen (z.B. sortierte Liste mit allen Genen auf dem
Microarray sortiert nach T-statistik für signifikanz der differentiellen GenExpression).
Sind die Ränge, welche mit einem GO-Term
assoziiert sind aus einer uniformen Verteilung
gezogen,
z.B. 1,5,7,10 oder 5001,5002,5003,5004 wäre
signifikant, im Gegensatz zu 1,100,1000,10000.
• Kolmogorov-Smirnov-Test
siehe Mootha et al,
Nature Genetics, 2003
• Wilcoxon-Test
Tim Beißbarth
Bioinformatik
1,5,7,10
für GO
vs.
1-10000
alle Ränge auf
dem Array
Das Problem mit vielen Tests
•
Die gleiche Teststatistik wird auf viele hunderte oder tausende von Tests
angewendet.
Wie oft erwarte ich, dass ich zufällig signifikante Testergebnisse
bekomme?
•
Verschiedene Methoden um für multiples Testen zu korrigieren:
Bonferroni: p-value × Anzahl der Tests
Holm: Bonferroni verbessert
Benjamini-Hochberg: False Discovery Rate
Benjamini-Yekutieli: False Discovery Rate (mit Abhängigkeiten)
Tim Beißbarth
Bioinformatik
Multiples Testen (Fortsetzung)
Wir testen m Hypothesen H1, H2, , Hm .
m0 = # wahre Hypothesen R = # abgelehnte Hypothesen
# wahre
# falsche
null Hypo.
null Hypo.
# angenommen
U
T
m-R
# abgelehnt
V
S
R
m0
m-m0
V = # Typ I Fehler [falsch Positive]
T = # Typ II Fehler [falsch Negative]
Tim Beißbarth
Bioinformatik
Typ I Fehlerraten
•
Ein p-value oder beobachteter Signifikanzlevel ist die Chance bei wahrer
Null-Hypothese eine Teststatistik zu beobachten, welche mindestens
genauso extrem ist wie die beobachtete Teststatistik.
1. Family-Wise Error Rate (FWER): FWER ist definiert als die
Wahrscheinlichkeit von mindestens einem Typ I Fehler (falsch positiven).
FWER  Pr(V  0)
2. False Discovery Rate (FDR): FDR ist definiert als die erwartete Rate von
Typ I Fehlern unter den abgelehnten Hypothesen:
FDR  E (Q)
mit
V R wenn R  0
Q
wenn R  0
 0
Tim Beißbarth
Bioinformatik
Korrektur für multiples Testen - Kontrolle der Typ l Fehlerrate
•
•
Ziel: Für eine vorgegebene Typ l Fehlerrate , korrigiere die p-values
pp* so, daß bei Auswahl von p*   eine Typ I Fehlerrate   garantiert
ist.
Verschiedene Methoden:
• unterschiedlich mächtig
• Kontrolliert FWER oder FDR
• verschiedene Grundannahmen: z.B. alle Hypothesen sind wahr
(schwache Kontrolle), es gibt wahre und/oder falsche Hypothesen
(starke Kontrolle).
• Berücksichtigung von Korrelationsstruktur zwischen den Tests, i.e.
Tests sind nicht unabhängig. Beispiel:
1. 1000 den gleichen Test gemacht, p1=p2=…=p1000,
Keine Korrektur nötig.
2. wenn Test 1 positiv ist wird 2 signifikanter
stärkere Korrektur nötig.
Tim Beißbarth
Bioinformatik
Bonferroni
p  min(mp,1)
*
• Beweis (Bonferroni kontrolliert FWER):
m=Anzahl der Tests, pt=p-value von test t, pt*=korrigierter p-value
FWER  Pr(V  0)
 Pr(mindestens ein p*   )
 Pr(mindestens ein p   m)
m
  Pr( p   m)
t 1
m
Tim Beißbarth
Bioinformatik

m

Holm (Step down Prozedur)
• Abgeänderte Variante der Bonferroni Korrektur. Der kleinste p-value wird
nach wie vor mit der Anzahl der Tests m multipliziert. Der nächst größere pvalue muß nur noch mit m-1 multipliziert werden, usw..
• Sortierte p-values:
pr1  pr2    prm
• Step-down Prozedur:
 

pr*j  max min  m  k  1 prk ,1
k 1 j
• Kontrolliert FWER
• mächtiger als Bonferroni
Tim Beißbarth
Bioinformatik
Kontrolle der FDR (Benjamini/Hochberg)
• Die FWER ist ein sehr konservatives Kriterium.
• Kontrolliere die FDR = E(V/R)
• Analog zu Holm
• Step-up Prozedur:

m

p  min min  prk ,1 
k  j m
 j


*
rj
• Die Benjamini/Hochberg Methode nimmt unabhängige Tests an.
Tim Beißbarth
Bioinformatik
Literatur zu multiplen Testen
• Y. Benjamini and Y. Hochberg (1995). Controlling the false discovery rate: a
•
•
•
•
•
practical and powerful approach to multiple testing. Journal of the Royal
Statistical Society B, Vol. 57, 289–300.
S. Dudoit, J.P. Shaffer, J.C. Boldrick (2003). Multiple hypothesis testing in
microarray experiments. Statistical Science, Vol. 18, 71–103.
J.D. Storey and R. Tibshirani (2003). SAM thresholding and false discovery
rates for detecting differential gene expression in DNA microarrays. In: The
analysis of gene expression data: methods and software. Edited by G.
Parmigiani, E.S. Garrett, R.A. Irizarry, S.L. Zeger, Springer, New York.
V.G. Tusher et al. (2001). Significance analysis of microarrays applied to the
ionizing radiation response. PNAS, Vol. 98, 5116–5121.
P.H. Westfall and S.S. Young (1993). Resampling–based multiple testing:
examples and methods for p-value adjustment. Wiley.
Bonferroni 1936, Tukey 1949, etc.
Tim Beißbarth
Bioinformatik
Funktionale GO Cluster als Graph
Tim Beißbarth
Bioinformatik
TopGO
•
•
•
•
•
TopGO is a GO term analysis program available from
Bioconductor
It takes the GO hierarchy into account when scoring
terms
If a parent term is only significant because of child term,
it will receive a lower score
TopGO uses the Fisher-test or the KS-test (both
competitive)
TopGO also gives a graphical representation of the
results in form of a tree
Tim Beißbarth
Bioinformatik
Tree showing the 15 most significant GO terms
Tim Beißbarth
Bioinformatik
Zooming in
Tim Beißbarth
Bioinformatik
Acknowledgements – Slides geborgt von
• Anja von Heydebreck
• Terry Speed
• Benedikt Brors
• Stefan Bentink
Tim Beißbarth
Bioinformatik
Herunterladen