‘Omics’ - Analysis of high dimensional Data Achim Tresch Computational Biology Beurteilende Statistik Deskriptive (beschreibende) Statistik: Übersichtliche Aufbereitung der Daten eines vorliegenden Kollektivs (Stichprobe) mittels Graphiken und Tabellen Beurteilende (schließende, Inferenz-) Statistik: Induktiver Schluss von der Stichprobe auf die Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse G R U N D G E S A M T H E I T Stichprobe Unsicherheitsbehaftete Entscheidungen Unsicherheitsbehaftete Entscheidungen Schamane Andrey Kolmogoroff Beurteilende Statistik Schluss von der Stichprobe auf die Grundgesamtheit Da anhand einer Stichprobe nur unvollständige Information vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich. Wichtige Aufgabe der statistischen Methodik: Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw. Quantifizierung der Unsicherheit bei diesen Schlüssen • Statistischer Test (Signifikanztest): Unterschied in der Stichprobe Unterschied in der Grundgesamtheit? Beurteilende Statistik Schluss von der Stichprobe auf die Grundgesamtheit • Schätzung: Ermittelte Maßzahl in der Stichprobe Maßzahl in der Grundgesamtheit? Toleranzen (Konfidenzbereich)? Beurteilende Statistik Wann ist der Schluss von der Stichprobe auf die Grundgesamtheit möglich? Wichtig: Stichprobe muss „repräsentativ“ sein! (Stichprobe enthält nur Bodenproben aus Köln -> Keine Aussagen über Boden in Argentinien möglich) Repräsentativität kann erzielt werden durch zufällige Ziehung aus der Grundgesamtheit (in der Praxis selten möglich). Genau überlegen, „wie weit“ man schließen kann! Beispiel: Therapie bei Kindern mit Leukämie in Mainz → Kinder in anderen Unikliniken in Deutschland? → Alle Leukämiekinder auf der Welt?? Eine Methode zur Erkennung von (nicht-)Schafen Lernphase: Vermesse alle Schafe, die dir begegnen. Eine Methode zur Erkennung von (nicht-)Schafen Lernphase: Vermesse alle Schafe, die dir begegnen. Beschreibe die Größe der Schafe, z.B. durch einen Dichteplot. 70 80 90 100 110 Groesse [cm] 120 130 140 Eine Methode zur Erkennung von (nicht-)Schafen Testphase: Begegnet dir ein neues Tier, so vermesse es. Liegt die Größe des Tieres außerhalb des Größenbereichs der Schafe, so nenne das Tier „zu groß/zu klein für ein Schaf“. Ansonsten gehe davon aus, dass es ein Schaf ist Kein Schaf 70 80 90 100 110 Groesse [cm] 120 130 140 Eine Methode zur Erkennung von (nicht-)Schafen Vorteil der Methode: Man muss nichts über Schafe wissen außer ihrer Größenverteilung. Nachteil der Methode: Sie ist fehlerbehaftet Negative (keine Auffälligkeiten) Falsch Negative 70 80 90 Falsch Positive Echt Negative 100 110 Groesse [cm] Positive (Auffälligkeiten) 120 130 140 Schwellwert Echt Positive Eine Methode zum Nachweis von Medikamentenwirksamkeit = Eine Methode zum Erkennen von nicht-Placebos Lernphase: Quantifiziere die Wirkung eines Placebos (z.B. Blutdrucksenkung in mmHg). Lege eine Entscheidungsschwelle fest Testphase: Quantifiziere die Wirkung eines Medikaments. Nenne es wirksam, wenn die Wirkung jenseits der Schwelle liegt -10 -5 0 5 Blutdrucksenkung [mmHg] 10 15 Statistisches Testen von Hypothesen Formuliere eine Nullhypothese H0 („es passiert nichts“) Wähle eine Teststatistik (Prüfgröße, die gemessene Größe zur Entscheidungsfindung). Lege damit implizit die Nullverteilung (die Verteilung der Teststatistik, falls die Nullhypothese gilt) fest. Statistisches Testen von Hypothesen Formuliere eine Alternativhypothese (z.B. „die Werte sind größer als unter der Nullhypothese erwartet“) Lege eine Entscheidungsschwelle d fest. Dies ist äquivalent zur Festlegung des Signifikanzniveaus α, d.h. dem Anteil der falsch Positiven unter den Negativen. d α Statistisches Testen von Hypothesen Bestimme den Wert der Teststatistik (z.B. mittels einer Studie), und fälle durch Vergleich von Teststatistik und Entscheidungschwelle eine Entscheidung. Behalte H0 bei (lehne jedoch die Alternativhypothese nicht ab). d Lehne die Nullhypothese ab, nimm die Alternativhypothese an. α Kriterien für die Güte einer Teststatistik d Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Gute Statistik Verteilung der Teststatistik bei Gültigkeit der Alternativhypothese 0 Nullhypothese wahr Nullhypothese akzeptiert Nullhypothese abgelehnt Richtige Entsch. Typ I Fehler (Falsch Positive) AlternativhypoTyp II Fehler these wahr (Falsch Negative) Richtige Entsch. Kriterien für die Güte einer Teststatistik d Verteilung der Teststatistik bei Gültigkeit der Nullhypothese Schlechte Statistik Verteilung der Teststatistik bei Gültigkeit der Alternativhypothese 0 Nullhypothese wahr Nullhypothese akzeptiert Nullhypothese abgelehnt Richtige Entsch. Typ I Fehler (Falsch Positive) AlternativhypoTyp II Fehler these wahr (Falsch Negative) Richtige Entsch. Bsp: Das Offenbacher Orakel Würfele mit dem 20-seitigen Würfel. Augenzahl = 20: lehne die Nullhypothese ab Augenzahl ≠ 20: lehne die Nullhypothese nicht ab Dies (unabhängig von der Nullhypothese) ein valider Test auf 5%-Signifikanzniveau! Aber: Die Verteilung der Teststatistik unter der Null- und der Alternativhypothese ist gleich! Dieser Test kann nicht zwischen den Gruppen diskriminieren! 0.25 0.15 0.15 0.05 Verteilung unter H0 0.10 0.00 c(0, 0) 0.20 0.10 c(0, 0) 0.30 0.20 0.25 Bsp: Das Offenbacher Orakel 5 10 15 20 0.05 Index 0.00 Verteilung unter H1 5 10 15 20 Index 95% der Positiven werden nicht erkannt Der p-Wert Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert p = 0.08 -5 0 5 10 15 Der p-Wert Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden: Der einem Wert t der Teststatistik zugeordnete p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert t. p = 0.42 -5 0 t 5 10 15 Der p-Wert Entscheidungsschwelle d Signifikanzniveau α Beobachtete Teststatistik t p-Wert t ist extremer als d p≥α Behalte H0 bei (lehne jedoch die Alternativhypothese nicht ab). p ist kleiner als α p = 0.83 p < α Lehne die Nullhypothese ab, nimm die Alternativhypothese an. α = 0.05 p = 0.02 t d t Ein- und zweiseitige Fragestellungen Einseitige Fragestellung H0: Der Wert der Prüfgröße ist in Gruppe I nicht höher als in Gruppe II H1: Der Wert der Prüfgröße ist in Gruppe I höher als in Gruppe II -10 -5 0 Annahmebereich 5 Blutdrucksenkung [mmHg] ][ 10 15 Ablehungsbereich 23 Ein- und zweiseitige Fragestellungen Zweiseitige Fragestellung H0: Die Prüfgröße ist in Gruppe I und Gruppe II gleich H1: Die Prüfgröße ist in Gruppe I und in Gruppe II verschieden Zweiseitige Fragestellung im Allgemeinen angemessen: Effekte in beide Richtungen werden detektiert. Bei Zulassungsstudien wird zweiseitige Auswertung gefordert! -10 ][-5 Ablehungsbereich 0 5 Annahmebereich Blutdrucksenkung [mmHg] ][10 15 Ablehungsbereich 24 Interpretation eines Testergebnisses Was muss bei einer Sachaussage im Anschluss an einen statistischen Test beachtet werden? 1. Testentscheidung: „signifikant“ bzw. „nicht signifikant“ mit Signifikanzniveau 2. Was wird verglichen? (Gruppeneinteilung) 3. Was ist die Grundgesamtheit? 4. Was ist die Zielgröße? (ggf. genauere Information, z.B. Zeitangabe) 5. Falls ein signifikanter Unterschied besteht: Interpretation! (Welche Richtung?) Spezielle statistische Tests Vergleich der Mittelwerte zweier Gruppen Gen A Gruppe 1 Gruppe 2 Gen B Welches Gen ist „weniger stark“ exprimiert? … Genexpressionsmessungen 26 Zwei-Gruppen Lagevergleich Daten: Expression von Gen g in verschiedenen Proben (Absolutskala) 2 mean( Punkte) Teststatistik, z.B. Differenz der Gruppenmittel d 1 Fragestellung / Hypothese Ist die Expression von Gen g in Gruppe 1 niedriger als die in Gruppe 2? d 1 2 mean ( Punkte) Gruppe 1 Gruppe 2 Entscheidung für “niedriger exprimiert“ wenn d d0 27 Zwei-Gruppen Lagevergleich Schlechte Idee: Subtrahiere die Gruppenmittelwerte d 1 2 Problem: d ist nicht skaleninvariant 2 1 d 1 d 2 Gruppe 1 Gruppe 2 Lösung: Teile d durch seine Standardabw. d t s(d ) Daraus entsteht die t-Statistik bzw. der t-Test (für unverbundene Stichproben) 28 Zwei-Gruppen Lagevergleich Beispiel: t-Test für den Vergleich der Plazentagewichte bei gesunden und diabetischen Müttern Placentagewicht [g] Zielgröße: Plazentagewicht [g] Gruppe 1: n = 23 gesundeMütter Gruppe 2: n= 38 Mütter mit manifestem Diabetes 1400 1200 1000 800 600 400 200 N= 23 38 Gesunde Mütter Mütter mit Diabetes Zwei-Gruppen t-Test Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm) Gruppe 1 Gruppe 2 Minimum 375 425 1. Quartil 500 600 Median 600 710 3. Quartil 650 825 Maximum 825 1290 Arithm. Mittelwert 601.7 728.5 Standardabweichung 125.4 183.1 Schiefe g 0.25 0.85 Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch) sinnvoll Zwei-Gruppen t-Test Hypothesen: H0: Es gibt keinen (Mittelwerts-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern H1: Es gibt einen (MW-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern Gewähltes Signifikanzniveau: α = 5% Zweiseitiger Test Zwei-Gruppen t-Test Voraussetzung: Gaußverteilung in beiden Gruppen Zeile „Varianzen gleich“: Auch noch gleiche Varianzen (bzw. Standardabweichungen) in beiden Gruppen nötig. Zeile „Varianzen ungleich“ bedeutet nur: Gleiche Varianzen sind nicht erforderlich. Pragmatisch: Immer 2. Zeile verwenden! p = 0.002 32 Zwei-Gruppen t-Test Ergebnis: Mittelwertsdifferenz = (–) 126.7 p-Wert = 0.002 p = 0.002 = 0.2% < 5% = 0.05 = α Also signifikanter Unterschied zum Niveau 5%! Sachaussage: Zum Signifikanzniveau α = 5% besteht ein signifikanter Mittelwerts-Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern. Konkret haben diabetische Mütter höhere Plazentagewichte. Interpretation des p-Werts: Falls zwischen den (mittleren) Plazentagewichten zwischen gesunden und diabetischen Müttern kein Unterschied besteht (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Mittelwertsunterschied von mindestens 126.7 g zu beobachten, unter den gegebenen Umständen 0.2%. Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Untersuche für unverbundene Stichproben: Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ? Messgröße Gruppe 1 18 3 6 9 5 Gruppe 2 15 10 8 7 12 Originalskala Rangskala 3 5 6 7 8 9 10 12 15 18 1 2 3 4 5 6 7 8 9 10 Rangsumme Gruppe 1: 1+2+3+6+10 = 22 Rangsumme Gruppe 2: 4+5+7+8+9 = 33 Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Wähle die Rangsumme von Gruppe 1 als Teststatistik Der zur Rangsumme gehörige p-Wert kann per Computer für kleine Gruppenzahlen exakt oder für große Gruppenzahlen näherungsweise berechnet werden: P(W≤22, falls die Gruppenzugehörigkeiten zufällig sind) = 0.15 15 20 22 25 30 35 40 Wilcoxon W Rangsummenverteilung für Gruppe 1, |Gruppe 1| = 5, |Gruppe 2| = 5 Wilcoxon (Rangsummen) Test (Mann-Whitney-Test) Beispiel Plazentagewichte • Für größere Fallzahlen (N>20) wird eine Näherung berechnet • Der Wilcoxon Test kann einseitig oder zweiseitig durchgeführt werden Testübersicht: Gruppenvergleich eines stetigen Merkmals Zu klärende Frage: Existiert ein Lageunterschied der Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2? Sind die Daten normalverteilt? ja Verbundene Stichproben? Verbundene Stichproben? ja t-Test für verbundene Stichproben nein nein t-Test für unverb. Stichproben ja Wilcoxon Vorzeichentest nein Wilcoxon Rangsummentest 37 Vergleich zweier binärer Merkmale Wahl der Teststatistik: „Exakter Fisher-Test“ Sir Ronald Aylmer Fisher, 1890-1962 Theoretischer Biologe, Evolutionstheoretiker und Statistiker Vergleich zweier binärer Merkmale Unverbundene Stichproben: Exakter Fisher Test Der exakte Fisher Test soll die Frage beantworten: Gibt es Unterschiede in der Verteilung █ und █ ? Bsp.: Wirksamkeitsstudie mit unverbundenen Stichproben (jeder Probend erhält nur einen Präparat) Wirkung Medikamentengabe Wirkt Wirkt nicht Verum 65 7 Placebo 44 13 Odds und Odds Ratio Kopf Zahl Faire Münze 54 46 Gebogene Münze 82 18 Odds (= Chance): Häufigkeitsverhältnis in einer Gruppe, Quote einer fairen Wette Odds (faire Münze) = 54 : 46 = 1.17 Odds (gebogene M.) = 82 : 18 = 4.56 Odds Ratio (Chancenverhältnis) 54 / 46 1.17 OR 0.26 82 / 18 4.56 Bsp: Dickdarmkarzinom Bsp: Dickdarmkarzinom 4-Jahres-Überleben Impfung Ja Nein Ja (n=32) 30 (94%) 2 (6%) Nein (n=30) 23 (77%) 7 (23%) Interessierende Fragen: Hat die Impfung einen Einfluss auf das Überleben? Ist der Einfluss „signifikant“? Bsp: Dickdarmkarzinom Grundgesamtheit: Alle jetzigen und künftigen Patienten mit Dickdarm-Ca und Metastasen. Nullhypothese H0: Die Impfung hat keinerlei Effekt auf den Zustand der Patienten. Die Überlebensraten bei der Grundgesamtheit sind mit und ohne Impfung gleich. Gegenhypothese (Alternativhypothese) H1: Die Überlebensraten bei der Grundgesamtheit sind mit Impfung und ohne Impfung unterschiedlich. (zweiseitige Fragestellung) Wähle das Signifikanzniveau α (oft gewählt: α = 1%; 0.1%; 5%; 10%) Genaue Interpretation des Signifikanzniveaus α : Wenn in Wirklichkeit kein Unterschied besteht (also H0 gilt), erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch positive Aussage). Bsp: Dickdarmkarzinom Testergebnis nach Durchführung des exakten FisherTests: p = 0.0766 7.7% Hat man α = 5% gewählt, so gilt: Da p > α, wird die Nullhypothese beibehalten. Sachaussage: Es besteht zum Niveau α = 5% kein signifikanter Effekt der Impfung auf die Überlebensrate nach 4 Jahren. Folgerung: Wir sind (noch) nicht (hinreichend) davon überzeugt, dass ein Unterschied in den Überlebensraten besteht! Bsp: Dickdarmkarzinom Interpretation des Ergebnisses (Dickdarmkarzinome mit und ohne Impfung) Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32) Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30) Beobachteter Unterschied in der 4-Jahres-Überlebensrate: 17% exakter Fisher-Test: p = 0.077 Falls die Impfung keinerlei Effekt hat (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Unterschied von mindestens 17% zwischen beiden Gruppen zu erhalten, unter den gegebenen Umständen 7.7%. Vergleich zweier kategorialer Merkmale Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Tumorgröße Auftreten von LGE Ja Nein 1 10 8 2 20 23 3 19 10 4 32 18 H0: Es besteht kein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat keinen Einfluss auf das Auftreten von LGE) H1: Es besteht ein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat einen Einfluss auf das Auftreten von LGE) Vergleich zweier kategorialer Merkmale Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Im gegebenen Beispiel erhält man mit SPSS „p = 0.000“ (also: p < 0.001). Wurde als Signifikanzniveau α = 5% gewählt, so ergibt sich als Sachaussage: Bei Patienten mit Magenkarzinomen besteht ein zum 5%-Niveau signifikanter Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: „..... Einfluss der Tumorgröße auf das Auftreten von LGE“). Konkret: je größer der Tumor, desto häufiger treten LGE auf. Vergleich zweier kategorialer Merkmale Unverb. Stichproben: Chiquadrat-Test (χ2-Test) Voraussetzungen des Chiquadrat-Tests Gesamt-Fallzahl nicht zu klein (etwa n ≥ 60) Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle ≥ 5) Beachte: Bei zwei binären Merkmalen verwende eine Vierfeldertafel und den exakten Fisher-Test! Testübersicht: Vergleich zweier kategorialer Variablen Zu klärende Frage: Gibt es Unterschiede in den Häufigkeitsverteilungen der verschiedenen Gruppen? Sind die Daten binär? ja Verbundene Stichproben? Verbundene Stichproben? ja McNemar Test (Messen die beiden Variablen das Gleiche?) nein nein Exakter Fisher Test (Besteht eine Abhängigkeit?) ja (Bowker Symmetrietest) nein Chiquadrat (χ2) -Test 49 Übersicht: Deskription und statistische Tests (2 Merkmale) Merkmal stetig stetig Design Deskription numerisch unverbunden Mediane, Quartile verbunden Deskription graphisch Test 2 Boxplots WilcoxonRangsumment-Test* Median, WilcoxonDifferenzenQuartile der Vorzeichen-, Boxplot Differenz t-Test* unverbunden Kreuztabelle ,Zeilen%, RR, RD, OR Balkendiagramm Exakter Fisher-Test binär verbunden Kreuztabelle (“Mc-NemarTafel“) Balkendiagramm McNemarTest kategorial unverbunden Kreuztabelle ,Zeilen% (3D Balkendiagramm) χ2-Test binär * Bei Normalverteilung 50 Beachte Die Angabe eines Testergebnisses ohne eine sinnvolle Deskription ist uninformativ. Oft: Angabe von Konfidenzbereichen wünschenswert. Als Testergebnis sollte nicht nur „Zum Niveau α signifikant/nicht signifikant“ angegeben werden, sondern der p-Wert (geeignet gerundet), zumindest wenn er kleiner als (etwa) 0.1 ist. Niemals „p=0“ oder gar „p<0.000“ als Testergebnis angeben! Statistische Signifikanz ≠ Relevanz Sehr viele Fälle: Auch kleine Unterschiede werden signifikant Wenige Fälle: Ein beobachteter Unterschied kann relevant, aber nicht statistisch signifikant sein. 52 Problematik des Multiples Testens Beispiele: Untersuchung mehrerer Endpunkte (systolischer, diastolischer Blutdruck, Pulsfrequenz) Vergleich mehrerer Gruppen (z.B. bei 4 Gruppen: 6 Paarvergleiche) Bei jedem Test tritt eine falsche Signifikanz (= falsch Positives) mit 5% Wahrscheinlichkeit auf (falls α = 5%) → Bei 6 Tests steigt die Wahrscheinlichkeit des Auftretens einer falschen Signifikanz bis zu 30%! 53 Problematik des Multiples Testens Lösungsmöglichkeit: Korrektur nach Bonferroni Führe jeden der einzelnen Tests zum Niveau α/m („lokales Signifikanzniveau α/m “) durch (m = Anzahl der Tests) Die Wahrscheinlichkeit eines Auftretens einer falschen Signifikanz bei Durchführung aller m Tests beträgt dann höchstens α („multiples/globales Niveau α“) z. B. m = 6 Gewünschtes multiples Niveau: α = 5% → lokales Signifikanzniveau: α/m = 5%/6 = 0.83%