PowerPoint-Präsentation

Werbung
‘Omics’
- Analysis of high
dimensional Data
Achim Tresch
Computational Biology
Beurteilende Statistik
Deskriptive (beschreibende) Statistik:
Übersichtliche Aufbereitung der Daten eines vorliegenden
Kollektivs (Stichprobe) mittels Graphiken und Tabellen
Beurteilende (schließende, Inferenz-) Statistik:
Induktiver Schluss von der Stichprobe auf die
Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse
G R U N D G E S A M T H E I T
Stichprobe
Unsicherheitsbehaftete Entscheidungen
Unsicherheitsbehaftete Entscheidungen
Schamane
Andrey Kolmogoroff
Beurteilende Statistik
Schluss von der Stichprobe auf die Grundgesamtheit
Da anhand einer Stichprobe nur unvollständige Information
vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich.
Wichtige Aufgabe der statistischen Methodik:
Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw.
Quantifizierung der Unsicherheit bei diesen Schlüssen
• Statistischer Test (Signifikanztest):
Unterschied in
der Stichprobe
Unterschied in
der Grundgesamtheit?
Beurteilende Statistik
Schluss von der Stichprobe auf die Grundgesamtheit
• Schätzung:
Ermittelte
Maßzahl in der
Stichprobe
Maßzahl in
der Grundgesamtheit?
Toleranzen
(Konfidenzbereich)?
Beurteilende Statistik
Wann ist der Schluss von der Stichprobe auf die
Grundgesamtheit möglich?
Wichtig: Stichprobe muss „repräsentativ“ sein!
(Stichprobe enthält nur Bodenproben aus Köln -> Keine
Aussagen über Boden in Argentinien möglich)
Repräsentativität kann erzielt werden durch zufällige
Ziehung aus der Grundgesamtheit (in der Praxis selten
möglich). Genau überlegen, „wie weit“ man schließen kann!
Beispiel: Therapie bei Kindern mit Leukämie in Mainz
→ Kinder in anderen Unikliniken in Deutschland?
→ Alle Leukämiekinder auf der Welt??
Eine Methode zur Erkennung von (nicht-)Schafen
Lernphase: Vermesse alle Schafe, die dir begegnen.
Eine Methode zur Erkennung von (nicht-)Schafen
Lernphase: Vermesse alle Schafe, die dir begegnen.
Beschreibe die Größe der Schafe, z.B.
durch einen Dichteplot.
70
80
90
100
110
Groesse [cm]
120
130
140
Eine Methode zur Erkennung von (nicht-)Schafen
Testphase: Begegnet dir ein neues Tier, so vermesse es.
Liegt die Größe des Tieres außerhalb des
Größenbereichs der Schafe, so nenne das Tier
„zu groß/zu klein für ein Schaf“. Ansonsten
gehe davon aus, dass es ein Schaf ist
Kein
Schaf
70
80
90
100
110
Groesse [cm]
120
130
140
Eine Methode zur Erkennung von (nicht-)Schafen
Vorteil der Methode: Man muss nichts über Schafe
wissen außer ihrer Größenverteilung.
Nachteil der Methode: Sie ist fehlerbehaftet
Negative (keine Auffälligkeiten)
Falsch
Negative
70
80
90
Falsch
Positive
Echt
Negative
100
110
Groesse [cm]
Positive (Auffälligkeiten)
120
130
140
Schwellwert
Echt
Positive
Eine Methode zum Nachweis von Medikamentenwirksamkeit
= Eine Methode zum Erkennen von nicht-Placebos
Lernphase: Quantifiziere die Wirkung eines Placebos
(z.B. Blutdrucksenkung in mmHg).
Lege eine Entscheidungsschwelle fest
Testphase: Quantifiziere die Wirkung eines Medikaments.
Nenne es wirksam, wenn die Wirkung jenseits
der Schwelle liegt
-10
-5
0
5
Blutdrucksenkung [mmHg]
10
15
Statistisches Testen von Hypothesen
Formuliere eine Nullhypothese H0
(„es passiert nichts“)
Wähle eine Teststatistik (Prüfgröße, die gemessene
Größe zur Entscheidungsfindung). Lege damit implizit
die Nullverteilung (die Verteilung der Teststatistik,
falls die Nullhypothese gilt) fest.
Statistisches Testen von Hypothesen
Formuliere eine Alternativhypothese (z.B. „die Werte
sind größer als unter der Nullhypothese erwartet“)
Lege eine Entscheidungsschwelle d fest. Dies ist
äquivalent zur Festlegung des Signifikanzniveaus α,
d.h. dem Anteil der falsch Positiven unter den
Negativen.
d
α
Statistisches Testen von Hypothesen
Bestimme den Wert der Teststatistik (z.B. mittels
einer Studie), und fälle durch Vergleich von
Teststatistik und Entscheidungschwelle eine
Entscheidung.
Behalte H0 bei (lehne
jedoch die Alternativhypothese nicht ab).
d
Lehne die Nullhypothese ab, nimm die
Alternativhypothese
an.
α
Kriterien für die Güte einer Teststatistik
d
Verteilung der
Teststatistik bei
Gültigkeit der
Nullhypothese
Gute
Statistik
Verteilung der
Teststatistik bei
Gültigkeit der
Alternativhypothese
0
Nullhypothese
wahr
Nullhypothese
akzeptiert
Nullhypothese
abgelehnt
Richtige Entsch.
Typ I Fehler
(Falsch Positive)
AlternativhypoTyp II Fehler
these wahr
(Falsch Negative)
Richtige Entsch.
Kriterien für die Güte einer Teststatistik
d
Verteilung der
Teststatistik bei
Gültigkeit der
Nullhypothese
Schlechte
Statistik
Verteilung der
Teststatistik bei
Gültigkeit der
Alternativhypothese
0
Nullhypothese
wahr
Nullhypothese
akzeptiert
Nullhypothese
abgelehnt
Richtige Entsch.
Typ I Fehler
(Falsch Positive)
AlternativhypoTyp II Fehler
these wahr
(Falsch Negative)
Richtige Entsch.
Bsp: Das Offenbacher Orakel
Würfele mit dem
20-seitigen Würfel.
Augenzahl = 20: lehne die Nullhypothese ab
Augenzahl ≠ 20: lehne die Nullhypothese nicht ab
Dies (unabhängig von der Nullhypothese)
ein valider Test auf 5%-Signifikanzniveau!
Aber: Die Verteilung der Teststatistik
unter der Null- und der
Alternativhypothese ist gleich!
Dieser Test kann nicht zwischen
den Gruppen diskriminieren!
0.25
0.15
0.15
0.05
Verteilung
unter H0
0.10
0.00
c(0, 0)
0.20
0.10
c(0, 0)
0.30
0.20
0.25
Bsp: Das Offenbacher Orakel
5
10
15
20
0.05
Index
0.00
Verteilung
unter H1
5
10
15
20
Index
95% der Positiven werden
nicht erkannt
Der p-Wert
Hat man eine Teststatistik festgelegt und einen Wert
für sie aus den Messdaten ermittelt, so kann dieser in
einen p-Wert umgerechnet werden:
Wahrscheinlichkeit, bei
Gültigkeit der Nullhypothese
einen Wert zu beobachten,
welcher mindestens so extrem
ist wie der beobachtete Wert
p = 0.08
-5
0
5
10
15
Der p-Wert
Hat man eine Teststatistik festgelegt und einen Wert
für sie aus den Messdaten ermittelt, so kann dieser in
einen p-Wert umgerechnet werden:
Der einem Wert t der
Teststatistik zugeordnete p-Wert
ist die Wahrscheinlichkeit, bei
Gültigkeit der Nullhypothese einen
Wert zu beobachten, welcher
mindestens so extrem ist wie der
beobachtete Wert t.
p = 0.42
-5
0
t
5
10
15
Der p-Wert
Entscheidungsschwelle d
Signifikanzniveau α
Beobachtete Teststatistik t
p-Wert
t ist extremer als d
p≥α
Behalte H0 bei (lehne
jedoch die Alternativhypothese nicht ab).
p ist kleiner als α
p = 0.83
p < α
Lehne die Nullhypothese ab, nimm die
Alternativhypothese
an.
α = 0.05
p = 0.02
t
d
t
Ein- und zweiseitige Fragestellungen
Einseitige Fragestellung
H0: Der Wert der Prüfgröße ist in Gruppe I nicht höher
als in Gruppe II
H1: Der Wert der Prüfgröße ist in Gruppe I höher als in
Gruppe II
-10
-5
0
Annahmebereich
5
Blutdrucksenkung [mmHg]
][
10
15
Ablehungsbereich
23
Ein- und zweiseitige Fragestellungen
Zweiseitige Fragestellung
H0: Die Prüfgröße ist in Gruppe I und Gruppe II gleich
H1: Die Prüfgröße ist in Gruppe I und in Gruppe II
verschieden
Zweiseitige Fragestellung im Allgemeinen angemessen:
Effekte in beide Richtungen werden detektiert.
Bei Zulassungsstudien wird zweiseitige Auswertung
gefordert!
-10
][-5
Ablehungsbereich
0
5
Annahmebereich
Blutdrucksenkung [mmHg]
][10
15
Ablehungsbereich
24
Interpretation eines Testergebnisses
Was muss bei einer Sachaussage im Anschluss an
einen statistischen Test beachtet werden?
1.
Testentscheidung: „signifikant“ bzw. „nicht
signifikant“ mit Signifikanzniveau
2.
Was wird verglichen? (Gruppeneinteilung)
3.
Was ist die Grundgesamtheit?
4.
Was ist die Zielgröße?
(ggf. genauere Information, z.B. Zeitangabe)
5.
Falls ein signifikanter Unterschied besteht:
Interpretation! (Welche Richtung?)
Spezielle statistische Tests
Vergleich der Mittelwerte zweier Gruppen
Gen A
Gruppe 1
Gruppe 2
Gen B
Welches Gen ist
„weniger stark“ exprimiert?
…
Genexpressionsmessungen
26
Zwei-Gruppen Lagevergleich
Daten: Expression von
Gen g in verschiedenen
Proben (Absolutskala)
2
mean( Punkte)
Teststatistik, z.B.
Differenz der Gruppenmittel
d
1
Fragestellung / Hypothese
Ist die Expression von Gen g
in Gruppe 1 niedriger als die
in Gruppe 2?
d  1  2
mean ( Punkte)
Gruppe 1
Gruppe 2
Entscheidung
für “niedriger exprimiert“ wenn
d  d0
27
Zwei-Gruppen Lagevergleich
Schlechte Idee: Subtrahiere die
Gruppenmittelwerte d   1   2
Problem: d ist nicht
skaleninvariant
2
1
d
1
d
2
Gruppe 1
Gruppe 2
Lösung:
Teile d durch seine Standardabw.
d
t 
s(d )
Daraus entsteht die t-Statistik
bzw. der t-Test (für
unverbundene Stichproben)
28
Zwei-Gruppen Lagevergleich
Beispiel: t-Test für den Vergleich der Plazentagewichte
bei gesunden und diabetischen Müttern
Placentagewicht [g]
Zielgröße:
Plazentagewicht [g]
Gruppe 1: n = 23
gesundeMütter
Gruppe 2: n= 38 Mütter
mit manifestem Diabetes
1400
1200
1000
800
600
400
200
N=
23
38
Gesunde Mütter
Mütter mit Diabetes
Zwei-Gruppen t-Test
Maßzahlen zum Vergleich der beiden Gruppen
(Messwerte in Gramm)
Gruppe 1
Gruppe 2
Minimum
375
425
1. Quartil
500
600
Median
600
710
3. Quartil
650
825
Maximum
825
1290
Arithm. Mittelwert
601.7
728.5
Standardabweichung
125.4
183.1
Schiefe g
0.25
0.85
Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch)
sinnvoll
Zwei-Gruppen t-Test
Hypothesen:
H0: Es gibt keinen (Mittelwerts-) Unterschied in den
Plazentagewichten zwischen gesunden und diabetischen
Müttern
H1: Es gibt einen (MW-) Unterschied in den
Plazentagewichten zwischen gesunden und diabetischen
Müttern
Gewähltes Signifikanzniveau: α = 5%
Zweiseitiger Test
Zwei-Gruppen t-Test
Voraussetzung: Gaußverteilung in beiden Gruppen
Zeile „Varianzen gleich“: Auch noch gleiche Varianzen (bzw.
Standardabweichungen) in beiden Gruppen nötig.
Zeile „Varianzen ungleich“ bedeutet nur: Gleiche Varianzen
sind nicht erforderlich.
Pragmatisch: Immer 2. Zeile verwenden!
p = 0.002 32
Zwei-Gruppen t-Test
Ergebnis:
Mittelwertsdifferenz = (–) 126.7
p-Wert = 0.002
p = 0.002 = 0.2% < 5% = 0.05 = α
Also signifikanter Unterschied zum Niveau 5%!
Sachaussage: Zum Signifikanzniveau α = 5% besteht ein
signifikanter Mittelwerts-Unterschied in den
Plazentagewichten zwischen gesunden und diabetischen
Müttern. Konkret haben diabetische Mütter höhere
Plazentagewichte.
Interpretation des p-Werts: Falls zwischen den
(mittleren) Plazentagewichten zwischen gesunden und
diabetischen Müttern kein Unterschied besteht (also H0
gilt), beträgt die Wahrscheinlichkeit, dennoch einen
Mittelwertsunterschied von mindestens 126.7 g zu
beobachten, unter den gegebenen Umständen 0.2%.
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)
Untersuche für unverbundene Stichproben:
Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ?
Messgröße
Gruppe 1
18
3
6
9
5
Gruppe 2
15
10
8
7
12
Originalskala
Rangskala
3
5 6 7 8 9 10
12
15
18
1 2 3 4 5 6 7 8 9 10
Rangsumme Gruppe 1:
1+2+3+6+10 = 22
Rangsumme Gruppe 2:
4+5+7+8+9 = 33
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)
Wähle die Rangsumme von Gruppe 1 als Teststatistik
Der zur Rangsumme gehörige
p-Wert kann per Computer für
kleine Gruppenzahlen exakt
oder für große Gruppenzahlen
näherungsweise berechnet
werden:
P(W≤22, falls die Gruppenzugehörigkeiten zufällig sind)
= 0.15
15
20
22
25
30
35
40
Wilcoxon W
Rangsummenverteilung für Gruppe 1,
|Gruppe 1| = 5, |Gruppe 2| = 5
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)
Beispiel Plazentagewichte
• Für größere Fallzahlen
(N>20) wird eine
Näherung berechnet
• Der Wilcoxon Test kann
einseitig oder zweiseitig
durchgeführt werden
Testübersicht: Gruppenvergleich eines stetigen Merkmals
Zu klärende Frage: Existiert ein Lageunterschied der
Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2?
Sind die Daten
normalverteilt?
ja
Verbundene
Stichproben?
Verbundene
Stichproben?
ja
t-Test für
verbundene
Stichproben
nein
nein
t-Test für
unverb.
Stichproben
ja
Wilcoxon
Vorzeichentest
nein
Wilcoxon
Rangsummentest
37
Vergleich zweier binärer Merkmale
Wahl der Teststatistik: „Exakter Fisher-Test“
Sir Ronald Aylmer Fisher, 1890-1962
Theoretischer Biologe,
Evolutionstheoretiker und Statistiker
Vergleich zweier binärer Merkmale
Unverbundene Stichproben: Exakter Fisher Test
Der exakte Fisher Test soll die Frage beantworten:
Gibt es Unterschiede in der Verteilung █ und █ ?
Bsp.: Wirksamkeitsstudie mit unverbundenen
Stichproben (jeder Probend erhält nur einen
Präparat)
Wirkung
Medikamentengabe
Wirkt
Wirkt
nicht
Verum
65
7
Placebo
44
13
Odds und Odds Ratio
Kopf
Zahl
Faire Münze
54
46
Gebogene Münze
82
18
Odds (= Chance):
Häufigkeitsverhältnis in einer Gruppe,
Quote einer fairen Wette
Odds (faire Münze) = 54 : 46 = 1.17
Odds (gebogene M.) = 82 : 18 = 4.56
Odds Ratio (Chancenverhältnis)
54 / 46 1.17
OR 

 0.26
82 / 18 4.56
Bsp: Dickdarmkarzinom
Bsp: Dickdarmkarzinom
4-Jahres-Überleben
Impfung
Ja
Nein
Ja (n=32)
30 (94%)
2 (6%)
Nein (n=30)
23 (77%)
7 (23%)
Interessierende Fragen:
Hat die Impfung einen Einfluss auf das Überleben?
Ist der Einfluss „signifikant“?
Bsp: Dickdarmkarzinom
Grundgesamtheit: Alle jetzigen und künftigen Patienten mit
Dickdarm-Ca und Metastasen.
Nullhypothese H0: Die Impfung hat keinerlei Effekt auf den
Zustand der Patienten. Die Überlebensraten bei der
Grundgesamtheit sind mit und ohne Impfung gleich.
Gegenhypothese (Alternativhypothese) H1:
Die Überlebensraten bei der Grundgesamtheit sind mit
Impfung und ohne Impfung unterschiedlich. (zweiseitige
Fragestellung)
Wähle das Signifikanzniveau α
(oft gewählt: α = 1%; 0.1%; 5%; 10%)
Genaue Interpretation des Signifikanzniveaus α :
Wenn in Wirklichkeit kein Unterschied besteht (also H0 gilt),
erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch
positive Aussage).
Bsp: Dickdarmkarzinom
Testergebnis nach Durchführung des exakten FisherTests:
p = 0.0766  7.7%
Hat man α = 5% gewählt, so gilt:
Da p > α, wird die Nullhypothese beibehalten.
Sachaussage: Es besteht zum Niveau α = 5% kein
signifikanter Effekt der Impfung auf die Überlebensrate
nach 4 Jahren.
Folgerung: Wir sind (noch) nicht (hinreichend) davon
überzeugt, dass ein Unterschied in den Überlebensraten
besteht!
Bsp: Dickdarmkarzinom
Interpretation des Ergebnisses
(Dickdarmkarzinome mit und ohne Impfung)
Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32)
Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30)
Beobachteter Unterschied in der
4-Jahres-Überlebensrate: 17%
exakter Fisher-Test: p = 0.077
Falls die Impfung keinerlei Effekt hat (also H0 gilt),
beträgt die Wahrscheinlichkeit, dennoch einen
Unterschied von mindestens 17% zwischen beiden
Gruppen zu erhalten, unter den gegebenen Umständen
7.7%.
Vergleich zweier kategorialer Merkmale
Unverb. Stichproben:
Chiquadrat-Test (χ2-Test)
Tumorgröße
Auftreten von LGE
Ja
Nein
1
10
8
2
20
23
3
19
10
4
32
18
H0: Es besteht kein Zusammenhang zwischen Tumorgröße
und dem Auftreten von LGE (oder: die Tumorgröße hat
keinen Einfluss auf das Auftreten von LGE)
H1: Es besteht ein Zusammenhang zwischen Tumorgröße und
dem Auftreten von LGE (oder: die Tumorgröße hat einen
Einfluss auf das Auftreten von LGE)
Vergleich zweier kategorialer Merkmale
Unverb. Stichproben: Chiquadrat-Test (χ2-Test)
Im gegebenen Beispiel erhält man mit SPSS „p = 0.000“
(also: p < 0.001).
Wurde als Signifikanzniveau α = 5% gewählt, so ergibt
sich als
Sachaussage: Bei Patienten mit Magenkarzinomen
besteht ein zum 5%-Niveau signifikanter Zusammenhang
zwischen Tumorgröße und dem Auftreten von LGE (oder:
„..... Einfluss der Tumorgröße auf das Auftreten von
LGE“). Konkret: je größer der Tumor, desto häufiger
treten LGE auf.
Vergleich zweier kategorialer Merkmale
Unverb. Stichproben: Chiquadrat-Test (χ2-Test)
Voraussetzungen des Chiquadrat-Tests
Gesamt-Fallzahl nicht zu klein (etwa n ≥ 60)
Erwartungswerte (erwartete Häufigkeiten) nicht zu
klein (alle ≥ 5)
Beachte: Bei zwei binären Merkmalen verwende
eine Vierfeldertafel und den exakten Fisher-Test!
Testübersicht: Vergleich zweier kategorialer Variablen
Zu klärende Frage: Gibt es Unterschiede in den
Häufigkeitsverteilungen der verschiedenen Gruppen?
Sind die Daten
binär?
ja
Verbundene
Stichproben?
Verbundene
Stichproben?
ja
McNemar Test
(Messen die
beiden Variablen
das Gleiche?)
nein
nein
Exakter Fisher
Test
(Besteht eine
Abhängigkeit?)
ja
(Bowker
Symmetrietest)
nein
Chiquadrat
(χ2) -Test
49
Übersicht: Deskription und statistische Tests (2 Merkmale)
Merkmal
stetig
stetig
Design
Deskription
numerisch
unverbunden
Mediane,
Quartile
verbunden
Deskription
graphisch
Test
2 Boxplots
WilcoxonRangsumment-Test*
Median,
WilcoxonDifferenzenQuartile der
Vorzeichen-,
Boxplot
Differenz
t-Test*
unverbunden
Kreuztabelle
,Zeilen%,
RR, RD, OR
Balkendiagramm
Exakter
Fisher-Test
binär
verbunden
Kreuztabelle
(“Mc-NemarTafel“)
Balkendiagramm
McNemarTest
kategorial
unverbunden
Kreuztabelle
,Zeilen%
(3D Balkendiagramm)
χ2-Test
binär
* Bei Normalverteilung
50
Beachte
Die Angabe eines Testergebnisses ohne eine sinnvolle
Deskription ist uninformativ.
Oft: Angabe von Konfidenzbereichen wünschenswert.
Als Testergebnis sollte nicht nur „Zum Niveau α
signifikant/nicht signifikant“ angegeben werden,
sondern der p-Wert (geeignet gerundet), zumindest
wenn er kleiner als (etwa) 0.1 ist.
Niemals „p=0“ oder gar „p<0.000“ als Testergebnis
angeben!
Statistische Signifikanz ≠ Relevanz
Sehr viele Fälle:
Auch kleine Unterschiede
werden signifikant
Wenige Fälle:
Ein beobachteter
Unterschied kann relevant,
aber nicht statistisch
signifikant sein.
52
Problematik des Multiples Testens
Beispiele:
Untersuchung mehrerer
Endpunkte (systolischer,
diastolischer Blutdruck,
Pulsfrequenz)
Vergleich mehrerer Gruppen
(z.B. bei 4 Gruppen: 6
Paarvergleiche)
Bei jedem Test tritt eine falsche Signifikanz (= falsch
Positives) mit 5% Wahrscheinlichkeit auf (falls α = 5%)
→ Bei 6 Tests steigt die Wahrscheinlichkeit des
Auftretens einer falschen Signifikanz bis zu 30%!
53
Problematik des Multiples Testens
Lösungsmöglichkeit: Korrektur nach Bonferroni
Führe jeden der einzelnen Tests zum Niveau α/m
(„lokales Signifikanzniveau α/m “) durch
(m = Anzahl der Tests)
Die Wahrscheinlichkeit eines Auftretens einer falschen
Signifikanz bei Durchführung aller m Tests beträgt dann
höchstens α („multiples/globales Niveau α“)
z. B. m = 6
Gewünschtes multiples Niveau: α = 5%
→ lokales Signifikanzniveau: α/m = 5%/6 = 0.83%
Herunterladen