Statistisches Lernen - Woche 10: Multiples Testen

Übersicht
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
Dr. rer. nat. Fabian Schwarzenberger
4
Multiple Fehler
Institut für Medizinische Informatik, Statistik und Epidemiologie
Universität Leipzig
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Statistisches Lernen
Woche 10: Multiples Testen
WS 2014/2015
1 / 50
Grundlagen und Wiederholung
2 / 50
Grundlagen und Wiederholung
Bezeichnungen
Statistisches Experiment/Modell
X ... Zufallsvariable/ Zufallsgröße die den Ausgang eines
Experimentes beschreibt,
Ω ... zu X gehöriger Stichprobenraum (Menge der Realisierungen von
X ; Annahme: Ω ≠ ∅)
A ... Sigma-Algebra über Ω
Definition
Sei P = {Pϑ ∣ ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf
(Ω, A), so heißt das Tripel
(Ω, A, P)
statistisches Experiment oder statistisches Modell.
Falls Θ ⊆ Rk mit k ∈ N, so heißt (Ω, A, P) parametrisches statistisches
Modell, ϑ ∈ Θ Parameter und Θ Parameterraum.
A ∈ A ... Ereignis (ein Element der Sigma-Algebra A)
PX ... Verteilung von X (ein Wahrscheinlichkeitsmaß auf Ω)
generelle Annahme: PX ∈ P = {Pϑ ∣ ϑ ∈ Θ}
Beachte
x ∈ Ω bezeichnet also alle unsere vorliegenden Beobachtungen. x ist
also typischerweise ein Vektor: x = (x1 , . . . , xn )
statistische Inferenz: Aussagen über die wahre Verteilung PX bzw.
den wahren Parameter ϑ gewinnen
Die Sigma-Algebra A wird hier der Vollständigkeit/Korrektheit halber
aufgeführt. Sie wird im Folgenden zwar weiter mit erwähnt, aber
keine (vordergründige) Rolle spielen
3 / 50
Wir wollen wissen:
Welches ist das wahre Pϑ unter allen möglichen {Pϑ ∣ ϑ ∈ Θ} ?
4 / 50
Grundlagen und Wiederholung
Grundlagen und Wiederholung
Testproblem (1)
Testproblem (2)
mit Maßen: gegeben P0 und P1 mit P0 ∩ P1 = ∅ und P0 ∪ P1 = P so
ist Entscheidung gesucht über
PX ∈ P0
oder PX ∈ P1 ;
H0 und H1 nennt man Hypothesen
H0 heißt Nullhypothese
H1 heißt Alternativhypothese
beziehungsweise (etwas formaler): wir testen
H0 ∶ PX ∈ P0
versus
H1 ∶ PX ∈ P1
Interpretation: häufig werden die Hypothesen H0 und H1 als
Teilmengen des Parameterraums Θ interpretiert, also
mit Parametern: gegeben Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und
Θ0 ∪ Θ1 = Θ so ist Entscheidung gesucht über
ϑ ∈ Θ0
H 0 ∩ H1 = ∅
und H0 ∪ H1 = Θ
oder ϑ ∈ Θ1
beziehungsweise (etwas formaler): wir testen
H0 ∶ ϑ ∈ Θ0
versus
H1 ∶ ϑ ∈ Θ1
5 / 50
Grundlagen und Wiederholung
6 / 50
Grundlagen und Wiederholung
Beispiel Testproblem
Statistischer Test
Beispiel
Definition
Eine Abbildung φ ∶ Ω → {0, 1} heißt statistischer Test, falls für alle
A ⊆ {0, 1}
{x ∈ Ω ∣ φ(x) ∈ A} ∈ A
Wir wollen überprüfen ob der Mittelwert von (mit Varianz 1)
normalverteilten Daten gleich 0 ist oder nicht. Dazu betrachten wir:
P ∶= {Nm,1 ∣ m ∈ R}, P0 ∶= {N0,1 }, P1 ∶= {Nm,1 ∣ m ∈ R ∖ {0}}
(i) Mit Worten
H0 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW= 0
versus
H1 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW≠ 0
H0 ∶ P = N0,1
versus
H1 ∶ P ∈ P1
X
(iii) Mit Parametern: wir setzen P = {Nm,1 ∣ m ∈ Θ},
Θ ∶= R,
Beachte
Die Bedingung (1) ist eine Messbarkeits-Bedingung und stellt sicher dass
dem Annahmebreich und dem Ablehnungsbereich Wahrscheinlichkeiten
zugeordent werden können.
Θ0 ∶= {0} und Θ1 ∶= R ∖ {0}
dann ist das Testproblem
H0 ∶ ϑ = 0
versus
H1 ∶ ϑ ≠ 0
Konvention: gegeben x ∈ Ω
φ(x) = 1 ⇔ H0 wird verworfen, Entscheidung für H1
φ(x) = 0 ⇔ H0 wird nicht verworfen
Ablehnungsbereich/kritischer Ber.: {x ∈ Ω ∣ φ(x) = 1}, kurz {φ = 1}
Annahmebereich: {x ∈ Ω ∣ φ(x) = 0}, kurz {φ = 0}
(ii) Mit Maßen
X
(1)
7 / 50
8 / 50
Grundlagen und Wiederholung
Grundlagen und Wiederholung
Fehler
Bezeichnungen und Fakten
Fehler 1. Art: Entscheidung für H1 obwohl H0 wahr ist (auch
α-Fehler, type-I-error)
φ(x) = 1
obwohl
Für gegebenen Test φ und ϑ ∈ Θ bezeichnen wir die
Ablehnwahrscheinlichkeit mit
wahres ϑ ∈ H0
βφ (ϑ) ∶= Eϑ (φ) = Pϑ ({φ = 1}) = ∫ φ dPϑ .
Ω
Fehler 2. Art: Entscheidung für H0 obwohl H1 wahr ist (auch
β-Fehler, type-II-error)
φ(x) = 0
Für gegeben Test φ und ϑ ∈ Θ1 heißt βφ (ϑ) Gütefunktion von φ an
der Stelle ϑ.
obwohl wahres ϑ ∈ H1
Beachte: für ϑ ∈ Θ0 ist βφ (ϑ) gerade die Wahrscheinlichkeit für einen
Fehler 1. Art des Tests φ
Ist φ ein Test mit
Vorgehen:
1 Festlegen einer oberen Schranke α für die Wahrscheinlichkeit einen
Fehler 1. Art zu begehen
2 Unter Beachtung von (1), Minimierung der Wahrscheinlichkeit für
Fehler 2. Art.
βφ (ϑ) = Pϑ ({φ = 1}) ≤ α
für alle ϑ ∈ Θ0 ,
so ist nennt man φ Test zu Niveau α.
9 / 50
10 / 50
Beispiele für multiple Tests
Beispiele für multiple Tests
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Mehrere Tests
Bisher: eine Fragestellung anhand der Beobachtung x ∈ Ω
Nun: mehrere Fragestellungen anhand der Beobachtung x ∈ Ω
Beispiel Düngemittel-Vergleich“
”
Zum Vergleich von 5 Düngemitteln gegen Blattläuse wurde jedes
Düngemittel an 100 Planzen getestet (also insgesamt 500 Pflanzen). Die
Anzahl der Blattläuse nach Versuchsende soll die Wirksamkeit
beschreiben. Wir bezeichnen mit Xij , i = 1, . . . , 5 und j = 1, . . . , 100 die
Anzahl der Blattläuse an Pflanze j in der Gruppe i und nehmen an dass
die Xij stochastisch unabhängig sind und Xij ∼ N (µi , σ 2 ) mit µi , σ > 0 für
i = 1, . . . , 5.
Paarweise Tests zum Vergleich der Mittlwerte:
Hij ∶ {µi = µj } versus
11 / 50
Kij ∶ {µi ≠ µj }
für 1 ≤ i < j ≤ 5
12 / 50
Beispiele für multiple Tests
Beispiele für multiple Tests
Beispiel Düngemittel-Vergleich“, fortgesetzt
”
Beispiel Genetik“
”
Beispiel: Düngemittel-Vergleich
Paarweise Tests zum Vergleich der Mittlwerte:
In explorativen genetischen Analysen werden oft etwa 500.000 SNPs auf
einen Zusammenhang mit einem bestimmten Phänotyp untersucht.
Nehmen wir an, wir haben für jeden dieser SNPs einen entsprechenden
Test (mit Nullhypothese Unabhängigkeit von SNP und Phänotyp“)
”
durchgeführt und einen p-Wert berechnet. Wir wissen bereits (und hören
es bald auch nochmal), dass p-Werte unter der Nullhypothese auf [0, 1]
gleichverteilt sind. Wir setzen nun voraus:
die p-Werte sind alle unabhängig voneinander (was
zugegebenermaßen nicht ganz stimmt)
keiner der SNPs hat einen tatsächlichen Zusammenhang mit dem
Phänotyp,
Dann werden sich die 500.000 p-Werte gleichmäßig auf [0, 1] verteilen:
Hij ∶ {µi = µj } versus
Kij ∶ {µi ≠ µj }
für 1 ≤ i < j ≤ 5
Möglichkeit 1: Klassische Varianzanalyse (ANOVA) testet die
Globalhypothese H0 = ⋂1≤i<j≤5 Hij (alle Mittelwerte sind gleich) gegen
die Alternativehypothese H1 ∶ ∃i, j ∈ {1, . . . , 5} mit µi ≠ µj . Wird H0
abgelehnt, so bekommt man aber keine Aussage welche Paare
unterschiedlich sind.
Möglichkeit 2: (52) = 10 t-Tests. Für jedes Paar i, j ∈ {1, . . . , 5} mit
i ≠ j lässt sich mit dem t-Test zum Niveau α die Hypothese Hij gegen
die Alternative Kij testen. Für ein festes Paar i, j ist damit die
Wahrscheinlichkeit für einen Fehler 1. Art ≤ α.
ABER: Die Wahrscheinlichkeit, dass in irgendeinem der 10 Tests ein
Fehler 1. Art auftritt ist wesentlich höher!
13 / 50
Beispiele für multiple Tests
0 0.05
1
Unter der Signifikanzschwelle“ 0.05 landen ganz zufällig (im Mittel)
”
0, 05 ∗ 500000 = 25000 SNPs !!!! (trotz Unabh. vom Phänotyp!)
14 / 50
Beispiele für multiple Tests
Beispiel Multiple Endpunkte“ (1)
”
Beispiel Multiple Endpunkte“ (2)
”
Einfluss von Schlafentzug auf Aufmerksamkeit
Getestet werden soll der Einfluss von Schlafentzug auf Aufmerksamkeit.
Drei Arten der Aufmerksamkeit (welche in Testungen gemessen werden
sollen) sind Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit.
Es werden 2 Gruppen gebildet: eine mit Probanden die in den letzten 24
Stunden maximal 3 Stunden geschlafen haben und eine (Kontroll-)Gruppe
mit Probanden, die mindesten 6 Stunden in den letzten 24 Stunden
geschlafen haben. Nun werden Testungen an den Probanden durchgeführt
und daraus metrische Werte für Vigilanz, Daueraufmerksamkeit und
geteilte Aufmerksamkeit abgeleitet.
Mögliche Vorgehensweisen:
15 / 50
Methode 1: Für jede Zielvariable einen Test durchführen (z.B je
einen t-Test) und dann auf multiples Testen korrigieren.
Methode 2: Konzentration auf nur eine Art der Aufmerksamkeit,
etwa die Daueraufmerksamkeit“. Die Daten für Vigilanz und geteilte
”
Aufmerksamkeit gehen nicht in die Analyse ein, sondern werden nur
explorativ untersucht.
Methode 3: Aus den metrischen Werten für Vigilanz,
Daueraufmerksamkeit und geteilte Aufmerksamkeit eine Zielvariable
bilden, etwa durch eine gewichtete Summe.
16 / 50
Beispiele für multiple Tests
Multiple Tests (formale Einführung)
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Hauptursachen für Schwierigkeiten beim multiplen Testen
Prüfgrößen der Einzeltests sind im Allgemeinen nicht stochastisch
unabhängig
Gemeisame Verteilung ist schwer oder gar nicht bestimmbar
Wird jeder Einzeltest zum Niveau α durchgeführt, kann die
Irrtumswahrscheinlichkeit der Gesamtaussage unüberschaubar werden
17 / 50
18 / 50
Multiple Tests (formale Einführung)
Multiple Tests (formale Einführung)
Multiples Testproblem
Hypthesen-Struktur
Definition
Seien (Ω, A, P) mit P = {Pϑ ∣ ϑ ∈ Θ} ein statistisches Modell, m ∈ N ∖ {1}
und I = {1, . . . , m}. Seien ∅ ≠ Hi ⊆ Θ, i ∈ I paarweise verschieden und
setze Ki ∶= Θ ∖ Hi . Sei weiterhin ϑ ∈ Θ der wahre Parameter. Dann heißt
die Menge H ∶= {Hi ∣ i ∈ I } Hypothesensystem;
Hi wahr, wenn ϑ ∈ Hi ;
Hi falsch, wenn ϑ ∈ Ki ;
Sei H = {H1 , . . . , Hm } Hypothesensystem.
Eine Hypothese Hi ∈ H heißt echte Obermenge von Hj ∈ H, falls
Hi ≠ Hj und aus der Richtigkeit von Hj die Richtigkeit von Hi folgt.
Man schreibt Hi ⊃ Hj .
Hi ∈ H heißt Elementarhypothese, falls sie nicht als Durchschnitt ihrer
echten Obermengen darstellbar ist.
Der nichtleere Durchschnitt aller Elementarhypothesen wird
Globalhypothese genannt.
das Tupel (Ω, A, P, H) ein multiples Testproblem.
H1 ∩ H 2 ∩ H3
Merke: Ein multiples Testproblem ist statistisches Modell gemeinsam mit
mehreren (unterschiedlichen) Hypothesen.
Für einen (beliebigen) Parameter ϑ setzen wir
I0 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Hi } die Indexmenge der (unter ϑ) wahren
Nullhypothesen
I1 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Ki } die Indexm. d. (unter ϑ) falschen Nullhyp.
19 / 50
Globalhypothese
H1 ∩ H 2
H1 ∩ H3
H2 ∩ H3
Schnitthypothesen
H1
H2
H3
Elementarhypothesen
20 / 50
Multiple Tests (formale Einführung)
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α
Definition
Sei (Ω, A, P, H) ein multiples Testproblem mit Indexmenge
I = {1, . . . , m}. Dann heißt φ = (φ1 , . . . , φm ) ein multipler Test, falls für
jedes i ∈ I gilt: φi ist ein statistischer Test.
Sei φ = (φ1 , . . . , φm ) ein multipler Test zum multiplen Testproblem
(Ω, A, P, H) und α ∈ (0, 1). Dann heißt φ multipler Test
(a) zum lokalen Niveau α, falls für alle i ∈ I
Damit ist jedes φi eine Abbildung
Pϑ ({φi = 1}) ≤ α
φi ∶ Ω → {0, 1}
für alle ϑ ∈ Hi
(b) zum globalen Niveau α, falls
und φ ordnet jeder Beobachtung x ∈ Ω einen m-dimensionalen Vektor aus
Nullen und Einsen zu.
m
Pϑ ( ⋃ {φi = 1}) ≤ α
i=1
Konvention
m
für alle ϑ ∈ H0 ∶= ⋂ Hi
i=1
(c) zum multiplen Niveau α, falls für alle ϑ ∈ Θ
φi (x) = 1
⇔
Hi wird verworfen, Entscheidung für Ki
φi (x) = 0
⇔
Hi wird nicht verworfen
Pϑ ( ⋃ {φi = 1}) ≤ α
i∈I0 (ϑ)
21 / 50
Multiple Tests (formale Einführung)
22 / 50
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α, Erläuterungen (1)
Multipler Test zum Niveau α, Erläuterungen (2)
ϑ ∈ ⋂m
i=1 Hi heißt: ϑ ”liegt in jeder“ Nullhypothese bzw. rechnen wir
mit diesem ϑ so gilt jede Nullhypothese bzw. die Globalhypothese gilt
ϑ ∈ Hi heißt: rechnen wir mit diesem ϑ (bzw. Pϑ ) so gilt die i-te
Nullhypothese
⋃m
i=1 {φi = 1} heißt: mindestens eine der Hypothesen H1 , . . . , Hm wird
abgelehnt
Pϑ ({φi = 1}) ≤ α heißt: die WK (gemessen mit Pϑ ) dass die i-te
Nullhypothese abgelehnt wird ist kleiner-gleich α
m
P ϑ (⋃ m
i=1 {φi = 1}) ≤ α für alle ϑ ∈ ⋂i=1 Hi heißt: falls alle H1 , . . . , Hm
gelten, so ist die Wahrscheinlichkeit dass mindestens eine der
H1 , . . . , Hm abgelehnt wird kleiner-gleich α.
Pϑ ({φi = 1}) ≤ α für alle ϑ ∈ Hi heißt: Falls wir wissen, dass die i-te
Nullhypothese gilt, so ist die Wahrscheinlichkeit, dass die i-te
Nullhypothese abgelehnt wird kleiner-gleich α.
⋃i∈I0 (ϑ) {φi = 1} heißt: mindestens eine der (unter ϑ) geltenden
Nullhypothesen wird abgelehnt
für ϑ ∈ Θ gilt Pϑ (⋃i∈I0 (ϑ) {φi = 1}) ≤ α heißt: die Wahrscheinlichkeit
dass eine unter ϑ geltende Nullhypothese abgelehnt wird, ist
kleiner-gleich α
23 / 50
24 / 50
Multiple Tests (formale Einführung)
Multiple Fehler
Multipler Test zum Niveau α, Erläuterungen (3)
Inhalt
Welches Niveau (lokal, global oder mutipel) sollte uns nun interessieren?
Fordern wir dass φ ein multipler Test zum lokalen Niveau α ist und
alle φi (X ) stochastisch unabhängig sind mit
Pϑ ({φi = 1}) = α für alle ϑ ∈ Hi und alle i ∈ I0 (ϑ)
Dann kann die Wahrscheinlichkeit für irgendeinen Fehler 1. Art sehr
groß sein: Für alle ϑ ∈ Θ gilt:
Pϑ ( ⋃ {φi = 1}) = 1 − (1 − α)∣I0 (ϑ)∣
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
i∈I0 (ϑ)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ fast 1 falls ∣I0 (ϑ)∣ groß
/
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
irgendein Typ I Fehler
Ein Test zum globalen Niveau α ist nur sinnvoll, wenn uns die
Globalhypothese (alle Hi treffen gleichzeitig zu) interessiert. Dies ist
oft nicht der Fall. /
Ein Test zum multiplen Niveau α kontrolliert die WK für irgendeinen
Typ I Fehler ,
25 / 50
Multiple Fehler
26 / 50
Multiple Fehler
Multiple Fehler
Family-Wise Error Rate
Definition
Ist φ ein multiper Test, x ∈ Ω eine Beobachtung und ϑ der wahre
Parameter, so ergibt φ einen
Definition
Der Ausdruck (aus der Def. zum multiplen Test zum multiplen Niveau α)
FWERϑ (φ) ∶= Pϑ (⋃i∈I0 (ϑ) {φi = 1})
(i) multiplen Fehler 1. Art (oder multiplen Typ I Fehler), falls ein j ∈ I
existiert mit
φj (x) = 1 und ϑ ∈ Hj
(ii) multiplen Fehler 2. Art (oder multiplen Typ II Fehler), falls ein j ∈ I
existiert mit
φj (x) = 0 und ϑ ∈ Kj
bei einem multiplen Test können beide Fehler gleichzeitig auftreten
Ist φ ein multipler Test zum multiplen Niveau α, so ist die
Wahrscheinlichkeit für irgendeinen multiplen Fehler 1. Art kleiner
gleich α (gleichgültig welche und wie viele der Hi wahr sind).
wird oft als Family-Wise Error Rate (FWER) oder Experiment-Wise
Error Rate bezeichnet.
Ein multipler Test φ für den
FWERϑ (φ) ≤ α
für alle ϑ ∈ Θ
(2)
gilt, ist also ein multipler Test zum multiplen Niveau α. Die Bedingung (2)
kann man auch mittel einem Supremum ausdrücken:
FWER(φ) ∶= sup(FWERϑ (φ)) ≤ α
ϑ∈Θ
Es folgen 2 Methoden um die FWER zu beschränken...
27 / 50
28 / 50
Multiple Fehler
Multiple Fehler
Šidák-Methode
Bonferroni-Methode
Šidák (vgl. Šidák 1967)
Bonferroni (vgl. Bonferroni 1936)
Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ
ein multipler Test. Dann gilt: falls
Pϑ ({φi = 1}) ≤ α/m
Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ
ein multipler Test. Dann gilt: falls die Zufallsvariablen φi (X ),
i ∈ I ∶= {1, . . . , m} stochastisch unabhängig sind und
für alle ϑ ∈ Hi , für alle i ∈ I ,
Pϑ ({φi = 1}) ≤ 1 − (1 − α)1/m
so folgt
FWERϑ (φ) ≤ α
für alle ϑ ∈ Hi , für alle i ∈ I ,
so folgt
für alle ϑ ∈ Θ.
FWERϑ (φ) ≤ α
In Worten: Ist φ ein multipler Test zum lokalen Niveau α/m, so ist φ
auch ein multipler Test zum multiplen Niveau α.
für alle ϑ ∈ Θ.
In Worten: Ist φ ein multipler Test zum lokalen Niveau αm und sind die
φi (X ) stochastisch unabhängig, so ist φ auch ein multipler Test zum
multiplen Niveau α.
Aufgabe
Zeigen Sie, dass obige Implikation gilt.
Aufgabe
Zeigen Sie, dass obige Implikation gilt.
30 / 50
29 / 50
Multiple Fehler
p-Wert
Aufgaben
Inhalt
Aufgabe
Sie betrachten ein multiples Testproblem (Ω, A, P, H) und wissen, dass
für den multiplen Test φ gilt, dass die Zufallsvariablen
φi (X ), i ∈ I ,
stochastisch unabhängig
sind. Ist die Šidák-Methode oder die Bonferroni-Methode zu bevorzugen?
Begründen Sie Ihre Antwort.
Aufgabe
Wir führen eine explorative Untersuchung von 10.000 Genen in einer
Genexpressionsanalyse durch. Es soll herausgefunden werden ob es Gene
gibt, welche einen signifikanten Zusammenhang mit der metrischen
Zielvariable y (z.B. Körpergröße) haben. Wie lässt sich dies testen, wenn
die FWER kontrolliert werden soll?
31 / 50
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
32 / 50
p-Wert
p-Wert
p-Wert
p-Wert, Spezialfälle
Wir betrachten ein statistisches Modell (Ω, A, P) und einen Test φ für das
Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R
beruht. Für jedes α ∈ (0, 1) liefert φ einen Ablehnungsbereich Γα :
rechtsseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt [γα , ∞)
(mit γα so dass Pϑ0 (T (X ) ≥ γα ) = α), vereinfacht sich die Definition des
p-Wert zu
pφ (x) = Pϑ0 (T (X ) ≥ T (x))
φ(x) = 1
⇔
T (x) ∈ Γα
Falls H0 einelementig ist, also H0 = {ϑ0 }, so ist der p-Wert definiert als:
pφ (x) = inf{Pϑ0 (T (X ) ∈ Γα ) ∣ α ∈ (0, 1), T (x) ∈ Γα }
Beachte: H0 ist nicht immer einelementig. Falls ∣H0 ∣ > 1 wird die Formel
etwas komplizierter.
Merksatz: pφ (x) ist die Wahrscheinlichkeit dass, unter der Nullhypothese,
das vorliegende x oder ein noch extremeres beobachtet wird.
linksseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ]
(mit γα so dass Pϑ0 (T (X ) ≤ γα ) = α), vereinfacht sich die Definition des
p-Wert zu
pφ (x) = Pϑ0 (T (X ) ≤ T (x))
beidseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt
(−∞, γα ] ∪ [γα′ , ∞) ( mit γα und γα′ so dass Pϑ0 (T (X ) ≤ γα ) = α/2 und
Pϑ0 (T (X ) ≥ γα′ ) = α/2) vereinfacht sich die Definition des p-Wert zu
⎧
⎪
⎪2 ⋅ Pϑ0 (T (X ) ≥ T (x))
pφ (x) = ⎨
⎪
⎪
⎩2 ⋅ Pϑ0 (T (X ) ≤ T (x))
Warum dieser Merksatz zur Definition vom p-Wert passt, kann man besser
erkennen, wenn man sich folgende Spezialfälle anschaut: ...
33 / 50
falls Pϑ0 (T (X ) ≥ T (x)) ≤ 1/2
falls Pϑ0 (T (X ) ≤ T (x)) ≤ 1/2
34 / 50
p-Wert
Ein step-down Verfahren
p-Wert ist unter H0 gleichverteilt
Inhalt
Sei (Ω, A, P) ein statistisches Modell, φ ein Test für das Hypothesenpaar
H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Gilt
H = {ϑ0 } (einelementig)
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Pϑ0 stetig
φ so dass für jedes α ein cα existiert mit φ(x) = 1 ⇔ T (x) > cα ,
dann
Pϑ0 (pφ (X ) ≤ t) = t
für alle t ∈ [0, 1]
Merksatz: Der p-Wert pφ (X ) ist unter der Nullhypothese gleichverteilt.
35 / 50
36 / 50
Ein step-down Verfahren
Ein step-down Verfahren
Bonferroni-Holm-Test
Bemerkungen zum Bonferroni-Holm-Test
Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei
H = {Hi ∣ i ∈ I = {1, . . . , m}} Elementarhypothesen sind. Für jedes i ∈ I sei
pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind
p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m]
und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen.
Wir setzen und für i = 1, . . . , m
⎧
⎪
falls pi (X ) stochastisch abhängig sind, Fall I
⎪α/i
αi ∶= ⎨
1/i
⎪
falls pi (X ) stochastisch unabhängig sind, Fall II
⎪
⎩1 − (1 − α)
Dann setzen wir
⎧
⎪
⎪1 falls i ≤ i ∗
φBH
=
⎨
i
∗
⎪
⎪
⎩0 falls i > i
Der Bonferroni-Holm-Test (BH-Test) ist ein step-down Test, da mit
dem signifikantesten Test begonnen wird (kleinster p-Wert) und
Schritt für Schritt bis zur Schranke i ∗ jede Hypothese abgelehnt wird
Fall I des BH-Test ist zu vergleichen mit der Bonferroni-Methode. Fall
II ist zu vergleichen mit der Šidák-Methode.
φBH beschränkt (wie die Bonferroni-Methode oder die
Šidák-Methode) die FWER durch vorgegebenes α
Aber, verglichen mit der Bonferroni-Methode oder der
Šidák-Methode, ist der BH-Test eine Verbesserung bezüglich Typ-II
Fehlern
mit
i ∗ ∶= max{i ∈ I ∣ pj ≤ αm−j+1 ∀j = 1, . . . , i}
Dieses φBH ist ein multipler Test zum multiplen Niveau α.
38 / 50
37 / 50
Ein step-down Verfahren
Ein step-down Verfahren
Beispiel zum Bonferroni-Holm-Test (1)
Beispiel zum Bonferroni-Holm-Test (2)
Wir haben in einem multiplen Testproblem die p-Werte
Fall II: wir können Unabhängigkeit voraussetzen
p1 = 0.0126, p2 = 0.007, p3 = 0.023, p4 = 0.02, p5 = 0.002, p6 = 0.5.
Geordnet ergibt das
p[1] = 0.002, p[2] = 0.007, p[3] = 0.0126, p[4] = 0.02, p[5] = 0.023, p[6] = 0.5.
Uns interessiert α = 0.05.
Fall I: wir können keine Unabhängigkeit voraussetzen
p[1] = 0.002 ≤ α6 = 0.05/6 = 0.008333,
H5 = H[1] ablehnen
p[2] = 0.007 ≤ α5 = 0.05/5 = 0.01,
H2 = H[2] ablehnen
p[3] = 0.0126 > α4 = 0.05/4 = 0.0125,
1
H5 = H[1] ablehnen
1
5
H2 = H[2] ablehnen
1
4
H1 = H[3] ablehnen
1
3
H4 = H[4] nicht ablehnen
1
2
H3 = H[5] nicht ablehnen
1
1
H6 = H[6] nicht ablehnen
p[1] = 0.002 ≤ α6 = 1 − 0.95 6 = 0.008512,
p[2] = 0.007 ≤ α5 = 1 − 0.95 = 0.010206,
p[3] = 0.0126 ≤ α4 = 1 − 0.95 = 0, 012741,
p[4] = 0.02 > α3 = 1 − 0.95 = 0.016952,
p[5] = 0.023 ≤ α2 = 1 − 0.95 = 0.025321,
p[6] = 0.5 > α1 = 1 − 0.95 = 0.05,
H1 = H[3] nicht ablehnen
p[5] = 0.023 ≤ α2 = 0.05/2 = 0.025,
H3 = H[5] nicht ablehnen
Sobald in Richtung ↓ das erste mal kein ≤ mehr steht, werden alle
vorherigen Hypothesen abgelehnt. Wegen der Richtung ↓ nennt man dies
ein Step-Down-Verfahren.
p[6] = 0.5 > α1 = 0.05/1 = 0.05,
H6 = H[6] nicht ablehnen
Beobachtung: In Fall II werden mehr Hypothesen abgelehnt als in Fall I.
p[4] = 0.02 > α3 = 0.05/3 = 0.01667,
H4 = H[4] nicht ablehnen
39 / 50
40 / 50
Die False Discovery Rate
Die False Discovery Rate
Inhalt
Summierte Größen
Bezeichnungen
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
ist m0 = m0 (ϑ) die Anzahl der (unter ϑ) wahren Nullhypothesen
5
p-Wert
ist m1 = m1 (ϑ) = m − m0 (ϑ) die Anzahl der (unter ϑ) falschen
Nullhypothesen
6
Ein step-down Verfahren
ist R(ϑ) = ∑m
i=1 φi die (zufällige) Anzahl verworfener Nullhypothesen
7
Die False Discovery Rate
8
Zusammenfassung
Sei (Ω, A, P, H) mit H = {Hi ∣ i ∈ I = {1, . . . , m}} ein multiples
Testproblem und φ = (φ1 , . . . , φm ) ein multipler Test. Sei ϑ ∈ Θ fest
vorgegeben. Dann
ist m die Anzahl der zu prüfenden Nullhypothesen
ist V (ϑ) = ∑i∈I0 (ϑ) φi die (zufällige) Anzahl der (unter ϑ)
fälschlicherweise verworfenen Nullhypothesen
ist S(ϑ) = ∑i∈I1 (ϑ) φi die (zufällige) Anzahl der (unter ϑ)
korrekterweise verworfenen Nullhypothesen
42 / 50
41 / 50
Die False Discovery Rate
Die False Discovery Rate
Unter den üblichen Voraussetzungen definieren wir:
Die Zufallsvariable
Schema
FDPϑ (φ) ∶=
Hypothesen
wahr
falsch
Test = 0
m0 − V (ϑ)
m1 − S(ϑ)
m − R(ϑ)
Test = 1
V (ϑ)
S(ϑ)
R(ϑ)
V (ϑ)
max{R(ϑ), 1}
heißt False Discovery Proportion.
Die Zahl
FDRϑ (φ) ∶= Eϑ (FDPϑ (φ))
m0 (ϑ)
m1 (ϑ)
m
heißt False Discovery Rate (FDR). Die FDR beschreibt also den
erwarteten Anteil an Typ I Fehlern unter allen Verwerfungen von φ.
Wir sagen der multiple Test φ ist FDR-kontrollierend zum Niveau α,
falls
FDR(φ) ∶= sup FDRϑ (φ) ≤ α
Beobachtung
V (ϑ) + S(ϑ) = R(ϑ)
In der Praxis werden wir nur R(ϑ) und m kennen.
ϑ∈Θ
FWERϑ (φ) = Pϑ (V (ϑ) > 0)
FWER(φ) = supϑ∈Θ Pϑ (V (ϑ) > 0)
Interpretation: Gilt FDR(φ) ≤ 0, 05 so liefert der Test φ im Mittel unter
100 Verwerfungen maximal 5 fälschlicherweise verworfene Tests.
Nun folgt ein Test der soetwas kann...
43 / 50
44 / 50
Die False Discovery Rate
Die False Discovery Rate
Benjamini-Hochberg-Test
Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei
H = {Hi ∣ i ∈ I = {1, . . . , m}}. Für jedes i ∈ I sei pi der p-Wert zum Test Hi
vs. Ki . Die geordneten p-Werte sind
p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m]
Unter gewissen Zusatz-Voraussetzungen ist φLSU
FDR-kontrollierend zum Niveau α.
Gilt entweder
und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen.
Wir setzen und für i = 1, . . . , m
iα
αi ∶= .
m
Dann definieren wir den linearen step-up Test von Benjamini und
Hochberg mittels
⎧
⎪
⎪1 falls i ≤ i ∗
φLSU
=
⎨
i
⎪0 falls i > i ∗
⎪
⎩
(a) pi (X ), i ∈ I sind unabhängige, auf [0, 1] gleichvert. Zufallsvariablen
oder
(b) ∀ϑ ∈ Θ ∶ ∀j ∈ I ∶ ∀i ∈ I0 (ϑ) ∶
Pϑ (R(ϑ) ≥ j ∣ pi ≤ t) ist nicht-wachsend in t ∈ (0, αj ]
so ist φLSU FDR-kontrollierend zum Niveau α.
mit
i ∗ ∶= max{i ∈ I ∣ pj ≤ αj }.
45 / 50
46 / 50
Die False Discovery Rate
Zusammenfassung
Beispiel zum Benjamini-Hochberg-Test
Inhalt
Wir haben in einem multiplen Testproblem die p-Werte
p1 = 0.028, p2 = 0.007, p3 = 0.4, p4 = 0.03, p5 = 0.002, p6 = 0.5.
Geordnet ergibt das
p[1] = 0.002, p[2] = 0.007, p[3] = 0.028, p[4] = 0.03, p[5] = 0.4, p[6] = 0.5.
Uns interessiert die FDR zum Niveau α = 0.05.
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
p[1] = 0.002 ≤ α1 = (1 ⋅ 0.05)/6 = 0.008333,
H5 = H[1] ablehnen
4
Multiple Fehler
p[2] = 0.007 ≤ α2 = (2 ⋅ 0.05)/6 = 0.016667,
H2 = H[2] ablehnen
5
p-Wert
p[3] = 0.028 > α3 = (3 ⋅ 0.05)/6 = 0.025,
H1 = H[3] ablehnen
6
Ein step-down Verfahren
p[5] = 0.4 > α5 = (5 ⋅ 0.05)/6 = 0.0416667, H3 = H[5] nicht ablehnen
7
Die False Discovery Rate
p[6] = 0.5 > α6 = (6 ⋅ 0.05)/6 = 0.05,
8
Zusammenfassung
p[4] = 0.03 ≤ α4 = (4 ⋅ 0.05)/6 = 0.033333,
H4 = H[4] ablehnen
H6 = H[6] nicht ablehnen
Sobald in Richtung ↑ das erste ≤ auftritt, werden von da an alle
Hypothesen abgelehnt. Wegen ↑ ist dies ein Step-Up-Verfahren.
47 / 50
48 / 50
Zusammenfassung
Zusammenfassung
Zusammenfassung
Quellen/Literaturtipps
Theorie der Multiplen Tests wird notwendig wenn
zu einer Beobachtung x mehrere Fragestellungen/Hypothesen
beantwortet werden sollen, und
das Interesse nicht auf die Globalhypothese (=alle Elementarhypothesen
gelten gleichzeitig) beschränkt ist, sondern Aussagen über die einzelnen
Elementarhypothesen gewünscht sind.
Wir haben 2 grundlegende Größen kennen gelernt, die wir mit
geeigneten Tests kontrollieren möchten/können
die FWER
die FDR
Skript Multiples Testen“ von Thorsten Dickhaus (ganz toll)
”
The Elements of Statistical Learning“, von Hastie, Tibshirani,
”
Friedman, second edition, 2008
Zur Kontrolle der FWER kennen wir
die Bonferroni-Methode
die Šidák-Methode
die Bonferroni-Holm-Methode (step-down-Methode)
Zur Kontrolle der FDR kennen wir
die Benjamini-Hochberg-Methode (step-up-Methode)
49 / 50
50 / 50