Statistisches Lernen - Woche 10: Multiples Testen

Werbung
Übersicht
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
Dr. rer. nat. Fabian Schwarzenberger
4
Multiple Fehler
Institut für Medizinische Informatik, Statistik und Epidemiologie
Universität Leipzig
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Statistisches Lernen
Woche 10: Multiples Testen
WS 2014/2015
1 / 50
Grundlagen und Wiederholung
2 / 50
Grundlagen und Wiederholung
Bezeichnungen
Statistisches Experiment/Modell
X ... Zufallsvariable/ Zufallsgröße die den Ausgang eines
Experimentes beschreibt,
Ω ... zu X gehöriger Stichprobenraum (Menge der Realisierungen von
X ; Annahme: Ω ≠ ∅)
A ... Sigma-Algebra über Ω
Definition
Sei P = {Pϑ ∣ ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf
(Ω, A), so heißt das Tripel
(Ω, A, P)
statistisches Experiment oder statistisches Modell.
Falls Θ ⊆ Rk mit k ∈ N, so heißt (Ω, A, P) parametrisches statistisches
Modell, ϑ ∈ Θ Parameter und Θ Parameterraum.
A ∈ A ... Ereignis (ein Element der Sigma-Algebra A)
PX ... Verteilung von X (ein Wahrscheinlichkeitsmaß auf Ω)
generelle Annahme: PX ∈ P = {Pϑ ∣ ϑ ∈ Θ}
Beachte
x ∈ Ω bezeichnet also alle unsere vorliegenden Beobachtungen. x ist
also typischerweise ein Vektor: x = (x1 , . . . , xn )
statistische Inferenz: Aussagen über die wahre Verteilung PX bzw.
den wahren Parameter ϑ gewinnen
Die Sigma-Algebra A wird hier der Vollständigkeit/Korrektheit halber
aufgeführt. Sie wird im Folgenden zwar weiter mit erwähnt, aber
keine (vordergründige) Rolle spielen
3 / 50
Wir wollen wissen:
Welches ist das wahre Pϑ unter allen möglichen {Pϑ ∣ ϑ ∈ Θ} ?
4 / 50
Grundlagen und Wiederholung
Grundlagen und Wiederholung
Testproblem (1)
Testproblem (2)
mit Maßen: gegeben P0 und P1 mit P0 ∩ P1 = ∅ und P0 ∪ P1 = P so
ist Entscheidung gesucht über
PX ∈ P0
oder PX ∈ P1 ;
H0 und H1 nennt man Hypothesen
H0 heißt Nullhypothese
H1 heißt Alternativhypothese
beziehungsweise (etwas formaler): wir testen
H0 ∶ PX ∈ P0
versus
H1 ∶ PX ∈ P1
Interpretation: häufig werden die Hypothesen H0 und H1 als
Teilmengen des Parameterraums Θ interpretiert, also
mit Parametern: gegeben Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und
Θ0 ∪ Θ1 = Θ so ist Entscheidung gesucht über
ϑ ∈ Θ0
H 0 ∩ H1 = ∅
und H0 ∪ H1 = Θ
oder ϑ ∈ Θ1
beziehungsweise (etwas formaler): wir testen
H0 ∶ ϑ ∈ Θ0
versus
H1 ∶ ϑ ∈ Θ1
5 / 50
Grundlagen und Wiederholung
6 / 50
Grundlagen und Wiederholung
Beispiel Testproblem
Statistischer Test
Beispiel
Definition
Eine Abbildung φ ∶ Ω → {0, 1} heißt statistischer Test, falls für alle
A ⊆ {0, 1}
{x ∈ Ω ∣ φ(x) ∈ A} ∈ A
Wir wollen überprüfen ob der Mittelwert von (mit Varianz 1)
normalverteilten Daten gleich 0 ist oder nicht. Dazu betrachten wir:
P ∶= {Nm,1 ∣ m ∈ R}, P0 ∶= {N0,1 }, P1 ∶= {Nm,1 ∣ m ∈ R ∖ {0}}
(i) Mit Worten
H0 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW= 0
versus
H1 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW≠ 0
H0 ∶ P = N0,1
versus
H1 ∶ P ∈ P1
X
(iii) Mit Parametern: wir setzen P = {Nm,1 ∣ m ∈ Θ},
Θ ∶= R,
Beachte
Die Bedingung (1) ist eine Messbarkeits-Bedingung und stellt sicher dass
dem Annahmebreich und dem Ablehnungsbereich Wahrscheinlichkeiten
zugeordent werden können.
Θ0 ∶= {0} und Θ1 ∶= R ∖ {0}
dann ist das Testproblem
H0 ∶ ϑ = 0
versus
H1 ∶ ϑ ≠ 0
Konvention: gegeben x ∈ Ω
φ(x) = 1 ⇔ H0 wird verworfen, Entscheidung für H1
φ(x) = 0 ⇔ H0 wird nicht verworfen
Ablehnungsbereich/kritischer Ber.: {x ∈ Ω ∣ φ(x) = 1}, kurz {φ = 1}
Annahmebereich: {x ∈ Ω ∣ φ(x) = 0}, kurz {φ = 0}
(ii) Mit Maßen
X
(1)
7 / 50
8 / 50
Grundlagen und Wiederholung
Grundlagen und Wiederholung
Fehler
Bezeichnungen und Fakten
Fehler 1. Art: Entscheidung für H1 obwohl H0 wahr ist (auch
α-Fehler, type-I-error)
φ(x) = 1
obwohl
Für gegebenen Test φ und ϑ ∈ Θ bezeichnen wir die
Ablehnwahrscheinlichkeit mit
wahres ϑ ∈ H0
βφ (ϑ) ∶= Eϑ (φ) = Pϑ ({φ = 1}) = ∫ φ dPϑ .
Ω
Fehler 2. Art: Entscheidung für H0 obwohl H1 wahr ist (auch
β-Fehler, type-II-error)
φ(x) = 0
Für gegeben Test φ und ϑ ∈ Θ1 heißt βφ (ϑ) Gütefunktion von φ an
der Stelle ϑ.
obwohl wahres ϑ ∈ H1
Beachte: für ϑ ∈ Θ0 ist βφ (ϑ) gerade die Wahrscheinlichkeit für einen
Fehler 1. Art des Tests φ
Ist φ ein Test mit
Vorgehen:
1 Festlegen einer oberen Schranke α für die Wahrscheinlichkeit einen
Fehler 1. Art zu begehen
2 Unter Beachtung von (1), Minimierung der Wahrscheinlichkeit für
Fehler 2. Art.
βφ (ϑ) = Pϑ ({φ = 1}) ≤ α
für alle ϑ ∈ Θ0 ,
so ist nennt man φ Test zu Niveau α.
9 / 50
10 / 50
Beispiele für multiple Tests
Beispiele für multiple Tests
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Mehrere Tests
Bisher: eine Fragestellung anhand der Beobachtung x ∈ Ω
Nun: mehrere Fragestellungen anhand der Beobachtung x ∈ Ω
Beispiel Düngemittel-Vergleich“
”
Zum Vergleich von 5 Düngemitteln gegen Blattläuse wurde jedes
Düngemittel an 100 Planzen getestet (also insgesamt 500 Pflanzen). Die
Anzahl der Blattläuse nach Versuchsende soll die Wirksamkeit
beschreiben. Wir bezeichnen mit Xij , i = 1, . . . , 5 und j = 1, . . . , 100 die
Anzahl der Blattläuse an Pflanze j in der Gruppe i und nehmen an dass
die Xij stochastisch unabhängig sind und Xij ∼ N (µi , σ 2 ) mit µi , σ > 0 für
i = 1, . . . , 5.
Paarweise Tests zum Vergleich der Mittlwerte:
Hij ∶ {µi = µj } versus
11 / 50
Kij ∶ {µi ≠ µj }
für 1 ≤ i < j ≤ 5
12 / 50
Beispiele für multiple Tests
Beispiele für multiple Tests
Beispiel Düngemittel-Vergleich“, fortgesetzt
”
Beispiel Genetik“
”
Beispiel: Düngemittel-Vergleich
Paarweise Tests zum Vergleich der Mittlwerte:
In explorativen genetischen Analysen werden oft etwa 500.000 SNPs auf
einen Zusammenhang mit einem bestimmten Phänotyp untersucht.
Nehmen wir an, wir haben für jeden dieser SNPs einen entsprechenden
Test (mit Nullhypothese Unabhängigkeit von SNP und Phänotyp“)
”
durchgeführt und einen p-Wert berechnet. Wir wissen bereits (und hören
es bald auch nochmal), dass p-Werte unter der Nullhypothese auf [0, 1]
gleichverteilt sind. Wir setzen nun voraus:
die p-Werte sind alle unabhängig voneinander (was
zugegebenermaßen nicht ganz stimmt)
keiner der SNPs hat einen tatsächlichen Zusammenhang mit dem
Phänotyp,
Dann werden sich die 500.000 p-Werte gleichmäßig auf [0, 1] verteilen:
Hij ∶ {µi = µj } versus
Kij ∶ {µi ≠ µj }
für 1 ≤ i < j ≤ 5
Möglichkeit 1: Klassische Varianzanalyse (ANOVA) testet die
Globalhypothese H0 = ⋂1≤i<j≤5 Hij (alle Mittelwerte sind gleich) gegen
die Alternativehypothese H1 ∶ ∃i, j ∈ {1, . . . , 5} mit µi ≠ µj . Wird H0
abgelehnt, so bekommt man aber keine Aussage welche Paare
unterschiedlich sind.
Möglichkeit 2: (52) = 10 t-Tests. Für jedes Paar i, j ∈ {1, . . . , 5} mit
i ≠ j lässt sich mit dem t-Test zum Niveau α die Hypothese Hij gegen
die Alternative Kij testen. Für ein festes Paar i, j ist damit die
Wahrscheinlichkeit für einen Fehler 1. Art ≤ α.
ABER: Die Wahrscheinlichkeit, dass in irgendeinem der 10 Tests ein
Fehler 1. Art auftritt ist wesentlich höher!
13 / 50
Beispiele für multiple Tests
0 0.05
1
Unter der Signifikanzschwelle“ 0.05 landen ganz zufällig (im Mittel)
”
0, 05 ∗ 500000 = 25000 SNPs !!!! (trotz Unabh. vom Phänotyp!)
14 / 50
Beispiele für multiple Tests
Beispiel Multiple Endpunkte“ (1)
”
Beispiel Multiple Endpunkte“ (2)
”
Einfluss von Schlafentzug auf Aufmerksamkeit
Getestet werden soll der Einfluss von Schlafentzug auf Aufmerksamkeit.
Drei Arten der Aufmerksamkeit (welche in Testungen gemessen werden
sollen) sind Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit.
Es werden 2 Gruppen gebildet: eine mit Probanden die in den letzten 24
Stunden maximal 3 Stunden geschlafen haben und eine (Kontroll-)Gruppe
mit Probanden, die mindesten 6 Stunden in den letzten 24 Stunden
geschlafen haben. Nun werden Testungen an den Probanden durchgeführt
und daraus metrische Werte für Vigilanz, Daueraufmerksamkeit und
geteilte Aufmerksamkeit abgeleitet.
Mögliche Vorgehensweisen:
15 / 50
Methode 1: Für jede Zielvariable einen Test durchführen (z.B je
einen t-Test) und dann auf multiples Testen korrigieren.
Methode 2: Konzentration auf nur eine Art der Aufmerksamkeit,
etwa die Daueraufmerksamkeit“. Die Daten für Vigilanz und geteilte
”
Aufmerksamkeit gehen nicht in die Analyse ein, sondern werden nur
explorativ untersucht.
Methode 3: Aus den metrischen Werten für Vigilanz,
Daueraufmerksamkeit und geteilte Aufmerksamkeit eine Zielvariable
bilden, etwa durch eine gewichtete Summe.
16 / 50
Beispiele für multiple Tests
Multiple Tests (formale Einführung)
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Hauptursachen für Schwierigkeiten beim multiplen Testen
Prüfgrößen der Einzeltests sind im Allgemeinen nicht stochastisch
unabhängig
Gemeisame Verteilung ist schwer oder gar nicht bestimmbar
Wird jeder Einzeltest zum Niveau α durchgeführt, kann die
Irrtumswahrscheinlichkeit der Gesamtaussage unüberschaubar werden
17 / 50
18 / 50
Multiple Tests (formale Einführung)
Multiple Tests (formale Einführung)
Multiples Testproblem
Hypthesen-Struktur
Definition
Seien (Ω, A, P) mit P = {Pϑ ∣ ϑ ∈ Θ} ein statistisches Modell, m ∈ N ∖ {1}
und I = {1, . . . , m}. Seien ∅ ≠ Hi ⊆ Θ, i ∈ I paarweise verschieden und
setze Ki ∶= Θ ∖ Hi . Sei weiterhin ϑ ∈ Θ der wahre Parameter. Dann heißt
die Menge H ∶= {Hi ∣ i ∈ I } Hypothesensystem;
Hi wahr, wenn ϑ ∈ Hi ;
Hi falsch, wenn ϑ ∈ Ki ;
Sei H = {H1 , . . . , Hm } Hypothesensystem.
Eine Hypothese Hi ∈ H heißt echte Obermenge von Hj ∈ H, falls
Hi ≠ Hj und aus der Richtigkeit von Hj die Richtigkeit von Hi folgt.
Man schreibt Hi ⊃ Hj .
Hi ∈ H heißt Elementarhypothese, falls sie nicht als Durchschnitt ihrer
echten Obermengen darstellbar ist.
Der nichtleere Durchschnitt aller Elementarhypothesen wird
Globalhypothese genannt.
das Tupel (Ω, A, P, H) ein multiples Testproblem.
H1 ∩ H 2 ∩ H3
Merke: Ein multiples Testproblem ist statistisches Modell gemeinsam mit
mehreren (unterschiedlichen) Hypothesen.
Für einen (beliebigen) Parameter ϑ setzen wir
I0 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Hi } die Indexmenge der (unter ϑ) wahren
Nullhypothesen
I1 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Ki } die Indexm. d. (unter ϑ) falschen Nullhyp.
19 / 50
Globalhypothese
H1 ∩ H 2
H1 ∩ H3
H2 ∩ H3
Schnitthypothesen
H1
H2
H3
Elementarhypothesen
20 / 50
Multiple Tests (formale Einführung)
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α
Definition
Sei (Ω, A, P, H) ein multiples Testproblem mit Indexmenge
I = {1, . . . , m}. Dann heißt φ = (φ1 , . . . , φm ) ein multipler Test, falls für
jedes i ∈ I gilt: φi ist ein statistischer Test.
Sei φ = (φ1 , . . . , φm ) ein multipler Test zum multiplen Testproblem
(Ω, A, P, H) und α ∈ (0, 1). Dann heißt φ multipler Test
(a) zum lokalen Niveau α, falls für alle i ∈ I
Damit ist jedes φi eine Abbildung
Pϑ ({φi = 1}) ≤ α
φi ∶ Ω → {0, 1}
für alle ϑ ∈ Hi
(b) zum globalen Niveau α, falls
und φ ordnet jeder Beobachtung x ∈ Ω einen m-dimensionalen Vektor aus
Nullen und Einsen zu.
m
Pϑ ( ⋃ {φi = 1}) ≤ α
i=1
Konvention
m
für alle ϑ ∈ H0 ∶= ⋂ Hi
i=1
(c) zum multiplen Niveau α, falls für alle ϑ ∈ Θ
φi (x) = 1
⇔
Hi wird verworfen, Entscheidung für Ki
φi (x) = 0
⇔
Hi wird nicht verworfen
Pϑ ( ⋃ {φi = 1}) ≤ α
i∈I0 (ϑ)
21 / 50
Multiple Tests (formale Einführung)
22 / 50
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α, Erläuterungen (1)
Multipler Test zum Niveau α, Erläuterungen (2)
ϑ ∈ ⋂m
i=1 Hi heißt: ϑ ”liegt in jeder“ Nullhypothese bzw. rechnen wir
mit diesem ϑ so gilt jede Nullhypothese bzw. die Globalhypothese gilt
ϑ ∈ Hi heißt: rechnen wir mit diesem ϑ (bzw. Pϑ ) so gilt die i-te
Nullhypothese
⋃m
i=1 {φi = 1} heißt: mindestens eine der Hypothesen H1 , . . . , Hm wird
abgelehnt
Pϑ ({φi = 1}) ≤ α heißt: die WK (gemessen mit Pϑ ) dass die i-te
Nullhypothese abgelehnt wird ist kleiner-gleich α
m
P ϑ (⋃ m
i=1 {φi = 1}) ≤ α für alle ϑ ∈ ⋂i=1 Hi heißt: falls alle H1 , . . . , Hm
gelten, so ist die Wahrscheinlichkeit dass mindestens eine der
H1 , . . . , Hm abgelehnt wird kleiner-gleich α.
Pϑ ({φi = 1}) ≤ α für alle ϑ ∈ Hi heißt: Falls wir wissen, dass die i-te
Nullhypothese gilt, so ist die Wahrscheinlichkeit, dass die i-te
Nullhypothese abgelehnt wird kleiner-gleich α.
⋃i∈I0 (ϑ) {φi = 1} heißt: mindestens eine der (unter ϑ) geltenden
Nullhypothesen wird abgelehnt
für ϑ ∈ Θ gilt Pϑ (⋃i∈I0 (ϑ) {φi = 1}) ≤ α heißt: die Wahrscheinlichkeit
dass eine unter ϑ geltende Nullhypothese abgelehnt wird, ist
kleiner-gleich α
23 / 50
24 / 50
Multiple Tests (formale Einführung)
Multiple Fehler
Multipler Test zum Niveau α, Erläuterungen (3)
Inhalt
Welches Niveau (lokal, global oder mutipel) sollte uns nun interessieren?
Fordern wir dass φ ein multipler Test zum lokalen Niveau α ist und
alle φi (X ) stochastisch unabhängig sind mit
Pϑ ({φi = 1}) = α für alle ϑ ∈ Hi und alle i ∈ I0 (ϑ)
Dann kann die Wahrscheinlichkeit für irgendeinen Fehler 1. Art sehr
groß sein: Für alle ϑ ∈ Θ gilt:
Pϑ ( ⋃ {φi = 1}) = 1 − (1 − α)∣I0 (ϑ)∣
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
i∈I0 (ϑ)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ fast 1 falls ∣I0 (ϑ)∣ groß
/
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
irgendein Typ I Fehler
Ein Test zum globalen Niveau α ist nur sinnvoll, wenn uns die
Globalhypothese (alle Hi treffen gleichzeitig zu) interessiert. Dies ist
oft nicht der Fall. /
Ein Test zum multiplen Niveau α kontrolliert die WK für irgendeinen
Typ I Fehler ,
25 / 50
Multiple Fehler
26 / 50
Multiple Fehler
Multiple Fehler
Family-Wise Error Rate
Definition
Ist φ ein multiper Test, x ∈ Ω eine Beobachtung und ϑ der wahre
Parameter, so ergibt φ einen
Definition
Der Ausdruck (aus der Def. zum multiplen Test zum multiplen Niveau α)
FWERϑ (φ) ∶= Pϑ (⋃i∈I0 (ϑ) {φi = 1})
(i) multiplen Fehler 1. Art (oder multiplen Typ I Fehler), falls ein j ∈ I
existiert mit
φj (x) = 1 und ϑ ∈ Hj
(ii) multiplen Fehler 2. Art (oder multiplen Typ II Fehler), falls ein j ∈ I
existiert mit
φj (x) = 0 und ϑ ∈ Kj
bei einem multiplen Test können beide Fehler gleichzeitig auftreten
Ist φ ein multipler Test zum multiplen Niveau α, so ist die
Wahrscheinlichkeit für irgendeinen multiplen Fehler 1. Art kleiner
gleich α (gleichgültig welche und wie viele der Hi wahr sind).
wird oft als Family-Wise Error Rate (FWER) oder Experiment-Wise
Error Rate bezeichnet.
Ein multipler Test φ für den
FWERϑ (φ) ≤ α
für alle ϑ ∈ Θ
(2)
gilt, ist also ein multipler Test zum multiplen Niveau α. Die Bedingung (2)
kann man auch mittel einem Supremum ausdrücken:
FWER(φ) ∶= sup(FWERϑ (φ)) ≤ α
ϑ∈Θ
Es folgen 2 Methoden um die FWER zu beschränken...
27 / 50
28 / 50
Multiple Fehler
Multiple Fehler
Šidák-Methode
Bonferroni-Methode
Šidák (vgl. Šidák 1967)
Bonferroni (vgl. Bonferroni 1936)
Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ
ein multipler Test. Dann gilt: falls
Pϑ ({φi = 1}) ≤ α/m
Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ
ein multipler Test. Dann gilt: falls die Zufallsvariablen φi (X ),
i ∈ I ∶= {1, . . . , m} stochastisch unabhängig sind und
für alle ϑ ∈ Hi , für alle i ∈ I ,
Pϑ ({φi = 1}) ≤ 1 − (1 − α)1/m
so folgt
FWERϑ (φ) ≤ α
für alle ϑ ∈ Hi , für alle i ∈ I ,
so folgt
für alle ϑ ∈ Θ.
FWERϑ (φ) ≤ α
In Worten: Ist φ ein multipler Test zum lokalen Niveau α/m, so ist φ
auch ein multipler Test zum multiplen Niveau α.
für alle ϑ ∈ Θ.
In Worten: Ist φ ein multipler Test zum lokalen Niveau αm und sind die
φi (X ) stochastisch unabhängig, so ist φ auch ein multipler Test zum
multiplen Niveau α.
Aufgabe
Zeigen Sie, dass obige Implikation gilt.
Aufgabe
Zeigen Sie, dass obige Implikation gilt.
30 / 50
29 / 50
Multiple Fehler
p-Wert
Aufgaben
Inhalt
Aufgabe
Sie betrachten ein multiples Testproblem (Ω, A, P, H) und wissen, dass
für den multiplen Test φ gilt, dass die Zufallsvariablen
φi (X ), i ∈ I ,
stochastisch unabhängig
sind. Ist die Šidák-Methode oder die Bonferroni-Methode zu bevorzugen?
Begründen Sie Ihre Antwort.
Aufgabe
Wir führen eine explorative Untersuchung von 10.000 Genen in einer
Genexpressionsanalyse durch. Es soll herausgefunden werden ob es Gene
gibt, welche einen signifikanten Zusammenhang mit der metrischen
Zielvariable y (z.B. Körpergröße) haben. Wie lässt sich dies testen, wenn
die FWER kontrolliert werden soll?
31 / 50
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
32 / 50
p-Wert
p-Wert
p-Wert
p-Wert, Spezialfälle
Wir betrachten ein statistisches Modell (Ω, A, P) und einen Test φ für das
Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R
beruht. Für jedes α ∈ (0, 1) liefert φ einen Ablehnungsbereich Γα :
rechtsseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt [γα , ∞)
(mit γα so dass Pϑ0 (T (X ) ≥ γα ) = α), vereinfacht sich die Definition des
p-Wert zu
pφ (x) = Pϑ0 (T (X ) ≥ T (x))
φ(x) = 1
⇔
T (x) ∈ Γα
Falls H0 einelementig ist, also H0 = {ϑ0 }, so ist der p-Wert definiert als:
pφ (x) = inf{Pϑ0 (T (X ) ∈ Γα ) ∣ α ∈ (0, 1), T (x) ∈ Γα }
Beachte: H0 ist nicht immer einelementig. Falls ∣H0 ∣ > 1 wird die Formel
etwas komplizierter.
Merksatz: pφ (x) ist die Wahrscheinlichkeit dass, unter der Nullhypothese,
das vorliegende x oder ein noch extremeres beobachtet wird.
linksseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ]
(mit γα so dass Pϑ0 (T (X ) ≤ γα ) = α), vereinfacht sich die Definition des
p-Wert zu
pφ (x) = Pϑ0 (T (X ) ≤ T (x))
beidseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt
(−∞, γα ] ∪ [γα′ , ∞) ( mit γα und γα′ so dass Pϑ0 (T (X ) ≤ γα ) = α/2 und
Pϑ0 (T (X ) ≥ γα′ ) = α/2) vereinfacht sich die Definition des p-Wert zu
⎧
⎪
⎪2 ⋅ Pϑ0 (T (X ) ≥ T (x))
pφ (x) = ⎨
⎪
⎪
⎩2 ⋅ Pϑ0 (T (X ) ≤ T (x))
Warum dieser Merksatz zur Definition vom p-Wert passt, kann man besser
erkennen, wenn man sich folgende Spezialfälle anschaut: ...
33 / 50
falls Pϑ0 (T (X ) ≥ T (x)) ≤ 1/2
falls Pϑ0 (T (X ) ≤ T (x)) ≤ 1/2
34 / 50
p-Wert
Ein step-down Verfahren
p-Wert ist unter H0 gleichverteilt
Inhalt
Sei (Ω, A, P) ein statistisches Modell, φ ein Test für das Hypothesenpaar
H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Gilt
H = {ϑ0 } (einelementig)
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
Pϑ0 stetig
φ so dass für jedes α ein cα existiert mit φ(x) = 1 ⇔ T (x) > cα ,
dann
Pϑ0 (pφ (X ) ≤ t) = t
für alle t ∈ [0, 1]
Merksatz: Der p-Wert pφ (X ) ist unter der Nullhypothese gleichverteilt.
35 / 50
36 / 50
Ein step-down Verfahren
Ein step-down Verfahren
Bonferroni-Holm-Test
Bemerkungen zum Bonferroni-Holm-Test
Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei
H = {Hi ∣ i ∈ I = {1, . . . , m}} Elementarhypothesen sind. Für jedes i ∈ I sei
pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind
p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m]
und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen.
Wir setzen und für i = 1, . . . , m
⎧
⎪
falls pi (X ) stochastisch abhängig sind, Fall I
⎪α/i
αi ∶= ⎨
1/i
⎪
falls pi (X ) stochastisch unabhängig sind, Fall II
⎪
⎩1 − (1 − α)
Dann setzen wir
⎧
⎪
⎪1 falls i ≤ i ∗
φBH
=
⎨
i
∗
⎪
⎪
⎩0 falls i > i
Der Bonferroni-Holm-Test (BH-Test) ist ein step-down Test, da mit
dem signifikantesten Test begonnen wird (kleinster p-Wert) und
Schritt für Schritt bis zur Schranke i ∗ jede Hypothese abgelehnt wird
Fall I des BH-Test ist zu vergleichen mit der Bonferroni-Methode. Fall
II ist zu vergleichen mit der Šidák-Methode.
φBH beschränkt (wie die Bonferroni-Methode oder die
Šidák-Methode) die FWER durch vorgegebenes α
Aber, verglichen mit der Bonferroni-Methode oder der
Šidák-Methode, ist der BH-Test eine Verbesserung bezüglich Typ-II
Fehlern
mit
i ∗ ∶= max{i ∈ I ∣ pj ≤ αm−j+1 ∀j = 1, . . . , i}
Dieses φBH ist ein multipler Test zum multiplen Niveau α.
38 / 50
37 / 50
Ein step-down Verfahren
Ein step-down Verfahren
Beispiel zum Bonferroni-Holm-Test (1)
Beispiel zum Bonferroni-Holm-Test (2)
Wir haben in einem multiplen Testproblem die p-Werte
Fall II: wir können Unabhängigkeit voraussetzen
p1 = 0.0126, p2 = 0.007, p3 = 0.023, p4 = 0.02, p5 = 0.002, p6 = 0.5.
Geordnet ergibt das
p[1] = 0.002, p[2] = 0.007, p[3] = 0.0126, p[4] = 0.02, p[5] = 0.023, p[6] = 0.5.
Uns interessiert α = 0.05.
Fall I: wir können keine Unabhängigkeit voraussetzen
p[1] = 0.002 ≤ α6 = 0.05/6 = 0.008333,
H5 = H[1] ablehnen
p[2] = 0.007 ≤ α5 = 0.05/5 = 0.01,
H2 = H[2] ablehnen
p[3] = 0.0126 > α4 = 0.05/4 = 0.0125,
1
H5 = H[1] ablehnen
1
5
H2 = H[2] ablehnen
1
4
H1 = H[3] ablehnen
1
3
H4 = H[4] nicht ablehnen
1
2
H3 = H[5] nicht ablehnen
1
1
H6 = H[6] nicht ablehnen
p[1] = 0.002 ≤ α6 = 1 − 0.95 6 = 0.008512,
p[2] = 0.007 ≤ α5 = 1 − 0.95 = 0.010206,
p[3] = 0.0126 ≤ α4 = 1 − 0.95 = 0, 012741,
p[4] = 0.02 > α3 = 1 − 0.95 = 0.016952,
p[5] = 0.023 ≤ α2 = 1 − 0.95 = 0.025321,
p[6] = 0.5 > α1 = 1 − 0.95 = 0.05,
H1 = H[3] nicht ablehnen
p[5] = 0.023 ≤ α2 = 0.05/2 = 0.025,
H3 = H[5] nicht ablehnen
Sobald in Richtung ↓ das erste mal kein ≤ mehr steht, werden alle
vorherigen Hypothesen abgelehnt. Wegen der Richtung ↓ nennt man dies
ein Step-Down-Verfahren.
p[6] = 0.5 > α1 = 0.05/1 = 0.05,
H6 = H[6] nicht ablehnen
Beobachtung: In Fall II werden mehr Hypothesen abgelehnt als in Fall I.
p[4] = 0.02 > α3 = 0.05/3 = 0.01667,
H4 = H[4] nicht ablehnen
39 / 50
40 / 50
Die False Discovery Rate
Die False Discovery Rate
Inhalt
Summierte Größen
Bezeichnungen
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
ist m0 = m0 (ϑ) die Anzahl der (unter ϑ) wahren Nullhypothesen
5
p-Wert
ist m1 = m1 (ϑ) = m − m0 (ϑ) die Anzahl der (unter ϑ) falschen
Nullhypothesen
6
Ein step-down Verfahren
ist R(ϑ) = ∑m
i=1 φi die (zufällige) Anzahl verworfener Nullhypothesen
7
Die False Discovery Rate
8
Zusammenfassung
Sei (Ω, A, P, H) mit H = {Hi ∣ i ∈ I = {1, . . . , m}} ein multiples
Testproblem und φ = (φ1 , . . . , φm ) ein multipler Test. Sei ϑ ∈ Θ fest
vorgegeben. Dann
ist m die Anzahl der zu prüfenden Nullhypothesen
ist V (ϑ) = ∑i∈I0 (ϑ) φi die (zufällige) Anzahl der (unter ϑ)
fälschlicherweise verworfenen Nullhypothesen
ist S(ϑ) = ∑i∈I1 (ϑ) φi die (zufällige) Anzahl der (unter ϑ)
korrekterweise verworfenen Nullhypothesen
42 / 50
41 / 50
Die False Discovery Rate
Die False Discovery Rate
Unter den üblichen Voraussetzungen definieren wir:
Die Zufallsvariable
Schema
FDPϑ (φ) ∶=
Hypothesen
wahr
falsch
Test = 0
m0 − V (ϑ)
m1 − S(ϑ)
m − R(ϑ)
Test = 1
V (ϑ)
S(ϑ)
R(ϑ)
V (ϑ)
max{R(ϑ), 1}
heißt False Discovery Proportion.
Die Zahl
FDRϑ (φ) ∶= Eϑ (FDPϑ (φ))
m0 (ϑ)
m1 (ϑ)
m
heißt False Discovery Rate (FDR). Die FDR beschreibt also den
erwarteten Anteil an Typ I Fehlern unter allen Verwerfungen von φ.
Wir sagen der multiple Test φ ist FDR-kontrollierend zum Niveau α,
falls
FDR(φ) ∶= sup FDRϑ (φ) ≤ α
Beobachtung
V (ϑ) + S(ϑ) = R(ϑ)
In der Praxis werden wir nur R(ϑ) und m kennen.
ϑ∈Θ
FWERϑ (φ) = Pϑ (V (ϑ) > 0)
FWER(φ) = supϑ∈Θ Pϑ (V (ϑ) > 0)
Interpretation: Gilt FDR(φ) ≤ 0, 05 so liefert der Test φ im Mittel unter
100 Verwerfungen maximal 5 fälschlicherweise verworfene Tests.
Nun folgt ein Test der soetwas kann...
43 / 50
44 / 50
Die False Discovery Rate
Die False Discovery Rate
Benjamini-Hochberg-Test
Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei
H = {Hi ∣ i ∈ I = {1, . . . , m}}. Für jedes i ∈ I sei pi der p-Wert zum Test Hi
vs. Ki . Die geordneten p-Werte sind
p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m]
Unter gewissen Zusatz-Voraussetzungen ist φLSU
FDR-kontrollierend zum Niveau α.
Gilt entweder
und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen.
Wir setzen und für i = 1, . . . , m
iα
αi ∶= .
m
Dann definieren wir den linearen step-up Test von Benjamini und
Hochberg mittels
⎧
⎪
⎪1 falls i ≤ i ∗
φLSU
=
⎨
i
⎪0 falls i > i ∗
⎪
⎩
(a) pi (X ), i ∈ I sind unabhängige, auf [0, 1] gleichvert. Zufallsvariablen
oder
(b) ∀ϑ ∈ Θ ∶ ∀j ∈ I ∶ ∀i ∈ I0 (ϑ) ∶
Pϑ (R(ϑ) ≥ j ∣ pi ≤ t) ist nicht-wachsend in t ∈ (0, αj ]
so ist φLSU FDR-kontrollierend zum Niveau α.
mit
i ∗ ∶= max{i ∈ I ∣ pj ≤ αj }.
45 / 50
46 / 50
Die False Discovery Rate
Zusammenfassung
Beispiel zum Benjamini-Hochberg-Test
Inhalt
Wir haben in einem multiplen Testproblem die p-Werte
p1 = 0.028, p2 = 0.007, p3 = 0.4, p4 = 0.03, p5 = 0.002, p6 = 0.5.
Geordnet ergibt das
p[1] = 0.002, p[2] = 0.007, p[3] = 0.028, p[4] = 0.03, p[5] = 0.4, p[6] = 0.5.
Uns interessiert die FDR zum Niveau α = 0.05.
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
p[1] = 0.002 ≤ α1 = (1 ⋅ 0.05)/6 = 0.008333,
H5 = H[1] ablehnen
4
Multiple Fehler
p[2] = 0.007 ≤ α2 = (2 ⋅ 0.05)/6 = 0.016667,
H2 = H[2] ablehnen
5
p-Wert
p[3] = 0.028 > α3 = (3 ⋅ 0.05)/6 = 0.025,
H1 = H[3] ablehnen
6
Ein step-down Verfahren
p[5] = 0.4 > α5 = (5 ⋅ 0.05)/6 = 0.0416667, H3 = H[5] nicht ablehnen
7
Die False Discovery Rate
p[6] = 0.5 > α6 = (6 ⋅ 0.05)/6 = 0.05,
8
Zusammenfassung
p[4] = 0.03 ≤ α4 = (4 ⋅ 0.05)/6 = 0.033333,
H4 = H[4] ablehnen
H6 = H[6] nicht ablehnen
Sobald in Richtung ↑ das erste ≤ auftritt, werden von da an alle
Hypothesen abgelehnt. Wegen ↑ ist dies ein Step-Up-Verfahren.
47 / 50
48 / 50
Zusammenfassung
Zusammenfassung
Zusammenfassung
Quellen/Literaturtipps
Theorie der Multiplen Tests wird notwendig wenn
zu einer Beobachtung x mehrere Fragestellungen/Hypothesen
beantwortet werden sollen, und
das Interesse nicht auf die Globalhypothese (=alle Elementarhypothesen
gelten gleichzeitig) beschränkt ist, sondern Aussagen über die einzelnen
Elementarhypothesen gewünscht sind.
Wir haben 2 grundlegende Größen kennen gelernt, die wir mit
geeigneten Tests kontrollieren möchten/können
die FWER
die FDR
Skript Multiples Testen“ von Thorsten Dickhaus (ganz toll)
”
The Elements of Statistical Learning“, von Hastie, Tibshirani,
”
Friedman, second edition, 2008
Zur Kontrolle der FWER kennen wir
die Bonferroni-Methode
die Šidák-Methode
die Bonferroni-Holm-Methode (step-down-Methode)
Zur Kontrolle der FDR kennen wir
die Benjamini-Hochberg-Methode (step-up-Methode)
49 / 50
50 / 50
Herunterladen