Woche 10 - Institut für Medizinische Informatik, Statistik und

Werbung
Statistisches Lernen
Woche 10: Multiples Testen
Dr. rer. nat. Fabian Schwarzenberger
Institut für Medizinische Informatik, Statistik und Epidemiologie
Universität Leipzig
WS 2014/2015
1 / 50
Übersicht
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
2 / 50
Grundlagen und Wiederholung
Bezeichnungen
X ... Zufallsvariable/ Zufallsgröße die den Ausgang eines
Experimentes beschreibt,
Ω ... zu X gehöriger Stichprobenraum (Menge der Realisierungen von
X ; Annahme: Ω ≠ ∅)
A ... Sigma-Algebra über Ω
A ∈ A ... Ereignis (ein Element der Sigma-Algebra A)
PX ... Verteilung von X (ein Wahrscheinlichkeitsmaß auf Ω)
Beachte
x ∈ Ω bezeichnet also alle unsere vorliegenden Beobachtungen. x ist
also typischerweise ein Vektor: x = (x1 , . . . , xn )
Die Sigma-Algebra A wird hier der Vollständigkeit/Korrektheit halber
aufgeführt. Sie wird im Folgenden zwar weiter mit erwähnt, aber
keine (vordergründige) Rolle spielen
3 / 50
Grundlagen und Wiederholung
Statistisches Experiment/Modell
Definition
Sei P = {Pϑ ∣ ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf
(Ω, A), so heißt das Tripel
(Ω, A, P)
statistisches Experiment oder statistisches Modell.
Falls Θ ⊆ Rk mit k ∈ N, so heißt (Ω, A, P) parametrisches statistisches
Modell, ϑ ∈ Θ Parameter und Θ Parameterraum.
generelle Annahme: PX ∈ P = {Pϑ ∣ ϑ ∈ Θ}
statistische Inferenz: Aussagen über die wahre Verteilung PX bzw.
den wahren Parameter ϑ gewinnen
Wir wollen wissen:
Welches ist das wahre Pϑ unter allen möglichen {Pϑ ∣ ϑ ∈ Θ} ?
4 / 50
Grundlagen und Wiederholung
Testproblem (1)
mit Maßen: gegeben P0 und P1 mit P0 ∩ P1 = ∅ und P0 ∪ P1 = P so
ist Entscheidung gesucht über
PX ∈ P0
oder PX ∈ P1 ;
beziehungsweise (etwas formaler): wir testen
H0 ∶ PX ∈ P0
versus
H1 ∶ PX ∈ P1
mit Parametern: gegeben Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und
Θ0 ∪ Θ1 = Θ so ist Entscheidung gesucht über
ϑ ∈ Θ0
oder ϑ ∈ Θ1
beziehungsweise (etwas formaler): wir testen
H0 ∶ ϑ ∈ Θ0
versus
H1 ∶ ϑ ∈ Θ1
5 / 50
Grundlagen und Wiederholung
Testproblem (2)
H0 und H1 nennt man Hypothesen
H0 heißt Nullhypothese
H1 heißt Alternativhypothese
Interpretation: häufig werden die Hypothesen H0 und H1 als
Teilmengen des Parameterraums Θ interpretiert, also
H 0 ∩ H1 = ∅
und H0 ∪ H1 = Θ
6 / 50
Grundlagen und Wiederholung
Beispiel Testproblem
Beispiel
Wir wollen überprüfen ob der Mittelwert von (mit Varianz 1)
normalverteilten Daten gleich 0 ist oder nicht. Dazu betrachten wir:
P ∶= {Nm,1 ∣ m ∈ R}, P0 ∶= {N0,1 }, P1 ∶= {Nm,1 ∣ m ∈ R ∖ {0}}
(i) Mit Worten
H0 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW= 0
versus
H1 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW≠ 0
(ii) Mit Maßen
H0 ∶ PX = N0,1
versus
H1 ∶ PX ∈ P1
(iii) Mit Parametern: wir setzen P = {Nm,1 ∣ m ∈ Θ},
Θ ∶= R,
Θ0 ∶= {0} und
dann ist das Testproblem
H0 ∶ ϑ = 0
versus
Θ1 ∶= R ∖ {0}
H1 ∶ ϑ ≠ 0
7 / 50
Grundlagen und Wiederholung
Statistischer Test
Definition
Eine Abbildung φ ∶ Ω → {0, 1} heißt statistischer Test, falls für alle
A ⊆ {0, 1}
{x ∈ Ω ∣ φ(x) ∈ A} ∈ A
(1)
Konvention: gegeben x ∈ Ω
φ(x) = 1 ⇔ H0 wird verworfen, Entscheidung für H1
φ(x) = 0 ⇔ H0 wird nicht verworfen
Ablehnungsbereich/kritischer Ber.: {x ∈ Ω ∣ φ(x) = 1}, kurz {φ = 1}
Annahmebereich: {x ∈ Ω ∣ φ(x) = 0}, kurz {φ = 0}
Beachte
Die Bedingung (1) ist eine Messbarkeits-Bedingung und stellt sicher dass
dem Annahmebreich und dem Ablehnungsbereich Wahrscheinlichkeiten
zugeordent werden können.
8 / 50
Grundlagen und Wiederholung
Fehler
Fehler 1. Art: Entscheidung für H1 obwohl H0 wahr ist (auch
α-Fehler, type-I-error)
φ(x) = 1
obwohl
wahres ϑ ∈ H0
Fehler 2. Art: Entscheidung für H0 obwohl H1 wahr ist (auch
β-Fehler, type-II-error)
φ(x) = 0
obwohl
wahres ϑ ∈ H1
Vorgehen:
1 Festlegen einer oberen Schranke α für die Wahrscheinlichkeit einen
Fehler 1. Art zu begehen
2 Unter Beachtung von (1), Minimierung der Wahrscheinlichkeit für
Fehler 2. Art.
9 / 50
Grundlagen und Wiederholung
Bezeichnungen und Fakten
Für gegebenen Test φ und ϑ ∈ Θ bezeichnen wir die
Ablehnwahrscheinlichkeit mit
βφ (ϑ) ∶= Eϑ (φ) = Pϑ ({φ = 1}) = ∫ φ dPϑ .
Ω
Für gegeben Test φ und ϑ ∈ Θ1 heißt βφ (ϑ) Gütefunktion von φ an
der Stelle ϑ.
Beachte: für ϑ ∈ Θ0 ist βφ (ϑ) gerade die Wahrscheinlichkeit für einen
Fehler 1. Art des Tests φ
Ist φ ein Test mit
βφ (ϑ) = Pϑ ({φ = 1}) ≤ α
für alle ϑ ∈ Θ0 ,
so ist nennt man φ Test zu Niveau α.
10 / 50
Beispiele für multiple Tests
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
11 / 50
Beispiele für multiple Tests
Mehrere Tests
Bisher: eine Fragestellung anhand der Beobachtung x ∈ Ω
Nun: mehrere Fragestellungen anhand der Beobachtung x ∈ Ω
Beispiel Düngemittel-Vergleich“
”
Zum Vergleich von 5 Düngemitteln gegen Blattläuse wurde jedes
Düngemittel an 100 Planzen getestet (also insgesamt 500 Pflanzen). Die
Anzahl der Blattläuse nach Versuchsende soll die Wirksamkeit
beschreiben. Wir bezeichnen mit Xij , i = 1, . . . , 5 und j = 1, . . . , 100 die
Anzahl der Blattläuse an Pflanze j in der Gruppe i und nehmen an dass
die Xij stochastisch unabhängig sind und Xij ∼ N (µi , σ 2 ) mit µi , σ > 0 für
i = 1, . . . , 5.
Paarweise Tests zum Vergleich der Mittlwerte:
Hij ∶ {µi = µj } versus
Kij ∶ {µi ≠ µj }
für 1 ≤ i < j ≤ 5
12 / 50
Beispiele für multiple Tests
Beispiel Düngemittel-Vergleich“, fortgesetzt
”
Beispiel: Düngemittel-Vergleich
Paarweise Tests zum Vergleich der Mittlwerte:
Hij ∶ {µi = µj } versus
Kij ∶ {µi ≠ µj }
für 1 ≤ i < j ≤ 5
Möglichkeit 1: Klassische Varianzanalyse (ANOVA) testet die
Globalhypothese H0 = ⋂1≤i<j≤5 Hij (alle Mittelwerte sind gleich) gegen
die Alternativehypothese H1 ∶ ∃i, j ∈ {1, . . . , 5} mit µi ≠ µj . Wird H0
abgelehnt, so bekommt man aber keine Aussage welche Paare
unterschiedlich sind.
Möglichkeit 2: (52) = 10 t-Tests. Für jedes Paar i, j ∈ {1, . . . , 5} mit
i ≠ j lässt sich mit dem t-Test zum Niveau α die Hypothese Hij gegen
die Alternative Kij testen. Für ein festes Paar i, j ist damit die
Wahrscheinlichkeit für einen Fehler 1. Art ≤ α.
ABER: Die Wahrscheinlichkeit, dass in irgendeinem der 10 Tests ein
Fehler 1. Art auftritt ist wesentlich höher!
13 / 50
Beispiele für multiple Tests
Beispiel Genetik“
”
In explorativen genetischen Analysen werden oft etwa 500.000 SNPs auf
einen Zusammenhang mit einem bestimmten Phänotyp untersucht.
Nehmen wir an, wir haben für jeden dieser SNPs einen entsprechenden
Test (mit Nullhypothese Unabhängigkeit von SNP und Phänotyp“)
”
durchgeführt und einen p-Wert berechnet. Wir wissen bereits (und hören
es bald auch nochmal), dass p-Werte unter der Nullhypothese auf [0, 1]
gleichverteilt sind. Wir setzen nun voraus:
die p-Werte sind alle unabhängig voneinander (was
zugegebenermaßen nicht ganz stimmt)
keiner der SNPs hat einen tatsächlichen Zusammenhang mit dem
Phänotyp,
Dann werden sich die 500.000 p-Werte gleichmäßig auf [0, 1] verteilen:
0 0.05
Unter der Signifikanzschwelle“ 0.05 landen ganz zufällig (im Mittel)
”
0, 05 ∗ 500000 = 25000 SNPs !!!! (trotz Unabh. vom Phänotyp!)
1
14 / 50
Beispiele für multiple Tests
Beispiel Multiple Endpunkte“ (1)
”
Einfluss von Schlafentzug auf Aufmerksamkeit
Getestet werden soll der Einfluss von Schlafentzug auf Aufmerksamkeit.
Drei Arten der Aufmerksamkeit (welche in Testungen gemessen werden
sollen) sind Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit.
Es werden 2 Gruppen gebildet: eine mit Probanden die in den letzten 24
Stunden maximal 3 Stunden geschlafen haben und eine (Kontroll-)Gruppe
mit Probanden, die mindesten 6 Stunden in den letzten 24 Stunden
geschlafen haben. Nun werden Testungen an den Probanden durchgeführt
und daraus metrische Werte für Vigilanz, Daueraufmerksamkeit und
geteilte Aufmerksamkeit abgeleitet.
15 / 50
Beispiele für multiple Tests
Beispiel Multiple Endpunkte“ (2)
”
Mögliche Vorgehensweisen:
Methode 1: Für jede Zielvariable einen Test durchführen (z.B je
einen t-Test) und dann auf multiples Testen korrigieren.
Methode 2: Konzentration auf nur eine Art der Aufmerksamkeit,
etwa die Daueraufmerksamkeit“. Die Daten für Vigilanz und geteilte
”
Aufmerksamkeit gehen nicht in die Analyse ein, sondern werden nur
explorativ untersucht.
Methode 3: Aus den metrischen Werten für Vigilanz,
Daueraufmerksamkeit und geteilte Aufmerksamkeit eine Zielvariable
bilden, etwa durch eine gewichtete Summe.
16 / 50
Beispiele für multiple Tests
Hauptursachen für Schwierigkeiten beim multiplen Testen
Prüfgrößen der Einzeltests sind im Allgemeinen nicht stochastisch
unabhängig
Gemeisame Verteilung ist schwer oder gar nicht bestimmbar
Wird jeder Einzeltest zum Niveau α durchgeführt, kann die
Irrtumswahrscheinlichkeit der Gesamtaussage unüberschaubar werden
17 / 50
Multiple Tests (formale Einführung)
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
18 / 50
Multiple Tests (formale Einführung)
Multiples Testproblem
Definition
Seien (Ω, A, P) mit P = {Pϑ ∣ ϑ ∈ Θ} ein statistisches Modell, m ∈ N ∖ {1}
und I = {1, . . . , m}. Seien ∅ ≠ Hi ⊆ Θ, i ∈ I paarweise verschieden und
setze Ki ∶= Θ ∖ Hi . Sei weiterhin ϑ ∈ Θ der wahre Parameter. Dann heißt
die Menge H ∶= {Hi ∣ i ∈ I } Hypothesensystem;
Hi wahr, wenn ϑ ∈ Hi ;
Hi falsch, wenn ϑ ∈ Ki ;
das Tupel (Ω, A, P, H) ein multiples Testproblem.
Merke: Ein multiples Testproblem ist statistisches Modell gemeinsam mit
mehreren (unterschiedlichen) Hypothesen.
Für einen (beliebigen) Parameter ϑ setzen wir
I0 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Hi } die Indexmenge der (unter ϑ) wahren
Nullhypothesen
I1 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Ki } die Indexm. d. (unter ϑ) falschen Nullhyp.
19 / 50
Multiple Tests (formale Einführung)
Hypthesen-Struktur
Sei H = {H1 , . . . , Hm } Hypothesensystem.
Eine Hypothese Hi ∈ H heißt echte Obermenge von Hj ∈ H, falls
Hi ≠ Hj und aus der Richtigkeit von Hj die Richtigkeit von Hi folgt.
Man schreibt Hi ⊃ Hj .
Hi ∈ H heißt Elementarhypothese, falls sie nicht als Durchschnitt ihrer
echten Obermengen darstellbar ist.
Der nichtleere Durchschnitt aller Elementarhypothesen wird
Globalhypothese genannt.
H1 ∩ H2 ∩ H3
Globalhypothese
H1 ∩ H 2
H1 ∩ H 3
H2 ∩ H3
Schnitthypothesen
H1
H2
H3
Elementarhypothesen
20 / 50
Multiple Tests (formale Einführung)
Definition
Sei (Ω, A, P, H) ein multiples Testproblem mit Indexmenge
I = {1, . . . , m}. Dann heißt φ = (φ1 , . . . , φm ) ein multipler Test, falls für
jedes i ∈ I gilt: φi ist ein statistischer Test.
Damit ist jedes φi eine Abbildung
φi ∶ Ω → {0, 1}
und φ ordnet jeder Beobachtung x ∈ Ω einen m-dimensionalen Vektor aus
Nullen und Einsen zu.
Konvention
φi (x) = 1
⇔
Hi wird verworfen, Entscheidung für Ki
φi (x) = 0
⇔
Hi wird nicht verworfen
21 / 50
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α
Sei φ = (φ1 , . . . , φm ) ein multipler Test zum multiplen Testproblem
(Ω, A, P, H) und α ∈ (0, 1). Dann heißt φ multipler Test
(a) zum lokalen Niveau α, falls für alle i ∈ I
Pϑ ({φi = 1}) ≤ α
für alle ϑ ∈ Hi
(b) zum globalen Niveau α, falls
m
Pϑ ( ⋃ {φi = 1}) ≤ α
i=1
m
für alle ϑ ∈ H0 ∶= ⋂ Hi
i=1
(c) zum multiplen Niveau α, falls für alle ϑ ∈ Θ
Pϑ ( ⋃ {φi = 1}) ≤ α
i∈I0 (ϑ)
22 / 50
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α, Erläuterungen (1)
ϑ ∈ Hi heißt: rechnen wir mit diesem ϑ (bzw. Pϑ ) so gilt die i-te
Nullhypothese
Pϑ ({φi = 1}) ≤ α heißt: die WK (gemessen mit Pϑ ) dass die i-te
Nullhypothese abgelehnt wird ist kleiner-gleich α
Pϑ ({φi = 1}) ≤ α für alle ϑ ∈ Hi heißt: Falls wir wissen, dass die i-te
Nullhypothese gilt, so ist die Wahrscheinlichkeit, dass die i-te
Nullhypothese abgelehnt wird kleiner-gleich α.
23 / 50
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α, Erläuterungen (2)
ϑ ∈ ⋂m
i=1 Hi heißt: ϑ ”liegt in jeder“ Nullhypothese bzw. rechnen wir
mit diesem ϑ so gilt jede Nullhypothese bzw. die Globalhypothese gilt
⋃m
i=1 {φi = 1} heißt: mindestens eine der Hypothesen H1 , . . . , Hm wird
abgelehnt
m
P ϑ (⋃ m
i=1 {φi = 1}) ≤ α für alle ϑ ∈ ⋂i=1 Hi heißt: falls alle H1 , . . . , Hm
gelten, so ist die Wahrscheinlichkeit dass mindestens eine der
H1 , . . . , Hm abgelehnt wird kleiner-gleich α.
⋃i∈I0 (ϑ) {φi = 1} heißt: mindestens eine der (unter ϑ) geltenden
Nullhypothesen wird abgelehnt
für ϑ ∈ Θ gilt Pϑ (⋃i∈I0 (ϑ) {φi = 1}) ≤ α heißt: die Wahrscheinlichkeit
dass eine unter ϑ geltende Nullhypothese abgelehnt wird, ist
kleiner-gleich α
24 / 50
Multiple Tests (formale Einführung)
Multipler Test zum Niveau α, Erläuterungen (3)
Welches Niveau (lokal, global oder mutipel) sollte uns nun interessieren?
Fordern wir dass φ ein multipler Test zum lokalen Niveau α ist und
alle φi (X ) stochastisch unabhängig sind mit
Pϑ ({φi = 1}) = α für alle ϑ ∈ Hi und alle i ∈ I0 (ϑ)
Dann kann die Wahrscheinlichkeit für irgendeinen Fehler 1. Art sehr
groß sein: Für alle ϑ ∈ Θ gilt:
Pϑ ( ⋃ {φi = 1}) = 1 − (1 − α)∣I0 (ϑ)∣
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
i∈I0 (ϑ)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ fast 1 falls ∣I0 (ϑ)∣ groß
/
irgendein Typ I Fehler
Ein Test zum globalen Niveau α ist nur sinnvoll, wenn uns die
Globalhypothese (alle Hi treffen gleichzeitig zu) interessiert. Dies ist
oft nicht der Fall. /
Ein Test zum multiplen Niveau α kontrolliert die WK für irgendeinen
Typ I Fehler ,
25 / 50
Multiple Fehler
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
26 / 50
Multiple Fehler
Multiple Fehler
Definition
Ist φ ein multiper Test, x ∈ Ω eine Beobachtung und ϑ der wahre
Parameter, so ergibt φ einen
(i) multiplen Fehler 1. Art (oder multiplen Typ I Fehler), falls ein j ∈ I
existiert mit
φj (x) = 1 und ϑ ∈ Hj
(ii) multiplen Fehler 2. Art (oder multiplen Typ II Fehler), falls ein j ∈ I
existiert mit
φj (x) = 0 und ϑ ∈ Kj
bei einem multiplen Test können beide Fehler gleichzeitig auftreten
Ist φ ein multipler Test zum multiplen Niveau α, so ist die
Wahrscheinlichkeit für irgendeinen multiplen Fehler 1. Art kleiner
gleich α (gleichgültig welche und wie viele der Hi wahr sind).
27 / 50
Multiple Fehler
Family-Wise Error Rate
Definition
Der Ausdruck (aus der Def. zum multiplen Test zum multiplen Niveau α)
FWERϑ (φ) ∶= Pϑ (⋃i∈I0 (ϑ) {φi = 1})
wird oft als Family-Wise Error Rate (FWER) oder Experiment-Wise
Error Rate bezeichnet.
Ein multipler Test φ für den
FWERϑ (φ) ≤ α
für alle ϑ ∈ Θ
(2)
gilt, ist also ein multipler Test zum multiplen Niveau α. Die Bedingung (2)
kann man auch mittel einem Supremum ausdrücken:
FWER(φ) ∶= sup(FWERϑ (φ)) ≤ α
ϑ∈Θ
Es folgen 2 Methoden um die FWER zu beschränken...
28 / 50
Multiple Fehler
Bonferroni-Methode
Bonferroni (vgl. Bonferroni 1936)
Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ
ein multipler Test. Dann gilt: falls
Pϑ ({φi = 1}) ≤ α/m
für alle ϑ ∈ Hi , für alle i ∈ I ,
so folgt
FWERϑ (φ) ≤ α
für alle ϑ ∈ Θ.
In Worten: Ist φ ein multipler Test zum lokalen Niveau α/m, so ist φ
auch ein multipler Test zum multiplen Niveau α.
Aufgabe
Zeigen Sie, dass obige Implikation gilt.
29 / 50
Multiple Fehler
Šidák-Methode
Šidák (vgl. Šidák 1967)
Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ
ein multipler Test. Dann gilt: falls die Zufallsvariablen φi (X ),
i ∈ I ∶= {1, . . . , m} stochastisch unabhängig sind und
Pϑ ({φi = 1}) ≤ 1 − (1 − α)1/m
für alle ϑ ∈ Hi , für alle i ∈ I ,
so folgt
FWERϑ (φ) ≤ α
für alle ϑ ∈ Θ.
In Worten: Ist φ ein multipler Test zum lokalen Niveau αm und sind die
φi (X ) stochastisch unabhängig, so ist φ auch ein multipler Test zum
multiplen Niveau α.
Aufgabe
Zeigen Sie, dass obige Implikation gilt.
30 / 50
Multiple Fehler
Aufgaben
Aufgabe
Sie betrachten ein multiples Testproblem (Ω, A, P, H) und wissen, dass
für den multiplen Test φ gilt, dass die Zufallsvariablen
φi (X ), i ∈ I ,
stochastisch unabhängig
sind. Ist die Šidák-Methode oder die Bonferroni-Methode zu bevorzugen?
Begründen Sie Ihre Antwort.
Aufgabe
Wir führen eine explorative Untersuchung von 10.000 Genen in einer
Genexpressionsanalyse durch. Es soll herausgefunden werden ob es Gene
gibt, welche einen signifikanten Zusammenhang mit der metrischen
Zielvariable y (z.B. Körpergröße) haben. Wie lässt sich dies testen, wenn
die FWER kontrolliert werden soll?
31 / 50
p-Wert
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
32 / 50
p-Wert
p-Wert
Wir betrachten ein statistisches Modell (Ω, A, P) und einen Test φ für das
Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R
beruht. Für jedes α ∈ (0, 1) liefert φ einen Ablehnungsbereich Γα :
φ(x) = 1
⇔
T (x) ∈ Γα
Falls H0 einelementig ist, also H0 = {ϑ0 }, so ist der p-Wert definiert als:
pφ (x) = inf{Pϑ0 (T (X ) ∈ Γα ) ∣ α ∈ (0, 1), T (x) ∈ Γα }
Beachte: H0 ist nicht immer einelementig. Falls ∣H0 ∣ > 1 wird die Formel
etwas komplizierter.
Merksatz: pφ (x) ist die Wahrscheinlichkeit dass, unter der Nullhypothese,
das vorliegende x oder ein noch extremeres beobachtet wird.
Warum dieser Merksatz zur Definition vom p-Wert passt, kann man besser
erkennen, wenn man sich folgende Spezialfälle anschaut: ...
33 / 50
p-Wert
p-Wert, Spezialfälle
rechtsseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt [γα , ∞)
(mit γα so dass Pϑ0 (T (X ) ≥ γα ) = α), vereinfacht sich die Definition des
p-Wert zu
pφ (x) = Pϑ0 (T (X ) ≥ T (x))
linksseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ]
(mit γα so dass Pϑ0 (T (X ) ≤ γα ) = α), vereinfacht sich die Definition des
p-Wert zu
pφ (x) = Pϑ0 (T (X ) ≤ T (x))
beidseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt
(−∞, γα ] ∪ [γα′ , ∞) ( mit γα und γα′ so dass Pϑ0 (T (X ) ≤ γα ) = α/2 und
Pϑ0 (T (X ) ≥ γα′ ) = α/2) vereinfacht sich die Definition des p-Wert zu
⎧
⎪
⎪2 ⋅ Pϑ0 (T (X ) ≥ T (x))
pφ (x) = ⎨
⎪
⎪
⎩2 ⋅ Pϑ0 (T (X ) ≤ T (x))
falls Pϑ0 (T (X ) ≥ T (x)) ≤ 1/2
falls Pϑ0 (T (X ) ≤ T (x)) ≤ 1/2
34 / 50
p-Wert
p-Wert ist unter H0 gleichverteilt
Sei (Ω, A, P) ein statistisches Modell, φ ein Test für das Hypothesenpaar
H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Gilt
H = {ϑ0 } (einelementig)
Pϑ0 stetig
φ so dass für jedes α ein cα existiert mit φ(x) = 1 ⇔ T (x) > cα ,
dann
Pϑ0 (pφ (X ) ≤ t) = t
für alle t ∈ [0, 1]
Merksatz: Der p-Wert pφ (X ) ist unter der Nullhypothese gleichverteilt.
35 / 50
Ein step-down Verfahren
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
36 / 50
Ein step-down Verfahren
Bonferroni-Holm-Test
Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei
H = {Hi ∣ i ∈ I = {1, . . . , m}} Elementarhypothesen sind. Für jedes i ∈ I sei
pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind
p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m]
und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen.
Wir setzen und für i = 1, . . . , m
⎧
⎪
falls pi (X ) stochastisch abhängig sind, Fall I
⎪α/i
αi ∶= ⎨
1/i
⎪
falls pi (X ) stochastisch unabhängig sind, Fall II
⎪
⎩1 − (1 − α)
Dann setzen wir
⎧
⎪
⎪1 falls i ≤ i ∗
φBH
=
⎨
i
∗
⎪
⎪
⎩0 falls i > i
mit
i ∗ ∶= max{i ∈ I ∣ pj ≤ αm−j+1 ∀j = 1, . . . , i}
Dieses φBH ist ein multipler Test zum multiplen Niveau α.
37 / 50
Ein step-down Verfahren
Bemerkungen zum Bonferroni-Holm-Test
Der Bonferroni-Holm-Test (BH-Test) ist ein step-down Test, da mit
dem signifikantesten Test begonnen wird (kleinster p-Wert) und
Schritt für Schritt bis zur Schranke i ∗ jede Hypothese abgelehnt wird
Fall I des BH-Test ist zu vergleichen mit der Bonferroni-Methode. Fall
II ist zu vergleichen mit der Šidák-Methode.
φBH beschränkt (wie die Bonferroni-Methode oder die
Šidák-Methode) die FWER durch vorgegebenes α
Aber, verglichen mit der Bonferroni-Methode oder der
Šidák-Methode, ist der BH-Test eine Verbesserung bezüglich Typ-II
Fehlern
38 / 50
Ein step-down Verfahren
Beispiel zum Bonferroni-Holm-Test (1)
Wir haben in einem multiplen Testproblem die p-Werte
p1 = 0.0126, p2 = 0.007, p3 = 0.023, p4 = 0.02, p5 = 0.002, p6 = 0.5.
Geordnet ergibt das
p[1] = 0.002, p[2] = 0.007, p[3] = 0.0126, p[4] = 0.02, p[5] = 0.023, p[6] = 0.5.
Uns interessiert α = 0.05.
Fall I: wir können keine Unabhängigkeit voraussetzen
p[1] = 0.002 ≤ α6 = 0.05/6 = 0.008333,
H5 = H[1] ablehnen
p[2] = 0.007 ≤ α5 = 0.05/5 = 0.01,
H2 = H[2] ablehnen
p[3] = 0.0126 > α4 = 0.05/4 = 0.0125,
p[4] = 0.02 > α3 = 0.05/3 = 0.01667,
H1 = H[3] nicht ablehnen
H4 = H[4] nicht ablehnen
p[5] = 0.023 ≤ α2 = 0.05/2 = 0.025,
H3 = H[5] nicht ablehnen
p[6] = 0.5 > α1 = 0.05/1 = 0.05,
H6 = H[6] nicht ablehnen
39 / 50
Ein step-down Verfahren
Beispiel zum Bonferroni-Holm-Test (2)
Fall II: wir können Unabhängigkeit voraussetzen
1
H5 = H[1] ablehnen
1
5
H2 = H[2] ablehnen
1
4
H1 = H[3] ablehnen
1
3
H4 = H[4] nicht ablehnen
1
H3 = H[5] nicht ablehnen
1
1
H6 = H[6] nicht ablehnen
p[1] = 0.002 ≤ α6 = 1 − 0.95 6 = 0.008512,
p[2] = 0.007 ≤ α5 = 1 − 0.95 = 0.010206,
p[3] = 0.0126 ≤ α4 = 1 − 0.95 = 0, 012741,
p[4] = 0.02 > α3 = 1 − 0.95 = 0.016952,
p[5] = 0.023 ≤ α2 = 1 − 0.95 2 = 0.025321,
p[6] = 0.5 > α1 = 1 − 0.95 = 0.05,
Sobald in Richtung ↓ das erste mal kein ≤ mehr steht, werden alle
vorherigen Hypothesen abgelehnt. Wegen der Richtung ↓ nennt man dies
ein Step-Down-Verfahren.
Beobachtung: In Fall II werden mehr Hypothesen abgelehnt als in Fall I.
40 / 50
Die False Discovery Rate
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
41 / 50
Die False Discovery Rate
Summierte Größen
Bezeichnungen
Sei (Ω, A, P, H) mit H = {Hi ∣ i ∈ I = {1, . . . , m}} ein multiples
Testproblem und φ = (φ1 , . . . , φm ) ein multipler Test. Sei ϑ ∈ Θ fest
vorgegeben. Dann
ist m die Anzahl der zu prüfenden Nullhypothesen
ist m0 = m0 (ϑ) die Anzahl der (unter ϑ) wahren Nullhypothesen
ist m1 = m1 (ϑ) = m − m0 (ϑ) die Anzahl der (unter ϑ) falschen
Nullhypothesen
ist R(ϑ) = ∑m
i=1 φi die (zufällige) Anzahl verworfener Nullhypothesen
ist V (ϑ) = ∑i∈I0 (ϑ) φi die (zufällige) Anzahl der (unter ϑ)
fälschlicherweise verworfenen Nullhypothesen
ist S(ϑ) = ∑i∈I1 (ϑ) φi die (zufällige) Anzahl der (unter ϑ)
korrekterweise verworfenen Nullhypothesen
42 / 50
Die False Discovery Rate
Schema
Hypothesen
wahr
falsch
Test = 0
m0 − V (ϑ)
m1 − S(ϑ)
m − R(ϑ)
Test = 1
V (ϑ)
S(ϑ)
R(ϑ)
m0 (ϑ)
m1 (ϑ)
m
Beobachtung
V (ϑ) + S(ϑ) = R(ϑ)
In der Praxis werden wir nur R(ϑ) und m kennen.
FWERϑ (φ) = Pϑ (V (ϑ) > 0)
FWER(φ) = supϑ∈Θ Pϑ (V (ϑ) > 0)
43 / 50
Die False Discovery Rate
Unter den üblichen Voraussetzungen definieren wir:
Die Zufallsvariable
FDPϑ (φ) ∶=
V (ϑ)
max{R(ϑ), 1}
heißt False Discovery Proportion.
Die Zahl
FDRϑ (φ) ∶= Eϑ (FDPϑ (φ))
heißt False Discovery Rate (FDR). Die FDR beschreibt also den
erwarteten Anteil an Typ I Fehlern unter allen Verwerfungen von φ.
Wir sagen der multiple Test φ ist FDR-kontrollierend zum Niveau α,
falls
FDR(φ) ∶= sup FDRϑ (φ) ≤ α
ϑ∈Θ
Interpretation: Gilt FDR(φ) ≤ 0, 05 so liefert der Test φ im Mittel unter
100 Verwerfungen maximal 5 fälschlicherweise verworfene Tests.
Nun folgt ein Test der soetwas kann...
44 / 50
Die False Discovery Rate
Benjamini-Hochberg-Test
Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei
H = {Hi ∣ i ∈ I = {1, . . . , m}}. Für jedes i ∈ I sei pi der p-Wert zum Test Hi
vs. Ki . Die geordneten p-Werte sind
p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m]
und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen.
Wir setzen und für i = 1, . . . , m
iα
αi ∶= .
m
Dann definieren wir den linearen step-up Test von Benjamini und
Hochberg mittels
⎧
∗
⎪
LSU ⎪1 falls i ≤ i
φi
=⎨
⎪0 falls i > i ∗
⎪
⎩
mit
i ∗ ∶= max{i ∈ I ∣ pj ≤ αj }.
45 / 50
Die False Discovery Rate
Unter gewissen Zusatz-Voraussetzungen ist φLSU
FDR-kontrollierend zum Niveau α.
Gilt entweder
(a) pi (X ), i ∈ I sind unabhängige, auf [0, 1] gleichvert. Zufallsvariablen
oder
(b) ∀ϑ ∈ Θ ∶ ∀j ∈ I ∶ ∀i ∈ I0 (ϑ) ∶
Pϑ (R(ϑ) ≥ j ∣ pi ≤ t) ist nicht-wachsend in t ∈ (0, αj ]
so ist φLSU FDR-kontrollierend zum Niveau α.
46 / 50
Die False Discovery Rate
Beispiel zum Benjamini-Hochberg-Test
Wir haben in einem multiplen Testproblem die p-Werte
p1 = 0.028, p2 = 0.007, p3 = 0.4, p4 = 0.03, p5 = 0.002, p6 = 0.5.
Geordnet ergibt das
p[1] = 0.002, p[2] = 0.007, p[3] = 0.028, p[4] = 0.03, p[5] = 0.4, p[6] = 0.5.
Uns interessiert die FDR zum Niveau α = 0.05.
p[1] = 0.002 ≤ α1 = (1 ⋅ 0.05)/6 = 0.008333,
H5 = H[1] ablehnen
p[2] = 0.007 ≤ α2 = (2 ⋅ 0.05)/6 = 0.016667,
H2 = H[2] ablehnen
p[3] = 0.028 > α3 = (3 ⋅ 0.05)/6 = 0.025,
H1 = H[3] ablehnen
p[4] = 0.03 ≤ α4 = (4 ⋅ 0.05)/6 = 0.033333,
H4 = H[4] ablehnen
p[5] = 0.4 > α5 = (5 ⋅ 0.05)/6 = 0.0416667, H3 = H[5] nicht ablehnen
p[6] = 0.5 > α6 = (6 ⋅ 0.05)/6 = 0.05,
H6 = H[6] nicht ablehnen
Sobald in Richtung ↑ das erste ≤ auftritt, werden von da an alle
Hypothesen abgelehnt. Wegen ↑ ist dies ein Step-Up-Verfahren.
47 / 50
Zusammenfassung
Inhalt
1
Grundlagen und Wiederholung
2
Beispiele für multiple Tests
3
Multiple Tests (formale Einführung)
4
Multiple Fehler
5
p-Wert
6
Ein step-down Verfahren
7
Die False Discovery Rate
8
Zusammenfassung
48 / 50
Zusammenfassung
Zusammenfassung
Theorie der Multiplen Tests wird notwendig wenn
zu einer Beobachtung x mehrere Fragestellungen/Hypothesen
beantwortet werden sollen, und
das Interesse nicht auf die Globalhypothese (=alle Elementarhypothesen
gelten gleichzeitig) beschränkt ist, sondern Aussagen über die einzelnen
Elementarhypothesen gewünscht sind.
Wir haben 2 grundlegende Größen kennen gelernt, die wir mit
geeigneten Tests kontrollieren möchten/können
die FWER
die FDR
Zur Kontrolle der FWER kennen wir
die Bonferroni-Methode
die Šidák-Methode
die Bonferroni-Holm-Methode (step-down-Methode)
Zur Kontrolle der FDR kennen wir
die Benjamini-Hochberg-Methode (step-up-Methode)
49 / 50
Zusammenfassung
Quellen/Literaturtipps
Skript Multiples Testen“ von Thorsten Dickhaus (ganz toll)
”
The Elements of Statistical Learning“, von Hastie, Tibshirani,
”
Friedman, second edition, 2008
50 / 50
Herunterladen