Übersicht 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) Dr. rer. nat. Fabian Schwarzenberger 4 Multiple Fehler Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung Statistisches Lernen Woche 10: Multiples Testen WS 2014/2015 1 / 50 Grundlagen und Wiederholung 2 / 50 Grundlagen und Wiederholung Bezeichnungen Statistisches Experiment/Modell X ... Zufallsvariable/ Zufallsgröße die den Ausgang eines Experimentes beschreibt, Ω ... zu X gehöriger Stichprobenraum (Menge der Realisierungen von X ; Annahme: Ω ≠ ∅) A ... Sigma-Algebra über Ω Definition Sei P = {Pϑ ∣ ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (Ω, A), so heißt das Tripel (Ω, A, P) statistisches Experiment oder statistisches Modell. Falls Θ ⊆ Rk mit k ∈ N, so heißt (Ω, A, P) parametrisches statistisches Modell, ϑ ∈ Θ Parameter und Θ Parameterraum. A ∈ A ... Ereignis (ein Element der Sigma-Algebra A) PX ... Verteilung von X (ein Wahrscheinlichkeitsmaß auf Ω) generelle Annahme: PX ∈ P = {Pϑ ∣ ϑ ∈ Θ} Beachte x ∈ Ω bezeichnet also alle unsere vorliegenden Beobachtungen. x ist also typischerweise ein Vektor: x = (x1 , . . . , xn ) statistische Inferenz: Aussagen über die wahre Verteilung PX bzw. den wahren Parameter ϑ gewinnen Die Sigma-Algebra A wird hier der Vollständigkeit/Korrektheit halber aufgeführt. Sie wird im Folgenden zwar weiter mit erwähnt, aber keine (vordergründige) Rolle spielen 3 / 50 Wir wollen wissen: Welches ist das wahre Pϑ unter allen möglichen {Pϑ ∣ ϑ ∈ Θ} ? 4 / 50 Grundlagen und Wiederholung Grundlagen und Wiederholung Testproblem (1) Testproblem (2) mit Maßen: gegeben P0 und P1 mit P0 ∩ P1 = ∅ und P0 ∪ P1 = P so ist Entscheidung gesucht über PX ∈ P0 oder PX ∈ P1 ; H0 und H1 nennt man Hypothesen H0 heißt Nullhypothese H1 heißt Alternativhypothese beziehungsweise (etwas formaler): wir testen H0 ∶ PX ∈ P0 versus H1 ∶ PX ∈ P1 Interpretation: häufig werden die Hypothesen H0 und H1 als Teilmengen des Parameterraums Θ interpretiert, also mit Parametern: gegeben Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und Θ0 ∪ Θ1 = Θ so ist Entscheidung gesucht über ϑ ∈ Θ0 H 0 ∩ H1 = ∅ und H0 ∪ H1 = Θ oder ϑ ∈ Θ1 beziehungsweise (etwas formaler): wir testen H0 ∶ ϑ ∈ Θ0 versus H1 ∶ ϑ ∈ Θ1 5 / 50 Grundlagen und Wiederholung 6 / 50 Grundlagen und Wiederholung Beispiel Testproblem Statistischer Test Beispiel Definition Eine Abbildung φ ∶ Ω → {0, 1} heißt statistischer Test, falls für alle A ⊆ {0, 1} {x ∈ Ω ∣ φ(x) ∈ A} ∈ A Wir wollen überprüfen ob der Mittelwert von (mit Varianz 1) normalverteilten Daten gleich 0 ist oder nicht. Dazu betrachten wir: P ∶= {Nm,1 ∣ m ∈ R}, P0 ∶= {N0,1 }, P1 ∶= {Nm,1 ∣ m ∈ R ∖ {0}} (i) Mit Worten H0 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW= 0 versus H1 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW≠ 0 H0 ∶ P = N0,1 versus H1 ∶ P ∈ P1 X (iii) Mit Parametern: wir setzen P = {Nm,1 ∣ m ∈ Θ}, Θ ∶= R, Beachte Die Bedingung (1) ist eine Messbarkeits-Bedingung und stellt sicher dass dem Annahmebreich und dem Ablehnungsbereich Wahrscheinlichkeiten zugeordent werden können. Θ0 ∶= {0} und Θ1 ∶= R ∖ {0} dann ist das Testproblem H0 ∶ ϑ = 0 versus H1 ∶ ϑ ≠ 0 Konvention: gegeben x ∈ Ω φ(x) = 1 ⇔ H0 wird verworfen, Entscheidung für H1 φ(x) = 0 ⇔ H0 wird nicht verworfen Ablehnungsbereich/kritischer Ber.: {x ∈ Ω ∣ φ(x) = 1}, kurz {φ = 1} Annahmebereich: {x ∈ Ω ∣ φ(x) = 0}, kurz {φ = 0} (ii) Mit Maßen X (1) 7 / 50 8 / 50 Grundlagen und Wiederholung Grundlagen und Wiederholung Fehler Bezeichnungen und Fakten Fehler 1. Art: Entscheidung für H1 obwohl H0 wahr ist (auch α-Fehler, type-I-error) φ(x) = 1 obwohl Für gegebenen Test φ und ϑ ∈ Θ bezeichnen wir die Ablehnwahrscheinlichkeit mit wahres ϑ ∈ H0 βφ (ϑ) ∶= Eϑ (φ) = Pϑ ({φ = 1}) = ∫ φ dPϑ . Ω Fehler 2. Art: Entscheidung für H0 obwohl H1 wahr ist (auch β-Fehler, type-II-error) φ(x) = 0 Für gegeben Test φ und ϑ ∈ Θ1 heißt βφ (ϑ) Gütefunktion von φ an der Stelle ϑ. obwohl wahres ϑ ∈ H1 Beachte: für ϑ ∈ Θ0 ist βφ (ϑ) gerade die Wahrscheinlichkeit für einen Fehler 1. Art des Tests φ Ist φ ein Test mit Vorgehen: 1 Festlegen einer oberen Schranke α für die Wahrscheinlichkeit einen Fehler 1. Art zu begehen 2 Unter Beachtung von (1), Minimierung der Wahrscheinlichkeit für Fehler 2. Art. βφ (ϑ) = Pϑ ({φ = 1}) ≤ α für alle ϑ ∈ Θ0 , so ist nennt man φ Test zu Niveau α. 9 / 50 10 / 50 Beispiele für multiple Tests Beispiele für multiple Tests Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung Mehrere Tests Bisher: eine Fragestellung anhand der Beobachtung x ∈ Ω Nun: mehrere Fragestellungen anhand der Beobachtung x ∈ Ω Beispiel Düngemittel-Vergleich“ ” Zum Vergleich von 5 Düngemitteln gegen Blattläuse wurde jedes Düngemittel an 100 Planzen getestet (also insgesamt 500 Pflanzen). Die Anzahl der Blattläuse nach Versuchsende soll die Wirksamkeit beschreiben. Wir bezeichnen mit Xij , i = 1, . . . , 5 und j = 1, . . . , 100 die Anzahl der Blattläuse an Pflanze j in der Gruppe i und nehmen an dass die Xij stochastisch unabhängig sind und Xij ∼ N (µi , σ 2 ) mit µi , σ > 0 für i = 1, . . . , 5. Paarweise Tests zum Vergleich der Mittlwerte: Hij ∶ {µi = µj } versus 11 / 50 Kij ∶ {µi ≠ µj } für 1 ≤ i < j ≤ 5 12 / 50 Beispiele für multiple Tests Beispiele für multiple Tests Beispiel Düngemittel-Vergleich“, fortgesetzt ” Beispiel Genetik“ ” Beispiel: Düngemittel-Vergleich Paarweise Tests zum Vergleich der Mittlwerte: In explorativen genetischen Analysen werden oft etwa 500.000 SNPs auf einen Zusammenhang mit einem bestimmten Phänotyp untersucht. Nehmen wir an, wir haben für jeden dieser SNPs einen entsprechenden Test (mit Nullhypothese Unabhängigkeit von SNP und Phänotyp“) ” durchgeführt und einen p-Wert berechnet. Wir wissen bereits (und hören es bald auch nochmal), dass p-Werte unter der Nullhypothese auf [0, 1] gleichverteilt sind. Wir setzen nun voraus: die p-Werte sind alle unabhängig voneinander (was zugegebenermaßen nicht ganz stimmt) keiner der SNPs hat einen tatsächlichen Zusammenhang mit dem Phänotyp, Dann werden sich die 500.000 p-Werte gleichmäßig auf [0, 1] verteilen: Hij ∶ {µi = µj } versus Kij ∶ {µi ≠ µj } für 1 ≤ i < j ≤ 5 Möglichkeit 1: Klassische Varianzanalyse (ANOVA) testet die Globalhypothese H0 = ⋂1≤i<j≤5 Hij (alle Mittelwerte sind gleich) gegen die Alternativehypothese H1 ∶ ∃i, j ∈ {1, . . . , 5} mit µi ≠ µj . Wird H0 abgelehnt, so bekommt man aber keine Aussage welche Paare unterschiedlich sind. Möglichkeit 2: (52) = 10 t-Tests. Für jedes Paar i, j ∈ {1, . . . , 5} mit i ≠ j lässt sich mit dem t-Test zum Niveau α die Hypothese Hij gegen die Alternative Kij testen. Für ein festes Paar i, j ist damit die Wahrscheinlichkeit für einen Fehler 1. Art ≤ α. ABER: Die Wahrscheinlichkeit, dass in irgendeinem der 10 Tests ein Fehler 1. Art auftritt ist wesentlich höher! 13 / 50 Beispiele für multiple Tests 0 0.05 1 Unter der Signifikanzschwelle“ 0.05 landen ganz zufällig (im Mittel) ” 0, 05 ∗ 500000 = 25000 SNPs !!!! (trotz Unabh. vom Phänotyp!) 14 / 50 Beispiele für multiple Tests Beispiel Multiple Endpunkte“ (1) ” Beispiel Multiple Endpunkte“ (2) ” Einfluss von Schlafentzug auf Aufmerksamkeit Getestet werden soll der Einfluss von Schlafentzug auf Aufmerksamkeit. Drei Arten der Aufmerksamkeit (welche in Testungen gemessen werden sollen) sind Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit. Es werden 2 Gruppen gebildet: eine mit Probanden die in den letzten 24 Stunden maximal 3 Stunden geschlafen haben und eine (Kontroll-)Gruppe mit Probanden, die mindesten 6 Stunden in den letzten 24 Stunden geschlafen haben. Nun werden Testungen an den Probanden durchgeführt und daraus metrische Werte für Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit abgeleitet. Mögliche Vorgehensweisen: 15 / 50 Methode 1: Für jede Zielvariable einen Test durchführen (z.B je einen t-Test) und dann auf multiples Testen korrigieren. Methode 2: Konzentration auf nur eine Art der Aufmerksamkeit, etwa die Daueraufmerksamkeit“. Die Daten für Vigilanz und geteilte ” Aufmerksamkeit gehen nicht in die Analyse ein, sondern werden nur explorativ untersucht. Methode 3: Aus den metrischen Werten für Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit eine Zielvariable bilden, etwa durch eine gewichtete Summe. 16 / 50 Beispiele für multiple Tests Multiple Tests (formale Einführung) Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung Hauptursachen für Schwierigkeiten beim multiplen Testen Prüfgrößen der Einzeltests sind im Allgemeinen nicht stochastisch unabhängig Gemeisame Verteilung ist schwer oder gar nicht bestimmbar Wird jeder Einzeltest zum Niveau α durchgeführt, kann die Irrtumswahrscheinlichkeit der Gesamtaussage unüberschaubar werden 17 / 50 18 / 50 Multiple Tests (formale Einführung) Multiple Tests (formale Einführung) Multiples Testproblem Hypthesen-Struktur Definition Seien (Ω, A, P) mit P = {Pϑ ∣ ϑ ∈ Θ} ein statistisches Modell, m ∈ N ∖ {1} und I = {1, . . . , m}. Seien ∅ ≠ Hi ⊆ Θ, i ∈ I paarweise verschieden und setze Ki ∶= Θ ∖ Hi . Sei weiterhin ϑ ∈ Θ der wahre Parameter. Dann heißt die Menge H ∶= {Hi ∣ i ∈ I } Hypothesensystem; Hi wahr, wenn ϑ ∈ Hi ; Hi falsch, wenn ϑ ∈ Ki ; Sei H = {H1 , . . . , Hm } Hypothesensystem. Eine Hypothese Hi ∈ H heißt echte Obermenge von Hj ∈ H, falls Hi ≠ Hj und aus der Richtigkeit von Hj die Richtigkeit von Hi folgt. Man schreibt Hi ⊃ Hj . Hi ∈ H heißt Elementarhypothese, falls sie nicht als Durchschnitt ihrer echten Obermengen darstellbar ist. Der nichtleere Durchschnitt aller Elementarhypothesen wird Globalhypothese genannt. das Tupel (Ω, A, P, H) ein multiples Testproblem. H1 ∩ H 2 ∩ H3 Merke: Ein multiples Testproblem ist statistisches Modell gemeinsam mit mehreren (unterschiedlichen) Hypothesen. Für einen (beliebigen) Parameter ϑ setzen wir I0 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Hi } die Indexmenge der (unter ϑ) wahren Nullhypothesen I1 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Ki } die Indexm. d. (unter ϑ) falschen Nullhyp. 19 / 50 Globalhypothese H1 ∩ H 2 H1 ∩ H3 H2 ∩ H3 Schnitthypothesen H1 H2 H3 Elementarhypothesen 20 / 50 Multiple Tests (formale Einführung) Multiple Tests (formale Einführung) Multipler Test zum Niveau α Definition Sei (Ω, A, P, H) ein multiples Testproblem mit Indexmenge I = {1, . . . , m}. Dann heißt φ = (φ1 , . . . , φm ) ein multipler Test, falls für jedes i ∈ I gilt: φi ist ein statistischer Test. Sei φ = (φ1 , . . . , φm ) ein multipler Test zum multiplen Testproblem (Ω, A, P, H) und α ∈ (0, 1). Dann heißt φ multipler Test (a) zum lokalen Niveau α, falls für alle i ∈ I Damit ist jedes φi eine Abbildung Pϑ ({φi = 1}) ≤ α φi ∶ Ω → {0, 1} für alle ϑ ∈ Hi (b) zum globalen Niveau α, falls und φ ordnet jeder Beobachtung x ∈ Ω einen m-dimensionalen Vektor aus Nullen und Einsen zu. m Pϑ ( ⋃ {φi = 1}) ≤ α i=1 Konvention m für alle ϑ ∈ H0 ∶= ⋂ Hi i=1 (c) zum multiplen Niveau α, falls für alle ϑ ∈ Θ φi (x) = 1 ⇔ Hi wird verworfen, Entscheidung für Ki φi (x) = 0 ⇔ Hi wird nicht verworfen Pϑ ( ⋃ {φi = 1}) ≤ α i∈I0 (ϑ) 21 / 50 Multiple Tests (formale Einführung) 22 / 50 Multiple Tests (formale Einführung) Multipler Test zum Niveau α, Erläuterungen (1) Multipler Test zum Niveau α, Erläuterungen (2) ϑ ∈ ⋂m i=1 Hi heißt: ϑ ”liegt in jeder“ Nullhypothese bzw. rechnen wir mit diesem ϑ so gilt jede Nullhypothese bzw. die Globalhypothese gilt ϑ ∈ Hi heißt: rechnen wir mit diesem ϑ (bzw. Pϑ ) so gilt die i-te Nullhypothese ⋃m i=1 {φi = 1} heißt: mindestens eine der Hypothesen H1 , . . . , Hm wird abgelehnt Pϑ ({φi = 1}) ≤ α heißt: die WK (gemessen mit Pϑ ) dass die i-te Nullhypothese abgelehnt wird ist kleiner-gleich α m P ϑ (⋃ m i=1 {φi = 1}) ≤ α für alle ϑ ∈ ⋂i=1 Hi heißt: falls alle H1 , . . . , Hm gelten, so ist die Wahrscheinlichkeit dass mindestens eine der H1 , . . . , Hm abgelehnt wird kleiner-gleich α. Pϑ ({φi = 1}) ≤ α für alle ϑ ∈ Hi heißt: Falls wir wissen, dass die i-te Nullhypothese gilt, so ist die Wahrscheinlichkeit, dass die i-te Nullhypothese abgelehnt wird kleiner-gleich α. ⋃i∈I0 (ϑ) {φi = 1} heißt: mindestens eine der (unter ϑ) geltenden Nullhypothesen wird abgelehnt für ϑ ∈ Θ gilt Pϑ (⋃i∈I0 (ϑ) {φi = 1}) ≤ α heißt: die Wahrscheinlichkeit dass eine unter ϑ geltende Nullhypothese abgelehnt wird, ist kleiner-gleich α 23 / 50 24 / 50 Multiple Tests (formale Einführung) Multiple Fehler Multipler Test zum Niveau α, Erläuterungen (3) Inhalt Welches Niveau (lokal, global oder mutipel) sollte uns nun interessieren? Fordern wir dass φ ein multipler Test zum lokalen Niveau α ist und alle φi (X ) stochastisch unabhängig sind mit Pϑ ({φi = 1}) = α für alle ϑ ∈ Hi und alle i ∈ I0 (ϑ) Dann kann die Wahrscheinlichkeit für irgendeinen Fehler 1. Art sehr groß sein: Für alle ϑ ∈ Θ gilt: Pϑ ( ⋃ {φi = 1}) = 1 − (1 − α)∣I0 (ϑ)∣ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ i∈I0 (ϑ) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ fast 1 falls ∣I0 (ϑ)∣ groß / 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung irgendein Typ I Fehler Ein Test zum globalen Niveau α ist nur sinnvoll, wenn uns die Globalhypothese (alle Hi treffen gleichzeitig zu) interessiert. Dies ist oft nicht der Fall. / Ein Test zum multiplen Niveau α kontrolliert die WK für irgendeinen Typ I Fehler , 25 / 50 Multiple Fehler 26 / 50 Multiple Fehler Multiple Fehler Family-Wise Error Rate Definition Ist φ ein multiper Test, x ∈ Ω eine Beobachtung und ϑ der wahre Parameter, so ergibt φ einen Definition Der Ausdruck (aus der Def. zum multiplen Test zum multiplen Niveau α) FWERϑ (φ) ∶= Pϑ (⋃i∈I0 (ϑ) {φi = 1}) (i) multiplen Fehler 1. Art (oder multiplen Typ I Fehler), falls ein j ∈ I existiert mit φj (x) = 1 und ϑ ∈ Hj (ii) multiplen Fehler 2. Art (oder multiplen Typ II Fehler), falls ein j ∈ I existiert mit φj (x) = 0 und ϑ ∈ Kj bei einem multiplen Test können beide Fehler gleichzeitig auftreten Ist φ ein multipler Test zum multiplen Niveau α, so ist die Wahrscheinlichkeit für irgendeinen multiplen Fehler 1. Art kleiner gleich α (gleichgültig welche und wie viele der Hi wahr sind). wird oft als Family-Wise Error Rate (FWER) oder Experiment-Wise Error Rate bezeichnet. Ein multipler Test φ für den FWERϑ (φ) ≤ α für alle ϑ ∈ Θ (2) gilt, ist also ein multipler Test zum multiplen Niveau α. Die Bedingung (2) kann man auch mittel einem Supremum ausdrücken: FWER(φ) ∶= sup(FWERϑ (φ)) ≤ α ϑ∈Θ Es folgen 2 Methoden um die FWER zu beschränken... 27 / 50 28 / 50 Multiple Fehler Multiple Fehler Šidák-Methode Bonferroni-Methode Šidák (vgl. Šidák 1967) Bonferroni (vgl. Bonferroni 1936) Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ ein multipler Test. Dann gilt: falls Pϑ ({φi = 1}) ≤ α/m Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ ein multipler Test. Dann gilt: falls die Zufallsvariablen φi (X ), i ∈ I ∶= {1, . . . , m} stochastisch unabhängig sind und für alle ϑ ∈ Hi , für alle i ∈ I , Pϑ ({φi = 1}) ≤ 1 − (1 − α)1/m so folgt FWERϑ (φ) ≤ α für alle ϑ ∈ Hi , für alle i ∈ I , so folgt für alle ϑ ∈ Θ. FWERϑ (φ) ≤ α In Worten: Ist φ ein multipler Test zum lokalen Niveau α/m, so ist φ auch ein multipler Test zum multiplen Niveau α. für alle ϑ ∈ Θ. In Worten: Ist φ ein multipler Test zum lokalen Niveau αm und sind die φi (X ) stochastisch unabhängig, so ist φ auch ein multipler Test zum multiplen Niveau α. Aufgabe Zeigen Sie, dass obige Implikation gilt. Aufgabe Zeigen Sie, dass obige Implikation gilt. 30 / 50 29 / 50 Multiple Fehler p-Wert Aufgaben Inhalt Aufgabe Sie betrachten ein multiples Testproblem (Ω, A, P, H) und wissen, dass für den multiplen Test φ gilt, dass die Zufallsvariablen φi (X ), i ∈ I , stochastisch unabhängig sind. Ist die Šidák-Methode oder die Bonferroni-Methode zu bevorzugen? Begründen Sie Ihre Antwort. Aufgabe Wir führen eine explorative Untersuchung von 10.000 Genen in einer Genexpressionsanalyse durch. Es soll herausgefunden werden ob es Gene gibt, welche einen signifikanten Zusammenhang mit der metrischen Zielvariable y (z.B. Körpergröße) haben. Wie lässt sich dies testen, wenn die FWER kontrolliert werden soll? 31 / 50 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 32 / 50 p-Wert p-Wert p-Wert p-Wert, Spezialfälle Wir betrachten ein statistisches Modell (Ω, A, P) und einen Test φ für das Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Für jedes α ∈ (0, 1) liefert φ einen Ablehnungsbereich Γα : rechtsseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt [γα , ∞) (mit γα so dass Pϑ0 (T (X ) ≥ γα ) = α), vereinfacht sich die Definition des p-Wert zu pφ (x) = Pϑ0 (T (X ) ≥ T (x)) φ(x) = 1 ⇔ T (x) ∈ Γα Falls H0 einelementig ist, also H0 = {ϑ0 }, so ist der p-Wert definiert als: pφ (x) = inf{Pϑ0 (T (X ) ∈ Γα ) ∣ α ∈ (0, 1), T (x) ∈ Γα } Beachte: H0 ist nicht immer einelementig. Falls ∣H0 ∣ > 1 wird die Formel etwas komplizierter. Merksatz: pφ (x) ist die Wahrscheinlichkeit dass, unter der Nullhypothese, das vorliegende x oder ein noch extremeres beobachtet wird. linksseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ] (mit γα so dass Pϑ0 (T (X ) ≤ γα ) = α), vereinfacht sich die Definition des p-Wert zu pφ (x) = Pϑ0 (T (X ) ≤ T (x)) beidseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ] ∪ [γα′ , ∞) ( mit γα und γα′ so dass Pϑ0 (T (X ) ≤ γα ) = α/2 und Pϑ0 (T (X ) ≥ γα′ ) = α/2) vereinfacht sich die Definition des p-Wert zu ⎧ ⎪ ⎪2 ⋅ Pϑ0 (T (X ) ≥ T (x)) pφ (x) = ⎨ ⎪ ⎪ ⎩2 ⋅ Pϑ0 (T (X ) ≤ T (x)) Warum dieser Merksatz zur Definition vom p-Wert passt, kann man besser erkennen, wenn man sich folgende Spezialfälle anschaut: ... 33 / 50 falls Pϑ0 (T (X ) ≥ T (x)) ≤ 1/2 falls Pϑ0 (T (X ) ≤ T (x)) ≤ 1/2 34 / 50 p-Wert Ein step-down Verfahren p-Wert ist unter H0 gleichverteilt Inhalt Sei (Ω, A, P) ein statistisches Modell, φ ein Test für das Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Gilt H = {ϑ0 } (einelementig) 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung Pϑ0 stetig φ so dass für jedes α ein cα existiert mit φ(x) = 1 ⇔ T (x) > cα , dann Pϑ0 (pφ (X ) ≤ t) = t für alle t ∈ [0, 1] Merksatz: Der p-Wert pφ (X ) ist unter der Nullhypothese gleichverteilt. 35 / 50 36 / 50 Ein step-down Verfahren Ein step-down Verfahren Bonferroni-Holm-Test Bemerkungen zum Bonferroni-Holm-Test Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei H = {Hi ∣ i ∈ I = {1, . . . , m}} Elementarhypothesen sind. Für jedes i ∈ I sei pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m] und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen. Wir setzen und für i = 1, . . . , m ⎧ ⎪ falls pi (X ) stochastisch abhängig sind, Fall I ⎪α/i αi ∶= ⎨ 1/i ⎪ falls pi (X ) stochastisch unabhängig sind, Fall II ⎪ ⎩1 − (1 − α) Dann setzen wir ⎧ ⎪ ⎪1 falls i ≤ i ∗ φBH = ⎨ i ∗ ⎪ ⎪ ⎩0 falls i > i Der Bonferroni-Holm-Test (BH-Test) ist ein step-down Test, da mit dem signifikantesten Test begonnen wird (kleinster p-Wert) und Schritt für Schritt bis zur Schranke i ∗ jede Hypothese abgelehnt wird Fall I des BH-Test ist zu vergleichen mit der Bonferroni-Methode. Fall II ist zu vergleichen mit der Šidák-Methode. φBH beschränkt (wie die Bonferroni-Methode oder die Šidák-Methode) die FWER durch vorgegebenes α Aber, verglichen mit der Bonferroni-Methode oder der Šidák-Methode, ist der BH-Test eine Verbesserung bezüglich Typ-II Fehlern mit i ∗ ∶= max{i ∈ I ∣ pj ≤ αm−j+1 ∀j = 1, . . . , i} Dieses φBH ist ein multipler Test zum multiplen Niveau α. 38 / 50 37 / 50 Ein step-down Verfahren Ein step-down Verfahren Beispiel zum Bonferroni-Holm-Test (1) Beispiel zum Bonferroni-Holm-Test (2) Wir haben in einem multiplen Testproblem die p-Werte Fall II: wir können Unabhängigkeit voraussetzen p1 = 0.0126, p2 = 0.007, p3 = 0.023, p4 = 0.02, p5 = 0.002, p6 = 0.5. Geordnet ergibt das p[1] = 0.002, p[2] = 0.007, p[3] = 0.0126, p[4] = 0.02, p[5] = 0.023, p[6] = 0.5. Uns interessiert α = 0.05. Fall I: wir können keine Unabhängigkeit voraussetzen p[1] = 0.002 ≤ α6 = 0.05/6 = 0.008333, H5 = H[1] ablehnen p[2] = 0.007 ≤ α5 = 0.05/5 = 0.01, H2 = H[2] ablehnen p[3] = 0.0126 > α4 = 0.05/4 = 0.0125, 1 H5 = H[1] ablehnen 1 5 H2 = H[2] ablehnen 1 4 H1 = H[3] ablehnen 1 3 H4 = H[4] nicht ablehnen 1 2 H3 = H[5] nicht ablehnen 1 1 H6 = H[6] nicht ablehnen p[1] = 0.002 ≤ α6 = 1 − 0.95 6 = 0.008512, p[2] = 0.007 ≤ α5 = 1 − 0.95 = 0.010206, p[3] = 0.0126 ≤ α4 = 1 − 0.95 = 0, 012741, p[4] = 0.02 > α3 = 1 − 0.95 = 0.016952, p[5] = 0.023 ≤ α2 = 1 − 0.95 = 0.025321, p[6] = 0.5 > α1 = 1 − 0.95 = 0.05, H1 = H[3] nicht ablehnen p[5] = 0.023 ≤ α2 = 0.05/2 = 0.025, H3 = H[5] nicht ablehnen Sobald in Richtung ↓ das erste mal kein ≤ mehr steht, werden alle vorherigen Hypothesen abgelehnt. Wegen der Richtung ↓ nennt man dies ein Step-Down-Verfahren. p[6] = 0.5 > α1 = 0.05/1 = 0.05, H6 = H[6] nicht ablehnen Beobachtung: In Fall II werden mehr Hypothesen abgelehnt als in Fall I. p[4] = 0.02 > α3 = 0.05/3 = 0.01667, H4 = H[4] nicht ablehnen 39 / 50 40 / 50 Die False Discovery Rate Die False Discovery Rate Inhalt Summierte Größen Bezeichnungen 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler ist m0 = m0 (ϑ) die Anzahl der (unter ϑ) wahren Nullhypothesen 5 p-Wert ist m1 = m1 (ϑ) = m − m0 (ϑ) die Anzahl der (unter ϑ) falschen Nullhypothesen 6 Ein step-down Verfahren ist R(ϑ) = ∑m i=1 φi die (zufällige) Anzahl verworfener Nullhypothesen 7 Die False Discovery Rate 8 Zusammenfassung Sei (Ω, A, P, H) mit H = {Hi ∣ i ∈ I = {1, . . . , m}} ein multiples Testproblem und φ = (φ1 , . . . , φm ) ein multipler Test. Sei ϑ ∈ Θ fest vorgegeben. Dann ist m die Anzahl der zu prüfenden Nullhypothesen ist V (ϑ) = ∑i∈I0 (ϑ) φi die (zufällige) Anzahl der (unter ϑ) fälschlicherweise verworfenen Nullhypothesen ist S(ϑ) = ∑i∈I1 (ϑ) φi die (zufällige) Anzahl der (unter ϑ) korrekterweise verworfenen Nullhypothesen 42 / 50 41 / 50 Die False Discovery Rate Die False Discovery Rate Unter den üblichen Voraussetzungen definieren wir: Die Zufallsvariable Schema FDPϑ (φ) ∶= Hypothesen wahr falsch Test = 0 m0 − V (ϑ) m1 − S(ϑ) m − R(ϑ) Test = 1 V (ϑ) S(ϑ) R(ϑ) V (ϑ) max{R(ϑ), 1} heißt False Discovery Proportion. Die Zahl FDRϑ (φ) ∶= Eϑ (FDPϑ (φ)) m0 (ϑ) m1 (ϑ) m heißt False Discovery Rate (FDR). Die FDR beschreibt also den erwarteten Anteil an Typ I Fehlern unter allen Verwerfungen von φ. Wir sagen der multiple Test φ ist FDR-kontrollierend zum Niveau α, falls FDR(φ) ∶= sup FDRϑ (φ) ≤ α Beobachtung V (ϑ) + S(ϑ) = R(ϑ) In der Praxis werden wir nur R(ϑ) und m kennen. ϑ∈Θ FWERϑ (φ) = Pϑ (V (ϑ) > 0) FWER(φ) = supϑ∈Θ Pϑ (V (ϑ) > 0) Interpretation: Gilt FDR(φ) ≤ 0, 05 so liefert der Test φ im Mittel unter 100 Verwerfungen maximal 5 fälschlicherweise verworfene Tests. Nun folgt ein Test der soetwas kann... 43 / 50 44 / 50 Die False Discovery Rate Die False Discovery Rate Benjamini-Hochberg-Test Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei H = {Hi ∣ i ∈ I = {1, . . . , m}}. Für jedes i ∈ I sei pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m] Unter gewissen Zusatz-Voraussetzungen ist φLSU FDR-kontrollierend zum Niveau α. Gilt entweder und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen. Wir setzen und für i = 1, . . . , m iα αi ∶= . m Dann definieren wir den linearen step-up Test von Benjamini und Hochberg mittels ⎧ ⎪ ⎪1 falls i ≤ i ∗ φLSU = ⎨ i ⎪0 falls i > i ∗ ⎪ ⎩ (a) pi (X ), i ∈ I sind unabhängige, auf [0, 1] gleichvert. Zufallsvariablen oder (b) ∀ϑ ∈ Θ ∶ ∀j ∈ I ∶ ∀i ∈ I0 (ϑ) ∶ Pϑ (R(ϑ) ≥ j ∣ pi ≤ t) ist nicht-wachsend in t ∈ (0, αj ] so ist φLSU FDR-kontrollierend zum Niveau α. mit i ∗ ∶= max{i ∈ I ∣ pj ≤ αj }. 45 / 50 46 / 50 Die False Discovery Rate Zusammenfassung Beispiel zum Benjamini-Hochberg-Test Inhalt Wir haben in einem multiplen Testproblem die p-Werte p1 = 0.028, p2 = 0.007, p3 = 0.4, p4 = 0.03, p5 = 0.002, p6 = 0.5. Geordnet ergibt das p[1] = 0.002, p[2] = 0.007, p[3] = 0.028, p[4] = 0.03, p[5] = 0.4, p[6] = 0.5. Uns interessiert die FDR zum Niveau α = 0.05. 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) p[1] = 0.002 ≤ α1 = (1 ⋅ 0.05)/6 = 0.008333, H5 = H[1] ablehnen 4 Multiple Fehler p[2] = 0.007 ≤ α2 = (2 ⋅ 0.05)/6 = 0.016667, H2 = H[2] ablehnen 5 p-Wert p[3] = 0.028 > α3 = (3 ⋅ 0.05)/6 = 0.025, H1 = H[3] ablehnen 6 Ein step-down Verfahren p[5] = 0.4 > α5 = (5 ⋅ 0.05)/6 = 0.0416667, H3 = H[5] nicht ablehnen 7 Die False Discovery Rate p[6] = 0.5 > α6 = (6 ⋅ 0.05)/6 = 0.05, 8 Zusammenfassung p[4] = 0.03 ≤ α4 = (4 ⋅ 0.05)/6 = 0.033333, H4 = H[4] ablehnen H6 = H[6] nicht ablehnen Sobald in Richtung ↑ das erste ≤ auftritt, werden von da an alle Hypothesen abgelehnt. Wegen ↑ ist dies ein Step-Up-Verfahren. 47 / 50 48 / 50 Zusammenfassung Zusammenfassung Zusammenfassung Quellen/Literaturtipps Theorie der Multiplen Tests wird notwendig wenn zu einer Beobachtung x mehrere Fragestellungen/Hypothesen beantwortet werden sollen, und das Interesse nicht auf die Globalhypothese (=alle Elementarhypothesen gelten gleichzeitig) beschränkt ist, sondern Aussagen über die einzelnen Elementarhypothesen gewünscht sind. Wir haben 2 grundlegende Größen kennen gelernt, die wir mit geeigneten Tests kontrollieren möchten/können die FWER die FDR Skript Multiples Testen“ von Thorsten Dickhaus (ganz toll) ” The Elements of Statistical Learning“, von Hastie, Tibshirani, ” Friedman, second edition, 2008 Zur Kontrolle der FWER kennen wir die Bonferroni-Methode die Šidák-Methode die Bonferroni-Holm-Methode (step-down-Methode) Zur Kontrolle der FDR kennen wir die Benjamini-Hochberg-Methode (step-up-Methode) 49 / 50 50 / 50