Statistisches Lernen Woche 10: Multiples Testen Dr. rer. nat. Fabian Schwarzenberger Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 50 Übersicht 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 2 / 50 Grundlagen und Wiederholung Bezeichnungen X ... Zufallsvariable/ Zufallsgröße die den Ausgang eines Experimentes beschreibt, Ω ... zu X gehöriger Stichprobenraum (Menge der Realisierungen von X ; Annahme: Ω ≠ ∅) A ... Sigma-Algebra über Ω A ∈ A ... Ereignis (ein Element der Sigma-Algebra A) PX ... Verteilung von X (ein Wahrscheinlichkeitsmaß auf Ω) Beachte x ∈ Ω bezeichnet also alle unsere vorliegenden Beobachtungen. x ist also typischerweise ein Vektor: x = (x1 , . . . , xn ) Die Sigma-Algebra A wird hier der Vollständigkeit/Korrektheit halber aufgeführt. Sie wird im Folgenden zwar weiter mit erwähnt, aber keine (vordergründige) Rolle spielen 3 / 50 Grundlagen und Wiederholung Statistisches Experiment/Modell Definition Sei P = {Pϑ ∣ ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (Ω, A), so heißt das Tripel (Ω, A, P) statistisches Experiment oder statistisches Modell. Falls Θ ⊆ Rk mit k ∈ N, so heißt (Ω, A, P) parametrisches statistisches Modell, ϑ ∈ Θ Parameter und Θ Parameterraum. generelle Annahme: PX ∈ P = {Pϑ ∣ ϑ ∈ Θ} statistische Inferenz: Aussagen über die wahre Verteilung PX bzw. den wahren Parameter ϑ gewinnen Wir wollen wissen: Welches ist das wahre Pϑ unter allen möglichen {Pϑ ∣ ϑ ∈ Θ} ? 4 / 50 Grundlagen und Wiederholung Testproblem (1) mit Maßen: gegeben P0 und P1 mit P0 ∩ P1 = ∅ und P0 ∪ P1 = P so ist Entscheidung gesucht über PX ∈ P0 oder PX ∈ P1 ; beziehungsweise (etwas formaler): wir testen H0 ∶ PX ∈ P0 versus H1 ∶ PX ∈ P1 mit Parametern: gegeben Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und Θ0 ∪ Θ1 = Θ so ist Entscheidung gesucht über ϑ ∈ Θ0 oder ϑ ∈ Θ1 beziehungsweise (etwas formaler): wir testen H0 ∶ ϑ ∈ Θ0 versus H1 ∶ ϑ ∈ Θ1 5 / 50 Grundlagen und Wiederholung Testproblem (2) H0 und H1 nennt man Hypothesen H0 heißt Nullhypothese H1 heißt Alternativhypothese Interpretation: häufig werden die Hypothesen H0 und H1 als Teilmengen des Parameterraums Θ interpretiert, also H 0 ∩ H1 = ∅ und H0 ∪ H1 = Θ 6 / 50 Grundlagen und Wiederholung Beispiel Testproblem Beispiel Wir wollen überprüfen ob der Mittelwert von (mit Varianz 1) normalverteilten Daten gleich 0 ist oder nicht. Dazu betrachten wir: P ∶= {Nm,1 ∣ m ∈ R}, P0 ∶= {N0,1 }, P1 ∶= {Nm,1 ∣ m ∈ R ∖ {0}} (i) Mit Worten H0 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW= 0 versus H1 ∶ tatsächliche Verteilung ist Normalverteilung Var= 1 und MW≠ 0 (ii) Mit Maßen H0 ∶ PX = N0,1 versus H1 ∶ PX ∈ P1 (iii) Mit Parametern: wir setzen P = {Nm,1 ∣ m ∈ Θ}, Θ ∶= R, Θ0 ∶= {0} und dann ist das Testproblem H0 ∶ ϑ = 0 versus Θ1 ∶= R ∖ {0} H1 ∶ ϑ ≠ 0 7 / 50 Grundlagen und Wiederholung Statistischer Test Definition Eine Abbildung φ ∶ Ω → {0, 1} heißt statistischer Test, falls für alle A ⊆ {0, 1} {x ∈ Ω ∣ φ(x) ∈ A} ∈ A (1) Konvention: gegeben x ∈ Ω φ(x) = 1 ⇔ H0 wird verworfen, Entscheidung für H1 φ(x) = 0 ⇔ H0 wird nicht verworfen Ablehnungsbereich/kritischer Ber.: {x ∈ Ω ∣ φ(x) = 1}, kurz {φ = 1} Annahmebereich: {x ∈ Ω ∣ φ(x) = 0}, kurz {φ = 0} Beachte Die Bedingung (1) ist eine Messbarkeits-Bedingung und stellt sicher dass dem Annahmebreich und dem Ablehnungsbereich Wahrscheinlichkeiten zugeordent werden können. 8 / 50 Grundlagen und Wiederholung Fehler Fehler 1. Art: Entscheidung für H1 obwohl H0 wahr ist (auch α-Fehler, type-I-error) φ(x) = 1 obwohl wahres ϑ ∈ H0 Fehler 2. Art: Entscheidung für H0 obwohl H1 wahr ist (auch β-Fehler, type-II-error) φ(x) = 0 obwohl wahres ϑ ∈ H1 Vorgehen: 1 Festlegen einer oberen Schranke α für die Wahrscheinlichkeit einen Fehler 1. Art zu begehen 2 Unter Beachtung von (1), Minimierung der Wahrscheinlichkeit für Fehler 2. Art. 9 / 50 Grundlagen und Wiederholung Bezeichnungen und Fakten Für gegebenen Test φ und ϑ ∈ Θ bezeichnen wir die Ablehnwahrscheinlichkeit mit βφ (ϑ) ∶= Eϑ (φ) = Pϑ ({φ = 1}) = ∫ φ dPϑ . Ω Für gegeben Test φ und ϑ ∈ Θ1 heißt βφ (ϑ) Gütefunktion von φ an der Stelle ϑ. Beachte: für ϑ ∈ Θ0 ist βφ (ϑ) gerade die Wahrscheinlichkeit für einen Fehler 1. Art des Tests φ Ist φ ein Test mit βφ (ϑ) = Pϑ ({φ = 1}) ≤ α für alle ϑ ∈ Θ0 , so ist nennt man φ Test zu Niveau α. 10 / 50 Beispiele für multiple Tests Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 11 / 50 Beispiele für multiple Tests Mehrere Tests Bisher: eine Fragestellung anhand der Beobachtung x ∈ Ω Nun: mehrere Fragestellungen anhand der Beobachtung x ∈ Ω Beispiel Düngemittel-Vergleich“ ” Zum Vergleich von 5 Düngemitteln gegen Blattläuse wurde jedes Düngemittel an 100 Planzen getestet (also insgesamt 500 Pflanzen). Die Anzahl der Blattläuse nach Versuchsende soll die Wirksamkeit beschreiben. Wir bezeichnen mit Xij , i = 1, . . . , 5 und j = 1, . . . , 100 die Anzahl der Blattläuse an Pflanze j in der Gruppe i und nehmen an dass die Xij stochastisch unabhängig sind und Xij ∼ N (µi , σ 2 ) mit µi , σ > 0 für i = 1, . . . , 5. Paarweise Tests zum Vergleich der Mittlwerte: Hij ∶ {µi = µj } versus Kij ∶ {µi ≠ µj } für 1 ≤ i < j ≤ 5 12 / 50 Beispiele für multiple Tests Beispiel Düngemittel-Vergleich“, fortgesetzt ” Beispiel: Düngemittel-Vergleich Paarweise Tests zum Vergleich der Mittlwerte: Hij ∶ {µi = µj } versus Kij ∶ {µi ≠ µj } für 1 ≤ i < j ≤ 5 Möglichkeit 1: Klassische Varianzanalyse (ANOVA) testet die Globalhypothese H0 = ⋂1≤i<j≤5 Hij (alle Mittelwerte sind gleich) gegen die Alternativehypothese H1 ∶ ∃i, j ∈ {1, . . . , 5} mit µi ≠ µj . Wird H0 abgelehnt, so bekommt man aber keine Aussage welche Paare unterschiedlich sind. Möglichkeit 2: (52) = 10 t-Tests. Für jedes Paar i, j ∈ {1, . . . , 5} mit i ≠ j lässt sich mit dem t-Test zum Niveau α die Hypothese Hij gegen die Alternative Kij testen. Für ein festes Paar i, j ist damit die Wahrscheinlichkeit für einen Fehler 1. Art ≤ α. ABER: Die Wahrscheinlichkeit, dass in irgendeinem der 10 Tests ein Fehler 1. Art auftritt ist wesentlich höher! 13 / 50 Beispiele für multiple Tests Beispiel Genetik“ ” In explorativen genetischen Analysen werden oft etwa 500.000 SNPs auf einen Zusammenhang mit einem bestimmten Phänotyp untersucht. Nehmen wir an, wir haben für jeden dieser SNPs einen entsprechenden Test (mit Nullhypothese Unabhängigkeit von SNP und Phänotyp“) ” durchgeführt und einen p-Wert berechnet. Wir wissen bereits (und hören es bald auch nochmal), dass p-Werte unter der Nullhypothese auf [0, 1] gleichverteilt sind. Wir setzen nun voraus: die p-Werte sind alle unabhängig voneinander (was zugegebenermaßen nicht ganz stimmt) keiner der SNPs hat einen tatsächlichen Zusammenhang mit dem Phänotyp, Dann werden sich die 500.000 p-Werte gleichmäßig auf [0, 1] verteilen: 0 0.05 Unter der Signifikanzschwelle“ 0.05 landen ganz zufällig (im Mittel) ” 0, 05 ∗ 500000 = 25000 SNPs !!!! (trotz Unabh. vom Phänotyp!) 1 14 / 50 Beispiele für multiple Tests Beispiel Multiple Endpunkte“ (1) ” Einfluss von Schlafentzug auf Aufmerksamkeit Getestet werden soll der Einfluss von Schlafentzug auf Aufmerksamkeit. Drei Arten der Aufmerksamkeit (welche in Testungen gemessen werden sollen) sind Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit. Es werden 2 Gruppen gebildet: eine mit Probanden die in den letzten 24 Stunden maximal 3 Stunden geschlafen haben und eine (Kontroll-)Gruppe mit Probanden, die mindesten 6 Stunden in den letzten 24 Stunden geschlafen haben. Nun werden Testungen an den Probanden durchgeführt und daraus metrische Werte für Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit abgeleitet. 15 / 50 Beispiele für multiple Tests Beispiel Multiple Endpunkte“ (2) ” Mögliche Vorgehensweisen: Methode 1: Für jede Zielvariable einen Test durchführen (z.B je einen t-Test) und dann auf multiples Testen korrigieren. Methode 2: Konzentration auf nur eine Art der Aufmerksamkeit, etwa die Daueraufmerksamkeit“. Die Daten für Vigilanz und geteilte ” Aufmerksamkeit gehen nicht in die Analyse ein, sondern werden nur explorativ untersucht. Methode 3: Aus den metrischen Werten für Vigilanz, Daueraufmerksamkeit und geteilte Aufmerksamkeit eine Zielvariable bilden, etwa durch eine gewichtete Summe. 16 / 50 Beispiele für multiple Tests Hauptursachen für Schwierigkeiten beim multiplen Testen Prüfgrößen der Einzeltests sind im Allgemeinen nicht stochastisch unabhängig Gemeisame Verteilung ist schwer oder gar nicht bestimmbar Wird jeder Einzeltest zum Niveau α durchgeführt, kann die Irrtumswahrscheinlichkeit der Gesamtaussage unüberschaubar werden 17 / 50 Multiple Tests (formale Einführung) Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 18 / 50 Multiple Tests (formale Einführung) Multiples Testproblem Definition Seien (Ω, A, P) mit P = {Pϑ ∣ ϑ ∈ Θ} ein statistisches Modell, m ∈ N ∖ {1} und I = {1, . . . , m}. Seien ∅ ≠ Hi ⊆ Θ, i ∈ I paarweise verschieden und setze Ki ∶= Θ ∖ Hi . Sei weiterhin ϑ ∈ Θ der wahre Parameter. Dann heißt die Menge H ∶= {Hi ∣ i ∈ I } Hypothesensystem; Hi wahr, wenn ϑ ∈ Hi ; Hi falsch, wenn ϑ ∈ Ki ; das Tupel (Ω, A, P, H) ein multiples Testproblem. Merke: Ein multiples Testproblem ist statistisches Modell gemeinsam mit mehreren (unterschiedlichen) Hypothesen. Für einen (beliebigen) Parameter ϑ setzen wir I0 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Hi } die Indexmenge der (unter ϑ) wahren Nullhypothesen I1 (ϑ) ∶= {i ∈ I ∣ ϑ ∈ Ki } die Indexm. d. (unter ϑ) falschen Nullhyp. 19 / 50 Multiple Tests (formale Einführung) Hypthesen-Struktur Sei H = {H1 , . . . , Hm } Hypothesensystem. Eine Hypothese Hi ∈ H heißt echte Obermenge von Hj ∈ H, falls Hi ≠ Hj und aus der Richtigkeit von Hj die Richtigkeit von Hi folgt. Man schreibt Hi ⊃ Hj . Hi ∈ H heißt Elementarhypothese, falls sie nicht als Durchschnitt ihrer echten Obermengen darstellbar ist. Der nichtleere Durchschnitt aller Elementarhypothesen wird Globalhypothese genannt. H1 ∩ H2 ∩ H3 Globalhypothese H1 ∩ H 2 H1 ∩ H 3 H2 ∩ H3 Schnitthypothesen H1 H2 H3 Elementarhypothesen 20 / 50 Multiple Tests (formale Einführung) Definition Sei (Ω, A, P, H) ein multiples Testproblem mit Indexmenge I = {1, . . . , m}. Dann heißt φ = (φ1 , . . . , φm ) ein multipler Test, falls für jedes i ∈ I gilt: φi ist ein statistischer Test. Damit ist jedes φi eine Abbildung φi ∶ Ω → {0, 1} und φ ordnet jeder Beobachtung x ∈ Ω einen m-dimensionalen Vektor aus Nullen und Einsen zu. Konvention φi (x) = 1 ⇔ Hi wird verworfen, Entscheidung für Ki φi (x) = 0 ⇔ Hi wird nicht verworfen 21 / 50 Multiple Tests (formale Einführung) Multipler Test zum Niveau α Sei φ = (φ1 , . . . , φm ) ein multipler Test zum multiplen Testproblem (Ω, A, P, H) und α ∈ (0, 1). Dann heißt φ multipler Test (a) zum lokalen Niveau α, falls für alle i ∈ I Pϑ ({φi = 1}) ≤ α für alle ϑ ∈ Hi (b) zum globalen Niveau α, falls m Pϑ ( ⋃ {φi = 1}) ≤ α i=1 m für alle ϑ ∈ H0 ∶= ⋂ Hi i=1 (c) zum multiplen Niveau α, falls für alle ϑ ∈ Θ Pϑ ( ⋃ {φi = 1}) ≤ α i∈I0 (ϑ) 22 / 50 Multiple Tests (formale Einführung) Multipler Test zum Niveau α, Erläuterungen (1) ϑ ∈ Hi heißt: rechnen wir mit diesem ϑ (bzw. Pϑ ) so gilt die i-te Nullhypothese Pϑ ({φi = 1}) ≤ α heißt: die WK (gemessen mit Pϑ ) dass die i-te Nullhypothese abgelehnt wird ist kleiner-gleich α Pϑ ({φi = 1}) ≤ α für alle ϑ ∈ Hi heißt: Falls wir wissen, dass die i-te Nullhypothese gilt, so ist die Wahrscheinlichkeit, dass die i-te Nullhypothese abgelehnt wird kleiner-gleich α. 23 / 50 Multiple Tests (formale Einführung) Multipler Test zum Niveau α, Erläuterungen (2) ϑ ∈ ⋂m i=1 Hi heißt: ϑ ”liegt in jeder“ Nullhypothese bzw. rechnen wir mit diesem ϑ so gilt jede Nullhypothese bzw. die Globalhypothese gilt ⋃m i=1 {φi = 1} heißt: mindestens eine der Hypothesen H1 , . . . , Hm wird abgelehnt m P ϑ (⋃ m i=1 {φi = 1}) ≤ α für alle ϑ ∈ ⋂i=1 Hi heißt: falls alle H1 , . . . , Hm gelten, so ist die Wahrscheinlichkeit dass mindestens eine der H1 , . . . , Hm abgelehnt wird kleiner-gleich α. ⋃i∈I0 (ϑ) {φi = 1} heißt: mindestens eine der (unter ϑ) geltenden Nullhypothesen wird abgelehnt für ϑ ∈ Θ gilt Pϑ (⋃i∈I0 (ϑ) {φi = 1}) ≤ α heißt: die Wahrscheinlichkeit dass eine unter ϑ geltende Nullhypothese abgelehnt wird, ist kleiner-gleich α 24 / 50 Multiple Tests (formale Einführung) Multipler Test zum Niveau α, Erläuterungen (3) Welches Niveau (lokal, global oder mutipel) sollte uns nun interessieren? Fordern wir dass φ ein multipler Test zum lokalen Niveau α ist und alle φi (X ) stochastisch unabhängig sind mit Pϑ ({φi = 1}) = α für alle ϑ ∈ Hi und alle i ∈ I0 (ϑ) Dann kann die Wahrscheinlichkeit für irgendeinen Fehler 1. Art sehr groß sein: Für alle ϑ ∈ Θ gilt: Pϑ ( ⋃ {φi = 1}) = 1 − (1 − α)∣I0 (ϑ)∣ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ i∈I0 (ϑ) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ fast 1 falls ∣I0 (ϑ)∣ groß / irgendein Typ I Fehler Ein Test zum globalen Niveau α ist nur sinnvoll, wenn uns die Globalhypothese (alle Hi treffen gleichzeitig zu) interessiert. Dies ist oft nicht der Fall. / Ein Test zum multiplen Niveau α kontrolliert die WK für irgendeinen Typ I Fehler , 25 / 50 Multiple Fehler Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 26 / 50 Multiple Fehler Multiple Fehler Definition Ist φ ein multiper Test, x ∈ Ω eine Beobachtung und ϑ der wahre Parameter, so ergibt φ einen (i) multiplen Fehler 1. Art (oder multiplen Typ I Fehler), falls ein j ∈ I existiert mit φj (x) = 1 und ϑ ∈ Hj (ii) multiplen Fehler 2. Art (oder multiplen Typ II Fehler), falls ein j ∈ I existiert mit φj (x) = 0 und ϑ ∈ Kj bei einem multiplen Test können beide Fehler gleichzeitig auftreten Ist φ ein multipler Test zum multiplen Niveau α, so ist die Wahrscheinlichkeit für irgendeinen multiplen Fehler 1. Art kleiner gleich α (gleichgültig welche und wie viele der Hi wahr sind). 27 / 50 Multiple Fehler Family-Wise Error Rate Definition Der Ausdruck (aus der Def. zum multiplen Test zum multiplen Niveau α) FWERϑ (φ) ∶= Pϑ (⋃i∈I0 (ϑ) {φi = 1}) wird oft als Family-Wise Error Rate (FWER) oder Experiment-Wise Error Rate bezeichnet. Ein multipler Test φ für den FWERϑ (φ) ≤ α für alle ϑ ∈ Θ (2) gilt, ist also ein multipler Test zum multiplen Niveau α. Die Bedingung (2) kann man auch mittel einem Supremum ausdrücken: FWER(φ) ∶= sup(FWERϑ (φ)) ≤ α ϑ∈Θ Es folgen 2 Methoden um die FWER zu beschränken... 28 / 50 Multiple Fehler Bonferroni-Methode Bonferroni (vgl. Bonferroni 1936) Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ ein multipler Test. Dann gilt: falls Pϑ ({φi = 1}) ≤ α/m für alle ϑ ∈ Hi , für alle i ∈ I , so folgt FWERϑ (φ) ≤ α für alle ϑ ∈ Θ. In Worten: Ist φ ein multipler Test zum lokalen Niveau α/m, so ist φ auch ein multipler Test zum multiplen Niveau α. Aufgabe Zeigen Sie, dass obige Implikation gilt. 29 / 50 Multiple Fehler Šidák-Methode Šidák (vgl. Šidák 1967) Sei (Ω, A, P, H) mit H = {H1 , . . . , Hm } ein multiples Testproblem und φ ein multipler Test. Dann gilt: falls die Zufallsvariablen φi (X ), i ∈ I ∶= {1, . . . , m} stochastisch unabhängig sind und Pϑ ({φi = 1}) ≤ 1 − (1 − α)1/m für alle ϑ ∈ Hi , für alle i ∈ I , so folgt FWERϑ (φ) ≤ α für alle ϑ ∈ Θ. In Worten: Ist φ ein multipler Test zum lokalen Niveau αm und sind die φi (X ) stochastisch unabhängig, so ist φ auch ein multipler Test zum multiplen Niveau α. Aufgabe Zeigen Sie, dass obige Implikation gilt. 30 / 50 Multiple Fehler Aufgaben Aufgabe Sie betrachten ein multiples Testproblem (Ω, A, P, H) und wissen, dass für den multiplen Test φ gilt, dass die Zufallsvariablen φi (X ), i ∈ I , stochastisch unabhängig sind. Ist die Šidák-Methode oder die Bonferroni-Methode zu bevorzugen? Begründen Sie Ihre Antwort. Aufgabe Wir führen eine explorative Untersuchung von 10.000 Genen in einer Genexpressionsanalyse durch. Es soll herausgefunden werden ob es Gene gibt, welche einen signifikanten Zusammenhang mit der metrischen Zielvariable y (z.B. Körpergröße) haben. Wie lässt sich dies testen, wenn die FWER kontrolliert werden soll? 31 / 50 p-Wert Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 32 / 50 p-Wert p-Wert Wir betrachten ein statistisches Modell (Ω, A, P) und einen Test φ für das Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Für jedes α ∈ (0, 1) liefert φ einen Ablehnungsbereich Γα : φ(x) = 1 ⇔ T (x) ∈ Γα Falls H0 einelementig ist, also H0 = {ϑ0 }, so ist der p-Wert definiert als: pφ (x) = inf{Pϑ0 (T (X ) ∈ Γα ) ∣ α ∈ (0, 1), T (x) ∈ Γα } Beachte: H0 ist nicht immer einelementig. Falls ∣H0 ∣ > 1 wird die Formel etwas komplizierter. Merksatz: pφ (x) ist die Wahrscheinlichkeit dass, unter der Nullhypothese, das vorliegende x oder ein noch extremeres beobachtet wird. Warum dieser Merksatz zur Definition vom p-Wert passt, kann man besser erkennen, wenn man sich folgende Spezialfälle anschaut: ... 33 / 50 p-Wert p-Wert, Spezialfälle rechtsseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt [γα , ∞) (mit γα so dass Pϑ0 (T (X ) ≥ γα ) = α), vereinfacht sich die Definition des p-Wert zu pφ (x) = Pϑ0 (T (X ) ≥ T (x)) linksseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ] (mit γα so dass Pϑ0 (T (X ) ≤ γα ) = α), vereinfacht sich die Definition des p-Wert zu pφ (x) = Pϑ0 (T (X ) ≤ T (x)) beidseitig: Sind die Ablehnungsbereiche Γα immer der Gestalt (−∞, γα ] ∪ [γα′ , ∞) ( mit γα und γα′ so dass Pϑ0 (T (X ) ≤ γα ) = α/2 und Pϑ0 (T (X ) ≥ γα′ ) = α/2) vereinfacht sich die Definition des p-Wert zu ⎧ ⎪ ⎪2 ⋅ Pϑ0 (T (X ) ≥ T (x)) pφ (x) = ⎨ ⎪ ⎪ ⎩2 ⋅ Pϑ0 (T (X ) ≤ T (x)) falls Pϑ0 (T (X ) ≥ T (x)) ≤ 1/2 falls Pϑ0 (T (X ) ≤ T (x)) ≤ 1/2 34 / 50 p-Wert p-Wert ist unter H0 gleichverteilt Sei (Ω, A, P) ein statistisches Modell, φ ein Test für das Hypothesenpaar H ⊆ Θ und K = Θ ∖ H der auf der Prüfgröße T ∶ Ω → R beruht. Gilt H = {ϑ0 } (einelementig) Pϑ0 stetig φ so dass für jedes α ein cα existiert mit φ(x) = 1 ⇔ T (x) > cα , dann Pϑ0 (pφ (X ) ≤ t) = t für alle t ∈ [0, 1] Merksatz: Der p-Wert pφ (X ) ist unter der Nullhypothese gleichverteilt. 35 / 50 Ein step-down Verfahren Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 36 / 50 Ein step-down Verfahren Bonferroni-Holm-Test Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei H = {Hi ∣ i ∈ I = {1, . . . , m}} Elementarhypothesen sind. Für jedes i ∈ I sei pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m] und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen. Wir setzen und für i = 1, . . . , m ⎧ ⎪ falls pi (X ) stochastisch abhängig sind, Fall I ⎪α/i αi ∶= ⎨ 1/i ⎪ falls pi (X ) stochastisch unabhängig sind, Fall II ⎪ ⎩1 − (1 − α) Dann setzen wir ⎧ ⎪ ⎪1 falls i ≤ i ∗ φBH = ⎨ i ∗ ⎪ ⎪ ⎩0 falls i > i mit i ∗ ∶= max{i ∈ I ∣ pj ≤ αm−j+1 ∀j = 1, . . . , i} Dieses φBH ist ein multipler Test zum multiplen Niveau α. 37 / 50 Ein step-down Verfahren Bemerkungen zum Bonferroni-Holm-Test Der Bonferroni-Holm-Test (BH-Test) ist ein step-down Test, da mit dem signifikantesten Test begonnen wird (kleinster p-Wert) und Schritt für Schritt bis zur Schranke i ∗ jede Hypothese abgelehnt wird Fall I des BH-Test ist zu vergleichen mit der Bonferroni-Methode. Fall II ist zu vergleichen mit der Šidák-Methode. φBH beschränkt (wie die Bonferroni-Methode oder die Šidák-Methode) die FWER durch vorgegebenes α Aber, verglichen mit der Bonferroni-Methode oder der Šidák-Methode, ist der BH-Test eine Verbesserung bezüglich Typ-II Fehlern 38 / 50 Ein step-down Verfahren Beispiel zum Bonferroni-Holm-Test (1) Wir haben in einem multiplen Testproblem die p-Werte p1 = 0.0126, p2 = 0.007, p3 = 0.023, p4 = 0.02, p5 = 0.002, p6 = 0.5. Geordnet ergibt das p[1] = 0.002, p[2] = 0.007, p[3] = 0.0126, p[4] = 0.02, p[5] = 0.023, p[6] = 0.5. Uns interessiert α = 0.05. Fall I: wir können keine Unabhängigkeit voraussetzen p[1] = 0.002 ≤ α6 = 0.05/6 = 0.008333, H5 = H[1] ablehnen p[2] = 0.007 ≤ α5 = 0.05/5 = 0.01, H2 = H[2] ablehnen p[3] = 0.0126 > α4 = 0.05/4 = 0.0125, p[4] = 0.02 > α3 = 0.05/3 = 0.01667, H1 = H[3] nicht ablehnen H4 = H[4] nicht ablehnen p[5] = 0.023 ≤ α2 = 0.05/2 = 0.025, H3 = H[5] nicht ablehnen p[6] = 0.5 > α1 = 0.05/1 = 0.05, H6 = H[6] nicht ablehnen 39 / 50 Ein step-down Verfahren Beispiel zum Bonferroni-Holm-Test (2) Fall II: wir können Unabhängigkeit voraussetzen 1 H5 = H[1] ablehnen 1 5 H2 = H[2] ablehnen 1 4 H1 = H[3] ablehnen 1 3 H4 = H[4] nicht ablehnen 1 H3 = H[5] nicht ablehnen 1 1 H6 = H[6] nicht ablehnen p[1] = 0.002 ≤ α6 = 1 − 0.95 6 = 0.008512, p[2] = 0.007 ≤ α5 = 1 − 0.95 = 0.010206, p[3] = 0.0126 ≤ α4 = 1 − 0.95 = 0, 012741, p[4] = 0.02 > α3 = 1 − 0.95 = 0.016952, p[5] = 0.023 ≤ α2 = 1 − 0.95 2 = 0.025321, p[6] = 0.5 > α1 = 1 − 0.95 = 0.05, Sobald in Richtung ↓ das erste mal kein ≤ mehr steht, werden alle vorherigen Hypothesen abgelehnt. Wegen der Richtung ↓ nennt man dies ein Step-Down-Verfahren. Beobachtung: In Fall II werden mehr Hypothesen abgelehnt als in Fall I. 40 / 50 Die False Discovery Rate Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 41 / 50 Die False Discovery Rate Summierte Größen Bezeichnungen Sei (Ω, A, P, H) mit H = {Hi ∣ i ∈ I = {1, . . . , m}} ein multiples Testproblem und φ = (φ1 , . . . , φm ) ein multipler Test. Sei ϑ ∈ Θ fest vorgegeben. Dann ist m die Anzahl der zu prüfenden Nullhypothesen ist m0 = m0 (ϑ) die Anzahl der (unter ϑ) wahren Nullhypothesen ist m1 = m1 (ϑ) = m − m0 (ϑ) die Anzahl der (unter ϑ) falschen Nullhypothesen ist R(ϑ) = ∑m i=1 φi die (zufällige) Anzahl verworfener Nullhypothesen ist V (ϑ) = ∑i∈I0 (ϑ) φi die (zufällige) Anzahl der (unter ϑ) fälschlicherweise verworfenen Nullhypothesen ist S(ϑ) = ∑i∈I1 (ϑ) φi die (zufällige) Anzahl der (unter ϑ) korrekterweise verworfenen Nullhypothesen 42 / 50 Die False Discovery Rate Schema Hypothesen wahr falsch Test = 0 m0 − V (ϑ) m1 − S(ϑ) m − R(ϑ) Test = 1 V (ϑ) S(ϑ) R(ϑ) m0 (ϑ) m1 (ϑ) m Beobachtung V (ϑ) + S(ϑ) = R(ϑ) In der Praxis werden wir nur R(ϑ) und m kennen. FWERϑ (φ) = Pϑ (V (ϑ) > 0) FWER(φ) = supϑ∈Θ Pϑ (V (ϑ) > 0) 43 / 50 Die False Discovery Rate Unter den üblichen Voraussetzungen definieren wir: Die Zufallsvariable FDPϑ (φ) ∶= V (ϑ) max{R(ϑ), 1} heißt False Discovery Proportion. Die Zahl FDRϑ (φ) ∶= Eϑ (FDPϑ (φ)) heißt False Discovery Rate (FDR). Die FDR beschreibt also den erwarteten Anteil an Typ I Fehlern unter allen Verwerfungen von φ. Wir sagen der multiple Test φ ist FDR-kontrollierend zum Niveau α, falls FDR(φ) ∶= sup FDRϑ (φ) ≤ α ϑ∈Θ Interpretation: Gilt FDR(φ) ≤ 0, 05 so liefert der Test φ im Mittel unter 100 Verwerfungen maximal 5 fälschlicherweise verworfene Tests. Nun folgt ein Test der soetwas kann... 44 / 50 Die False Discovery Rate Benjamini-Hochberg-Test Sei α ∈ (0, 1) und (Ω, A, P, H) ein multiples Testproblem, wobei H = {Hi ∣ i ∈ I = {1, . . . , m}}. Für jedes i ∈ I sei pi der p-Wert zum Test Hi vs. Ki . Die geordneten p-Werte sind p[1] ≤ p[2] ≤ ⋅ ⋅ ⋅ ≤ p[m] und H[1] , . . . , H[m] die entsprechend umsortierten Nullhypothesen. Wir setzen und für i = 1, . . . , m iα αi ∶= . m Dann definieren wir den linearen step-up Test von Benjamini und Hochberg mittels ⎧ ∗ ⎪ LSU ⎪1 falls i ≤ i φi =⎨ ⎪0 falls i > i ∗ ⎪ ⎩ mit i ∗ ∶= max{i ∈ I ∣ pj ≤ αj }. 45 / 50 Die False Discovery Rate Unter gewissen Zusatz-Voraussetzungen ist φLSU FDR-kontrollierend zum Niveau α. Gilt entweder (a) pi (X ), i ∈ I sind unabhängige, auf [0, 1] gleichvert. Zufallsvariablen oder (b) ∀ϑ ∈ Θ ∶ ∀j ∈ I ∶ ∀i ∈ I0 (ϑ) ∶ Pϑ (R(ϑ) ≥ j ∣ pi ≤ t) ist nicht-wachsend in t ∈ (0, αj ] so ist φLSU FDR-kontrollierend zum Niveau α. 46 / 50 Die False Discovery Rate Beispiel zum Benjamini-Hochberg-Test Wir haben in einem multiplen Testproblem die p-Werte p1 = 0.028, p2 = 0.007, p3 = 0.4, p4 = 0.03, p5 = 0.002, p6 = 0.5. Geordnet ergibt das p[1] = 0.002, p[2] = 0.007, p[3] = 0.028, p[4] = 0.03, p[5] = 0.4, p[6] = 0.5. Uns interessiert die FDR zum Niveau α = 0.05. p[1] = 0.002 ≤ α1 = (1 ⋅ 0.05)/6 = 0.008333, H5 = H[1] ablehnen p[2] = 0.007 ≤ α2 = (2 ⋅ 0.05)/6 = 0.016667, H2 = H[2] ablehnen p[3] = 0.028 > α3 = (3 ⋅ 0.05)/6 = 0.025, H1 = H[3] ablehnen p[4] = 0.03 ≤ α4 = (4 ⋅ 0.05)/6 = 0.033333, H4 = H[4] ablehnen p[5] = 0.4 > α5 = (5 ⋅ 0.05)/6 = 0.0416667, H3 = H[5] nicht ablehnen p[6] = 0.5 > α6 = (6 ⋅ 0.05)/6 = 0.05, H6 = H[6] nicht ablehnen Sobald in Richtung ↑ das erste ≤ auftritt, werden von da an alle Hypothesen abgelehnt. Wegen ↑ ist dies ein Step-Up-Verfahren. 47 / 50 Zusammenfassung Inhalt 1 Grundlagen und Wiederholung 2 Beispiele für multiple Tests 3 Multiple Tests (formale Einführung) 4 Multiple Fehler 5 p-Wert 6 Ein step-down Verfahren 7 Die False Discovery Rate 8 Zusammenfassung 48 / 50 Zusammenfassung Zusammenfassung Theorie der Multiplen Tests wird notwendig wenn zu einer Beobachtung x mehrere Fragestellungen/Hypothesen beantwortet werden sollen, und das Interesse nicht auf die Globalhypothese (=alle Elementarhypothesen gelten gleichzeitig) beschränkt ist, sondern Aussagen über die einzelnen Elementarhypothesen gewünscht sind. Wir haben 2 grundlegende Größen kennen gelernt, die wir mit geeigneten Tests kontrollieren möchten/können die FWER die FDR Zur Kontrolle der FWER kennen wir die Bonferroni-Methode die Šidák-Methode die Bonferroni-Holm-Methode (step-down-Methode) Zur Kontrolle der FDR kennen wir die Benjamini-Hochberg-Methode (step-up-Methode) 49 / 50 Zusammenfassung Quellen/Literaturtipps Skript Multiples Testen“ von Thorsten Dickhaus (ganz toll) ” The Elements of Statistical Learning“, von Hastie, Tibshirani, ” Friedman, second edition, 2008 50 / 50