Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) Permutationstests I. 1. Einleitendes Beispiel 2. Zwei-Stichprobentest 3. Der klassische Mann-Whitney U-Test 4. Der exakte Test von Fisher 5. Nicht immer nur Permutation! 6. Unabhängigkeitstest 7. Theorie 1 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 2 1. Einleitendes Beispiel Beim Sportarzt einer Sportschule: - Diese Heilkrautsalbe ist wunderbar! Ich habe 6 Jungen mit ähnlich schweren Muskelverletzungen ausgewählt, 3 davon mit der Salbe behandelt, und alle 3 sind schneller geheilt worden, als die anderen 3. - Klingt gut… aber man wird fragen: ist es auch statistisch signifikant? - Warte mal! Wenn die Salbe gar nichts machte, dann wären alle 6! = 720 mögliche Anordnungen gleichwahrscheinlich. Da davon es nur 3!⋅3!=36 gibt, bei denen alle Behandelten schneller gesund werden, ist die Signifikanz p = 3!⋅3! / 6! = 0.05. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 3 2. Zwei-Stichprobentest Behandlung gegen Blutarmut Meßwert: Hämoglobin (g/dl) bei mäßig randomisierten Patienten nach der Behandlung anämischen Daten: Gruppe B (behandelte): 9.1, 10.3, 11.0, 11.5, 11.9 Gruppe K (kontrolle): 8.1, 8.4, 9.2, 9.4 Beh. 8 10 Kontr. 12 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 4 Nullhypothese: die Verteilungen in B und K sind identisch (die Behandlung hat keine Wirkung). Gegenhypothese: Meßwerte in B sind „größer“ als in K (viele Varianten: verschoben, stochastisch größer, größerer Mittelwert, usw.) Prüfgröße: Differenz zwischen den Mittelwerten. Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4 Gruppe B K K K daß alle B B B B K Prüfgröße: 10.76 – 8.78 = 1.98 Prüfverteilung: bestimmt unter der Annahme, Permutationen der Daten gleichwahrscheinlich sind. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 5 • Die Annahme gilt u.a. wenn die Verteilungen in den 2 Gruppen dieselbe und Daten i.i.d. sind. • Die Prüfverteilung kann man direkt durch Permutieren der Daten erstellen. • Permutation der Werte oder Permutation der Gruppenangehörigkeiten ist äquivalent. Eine Permutation (Gruppenvariable permutiert): Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4 Gruppe K B K B K B B B K Differenz zwischen den Mittelwerten: 10.44 – 9.18 = 1.26 < 1.98 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 6 Die Anzahl aller Permutationen ist • 9! = 362880, wenn man die Werte permutiert (Permutation ohne Wiederholung) 9 9 • = = 126, wenn man die Gruppenvariable 4 5 Buchstaben B Wiederholung) und K) permutiert (Permutation (die mit Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 7 Eine andere Permutation: Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4 Gruppe B K K B K B B K B Differenz zwischen den Mittelwerten: 9.82 – 9.95 = –0.13 < 1.98 usw. (mit allen 126 Permutationen...) Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 8 Von den 126 Permutationen gibt es nur 3 mit Werten größer oder gleich 1.98. 15 1.98 10 5 0 -2.5 -1.5 -0.5 0.5 1.5 Der Unterschied ist signifikant: p = 3/126 = 0.0238. 2.5 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 9 2. Der klassische Mann-Whitney U-Test ...ist auch ein Permutationstest. Dasselbe Beispiel: Behandlung gegen Blutarmut Rangzahlen statt Meßwerte (Transformation!) Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4 Rang 3 6 7 8 9 1 2 4 5 Gruppe B B B B B K K K K Nullhypothese: (dieselbe wie oben) die Verteilungen in B und K sind identisch (die Behandlung hat keine Wirkung). Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 10 Gegenhypothese: (unterschiedlich) Meßwerte in B sind „größer“ als in K (viele Varianten: verschoben, stochastisch größer, usw.) Prüfgröße: Rangsumme in Gruppe B. (Es gibt mehrere äquivalente Prüfgrößen.) Prüfverteilung: bestimmt unter der Annahme, daß alle Permutationen der Rangzahlen gleichwahrscheinlich sind. Prüfgröße = 3 + 6 + 7 + 8 + 9 = 33. Von den 126 Permutationen gibt es 4 mit Werten größer oder gleich 33 ⇒ p = 4/126 = 0.0317. Das Permutations-Verfahren geht auch bei Rangbindungen! Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 11 3. Fisher’s exakt Test ... ist auch ein Permutationstest. Fisher’s Beispiel („tea-drinking-lady“) Eine Frau behauptet, erkennen zu können, ob zuerst die Milch oder der Tee in die Tasse gefüllt wurde. In einem Versuch werden 8 Tassen vorgesetzt, 4 davon „Milch dann Tee“ und 4 „Tee dann Milch“. Die Frau muß die Tassen nach der „Behandlung“ in zwei Gruppen einteilen. Wichtig! Die Frau weiß, daß jede Gruppe 4 Tassen enthält ⇒ Sie bildet 2 vier-elementige Gruppen! Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 12 H0: die Frau erkennt nichts, die Einteilung ist zufällig H1: sie erkennt die „Behandlungen“ Ein mögliches Ergebnis (jede Tasse richtig erkannt): Wahrheit M/T T/M Tipp M/T 4 0 T/M 0 4 Die Wahrscheinlichkeit, daß man 8 unter H0 dieses Ergebnis bekommt: 1/70 = 0.0143. (Es gibt = 4 70 mögliche Einteilungen in 2 vierelementige Gruppen.) Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 13 Kontingenztafel und Datenmatrix: Y 1 X 1 2 4 0 2 0 4 X 1 1 1 1 2 2 2 2 Y 1 1 1 1 2 2 2 2 X 1 2 Y 1 2 3 1 1 3 Variable Y permutiert! (1,1,1,1,2,2,2,2 hat 70 Permutationen) X 1 1 1 1 2 2 2 2 Y 1 2 1 1 2 2 2 1 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 14 4. Nicht immer nur Permutationen! Der Wilcoxon-Test Beispiel: Klausur-Ergebnisse (n=6 Studenten) 1. Klausur 30 36 42 55 70 63 2. Klausur 42 47 41 53 77 68 Differenz 12 11 -1 -2 7 5 Rangzahlen* 6 5 -1 -2 4 3 *Differenzen nach Betrag geordnet; bei Rangbindungen (ties) der durchschnittliche Rang gegeben Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 15 Hypothesen: H0: Verteilung der Differenz ist symmetrisch (!!!) mit Mittelwert = Median = 0. H1: nicht H0 (d.h. nicht symmetrisch oder MW≠0). Prüfgröße: Summe der Rangzahlen 6 + 5 – 1 – 2 + 4 + 3 = 15 Prüfverteilung: bestimmt unter der Annahme, daß jede Rangzahl mit 50-50% Wahrscheinlichkeit positiv oder negativ sein kann. Hier geht es um keine Permutation, oder?! (Später kommen wir noch hierher zurück.) Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 16 Es sind nicht die beobachteten 2 minus und 4 plus Vorzeichen, die permutiert werden. Die Annahme besteht darin, daß unter H0 alle mögliche Erscheinungen der 6 Vorzeichen (insgesamt 26 = 64) gleichwahrscheinlich sind. Die Anzahl der plus und minus Vorzeichen ist nicht vorherbestimmt! Die exakte Prüfverteilung kann direkt oder mit Rekursion bestimmt werden (nur ohne Rangbindungen!). Direkte Bestimmung des p-Wertes durch Auswertung aller Möglichkeiten geht auch bei Rangbindungen! Für n ≥ 10 ist eine Annäherung mit der Normalverteilung auch möglich. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 17 1 2 3 4 5 6 Summe Wkeit – – – – – – –21 1/64 + – – – – – –19 1/64 – + – – – – –17 1/64 + + – – – – –15 1/64 – – + – – – ... –15 1/64 + – + + + + 17 1/64 – + + + + + 19 1/64 + + + + + + 21 1/64 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 18 p-Wert (zweiseitig): die Wahrscheinlichkeiten summiert für die Fälle mit einer Rangsumme ≥ 15. p = 10/64 = 0.156 Idee: man könnte das auch direkt mit den beobachteten Werten ausführen. ⇓ Ein-Stichproben Randomisierungstest! Prüfgröße: Summe der beobachteten Werte 12 + 11 – 1– 2 + 7 + 5 = 32 Prüfverteilung: bestimmt unter derselben Annahme (jede Differenz kann mit 50-50% Wahrscheinlichkeit positiv oder negativ sein). Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 19 1 2 5 7 11 12 Summe Wkeit – – – – – – –38 1/64 + – – – – – –36 1/64 – + – – – – –34 1/64 + + – – – – –32 1/64 – – + – – – –28 1/64 ... + – + + + + 34 1/64 – + + + + + 36 1/64 + + + + + + 38 1/64 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 20 p-Wert (zweiseitig): die Wahrscheinlichkeit summiert für die Fälle mit einer Summe ≥ 32. p = 8/64 = 0.125 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 21 Ähnliche Überlegung wie beim Wilcoxon-Test kann man auch beim „tea-drinking-lady“ Beispiel benutzen, wenn die Anzahl der Behandlungen nicht vorausgesetzt ist (wenn die Gruppen nicht unbedingt 4-4 Tassen enthalten). Oft wird diese Methode statt Permutation Randomisation genannt (ein allgemeinerer Begriff). Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 22 5. Unabhängigkeitstest ...geht ganz natürlich mit Permutationtest. (z.B. Fisher-Exakter-Test, und auch 2-Stichpr.-Test!) H0: Unabhängigkeit von X und Y H1: viele Möglichkeiten (entweder spezifisch, wie z.B. die Korrelation, oder egal welche) Unter H0 wird die gemeinsame Verteilung von X und Y von Permutationen nicht beeinflußt. Prüfgröße: der Gegenhypothese entsprechend (Korrelationskoeffizient, Chi-Quadrat-Statistik, usw.) Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 23 6. Theorie Austauschbarkeit (Exchangeability) Seien X1, X2, ... , Xn Zufallsvariablen mit der gemeinsamen Verteilungsfunktion F(x1, x2, ... , xn). Sie werden austauschbar (exchangeable) genannt, falls F(xi1, xi2, ... xin) = F(x1, x2, ... , xn) für alle Werte x1, x2, ... xn xi1, xi2, ... , xin der Werte x1, x2, ... xn . und alle Permutationen Bei Austauschbarkeit unter H0 ist der Permutationstest exakt und unverzerrt (unbiased). Lehmann (1986) p. 231. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 24 • Eine hinreichende Bedingung zur Austauschbarkeit: X1, X2, ... , Xn sind i.i.d. (unabhängig und identisch verteilt). • Beobachtungen beim Stichprobenziehen ohne Zurücklegen sind auch austauschbar (obwohl abhängig!). • Normalverteilte Variablen mit derselben Varianz und mit derselben Kovarianz für jedes Paar sind auch austauschbar, (obwohl abhängig!). Aus Austauschbarkeit folgt, daß unter der Bedingung, daß man die Werte x1, x2, ... xn beobachtet, jede Permutation die gleiche 1 Wahrscheinlichkeit /n! besitzt. Unter dieser Bedingung kann man also den (bedingten!) p-Wert einfach bestimmen. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 25 Ein allgemeines Problem mit dem Permutationstest (und auch mit den verwandten Methoden) Der Permutationstest ist ein bedingter Test gegeben die beobachteten Werte der Stichprobe („conditional on the sample“). Kritik: Wie kann man das Ergebnis für die Population verallgemeinern, wenn es ausschließlich auf den aktuellen Beobachtungswerten basiert? Gegenkritik: Wie darf man den Schluss auf eine riesige Menge solcher Ergebnisse basieren, die man nie beobachtet hat und vielleicht auch in der Zukunft nie beobachten wird? Es ist besser nur auf die Fakten zu basieren. Das ist der grundsätzliche Unterschied zwischen „Sampling Prinzip“ und „Permutations-“ oder „Randomisationsprinzip“. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 26 Oft ist es unmöglich mit reellen Stichproben zu arbeiten (in Archäologie, Paleontologie, usw.). Dann ist die Anwendung des „Sampling Prinzip“ unrealistisch. Randomisierungsprinzip ist auch in klinischen Studien gewöhnlich. Patienten formen keine zufällige Stichprobe aus der Population, aber die Behandlungen kann man randomisiert zuordnen. Nach Ludbrook and Dudley (Am. Stat., 52, 127-132) wird in 96% von klinischen Studien Randomisation benutzt (n = 252), aber in 84% die randomisierten Studien werden die Daten mit t- und FTests analysiert (mit Tests, die zu zufälligen Stichproben geeignet sind). Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 27 Ein Vorteil der Permutationsmethode ...ist die freie (optimale) Auswahl der Prüfgröße. Man darf nicht glauben, daß alle möglichen Prüfgrößen gleich gut (=effizient) sind! Welche Prüfgröße die beste ist, hängt immer von der Gegenhypothese ab: die Prüfgröße muß zwischen H0 und H1 gut separieren (trennscharf sein?). Beim Zwei-stichprobentest ist H0 die Identität der 2 Verteilungen. Für welche H1 passen die folgenden Prüfgrößen? • Differenz zwischen den Mittelwerten, • Differenz zwischen den Mittelwerten der Log-transformierten Werten, • Differenz zwischen den Mittelwerten der Rangzahlen. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 28 Unterschiedliche Prüfgrößen können auch äquivalent sein: z.B. für den Zwei-stichprobentest sind die folgenden Prüfgrößen äquivalent: • Differenz zwischen den Mittelwerten, • Differenz zwischen den Summen der 2 Stichproben, • Mittelwert der ersten Stichprobe, usw. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 29 Grenzen des Permutationstests Es gibt bekannte Probleme, in denen Austauschbarkeit leider nicht vorliegt. Beispiel: Behrens-Fisher Problem Zwei Mittelwerte sind zu vergleichen unter Ungleichheit der Varianzen. Aus der Ungleichheit der Varianzen folgt, daß die Verteilungen auch unter H0 unterschiedlich sind. ⇓ Kein gültiger Permutationstest existiert.