Permutationstests I.

Werbung
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
Permutationstests I.
1. Einleitendes Beispiel
2. Zwei-Stichprobentest
3. Der klassische Mann-Whitney U-Test
4. Der exakte Test von Fisher
5. Nicht immer nur Permutation!
6. Unabhängigkeitstest
7. Theorie
1
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
2
1. Einleitendes Beispiel
Beim Sportarzt einer Sportschule:
- Diese Heilkrautsalbe ist wunderbar! Ich habe 6 Jungen mit
ähnlich schweren Muskelverletzungen ausgewählt, 3 davon mit der
Salbe behandelt, und alle 3 sind schneller geheilt worden, als die
anderen 3.
- Klingt gut… aber man wird fragen: ist es auch statistisch
signifikant?
- Warte mal! Wenn die Salbe gar nichts machte, dann wären alle
6! = 720 mögliche Anordnungen gleichwahrscheinlich. Da davon
es nur 3!⋅3!=36 gibt, bei denen alle Behandelten schneller gesund
werden, ist die Signifikanz p = 3!⋅3! / 6! = 0.05.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
3
2. Zwei-Stichprobentest
Behandlung gegen Blutarmut
Meßwert: Hämoglobin (g/dl) bei mäßig
randomisierten Patienten nach der Behandlung
anämischen
Daten:
Gruppe B (behandelte): 9.1, 10.3, 11.0, 11.5, 11.9
Gruppe K (kontrolle): 8.1, 8.4, 9.2, 9.4
Beh.
8
10
Kontr.
12
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
4
Nullhypothese: die Verteilungen in B und K sind identisch (die
Behandlung hat keine Wirkung).
Gegenhypothese: Meßwerte in B sind „größer“ als in K (viele
Varianten: verschoben, stochastisch größer, größerer Mittelwert,
usw.)
Prüfgröße: Differenz zwischen den Mittelwerten.
Wert
9.1 10.3 11.0 11.5 11.9 8.1
8.4
9.2
9.4
Gruppe
B
K
K
K
daß
alle
B
B
B
B
K
Prüfgröße: 10.76 – 8.78 = 1.98
Prüfverteilung: bestimmt unter der Annahme,
Permutationen der Daten gleichwahrscheinlich sind.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
5
• Die Annahme gilt u.a. wenn die Verteilungen in den 2
Gruppen dieselbe und Daten i.i.d. sind.
• Die Prüfverteilung kann man direkt durch Permutieren der
Daten erstellen.
• Permutation der Werte oder Permutation der Gruppenangehörigkeiten ist äquivalent.
Eine Permutation (Gruppenvariable permutiert):
Wert
9.1 10.3 11.0 11.5 11.9 8.1
8.4
9.2
9.4
Gruppe
K
B
K
B
K
B
B
B
K
Differenz zwischen den Mittelwerten:
10.44 – 9.18 = 1.26 < 1.98
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
6
Die Anzahl aller Permutationen ist
• 9! = 362880, wenn man die Werte permutiert (Permutation ohne
Wiederholung)
9 9
•   =   = 126, wenn man die Gruppenvariable
 4  5
Buchstaben B
Wiederholung)
und
K)
permutiert
(Permutation
(die
mit
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
7
Eine andere Permutation:
Wert
9.1 10.3 11.0 11.5 11.9 8.1
8.4
9.2
9.4
Gruppe
B
K
K
B
K
B
B
K
B
Differenz zwischen den Mittelwerten:
9.82 – 9.95 = –0.13 < 1.98
usw.
(mit allen 126 Permutationen...)
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
8
Von den 126 Permutationen gibt es nur 3 mit Werten größer oder
gleich 1.98.
15
1.98
10
5
0
-2.5
-1.5
-0.5
0.5
1.5
Der Unterschied ist signifikant: p = 3/126 = 0.0238.
2.5
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
9
2. Der klassische Mann-Whitney U-Test
...ist auch ein Permutationstest.
Dasselbe Beispiel: Behandlung gegen Blutarmut
Rangzahlen statt Meßwerte (Transformation!)
Wert
9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4
Rang
3
6
7
8
9
1
2
4
5
Gruppe
B
B
B
B
B
K
K
K
K
Nullhypothese: (dieselbe wie oben) die Verteilungen in B und K
sind identisch (die Behandlung hat keine Wirkung).
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
10
Gegenhypothese: (unterschiedlich) Meßwerte in B sind „größer“
als in K (viele Varianten: verschoben, stochastisch größer, usw.)
Prüfgröße: Rangsumme in Gruppe B.
(Es gibt mehrere äquivalente Prüfgrößen.)
Prüfverteilung: bestimmt unter der Annahme, daß alle
Permutationen der Rangzahlen gleichwahrscheinlich sind.
Prüfgröße = 3 + 6 + 7 + 8 + 9 = 33.
Von den 126 Permutationen gibt es 4 mit Werten größer oder
gleich 33 ⇒ p = 4/126 = 0.0317.
Das Permutations-Verfahren geht auch bei Rangbindungen!
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
11
3. Fisher’s exakt Test
... ist auch ein Permutationstest.
Fisher’s Beispiel („tea-drinking-lady“)
Eine Frau behauptet, erkennen zu können, ob zuerst die Milch oder
der Tee in die Tasse gefüllt wurde. In einem Versuch werden 8
Tassen vorgesetzt, 4 davon „Milch dann Tee“ und 4 „Tee dann
Milch“. Die Frau muß die Tassen nach der „Behandlung“ in zwei
Gruppen einteilen.
Wichtig! Die Frau weiß, daß jede Gruppe 4 Tassen enthält ⇒
Sie bildet 2 vier-elementige Gruppen!
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
12
H0: die Frau erkennt nichts, die Einteilung ist zufällig
H1: sie erkennt die „Behandlungen“
Ein mögliches Ergebnis (jede
Tasse richtig erkannt):
Wahrheit M/T T/M
Tipp
M/T
4
0
T/M
0
4
Die Wahrscheinlichkeit, daß man
8
unter H0 dieses Ergebnis bekommt: 1/70 = 0.0143. (Es gibt   =
 4
70 mögliche Einteilungen in 2 vierelementige Gruppen.)
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
13
Kontingenztafel und Datenmatrix:
Y 1
X
1
2
4
0
2
0
4
X
1
1
1
1
2
2
2
2
Y
1
1
1
1
2
2
2
2
X
1
2
Y 1
2
3
1
1
3
Variable Y
permutiert!
(1,1,1,1,2,2,2,2 hat
70 Permutationen)
X
1
1
1
1
2
2
2
2
Y
1
2
1
1
2
2
2
1
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
14
4. Nicht immer nur Permutationen!
Der Wilcoxon-Test
Beispiel: Klausur-Ergebnisse (n=6 Studenten)
1. Klausur
30
36
42
55
70
63
2. Klausur
42
47
41
53
77
68
Differenz
12
11
-1
-2
7
5
Rangzahlen*
6
5
-1
-2
4
3
*Differenzen nach Betrag geordnet; bei Rangbindungen (ties) der
durchschnittliche Rang gegeben
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
15
Hypothesen:
H0: Verteilung der Differenz ist symmetrisch (!!!) mit
Mittelwert = Median = 0.
H1: nicht H0 (d.h. nicht symmetrisch oder MW≠0).
Prüfgröße: Summe der Rangzahlen
6 + 5 – 1 – 2 + 4 + 3 = 15
Prüfverteilung: bestimmt unter der Annahme, daß jede Rangzahl
mit 50-50% Wahrscheinlichkeit positiv oder negativ sein kann.
Hier geht es um keine Permutation, oder?!
(Später kommen wir noch hierher zurück.)
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
16
Es sind nicht die beobachteten 2 minus und 4 plus Vorzeichen, die
permutiert werden. Die Annahme besteht darin, daß unter H0 alle
mögliche Erscheinungen der 6 Vorzeichen (insgesamt 26 = 64)
gleichwahrscheinlich sind.
Die Anzahl der plus und minus Vorzeichen ist nicht
vorherbestimmt!
Die exakte Prüfverteilung kann direkt oder mit Rekursion
bestimmt werden (nur ohne Rangbindungen!).
Direkte Bestimmung des p-Wertes durch Auswertung
aller Möglichkeiten geht auch bei Rangbindungen!
Für n ≥ 10 ist eine Annäherung mit der Normalverteilung auch
möglich.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
17
1
2
3
4
5
6
Summe
Wkeit
–
–
–
–
–
–
–21
1/64
+
–
–
–
–
–
–19
1/64
–
+
–
–
–
–
–17
1/64
+
+
–
–
–
–
–15
1/64
–
–
+
–
–
–
...
–15
1/64
+
–
+
+
+
+
17
1/64
–
+
+
+
+
+
19
1/64
+
+
+
+
+
+
21
1/64
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
18
p-Wert (zweiseitig): die Wahrscheinlichkeiten summiert für die
Fälle mit einer Rangsumme ≥ 15.
p = 10/64 = 0.156
Idee: man könnte das auch direkt mit
den beobachteten Werten ausführen.
⇓
Ein-Stichproben Randomisierungstest!
Prüfgröße: Summe der beobachteten Werte
12 + 11 – 1– 2 + 7 + 5 = 32
Prüfverteilung: bestimmt unter derselben Annahme (jede
Differenz kann mit 50-50% Wahrscheinlichkeit positiv oder
negativ sein).
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
19
1
2
5
7
11
12
Summe
Wkeit
–
–
–
–
–
–
–38
1/64
+
–
–
–
–
–
–36
1/64
–
+
–
–
–
–
–34
1/64
+
+
–
–
–
–
–32
1/64
–
–
+
–
–
–
–28
1/64
...
+
–
+
+
+
+
34
1/64
–
+
+
+
+
+
36
1/64
+
+
+
+
+
+
38
1/64
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
20
p-Wert (zweiseitig): die Wahrscheinlichkeit summiert für die Fälle
mit einer Summe ≥ 32.
p = 8/64 = 0.125
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
21
Ähnliche Überlegung wie beim Wilcoxon-Test kann man auch
beim „tea-drinking-lady“ Beispiel benutzen, wenn die Anzahl der
Behandlungen nicht vorausgesetzt ist (wenn die Gruppen nicht
unbedingt 4-4 Tassen enthalten).
Oft wird diese Methode statt Permutation Randomisation genannt
(ein allgemeinerer Begriff).
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
22
5. Unabhängigkeitstest
...geht ganz natürlich mit Permutationtest.
(z.B. Fisher-Exakter-Test, und auch 2-Stichpr.-Test!)
H0: Unabhängigkeit von X und Y
H1: viele Möglichkeiten (entweder spezifisch, wie z.B. die
Korrelation, oder egal welche)
Unter H0 wird die gemeinsame Verteilung von X und Y von
Permutationen nicht beeinflußt.
Prüfgröße:
der
Gegenhypothese
entsprechend
(Korrelationskoeffizient, Chi-Quadrat-Statistik, usw.)
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
23
6. Theorie
Austauschbarkeit (Exchangeability)
Seien X1, X2, ... , Xn Zufallsvariablen mit der gemeinsamen
Verteilungsfunktion F(x1, x2, ... , xn). Sie werden austauschbar
(exchangeable) genannt, falls
F(xi1, xi2, ... xin) = F(x1, x2, ... , xn)
für alle Werte x1, x2, ... xn
xi1, xi2, ... , xin der Werte x1, x2, ... xn .
und
alle
Permutationen
Bei Austauschbarkeit unter H0 ist der Permutationstest exakt und
unverzerrt (unbiased).
Lehmann (1986) p. 231.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
24
• Eine hinreichende Bedingung zur Austauschbarkeit:
X1, X2, ... , Xn sind i.i.d. (unabhängig und identisch verteilt).
• Beobachtungen beim Stichprobenziehen ohne Zurücklegen
sind auch austauschbar (obwohl abhängig!).
• Normalverteilte Variablen mit derselben Varianz und mit
derselben Kovarianz für jedes Paar sind auch austauschbar,
(obwohl abhängig!).
Aus Austauschbarkeit folgt, daß unter der Bedingung, daß man die
Werte x1, x2, ... xn beobachtet, jede Permutation die gleiche
1
Wahrscheinlichkeit /n! besitzt. Unter dieser Bedingung kann man
also den (bedingten!) p-Wert einfach bestimmen.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
25
Ein allgemeines Problem mit dem Permutationstest
(und auch mit den verwandten Methoden)
Der Permutationstest ist ein bedingter Test gegeben die
beobachteten Werte der Stichprobe („conditional on the sample“).
Kritik: Wie kann man das Ergebnis für die Population
verallgemeinern, wenn es ausschließlich auf den aktuellen
Beobachtungswerten basiert?
Gegenkritik: Wie darf man den Schluss auf eine riesige Menge
solcher Ergebnisse basieren, die man nie beobachtet hat und
vielleicht auch in der Zukunft nie beobachten wird? Es ist
besser nur auf die Fakten zu basieren.
Das ist der grundsätzliche Unterschied zwischen „Sampling
Prinzip“ und „Permutations-“ oder „Randomisationsprinzip“.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
26
Oft ist es unmöglich mit reellen Stichproben zu arbeiten (in
Archäologie, Paleontologie, usw.). Dann ist die Anwendung des
„Sampling Prinzip“ unrealistisch.
Randomisierungsprinzip ist auch in klinischen Studien gewöhnlich.
Patienten formen keine zufällige Stichprobe aus der Population,
aber die Behandlungen kann man randomisiert zuordnen.
Nach Ludbrook and Dudley (Am. Stat., 52, 127-132) wird in 96%
von klinischen Studien Randomisation benutzt (n = 252), aber in
84% die randomisierten Studien werden die Daten mit t- und FTests analysiert (mit Tests, die zu zufälligen Stichproben geeignet
sind).
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
27
Ein Vorteil der Permutationsmethode
...ist die freie (optimale) Auswahl der Prüfgröße.
Man darf nicht glauben, daß alle möglichen
Prüfgrößen gleich gut (=effizient) sind!
Welche Prüfgröße die beste ist, hängt immer von der
Gegenhypothese ab: die Prüfgröße muß zwischen H0 und H1 gut
separieren (trennscharf sein?).
Beim Zwei-stichprobentest ist H0 die Identität der 2 Verteilungen.
Für welche H1 passen die folgenden Prüfgrößen?
• Differenz zwischen den Mittelwerten,
• Differenz zwischen den Mittelwerten der Log-transformierten
Werten,
• Differenz zwischen den Mittelwerten der Rangzahlen.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
28
Unterschiedliche Prüfgrößen können auch äquivalent sein: z.B. für
den Zwei-stichprobentest sind die folgenden Prüfgrößen
äquivalent:
• Differenz zwischen den Mittelwerten,
• Differenz zwischen den Summen der 2 Stichproben,
• Mittelwert der ersten Stichprobe,
usw.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
29
Grenzen des Permutationstests
Es gibt bekannte Probleme, in denen Austauschbarkeit leider nicht
vorliegt.
Beispiel: Behrens-Fisher Problem
Zwei Mittelwerte sind zu vergleichen unter Ungleichheit der
Varianzen.
Aus der Ungleichheit der Varianzen folgt, daß die
Verteilungen auch unter H0 unterschiedlich sind.
⇓
Kein gültiger Permutationstest existiert.
Herunterladen