Wilcoxon-Rangsummen-Test

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Wilcoxon-Rangsummen-Test
Theorie: Wilcoxon-Rangsummen-Test
Der Wilcoxon-Rangsummen-Test prüft, ob sich die Verteilungen der
Grundgesamtheiten zweier Stichproben bezüglich ihrer Lage unterscheiden.
Ein junger Journalist eines Automagazins will dem alten Vorurteil "Frauen parken
schlechter ein als Männer" auf den Grund gehen. Mit Hilfe eines Experiments möchte
er belegen, dass dieses Vorurteil stimmt...
Fortsetzung folgt im ausführlichen Beispiel Das alte Vorurteil. Die folgende Theorie
des Wilcoxon-Rangsummen-Tests wird Ihnen bei Bedarf an diesem Beispiel
ausführlicher erklärt.
Verpackung zur Einparkhilfe der Firma Tobé GmbH.
Quelle:
Theorie: Wilcoxon-Rangsummen-Test
Annahmen
Jeder statistische Test basiert auf gewissen Annahmen, die von den Daten erfüllt werden
müssen. Diese zu treffenden Annahmen sind für die meisten Tests unterschiedlich. Ihre
Einhaltung ist jedoch sehr wichtig. Sind diese Annahmen nicht erfüllt, kann das
Ergebnis des jeweiligen Tests zu falschen Schlüssen führen, wenn der Test
routinemäßig durchgeführt wird.
Page 1
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Für den Wilcoxon-Rangsummen-Test müssen folgende Annahmen erfüllt sein:
Annahmen
1)
Die Daten müssen mindestens ordinal skaliert sein.
Die Stichproben
und
sind voneinander
unabhängig und
2)
untereinander ebenfalls.
und
besitzen die
stetigen Verteilungsfunktionen
bzw.
3)
(Warum stetige Verteilungsfunktionen angenommen
werden, können Sie im Exkurs Annahme stetiger
Verteilung und Bindungen nachlesen.)
und
4)
besitzen die gleiche Varianz.
Bei Tests auf Lageunterschied zweier Verteilungen, zu denen der
Wilcoxon-Rangsummen-Test gehört, muss insbesondere auch darauf geachtet werden,
dass beide Verteilungen von der gleichen Form sind, d.h. der Verteilungstyp und die
Varianzen müssen gleich sein. Der Wilcoxon-Rangsummen-Test setzt aber als so
genannter verteilungsfreier Test keinen bestimmten Verteilungstyp (wie z.B. die
Normalverteilung) voraus.
Überprüfen der Annahmen
Sie sollen überprüfen, ob Ihre Daten die oben angegebenen Annahmen erfüllen. Wie Sie
einige dieser Annahmen überprüfen können, ist im nachzulesen oder in diesem knappen
Überblick (
: a83.pdf ) .
Hypothesen
Für den Wilcoxon-Rangsummen-Test lauten die drei verschiedenen Hypothesen:
Nullhypothese
Alternativhypothese
Test A
Einseitig (links)
Test B
Einseitig (rechts)
Test C
Zweiseitig
Page 2
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Festlegen des Signifikanzniveaus
Nach der Formulierung der Hypothesen legen wir das Signifikanzniveau
fest, das
eine obere Schranke für die Wahrscheinlichkeit angibt, die Nullhypothese
fälschlicherweise zu verwerfen. (Siehe .)
Prüfgröße
Zur Berechnung der Wilcoxon-Prüfgröße
werden die Rangzahlen der Elemente aus
einer Stichprobe aufsummiert:
(Für eine ausführliche Beschreibung der Vorgehensweise beim
Wilcoxon-Rangsummen-Test lesen Sie das .)
Testentscheidung
Beim Wilcoxon-Test wird der kritische Wert zum Signifikanzniveau
Stichprobenumfängen
und
mit
und den
bezeichnet. Je nach Testproblem
wird die Nullhypothese verworfen, wenn gilt:
Verwirf H0, wenn
Test A
Test B
oder
Test C
Anleitung zur Programmierung des Wilcoxon-Rangsummen-Tests im Statistiklabor:
Laboranleitung Wilcoxon ( b58.spf ) .
Beispiel: Ein längeres Beispiel: Das alte Vorurteil...
Ein junger Journalist eines Automagazins will dem alten Vorurteil "Frauen parken
schlechter ein als Männer" auf den Grund gehen. Mit Hilfe eines Experiments möchte er
belegen, dass dieses Vorurteil stimmt und rekrutiert dafür 5 Männer und 3 Frauen. (Wir
nehmen an, dass es sich um eine Zufallsstichprobe handelt.)
Page 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Jede Versuchsperson muss in mehrere, unterschiedliche Parklücken hinein manövrieren.
Zur Bewertung hat der Journalist eine Skala entwickelt, die von 1 (=des Einparkens
unfähig) bis 10 (=kommt in jede Parklücke) reicht.
Sei
die Bepunktung der Frauen;
Sei
die Bepunktung der Männer;
sei verteilt nach Verteilungsfunktion
Der Journalist will beweisen, dass Frauen schlechter einparken, d.h. dass sie beim
Einparken weniger Punkte als die Männer erzielen. Das wäre gleichbedeutend damit,
dass die Verteilungsfunktion der Frauen
um einen Betrag
bezüglich der
Verteilungsfunktion der Männer
nach links verschoben ist.
Um dieses zu beweisen, muss er die Nullhypothese, beide Geschlechter parken gleich
gut ein oder Frauen parken besser ein, widerlegen.
Er will einen statistischen Test zum 5%-Niveau durchführen.
Verteilungsfunktionen
Die Hypothese kann statistisch so verstanden werden, dass die Verteilung
gegenüber der Verteilung
auf der
Achse um einen Betrag
nach links
verschoben ist (siehe Grafik).
Dichten f und g von F und G: f ist um einen Betrag theta nach links verschoben.
Für die Formulierung der Nullhypothese
Verteilungen
und
identisch seien, d.h.
geht man davon aus, dass die
Unter dieser Annahme können
die Prüfgröße und der kritische Wert berechnet werden, mit deren Hilfe entschieden
wird, ob die Nullhypothese zugunsten der Alternativhypothese verworfen werden kann.
Das Testproblem lässt sich für das Einparkbeispiel und den Fall, wie in der Graphik
Page 4
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
dargestellt, folgendermaßen formulieren:
Nullhypothese
Alternativhypothese
Test B
Die Hypothese lässt sich auch über die Mediane formulieren:
Nullhypothese
Alternativhypothese
Test B
Warum die Hypothesen auch über die Mediane formuliert werden kann können Sie in
der Übung "Hypothesen über die Mediane" erforschen.
Nach seinem Experiment hat der Journalist folgende Punkte notieren können:
Frauen
Männer
6
10
4
9
8
5
3
2
Berechnung der Prüfgröße
Die Daten können nicht als normalverteilt angesehen werden. Da die
Stichprobenumfänge klein sind, verwendet er den Wilcoxon-Rangsummen-Test. (Bei
größeren Stichproben ist es ratsam eine Approximation über die Normalverteilung zu
machen. Siehe dazu den Exkurs Große Stichproben. ) Um die Prüfgröße berechnen zu
können, vergibt der Journalist Rangzahlen:
Frauen
Rang
Männer
Rang
6
5
10
8
4
3
9
7
8
6
5
4
3
2
2
1
Page 5
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Summe
14
Die Prüfgröße ist genau die Summe der Rangzahlen von den Frauen, d.h.
Ablehnbereich bzw. kritischen Wert festlegen.
Der Unterschied zwischen dem Einparkkönnen von Männern und Frauen wurde als
linkseitige Hypothese formuliert. Deswegen ist das linke bzw. untere
Quantil der Wahrscheinlichkeitsverteilung interessant. Das heisst,
kann
verworfen werden falls
gilt.
Es gibt
verschiedene Möglichkeiten, die Ränge miteinander zu kombinieren.
Öffnen wir das
Applet Wilcoxon Verteilung (ceb.jar)
und geben die notwendigen Parameter an, so können wir den kritischen Wert ablesen.
Für ein vorgegebenes Signifikanzniveau von 0.05 lässt sich hier kein kritischer Wert
finden, der
voll ausschöpft. Würde man als kritischen Wert
wählen, wird das vorgegebene Signifikanzniveau
nicht
eingehalten, da
(Da kritische Wert
noch zum Annahmebereich gehört, wird
nicht die Wahrscheinlichkeit berechnet.)
Das bedeutet, dass die Wahrscheinlichkeit die Nullhypothese fälschlicherweise
abzulehnen größer ist als von uns gewollt (
sollte ja höchstens
5% betragen).
Als kritischer Wert muss daher verwendet werden. Allerdings ist dann wegen
die Ablehnung der Nullhypothese sehr viel strenger angesetzt.
(Sehen Sie hierzu auch das )
Page 6
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Testentscheidung
Die vorher berechnete Prüfgröße ergab
Für das gegebene Testproblem kann die die Nullhypothese verworfen werden, wenn
gilt.
Da der Journalist das modifizierte zugrunde legt, gilt
Das bedeutet: kann nicht verworfen werden.
Interpretation des Ergebnisses
Der Journalist kann seine These nicht statistisch rechtfertigen.
Was würden Sie dem Journalisten raten, wenn er das nächste Mal wieder ein
Experiment durchführen will?
Die Formulierung der Hypothesen über die Verteilungsfunktionen scheint eher
umständlich zu sein. Unter der (von uns geforderten) Annahme , dass die
Grundgesamtheiten der Stichproben und dieselbe Varianz besitzen, kann das
Testproblem auch über die Mediane von und formuliert werden.
Nullhypothese
Alternativhypothese
Test A
Test B
Test C
Öffnen Sie die Datei Mediane ( db7.spf ) und betrachten Sie die Simulation.
Beispiel: Flugzeugabstürze
Ihren nächsten Urlaub will Studentin Lara mit ihrem Freund Konrad in Afrika
verbringen. Um Geld zu sparen, schlägt Lara vor, mit einer afrikanischen Fluglinie zu
fliegen. Doch Konrad fürchtet um sein Leben und fragt sich, ob afrikanische
Fluggesellschaften so sicher wie europäische sind, und stellt deswegen folgende These
auf:
"Fluggesellschaften aus Afrika haben eine höhere Unfallrate zu verzeichnen als
europäische Fluggesellschaften."
Die Unfallrate kann nicht als normalverteilt betrachtet werden.
Sei die Unfallrate (Variable "Accident.Rate") von Fluggesellschaften aus Afrika mit
Page 7
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
.
Sei die Unfallrate europäischer Fluggesellschaften:
KLM Absturz von 1977.
Quelle: Aus Sharpe (1998) über
Hypothese
Konrad behauptet, dass die Verteilung der Fluggesellschaften aus Arika um einen
Betrag
nach rechts verschoben ist. Es besteht daher das Testproblem:
gegen
Zur Überprüfung seiner Hypothesen setzt Konrad ein Signifikanzniveau von 0.05 an.
Prüfgröße
Konrad hat im Internet Daten über Flugzeugabstürze gefunden (unter ). Sie können sich
das Beispiel auch im Labor anschauen:
Labordatei öffnen ( dfa.spf )
Niedrige Unfallraten zeigen, dass bei Unfällen dieser Fluggesellschaft bisher wenig
Personenschaden aufgetreten ist.
Die Stichprobe hat einen Umfang von n=13 Beobachtung, der Stichprobenumfang von
beträgt n=26 Beobachtungen. Insgesamt gibt es somit
verschiedene Möglichkeiten Ränge anzuordnen. Die kleinst mögliche Rangsumme für
europäische Fluggesellschaften wäre:
und die größte Rangsumme wäre 39+38+...+26=429.
Die Prüfgröße berechnet sich nun aus der Summe der Ränge der 13 afrikanischen
Fluggesellschaften innerhalb der gepoolten Stichprobe.
Testentscheidung
Die Nullhypothese ist hier abzulehnen, falls gilt:
Gesucht ist nun der zum Testproblem gehörende kritische Wert Dafür muss folgende
Gleichung erfüllt sein:
Am leichtesten lässt sich der kritische Wert im Labor berechnen, entweder mit dem
Statistiktaschenrechner oder durch Eingabe des Befehls qwil(0.95,13,26) im
R-Kalkulator.
Da kann die Nullhypothese abgelehnt werden.
Konrad hat statistisch bewiesen, dass afrikanische Fluggesellschaften eine höhere
Unfallrate haben als europäische.
Labordatei öffnen ( e35.zmpf )
Beispiel: Bannerklicks
Der Sportartikelvertreiber Ludgar möchte seinen Online-Shop im Internet durch
Werbung bekannter machen und lässt deshalb die zwei Agenturen "Klick" und
Page 8
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
"verBannerT" Werbebanner kreieren. Ludgar möchte herausfinden, ob die beiden
Banner bei den Internetbenützern unterschiedlich ankommen. Dazu registriert er an 14
Tagen die Klickrate der einzelnen Werbebanner. D.h. er erfasst die Anzahl der
erfolgreichen Bannerklicks, die auf seinen Shop geführt haben im Verhältnis zu der
Anzahl der Bannereinblendungen:
Klickrate des Banners, entworfen von der Agentur "Klick". folgt der
Verteilungsfunktion also
Klickrate des Banners, entworfen von der Agentur "verBannerT" mit
Hypothesen
Ludgar hat kein Vorwissen darüber, welche Agentur bessere Klickraten einfährt.
Deshalb stellt er eine zweiseitige Hypothese auf und will diese zum 1%-Niveau testen:
gegen
Die Daten können nicht als normalverteilt angesehen werden.
Öffnen Sie den Datensatz ( e6c.zmpf ) , und schauen Sie sich das Beispiel weiter im
Labor an, oder versuchen Sie es selber zu rechnen.
Die Annahme stetiger Verteilungen soll verhindern, dass gleiche Beobachtungen
auftreten und somit die Ränge nicht mehr eindeutig vergeben werden können. In der
Praxis treten gleiche Beobachtungen trotzdem auf (z.B. durch Messungenauigkeiten)
und werden als Bindungen bezeichnet.
Eine Bindung besteht, wenn mindestens zwei Beobachtungen den gleichen Wert haben.
Kommen solche Bindungen nur innerhalb derselben Stichprobe vor, ist das für die
Rangvergabe ohne Belang. Treten jedoch Bindungen zwischen den und Werten auf,
muss dies in der Zuweisung der Rangzahl mitberücksichtigt werden. Üblicherweise
werden den Beobachtungswerten dann Durchschnittsränge zugewiesen.
Durch die Verwendung von Durchschnittsrängen entspricht die unter ermittelte
Verteilung der Prüfgröße, die von ganzzahligen Rängen ausgeht, nicht länger
derjenigen, die sie tatsächlich hätte. Damit können Fehler bei der Testentscheidung
auftreten, der die kritischen Werte unter der Annahme kleiner Bindungen bestimmt
werden. Falls nur wenige Bindungen im Verhältnis zur Gesamtzahl der Beobachtungen
auftreten, ist dies nicht kritisch. Ansonsten gibt es Korrekturformeln (siehe Büning,
Trenkler (1994).
Beispiel
Wir haben bereits die gepoolte Stichprobe eines fiktiven Datensatzes erstellt. Sie sehen,
dass die Werte 17 und 19 mehr als einmal in der Stichprobe vorkommen. Bei der
Rangvergabe wird den Werten 17 und 19 jeweils ihr die Durchschnittsrang zugewiesen.
Im Beispiel erhält man die Durchschnittränge für den Wert 17 indem man
rechnet. Für den Wert 19 ergibt sich analog
Nun haben wir zum besseren Verständnis des Wilcoxon-Rangsummen-Tests kleine
Stichproben ausgewählt. Will man den Test jedoch für große Datensätze verwenden, ist
Page 9
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
es überaus mühsam, die exakte Verteilung zu berechnen.
Betrachten wir einmal die zwei Stichproben vom Umfang und Bei diesen Umfängen
gibt es
verschiedene Rangkombinationen. Bei noch größeren Stichproben kann es sogar
vorkommen, dass die Anzahl der Rangkombinationen von den
Statistikprogrammpaketen nur unter erhöhtem Aufwand berechnet werden kann.
Prüfgröße
Für große Stichproben wird die Prüfgröße so modifiziert, dass diese approximativ einer
Standardnormalverteilung folgt, d.h. mit größer werdendem Stichprobenumfang wird
die Verteilung der modifizierten Prüfgröße einer Standardnormalverteilung immer
ähnlicher.
Gilt für die Stichprobenumfänge, dass oder , dann wird folgende Prüfgröße für den
Wilcoxon-Rangsummen-Test verwendet:
Die Prüfgröße ist unter asymptotisch standardnormalverteilt.
Testentscheidung
Die kritischen Werte werden dementsprechend nun als Quantile der N(0,1)-Verteilung
bestimmt und es gelten folgende Verwerfungsregeln:
Verwirf H0, falls
Test A
Test B
Test C
gleichbedeutend mit:
oder
Um die angeblich positiven Auswirkungen von Musik auf die Milchproduktion von
Stallkühen abzuklären, wird die täglich gemolkene Milchmenge zweier Kuhställe K und
Q untersucht. Der Milchbauer von Kuhstall Q verwöhnt seine Kühe schon immer
mehrere Stunden täglich mit einem ausgesuchten Musikprogramm, während den Kühen
in Kuhstall K noch nie Musik vorgespielt wurde.
Öffnen Sie die Laborseite und untersuchen Sie zum Signifikanzniveau , ob die Kühe aus
Kuhstall Q mehr Milch produzieren
Labordatei öffnen ( f21.zmpf )
Die Daten geben das mittlere Alter in Tagen von preußischen Kindern an, die innerhalb
des ersten Lebensjahres gestorben sind.
Ernst Stückelberg
Page 10
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
Quelle:
Untersuchen Sie mit Hilfe des Wilcoxon-Zweistichproben-Rangsummentests anhand
der obigen Daten, ob
a) die männlichen Kinder zum Zeitpunkt des Todes jünger sind als die weiblichen,
b) die illegitimen Kinder zum Zeitpunkt des Todes jünger sind als die legitimen.
Laden Sie die Bibliothek "wilcoxon.R".
Führen Sie a) mit Hilfe des vorprogrammierten Tests durch und b) indem Sie die
Prüfgröße selber berechnen.
Labordatei öffnen ( f3c.zmpf )
Ein Energiekonzern möchte in Windkraft investieren. Der Konzern ist momentan auf
der Suche nach einem Bauplatz für 6 Windkrafträder. Zur Auswahl steht ein Platz bei
Cuxhaven und eine Baumöglichkeit bei Paderborn. Da die Absicht besteht, nur einen
Platz zu erwerben, soll aufgrund der vorliegenden Winddaten entschieden werden, ob es
an einem Ort durchschnittlich mehr Wind (gemessen in Meter/Sekunde) gibt als an dem
anderen.
Öffnen Sie die Laborseite Wind ( f45.zmpf ) und helfen Sie dem Unternehmen bei
seiner Entscheidungsfindung. Legen Sie ein Signifikanzniveau von zugrunde.
Berechnen Sie zuerst die Stichprobenumfänge. Was ist in diesem Fall ratsam?
(Interessiert an Windenergie: )
Ein Unternehmen möchte die Umsatzsteigerung beim Einsatz von zwei verschiedenen
Werbemaßnahmen vergleichen. Da Zweifel an der Normalverteilung angebracht sind,
soll der Wilcoxon-Rangsummen-Test durchgeführt werden.
Es wurden die in der folgenden Tabelle eingetragenen Umsatzsteigerungen erzielt:
Werbung X
Werbung Y
33.5
19.5
37.0
40.0
32.0
31.5
54.5
53.0
50.0
62.5
56.0
48.5
61.0
63.0
75.0
43.5
41.5
42.0
Page 11
(c) Projekt Neue Statistik 2003 - Lernmodul: Wilcoxon-Rangsummen-Test
. Stellen Sie eine geeignete Hypothese auf, und prüfen Sie zum 5%-Niveau, ob
Werbung X zu größeren Umsatzsteigerungen führt als Werbung Y.
. Zu Übungszwecken formulieren Sie nun die Gegenhypothese zu Ihrer in 1.
aufgestellten Hypothese, und führen Sie die Testentscheidung daran noch einmal durch.
Eine Lösung finden Sie in Umsatz ( fd8.zmpf ) .
Literaturangabe
Sharpe, Mike (1998). Die größten Flugzeugkatastrophen. Gondrom-Vlg., Bindlach
Büning, H. und Trenkler, G. (1994) Nichtparametrische statistische Methoden. 2. Auflage, de Gruyter, Berlin.
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 12
Herunterladen