Nichtparametrische Tests 5 Nichtparametrische Tests dienen dem schnellen, überschlagsmäßigen Vergleich zweier vorwiegend kurzer Messreihen x1, … , xn (zu Experiment A) und y2, … , ym (zu Experiment B) auf Gleichheit der Verteilungen. Es sind – fast – keine Vorkenntnisse oder Voraussetzungen über die Daten erforderlich. Wenn die Tests bei kurzen Messreihen schon Ungleichheit feststellen, ist man im Allgemeinen mit dem Resultat zufrieden und die Anfertigung und Auswertung längerer Messreihen erübrigt sich. Wenn die Tests Gleichheit feststellen, ist das Ergebnis nicht sehr verlässlich (siehe zum Thema Nullhypothese H 0 in „Allgemeines zu statistischen Tests“) und längere Messreihen und/oder arbeitsaufwendigere Verfahren (siehe ebenda) sind ratsam. Hier vorgestellt werden drei nichtparametrische Tests: der Vorzeichen-Rang-Test = Wilcoxon-Test für verbundene Stichproben, oft kurz Wilcoxon-Test, der Vorzeichentest = Zeichentest = Sign-Test nach Dixon, der Rangsummen-Test = U-Test = Mann-Whitney-Test = Wilcoxon-Test für unverbundene Stichproben. Recht leistungsstark sind die beiden Rangtests: Ihre gemeinsame Idee: Wenn die Mediane 1 und 2 zweier Verteilungen deutlich verschieden sind, folgt, dass die Verteilungen verschieden sein müssen, dass es sich also um zwei Experimente mit verschiedenen Ergebnissen handelt. Der Vorzeichentest ist extrem arbeitssparend. Alle drei Tests werden in zwei Varianten benutzt: Zweiseitige und einseitige Tests: Variante 1: Zweiseitiger Test (das vorsichtigere, neutralere Verfahren, bei geringem Vorwissen) Testziel: Man möchte wissen, ob 1 2 ist. Ansatz: Wähle H0 = „ 1 = 2 “. Man errechnet gemäß Test aus den Messdaten beider Messreihen eine einzige Prüfgröße (oft T bzw. U genannt). Ist sie kleiner oder gleich dem einschlägige Tabellenwert zum Signifikanzniveau 2, so wird die Nullhypothese abgelehnt und es gilt die Aussage „ 1 2 “ mit der Irrtumswahrscheinlichkeit 2 bzw. der Sicherheit 1 2. Variante 2: Einseitiger Test (das tendenziöse Verfahren, bei starker Erwartungshaltung) Testziel: Man möchte (z.B.) wissen, ob 1 > 2 ist (anschaulich: Man vermutet (hofft oder befürchtet), dass das Experiment E1 typischerweise/im Mittel größere Messwerte liefert als das Experiment E2.) Man benötigt dazu die Nullhypothese H0 = „ 1 ≤ 2 “. Man errechnet dieselbe Prüfgröße (T bzw. U) wie bei Variante 1. Ist sie kleiner oder gleich dem einschlägige Tabellenwert zum Signifikanzniveau 2 (derselbe Tabellenwert wie in Variante 1), so wird die Nullhypothese abgelehnt und es gilt die Aussage 1 > 2 , aber nun mit halb so großer Irrtumswahrscheinlichkeit 2 = 0,51 bzw. leicht erhöhten Sicherheit 1 0,51. Analog: Soll der Test die Vermutung 1 < 2 bestätigen, muss H0 = „ 1 ≥ 2 “benutzt werden. Beachte: Wird die Nullhypothese beim einseitigen Test abgelehnt, so weiß man sehr viel Genaueres als beim zweiseitigen Test (das Testresultat „es gilt 1 > 2 “ ist aussagekräfiger als das Resultat „beide Mediane sind irgendwie verschieden“), wird die Nullhypothese beim einseitigen Test aber nicht abgelehnt, so weiß man noch weniger als beim zweiseitigen Test (das einseitige Testresultat lautet dann nämlich bloß „entweder sind beide Mediane gleich oder 1 ist der kleinere von beiden“, während beim zweiseitigen Test die Ablehnung der Nullhypothese lautet „kein Median ist kleiner als der andere“). Verbundene und unverbundene Stichproben: Der Begriff verbundene Stichproben soll an Beispielen erläutert werden: [1] Man hat 10 Lösungsportionen, entnimmt je zwei Proben und lässt die Konzentration der einen Probe mit Messmethode A/ von Person A bestimmen, die der anderen Probe mit Messmethode B/ von Person B. Falls 1 2 , liegt ein systematischer Messfehler vor. [2] Man hat 10 Äcker bepflanzt. Bei jedem Acker düngt man die halbe Fläche mit Dünger A, die andere Hälfte mit Dünger B und misst nach der Ernte die Erträge. Falls 1 > 2 ist, ist Dünger A wirksamer. [3] Man hat 15 kurzsichtige Versuchspersonen und misst ihre Sehkraft einmal vor und einmal nach einem Augentraining. Falls 1 = 2 , ist das Training unwirksam. Die Messungen werden in beiden zu vergleichenden Messreihen jeweils an denselben Objekten/Personen durchgeführt, die Messwerte sind „paarweise geblockt“. Beide Messreihen sind gleich lang (n1 = n2). Lohöfer: Mathematik für Humanbiologen und Biologen WS 2006/07 6 Nichtparametrische Tests Bei unverbundene Stichproben sollen die Messreihen unabhängig voneinander erzeugt worden sein. Beispiele: [4] In Messreihe A werden 50 zufällig ausgewählte Juraabsolventen von Universität X nach ihrem Jahreseinkommen befragt, in Messreihe B entsprechend 80 Juraabsolventen von Universität Y. Falls 1 > 2 , haben die Absolventen von Universität X die besseren Berufschancen.. [5] 25 Schweine werden mit Futter A ernährt, 17 andere mit Futter B, bei beiden wird die Gewichtszunahme nach 3 Monaten gemessen. Falls 1 = 2 , sind beide Futter gleich gut. [6] Anhand von Krankenakten von Patienten mit ähnlicher Krebsdiagnose wird die Überlebensdauer nach Abschluss der Therapie gemessen, dabei wurden etliche mit Therapiemethode A, die anderen mit Therapiemethode B behandelt. Falls 1 > 2 , ist Therapie A besser. Die Messungen in beiden zu vergleichenden Messreihen wurden an unabhängig voneinander ausgewählten Objekten/Personen durchgeführt. Beide Messreihen sind meist (aber nicht notwendig) ungleich lang (n 1 n2). Der Vorzeichen-Rang-Test = Wilcoxon-Test für verbundene Stichproben/für Paardifferenzen = Wilcoxon signed-rank Test: Gegeben zwei verbundene Messreihen x1, …, xn und y1, … , yn. 1. Schritt: Schreibe die xi in eine 1. Tabellenrubrik, die yi in eine 2. Rubrik derart., dass die gepaarten Daten xi und yi¸ die am selben Objekt gemessen wurden, in beiden Rubriken jeweils an gleicher Stelle stehen. 2. Schritt: Berechne in der 3. Rubrik die Differenzen xi yi. 3. Schritt: Richte eine 4. („positive“) und eine 5. („negative“) Rubrik ein wie folgt: Für positive Differenzen xi yi trage in der 4. Rubrik jeweils ein Pluszeichen ein, für negative Differenzen xi yi trage in der 5. Rubrik jeweils ein Minuszeichen ein, immer wenn die Differenz xi yi gleich Null ist (selten!), lösche das Datenpaar aus der Tabelle und reduziere den Wert von n jeweils um 1. (Etliche Plätze in der 4. und 5. Rubrik bleiben also leer.) 4. Schritt: Nummeriere die absolut (ohne ihr Vorzeichen) genommenen Differenzen |x i yi| (alle 0) aufsteigend vom kleinsten bis zum größten Wert mit Rangnummern von 1 bis n. Dabei trage die Rangnummer hinter das Pluszeichen in der 4. Rubrik ein, wenn xi yi positiv ist, hinter das Minuszeichen in der 5. Rubrik, wenn xi yi negativ ist. Zusatzregel: Sind zwei Betragsdifferenzen im Zahlwert gleich (selten!), denen man die Rangnummern k und k+1 zuteilen müsste, so sollen beide die gleiche Rangnummer 0,5(k + k+1) bekommen, analog bei drei oder mehr gleichgroßen Betragsdifferenzen. Man gebe allen das arithmetische Mittel der benötigten Rangnummern. 5. Schritt: Addiere die Rangnummern der Plus-Zeile und nenne die Summe T(+), addiere die Rangnummern der Minus-Zeile und nenne die Summe T() (ohne negatives Vorzeichen!), d.h. T(+) und T() beide ≥ 0. 6. Schritt: Wahl der Nullhypothese und der Prüfgröße T: 1. Immer ist die zweiseitige Nullhypothese H0 = „ 1 = 2 “ wählbar, wähle dazu die Prüfgröße T = min{T(+), T()} 2. Wenn T(+) sehr viel größer als T() ist, lässt dies die Tatsache 1 > 2 vermuten (d.h. die xi sind im Schnitt größer als die yi). Wähle T = min{T(+), T()}, also T = T() und die Nullhypothese H0 = „ 1 = 2 (zweiseitig) oder H0 = „ 1 ≤ 2 (einseitig). 3. Wenn T(+) sehr viel kleiner als T() ist, lässt dies die Tatsache 1 < 2 vermuten (d.h. die xi sind im Schnitt kleiner als die yi). Wähle T = min{T(+), T()}, also T = T(+) und die Nullhypothese H0 = „ 1 = 2 (zweiseitig) oder H0 = „ 2 ≥ 1 “ (einseitig). In allen drei Fällen gilt: Je kleiner T, umso höher die Chance, dass die Nullhypothese widerlegt wird. 7. Schritt: Suche für n die Tabellenwerte tab-T in der Tabelle für den Wilcoxon signed rank Test. Auswertung: Ist T > tab-T für alle zu n gehörigen Werte, so ist die Nullhypothese angenommen. Ist T ≤ tab-T(1), so ist die einseitige Nullhypothese mit der Irrtumswahrscheinlichkeit 1 widerlegt, also mit der Sicherheit 1 1 richtig. Ist T ≤ tab-T(2), so ist die zweiseitige Nullhypothese mit der Irrtumswahrscheinlichkeit 2 widerlegt, also mit der Sicherheit 1 2 richtig. Lohöfer: Mathematik für Humanbiologen und Biologen WS 2006/07 Nichtparametrische Tests 7 Bemerkungen zum Vorzeichentest: Die Einführung der Rangnummern im obigen Vorzeichen-Rang-Test soll ermöglichen, betraglich größeren Differenzen xi yi ein entsprechend größeres Gewicht bei der Auswertung zu geben als den kleineren Differenzen. Wenn die Differenzen aber betragsmäßig alle sehr ähnliche Größe haben (sich also womöglich nur zufällig in der Größe unterscheiden), lohnt sich dieser Arbeitsaufwand eventuell nicht und man kann mit den Plus- und den Minuszeichen alleine arbeiten. Dazu studiert man im nachfolgend vorgestellten Testverfahren lediglich die Liste von n Elementen, bestehend aus lauter Plus- und Minuszeichen (Nulldifferenzen lässt man wieder weg.) Dieses Verfahren ermöglicht nun zusätzlich auch, eine einzelne Messreihe zur Zufallsvariablen x auszuwerten, wenn x eine ja/nein-Variable (logische Variable) ist, also nichtnumerisch. Der Arbeitsaufwand ist extrem viel niedriger, die Trennschärfe bei numerischen Messdaten aber auch viel geringer als beim Vorzeichen-Rang-Test von Wilcoxon. Vorzeichentest nach Dixon = Zeichentest = Sign-Test: Gegeben eine Messreihe mit n Elementen {+, +, , +, … , , , … } zur Zufallsvariablen z. Sie kann entstanden sein aus zwei verbundenen Stichproben (s.o.) durch Verbuchung der Vorzeichen der Paardifferenzen zi = xi yi (Nulldifferenzen weglassen) oder direkt durch Messung einer ja/nein-Variablen z. Überprüft werden soll, ob bei einer Einzelmessung von z die Wahrscheinlichkeit für den Messwert + eine andere ist als für den Messwert . 1. Schritt: Sei k die Anzahl der positiven, nk die Anzahl der negativen Vorzeichen. 1. Falls k < nk, wähle die Prüfgröße T = k und die Nullhypothese H0 = „P(z = +) = 0,5“ (zweiseitig) oder H0 = „P(z = +) ≥ 0,5“ (einseitig). 2. Falls k ≥ nk, wähle die Prüfgröße T = nk und die Nullhypothese H0 = „P(z = +) = 0,5“ (zweiseitig) oder H0 = „P(z = +) ≤ 0,5“ (einseitig). 2. Schritt: Suche für n die Tabellenwerte tab-T in der Tabelle für den SignTest. Auswertung: Ist T > tab-T für alle zu n gehörigen Werte, so ist die Nullhypothese angenommen. Ist T ≤ tab-T(1), so ist die einseitige Nullhypothese mit der Irrtumswahrscheinlichkeit 1 widerlegt, also mit der Sicherheit 1 1 richtig. Ist T ≤ tab-T(2), so ist die zweiseitige Nullhypothese mit der Irrtumswahrscheinlichkeit 2 widerlegt, also mit der Sicherheit 1 2 richtig. Anwendungsbeispiele für den Vorzeichentest: Grundsätzlich alle verbundenen Stichproben, auf die man den Vorzeichen-Rang-Test anwenden könnte (also auch die Beispiele [1] bis [3] von oben). Einzelne Stichproben zu ja/nein-Variablen: [7] Befragung von 30 Patienten: Hat Ihnen das Präparat geholfen? [8] Messung an 15 Proben: Genügt eine Erhitzung auf 150 0C für 3 min zur vollständigen Keimabtötung? [9] Auswertung von n Patientenakten: Macht die medikamentöse Therapie A eine Operation überflüssig? Mann-Whitney-Test = U-Test = Rangsummen-Test von Wilcoxon = Wilcoxon-Test für unverbundene Stichproben Gegeben zwei unabhängige Messreihen x1, …, xn und y1, … , ym der Länge n bzw. m zu den Experimenten A bzw. B. Beide sollten eingipflige Verteilungen ähnlicher Form haben (beide symmetrisch oder beide linkssteil oder beide rechtssteil), mit (unbekanntem) Median X und Y . 1. Schritt: Sortiere die x1, …, xn aufsteigend nach Größe, ebenso die y1, … , ym.. 2. Schritt: Bilde eine Tabelle mit 5 Rubriken der Länge n+m. In die 1. Rubrik trage Rangnummern ein, aufsteigend von 1 bis n+m. 3. Schritt: Es soll aus den in sich aufsteigend vorsortierten x1, …, xn und y1, … , ym eine aufsteigend sortierte Gesamtliste erstellt werden, die, mit den Rängen 1 bis n1+n2 durchnummeriert, in die Tabelle eingetragen werden soll. Dabei sollen aber die durchsortierten Zahlen der Gesamtliste nicht alle in die 2. Rubrik eingetragen werden, sondern getrennt nach Herkunft in die 2. Rubrik, wenn die Zahl ein xi -Wert zum Experiment A ist, in die 3. Rubrik, wenn sie ein yi -Wert zum Experiment B ist. Durchführung: Lohöfer: Mathematik für Humanbiologen und Biologen WS 2006/07 8 Nichtparametrische Tests Man vergleicht den vordersten (= kleinsten) x-Wert mit dem vordersten (= kleinsten) y-Wert. Den kleineren von beiden trägt man auf Rang 1 in die passende Rubrik ein und streicht ihn dann in seiner Herkunftsliste. Danach wiederholt man den Vergleich mit den beiden vordersten nun noch verbliebenen Werten der x- und y-Liste, trägt den kleineren in der passenden Rubrik auf Rang 2 ein und streicht ihn in seiner Ursprungsliste usw., bis alle Messwerte beider Messreihen mit einem Rang versehen in die 2. oder 3. Rubrik übertragen wurden. 4. Schritt: Kopiere die Rangnummern 1 bis n+m aus der 1. Rubrik hinüber in die 4. bzw. 5. Rubrik wie folgt: in die 4. Rubrik, wenn ein x-Wert (aus Rubrik 2) diesen Rang hat, in die 5. Rubrik, wenn ein y-Wert (aus Rubrik 3) diesen Rang hat. 5. Schritt: Addiere die Rangnummern der 4. Rubrik und nenne die Rangsumme RX , addiere die Rangnummern der 5. Rubrik und nenne die Rangsumme RY. 6. Schritt: Falls RX ≤ RY, so benenne: R1 = RX, n1 = n, 1 = X , Falls RX > RY, so benenne: R1 = RY, n1 = m, 1 = Y , 7. Schritt: Berechne U1 n1 n 2 n1 n1 1 R1 , U2 n1 n 2 R2 = RY, n2 = m, 2 = Y , R2 = RX, n2 = n, 2 = X . n 2 n 2 1 2 2 und mache Kontrollrechnung: Es muss U1 + U2 = n1 n2 gelten. R2 , 8. Schritt: Falls U1 ≤ U2 , so wähle den Prüfwert U = U1 und wähle die Nullhypothese H0 = „ 1 = 2 (zweiseitig) oder H0 = „ 1 ≤ 2 (einseitig). Falls U1 > U2 , so wähle den Prüfwert U = U2 und wähle die Nullhypothese H0 = „ 1 = 2 (zweiseitig) oder H0 = „ 2 ≥ 1 “ (einseitig). 9. Schritt: Suche für das Paar (n1, n2) die Tabellenwerte tab-U in der Tabelle für den Mann-Whitney U-Test. Achtung: Die Tabelle ist nur ausgedruckt für n1 ≤ n2. Für die vertauschten Werte n1 > n2 gelten aber dieselben Tabelleneinträge, d.h. wenn man das Paar (n1, n2) = (6,5) hat, schlägt man in der Tabelle nach unter (n1, n2) = (5,6). Auswertung: Ist T > tab-T für alle zu (n1, n2) gehörigen Werte, so ist die Nullhypothese angenommen. Ist T ≤ tab-T(1), so ist die einseitige Nullhypothese mit Irrtumswahrscheinlichkeit 1 widerlegt, also mit der Sicherheit 1 1 richtig. Ist T ≤ tab-T(2), so ist die zweiseitige Nullhypothese mit der Irrtumswahrscheinlichkeit 2 widerlegt, also mit der Sicherheit 1 2 richtig. Lohöfer: Mathematik für Humanbiologen und Biologen WS 2006/07