a 6 Weitere nichtparametrische Tests 6.1 Nichtparametrisch“ heisst Vieles ” Das Adjektiv nichtparametrisch“ wurde in der Statistik auf viele Arten verwendet, ” um eine Methodik von der parametrischen Statistik abzugrenzen. Diese entspricht dem klassischen Vorgehen, wie es auch im Einführungsteil besprochen wurde: Um eine Situation mit Zufallswirkung“ zu erfassen, setzt man ein Modell an, das aus ei” nem strukturellen“ und einem zufälligen“ Teil besteht. Der zufällige Teil wird durch ” ” Zufallsvariable beschrieben, deren Verteilung aus einer vorgegebenen parametrischen Verteilungsfamilie stammt, beispielsweise aus der Familie der Normalverteilungen. Ein Parameter (oder mehrere) wird durch den strukurellen Teil festgelegt. Der strukturelle Teil besteht beispielsweise aus einer Gruppierung mit einem Lageparameter“ pro ” Gruppe oder einer Regressionsfunktion, die die Lageparameter der Zufallsvariablen festlegt und selber wieder neue Parameter enthält. b Nichtparametrische Tests verzichten darauf, für die Verteilung der Zufallsvariablen eine parameterische Verteilungsfamilie festzulegen. Ein weniger üblicher, aber klarerer Name dafür ist verteilungsfreie Tests“. ” Die im vorhergehenden Kapitel besprochenen Verfahren gehören in diese Klasse. Der naheliegendste Trick“, zu solchen Verfahren zu kommen, besteht in der Rangtrans” formation der Daten (oder abgeleiteter Grössen). Wir kommen auf diese Idee zurück (6.2). c Verteilungsfreie Tests“ hat leider auch eine andere Bedeutung: Es sind Tests mit ” Teststatistiken, die für alle Verteilungen gleich sind. Es geht dabei gerade um Tests, die die Güte der Anpassung von Daten an eine bestimmte Verteilung prüfen (goodness of fit tests). Mehr dazu in 6.3. d Ein bekannter Anpassungstest ist der so genannte Chiquadrat-Test. Es gibt auch einen Chiquadrat-Test für Unabhängigkeit in Kreuztabellen. Er wird im Block über kategoriale Daten behandelt. e Eine ganz andere Art, den Begriff nichtparametrisch zu verwenden, bezieht sich auf die Modellierung des strukturellen Teils. Statt einer parametrisierten Regressionsfunktion, wie wir sie in der Varianzanalyse, der gewöhnlichen linearen Regression, den verallgemeinerten linearen Modellen und der nichtlinearen Regression angetroffen haben, wird die Regressionsfunktion allgemeiner angesetzt – beispielsweise soll sie eine glatte, aber sonst beliebige Funktion sein. Wie man solche Vorstellungen konkretisiert, wird in der nichtparametrischen Regression überlegt. 0 c Reproduktion für kommerzielle Zwecke, auch auszugsweise, nur mit schriftl. GenehmiVersion Gymnasiallehrer SG, Sept 02 gung des Autors c Reproduktion für kommerzielle Zwecke, auch auszugsweise, nur mit Version Gymnasiallehrer SG, Sept 02 c schriftl. Genehmigung des Autors, 20 6 Weitere nichtparametrische Tests f Methodisch eng mit der nichtparametrischen Regression verwandt ist das Problem der Dichte-Schätzung, das wieder den zufälligen Teil behandelt und versucht, eine Verteilung aus den Daten herauszulesen, die nicht aus einem parametrischen Modell stammt. 6.2 a Rang-Methoden Die bekanntesten Rangtests haben wir bereits behandelt: • Den Vorzeichen-Rangsummen-Test von Wilcoxon für zwei verbundene oder für eine einfache Stichprobe, • den Rangsummentest von Wilcoxon, Mann und Whitney (U-Test) für zwei unabhängige Stichproben, • den Kruskal-Wallis-Test für mehrere unabhängige Stichproben, • den Friedman-Test für mehrere verbundene Stichproben. b Rangkorrelation. Tests auf Unabhängigkeit von zwei Zufallsvariablen haben wir schon in 5.8.a erwähnt. Die Rangkorrelation von Spearman – die gewöhnliche ( Pearson“” ) Korrelation von rang-transformierten Daten – kann man nicht nur als Testgrösse für den Test auf Unabhängigkeit (also Korrelation 0) brauchen, sondern auch als Mass für die Abhängigkeit. Die gewöhnliche Korrelation ist dann gut interpretierbar, wenn die Daten bivariat normalverteilt sind (siehe Stahel (2000, Bild 3.2.i)). Wenn das der Fall ist, liefert die Rangkorrelation sehr ähnliche Werte. Andererseits ist die Rangkorrelation viel robuster als die gewöhnliche Korrelation. Transformiert man eine Variable (oder beide) monoton, dann ändert sie sich nicht. Eine andere Definition eines Korrelationsmasses, das diese beiden Eigenschaften besitzt, stammt von Kendall. c* d* Rang-Regression. In der multiplen linearen Regression kann die Quadratsumme der Residuen, die durch die Methode der Kleinsten Quadrate minimiert wird, durch eine andere Zielfunktion ersetzt werden. Dies wurde im Block über robuste Regression ausgeführt. Jaeckel führte eine Zielfunktion ein, die auf den Rängen der Residuen beruht. Die entsprechenden Schätzungen heissen R-Schätzungen. Ihre asymptotische Verteilung hängt nur von einem speziellen Aspekt der Fehlerverteilung ab (von der Dichte der Verteilung bei E = 0 ) und ist deshalb teilweise verteilungsfrei“. Genaueres siehe Hettmansperger). ” Es gibt auch Rang-Methoden für die multivariate Statistik. Da aber nicht eindeutig ist, wie im mehrdimensionalen Raum eine Ordnung“ eingeführt werden soll, gibt es hier recht viele ” Vorschläge mit verschiedenen Vor- und Nachteilen. Die Forschung ist nicht konsolidiert. 6.3. ANPASSUNGSTESTS 6.3 a 21 Anpassungstests Die Frage, ob die Daten mit der Annahme einer bestimmten Verteilung verträglich sind, wurde schon oft untersucht. Bisher haben wir meistens QQ-Diagramme verwendet und auf statistische Tests verzichtet. Die Rechtfertigung dieser lockeren“ Haltung bestand ” darin, dass mit einem Test ja nicht nachgewiesen werden kann, dass eine bestimmte Verteilung wirklich den Daten zu Grunde liegt, sondern nur, gegebenenfalls, dass die Daten einer solchen Annahme widersprechen. Die Versuchung einer missbräuchlichen Interpretation eines Tests für die Anpassung“ an eine bestimmte Verteilung ist gross. ” Trotzdem ist es an der Zeit, dass wir solche Verfahren genauer betrachten. b Kolmogorov. Die theoretische Verteilungsfunktion F charakterisiert die zu überprüfende Verteilung, also die Nullhypothese. Die empirische Verteilungsfunktion ist gegeben durch #{i | Xi ≤ x} Fb n hxi = . n Wenn nun die empirische Verteilungsfunktion stark von der theoretischen abweicht, schliessen wir auf Verletzung der Nullhypothese. (Für das QQ-Diagramm haben wir F −1 mit Fb −1 verglichen.) Kolmogorov führte deshalb als Teststatistik die Grösse T = maxh|Fb n hxi − F hxi|i x ein. Es ist leicht einzusehen, dass die Verteilung dieser Grösse, unter der Annahme, dass die Beobachtungen Xi gemäss F verteilt sind, nicht von F abhängt, sofern F eine stetige Verteilung ist: Wenden wir auf die Xi irgendeine (differenzierbare) monotone Transformation g an. Wenn die Nullhypothese gilt, haben die transformierten Beobachtungen Yi = ghXi i die kumulative Verteilungsfunktion F (Y ) hyi = F hg −1 hyii. Die Teststatistik T , berechnet für die Yi und F (Y ) , ist gleich dem Wert von T für die Xi und F . Setzt man beispielsweise g = F −1 , so wird F (Y ) gleich der Verteilungsfunktion für die uniforme Verteilung zwischen 0 und 1. Man kann die Verteilung der Teststatistik also für diese spezielle Verteilung berechnen und weiss, dass diese für alle Verteilungen F die gleiche sein muss. Kolmogorov leitete 1933 die asymptotische Näherung an die Verteilung von T mit sehr eleganten und grundlegenden Methoden her. Die Bedeutung der mathematischen Methoden, die diesem Test zu Grunde liegen, ist wesentlich grösser als die praktische Bedeutung, wie wir gleich erläutern werden (6.3.e). c Üblicherweise will man nicht eine bestimmte Verteilung prüfen, sondern nur eine Verteilungsform, beispielsweise die Normalverteilung, mit beliebigen Werten für die Parameter. Diese müssen aus den Daten geschätzt werden, was für kleinere Stichproben natürlich Auswirkungen auf die Verteilung der Teststatistik hat (wie dies grundlegend beim t-Test diskutiert wurde, siehe Absatz 8.5.g in Stahel (2000)). Die Korrekturen hängen nun von der Verteilungsfamilie ab, siehe Kommentar 11.5.(28) in Hollander and Wolfe (1999). 22 6 Weitere nichtparametrische Tests d Chiquadrat-Test. Siehe Abschnitt 10.2 in Stahel (2000). e Der Chiquadrat-Test ist dem Kologorov-Test generell vorzuziehen, da er – bei geeigneter Wahl der Klassen – gegen die üblicherweise wichtigen Alternativen von langschwänzigen Verteilungen bessere Macht zeigt. (Genauere Untersuchungen dazu muss ich allerdings noch suchen.) 6.4 a Ausblick Eine Durchsicht von Hollander and Wolfe (1999) zeigt weitere nichtparametrische Methoden (im Sinne von verteilungsfrei): • Test gegen unterschiedliche Streuungen und allgemeinere Alternativen für zwei unabhängige Stichproben, z.B. Vergleich zweier empirischer Verteilungsfunktionen (Kolmogorov-Smirnov-Test, verwandt mit dem Kolmogorov-Anpassungs-Test), • Varianzanalyse: Tests gegen speziellere Alternativen (monotone Effekte für einen geordneten Faktor u.a.), Methoden für Kontraste, • Methoden für Überlebenszeiten (vgl. Block Überlebenszeiten) Literatur a Ein neues, umfassendes Buch über nichtparametrische Statistik stammt von Hollander and Wolfe (1999). Jedes Verfahren ist zunächst rezeptartig beschrieben. Die Motivation, Eigenschaften, Theorie und andere Bemerkungen folgen nachher. b Ein älteres Buch in deutscher Sprache, das alle wichtigen Verfahren enthält, ist Büning und Trenkler (1978). Neue Auflage! c Hettmansperger (1984) diskutiert Rang-Methoden umfassend. Es gibt in diesem Gebiet auch neuere Forschungsergebnisse. 23 Literatur Büning, H. und Trenkler, G. (1978). Nichtparametrische statistische Methoden, Walter de Gruyter, Berlin. Hartung, J. und Elpelt, B. (1992). Multivariate Statistik: Lehr- und Handbuch der angewandten Statistik, 5. Aufl., Oldenbourg, München. Hettmansperger, T. P. (1984). Statistical Inference Based on Ranks, Wiley, N.Y. Hollander, M. and Wolfe, D. A. (1999). Nonparametric Statistical Methods, Wiley Series in Probabilitz and Statistics, 2nd edn, Wiley. Stahel, W. A. (2000). Statistische Datenanalyse: Eine Einführung für Naturwissenschaftler, 3. Aufl., Vieweg, Wiesbaden. Stahel, W. A. (2002). Statistische Datenanalyse: Eine Einführung für Naturwissenschaftler, 4. Aufl., Vieweg, Wiesbaden.