Kolmogorov--Smirnov Kolmogorov Smirnov--Test Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 1 Kolmogorov-- Smirnov Test Kolmogorov Andrei Nikolajewitsch Kolmogorov − * 25.4.1903 - † 20.10.1987 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 2 Kolmogorov-- Smirnov Test Kolmogorov Wladimir Iwanowitsch Smirnov − * 10.6.1887 - † 11.2.1974 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 3 Einleitung Statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen zwei Zufallsvariablen die gleiche Verteilung besitzen eine Zufallsvariable einer Wahrscheinlichkeitsverteilung folgt (Kolmogorov- Smirnov- Anpassungstest) Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 4 Einleitung NVT als Voraussetzung für viele statistische Verfahren Überprüfung mittels KSA Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 5 Einleitung Kolmogorov- Smirnov: n <50 n >50: Chi- Quadrat Nichtparametrischer Test − stabil − unanfällig Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 6 Kolmogorov-- Smirnov Kolmogorov Smirnov-- Test Stetig verteilte metrische Merkmale Diskrete Merkmale Rangskalierte Merkmale Weniger Trennschärfe Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 7 Kolmogorov-- Smirnov Kolmogorov Smirnov-- Test Nullhypothese H0: Fx(x) = F0(x) Alternativhypothese H1: Fx(x) ≠ F0(x) Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 8 Kolmogorov-- Smirnov Kolmogorov Smirnov-- Test p < 0.05: − keine Normalverteilung − Zahlenreihen stammen nicht aus derselben Verteilung Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 9 Kolmogorov-Smirnov KolmogorovSmirnov--Test – Berechnung per Hand Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 10 Bsp.. für händische Berechnung Bsp 8 Zeitangaben (= n), die auf Normalverteilung geprüft werden sollen 200, 198, 390, 215, 171, 160, 150, 224 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 11 Vorgehensweise 1. Tabelle aufstellen x z Ф(z) f d x = die zu testenden Werte z = z-Werte Ф(z) = Flächenstücke unter Normalverteilungskurve f = gleiche Abstände der Flächenstücke d = absolute Differenzen Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 12 Vorgehensweise x 150 160 171 198 200 215 224 390 2. Werte in eine aufsteigende Reihenfolge bringen 200, 198, 390, 215, 171, 160, 150, 224 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 13 Vorgehensweise x 150 160 171 198 200 215 224 390 z -0.84 -0.70 -0.56 -0.20 -0.18 0.02 0.14 2.32 Ф(z) 0.200 0.242 0.288 0.421 0.429 0.508 0.556 0.990 3. dazugehörige z-Werte ausrechnen 4. gemäß der z-Tabelle Flächenstücke unter der Normalverteilungskurve Ф(z) ermittelten Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 14 Vorgehensweise f 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 Flächenstücke unter der Normalverteilungskurve sollten bei idealer Normalverteilung gleiche Abstände haben: erzeugt durch Division mit Fallzahl n ( = 8 ) 5. f berechnen f = i/n i = 1, …, n Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 15 Vorgehensweise Ф(z) 0.200 0.242 0.288 0.421 0.429 0.508 0.556 0.990 f 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 d 0.075 0.008 0.087 0.079 0.196 0.242 0.319 0.010 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 6. Berechnung der absoluten Differenzen: d = ІФ(z) - fІ 16 Vorgehensweise x 150 160 171 198 200 215 224 390 z -0.84 -0.70 -0.56 -0.20 -0.18 0.02 0.14 2.32 Ф(z) 0.200 0.242 0.288 0.421 0.429 0.508 0.556 0.990 f 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser d 0.075 0.008 0.087 0.079 0.196 0.242 0.319 0.010 17 Vorgehensweise Ф(z) 0.200 0.242 0.288 0.421 0.429 0.508 0.556 0.990 f 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 d 0.075 0.008 0.087 0.079 0.196 0.242 0.319 0.010 Maximum dieser Differenzen (a) = Prüfgröße beim KolmogorovSmirnov-Test a = 0.319 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 18 Vorgehensweise Maximum dieser Differenzen (a) = Prüfgröße beim Kolmogorov-Smirnov-Test a = 0.319 kritischen Wert ermitteln: − in Tabelle nachschauen (bei n = 8) Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 19 Kritische Werte n 3 4 5 kritischer Wert 0.708 0.624 0.563 6 7 8 9 10 11 12 0.519 0.483 0.454 0.430 0.409 0.391 0.375 Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 20 Vorgehensweise Maximum dieser Differenzen (a) = Prüfgröße beim Kolmogorov-Smirnov-Test a = 0.319 in Tabelle nachschauen (bei n = 8) kritischer Wert = 0.454 a < acrit normalverteilt Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 21 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 22 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Menüpunkt ANALYSIEREN Aus den Alternativen NICHTPARAMETRISCHE TESTS wählen Auswahlpunkte, die sich rechts öffnen, K-S BEI EINER STICHPROBE wählen Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 23 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Testvariable auswählen, welche auf Normalverteilung überprüft werden. Achtung: links unten unter Testverteilung darauf achten, dass der Punkt Normal angewählt ist. OK anklicken Bildschirmausgabe wie folgende: Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 24 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 25 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Hier sind für uns die folgenden Werte wichtig: N (in diesem Falle 8), Extremste Differenzen (0,320) und Asymptotische Signifikanz. Nun vergleichen wir diese beiden ersten Werte mit einer Tabelle für den Kolmogorov-Smirnov-Test. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 26 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Die nachfolgende Tabelle gibt bei einer 5 % Irrtumswahrscheinlichkeit Grenzwerte für Stichproben an, bei denen n zwischen 1-35 liegt. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 27 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 28 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Wir suchen nun den Wert für N = 8 und sehen dort die Zahl 0,454. Falls die Extremste Differenz in unserem Rechenbeispiel diesen Wert überschreitet, liegt mit 95 % Wahrscheinlichkeit keine Normalverteilung vor. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 29 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS In unserem Fall haben wir jedoch eine Extremste Differenz von nur 0,32. Das Ergebnis wird am Besten so interpretiert, dass die theoretische Annahme einer Standardverteilung nicht verworfen werden muss. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 30 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Auch unser Wert für die Asymptotische Signifikanz ist weit größer als der Grenzwert 0,05. Dieser würde besagen, dass nur in 5 % aller Fälle eine derartige Verteilung wirklich normalverteilt ist. Ein Wert von 0,02 wäre hingegen deutlich kleiner, daher würde die Annahme einer Normalverteilung verworfen werden (auf dem 5 % Signifikanzniveau). Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 31 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Da unser Wert jedoch deutlich darüber liegt, kann die Hypothese einer Normalverteilung auf diesem Signifikanzniveau nicht verworfen werden. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 32 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS Achtung: Der Kolmogorov-Smirnov-Test benötigt, v.a. bei kleinen Stichproben, extreme Abweichungen von einer Normalverteilung, um auf höheren Signifikanzniveaus die Annahme einer Normalverteilung zu verwerfen. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 33 Kolmogorov-Smirnov KolmogorovSmirnov--Test mit SPSS SPSS Syntax NPAR TEST /K-S (normal) = variable . Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 34 Vielen Dank für Ihre Aufmerksamkeit! Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser 35