Grundlagen sozialwissenschaftlicher Datenanalyse (B.MZS.11: Statistik I) • LE 6: Streuungsmaße und weitere Kenngrößen • LE 7: Lineartransformationen (und Zusammenfassungen von Gruppen) Vorlesung Statistik I Streuungsmaße für nominalskalierte Variablen Konfession Häudigkeit evang. ohne Freikirchen 1169 evang. Freikirche 89 Römisch-katholisch 1042 andere christl. Religion 76 nicht-christliche Religion 138 ohne Religionszugehör. 890 verweigert 10 keine Angabe 8 Total: 3422 Gültige Fälle 3404 Fehlende Fälle: 18 gültige Prozent 34.3 2.6 30.6 2.2 4.1 26.2 --100.0 Prozent 34.2 2.6 30.5 2.2 4.0 26.0 0.3 0.2 100.0 -2·pk·ln(pk) 0.73404 0.18978 0.72471 0.16794 0.26192 0.70185 2.78024 K D X 2 n k ln p k 9465.054 k 1 (Allbuss 2006 Ost-West-gewichtet) Index qualitativer Variation: IQV -2·nk·ln(pk) 2501.718 649.639 2467.811 580.140 881.595 2384.151 9465.054 K K 1 p 2k K 1 k 1 K d X 2 p k ln p k 2.780 k 1 Beispiel: IQV = (1 .3432 .0262 .3062 .0222 .0412 .2622) 6/(61) = 0.861. Bei Gleichverteilung wird Maximum von 1 erreicht. Absolute Devianz DX bzw. relativen Devianz dX: n D X 2 n k ln k n k 1 K Vorlesung Statistik I K 2 n k ln p k k 1 K d X 2 p k ln p k k 1 Dx n Dx n Devianz – Nominalskaliertes Streuungsmaß Vorlesung Statistik I Beispielaufgaben: Wie berechnet sich Varianz und die relative Devianz für die Spalte der Datenmatrix ? Y 7 5 1 4 2 6 3 4 7 1 --40 pk 0.2 0.1 0.2 0.2 0.1 0.1 0.1 ---1.0 Vorlesung Statistik I -pk ln(pk) 0.3219 0.2303 0.3219 0.3219 0.2303 0.2303 0.2303 - --1.8867 K d Y 2 p k ln p k 2 1.8867 3.7734 k 1 Streuung von ordinalen Variablen Für ordinale Variablen finden sich in der Literatur bislang keine speziellen Streuungsmaße. Bisweilen wird der Quartilabstand verwendet. Problematisch wegen Verwendung von Abstandsinformationen. Da die Messnievaus hierarchisch geordnet sind, kann auf Streuungsmaß für stets auf Kennwerte für ein niedrigeres Messniveau zurückgegriffen werden, also z.B. auf die Devianz. Aber: u-förmige Verteilungen lassen sich dann nicht erkennen, weil keine Ranginformation genutzt wird. Schiefe Empirische Dichte rechtsschiefe Verteilung .025 .020 .015 .010 .005 .000 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 Alter in Jahren Vorlesung Statistik I Hinweise auf die Schiefe (engl.: skewness) • Für unimodale, symmetrische Verteilungen gilt Modus = Median = Mittelwert, bei mehrgipfligen, symmetrischen Verteilungen gilt:Median = Mittelwert; • bei einer eindeutig rechtsschiefen Verteilung gilt:Modus < Median < Mittelwert; • bei einer eindeutig linksschiefen Verteilung gilt: Modus > Median > Mittelwert. Lerneinheit 6: Streuungsmaße und weitere Kenngrößen Kennzeichen von Verteilungen ist gerade, dass es unterschiedliche Realisierungen gibt. Streuungsmaße sollen das Ausmaß der Unterschiedlichkeit einer Verteilung erfassen: 40 30 20 10 0 1 2 Wert nk 1 10 2 20 3 40 4 20 5 10 100 Vorlesung Statistik I 3 4 5 a W pk cpk 0.1 0.1 0.2 0.3 0.4 0.7 0.2 0.9 0.1 1.0 1.0 a 1 2 nk 20 20 20 20 20 100 3 4 X pk 0.2 0.2 0.2 0.2 0.2 1.0 5 a cpk 0.2 0.4 0.6 0.8 1.0 a 1 2 nk 40 10 0 10 40 100 3 4 Y pk 0.4 0.1 0.0 0.1 0.4 1.0 5 cpk 0.4 0.5 0.5 0.6 1.0 Streuungsmaße für metrische Variablen Wert nk 1 10 2 20 3 40 4 20 5 10 100 W pk cpk 0.1 0.1 0.2 0.3 0.4 0.7 0.2 0.9 0.1 1.0 1.0 nk 20 20 20 20 20 100 X pk 0.2 0.2 0.2 0.2 0.2 1.0 cpk 0.2 0.4 0.6 0.8 1.0 nk 40 10 0 10 40 100 Y pk 0.4 0.1 0.0 0.1 0.4 1.0 cpk 0.4 0.5 0.5 0.6 1.0 Spannweite (engl. Range): Abstand (Differenz) zwischen größter und kleinster Realisierung. R x (n ) x (1) RW = 5 – 1 = 4 RX = 5 – 1 = 4 RY = 5 – 1 = 4 Quartilabstand (engl. interquartil range): Differenz des dritten vom ersten Quartil: IQR Q0.75 Q0.25 IQRW=2 IQRX=2 IQRY=4 Q0.75 Q0.25 2 Durchschnittliche absolute Abweichung (engl. absolute deviation): Mittelwert der vorbezeichenbereinigten Differenzen aller Realisierungen vom Mittelwert: Mittlere Quartilabstand : 1 n AD x i x n i 1 Vorlesung Statistik I mIQR ADW=0.8 ADX=1.2 ADY=1.8 Metrische Streuungsmaße Die Summe der abweichenden Realisierungen – vom Mittelwert – ergibt immer Null! n (x i 1 i x) 0 n 1 n AD x i x n i 1 SS X ( xi x ) 2 i 1 SS X 1 n 1 n 2 2 s ( xi x ) xi x 2 n n i 1 n i 1 2 X sX sX2 Vorlesung Statistik I Durchschnittliche Abweichung vs. Standardabweichung 1 2 x 1,5 1 1,5 2 1,5 AD 0,5 2 (1 1,5) 2 (2 1,5) 2 sX 0,5 2 1 2 3 x 2 1 2 2 2 3 2 AD 0,667 3 (1 2) 2 (2 2) 2 (3 2) 2 sX 0,816 3 Vorlesung Statistik I Streuungsmaße für metrische Variablen Berechnung der durchschnittlichen absoluten Abweichung: x 6 1 n AD x i x n i 1 3 AD W nk 1 10 2 20 3 40 4 20 5 10 100 3 4 5 6 7 8 11 3 6 3 6 4 6 5 6 7 6 7 6 8 6 11 6 9 18 2 9 pk cpk 0.1 0.1 0.2 0.3 0.4 0.7 0.2 0.9 0.1 1.0 1.0 pk·wk 3| 0.1 0.4 1.2 0.8 0.5 3.0 pk·|wk– 0.2 0.2 0.0 0.2 0.2 0.8 x 3 1 K AD n K x K x n k 1 10 1 3 20 2 3 40 3 3 20 4 3 10 5 3 AD 0.8 100 Vorlesung Statistik I 7 nk·|wk–3| 20 20 0 20 20 =80 Streuungsmaße für metrische Variablen Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares, abgekürzt: SSX): Summe der quadrierten Abweichungen vom Mittelwert: n SSx x i x 2 i 1 W nk 1 10 2 20 3 40 4 20 5 10 100 pk cpk 0.1 0.1 0.2 0.3 0.4 0.7 0.2 0.9 0.1 1.0 1.0 pk·wk 0.1 0.4 1.2 0.8 0.5 3.0 nk·(wk–3)2 40 20 0 20 40 120 Y nk 1 40 2 10 3 0 4 10 5 40 100 pk cpk 0.4 0.4 0.1 0.5 0.0 0.5 0.1 0.6 0.4 1.0 1.0 pk·yk 3)2 0.4 0.2 0.0 0.4 2.0 3.0 nk·(yk– 160 10 0 10 160 340 X nk 1 20 2 20 3 20 4 20 5 20 100 pk cpk 0.2 0.2 0.2 0.4 0.2 0.6 0.2 0.8 0.2 1.0 1.0 pk·xk 3)2 0.2 0.4 0.6 0.8 1.0 3.0 nk·(xk– 80 20 0 20 80 200 Für die Berechnung werden nur Fallzahl, Summe und Quadratsumme über alle Realisierungen benötigt: SSX x i x x i2 x 2 2 x i x n n 2 i 1 i 1 n n x n x 2 x xi i 1 2 i 2 i 1 n n x n x 2 x n x x i2 n x 2 Vorlesung Statistik I i 1 2 i 2 i 1 Streuungsmaße für metrische Variablen 40 30 20 10 0 1 2 3 4 5 a a 1 SSW 120 2 3 4 SSX 200 s2W 1.2 ; s W 1.095 5 a a 1 2 3 4 5 SSY 340 s 2X 2.0 ; s x 1.414 s 2Y 3.4 ; s Y =1.844 (Stichproben-) Varianz: die durchschnittlichen quadrierte Abweichung vom Mittelwert: 1 SS 2 s 2X x i x X n i 1 n Standardabweichung (engl: standard deviation): positive Quadratwurzel aus der Varianz: sX Vorlesung Statistik I s 2 X 1 n 2 x x i n i 1 SSX n Berechnung von Variation und Standardabweichung für eine Variable der Datenmatrix Fallnr. IS Alter (X) Alter2 (X2) 1943 65 4225 1960 48 2304 1957 51 2601 1939 69 4761 missing missing missing 1956 52 2704 1970 38 1444 1920 88 7744 1956 52 2704 1966 42 1764 Summe 505 30251 Summe 56.111 3361.222 n valid 9 Die Variation berechnet sich aus diesen Summen nach: n SSX x i x i 1 2 n xi n n x i2 n x 2 x i2 i 1 n i 1 i 1 2 Für die Beispieldaten ergibt sich: 2 9 xi n n i 1 2 SSX x i x i2 n x 2 n i 1 i 1 5052 30251 30251 9 56.1112 58587.111 9 SS 58587.111 s 2X X im Beispiel: s X 212.7654321 n 9 s X s 2X im Beispiel: s X 212.7654321 14.586 VX sX / x im Beispiel : VX 14.58648 / 56.11111 0.2600 26.0% Vorlesung Statistik I Rechenschema für Häufigkeitstabellen n x k k K K k 1 2 2 2 nk xk n x nk xk n k 1 k 1 K n K SSX x i x n k x k x 2 i 1 k 1 2 2 2 K 2 n x n x k k k k 1 K SS 2 2 2 k 1 sX n k x k x k 1 2 X n k 1 n n n K W nk 1 10 2 20 3 40 4 20 5 10 100 pk cpk 0.1 0.1 0.2 0.3 0.4 0.7 0.2 0.9 0.1 1.0 1.0 nk·(wk)2 10 80 360 320 250 1020 nk·wk 10 40 120 80 50 300 3002 SSW 1020 120 100 pk·wk 0.10 0.40 1.20 0 80 0.50 3.00 pk·(wk)2 0.10 0.80 3.60 3.20 2.50 10.20 Vorlesung Statistik I SSW 100 1.2 120 1020 3002 120 s 1.2 2 100 100 100 2 W K s pk x k x pk x x pk x pk x k k 1 k 1 k 1 k 1 K 2 X s2W 10.20 32 1.2 K K 2 k 2 2 k 2 SSX n sX2 Streuungsmaße für metrische Variablen Variationskoeffizient: Quotient der Standardabweichung geteilt durch das arithmetisches Mittel: s 2X SSX sx VX x x n x 1.095 0.365 36.5% 3 1.844 s Y 1.844 ; y 3 VY 0.615 61.5% 3 s W 1.095 ; w 3 VW s X 1.414 ; x 3 VX 1.414 0.471 47.1% 3 Welches Streuungsmaßes sollte verwendet werden? - Spannweite: empfindlich gegenüber Ausreißer und sehr wenig Informationsgehalt - Quartilabstand: robust gegenüber Ausreißern, aber wenig Informationsgehalt - Variation und abgeleitete Maße: empfindlich gegenüber Ausreißern aber großer Informationsgehalt Mit Ausnahme explorativer Statistik, wo auch der Quartilabstand genutzt wird (z.B. in BoxPlots), werden vor allem die Variation bzw. abgeleitete Kennwerte verwendet. Für die Verwendung von Varianz bzw. Standardabweichung spricht auch die Tschebyscheffsche Ungleichung: Für alle Verteilungen gilt, dass im Abstand von k Standardabweichungen vom Mittelwert mindestens 11/k2 aller Realisierungen liegen: 1 p x k sx X x k sx 1 2 k Vorlesung Statistik I Momente Zur Kennzeichnung von Verteilungen können auch höhere Momente verwendet werden: Das k-te (Roh-) Moment ist der Durchschnittswert über alle mit k potenzierten Realisierungen einer Verteilung: 1 n k / k-tes Rohmoment m k x i n i 1 Werden vor der Potenzierung die Differenzen vom ersten Moment berechnet, ergeben sich die zentralen Momente: k 1 n k-tes zentrales Moment m k x i m1/ n i 1 Schiefekoeffizient: 1 n 3 xi x n i 1 3 sX Steilheit (relativ zur Normalverteilung): Vorlesung Statistik I m3 m2 Kurtosis 3 1 n 4 x x i n i 1 s 2 X 2 3 m4 m2 2 3 Lerneinheit 7: Lineartransformationen und Zusammenfassungen von Gruppen Lineartransformation: Y = a + b·X Y = 2 –1·X Y = 4 +0.5·X -5 -4 -3 -2 9 8 7 6 5 4 3 2 1 0 -1 -1 0 -2 -3 Lineare Gleichungen lassen sich in einem Koordinatensystem als Graden einzeichnen. Die Konstante a gibt dabei den Wert von Y an, wenn X=0. Grafisch ist das der Schnittpunkt der Geraden mit der senkrechten Y-Achse. Das Gewicht b gibt die Steigung der Geraden an. Immer, wenn der Wert von X um +1 Einheit ansteigt, verändert sich der Wert von Y um b Einheiten. Y = 4 +1·X Y = 2 +1·X 1 2 3 4 5 yi = a + b·xi für i = 1,2,...,n 1 n 1 n 1 n 1 n 1 b n y yi a b x i a b x i n a x i a b x n i 1 n i 1 n i 1 n i 1 n n i 1 n n n n SSY yi y a b x i a b x b x i x b 2 x i x b 2 SSX i 1 2 2 i 1 i 1 SSY b2 SSX s b2 s 2X und s Y n n 2 Y Vorlesung Statistik I 2 2 i 1 s 2Y b2 s 2X b s X Lineartransformationen Y = a+b*X • Intervallskalenniveau • Ratioskalenniveau => Y = a+b*X => Y = b*X Intervallskalenniveau Beispiel a) Islamischer (Mond)Kalender 33 33 H C 622 2009 622 1430 32 32 Intervallskalenniveau Beispiel b) Temperatur Ist es in Rom doppelt so warm wie in Göttingen? 28C 14C 14C F 32 1,8 C 28 in Rom 32 1,8 28 82, 4 F 14 in Göttingen 32 1,8 14 57, 2 F 82, 4 F 57, 2 F 25, 2 F Ratioskalenniveau Beispiel a) Zoll in cm 1" 2,54cm 2" 5,08cm 24" 60,96cm Y b X Ratioskalenniveau Beispiel b) Währung Hat Gabi doppelt soviel Geld wie Peter? Gabi 1000€ Klaus 500€ 1€ 45,095Rub 1000€ 45,095Rub 45095Rub 500€ 45,095Rub 22547,5Rub Lineartransformationen Als Beispiel soll Mittelwert, Variation und Varianz des Alters aus den enstprechenden Kennwerten des Geburtsjahrs berechnet werden. y a bx Geburts- Geburts2 jahr (X) Alter (Y) jahr2 (X2) Alter (Y2) 1943 3775249 1960 3851600 1957 3829894 1939 3759721 missing missing 1956 3825936 1970 3880900 1920 3686400 1956 3825936 1966 3865156 Summe 17567 34290747 65 4225 48 2304 51 2601 69 4761 Lineartransformation missing missing Y = 2008 +(–1)·X 52 2704 38 1444 88 7744 52 2704 42 1764 Summe 505 30251 Summe 1951.889 3910083 9 Summe 9 2008 1 1951.889 56.111 SSY b 2 SSX 1 SSX 2 1914.8889 s 2Y b 2 s 2X 1 212.7654 2 sY b sX 56.111 3361.222 1 14.586 x 17567 / 9 1951.889 y 505 / 9 56.111 SSX 34290747 175672 / 9 1914.8889 SSY 30251 5052 / 9 1914.8889 s2X 1914.8889 / 9 212.7654 s2Y 1914.8889 / 9 212.7654 sX 212.7654 14.586 s Y 212.7654 14.586 Vorlesung Statistik I Standardisierung Standardisierung: Mittelwert ist 0 und Varianz ist 1. Standardisierten Realisierungen bisweilen auch als Z-Werte bezeichnet werden und die standardisierende Transformation als Z-Transformation: x 1 x 1 Xx Z a b X mit a und b : Z X z 0 ; SSZ n ; s 2Z 1 ; s Z 1 sX sX sX sX sX Y X 56.111 Alter (X) Alter2 (X2) 65 4225 48 2304 51 2601 69 4761 missing missing 52 2704 38 1444 88 7744 52 2704 42 1764 Summe 505 30251 Summe 9 56.111 3361.222 x 56.111 ; sX 14.586 Vorlesung Statistik I Y X /14.586 Y Y2 Y Y2 8.889 –8.111 –5.111 12.889 missing –4.111 –18.111 31.889 –4.111 –14.111 0.001 79.012 65.790 26.123 166.123 missing 16.901 328.012 1016.901 16.901 199.123 1914.886 4.456 3.291 3.497 4.731 missing 3.565 2.605 6.033 3.565 2.879 34.622 19.859 10.830 12.226 22.378 missing 12.710 6.787 36.399 12.710 8.291 142.190 0.000 212.765 3.847 15.7998 Z X 56.111 /14.586 Z Z2 0.609 0.371 –0.556 0.309 –0.350 0.123 0.884 0.781 missing missing –0.282 0.080 –1.242 1.543 2.186 4.779 –0.282 0.080 –0.967 0.935 0.000 9.001 0.000 1.000 y 0 ; SSY 1914.886 y 3.847 ; SSY 9 x 0 ; SSY 9.00 s Y 14.586 s 2Y 1 ; s Y 1 s 2Y 1 ; s Y 1 Beispielaufgaben zu Lineartransformationen Der Mittelwert einer Verteilung beträgt 45, die Varianz 81. Wie muss die Verteilung transformiert werden, um sie zu standardisieren? Z X x X 45 X 45 1 5 X sX 9 9 81 90% aller Realisierungen einer standardisierten symmetrischen Verteilung liegen zwischen 1.65 und +1.65. Durch eine Lineartransformation der Gleichung Y = 5 + 3X werden alle Realisierungen transformiert. In welchem Intervall liegen 90% aller Realisierungen der transformierten Verteilung? Die beiden Ausgangsquantilwerte müssen transformiert werden: 1.653 + 5 = 0.05; 1.65 3 + 5 = 9.95. Nach der Lineartransformation liegen 90% aller Realisierungen zwischen 0.05 und 9.95. Welchen Wert weist der Mittelwert und die Varianz der transformierten Verteilung auf? Die Ausgangsverteilung ist standardisisert, hat also einen Mittelwert von 0 und eine Varianz und Standardabweichung von 1. Für die transformierte Verteilung folgt dann: y a b x 5 3 0 5 ; s2Y b2 s 2X 32 1 9 Vorlesung Statistik I