Um eine empirische Verteilung eines quantitativen Merkmals zu beschreiben, betrachten wir Parameter, die eine Verdichtung der Information des Datensatzes bzw. der Verteilung ermöglichen. Die wichtigsten Parameter sind die sog. Lageparameter, die das absolute Niveau (die Größenordnung) der Daten beschreiben sowie die Streuungsparameter, die messen, wie stark sich die Beobachtungen um die Mitte konzentrieren Lagemaße © Marcus Hudec Beschreibung quantitativer Daten Minimum, Maximum Minimum Maximum, Quantile zentrale Lage: Arithmetisches Mittel, Median, Modalwert Streuungsmaße Spannweite, Quartilsabstand, Gini-Koeffizient, Varianz, Standardabweichung, Variationskoeffizient Statistik für SoziologInnen 1 5. Maßzahlen der Lage und Streuung © Marcus Hudec Lagemaßzahlen (1) Statistische Maßzahlen, welche die absolute Lage der Verteilung beschreiben Minimum Der kleinste Wert eines quantitativen Merkmals min(x1,…,xn) Maximum Der größte Wert eines quantitativen Merkmals max(x1,…,xn) Statistik für SoziologInnen 2 5. Maßzahlen der Lage und Streuung 1 Arithmetisches Mittel (mean) Mittelwert; Summe der Werte (Merkmalssumme) geteilt durch die Anzahl der Beobachtungen(Fälle) © Marcus Hudec Lagemaßzahlen (2) 1 n x = ∑ xi n i =1 Modalwert Der am häufigsten auftretende Wert Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 3 Median Der Median oder Zentralwert eines (zumindest ordinal-skalierten) Merkmals ist der Wert jener Beobachtung, die in der nach diesem Merkmal geordneten Gesamtheit „in der Mitte“ zu liegen kommt. x(( n+1) / 2 ) ⎧ ~ x0,5 = ⎨1 ⎩2 (x( n / 2 ) + x(( n+2) / 2 ) ) © Marcus Hudec Lagemaßzahlen (3) , n ungerade , n gerade x(i) sind die geordneten Beobachtungen Statistik für SoziologInnen 4 5. Maßzahlen der Lage und Streuung 2 Das arithmetische Mittel reagiert sehr sensibel auf einzelne Extremwerte Der Median erweist sich gegenüber extremen Beobachtungen als relativ robust Richter A B C D E Note 19 18,5 19,5 19 19 Richter A B C D E Note 12 18,5 19,5 19 19 Richter A B C D E Note 12 12 19,5 19 19 17,6 19 Arith. Mittel Median 16,3 19 Arith. Mittel Median 19 19 Arith. Mittel Median Trimmed Mean 19 Trimmed Mean Statistik für SoziologInnen 5 18,83 Trimmed Mean 16,67 5. Maßzahlen der Lage und Streuung Grundgedanke: entferne vor der Mittelung die extremen Beobachtungen, die das Ergebnis stark beeinflussen können Der Datensatz wird um nα Beobachtungen reduziert. Es werden die n(α/2) kleinsten und die n(α/2) größten Beobachtungen von der Mittelwertsbildung ausgeschlossen Allgemeines g Prinzip p umfasst eine Familie von Lagemaßzahlen: Statistik für SoziologInnen © Marcus Hudec α-Trimmed Mean • α=0 • αÎ100% © Marcus Hudec Mittelwert versus Median ergibt das Arithmetischen Mittel ergibt den Median 6 5. Maßzahlen der Lage und Streuung 3 n=40 α-Trimmed Mean mit α=10% Ausgeschlossen werden die vier extremen Beobachtungen: x(1), x(2),x(39), x(40) und Beispiel: © Marcus Hudec Beispiel zu α-Trimmed Mean 1 n −1 xα =0,1 = ∑ x(i ) n i =3 In Excel Funktion: GESTUTZTMITTEL Statistik für SoziologInnen 7 5. Maßzahlen der Lage und Streuung © Marcus Hudec Anwendungsbeispiel für Trimmed Mean EURIBOR: Euro Interbank Offered Rate; wird täglich um 11 Uhr Brüsseler Zeit als ungewichteter Durchschnitt aus Briefsätzen von Interbankeinlagen erstklassiger Institute auf Basis der Transaktionen von 57 Banken, darunter 47 aus dem Euroraum, 4 aus sonstigen EU-Ländern und aus 6 internationalen Banken, berechnet. Dabei werden die jeweils 15% höchsten und tiefsten Werte eliminiert. Statistik für SoziologInnen 8 5. Maßzahlen der Lage und Streuung 4 Quantil Wert einer quantitativen Variablen, welcher die geordneten Daten in Gruppen unterteilt, so dass ein bestimmter Prozentsatz darüber und ein bestimmter Prozentsatz darunter liegt – – © Marcus Hudec Lagemaße (4) ~ x Quartil (0%, 25%, 50%, 75%, 100%) Dezil (0%, 10%, 20%, 30%, ..... 90%,100%) Zwei Konzepte a) Empirisches alpha-Quantil x(k) wobei (k-1) < α*n ≤ k b) Alpha-Quantil: Interpolation (z.B. Excel) Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 9 © Marcus Hudec Beispiel Schüler Wochenzeit für Hausaufgaben in h x (i) Wochenzeit für Hausaufgaben in h xi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Summe = Mittelwert = Minimum = Maximum = Statistik für SoziologInnen 4,25 21,50 13,75 13,75 , 6,75 3,25 21,00 23,50 0,75 13,75 9,25 12,75 15,75 23,25 5,50 , 22,00 10,25 13,50 13,50 21,00 269,00 13,45 0,75 23,50 (1) (2) (3) ((4)) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) ((15)) (16) (17) (18) (19) (20) 0,75 3,25 4,25 5,50 , 6,75 <=== empirisches 1.Quartil 9,25 10,25 12,75 13,50 13,50 13,75 13,75 13,75 15,75 21,00 , <=== empirisches p 3.Quartil Q 21,00 21,50 22,00 23,25 23,50 Median = 1. Quartil = 3.Quartil = 10 13,625 8,625 21 5. Maßzahlen der Lage und Streuung 5 Trimmed Mean Trimmed Mean Trimmed Mean alpha 0% 10% 99% Schüler 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Summe = Mittelwert = Median = 22,90 13,74 13,63 Beim Trimmed Mean (gestutztes Mittel) werden die größten und die kleinsten α/2Prozent abgeschnitten und das Mittel der verbleibenden 1-α Prozent berechnet. Statistik für SoziologInnen 11 Wochenzeit für Hausaufgaben in h xi 4,25 21,50 13,75 13,75 6,75 3,25 210,00 23,50 0,75 13,75 9,25 12,75 15,75 23,25 5,50 22 00 22,00 10,25 13,50 13,50 21,00 458,00 22,90 13,63 5. Maßzahlen der Lage und Streuung 12 Würfen mit dem Würfel wurde folgendes Ergebnis beobachtet: 5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6 Der Durchschnitt (das Arithmetische Mittel) dieser 12 Augenzahlen ist 3,75. Statistik für SoziologInnen 12 © Marcus Hudec Arithmetisches Mittel Bei © Marcus Hudec Eine falsche Beobachtung 5. Maßzahlen der Lage und Streuung 6 Das Ergebnis des Würfelwurfs lässt sich auch in einer Häufigkeitstabelle zusammenfassen: xi ni hi xihi xini 1 2 2/12 2/12 2 2 1 1/12 2/12 2 3 2 2/12 6/12 6 4 2 2/12 8/12 8 5 3 3/12 15/12 15 6 2 2/12 12/12 12 Summe 12 1 45/12 45 45/12 = 3,75 Statistik für SoziologInnen 13 5. Maßzahlen der Lage und Streuung vorigem Beispiel ergeben sich folgende Formeln: k ... Anzahl der verschiedenen Ausprägungen © Marcus Hudec Arithmetisches Mittel bei tabellierten Daten Aus © Marcus Hudec Beispiel Würfelwurf k 1 k x = ∑ ni xi = ∑ hi xi n i =1 i =1 Statistik für SoziologInnen 14 5. Maßzahlen der Lage und Streuung 7 n ∑ ( x − x) = 0 1) © Marcus Hudec 4 Eigenschaften des arithmetischen Mittels i i =1 n ∑ ( x − c) 2) 2 i = min! für c = x i =1 y i = a + bxi 3) ⇒ y = a + bx Linearitä t 4) 2 Tei lg esamtheiten A, B: A x1, x2 ,…, xnA mit x B y1, y 2 ,…, y nB mit y Arithmetische Mittel der Grundgesamtheit A ∪ B: z= nA ⋅ x + nB ⋅ y nA + nB bzw. z = hA ⋅ x + hB ⋅ y falls nA = nB ⇒ z = x + y Statistik für SoziologInnen 15 5. Maßzahlen der Lage und Streuung © Marcus Hudec Beispiele: ad 3) Linearität Das Durchschnittseinkommen in einer bestimmten Gruppe von Arbeitern beträgt 1.000,- € Im Zuge einer Tarifverhandlung wird eine 4% Lohnerhöhung beschlossen. Gleichzeitig wird beschlossen, dass vom neuen Gehalt von jedem Arbeiter 10 € für einen Solidaritätsfond einbehalten werden. Wie hoch ist das neue Durchschnittseinkommen ? X ... Einkommen bisher Y ... Einkommen neu Y=1,04*X-10 Neues Durchschnittseinkommen y = a + bx = −10 + 1,04 ⋅ x = −10 + 1040 = 1030 Statistik für SoziologInnen 16 5. Maßzahlen der Lage und Streuung 8 ad 4) In einem Unternehmen sind 120 Personen beschäftigt. Die Lohnsumme beträgt 240.000 € Das Durchschnittseinkommen der 40 männlichen Angestellten sei 2.400 €. Wie hoch ist das Durchschnittseinkommen der weiblichen Angestellten? Gesamtmittelwert: 2.000€ 2 000€ 2000=(40*2.400+80*X)/120 ÎX=1.800€ Statistik für SoziologInnen 17 5. Maßzahlen der Lage und Streuung Bevölkerungswachstum Beobachtungen x1, x2, ..., xn+1 Wachstumsfaktoren: wi = xi + 1 xi bzw. © Marcus Hudec Geometrisches Mittel Anwendungsbeispiel: © Marcus Hudec Beispiele xi + 1 = xi ⋅ w i Wachstumsraten: ri = xi+1 − xi *100 bzw. ri = (wi −1) *100 xi Durchschnittliches Statistik für SoziologInnen Wachstum ? 18 5. Maßzahlen der Lage und Streuung 9 © Marcus Hudec Geometrisches Mittel x n+1 = x n ⋅ w n = x n−1 ⋅ w n−1 ⋅ w n = … = x1 ⋅ w1 ⋅ w 2 ⋅ … ⋅ w n x n+1 = x1 ⋅ w geom ⋅ w geom ⋅ … ⋅ w geom n w geom = w1 ⋅ w 2 ⋅… ⋅ w n = ∏ w i n i=1 w geom = n n ∏ wi = n i=1 x n+1 x1 n n 1 1 n log(w geom ) = log(n ∏ w i ) = log(∏ w i ) = ∑ log(w i ) n n i=1 i=1 i =1 Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 19 © Marcus Hudec Beispiel zum Geometrischen Mittel Jahr Umsatz in Mio DM 1976 1977 1978 1979 1980 Produkt 4.Wurzel ln Statistik für SoziologInnen 2 2,4 2,9 2,7 3,1 Wachstums- Wachstums- Wachstumsfaktor rate rate in % ln(W.-Faktor) 1,20 1,21 0,93 1,15 1,55 1,116 0,1096 20,0% 20,8% -6,9% 14,8% Arith. Mittel 11,6% exp(A.M.) 20 0,1823 0,1892 -0,0715 0,1382 0,1096 1,116 5. Maßzahlen der Lage und Streuung 10 © Marcus Hudec Harmonisches Mittel x= 1 n 1 1 ∑ n i = 1 xi bzw. 1 n W = ∑ wi n wi 1 ∑ W i = 1 xi i =1 Merkmal sei Quotient: Dimension-A/Dimension-B Anzahl (Gewichte) der Merkmalsträger: – Dimension-B: Mittelung durch arithmetisches Mittel – Dimension-A: Mittelung durch harmonisches Mittel Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 21 © Marcus Hudec Beispiel zum Harmonischen Mittel Geschw. 30 km/h 90 km/h Strecke 60km 60km Ungewichtetes Harmonisches Mittel 1 1 180 = = = 45 1 1 1/ 2 * 4 / 90 4 1/ 2 * ( + ) 30 90 1 1 = = 45 60 60 1/120 * 240 / 90 1/120 * ( + ) 30 90 (nur zulässig, da beide Strecken gleich lang sind) 22 1 n n ∑ i =1 1 xi Gewichtetes Harmonisches Mittel (Gewichte sind Strecken) x = Statistik für SoziologInnen 1 x = 1 1 W n ∑ i =1 wi xi W = n ∑w i =1 i 5. Maßzahlen der Lage und Streuung 11 Berechnung Geschw. 30 km/h 90 km/h Berechnung der Durchschnittsgeschwindigkeit: Dauer 2h 2/3h © Marcus Hudec Beispiel zum Harmonischen Mittel mittels gewogenem arithmetischen Mittels: Gewichte sind Zeitdauern (30*2 +90*2/3)/(2+2/3)=3*120/8=45 x= n 1 n w x W = wi ∑ ii ∑ W i=1 i =1 Statistik für SoziologInnen 23 5. Maßzahlen der Lage und Streuung © Marcus Hudec Periodischer Kauf von Wertpapieren konstantes 100.000 Budget Kurs 1/x 5.000 0,00020 6.000 0,00017 10.000 0,00010 4.000 0,00025 Summe Summe/n 1/x 25.000 6.250 x = 1 1 n n ∑ i=1 1 xi 0,00072 0,00018 5.581 Cost average effect Statistik für SoziologInnen 24 5. Maßzahlen der Lage und Streuung 12 © Marcus Hudec Periodischer Kauf von Wertpapieren Kurs 5.000 6 000 6.000 10.000 4.000 1/x Stück Volumen 0,00020 20 100.000 0 00017 0,00017 16 7 100 16,7 100.000 000 0,00010 10 100.000 0,00025 25 100.000 71,7 400.000 25.000 0,00072 6.250 0,00018 5.581 Statistik für SoziologInnen 25 5.581 5. Maßzahlen der Lage und Streuung © Marcus Hudec Streuungsmaße Statistische Maßzahlen, welche die Variabilität oder die Streubreite in den Daten messen. • Sie Si beschreiben b h ib di die Ab Abweichung i h vom Z Zentrum t einer Häufigkeitsverteilung • Wie eng liegen die Merkmalsausprägungen eines quantitativen Merkmals beieinander? Maßzahlen: • – Differenz von Quantilen – Summe der Abstände aller Merkmalsausprägungen von einem Lagemaß Statistik für SoziologInnen 26 5. Maßzahlen der Lage und Streuung 13 Gruppe A Gruppe B Gruppe A 24 34 34 35 23 32 21 36 30 32 34 38 22 53 54 51 23 57 54 54 Gruppe B 21 35 34 37 35 36 37 34 35 39 57 37 36 38 37 34 38 39 40 42 Durchschnitt Minimum Maximum Spannweite Varianz Std.Abw. VC 18 16 16 14 12 10 9 37,1 21,0 57,0 36,0 144 6 144,6 12,0 32% 37,1 21,0 57,0 36,0 37 0 37,0 6,1 16% 1.Quartil 2.Quartil 3.Quartil Median 28,5 34,0 51,5 34,0 35,0 37,0 38,3 37,0 IQ-Distanz 23,0 3,3 © Marcus Hudec Beispiel: 2 Altersverteilungen mit gleichem Mittel 8 6 6 5 4 2 2 1 1 0 0 0 0 20 bis 29 Statistik für SoziologInnen 30 bis 39 40 bis 49 27 50 bis 59 60 bis 70 5. Maßzahlen der Lage und Streuung Spannweite (range) Differenz zwischen größtem und kleinstem Wert einer numerischen Variablen; Wertebereich, in dem alle Merkmalswerte liegen © Marcus Hudec Streuungsmaße (1) R = x( n ) − x(1) Statistik für SoziologInnen 28 5. Maßzahlen der Lage und Streuung 14 Quartilsabstand (IQ-range) Differenz zwischen drittem und erstem Quartil; Innerhalb des Quartilsabstandes liegen 50% der Werte; unempfindlich gegenüber Extremwerten © Marcus Hudec Streuungsmaße (2) ~ x0, 75 − ~ x0, 25 Statistik für SoziologInnen 29 5. Maßzahlen der Lage und Streuung Mittlere absolute Abweichung vom Median (mean absolute deviation (from the median) - MD) © Marcus Hudec Mittlere Abstände von einem Lagemaß 1 n ∑ xi − x n i =1 Mittlere absolute Abweichung vom arithmetischen Mittel (MAA) (mean absolute deviation (from the mean) - MAD) 1 n MAA = ∑ xi − x n i =1 MD = Median der absoluten Abweichungen vom Median (median absolute deviation - MAD) MAD = median( xi − x ) Statistik für SoziologInnen 30 5. Maßzahlen der Lage und Streuung 15 © Marcus Hudec Abstände von einem Lagemaß Varianz (variance) s2 = 1 n 2 ( xi − x ) ∑ n i =1 Die mittlere quadrierte Abweichung vom arithmetischen Mittel Häufig wird auch statt durch n durch n-1 dividiert (E klä (Erklärung ffolgt l t iim 2 2.Semester) S t ) Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 31 Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Absolute Quadratierte Absolute Quadratierte Abweichung Abweichung Abweichung Abweichung Abweichung Abweichung Gruppe A vom Mittel vom Median vom Mittel Nr. Gruppe B vom Mittel vom Median vom Mittel 24 -13,1 10,0 170,3 1 21 -16,1 16,0 257,6 34 -3,1 0,0 9,3 2 35 -2,1 2,0 4,2 34 -3,1 0,0 9,3 3 34 -3,1 3,0 9,3 35 -2,1 1,0 4,2 4 37 0,0 0,0 0,0 23 -14,1 11,0 197,4 5 35 -2,1 2,0 4,2 32 -5,1 2,0 25,5 6 36 -1,1 1,0 1,1 21 -16,1 13,0 257,6 7 37 0,0 0,0 0,0 36 -1,1 2,0 1,1 8 34 -3,1 3,0 9,3 30 -7,1 4,0 49,7 9 35 -2,1 2,0 4,2 32 -5,1 2,0 25,5 10 39 2,0 2,0 3,8 34 -3,1 0,0 9,3 11 57 20,0 20,0 398,0 38 1,0 4,0 0,9 12 37 0,0 0,0 0,0 22 -15,1 12,0 226,5 13 36 -1,1 1,0 1,1 53 16,0 19,0 254,4 14 38 1,0 1,0 0,9 54 17,0 20,0 287,3 15 37 0,0 0,0 0,0 51 14 0 14,0 17 0 17,0 194 6 194,6 16 34 -3 1 -3,1 30 3,0 93 9,3 23 -14,1 11,0 197,4 17 38 1,0 1,0 0,9 57 20,0 23,0 398,0 18 39 2,0 2,0 3,8 54 17,0 20,0 287,3 19 40 3,0 3,0 8,7 54 17,0 20,0 287,3 20 42 5,0 5,0 24,5 Summe: Statistik für SoziologInnen 0,0 191,0 2893,0 9,55 144,6 3,35 37,0 MD Varianz MD Varianz 32 Summe: 0,0 67,0 © Marcus Hudec Berechnung von Streuungsmaßen 741,0 5. Maßzahlen der Lage und Streuung 16 Standardabweichung s = s2 = 1 n ( xi − x ) 2 ∑ n i= 1 Variationskoeffizient v= s x Statistik für SoziologInnen bzw. v= – (standard deviation) (coefficient of variance) s ⋅ 100 x 33 5. Maßzahlen der Lage und Streuung Eine Standardabweichung von 300,- € beim monatlichen Einkommen ist in einer Gesellschaftsschicht mit einem Durchschnittseinkommen von 1.500,- € von wesentlich größerer Bedeutung als in einer Gruppe von Einkommensbeziehern, die im Monatsdurchschnitt 2.400,- € verdienen. In der ersten Gruppe ist der Variationskoeffizient 20%, während er in der zweiten Gruppe nur 12,5% beträgt, obwohl die Standardabweichung in beiden Gruppen gleich groß ist. 34 © Marcus Hudec Bedeutung des Variationskoeffizienten Statistik für SoziologInnen © Marcus Hudec Abgeleitete Streuungsparameter 5. Maßzahlen der Lage und Streuung 17 Die Volatilität gilt als Einschätzung des künftigen Risikos einer Aktie. Als Maß für die Volatilität verwendet man häufig den Variationskoeffizienten B i i l Im Beispiel: I Durchschnitt D h h i üb über 2 250 0H Handelstage d l b betrug d der mittlere Kurs einer Aktie A 50,59 € bei einer Standardabweichung von 36,18€. Über den selben Vergleichszeitraum betrug der mittlere Kurs einer Aktie B 396,10 € bei einer Standardabweichung von 182,96 €. Obwohl die Standardabweichung der Aktie A deutlich geringer i iist, t muss ein i IInvestor t hier hi mitit einem i größeren öß Risiko rechnen als bei der Aktie B, dies wird durch den Variationskoeffizienten quantifiziert: VKA=36,18/50,59*100=72% VKB=182,96/396,10*100=46% Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 35 xi 1 2 3 4 5 6 7 8 9 10 Summe xi-xq 0,30 0,21 0,19 0,27 0 32 0,32 0,30 0,26 0,22 0,31 0,20 2,58 abs(xi-xq) 0,04 -0,05 -0,07 0,01 0 06 0,06 0,04 0,00 -0,04 0,05 -0,06 0,00 0,042 0,048 0,068 0,012 0 062 0,062 0,042 0,002 0,038 0,052 0,058 0,424 Arithmetisches Mittel (xq) Median (med): 0,258 0,265 MD: MAA: MAD: 0,0420 0,0424 0,0450 Varianz: Standardabweichung: Variationskoeffizient: 0,002196 0,046861 18,2% Statistik für SoziologInnen 36 abs(xi-med) 0,035 0,055 0,075 0,005 0 055 0,055 0,035 0,005 0,045 0,045 0,065 0,420 (xi-xq)² © Marcus Hudec Rechenbeispiel: Reaktionszeiten i © Marcus Hudec Volatilität 0,00176 0,00230 0,00462 0,00014 0 00384 0,00384 0,00176 0,00000 0,00144 0,00270 0,00336 0,02196 Mittlere absolute Abweichung vom Median Mittlere absolute Abweichung vom arithmetischen Mittel Median der absoluten Abweichungen vom Median 5. Maßzahlen der Lage und Streuung 18 Die Angabe der Standardabweichung erfolgt oft in der Form © Marcus Hudec Interpretation x ±σ Im Beispiel: 0,258±0,047 Unter der Annahme einer „Normalverteilung“ (Form der Häufigkeitsdichte entspricht einer Glockenkurve) [Details im SS] liegen ca ca. 95% der Datenpunkte in einem Bereich von x ± 2σ Statistik für SoziologInnen 37 (1) (2) (3) s2 = © Marcus Hudec Alternative Berechnungsformeln 5. Maßzahlen der Lage und Streuung 1 n ⎛1 n ⎞ 2 ( xi − x ) = ⎜ ∑ xi 2 ⎟ − x 2 ∑ n i =1 ⎝ n i =1 ⎠ 2 ⎛ ⎛ n ⎞ ⎞ ⎜ ⎜ xi ⎟ ⎟ ⎠ ⎟ 1⎜ n 2 ⎝∑ 2 s = ∑ xi − i = 1 n ⎜ i =1 n ⎟ ⎜ ⎟ ⎝ ⎠ s2 = Statistik für SoziologInnen 1⎛ n 2 2⎞ ⎜ ∑ xi − nx ⎟ ⎠ ⎝ n i =1 38 5. Maßzahlen der Lage und Streuung 19 © Marcus Hudec Alternative Berechnungsformeln im Beispiel xi² xi i 1 2 3 4 5 6 7 8 9 10 Summe 0,30 0,21 0,19 0 27 0,27 0,32 0,30 0,26 0,22 0,31 0,20 2,58 0,09 0,04 0,04 0 07 0,07 0,10 0,09 0,07 0,05 0,10 0,04 0,69 s2 = 1 n 1 n 2 ( xi − x ) = ∑ xi 2 − x 2 ∑ n i =1 n i =1 =(1/10)*0 (1/10) 0,69 69-0 0,258 258² 0,002196 2 ⎛ ⎛ n ⎞ ⎞ ⎜ n ⎜ ∑ xi ⎟ ⎟ ⎝ ⎠ 1 2 ⎟ s 2 = ⎜ ∑ xi − i = 1 ⎟ n ⎜ i=1 n ⎟ ⎜ ⎠ ⎝ =(1/10)*(0,69-2,58²/10) Arithmetisches Mittel (xq) 0 002196 0,002196 0 258 0,258 s2 = 1⎛ n 2 2⎞ ⎜ ∑ xi − nx ⎟ ⎠ n ⎝ i =1 =(1/10)*(0,69-10*0,258²) 0,002196 Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 39 © Marcus Hudec Eigenschaften der Varianz "Steiner´scher n ∑ (x i =1 − a) = ∑ ( x i − x) + n( x − a) 2 i n Verschiebungssatz" 2 2 i =1 Auswirkung linearer Transformationen y = a + bx ⇒ s 2 ( y ) = b 2 s 2 ( x ) Verschiebungs-Invarianz Statistik für SoziologInnen 40 5. Maßzahlen der Lage und Streuung 20 © Marcus Hudec Varianzermittlung aus Teilpopulationen 2 Tei lg esamtheiten A, B: A x1, x2 ,…, xnA mit x y1, y 2 ,…, y nB mit y nA s A + nB sB nA ( xA − x) + nB ( xB − x) + nA + nB nA + nB 2 s2 = B pA = 2 2 nA nA + nB pB = 2 nB nA + nB s 2 = p A ⋅ s A + pB ⋅ sB + p A ( xA − x) + pB ( xB − x ) 2 2 2 2 Gesamte Varianz ist das gewichtete Mittel der Teilvarianzen plus dem gewichteten Mittel der quadratischen Abweichungen der Gruppenmittel vom Gesamtmittel (Vtot=Vwithin+Vbetween) Statistik für SoziologInnen 41 5. Maßzahlen der Lage und Streuung Es liegen Daten aus 2 Betrieben A und B vor: 400 Angestellte aus Betrieb A verdienen monatlich im Mittel 1.920,84 € 300 Angestellte aus Betrieb B verdienen monatlich im Mittel 2.012,17 € Dann beträgt der Gesamtmittelwert nach dem Prinzip des gewogenen arithmetischen Mittels: 1 959 98 € 1.959,98 μ= Statistik für SoziologInnen © Marcus Hudec Beispiel: Ermittlung des Mittelwertes aus 2 Teilgesamtheiten 400 ⋅1920,84 + 300 ⋅ 2012,17 400 + 300 42 5. Maßzahlen der Lage und Streuung 21 Das Einkommen der 400 Angestellten aus Betrieb A hat eine Standardabweichung von 220,32 € Das Einkommen der 300 Angestellten aus Betrieb B hat eine Standardabweichung von 411,98 € Dann beträgt die Standardabweichung der Angestellten beider Betriebe zusammen: 320,19 € © Marcus Hudec Beispiel: Ermittlung der Varianz aus 2 Teilgesamtheiten 400 ⋅ 220,32² + 300 ⋅ 411,98² + 400 + 300 400 ⋅ (1920,84 − 1959,98)² + 300 ⋅ (2012,17 − 1959,98)² + = 400 + 300 = 102520, 76 s² = s = 102520, 76 = 320,19 Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 43 Gegeben seien Beobachtungen x1, ..., xn mit Mittel x und Varianz s2 Gesucht ist eine lineare Transformation z=a+bx, so dass für die transformierten Daten das arithmetische Mittel 0 und die Varianz 1 wird. zi = xi − x x 1 = − + xi sx sx sx a z=− © Marcus Hudec Standardisierung x 1 + x=0 sx sx b s2z = 1 2 2 sx = 1 sx Unterscheide: xi-x(1)/(x(n)-x(1)) bildet xi in [0,1] ab Statistik für SoziologInnen 44 5. Maßzahlen der Lage und Streuung 22 i 1 2 3 4 5 6 7 8 9 10 Summe xi 0,30 0,21 0,19 0,27 0,32 0,30 0,26 0,22 0,31 0,20 2 58 2,58 Arithmetisches Mittel (xq): Standardabweichung (x): Statistik für SoziologInnen xi-xq zi=(xi-xq)/s 0,04 -0,05 -0,07 0,07 0,01 0,06 0,04 0,00 -0,04 0,05 -0,06 0 00 0,00 0,258 0,046861 0,8963 -1,0243 -1,4511 1,4511 0,2561 1,3230 0,8963 0,0427 -0,8109 1,1097 -1,2377 0 00 0,00 zi² © Marcus Hudec Beispiel zur Standardisierung 0,803278689 1,049180328 2,10564663 0,06557377 1,750455373 0,803278689 0,001821494 0,657559199 1,23132969 1,531876138 10 00 10,00 Varianz(z): 1 Standardabweichung (z): 1 45 5. Maßzahlen der Lage und Streuung Treten nur k unterschiedliche Werte x1, ..., xk mit zugehörigen absoluten Häufigkeiten n1, ..., nk bzw. bzw relativen Häufigkeiten h1, ..., hk auf, so ergibt sich die Varianz als: © Marcus Hudec Berechnung bei diskreten Daten k 1 k 2 s = ∑( xi − x ) ni = ∑( xi − x )2 hi n i=1 i =1 2 ⎛1 k ⎛ k ⎞ 2⎞ s² = ⎜ ∑ni ⋅ xi ⎟ − x ² = ⎜ ∑hi ⋅ xi2 ⎟ − x ² ⎝ n i=1 ⎠ ⎝ i=1 ⎠ Statistik für SoziologInnen 46 5. Maßzahlen der Lage und Streuung 23 © Marcus Hudec Berechnung Varianz – diskrete Daten Bei 12 Würfen mit dem Würfel wurde folgendes Ergebnis beobachtet: 5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6 Die Summe der 12 Augenzahlen ist 45. Der Durchschnitt (das Arithmetische Mittel) dieser 12 Augenzahlen ist 3,75. Die Summe der quadrierten Augenzahlen beträgt 25+15+…+9+36=203 Demnach ist die Varianz: 1⎛ n 2 ⎞ s = ⎜ ∑xi − nx 2 ⎟ n ⎝ i=1 ⎠ 2 s2 =1/12(203−12*3,75²) = 2,85 Statistik für SoziologInnen 5. Maßzahlen der Lage und Streuung 47 xi 1 2 3 4 5 6 ni hi 2 1 2 2 3 2 12 xihi 0,17 0,08 0,17 0,17 0,25 0,17 1,00 0,17 0,17 0,50 0,67 1,25 1,00 3,75 Arithmetisches Mittel Alternativ: xini xi²ni 2 2 6 8 15 12 45 2 4 18 32 75 72 203 3,75 xi-xq -2,75 -1,75 -0,75 0,25 1,25 2,25 (xi-xq)² 7,56 3,06 0,56 0,06 1,56 5,06 Varianz (xi-xq²)hi 1,26 0,26 0,09 0,01 0,39 0,84 2,85 (xi-xq²)ni © Marcus Hudec Berechnung mittels Häufigkeiten 15,13 3,06 1,13 0,13 4,69 10,13 34,25 2,85 203/12-3,75²=2,85 ⎛1 k ⎞ s ² = ⎜ ∑ ni ⋅ xi2 ⎟ − x ² ⎝ n i =1 ⎠ Statistik für SoziologInnen 48 5. Maßzahlen der Lage und Streuung 24 Sind die Daten in k Klassen eingeteilt, kann man die Varianz nur näherungsweise berechnen, indem man mit den Klassenmittelwerten m1, ..., mk arbeitet. 1 s = n b zw . 2 k ∑ (m i =1 ⎛1 s =⎜ ⎝n 2 Statistik für SoziologInnen k ∑ i =1 − x ) ni = 2 i k ∑ (m i =1 i − x ) 2 hi ⎞ ⎛ k 2 m n i ⎟ − x = ⎜ ∑ m i2 hi ⎠ ⎝ i =1 2 i ⎞ 2 ⎟− x ⎠ 5. Maßzahlen der Lage und Streuung 49 Bis Anzahl 2 12 4 32 8 32 12 16 20 8 100 mi 1 3 6 10 16 Varianz Standardabweichung Variationskoeffizient 16,4 4,05 0,69 Statistik für SoziologInnen 50 © Marcus Hudec Rechenbeispiel:Varianz bei klassifizierten Daten Von 0 2 4 8 12 SUMME © Marcus Hudec Berechnung bei klassifizierten Daten hi m i *hi m i ²*hi 0,12 0,12 0,12 0 32 0,96 0,32 0 96 2,88 2 88 0,32 1,92 11,52 0,16 1,6 16 0,08 1,28 20,48 1 5,88 51 =(51-5,88²) 5. Maßzahlen der Lage und Streuung 25 Klasse bis 150 (150 - 155] (155 - 160] (160 - 165] (165 - 170] (170 - 175] (175 - 180] (180 - 185] (185 - 190] (190 - 195] (195 - 200] ni 0 3 4 10 16 23 20 11 10 1 2 100 Mittelwert= Varianz= hi 0,00 0,03 0,04 0,10 0,16 0,23 0,20 0,11 0,10 0,01 0,02 1 mi mihi mi²hi 152,5 157,5 162,5 167,5 172,5 177,5 182,5 187,5 192,5 197,5 4,58 6,30 16,25 26,80 39,68 35,50 20,08 18,75 1,93 3,95 173,80 697,69 992,25 2640,63 4489,00 6843,94 6301,25 3663,69 3515,63 370,56 780,13 30294,75 © Marcus Hudec Beispiel Körpergröße von 100 Studenten 173,80 30.294,75-173,8²=88,31 Exakte Berechnungen auf Basis der Urliste n= Summe x = Summe x² = Arithmetisches Mittel = Varianz= Standardabweichung= 100 17.440 3.049.914 174,4 83,78 9,15 Statistik für SoziologInnen 51 5. Maßzahlen der Lage und Streuung Es lässt sich theoretisch zeigen, dass bei einer unimodalen Verteilung die auf der Basis der klassifizierten Daten berechnete Varianz größer ist als die aus den Originaldaten. Originaldaten Bei einer Klasseneinteilung mit konstanter Breite Δ kann der Fehler mit der sog. Sheppard-Korrektur annähernd ausgeglichen werden: σ ² korr . Δ2 =σ²− 12 σ ² korr . = 88,31 − Statistik für SoziologInnen © Marcus Hudec Sheppard-Korrektur 25 = 86, 23 12 52 5. Maßzahlen der Lage und Streuung 26