Datenanalyse und Statistik 3. Deskriptive Maßzahlen Marcus Hudec Beschreibung quantitativer Daten Um die empirische Verteilung eines quantitativen Merkmals zu beschreiben, betrachten wir Parameter, die eine Verdichtung der Information des Datensatzes bzw. seiner Verteilung ermöglichen. Die wichtigsten Parameter sind die sog. Lageparameter, die das absolute Niveau (die Größenordnung) der Daten beschreiben sowie die Streuungsparameter, die messen, wie sehr die einzelnen Beobachtungen um das Zentrum konzentrieren Lagemaße Allgemeine Lagemaße: Minimum, Maximum, Quantile Zentrale Lagemaße: Arithmetisches Mittel, Median, (Modalwert) Streuungsmaße Spannweite, Quartilsabstand, Gini-Koeffizient Varianz, Standardabweichung,Variationskoeffizient 2 Einführende Statistik - Deskriptive Maßzahlen Lagemaßzahlen (1) Statistische Maßzahlen, welche die absolute Lage der Verteilung beschreiben Minimum Der kleinste Wert eines quantitativen Merkmals min(x1,…,xn) Maximum Der größte Wert eines quantitativen Merkmals max(x1,…,xn) Quantile Wert einer quantitativen Variablen, welcher die geordneten Daten in Gruppen unterteilt, so dass ein bestimmter Prozentsatz darüber und ein bestimmter Prozentsatz darunter liegt (siehe Kapitel 2) 3 Einführende Statistik - Deskriptive Maßzahlen Zentrale Lagemaßzahlen (1) Arithmetisches Mittel (mean) Mittelwert; Summe der Werte aller Beobachtungen (Merkmalssumme) geteilt durch die Anzahl der Beobachtungen(Fälle) n 1 x = ∑ xi n i =1 Modalwert Der am häufigsten auftretende Wert. Nur relevant bei uni-modalen Verteilungen bzw. bei diskreten Daten 4 Einführende Statistik - Deskriptive Maßzahlen Zentrale Lagemaßzahlen (2) Median Der Median oder Zentralwert eines (zumindest ordinalskalierten) Merkmals ist der Wert jener Beobachtung, die in der nach diesem Merkmal geordneten Gesamtheit „in der Mitte“ zu liegen kommt. x (( n+1) / 2 ) ~x = 0,5 1 ( ) x + x ( ) ( ( ) ) n / 2 n + 2 / 2 2 , n ungerade , n gerade x(i) sind die geordneten Beobachtungen 5 Einführende Statistik - Deskriptive Maßzahlen Mittelwert oder Median? Das arithmetische Mittel reagiert sehr sensibel auf einzelne Extremwerte Der Median erweist sich gegenüber extremen Beobachtungen als relativ robust Eine statistische Methode ist robust, wenn sie auch bei Vorliegen fehlerbehafteter Daten vernünftige Ergebnisse liefert Robustheit muss man in der Regel durch Einbußen bei der Präzision erkaufen 6 Einführende Statistik - Deskriptive Maßzahlen Beispiel n=5 Beobachtungen 7, 5, 4, 8, 6 Summe = 30 arith. Mittel = 6 Geordneten Beobachtungen: 4, 5, 6, 7, 8 Median=6 7 n=5 Beobachtungen 7, 5, 4, 80, 6 Summe = 102 arith. Mittel = 20,4 Geordneten Beobachtungen: 4, 5, 6, 7, 80 Median=6 Einführende Statistik - Deskriptive Maßzahlen Beispiel mit R: Bundesliga 2014 8 Einführende Statistik - Deskriptive Maßzahlen Visualisierung der Situation 0.06 0.07 Verteilung erzielte Tore Ein Verein (RB Salzburg) mit einer großen Anzahl geschossener Tore zieht das arithmetisches Mittel deutlich nach oben, während der Median deutlich geringer ist. 0.00 0.01 0.02 0.03 Density 0.04 0.05 Median = 42 Mean = 47.5 40 60 80 100 Erzielte Tore 9 Einführende Statistik - Deskriptive Maßzahlen Visualisierung ohne RB Salzburg Durch die Elimination der extrem großen Anzahl geschossener Tore von RB Salzburg wird das Bild der Verteilung deutlich symmetrischer und das arithmetische Mittel und der Median divergieren nur mehr geringfügig. 10 Einführende Statistik - Deskriptive Maßzahlen Using R 11 Einführende Statistik - Deskriptive Maßzahlen Mittelwert versus Median Das arithmetische Mittel reagiert sehr sensibel auf einzelne Extremwerte Der Median erweist sich gegenüber extremen Beobachtungen als relativ robust Richter A B C D E Note 19 18,5 19,5 19 19 Richter A B C D E Note 12 18,5 19,5 19 19 Richter A B C D E Note 12 12 19,5 19 19 17,6 19 Arith. Mittel Median 16,3 19 Arith. Mittel Median 19 19 Arith. Mittel Median Trimmed Mean 19 Trimmed Mean 18,83 Trimmed Mean 16,67 Der kleinste und größte Wert wird von der Mittelung ausgeschlossen! (Trimmed Mean α=0,2) 12 Einführende Statistik - Deskriptive Maßzahlen α-Trimmed Mean Grundgedanke: entferne vor der Mittelung die extremen Beobachtungen, die das Ergebnis stark beeinflussen können Der Datensatz wird um 2*n*α Beobachtungen reduziert. Es werden also die n*α kleinsten und die n*α größten Beobachtungen von der Mittelwertsbildung ausgeschlossen n=20 und α=0,2 8 Beobachtungen werden eliminiert (die 4 größten und die 4 kleinsten) 13 Einführende Statistik - Deskriptive Maßzahlen Beispiel zu α-Trimmed Mean Beispiel: n=40 α-Trimmed Mean mit α=5% Ausgeschlossen werden in dem Beispiel die vier extremen Beobachtungen: x(1), x(2),x(39), x(40) und xα =0,05 1 n−2 = x(i ) ∑ n − 4 i =3 In Excel Funktion: GESTUTZTMITTEL Allgemeines Prinzip umfasst eine Familie von Lagemaßzahlen: • • 14 α=0 α50% ergibt das Arithmetischen Mittel ergibt den Median Einführende Statistik - Deskriptive Maßzahlen Simulation zum Effekt von Datenfehlern 15 Einführende Statistik - Deskriptive Maßzahlen Szenario 16 Einführende Statistik - Deskriptive Maßzahlen Effekt des Trimmens 17 Einführende Statistik - Deskriptive Maßzahlen Hinweis zur Definition: α-Trimmed Mean In manchen Büchern wird das α-Trimmed Mean in Bezug auf die Bedeutung des Parameters α anders definiert. Es wird dann der Datensatz um n*α Beobachtungen reduziert, wobei die n*α/2 kleinsten und die n*α/2 größten Beobachtungen von der Mittelung ausgeschlossen werden. Unsere Definition ist an die Logik des trim-Parameters der R-Funktion mean angelehnt. Die Excel-Funktion GESTUTZTMITTEL verwendet die alternative oben beschriebene Parametrisierung 18 Einführende Statistik - Deskriptive Maßzahlen Anwendungsbeispiel für Trimmed Mean EURIBOR: Euro Interbank Offered Rate; wird täglich um 11 Uhr Brüsseler Zeit als ungewichteter Durchschnitt aus Briefsätzen von Interbankeinlagen erstklassiger Institute auf Basis der Meldungen von rund 50 Banken berechnet. Dabei werden die jeweils 15% höchsten und tiefsten Werte eliminiert. Es handelt sich also in unserer Diktion um ein 15%-Trimmed Mean 19 Einführende Statistik - Deskriptive Maßzahlen Lagemaße Quantil Wert einer quantitativen Variablen, welcher die geordneten Daten in Gruppen unterteilt, so dass ein bestimmter Prozentsatz darüber und ein bestimmter Prozentsatz darunter liegt ~ x Quartil (0%, 25%, 50%, 75%, 100%) Dezil (0%, 10%, 20%, 30%, ..... 90%,100%) Zwei Konzepte (siehe Kapitel 2) a) Empirisches Quantil zum Niveau α: x(k) wobei (k-1) < α*n ≤ k b) Alpha-Quantil: Interpolation 20 Einführende Statistik - Deskriptive Maßzahlen Nile Dataset Measurements of the annual flow of the river Nile at Aswan (formerly Assuan), 1871–1970, in 10^8 m^3 21 Einführende Statistik - Deskriptive Maßzahlen Deskriptive Statistiken 22 Einführende Statistik - Deskriptive Maßzahlen 4 Eigenschaften des arithmetischen Mittels n 1) 0 ∑ (x i − x) = i =1 n 2) Summe der Abweichungen ist gleich Null! min! = für c x ∑ ( x= i − c) 2 i =1 3) yi = a + bx i ⇒ y = a + bx 4) 2 Tei lg esamtheiten A, B : A x1 , x 2 , , x n A mit x B Prinzip der Kleinsten Quadrate Linearität y1 , y 2 , , y n B mit y Arithmetische Mittel der Grundgesamtheit A ∪ B : nA ⋅ x + nB ⋅ y z= nA + nB bzw. z = hA ⋅ x + hB ⋅ y falls n A = n B ⇒ z = (x + y) / 2 23 Einführende Statistik - Deskriptive Maßzahlen Beispiele: ad 3) Linearität Das Durchschnittseinkommen in einer bestimmten Gruppe von Arbeitern beträgt 1.000,- € Im Zuge einer Tarifverhandlung wird eine 4% Lohnerhöhung beschlossen. Gleichzeitig wird beschlossen, dass vom neuen Gehalt von jedem Arbeiter 10 € für einen Solidaritätsfond einbehalten werden. Wie hoch ist das neue Durchschnittseinkommen ? X ... Einkommen bisher Y ... Einkommen neu Y=1,04*X-10 Neues Durchschnittseinkommen y = a + bx = −10 + 1,04 ⋅ x = −10 + 1040 = 1030 24 Einführende Statistik - Deskriptive Maßzahlen Beispiele ad 4) In einem Unternehmen sind 120 Personen beschäftigt. Die Lohnsumme beträgt 240.000 € Das Durchschnittseinkommen der 40 männlichen Angestellten sei 2.400 €. Wie hoch ist das Durchschnittseinkommen der weiblichen Angestellten? Gesamtmittelwert: 2.000€ 2000=(40*2.400+80*X)/120 X=1.800€ 25 Einführende Statistik - Deskriptive Maßzahlen Gewogenes Arithmetisches Mittel Die Merkmalsausprägungen werden bei der Summation gewichtet. Die gewichtete Summe wird dann nicht durch die Anzahl der Beobachtungen sondern durch die Summe der Gewichte dividiert: 1 x= W n ∑w x i =1 i i Falls alle wi=1 sind, ergibt sich das ungewichtete arithmetische Mittel. Falls die Summe der Gewichte gleich 1 ist, reduziert sich die obige Gleichung auf die Summenbildung (z.B. relative Häufigkeiten) 26 Einführende Statistik - Deskriptive Maßzahlen Arithmetisches Mittel bei diskreten Daten Aus vorigem Beispiel ergeben sich folgende Formeln: k ... Anzahl der verschiedenen Ausprägungen ni … absolute Häufigkeit des Vorkommens von xi hi … relative Häufigkeit des Vorkommens von xi k 1 k x = ∑ ni xi = ∑ hi xi n i =1 i =1 27 Einführende Statistik - Deskriptive Maßzahlen Arithmetisches Mittel Bei 12 Würfen mit dem Würfel wurde folgendes Ergebnis beobachtet: 5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6 Der Durchschnitt (das Arithmetische Mittel) dieser 12 Augenzahlen ist 3,75. 28 Einführende Statistik - Deskriptive Maßzahlen Beispiel Würfelwurf Das Ergebnis des Würfelwurfs lässt sich ohne Informationsverlust auch in einer Häufigkeitstabelle kompakt zusammenfassen: xi ni hi xihi xini 1 2 2/12 2/12 2 k k 1 2 1 1/12 2/12 2 x= ni xi = hi xi 3 2 2/12 6/12 6 n i =1 i =1 4 2 2/12 8/12 8 5 3 3/12 15/12 15 6 2 2/12 12/12 12 Summe 12 1 45/12 45 45/12 = 3,75 ∑ 29 ∑ Einführende Statistik - Deskriptive Maßzahlen Arithmetisches Mittel bei klassierten Daten Sind die einzelnen Merkmalswerte nicht mehr bekannt, so kann man das arithmetische Mittel nur mehr näherungsweise berechnen, indem man als Approximation die Klassenmitten mi verwendet k ... Anzahl der Klassen k k 1 x = ∑ nimi = ∑ himi n i=1 i =1 30 Einführende Statistik - Deskriptive Maßzahlen Arithmetisches Mittel bei klassierten Daten Bildet man die Summe der 100 Einzelbeobachtungen so ergibt sich 17440 und somit für das arithmetische Mittel 174,4 cm. Liegt nur noch die Tabelle mit n m *n m Klasse Häufigkeiten auf der Basis (150 - 155] 153 3 459 (155 - 160] 158 4 632 der Klasseneinteilung vor so (160 - 165] 163 10 1630 (165 - 170] 168 16 2688 verwendet man die Klassen(170 - 175] 173 23 3979 (175 - 180] 178 20 3560 mitten (siehe Rechnung). (180 - 185] 183 11 2013 (185 - 190] 188 10 1880 Es ergibt sich eine (190 - 195] 193 1 193 (195 - 200] 198 2 396 kleine Abweichung: 1755 100 17430 174,3 cm 174,3 i i i i Beachte Wahl der Klassenmitte, aufgrund der Tatsache, dass alle Messungen auf Basis cm vorliegen! 31 Einführende Statistik - Deskriptive Maßzahlen Handling von Missing Values in R 32 Einführende Statistik - Deskriptive Maßzahlen 33 Einführende Statistik - Deskriptive Maßzahlen Exkurs über Mittelwerte TESTAUFGABE Startkapital 100.000 Verzinsung in 3 Jahren: +24%, +40%, -40% Was ist die durchschnittliche jährliche Verzinsung? 34 Einführende Statistik - Deskriptive Maßzahlen Geometrisches Mittel Anwendungsbeispiele: Wachstumsprozesse Beobachtungen x1, x2, ..., xn+1 Wachstumsfaktoren: Wachstumsraten: xi + 1 wi = bzw. xi +1 = xi ⋅ w i xi Verhältnis von zwei aufeinanderfolgenden Beobachtungen x i +1 − x i ri = bzw. xi ri = w i − 1 bzw. wi = ri + 1 Relative Änderung von zwei aufeinanderfolgenden Beobachtungen 35 Einführende Statistik - Deskriptive Maßzahlen Mittleres Wachstum Der Wert in der nächsten Periode ergibt sich durch den aktuellen Wert multipliziert mit dem Wachstumsfaktor x n += xn ⋅ wn 1 Wendet man diese Überlegung wiederholt an, so ergibt sich für das Wachstum von x1 bis xn+1 x n +1 =x n ⋅ w n =x n −1 ⋅ w n −1 ⋅ w n = =x1 ⋅ w1 ⋅ w 2 ⋅ ⋅ w n Das durchschnittliche Wachstum ist durch jenen konstanten Wachstumsfaktor charakterisiert, der ausgehend von x1 zum selben Endwert xn+1 führt 36 Einführende Statistik - Deskriptive Maßzahlen Geometrisches Mittel Beispiel zum geometrischen Mittel Startkapital 100.000,00 Verzinsung in 3 Jahren: +25%, +40%, -40% Was ist die durchschnittliche Verzinsung? x n +1 =x n ⋅ w n =x n −1 ⋅ w n −1 ⋅ w n = ... = x1 ⋅ w1 ⋅ w 2 ⋅ ⋅ w n x n +1 =⋅ x1 w geom ⋅ w geom ⋅ ⋅ w geom w geom = w1 ⋅ w 2 ⋅ ⋅ w n = n n w geom = n ∏ w i Xt … Bestandsgröße zum Zeitpunkt t Wt … Wachstumsfaktor von t auf t+1 n ∏w i =1 i Forderung an den Mittelwert n-te Wurzel aus dem Produkt der n Wachstumsfaktoren i =1 37 Einführende Statistik - Deskriptive Maßzahlen Korrekte Mittelung Beispiel zum geometrischen Mittel Startkapital 100.000 Verzinsung in 3 Jahren: +24%, +40%, -40% Was ist die durchschnittliche jährliche Verzinsung? Rendite Wachstumsfaktor (Wachstumsrate) 1,24 124.000,00 101.367,87 40,00% 1,40 173.600,00 102.754,45 -40,00% 0,60 104.160,00 104.160,00 8,00% 1,013679 RICHTIG 1,37% 38 Probe 24,00% FALSCH 3 Endkapital 1,0137 3 1.24 × 1.4 × 0.6 = 1.464 = 1.0137 Einführende Statistik - Deskriptive Maßzahlen Wachstumsprozess über mehrere Perioden Bestimmung des Durchschnitts auf der Basis von Anfangsund Endwertes x n +1 = x1 ⋅ w1 ⋅ w 2 ⋅ ⋅ w n n x n +1 wi = ∏ x1 i =1 = w geom 39 n = ∏ wi n i =1 n x n +1 x1 Einführende Statistik - Deskriptive Maßzahlen Logarithmieren Durch Logarithmieren können Wachstumsprozesse linearisiert werden. Anwendung des arithmetischen Mittels auf der logarithmischen Skala und danach Rücktransformation w geom = n n ∏w i =1 i n n 1 1 n n = log(w geom ) log( = wi ) = log(∏ w i ) log(w i ) ∑ ∏ n n i =1 =i 1 = i 1 w geom 40 1 n = exp ∑ log(w i ) n i =1 Einführende Statistik - Deskriptive Maßzahlen Siehe Beispiel „Populationsdynamik“ mit Excel Anfangspopulation: 10.000 Wachstums- WachstumsReale rate faktor Entwicklung 10.000 0,05 1,05 10.500 0,05 1,05 11.025 0,05 1,05 11.576 0,05 1,05 12.155 0,05 1,05 12.763 0,05 1,05 13.401 0,05 1,05 14.071 0,05 1,05 14.775 0,05 1,05 15.513 0,05 1,05 16.289 0,10 1,10 17.918 0,10 1,10 19.710 0,10 1,10 21.681 0,10 1,10 23.849 0,10 1,10 26.234 0,10 1,10 28.857 0,10 1,10 31.743 0,10 1,10 34.917 0,10 1,10 38.408 0,10 1,10 42.249 Jahr 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Durchschnittliches Wachstum 1,0747093 1,0747093 Fiktives ln(Reale Wachstum Entwicklung) 10.000 9,2103 9,2591 10.747 9,3079 11.550 9,3567 12.413 9,4055 13.340 9,4543 14.337 9,5031 15.408 9,5519 16.559 9,6007 17.796 9,6495 19.126 9,6982 20.555 9,7936 22.090 9,8889 23.741 9,9842 25.514 10,0795 27.420 10,1748 29.469 10,2701 31.671 10,3654 34.037 10,4607 36.580 10,5560 39.312 10,6513 42.249 7,47% 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,04879 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 0,09531 ln(Fiktives Wachstum) 9,2103 9,2824 9,3544 9,4265 9,4985 9,5706 9,6426 9,7147 9,7867 9,8588 9,9308 10,0029 10,0749 10,1470 10,2190 10,2911 10,3631 10,4352 10,5072 10,5793 10,6513 0,0720502 1,0747093 40.000 10,6000 35.000 10,4000 30.000 10,2000 25.000 10,0000 20.000 9,8000 15.000 9,6000 10.000 Reale Entwicklung 9,4000 ln(Reale Entwicklung) 5.000 Fiktives Wachstum 9,2000 ln(Fiktives Wachstum) 0 9,0000 0 41 ln(Wachstumsfaktor) Bevölkerungsentwicklung mit logarithmierter y-Achse 10,8000 Bevölkerungsentwicklung 45.000 Differenz 10 20 30 0 5 10 15 20 25 Einführende Statistik - Deskriptive Maßzahlen Beispiel zum Geometrischen Mittel Jahr 2009 2010 2011 2012 2013 Produkt 4.Wurzel Umsatz in Wachstums- WachstumsMio EURO faktor rate ln(W.-Faktor) 2 0,1823 2,4 1,200 20,0% 2,9 1,208 20,8% 0,1892 2,7 0,931 -6,9% -0,0715 3,1 1,148 14,8% 0,1382 1,550 0,1096 1,116 11,6% 1,116 Arithmetisches Mittel der logarithmierten Wachstumsfaktoren 42 exp(0,1096) 1 n w geom = exp ∑ log(w i ) n i =1 Einführende Statistik - Deskriptive Maßzahlen Testaufgabe 1 Sie fahren staubedingt eine Strecke von 50km mit einer durchschnittlichen Reisegeschwindigkeit von 20km/h Die nächsten 50 km erzielen Sie eine durch-schnittliche Reisegeschwindigkeit von 100km/h. Wie hoch ist die Durchschnittsgeschwindigkeit für die gesamte Fahrt? 43 Einführende Statistik - Deskriptive Maßzahlen Berechnung 44 Einführende Statistik - Deskriptive Maßzahlen Testaufgabe 2 Sie planen eine Autofahrt auf der Autobahn von Wien nach Salzburg und rechnen mit einer durchschnittlichen Reisegeschwindigkeit von 100km/h Auf der ersten Hälfte der Strecke kommen Sie in einen Stau, so dass Sie für den halben Weg nur eine Durchschnittsgeschwindigkeit von 50km/h erreichen. Wie schnell müssen Sie die zweite Hälfte der Strecke zurücklegen, damit Sie noch die geplante Geschwindigkeit von 100km/h erreichen? 45 Einführende Statistik - Deskriptive Maßzahlen Harmonisches Mittel x= 1 n 1 1 ∑ n i = 1 xi bzw. 1 1 n wi ∑ W i = 1 xi n W = ∑ wi i =1 Das untersuchte Merkmal sei ein Quotient: Dimension-A/Dimension-B Anzahl (Gewichte) der Merkmalsträger: 46 Dimension-B: Mittelung durch arithmetisches Mittel Dimension-A: Mittelung durch harmonisches Mittel Einführende Statistik - Deskriptive Maßzahlen Beispiel zum Harmonischen Mittel Geschw. 30 km/h 90 km/h Strecke 60km 60km Ungewichtetes Harmonisches Mittel 1 1 180 = = = 45 1 1 1/ 2 * 4 / 90 4 1/ 2 * ( + ) 30 90 1 1 = = 45 60 60 1/120 * 240 / 90 1/120 * ( + ) 30 90 (nur zulässig, da beide Strecken gleich lang sind) x= 1 1 n 1 ∑ n i =1 xi Gewichtetes Harmonisches Mittel (Gewichte sind Strecken) 1 = x = W n wi 1 ∑ W i =1 xi 47 n ∑w i =1 i Einführende Statistik - Deskriptive Maßzahlen Beispiel zum Harmonischen Mittel Berechnung der Durchschnittsgeschwindigkeit: Geschw. Dauer 30 km/h 2h 90 km/h 2/3h Berechnung mittels gewogenem arithmetischen Mittels: Gewichte sind Zeitdauern (30*2 +90*2/3)/(2+2/3)=3*120/8=45 n 1 n = x = wi xi W ∑ wi ∑ W i 1 =i 1 = 48 Einführende Statistik - Deskriptive Maßzahlen Periodischer Kauf von Wertpapieren Vier Käufe von Wertpapieren mit konstantem Budget von 100.000 € Ankauf 1 2 3 4 Kurse 5.000,00 6.000,00 10.000,00 4.000,00 Arithmetisches Mittel Harmonisches Mittel ??? Durchschnittskurs des Käufers ??? 6.250,00 ist natürlich nicht gleich dem durchschnitlichen Ankaufskurs 5.581,40 ist gleich dem durchschnitlichen Ankaufskurs Ankauf 1 2 3 4 Kurse 5.000,00 6.000,00 10.000,00 4.000,00 1/x 0,00020 0,00017 0,00010 0,00025 0,00072 Ankauf 1 2 3 4 Kurse 5.000,00 6.000,00 10.000,00 4.000,00 SUMME Menge 20,00 16,67 10,00 25,00 71,67 Gewogenes Arithm. Mittel 49 0,000179 5.581,40 Budget 100.000,00 100.000,00 100.000,00 100.000,00 400.000,00 x= 1 1 n 1 ∑ n i=1 x i Cost Average Effect 5.581,40 Einführende Statistik - Deskriptive Maßzahlen Streuungsmaße • • • Statistische Maßzahlen, welche die Variabilität oder die Streubreite in den Daten messen. Sie beschreiben die Abweichung vom Zentrum einer Häufigkeitsverteilung Wie eng liegen die Merkmalsausprägungen eines quantitativen Merkmals beieinander? Maßzahlen: 50 Differenz von Quantilen Summe der Abstände aller Merkmalsausprägungen von einem Lagemaß Einführende Statistik - Deskriptive Maßzahlen Beispiel: 2 Altersverteilungen mit gleichem Mittel Gruppe A Gruppe B Gruppe A 24 34 34 35 23 32 21 36 30 32 34 38 22 53 54 51 23 57 54 54 Gruppe B 21 35 34 37 35 36 37 34 35 39 57 37 36 38 37 34 38 39 40 42 Durchschnitt Minimum Maximum Spannweite 37,1 21,0 57,0 36,0 37,1 21,0 57,0 36,0 18 16 16 14 12 10 9 8 6 6 5 4 2 2 1 1 0 0 0 0 20 bis 29 51 30 bis 39 40 bis 49 50 bis 59 60 bis 70 Einführende Statistik - Deskriptive Maßzahlen Verschiedene Verteilungen 0.8 Alle 3 Verteilungen sind unimodal, symmetrisch und weisen den selben Mittelwert auf; sie unterscheiden sich aber in Ihrer Streuung um die Mitte 0.4 0.6 N(0; 0,25) 0.2 N(0; 1) 0.0 N(0; 4) -6 52 -4 -2 0 2 4 6 Einführende Statistik - Deskriptive Maßzahlen Streuungsmaße (1) Spannweite (range) Differenz zwischen größtem und kleinstem Wert einer numerischen Variablen; Wertebereich, in dem alle Merkmalswerte liegen R = x( n ) − x(1) Für die Praxis der Streuungsmessung oft nur wenig aussagekräftig, da stark von einzelnen Beobachtungen abhängig 53 Einführende Statistik - Deskriptive Maßzahlen Streuungsmaße (2) Quartilsabstand (IQ-range) Differenz zwischen drittem und erstem Quartil; Innerhalb des Quartilsabstandes liegen 50% der Werte; unempfindlich gegenüber Extremwerten ~ ~ x0, 75 − x0, 25 Entspricht der Boxlänge im Boxplot 54 Einführende Statistik - Deskriptive Maßzahlen Abstände vom arithmetischen Mittel Arithmetische Mittel Die positiven und negativen Abweichungen vom arithmetischen Mittel kompensieren einander und summieren sich immer zu null. n ∑ (x n − x) =0 ⇒ ∑ x i =nx i i 1 =i 1 55 Einführende Statistik - Deskriptive Maßzahlen Mittlere Absolutabstände von einem Lagemaß Mittlere absolute Abweichung vom Median (mean absolute deviation (from the median) - MD) 1 n = MD xi − x ∑ n i =1 Mittlere absolute Abweichung vom arithmetischen Mittel (mean absolute deviation (from the mean) - MAA) 1 n = MAA xi − x ∑ n i =1 Median der absoluten Abweichungen vom Median (median absolute deviation - MAD) = MAD median( xi − x ) 56 Einführende Statistik - Deskriptive Maßzahlen Mittlerer quadrierter Abstand vom Mittelwert Varianz (variance) 1 n 2 s = ∑ ( xi − x ) n i =1 2 Die mittlere quadrierte Abweichung vom arithmetischen Mittel Häufig wird in der Praxis auch statt durch n durch n-1 dividiert. Dies ist v.a. dann sinnvoll, wenn man auf der Basis einer Stichprobe Aussagen für die Grundgesamtheit treffen möchte (Erklärung folgt später) Excel-Funktionen: Varianz bzw. Varianzen In R immer Division durch n-1 57 Einführende Statistik - Deskriptive Maßzahlen Berechnung von Streuungsmaßen Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Abweichung Gruppe A vom Mittel 24 -13,1 34 -3,1 34 -3,1 35 -2,1 23 -14,1 32 -5,1 21 -16,1 36 -1,1 30 -7,1 32 -5,1 34 -3,1 38 1,0 22 -15,1 53 16,0 54 17,0 51 14,0 23 -14,1 57 20,0 54 17,0 54 17,0 Summe: 58 0,0 Absolute Quadratierte Absolute Quadratierte Abweichung Abweichung Abweichung Abweichung Abweichung Nr. Gruppe B vom Mittel vom Median vom Mittel vom Median vom Mittel 10,0 170,3 1 21 -16,1 16,0 257,6 0,0 9,3 2 35 -2,1 2,0 4,2 0,0 9,3 3 34 -3,1 3,0 9,3 1,0 4,2 4 37 0,0 0,0 0,0 11,0 197,4 5 35 -2,1 2,0 4,2 2,0 25,5 6 36 -1,1 1,0 1,1 13,0 257,6 7 37 0,0 0,0 0,0 2,0 1,1 8 34 -3,1 3,0 9,3 4,0 49,7 9 35 -2,1 2,0 4,2 2,0 25,5 10 39 2,0 2,0 3,8 0,0 9,3 11 57 20,0 20,0 398,0 4,0 0,9 12 37 0,0 0,0 0,0 12,0 226,5 13 36 -1,1 1,0 1,1 19,0 254,4 14 38 1,0 1,0 0,9 20,0 287,3 15 37 0,0 0,0 0,0 17,0 194,6 16 34 -3,1 3,0 9,3 11,0 197,4 17 38 1,0 1,0 0,9 23,0 398,0 18 39 2,0 2,0 3,8 20,0 287,3 19 40 3,0 3,0 8,7 20,0 287,3 20 42 5,0 5,0 24,5 191,0 2893,0 9,55 MD Summe: 0,0 67,0 741,0 144,6 3,35 37,0 Varianz MD Varianz Einführende Statistik - Deskriptive Maßzahlen Abgeleitete Streuungsparameter Standardabweichung – (standard deviation) s= s = 2 1 n 2 − x x ( i ) ∑ n i =1 Quadratwurzel aus der Varianz Ist wieder in derselben Dimension wie die Beobachtungen und ist somit anschaulicher als die Varianz Variationskoeffizient (coefficient of variance) v= s x bzw. v= s ⋅ 100 x Standardabweichung ausgedrückt in Einheiten des Mittelwerts; dimensionslose Größe gut geeignet für Vergleiche 59 Einführende Statistik - Deskriptive Maßzahlen Beispiel: 2 Altersverteilungen mit gleichem Mittel Gruppe A Gruppe B Gruppe A 24 34 34 35 23 32 21 36 30 32 34 38 22 53 54 51 23 57 54 54 Gruppe B 21 35 34 37 35 36 37 34 35 39 57 37 36 38 37 34 38 39 40 42 Durchschnitt Minimum Maximum Spannweite Varianz Std.Abw. VC 18 16 16 14 12 10 9 37,1 21,0 57,0 36,0 144,6 12,0 32% 37,1 21,0 57,0 36,0 37,0 6,1 16% 1.Quartil 2.Quartil 3.Quartil Median 28,5 34,0 51,5 34,0 35,0 37,0 38,3 37,0 IQ-Distanz 23,0 3,3 8 6 6 5 4 2 2 1 1 0 0 0 0 20 bis 29 60 30 bis 39 40 bis 49 50 bis 59 60 bis 70 Einführende Statistik - Deskriptive Maßzahlen Standardabweichung & Intervalle Die Standardabweichung bildet den Ausgangspunkt für Konfidenzaussagen Intervalle sind oft reliabler als punktuelle Aussagen Falls die Daten einer Normalverteilung folgen (Glockenkurve) liegen etwa 95% der Daten in dem Intervall zwischen Mittelwert minus bzw. Mittelwert plus zweifacher Standardabweichung; jedenfalls aber 75%. 61 Einführende Statistik - Deskriptive Maßzahlen Bedeutung des Variationskoeffizienten Eine Standardabweichung von 300,- € beim monatlichen Einkommen ist in einer Gesellschaftsschicht mit einem Durchschnittseinkommen von 1.500,- € von wesentlich größerer Bedeutung als in einer Gruppe von Einkommensbeziehern, die im Monatsdurchschnitt 2.400,€ verdienen. In der ersten Gruppe ist der Variationskoeffizient 20%, während er in der zweiten Gruppe nur 12,5% beträgt, obwohl die Standardabweichung in beiden Gruppen gleich groß ist. 62 Einführende Statistik - Deskriptive Maßzahlen Volatilität Die Volatilität gilt als Einschätzung des künftigen Risikos einer Aktie. Als Maß für die Volatilität verwendet man häufig den Variationskoeffizienten Beispiel: Im Durchschnitt über 250 Handelstage betrug der mittlere Kurs einer Aktie A 50,59 € bei einer Standardabweichung von 36,18€. Über den selben Vergleichszeitraum betrug der mittlere Kurs einer Aktie B 396,10 € bei einer Standardabweichung von 182,96 €. Obwohl die Standardabweichung der Aktie A deutlich geringer ist, muss ein Investor hier mit einem größeren Risiko rechnen als bei der Aktie B, dies wird durch den Variationskoeffizienten quantifiziert: VKA=36,18/50,59*100=72% VKB=182,96/396,10*100=46% 63 Einführende Statistik - Deskriptive Maßzahlen Rechenbeispiel: Reaktionszeiten 1 2 3 4 5 6 7 8 9 10 Summe 64 xi-xq xi i 0,30 0,21 0,19 0,27 0,32 0,30 0,26 0,22 0,31 0,20 2,58 0,04 -0,05 -0,07 0,01 0,06 0,04 0,00 -0,04 0,05 -0,06 0,00 Arithmetisches Mittel (xq) Median (med): 0,258 0,265 MD: MAA: MAD: 0,0420 0,0424 0,0450 Varianz: Standardabweichung: Variationskoeffizient: 0,002196 0,046861 18,2% abs(xi-xq) 0,042 0,048 0,068 0,012 0,062 0,042 0,002 0,038 0,052 0,058 0,424 abs(xi-med) 0,035 0,055 0,075 0,005 0,055 0,035 0,005 0,045 0,045 0,065 0,420 (xi-xq)² 0,00176 0,00230 0,00462 0,00014 0,00384 0,00176 0,00000 0,00144 0,00270 0,00336 0,02196 Mittlere absolute Abweichung vom Median Mittlere absolute Abweichung vom arithmetischen Mittel Median der absoluten Abweichungen vom Median Einführende Statistik - Deskriptive Maßzahlen Interpretation Die Angabe der Standardabweichung erfolgt oft in der Form x ±σ Im Beispiel: 0,258±0,047 Unter der Annahme einer „Normalverteilung“ (Form der Häufigkeitsdichte entspricht einer Glockenkurve) liegen ca. 95% der Datenpunkte in einem Bereich von x ± 2σ 65 Einführende Statistik - Deskriptive Maßzahlen Alternative Berechnungsformeln 1 n 1 n 2 2 2 s x x x x = − = − ( ) ∑ i n∑ i (1) n =i 1 = i1 2 (2) (3) 66 Mittelwert der quadrierten Werte minus dem Quadrat des Mittelwertes 2 n n ∑ xi i =1 1 2 2 s = ∑ xi − n n i =1 n 1 2 s2 = ∑ xi − nx 2 n i =1 Einführende Statistik - Deskriptive Maßzahlen Alternative Berechnungsformeln im Beispiel i 1 2 3 4 5 6 7 8 9 10 Summe xi 0,30 0,21 0,19 0,27 0,32 0,30 0,26 0,22 0,31 0,20 2,58 xi² 0,09 0,04 0,04 0,07 0,10 0,09 0,07 0,05 0,10 0,04 0,69 1 n 1 n 2 2 = s xi − x 2 ( xi − x= ) ∑ ∑ n i 1= n i1 = 2 =(1/10)*0,69-0,258² 0,002196 2 n xi 1 n 2 ∑ 2 s = xi − i = 1 ∑ n n i =1 =(1/10)*(0,69-2,58²/10) Arithmetisches Mittel (xq) 0,002196 0,258 1 n 2 s = ∑ xi − nx 2 n i =1 2 =(1/10)*(0,69-10*0,258²) 0,002196 67 Einführende Statistik - Deskriptive Maßzahlen Eigenschaften der Varianz "Steiner´scher Verschiebungssatz" n ∑ (x i =1 i n − a) = ∑ ( x i − x) + n( x − a) 2 2 2 i =1 Auswirkung linearer Transformationen y =+ a bx ⇒ s 2 ( y ) = b2 s 2 ( x ) Verschiebungs-Invarianz 68 Einführende Statistik - Deskriptive Maßzahlen Varianzermittlung aus 2 Teilpopulationen 2 Tei lg esamtheiten A, B : A x1 , x 2 , , x n A mit x A ,s A2 nA s A + nB sB nA + nB 2 s2 = nA pA = nA + nB 2 B x1 , x 2 , , x n B mit x B ,s B2 nA ( xA − x) + nB ( xB − x) + nA + nB 2 2 x Gesamtmittelwert = n nA + nB nB pB = nA + nB s2 = pA ⋅ s A + pB ⋅ sB + pA ( xA − x) + pB ( xB − x) 2 2 2 2 Gesamte Varianz ist das gewichtete Mittel der Teilvarianzen plus dem gewichteten Mittel der quadratischen Abweichungen der Gruppenmittel vom Gesamtmittel (Vtotal = Vwithin+Vbetween) 69 Einführende Statistik - Deskriptive Maßzahlen Beispiel: Ermittlung des Mittelwertes aus 2 Teilgesamtheiten Es liegen Daten aus 2 Betrieben A und B vor: 400 Angestellte aus Betrieb A verdienen monatlich im Mittel 1.920,84 € 300 Angestellte aus Betrieb B verdienen monatlich im Mittel 2.012,17 € Dann beträgt der Gesamtmittelwert nach dem Prinzip des gewogenen arithmetischen Mittels: 1.959,98 € xGesamt 70 400 ⋅1920,84 + 300 ⋅ 2012,17 = 1.959,98 400 + 300 Einführende Statistik - Deskriptive Maßzahlen Beispiel: Ermittlung der Varianz aus 2 Teilgesamtheiten Das Einkommen der 400 Angestellten aus Betrieb A hat eine Standardabweichung von 220,32 € Das Einkommen der 300 Angestellten aus Betrieb B hat eine Standardabweichung von 411,98 € Dann beträgt die Standardabweichung der Angestellten beider Betriebe zusammen: 320,19 € s = p ⋅ s + p ⋅ s + p ( x − x) + p ( x − x) 400 ⋅ 220,32² + 300 ⋅ 411,98² + s² A A 2 2 2 2 B B A A B 2 B 400 + 300 400 ⋅ (1920,84 − 1959,98)² + 300 ⋅ (2012,17 − 1959,98)² + = 400 + 300 = 102520, 76 s 71 = 102520, 76 320,19 Einführende Statistik - Deskriptive Maßzahlen Standardisierung (z-Transformation) Gegeben seien Beobachtungen x1, ..., xn mit Mittelwert x und Varianz s x 2 Gesucht ist eine lineare Transformation z=a+bx, so dass für die transformierten Daten das arithmetische Mittel 0 und die Varianz 1 wird. xi − x x 1 zi = = − + xi sx sx sx a b 1 2 x 1 s2z = 2 s x = 1 + x=0 sx sx sx Unterscheide: xi-x(1)/(x(n)-x(1)) bildet xi in [0,1] ab z=− 72 Einführende Statistik - Deskriptive Maßzahlen Beispiel zur Standardisierung i 1 2 3 4 5 6 7 8 9 10 Summe xi 0,30 0,21 0,19 0,27 0,32 0,30 0,26 0,22 0,31 0,20 2,58 Arithmetisches Mittel (xq): Standardabweichung (x): 73 xi-xq 0,04 -0,05 -0,07 0,01 0,06 0,04 0,00 -0,04 0,05 -0,06 0,00 0,258 0,046861 zi=(xi-xq)/s 0,8963 -1,0243 -1,4511 0,2561 1,3230 0,8963 0,0427 -0,8109 1,1097 -1,2377 0,00 zi² 0,803278689 1,049180328 2,10564663 0,06557377 1,750455373 0,803278689 0,001821494 0,657559199 1,23132969 1,531876138 10,00 Varianz(z): 1 Standardabweichung (z): 1 Einführende Statistik - Deskriptive Maßzahlen Standardabweichung vs. Standardfehler Scorewerte zwischen 0 und 100 bei n=100 Personen gemessen 12 8 10 50 66 2 6 89 21 7 93 86 73 94 61 80 15 69 79 37 Arithmetisches Mittel Standardabweichung 17 82 28 67 98 25 42 38 25 30 93 42 57 43 70 9 64 95 79 60 49,6 31,8 Sample-2 11 95 40 50 38 64 3 61 64 47,3 Sample-3 8 0 21 89 18 38 60 69 79 42,4 Standardfehler Std.Abw. der 10 Stichprobenmittelwerte 10,6 10,4 arithm. Mittel 74 57 0 56 86 97 79 50 32 36 23 93 65 30 94 94 85 26 3 86 96 10 13 8 78 62 1 40 73 7 29 14 68 68 73 11 12 6 53 23 93 81 4 25 46 7 55 36 11 86 73 Sample-9 61 85 15 57 12 40 53 80 14 46,3 Sample-10 30 57 21 67 89 86 43 50 30 52,6 Variabilität der Einzelwerte σ Wir ziehen 10-mal eine zufällige Stichprobe von 9 Beobachtungen Sample-1 38 93 29 18 50 93 8 15 6 38,9 17 91 53 18 38 76 8 100 96 85 Sample-4 42 64 89 95 7 10 42 30 25 44,9 Sample-5 93 79 67 10 7 73 30 73 68 55,6 Sample-6 9 21 62 86 93 46 32 93 43 53,9 Sample-7 38 36 12 0 9 23 25 2 67 23,6 Sample-8 2 79 80 79 86 73 60 93 23 63,9 Variabilität des Mittelwertes σ n Einführende Statistik - Deskriptive Maßzahlen Varianz bei diskreten Daten Treten nur k unterschiedliche Werte x1, ..., xk mit zugehörigen absoluten Häufigkeiten n1, ..., nk bzw. relativen Häufigkeiten h1, ..., hk auf, so ergibt sich die Varianz als: k k 1 2 2 σ = ∑ ( xi − x ) ni = ∑ ( xi − x ) hi n i 1 =i 1 2 1 2 2 σ ²= ∑ ni ⋅ xi − x ²= ∑ hi ⋅ xi − x ² n i 1= i1 k 75 k Einführende Statistik - Deskriptive Maßzahlen Berechnung Varianz – diskrete Daten Bei 12 Würfen mit dem Würfel wurde folgendes Ergebnis beobachtet: 5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6 Die Summe der 12 Augenzahlen ist 45. Der Durchschnitt (das Arithmetische Mittel) dieser 12 Augenzahlen ist 3,75. Die Summe der quadrierten Augenzahlen beträgt 25+9+…+9+36=203 Demnach ist die Varianz: = s2 1 n 2 2 x − nx ∑ i n i =1 s 2 =1/12(203 − 12 *3, 75²) =2,85 76 Einführende Statistik - Deskriptive Maßzahlen Berechnung mittels Häufigkeiten xi 1 2 3 4 5 6 ni hi 2 1 2 2 3 2 12 xihi 0,17 0,08 0,17 0,17 0,25 0,17 1,00 0,17 0,17 0,50 0,67 1,25 1,00 3,75 Arithmetisches Mittel Alternativ: xini xi²ni 2 2 6 8 15 12 45 3,75 2 4 18 32 75 72 203 xi-xq -2,75 -1,75 -0,75 0,25 1,25 2,25 (xi-xq)² (xi-xq)²hi (xi-xq)²ni 7,56 3,06 0,56 0,06 1,56 5,06 1,26 0,26 0,09 0,01 0,39 0,84 2,85 Varianz 15,13 3,06 1,13 0,13 4,69 10,13 34,25 2,85 203/12-3,75²=2,85 1 k 2 = s ² ∑ ni ⋅ xi − x ² n i =1 k k 1 2 2 s = ∑ ( xi − x ) ni = ∑ ( xi − x ) hi n i 1 =i 1 = 2 77 Einführende Statistik - Deskriptive Maßzahlen Berechnung bei klassifizierten Daten Sind die Daten in k Klassen eingeteilt, kann man auch die Varianz nur näherungsweise berechnen, indem man mit den Klassenmittelwerten m1, ..., mk arbeitet. k k 1 2 2 2 σ = ∑ ( mi − x ) ni = ∑ (mi − x ) hi n i 1 =i 1 bzw. k k 1 2 2 2 2 2 σ = −x n ∑ mi ni = ∑ mi hi − x i 1= i 1 78 Einführende Statistik - Deskriptive Maßzahlen Beispiel Körpergröße von 100 Studenten Klasse bis 150 (150 - 155] (155 - 160] (160 - 165] (165 - 170] (170 - 175] (175 - 180] (180 - 185] (185 - 190] (190 - 195] (195 - 200] ni 0 3 4 10 16 23 20 11 10 1 2 100 hi 0,00 0,03 0,04 0,10 0,16 0,23 0,20 0,11 0,10 0,01 0,02 1 mi mihi mi²hi 153 158 163 168 173 178 183 188 193 198 4,59 6,32 16,30 26,88 39,79 35,60 20,13 18,80 1,93 3,96 174,30 702,27 998,56 2656,90 4515,84 6883,67 6336,80 3683,79 3534,40 372,49 784,08 30468,80 Mittelwert= 174,30 Varianz= 30.468,8-174,3²=88,31 Standardabweichung= 9,40 Exakte Berechnungen auf Basis der Urliste n= Summe x = Summe x² = Arithmetisches Mittel = Varianz= Standardabweichung= 79 Korrektur 86,23 9,29 100 17.440 3.049.914 174,4 83,78 9,15 Einführende Statistik - Deskriptive Maßzahlen Sheppard-Korrektur Es lässt sich theoretisch zeigen, dass bei einer unimodalen Verteilung die auf der Basis der klassifizierten Daten berechnete Varianz größer ist als die aus den Originaldaten. Bei einer Klasseneinteilung mit konstanter Breite ∆ kann der Fehler mit der sog. Sheppard-Korrektur annähernd ausgeglichen werden: ∆2 σ ² korr=. σ ² − 12 25 σ ² korr=. 88,31 − = 86, 23 12 80 Einführende Statistik - Deskriptive Maßzahlen Höhere Verteilungsmaßzahlen Ein stetiges Merkmal wurde in 3 Gruppen beobachtet und in Form der folgenden Häufigkeitstabelle berichtet: Klasse 0-2 2-4 4-6 6-8 8-10 10-12 12-14 mi 1 3 5 7 9 11 13 Gruppe A 0 12 24 28 24 12 0 100 Gruppe B 4 4 20 44 20 4 4 100 Gruppe C 0 4 40 24 20 8 4 100 1.Schritt: Berechnung von Mittelwert und Streuung 81 Einführende Statistik - Deskriptive Maßzahlen Berechnung von Mittelwert und Streuung mi Klasse 0-2 2-4 4-6 6-8 8-10 10-12 12-14 Gruppe A 1 3 5 7 9 11 13 x = 0 12 24 28 24 12 0 100 Gruppe B 4 4 20 44 20 4 4 100 Gruppe C 0 4 40 24 20 8 4 100 Gruppe A mi*ni 0 36 120 196 216 132 0 700 7 Gruppe B mi*ni 4 12 100 308 180 44 52 700 7 Gruppe C mi*ni 0 12 200 168 180 88 52 700 7 Gruppe A mi²*ni 0 108 600 1372 1944 1452 0 5476 5,76 2,4 Gruppe B mi²*ni Gruppe C mi²*ni 4 36 500 2156 1620 484 676 5476 5,76 2,4 1 k 1 k 2 2 2 σ n m m n x = − ∑ ∑ i i i i n n i 1= i 1 Das arithmetische Mittel ist an allen 3 Gruppen gleich 7. Die Varianz ist an allen 3 Gruppen gleich 5,76 bzw. ist die Standardabweichung in allen 3 Gruppen 2,4. 82 Einführende Statistik - Deskriptive Maßzahlen 0 36 1000 1176 1620 968 676 5476 5,76 2,4 Visualisierung der 3 Verteilungen 83 Einführende Statistik - Deskriptive Maßzahlen Maßzahlen der Schiefe Konvention: Positiv rechtsschief bzw. linkssteil Negativ linksschief bzw. rechtssteil Unimodale symmetrische Verteilung rechtsschief 84 linksschief Einführende Statistik - Deskriptive Maßzahlen Typische Maße Pearson‘scher Schiefekoeffizient: 3 ⋅ ( x − x ) Sk = σ x x Quartilskoeffizient der Schiefe 0 1 2 3 4 5 6 Q3 − Q 2 ) − ( Q 2 − Q1 ) ( Sq = ( Q3 − Q1 ) Q1 Q2 Q3 85 Einführende Statistik - Deskriptive Maßzahlen Momentenkoeffizient der Schiefe (Fisher) Im Fall von Einzeldaten: Sm = 1 n 3 − x x ( i ) ∑ n i =1 n 1 2 − x x ( i ) ∑ n i =1 3. Zentrales Moment 3 Bei klassierten Daten Sm = 86 1 k 3 ( mi − x ) ⋅ n i ∑ n i=1 n 1 2 − ( mi x ) ⋅ n i ∑ n i=1 3 Einführende Statistik - Deskriptive Maßzahlen Wölbung (Kurtosis) einer Verteilung Die Wölbung oder Kurtosis beschreibt die Steilheit bzw. „Spitzigkeit“ einer (eingipfeligen) Häufigkeitsverteilung. Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen. Um das Ausmaß der Wölbung besser einschätzen zu können, wird sie mit der Wölbung einer Gauß‘schen Glockenkurve (Normalverteilung) verglichen, deren Wölbung konstant 3 ist. Der Exzess gibt die Differenz der Wölbung einer empirischen Verteilung zur Wölbung einer Gauß‘schen Glockenkurve an. Der Exzess ist daher definiert als: Exzess = Wölbung -3 87 Einführende Statistik - Deskriptive Maßzahlen Momentenkoeffizient der Wölbung (Kurtosis) Ermittlung des Exzesses Im Fall von Einzeldaten: = γ Bei klassierten Daten = γ 88 4. Zentrales Moment 1 n 4 ( xi − x ) ∑ n i =1 1 2 x x − ) n ∑( i i =1 n 2 −3 1 k 4 ( mi − x ) ⋅ n i ∑ n i=1 1 2 − ⋅ m x n ) i n ∑( i i=1 n 2 −3 Einführende Statistik - Deskriptive Maßzahlen Wölbung (Kurtosis) einer Verteilung Verteilungen werden entsprechend ihres Exzesses eingeteilt in: γ = 0: normalgipflig oder mesokurtisch Empirische Wölbung entspricht der Wölbung einer Gauß‘schen Glockenkurve (blaue Linie) γ > 0 : steilgipflig oder leptokurtisch. Im Vergleich zur Normalverteilung eine spitzere Verteilung, d.h. mit stark ausgeprägten Peak. γ < 0 : flachgipflig oder platykurtisch. Im Vergleich zur Normalverteilung abgeflachte Verteilung. 89 Einführende Statistik - Deskriptive Maßzahlen Beispiel (siehe auch XLS) mi Klasse 0-2 2-4 4-6 6-8 8-10 10-12 12-14 Gruppe A 1 3 5 7 9 11 13 Sm = 90 0 12 24 28 24 12 0 100 Gruppe B 4 4 20 44 20 4 4 100 Schiefe Gruppe C 0 4 40 24 20 8 4 100 0 -768 -192 0 192 768 0 0 0 -864 -256 -160 0 160 256 864 0 0 1 k 3 ( mi − x ) ⋅ n i ∑ n i=1 = γ 3 1 n 2 ( mi − x ) ⋅ n i ∑ n i=1 Wölbung 0 -256 -320 0 160 512 864 960 0,694 0 3072 384 0 384 3072 0 6912 -0,9167 5184 1024 320 0 320 1024 5184 13056 0,9352 0 1024 640 0 320 2048 5184 9216 -0,2222 1 k 4 ( mi − x ) ⋅ n i ∑ n i=1 1 n 2 m x n − ⋅ ) i n ∑( i i=1 2 −3 Einführende Statistik - Deskriptive Maßzahlen