Deskriptive Statistik 1 Ziele In der deskriptiven (=beschreibenden) Statistik werden Untersuchungsergebnisse • übersichtlich dargestellt, • durch Kennzahlen charakterisiert und • grafisch veranschaulicht. 2 Nominal- und ordinalskalierte Merkmale Darstellung In einer Umfrage unter 100 Schülern einer Schule wurde gefragt, welches Transportmittel“ ” hauptsächlich für den Schulweg genutzt wird. Im Mittelpunkt der Aufbereitung steht eine Tabelle mit den absoluten und den relativen Häufigkeiten der Merkmalsausprägungen. Schulweg zu Fuss mit Velo mit Bus mit Zug mit Mofa/Motorrad mit Auto Summe absolute Häufigkeit 6 32 28 19 14 1 100 relative 0.06 0.32 0.28 0.19 0.14 0.01 1.00 Häufigkeit (6%) (32%) (28%) (19%) (14%) (1%) (100%) Kennzahlen Modus oder Modalwert: Der am häufigsten auftretende Merkmalswert. In Beispiel oben ist der Modus Velo“ ” Es ist auch möglich, dass es mehrere Modi gibt. 1 Einfaches Balkendiagramm (1) Primäres Transportmittel auf dem Schulweg Anzahl 35 30 25 20 15 10 5 0 zu Fuss Velo Bus Zug Mofa Motorrad Auto Einfaches Balkendiagramm (2) Die horizontale Darstellungsweise kann bei wenig Kategorien oder bei langen Kategoriennamen platzsparender sein. Primäres Transportmittel auf dem Schulweg zu Fuss Velo Bus Zug Mofa/Motorrad Auto Anzahl 0 5 10 15 20 25 30 35 Gruppiertes Balkendiagramm Primäres Transportmittel auf dem Schulweg (nach Geschlecht) Anzahl 35 30 25 20 15 10 5 0 männlich weiblich zu Fuss Velo Bus Zug Mofa Motorrad 2 Auto Kreisdiagramm Velo zu Fuss Auto Bus Motorrad Zug Kreisdiagramme eignen sich nicht unbedingt für die Darstellung von Informationen, da wir Längenunterschiede besser erkennen können als Differenzen von Kreissektorflächen. Um Monotonie in der Wahl der Grafiken zu vermeiden, kann es aber sinnvoll sein, manchmal ein Kreisdiagramm zu verwenden. Finger weg von 3D-Darstellungen! Das Verhältnis 1 : 4 in verschiedenen Dimensionen Längen 3 Flächen Volumina Metrisch skalierte Merkmale Beispiel Eine grosse Zahl metrisch skalierter Rohdaten ist intuitiv schlecht zu erfassen. Anzahl Fehler von zwei Schulklassen in einem Diktat: (gepoolt) 1, 1, 3, 3, 4, 4, 5, 5, 6, 6, 7, 8, 8, 8, 8, 8, 9, 9, 9, 10, 10, 11, 12, 12, 12, 12, 13, 14, 14, 15, 16, 17, 18, 21, 21, 22, 24, 25, 28, 28 Um die Verteilungseigenschaften von metrisch skalierten Daten veranschaulichen zu können, werden sie in Intervalle eingeteilt. Dazu einige Faustregeln: • Alle Intervalle sollten im Normalfall die gleiche Breite aufweisen. • Werte, die auf eine Intervallgrenze fallen, werden in der Regel zum darunterliegenden Intervall gezählt. 3 • Maximal 20 Klassen Tabellarische Darstellung Die Häufigkeitsverteilung der Diktatfehler: Intervall 0<x≤5 5 < x ≤ 10 10 < x ≤ 15 15 < x ≤ 20 20 < x ≤ 25 25 < x ≤ 30 Summe absolute Häufigkeit 8 13 9 3 5 2 40 relative Häufigkeit 0.200 (20%) 0.325 (32.5%) 0.225 (22.5%) 0.075 (7.5%) 0.125 (12.5%) 0.050 (5%) 1.000 (100%) Das Histogramm Im Gegensatz zum Balkendiagramm hat das Histogramm eine horizontale metrische Skala. Auf der vertikalen Achse können die absoluten oder die relativen Klassenhäufigkeiten eingezeichnet werden. Die Fläche der Balken entspricht der absoluten (relativen) Häufigkeit. absolute Häufigkeit 15 10 5 0 5 10 15 20 25 Der Mittelwert x= x1 + x2 + · · · + xn n • Anzahl Diktatfehler der Klasse A: 8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10 xA = 8 + 9 + 22 + . . . + 10 = 11.65 20 4 30 Anzahl Fehler • Anzahl Diktatfehler der Klasse B: 8, 4, 21, 5, 10, 9, 12, 12, 6, 14, 17, 8, 14, 21, 9, 12, 6, 15, 13, 18 xB = 8 + 4 + 21 + . . . + 18 = 11.7 20 Der Median Der Median x̃ teilt die sortierte Werteliste in zwei gleich grosse Hälften. • Bei ungeradem Stichprobenumfang: 2 (zum Vergleich: x = 8) 2 3 4 29 x̃ = 3 • Bei geradem Stichprobenumfang: 2 (zum Vergleich: x = 7.5) 2 3 4 5 29 x̃ = 3.5 Der Median ist robust gegenüber Ausreissern, d. h. Werten, die von der Datenmitte“ ” stark abweichen. Die Mediane der Beispieldaten Median in Klasse A (xA = 11.65): 1 1 3 3 4 5 7 8 8 8 9 10 11 12 16 22 24 25 28 28 8.5 Median in Klasse B (xB = 11.7): 4 5 6 6 8 8 9 9 10 12 12 12 13 14 14 15 17 18 21 21 12 Deutung(en)? 5 Die Varianz einer Stichprobe Sind x1 , x2 , . . . , xn die Werte einer Stichprobe und x ihr Mittelwert, so ist die (Stichproben)Varianz wie folgt definiert: s2 = (x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 n−1 • Durch das Quadrieren der Differenzen werden grosse Abweichungen vom Mittelwert stärker gewichtet als kleine Abweichungen. • Die Varianz einer Stichprobe dient dazu, die Varianz der Grundgesamtheit zu schätzen. Der Divsor n − 1 (statt n) sorgt dafür, dass die Varianz nicht systematisch zu klein geschätzt wird. Die Varianzen der Beispieldaten Varianz in Klasse A: (xA = 11.65) 8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10 s2A = (8 − 11.65)2 + (9 − 11.65)2 + . . . + (10 − 11.65)2 = 81.19 19 Varianz in Klasse B: (xB = 11.7) 8, 9, 3, 21, 16, 12, 8, 4, 10, 7, 11, 6, 9, 13, 21, 6, 8, 14, 8, 5 s2B = (8 − 11.7)2 + (9 − 11.7)2 + . . . + (5 − 11.7)2 = 25.17 19 Deutung? Die Standardabweichung einer Stichprobe Die Varianz besteht aus einer Summe von quadrierten Abweichungen. Also ist auch die Masseinheit der Varianz das Quadrat der Masseinheit der zugrunde liegenden Grösse. Beispiel: Die Varianz s2 einer Stichprobe aus Franken-Beträgen ist eine Grösse mit der Einheit Quadratfranken“. ” Um die Streuung mit der ursprünglichen Masseinheit zu messen, wird die Standardabweichung s als Quadratwurzel der Varianz definiert: √ s = s2 Deshalb kann die Standardabweichung als eine Art mittlere Abweichung vom Zentrum ” der Daten“ interpretiert werden. 6 Die Standardabweichungen der Beispieldaten Standardabweichung in Klasse A: (xA = 11.65) √ sA = 81.19 = 9.01 Standardabweichung in Klasse B: (xB = 11.7) √ sB = 25.17 = 5.02 Der Interquartilsabstand Die Varianz bzw. die mit ihr verwandte Standardabweichung reagieren sensibel auf Ausreisser. Auch bei den Massen für die Streuung gibt es eine Kennzahl, die robust gegenüber Ausreissern ist. Es handelt sich dabei um den Interquartilsabstand (IQR= interquartile range). Der IQR ist definiert als die Differenz zwischen dem dritten und dem ersten Quartil q0.75 − q0.25 . Das erste Quartil q0.25 ist der Median in der unteren Hälfte der sortierten Daten. Das dritte Quartil q0.75 ist der Median in der oberen Hälfte der sortierten Daten. Beispiel Diese Begriffe lassen sich gut an einem Beispiel veranschaulichen: 6 7 9 11 11 13 21 x̃ = 11 q0.25 = 8 q0.75 = 12 Also gilt: IQR = q0.75 − q0.25 = 12 − 8 = 4 Bemerkung: Werte, die kleiner als q0.25 − 1.5 · IQR oder grösser als q0.75 + 1.5 · IQR sind, werden als Ausreisser bezeichnet. Das Box-and-Whiskers Plot 2 4 6 8 xmin 10 12 14 16 1.5 · IQR IQR q0.25 20 22 xmax x̃ 1.5 · IQR 18 q0.75 7 Das Box-and-Whiskers Plot der Beispieldaten A B 1 4 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Übungen Frage 1 Auf einem Fragebogen beantworteten 20 Personen eine Frage wie folgt: immer oft manchmal selten oft manchmal nie nie oft selten nie selten oft manchmal manchmal oft nie selten immer oft Bestimmen Sie den Modus. Frage 3 Bestimmen Sie den Mittelwert, die Varianz und die Standardabweichung für die Werte der (sehr kleinen) Stichprobe: 4, 9, 5 Frage 4 Bestimmen Sie Mittelwert, Varianz und Standardabweichung der folgenden Stichprobe: x1 = 2 cm, x2 = 8 cm, x3 = 1 cm und x4 = 5 cm Frage 5 Vergleichen Sie die steuerbaren Einkommen von Minidorf und Kleinhausen: [in 10 000 Franken]: Minidorf: 3, 5, 6, 6, 20 Kleinhausen: 5, 6, 8, 9, 12 8 Frage 6 Bestimmen Sie für die folgenden Werte den Median, das erste und dritte Quartil sowie den IQR: 5, 8, 1, 7, 6, 3, 8 6. Februar 2015 9