Deskriptive Statistik

Werbung
Deskriptive Statistik
1
Ziele
In der deskriptiven (=beschreibenden) Statistik werden Untersuchungsergebnisse
• übersichtlich dargestellt,
• durch Kennzahlen charakterisiert und
• grafisch veranschaulicht.
2
Nominal- und ordinalskalierte Merkmale
Darstellung
In einer Umfrage unter 100 Schülern einer Schule wurde gefragt, welches Transportmittel“
”
hauptsächlich für den Schulweg genutzt wird.
Im Mittelpunkt der Aufbereitung steht eine Tabelle mit den absoluten und den relativen
Häufigkeiten der Merkmalsausprägungen.
Schulweg
zu Fuss
mit Velo
mit Bus
mit Zug
mit Mofa/Motorrad
mit Auto
Summe
absolute Häufigkeit
6
32
28
19
14
1
100
relative
0.06
0.32
0.28
0.19
0.14
0.01
1.00
Häufigkeit
(6%)
(32%)
(28%)
(19%)
(14%)
(1%)
(100%)
Kennzahlen
Modus oder Modalwert: Der am häufigsten auftretende Merkmalswert.
In Beispiel oben ist der Modus Velo“
”
Es ist auch möglich, dass es mehrere Modi gibt.
1
Einfaches Balkendiagramm (1)
Primäres Transportmittel auf dem Schulweg
Anzahl
35
30
25
20
15
10
5
0
zu Fuss
Velo
Bus
Zug
Mofa
Motorrad
Auto
Einfaches Balkendiagramm (2)
Die horizontale Darstellungsweise kann bei wenig Kategorien oder bei langen Kategoriennamen platzsparender sein.
Primäres Transportmittel auf dem Schulweg
zu Fuss
Velo
Bus
Zug
Mofa/Motorrad
Auto
Anzahl
0 5 10 15 20 25 30 35
Gruppiertes Balkendiagramm
Primäres Transportmittel auf dem Schulweg (nach Geschlecht)
Anzahl
35
30
25
20
15
10
5
0
männlich
weiblich
zu Fuss
Velo
Bus
Zug
Mofa
Motorrad
2
Auto
Kreisdiagramm
Velo
zu Fuss
Auto
Bus
Motorrad
Zug
Kreisdiagramme eignen sich nicht unbedingt für die Darstellung von Informationen, da wir
Längenunterschiede besser erkennen können als Differenzen von Kreissektorflächen. Um
Monotonie in der Wahl der Grafiken zu vermeiden, kann es aber sinnvoll sein, manchmal
ein Kreisdiagramm zu verwenden.
Finger weg von 3D-Darstellungen!
Das Verhältnis 1 : 4 in verschiedenen Dimensionen
Längen
3
Flächen
Volumina
Metrisch skalierte Merkmale
Beispiel
Eine grosse Zahl metrisch skalierter Rohdaten ist intuitiv schlecht zu erfassen.
Anzahl Fehler von zwei Schulklassen in einem Diktat: (gepoolt)
1, 1, 3, 3, 4, 4, 5, 5, 6, 6, 7, 8, 8, 8, 8, 8, 9, 9, 9, 10, 10, 11, 12, 12, 12, 12, 13, 14, 14, 15,
16, 17, 18, 21, 21, 22, 24, 25, 28, 28
Um die Verteilungseigenschaften von metrisch skalierten Daten veranschaulichen zu können,
werden sie in Intervalle eingeteilt. Dazu einige Faustregeln:
• Alle Intervalle sollten im Normalfall die gleiche Breite aufweisen.
• Werte, die auf eine Intervallgrenze fallen, werden in der Regel zum darunterliegenden
Intervall gezählt.
3
• Maximal 20 Klassen
Tabellarische Darstellung
Die Häufigkeitsverteilung der Diktatfehler:
Intervall
0<x≤5
5 < x ≤ 10
10 < x ≤ 15
15 < x ≤ 20
20 < x ≤ 25
25 < x ≤ 30
Summe
absolute Häufigkeit
8
13
9
3
5
2
40
relative Häufigkeit
0.200
(20%)
0.325
(32.5%)
0.225
(22.5%)
0.075
(7.5%)
0.125
(12.5%)
0.050
(5%)
1.000
(100%)
Das Histogramm
Im Gegensatz zum Balkendiagramm hat das Histogramm eine horizontale metrische Skala.
Auf der vertikalen Achse können die absoluten oder die relativen Klassenhäufigkeiten eingezeichnet werden. Die Fläche der Balken entspricht der absoluten (relativen) Häufigkeit.
absolute
Häufigkeit
15
10
5
0
5
10
15
20
25
Der Mittelwert
x=
x1 + x2 + · · · + xn
n
• Anzahl Diktatfehler der Klasse A:
8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10
xA =
8 + 9 + 22 + . . . + 10
= 11.65
20
4
30 Anzahl
Fehler
• Anzahl Diktatfehler der Klasse B:
8, 4, 21, 5, 10, 9, 12, 12, 6, 14, 17, 8, 14, 21, 9, 12, 6, 15, 13, 18
xB =
8 + 4 + 21 + . . . + 18
= 11.7
20
Der Median
Der Median x̃ teilt die sortierte Werteliste in zwei gleich grosse Hälften.
• Bei ungeradem Stichprobenumfang:
2
(zum Vergleich: x = 8)
2
3
4
29
x̃ = 3
• Bei geradem Stichprobenumfang:
2
(zum Vergleich: x = 7.5)
2
3
4
5
29
x̃ = 3.5
Der Median ist robust gegenüber Ausreissern, d. h. Werten, die von der Datenmitte“
”
stark abweichen.
Die Mediane der Beispieldaten
Median in Klasse A (xA = 11.65):
1
1
3
3
4
5
7
8
8
8
9 10 11 12 16 22 24 25 28 28
8.5
Median in Klasse B (xB = 11.7):
4
5
6
6
8
8
9
9 10 12 12 12 13 14 14 15 17 18 21 21
12
Deutung(en)?
5
Die Varianz einer Stichprobe
Sind x1 , x2 , . . . , xn die Werte einer Stichprobe und x ihr Mittelwert, so ist die (Stichproben)Varianz wie folgt definiert:
s2 =
(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2
n−1
• Durch das Quadrieren der Differenzen werden grosse Abweichungen vom Mittelwert
stärker gewichtet als kleine Abweichungen.
• Die Varianz einer Stichprobe dient dazu, die Varianz der Grundgesamtheit zu schätzen.
Der Divsor n − 1 (statt n) sorgt dafür, dass die Varianz nicht systematisch zu klein
geschätzt wird.
Die Varianzen der Beispieldaten
Varianz in Klasse A: (xA = 11.65)
8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10
s2A =
(8 − 11.65)2 + (9 − 11.65)2 + . . . + (10 − 11.65)2
= 81.19
19
Varianz in Klasse B: (xB = 11.7)
8, 9, 3, 21, 16, 12, 8, 4, 10, 7, 11, 6, 9, 13, 21, 6, 8, 14, 8, 5
s2B =
(8 − 11.7)2 + (9 − 11.7)2 + . . . + (5 − 11.7)2
= 25.17
19
Deutung?
Die Standardabweichung einer Stichprobe
Die Varianz besteht aus einer Summe von quadrierten Abweichungen. Also ist auch die
Masseinheit der Varianz das Quadrat der Masseinheit der zugrunde liegenden Grösse.
Beispiel: Die Varianz s2 einer Stichprobe aus Franken-Beträgen ist eine Grösse mit der
Einheit Quadratfranken“.
”
Um die Streuung mit der ursprünglichen Masseinheit zu messen, wird die Standardabweichung s als Quadratwurzel der Varianz definiert:
√
s = s2
Deshalb kann die Standardabweichung als eine Art mittlere Abweichung vom Zentrum
”
der Daten“ interpretiert werden.
6
Die Standardabweichungen der Beispieldaten
Standardabweichung in Klasse A: (xA = 11.65)
√
sA = 81.19 = 9.01
Standardabweichung in Klasse B: (xB = 11.7)
√
sB = 25.17 = 5.02
Der Interquartilsabstand
Die Varianz bzw. die mit ihr verwandte Standardabweichung reagieren sensibel auf Ausreisser.
Auch bei den Massen für die Streuung gibt es eine Kennzahl, die robust gegenüber Ausreissern ist.
Es handelt sich dabei um den Interquartilsabstand (IQR= interquartile range). Der IQR
ist definiert als die Differenz zwischen dem dritten und dem ersten Quartil q0.75 − q0.25 .
Das erste Quartil q0.25 ist der Median in der unteren Hälfte der sortierten Daten.
Das dritte Quartil q0.75 ist der Median in der oberen Hälfte der sortierten Daten.
Beispiel
Diese Begriffe lassen sich gut an einem Beispiel veranschaulichen:
6
7
9
11
11
13
21
x̃ = 11
q0.25 = 8
q0.75 = 12
Also gilt: IQR = q0.75 − q0.25 = 12 − 8 = 4
Bemerkung: Werte, die kleiner als q0.25 − 1.5 · IQR oder grösser als q0.75 + 1.5 · IQR sind,
werden als Ausreisser bezeichnet.
Das Box-and-Whiskers Plot
2
4
6
8
xmin
10
12
14
16
1.5 · IQR
IQR
q0.25
20
22
xmax
x̃
1.5 · IQR
18
q0.75
7
Das Box-and-Whiskers Plot der Beispieldaten
A
B
1
4
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Übungen
Frage 1
Auf einem Fragebogen beantworteten 20 Personen eine Frage wie folgt:
immer
oft
manchmal
selten
oft
manchmal
nie
nie
oft
selten
nie
selten
oft
manchmal
manchmal
oft
nie
selten
immer
oft
Bestimmen Sie den Modus.
Frage 3
Bestimmen Sie den Mittelwert, die Varianz und die Standardabweichung für die Werte
der (sehr kleinen) Stichprobe: 4, 9, 5
Frage 4
Bestimmen Sie Mittelwert, Varianz und Standardabweichung der folgenden Stichprobe:
x1 = 2 cm, x2 = 8 cm, x3 = 1 cm und x4 = 5 cm
Frage 5
Vergleichen Sie die steuerbaren Einkommen von Minidorf und Kleinhausen: [in 10 000
Franken]:
Minidorf: 3, 5, 6, 6, 20
Kleinhausen: 5, 6, 8, 9, 12
8
Frage 6
Bestimmen Sie für die folgenden Werte den Median, das erste und dritte Quartil sowie
den IQR: 5, 8, 1, 7, 6, 3, 8
6. Februar 2015
9
Herunterladen