Beschreibung quantitativer Daten Lagemaßzahlen (1) Statistische

Werbung
‹
‹
‹
Um eine empirische Verteilung eines quantitativen
Merkmals zu beschreiben, betrachten wir Parameter, die
eine Verdichtung der Information des Datensatzes bzw.
der Verteilung ermöglichen.
Die wichtigsten Parameter sind die sog. Lageparameter,
die das absolute Niveau (die Größenordnung) der Daten
beschreiben sowie die Streuungsparameter, die messen,
wie stark sich die Beobachtungen um die Mitte
konzentrieren
Lagemaße
© Marcus Hudec
Beschreibung quantitativer Daten
Minimum, Maximum
Minimum
Maximum, Quantile
zentrale Lage:
Arithmetisches Mittel, Median, Modalwert
‹
Streuungsmaße
Spannweite, Quartilsabstand, Gini-Koeffizient, Varianz,
Standardabweichung, Variationskoeffizient
Statistik für SoziologInnen
1
5. Maßzahlen der Lage und Streuung
© Marcus Hudec
Lagemaßzahlen (1)
Statistische Maßzahlen, welche die absolute
Lage der Verteilung beschreiben
Minimum
Der kleinste Wert eines quantitativen Merkmals
min(x1,…,xn)
Maximum
Der größte Wert eines quantitativen Merkmals
max(x1,…,xn)
Statistik für SoziologInnen
2
5. Maßzahlen der Lage und Streuung
1
Arithmetisches Mittel (mean)
Mittelwert; Summe der Werte (Merkmalssumme)
geteilt durch die Anzahl der Beobachtungen(Fälle)
© Marcus Hudec
Lagemaßzahlen (2)
1 n
x = ∑ xi
n i =1
Modalwert
Der am häufigsten auftretende Wert
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
3
Median
Der Median oder Zentralwert eines (zumindest
ordinal-skalierten) Merkmals ist der Wert jener
Beobachtung, die in der nach diesem Merkmal
geordneten Gesamtheit „in der Mitte“ zu liegen
kommt.
x(( n+1) / 2 )
⎧
~
x0,5 = ⎨1
⎩2 (x( n / 2 ) + x(( n+2) / 2 ) )
© Marcus Hudec
Lagemaßzahlen (3)
, n ungerade
, n gerade
x(i) sind die geordneten Beobachtungen
Statistik für SoziologInnen
4
5. Maßzahlen der Lage und Streuung
2
‹ Das
arithmetische Mittel reagiert sehr sensibel auf
einzelne Extremwerte
‹ Der Median erweist sich gegenüber extremen
Beobachtungen als relativ robust
Richter
A
B
C
D
E
Note
19
18,5
19,5
19
19
Richter
A
B
C
D
E
Note
12
18,5
19,5
19
19
Richter
A
B
C
D
E
Note
12
12
19,5
19
19
17,6
19
Arith. Mittel
Median
16,3
19
Arith. Mittel
Median
19
19
Arith. Mittel
Median
Trimmed Mean
19
Trimmed Mean
Statistik für SoziologInnen
5
18,83
Trimmed Mean
16,67
5. Maßzahlen der Lage und Streuung
‹ Grundgedanke:
entferne vor der Mittelung die
extremen Beobachtungen, die das Ergebnis stark
beeinflussen können
‹ Der Datensatz wird um nα Beobachtungen
reduziert. Es werden die n(α/2) kleinsten und die
n(α/2) größten Beobachtungen von der
Mittelwertsbildung ausgeschlossen
‹ Allgemeines
g
Prinzip
p umfasst eine Familie von
Lagemaßzahlen:
Statistik für SoziologInnen
© Marcus Hudec
α-Trimmed Mean
• α=0
• αÎ100%
© Marcus Hudec
Mittelwert versus Median
ergibt das Arithmetischen Mittel
ergibt den Median
6
5. Maßzahlen der Lage und Streuung
3
n=40 α-Trimmed Mean mit α=10%
‹ Ausgeschlossen werden die vier extremen
Beobachtungen: x(1), x(2),x(39), x(40) und
‹ Beispiel:
© Marcus Hudec
Beispiel zu α-Trimmed Mean
1 n −1
xα =0,1 = ∑ x(i )
n i =3
‹ In
Excel Funktion: GESTUTZTMITTEL
Statistik für SoziologInnen
7
5. Maßzahlen der Lage und Streuung
© Marcus Hudec
Anwendungsbeispiel für Trimmed Mean
‹ EURIBOR:
Euro Interbank Offered Rate; wird täglich um 11
Uhr Brüsseler Zeit als ungewichteter Durchschnitt
aus Briefsätzen von Interbankeinlagen
erstklassiger Institute auf Basis der Transaktionen
von 57 Banken, darunter 47 aus dem Euroraum, 4
aus sonstigen EU-Ländern und aus 6
internationalen Banken, berechnet. Dabei werden
die jeweils 15% höchsten und tiefsten Werte
eliminiert.
Statistik für SoziologInnen
8
5. Maßzahlen der Lage und Streuung
4
Quantil
Wert einer quantitativen Variablen, welcher die
geordneten Daten in Gruppen unterteilt, so dass
ein bestimmter Prozentsatz darüber und ein
bestimmter Prozentsatz darunter liegt
–
–
© Marcus Hudec
Lagemaße (4)
~
x
Quartil (0%, 25%, 50%, 75%, 100%)
Dezil (0%, 10%, 20%, 30%, ..... 90%,100%)
Zwei Konzepte
a) Empirisches alpha-Quantil x(k)
wobei (k-1) < α*n ≤ k
b) Alpha-Quantil: Interpolation (z.B. Excel)
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
9
© Marcus Hudec
Beispiel
Schüler
Wochenzeit für
Hausaufgaben in h
x (i)
Wochenzeit für
Hausaufgaben in h
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Summe =
Mittelwert =
Minimum =
Maximum =
Statistik für SoziologInnen
4,25
21,50
13,75
13,75
,
6,75
3,25
21,00
23,50
0,75
13,75
9,25
12,75
15,75
23,25
5,50
,
22,00
10,25
13,50
13,50
21,00
269,00
13,45
0,75
23,50
(1)
(2)
(3)
((4))
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
((15))
(16)
(17)
(18)
(19)
(20)
0,75
3,25
4,25
5,50
,
6,75 <=== empirisches 1.Quartil
9,25
10,25
12,75
13,50
13,50
13,75
13,75
13,75
15,75
21,00
, <=== empirisches
p
3.Quartil
Q
21,00
21,50
22,00
23,25
23,50
Median =
1. Quartil =
3.Quartil =
10
13,625
8,625
21
5. Maßzahlen der Lage und Streuung
5
Trimmed Mean
Trimmed Mean
Trimmed Mean
alpha
0%
10%
99%
Schüler
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Summe =
Mittelwert =
Median =
22,90
13,74
13,63
Beim Trimmed Mean
(gestutztes Mittel)
werden die größten und
die kleinsten α/2Prozent abgeschnitten
und das Mittel der
verbleibenden
1-α Prozent berechnet.
Statistik für SoziologInnen
11
Wochenzeit für
Hausaufgaben in h
xi
4,25
21,50
13,75
13,75
6,75
3,25
210,00
23,50
0,75
13,75
9,25
12,75
15,75
23,25
5,50
22 00
22,00
10,25
13,50
13,50
21,00
458,00
22,90
13,63
5. Maßzahlen der Lage und Streuung
12 Würfen mit dem Würfel wurde folgendes
Ergebnis beobachtet:
‹ 5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6
‹ Der Durchschnitt (das Arithmetische Mittel) dieser
12 Augenzahlen ist 3,75.
Statistik für SoziologInnen
12
© Marcus Hudec
Arithmetisches Mittel
‹ Bei
© Marcus Hudec
Eine falsche Beobachtung
5. Maßzahlen der Lage und Streuung
6
Das Ergebnis des Würfelwurfs lässt sich auch in einer
Häufigkeitstabelle zusammenfassen:
xi
ni
hi
xihi xini
1
2
2/12 2/12 2
2
1
1/12 2/12 2
3
2
2/12 6/12 6
4
2
2/12 8/12 8
5
3
3/12 15/12 15
6
2
2/12 12/12 12
Summe 12
1
45/12 45
45/12 = 3,75
‹
Statistik für SoziologInnen
13
5. Maßzahlen der Lage und Streuung
vorigem Beispiel ergeben sich folgende
Formeln:
‹ k ... Anzahl der verschiedenen Ausprägungen
© Marcus Hudec
Arithmetisches Mittel bei tabellierten Daten
‹ Aus
© Marcus Hudec
Beispiel Würfelwurf
k
1 k
x = ∑ ni xi = ∑ hi xi
n i =1
i =1
Statistik für SoziologInnen
14
5. Maßzahlen der Lage und Streuung
7
n
∑ ( x − x) = 0
1)
© Marcus Hudec
4 Eigenschaften des arithmetischen Mittels
i
i =1
n
∑ ( x − c)
2)
2
i
= min!
für c = x
i =1
y i = a + bxi
3)
⇒ y = a + bx
Linearitä t
4) 2 Tei lg esamtheiten A, B:
A x1, x2 ,…, xnA mit x
B y1, y 2 ,…, y nB mit y
Arithmetische Mittel der Grundgesamtheit A ∪ B:
z=
nA ⋅ x + nB ⋅ y
nA + nB
bzw.
z = hA ⋅ x + hB ⋅ y
falls nA = nB ⇒ z = x + y
Statistik für SoziologInnen
15
5. Maßzahlen der Lage und Streuung
© Marcus Hudec
Beispiele:
‹ ad
‹
‹
‹
‹
‹
3) Linearität
Das Durchschnittseinkommen in einer bestimmten Gruppe
von Arbeitern beträgt 1.000,- €
Im Zuge einer Tarifverhandlung wird eine 4%
Lohnerhöhung beschlossen. Gleichzeitig wird beschlossen,
dass vom neuen Gehalt von jedem Arbeiter 10 € für einen
Solidaritätsfond einbehalten werden. Wie hoch ist das
neue Durchschnittseinkommen ?
X ... Einkommen bisher
Y ... Einkommen neu
Y=1,04*X-10
Neues Durchschnittseinkommen
y = a + bx = −10 + 1,04 ⋅ x = −10 + 1040 = 1030
Statistik für SoziologInnen
16
5. Maßzahlen der Lage und Streuung
8
‹ ad
4)
‹ In einem Unternehmen sind 120 Personen
beschäftigt. Die Lohnsumme beträgt 240.000 €
‹ Das Durchschnittseinkommen der 40 männlichen
Angestellten sei 2.400 €.
‹ Wie hoch ist das Durchschnittseinkommen der
weiblichen Angestellten?
‹ Gesamtmittelwert: 2.000€
2 000€
‹ 2000=(40*2.400+80*X)/120 ÎX=1.800€
Statistik für SoziologInnen
17
5. Maßzahlen der Lage und Streuung
Bevölkerungswachstum
‹ Beobachtungen x1, x2, ..., xn+1
‹ Wachstumsfaktoren:
wi =
xi + 1
xi
bzw.
© Marcus Hudec
Geometrisches Mittel
‹ Anwendungsbeispiel:
© Marcus Hudec
Beispiele
xi + 1 = xi ⋅ w i
‹ Wachstumsraten:
ri =
xi+1 − xi
*100 bzw. ri = (wi −1) *100
xi
‹ Durchschnittliches
Statistik für SoziologInnen
Wachstum ?
18
5. Maßzahlen der Lage und Streuung
9
© Marcus Hudec
Geometrisches Mittel
x n+1 = x n ⋅ w n = x n−1 ⋅ w n−1 ⋅ w n = … = x1 ⋅ w1 ⋅ w 2 ⋅ … ⋅ w n
x n+1 = x1 ⋅ w geom ⋅ w geom ⋅ … ⋅ w geom
n
w geom = w1 ⋅ w 2 ⋅… ⋅ w n = ∏ w i
n
i=1
w geom =
n
n
∏ wi = n
i=1
x n+1
x1
n
n
1
1 n
log(w geom ) = log(n ∏ w i ) = log(∏ w i ) = ∑ log(w i )
n
n i=1
i=1
i =1
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
19
© Marcus Hudec
Beispiel zum Geometrischen Mittel
Jahr
Umsatz in
Mio DM
1976
1977
1978
1979
1980
Produkt
4.Wurzel
ln
Statistik für SoziologInnen
2
2,4
2,9
2,7
3,1
Wachstums- Wachstums- Wachstumsfaktor
rate
rate in %
ln(W.-Faktor)
1,20
1,21
0,93
1,15
1,55
1,116
0,1096
20,0%
20,8%
-6,9%
14,8%
Arith. Mittel
11,6% exp(A.M.)
20
0,1823
0,1892
-0,0715
0,1382
0,1096
1,116
5. Maßzahlen der Lage und Streuung
10
© Marcus Hudec
Harmonisches Mittel
x=
1
n
1
1
∑
n i = 1 xi
bzw.
1
n
W = ∑ wi
n
wi
1
∑
W i = 1 xi
i =1
‹ Merkmal
sei Quotient:
Dimension-A/Dimension-B
‹ Anzahl (Gewichte) der Merkmalsträger:
– Dimension-B: Mittelung durch arithmetisches Mittel
– Dimension-A: Mittelung durch harmonisches Mittel
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
21
© Marcus Hudec
Beispiel zum Harmonischen Mittel
‹
Geschw.
30 km/h
90 km/h
Strecke
60km
60km
Ungewichtetes
Harmonisches Mittel
1
1
180
=
=
= 45
1
1
1/ 2 * 4 / 90
4
1/ 2 * ( + )
30 90
1
1
=
= 45
60 60 1/120 * 240 / 90
1/120 * ( + )
30 90
(nur zulässig, da beide
Strecken gleich lang sind)
22
1
n
n
∑
i =1
1
xi
Gewichtetes Harmonisches Mittel
(Gewichte sind Strecken)
x =
Statistik für SoziologInnen
1
x =
1
1
W
n
∑
i =1
wi
xi
W =
n
∑w
i =1
i
5. Maßzahlen der Lage und Streuung
11
‹ Berechnung
Geschw.
30 km/h
90 km/h
‹ Berechnung
der Durchschnittsgeschwindigkeit:
Dauer
2h
2/3h
© Marcus Hudec
Beispiel zum Harmonischen Mittel
mittels gewogenem arithmetischen
Mittels:
‹ Gewichte sind Zeitdauern
‹ (30*2 +90*2/3)/(2+2/3)=3*120/8=45
x=
n
1 n
w
x
W
=
wi
∑ ii
∑
W i=1
i =1
Statistik für SoziologInnen
23
5. Maßzahlen der Lage und Streuung
© Marcus Hudec
Periodischer Kauf von Wertpapieren
konstantes
100.000 Budget
Kurs
1/x
5.000
0,00020
6.000
0,00017
10.000
0,00010
4.000
0,00025
Summe
Summe/n
1/x
25.000
6.250
x =
1
1
n
n
∑
i=1
1
xi
0,00072
0,00018
5.581
Cost average effect
Statistik für SoziologInnen
24
5. Maßzahlen der Lage und Streuung
12
© Marcus Hudec
Periodischer Kauf von Wertpapieren
Kurs
5.000
6 000
6.000
10.000
4.000
1/x
Stück
Volumen
0,00020
20 100.000
0 00017
0,00017
16 7 100
16,7
100.000
000
0,00010
10 100.000
0,00025
25 100.000
71,7 400.000
25.000 0,00072
6.250 0,00018
5.581
Statistik für SoziologInnen
25
5.581
5. Maßzahlen der Lage und Streuung
© Marcus Hudec
Streuungsmaße
Statistische Maßzahlen, welche die Variabilität
oder die Streubreite in den Daten messen.
• Sie
Si beschreiben
b
h ib di
die Ab
Abweichung
i h
vom Z
Zentrum
t
einer Häufigkeitsverteilung
• Wie eng liegen die Merkmalsausprägungen eines
quantitativen Merkmals beieinander?
‹ Maßzahlen:
•
– Differenz von Quantilen
– Summe der Abstände aller Merkmalsausprägungen von
einem Lagemaß
Statistik für SoziologInnen
26
5. Maßzahlen der Lage und Streuung
13
Gruppe A Gruppe B
Gruppe A
24
34
34
35
23
32
21
36
30
32
34
38
22
53
54
51
23
57
54
54
Gruppe B
21
35
34
37
35
36
37
34
35
39
57
37
36
38
37
34
38
39
40
42
Durchschnitt
Minimum
Maximum
Spannweite
Varianz
Std.Abw.
VC
18
16
16
14
12
10
9
37,1
21,0
57,0
36,0
144 6
144,6
12,0
32%
37,1
21,0
57,0
36,0
37 0
37,0
6,1
16%
1.Quartil
2.Quartil
3.Quartil
Median
28,5
34,0
51,5
34,0
35,0
37,0
38,3
37,0
IQ-Distanz
23,0
3,3
© Marcus Hudec
Beispiel: 2 Altersverteilungen mit gleichem Mittel
8
6
6
5
4
2
2
1
1
0
0
0
0
20 bis 29
Statistik für SoziologInnen
30 bis 39
40 bis 49
27
50 bis 59
60 bis 70
5. Maßzahlen der Lage und Streuung
Spannweite (range)
Differenz zwischen größtem und kleinstem Wert
einer numerischen Variablen;
Wertebereich, in dem alle Merkmalswerte liegen
© Marcus Hudec
Streuungsmaße (1)
R = x( n ) − x(1)
Statistik für SoziologInnen
28
5. Maßzahlen der Lage und Streuung
14
Quartilsabstand (IQ-range)
Differenz zwischen drittem und erstem Quartil;
Innerhalb des Quartilsabstandes liegen 50% der
Werte;
unempfindlich gegenüber Extremwerten
© Marcus Hudec
Streuungsmaße (2)
~
x0, 75 − ~
x0, 25
Statistik für SoziologInnen
29
5. Maßzahlen der Lage und Streuung
‹
Mittlere absolute Abweichung vom Median
(mean absolute deviation (from the median) - MD)
© Marcus Hudec
Mittlere Abstände von einem Lagemaß
1 n
∑ xi − x
n i =1
Mittlere absolute Abweichung vom arithmetischen
Mittel (MAA) (mean absolute deviation (from the mean)
- MAD)
1 n
MAA = ∑ xi − x
n i =1
MD =
‹
‹
Median der absoluten Abweichungen vom Median
(median absolute deviation - MAD)
MAD = median( xi − x )
Statistik für SoziologInnen
30
5. Maßzahlen der Lage und Streuung
15
© Marcus Hudec
Abstände von einem Lagemaß
‹ Varianz
(variance)
s2 =
1 n
2
( xi − x )
∑
n i =1
‹ Die
mittlere quadrierte Abweichung vom
arithmetischen Mittel
‹ Häufig wird auch statt durch n durch n-1 dividiert
(E klä
(Erklärung
ffolgt
l t iim 2
2.Semester)
S
t )
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
31
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Absolute
Quadratierte
Absolute
Quadratierte
Abweichung Abweichung Abweichung
Abweichung Abweichung Abweichung
Gruppe A vom Mittel
vom Median vom Mittel
Nr. Gruppe B vom Mittel
vom Median vom Mittel
24
-13,1
10,0
170,3
1
21
-16,1
16,0
257,6
34
-3,1
0,0
9,3
2
35
-2,1
2,0
4,2
34
-3,1
0,0
9,3
3
34
-3,1
3,0
9,3
35
-2,1
1,0
4,2
4
37
0,0
0,0
0,0
23
-14,1
11,0
197,4
5
35
-2,1
2,0
4,2
32
-5,1
2,0
25,5
6
36
-1,1
1,0
1,1
21
-16,1
13,0
257,6
7
37
0,0
0,0
0,0
36
-1,1
2,0
1,1
8
34
-3,1
3,0
9,3
30
-7,1
4,0
49,7
9
35
-2,1
2,0
4,2
32
-5,1
2,0
25,5
10
39
2,0
2,0
3,8
34
-3,1
0,0
9,3
11
57
20,0
20,0
398,0
38
1,0
4,0
0,9
12
37
0,0
0,0
0,0
22
-15,1
12,0
226,5
13
36
-1,1
1,0
1,1
53
16,0
19,0
254,4
14
38
1,0
1,0
0,9
54
17,0
20,0
287,3
15
37
0,0
0,0
0,0
51
14 0
14,0
17 0
17,0
194 6
194,6
16
34
-3 1
-3,1
30
3,0
93
9,3
23
-14,1
11,0
197,4
17
38
1,0
1,0
0,9
57
20,0
23,0
398,0
18
39
2,0
2,0
3,8
54
17,0
20,0
287,3
19
40
3,0
3,0
8,7
54
17,0
20,0
287,3
20
42
5,0
5,0
24,5
Summe:
Statistik für SoziologInnen
0,0
191,0
2893,0
9,55
144,6
3,35
37,0
MD
Varianz
MD
Varianz
32
Summe:
0,0
67,0
© Marcus Hudec
Berechnung von Streuungsmaßen
741,0
5. Maßzahlen der Lage und Streuung
16
‹ Standardabweichung
s = s2 =
1 n
( xi − x ) 2
∑
n i= 1
‹ Variationskoeffizient
v=
s
x
Statistik für SoziologInnen
bzw.
v=
– (standard deviation)
(coefficient of variance)
s
⋅ 100
x
33
5. Maßzahlen der Lage und Streuung
‹ Eine
Standardabweichung von 300,- € beim
monatlichen Einkommen ist in einer
Gesellschaftsschicht mit einem
Durchschnittseinkommen von 1.500,- € von
wesentlich größerer Bedeutung als in einer
Gruppe von Einkommensbeziehern, die im
Monatsdurchschnitt 2.400,- € verdienen.
‹ In der ersten Gruppe ist der Variationskoeffizient
20%, während er in der zweiten Gruppe nur 12,5%
beträgt, obwohl die Standardabweichung in beiden
Gruppen gleich groß ist.
34
© Marcus Hudec
Bedeutung des Variationskoeffizienten
Statistik für SoziologInnen
© Marcus Hudec
Abgeleitete Streuungsparameter
5. Maßzahlen der Lage und Streuung
17
‹
‹
‹
‹
Die Volatilität gilt als Einschätzung des künftigen Risikos
einer Aktie. Als Maß für die Volatilität verwendet man
häufig den Variationskoeffizienten
B i i l Im
Beispiel:
I Durchschnitt
D h h i üb
über 2
250
0H
Handelstage
d l
b
betrug d
der
mittlere Kurs einer Aktie A 50,59 € bei einer
Standardabweichung von 36,18€. Über den selben
Vergleichszeitraum betrug der mittlere Kurs einer Aktie B
396,10 € bei einer Standardabweichung von 182,96 €.
Obwohl die Standardabweichung der Aktie A deutlich
geringer
i
iist,
t muss ein
i IInvestor
t hier
hi mitit einem
i
größeren
öß
Risiko rechnen als bei der Aktie B, dies wird durch den
Variationskoeffizienten quantifiziert:
VKA=36,18/50,59*100=72% VKB=182,96/396,10*100=46%
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
35
xi
1
2
3
4
5
6
7
8
9
10
Summe
xi-xq
0,30
0,21
0,19
0,27
0 32
0,32
0,30
0,26
0,22
0,31
0,20
2,58
abs(xi-xq)
0,04
-0,05
-0,07
0,01
0 06
0,06
0,04
0,00
-0,04
0,05
-0,06
0,00
0,042
0,048
0,068
0,012
0 062
0,062
0,042
0,002
0,038
0,052
0,058
0,424
Arithmetisches Mittel (xq)
Median (med):
0,258
0,265
MD:
MAA:
MAD:
0,0420
0,0424
0,0450
Varianz:
Standardabweichung:
Variationskoeffizient:
0,002196
0,046861
18,2%
Statistik für SoziologInnen
36
abs(xi-med)
0,035
0,055
0,075
0,005
0 055
0,055
0,035
0,005
0,045
0,045
0,065
0,420
(xi-xq)²
© Marcus Hudec
Rechenbeispiel: Reaktionszeiten
i
© Marcus Hudec
Volatilität
0,00176
0,00230
0,00462
0,00014
0 00384
0,00384
0,00176
0,00000
0,00144
0,00270
0,00336
0,02196
Mittlere absolute Abweichung vom Median
Mittlere absolute Abweichung vom arithmetischen Mittel
Median der absoluten Abweichungen vom Median
5. Maßzahlen der Lage und Streuung
18
‹ Die
Angabe der Standardabweichung erfolgt oft in
der Form
© Marcus Hudec
Interpretation
x ±σ
‹ Im
Beispiel: 0,258±0,047
‹ Unter der Annahme einer „Normalverteilung“
(Form der Häufigkeitsdichte entspricht einer
Glockenkurve) [Details im SS] liegen ca
ca. 95% der
Datenpunkte in einem Bereich von
x ± 2σ
Statistik für SoziologInnen
37
‹ (1)
‹ (2)
‹ (3)
s2 =
© Marcus Hudec
Alternative Berechnungsformeln
5. Maßzahlen der Lage und Streuung
1 n
⎛1 n
⎞
2
( xi − x ) = ⎜ ∑ xi 2 ⎟ − x 2
∑
n i =1
⎝ n i =1 ⎠
2
⎛
⎛ n ⎞ ⎞
⎜
⎜ xi ⎟ ⎟
⎠ ⎟
1⎜ n 2 ⎝∑
2
s = ∑ xi − i = 1
n ⎜ i =1
n ⎟
⎜
⎟
⎝
⎠
s2 =
Statistik für SoziologInnen
1⎛ n 2
2⎞
⎜ ∑ xi − nx ⎟
⎠
⎝
n i =1
38
5. Maßzahlen der Lage und Streuung
19
© Marcus Hudec
Alternative Berechnungsformeln im Beispiel
xi²
xi
i
1
2
3
4
5
6
7
8
9
10
Summe
0,30
0,21
0,19
0 27
0,27
0,32
0,30
0,26
0,22
0,31
0,20
2,58
0,09
0,04
0,04
0 07
0,07
0,10
0,09
0,07
0,05
0,10
0,04
0,69
s2 =
1 n
1 n
2
( xi − x ) = ∑ xi 2 − x 2
∑
n i =1
n i =1
=(1/10)*0
(1/10) 0,69
69-0
0,258
258²
0,002196
2
⎛
⎛ n ⎞ ⎞
⎜ n
⎜ ∑ xi ⎟ ⎟
⎝
⎠
1
2
⎟
s 2 = ⎜ ∑ xi − i = 1
⎟
n ⎜ i=1
n
⎟
⎜
⎠
⎝
=(1/10)*(0,69-2,58²/10)
Arithmetisches Mittel (xq)
0 002196
0,002196
0 258
0,258
s2 =
1⎛ n 2
2⎞
⎜ ∑ xi − nx ⎟
⎠
n ⎝ i =1
=(1/10)*(0,69-10*0,258²)
0,002196
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
39
© Marcus Hudec
Eigenschaften der Varianz
‹ "Steiner´scher
n
∑ (x
i =1
− a) = ∑ ( x i − x) + n( x − a)
2
i
n
Verschiebungssatz"
2
2
i =1
‹ Auswirkung
linearer Transformationen
y = a + bx ⇒ s 2 ( y ) = b 2 s 2 ( x )
Verschiebungs-Invarianz
Statistik für SoziologInnen
40
5. Maßzahlen der Lage und Streuung
20
© Marcus Hudec
Varianzermittlung aus Teilpopulationen
2 Tei lg esamtheiten A, B:
A
x1, x2 ,…, xnA mit x
y1, y 2 ,…, y nB mit y
nA s A + nB sB nA ( xA − x) + nB ( xB − x)
+
nA + nB
nA + nB
2
s2 =
B
pA =
2
2
nA
nA + nB
pB =
2
nB
nA + nB
s 2 = p A ⋅ s A + pB ⋅ sB + p A ( xA − x) + pB ( xB − x )
2
2
2
2
Gesamte Varianz ist das gewichtete Mittel der Teilvarianzen plus
dem gewichteten Mittel der quadratischen Abweichungen der
Gruppenmittel vom Gesamtmittel (Vtot=Vwithin+Vbetween)
Statistik für SoziologInnen
41
5. Maßzahlen der Lage und Streuung
‹ Es
liegen Daten aus 2 Betrieben A und B vor:
‹ 400 Angestellte aus Betrieb A verdienen
monatlich im Mittel 1.920,84 €
‹ 300 Angestellte aus Betrieb B verdienen
monatlich im Mittel 2.012,17 €
‹ Dann beträgt der Gesamtmittelwert nach dem
Prinzip des gewogenen arithmetischen Mittels:
1 959 98 €
1.959,98
μ=
Statistik für SoziologInnen
© Marcus Hudec
Beispiel: Ermittlung des Mittelwertes aus 2 Teilgesamtheiten
400 ⋅1920,84 + 300 ⋅ 2012,17
400 + 300
42
5. Maßzahlen der Lage und Streuung
21
‹ Das
Einkommen der 400 Angestellten aus Betrieb
A hat eine Standardabweichung von 220,32 €
‹ Das Einkommen der 300 Angestellten aus Betrieb
B hat eine Standardabweichung von 411,98 €
‹ Dann beträgt die Standardabweichung der
Angestellten beider Betriebe zusammen: 320,19 €
© Marcus Hudec
Beispiel: Ermittlung der Varianz aus 2 Teilgesamtheiten
400 ⋅ 220,32² + 300 ⋅ 411,98²
+
400 + 300
400 ⋅ (1920,84 − 1959,98)² + 300 ⋅ (2012,17 − 1959,98)²
+
=
400 + 300
= 102520, 76
s² =
s = 102520, 76 = 320,19
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
43
‹
‹
Gegeben seien Beobachtungen x1, ..., xn mit
Mittel x und Varianz s2
Gesucht ist eine lineare Transformation z=a+bx, so dass
für die transformierten Daten das arithmetische Mittel 0
und die Varianz 1 wird.
zi =
xi − x
x 1
= − + xi
sx
sx sx
a
z=−
‹
© Marcus Hudec
Standardisierung
x
1
+ x=0
sx sx
b
s2z =
1 2
2 sx = 1
sx
Unterscheide: xi-x(1)/(x(n)-x(1)) bildet xi in [0,1] ab
Statistik für SoziologInnen
44
5. Maßzahlen der Lage und Streuung
22
i
1
2
3
4
5
6
7
8
9
10
Summe
xi
0,30
0,21
0,19
0,27
0,32
0,30
0,26
0,22
0,31
0,20
2 58
2,58
Arithmetisches Mittel (xq):
Standardabweichung (x):
Statistik für SoziologInnen
xi-xq
zi=(xi-xq)/s
0,04
-0,05
-0,07
0,07
0,01
0,06
0,04
0,00
-0,04
0,05
-0,06
0 00
0,00
0,258
0,046861
0,8963
-1,0243
-1,4511
1,4511
0,2561
1,3230
0,8963
0,0427
-0,8109
1,1097
-1,2377
0 00
0,00
zi²
© Marcus Hudec
Beispiel zur Standardisierung
0,803278689
1,049180328
2,10564663
0,06557377
1,750455373
0,803278689
0,001821494
0,657559199
1,23132969
1,531876138
10 00
10,00
Varianz(z): 1
Standardabweichung (z): 1
45
5. Maßzahlen der Lage und Streuung
Treten nur k unterschiedliche Werte
x1, ..., xk mit zugehörigen absoluten Häufigkeiten
n1, ..., nk bzw.
bzw relativen Häufigkeiten h1, ..., hk
auf, so ergibt sich die Varianz als:
© Marcus Hudec
Berechnung bei diskreten Daten
k
1 k
2
s = ∑( xi − x ) ni = ∑( xi − x )2 hi
n i=1
i =1
2
⎛1 k
⎛ k
⎞
2⎞
s² = ⎜ ∑ni ⋅ xi ⎟ − x ² = ⎜ ∑hi ⋅ xi2 ⎟ − x ²
⎝ n i=1
⎠
⎝ i=1
⎠
Statistik für SoziologInnen
46
5. Maßzahlen der Lage und Streuung
23
© Marcus Hudec
Berechnung Varianz – diskrete Daten
‹
‹
‹
‹
Bei 12 Würfen mit dem Würfel wurde folgendes
Ergebnis beobachtet:
5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6
Die Summe der 12 Augenzahlen ist 45. Der
Durchschnitt (das Arithmetische Mittel) dieser 12
Augenzahlen ist 3,75. Die Summe der quadrierten
Augenzahlen beträgt 25+15+…+9+36=203
Demnach ist die Varianz:
1⎛ n 2
⎞
s = ⎜ ∑xi − nx 2 ⎟
n ⎝ i=1
⎠
2
s2 =1/12(203−12*3,75²) = 2,85
Statistik für SoziologInnen
5. Maßzahlen der Lage und Streuung
47
xi
1
2
3
4
5
6
ni
hi
2
1
2
2
3
2
12
xihi
0,17
0,08
0,17
0,17
0,25
0,17
1,00
0,17
0,17
0,50
0,67
1,25
1,00
3,75
Arithmetisches Mittel
Alternativ:
xini
xi²ni
2
2
6
8
15
12
45
2
4
18
32
75
72
203
3,75
xi-xq
-2,75
-1,75
-0,75
0,25
1,25
2,25
(xi-xq)²
7,56
3,06
0,56
0,06
1,56
5,06
Varianz
(xi-xq²)hi
1,26
0,26
0,09
0,01
0,39
0,84
2,85
(xi-xq²)ni
© Marcus Hudec
Berechnung mittels Häufigkeiten
15,13
3,06
1,13
0,13
4,69
10,13
34,25
2,85
203/12-3,75²=2,85
⎛1 k
⎞
s ² = ⎜ ∑ ni ⋅ xi2 ⎟ − x ²
⎝ n i =1
⎠
Statistik für SoziologInnen
48
5. Maßzahlen der Lage und Streuung
24
Sind die Daten in k Klassen eingeteilt, kann man
die Varianz nur näherungsweise berechnen,
indem man mit den Klassenmittelwerten m1, ..., mk
arbeitet.
1
s =
n
b zw .
2
k
∑ (m
i =1
⎛1
s =⎜
⎝n
2
Statistik für SoziologInnen
k
∑
i =1
− x ) ni =
2
i
k
∑ (m
i =1
i
− x ) 2 hi
⎞
⎛ k
2
m n i ⎟ − x = ⎜ ∑ m i2 hi
⎠
⎝ i =1
2
i
⎞
2
⎟− x
⎠
5. Maßzahlen der Lage und Streuung
49
Bis Anzahl
2
12
4
32
8
32
12
16
20
8
100
mi
1
3
6
10
16
Varianz
Standardabweichung
Variationskoeffizient
16,4
4,05
0,69
Statistik für SoziologInnen
50
© Marcus Hudec
Rechenbeispiel:Varianz bei klassifizierten Daten
Von
0
2
4
8
12
SUMME
© Marcus Hudec
Berechnung bei klassifizierten Daten
hi m i *hi m i ²*hi
0,12 0,12 0,12
0 32 0,96
0,32
0 96 2,88
2 88
0,32 1,92 11,52
0,16
1,6
16
0,08 1,28 20,48
1 5,88
51
=(51-5,88²)
5. Maßzahlen der Lage und Streuung
25
Klasse
bis 150
(150 - 155]
(155 - 160]
(160 - 165]
(165 - 170]
(170 - 175]
(175 - 180]
(180 - 185]
(185 - 190]
(190 - 195]
(195 - 200]
ni
0
3
4
10
16
23
20
11
10
1
2
100
Mittelwert=
Varianz=
hi
0,00
0,03
0,04
0,10
0,16
0,23
0,20
0,11
0,10
0,01
0,02
1
mi
mihi
mi²hi
152,5
157,5
162,5
167,5
172,5
177,5
182,5
187,5
192,5
197,5
4,58
6,30
16,25
26,80
39,68
35,50
20,08
18,75
1,93
3,95
173,80
697,69
992,25
2640,63
4489,00
6843,94
6301,25
3663,69
3515,63
370,56
780,13
30294,75
© Marcus Hudec
Beispiel Körpergröße von 100 Studenten
173,80
30.294,75-173,8²=88,31
Exakte Berechnungen auf Basis der Urliste
n=
Summe x =
Summe x² =
Arithmetisches Mittel =
Varianz=
Standardabweichung=
100
17.440
3.049.914
174,4
83,78
9,15
Statistik für SoziologInnen
51
5. Maßzahlen der Lage und Streuung
‹
‹
Es lässt sich theoretisch zeigen, dass bei einer
unimodalen Verteilung die auf der Basis der
klassifizierten Daten berechnete Varianz größer ist als
die aus den Originaldaten.
Originaldaten
Bei einer Klasseneinteilung mit konstanter Breite Δ kann
der Fehler mit der sog. Sheppard-Korrektur annähernd
ausgeglichen werden:
σ ² korr .
Δ2
=σ²−
12
σ ² korr . = 88,31 −
Statistik für SoziologInnen
© Marcus Hudec
Sheppard-Korrektur
25
= 86, 23
12
52
5. Maßzahlen der Lage und Streuung
26
Herunterladen