Auswertung univariater Datenmengen

Werbung
Auswertung univariater
Datenmengen - deskriptiv
¾ Mittlere absolute Abweichung (Desviation)
¾ Varianz
¾ Standardabweichung
¾ Variationskoeffizient
¾ Standardisierung
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
1
Bibliografie
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen
Statistik für Wirtschaftswissenschaftler
¾ Bleymüller / Gehlert
Verlag Vahlen
Statistische Formeln, Tabellen und Programme
¾ PowerPointPräsentationen (Prof. Kück/ Dr. Ricabal),
¾ Vorlesungsskript für Statistik I (Dr. Pu Chen),
¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat1/
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
2
Mittlere absolute Abweichung (Desviation)
¾
Die mittlere absolute Abweichung wird meist gegenüber
dem arithmetischen Mittel gebildet.
¾
Grundlage der Streuungsberechnung sind die
Abweichungen aller Einzelwerte vom Mittelwert.
¾
Die mittlere absolute Abweichung ist das arithmetische
Mittel aller Einzelabweichungen zum arithmetischen
Mittel.
1 N
MAD = ∑ a i − µ
N i =1
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
3
Beispiel: Mittlere Absolute Abweichung
Für die Gewichte der 10 betrachteten Personen ergibt sich bei einem
arithmetischen Mittel von 65 kg folgende Mittlere Absolute Abweichung.
Name
Nr. i
xi
Lisa
1
44
Anna
2
46
Antje
3
50
Marie Dörte
4
5
54
56
Sven
6
69
Uwe
7
72
Kai
8
78
Jan
9
80
Nils
10
101
MAD=
Nils
Jan
Kai
Uwe
Sven
Dörte
Marie
Antje
Anna
Lisa
120
100
80
60
40
20
0
1
(| 44 − 65 | + | 46 − 65 | + | 50 − 65 | +...+ | 101− 65 |) = 15
10
Man erhält als mittlere absolute Abweichung 15 kg.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
4
Mittlere absolute Abweichung
für gehäufte Daten
Liegen die Daten gehäuft vor, dann gilt:
Anzahl der verschiedenen
Merkmalsausprägungen
absolute Häufigkeit der
jeweiligen Ausprägung
relative Häufigkeit
der jeweiligen
Ausprägung
k
1 k
MAD = ∑ x i − µ ⋅ h i = ∑ x i − µ f i
N i =1
i =1
gehäufte Merkmalsausprägung
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
5
Mittlere absolute Abweichung
für klassierte Daten
Liegen die Daten klassiert vor, dann gilt:
Anzahl der Klassen
MAD =
absolute Häufigkeit
der jeweiligen Klasse
relative Häufigkeit
der jeweiligen Klasse
k
1 k '
x
−
µ
⋅
h
=
x i' − µ f i
∑
∑
i
i
N i =1
i =1
Klassenmitte
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
6
Beispiel: mittlere absolute Abweichung
für klassierte Daten
Für die in Gewichtsklassen erfassten 100 Personen ergibt sich bei einem
arithmetischen Mittel von (gerundet) 60 kg:
Klasse von…
Relative
Absolute
bis unter…
Häufigkeit
Differenz
42,5 bis 47,5
0,04
15
47,5 bis 52,5
0,18
10
52,5 bis 57,5
0,26
5
57,5 bis 62,5
0,20
0
62,5 bis 67,5
0,12
5
67,5 bis 72,5
0,09
10
72,5 bis 77,5
0,05
15
77,5 bis 82,5
0,03
20
82,5 bis 87,5
0,02
25
87,5 bis 92,5
0,01
30
Mittlere absolute Abweichung:
Spalte 2* Spalte 3
0,60
1,80
1,30
0,00
0,60
0,90
0,75
0,60
0,50
0,30
7,35
Interpretation: Bei einem arithmetischen Mittel von (gerundet) 60 kg weichen
die Einzelgewichte der 100 Personen durchschnittlich um 7,35 kg ab. Damit wird
ein Streubereich von 52,65 kg bis unter 67,35 kg ausgewiesen.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
7
Mittlere absolute Abweichung
gegenüber dem Median (MAD*)
Wenn als Lageparameter der Verteilung der Median
verwendet wird, dann ist die Angabe der mittleren absoluten
Abweichung gegenüber dem Median aussagefähig.
Median
MAD* =
1 k
∑ x i − Me ⋅ h i
N i =1
MAD* ist das arithmetische Mittel aller Abweichung der
Einzelwerte gegenüber dem Median, d.h. es gibt gleich viele
negative wie positive Abweichungen gegenüber dem Median.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
8
Median der absoluten Abweichungen
gegenüber dem Median (MAD** )
Es ist auch sinnvoll, anstelle des arithmetischen Mittels
den Median der Abweichungen zu bestimmen:
MAD** = Me({a 1 − Me ,..., a N − Me })
Abweichung zwischen Wert 1
und Median der Verteilung
MAD** gibt den Median aller Abweichung der Einzelwerte
gegenüber dem Median an.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
9
Beispiel: Beide mittlere absolute Abweichungen
gegenüber dem Median
Für das Körpergewicht der 10 etwa gleichaltrigen Personen ergibt sich bei einem
Median von 62,5 kg der Zentralwert der Abweichungen wie folgt:
Nr. i
1
xi
44
|xi - Me| 18,5
2
46
16,5
3
50
12,5
4
54
8,5
5
56
6,5
6
69
6,5
7
72
9,5
8
78
15,5
9
80
17,5
10
101
38,5
Summe=150 kg
¾ Das arithmetische Mittel der Abweichungen (MAD*) beträgt 15 kg.
Abweichungen absolut, der Größe nach geordnet:
Abw.
6,5
6,5
8,5
9,5
12,5
15,5
16,5
17,5
18,5
38,5
¾ Der Zentralwert der Abweichungsbeträge (MAD**) ist 14 kg.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
10
Beurteilung der mittleren absoluten
Abweichung
¾
Die mittlere absolute Abweichung ist eine sehr
anschauliche und plausible Maßzahl der Streuung.
¾
Allen Abweichungen wird der Betrag berechnet, damit
sich die positiven und die negativen Abweichungen in
der Summe nicht aufheben.
¾
Für asymmetrische Verteilungen ist es sinnvoll, die
mittlere absolute Abweichung für den oberen und für
den unteren Bereich getrennt zu ermitteln.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
11
Beurteilung der mittleren absoluten
Abweichung
f(x)
Unterer
Bereich
Für asymmetrische Verteilungen ergeben sich
für den unteren und für den oberen Bereich
unterschiedliche mittlere Abstände.
Oberer Bereich
x
Arithmetisches Mittel
f(x)
Für symmetrische Verteilungen sind die
Abstände des unteren und des oberen
Bereiches gleich bzw. annähernd gleich.
x
Arithmetisches Mittel
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
12
Varianz
Die Varianz ist das am häufigsten verwendete Streuungsmaß.
Analog zur mittleren absoluten Abweichung werden die
Abweichungen der Einzelwerte vom Mittelwert gebildet, diese
jedoch quadriert. Größere Abweichungen fallen dadurch
stärker ins Gewicht. Es gilt für Einzeldaten:
Einzelabweichungen zwischen
Beobachtungswerten und arithmetischem
Mittel der Verteilung
1 N
σ = ∑ (a i − µ )²
N i =1
2
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
13
Beispiel: Varianz
Für das Gewicht der 10 betrachteten Personen berechnet man die
Varianz bei einem arithmetischen Mittel von 65 kg wie folgt:
Name
Lisa
Anna
Antje
Nr. i
1
2
3
Marie Dörte
Sven
Uwe
Kai
Jan
Nils
4
5
6
7
8
9
10
xi
44
46
50
54
56
69
72
78
80
101
(xi - µ)2
441
361
225
121
81
16
49
169
225
1296
Summe=2.984 kg²
1
σ 2 = ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ²
10
Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit wie
das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
14
Varianz - Berechnungsformel
Bei der Varianzberechnung kann eine andere äquivalente
Formel vorteilhaft sein, deren Herleitung gezeigt wird:
σ2 =
1 N 2
∑ai − µ2
N i =1
σ2 =
1
N
N
2
∑ (a i − µ )
i =1
=
1
N
∑ (a
N
i =1
2
i
− 2 a iµ + µ 2
σ2 =
N
1 N
( ∑ a i ² − 2 µ ∑ a i + Nµ 2 )
N i =1
i =1
σ2 =
1 N 2
1
( ∑ a i − 2 Nµ 2 + Nµ 2 ) =
N i =1
N
Prof. Kück / Dr. Ricabal
N
∑a
i =1
2
i
)
− µ2
Lage- und Streuungsparameter III
15
Varianz für gehäufte bzw. klassierte Daten
Für gehäufte bzw. klassierte Merkmalsausprägungen ergibt sich die
Varianz wie folgt:
Anzahl der verschiedenen
Merkmalsausprägungen
bzw. der Klassen
Absolute Häufigkeit des
gehäuften Merkmals bzw.
der jeweiligen Klasse
Relative Häufigkeit des
gehäuften Merkmals bzw.
der jeweiligen Klasse
k
1 k
σ = ∑ (x i − µ )² ⋅ h i = ∑ (x i − µ )² ⋅ f i
N i =1
i =1
2
Einzelabweichungen zwischen gehäuften
Beobachtungswerten bzw. zwischen Klassenmitten
und arithmetischem Mittel der Verteilung
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
16
Varianz für gehäufte bzw. klassierte
Daten -BerechnungsformelOhne Herleitung sei auch hier die andere Varianzformel für gehäufte
Daten angeführt:
-
-
mit absoluten Häufigkeiten:
⎛ k
⎜ ∑ xi ⋅ hi
1 k
2
σ = ∑ x i ² ⋅ h i − ⎜ i =1
⎜
N i =1
N
⎜
⎝
⎞
⎟
⎟
⎟
⎟
⎠
2
µ²
mit relativen Häufigkeiten:
⎞
⎛ k
σ = ∑ x i ² ⋅ fi − ⎜ ∑ xi ⋅ fi ⎟
i =1
⎠
⎝ i =1
2
Prof. Kück / Dr. Ricabal
k
2
Lage- und Streuungsparameter III
17
Beispiel: Varianzberechnung bei
klassierten Daten
Für das klassierte Gewicht der 100 betrachteten Personen ergibt sich bei
einem arithmetischen Mittel von (gerundet) 60 kg die Varianz wie folgt:
Klasse i
hi
xi (Mitte)
(xi - µ)2 hi
σ2 =
1
4
45
900
2
18
50
1.800
1 k
(x i − µ )2 ⋅ h i
∑
N i =1
σ2 =
3
26
55
650
4
20
60
0
5
12
65
300
6
9
70
900
7
8
9
5
3
2
75
80
85
1.125 1.200 1.250
10
1
90
900
Summe=9.025 kg²
1
2
2
2
[(45 − 60 ) ⋅ 4 + (50 − 60 ) ⋅18 + ... + (90 − 60 ) ⋅1] = 90,25 kg 2
100
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
18
Standardabweichung
Die Standardabweichung einer Grundgesamtheit ist die
positive Wurzel aus der Varianz. Es gilt:
σ = σ²
Die Standardabweichung besitzt die gleiche Dimension
wie die Merkmalsausprägungen und deren Mittelwert,
sie ist zur Interpretation daher besser geeignet als die
Varianz. Die Standardabweichung ist genau dann gleich
Null, wenn alle Daten den gleichen Wert haben
(a1 = a2 = … = aN ).
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
19
Beispiel: Standardabweichung
Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei
einem arithmetischen Mittel von 65 kg die empirische Varianz wie folgt:
Name
Nr. i
xi
(x i - µ)
2
Lisa
1
44
Anna
2
46
Antje
3
50
Marie
4
54
Dörte
5
56
Sven
6
69
Uwe
7
72
Kai
8
78
Jan
9
80
Nils
10
101
441
361
225
121
81
16
49
169
225
1296
Summe=2.984 kg²
1
σ = ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ²
10
2
σ =
298,4 = 17,274
Die Streuung des Gewichtes, gemessen mit
der Standardabweichung, beträgt 17,274 kg.
Zum Vergleich: Die mittlere absolute Abweichung gegenüber dem
arithmetischen Mittel beträgt 15 kg.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
20
Beurteilung von Varianz und
Standardabweichung
Varianz und Standardabweichung sind die
gebräuchlichsten Streuungsmaße, weil sie freundliche
mathematische Eigenschaften besitzen. Sie sind jedoch
weniger anschaulich als die mittlere absolute Abweichung.
¾ Infolge des Quadrierens hat die Varianz nicht die gleiche
Maßeinheit des untersuchten Merkmals selbst. Die
Interpretation ist daher nicht sinnvoll. Große
Abweichungen zum Mittelwert werden stärker gewichtet.
¾ Die Standardabweichung besitzt die gleiche Dimension
wie die Merkmalsausprägungen und deren Mittelwert, sie
ist zur Interpretation daher besser geeignet als die Varianz.
¾
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
21
Variationskoeffizient
Interessiert die Streuung nicht in ihrer absoluten Größe,
sondern in ihrer Relation zum Mittelwert, ermittelt man
den Variationskoeffizienten (VC):
VC =
σ
µ
Der Variationskoeffizient gibt die relative Streuung an,
das Verhältnis der durchschnittlichen Abweichungen aller
Einzelwerte gegenüber dem Mittelwert.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
22
Beispiel: Variationskoeffizient
Variiert bei den 250 Autos die Leistung oder der Hubraum stärker? .
Datendatei auto_250.xls
Deskriptive Statistik
N
Hubraum [ccm]
Leistung [PS]
Gültige Werte
(Listenweise)
250
250
Mittelwert
1947,28
125,37
Standardab
weichung
770,599
57,418
250
Ein Vergleich der beiden
Varianzen/Standardabweichungen
liefert keine verwertbare Aussage,
da Leistung und Hubraum
unterschiedlich dimensioniert sind.
Die relative Streuung, der Variationskoeffizient, objektiviert den
Vergleich beider Merkmale besser.
VC Leistung =
57,478 PS
= 0,458
125,37 PS
VC Hubraum =
770,6 cm ³
= 0,396
1.947,28 cm ³
Interpretation: Im Verhältnis zum Mittelwert streut die Leistung
stärker als der Hubraum.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
23
Beurteilung des
Variationskoeffizienten
¾
¾
¾
¾
Der Variationskoeffizient ist ein relatives Streuungsmaß.
Er ist dimensionslos, da Standardabweichung und
Mittelwert die selbe, sich im Bruch wegkürzende
Dimension haben.
Der Variationskoeffizient ist vor allem für die
vergleichende Beurteilung von unterschiedlichen
Merkmalen geeignet.
Seine Berechnung ist strenggenommen nur für Merkmale
sinnvoll, die auf einer Verhältnisskala gemessen werden
können und einen absoluten Nullpunkt haben.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
24
Varianzzerlegung
σ 2k
µk
0
µ2 σ 22
µ1 σ 2
1
N2
1
σ i2 =
Ni
N1
Ni
k
Nk
N = ∑ Ni
i =1
Ni
∑ (a
j=1
µi =
− µi )
∑a
j=1
ij
N1
2
ij
Für eine Grundgesamtheit, die aus k Teilgesamtheiten mit den Umfängen
N1, N2, … , Nk, den arithmetischen Mitteln µ1 , µ2 , . . . , µk und den
2
2
2
Varianzen σ1 , σ 2 ,. . ., σ k , besteht, ergibt sich:
σ =
2
k
∑
i =1
k
k
Ni
N
2
⋅ σ i2 + ∑ i (µ i − µ )
N
i =1 N
Prof. Kück / Dr. Ricabal
µ=∑
mit
i =1
Ni
⋅ µi
N
Lage- und Streuungsparameter III
25
Mittelwertzerlegung
k
σ 2k
µk
Nk
0
µ2 σ 22
µ1 σ 12
µi =
⎛ Ni ⎞
⎜ ∑ a ij ⎟
∑
⎜
⎟
i =1 ⎝ j=1
⎠=
µ=
N
i =1
fi =
Ni
N
Ni
N2
N1
k
N = ∑ Ni
∑a
j=1
N1
ij
Ni
⇒ ∑ a ij = N i ⋅ µ i
j=1
k
∑ (N ⋅ µ )
i =1
i
N
i
k
⎛N
⎞ k
= ∑ ⎜ i ⋅ µ i ⎟ = ∑ (f i ⋅ µ i )
⎠ i =1
i =1 ⎝ N
Gewogenes arithmetisches Mittel mit dem Gewichten fi
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
26
Varianzzerlegung
k
µk
N = ∑ Ni
i =1
N2
Ni
j=1
0
[
ij
2
]
1 k Ni
σ 2 = ∑∑ (a ij − µ i ) + (µ i − µ )
N i =1 j=1
N1
∑a
1 k Ni
2
σ = ∑∑ (a ij − µ )
N i =1 j=1
2
Nk
µ2 σ 22
µ1 σ 12
µi =
σ 2k
Arithmetisches Mittel
der Teilgesamtheit i
N1
Arithmetisches Mittel
der Gesamtheit
k
µ=∑
i =1
Ni
⋅ µi
N
Aus dieser Formel und mit Hilfe mathematischer
Umformungen lässt sich die Varianz der Grundgesamtheit
in zwei Summen zerlegen. (Fortsetzung)
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
27
Varianzzerlegung (Fortsetzung)
k
µk
N = ∑ Ni
Nk
i =1
µ1 σ 2
1
σ 2k
µ2 σ 22
N2
N1
σ =
2
k
∑
i =1
1. Summand: Varianz innerhalb
der jeweiligen Gruppe, Schicht,
Teilgesamtheit
k
Ni
N
2
2
⋅ σ i + ∑ i (µ i − µ )
N
i =1 N
2. Summand: Varianz zwischen den
Gruppen, Schichten, Teilgesamtheiten
Die erste Summe liefert die durchschnittliche Varianz innerhalb der
Teilgesamtheiten und die zweite Summe den durchschnittlichen Abstand
(Varianz) zwischen den Teilgesamtheiten.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
28
Varianzzerlegung - Interpretation
Ni/N ist der Anteil der i-ten Teilgesamtheit an der
Gesamtheit für i=1, 2, … , k. D. h. die relative Größe der
Teilgesamtheit. Das wird als Gewicht genutzt.
Ni 2 k Ni
σ =∑
⋅ σi + ∑
⋅ (µ i − µ )²
N
N
i =1
i =1
2
k
Gewichtetes Mittel aus den
Varianzen der Teilgesamtheiten:
interne Varianz
Prof. Kück / Dr. Ricabal
Gewichtetes Mittel der
Abweichungen der Mittelwerte der
Teilgesamtheiten vom
Gesamtmittel: externe Varianz
Lage- und Streuungsparameter III
29
Beispiel: Varianzzerlegung
Die 10 Personen werden mit ihren Gewichtsangaben in zwei Gruppen nach
dem Geschlecht aufgeteilt:
5
Name
xi
Lisa
44
Anna
46
Antje
50
Marie
54
Dörte
56
σ =
2
1
∑ (x
i =1
1i
− 50)
2
= 20,8
5
Die Varianz für die erste Teilmenge beträgt 20,8 kg², der Mittelwert 50 kg.
5
Name
xi
Sven
69
Uwe
72
Kai
78
Jan
80
Nils
101
σ =
2
2
∑ (x
i =1
− 80)
2
2i
5
= 126
Die Varianz für die zweite Teilmenge beträgt 126 kg², der Mittelwert 80 kg.
5
5
⎞
⎛5
⎞ ⎛5
σ2 = ⎜ ⋅ 20,8 + ⋅126⎟ + ⎜ ⋅ (50 − 65)² + ⋅ (80 − 65)² ⎟ = 73,4 + 225 = 298,4
10
10
10
10
⎠
⎝
⎠ ⎝
Interne Varianz: 73,4 [kg²]
Externe Varianz: 225 [kg²]
Die Varianz der Gesamtmenge beträgt 298,4 kg², wobei 225 kg² auf die Varianz
zwischen den Teilmengen zurückzuführen ist. Verglichen mit den
gruppeninternen Varianzen von 20,8 kg² und 126 kg² zeigt sich, dass die
Differenzierung zwischen den Geschlechtern größer ist als innerhalb der Gruppen.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
30
Beispiel: Varianzzerlegung
Die Quadratmeterpreise bei Wohnungsmieten wurden für 815
Wohnungen in Berlin untersucht. Dabei wurden entsprechend der Lage
der Wohnungen zwei Gruppen gebildet (Westberlin, Ostberlin):
Für die gesamte Erhebung stellt sich die Verteilung wie folgt dar:
200
SPSS-Ausdruck
für Gesamtheit (Berlin)
100
Std.abw. = 5,15
Mittel = 17,8
N = 815,00
0
,0
46
,0
42
,0
38
,0
34
,0
30
,0
26
,0
22
,0
18
,0
14
,0
10
0
6,
Preis (DM/m²)
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
31
Beispiel: Varianzzerlegung
Quadratmeterpreisverteilung für West- und Ostberlin
SPSS Ausdruck für Westberlin
SPSS Ausdruck für Ostberlin
100
60
50
80
40
60
30
40
20
20
Std.abw. = 4,96
10
Std.abw. = 4,39
Mittel = 19,8
N = 421,00
0
N = 394,00
,0
26
,0
24
,0
22
,0
20
,0
18
,0
16
,0
14
,0
12
,0
10
0
8,
0
6,
,0
46
,0
42
,0
38
,0
34
,0
30
,0
26
,0
22
,0
18
,0
14
,0
10
0
6,
Preis (DM/m²)
Mittel = 15,6
0
Preis (DM/m²)
Aus den vorliegenden Angaben lässt sich die Varianz zwischen und
innerhalb der Teilmengen ermitteln.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
32
Beispiel: Varianzzerlegung
Anzahl N
Varianz
Mittelwert
Berlin
815
26,431
17,8
Ost
394
19,2721
15,6
West
421
24,6016
19,8
Es gilt die Beziehung:
σ2 =
1
N
k
∑
i =1
N i ⋅ σ i2 +
1
N
k
∑
N
i =1
i
(µ i − µ )2
421
421
⎛ 394
⎞ ⎛ 394
⎞
σ2 = ⎜
⋅19,2721+
⋅ 24,6016⎟ + ⎜
⋅ (15,6 − 17,8)² +
⋅ (19,8 − 17,8)² ⎟
815
815
815
815
⎝
⎠ ⎝
⎠
26,431 =
22,025
+
4,406
Die Varianz der Gesamtmenge beträgt 26,431 (DM/qm)², wobei 4,4 (DM/qm)²
auf die Varianz zwischen den Teilmengen zurückzuführen ist. Verglichen mit
den gruppeninternen Varianzen von 19,27 (DM/qm)² und 24,6 (DM/qm)² zeigt
sich, dass die Differenzierung innerhalb der Teilmengen größer ist als zwischen
den beiden Gruppen. Dieses Ergebnis kann auch dazu benutzt werden, um
Gruppierungen vorzunehmen oder nicht. Der Anteil der externen Varianz liefert
eine Begründung für Gruppierungen.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
33
Varianzen bei Lagetransformation der Daten
Lineare Transformation der Ursprungsdaten:
Fall 1:
σ 2Y = σ 2X
Y = a+ X
yi = a+ x i
Die Varianz der transformierten Werte ist gleich der Varianz der
Ursprungswerte, da lediglich ein „Sockel“ eingefügt wird:
Mittelwert
a
Mittelwert
a
Die Abstände zwischen Merkmalswerten und Mittelwert bleiben gleich,
die Varianz verändert sich nicht. Die Varianz ist lage-invariant.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
34
Varianz bei linearer Transformation der Daten
(b≠1)
Fall 2:
σ 2Y = b 2 ⋅ σ 2X
Y = a + b⋅ X
y i = a + b⋅ x i
Die Varianz der transformierten Werte ist um den Faktor b² größer als die
Varianz der Ursprungswerte, denn neben dem Sockel (a) sind die
Merkmalswerte durch die Multiplikation mit b „gespreizt“.
y.b
y
a
Die Differenz zwischen Merkmalswert und Mittelwert ist um den
Faktor b größer, der Faktor b geht mit seinem Quadrat in die Varianz
ein. Die Varianz ist skalen-äquivariant.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
35
Beispiel: Lineare Transformation der Daten
Frage: Beeinflusst die Inflation auch die Streuung der Konsumausgaben?
Es liegen für zwei Betrachtungszeiträume die Konsumausgaben von privaten
Haushalten (HH) vor, diese seien von 100 auf 120 Prozent gestiegen:
1990
Konsumausgaben in TDM
HH 1 HH 2 HH 3 HH 4 HH 5 HH 6 HH 7
20
2
σ1990
= 5,837 TDM ²
Konsumausgaben in TDM
2
σ1998
= 8,405 TDM ²
µ1998 = 25,37 TDM
Prof. Kück / Dr. Ricabal
18
25
23
18
22
X 1998 = 1,2 ⋅ X 1990
µ1990 = 21,14 TDM
1998
22
HH 1 HH 2 HH 3 HH 4 HH 5 HH 6 HH 7
24
26,4
21,6
µ 1998 = 1,2 ⋅ µ 1990
Lage- und Streuungsparameter III
30
27,6
21,6
26,4
2
2
σ 1998
= 1,2 2 ⋅ σ 1990
36
Beispiel: Lineare Transformation der Daten
Die relative Position der Haushalte zueinander hat sich nicht verändert,
lediglich aufgrund der Inflation sind die einzelnen Verbrauchsausgaben
um den Faktor 1,2 gestiegen (Ausgabenerhöhung um 20%).
Folglich ist der Abstand zwischen Merkmalswert und Mittelwert um den
Faktor 1,2 größer, woraus sich für die Varianz der Faktor 1,2² ergibt.
Y = a + b⋅ X
σ 2Y = b 2 ⋅ σ 2X
σ 2 = 8,405 TDM ² = 1,2 2 ⋅ 5,837 TDM ²
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
37
Beurteilung von Varianz und
Standardabweichung
¾
Varianz und Standardabweichung sind die gebräuchlichsten
Streuungsmaße, sie sind jedoch weniger anschaulich als die mittlere
absolute Abweichung.
¾
Varianz und Standardabweichung sind bei Lagetransformation der
Ursprungswerte unempfindlich.
¾
Bei linearer Transformation (b≠1) bewirkt eine um das Quadrat des
Faktors veränderte Varianz.
¾
Die Varianz einer Gesamtmenge ergibt sich aus der Summe von
interner (innerhalb der Gruppen) und externer (zwischen den
Gruppen) Varianz.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
38
Zusammenfassung der behandelten
Streuungsmaße
¾
Mittlere absolute Abweichung sowie Varianz und
Standardabweichung basieren auf der mittleren Abweichung aller
Einzelwerte von ihrem Mittelwert.
¾
Spannweite und Quartilsabstand basieren auf Differenzen zwischen
Merkmalswerten.
¾
Streuungsmaße sind in Abhängigkeit von der Skalierung der
Merkmalswerte zu verwenden.
¾
Ein sehr anschauliches Maß, vor allem bei ökonomischen
Sachverhalten, ist die mittlere absolute Abweichung.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
39
Standardisierte Maßzahlen
Will man mehrere Eigenschaften (Merkmale) der Objekte
(Einheiten) miteinander vergleichen, ist es erforderlich,
die unterschiedlichen Merkmalsdimensionen
auszuschalten. Das geschieht mittels Standardisierung.
Die hier behandelten Standardisierung ist die genannte
z-Transformation
Z=
Prof. Kück / Dr. Ricabal
X −µ
σ
mit
zi =
Lage- und Streuungsparameter III
ai − µ
σ
40
z-Transformation
Es gilt:
zi =
ai − µ
σ
Dabei bedeuten:
Abweichung gegenüber dem Mittelwert
zi : neuer Wert
ai : alter Wert
µ : Mittelwert der alten Daten
σ : Standardabweichung der alten Daten
Die Differenz zwischen Merkmalswert und Mittelwert
im Zähler sowie die Standardabweichung im Nenner
haben die selbe Dimension, die sich wegkürzt. Durch
z-Transformation erhält man dimensionslose Daten.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
41
Eigenschaften der z-Transformation
¾
¾
das arithmetische Mittel der neuen Werte ist Null,
die Varianz der neuen Werte hat den Wert Eins
Gemessene Werte
Standardisierte Werte
Prof. Kück / Dr. Ricabal
0
ai
0
zi
Lage- und Streuungsparameter III
42
Eigenschaften der z-Transformation
¾
¾
das arithmetische Mittel der neuen Werte ist Null,
die Varianz der neuen Werte hat den Wert Eins
zi =
ai − µ 1
1
= (a i − µ ) ⇒ µ z = (µ − µ ) = 0
σ
σ
σ
2
a −µ 1
⎛1⎞
= (a i − µ ) ⇒ σ 2z = ⎜ ⎟ σ 2 = 1
zi = i
σ
σ
⎝σ⎠
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
43
Beispiel: Vergleichbarkeit von Datenreihen durch die
z-Transformation
Was erkennt
man daraus?
1
2
3
4
5
6
7
8
9
10
Mittelwert
Streuung
a (1)
1,8
2,1
4,7
1,6
2,5
1,3
2,8
3,2
4,4
3,6
2,8
1,1
a (2)
2314
2700
6043
2057
3214
1672
3600
4114
5657
4629
3600
1422
z (1)
-0,90
-0,63
1,72
-1,09
-0,27
-1,36
0,00
0,36
1,45
0,72
0,00
1,00
z (2)
-0,90
-0,63
1,72
-1,09
-0,27
-1,36
0,00
0,36
1,45
0,72
0,00
1,00
Beide Datenreihen darstellen die gleiche Verteilung
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter III
44
Herunterladen