Auswertung univariater Datenmengen

Werbung
Auswertung univariater
Datenmengen - deskriptiv
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
1
Lage- und Streuungsparameter IV
Bibliografie
¾
Prof. Dr. Kück;
Statistik, Vorlesungsskript
Abschnitt 6.1.2
¾
Bleymüller/Gehlert/Gülicher;
Statistik für Wirtschaftswissenschaftler
Verlag Vahlen
¾
Bleymüller/Gehlert;
Formeln, Tabellen und Programme
Verlag Vahlen
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
2
Lage- und Streuungsparameter IV
1
Varianz - Beispiel
Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei
einem arithmetischen Mittel von 65 kg die empirische Varianz wie folgt:
Name
Nr. i
xi
(x i - µ)
2
Lisa
1
44
Anna
2
46
Antje
3
50
Marie
4
54
Dörte
5
56
Sven
6
69
Uwe
7
72
Kai
8
78
Jan
9
80
Nils
10
101
441
361
225
121
81
16
49
169
225
1296
Summe=2.984 kg²
σ2 =
1
⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ²
10
Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit wie
das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
3
Lage- und Streuungsparameter IV
Standardabweichung
Die (empirische) Standardabweichung ist die positive
Wurzel aus der (empirischen) Varianz. Es gilt:
σ = σ²
Die Standardabweichung besitzt die gleiche Dimension
wie die Merkmalsausprägungen und deren Mittelwert, sie
ist zur Interpretation daher besser geeignet als die Varianz.
Die Standardabweichung ist genau dann gleich Null, wenn
alle Daten den gleichen Wert haben (a1 = a2 = … = aN ).
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
4
Lage- und Streuungsparameter IV
2
Standardabweichung - Beispiel
Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei
einem arithmetischen Mittel von 65 kg die empirische Varianz wie folgt:
Name
Nr. i
xi
(x i - µ)
2
Lisa
1
44
Anna
2
46
Antje
3
50
Marie
4
54
Dörte
5
56
Sven
6
69
Uwe
7
72
Kai
8
78
Jan
9
80
Nils
10
101
441
361
225
121
81
16
49
169
225
1296
Summe=2.984 kg²
σ2 =
σ =
1
⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ²
10
298,4 = 17,274
σ = σ2
Die Streuung des Gewichtes, gemessen mit
der Standardabweichung, beträgt 17,274 kg.
Zum Vergleich: die mittlere absolute Abweichung
gegenüber dem arithmetischen Mittel beträgt 15 kg.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
5
Lage- und Streuungsparameter IV
Varianz und Standardabweichung - Beispiel
Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt)
In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5
Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, … vor:
Bundesland Bevölkerungs- Erwerbsanteil (%)
tätige (Tsd.)
Erwerbsquote (%)
HB
4,8
385
53,5
HH
11,6
1.048
60,2
MV
11,8
730
41,2
NI
53,0
3.482
43,8
SH
18,8
1.230
43,6
Erwerbsquote Norddeutschland
45,8
Berechnen Sie Varianz und Standardabweichung
der Erwerbsquote.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
σ² = (0,535-0,458)² 0,048 +
+ (0,602-0,458)² 0,116
+ (0,412-0,458)² 0,118
+ (0,438-0,458)² 0,530
+ (0,436-0,458)² 0,188
σ² = 0,003242
σ = 0,056939
Die einzelnen Bundesländer
liegen durchschnittlich 5,7
Prozentpunkte vom Wert der
Erwerbsquote für
Norddeutschland entfernt.
Bereich EWQ 40,1% bis 51,5%
6
Lage- und Streuungsparameter IV
3
Varianz und Standardabweichung - Beispiel
Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt)
In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer
liegen für 2001 folgende Eckdaten über Bevölkerung … und Bruttoinlandsprodukt vor:
Bundesland
Bevölkerungsanteil (%)
BruttoinlandsProdukt (Mrd. €)
BIP je Einwohner
(Tsd. €)
HB
4,8
23,4
32,5
HH
11,6
75,5
43,4
MV
11,8
29,7
16,8
NI
53,0
180,4
22,7
SH
18,8
66,0
23,4
BIP je Einwohner Norddeutschland
25,0
Berechnen Sie die Varianz und
Standardabweichung des BIP je Einwohner
(in Tausend Euro).
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
σ² = (32,5-25)² 0,048 +
+ (43,4-25)² 0,116
+ (16,8-25)² 0,118
+ (22,7-25)² 0,530
+ (23,4-25)² 0,188
σ² = 53,192
σ = 7,293
Die einzelnen Bundesländer
liegen durchschnittlich
7.293 € vom Wert des BIP je
Einwohner von 25.000 €
entfernt.
Bereich BIP/EW 17,7 bis 32,3
(Tausend Euro).
7
Lage- und Streuungsparameter IV
Sigma-Bereiche - Beispiel
In den Beispielen wird eine Interpretation der Standardabweichung vorgenommen,
welche die Bereichsangabe um das arithmetische Mittel benutzt. Man benutzt diese in
der beschreibenden Statistik auch als anschauliche Interpretation folgender Art:
• im 2-Sigma-Bereich um das arithmetische Mittel liegen mindestens 75% der Daten,
W(|X-µ|<2σ)=W(µ-2σ<X< µ+2σ)≥0,75
• im 3-Sigma-Bereich um das arithmetische Mittel liegen mindestens 89% der Daten.
W(|X- µ|<3σ)=W(µ-3σ<X< µ+3σ)≥0,89
Diese Aussagen gehen auf die Tschebyscheff-Ungleichung der
Wahrscheinlichkeitsrechnung zurück. Es ist allerdings Vorsicht geboten bei „kleinen
Mengen“, wie beim Beispiel hochaggregierter Regionaldaten. Die Interpretation wird in
diesen Beispielen sachbezogen vorgenommen, um eine Vorstellung der Differenziertheit
der Bundesländer zu gewinnen.
Die einzelnen Bundesländer liegen durchschnittlich 5,7
Prozentpunkte vom Wert der Erwerbsquote für Norddeutschland
entfernt. Bereich (µ-σ<X<µ+σ) für EWQ 40,1% bis 51,5%
Die einzelnen Bundesländer liegen durchschnittlich 7293 € vom Wert des BIP je
Einwohner von 25000 € entfernt. Bereich BIP/EW 17,7 bis 32,7 (Tausend Euro).
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
8
Lage- und Streuungsparameter IV
4
Tschebyscheff-Ungleichung
Sei X ein Zufallsvariable mit Erwartungswert µ und Varianz σ². Dann gilt für alle reellen
Zahlen k>0:
W( X − µ < k σ ) ≥ 1 −
1
k2
Die Ungleichung gibt eine untere Grenze für die Wahrscheinlichkeit an, dass ein Wert
einer Zufallsvariable X mit endlicher Varianz innerhalb eines bestimmtes Bereiches um
den Erwartungswert der Variable liegt. Damit ist auch eine obere Grenze für die
Wahrscheinlichkeit angegeben, dass die Werte außerhalb dieses Bereiches liegen. Der
Satz lässt sich auch auf Verteilungen anwenden, die nicht "glockenförmig" sind und setzt
Grenzen dafür, wie viele der Daten "in der Mitte" liegen und wie viele nicht.
Untere
Grenze
k
1-1/k²
1
0
2
0,75
3
8/9 ≈ 0,89
Nur für k>1 liefert die Ungleichung eine
nützliche Information.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
9
Lage- und Streuungsparameter IV
Teilgesamtheiten und Grundgesamtheit - Beispiel
Beobachtungswerte können in Teilmengen (Teilgesamtheiten)
vorliegen, die zu einer Gesamtmenge zusammengefasst werden
können.
Beispiel: Fasst man die 250 betrachteten Fahrzeuge als Gesamtmenge auf, so
lässt sich diese z. B. nach der Karosserieform in Teilmengen untergliedern.
Limousinen, Kombis, Stufenheck- und Großraumlimousinen lassen sich
umgekehrt wieder zur Gesamtmenge zusammenführen (aggregieren). Allgemein:
Teilmenge 1
:
Teilmenge i
:
Teilmenge k
Merkmalswert 1
a1 1
..
Merkmalswert j
a1 j
..
Merkmalswert N
a1 N
ai1
aij
aiN
ak 1
ak j
akN
i = 1, . . ., k
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
j = 1, . . ., Ni
10
Lage- und Streuungsparameter IV
5
Varianzzerlegung
k
µk
N = ∑ Ni
i =1
µ1 σ
N2
N1
k
µ=∑
i =1
Ni
0
[
k
1 k Ni
(a ij − µ )2
∑∑
N i =1 j=1
2
]
1
σ = ∑∑ (a ij − µ i ) + (µ i − µ )
N i =1 j=1
2
Ni
⋅ µi
N
σ2 =
Nk
µ2 σ 22
2
1
σ 2k
Arithmetisches Mittel
der Gesamtheit
Arithmetisches Mittel
der Teilgesamtheit i
Aus dieser Formel und mit Hilfe mathematischer Transformationen
lässt sich die Varianz der Grundgesamtheit in zwei Summen zerlegen.
Die erste Summe liefert die durchschnittliche Varianz innerhalb der
Teilgesamtheiten und die zweite den durchschnittlichen Abstand
(Varianz) zwischen den Teilgesamtheiten.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
11
Lage- und Streuungsparameter IV
Varianzzerlegungssatz
Für eine Grundgesamtheit, die aus k Teilgesamtheiten mit den Umfangen
N1, N2, …, Nk, den arithmetischen Mitteln µ1, µ2, …, µk und den
Standardabweichungen σ1, σ2, …, σk besteht, ergibt sich die Varianz:
µk
σ 2k
Nk
µ1 σ 2
1
σ2 =
1 k
1 k
2
2
N
⋅
σ
+
N i (µ i − µ )
∑
∑
i
i
N i =1
N i =1
σ2 =
∑
µ2 σ 22
N2
N1
oder
k
i =1
1. Summand: Varianz innerhalb der
jeweiligen Gruppe, Schicht, Teilgesamtheit
k
Ni
N
2
⋅ σ i2 + ∑ i (µ i − µ )
N
i =1 N
2. Summand: Varianz zwischen den
Gruppen, Schichten, Teilgesamtheiten
k
mit
N = ∑ Ni
i =1
und
N
µ = ∑ i ⋅ µi
i =1 N
k
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
Die Varianz der Gesamtheit ergibt sich aus der Summe
der Gruppenvarianzen (Teilgesamtheiten) und der
Varianz zwischen den Gruppen (Teilgesamtheiten).
12
Lage- und Streuungsparameter IV
6
Varianzzerlegung - Interpretation
Bei Verwendung der relativen Häufigkeiten der
Teilgesamtheiten gilt für die Varianz der Gesamtheit:
k
σ2 = ∑
i =1
Ni 2 k Ni
(µ i − µ )²
⋅ σi + ∑
N
i =1 N
Anteilwerte für jeweilige Gruppenstärke (Gruppengewicht)
k
k
σ = ∑ f i ⋅ σ + ∑ f i ⋅ (µ i − µ )²
2
2
i
i =1
i =1
Gewichtetes Mittel der Abweichungen
der Mittelwerte der Teilgesamtheiten
vom Gesamtmittel: externe Varianz
Gewichtetes Mittel aus den Varianzen
der Teilgesamtheiten: interne Varianz
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
13
Lage- und Streuungsparameter IV
Varianzzerlegung - Beispiel
Beispiel: Die 10 Personen werden mit ihren Gewichtsangaben in zwei
5
Gruppen nach dem Geschlecht aufgeteilt :
(x 1i − 50)2
∑
Name
Lisa
Anna
Antje
Marie
Dörte
2
i =1
σ1 =
= 20,8
xi
44
46
50
54
56
5
Die Varianz für die erste Teilmenge beträgt 20,8 kg², der Mittelwert 50 kg.
5
Name
xi
Sven
69
Uwe
72
Kai
78
Jan
80
Nils
101
σ =
2
2
∑ (x
i =1
− 80)
2
2i
5
= 126
Die Varianz für die zweite Teilmenge beträgt 126 kg², der Mittelwert 80 kg.
σ2 =
1
1
⋅ ((5 ⋅ 20,8) + (5 ⋅126)) + (5 ⋅ (50 − 65)² + 5 ⋅ (80 − 65)² ) = 73,4 + 225 = 298,4
10
10
Interne Varianz: 73,4 [kg²]
Externe Varianz: 225 [kg²]
Die Varianz der Gesamtmenge beträgt 298,4 kg², wobei 225 kg² auf die Varianz
zwischen den Teilmengen zurückzuführen sind. Verglichen mit den
gruppeninternen Varianzen von 20,8 kg² und 126 kg² zeigt sich, dass die
Differenzierung zwischen den Geschlechtern größer ist als innerhalb der Gruppen.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
14
Lage- und Streuungsparameter IV
7
Varianzzerlegung - Beispiel
Beispiel: Die Quadratmeterpreise bei Wohnungsmieten wurden für 815
Wohnungen in Berlin untersucht. Dabei wurden entsprechend der Lage der
Wohnungen zwei Gruppen gebildet (Westberlin, Ostberlin):
Für die gesamte Erhebung stellt sich die Verteilung wie folgt dar:
200
SPSS-Ausdruck
für Gesamtheit
(Berlin)
100
Std.abw. = 5,15
Mittel = 17,8
N = 815,00
0
0
6,
,0
46
,0
42
,0
38
,0
34
,0
30
,0
26
,0
22
,0
18
,0
14
,0
10
Preis (DM/m²)
15
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
Lage- und Streuungsparameter IV
Varianzzerlegung -Beispiel
Für die Teilmengen (Westberlin, Ostberlin) stellt sich die Verteilung wie folgt dar:
SPSS Ausdruck für Westberlin
SPSS Ausdruck für Ostberlin
100
60
50
80
40
60
30
40
20
20
Std.abw. = 4,96
10
Std.abw. = 4,39
Mittel = 19,8
N = 421,00
0
N = 394,00
,0
26
,0
24
,0
22
,0
20
,0
18
,0
16
,0
14
,0
12
,0
10
0
8,
0
6,
,0
46
,0
42
,0
38
,0
34
,0
30
,0
26
,0
22
,0
18
,0
14
,0
10
0
6,
Preis (DM/m²)
Mittel = 15,6
0
Preis (DM/m²)
Aus den vorliegenden Angaben lässt sich die Varianz zwischen und
innerhalb der Teilmengen ermitteln.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
16
Lage- und Streuungsparameter IV
8
Varianzzerlegung – Beispiel
Anzahl N
Berlin
815
26,431
17,8
Ost
394
19,2721
15,6
West
421
24,6016
19,8
σ2 =
Es gilt die Beziehung:
Varianz Mittelwert
σ2 =
1
N
k
∑
i =1
N i ⋅ σ i2 +
1
N
k
∑
N
i =1
i
(µ i − µ )2
1
1
(394 ⋅ (15,6 − 17,8)² + 421⋅ (19,8 − 17,8)² )
⋅ (394 ⋅ 19,2721 + 421 ⋅ 24,6016) +
815
815
26,431 =
22,025
+
4,406
Die Varianz der Gesamtmenge beträgt 26,431 (DM/qm)², wobei 4,4 (DM/qm)²
auf die Varianz zwischen den Teilmengen zurückzuführen ist. Verglichen mit
den gruppeninternen Varianzen von 19,27 (DM/qm)² und 24,6 (DM/qm)² zeigt
sich, dass die Differenzierung innerhalb der Teilmengen größer ist als zwischen
den beiden Gruppen. Dieses Ergebnis kann auch dazu benutzt werden, um
Gruppierungen vorzunehmen oder nicht. Der Anteil der externen Varianz liefert
eine Begründung für Gruppierungen.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
17
Lage- und Streuungsparameter IV
Lagetransformation der Daten
Lineare Transformation der Ursprungsdaten:
Fall 1:
σ 2Y = σ 2X
Y = a+ X
yi = a+ x i
Die Varianz der transformierten Werte ist gleich der Varianz
der Ursprungswerte, da lediglich ein „Sockel“ eingefügt wird:
Mittelwert
a
Mittelwert
a
Die Abstände zwischen Merkmalswerten und Mittelwert bleiben gleich, die
Varianz verändert sich nicht.
Die Varianz ist lage-invariant.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
18
Lage- und Streuungsparameter IV
9
Lineare Transformation der Daten
σ 2Y = b 2 ⋅ σ 2X
Fall 2: Y = a + b⋅ X
y i = a + b⋅ x i
Die Varianz der transformierten Werte ist um den Faktor b² größer als die
Varianz der Ursprungswerte, denn neben dem Sockel (a) sind die
Merkmalswerte durch die Multiplikation mit b „gespreizt“.
y.b
y
a
Die Differenz zwischen Merkmalswert und Mittelwert ist um den Faktor b
größer, der Faktor b geht mit seinem Quadrat in die Varianz ein. Die Varianz
ist skalen-äquivariant.
19
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
Lage- und Streuungsparameter IV
Lineare Transformation der Daten - Beispiel
Frage: Beeinflusst die Inflation auch die Streuung der Konsumausgaben?
Es liegen für zwei Betrachtungszeiträume die Konsumausgaben von privaten
Haushalten (HH) vor, diese seien von 100 auf 120 Prozent gestiegen:
1990
HH 1
HH 2
HH 3
HH 4
HH 5
HH 6
HH 7
Konsumausgaben
20 TDM
22 TDM
18 TDM
25 TDM
23 TDM
18 TDM
22 TDM
X 1998 = 1,2 ⋅ X 1990
σ 2 = 5,837 TDM ² und µ = 21,14 TDM
1998
HH 1
HH 2
HH 3
HH 4
HH 5
HH 6
HH 7
Konsumausgaben
24 TDM
26,4 TDM
21,6 TDM
30 TDM
27,6 TDM
21,6 TDM
26,4 TDM
σ 2 = 8,405 TDM ² und µ = 25,37 TDM
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
µ 1998 = 1,2 ⋅ µ 1990
2
2
σ 1998
= 1,2 2 ⋅ σ 1990
20
Lage- und Streuungsparameter IV
10
Lineare Transformation der Daten - Beispiel
Die relative Position der Haushalte zueinander hat sich nicht verändert,
lediglich aufgrund der Inflation sind die einzelnen Verbrauchsausgaben
um den Faktor 1,2 gestiegen (Ausgabenerhöhung um 20%).
Folglich ist der Abstand zwischen Merkmalswert und Mittelwert um den
Faktor 1,2 größer, woraus sich für die Varianz der Faktor 1,2² ergibt.
Y = a + b⋅ X
σ 2Y = b 2 ⋅ σ 2X
σ 2 = 8,405 TDM ² = 1,2 2 ⋅ 5,837 TDM ²
Werden Analysen über die Verteilung von Merkmalen zu verschiedenen
Zeiten erstellt, so ist eine größere (kleinere) Varianz nicht zwingend ein
Beleg für die Zunahme (Abnahme) der Differenziertheit der Objekte und
ihrer Merkmale.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
21
Lage- und Streuungsparameter IV
Beurteilung von Varianz und
Standardabweichung
¾ Varianz und Standardabweichung sind die gebräuchlichsten
Streuungsmaße, sie sind jedoch weniger anschaulich als die mittlere
absolute Abweichung.
¾ Varianz und Standardabweichung sind bei linearer Transformation
(Fall 1) der Ursprungswerte unempfindlich.
¾ Die Transformation (Fall 2) bewirkt eine um das Quadrat des
Faktors veränderte Varianz.
¾ Die Varianz einer Gesamtmenge ergibt sich aus der Summe von
interner (innerhalb der Gruppen) und externer (zwischen den
Gruppen) Varianz.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
22
Lage- und Streuungsparameter IV
11
Variationskoeffizient
Interessiert die Streuung nicht in ihrer absoluten Größe, sondern in
ihrer Relation zu einem Lageparameter, ermittelt man den
Variationskoeffizienten (VC):
VC =
σ
µ
Der Variationskoeffizient gibt die relative Streuung an, das
Verhältnis der durchschnittlichen Abweichungen aller Einzelwerte
gegenüber dem Mittelwert.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
23
Lage- und Streuungsparameter IV
Variationskoeffizient - Beispiel
Beispiel: Variiert bei den 250 Autos die Leistung oder der Hubraum stärker?
Deskriptive Statistik
N
Hubraum [ccm]
Leistung [PS]
Gültige Werte
(Listenweise)
250
250
Mittelwert
1947,28
125,37
Standardab
weichung
770,599
57,418
vgl. auto_250.xls bzw. auto_250.sav
250
Ein Vergleich der beiden Varianzen/Standardabweichungen liefert keine
verwertbare Aussage, da Leistung und Hubraum unterschiedlich dimensioniert
sind. Die relative Streuung, der Variationskoeffizient, objektiviert den Vergleich
beider Merkmale .
VC Leistung =
57,478 PS
= 0,458
125,37 PS
VC Hubraum =
770,6 cm ³
= 0,396
1.947,28 cm ³
Interpretation: Die Leistung streut stärker als der Hubraum, die Variation der
Leistung ist größer als die Variation des Hubraums der 250 Autos.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
24
Lage- und Streuungsparameter IV
12
Variationskoeffizient - Beispiel
Beispiel: Im Sozioökonomischen Panel* wurden für die Jahre 1996 und 2002 u.a. das
persönliche Nettoerwerbseinkommen und das persönliche Gesamteinkommen erhoben.
Es beträgt:
1996 (DM)
2002 (Euro)
Persönliches Nettoerwerbseinkommen (DM,€)
µ=52.000
σ=8.320
µ=28.000
σ=4.480
Persönliches Gesamteinkommen (DM,€)
µ=80.000
σ=25.600
µ=42.000
σ=16.800
*Das Sozioökonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung
privater Haushalte in Deutschland. Sie wird im jährlichen Rhythmus seit 1984 bei
denselben Personen und Familien (Längsschnittuntersuchung) in der Bundesrepublik
durchgeführt. Das SOEP deckt ein weites Themenspektrum ab. Es liefert
Informationen u. a. über:
•Haushaltszusammensetzung, Wohnsituation;
•Erwerbs- und Familienbiographien;
•Erwerbsbeteiligung und berufliche Mobilität;
•Einkommensverläufe;
•Gesundheit; Lebenszufriedenheit und
gesellschaftliche Partizipation.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
25
Lage- und Streuungsparameter IV
Variationskoeffizient - Beispiel
Beide erhobenen Merkmale sind zwar gleich dimensioniert, jedoch ist aufgrund
der zeitlichen Abstände sowie der unterschiedlichen Merkmalsausprägungen
der direkte Vergleich nur eingeschränkt möglich.
1996 (DM)
2002 (Euro)
Persönliches Nettoerwerbseinkommen (DM,€)
µ=52.000
σ=8.320
µ=28.000
σ=4.480
Persönliches Gesamteinkommen (DM,€)
µ=80.000
σ=25.600
µ=42.000
σ=16.800
Geeigneter als die absoluten Maßzahlen ist der Variationskoeffizient:
8.320
52.000
= 0,16
4.480
28.000
= 0,16
25.600
80.000
= 0,32
VC Netto 96 =
VC Netto 02 =
VC Gesamt 96 =
VC Netto 96
VC Netto 02
VC Gesamt 96
16.800
42.000
= 0,40
VC Gesamt 02 =
VC Gesamt 02
Es zeigt sich, dass die relative Streuung beim Nettoerwerbseinkommen
unverändert ist. Dagegen streut das Gesamteinkommen deutlich stärker als das
Nettoerwerbseinkommen, wobei sich diese Tendenz noch fortsetzt.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
26
Lage- und Streuungsparameter IV
13
Beurteilung des Variationskoeffizienten
¾ Der Variationskoeffizient ist ein relatives Streuungsmaß.
¾ Er ist dimensionslos, da Standardabweichung und Mittelwert die
selbe, sich im Bruch wegkürzende Dimension haben.
¾ Der Variationskoeffizient ist vor allem für die vergleichende
Beurteilung von unterschiedlichen Merkmalen geeignet.
¾ Seine Berechnung ist strenggenommen nur für Merkmale sinnvoll,
die auf einer Verhältnisskala gemessen werden können und einen
absoluten Nullpunkt haben.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
27
Lage- und Streuungsparameter IV
Zusammenfassung der behandelten
Streuungsmaße
¾ Mittlere absolute Abweichung sowie Varianz und
Standardabweichung basieren auf der mittleren Abweichung aller
Einzelwerte von ihrem Mittelwert.
¾ Spannweite und Quartilsabstand basieren auf Differenzen zwischen
Merkmalswerten.
¾ Streuungsmaße sind in Abhängigkeit von der Skalierung der
Merkmalswerte zu verwenden.
¾ Ein sehr anschauliches Maß, vor allem bei ökonomischen
Sachverhalten, ist die mittlere absolute Abweichung.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
28
Lage- und Streuungsparameter IV
14
Zusammenfassung der behandelten
Streuungsmaße
¾ Varianz und Standardabweichung finden vor allem wegen ihrer
mathematischen Eigenschaften breite Anwendung.
¾ Varianz und Standardabweichung haben folgende Eigenschaften:
• Zerlegung/Aggregation von Streuungen für Gesamtheit/
Teilgesamtheit
• Reaktion auf Datentransformation ist berechenbar
• Die Summe der quadrierten Abweichungen von einem
Bezugspunkt p ist minimal, wenn man p= arithmetisches Mittel
wählt (Minimumeigenschaft gegenüber arithmetischem Mittel)
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
29
Lage- und Streuungsparameter IV
15
Herunterladen