Auswertung univariater Datenmengen

Werbung
Auswertung univariater
Datenmengen - deskriptiv
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
1
Lage- und Streuungsparameter III
Bibliografie
¾
Prof. Dr. Kück;
Statistik, Vorlesungsskript
Abschnitt 6.1.2
¾
Bleymüller/Gehlert/Gülicher;
Statistik für Wirtschaftswissenschaftler
Verlag Vahlen
¾
Bleymüller/Gehlert;
Formeln, Tabellen und Programme
Verlag Vahlen
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
2
Lage- und Streuungsparameter III
1
Empirische Streuungsmaße
Lageparameter können die Verteilung nicht vollständig beschreiben.
Die drei extrem unterschiedlichen Verteilungen haben den gleichen
(arithmetischen) Mittelwert von 1000:
2000
2000
2000
1000
1000
1000
0
0
1
2
3
4
5
1
2
3
4
0
5
1
2
3
4
5
Die zweite Aufgabe der statistischen Beschreibung ist die Messung der Streuung.
Streuungsparameter dienen der näheren Charakterisierung von Verteilungen.
Sie sind ein Maß dafür, wie weit die Daten auf der Merkmalsachse voneinander
oder vom Zentrum der Verteilung entfernt liegen.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
3
Lage- und Streuungsparameter III
Empirische Streuungsmaße
Beispiel: Temperaturschwankungen
Für Moskau und Dublin wird die gleiche Jahresdurchschnittstemperatur von 10°C
ausgewiesen.
Der Vergleich der gemessenen Einzelwerte zeigt folgendes Bild, wo man erkennen
kann, dass die Temperaturschwankungen in Moskau größer als in Dublin sind:
30
30
20
20
10
10
0
0
-10
-10
-20
-20
J
F M A M J
J
A S O N D
J
F M A M J
J
A S O N D
Das Temperaturmittel reicht nicht, um die Temperatursituation zu
vergleichen. Hier wird ein Streuungsmaß gebraucht, um die
Schwankungen zu charakterisieren.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
4
Lage- und Streuungsparameter III
2
Empirische Streuungsmaße
In der beschreibenden Statistik werden folgende
Maßzahlen der Streuung verwendet:
• Spannweite
• Quartilsabstand
• Mittlere absolute Abweichung
• Varianz
• Standardabweichung
• Variationskoeffizient
Streuungsmaße lassen sich nur für kardinalskalierte Merkmale
ermitteln, da sich bei nominal- und ordinalskalierten Merkmalen keine
(sinnvollen) Differenzen der Merkmalsausprägungen ermitteln lassen.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
5
Lage- und Streuungsparameter III
Spannweite
Die Spannweite ist die einfachste Maßzahl für die Differenz
der Daten, die den Abstand zwischen dem kleinsten und dem
größten Beobachtungswert angibt. Sie drückt damit nicht die
mittleren sondern punktuelle Abweichungen aus:
Spannweite (Englisch: range)
R = a[N] – a[1]
a[1]
a[N]
Dabei sind a[N] und a[1] die der Größe nach aufsteigend
geordneten Einzelwerte.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
6
Lage- und Streuungsparameter III
3
Spannweite
Beispiel: In der Reihe der geordneten Merkmalswerte der Gewichte
für die zehn untersuchten Personen ist die Spannweite die Differenz
aus dem Gewicht von Nils und Lisa:
Name Lisa Anna Antje MarieDörte Sven Uwe Kai
Nr. i 1
2
3
4
5
6
7
8
44 46 50
54
56 69 72 78
ai
Jan Nils
9
10
80 101
Es ergibt sich: R = max ai – min ai = 101 – 44 = 57
Die Spannweite beträgt 57 kg.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
7
Lage- und Streuungsparameter III
Quartilsabstand
Der Quartilsabstand (Englisch: interquartil range) ist die
Differenz zwischen dem 75%igen und 25%igen Quartil der
Häufigkeitsverteilung. Das ist die Spanne, welche die
mittleren 50 % der Daten umfasst:
QA = Q3 – Q1
a[1]
Q1
Q3
a[N]
Dabei sind Q1 und Q3 das erste und das dritte Quartil der
Verteilung
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
8
Lage- und Streuungsparameter III
4
Quartilsabstand -Beispiel
Beispiel: Für die in Gewichtsklassen erfassten 100 Personen sind zunächst
die 75%igen und 25%igen Quartilswerte zu bestimmen:
1,2
Gewicht von…bis unter…
f(xi)
F(xi)
42,5 – 47,5
0,04
0,04
F(xi) 1
47,5 – 52,5
0,18
0,22
0,8
52,5 – 57,5
0,26
0,48
0,6
57,5 – 62,5
0,20
0,68
62,5 – 67,5
0,12
0,80
…
…
…
0,4
0,2
0
42
,5
b
4 7 is 4
7
,5
b is ,5
52
52
,5
,5
5 7 b is 5
7
,5
b is ,5
62
62
,5
,5
b
6 7 is 67
,5
b is ,5
72
72
,5
,5
7 7 b is 7
7
,5
b is ,5
82
82
,5
,5
b
8 7 is 8
7 ,5
,5
b is
92
,5
Einfallsklassen
Man bestimmt für Q1: 53,1 und für Q3: 65,4. Der Quartilsabstand beträgt 12,3 kg.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
9
Lage- und Streuungsparameter III
Mittlerer Quartilsabstand
Mittelt man den Abstand der beiden Quartile, so erhält man
den durchschnittlichen Abstand der Quartile gegenüber
dem Zentrum der Verteilung. Dieser Wert sagt aus, wie weit
die Quartile im Mittel von Q2 (Median) abweichen.
MQA =
Q 3 − Q1
2
Später lernen wir weitere Streuungsmaße kennen, bei
denen die Einzelabweichungen gegenüber dem Median
gemittelt werden.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
10
Lage- und Streuungsparameter III
5
Quartilsabstand unterschiedlicher Verteilungen
Gleichverteilung:
F(x)
1
f(x)
0,75
0,25
0
X
Quartilsabstand
X
F(x)
1
Normalverteilung:
f(x)
0,75
0,25
0
Quartilsabstand
X
X
Der Quartilsabstand ist bei Normalverteilung kleiner als bei Gleichverteilung.
Man kann aus dem Abstand auch vergleichende Aussagen über die Form von
Verteilungen ableiten.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
11
Lage- und Streuungsparameter III
Quartile einer empirischen Verteilung -Beispiel
Beispiel: Haushaltnettoeinkommen (HHNE) im früheren Bundesgebiet
Erwerbsstatistik 2003 ( DESTATIS)
HHNE
von…bis unter … Euro
Früheres
Bundesgebiet
F(x)
0,072
Unter 900
7,2
900 – 1300
11,7
0,189
1300 – 1500
6,6
0,255
1500 – 2000
14,7
0,402
2000 – 2600
14,7
0,549
2600 – 3600
18,1
0,730
3600 – 5000
14,6
0,876
5000 – 18000
12,2
0,998
Q1 liegt in der Klasse von 1300 bis
unter 1500 Euro
Q3 liegt in der Klasse von 3600 bis
unter 5000 Euro.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
Me = x iu +
p− F(x iu )
⋅ (x io − x iu )
0
u
F(x i ) − F(x i )
Der Median liegt in der Klasse von 2000 bis
unter 2600 Euro. Daraus folgt:
Me = 2000 +
0,5 − 0,402
⋅ (2600 − 2000) = 2400 ∈
0,549 − 0,402
Q1 = 1300 +
0,25 − 0,189
⋅ (1500 − 1300) = 1484,85 ∈
0,255 − 0,189
Q 3 = 3600 +
0,75 − 0,730
⋅ (5000 − 3600) = 3791,78 ∈
0,876 − 0,730
12
Lage- und Streuungsparameter III
6
Interquartilsabstand als Streuungsmaß - Beispiel
Beispiel: Haushaltnettoeinkommen (HHNE) im früheren Bundesgebiet
Erwerbsstatistik 2003 ( DESTATIS)
HHNE
von…bis unter … Euro
Früheres
Bundesgebiet
F(x)
Unter 900
7,2
0,072
900 – 1300
11,7
0,189
1300 – 1500
6,6
0,255
1500 – 2000
14,7
0,402
2000 – 2600
14,7
0,549
2600 – 3600
18,1
0,730
3600 – 5000
14,6
0,876
5000 – 18000
12,2
0,998
Q1=1484,85; Q2=Me=2400; Q3=3791,78
QA=Q3-Q1=3791,78-1484,85=2306,93
MQA =
Q3 − Q1 2306,93
=
= 1153,47
2
2
Die mittlere Hälfte der Haushaltsnettoeinkommen hat einen Abstand von 2306,93€,
gegenüber dem Zentralwert beträgt die mittlere Abweichung des ersten und dritten Quartils
1153,47€.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
13
Lage- und Streuungsparameter III
Beurteilung der Spannweite
¾ Die Spannweite ist eine einfache Maßzahl für die Streuung.
¾ Die Spannweite drückt die Variationsbreite der
Beobachtungswerte aus. Da sie nur aus den beiden
Extremwerten berechnet wird, ist sie sensibel für Ausreißer.
¾ Sie ist nicht geeignet, wenn die Anzahl der Beobachtungen
sehr groß ist.
Beispiel: Würde Nils nicht 101 kg sondern lediglich 81 kg
wiegen, so ergäbe sich für die Spannweite 37 kg (statt 57 kg)
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
14
Lage- und Streuungsparameter III
7
Beurteilung des Quartilsabstandes
¾ Der Quartilsabstand wird nicht durch einzelne
Extremwerte beeinflusst. Er ist gegenüber Ausreißern
robuster.
¾ Der Quartilsabstand gibt die Differenz der
Merkmalswerte an, welche die mittlere Hälfte der
Einzelwerte repräsentiert.
¾ Der mittlere Quartilsabstand misst die Abweichung des
ersten und dritten Quartils, indem die „mittlere Hälfte“
in zwei Bereiche geteilt wird.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
15
Lage- und Streuungsparameter III
Mittlere absolute Abweichung für Einzelwerte
¾ Die mittlere absolute Abweichung wird meist gegenüber
dem arithmetischen Mittel gebildet.
¾ Grundlage der Streuungsberechnung sind die
Abweichungen aller Einzelwerte vom Mittelwert.
¾ Die mittlere absolute Abweichung ist das arithmetische
Mittel aller Einzelabweichungen.
1 N
MAD = ∑ a i − µ
N i =1
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
16
Lage- und Streuungsparameter III
8
Mittlere absolute Abweichung - Beispiel
Beispiel: Für die Verteilung der Gewichte der 10 betrachteten Personen ergeben
sich bei einem arithmetischen Mittel von 65 kg folgende Abweichungen:
MAD=
Nils
Jan
Kai
Uwe
Sven
Dörte
Marie
Antje
Lisa
Anna
120
100
80
60
40
20
0
1
(| 44 − 65 | + | 46 − 65 | + | 50 − 65 | +...+ | 101− 65 |) = 15
10
Man erhält als mittlere absolute Abweichung 15 kg.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
17
Lage- und Streuungsparameter III
Mittlere absolute Abweichung
für gehäufte oder klassierte Daten
Für gehäufte bzw. klassierte Daten gilt:
Anzahl der verschiedenen
Merkmalsausprägungen bzw. Klassen
MAD =
absolute Häufigkeit
der jeweiligen Klasse
relative Häufigkeit
der jeweiligen Klasse
k
1 k
x
−
µ
⋅
h
=
xi − µ fi
∑ i
∑
i
N i =1
i =1
gehäufte Merkmalsausprägung
bzw. Klassenmitte
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
18
Lage- und Streuungsparameter III
9
MAD für klassierte Daten -Beispiel
Beispiel: Für die in Gewichtsklassen erfassten 100 Personen ergibt sich bei
einem arithmetischen Mittel von (gerundet) 60 kg:
Klasse von…
Relative
Absolute
bis unter…
Häufigkeit
Differenz
42,5 bis 47,5
0,04
15
47,5 bis 52,5
0,18
10
52,5 bis 57,5
0,26
5
57,5 bis 62,5
0,20
0
62,5 bis 67,5
0,12
5
67,5 bis 72,5
0,09
10
72,5 bis 77,5
0,05
15
77,5 bis 82,5
0,03
20
82,5 bis 87,5
0,02
25
87,5 bis 92,5
0,01
30
Mittlere absolute Abweichung:
Spalte 2* Spalte 3
0,60
1,80
1,30
0,00
0,60
0,90
0,75
0,60
0,50
0,30
7,35
Interpretation: Bei einem arithmetischen Mittel von (gerundet) 60 kg weichen die
Einzelgewichte der 100 Personen durchschnittlich um 7,35 kg ab. Damit wird ein
Streubereich von 52,65 kg bis unter 67,35 kg ausgewiesen.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
19
Lage- und Streuungsparameter III
MAD für gehäufte Daten - Beispiel
Beispiel: Klausuraufgabe 3 vom Februar 2003
In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer
liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, Arbeitslosigkeit und
Bruttoinlandsprodukt vor:
Bundesland
Bevölkerungsanteil (%)
Erwerbstätige (Tsd.)
Erwerbsquote (%)
Arbeitslosenzahl
(Tsd.)
Arbeitslosenquote
(%)
Bruttoinlands
-produkt
(Mrd.€)
HB
4,8
385
53,5
40
13,6
23,4
HH
11,6
1.048
60,2
71
9,3
75,5
MV
11,8
730
41,2
168
19,6
29,7
NI
53,0
3.482
43,8
350
10,0
180,4
SH
18,8
1.230
43,6
116
9,4
66,0
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
20
Lage- und Streuungsparameter III
10
MAD für gehäufte Daten – Klausur 02/2003
Klausuraufgabe 3 vom Februar 2003, Aufgabenstellung:
3.1 Berechnen Sie die Erwerbsquote (Erwerbstätige je Bevölkerung) für Norddeutschland und
weisen Sie den Prozentwert aus.
3.2 Berechnen Sie die Arbeitslosenquote (Arbeitslosenzahl je Arbeitskräftepotenzial) als
Prozentwert für Norddeutschland.
3.3 Geben Sie für die 5 Bundesländer und Norddeutschland gesamt die Quote des
Bruttoinlandsproduktes in Tsd. Euro je Einwohner an. Weisen Sie mit der mittleren
absoluten Abweichung gegenüber dem Wert für Norddeutschland, gewichtet mit
dem Bevölkerungsanteil, die Differenziertheit der Bundesländer nach.
Lösung
…
3.3 Unter Verwendung der Gesamtgrößen ergibt sich ein (mittleres) Verhältnis von 25000 €
BIP je Einwohner für Norddeutschland. Für die Berechnung der Landeswerte muss zuerst die
Bevölkerungszahl nach Bundesländern berechnet werden. Die gewichtete mittlere absolute
Abweichung der fünf Bundesländer vom Wert für Norddeutschland beträgt 5000 €. Damit wird
ein Bereich in den Grenzen von 20000 und 30000 Euro für den Wert des BIP je Einwohner
gebildet.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
21
Lage- und Streuungsparameter III
MAD* gegenüber dem Median
Wenn als Lageparameter der Median verwendet wird, dann
ist die Angabe der mittleren absoluten Abweichung
gegenüber dem Median aussagefähig.
Median
MAD* =
1 k
∑ x i − Me ⋅ h i
N i =1
Interpretation: MAD* ist das arithmetische Mittel aller
Abweichung der Einzelwerte gegenüber dem Merkmalswert,
den die Hälfte der geordneten Daten annimmt.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
22
Lage- und Streuungsparameter III
11
MAD** gegenüber dem Median
Es ist auch sinnvoll, anstelle des arithmetischen Mittels den
Median der Abweichungen zu bestimmen:
MAD** = Me({a 1 − Me ,..., a N − Me })
Abweichung zwischen Wert 1
und Median der Verteilung
Interpretation: MAD** gibt den Median aller Abweichung der
Einzelwerte gegenüber dem Median an, d.h. es gibt gleich viele
negative wie positive Abweichungen gegenüber dem Median.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
23
Lage- und Streuungsparameter III
MAD gegenüber dem Median - Beispiel
Beispiel: Für das Körpergewicht der 10 etwa gleichaltrigen Personen ergibt sich
bei einem Median von 62,5 kg der Zentralwert der Abweichungen wie folgt:
Name
Nr. i
xi
Lisa
1
44
Anna
2
46
Antje
3
50
Marie
4
54
Dörte
5
56
Sven
6
69
Uwe
7
72
Kai
8
78
Jan
9
80
Nils
10
101
|xi - Me|
18,5
16,5
12,5
8,5
6,5
6,5
9,5
15,5
17,5
38,5
Summe=150 kg
Das arithmetische Mittel der Abweichungen (MAD*) beträgt 15 kg.
Abweichungen absolut, der Größe nach geordnet:
Abw.
6,5
6,5
8,5
9,5
12,5
15,5
16,5
17,5
18,5
38,5
Der Zentralwert der Abweichungsbeträge (MAD**) ist 14 kg.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
24
Lage- und Streuungsparameter III
12
Beurteilung der mittleren absoluten Abweichung
¾Die mittlere absolute Abweichung ist eine sehr
anschauliche und plausible Maßzahl der Streuung.
¾Allen Abweichungen wird das positive Vorzeichen
gegeben, damit betragsmäßig gleiche, vom Vorzeichen
jedoch verschiedene Abweichungen sich nicht aufheben.
¾Für asymmetrische Verteilungen ist es sinnvoll, die
mittlere absolute Abweichung für den oberen und für
den unteren Bereich getrennt zu ermitteln:
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
25
Lage- und Streuungsparameter III
Beurteilung der mittleren absoluten Abweichung
f(x)
Unterer
Bereich
Für asymmetrische Verteilungen ergeben sich
für den unteren und für den oberen Bereich
unterschiedliche mittlere Abstände.
Oberer Bereich
x
Arithmetisches
Mittel bzw. Median
f(x)
Für symmetrische Verteilungen sind die
Abstände des unteren und des oberen
Bereiches gleich bzw. annähernd gleich.
x
Arithmetisches
Mittel bzw. Median
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
26
Lage- und Streuungsparameter III
13
Varianz
Die Varianz ist das am häufigsten verwendete Streuungsmaß. Analog zur mittleren
absoluten Abweichung werden die Abweichungen der Einzelwerte vom Mittelwert
gebildet, diese jedoch quadriert. Größere Abweichungen fallen dadurch stärker ins
Gewicht, es treten nur positive Abweichungen auf. Es gilt für ungehäufte Daten:
σ2 =
1 N
∑ (a i − µ )²
N i =1
Einzelabweichungen zwischen
Beobachtungswerten und
arithmetischem Mittel der Verteilung
Zur Begriffsabgrenzung sollte hier von empirischer Varianz gesprochen
werden, da die modifizierte Form (Division durch n-1) in der induktiven Statistik
bevorzugt wird. Achten Sie bei Standardoptionen in Programmpaketen darauf,
welche Varianzberechnung vorgenommen wird!
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
27
Lage- und Streuungsparameter III
Varianz - Beispiel
Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei
einem arithmetischen Mittel von 65 kg die Varianz wie folgt:
Name
Nr. i
xi
2
(x i - µ)
Lisa
1
44
Anna
2
46
Antje
3
50
Marie
4
54
Dörte
5
56
Sven
6
69
Uwe
7
72
Kai
8
78
Jan
9
80
Nils
10
101
441
361
225
121
81
16
49
169
225
1296
Summe=2.984 kg²
σ2 =
1
⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ²
10
Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit
wie das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
28
Lage- und Streuungsparameter III
14
Varianz - Berechnungsformel
Bei manueller Berechnung kann eine andere Varianzformel vorteilhaft
sein, deren Herleitung gezeigt wird:
σ2 =
1 N 2
ai − µ2
∑
N i =1
σ2 =
1
N
N
2
∑ (a i − µ )
i =1
=
1
N
∑ (a
N
i =1
2
i
− 2 a iµ + µ 2
σ2 =
N
1 N
( ∑ a i ² − 2 µ ∑ a i + Nµ 2 )
N i =1
i =1
σ2 =
1 N 2
1
( ∑ a i − 2 Nµ 2 + Nµ 2 ) =
N i =1
N
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
N
∑a
i =1
2
i
)
− µ2
29
Lage- und Streuungsparameter III
Varianz für gehäufte bzw. klassierte Daten
Für gehäufte bzw. klassierte Merkmalsausprägungen ergibt
sich die Varianz wie folgt:
Anzahl der verschiedenen
Merkmalsausprägungen
bzw. der Klassen
Absolute Häufigkeit des
gehäuften Merkmals bzw.
der jeweiligen Klasse
Relative Häufigkeit des
gehäuften Merkmals bzw.
der jeweiligen Klasse
k
1 k
σ = ∑ (x i − µ )² ⋅ h i = ∑ (x i − µ )² ⋅ f i
N i =1
i =1
2
Einzelabweichungen zwischen gehäuften
Beobachtungswerten bzw. zwischen Klassenmitten
und arithmetischem Mittel der Verteilung
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
30
Lage- und Streuungsparameter III
15
Varianz für gehäufte bzw. klassierte Daten
-BerechnungsformelOhne Herleitung sei auch hier die andere Varianzformel für
gehäufte Daten angeführt:
- mit absoluten Häufigkeiten:
⎛ k
⎜ ∑ xi ⋅ hi
1 k
2
σ = ∑ x i ² ⋅ h i − ⎜ i =1
⎜
N i =1
N
⎜
⎝
⎞
⎟
⎟
⎟
⎟
⎠
2
µ²
- mit relativen Häufigkeiten:
⎛ k
⎞
σ = ∑ x i ² ⋅ fi − ⎜ ∑ xi ⋅ fi ⎟
i =1
⎝ i =1
⎠
k
2
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
2
31
Lage- und Streuungsparameter III
Varianzberechnung - Beispiel
Beispiel: Für das Gewicht der 100 betrachteten Personen ergibt sich bei
einem arithmetischen Mittel von (gerundet) 60 kg die Varianz wie folgt:
Klasse i
hi
xi (Mitte)
(xi - µ)2 hi
1
4
45
2
18
50
3
26
55
3.600 32.400 16.900
4
20
60
5
12
65
6
9
70
7
5
75
8
3
80
9
2
85
10
1
90
0
3.600
8.100
5.625
3.600
2.500
900
Summe=77.225 kg²
1 k
2
σ 2 = ∑ (x i − µ ) ⋅ h i
N i =1
σ2 =
1
2
2
2
[(45 − 60 ) ⋅ 4 + (50 − 60 ) ⋅ 18 + ... + (90 − 60 ) ⋅ 1] = 772,25 kg 2
100
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
32
Lage- und Streuungsparameter III
16
Varianzberechnung - Beispiel
Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt)
In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5
Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, … vor:
Bundesland Bevölkerungs- Erwerbsanteil (%)
tätige (Tsd.)
Erwerbsquote (%)
HB
4,8
385
53,5
HH
11,6
1.048
60,2
MV
11,8
730
41,2
NI
53,0
3.482
43,8
SH
18,8
1.230
43,6
Erwerbsquote Norddeutschland
σ ² = (0,535-0,458)² 0,048 +
+ (0,602-0,458)² 0,116
+ (0,412-0,458)² 0,118
+ (0,438-0,458)² 0,530
+ (0,436-0,458)² 0,188
σ² = 0,003242
45,8
Berechnen Sie die Varianz der Erwerbsquote.
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
33
Lage- und Streuungsparameter III
Varianzberechnung - Beispiel
Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt)
In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer
liegen für 2001 folgende Eckdaten über Bevölkerung … und Bruttoinlandsprodukt vor:
Bundesland Bevölkerungs- Bruttoinlandsanteil (%)
produkt
(Mrd.€)
BIP je
Einwohner
(Tausend €)
HB
4,8
23,4
32,5
HH
11,6
75,5
43,4
MV
11,8
29,7
16,8
NI
53,0
180,4
22,7
SH
18,8
66,0
23,4
BIP je Einwohner Norddeutschland
25,0
σ² = (32,5-25)² 0,048 +
+ (43,4-25)² 0,116
+ (16,8-25)² 0,118
+ (22,7-25)² 0,530
+ (23,4-25)² 0,188
σ² = 53,192
Berechnen Sie die Varianz des BIP je Einwohner (in Tausend Euro).
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
34
Lage- und Streuungsparameter III
17
Varianzberechnung – Klausur 02/2003
Klausuraufgabe 3 vom Februar 2003, Aufgabenstellung:
…
3.3 Geben Sie für die 5 Bundesländer und Norddeutschland gesamt die Quote des
Bruttoinlandsproduktes in Tsd. Euro je Einwohner an. Weisen Sie mit der mittleren
absoluten Abweichung gegenüber dem Wert für Norddeutschland, gewichtet mit dem
Bevölkerungsanteil, die Differenziertheit der Bundesländer nach.
Geben Sie zusätzlich die Varianz für die Messung der Streuung an.
Lösung
…
3.3 Unter Verwendung der Gesamtgrößen ergibt sich ein (mittleres) Verhältnis von
25000 € BIP je Einwohner für Norddeutschland. Für die Berechnung der
Landeswerte muss zuerst die Bevölkerungszahl nach Bundesländern berechnet
werden. Die gewichtete mittlere absolute Abweichung der fünf Bundesländer vom
Wert für Norddeutschland beträgt 5000 €. Damit wird ein Bereich in den Grenzen
von 20000 und 30000 Euro für den Wert des BIP je Einwohner gebildet.
Die Varianz beträgt 53,192 [Tausend Euro² ]
Prof. Kück / R. Bernitz / Dr. Ricabal
Lehrstuhl Statistik
35
Lage- und Streuungsparameter III
18
Herunterladen