Auswertung univariater Datenmengen - deskriptiv

Werbung
Auswertung univariater
Datenmengen - deskriptiv
Lageparameter einer Verteilung
¾Häufigster Wert (Modus)
¾Zentralwert (Median)
¾Mittelwert (Arithmetisches Mittel)
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
1
Bibliografie
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen
Statistik für Wirtschaftswissenschaftler
¾ Bleymüller / Gehlert
Verlag Vahlen
Statistische Formeln, Tabellen und Programme
¾ PowerPointPräsentationen (Prof. Kück/ Dr. Ricabal)
¾ Vorlesungsskript für Statistik I (Dr. Pu Chen)
¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat1/
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
2
1
Beschreibung eindimensionaler
Datenmengen - Vorgehensweise
¾
Tabellarische und grafische Darstellung der
Häufigkeitsverteilung
Maßzahlen oder Parameter zur Charakterisierung
der Lage bzw. Streuung der Häufigkeitsverteilung.
¾
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
3
Tabellarische und grafische
Darstellung einer Verteilung
• Tabellen und Grafiken geben ein anschauliches
und umfangreiches Bild über die zu beschreibende
und zu analysierende statistische Masse.
• Sie sind mit großem Aufbereitungsaufwand
verbunden.
• Sie reichen oft nicht aus, um eindeutige
zusammenfassende Aussagen über die statistische
Masse zu gewinnen.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
4
2
Maßzahlen zur Beschreibung von
Verteilungen
• Sie quantifizieren die Verteilungseigenschaften in
komprimierter Form.
• Sie geben eindeutige Informationen über die
Lage, Streuung und Form der Verteilung.
• Sie erleichtern dadurch die Vergleichbarkeit
unterschiedlicher statistischer Massen.
• Sie sind jedoch mit einem Informationsverlust
verbunden, der durch das Komprimat gewollt ist.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
5
Durchschnittswerte oder Lageparameter
• Durch einen Durchschnittswert werden die
einzelnen Merkmalsausprägungen auf einen Wert
reduziert. Er fungiert als Repräsentant der
statistischen Masse.
• Durchschnittswerte charakterisieren die Position
der Verteilung auf der Merkmalsachse.
• Sie beschreiben das Zentrum einer Verteilung durch
einen Wert.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
6
3
Bewertung von Durchschnittswerten
Mit welchem Lagemaß die „Mitte“ angegeben
werden soll, hängt ab:
• vom Kontext einer analytischen Fragestellung,
• von der Datensituation,
• vom Skalenniveau des zu analysierenden
Merkmals.
Denken Sie an die bekannte Aussage:
„Im Durchschnitt war der Graben einen
halben Meter tief, trotzdem ist die Kuh
ersoffen.“
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
7
Beispiel: Trügerische Mitte
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
8
4
Typen von Durchschnittswerten
Es gibt unterschiedliche Möglichkeiten, Durchschnittswerte
für die statistische Auswertung zu definieren.
¾ Häufigster Wert (Modus)
¾ Zentralwert (Median)
¾ Mittelwert (Arithmetisches Mittel)
¾ Harmonisches Mittel
¾ Geometrisches Mittel
Wir werden nur die Mittelwerte behandeln, die Auskunft
über die Lage einer Verteilung vermitteln.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
9
Operationen nach Skalentyp
Nach Skalentyp können unterschiedliche Operationen mit
den Daten durchgeführt werden. In der folgenden
Tabellen wird mit X gezeigt, welche Operationen für
welche Skala erlaubt sind.
Nominalskala Ordinalskala Kardinalskala
Häufigkeiten auszählen
X
Ausprägungen
anordnen
Differenzen/
Quotienten bilden
Prof. Kück / Dr. Ricabal
X
X
X
X
X
Lage- und Streuungsparameter I
10
5
Durchschnittswerte nach Skalenniveau
Die jeweiligen Mittelwerte sind für unterschiedliche
Datenarten entsprechend ihrer Skalierung mehr oder
weniger gut oder auch gar nicht geeignet.
Nominalskala Ordinalskala Kardinalskala
Modalwert (Modus)
X
Zentralwert (Median)
Mittelwert
(Arithmetisches Mittel)
Prof. Kück / Dr. Ricabal
X
X
X
X
X
Lage- und Streuungsparameter I
11
Beispiel: Altersverteilung der Erwerbstätigen
Alter
von … bis unter … männlich
weiblich
unter 20
524.280
408.515
20 - 25
1.015.838
1.036.837
25 - 30
1.222.570
1.090.924
30 -35
1.672.729
1.240.876
35 -40
2.099.195
1.487.635
40 - 45
1.913.416
1.472.680
45 - 50
1.525.196
1.274.175
50 - 55
1.280.566
1.074.954
55 - 60
885.605
671.556
60 - 65
415.220
206.193
65.278
36.209
65 und mehr
Insgesamt
Es werden das arithmetische Mittel
und der Median der Altersverteilung
angegeben.
Für die Berechnung des arithmetischen
Mittels wurde 18 Jahre als untere
Grenze der ersten Klasse und 70 Jahre
als obere Grenze der letzten Klasse
verwendet.
12.619.893 10.000.554
Arithm. Mittel
39,76
39,07
Median
39,46
39,11
Prof. Kück / Dr. Ricabal
Tabelle: Altersverteilung der
erwerbstätigen Frauen und Männer
in Deutschland per 30.09.2003.
(DESTATIS)
Lage- und Streuungsparameter I
Unterschiedliche
Parameter!
Was sagen sie aus?
12
6
Durchschnittsstudent - Beispiel
Gesehen als Poster in der Mensa der
Universität Rostock!
Dieser Durchschnittsstudent als
„arithmetisches Mittel“ ist unreal, als
Subjekt nicht existent. Es gibt andere
Lageparameter, die besser geeignet wären
für qualitative Merkmale, z. B. den
Modalwert.
Im Kontext einer Untersuchung können
aber auch unreale Werte sinnvoll sein, wie
zum Beispiel in der Aussage, dass das
gegenwärtige Fertilitätsniveau in
Deutschland 1,4 Kinder pro Frau beträgt.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
13
Modus (Häufigster Wert)
•
•
•
•
•
Der Modus wird oft auch als häufigster Wert oder
Modalwert bezeichnet.
Er gibt die Merkmalsausprägung an, die am häufigsten
auftritt.
Eine Verteilung kann ein, zwei oder mehrere Modalwerte
haben. Sie wird entsprechend als uni-, bi- oder
multimodale Verteilung bezeichnet.
Der Modus ist der einzige zulässige Mittelwert bei
nominalskalierten Merkmalen.
Der Modus kann auch bei ordinal- bzw. kardinalskalierten
Merkmale ermittelt werden
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
14
7
Beispiel: Modalwert für ein
nominalskaliertes Merkmal
Häufigkeiten
Herkunftsgebiet absolute relative
hi
fi
MV
250
0,625
ABL
50
0,125
NBL
100
0,250
Summe
400
1
Merkmal:
Herkunftsgebiet
der Studenten
Der Modus ist die häufigste Merkmalsausprägung!
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
15
Beispiel: Modus für nominalskalierte
Merkmale
Der Modalwert ist die einzige Möglichkeit, für kategoriale,
qualitative Merkmale einen Durchschnittwert anzugeben.
Beispiel: Das arithmetische Mittel aus einem nominalskalierten
Merkmal ist nicht sinnvoll, nicht möglich. Das gilt auch
dann, wenn das Merkmal numerisch codiert wird.
Arithmetisches Mittel aus “Ja” und “Nein” Æ “Jein” ?
Man kann lediglich sagen, wie oft “Ja” oder “Nein” auftreten.
Die häufigste Ausprägung wird als Repräsentant der Masse,
als Mittelwert genutzt.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
16
8
Beispiel: Modus für ordinale Merkmale
Bei dem Modalwert handelt es sich um den am häufigsten
vorkommenden und damit um einen realisierten Wert, mit
dem man die Vorstellung von Normalität verbindet. Hier
wird die Ordnungseigenschaft der Skala nicht gebraucht.
Beispiel: Auf die Frage der beunruhigten Eltern, „Welche Noten haben
denn die Mitschüler“, wird der Spross zur Entschuldigung
seiner Leistung den Modalwert angeben. „Die meisten haben
auch eine 4“.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
17
Beispiel: Modus für kardinale Merkmale
Bei kardinalskalierten Merkmalen kann der Modalwert die
geeignete Reduktion liefern, wenn keine genaueren
Informationen über den Mittelwert erforderlich sind.
Beispiel:Fragt man nach der mittleren Damenschuhgröße in
Deutschland, liefert der häufigste Wert eine sinnvolle Aussage.
Die von Frauen am häufigsten gekaufte Schuhgröße ist die
Größe 38.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
18
9
Beispiel: Modus bei gehäuften metrischen
Daten
Beispiel: Anzahl der Personen im Haushalt. DESTATIS 2003
Anzahl der Personen im HH
1
2
3
4
5 und mehr
Früheres Bundesgebiet
36,8 33,6 13,7 11,4
4,6
Neue Länder und Berlin-Ost
35,6 36,4 16,9 9,7
2,4
Modus
Früheres Bundesgebiet
1 Person
Neue Länder und Berlin-Ost 2 Personen
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
19
Modus bei klassierten metrischen
Daten
Man unterscheidet folgende Fälle:
• gleiche Klassenbreite:
Der Modus ist in diesem Fall die Klassemitte x´ der Klasse mit
der größten Häufigkeit.
• unterschiedliche Klassenbreite:
Der Modus ist in diesem Fall komplizierter zu ermitteln.
Zuerst werden die Häufigkeiten durch die Klassenbreiten
dividiert. Entsprechend werden die Häufigkeiten neu
berechnen.
ÆDer Modus einer klassierten Häufigkeitsverteilung ist die
Mitte der Klasse, für die das Histogramm ein Maximum
erreicht.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
20
10
Beispiel: Modus bei gleicher Klassenbreite
50
Verteilung der Leistung in
(PS) für 250 Fahrzeuge.
Beispieldatei auto_250.sav
40
30
20
Absolute Werte
Am häufigsten ist die Klasse
90 bis unter 110 PS besetzt.
Der Modalwert beträgt 100 PS.
10
0
60
100
80
140
120
180
160
220
200
260
240
300
Leistung [PS]
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
21
Beispiel: Modus bei unterschiedlichen
Klassenbreiten
Altersgruppe in Anzahl Klassen
Umrechnung
-breite
Jahren
auf
Klassenbreite 5
Von… bis unter…
18 - 21
500
3
833,33
21 – 25
640
4
800
25 - 30
440
5
440
30 – 35
400
5
400
35 – 40
440
5
440
40 – 50
400
5
400
50 – 80
400
30
66,67
Mo =
5
500 ⋅ = 833,33
3
640 ⋅
400 ⋅
5
= 800
4
5
= 66,67
30
(18 + 21)
= 19,5 Jahre. Das ist die Klassenmitte der ersten Klasse
2
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
22
11
Zentralwert oder Median
¾
¾
¾
¾
Der Median ist derjenige Wert einer nach der
Rangfolge geordneten Wertereihe, der gleich viele
größere Werte über sich wie kleinere unter sich hat. Er
teilt die Verteilung in zwei gleichen Hälften.
Der Median ist der wichtigste Lageparameter für
ordinalskalierte Merkmale.
Der Median kann auch für kardinalskalierte
Merkmalen ermitteln werden.
Der Median kann nicht für nominalskalierte
Merkmale ermittelt werden. Seine Bestimmung setzt
mindestens Ordinalskalenniveau voraus.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
23
Zentralwert für geordnete Einzelwerte
Bei ungerader Werteanzahl gibt es genau einen zentralen Wert. Der
liegt an der N/2. Position. Es gilt:
Me = a ⎡ N +1 ⎤
⎢ 2 ⎥
⎣
⎦
Bei gerader Werteanzahl gibt es zwei zentrale Werte: den N/2-ten
und den (N/2+1)-ten. Die Bestimmung des Median erfolgt in diesem
Fall als arithmetisches Mittel aus den beiden mittleren Werten, falls sie
metrische Eigenschaften besitzen.
⎞
1⎛
Me = ⎜ a ⎡ N ⎤ + a ⎡ N ⎤ ⎟
2 ⎜⎝ ⎢⎣ 2 ⎥⎦ ⎢⎣ 2 +1⎥⎦ ⎟⎠
Prof. Kück / Dr. Ricabal
Die Ausprägungen sollen kardinalskaliert
sein, sonst macht das arithmetische
Mittel keinen Sinn.
Lage- und Streuungsparameter I
24
12
Beispiel: Zentralwert für Einzeldaten
Körpergewicht in kg von 9 Personen
Name
Nr. i
a[i]
Lisa Anna Antje Marie Dörte Sven Uwe
1
2
3
4
5
6
7
44
46
50
54
56
69
72
Kai
8
78
Jan
9
80
Me = a ⎡ N +1 ⎤ = a ⎡ 9+1 ⎤ = a [5 ] = 56
⎢ 2 ⎥
⎣
⎦
⎢ 2 ⎥
⎣
⎦
Körpergewicht in kg von 10 Personen:
Name
Nr. i
a[i]
Lisa Anna Antje Marie Dörte Sven Uwe
1
2
3
4
5
6
7
44
46
50
54
56
69
72
Kai
8
78
Jan
9
80
Nils
10
101
⎞ 1
1⎛
1
Me = ⎜ a ⎡ N ⎤ + a ⎡ N ⎤ ⎟ = (a [5 ] + a [6 ] ) = (56 + 69 ) = 62,5
⎜
⎟
2 ⎝ ⎢⎣ 2 ⎥⎦ ⎢⎣ 2 +1⎥⎦ ⎠ 2
2
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
25
Beispiel: Zentralwert für gehäufte Daten
Anzahl der Personen im Haushalt. Erwerbsstatistik 2003, DESTATIS
Anzahl der
Personen je HH
Früheres
Bundesgebiet
Neue Länder
und Berlin-Ost
Kumulierte Häufigkeiten
ABL
NBL
1
36,8
35,6
36,8
35,6
2
33,6
35,4
70,4
71,0
3
13,7
16,9
84,1
87,9
4
11,4
9,7
95,5
97,6
5 und mehr
4,6
2,4
100,1
100,0
Median
Früheres Bundesgebiet
2 Personen
Neue Länder und Berlin-Ost
2 Personen
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
26
13
Zentralwert für klassierte Daten
Um den Median bei klassierten Daten zu berechnen, braucht man die
empirische Verteilung. Der Median ist dann der Wert Me des Merkmals,
für den F(Me)=0,5 gilt. Wenn der Median nicht auf eine Klassengrenze
sondern innerhalb einer Klasse (Einfallsklasse) fällt, wird sein
numerischer Wert durch lineare Interpolation approximativ berechnet.
f
F(x) = 1
F(x) = 0,5
Me
x
Prof. Kück / Dr. Ricabal
Me
Lage- und Streuungsparameter I
x
27
Median für klassierte Daten
für x < x1u
0
F ( x) =
⎛ x - x1u ⎞
⎟⎟ ⋅ fi für xiu ≤ x < xio
F(xiu ) + ⎜⎜
⎝ ∆xi ⎠
1
für x ≥ x ok
F(x) = 1
Entscheidend dabei ist die
Einfallsklasse zu finden, d. h. die
Klasse, in welcher der Median liegt.
F( x io )
F(x) = 0,5
x iu ≤ Me < x io
F( x iu )
F(Me) = 0,5
Prof. Kück / Dr. Ricabal
(i = 1,...., k )
Me
x
F( x iu ) ≤ 0,5 < F( x io )
Lage- und Streuungsparameter I
28
14
Median für klassierte Daten Berechnungsformel
⎛ Me - x1u ⎞
⎟⎟ ⋅ fi = 0,5
F(Me) = F(x ) + ⎜⎜
∆
x
i
⎝
⎠
∆x
⇒ 0,5- F(xiu ) ⋅ i = Me - x1u
fi
u
i
[
]
[
] ∆fx
⇒ Me = x1u + 0,5- F(xiu ) ⋅
∆x i = x io − x iu
i
f i = F( x io ) − F( x iu )
i
⎡ 0,5 - F( x iu ) ⎤ o
⇒ Me = x + ⎢
⋅ ( x i − x iu )
o
u ⎥
⎣ F( x i ) - F( x i ) ⎦
u
1
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
29
Beispiel: Median bei klassierten Daten
(Früheres Bundesgebiet)
Beispiel: Haushaltnettoeinkommen (HHNE) im früheren
Bundesgebiet. Erwerbsstatistik 2003 ( DESTATIS)
HHNE
von…bis unter …
Euro
Früheres
Bundesgebiet
F(x)
Unter 900
7,2
0,072
900 – 1300
11,7
0,189
1300 – 1500
6,6
0,255
Der Median liegt in der Klasse von
2000 bis unter 2600 Euro. An der
Grenze dieser Klasse kennt man die
Werte der Verteilungsfunktion:
0,402 und 0,549. Daraus folgt:
Me = x iu +
0,5 − F(x iu )
⋅ (x io − x iu )
F(x i0 ) − F(x iu )
1500 – 2000
14,7
0,402
2000 – 2600
14,7
0,549
2600 – 3600
18,1
0,5 − 0,402
⋅ (2600 − 2000)
0,549 − 0,402
0,876
0,998 Me = 2400 Euro
3600 – 5000
14,6
5000 – 18000
12,2
Prof. Kück / Dr. Ricabal
0,730
Me = 2000 +
Lage- und Streuungsparameter I
30
15
Beispiel: Median bei klassierten Daten
(Neue Länder und Berlin-Ost)
Beispiel: Haushaltnettoeinkommen (HHNE) in den Neuen Ländern und
Berlin-Ost. Erwerbsstatistik 2003 (DESTATIS)
HHNE
von…bis unter
… Euro
Neue Länder
und Berlin-Ost
F(x)
Unter 900
12,8
0,128
900 – 1300
16,7
0,295
1300 – 1500
7,6
0,371
Der Median liegt in der Klasse von
1500 bis unter 2000 Euro. An der
Grenze dieser Klasse kennt man die
Werte der Verteilungsfunktion:
0,371 und 0,544. Daraus folgt:
Me = x iu +
0,5 − F(x iu )
⋅ (x io − x iu )
F(x i0 ) − F(x iu )
1500 – 2000
17,3
0,544
2000 – 2600
16,0
0,704
2600 – 3600
15,3
3600 – 5000
8,8
5000 – 18000
5,4
0,5 − 0,371
⋅ (2000 − 1500)
0,544 − 0,371
0,945
0,999 Me = 1872,83 Euro
0,857
Prof. Kück / Dr. Ricabal
Me = 1500 +
Lage- und Streuungsparameter I
31
Beispiel: Median und Verteilungsfunktion
Me=2400 Euro
Vergleich
1,0
Me=1872,83 Euro
Fi
0,8
Im Durchschnitt ist das
HHNE in den alten
Bundesländer höher als in
den neuen Bundesländer.
0,5
0,3
0
20
00
17
50
0
15
00
0
12
50
0
10
00
0
75
00
50
00
0
25
00
0,0
Haushaltnettoeinkommen
Neue Länder und Berlin-Ost
Prof. Kück / Dr. Ricabal
Früheres Bundesgebiet
Lage- und Streuungsparameter I
32
16
Beurteilung des Median
•
•
•
Die Summe der Abstände zwischen Zentralwert und
allen Einzelwerten ist minimal (lineare
Minimumseigenschaft, die bei
Standortbestimmungen genutzt wird).
Der Zentralwert eignet sich besonders für
ordinalskalierte Daten. Für kardinalskalierte Daten
ist seine Ermittlung möglich. Für kategoriale Daten ist
seine Ermittlung nicht möglich.
Der Zentralwert reagiert nicht auf Verschiebungen
der Extremwerte, wenn die verschobenen Werte auf
der selben Seite des Zentralwertes bleiben.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
33
Arithmetisches Mittel (Mittelwert)
Bei der Berechnung des Mittelwertes benötig man
die metrische Eigenschaft der Skala. Es lassen sich
zwei Situationen unterscheiden:
1.
Die N Einzelwerte ai des Merkmals liegen vor
2.
Die Daten liegen in einer Tabelle vor
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
34
17
Arithmetisches Mittel (Mittelwert)
¾Liegen N Einzelwerte ai des Merkmals vor, dann gilt:
µ =
N
1
N
∑a
i =1
i
¾Liegen die Daten in einer Häufigkeitstabelle vor, dann
werden folgende Formeln genutzt:
µ =
µ̂ =
k
1
N
∑
1
N
k
i =1
∑
i =1
(x i ⋅ h i ) =
( x i' ⋅ h i ) =
Prof. Kück / Dr. Ricabal
k
∑ (x
i =1
i
⋅ fi )
Für gehäufte Daten
'
i
⋅ fi )
Für klassierte Daten
k
∑ (x
i =1
Lage- und Streuungsparameter I
35
Arithmetisches Mittel für gehäufte Daten
Liegen die Daten in einer Häufigkeitsverteilung mit k unterschiedlichen
Ausprägungen x1, x2, … , xk vor, dann berechnet man das arithmetische
Mittel durch folgende Formel:
Anzahl der
unterschiedlichen Werte
µ=
k
1
x i fi
∑ xi hi = ∑
N i =1
i =1
Summe aller abs.
Häufigkeiten.
(Gesamtheitsumfang)
Prof. Kück / Dr. Ricabal
k
Abs. Häufigkeit
der i-ten Klasse
fi =
hi
N
Rel. Häufigkeit
der i-ten Klasse
Wert der i-ten Klasse
Lage- und Streuungsparameter I
36
18
Arithmetisches Mittel für klassierte Daten
Unterstellt man Gleichverteilung innerhalb der Klassen, kann die
Klassenmitte der Klasse als Repräsentant aller Beobachtungen der Klasse
angenommen werden. Deswegen können wir in diesem Fall nur eine
Approximation berechnen.
Anzahl der Klassen
µ̂ =
k
fi =
k
1
x i' h i = ∑ x i' f i
∑
N i =1
i =1
Summe aller abs.
Häufigkeiten
Prof. Kück / Dr. Ricabal
Abs. Häufigkeit
der i-ten Klasse
Mitte der i-ten
Klasse
hi
N
Rel. Häufigkeit
der i-ten Klasse
(x iu + x io )
2
Lage- und Streuungsparameter I
x i' =
37
Beispiel: Arithmetisches Mittel aus
Einzelwerten
Beispiel: Das durchschnittliche Körpergewicht in kg von
10 Personen beträgt:
Name
Nr. i
ai
µ=
Lisa Anna Antje Marie Dörte Sven Uwe
1
2
3
4
5
6
7
44
46
50
54
56
69
72
Kai
8
78
Jan
9
80
Nils
10
101
1
(44 + 46 + 50 + 54 + 56 + 69 + 72 + 78 + 80 + 101) = 65 kg
10
Da jede Merkmalsausprägung “gleichberechtigt”, d.h. mit
gleichem Gewicht in die Berechnung eingeht, spricht man
vom ungewogenen oder einfachen arithmetischen Mittel.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
38
19
Beispiel: Arithmetisches Mitte bei gehäuften
Daten
Beispiel: Anzahl der Personen im Haushalt
Erwerbsstatistik 2003 ( DESTATIS)
Anzahl der Personen im HH
1
2
3
4
5 und mehr
Früheres Bundesgebiet
36,8 33,6
13,7
11,4
4,6
Neue Länder und Berlin-Ost
35,6 35,4 16,9
9,7
2,4
Um die durchschnittliche Anzahl der Personen im Haushalt zu berechnen, muss
man einen geeigneten Repräsentanten für die letzte Klasse festlegen. Unter
Annahme von 7 Personen für die obere Randklasse ergibt sich:
k
µ ABL = ∑ x i f i = 1⋅ 0,368 + 2 ⋅ 0,336 + 3 ⋅ 0,137 + 4 ⋅ 0,114 + 7 ⋅ 0,046 = 2,229
i =1
k
µ NBL = ∑ x i f i = 1 ⋅ 0,356 + 2 ⋅ 0,354 + 3 ⋅ 0,169 + 4 ⋅ 0,097 + 7 ⋅ 0,024 = 2,127
i =1
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
39
Beispiel: Arithmetisches Mittel bei klassierten Daten.
Durchschnittliches Haushaltnettoeinkommen (HHNE) in der BRD
Erwerbsstatistik 2003 (DESTATIS)
HHNE
von…bis unter … Euro
Klassemitte
Früheres
Bundesgebiet
Neue Länder
und Berlin-Ost
Unter 900
675
7,2
4860
12,8
8640
900 – 1300
1100
11,7
12870
16,7
18370
10640
1300 – 1500
1400
6,6
9240
7,6
1500 – 2000
1750
14,7
25725
17,3
30275
2000 – 2600
2300
14,7
33810
16,0
36800
2600 – 3600
3100
18,1
56110
15,3
47430
3600 – 5000
4300
14,6
62780
8,8
37840
5000 – 18000
11500
12,2
140300
5,4
62100
100
345695
100
252095
Summe
Arithmetisches Mittel
3.456,95
2.520,95
Es werden 450 Euro als untere Grenze der ersten Klasse unterstellt. Die Summen
müssen durch 100 dividiert werden, da die relativen Häufigkeiten als
Prozentwerte angegeben sind.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter I
40
20
Herunterladen