1 Lageparameter (Verdichtung der Daten) Akademische Disziplin

Werbung
1
Lageparameter (Verdichtung der Daten)
Akademische Disziplin der Statistik/academic field of statistics/
la discipline statistique/estadística/disciplina academica della statistica
deskriptive Statistik/descriptive statistics/statistique descriptive
Letzter Stand 16. März 2005, 18 Seiten
Literaturbezug
Dieses Kapitel (einschließlich der Aufgaben, Blätter, Übersichten, etc) bezieht sich auf den
Stoff der Abschnitte des Buches
G. Uebe, M. Schäfer,
Einführung in die Statistik für Wirtschaftswissenschaftler, Verlag Oldenbourg,
München 1991,
3.1 Lageparameter
3.2 Streuungsparameter,
3.3 Streuungszerlegung
3.4 Konzentrationmaße (in Gestalt von Quantilen)
3.8 Aufgaben dazu
Lernziele sind
1.
Die gängigen Lage- und Streuungsparameter:
Spannweite, Modalwert
Durchschnittsbildung (Mittelwerte) und Streuung (Varianz),
mittlere quadratische Abweichung, Variationskoeffizient,
2.
Vergleich von (zwei und mehr) Stichproben, Mittelwert und Varianz;
Streuungszerlegung,
3.
Median, Quartil, Dezil, Perzentil, Fraktil, Quantil generell, u. ä. Maße,
4
einige zugehörige graphische Darstellungen (Box Whisker plots, stem and leaf)
5.
Vertiefte Charakterisierung von Verteilungen.
Internet-Verweis
Auf der Bildseite siehe man die Stichworte:
(Æ Streudiagramm (scatter diagram))
(Æ Lageparameter einschließlich Beispiele)
(Æ Erwartungswert-Modelle einschließlich Beispiele)
(Æ Varianz-Modelle einschließlich Beispiele)
Literatur
Günther Bourier, Beschreibende Statistik, 5. Auflage, Gabler, Gütersloh 2003
Burkschat, E., Cramer, U.Kamps, Beschreibende Statistik: Grundlegende Methoden,
Springer, Berlin u.a. 2004
[siehe hierzu auch die Lehrprogramme im Internet]
Karl Mosler, Friedrich Schmid, Beschreibende Statistik und Wirtschaftsstatistik, Springer,
Berlin u.a. 2003
[siehe hierzu auch die Ergänzungen im Internet]
P. Pflaumer, B. Heine, J. Hartung, Statistik für Wirtschafts- und Sozialwissenschaften:
Deskriptive Statistik, Oldenbourg, München 2001
Peter M. Schulze, Beschreibende Statistik, Oldenbourg, München Wien 1990
H. Toutenburg, A. Fieger, C. Kastner, Deskriptive Statistik, Prentice Hall, 1998
Howard Wainer, Visual revelations, Graphical Tales of Fate and Deception from Napoleon
Bonaparte to Ross Pero, Copernicus, New York, 1997
2
1. Der Wert größter Häufigkeit
Um die Charakteristiken eines vorliegenden Datenmaterials überblicken zu können,
verdichtet man die Daten mit Hilfe von Maßzahlen. Oft gelingt dies nur für ordinale und
kardinale Merkmale. Im übrigen ist es sehr strittig für ordinale Beobachtungen, s.u.
Beispiel.
Definition (Modus)
Die Ausprägung, die am häufigsten beobachtet wurde, für die also gilt
xmod := xi mit f(xi) = max {f(xk) | k = 1, 2, ..., K}
heißt Modus oder Modalwert.
2. Mittelwert
Definition (Mittelwert für ein diskretes Merkmal)
Ist X ein diskretes Merkmal, dann ist
(1)
x =
1
n
n
∑
i=1
K
bi =
∑ xk
f ( xk )
k=1
das arithmetische Mittel oder der Mittelwert von X, der Durchschnitt von X in
Kurzschreibweise x oder X .
Anmerkung zur Bezeichnung
Die Querschreibweise, d.h. ein überstrichener Buchstabe soll im folgenden stets heißen, daß
es sich um einen Durchschnitt handelt. M.a.W. z ist das arithmetische Mittel von Werten z1,
z2 … zn.
Illustration 1 (Aufgabe zum Mittelwert)
Man betrachtet die Anzahl X der Zigaretten, die pro Person innerhalb einer Stunde in einem
Raum mit 50 Personen geraucht wurden, und erhält folgendes Ergebnis:
Anzahl der Zigaretten:
0
1
2
3
Anzahl der Personen:
10
5
10
25
Berechnen Sie die durchschnittliche Anzahl X von Zigaretten pro Person im Raum.
Lösung:
1
X =
(b + b2 + b3 + … b50) =
50 1
1
=
((0 + 0 + … + 0) + (1 + 1 + … + 1) + (2 + 2 + … + 2) + (3 +3 + … + 3)
50
1
1
=
[10 . (0) + 5 . (1) + 10 . (2) + 25 . (3)] =
[0 + 5 + 20 + 75] = 2
50
50
10
5
10
25
= 0.
+1.
+2.
+3.
=2
50
50
50
50
3
Definition (Mittelwert für ein stetiges Merkmal)
Ist X ein stetiges Merkmal und bezeichnet x*k die Klassenmitte der k-ten Klasse, dann ist
K
nk
x = ∑ x *k
n
(1)'
k=1
das arithmetische Mittel oder der Mittelwert von X.
Illustration 2 (Aufgabe zum Mittelwert)
In einem Betrieb wurden folgende Daten über die monatlichen Einkommen (in 100 DM) der
beschäftigten Frauen erhoben:
Einkommen
Anzahl der Frauen
6 bis 12
10
über 12 bis 16
über 16 bis 20
15
10
über 20 bis 24
5
Berechnen Sie das Durchschnittseinkommen der Frauen.
Lösung:
9
14
18
22
x*
k
nk/n
0.25
0.375
0.25
0.125
n=40
9 . 0.25
14 .
0.375
18 .
0.25
22 .
0.125
2.25
5.25
4.5
2.75
x = 14.75
Der Durchschnitt ist im Regelfall ein ganz unzureichendes Vergleichsinstrument, wie das
Beispiel der sog. Pisa-Noten (des weltweiten Bildungsvergleichs) zeigen.
Deutschlandliegt ‘weit abgeschlagen’ auf Platz 21. Die Länderdurchschnittsnoten sind z.B.
Japan 2.68; Korea 2.69; Finnland 2.70; Schweiz 2.98; …; Deutschland 3.14
Der Abstand (die Spanne) von der ersten bis zur 21. Position beträgt nur 0.46.
Derartig ‘nahe´ Durchchnitte sind nicht sehr aussagestark.
4
3. Streuungsparameter
Definition (Spannweite)
Die Differenz zwischen der größten und der kleinsten beobachteten Ausprägung wird als
Spannweite bezeichnet.
Eine typische IIllustration ist die Darstellung von Temperaturen in der Zeitung, z.B.
30
20
17
18
19
20
6
5
6
7
10
0
Fr.
Sa.
So.
Mo.
bzw. in einer Zeitung der Tageshöchst-Kursstand im Vergleich zum Tagestief-Kursstand
Die Kursspannen an den fünf Börsen-Tagen einer Woche
Eng verwandt mit diesem Begriff ist das Streudiagramm (s.u.), eine punktweise graphische Darstellung zweier Merkmale.
5
Definition (mittlere quadratische Abweichung des diskreten Merkmals)
Ist X ein diskretes Merkmal, dann ist
s2 =
(2)
1
n
n
∑ (b i i=1
K
x)2
=
∑
(xk - x)2 f (xk)
k=1
die mittlere quadratische Abweichung oder die empirische Varianz des Merkmals X.
Illustration 1’ (Fortsetzung Aufgabe zur mittleren quadratischen Abweichung)
Bestimmen Sie die empirische Varianz zu den Zahlen der Illustration 1
0
1
2
3
2 (=Mittelwert)
10
5
10
25
/50 (=Anteil)
s2 = (0-2)2 0.2 + (1-2)2 0.1 +(2-2)2 0.2 +(3-2)2 0.5 =
= 0.8 + 0.1 + 0 + 0.5 = 1.4, s ≈ 1.18322
6
Definition (mittlere quadratische Abweichung des stetigen Merkmals)
Ist X ein stetiges Merkmal und bezeichnet x*k die Klassenmitte der k-ten Klasse, dann ist
K
s2 =
(2)'
2
∑ (x k* - x)
k=1
nk
n
die mittlere quadratische Abweichung oder die empirische Varianz des Merkmals X.
Illustration 2’ (Fortsetzung Aufgabe zur mittleren quadratischen Abweichung)
Bestimmen Sie die empirische Varianz zu den Zahlen der Illustration 2
x*k
9
14
18
22
nk/n
0.25
0.375
0.25
0.125
n=40
(9-14.75)2
(14-14.75)2
(18-14.75)2
(22-14.75)2
5.752=33.0
625
0.752=0.562
5
3.252=10.5
625
7.252=52.56
25
x = 14.75
s2 = 33.0625 . 0.25 + 0.5625 . 0.375 + 10.5625 . 0.25 + 52.5625 . 0.125 =
= 8.265625 + 0.2109375 + 2.640625 + 6.5703125 = 17.6875, s ≈ 4.20565096
Definition (Standardabweichung)
Die positive Wurzel von s2 wird in beiden Varianten, d.h. s =
Standardabweichung (oder auch als Streuung) bezeichnet.
s2 , als (empirische)
Die Bezeichnung ‘Streuung’ wird teilweise für Varianz und Standardabweichung benutzt.
Man achte daher auf den Zusammenhang, was sie genau bedeutet.
Aus später deutlich werdendem Grund wird auch die folgende Modifikation von
empirischer Varianz und Standardabweichung benutzt:
n
n
s*2= s 2
und s* =
s2
n-1
n-1
d.h. anstatt durch n wird durch (n-1) in (2) bzw. (2)' geteilt.
Illustration 1’’ und 2’’ (Fortsetzung Aufgabe zur Streuung)
Für die beiden Illustrationen folgen die Streuungen:
aus s2 = 1.4, s ≈ 1.18322
s*2 = 1.428571, s* ≈ 1.19523 (n=50)
aus s2 = 17.6875, s ≈ 4.20565096
s*2 = 18.14103, s* = 4.25923 (n=40)
7
Definition (Variationskoeffizient)
Falls der Mittelwert ungleich null ist (formal: X≠0 bzw. x ≠0 je nach Bezeichnung), dann
heißt
Streuung
s
das Verhältnis
der Variationskoeffizient: v= .
Mittelwert
x
Der Variationskoeffizient mißt die Variation im Vergleich zum Mittelwert.
Illustration 1’’’ und 2’’’ (Fortsetzung Aufgabe zum Varianzkoeffizienten)
Für die beiden Illustrationen folgen die Varianzkoeffizienten:
s 1.18322
s 4.20565096
v= =
≈ 0.592, bzw. v = =
≈ 0.285
2
14.75
x
x
Die Streuungszerlegung
Häufig setzen sich Stichproben aus gesondert erhobenen Teilstichproben zusammen,
beispielsweise für die gesamte BRD aus den einzelnen Bundesländern, für die gesamte
Bevölkerung aus Jahrgängen. In solchen Fällen ist der folgende sog. Streuungszerlegungssatz von Bedeutung.
8
Satz (Streuungszerlegung)
Sei eine Stichprobe von n Beobachtungen in I Teilstichproben jeweils vom Umfang ni (i=1,
2, ..., I) gegeben, d.h.
I
{x1, ..., xn} = {x11, x12, ...,x1n1; x21,x22,...,x2n2; ... ; xI1 ,xI2 , ..., xInI }; n =
∑
ni ,
i=1
I
dann gilt für die Mittelwerte
x =
ni
∑
n
i=1
I
s2 =
und für die empirischen Varianzen
xi
ni 2
s +
n i
∑
i=1
I
∑
i=1
ni
n
(x - x i) 2
Beweis:
Für den Gesamt-Mittelwert ergibt sich:
ni
I n
n i ni x ij
x =∑ ∑
= ∑
=
∑ ni x i
n
n ∑ ni
i=1 j=1
i=1
j=1
i=1
I
I
x ij
Für die Gesamt-Varianz sei der Fall I = 2 betrachtet. Die Verallgemeinerung auf I ≥ 2 ist
offensichtlich:
n1
n2
j=1
j=1
1
s 2 = ( ∑ (x1j -x) 2 + ( ∑ (x2j - x)2 ) =
n
n1
n2
j=1
j=1
1
= ( ∑ ([x 1j -x 1]– [ x - x1 ])2 + ( ∑ ([x2j - x2] – [x - x2])2) =
n
1 2
= ∑
n
ni
2
∑
2
([x ij - x i] + [x - x i] - 2[x ij - x i][x - x i]) =
i=1 j=1
2
∑
i=1
ni
1
(
n ni
ni
∑
j=1
1
(xij - xi)2 +
n
ni
2
∑ (x -x i) 2) - n
j=1
2
ni
i=1
j=1
∑ (x -x i)( ∑ (x ij - x i)) .
ni
Wegen
∑
(x ij - x i) = 0 ergibt sich daraus
j=1
2
s =
n1
n
2
s1 +
n2
n
2
s2 +
n1
n
2
(x - x 1) +
n2
n
(x - x 2)
2
w.z.b.w.
9
lllustration 1 (Zusammenfassung einer Erhebung, Streuungszerlegung)
Bei Schulkindern werden regelmäßig vom Schulzahnarzt die Zähne auf Karies
untersucht. Bei jedem Kind wird die Zahl kariöser Zähne vermerkt. Bei einer Untersuchung seien bei drei Klassen eines Jahrgangs folgende Ergebnisse:
Klasse
Klasse
Klasse
a
b
c
Klassenstärke
25
25
30
durchschnittliche Zahl kariöser
Zähne
1.4
1.6
1.4
Quadrate-Summe der Zahl kariöser
105
124
128
Zähne
Berechnen Sie das arihmetische Mittel und die empirische Standardabweichung der Zahl
kariöser Zähne für diese drei Klassen insgesamt.
Lösung
25
25
30
7
1 21
117
. 1.40 +
. 1.60 +
. 1.40 =
a) Gesamt-Mittelwert: x =
+ +
=
= 1.4625
80
80
80
16 2 40
80
b) Gesamt-Varianz:
Die Daten für die Varianzen benutzen die Beziehung
1
s2 =
ni
ni
∑
ni
x j2 - x2i ,
für die die Quadrate-Summe
∑
xj2 sowie der Durchschnitt xi
j=1
j =1
bekannt ist (s.o. 3. Zeile bzw. 2. Zeile). Damit folgt für s2
s2
=
2 25
2 30
2
25 2 25 2 30 . 2 25
sa +
sb+
sc +
x - xa +
x - xb +
x - xc
80
80
80
80
80
80
25 1
(
=
80 n a
na
nb
nc
25 1
30 1
∑ x 2ia - x2a) + 80 ( n ∑ x ib2 - x2b) + 80 ( n ∑ xic2 - x 2c)
b i=1
c i=1
i=1
25
25
30
+ ( x - xa )2 +
(x - xb )2 + ( x - xc )2
80
80
80
25 1
25 1
30 1
=
( . 105 - (1.4)2) +
( . 124 -(1.6) 2) +
( . 128 - (1.4)2)
80 25
80 25
80 30
25 117
25 117
30 117
+
(
- 1.4)2 +
(
- 1.6)2 +
(
-1.4) 2
80 80
80 80
80 80
= 0.7 + 0.75 + 0.865 + 0.012 + 0.0059 + 0.0015 = 2.3236 fi s = 1.5243
10
lllustration 2
(Zusammenfassung einer Erhebung mit Datenergänzung,
Streuungszerlegung)
Ein mittelständischer Schlachtbetrieb kauft Rinder in den drei Ortschaften A, B und C.
Aufgrund verschiedener Zuchtmethoden gibt es Unterschiede bei den Gewichten der
Rinder aus den verschiedenen Ortschaften. Folgende Daten wurden erhoben:
xA = 700 kg
xB = 640 kg
xC = ??? kg
nA = 10
nB = 5
nC = 25
2
s A = 200
2
s B = 160
2
s C = 112
Das Durchschnittsgewicht aller geschlachteten Rinder ist x = 705 kg.
a) Berechnen Sie das unbekannte xC (durch ??? markiert)
b) Berechnen Sie die mittlere quadratische Abweichung (empirische Varianz) der
Rindergewichte.
Lösung
a) Schließen der Datenlücke aus dem Gesamt-Mittelwert:
1
1
5
x = xA + xB + xC
4
8
8
8
1
1
8
8450
fi
xC = (x - xA - xB ) = (705 - 175 - 80) =
= 720
5
4
8
5
5
1 2 1 2 5 2 1
1
5
b) s2 = s A + s B + s C + (xA - x)2 + (xB - x)2 + (xC - x)2
4
8
8
4
8
8
2
25 65
225 . 5
= 50 + 20 + 70 +
+
+
= 815
4
8
8
11
lllustration 3
(Zusammenfassung einer Erhebung mit Datenergänzung,
Streuungszerlegung)
In den 4 Grundschulen G1, G2, G3 und G4 eines Ortes A wurden für die Schulanfänger
folgende Daten ermittelt:
G1
G2
G3
G4
Durchschnittsalter (in G i )
6.5
6.6
7.5
6.8
Standardabweichung des Alters (in
Gi )
???
0.4
0.5
0.6
Anzahl der Kinder (in Gi )
20
25
30
25
a) Berechnen Sie das Durchschnittsalter der Schulanfänger in A.
b) Berechnen Sie die empirische Varianz (mittlere quadratische Abweichung) des
Alters der Schulanfänger in G1, die versäumt worden ist, anzugeben.
Die empirische Varianz aller Schulanfänger in A ist 0.4.
Lösung:
1
a) Gesamt-Mittelwert: x =
(20 . 6.5 + 25 . 6.6 + 30 .7.5 + 25 . 6.8) = 6.9
100
b) Schließen der Datenlücke aus der Gesamt-Varianz
1
1
s2 =
( 20s 21 + 25s 22 + 30s23 + 25s24 ) +
( 20(x1 - x)2 + 25(x2 -x) 2 + 30(x 3 - x) 2 + 25(x 4 - x)2 )
100
100
1
1
3
1
1
1
3
1
¤ 0.4 = s 21 + 0.16 +
0.25 + 0.36 + (6.5–6.9) 2 + (6.6-6.9)2 + (7.5-6.9) 2 + (6.8-6.9)2
5
4
10
4
5
4
10
4
1
¤ s 21 = 0.4- 0.37 =0.03 fi s 21 = 0.15 fi s1 = 0.3873
5
12
4. Der Box-Whisker-Plot
Definition (Der Box-Whisker-Plot, diagramme des quartiles)
Der Box-Whisker-Plot ist eine geordnete Darstellung der Beobachtungen, so daß sie
nach ihren vier Quartilen graphisch gruppiert werden. Die beiden mittleren Quartile,
die der Größe nach mittleren Beobachtungen, werden in einem Kasten eingerahmt. Der
Anfang und das Ende der Beobachtungen werden durch einen kleinen senkrechten
Strich angezeigt. Die Entfernung zwischen Minimum und Maximum ist die Spannweite
der Beobachtungen.
Quartil 2
Median
Minimum
Maximum
Quartil 3
Quartil 1
Illustration 1 (Aufgabe)
Stellen Sie die folgenden Stichproben monatlicher Durchschnittstemperaturen in
1.: Braunlage (D):
{ 0, 1, 5, 9, 14, 18, 19, 19, 16, 10, 4, 1}
2.: Athen(GR):
{14, 14, 15, 19, 23, 27, 28, 29, 26, 22, 19, 15}
3.: Jönköping (S)
{-1, 0, 4, 10, 16, 20, 22, 21, 16, 10, 5, 2}
im Box-Whisker -Plot dar.
Lösung:
Braunlage
0
4
19
16
Athen
14
26
15
Jönköping
-1
4
22
16
min
0
14
-1
max
19
29
22
Spannweite
19
15
23
Median
10
22
10
29
13
Illustration 2 Der Box-Whisker- Plot (die Darstellung als Katzenschnäuzchen)
Schritt 1: Die Stichprobe wird sortiert und in die vier Quartile eingeteilt
Schritt 2: Quartil 2 und 3 werden eingerahmt (box = Schnäuzchen)
Schritt 3: Quartil 1 bzw 4 werden mit einem Strich (whisker = Katzen-Barthaar)
mit der Box verbunden.
1
1
1
2
{1,2,3,4}
3
4
4
{1,4,6,9}
5
{1,5,6,20}
6
6
9
Drei Box-Whisker-Plots,
("Katzenschnäuzchen")
20
In dieser Illustration sind die Beobachtungen jeweils in {} aufgeführt.
14
Illustration 3 : Die Temperaturen im spanischen Bundesland Galicien
Die Temperaturen in Galicien für die Jahre 1931 bis 1980 in 0.1 C
Monat
Minimum
Quartil 1
Median
Quartil 3
Maximum
Spannweite
Januar
60
70
80
90
100
40
Februar
59
75
86
97
107
48
März
80
95
105
115
130
50
April
95
110
119
128
140
45
Mai
110
130
142
154
165
55
Juni
152
160
171
182
190
38
Juli
170
181
191
202
210
40
August
175
182
194
206
215
40
September
150
165
177
189
195
45
Oktober
125
140
146
152
170
45
November
87
100
107
114
120
33
Dezember
68
78
85
92
100
32
15
Galicien-Temperatur in 0.1 C
250
150
100
Minimum
Quartil 1
Median
Quartil 3
Maximum
Monat
15
10
5
50
0
Minimum
200
16
5. Die lange Strichliste
Definition (Die lange Strichliste ‘stem leaf diagram’)
Die lange Strichliste, das sog. ‘stem leaf diagram’, ist eine geordnete Darstellung
quantitativer Beobachtungen, so daß eine mehrziffrige Zahl mit ihrer führenden Ziffer
nur einmal aufgeführt wird und die Folge-Ziffern hinter der führenden Ziffer
nacheinander hingeschrieben werden, so daß ein um 90 o gedrehtes Stabdiagramm
entsteht.
Illustration 4
Aus den Zahlen {14, 14, 15, 19, 23, 27, 28, 29, 26, 22, 19, 15} (s.o. Illustration 1)
folgt mit der Klasseneinteilung [10,19], [20,29] die lange Strichliste:
1: 4 4 5 5 9 9
2: 2 3 6 7 8 9
bzw. mit der Klasseneinteilung [10,14], [15,19] [20,24], [25,29]
1: 4 4
1: 5 5 9 9
2: 2 3
2: 6 7 8 9
bzw. mit der Klasseneinteilung [10,11], [12,13], [14,15], [16,19] [20,24], [25,29]
1:
1:
1: 4 4 5 5
1: 9 9
2: 2 3
2: 6 7 8 9
17
6. Streudiagramm (scatter diagram)
Definition (Streudiagramm)
Es seien jeweils n Beobachtungen für zwei kardinale bzw. numerisch kodierte nominale
oder ordinale Merkmale betrachtet. Die Werte des einen werden als x-Koordinaten und
die Werte des anderen als y-Koordinate verwandt. Dann können die Beobachtungen als
Punktwolke, Streudiagramm, dargestellt werden, wie die folgende Illustration zeigt.
Streudigramme sind außerordentlich beliebt und verbreitet.
Illustration
Es seien die folgenden 7 Paare von Beobachtungen vorgelegt:
Beobachtungen
Beobachtungs
Nr.
Merkmal 1
Merkmal 2
Beobachtung 1
1
2
Beobachtung 2
2
-2
Beobachtung 3
-1
3
Beobachtung 4
1
5
Beobachtung 5
-5
-1
Beobachtung 6
4
-4
Beobachtung 7
8
-8
Das Streudiagramm der Zahlen (x = 1. Spalte; y = 2. Spalte) ist dann:
18
7. Relative Differenz (Verteilungsdifferenz)
(percentage deviation of median M(X) versus the mean E(X)
Wenn mit M(X) der Median und mit E(X) der Mittelwert bezeichnet wird, dann ist
M(X) – E(X)
⋅ 100
E(X)
die sog. relative Differenz.
Sie mißt wieweit die mittlere Beobachtung, der Median, vom Durchschnitt, dem
Mittelwert, entfernt ist (how many percentage points is the median below the mean?).
Dieses Maß ist besonders beliebt für Verteilungsfragen, z. B. zur Beurteilung der Armut in
einem Land. In dieser Anwendung sind die Beobachtungen die individuellen Einkommen.
(DISTRIBUTION).
Beispiele
Beispiel 1 (Die Berechnung der Lageparameter Mittelwert und Varianz nach ‘Rezept’)
Beispiel 2 (Einige Aufgaben zu Lageparametern)
Beispiel 3 (Die Streuungszerlegung, einige Aufgaben)
Beispiel 4 (Einige weitere Aufgaben)
Herunterladen