1 Kapitel 3 Lageparameter (Verdichtung der Daten) Letzter Stand 16

Werbung
1
Kapitel 3 Lageparameter (Verdichtung der Daten)
Letzter Stand 16. Juni 2000, 16 Seiten
Literaturbezug
Dieses Kapitel (einschließlich der Aufgaben, Blätter, Übersichten, etc) bezieht sich auf den
Stoff der Abschnitte des Buches
G. Uebe, M. Schäfer,
Einführung in die Statistik für Wirtschaftswissenschaftler, Verlag Oldenbourg,
München 1991,
3.1 Lageparameter
3.2 Streuungsparameter,
3.3 Streuungszerlegung
3.4 Konzentrationmaße (in Gestalt von Quantilen)
3.8 Aufgaben dazu
Lernziele sind
1.
Die gängigen Lage- und Streuungsparameter:
Spannweite, Modalwert
Durchschnittsbildung (Mittelwerte) und Streuung (Varianz),
mittlere quadratische Abweichung, Variationskoeffizient,
2.
Vergleich von (zwei und mehr) Stichproben, Mittelwert und Varianz;
Streuungszerlegung,
3.
Median, Quartil, Dezil, Perzentil, Fraktil, Quantil generell, u. ä. Maße,
4
einige zugehörige graphische Darstellungen (Box Whisker plots, stem and leaf)
5.
Vertiefte Charakterisierung von Verteilungen.
Internet-Verweis
Auf der Bildseite siehe man die Stichworte:
(→ Streudiagramm (scatter diagram))
(→ Erwartungswert-Modelle einschließlich Beispiele)
(→ Varianz-Modelle einschließlich Beispiele)
2
1. Der Wert größter Häufigkeit
Um die Charakteristiken eines vorliegenden Datenmaterials überblicken zu können,
verdichtet man die Daten mit Hilfe von Maßzahlen. Oft gelingt dies nur für ordinale
und kardinale Merkmale. Im übrigen ist es sehr strittig für ordinale Beobachtungen,
s.u. Beispiel.
Definition (Modus)
Die Ausprägung, die am häufigsten beobachtet wurde, für die also gilt
xmod := xi mit f(xi ) = max {f(x k) | k = 1, 2, ..., K}
heißt Modus oder Modalwert.
2. Mittelwert
Definition (Mittelwert für ein diskretes Merkmal)
Ist X ein diskretes Merkmal, dann ist
(1)
1
x =
n
n
∑
i=1
K
bi =
∑ xk
f ( xk )
k=1
das arithmetische Mittel oder der Mittelwert von X, der Durchschnitt von X in
Kurzschreibweise x oder X .
Anmerkung zur Bezeichnung
Die Querschreibweise, d.h. ein überstrichener Buchstabe soll im folgenden stets heißen,
daß es sich um einen Durchschnitt handelt. M.a.W. z ist das arithmetische Mittel von
Werten z 1, z2 … zn.
Illustration 1 (Aufgabe zum Mittelwert)
Man betrachtet die Anzahl X der Zigaretten, die pro Person innerhalb einer Stunde in
einem Raum mit 50 Personen geraucht wurden, und erhält folgendes Ergebnis:
Anzahl der Zigaretten:
0
1
2
3
Anzahl der Personen:
10
5
10
25
Berechnen Sie die durchschnittliche Anzahl X von Zigaretten pro Person im Raum.
Lösung:
1
X =
(b + b2 + b3 + … b50) =
50 1
1
=
((0 + 0 + … + 0) + (1 + 1 + … + 1) + (2 + 2 + … + 2) + (3 +3 + … + 3)
50
1
1
=
[10 . (0) + 5 . (1) + 10 . (2) + 25 . (3)] =
[0 + 5 + 20 + 75] = 2
50
50
10
5
10
25
= 0.
+1.
+2.
+3.
=2
50
50
50
50
3
Definition (Mittelwert für ein stetiges Merkmal)
Ist X ein stetiges Merkmal und bezeichnet x*k die Klassenmitte der k-ten Klasse, dann
ist
K
nk
x = ∑ x *k
n
(1)'
k=1
das arithmetische Mittel oder der Mittelwert von X.
Illustration 2 (Aufgabe zum Mittelwert)
In einem Betrieb wurden folgende Daten über die monatlichen Einkommen (in 100
DM) der beschäftigten Frauen erhoben:
Einkommen
Anzahl der Frauen
6 bis 12
10
über 12 bis 16
über 16 bis 20
15
10
Berechnen Sie das Durchschnittseinkommen der Frauen.
Lösung:
9
14
18
22
x*
k
n k/n
0.25
0.375
0.25
0.125
n=40
9 . 0.25
14 . 0.375
18 . 0.25
22 . 0.125
2.25
5.25
4.5
2.75
x = 14.75
über 20 bis 24
5
4
3. Streuungsparameter
Definition (Spannweite)
Die Differenz zwischen der größten und der kleinsten beobachteten Ausprägung wird
als Spannweite bezeichnet.
Eine typische IIllustration ist die Darstellung von Temperaturen in der Zeitung, z.B.
30
20
17
18
19
20
6
5
6
7
Sa.
So.
Mo.
10
0
Fr.
Eng verwandt mit diesem Begriff ist das Streudiagramm (s.u.), eine punktweise
graphische Darstellung zweier Merkmale.
Definition (mittlere quadratische Abweichung des diskreten Merkmals)
Ist X ein diskretes Merkmal, dann ist
s2 =
(2)
1
n
n
∑ (b i i=1
K
x)2
=
∑
(xk - x)2 f (xk)
k=1
die mittlere quadratische Abweichung oder die empirische Varianz des Merkmals X.
Illustration 1’ (Fortsetzung Aufgabe zur mittleren quadratischen Abweichung)
Bestimmen Sie die empirische Varianz zu den Zahlen der Illustration 1
0
1
2
3
2 (=Mittelwert)
10
5
10
25
/50 (=Anteil)
s2 = (0-2)2 0.2 + (1-2) 2 0.1 +(2-2) 2 0.2 +(3-2) 2 0.5 =
= 0.8 + 0.1 + 0 + 0.5 = 1.4, s ≈ 1.18322
5
Definition (mittlere quadratische Abweichung des stetigen Merkmals)
Ist X ein stetiges Merkmal und bezeichnet x*k die Klassenmitte der k-ten Klasse, dann
ist
K
s2
(2)'
=
∑
2
(x k* - x)
k=1
nk
n
die mittlere quadratische Abweichung oder die empirische Varianz des Merkmals X.
Illustration 2’ (Fortsetzung Aufgabe zur mittleren quadratischen Abweichung)
Bestimmen Sie die empirische Varianz zu den Zahlen der Illustration 2
x*k
9
14
18
22
n k/n
0.25
0.375
0.25
0.125
n=40
(9-14.75)2
(14-14.75)2
(18-14.75)2
(22-14.75)2
5.752=33.0625
0.752=0.5625
3.252=10.5625
7.252=52.5625
x = 14.75
s2 = 33.0625 . 0.25 + 0.5625 . 0.375 + 10.5625 . 0.25 + 52.5625 . 0.125 =
= 8.265625 + 0.2109375 + 2.640625 + 6.5703125 = 17.6875, s ≈ 4.20565096
Definition (Standardabweichung)
Die positive Wurzel von s 2 wird in beiden Varianten, d.h. s =
Standardabweichung (oder auch als Streuung) bezeichnet.
s2 , als (empirische)
Die Bezeichnung ‘Streuung’ wird teilweise für Varianz u n d Standardabweichung
benutzt. Man achte daher auf den Zusammenhang, was sie genau bedeutet.
Aus später deutlich werdendem Grund wird auch die folgende Modifikation von
empirischer Varianz und Standardabweichung benutzt:
n
n
s* 2= s 2
und s* =
s2
n-1
n-1
d.h. anstatt durch n wird durch (n-1) in (2) bzw. (2)' geteilt.
Illustration 1’’ und 2’’ (Fortsetzung Aufgabe zur Streuung)
Für die beiden Illustrationen folgen die Streuungen:
aus s 2 = 1.4, s ≈ 1.18322
s* 2 = 1.428571, s* ≈ 1.19523 (n=50)
aus s 2 = 17.6875, s ≈ 4.20565096
s* 2 = 18.14103, s* = 4.25923 (n=40)
6
Definition (Varianzkoeffizient)
Falls der Mittelwert ungleich null ist (formal: X≠0 bzw. x ≠0 je nach Bezeichnung),
dann heißt
Streuung
s
das Verhältnis
der Variationskoeffizient: v= .
Mittelwert
x
Der Variationskoeffizient mißt die Variation im Vergleich zum Mittelwert.
Illustration 1’’’ und 2’’’ (Fortsetzung Aufgabe zum Varianzkoeffizienten)
Für die beiden Illustrationen folgen die Varianzkoeffizienten:
s 1.18322
s 4.20565096
v= =
≈ 0.592, bzw. v = =
≈ 0.285
2
14.75
x
x
Die Streuungszerlegung
Häufig setzen sich Stichproben aus gesondert erhobenen Teilstichproben zusammen,
beispielsweise für die gesamte BRD aus den einzelnen Bundesländern, für die gesamte
Bevölkerung aus Jahrgängen. In solchen Fällen ist der folgende sog. Streuungszerlegungssatz von Bedeutung.
7
Satz (Streuungszerlegung)
Sei eine Stichprobe von n Beobachtungen in I Teilstichproben jeweils vom Umfang ni
(i=1, 2, ..., I) gegeben, d.h.
I
{x1, ..., xn} = {x11, x12, ...,x1n1; x21,x22,...,x2n2; ... ; xI1 ,xI2 , ..., xInI }; n =
∑
ni ,
i=1
I
dann gilt für die Mittelwerte
x =
ni
∑
n
i=1
I
s2 =
und für die empirischen Varianzen
xi
ni 2
s +
n i
∑
i=1
I
∑
i=1
ni
n
(x - x i) 2
Beweis:
Für den Gesamt-Mittelwert ergibt sich:
ni
I n
n i ni x ij
x =∑ ∑
= ∑
=
∑ ni x i
n
n ∑ ni
i=1 j=1
i=1
j=1
i=1
I
I
x ij
Für die Gesamt-Varianz sei der Fall I = 2 betrachtet. Die Verallgemeinerung auf I ≥ 2 ist
offensichtlich:
n1
n2
j=1
j=1
1
s 2 = ( ∑ (x1j -x) 2 + ( ∑ (x2j - x)2 ) =
n
n1
n2
j=1
j=1
1
= ( ∑ ([x 1j -x 1]– [ x - x1 ])2 + ( ∑ ([x2j - x2] – [x - x2])2) =
n
1 2
= ∑
n
ni
2
∑
2
([x ij - x i] + [x - x i] - 2[x ij - x i] [x - x i]) =
i=1 j=1
2
∑
i=1
ni
1
(
n ni
ni
∑
j=1
1
(xij - xi)2 +
n
ni
2
∑ (x -x i) 2) - n
j=1
2
ni
i=1
j=1
∑ (x -x i)( ∑ (x ij - x i)) .
ni
Wegen ∑ (x ij - x i) = 0 ergibt sich daraus
j=1
2
s =
n1
n
2
s1 +
n2
n
2
s2 +
n1
n
2
(x - x 1) +
n2
n
(x - x 2)
2
w-z.b.w.
8
lllustration 1 (Zusammenfassung einer Erhebung, Streuungszerlegung)
Bei Schulkindern werden regelmäßig vom Schulzahnarzt die Zähne auf Karies
untersucht. Bei jedem Kind wird die Zahl kariöser Zähne vermerkt. Bei einer
Untersuchung seien bei drei Klassen eines Jahrgangs folgende Ergebnisse:
Klasse a Klasse b
Klasse c
Klassenstärke
25
25
30
durchschnittliche Zahl kariöser Zähne
1.4
1.6
1.4
Quadrate-Summe der Zahl kariöser
105
124
128
Zähne
Berechnen Sie das arihmetische Mittel und die empirische Standardabweichung der
Zahl kariöser Zähne für diese drei Klassen insgesamt.
Lösung
25
25
30
7
1 21
117
. 1.40 +
. 1.60 +
. 1.40 =
a) Gesamt-Mittelwert: x =
+ +
=
= 1.4625
80
80
80
16 2 40
80
b) Gesamt-Varianz:
Die Daten für die Varianzen benutzen die Beziehung
1
s2 =
ni
ni
ni
∑ x j2 - x2i , für die die Quadrate-Summe ∑
xj2 sowie der Durchschnitt xi
j=1
j =1
bekannt ist (s.o. 3. Zeile bzw. 2. Zeile). Damit folgt für s2
s2
=
2 25
2 30
2
25 2 25 2 30 . 2 25
sa +
sb+
sc +
x - xa +
x - xb +
x - xc
80
80
80
80
80
80
nb
nc
25 1
2 - x2) + 30 ( 1
2 - x 2)
(
x ib
xic
∑
∑
c
b
80 n b
80 nc
i=1
i=1
i=1
25
25
30
+
( x - xa )2 +
(x - xb )2 + ( x - xc )2
80
80
80
25 1
25 1
30 1
=
( . 105 - (1.4)2) +
( . 124 -(1.6) 2) +
( . 128 - (1.4)2)
80 25
80 25
80 30
25 117
25 117
30 117
+
(
- 1.4)2 +
(
- 1.6)2 +
(
-1.4) 2
80 80
80 80
80 80
= 0.7 + 0.75 + 0.865 + 0.012 + 0.0059 + 0.0015 = 2.3236 ⇒ s = 1.5243
=
25 1
(
80 n a
na
∑
x 2ia - x2a) +
9
lllustration 2
(Zusammenfassung einer Erhebung mit Datenergänzung,
Streuungszerlegung)
Ein mittelständischer Schlachtbetrieb kauft Rinder in den drei Ortschaften A, B und C.
Aufgrund verschiedener Zuchtmethoden gibt es Unterschiede bei den Gewichten der
Rinder aus den verschiedenen Ortschaften. Folgende Daten wurden erhoben:
xA = 700 kg
xB = 640 kg
xC = ??? kg
n A = 10
nB = 5
n C = 25
2
s A = 200
2
s B = 160
2
s C = 112
Das Durchschnittsgewicht aller geschlachteten Rinder ist x = 705 kg.
a) Berechnen Sie das unbekannte xC (durch ??? markiert)
b) Berechnen Sie die mittlere quadratische Abweichung (empirische Varianz) der
Rindergewichte.
Lösung
a) Schließen der Datenlücke aus dem Gesamt-Mittelwert:
1
1
5
x = xA + xB + xC
4
8
8
8
1
1
8
8450
⇒ xC = (x - xA - xB ) = (705 - 175 - 80) =
= 720
5
4
8
5
5
1 2 1 2 5 2 1
1
5
b) s2 = s A + s B + s C + (xA - x)2 + (xB - x)2 + (xC - x)2
4
8
8
4
8
8
2
25 65
225 . 5
= 50 + 20 + 70 +
+
+
= 815
4
8
8
10
lllustration 3
(Zusammenfassung einer Erhebung mit Datenergänzung,
Streuungszerlegung)
In den 4 Grundschulen G1, G2, G3 und G4 eines Ortes A wurden für die Schulanfänger
folgende Daten ermittelt:
G1
G2
G3
G4
Durchschnittsalter (in Gi )
6.5
6.6
7.5
6.8
Standardabweichung des Alters (in Gi )
???
0.4
0.5
0.6
Anzahl der Kinder (in Gi )
20
25
30
25
a) Berechnen Sie das Durchschnittsalter der Schulanfänger in A.
b) Berechnen Sie die empirische Varianz (mittlere quadratische Abweichung) des
Alters der Schulanfänger in G1, die versäumt worden ist, anzugeben.
Die empirische Varianz aller Schulanfänger in A ist 0.4.
Lösung:
1
a) Gesamt-Mittelwert: x =
(20 . 6.5 + 25 . 6.6 + 30 .7.5 + 25 . 6.8) = 6.9
100
b) Schließen der Datenlücke aus der Gesamt-Varianz
1
1
s2 =
( 20s 21 + 25s 22 + 30s23 + 25s24 ) +
( 20(x1 - x)2 + 25(x2 -x) 2 + 30(x 3 - x) 2 + 25(x 4 - x)2 )
100
100
1
1
3
1
1
1
3
1
⇔ 0.4 = s 21 + 0.16 +
0.25 + 0.36 + (6.5–6.9) 2 + (6.6-6.9)2 + (7.5-6.9) 2 + (6.8-6.9)2
5
4
10
4
5
4
10
4
1
⇔ s 21 = 0.4- 0.37 =0.03 ⇒ s 21 = 0.15 ⇒ s1 = 0.3873
5
11
4. Der Box-Whisker-Plot
Definition (Der Box-Whisker-Plot, diagramme des quartiles)
Der Box-Whisker-Plot ist eine geordnete Darstellung der Beobachtungen, so daß sie
nach ihren vier Quartilen graphisch gruppiert werden. Die beiden mittleren
Quartile, die der Größe nach mittleren Beobachtungen, werden in einem Kasten
eingerahmt. Der Anfang und das Ende der Beobachtungen werden durch einen
kleinen senkrechten Strich angezeigt. Die Entfernung zwischen Minimum und
Maximum ist die Spannweite der Beobachtungen.
Quartil 2
Median
Minimum
Maximum
Quartil 3
Quartil 1
Illustration 1 (Aufgabe)
Stellen Sie die folgenden Stichproben monatlicher Durchschnittstemperaturen in
1.: Braunlage (D):
{ 0, 1, 5, 9, 14, 18, 19, 19, 16, 10, 4, 1}
2.: Athen(GR):
{14, 14, 15, 19, 23, 27, 28, 29, 26, 22, 19, 15}
3.: Jönköping (S)
{-1, 0, 4, 10, 16, 20, 22, 21, 16, 10, 5, 2}
im Box-Whisker -Plot dar.
Lösung:
Braunlage
0
4
19
16
Athen
14
26
15
Jönköping
-1
4
22
16
min
0
14
-1
max
19
29
22
Spannweite
19
15
23
Median
10
22
10
29
12
Illustration 2 Der Box-Whisker- Plot (die Darstellung als Katzenschnäuzchen)
Schritt 1: Die Stichprobe wird sortiert und in die drei Quartile eingeteilt
Schritt 2: Quartil 2 und 3 werden eingerahmt (box = Schnäuzchen)
Schritt 3: Quartil 1 bzw 4 werden mit einem Strich (whisker = Katzen-Barthaar)
mit der Box verbunden.
1
1
1
2
{1,2,3,4}
3
4
4
{1,4,6,9}
5
{1,5,6,20}
6
6
9
Drei Box-Whisker-Plots,
("Katzenschnäuzchen")
20
In dieser Illustration sind die Beobachtungen jeweils in {} aufgeführt.
13
Illustration 3 : Die Temperaturen in der spanischen Region Galicien
Die Temperaturen in Galicien für die Jahre 1931 bis 1980 in 0.1 C
Monat
Minimum
Quartil 1
Median
Quartil 3
Maximum
Spannweite
Januar
60
70
80
90
100
40
Februar
59
75
86
97
107
48
März
80
95
105
115
130
50
April
95
110
119
128
140
45
Mai
110
130
142
154
165
55
Juni
152
160
171
182
190
38
Juli
170
181
191
202
210
40
August
175
182
194
206
215
40
September
150
165
177
189
195
45
Oktober
125
140
146
152
170
45
November
87
100
107
114
120
33
Dezember
68
78
85
92
100
32
14
Galicien-Temperatur in 0.1 C
250
150
100
Minimum
Quartil 1
Median
Quartil 3
Maximum
Monat
15
10
5
50
0
Minimum
200
15
5. Die lange Strichliste
Definition (Die lange Strichliste ‘stem leaf diagram’)
Die lange Strichliste, das sog. ‘stem leaf diagram’, ist eine geordnete Darstellung
quantitativer Beobachtungen, so daß eine mehrziffrige Zahl mit ihrer führenden
Ziffer nur einmal aufgeführt wird und die Folge-Ziffern hinter der führenden Ziffer
nacheinander hingeschrieben werden, so daß ein um 90o gedrehtes Stabdiagramm
entsteht.
Illustration 4
Aus den Zahlen {14, 14, 15, 19, 23, 27, 28, 29, 26, 22, 19, 15} (s.o. Illustration 1)
folgt mit der Klasseneinteilung [10,19], [20,29] die lange Strichliste:
1: 4 4 5 5 9 9
2: 2 3 6 7 8 9
bzw. mit der Klasseneinteilung [10,14], [15,19] [20,24], [25,29]
1: 4 4
1: 5 5 9 9
2: 2 3
2: 6 7 8 9
bzw. mit der Klasseneinteilung [10,11], [12,13], [14,15], [16,19] [20,24], [25,29]
1:
1:
1: 4 4 5 5
1: 9 9
2: 2 3
2: 6 7 8 9
16
6. Streudiagramm (scatter diagram)
Definition (Streudiagramm)
Es seien jeweils n Beobachtungen für zwei kardinale bzw. numerisch kodierte
nominale oder ordinale Merkmale betrachtet. Die Werte des einen werden als xKoordinaten und die Werte des anderen als y-Koordinate verwandt. Dann können die
Beobachtungen als Punktwolke, Streudiagramm, dargestellt werden, wie die folgende
Illustration zeigt. Streudigramme sind außerordentlich beliebt und verbreitet.
Illustration
Es seien die folgenden 7 Paare von Beobachtungen vorgelegt:
Beobachtungen
Beobachtungs Nr.
Merkmal 1
Merkmal 2
Beobachtung 1
1
2
Beobachtung 2
2
-2
Beobachtung 3
-1
3
Beobachtung 4
1
5
Beobachtung 5
-5
-1
Beobachtung 6
4
-4
Beobachtung 7
8
-8
Das Streudiagramm der Zahlen (x = 1. Spalte; y = 2. Spalte) ist dann:
Herunterladen