Statistik I für Wirtschaftswissen

Werbung
Lösungsvorschläge zu Blatt 2 zur “Statistik I für Wirtschaftswissenschaftler” vom WS 08/09:
5)
a)
Von einem Versicherungsinstitut liegen folgende Angaben vor:
i
1
2
3
4
5
6
Versicherungshöhe
von...bis unter... Euro
0 − 1000
1000 − 2000
2000 − 3000
3000 − 4000
4000 − 5000
5000 − 6000
Summe
Ausrechnungsbeispiel:
h′3 =
fi
h′i
20
5
40 10
100 25
120 30
80 20
40 10
400 100
f3
100
·
100
=
· 100 = 25
6
400
X
fj
j=1
b) Es liegt eine Tabelle mit konstanter Klassenbreite vor; somit können als Rechteckhöhen die Häufigkeiten selbst verwendet werden. Wir zeichnen ein Histogramm mit den absoluten und eines mit den prozentualen Häufigkeiten als Rechteckhöhen:
1
absolute Häufigkeit
6
120
100
80
60
40
20
Versicherungshöhe
1000
3000
6000
prozentuale Häufigkeit
6
30
25
20
15
10
5
Versicherungshöhe
1000
3000
6000
6) a)
Aus der vorgegebenen klassierten Häufigkeitstabelle mit relativen Häufigkeiten sind zunächst zu prozentualen Häufigkeiten h′i und dann die kumulierten
2
Häufigkeiten aufsteigender und absteigendender Kumulation zu berechnen:
Einkommen (in 1000 Euro)
von ... bis unter ...
4−8
8 − 10
10 − 12
12 − 14
14 − 18
18 − 24
24 − 36
36 − 48
Summe
kum. proz. Hf.
aufsteig. Kum.
4.0
4.0
10.0
14.0
40.0
54.0
30.0
84.0
9.0
93.0
6.0
99.0
0.8
99.8
0.2
100.0
100.0
×
h′i
kum. proz. Hf.
absteig. Kum.
100.0
96.0
86.0
46.0
16.0
7.0
1.0
0.2
×
Interpretationsbeispiele: 93.0% der Einkommen liegen unter 18000 Euro, 16.0%
der Einkommen betragen 14000 Euro und mehr.
6 b) Für das Histogramm (variable Klassenbreite!) wird 2 als Bezugsklassenbreite
gewählt:
i
1
2
3
4
5
6
7
8
Summe
4−8
8 − 10
10 − 12
12 − 14
14 − 18
18 − 24
24 − 36
36 − 48
×
h′i
Klassenbreite
4.0
4
10.0
2
40.0
2
30.0
2
9.0
4
6.0
6
0.8
12
0.2
12
100.0
×
Ausrechnungsbeispiel für die Rechteckhöhe:
4.0
h′1 · 2
=
= 2.0
4
2
3
Rechteckhöhe
2.0
10.0
40.0
30.0
4.5
2.0
0.13
0.03
×
6
40.0
30.0
20.0
10.0
4.5
2.0
-
4
8 10
14
18
24
4
36
48 Einkommen
(in 1000 Euro)
7) a)
Wieviel % verdienen unter 11500 Euro ?
Diesen Betrag finden wir in der Klasse ”10-12”.
Wir brauchen dann die zugehörigen kumulierten prozentualen Häufigkeiten aufsteigender Kumulation:
14.0% verdienen unter 10000 Euro
54.0% verdienen unter 12000 Euro
?% verdienen unter 11500 Euro
Wir wenden die Interpolationsformel (2.2.1) für die kumulierte Häufigkeit aufsteigender Kumulation mit x1 := 10000, x2 := 12000, x := 11500, y1 := 14.0 und
y2 := 54.0 an:
x − x1
(y2 − y1 )
x2 − x1
11500 − 10000
· (54.0 − 14.0) = 44.0
= 14.0 +
12000 − 10000
y = y1 +
Näherungsweise 44% verdienen also unter 11500 Euro.
Bei diesem Beispiel sei die Interpolationsformel durch eine Skizze erläutert, wobei
die Maßeinheiten für x und y verschieden gewählt sind:
y1 y y2
x1 xx2
b)
Wieviel % verdienen 13000 Euro und mehr?
Diesen Betrag finden wir in der Klasse ”12-14”.
Wir brauchen dann die zugehörigen kumulierten prozentualen Häufigkeiten absteigender Kumulation:
(y1 :=) 46.0% verdienen
(y2 :=) 16.0% verdienen
?% verdienen
12000 (=: x1 )
14000 (=: x2 )
13000 (=: x)
Euro und mehr
Euro und mehr
Euro und mehr
13000 − 12000
· (16.0 − 46.0) = 31.0
14000 − 12000
Näherungsweise 31% verdienen 13000 Euro und mehr.
c) Unter welcher Einkommensgrenze liegen die Einkommen von 30% der Mitarbeiter? Hier sind die kumulierten prozentualen Häufigkeiten aufsteigender Kumulation zu verwenden. Der Wert 30(%) liegt zwischen 14.0 und 54.0. Dies führt
(2.2.1) ⇒ y = 46.0 +
5
zu folgender Überlegung:
(x1 :=) 14.0% verdienen unter (y1 :=) 10000 Euro
(x2 :=) 54.0% verdienen unter (y2 :=) 12000 Euro
(x :=) 30.0% verdienen unter
? Euro
30.0 − 14.0
· (12000 − 10000) = 10800
54.0 − 14.0
30% verdienen näherungsweise unter 10800 Euro.
(2.2.1) ⇒ y = 10000 +
8) Aus der Rangliste von Aufgabe 4) können wir unmittelbar ablesen, dass der
Merkmalswert 13 die größte absolute Häufigkeit, nämlich 4 hat. Alle anderen absoluten Häufigkeiten sind niedriger. 13 ist also als Modus eindeutig bestimmt.
Es gibt aber einen anderen Merkmalswert, nämlich 6, dessen Häufigkeit 3 größer
ist als die benachbarter Werte, und damit liegt keine eingipflige Verteilung vor.
Daher ist es mindestens fraglich, ob 13 wirklich als Modus sinnvoll interpretiert
werden kann.
9) a) Die Daten aus 4) waren aus einer geraden Anzahl von Beobachtungen,
nämlich 50, gewonnen worden. Wenn wir die Merkmalswerte in der in 4) ermittelten Rangliste mit xi bezeichnen, also x1 = 1, x2 = 1, x3 = 2, x4 = 2, u.s.w.
erhalten wir nach der Formel für den Median
1
13 + 13
Me = (x25 + x26 ) =
= 13
2
2
b)Die Daten aus 6) waren in einer klassierten Häufigkeitstabelle vorgegeben. Daher ist der Median die Grenze, unter der die Einkommen von 50% der Mitarbeiter
liegen. Wir benutzen in der Tabelle von 6) die kumulierte prozentuale Häufigkeit
aufsteigender1 Kumulation:
(x1 :=) 14.0% verdienen unter (y1 :=) 10000 Euro
(x2 :=) 54.0% verdienen unter (y2 :=) 12000 Euro
(x :=) 50.0% verdienen unter
? Euro
(2.2.1) ⇒ Me ≈ y = 10000 +
= 11800
50.0 − 14.0
· (12000 − 10000)
54.0 − 14.0
Der Median beträgt also näherungsweise 11800 Euro.
1
absteigende Kumulation für 50% lässt sich ebenso verwenden
6
10) Arbeitstabelle:
i
1
2
3
4
5
6
7
Summe
x=
7
X
i=1
xi
0
1
2
3
4
5
6
×
h′i
12
6
12
40
10
10
10
100
hi xi · hi
0.12
0
0.06 0.06
0.12 0.24
0.40 1.20
0.10 0.40
0.10 0.50
0.10 0.60
1.00 3.00
xi hi = 0 · 0.12 + 1 · 0.06 + 2 · 0.12 + . . . + 6 · 0.10
= 3.00
oder besser direkt
x=
7
X
xi h′i
i=1
=
100
0 · 12 + 1 · 6 + 2 · 12 + . . . + 6 · 10
= 3.00.
100
Mittlere absolute Abweichung:
d := |xi − x| =
7
X
i=1
oder besser direkt
d=
7
X
i=1
|xi − x|hi = |0 − 3| · 0.12 + |1 − 3| · 0.06 + . . . + |6 − 3| · 0.10
= 3 · 0.12 + 2 · 0.06 + . . . + 3 · 0.10 = 1.20
|xi − x|h′i
100
=
=
|0 − 3| · 12 + |1 − 3| · 6 + . . . + |6 − 3| · 10
100
3 · 12 + 2 · 6 + . . . + 3 · 10
= 1.20
100
Varianz:
σ 2 = (xi − x)2 =
7
X
i=1
(xi −x)2 hi = (0−3)2 ·0.12+(1−3)2·0.06+. . .+(6−3)2 ·0.10 = 2.84
oder besser direkt
σ2 =
7
X
i=1
(xi − x)2 h′i
100
=
(0 − 3)2 · 12 + (1 − 3)2 · 6 + . . . + (6 − 3)2 · 10
= 2.84
100
7
Eine einfachere Berechnungsmöglichkeit liefert die Formel (3.2.3):
!
7
X
σ 2 = x2 −x2 =
x2i hi −x2 = 02 ·0.12+12 ·0.06+22·0.12+. . .+62 ·0.10−3.002 = 2.84
i=1
oder besser direkt
7
X
x2i h′i
02 · 12 + 12 · 6 + 22 · 12 + . . . + 62 · 10
−3.002 = 2.84.
100
100
√
Die Standardabweichung ist somit σ = 2.84 = 1.69.
σ 2 = x2 −x2 =
i=1
−x2 =
11) Da wir von einer Urliste ausgehen, können wir jeweils einfache arithmetische
Mittel bilden.
a)
Pn
Pn
Pn
Pn
xi n · a
i=1 a
i=1 xi +
i=1 (xi + a)
=
= i=1 +
= xi + a
xi + a =
n
n
n
n
2
b) Nach Teil a) gilt: Varianz von (xi +a) = xi + a − (xj + a) = (xi + a − (xj + a))2 =
(xi − xj )2 =Varianz von (xi ).
c)
Alle xi sind gleich ⇔ xi = x̄ für alle i ⇒ σ 2 := (xi − x̄)2 = 0
Sei nun
n
2
σ := (xi −
x̄)2
1X
=
(xi − x̄)2 = 0
n i=1
Da in der letzten Summe alle Summanden ≥ 0 sind, folgt aus σ 2 = 0:
xi = x̄ für alle i und damit sind alle xi gleich.
Vorsicht!
Gegenbeispiel:
X
ai = 0 ; ai = 0 für alle i
a1 = 1, a2 = 3, a3 = −4 6= 0
1+3−4 =0
Die Aussagen in a), b) und c) gelten auch, wenn man von Häufigkeitstabellen
ausgeht.
12)
Daten aus Aufgabe 6), wobei die relativen Häufigkeiten (ausnahmsweise)
als exakt angenommen werden:
8
j
1
2
3
4
5
6
7
8
Einkommen von ...
bis unter ...(1000 Euro)
4−8
8 − 10
10 − 12
12 − 14
14 − 18
18 − 24
24 − 36
36 − 48
Summe
Klassenmitte
6
9
11
13
16
21
30
42
×
hj
0.0400
0.1000
0.4000
0.3000
0.0900
0.0600
0.0080
0.0020
1.0000
hj ×
Kl.mitte
0.240
0.900
4.400
3.900
1.440
1.260
0.240
0.084
12.464
hj ×
hj ×
untere Kl.grenze obere Kl.grenze
0.160
0.320
0.800
1.000
4.000
4.800
3.600
4.200
1.260
1.620
1.080
1.440
0.192
0.288
0.072
0.096
11.164
13.764
1
fn ), wobei xe1 , . . . , x
fn die Werte aus der nicht vorgegebenen
x̄ = (xe1 + xe2 + . . . + x
n
Urliste sind.
a)
8
X
x̄ ≈
hj · Klassenmitte der i-jen Klasse = 12.5
j=1
b)
Summe aller Merkmalswerte (Urliste)
n
Summe aller Merkmalswerte(Urliste)
P
=
fi
8
X
Summe aller Merkmalswerte in Klasse j
x̄ =
=
j=1
8
X
fi
i=1
<
8
X
j=1
fj · obere Grenze der Klasse j
8
X
fi
i=1
=
8
X
j=1
hj · obere Grenze der Klasse j
= 13.764
x̄ =
8
X
Summe aller Merkmalswerte in Klasse j
j=1
8
X
i=1
9
fi
8
X
j=1
≥
fj · untere Grenze der Klasse j
8
X
fi
i=1
8
X
=
j=1
hj · untere Grenze der Klasse j
= 11.164
Damit gilt: 11.164 ≤ x̄ < 13.764
13) Minimaleigenschaft der Varianz:
n
n
n
X
X
∂ X
2
′
(xi − z) = 2
(z − xi ) = 2 nz −
xi
n · f (z) =
∂z i=1
i=1
i=1
!
!
=0
n
⇔ z=
Außerdem gilt:
1X
xi =: x.
n i=1
n
X
i=1
Damit nimmt
(xi − z)2 → +∞ für z → ±∞.
n
1X
(xi − z)2
n i=1
an der Stelle z = x und nur dort ein absolutes und sogar strenges Minimum an.
Zusätzlich (was in der Aufgabenstellung nicht verlangt war) behandeln wir die
Minimaleigenschaft der mittleren absoluten Abweichung:
n
1X
Wo ist g(z) :=
|xi − z| minimal?
n i=1
Wir ordnen die Merkmalswerte in einer Rangliste (was u.U. eine Vertauschung
der Summanden nötig macht, die aber für die Summenbildung ohne Belang ist):
x1 6 x2 6 . . . 6 xn .
Diese Werte ergänzen wir zur Vereinfachung der Argumentation durch x0 := −∞
und xn+1 := ∞, an denen wir zwar keine Funktionswerte bilden, die wir aber als
Intervallgrenzen verwenden.
Wir untersuchen dann die Ableitungen in den offenen Intervallen xk < z < xk+1 ,
06k6n:
n
∂ X
′
n · g (z) =
|xi − z|
∂z i=1


P
Pk
∂ 
= ∂z
− z | + ni=k+1 | xi − z |
i=1 | x
| {z }
| i {z }
<0
>0
P
P
k
n
∂
(z
−
x
)
+
(x
−
z)
= ∂z
i
i
i=1
i=k+1
Pn
Pk
= i=1 (+1) + i=k+1 (−1) = k + (n − k)(−1)
= 2 · (k − n/2) ⋚ 0 ⇔ k ⋚ n/2.
10
(1)
Dabei wurde die Vereinbarung verwendet, dass eine Summe, bei der die obere
Summationsgrenze kleiner ist als die untere, definitionsgemäß = 0 ist.
Da nun g(z) überall stetig ist, ist g(z) für m < n/2 in den Intervallen2 (x0 , x1 ] =
(−∞, x1 ], [x1 , x2 ], . . . , [xm , xm+1 ] und damit in dem Intervall
(−∞, x(n+1)/2 ] für n ungerade
(−∞, xn/2 ]
für n gerade
streng monoton fallend, und für m > n/2 in den Intervallen2 [xm , xm+1 ], [xm+1 , xm+2 ],
. . . , [xn , xn+1 ) = [xn , ∞) und damit in dem Intervall
[x(n+1)/2 , ∞) für n ungerade
[x(n/2+1) , ∞)
für n gerade
streng monoton wachsend. Für ungerade n besitzt g(z) damit in der Übergangsstelle x(n+1)/2 = Me von “streng monoton fallend“ nach “streng monoton wachsend“ ein (sogar strenges) absolutes Minimum. Für gerade n haben wir eine Lücke
zwischen den beiden Intervallen3 (−∞, xn/2 ] und [x(n/2+1) , ∞), die durch das Intervall [xn/2 , x(n/2+1) ] aufgefüllt wird. Dort ist g(z) konstant, weil g(z) dort stetig
ist und weil in dem offenen Intervall (xn/2 , x(n/2+1) ) die Ableitung g ′ (z) = 0 ist.
Links von dem Intervall [xn/2 , x(n/2+1) ] ist g(z) streng monoton fallend und rechts
streng monoton wachsend. Damit besitzt g(z) an allen Stellen des Intervalles
[xn/2 , x(n/2+1) ], also u.a. in (xn/2 + x(n/2+1) )/2 = Me ein absolutes Minimum. In
beiden Fällen erhalten wir somit:
n
1X
g(z) :=
|xi − z|
n i=1
wird für z = Me minimal, und deshalb wird die mittlere absolute Abweichung
meist mit dem Median gebildet:
n
1X
|xi − Me|
n i=1
14) a) Exakte Rechnung:
x̄ =
x2 =
56
1.0 · 10 + 1.1 · 20 + 1.2 · 20
=
= 1.12
50
50
63
1.02 · 10 + 1.12 · 20 + 1.22 · 20
=
= 1.26
50
50
2
Wenn xk = xk+1 ist, lässt man das Intervall [xk , xk+1 ] weg. Das Intervall mit dem rechten
Randpunkt xk und das Intervall mit dem linken Randpunkt xk+1 gehen dann direkt ineinander
über.
3
Dies trifft eigentlich nur im Falle xn/2 < x(n/2+1) zu; wenn aber xn/2 = x(n/2+1) ist, ist
xn/2 = x(n/2+1) wie im ungeraden Fall die einzige Übergangsstelle von “streng monoton fallend“
nach “streng monoton wachsend“.
11
σ 2 = x2 − x̄2 = 1.26 − 1.2544 = 0.0056 = (xi − x̄)2
b) Rundung auf 1 Stelle nach dem Dezimalpunkt bei fast allen Zwischenergebnisssen:
x̄ = 1.1, x̄2 = 1.2, x2 = 1.3
Mit der Definitionsformel für die Varianz erhält man:
σ 2 := (xi − x̄)2
(1.0 − 1.1)2 · 10 + (1.1 − 1.1)2 · 20 + (1.2 − 1.1)2 · 20
=
50
0.3
= 0.006
=
50
Dieser Wert ist von dem exakten Wert nicht zu weit weg.
Die Anwendung von Formel (3.2.3) ergibt:
σ 2 = x2 − x̄2 = 1.3 − 1.2 = 0.1,
also einen völlig unbrauchbaren Wert.
(3.2.3) ist bei gerundeten Werten manchmal ungünstiger als die Originalformel.
15) Aus den Daten und Rechnungen von Aufgabe 10) erhalten wir:
Mo = 3, x̄ = 3, σ = 1.69
Damit gilt
3−3
x̄ − Mo
=
= 0,
σ
1.69
aber die (als Stabdiagramm dargestellte) Häufigkeitsverteilung ist nicht symmetrisch:
sk :=
12
Herunterladen