Lösungsvorschläge zu den Aufgaben 6 – 14 von Blatt 2 zur “Statistik

Werbung
Lösungsvorschläge zu den Aufgaben 6 – 14 von Blatt 2 zur “Statistik
I für Wirtschaftswissenschaftler” vom WS 07/08:
6) a)
Aus der vorgegebenen klassierten Häufigkeitstabelle mit relativen Häufigkeiten sind zunächst zu prozentualen Häufigkeiten h′i und dann die kumulierten
Häufigkeiten aufsteigender und absteigendender Kumulation zu berechnen:
Einkommen (in 1000 Euro)
von ... bis unter ...
4−8
8 − 10
10 − 12
12 − 14
14 − 18
18 − 24
24 − 36
36 − 48
Summe
kum. proz. Hf.
aufsteig. Kum.
4.0
4.0
10.0
14.0
40.0
54.0
30.0
84.0
9.0
93.0
6.0
99.0
0.8
99.8
0.2
100.0
100.0
×
h′i
kum. proz. Hf.
absteig. Kum.
100.0
96.0
86.0
46.0
16.0
7.0
1.0
0.2
×
Interpretationsbeispiele: 93.0% der Einkommen liegen unter 18000 Euro, 16.0%
der Einkommen betragen 14000 Euro und mehr.
6 b) Für das Histogramm (variable Klassenbreite!) wird 2 als Bezugsklassenbreite
gewählt:
i
1
2
3
4
5
6
7
8
Summe
4−8
8 − 10
10 − 12
12 − 14
14 − 18
18 − 24
24 − 36
36 − 48
×
h′i
Klassenbreite
4.0
4
10.0
2
40.0
2
30.0
2
9.0
4
6.0
6
0.8
12
0.2
12
100.0
×
Ausrechnungsbeispiel für die Rechteckhöhe:
h′1 · 2
4.0
=
= 2.0
4
2
1
Rechteckhöhe
2.0
10.0
40.0
30.0
4.5
2.0
0.13
0.03
×
6
40.0
30.0
20.0
10.0
4.5
2.0
-
4
8 10
14
18
24
2
36
48 Einkommen
(in 1000 Euro)
7) a)
Wieviel % verdienen unter 11500 Euro ?
Diesen Betrag finden wir in der Klasse ”10-12”.
Wir brauchen dann die zugehörigen kumulierten prozentualen Häufigkeiten aufsteigender Kumulation:
14.0% verdienen unter 10000 Euro
54.0% verdienen unter 12000 Euro
?% verdienen unter 11500 Euro
Wir wenden die Interpolationsformel (2.2.1) für die kumulierte Häufigkeit aufsteigender Kumulation mit x1 := 10000, x2 := 12000, x := 11500, y1 := 14.0 und
y2 := 54.0 an:
x − x1
(y2 − y1 )
x2 − x1
11500 − 10000
= 14.0 +
· (54.0 − 14.0) = 44.0
12000 − 10000
y = y1 +
Näherungsweise 44% verdienen also unter 11500 Euro.
Bei diesem Beispiel sei die Interpolationsformel durch eine Skizze erläutert, wobei
die Maßeinheiten für x und y verschieden gewählt sind:
y1 y y2
x1 xx2
b)
Wieviel % verdienen 13000 Euro und mehr?
Diesen Betrag finden wir in der Klasse ”12-14”.
Wir brauchen dann die zugehörigen kumulierten prozentualen Häufigkeiten absteigender Kumulation:
(y1 :=) 46.0% verdienen
(y2 :=) 16.0% verdienen
?% verdienen
(2.2.1) ⇒ y = 46.0 +
12000 (=: x1 )
14000 (=: x2 )
13000 (=: x)
Euro und mehr
Euro und mehr
Euro und mehr
13000 − 12000
· (16.0 − 46.0) = 31.0
14000 − 12000
3
Näherungsweise 31% verdienen 13000 Euro und mehr.
c) Unter welcher Einkommensgrenze liegen die Einkommen von 30% der Mitarbeiter? Hier sind die kumulierten prozentualen Häufigkeiten aufsteigender Kumulation zu verwenden. Der Wert 30(%) liegt zwischen 14.0 und 54.0. Dies führt
zu folgender Überlegung:
(x1 :=) 14.0% verdienen unter (y1 :=) 10000 Euro
(x2 :=) 54.0% verdienen unter (y2 :=) 12000 Euro
(x :=) 30.0% verdienen unter
? Euro
30.0 − 14.0
· (12000 − 10000) = 10800
54.0 − 14.0
30% verdienen näherungsweise unter 10800 Euro.
(2.2.1) ⇒ y = 10000 +
8) Aus der Rangliste von Aufgabe 4) können wir unmittelbar ablesen, dass der
Merkmalswert 13 die größte absolute Häufigkeit, nämlich 4 hat. Alle anderen absoluten Häufigkeiten sind niedriger. 13 ist also als Modus eindeutig bestimmt.
Es gibt aber einen anderen Merkmalswert, nämlich 6, dessen Häufigkeit 3 größer
ist als die benachbarter Werte, und damit liegt keine eingipflige Verteilung vor.
Daher ist es mindestens fraglich, ob 13 wirklich als Modus sinnvoll interpretiert
werden kann.
9) a) Die Daten aus 4) waren aus einer geraden Anzahl von Beobachtungen,
nämlich 50, gewonnen worden. Wenn wir die Merkmalswerte in der in 4) ermittelten Rangliste mit xi bezeichnen, also x1 = 1, x2 = 1, x3 = 2, x4 = 2, u.s.w.
erhalten wir nach der Formel für den Median
13 + 13
1
= 13
Me = (x25 + x26 ) =
2
2
b)Die Daten aus 6) waren in einer klassierten Häufigkeitstabelle vorgegeben. Daher ist der Median die Grenze, unter der die Einkommen von 50% der Mitarbeiter
liegen. Wir benutzen in der Tabelle von 6) die kumulierte prozentuale Häufigkeit
aufsteigender1 Kumulation:
(x1 :=) 14.0% verdienen unter (y1 :=) 10000 Euro
(x2 :=) 54.0% verdienen unter (y2 :=) 12000 Euro
(x :=) 50.0% verdienen unter
? Euro
(2.2.1) ⇒ Me ≈ y = 10000 +
= 11800
1
50.0 − 14.0
· (12000 − 10000)
54.0 − 14.0
absteigende Kumulation für 50% lässt sich ebenso verwenden
4
Der Median beträgt also näherungsweise 11800 Euro.
10) Arbeitstabelle:
i
1
2
3
4
5
6
7
Summe
x=
7
X
i=1
xi
0
1
2
3
4
5
6
×
h′i
12
6
12
40
10
10
10
100
hi xi · hi
0.12
0
0.06 0.06
0.12 0.24
0.40 1.20
0.10 0.40
0.10 0.50
0.10 0.60
1.00 3.00
xi hi = 0 · 0.12 + 1 · 0.06 + 2 · 0.12 + . . . + 6 · 0.10
= 3.00
oder besser direkt
x=
7
X
xi h′i
i=1
=
100
0 · 12 + 1 · 6 + 2 · 12 + . . . + 6 · 10
= 3.00.
100
Mittlere absolute Abweichung:
d := |xi − x| =
7
X
i=1
|xi − x|hi = |0 − 3| · 0.12 + |1 − 3| · 0.06 + . . . + |6 − 3| · 0.10
= 3 · 0.12 + 2 · 0.06 + . . . + 3 · 0.10 = 1.20
oder besser direkt
d=
7
X
i=1
|xi − x|h′i
100
=
=
|0 − 3| · 12 + |1 − 3| · 6 + . . . + |6 − 3| · 10
100
3 · 12 + 2 · 6 + . . . + 3 · 10
= 1.20
100
Varianz:
2
σ = (xi −
x)2
=
7
X
i=1
(xi −x)2 hi = (0−3)2 ·0.12+(1−3)2·0.06+. . .+(6−3)2 ·0.10 = 2.84
5
oder besser direkt
σ2 =
7
X
i=1
(xi − x)2 h′i
100
=
(0 − 3)2 · 12 + (1 − 3)2 · 6 + . . . + (6 − 3)2 · 10
= 2.84
100
Eine einfachere Berechnungsmöglichkeit liefert die Formel (3.2.3):
!
7
X
2
2
2
xi hi −x2 = 02 ·0.12+12 ·0.06+22·0.12+. . .+62 ·0.10−3.002 = 2.84
σ = x2 −x =
i=1
oder besser direkt
7
X
x2i h′i
02 · 12 + 12 · 6 + 22 · 12 + . . . + 62 · 10
−3.002 = 2.84.
100
100
√
Die Standardabweichung ist somit σ = 2.84 = 1.69.
σ 2 = x2 −x2 =
i=1
−x2 =
11) Da wir von einer Urliste ausgehen, können wir jeweils einfache arithmetische
Mittel bilden.
a)
Pn
Pn
Pn
Pn
xi n · a
i=1 a
i=1 xi +
i=1 (xi + a)
=
= i=1 +
= xi + a
xi + a =
n
n
n
n
2
b) Nach Teil a) gilt: Varianz von (xi +a) = xi + a − (xj + a) = (xi + a − (xj + a))2 =
(xi − xj )2 =Varianz von (xi ).
c)
Alle xi sind gleich ⇔ xi = x̄ für alle i ⇒ σ 2 := (xi − x̄)2 = 0
Sei nun
n
2
σ := (xi −
x̄)2
1X
(xi − x̄)2 = 0
=
n i=1
Da in der letzten Summe alle Summanden ≥ 0 sind, folgt aus σ 2 = 0:
xi = x̄ für alle i und damit sind alle xi gleich.
Vorsicht!
Gegenbeispiel:
X
ai = 0 ; ai = 0 für alle i
a1 = 1, a2 = 3, a3 = −4 6= 0
1+3−4 =0
6
Die Aussagen in a), b) und c) gelten auch, wenn man von Häufigkeitstabellen
ausgeht.
12)
Daten aus Aufgabe 6), wobei die relativen Häufigkeiten (ausnahmsweise)
als exakt angenommen werden:
j
1
2
3
4
5
6
7
8
Einkommen von ...
bis unter ...(1000 Euro)
4−8
8 − 10
10 − 12
12 − 14
14 − 18
18 − 24
24 − 36
36 − 48
Summe
Klassenmitte
6
9
11
13
16
21
30
42
×
hj
0.0400
0.1000
0.4000
0.3000
0.0900
0.0600
0.0080
0.0020
1.0000
hj ×
Kl.mitte
0.240
0.900
4.400
3.900
1.440
1.260
0.240
0.084
12.464
hj ×
hj ×
untere Kl.grenze obere Kl.grenze
0.160
0.320
0.800
1.000
4.000
4.800
3.600
4.200
1.260
1.620
1.080
1.440
0.192
0.288
0.072
0.096
11.164
13.764
1
fn ), wobei xe1 , . . . , x
fn die Werte aus der nicht vorgegebenen
x̄ = (xe1 + xe2 + . . . + x
n
Urliste sind.
a)
8
X
x̄ ≈
hj · Klassenmitte der i-jen Klasse = 12.5
j=1
b)
Summe aller Merkmalswerte (Urliste)
n
Summe aller Merkmalswerte(Urliste)
P
=
fi
8
X
Summe aller Merkmalswerte in Klasse j
x̄ =
=
j=1
8
X
fi
i=1
<
8
X
j=1
fj · obere Grenze der Klasse j
8
X
fi
i=1
=
8
X
j=1
hj · obere Grenze der Klasse j
= 13.764
7
x̄ =
8
X
Summe aller Merkmalswerte in Klasse j
j=1
8
X
fi
i=1
≥
8
X
j=1
fj · untere Grenze der Klasse j
8
X
fi
i=1
=
8
X
j=1
hj · untere Grenze der Klasse j
= 11.164
Damit gilt: 11.164 ≤ x̄ < 13.764
13) Minimaleigenschaft der Varianz:
n
n
n
X
X
∂ X
′
2
n · f (z) =
(xi − z) = 2
(z − xi ) = 2 nz −
xi
∂z i=1
i=1
i=1
!
!
=0
n
⇔ z=
Außerdem gilt:
1X
xi =: x.
n i=1
n
X
i=1
Damit nimmt
(xi − z)2 → +∞ für z → ±∞.
n
1X
(xi − z)2
n i=1
an der Stelle z = x und nur dort ein absolutes und sogar strenges Minimum an.
Zusätzlich (was in der Aufgabenstellung nicht verlangt war) behandeln wir die
Minimaleigenschaft der mittleren absoluten Abweichung:
n
1X
Wo ist g(z) :=
|xi − z| minimal?
n i=1
Wir ordnen die Merkmalswerte in einer Rangliste (was u.U. eine Vertauschung
der Summanden nötig macht, die aber für die Summenbildung ohne Belang ist):
x1 6 x2 6 . . . 6 xn .
Diese Werte ergänzen wir zur Vereinfachung der Argumentation durch x0 := −∞
8
und xn+1 := ∞, an denen wir zwar keine Funktionswerte bilden, die wir aber als
Intervallgrenzen verwenden.
Wir untersuchen dann die Ableitungen in den offenen Intervallen xk < z < xk+1 ,
06k6n:
n
∂ X
′
n · g (z) =
|xi − z|
∂z i=1


Pk
P
∂ 
− z | + ni=k+1 | xi − z |
= ∂z
i=1 | x
| i {z }
| {z }
<0
>0
P
P
n
k
∂
(x
−
z)
(z
−
x
)
+
= ∂z
i
i
i=k+1
i=1
Pk
Pn
= i=1 (+1) + i=k+1 (−1) = k + (n − k)(−1)
= 2 · (k − n/2) ⋚ 0 ⇔ k ⋚ n/2.
(1)
Dabei wurde die Vereinbarung verwendet, dass eine Summe, bei der die obere
Summationsgrenze kleiner ist als die untere, definitionsgemäß = 0 ist.
Da nun g(z) überall stetig ist, ist g(z) für k < n/2 in den Intervallen (x0 , x1 ] =
(−∞, x1 ], [x1 , x2 ], . . . , [xk , xk+1 ] und damit in dem Intervall
(−∞, x(n+1)/2 ] für n ungerade
(−∞, xn/2 ]
für n gerade
streng monoton fallend, und für k > n/2 in den Intervallen [xk , xk+1 ], [xk+1 , xk+2 ],
. . . , [xn , xn+1 ) = [xn , ∞) und damit in dem Intervall
[x(n+1)/2 , ∞) für n ungerade
[xn/2+1 , ∞)
für n gerade
streng monoton wachsend. Für ungerade n besitzt g(z) damit in der Übergangsstelle x(n+1)/2 = Me von “streng monoton fallend“ nach “streng monoton wachsend“ ein (sogar strenges) absolutes Minimum. Für gerade n haben wir eine Lücke
zwischen den beiden Intervallen (−∞, xn/2 ] und [xn/2+1 , ∞), die durch das Intervall [xn/2 , xn/2+1 ] aufgefüllt wird. Dort ist g(z) konstant, weil g(z) dort stetig
ist und weil in dem offenen Intervall (x(n/2 , x(n/2+1 ) die Ableitung g ′ (z) = 0 ist.
Links von dem Intervall [x(n/2 , x(n/2+1 ] ist g(z) streng monoton fallend und rechts
streng monoton wachsend. Damit besitzt g(z) an allen Stellen des Intervalles
[x(n/2 , x(n/2+1 ], also u.a. in (x(n/2 + x(n/2+1 )/2 = Me ein absolutes Minimum. In
beiden Fällen erhalten wir somit:
n
1X
|xi − z|
g(z) :=
n i=1
wird für z = Me minimal, und deshalb wird die mittlere absolute Abweichung
meist mit dem Median gebildet:
n
1X
|xi − Me|
n i=1
9
14) a) Exakte Rechnung:
x̄ =
x2 =
1.0 · 10 + 1.1 · 20 + 1.2 · 20
56
=
= 1.12
50
50
63
1.02 · 10 + 1.12 · 20 + 1.22 · 20
=
= 1.26
50
50
σ 2 = x2 − x̄2 = 1.26 − 1.2544 = 0.0056 = (xi − x̄)2
b) Rundung auf 1 Stelle nach dem Dezimalpunkt bei allen Zwischenergebnisssen:
x̄ = 1.1, x̄2 = 1.2, x2 = 1.3
Mit der Definitionsformel für die Varianz erhält man:
σ 2 := (xi − x̄)2
(1.0 − 1.1)2 · 10 + (1.1 − 1.1)2 · 20 + (1.2 − 1.1)2 · 20
=
50
0.3
=
= 0.006
50
Dieser Wert ist von dem exakten Wert nicht zu weit weg.
Die Anwendung von Formel (3.2.3) ergibt:
σ 2 = x2 − x̄2 = 1.3 − 1.2 = 0.1,
also einen völlig unbrauchbaren Wert.
(3.2.3) ist bei gerundeten Werten manchmal ungünstiger als die Originalformel.
10
Herunterladen