Lösungsvorschläge zu den Aufgaben 5, 6, 8, 11 und 13 von Blatt 2 zur “Statistik für Wirtschaftswissenschaftler” vom Sommersem. 09: 5) a) Von einem Versicherungsinstitut liegen folgende Angaben vor: i 1 2 3 4 5 6 Versicherungshöhe von...bis unter... Euro 0 − 1000 1000 − 2000 2000 − 3000 3000 − 4000 4000 − 5000 5000 − 6000 Summe Ausrechnungsbeispiel: h′3 = fi h′i 20 5 40 10 100 25 120 30 80 20 40 10 400 100 f3 6 X fj · 100 = 100 · 100 = 25 400 j=1 b) Es liegt eine Tabelle mit konstanter Klassenbreite vor; somit können als Rechteckhöhen die Häufigkeiten selbst verwendet werden. Wir zeichnen ein Histogramm mit den absoluten und eines mit den prozentualen Häufigkeiten als Rechteckhöhen: 1 absolute Häufigkeit 6 120 100 80 60 40 20 Versicherungshöhe 1000 3000 6000 prozentuale Häufigkeit 6 30 25 20 15 10 5 Versicherungshöhe 1000 3000 6000 6) a) Aus der vorgegebenen klassierten Häufigkeitstabelle mit relativen Häufigkeiten sind zunächst zu prozentualen Häufigkeiten h′i und dann die kumulierten 2 Häufigkeiten aufsteigender und absteigendender Kumulation zu berechnen: Einkommen (in 1000 Euro) von ... bis unter ... 4−8 8 − 10 10 − 12 12 − 14 14 − 18 18 − 24 24 − 36 36 − 48 Summe kum. proz. Hf. aufsteig. Kum. 4.0 4.0 10.0 14.0 40.0 54.0 30.0 84.0 9.0 93.0 6.0 99.0 0.8 99.8 0.2 100.0 100.0 × h′i kum. proz. Hf. absteig. Kum. 100.0 96.0 86.0 46.0 16.0 7.0 1.0 0.2 × Interpretationsbeispiele: 93.0% der Einkommen liegen unter 18000 Euro, 16.0% der Einkommen betragen 14000 Euro und mehr. 6 b) Für das Histogramm (variable Klassenbreite!) wird 2 als Bezugsklassenbreite gewählt: i 1 2 3 4 5 6 7 8 Summe 4−8 8 − 10 10 − 12 12 − 14 14 − 18 18 − 24 24 − 36 36 − 48 × h′i Klassenbreite 4.0 4 10.0 2 40.0 2 30.0 2 9.0 4 6.0 6 0.8 12 0.2 12 100.0 × Ausrechnungsbeispiel für die Rechteckhöhe: 4.0 h′1 · 2 = = 2.0 4 2 3 Rechteckhöhe 2.0 10.0 40.0 30.0 4.5 2.0 0.13 0.03 × 6 40.0 30.0 20.0 10.0 4.5 2.0 - 4 8 10 14 18 24 4 36 48 Einkommen (in 1000 Euro) 8) Aus der Rangliste von Aufgabe 4) können wir unmittelbar ablesen, dass der Merkmalswert 13 die größte absolute Häufigkeit, nämlich 4 hat. Alle anderen absoluten Häufigkeiten sind niedriger. 13 ist also als Modus eindeutig bestimmt. Es gibt aber einen anderen Merkmalswert, nämlich 6, dessen Häufigkeit 3 größer ist als die benachbarter Werte, und damit liegt keine eingipflige Verteilung vor. Daher ist es mindestens fraglich, ob 13 wirklich als Modus sinnvoll interpretiert werden kann. 11) Da wir von einer Urliste ausgehen, können wir jeweils einfache arithmetische Mittel bilden. a) Pn Pn Pn Pn xi n · a i=1 (xi + a) i=1 a i=1 xi + xi + a = = = i=1 + = xi + a n n n n 2 b) Nach Teil a) gilt: Varianz von (xi +a) = xi + a − (xj + a) = (xi + a − (xj + a))2 = (xi − xj )2 =Varianz von (xi ). c) Alle xi sind gleich ⇔ xi = x̄ für alle i ⇒ σ 2 := (xi − x̄)2 = 0 Sei nun n 2 σ := (xi − x̄)2 1X (xi − x̄)2 = 0 = n i=1 Da in der letzten Summe alle Summanden ≥ 0 sind, folgt aus σ 2 = 0: xi = x̄ für alle i und damit sind alle xi gleich. Vorsicht! Gegenbeispiel: X ai = 0 ; ai = 0 für alle i a1 = 1, a2 = 3, a3 = −4 6= 0 1+3−4 =0 Die Aussagen in a), b) und c) gelten auch, wenn man von Häufigkeitstabellen ausgeht. 13) Minimaleigenschaft der Varianz: ! n n n X X X ∂ ! n · f ′ (z) = xi = 0 (z − xi ) = 2 nz − (xi − z)2 = 2 ∂z i=1 i=1 i=1 n 1X ⇔ z= xi =: x. n i=1 Außerdem gilt: n X (xi − z)2 → +∞ für z → ±∞. i=1 5 Damit nimmt n 1X (xi − z)2 n i=1 an der Stelle z = x und nur dort ein absolutes und sogar strenges Minimum an. Zusätzlich (was in der Aufgabenstellung nicht verlangt war) behandeln wir die Minimaleigenschaft der mittleren absoluten Abweichung: n 1X Wo ist g(z) := |xi − z| minimal? n i=1 Wir ordnen die Merkmalswerte in einer Rangliste (was u.U. eine Vertauschung der Summanden nötig macht, die aber für die Summenbildung ohne Belang ist): x1 6 x2 6 . . . 6 xn . Diese Werte ergänzen wir zur Vereinfachung der Argumentation durch x0 := −∞ und xn+1 := ∞, an denen wir zwar keine Funktionswerte bilden, die wir aber als Intervallgrenzen verwenden. Wir untersuchen dann die Ableitungen in den offenen Intervallen xk < z < xk+1 , 06k6n: n ∂ X ′ n · g (z) = |xi − z| ∂z i=1 Pk Pn ∂ = ∂z − z | i−z|+ i=1 | x i=k+1 | x | {z } | i {z } <0 >0 P P n k ∂ (x − z) (z − x ) + = ∂z i i=k+1 i i=1 Pk Pn = i=1 (+1) + i=k+1 (−1) = k + (n − k)(−1) = 2 · (k − n/2) ⋚ 0 ⇔ k ⋚ n/2. (1) Dabei wurde die Vereinbarung verwendet, dass eine Summe, bei der die obere Summationsgrenze kleiner ist als die untere, definitionsgemäß = 0 ist. Da nun g(z) überall stetig ist, ist g(z) für m < n/2 in den Intervallen1 (x0 , x1 ] = (−∞, x1 ], [x1 , x2 ], . . . , [xm , xm+1 ] und damit in dem Intervall (−∞, x(n+1)/2 ] für n ungerade (−∞, xn/2 ] für n gerade streng monoton fallend, und für m > n/2 in den Intervallen2 [xm , xm+1 ], [xm+1 , xm+2 ], . . . , [xn , xn+1 ) = [xn , ∞) und damit in dem Intervall [x(n+1)/2 , ∞) für n ungerade [x(n/2+1) , ∞) für n gerade 1 Wenn xk = xk+1 ist, lässt man das Intervall [xk , xk+1 ] weg. Das Intervall mit dem rechten Randpunkt xk und das Intervall mit dem linken Randpunkt xk+1 gehen dann direkt ineinander über. 6 streng monoton wachsend. Für ungerade n besitzt g(z) damit in der Übergangsstelle x(n+1)/2 = Me von “streng monoton fallend“ nach “streng monoton wachsend“ ein (sogar strenges) absolutes Minimum. Für gerade n haben wir eine Lücke zwischen den beiden Intervallen2 (−∞, xn/2 ] und [x(n/2+1) , ∞), die durch das Intervall [xn/2 , x(n/2+1) ] aufgefüllt wird. Dort ist g(z) konstant, weil g(z) dort stetig ist und weil in dem offenen Intervall (xn/2 , x(n/2+1) ) die Ableitung g ′ (z) = 0 ist. Links von dem Intervall [xn/2 , x(n/2+1) ] ist g(z) streng monoton fallend und rechts streng monoton wachsend. Damit besitzt g(z) an allen Stellen des Intervalles [xn/2 , x(n/2+1) ], also u.a. in (xn/2 + x(n/2+1) )/2 = Me ein absolutes Minimum. In beiden Fällen erhalten wir somit: n 1X g(z) := |xi − z| n i=1 wird für z = Me minimal, und deshalb wird die mittlere absolute Abweichung meist mit dem Median gebildet: n 1X |xi − Me| n i=1 2 Dies trifft eigentlich nur im Falle xn/2 < x(n/2+1) zu; wenn aber xn/2 = x(n/2+1) ist, ist xn/2 = x(n/2+1) wie im ungeraden Fall die einzige Übergangsstelle von “streng monoton fallend“ nach “streng monoton wachsend“. 7