Lösungen

Teil 1 – Beschreibende Statistik
Lösung zu Aufgabe 1:
Vor dem Zeichnen des Histogramms müssen die relativen Häufigkeiten der vorgegebenen
Klassen sowie die Höhen des Histogramms über allen Klassen bestimmt werden. Beides
geschieht in der folgenden Tabelle. Da die relative Häufigkeit einer Klasse gleich der Fläche
des Histogramms über dieser Klasse sein soll, gilt dabei:
Höhe =
relative Häufigkeit
.
Klassenbreite
Klasse i
H(i)
h(i)
Klassenbreite
Höhe
[30, 34)
2
2/11
4
2/44
[34, 37)
3
3/11
3
3/33 = 4/44
[37, 41)
3
3/11
4
3/44
[41, 44]
3
3/11
3
3/33 = 4/44
Damit sieht das Histogramm wie folgt aus:
0.1
Höhe
0.075
0.05
0.025
0
30
34
37
41
44
Einnahmen
Lösung zu Aufgabe 2:
Im Folgenden sei X = Preis des Fernsehers“.
”
a) Bevor die empirische Verteilungsfunktion der Preise gezeichnet werden kann, muss
sie überhaupt einmal bestimmt werden. Dies benötigt die relativen Häufigkeiten der
beobachteten Preise. Diese lauten:
Preis ai (in Euro)
450
500
525
550
relative Häufigkeit h(ai )
0,3
0,4
0,2
0,1
Die empirische Verteilungsfunktion summiert nun an jeder Stelle x ∈ R die relativen
Häufigkeit der Preise



0






0, 3


F10 (x) = 0, 7





0, 9




1
ai auf, für die ai ≤ x gilt. Dies führt zu
für x < 450
für 450 ≤ x < 500
für 500 ≤ x < 525 .
für 525 ≤ x < 550
für x ≥ 550
0.6
0.4
0.0
0.2
F10(x)
0.8
1.0
Damit ergibt sich folgende Zeichnung der empirischen Verteilungsfunktion der Preise:
450
500
550
Preis
b) Diese Frage lässt sich relativ leicht beantworten, wenn man sich klar macht, welche
Szenarien überhaupt eintreten können. Wählt der elfte Anbieter seinen Preis über dem
Durchschnitt der bereits beobachteten zehn Preise, so zieht er damit den Durchschnitt
unweigerlich nach oben. Wählt der dagegen einen Preis, der kleiner als der Durchschnitt
der bereits beobachteten zehn Preise ist, so muss der Durchschnitt danach sinken. Soll
sich der durchschnittliche Preis nicht ändern, so muss der elfte Anbieter also seinen
Preis so wählen, dass er genau dem Durchschnitt der bereits beobachteten zehn Preise
entspricht. Mit anderen Worten: Der elfte Anbieter muss folgenden Preis wählen:
x11 = x̄a10
4
X
=
h(ai ) · ai
i=1
= 0, 3 · 450 + 0, 4 · 500 + 0, 2 · 525 + 0, 1 · 550
= 495.
Lösung zu Aufgabe 3:
Um beide Kennzahlen bestimmen zu können, müssen aus der gegebenen empirischen Verteilungsfunktion zuerst die möglichen Realisationen von X sowie deren relative Häufigkeiten
rekonstruiert werden. Da die Sprungstellen der empirischen Verteilungsfunktion mit den
möglichen Realisationen a1 , a2 , . . . , ak von X zwingend übereinstimmen, kommen als mögliche Anzahlen der Versuche zum Bestehen der Statistik-Klausur nur die Werte a1 = 1, a2 = 2
und a3 = 3 infrage. Deren relative Häufigkeiten lassen sich direkt aus der empirischen Verteilungsfunktion ablesen: h(1) = 1/2, h(2) = 1/4 und h(3) = 1/4.
Damit ergeben sich für die gesuchten Kennzahlen die Werte
x̄a =
k
X
i=1
h(ai ) · ai
= 0, 5 · 1 + 0, 25 · 2 + 0, 25 · 3
= 1, 75
sowie
sx
v
u k
uX
= t
h(ai ) · (ai − x̄a )2
i=1
=
=
p
p
0, 5 · (1 − 1, 75)2 + 0, 25 · (2 − 1, 75)2 + 0, 25 · (3 − 1, 75)2
0, 6875
≈ 0, 8292.
Lösung zu Aufgabe 4:
Es sei X = monatliches Einkommen“. Gegeben sind dann folgende Informationen:
”
x̄aM = 5000,
x̄aF = 4500,
sM = sF = 0.
Eine Standardabweichung von null bedeutet, dass die zugehörigen Beobachtungen überhaupt
nicht schwanken. Also müssen alle Beobachtungen den gleichen Wert aufweisen, nämlich den
des Durchschnittseinkommens in der jeweiligen Geschlechtsgruppe. Mit anderen Worten: In
der Untersuchung wurde für jeden der 20 Männer ein monatliches Einkommen in Höhe von
5000 Euro und für jede der 30 Frauen ein monatliches Einkommen in Höhe von 4500 Euro
beobachtet.
Für die Bestimmung der Standardabweichung aller 50 Einkommen ist zunächst das gemeinsame Durchschnittseinkommen aller 50 Personen wie folgt zu berechnen:
1
· (Gesamteinkommen der Männer + Gesamteinkommen der Frauen)
50
1
· (20 · 5000 + 30 · 4500)
=
50
= 4700.
x̄ages =
Damit ergibt sich zunächst die Varianz aller Einkommen zu:
50
s2ges
¢2
1 X¡
xi − x̄ages
=
50 i=1
¤
1 £
· 20 · (5000 − 4700)2 + 30 · (4500 − 4700)2
=
50
= 60000.
Also beträgt die Standardabweichung aller 50 Einkommen sges =
√
60000 ≈ 244, 95 Euro.
Lösung zu Aufgabe 5:
Um einen geeigneten Durchschnitt der individuellen Wachstumsraten der sechs Wertpapiere
bestimmen zu können, sollten zuerst die individuellen Wachstumsraten berechnet werden.
Die Wachstumsrate des i-ten Wertpapiers ist gegeben durch:
Kurs von Wertpapier i am Jahresende − Kurs von Wertpapier i am Jahresanfang
Kurs von Wertpapier i am Jahresanfang
Kurs von Wertpapier i am Jahresende
=
− 1.
Kurs von Wertpapier i am Jahresanfang
ri =
Somit folgt:
r1 = 1/3,
r2 = −1/3,
r3 = −1/5,
r4 = 3/2,
r5 = 1/4,
r6 = 0.
Doch welcher Durchschnitt ist nun geeignet? Das geometrische Mittel, das einem beim Stichwort Wachstumsraten“ vielleicht zuerst in den Sinn kommt, scheidet aus. Denn hier ist nicht
”
nach der durchschnittlichen Wachstumsrate eines Wertpapiers im Zeitverlauf gefragt, sondern nach der durchschnittlichen Wachstumsrate mehrerer Wertpapiere eines Depot über
einen festen Zeitraum. Das (einfache) arithmetische Mittel ist ebenfalls ungeeignet, weil die
einzelnen Wertpapiere die Wertentwicklung des Depots unterschiedlich stark beeinflussen.
So hat beispielsweise ein Kursanstieg von Wertpapier 1 um 10% eine andere Auswirkung als
ein Kursanstieg von Wertpapier 6 um 10%. Derartige Unterschiede berücksichtigt nur das
gewichtete arithmetische Mittel. Als Gewichte dienen dabei die Anteile der Wertpapiere am
Gesamtwert des Depots zum Jahresanfang. Somit ist:
g1 =
60
400
= 0, 15;
g2 =
90
400
= 0, 225;
g3 =
100
400
= 0, 25;
g4 =
20
400
= 0, 05;
g5 =
80
400
= 0, 2;
g6 =
500
400
= 0, 125.
Damit ergibt sich eine durchschnittliche individuelle Wachstumsrate von
r̄ga =
6
X
i=1
gi · ri
= 0, 15 · 1/3 − 0, 225 · 1/3 − 0, 25 · 0, 2 + 0, 05 · 1, 5 + 0, 2 · 0, 25 + 0, 125 · 0
= 0, 05.
Lösung zu Aufgabe 6:
Aus der Aufgabenstellung ist zunächst folgendes bekannt:
ȳ a = 8, 5;
sy = 1, 2;
sxy = 27.
Zur Bestimmung des Bravais-Pearson-Korrelationskoeffizienten fehlt also nur noch die Standardabweichung der Geschwindigkeiten. Da insgesamt 11 Geschwindigkeiten gemessen wurden und sich diese in gleichmäßigen Abständen zwischen 50 und 130 km/h verteilen, muss
dieser Abstand gerade (130 − 50)/10 = 8 km/h betragen. Die gemessen Geschwindigkeiten
lauten also:
x1 = 50,
x2 = 58,
x7 = 98,
x8 = 106,
x3 = 66,
x9 = 114,
x4 = 74,
x5 = 82,
x10 = 122,
x6 = 90,
x11 = 130.
Daraus folgt
n
x̄a =
1X
xi
n i=1
1
· (50 + 58 + 66 + 74 + 82 + 90 + 98 + 106 + 114 + 122 + 130)
11
= 90
=
und
n
s2x =
n
1X
1X 2
(xi − x̄a )2 =
xi − (x̄a )2
n i=1
n i=1
1
· (502 + 582 + 662 + 742 + 822 + 902 + 982 + 1062 + 1142 + 1222 + 1302 ) − 902
11
= 640.
=
Damit ergibt sich der Bravais-Pearson-Korrelationskoeffizient zwischen der Geschwindigkeit
und dem Benzinverbrauch zu
sxy
27
rxy =
= 0, 8894.
=√
s x · sy
640 · 1, 2
Lösung zu Aufgabe 7:
Die Kategorie, in die der Makler seine Häuser einteilt, ist ein ordinal skaliertes Merkmal.
Deshalb kann hier der Bravais-Pearson-Korrelationskoeffizient nicht verwendet werden. Ein
geeignetes Maß für den Zusammenhang zwischen Preis und Kategorie der Häuser ist vielmehr der Rangkorrelationskoeffizient nach Spearman. Im Folgenden sei dazu X = Preis“
”
und Y = Kategorie“. Die folgende Tabelle enthält die der Größe nach aufsteigend zugewie”
senen Ränge für beide Merkmale:
Haus
1
2
3
4
5
6
7
8
8
10
250
100
700
270
310
450
240
260
320
300
Rang R(xi )
3
1
10
5
7
9
2
4
8
6
Kategorie yi
3
1
5
2
4
5
3
2
4
2
Rang R(yi )
5,5
1
9,5
3
7,5
9,5
5,5
3
7,5
3
Preis xi
Ein Wort zu den Rängen von Y : Da der Makler mehrere Häuser der gleichen Kategorie
zugeordnet hat, treten hier Bindungen auf. So fallen etwa drei Häuser in Kategorie 2 (nämlich
4, 8 und 10). Beim Zuweisen der Ränge müssen diese Bindungen berücksichtigt werden, was
hier durch das Bilden von Durchschnittsrängen geschieht. Kategorie 2 erhält damit den Rang
2+3+4
R(2) =
= 3.
3
Mit diesen Werten lässt sich nun der Rangkorrelationskoeffizient nach Spearman berechnen.
Dieser ist gegeben durch:
n ¡
¢¡
¢
P
R(xi ) − R̄xa R(yi ) − R̄ya
R
= r n i=1
.
rxy
n ¡
¢2 P
¢2
P¡
a
a
R(xi ) − R̄x ·
R(yi ) − R̄y
i=1
i=1
Zunächst gilt:
R̄xa = R̄ya = 5, 5.
Damit folgt:
n
X
¡
i=1
R(xi ) − R̄xa
¢¡
R(yi ) − R̄ya
¢
= −2, 5 · 0 + (−4, 5)2 + 4, 5 · 4 + · · · − 0, 5 · 2, 5
= 0 + 20, 25 + 18 + · · · − 1, 25
= 64.
Weiter ist
n
X
¡
i=1
R(xi ) − R̄xa
¢2
= (3 − 5, 5)2 + (1 − 5, 5)2 + (10 − 5, 5)2 + · · · + (6 − 5, 5)2
= 6, 25 + 20, 25 + 20, 25 + · · · + 0, 25
= 82, 5
und
n
X
¡
i=1
R(yi ) − R̄ya
¢2
= (5, 5 − 5, 5)2 + (1 − 5, 5)2 + (9, 5 − 5, 5)2 + · · · + (3 − 5, 5)2
= 0 + 20, 25 + 16 + · · · + 6, 25
= 79.
Damit lautet der Rangkorrelationskoeffizient nach Spearman
R
rxy
=√
64
= 0, 793.
82, 5 · 79
Lösung zu Aufgabe 8:
Die allgemeine Form einer KQ-Geraden lautet:
ŷi = â + b̂ xi ,
i = 1, . . . , n,
â = ȳ a − b̂ x̄a
und b̂ =
mit
sxy
.
s2x
a) Für die Bestimmung der KQ-Geraden müssen also zunächst die durchschnittlichen
Stückzahlen, die Varianz der Stückzahlen, die durchschnittlichen Stückkosten und die
Kovarianz beider Merkmale berechnet werden. Dies geschieht am einfachsten anhand
folgender Tabelle:
P
xi
xi − x̄a
(xi − x̄a )2
yi
yi − ȳ a
(xi − x̄a )(yi − ȳ a )
10
-7
49
50
9
-63
15
-2
4
40
-1
2
15
-2
4
45
4
-8
20
3
9
40
-1
-3
25
8
64
30
-11
-88
85
0
130
205
0
-160
Somit ist
x̄a = 17,
s2x = 26,
ȳ a = 41,
sxy = −32.
Daraus folgt
b̂ =
−32
= −1, 231 und â = 41 + 1, 231 · 17 = 61, 927.
26
Die KQ-Gerade lautet damit:
ŷi = 61, 927 − 1, 231 xi .
b) Gesucht ist nun die Stückzahl xi , für die ŷi ≤ 25 gilt. Einsetzen in die KQ-Gerade
liefert:
ŷi = 61, 927 − 1, 231 xi ≤ 25
⇔
xi ≥
61, 927 − 25
= 29, 998.
1, 231
Ab einer Menge von 30 produzierten Stück sind somit Stückkosten von weniger als 25
Euro/Stück zu erwarten.
Lösung zu Aufgabe 9:
Sei im Folgenden X = Anzahl der Arbeitslosen in der Region (in 1000)“ und Y = Anzahl
”
”
der Krankmeldungen im Unternehmen“.
a) Analog zur vorherigen Aufgabe sind zunächst die durchschnittlichen Arbeitslosenzahlen, die durchschnittliche Anzahl an Krankmeldungen, die Varianz der Arbeitslosenzahlen und die empirische Kovarianz beider Merkmale zu bestimmen. In Vorbereitung
auf Aufgabenteil b) wird anhand der folgenden Tabelle auch die Varianz der Anzahl
der Krankmeldungen berechnet:
P
xi
xi − x̄a
(xi − x̄a )2
yi
yi − ȳ a
(yi − ȳ a )2
(xi − x̄a )(yi − ȳ a )
5
-5
25
18
9
81
-45
6
-4
16
16
7
49
-28
6
-4
16
14
5
25
-20
7
-3
9
13
4
16
-12
17
7
49
2
-7
49
-49
15
5
15
3
-6
36
-30
15
5
15
4
-5
25
-25
13
3
9
6
-3
9
-9
12
2
4
7
-2
4
-4
9
-1
1
10
1
1
-1
8
-2
4
7
-2
4
4
7
-3
9
8
-1
1
3
120
0
192
108
0
300
-216
ȳ a = 9,
s2y = 25,
Somit ist
x̄a = 10,
s2x = 16,
sxy = −18.
Daraus ergeben sich folgende Koeffizienten der KQ-Geraden:
b̂ =
−18
= −1, 125 und â = 9 + 1, 125 · 10 = 20, 25.
16
Die KQ-Gerade für die Anzahl der Krankmeldungen in Abhängigkeit von der Anzahl
der Arbeitslosen in der Region lautet damit:
ŷi = 20, 25 − 1, 125 xi .
Grafisch stellt sich die KQ-Gerade wie folgt dar:
Krankmeldungen
20
15
10
5
0
0
5
10
15
20
Arbeitslose in 1000
Noch ein Tipp zum Zeichnen einer KQ-Geraden: Eine Gerade ist eindeutig durch zwei
Punkte festgelegt. Jede KQ-Gerade verläuft durch den so genannten Schwerpunkt der
Daten, S = (x̄a , ȳ a ). Beide arithmetischen Mittel wurden bereits bestimmt, so dass mit
S = (10, 9) der erste Punkt, der die KQ-Gerade festlegt, schon gefunden ist. Der zweite
Punkt kann beliebig gewählt werden. Zum einfacheren Zeichnen empfiehlt sich jedoch
ein Punkt, der von S etwas weiter entfernt liegt. Wählt man etwa als x-Koordinate 2,
so ergibt sich die zugehörige y-Koordinate 20, 25 − 1, 125 · 2 = 18. Die KQ-Gerade ist
damit durch die Punkte (10, 9) und (2, 18) festgelegt.
b) Ein geeignetes Maß für die Anpassungsgüte der KQ-Geraden ist das Bestimmtheitsmaß
R2 =
s2ŷ
.
s2y
Um dieses zu berechnen, müssen zunächst die von der KQ-Geraden prognostizierten
Anzahlen an Krankmeldungen, ŷi , bestimmt werden. Sie lauten:
Jahr
97
98
99
00
01
02
03
04
05
06
07
08
xi
5
6
6
7
17
15
15
13
12
9
8
7
ŷi 14,625 13,5 13,5 12,375 1,125 3,375 3,375 5,625 6,75 10,125 11,25 12,375
Mit ŷ¯a = ȳ a = 9 folgt daraus sofort s2ŷ = 20, 25 und schließlich
R2 =
20, 25
= 0, 81.
25
c) Um die Anzahl an Krankmeldungen für das Jahr 2009 mit Hilfe der KQ-Geraden zu
prognostizieren, ist einfach die Anzahl der Arbeitslosen für das Jahr 2009, x13 = 10, in
die KQ-Gerade einzusetzen. Damit ergibt sich:
ŷ13 = 20, 25 − 1, 125 x13 = 20, 25 − 1, 125 · 10 = 9.
Es sind also für das Jahr 2009 neun Krankmeldungen im Unternehmen zu erwarten.
Übrigens lässt sich dieses Vorgehen noch einmal anhand der folgenden Grafik veranschaulichen:
Krankmeldungen
20
15
10
5
0
0
5
10
15
20
Arbeitslose in 1000
Lösung zu Aufgabe 10:
In der Vorlesung wurden nur die Preisindices nach Laspeyres und Paasche behandelt.
a) Die Frage, welcher Index-Typ in der vorliegenden Situation geeignet ist, lässt sich
grundsätzlich anhand der gegebenen Informationen beantworten. Da hier nur die Ausgabenanteile aus der Basisperiode bekannt sind, lässt sich auch nur der Preisindex nach
Laspeyres bestimmen. (Der Preisindex nach Paasche benötigt analoge Informationen
aus der Berichtsperiode.)
b) Da in der vorliegenden Situation nicht alle Preise und alle konsumierten Mengen der
vier Güter bekannt sind, sondern nur“ deren relative Preisänderungen und die ent”
sprechenden Ausgabenanteile, ist folgende Formel für den Preisindex nach Laspeyres
zu verwenden:
n
X
pt (i)
L
P0t =
.
g0 (i)
p
(i)
0
i=1
Mit
pt (1)
pt (2)
pt (4)
=
=
= 1, 1;
p0 (1)
p0 (2)
p0 (4)
pt (3)
= 1;
p0 (3)
g0 (1) = g0 (2) = g0 (3) = g0 (4) =
1
4
ergibt sich
1
(1, 1 + 1, 1 + 1 + 1, 1) = 1, 075.
4
Gemessen am Laspeyres-Index steigen die Preise der vier Güter damit durchschnittlich
P0tL =
um 7,5%.
c) Der Laspeyres-Index signalisiert ein konstantes Preisniveau, wenn P0tL = 1 gilt. Einsetzen in obige Gleichung liefert:
¶
µ
pt (3)
1
L
P0t =
+ 1, 1 = 1
1, 1 + 1, 1 +
4
p0 (3)
⇔
pt (3)
= 0, 7.
p0 (3)
Damit müsste der Milchpreis um 30% fallen, damit der Laspeyres-Index ein konstantes
Preisniveau anzeigt.
Lösung zu Aufgabe 11:
Für die Güter Strom“ und Gas“ sind aus beiden Jahren alle Preise und alle konsumier”
”
ten Mengen bekannt. Daher lässt sich hier für den Paasche-Index die Formel anwenden,
die auf dem Vergleich der tatsächlichen Gesamtausgaben in 2008 mit den hypothetischen
Gesamtausgaben in 2007 beruht. Es ist
n
P
p08 (i) · q08 (i)
482, 00
482, 00
i=1
P
=
P07,08 = P
=
= 1, 0905.
n
0, 17 · 1400 + 3, 40 · 60
442, 00
p07 (i) · q08 (i)
i=1
Also liegt die mittlere Preissteigerung nach Paasche für den betrachteten Warenkorb leicht
über 9%.
Lösung zu Aufgabe 12:
Wenn sich die Preise aller Güter eines Warenkorbs um den gleichen Anteil verändern, dann
bleibt der durchschnittlichen Preisänderung nichts anderes übrig, als genau dasselbe zu tun.
Folglich muss auch der Preisindex nach Laspeyres eine Preissteigerung um 20% signalisieren,
d. h. es ist P0tL = 1, 2.
Formal lässt sich dies wie folgt zeigen: Betrachten wir die Formel, die den Laspeyres-Index
als gewichtete Summe der individuellen Preisänderungen darstellt. Dann gilt:
n
n
X
X
pt (i)
g0 (i) ·
= 1, 2 ·
g0 (i) = 1, 2.
P0tL =
p
(i)
0
i=1
| {z }
|i=1 {z }
=1,2
=1
Völlig analog kann stattdessen auch die Formel verwendet werden, die den Laspeyres-Index
als Quotient aus den hypothetischen Gesamtausgaben in der Berichts- und den tatsächlichen Gesamtausgaben in der Basisperiode darstellt. Die/Der geneigte Leser/in möge dies als
weitere Übung betrachten.
Teil 2 – Wahrscheinlichkeitsrechnung
Lösung zu Aufgabe 13:
Um die gesuchte Wahrscheinlichkeit zu berechnen, sollte man sich zunächst klarmachen, was
das Ereignis genau eine Zusage“ bedeutet. Sagt dem Absolventen eine der drei Firmen zu,
”
so müssen ihm die anderen beiden Firma zwingend eine Absage erteilen. Für dieses Szenario
gibt es nun wiederum drei Möglichkeiten (alias drei Firmen, die dem Absolventen zusagen).
Seien dazu folgende unabhängige Ereignisse definiert:
A =
erste Firma sagt zu“ mit P (A) = 0, 8;
”
B = zweite Firma sagt zu“ mit P (B) = 0, 65;
”
C = dritte Firma sagt zu“ mit P (C) = 0, 3.
”
Dann folgt:
genau eine Zusage“ = (A ∩ B̄ ∩ C̄) ∪ (Ā ∩ B ∩ C̄) ∪ (Ā ∩ B̄ ∩ C).
”
Somit ergibt sich die gesuchte Wahrscheinlichkeit zu
P ( genau eine Zusage“)
”
=
P [(A ∩ B̄ ∩ C̄) ∪ (Ā ∩ B ∩ C̄) ∪ (Ā ∩ B̄ ∩ C)]
=
P (A ∩ B̄ ∩ C̄) + P (Ā ∩ B ∩ C̄) + P (Ā ∩ B̄ ∩ C)
Unabh.
=
P (A) · P (B̄) · P (C̄) + P (Ā) · P (B) · P (C̄)
+ P (Ā) · P (B̄) · P (C)
=
0, 8 · 0, 35 · 0, 7 + 0, 2 · 0, 65 · 0, 7 + 0, 2 · 0, 35 · 0, 3
=
0, 308.
Die Wahrscheinlichkeit, dass der Absolvent genau eine Zusage erhält, beträgt 30,8%.
Lösung zu Aufgabe 14:
Wie in der vorherigen Aufgabe sollten zunächst einmal die zu betrachtenden Ereignisse
definiert werden. Sei dazu etwa
O =
Oberteil weist keine Fehler auf“ mit P (O) = 0, 95;
”
S = Sohle weist keine Fehler auf“ mit P (S) = 0, 9;
”
A = Absatz weist keine Fehler auf“ mit P (A) = 0, 98.
”
Laut Voraussetzung sind diese drei Ereignisse voneinander unabhängig.
a) Da ein Schuh einwandfrei ist, wenn er keine Fehler aufweist, gilt:
P (einwandfreier Schuh)
=
Unabh.
P (O ∩ S ∩ A)
=
P (O) · P (S) · P (A)
=
0, 95 · 0, 9 · 0, 98
=
0, 8379.
b) Zunächst gilt natürlich
P (Schuh wird aussortiert) = P (mehr als ein Fehler)
= P (zwei Fehler) + P (drei Fehler).
Diese zwei Wahrscheinlichkeiten kann man nun berechnen. Muss man aber nicht. Denn
die Umformung
P (Schuh wird aussortiert) = 1 − P (höchstens ein Fehler)
= 1 − [P (kein Fehler) + P (ein Fehler)]
erspart wertvolle Zeit, da jetzt nur noch eine Wahrscheinlichkeit berechnet werden muss
(P (kein Fehler) wurde ja schon in a) bestimmt). Vollkommen analog zur vorherigen
Aufgabe ergibt sich zunächst:
P (ein Fehler)
=
P [(Ō ∩ S ∩ A) ∪ (O ∩ S̄ ∩ A) ∪ (O ∩ S ∩ Ā)]
=
P (Ō ∩ S ∩ A) + P (O ∩ S̄ ∩ A) + P (O ∩ S ∩ Ā)
Unabh.
=
P (Ō) · P (S) · P (A) + P (O) · P (S̄) · P (A)
+ P (O) · P (S) · P (Ā)
=
0, 05 · 0, 9 · 0, 98 + 0, 95 · 0, 1 · 0, 98 + 0, 95 · 0, 9 · 0, 02
=
0, 1543.
Damit folgt insgesamt
P (Schuh wird aussortiert) = 1 − (0, 8279 + 0, 1543) = 0, 0078.
Lösung zu Aufgabe 15:
Halten wir zunächst wieder fest, was in der Aufgabenstellung gegeben ist. Es geht um einen
Studenten bzw. die Frage, wie er sich bei zwei Klausuren schlägt. Dazu seien erst einmal
folgende Ereignisse definiert:
K1 = Student besteht die erste Klausur“
”
K2 = Student besteht die zweite Klausur“
”
Im Gegensatz zu den vorherigen beiden Aufgaben sind jetzt die individuellen Wahrscheinlichkeiten beider Ereignisse unbekannt. Allerdings ist bekannt, dass der Student beide Klausuren
mit einer Wahrscheinlichkeit von 45% besteht, d. h. es ist P (K1 ∩ K2 ) = 0, 45. Ferner ist
bekannt, dass er die zweite Klausur mit einer Wahrscheinlichkeit von 60% besteht, gegeben
er hat die erste Klausur bereits bestanden, d. h. es ist P (K2 | K1 ) = 0, 6. Gesucht ist letzt-
endlich die Wahrscheinlichkeit, mit der der Student die erste Klausur besteht, also P (K1 ).
Glücklicherweise finden sich alle drei beteiligten Wahrscheinlichkeiten in der Definition der
bedingten Wahrscheinlichkeit wieder. Übersetzt auf das gegebene Problem lautet diese Definition:
P (K2 | K1 ) =
P (K1 ∩ K2 )
.
P (K1 )
Somit folgt
P (K1 ) =
P (K1 ∩ K2 )
0, 45
=
= 0, 75.
P (K2 | K1 )
0, 6
Der Student besteht die erste Klausur demnach mit einer Wahrscheinlichkeit von 75%.
Lösung zu Aufgabe 16:
Laut Aufgabenstellung ist X = Anzahl der Arbeitstags in einer Woche“.
”
a) Hinter der Anzahl der Tage, die die Studentin erwartungsgemäß pro Woche arbeiten
muss, verbirgt sich nichts anderes als der Erwartungswert der diskreten Zufallsvariablen
X, der sich wie folgt berechnen lässt:
E (X) =
n
X
i=1
P (X = xi ) · xi
= 0, 05 · 0 + 0, 1 · 1 + 0, 2 · 2 + 0, 25 · 3 + 0, 15 · 4 + 0, 1 · 5 + 0, 1 · 6 + 0, 05 · 7
= 3, 3.
Die Studentin arbeitet also erwartungsgemäß 3,3 Tage pro Woche.
b) Von Interesse ist nun die Anzahl der Arbeitstage in einem Jahr. Diese neue Zufallsvariable sei im Folgenden mit Y bezeichnet. Da die Wahrscheinlichkeitsfunktion von Y
nicht bekannt ist und sich vermutlich auch niemand die Mühe machen möchte, diese aus
der Wahrscheinlichkeitsfunktion von X exakt herzuleiten, muss man sich etwas anderes
überlegen. Die Idee, auf die Zufallsvariable X zurückzugreifen, ist ja nicht so schlecht.
Sei X1 die Anzahl der Arbeitstage in der ersten Woche dieses Jahres, X2 die Anzahl
der Arbeitstage in der zweiten Woche dieses Jahres, usw. Dann gilt offensichtlich:
Y =
52
X
i=1
Xi .
Da sich die Wahrscheinlichkeitsfunktion von X in diesem Jahr nach Voraussetzung
nicht ändert, besitzen die Zufallsvariablen X1 , X2 , . . . , X52 die gleiche Wahrscheinlichkeitsfunktion wie X. Somit gilt:
!
Ã 52
52
X
X
Xi =
E (Xi ) = 52 · E (X) = 52 · 3, 3 = 171, 6.
E (Y ) = E
i=1
i=1
Die Studentin arbeitet also erwartungsgemäß 171,6 Tage in einem Jahr.
Lösung zu Aufgabe 17:
Es empfiehlt sich, statt der Standardabweichung zunächst die Varianz der Lebensdauer des
Akkus zu bestimmen. Dies geschieht über die Formel
Var (X) = E (X 2 ) − [E (X)]2 .
Beide Erwartungswerte lassen sich gemäß Definition wie folgt ausrechnen:
E (X) =
Z∞
x · f (x) dx
−∞
Z4
Z4
1
1
x · (4 − x) dx =
4 x − x2 dx
=
8
8
0
0
Ã
¯4 !
µ
µ
¶
¶
1
4
1 3 ¯¯
1
1 3
1 96 64
2
2
−
=
2x − x ¯ =
2·4 − ·4 −0 =
=
8
3
8
3
8 3
3
3
0
und
2
E (X ) =
Z∞
x2 · f (x) dx
−∞
Z4
Z4
1
1
=
x · (4 − x) dx =
4 x2 − x3 dx
8
8
0
0
!
Ã
¯4
µ
µ
¶
¶
1 4 3 1 4
1 4 3 1 4 ¯¯
8
1 256 192
x − x¯ =
·4 − ·4 −0 =
−
=
= .
8 3
4
8 3
4
8
3
3
3
0
2
Damit ergibt sich eine Varianz der Lebensdauer des Akkus von
µ ¶2
24 16
8
4
8
=
Var (X) = −
−
=
3
3
9
9
9
und schließlich eine Standardabweichung der Lebensdauer des Akkus von
r
√
p
2 2
8
=
≈ 0, 9428.
σX = Var (X) =
9
3
Lösung zu Aufgabe 18:
Es sei zunächst X = Anzahl der Störfälle pro Tag“ und Y = Kosten der Behebung der
”
”
am einem Tag auftretenden Störfälle“. Zur Bestimmung der Korrelation zwischen X und Y
werden die Standardabweichungen beider Zufallsvariablen sowie deren Kovarianz benötigt.
Dafür braucht man wiederum die Erwartungswerte von X und Y . Die erwartete Anzahl der
Störfälle pro Tag lautet:
E (X) =
n
X
i=1
xi · P (X = xi ) = 0 · 0, 5 + 1 · 0, 25 + 2 · 0, 15 + 3 · 0, 1 = 0, 85.
Offensichtlich gilt weiter Y = K(X). Daraus folgt aber leider nicht, dass E (Y ) = K(E (X))
richtig ist. Dies wäre nämlich nur dann korrekt, wenn die Kostenfunktion K eine lineare
Funktion, also eine Gerade ist. Das ist sie aber nicht. Somit müssen die erwarteten Kosten
genau wie E (X) über die eigentliche Definition des Erwartungswertes berechnet werden. Für
die möglichen Realisationen von Y gilt dabei yi = K(xi ). Also erhält man
n
X
E (Y ) =
i=1
n
X
=
i=1
yi · P (Y = yi )
K(xi ) · P (X = xi ) = 1000 · 0, 5 + 3000 · 0, 25 + 3667 · 0, 15 + 4000 · 0, 1
= 2200, 05.
Völlig analog lassen sich die Erwartungswerte der quadrierten Zufallsvariablen bestimmen.
Sie lauten:
2
E (X ) =
n
X
i=1
x2i · P (X = xi ) = 02 · 0, 5 + 12 · 0, 25 + 22 · 0, 15 + 32 · 0, 1 = 1, 75.
und
E (Y 2 ) =
n
X
i=1
yi2 · P (Y = yi ) =
2
2
n
X
i=1
(K(xi ))2 · P (X = xi )
= 1000 · 0, 5 + 3000 · 0, 25 + 36672 · 0, 15 + 40002 · 0, 1
= 6367033.
Damit nehmen die Maße für die Streuung von X und Y folgende Werte an:
und
Var (X) = E (X 2 ) − (E (X))2 = 1, 75 − 0, 852 = 1, 0275 bzw.
p
1, 0275 ≈ 1, 0137
σX =
Var (Y ) = E (Y 2 ) − (E (Y ))2 = 6367033 − 2200, 052 = 1526813 bzw.
√
σY =
1526813 ≈ 1235, 643.
Dann fehlt nur noch die Kovarianz zwischen der Anzahl der Störfälle pro Tag und den zu
deren Behebung notwendigen Kosten. Diese ergibt sich wie folgt:
σXY
= E (XY ) − E (X) E (Y )
n
X
xi · yi · P (X = xi ∩ Y = yi ) − E (X) E (Y )
=
i=1
=
n
X
i=1
xi · K(xi ) · P (X = xi ) − E (X) E (Y )
= 0 · 1000 · 0, 5 + 1 · 3000 · 0, 25 + 2 · 3667 · 0, 15 + 3 · 4000 · 0, 1 − 0, 85 · 2200, 05
= 1180, 057.
Wegen Y = K(X) bzw. yi = K(xi ) ist dabei die Vereinfachung
P (X = xi ∩ Y = yi ) = P (X = xi ∩ K(X) = K(xi )) = P (X = xi )
möglich. Letztendlich beträgt die Korrelation zwischen X und Y damit
ρXY =
σXY
1180, 057
≈ 0, 942.
=
σX σY
1, 0137 · 1235, 643
Lösung zu Aufgabe 19:
Wie so oft empfiehlt es sich, zunächst einmal alle in der Aufgabenstellung gegebenen Informationen zu sortieren. Was ist gegeben? Was ist gesucht? Beginnen wir zur Abwechselung
mit der zweiten Frage. Gesucht ist hier der erwartete Gewinn, wohlgemerkt des Versicherers.
Wegen
Gewinn = Erlös − Kosten
gilt
E (Gewinn) = E (Erlös) − E (Kosten).
Wie groß ist nun der erwartete Erlös? Der Versicherer bekommt am Anfang des Jahres
200 Euro, völlig unabhängig davon, ob der 50-jährige Mann innerhalb des folgenden Jahres
verstirbt oder nicht. Also ist E (Erlös) = 200. Welche Kosten kommen auf den Versicherer
zu? Überlebt der 50-jährige Mann das folgende Jahr, so muss der Versicherer nicht einen
Cent zahlen. Verstirbt der 50-jährige Mann innerhalb des folgenden Jahres, so muss der
Versicherer 20.000 Euro zahlen. Letzteres geschieht aber nur mit einer Wahrscheinlichkeit
von 0,5%. Somit gilt E (Kosten) = 20.000 · 0, 005 = 100. Insgesamt gilt damit:
E (Gewinn) = 200 − 100 = 100.
Alternativ zu dieser volkswirtschaftlich angehauchten Lösung kann man sich übrigens auch
folgendes überlegen: Zunächst sei X = Gewinn des Versicherers“. Zur Berechnung des er”
warteten Gewinns, also des Erwartungswerts von X, werden die möglichen Realisationen
von X sowie die Wahrscheinlichkeiten, mit denen die möglichen Realisationen angenommen
werden, benötigt. Überlebt der 50-jährige Mann das folgende Jahr, so realisiert der Versicherer einen Gewinn von 200 Euro. Dies geschieht mit Wahrscheinlichkeit 1 − 0, 005 = 0, 995.
Verstirbt dagegen der 50-jährige Mann innerhalb des folgenden Jahres, so realisiert der Ver-
sicherer einen Gewinn von 200 − 20.000 = −19.800 Euro. Dieses Szenario tritt mit einer
Wahrscheinlichkeit von 0,5% ein. Damit lautet die Wahrscheinlichkeitsfunktion von X:
xi
P (X = xi )
200
-19.800
0,995
0,005
Somit ergibt sich der erwartete Gewinn des Versicherers zu
E (X) = 200 · 0, 995 − 19.800 · 0, 005 = 100.
Lösung zu Aufgabe 20:
Von Interesse ist hier die Zufallsvariable X = Anzahl der Fehlalarme bei n Anrufen in
”
einem Monat“. Der Aufgabenstellung sind zusätzlich folgende Informationen zu entnehmen:
Erstens, jeder einzelne Anruf ist entweder ein Fehlalarm oder nicht. Zweitens, die einzelnen
Anrufe erfolgen voneinander unabhängig. Drittens, die Wahrscheinlichkeit für einen Fehlalarm ist bei jedem Anruf die gleiche, nämlich 10%. Dies schreit geradezu nach einer Binomialverteilung. Genauer gilt:
X ∼ Bin (n; 0, 1).
a) Jetzt ist n = 20. Die erwartete Anzahl der Fehlalarme in einem Monat mit 20 Anrufen
ist dann
E (X) = n p = 20 · 0, 1 = 2.
b) Auch wenn in der Aufgabenstellung von der Anzahl der echten Alarme die Rede ist,
lässt sich diese Frage auf die Verteilung von X zurückführen. Sei dazu zunächst Y =
Anzahl der echten Alarme bei n Anrufen in einem Monat“, wobei wie zuvor n = 20
”
gilt. Dann folgt:
P (Y ≥ 18) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
µ ¶
µ ¶
20
20
0
20−0
+
· 0, 11 · (1 − 0, 1)20−1
=
· 0, 1 · (1 − 0, 1)
1
0
µ ¶
20
+
· 0, 12 · (1 − 0, 1)20−2
2
= 1 · 1 · 0, 920 + 20 · 0, 1 · 0, 919 + 190 · 0, 12 · 0, 918
= 0, 1216 + 0, 2702 + 0, 2852
= 0, 677.
Die Wahrscheinlichkeit dafür, dass die Feuerwehr bei 20 Anrufen in einem Monat
mindestens 18 Mal aufgrund eines echten“ Alarms ausrückt, beträgt also 67,7%. Diese
”
Lösung ergibt sich alternativ übrigens auch direkt über die Verteilung von Y . Wegen
X ∼ Bin (n; 0, 1) gilt
n − X = Y ∼ Bin (n; 0, 9).
Somit folgt:
P (Y ≥ 18) = P (Y = 18) + P (Y = 19) + P (Y = 20)
µ ¶
µ ¶
20
20
18
20−18
· 0, 9 · (1 − 0, 9)
=
· 0, 919 · (1 − 0, 9)20−19
+
18
19
µ ¶
20
+
· 0, 920 · (1 − 0, 9)20−20
20
= 190 · 0, 918 · 0, 12 + 20 · 0, 919 · 0, 1 + 1 · 0, 920 · 1
= 0, 2852 + 0, 2702 + 0, 1216
= 0, 677.
Lösung zu Aufgabe 21:
Wie immer ist es am Anfang angebracht, sich klarzumachen, welche Informationen gegeben
sind und wonach eigentlich gesucht wird. Gegeben sind hier zwei Zufallsvariablen X (monatliche Rendite der Deutschen Bank) und Y (monatliche Rendite des DAX), von denen
folgendes bekannt ist:
X ∼ N (0, 5; 13),
Y ∼ N (0, 5; 6),
Cov (X, Y ) = 3.
Gesucht ist die Wahrscheinlichkeit, mit der die monatliche Rendite der Deutschen Bank die
des DAX um mehr als das Doppelte übersteigt, also kurz
P (X > 2 Y ).
Mit dieser Wahrscheinlichkeit kann man natürlich noch nichts anfangen, da auf beiden Seiten
der Ungleichung Zufallsvariablen stehen. Es sind also zunächst beide Zufallsvariablen auf eine
Seite zu bringen. Dies führt zu
P (X > 2 Y ) = P (X − 2 Y > 0).
Es muss also geklärt werden, welche Verteilung die neue Zufallsvariable X − 2 Y hat. Da
sowohl X als auch Y normalverteilt sind und Summen von normalverteilten Zufallsvariablen
wieder normalverteilt sind, gehorcht auch X − 2 Y einer Normalverteilung. Wegen
E (a X + b Y ) = a E (X) + b E (Y )
und
Var (a X + b Y ) = a2 Var (X) + b2 Var (Y ) + 2ab Cov (X, Y )
ergeben sich Erwartungswert und Varianz von X − 2 Y wie folgt:
E (X − 2 Y ) = E (X) − 2 E (Y ) = 0, 5 − 2 · 0, 5 = −0, 5
und
Var (X − 2 Y ) = Var (X) + (−2)2 Var (Y ) + 2 (−2) Cov (X, Y ) = 13 + 4 · 6 − 4 · 3 = 25.
Insgesamt gilt also
X − 2 Y ∼ N (−0, 5; 25) bzw.
X − 2 Y + 0, 5
√
∼ N (0; 1).
25
Damit lässt sich nun die gesuchte Wahrscheinlichkeit angeben. Sie lautet:
P (X > 2 Y ) = P (X − 2 Y > 0) = 1 − P (X − 2 Y ≤ 0)
¶
µ
0 + 0, 5
X − 2 Y + 0, 5
√
= 1 − Φ(0, 1) = 1 − 0, 5398
≤ √
= 1−P
25
25
= 0, 4602.
Unter den gegebenen Voraussetzungen beträgt die Wahrscheinlichkeit dafür, dass die monatliche Rendite der Deutschen Bank die des DAX um mehr als das Doppelte übersteigt,
46,02%.
Lösung zu Aufgabe 22:
Zunächst scheint sich auch diese Aufgabe um die Binomialverteilung zu drehen. Denn werden
für jeden einzelnen Arbeitstag des Jahres Zufallsvariablen Xi definiert, die signalisieren, ob
eine Fahrkartenkontrolle stattfindet oder nicht,

1, Kontrolle am i-ten Arbeitstag
Xi =
,
0, keine Kontrolle am i-ten Arbeitstag
i = 1, . . . , 250,
so gilt:
uiv
X1 , X2 , . . . , X250 ∼ Bin (1; 0, 06).
Damit folgt für die eigentlich interessierende Zufallsvariable X = Anzahl der Kontrollen in
”
einem Jahr“:
X=
250
X
i=1
Xi ∼ Bin (250; 0, 06).
Gesucht ist dann die Wahrscheinlichkeit P (X ≥ 20). Diese berechnet sich standardmäßig
wie folgt:
P (X ≥ 20) = 1 − P (X < 20) = 1 − P (X ≤ 19) = 1 −
¶
19 µ
X
250
i=0
i
· 0, 06i · 0, 94250−i .
Und hier gehen die Probleme los. Zwar existieren diverse Tabellen für die Verteilungsfunktionen von Binomialverteilungen, die gesuchte Wahrscheinlichkeit ist aber mit Sicherheit in
keiner solchen Tabelle zu finden. Bleibt noch die Möglichkeit, die gesuchte Wahrscheinlichkeit
von Hand“ zu bestimmen. Schade nur, dass die meisten Taschenrechner beim Ausrechnen
”
der Binomialkoeffizienten, etwa
µ ¶
250
= 1, 482850 · 1028 ,
19
in die Knie gehen, ganz zu schweigen von dem zeitlichen Aufwand, den solche Berechnungen
in Anspruch nehmen. Auch schade, dass man in vielen Situationen, z. B. während einer
Klausur, keinen leistungsfähigen Computer dabei hat. All das ist aber kein Problem, wenn
man sich an dieser Stelle an den zentralen Grenzwertsatz erinnert. Für dessen Anwendung
sind zunächst folgende drei Voraussetzungen zu überprüfen:
(1) n = 250 ≥ 30 X,
(2) n p = 250 · 0, 06 = 15 ≥ 10 X,
(3) n (1 − p) = 250 · 0, 94 = 235 ≥ 10 X.
Der zentrale Grenzwertsatz darf somit hier angewendet werden. Mit seiner Hilfe folgt:
!
Ã
19 − n p
X − np
<p
P (X ≥ 20) = 1 − P (X ≤ 19) = 1 − P p
n p (1 − p)
n p (1 − p)
Ã
!
X − 250 · 0, 06
19 − 250 · 0, 06
= 1−P √
<p
250 · 0, 06 · 0, 94
250 · 0, 06 · 0, 94)
µ
¶
µ
¶
X − 15
19 − 15
19 − 15
= 1−P √
=1−Φ √
≈ 1 − Φ(1, 07)
< √
14, 1
14, 1
14, 1
= 1 − 0, 8577 = 0, 1423.
Damit beträgt die Wahrscheinlichkeit dafür, an mindestens 20 von 250 Arbeitstagen in eine
Fahrkartenkontrolle zu geraten, ungefähr 14,23%.
Teil 3 – Schließende Statistik
Lösung zu Aufgabe 23:
Es sei X = Stundenlohn“, µ = E (X) der durchschnittliche Stundenlohn und σ 2 = Var (X)
”
die Varianz der Stundenlöhne. Ein erwartungstreuer Schätzer für den durchschnittlichen
Stundenlohn ist durch das arithmetische Mittel der Stundenlöhne gegeben. Hier lautet es:
n
1X
Xi
µ̂ = X̄ =
n i=1
=
285
1
· (4 · 13 + 6 · 18 + 5 · 25) =
= 19.
15
15
Damit wird der durchschnittliche Stundenlohn erwartungstreu auf 19 Euro geschätzt.
2
Ein erwartungstreuer Schätzer für die Varianz der Stundenlöhne ist der Schätzer S̃X
, der der
Summe der quadrierten Abweichungen der Stundenlöhne vom erwartungstreu geschätzten
durchschnittlichen Stundenlohn, dividiert durch n − 1, entspricht. Also:
n
2
=
σ̂ 2 = S̃X
=
1 X
(Xi − X̄)2
n − 1 i=1
¤ 330
1 £
· 4 · (13 − 19)2 + 6 · (18 − 19)2 + 5 · (25 − 19)2 =
= 23, 571.
14
14
Damit wird die Varianz der Stundenlöhne erwartungstreu auf 23,571 (Euro2 ) geschätzt.
Lösung zu Aufgabe 24:
Es sei X = täglich vor dem Fernseher verbrachte Zeit in Stunden“. Gesucht ist dann ein
”
erwartungstreuer Schätzer für den unbekannten Anteil p = P (X ≥ 2). Da aus der vorherigen Aufgabe bekannt ist, dass allgemein das arithmetische Mittel ein erwartungstreuer
Schätzer für den unbekannten Erwartungswert einer Zufallsvariablen ist, sollte es nun zuerst
das Ziel sein, den unbekannten Anteil p als einen solchen Erwartungswert einer Zufallsvariablen darzustellen. Ein erwartungstreuer Schätzer für p ist dann nämlich schnell gefunden.
Dies gelingt, wenn man von den Stichprobenvariablen X1 , X2 , . . . , X20 übergeht zu den Zufallsvariablen Y1 , Y2 , . . . , Y20 mit

1, X ≥ 2
i
Yi =
, i = 1, . . . , 20.
0, X < 2
i
Denn für diese Zufallsvariablen gilt:
Yi ∼ Bin (1, p)
⇒
E (Yi ) = 1 · P (Xi ≥ 2) + 0 · P (Xi < 2) = P (Xi ≥ 2) = p.
Damit kann der Anteil der Personen, die täglich mindestens zwei Stunden vor dem Fernseher
verbringen, wie folgt erwartungstreu geschätzt werden:
n
1X
Yi
p̂ = Ȳ =
n i=1
1
· (1 + 0 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0 + 1 + 1 + 1 + 1 + 0 + 1 + 0)
20
11
= 0, 55 = 55%.
=
20
=
Lösung zu Aufgabe 25:
Laut Definition ist von zwei erwartungstreuen Schätzern für einen unbekannten Parameter
genau derjenige effizienter, der die kleinere Varianz besitzt. Vor der Bestimmung der Varianzen der beiden gegebenen Schätzer für µ ist also zu überprüfen, ob beide tatsächlich
erwartungstreu für µ sind. Sollte wenigstens einer der beiden gegebenen Schätzer nicht erwartungstreu für µ sein, so lässt sich die Frage nach der Effizienz schlicht und ergreifend
nicht beantworten. Aber wir haben Glück. Sowohl µ̂1 als auch µ̂2 sind gewichtete arithmetische Mittel der Stichprobenvariablen X1 , X2 , . . . , Xn und somit erwartungstreu für µ. Formal
lässt sich dies etwa für µ̂1 wie folgt zeigen (der Nachweis der Erwartungstreue funktioniert
für µ̂2 völlig analog):
µ
¶
1
1
(X1 + X2 + Xn−1 + Xn ) = [E (X1 ) + E (X2 ) + E (Xn−1 ) + E (Xn )]
E (µ̂1 ) = E
4
4
1
=
(µ + µ + µ + µ) = µ.
4
Somit kann die Frage nach der Effizienz über den Vergleich der Varianzen beider Schätzer
beantwortet werden. Beide Varianzen berechnen sich aufgrund der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn wie folgt:
µ
¶
1
(X1 + X2 + Xn−1 + Xn )
Var (µ̂1 ) = Var
4
1
=
[Var (X1 ) + Var (X2 ) + Var (Xn−1 ) + Var (Xn )]
16
1 2
4 2
=
(σ + σ 2 + σ 2 + σ 2 ) =
σ .
16
16
und
¶
3
1
1
3
X1 + X n2 + X n2 +1 + Xn
Var (µ̂2 ) = Var
8
8
8
8
9
1
1
9
=
Var (X1 ) +
Var (X n2 ) +
Var (X n2 +1 ) +
Var (Xn )
64
64
64
64
1 2
9 2
9 2
1 2 20 2
5 2
=
σ +
σ +
σ +
σ =
σ =
σ .
64
64
64
64
64
16
µ
Wegen
Var (µ̂1 ) =
4 2
5 2
σ <
σ = Var (µ̂2 )
16
16
ist µ̂1 effizienter zur Schätzung von µ als µ̂2 .
Lösung zu Aufgabe 26:
Im Gegensatz zu den vorangegangenen Aufgaben geht es jetzt nicht mehr um Punktschätzer
für einen unbekannten Parameter, sondern um Intervallschätzer. Die grundsätzliche Idee
solcher Schätzverfahren besteht darin, ein Intervall zu finden, das mit einer möglichst hohen
Wahrscheinlichkeit den unbekannten Parameter überdeckt.
Es sei X = Wasserverbrauch des neuen Waschmaschinenmodells in Litern“. Die Stichpro”
benvariablen X1 , X2 , . . . , X9 sind dann unabhängig und identisch wie X verteilt. Genauer
gilt zunächst:
¢
¡
uiv
X1 , X2 , . . . , X9 ∼ N µ, σ 2 .
Näheres über die beiden Parameter der Normalverteilung ist zunächst nicht bekannt.
a) Allgemein ist ein (1−α)-Konfidenzintervall für den unbekannten Erwartungswert einer
Normalverteilung mit gleichzeitig unbekannter Varianz gegeben durch:
#
"
S̃X
S̃X
KI1−α (µ) = X̄ − tn−1,1− α2 √ ; X̄ + tn−1,1− α2 √ .
n
n
Aus den gegebenen Beobachtungen folgt zunächst
X̄ =
1
1
(49 + 44 + 52 + 53 + 50 + 54 + 45 + 48 + 46) = · 441 = 49
9
9
und
2
=
S̃X
¤ 1
1 £
(49 − 49)2 + (44 − 49)2 + · · · + (46 − 49)2 = · 102 = 12, 75.
8
8
Wegen 1 − α = 0, 95 folgt weiter tn−1,1− α2 = t8,0.975 = 2, 306. Das gesuchte 95%-
Konfidenzintervall für den durchschnittlichen Wasserverbrauch des neuen Waschmaschinenmodells lautet damit:
¸
·
√
√
12, 75
12, 75
KI0,95 (µ) = 49 − 2, 306 · √
; 49 + 2, 306 · √
9
9
= [49 − 2, 745; 49 + 2, 745]
= [46, 255; 51, 745].
Zusatzfrage: Wie ist dieses Intervall nun zu interpretieren? Antwort: Mit einer Wahrscheinlichkeit von 95% überdeckt das Intervall [46, 255; 51, 745] die vom neuen Waschmaschinenmodell durchschnittlich verbrauchte Wassermenge in Litern.
b) Im Gegensatz zu Aufgabenteil a) ist nun die Standardabweichung der zu Grunde liegenden Normalverteilung bekannt. Sie lautet σ = 3 Liter. Dank dieser zusätzlichen
Information muss die Varianz der Normalverteilung nicht mehr aus den beobachteten
verbrauchten Wassermengen geschätzt werden. Es sollte also nicht verwundern, dass
2
der Schätzer S̃X
in dem gesuchten Konfidenzintervall keine Rolle mehr spielt. Vielmehr
ersetzt ihn nun vernünftigerweise die bekannte Varianz σ 2 . Das gesuchte Konfidenzintervall lautet damit:
·
¸
σ
σ
KI1−α (µ) = X̄ − u1− α2 √ ; X̄ + u1− α2 √ .
n
n
Nach wie vor ist α = 0, 05. Somit folgt u1− α2 = u0,975 = 1, 96. Das gesuchte 95%Konfidenzintervall ergibt sich damit zu:
¸
·
3
3
KI0,95 (µ) = 49 − 1, 96 · √ ; 49 + 1, 96 · √
9
9
= [49 − 1, 96; 49 + 1, 96]
= [47, 04; 50, 96] .
An der Interpretation dieses Konfidenzintervalls ändert sich im Vergleich zu a) nichts.
Übrigens sollte auffallen, dass das Konfidenzintervall aus a) etwas breiter als das aus
b) ist. Dieser Umstand ist schlicht und ergreifend der Tatsache geschuldet, dass in a)
weniger Informationen über die Parameter der zu Grunde liegenden Normalverteilung
vorhanden sind. Das Schätzen der Varianz birgt zusätzliche Unsicherheit, die bei einem
identischen Konfidenzniveau zwangsweise zu einem breiteren Konfidenzintervall führen
muss.
c) In der Situation von Aufgabenteil b) beträgt die Länge des 95%-Konfidenzintervalls
für den durchschnittlichen Wasserverbrauch des neuen Modells fast vier Liter, bei neun
Probeläufen wohlgemerkt. Wieviele Probeläufe sind also notwendig, um die Länge dieses Konfidenzintervalls auf höchstens zwei Liter zu begrenzen? Zur Beantwortung dieser Frage sollte man sich zunächst einmal bewusst machen, wie sich die Länge eines
Konfidenzintervalls allgemein angeben lässt. Und zwar gilt:
Länge = obere Intervallgrenze − untere Intervallgrenze
¶
µ
σ
σ
α
α
= X̄ + u1− 2 √ − X̄ − u1− 2 √
n
n
σ
= 2 u1− α2 √ .
n
Da sowohl das Konfidenzniveau als auch die Standardabweichung konstant bleibt, folgt
für die Länge L:
L≤2
⇔
2 u1− α2
σ
√ ≤2
n
⇔
³
n ≥ 2 u1− α2
σ ´2
=
2
µ
3
2 · 1, 96 ·
2
¶2
= 34, 5744.
Es sind also mindestens 35 Probeläufe notwendig, damit das in b) bestimmte 95%Konfidenzintervall für den durchschnittlichen Wasserverbrauch des neuen Modells nicht
breiter als zwei Liter ist.
Lösung zu Aufgabe 27:
Wie in der vorherigen Aufgabe stehen auch hier Konfidenzintervalle für unbekannte Erwartungswerte im Mittelpunkt. Allerdings sind die Stichprobenvariablen nicht mehr normal-,
sondern binomialverteilt. Denn setzt man

1, i-ter Befragter lebt unter dem Existenzminimum
Xi =
,
0, sonst
i = 1, . . . , 50,
uiv
so gilt X1 , X2 , . . . , X50 ∼ Bin (1, p), wobei p der unbekannte Anteil der armen Personen in
dem betreffenden Entwicklungsland ist.
a) Aus Aufgabe 24 ist bekannt, dass das arithmetische Mittel ein erwartungstreuer Schätzer
für p ist. Somit folgt:
50
1 X
30
= 0, 6 = 60%.
p̂ = X̄ =
Xi =
50 i=1
50
Weiter ist ein (approximatives) Konfidenzintervall für p zum Niveau 1 − α gegeben
durch:
·
KI1−α (p) = p̂ − u1− α2
wobei σ̂ =
p
¸
σ̂
σ̂
√ ; p̂ + u1− α2 √ ,
n
n
p̂ (1 − p̂) ist. Dies ist allerdings nur dann richtig, wenn die Vorausset-
zungen des zentralen Grenzwertsatzes erfüllt sind. Denn im obigen Konfidenzintervall
werden die Quantile der zu Grunde liegenden Binomialverteilung durch die entsprechenden Quantile der Standardnormalverteilung näherungsweise bestimmt. Zur großen
Überraschung sind hier die Voraussetzungen des zentralen Grenzwertsatzes in der Tat
erfüllt:
n = 50 ≥ 30 X,
n · p̂ = 30 ≥ 10 X,
n · (1 − p̂) = 20 ≥ 10 X.
Aus α = 0, 1 folgt zunächst u1− α2 = u0,95 = 1, 645. Weiter ist σ̂ =
Damit lautet das 90%-Konfidenzintervall für p:
·
0, 4899
0, 4899
KI0,9 (p) = 0, 6 − 1, 645 · √
; 0, 6 + 1, 645 · √
50
50
= [0, 486; 0, 714].
¸
√
0, 6 · 0, 4 = 0, 4899.
b) Bereits vor dem Ausrechnen des 95%-Konfidenzintervalls für den unbekannten Anteil der armen Personen in dem Entwicklungsland ist klar, dass dieses breiter als das
entsprechende 90%-Konfidenzintervall aus a) sein muss. Denn für die Erhöhung der
Vertrauenswahrscheinlichkeit (lies: die erhöhte Sicherheit, keinen Irrtum zu begehen)
muss bei gleichbleibendem Stichprobenumfang ein gewisser Preis bezahlt werden. Dieser
Preis kann aber nur durch eine schwächere Aussage“ über den unbekannten Erwar”
tungswert bezahlt werden. Und eine schwächere Aussage“ drückt sich einfach in einem
”
ungenaueren, weil breiteren Konfidenzintervall aus. Der Vollständigkeit halber sei abschließend erwähnt, dass das 95%-Konfidenzintervall wie folgt aussieht:
·
0, 4899
0, 4899
KI0,95 (p) = 0, 6 − 1, 96 · √
; 0, 6 + 1, 96 · √
50
50
= [0, 464; 0, 736].
¸
c) Die Breite eines Konfidenzintervalls kann nicht nur über die Vertrauenswahrscheinlichkeit gesteuert werden, sondern auch über den Umfang der Stichprobe. Gesucht
ist jetzt der (kleinstmögliche) Stichprobenumfang, für den das resultierende 90%Konfidenzintervall für p nicht breiter als fünf Prozentpunkte ist. Etwas formaler ist
also der Wert von n gesucht, ab dem gilt:
σ̂
L = 2 u1− α2 √ ≤ 0, 05.
n
Leider lässt sich diese Ungleichung nicht so einfach nach n umstellen und ausrechnen.
Denn der Stichprobenumfang geht indirekt auch in den Schätzer von σ ein:
v
!
Ã
u n
n
q
X
u1 X
p
1
σ̂ = p̂ (1 − p̂) = X̄ (1 − X̄) = t
Xi · 1 −
Xi .
n i=1
n i=1
Diese Unannehmlichkeit lässt sich aber über einen einfachen Trick schnell aus der Welt
schaffen. Da stets 0 ≤ p̂ ≤ 1 gilt, ist auch die geschätzte Standardabweichung nach
oben beschränkt. Genauer gilt stets 0 ≤ σ̂ ≤ 1/2. Daraus folgt allgemein
u1− α
σ̂
1/2
L = 2 u1− α2 √ ≤ 2 u1− α2 √ = √ 2
n
n
n
und speziell für diese Aufgabe
u1− α
L ≤ √ 2 ≤ 0, 05
n
⇔
n≥
µ
u1− α2
0, 05
¶2
=
µ
1, 645
0, 05
¶2
= 1082, 41.
Damit müssen mindestens 1083 Personen befragt werden, damit das 90%-Konfidenzintervall für den unbekannten Anteil der armen Personen in diesem Entwicklungsland
nicht breiter als fünf Prozentpunkte ist.
Lösung zu Aufgabe 28:
Statistische Testprobleme werden prinzipiell über die (unbekannten) Parameter einer Verteilung formuliert. Vor der Berechnung der Wahrscheinlichkeiten für die beiden Fehler, zu
denen eine Testentscheidung führen kann, ist der gegebenen Situation (hier: dem Untersuchungsgegenstand des Forschers) zwingend eine Verteilung zu unterstellen.
In dieser Aufgabe geht es um die Frage, ob die Einkommen von Männern und Frauen gleich
sind, also um eine Frage, die sich mit Ja“ oder Nein“ beantworten lässt. Das schreit gerade”
”
zu nach einer Binomialverteilung. Und da der Forscher die zehn Ehepaare auch voneinander
unabhängig ausgewählt hat und die interessierende Wahrscheinlichkeit
p = P (Mann verdient mehr als seine Frau)
für alle Ehepaare als konstant angenommen werden kann, sind insgesamt alle drei Voraussetzungen für eine Binomialverteilung gegeben. Setzt man

1, Mann verdient mehr als seine Frau
Xi =
, i = 1, . . . , 10,
0, sonst
dann gilt
uiv
X1 , X2 , . . . , X10 ∼ Bin (1, p)
und das Testproblem des Forscher lässt sich wie folgt formalisieren:
H0 : p =
1
2
1
gegen H1 : p 6= .
2
Letztendlich lehnt der Forscher H0 ab, wenn bei allen zehn Ehepaaren der Mann mehr
P
verdient als seine Frau, wenn also T = 10
i=1 Xi = 10 gilt. Damit ist auch klar, dass die
Teststatistik T ebenfalls binomialverteilt ist. Genauer gilt: T ∼ Bin (10, p).
a) Der Forscher begeht einen Fehler 1. Art, wenn er obige Nullhypothese ablehnt, obwohl
sie korrekt ist. Die Wahrscheinlichkeit hierfür lautet:
¯
µ
¶
¯
1
¯
P (Fehler 1. Art) = P (H1 | H0 ) = P T = 10 ¯ p =
2
µ ¶ µ ¶10 µ ¶10−10 µ ¶10
10
1
1
1
=
=
10
2
2
2
= 0, 00098.
b) Im Gegensatz dazu begeht der Forscher einen Fehler 2. Art, wenn er obige Nullhypothese nicht ablehnt, obwohl sie eigentlich falsch ist. Angenommen, es gilt p = 2/3. Dieser
Wert liegt relativ deutlich im Bereich der Alternativhypothese. Die Wahrscheinlichkeit,
einen Fehler 2. Art zu begehen, lässt sich dann wie folgt berechnen:
¯
¶
µ
¯
2
P (Fehler 2. Art) = P (H0 | H1 ) = P T < 10 ¯¯ p =
3
¯
µ
¶
¯
2
= 1 − P T = 10 ¯¯ p =
3
µ ¶ µ ¶10 µ ¶10−10
µ ¶10
2
10
1
2
= 1−
=1−
10
3
3
3
= 0, 98266.
c) Zunächst fällt auf, dass die Wahrscheinlichkeit für einen Fehler 2. Art sehr hoch ist.
Hier schlägt zu Buche, dass der Forscher die Nullhypothese erst sehr spät“ ablehnt
”
(die Männer müssen immer mehr verdienen als ihre Frauen). Somit fällt die Entscheidung des Forschers auch dann eher zu Gunsten der Nullhypothese aus, wenn diese
offensichtlich falsch ist. Hier wäre eine weniger restriktive Entscheidungsregel sicherlich wünschenswert.
Die Entscheidungsregel des Forschers aber noch einen zweiten Nachteil, und der wiegt
weitaus schwerer. Zur Erinnerung: Von Interesse ist, ob die Einkommen von Männern
und Frauen gleich sind. Laut seiner Entscheidungsregel lehnt der Forscher diese Nullhypothese aber nur dann ab, wenn die Männer mehr verdienen als ihre Frauen. Es
ist aber auch der umgekehrte Fall denkbar. Warum sollen nicht die Frauen grundsätzlich mehr verdienen können als ihre Männer? In diesem Fall wäre T = 0, was ebenso
gegen die Nullhypothese spricht, aber hier nicht zu einer Ablehnung führt. Mit anderen Worten: Der gegebenen Fragestellung liegt ein zweiseitiges Testproblem zu Grunde
(H1 : p 6= 1/2), die Entscheidungsregel des Forschers gehört aber eindeutig zu einem
einseitigen Testproblem (etwa H1 : p > 1/2).
Lösung zu Aufgabe 29:
Die in der Aufgabenstellung geschilderte Situation lässt sich zunächst wie folgt formalisieren: Im Mittelpunkt steht die Zufallsvariable X = Funktionsdauer einer Glühbirne (in
”
Monaten)“. Ein Verkäufer solcher Glühbirnen behauptet, dass E (X) ≥ 12 gilt. Ein Kunde
schätzt aufgrund einer Stichprobe vom Umfang n = 20 die erwartete Funktionsdauer auf
11,4 Monate. Mehr ist erstmal nicht bekannt.
a) Jetzt werden zusätzlich einige Informationen über die Verteilung von X und damit
auch über die Verteilung der Stichprobenvariablen X1 , X2 , . . . , X20 bekannt. Genauer
gilt:
uiv
X1 , X2 , . . . , X20 ∼ N (µ, 9).
Das Testproblem des Kunden lautet dann:
H0 : µ ≥ 12 gegen H1 : µ < 12.
Ein geeigneter Test zum Überprüfen von Hypothesen über unbekannter Erwartungswerte normalverteilter Zufallsvariablen bei bekannter Varianz ist der Gauß-Test. Die
obige Nullhypothese wird allgemein zum Niveau α abgelehnt, wenn
T =
√ X̄ − µ0
n
< −u1−α
σ
gilt. In diesem Fall lautet die Realisation der Teststatistik T :
T =
√
20
√
11, 4 − 12
= − 20 · 0, 2 = −0, 8944.
3
Aus α = 5% folgt weiter:
−u1−α = −u0,95 = −1, 645.
Damit gilt
T = −0, 8944 > −1, 645 = −u1−α
und der Kunde kann die Nullhypothese Die Funktionsdauer der Glühbirnen beträgt
”
durchschnittlich mindestens ein Jahr.“ zum 5%-Niveau nicht ablehnen.
b) Die Gütefunktion eines Tests gibt in Abhängigkeit eines unbekannten Parameters, hier
µ, die Wahrscheinlichkeit dafür an, die Nullhypothese zu verwerfen. Entscheidend für
die weiteren Berechnungen ist dabei die Tatsache, dass nun µ die in Wirklichkeit wahre
erwartete Funktionsdauer der Glühbirnen angibt. Das bedeutet vor allem, dass nun gilt:
√ X̄ − µ √ X̄ − µ
n
= 20
∼ N (0, 1).
σ
3
In Aufgabenteil a) ist diese Aussage für die Verteilung der Teststatistik T richtig.
Allerdings gilt sie nur eingeschränkt auf H0 und ist damit für die Berechnung der
Gütefunktion nicht geeignet, da letztere über den gesamten Parameterraum (hier: alle
reellen Zahlen) zu bestimmen ist!
Diese Mahnung im Hinterkopf behaltend, lässt sich nun die Gütefunktion des GaußTests aus a) berechnen. (In der folgenden Lösung werden die konkreten Zahlen“ der
”
Entscheidungsregel zum Verwerfen von H0 verwendet. Analog kann die Lösung aber
auch mit den abstrakten Werten n statt 20, µ0 statt 12, σ statt 3 und −u0,95 statt
−1, 645 hergeleitet werden.) Es gilt mit α = 0, 05:
g(µ) = P (H0 ablehnen | µ)
¯ ¶
µ
√ X̄ − 12
¯
< −1, 645 ¯¯ µ
= P
20
3
¯ ¶
µ
√ X̄ − µ + µ − 12
¯
= P
20
< −1, 645 ¯¯ µ
3
¯
µ
√ X̄ − µ √ µ − 12
¯
20
+ 20
< −1, 645 ¯¯
= P
3
3
¯
µ
√ µ − 12 ¯
√ X̄ − µ
¯
< −1, 645 − 20
20
= P
3
3 ¯
¯ ¶
µ
√ µ − 12 ¯
¯µ .
= Φ −1, 645 − 20
3 ¯
µ
¶
µ
¶
Diese Gütefunktion ist zugegeben etwas unhandlich. Auch wenn man es ihr auf den
ersten Blick nicht ansieht, so besitzt sie doch die Form, die jede halbwegs vernünftige
Gütefunktion besitzen sollte. Wie die folgende Abbildung zeigt, ist g(µ) auf H0 stets
kleiner als das Signifikanzniveau von 5%. Auf H1 strebt die Gütefunktion dagegen
verhältnismäßig schnell gegen 1.
1
0.8
g(µ)
0.6
H0
H1
0.4
0.2
α = 0,05
0
8
10
12
14
16
µ
c) Es sei jetzt in Wirklichkeit µ = 11 die wahre erwartete Funktionsdauer einer Glühbirne.
Bei der Berechnung der Wahrscheinlichkeit, mit der der Kunde einen Fehler 2. Art
begeht, zahlen sich endlich die Mühen aus, die man zur Bestimmung der Gütefunktion
in Aufgabenteil b) aufbringen musste. Denn auf der Alternativhypothese gilt:
g(µ) = P (H0 ablehnen | µ) = P (H1 | H1 ) = 1 − P (H0 | H1 ) = 1 − P (Fehler 2. Art).
Das bedeutet im Gegenzug:
P (Fehler 2. Art) = 1 − g(µ) = 1 − g(11)
¶
µ
√ 11 − 12
= 1 − Φ −1, 645 − 20
3
≈ 1 − Φ (−0, 15) = 1 − (1 − Φ (0, 15)) = Φ (0, 15)
= 0, 5596.
Für den Kunden beträgt die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, damit
fast 56%. Das ist einerseits viel, andererseits allerdings liegt die unterstellte erwartete
Funktionsdauer der Glühbirnen von elf Monaten aber auch noch relativ nah an der
Grenze zwischen Null- und Alternativhypothese. Der Gauß-Test hat hier sozusagen
noch seine Probleme, zwischen beiden Hypothese treffsicher“ zu unterscheiden. Somit
”
kann hier auch keine besonders hohe Güte erwartet werden.
Lösung zu Aufgabe 30:
Die in der Aufgabenstellung dargelegte Situation ist der aus der vorangegangenen Aufgabe sehr ähnlich. Daher überrascht es nicht, dass auch hier der Gauß-Test zum Einsatz
kommt. Aber der Reihe nach: Gegeben ist eine Stichprobe normalverteilte Zufallsvariablen
mit bekannter Varianz. Denn ist Xi der Calciumgehalt der i-ten Flasche Mineralwasser,
i = 1, . . . , 10, so gilt laut Aufgabenstellung:
uiv
X1 , X2 , . . . , X10 ∼ N (µ, 2500).
Weiter lautet das Testproblem
H0 : µ = 1000 gegen H1 : µ 6= 1000.
Wie bereits in der vorherigen Aufgabe gesehen, ist der Gauß-Test zum Überprüfen von Hypothesen über unbekannter Erwartungswerte normalverteilter Zufallsvariablen bei bekannter
Varianz sehr gut geeignet. Da nun jedoch ein zweiseitiges Testproblem vorliegt, wird die
Nullhypothese prinzipiell zum Niveau α abgelehnt, wenn gilt:
¯
¯
¯ √ X̄ − µ0 ¯
¯ > u1− α .
| T | = ¯¯ n
¯
2
σ
Anhand der gegebenen Stichprobe ergibt sich folgende Schätzung für den mittleren Calciumgehalt:
1
(950 + 940 + 1025 + 800 + 975 + 1000 + 875 + 990 + 915 + 1030)
10
= 950.
X̄ =
Daraus folgt für die Teststatistik T des Gauß-Tests:
√ 950 − 1000
√
T = 10
= − 10 = −3, 1623.
50
Weiter folgt aus α = 1%:
u1− α2 = u0,995 = 2, 576.
Wegen
| T | = 3, 1623 > 2, 576 = u1− α2
wird die Nullhypothese damit zum 1%-Niveau abgelehnt. Die gegebene Stichprobe spricht
also dafür, dass der mittlere Calciumgehalt der Wasserflaschen signifikant von 1000 mg/l
abweicht.
Lösung zu Aufgabe 31:
Wie bei den vorherigen Aufgaben ist es sinnvoll, zunächst die in der Aufgabenstellung enthaltenen Informationen zu bündeln. Offensichtlich ist eine Aussage über eine durchschnittliche
Geschwindigkeit zu testen. Welche Tests kommen dafür infrage? Die von der Polizei gemessenen Geschwindigkeiten können als Realisationen einer normalverteilten Zufallsvariablen X
aufgefasst werden, genauer gilt für sie:
¢
¡
uiv
X1 , X2 , . . . , X26 ∼ N µ, σ 2 .
Aus diesem Grund bieten sich zum Testen von Hypothesen über die durchschnittliche Geschwindigkeit µ der Gauß- und der t-Test an. Das Zünglein an der Waage ist nun die Frage,
ob die Varianz σ 2 bekannt ist oder nicht. Im Fall der gemessenen Geschwindigkeiten ist sie
es nicht, der Aufgabenstellung ist lediglich eine Schätzung für σ 2 zu entnehmen. Damit ist
nur der t-Test ein geeigneter Kandidat zum Überprüfen der Behauptung der Anwohner.
Doch wie lautet nun das (einseitige) Testproblem? Da beim Testen per Konstruktion nur der
Fehler 1. Art (Entscheidung für H1 , obwohl H0 richtig ist) kontrolliert wird, muss genau die
Behauptung in der Alternativhypothese H1 stehen, über die eine gesicherte Aussage getroffen
werden soll. Das ist in diesem Fall die Behauptung der Anwohner. Das Testproblem lautet
damit:
H0 : µ ≤ 40 gegen H1 : µ > 40.
Die Nullhypothese wird zum Niveau α abgelehnt, wenn gilt:
T =
√ X̄ − µ0
n
> tn−1;1−α .
S̃X
Anhand der von der Polizei gemessenen Geschwindigkeiten ergibt sich:
T =
√
26
42 − 40 √
= 26 · 0, 4 = 2, 0396.
5
Weiter folgt mit α = 10%:
tn−1;1−α = t25;0,9 = 1, 316.
Wegen T = 2, 0396 > 1, 316 = tn−1;1−α wird die Nullhypothese Der Durchgangsverkehr
”
fährt durchschnittlich höchstens 10 km/h zu schnell.“ zum 10%-Niveau verworfen. Die im
Rahmen der Polizeikontrolle gemessenen Geschwindigkeiten stützen somit die Behauptung
der Anwohner.
Lösung zu Aufgabe 32:
Im Gegensatz zu den vorangegangenen Aufgaben enthält die Aufgabenstellung jetzt keine
Informationen mehr darüber, dass den zu Grunde liegenden Zufallsvariablen eine Normalverteilung unterstellt werden kann. Der Grund dafür liegt auf der Hand. In dieser Aufgabe geht
es um die Frage, ob gewisse Personen unabhängig voneinander eine bestimmte Partei gewählt
haben oder nicht. Mit anderen Worten: Im Mittelpunkt des Interesses steht ein Zufallsexperiment mit zwei möglichen Ausgängen (alias Antworten), das insgesamt n-mal wiederholt
wird, wobei die Wiederholungen voneinander unabhängig und mit konstanter Erfolgswahrscheinlichkeit (alias konstanter Wahrscheinlichkeit, die Regierungspartei zu wählen) erfolgen.
Somit deutet hier alles auf eine Binomialverteilung als zu Grunde liegende Verteilung hin.
Formal lässt sich die geschilderte Ausgangssituation wie folgt beschreiben: Es sei Xi ein
Indikator dafür, ob der i-te Befragte die Regierungspartei gewählt hat oder nicht, also:

1, i-ter Befragter hat Regierungspartei gewählt
, i = 1, 2, . . . , 500.
Xi =
0, sonst
Dann gilt:
uiv
X1 , X2 , . . . , X500 ∼ Bin (1, p),
wobei p die unbekannte Wahrscheinlichkeit dafür ist, der Regierungspartei seine Stimme zu
geben. Da es von Interesse ist, die Behauptung des Regierungschefs zu widerlegen, lautet
das Testproblem
H0 : p ≥
1
2
1
gegen H1 : p < .
2
Dieses Testproblem lässt sich mit dem (approximativen) Binomialtest lösen. Dieser Test
lehnt die Nullhypothese zum Niveau α ab, wenn gilt:
T =
√
p̂ − p0
< −u1−α .
np
p0 (1 − p0 )
Dies gilt allerdings nur dann, wenn drei zusätzliche Bedingungen erfüllt sind (man erinnere
sich an den zentralen Grenzwertsatz sowie die Lösung zu Aufgabe 27). Diese Bedingungen
lauten:
n ≥ 30,
(1)
(2)
np̂ ≥ 10,
(3)
n (1 − p̂) ≥ 10.
In diesem Fall sind die Bedingungen (1) bis (3) in der Tat erfüllt, denn es ist n = 500,
np̂ = 230 und n (1 − p̂) = 270. Für die Teststatistik T ergibt sich dann:
T =
√
230
500 q 500¡
1
2
−
1
2
1−
¢=
1
√
2
Wegen α = 1% gilt weiter
√
− 20
500 q500 = − 500 · 0, 08 = −1, 7889.
1
4
−u1−α = −u0,99 = −2, 326.
Wegen T = −1, 7889 > −2, 326 = −u1−α wird obige Nullhypothese zum 1%-Niveau nicht
verworfen. Die Ergebnisse der Umfrage sprechen damit nicht gegen die Behauptung des
Regierungschefs.
Lösung zu Aufgabe 33:
Es sei X = Geschlecht“ und Y = Interesse an akademischer Karriere“. Zum Überprüfen,
”
”
ob diese Merkmale voneinander unabhängig sind, bietet sich der χ2 -Unabhängigkeitstest an.
Für dessen Anwendung ist es zunächst sinnvoll, die in der Aufgabenstellung enthaltenen
Informationen in einer Kontingenztafel zusammenzufassen. Dies geschieht in der folgenden
Tabelle, wobei die kursiv gedruckten Häufigkeiten direkt aus der Aufgabenstellung abgelesen
werden können (die restlichen können daraus berechnet werden):
Y
X
P
ja
nein
männlich
160
490
650
weiblich
60
290
350
P
220
780
1000
Aus den Randhäufigkeiten lassen sich nun via
H̃ij =
Hi• · H•j
,
n
i, j ∈ {1, 2},
die Häufigkeiten berechnen, die zu erwarten sind, wenn die Nullhypothese Die Merkmale X
”
und Y sind stochastisch unabhängig.“ tatsächlich richtig ist. Sämtliche unter H0 erwartete
Häufigkeiten sind in der folgenden Tabelle zusammengefasst:
Y
P
ja
nein
männlich
143
507
650
weiblich
77
273
350
P
220
780
1000
X
Für alle unter H0 erwarteten Häufigkeiten gilt: H̃ij ≥ 5. Die asymptotische Verteilung der
Teststatistik V des χ2 -Unabhängigkeitstests kann demnach hinreichend gut durch eine χ2 Verteilung mit (k − 1)(l − 1) Freiheitsgraden beschrieben werden. Wegen k = l = 2 ist hier
(k − 1)(l − 1) = 1. Die Teststatistik V realisiert sich wie folgt:
V
(160 − 143)2 (490 − 507)2 (60 − 77)2 (290 − 273)2
+
+
+
143
507
77
273
= 7, 403.
=
Weiter folgt aus α = 1%:
χ2(k−1)(l−1),1−α = χ21;0.99 = 6, 635.
Wegen
V = 7, 403 > 6, 635 = χ2(k−1)(l−1),1−α
wird die Nullhypothese (Unabhängigkeit der Merkmale Geschlecht“ und Interesse an aka”
”
demischer Karriere“) zum 1%-Niveau abgelehnt.
Lösung zu Aufgabe 34:
Zum Überprüfen der Behauptung, dass die Geburten in besagtem Krankenhaus über die
Woche gleichverteilt sind, bietet sich der χ2 -Anpassungstest an. Sei dazu pi , i = 1, . . . , 7,
die Wahrscheinlichkeit dafür, dass eine Geburt am i-ten Wochentag erfolgt (1 = Montag,
2 = Dienstag, . . . , 7 = Sonntag). Das Testproblem lautet dann:
1
gegen H1 : ¬H0 .
H 0 : p1 = p2 = . . . = p7 =
7
Die folgende Tabelle enthält für alle Wochentage die beobachteten sowie die unter Richtigkeit von H0 erwarteten Anzahlen an Geburten. Letztere sind für alle Tage gegeben durch
n pi = 840 · 1/7 = 120:
Wochentag
Mo
Di
Mi
Do
Fr
Sa
So
Anzahl Geburten
123
121
128
142
118
110
98
erwartete Anzahl Geburten
120
120
120
120
120
120
120
Für alle unter Gültigkeit von H0 erwarteten Anzahlen an Geburten gilt: n pi ≥ 5. Die asymp-
totische Verteilung der Teststatistik V des χ2 -Anpassungstests kann demnach hinreichend
gut durch eine χ2 -Verteilung mit k − 1 Freiheitsgraden beschrieben werden, wobei hier k = 7
ist. Die Teststatistik V ergibt sich dann wie folgt:
V
(123 − 120)2 (121 − 120)2 (128 − 120)2 (142 − 120)2
+
+
+
120
120
120
120
(118 − 120)2 (110 − 120)2 (98 − 120)2
+
+
+
120
120
120
= 9, 55.
=
Mit α = 10% folgt weiter:
χ2k−1,1−α = χ26;0.9 = 10, 64,
so dass die Nullhypothese Die Anzahl der Geburten ist über die Woche gleichverteilt.“
”
wegen
V = 9, 55 < 10, 64 = χ2k−1,1−α
zum 10%-Niveau nicht abgelehnt wird.