Lösungen

Werbung
Teil 1 – Beschreibende Statistik
Lösung zu Aufgabe 1:
Vor dem Zeichnen des Histogramms müssen die relativen Häufigkeiten der vorgegebenen
Klassen sowie die Höhen des Histogramms über allen Klassen bestimmt werden. Beides
geschieht in der folgenden Tabelle. Da die relative Häufigkeit einer Klasse gleich der Fläche
des Histogramms über dieser Klasse sein soll, gilt dabei:
Höhe =
relative Häufigkeit
.
Klassenbreite
Klasse i
H(i)
h(i)
Klassenbreite
Höhe
[30, 34)
2
2/11
4
2/44
[34, 37)
3
3/11
3
3/33 = 4/44
[37, 41)
3
3/11
4
3/44
[41, 44]
3
3/11
3
3/33 = 4/44
Damit sieht das Histogramm wie folgt aus:
0.1
Höhe
0.075
0.05
0.025
0
30
34
37
41
44
Einnahmen
Lösung zu Aufgabe 2:
Im Folgenden sei X = Preis des Fernsehers“.
”
a) Bevor die empirische Verteilungsfunktion der Preise gezeichnet werden kann, muss
sie überhaupt einmal bestimmt werden. Dies benötigt die relativen Häufigkeiten der
beobachteten Preise. Diese lauten:
Preis ai (in Euro)
450
500
525
550
relative Häufigkeit h(ai )
0,3
0,4
0,2
0,1
Die empirische Verteilungsfunktion summiert nun an jeder Stelle x ∈ R die relativen
Häufigkeit der Preise



0






0, 3


F10 (x) = 0, 7





0, 9




1
ai auf, für die ai ≤ x gilt. Dies führt zu
für x < 450
für 450 ≤ x < 500
für 500 ≤ x < 525 .
für 525 ≤ x < 550
für x ≥ 550
0.6
0.4
0.0
0.2
F10(x)
0.8
1.0
Damit ergibt sich folgende Zeichnung der empirischen Verteilungsfunktion der Preise:
450
500
550
Preis
b) Diese Frage lässt sich relativ leicht beantworten, wenn man sich klar macht, welche
Szenarien überhaupt eintreten können. Wählt der elfte Anbieter seinen Preis über dem
Durchschnitt der bereits beobachteten zehn Preise, so zieht er damit den Durchschnitt
unweigerlich nach oben. Wählt der dagegen einen Preis, der kleiner als der Durchschnitt
der bereits beobachteten zehn Preise ist, so muss der Durchschnitt danach sinken. Soll
sich der durchschnittliche Preis nicht ändern, so muss der elfte Anbieter also seinen
Preis so wählen, dass er genau dem Durchschnitt der bereits beobachteten zehn Preise
entspricht. Mit anderen Worten: Der elfte Anbieter muss folgenden Preis wählen:
x11 = x̄a10
4
X
=
h(ai ) · ai
i=1
= 0, 3 · 450 + 0, 4 · 500 + 0, 2 · 525 + 0, 1 · 550
= 495.
Lösung zu Aufgabe 3:
Um beide Kennzahlen bestimmen zu können, müssen aus der gegebenen empirischen Verteilungsfunktion zuerst die möglichen Realisationen von X sowie deren relative Häufigkeiten
rekonstruiert werden. Da die Sprungstellen der empirischen Verteilungsfunktion mit den
möglichen Realisationen a1 , a2 , . . . , ak von X zwingend übereinstimmen, kommen als mögliche Anzahlen der Versuche zum Bestehen der Statistik-Klausur nur die Werte a1 = 1, a2 = 2
und a3 = 3 infrage. Deren relative Häufigkeiten lassen sich direkt aus der empirischen Verteilungsfunktion ablesen: h(1) = 1/2, h(2) = 1/4 und h(3) = 1/4.
Damit ergeben sich für die gesuchten Kennzahlen die Werte
x̄a =
k
X
i=1
h(ai ) · ai
= 0, 5 · 1 + 0, 25 · 2 + 0, 25 · 3
= 1, 75
sowie
sx
v
u k
uX
= t
h(ai ) · (ai − x̄a )2
i=1
=
=
p
p
0, 5 · (1 − 1, 75)2 + 0, 25 · (2 − 1, 75)2 + 0, 25 · (3 − 1, 75)2
0, 6875
≈ 0, 8292.
Lösung zu Aufgabe 4:
Es sei X = monatliches Einkommen“. Gegeben sind dann folgende Informationen:
”
x̄aM = 5000,
x̄aF = 4500,
sM = sF = 0.
Eine Standardabweichung von null bedeutet, dass die zugehörigen Beobachtungen überhaupt
nicht schwanken. Also müssen alle Beobachtungen den gleichen Wert aufweisen, nämlich den
des Durchschnittseinkommens in der jeweiligen Geschlechtsgruppe. Mit anderen Worten: In
der Untersuchung wurde für jeden der 20 Männer ein monatliches Einkommen in Höhe von
5000 Euro und für jede der 30 Frauen ein monatliches Einkommen in Höhe von 4500 Euro
beobachtet.
Für die Bestimmung der Standardabweichung aller 50 Einkommen ist zunächst das gemeinsame Durchschnittseinkommen aller 50 Personen wie folgt zu berechnen:
1
· (Gesamteinkommen der Männer + Gesamteinkommen der Frauen)
50
1
· (20 · 5000 + 30 · 4500)
=
50
= 4700.
x̄ages =
Damit ergibt sich zunächst die Varianz aller Einkommen zu:
50
s2ges
¢2
1 X¡
xi − x̄ages
=
50 i=1
¤
1 £
· 20 · (5000 − 4700)2 + 30 · (4500 − 4700)2
=
50
= 60000.
Also beträgt die Standardabweichung aller 50 Einkommen sges =
√
60000 ≈ 244, 95 Euro.
Lösung zu Aufgabe 5:
Um einen geeigneten Durchschnitt der individuellen Wachstumsraten der sechs Wertpapiere
bestimmen zu können, sollten zuerst die individuellen Wachstumsraten berechnet werden.
Die Wachstumsrate des i-ten Wertpapiers ist gegeben durch:
Kurs von Wertpapier i am Jahresende − Kurs von Wertpapier i am Jahresanfang
Kurs von Wertpapier i am Jahresanfang
Kurs von Wertpapier i am Jahresende
=
− 1.
Kurs von Wertpapier i am Jahresanfang
ri =
Somit folgt:
r1 = 1/3,
r2 = −1/3,
r3 = −1/5,
r4 = 3/2,
r5 = 1/4,
r6 = 0.
Doch welcher Durchschnitt ist nun geeignet? Das geometrische Mittel, das einem beim Stichwort Wachstumsraten“ vielleicht zuerst in den Sinn kommt, scheidet aus. Denn hier ist nicht
”
nach der durchschnittlichen Wachstumsrate eines Wertpapiers im Zeitverlauf gefragt, sondern nach der durchschnittlichen Wachstumsrate mehrerer Wertpapiere eines Depot über
einen festen Zeitraum. Das (einfache) arithmetische Mittel ist ebenfalls ungeeignet, weil die
einzelnen Wertpapiere die Wertentwicklung des Depots unterschiedlich stark beeinflussen.
So hat beispielsweise ein Kursanstieg von Wertpapier 1 um 10% eine andere Auswirkung als
ein Kursanstieg von Wertpapier 6 um 10%. Derartige Unterschiede berücksichtigt nur das
gewichtete arithmetische Mittel. Als Gewichte dienen dabei die Anteile der Wertpapiere am
Gesamtwert des Depots zum Jahresanfang. Somit ist:
g1 =
60
400
= 0, 15;
g2 =
90
400
= 0, 225;
g3 =
100
400
= 0, 25;
g4 =
20
400
= 0, 05;
g5 =
80
400
= 0, 2;
g6 =
500
400
= 0, 125.
Damit ergibt sich eine durchschnittliche individuelle Wachstumsrate von
r̄ga =
6
X
i=1
gi · ri
= 0, 15 · 1/3 − 0, 225 · 1/3 − 0, 25 · 0, 2 + 0, 05 · 1, 5 + 0, 2 · 0, 25 + 0, 125 · 0
= 0, 05.
Lösung zu Aufgabe 6:
Aus der Aufgabenstellung ist zunächst folgendes bekannt:
ȳ a = 8, 5;
sy = 1, 2;
sxy = 27.
Zur Bestimmung des Bravais-Pearson-Korrelationskoeffizienten fehlt also nur noch die Standardabweichung der Geschwindigkeiten. Da insgesamt 11 Geschwindigkeiten gemessen wurden und sich diese in gleichmäßigen Abständen zwischen 50 und 130 km/h verteilen, muss
dieser Abstand gerade (130 − 50)/10 = 8 km/h betragen. Die gemessen Geschwindigkeiten
lauten also:
x1 = 50,
x2 = 58,
x7 = 98,
x8 = 106,
x3 = 66,
x9 = 114,
x4 = 74,
x5 = 82,
x10 = 122,
x6 = 90,
x11 = 130.
Daraus folgt
n
x̄a =
1X
xi
n i=1
1
· (50 + 58 + 66 + 74 + 82 + 90 + 98 + 106 + 114 + 122 + 130)
11
= 90
=
und
n
s2x =
n
1X
1X 2
(xi − x̄a )2 =
xi − (x̄a )2
n i=1
n i=1
1
· (502 + 582 + 662 + 742 + 822 + 902 + 982 + 1062 + 1142 + 1222 + 1302 ) − 902
11
= 640.
=
Damit ergibt sich der Bravais-Pearson-Korrelationskoeffizient zwischen der Geschwindigkeit
und dem Benzinverbrauch zu
sxy
27
rxy =
= 0, 8894.
=√
s x · sy
640 · 1, 2
Lösung zu Aufgabe 7:
Die Kategorie, in die der Makler seine Häuser einteilt, ist ein ordinal skaliertes Merkmal.
Deshalb kann hier der Bravais-Pearson-Korrelationskoeffizient nicht verwendet werden. Ein
geeignetes Maß für den Zusammenhang zwischen Preis und Kategorie der Häuser ist vielmehr der Rangkorrelationskoeffizient nach Spearman. Im Folgenden sei dazu X = Preis“
”
und Y = Kategorie“. Die folgende Tabelle enthält die der Größe nach aufsteigend zugewie”
senen Ränge für beide Merkmale:
Haus
1
2
3
4
5
6
7
8
8
10
250
100
700
270
310
450
240
260
320
300
Rang R(xi )
3
1
10
5
7
9
2
4
8
6
Kategorie yi
3
1
5
2
4
5
3
2
4
2
Rang R(yi )
5,5
1
9,5
3
7,5
9,5
5,5
3
7,5
3
Preis xi
Ein Wort zu den Rängen von Y : Da der Makler mehrere Häuser der gleichen Kategorie
zugeordnet hat, treten hier Bindungen auf. So fallen etwa drei Häuser in Kategorie 2 (nämlich
4, 8 und 10). Beim Zuweisen der Ränge müssen diese Bindungen berücksichtigt werden, was
hier durch das Bilden von Durchschnittsrängen geschieht. Kategorie 2 erhält damit den Rang
2+3+4
R(2) =
= 3.
3
Mit diesen Werten lässt sich nun der Rangkorrelationskoeffizient nach Spearman berechnen.
Dieser ist gegeben durch:
n ¡
¢¡
¢
P
R(xi ) − R̄xa R(yi ) − R̄ya
R
= r n i=1
.
rxy
n ¡
¢2 P
¢2
P¡
a
a
R(xi ) − R̄x ·
R(yi ) − R̄y
i=1
i=1
Zunächst gilt:
R̄xa = R̄ya = 5, 5.
Damit folgt:
n
X
¡
i=1
R(xi ) − R̄xa
¢¡
R(yi ) − R̄ya
¢
= −2, 5 · 0 + (−4, 5)2 + 4, 5 · 4 + · · · − 0, 5 · 2, 5
= 0 + 20, 25 + 18 + · · · − 1, 25
= 64.
Weiter ist
n
X
¡
i=1
R(xi ) − R̄xa
¢2
= (3 − 5, 5)2 + (1 − 5, 5)2 + (10 − 5, 5)2 + · · · + (6 − 5, 5)2
= 6, 25 + 20, 25 + 20, 25 + · · · + 0, 25
= 82, 5
und
n
X
¡
i=1
R(yi ) − R̄ya
¢2
= (5, 5 − 5, 5)2 + (1 − 5, 5)2 + (9, 5 − 5, 5)2 + · · · + (3 − 5, 5)2
= 0 + 20, 25 + 16 + · · · + 6, 25
= 79.
Damit lautet der Rangkorrelationskoeffizient nach Spearman
R
rxy
=√
64
= 0, 793.
82, 5 · 79
Lösung zu Aufgabe 8:
Die allgemeine Form einer KQ-Geraden lautet:
ŷi = â + b̂ xi ,
i = 1, . . . , n,
â = ȳ a − b̂ x̄a
und b̂ =
mit
sxy
.
s2x
a) Für die Bestimmung der KQ-Geraden müssen also zunächst die durchschnittlichen
Stückzahlen, die Varianz der Stückzahlen, die durchschnittlichen Stückkosten und die
Kovarianz beider Merkmale berechnet werden. Dies geschieht am einfachsten anhand
folgender Tabelle:
P
xi
xi − x̄a
(xi − x̄a )2
yi
yi − ȳ a
(xi − x̄a )(yi − ȳ a )
10
-7
49
50
9
-63
15
-2
4
40
-1
2
15
-2
4
45
4
-8
20
3
9
40
-1
-3
25
8
64
30
-11
-88
85
0
130
205
0
-160
Somit ist
x̄a = 17,
s2x = 26,
ȳ a = 41,
sxy = −32.
Daraus folgt
b̂ =
−32
= −1, 231 und â = 41 + 1, 231 · 17 = 61, 927.
26
Die KQ-Gerade lautet damit:
ŷi = 61, 927 − 1, 231 xi .
b) Gesucht ist nun die Stückzahl xi , für die ŷi ≤ 25 gilt. Einsetzen in die KQ-Gerade
liefert:
ŷi = 61, 927 − 1, 231 xi ≤ 25
⇔
xi ≥
61, 927 − 25
= 29, 998.
1, 231
Ab einer Menge von 30 produzierten Stück sind somit Stückkosten von weniger als 25
Euro/Stück zu erwarten.
Lösung zu Aufgabe 9:
Sei im Folgenden X = Anzahl der Arbeitslosen in der Region (in 1000)“ und Y = Anzahl
”
”
der Krankmeldungen im Unternehmen“.
a) Analog zur vorherigen Aufgabe sind zunächst die durchschnittlichen Arbeitslosenzahlen, die durchschnittliche Anzahl an Krankmeldungen, die Varianz der Arbeitslosenzahlen und die empirische Kovarianz beider Merkmale zu bestimmen. In Vorbereitung
auf Aufgabenteil b) wird anhand der folgenden Tabelle auch die Varianz der Anzahl
der Krankmeldungen berechnet:
P
xi
xi − x̄a
(xi − x̄a )2
yi
yi − ȳ a
(yi − ȳ a )2
(xi − x̄a )(yi − ȳ a )
5
-5
25
18
9
81
-45
6
-4
16
16
7
49
-28
6
-4
16
14
5
25
-20
7
-3
9
13
4
16
-12
17
7
49
2
-7
49
-49
15
5
15
3
-6
36
-30
15
5
15
4
-5
25
-25
13
3
9
6
-3
9
-9
12
2
4
7
-2
4
-4
9
-1
1
10
1
1
-1
8
-2
4
7
-2
4
4
7
-3
9
8
-1
1
3
120
0
192
108
0
300
-216
ȳ a = 9,
s2y = 25,
Somit ist
x̄a = 10,
s2x = 16,
sxy = −18.
Daraus ergeben sich folgende Koeffizienten der KQ-Geraden:
b̂ =
−18
= −1, 125 und â = 9 + 1, 125 · 10 = 20, 25.
16
Die KQ-Gerade für die Anzahl der Krankmeldungen in Abhängigkeit von der Anzahl
der Arbeitslosen in der Region lautet damit:
ŷi = 20, 25 − 1, 125 xi .
Grafisch stellt sich die KQ-Gerade wie folgt dar:
Krankmeldungen
20
15
10
5
0
0
5
10
15
20
Arbeitslose in 1000
Noch ein Tipp zum Zeichnen einer KQ-Geraden: Eine Gerade ist eindeutig durch zwei
Punkte festgelegt. Jede KQ-Gerade verläuft durch den so genannten Schwerpunkt der
Daten, S = (x̄a , ȳ a ). Beide arithmetischen Mittel wurden bereits bestimmt, so dass mit
S = (10, 9) der erste Punkt, der die KQ-Gerade festlegt, schon gefunden ist. Der zweite
Punkt kann beliebig gewählt werden. Zum einfacheren Zeichnen empfiehlt sich jedoch
ein Punkt, der von S etwas weiter entfernt liegt. Wählt man etwa als x-Koordinate 2,
so ergibt sich die zugehörige y-Koordinate 20, 25 − 1, 125 · 2 = 18. Die KQ-Gerade ist
damit durch die Punkte (10, 9) und (2, 18) festgelegt.
b) Ein geeignetes Maß für die Anpassungsgüte der KQ-Geraden ist das Bestimmtheitsmaß
R2 =
s2ŷ
.
s2y
Um dieses zu berechnen, müssen zunächst die von der KQ-Geraden prognostizierten
Anzahlen an Krankmeldungen, ŷi , bestimmt werden. Sie lauten:
Jahr
97
98
99
00
01
02
03
04
05
06
07
08
xi
5
6
6
7
17
15
15
13
12
9
8
7
ŷi 14,625 13,5 13,5 12,375 1,125 3,375 3,375 5,625 6,75 10,125 11,25 12,375
Mit ŷ¯a = ȳ a = 9 folgt daraus sofort s2ŷ = 20, 25 und schließlich
R2 =
20, 25
= 0, 81.
25
c) Um die Anzahl an Krankmeldungen für das Jahr 2009 mit Hilfe der KQ-Geraden zu
prognostizieren, ist einfach die Anzahl der Arbeitslosen für das Jahr 2009, x13 = 10, in
die KQ-Gerade einzusetzen. Damit ergibt sich:
ŷ13 = 20, 25 − 1, 125 x13 = 20, 25 − 1, 125 · 10 = 9.
Es sind also für das Jahr 2009 neun Krankmeldungen im Unternehmen zu erwarten.
Übrigens lässt sich dieses Vorgehen noch einmal anhand der folgenden Grafik veranschaulichen:
Krankmeldungen
20
15
10
5
0
0
5
10
15
20
Arbeitslose in 1000
Lösung zu Aufgabe 10:
In der Vorlesung wurden nur die Preisindices nach Laspeyres und Paasche behandelt.
a) Die Frage, welcher Index-Typ in der vorliegenden Situation geeignet ist, lässt sich
grundsätzlich anhand der gegebenen Informationen beantworten. Da hier nur die Ausgabenanteile aus der Basisperiode bekannt sind, lässt sich auch nur der Preisindex nach
Laspeyres bestimmen. (Der Preisindex nach Paasche benötigt analoge Informationen
aus der Berichtsperiode.)
b) Da in der vorliegenden Situation nicht alle Preise und alle konsumierten Mengen der
vier Güter bekannt sind, sondern nur“ deren relative Preisänderungen und die ent”
sprechenden Ausgabenanteile, ist folgende Formel für den Preisindex nach Laspeyres
zu verwenden:
n
X
pt (i)
L
P0t =
.
g0 (i)
p
(i)
0
i=1
Mit
pt (1)
pt (2)
pt (4)
=
=
= 1, 1;
p0 (1)
p0 (2)
p0 (4)
pt (3)
= 1;
p0 (3)
g0 (1) = g0 (2) = g0 (3) = g0 (4) =
1
4
ergibt sich
1
(1, 1 + 1, 1 + 1 + 1, 1) = 1, 075.
4
Gemessen am Laspeyres-Index steigen die Preise der vier Güter damit durchschnittlich
P0tL =
um 7,5%.
c) Der Laspeyres-Index signalisiert ein konstantes Preisniveau, wenn P0tL = 1 gilt. Einsetzen in obige Gleichung liefert:
¶
µ
pt (3)
1
L
P0t =
+ 1, 1 = 1
1, 1 + 1, 1 +
4
p0 (3)
⇔
pt (3)
= 0, 7.
p0 (3)
Damit müsste der Milchpreis um 30% fallen, damit der Laspeyres-Index ein konstantes
Preisniveau anzeigt.
Lösung zu Aufgabe 11:
Für die Güter Strom“ und Gas“ sind aus beiden Jahren alle Preise und alle konsumier”
”
ten Mengen bekannt. Daher lässt sich hier für den Paasche-Index die Formel anwenden,
die auf dem Vergleich der tatsächlichen Gesamtausgaben in 2008 mit den hypothetischen
Gesamtausgaben in 2007 beruht. Es ist
n
P
p08 (i) · q08 (i)
482, 00
482, 00
i=1
P
=
P07,08 = P
=
= 1, 0905.
n
0, 17 · 1400 + 3, 40 · 60
442, 00
p07 (i) · q08 (i)
i=1
Also liegt die mittlere Preissteigerung nach Paasche für den betrachteten Warenkorb leicht
über 9%.
Lösung zu Aufgabe 12:
Wenn sich die Preise aller Güter eines Warenkorbs um den gleichen Anteil verändern, dann
bleibt der durchschnittlichen Preisänderung nichts anderes übrig, als genau dasselbe zu tun.
Folglich muss auch der Preisindex nach Laspeyres eine Preissteigerung um 20% signalisieren,
d. h. es ist P0tL = 1, 2.
Formal lässt sich dies wie folgt zeigen: Betrachten wir die Formel, die den Laspeyres-Index
als gewichtete Summe der individuellen Preisänderungen darstellt. Dann gilt:
n
n
X
X
pt (i)
g0 (i) ·
= 1, 2 ·
g0 (i) = 1, 2.
P0tL =
p
(i)
0
i=1
| {z }
|i=1 {z }
=1,2
=1
Völlig analog kann stattdessen auch die Formel verwendet werden, die den Laspeyres-Index
als Quotient aus den hypothetischen Gesamtausgaben in der Berichts- und den tatsächlichen Gesamtausgaben in der Basisperiode darstellt. Die/Der geneigte Leser/in möge dies als
weitere Übung betrachten.
Teil 2 – Wahrscheinlichkeitsrechnung
Lösung zu Aufgabe 13:
Um die gesuchte Wahrscheinlichkeit zu berechnen, sollte man sich zunächst klarmachen, was
das Ereignis genau eine Zusage“ bedeutet. Sagt dem Absolventen eine der drei Firmen zu,
”
so müssen ihm die anderen beiden Firma zwingend eine Absage erteilen. Für dieses Szenario
gibt es nun wiederum drei Möglichkeiten (alias drei Firmen, die dem Absolventen zusagen).
Seien dazu folgende unabhängige Ereignisse definiert:
A =
erste Firma sagt zu“ mit P (A) = 0, 8;
”
B = zweite Firma sagt zu“ mit P (B) = 0, 65;
”
C = dritte Firma sagt zu“ mit P (C) = 0, 3.
”
Dann folgt:
genau eine Zusage“ = (A ∩ B̄ ∩ C̄) ∪ (Ā ∩ B ∩ C̄) ∪ (Ā ∩ B̄ ∩ C).
”
Somit ergibt sich die gesuchte Wahrscheinlichkeit zu
P ( genau eine Zusage“)
”
=
P [(A ∩ B̄ ∩ C̄) ∪ (Ā ∩ B ∩ C̄) ∪ (Ā ∩ B̄ ∩ C)]
=
P (A ∩ B̄ ∩ C̄) + P (Ā ∩ B ∩ C̄) + P (Ā ∩ B̄ ∩ C)
Unabh.
=
P (A) · P (B̄) · P (C̄) + P (Ā) · P (B) · P (C̄)
+ P (Ā) · P (B̄) · P (C)
=
0, 8 · 0, 35 · 0, 7 + 0, 2 · 0, 65 · 0, 7 + 0, 2 · 0, 35 · 0, 3
=
0, 308.
Die Wahrscheinlichkeit, dass der Absolvent genau eine Zusage erhält, beträgt 30,8%.
Lösung zu Aufgabe 14:
Wie in der vorherigen Aufgabe sollten zunächst einmal die zu betrachtenden Ereignisse
definiert werden. Sei dazu etwa
O =
Oberteil weist keine Fehler auf“ mit P (O) = 0, 95;
”
S = Sohle weist keine Fehler auf“ mit P (S) = 0, 9;
”
A = Absatz weist keine Fehler auf“ mit P (A) = 0, 98.
”
Laut Voraussetzung sind diese drei Ereignisse voneinander unabhängig.
a) Da ein Schuh einwandfrei ist, wenn er keine Fehler aufweist, gilt:
P (einwandfreier Schuh)
=
Unabh.
P (O ∩ S ∩ A)
=
P (O) · P (S) · P (A)
=
0, 95 · 0, 9 · 0, 98
=
0, 8379.
b) Zunächst gilt natürlich
P (Schuh wird aussortiert) = P (mehr als ein Fehler)
= P (zwei Fehler) + P (drei Fehler).
Diese zwei Wahrscheinlichkeiten kann man nun berechnen. Muss man aber nicht. Denn
die Umformung
P (Schuh wird aussortiert) = 1 − P (höchstens ein Fehler)
= 1 − [P (kein Fehler) + P (ein Fehler)]
erspart wertvolle Zeit, da jetzt nur noch eine Wahrscheinlichkeit berechnet werden muss
(P (kein Fehler) wurde ja schon in a) bestimmt). Vollkommen analog zur vorherigen
Aufgabe ergibt sich zunächst:
P (ein Fehler)
=
P [(Ō ∩ S ∩ A) ∪ (O ∩ S̄ ∩ A) ∪ (O ∩ S ∩ Ā)]
=
P (Ō ∩ S ∩ A) + P (O ∩ S̄ ∩ A) + P (O ∩ S ∩ Ā)
Unabh.
=
P (Ō) · P (S) · P (A) + P (O) · P (S̄) · P (A)
+ P (O) · P (S) · P (Ā)
=
0, 05 · 0, 9 · 0, 98 + 0, 95 · 0, 1 · 0, 98 + 0, 95 · 0, 9 · 0, 02
=
0, 1543.
Damit folgt insgesamt
P (Schuh wird aussortiert) = 1 − (0, 8279 + 0, 1543) = 0, 0078.
Lösung zu Aufgabe 15:
Halten wir zunächst wieder fest, was in der Aufgabenstellung gegeben ist. Es geht um einen
Studenten bzw. die Frage, wie er sich bei zwei Klausuren schlägt. Dazu seien erst einmal
folgende Ereignisse definiert:
K1 = Student besteht die erste Klausur“
”
K2 = Student besteht die zweite Klausur“
”
Im Gegensatz zu den vorherigen beiden Aufgaben sind jetzt die individuellen Wahrscheinlichkeiten beider Ereignisse unbekannt. Allerdings ist bekannt, dass der Student beide Klausuren
mit einer Wahrscheinlichkeit von 45% besteht, d. h. es ist P (K1 ∩ K2 ) = 0, 45. Ferner ist
bekannt, dass er die zweite Klausur mit einer Wahrscheinlichkeit von 60% besteht, gegeben
er hat die erste Klausur bereits bestanden, d. h. es ist P (K2 | K1 ) = 0, 6. Gesucht ist letzt-
endlich die Wahrscheinlichkeit, mit der der Student die erste Klausur besteht, also P (K1 ).
Glücklicherweise finden sich alle drei beteiligten Wahrscheinlichkeiten in der Definition der
bedingten Wahrscheinlichkeit wieder. Übersetzt auf das gegebene Problem lautet diese Definition:
P (K2 | K1 ) =
P (K1 ∩ K2 )
.
P (K1 )
Somit folgt
P (K1 ) =
P (K1 ∩ K2 )
0, 45
=
= 0, 75.
P (K2 | K1 )
0, 6
Der Student besteht die erste Klausur demnach mit einer Wahrscheinlichkeit von 75%.
Lösung zu Aufgabe 16:
Laut Aufgabenstellung ist X = Anzahl der Arbeitstags in einer Woche“.
”
a) Hinter der Anzahl der Tage, die die Studentin erwartungsgemäß pro Woche arbeiten
muss, verbirgt sich nichts anderes als der Erwartungswert der diskreten Zufallsvariablen
X, der sich wie folgt berechnen lässt:
E (X) =
n
X
i=1
P (X = xi ) · xi
= 0, 05 · 0 + 0, 1 · 1 + 0, 2 · 2 + 0, 25 · 3 + 0, 15 · 4 + 0, 1 · 5 + 0, 1 · 6 + 0, 05 · 7
= 3, 3.
Die Studentin arbeitet also erwartungsgemäß 3,3 Tage pro Woche.
b) Von Interesse ist nun die Anzahl der Arbeitstage in einem Jahr. Diese neue Zufallsvariable sei im Folgenden mit Y bezeichnet. Da die Wahrscheinlichkeitsfunktion von Y
nicht bekannt ist und sich vermutlich auch niemand die Mühe machen möchte, diese aus
der Wahrscheinlichkeitsfunktion von X exakt herzuleiten, muss man sich etwas anderes
überlegen. Die Idee, auf die Zufallsvariable X zurückzugreifen, ist ja nicht so schlecht.
Sei X1 die Anzahl der Arbeitstage in der ersten Woche dieses Jahres, X2 die Anzahl
der Arbeitstage in der zweiten Woche dieses Jahres, usw. Dann gilt offensichtlich:
Y =
52
X
i=1
Xi .
Da sich die Wahrscheinlichkeitsfunktion von X in diesem Jahr nach Voraussetzung
nicht ändert, besitzen die Zufallsvariablen X1 , X2 , . . . , X52 die gleiche Wahrscheinlichkeitsfunktion wie X. Somit gilt:
!
à 52
52
X
X
Xi =
E (Xi ) = 52 · E (X) = 52 · 3, 3 = 171, 6.
E (Y ) = E
i=1
i=1
Die Studentin arbeitet also erwartungsgemäß 171,6 Tage in einem Jahr.
Lösung zu Aufgabe 17:
Es empfiehlt sich, statt der Standardabweichung zunächst die Varianz der Lebensdauer des
Akkus zu bestimmen. Dies geschieht über die Formel
Var (X) = E (X 2 ) − [E (X)]2 .
Beide Erwartungswerte lassen sich gemäß Definition wie folgt ausrechnen:
E (X) =
Z∞
x · f (x) dx
−∞
Z4
Z4
1
1
x · (4 − x) dx =
4 x − x2 dx
=
8
8
0
0
Ã
¯4 !
µ
µ
¶
¶
1
4
1 3 ¯¯
1
1 3
1 96 64
2
2
−
=
2x − x ¯ =
2·4 − ·4 −0 =
=
8
3
8
3
8 3
3
3
0
und
2
E (X ) =
Z∞
x2 · f (x) dx
−∞
Z4
Z4
1
1
=
x · (4 − x) dx =
4 x2 − x3 dx
8
8
0
0
!
Ã
¯4
µ
µ
¶
¶
1 4 3 1 4
1 4 3 1 4 ¯¯
8
1 256 192
x − x¯ =
·4 − ·4 −0 =
−
=
= .
8 3
4
8 3
4
8
3
3
3
0
2
Damit ergibt sich eine Varianz der Lebensdauer des Akkus von
µ ¶2
24 16
8
4
8
=
Var (X) = −
−
=
3
3
9
9
9
und schließlich eine Standardabweichung der Lebensdauer des Akkus von
r
√
p
2 2
8
=
≈ 0, 9428.
σX = Var (X) =
9
3
Lösung zu Aufgabe 18:
Es sei zunächst X = Anzahl der Störfälle pro Tag“ und Y = Kosten der Behebung der
”
”
am einem Tag auftretenden Störfälle“. Zur Bestimmung der Korrelation zwischen X und Y
werden die Standardabweichungen beider Zufallsvariablen sowie deren Kovarianz benötigt.
Dafür braucht man wiederum die Erwartungswerte von X und Y . Die erwartete Anzahl der
Störfälle pro Tag lautet:
E (X) =
n
X
i=1
xi · P (X = xi ) = 0 · 0, 5 + 1 · 0, 25 + 2 · 0, 15 + 3 · 0, 1 = 0, 85.
Offensichtlich gilt weiter Y = K(X). Daraus folgt aber leider nicht, dass E (Y ) = K(E (X))
richtig ist. Dies wäre nämlich nur dann korrekt, wenn die Kostenfunktion K eine lineare
Funktion, also eine Gerade ist. Das ist sie aber nicht. Somit müssen die erwarteten Kosten
genau wie E (X) über die eigentliche Definition des Erwartungswertes berechnet werden. Für
die möglichen Realisationen von Y gilt dabei yi = K(xi ). Also erhält man
n
X
E (Y ) =
i=1
n
X
=
i=1
yi · P (Y = yi )
K(xi ) · P (X = xi ) = 1000 · 0, 5 + 3000 · 0, 25 + 3667 · 0, 15 + 4000 · 0, 1
= 2200, 05.
Völlig analog lassen sich die Erwartungswerte der quadrierten Zufallsvariablen bestimmen.
Sie lauten:
2
E (X ) =
n
X
i=1
x2i · P (X = xi ) = 02 · 0, 5 + 12 · 0, 25 + 22 · 0, 15 + 32 · 0, 1 = 1, 75.
und
E (Y 2 ) =
n
X
i=1
yi2 · P (Y = yi ) =
2
2
n
X
i=1
(K(xi ))2 · P (X = xi )
= 1000 · 0, 5 + 3000 · 0, 25 + 36672 · 0, 15 + 40002 · 0, 1
= 6367033.
Damit nehmen die Maße für die Streuung von X und Y folgende Werte an:
und
Var (X) = E (X 2 ) − (E (X))2 = 1, 75 − 0, 852 = 1, 0275 bzw.
p
1, 0275 ≈ 1, 0137
σX =
Var (Y ) = E (Y 2 ) − (E (Y ))2 = 6367033 − 2200, 052 = 1526813 bzw.
√
σY =
1526813 ≈ 1235, 643.
Dann fehlt nur noch die Kovarianz zwischen der Anzahl der Störfälle pro Tag und den zu
deren Behebung notwendigen Kosten. Diese ergibt sich wie folgt:
σXY
= E (XY ) − E (X) E (Y )
n
X
xi · yi · P (X = xi ∩ Y = yi ) − E (X) E (Y )
=
i=1
=
n
X
i=1
xi · K(xi ) · P (X = xi ) − E (X) E (Y )
= 0 · 1000 · 0, 5 + 1 · 3000 · 0, 25 + 2 · 3667 · 0, 15 + 3 · 4000 · 0, 1 − 0, 85 · 2200, 05
= 1180, 057.
Wegen Y = K(X) bzw. yi = K(xi ) ist dabei die Vereinfachung
P (X = xi ∩ Y = yi ) = P (X = xi ∩ K(X) = K(xi )) = P (X = xi )
möglich. Letztendlich beträgt die Korrelation zwischen X und Y damit
ρXY =
σXY
1180, 057
≈ 0, 942.
=
σX σY
1, 0137 · 1235, 643
Lösung zu Aufgabe 19:
Wie so oft empfiehlt es sich, zunächst einmal alle in der Aufgabenstellung gegebenen Informationen zu sortieren. Was ist gegeben? Was ist gesucht? Beginnen wir zur Abwechselung
mit der zweiten Frage. Gesucht ist hier der erwartete Gewinn, wohlgemerkt des Versicherers.
Wegen
Gewinn = Erlös − Kosten
gilt
E (Gewinn) = E (Erlös) − E (Kosten).
Wie groß ist nun der erwartete Erlös? Der Versicherer bekommt am Anfang des Jahres
200 Euro, völlig unabhängig davon, ob der 50-jährige Mann innerhalb des folgenden Jahres
verstirbt oder nicht. Also ist E (Erlös) = 200. Welche Kosten kommen auf den Versicherer
zu? Überlebt der 50-jährige Mann das folgende Jahr, so muss der Versicherer nicht einen
Cent zahlen. Verstirbt der 50-jährige Mann innerhalb des folgenden Jahres, so muss der
Versicherer 20.000 Euro zahlen. Letzteres geschieht aber nur mit einer Wahrscheinlichkeit
von 0,5%. Somit gilt E (Kosten) = 20.000 · 0, 005 = 100. Insgesamt gilt damit:
E (Gewinn) = 200 − 100 = 100.
Alternativ zu dieser volkswirtschaftlich angehauchten Lösung kann man sich übrigens auch
folgendes überlegen: Zunächst sei X = Gewinn des Versicherers“. Zur Berechnung des er”
warteten Gewinns, also des Erwartungswerts von X, werden die möglichen Realisationen
von X sowie die Wahrscheinlichkeiten, mit denen die möglichen Realisationen angenommen
werden, benötigt. Überlebt der 50-jährige Mann das folgende Jahr, so realisiert der Versicherer einen Gewinn von 200 Euro. Dies geschieht mit Wahrscheinlichkeit 1 − 0, 005 = 0, 995.
Verstirbt dagegen der 50-jährige Mann innerhalb des folgenden Jahres, so realisiert der Ver-
sicherer einen Gewinn von 200 − 20.000 = −19.800 Euro. Dieses Szenario tritt mit einer
Wahrscheinlichkeit von 0,5% ein. Damit lautet die Wahrscheinlichkeitsfunktion von X:
xi
P (X = xi )
200
-19.800
0,995
0,005
Somit ergibt sich der erwartete Gewinn des Versicherers zu
E (X) = 200 · 0, 995 − 19.800 · 0, 005 = 100.
Lösung zu Aufgabe 20:
Von Interesse ist hier die Zufallsvariable X = Anzahl der Fehlalarme bei n Anrufen in
”
einem Monat“. Der Aufgabenstellung sind zusätzlich folgende Informationen zu entnehmen:
Erstens, jeder einzelne Anruf ist entweder ein Fehlalarm oder nicht. Zweitens, die einzelnen
Anrufe erfolgen voneinander unabhängig. Drittens, die Wahrscheinlichkeit für einen Fehlalarm ist bei jedem Anruf die gleiche, nämlich 10%. Dies schreit geradezu nach einer Binomialverteilung. Genauer gilt:
X ∼ Bin (n; 0, 1).
a) Jetzt ist n = 20. Die erwartete Anzahl der Fehlalarme in einem Monat mit 20 Anrufen
ist dann
E (X) = n p = 20 · 0, 1 = 2.
b) Auch wenn in der Aufgabenstellung von der Anzahl der echten Alarme die Rede ist,
lässt sich diese Frage auf die Verteilung von X zurückführen. Sei dazu zunächst Y =
Anzahl der echten Alarme bei n Anrufen in einem Monat“, wobei wie zuvor n = 20
”
gilt. Dann folgt:
P (Y ≥ 18) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
µ ¶
µ ¶
20
20
0
20−0
+
· 0, 11 · (1 − 0, 1)20−1
=
· 0, 1 · (1 − 0, 1)
1
0
µ ¶
20
+
· 0, 12 · (1 − 0, 1)20−2
2
= 1 · 1 · 0, 920 + 20 · 0, 1 · 0, 919 + 190 · 0, 12 · 0, 918
= 0, 1216 + 0, 2702 + 0, 2852
= 0, 677.
Die Wahrscheinlichkeit dafür, dass die Feuerwehr bei 20 Anrufen in einem Monat
mindestens 18 Mal aufgrund eines echten“ Alarms ausrückt, beträgt also 67,7%. Diese
”
Lösung ergibt sich alternativ übrigens auch direkt über die Verteilung von Y . Wegen
X ∼ Bin (n; 0, 1) gilt
n − X = Y ∼ Bin (n; 0, 9).
Somit folgt:
P (Y ≥ 18) = P (Y = 18) + P (Y = 19) + P (Y = 20)
µ ¶
µ ¶
20
20
18
20−18
· 0, 9 · (1 − 0, 9)
=
· 0, 919 · (1 − 0, 9)20−19
+
18
19
µ ¶
20
+
· 0, 920 · (1 − 0, 9)20−20
20
= 190 · 0, 918 · 0, 12 + 20 · 0, 919 · 0, 1 + 1 · 0, 920 · 1
= 0, 2852 + 0, 2702 + 0, 1216
= 0, 677.
Lösung zu Aufgabe 21:
Wie immer ist es am Anfang angebracht, sich klarzumachen, welche Informationen gegeben
sind und wonach eigentlich gesucht wird. Gegeben sind hier zwei Zufallsvariablen X (monatliche Rendite der Deutschen Bank) und Y (monatliche Rendite des DAX), von denen
folgendes bekannt ist:
X ∼ N (0, 5; 13),
Y ∼ N (0, 5; 6),
Cov (X, Y ) = 3.
Gesucht ist die Wahrscheinlichkeit, mit der die monatliche Rendite der Deutschen Bank die
des DAX um mehr als das Doppelte übersteigt, also kurz
P (X > 2 Y ).
Mit dieser Wahrscheinlichkeit kann man natürlich noch nichts anfangen, da auf beiden Seiten
der Ungleichung Zufallsvariablen stehen. Es sind also zunächst beide Zufallsvariablen auf eine
Seite zu bringen. Dies führt zu
P (X > 2 Y ) = P (X − 2 Y > 0).
Es muss also geklärt werden, welche Verteilung die neue Zufallsvariable X − 2 Y hat. Da
sowohl X als auch Y normalverteilt sind und Summen von normalverteilten Zufallsvariablen
wieder normalverteilt sind, gehorcht auch X − 2 Y einer Normalverteilung. Wegen
E (a X + b Y ) = a E (X) + b E (Y )
und
Var (a X + b Y ) = a2 Var (X) + b2 Var (Y ) + 2ab Cov (X, Y )
ergeben sich Erwartungswert und Varianz von X − 2 Y wie folgt:
E (X − 2 Y ) = E (X) − 2 E (Y ) = 0, 5 − 2 · 0, 5 = −0, 5
und
Var (X − 2 Y ) = Var (X) + (−2)2 Var (Y ) + 2 (−2) Cov (X, Y ) = 13 + 4 · 6 − 4 · 3 = 25.
Insgesamt gilt also
X − 2 Y ∼ N (−0, 5; 25) bzw.
X − 2 Y + 0, 5
√
∼ N (0; 1).
25
Damit lässt sich nun die gesuchte Wahrscheinlichkeit angeben. Sie lautet:
P (X > 2 Y ) = P (X − 2 Y > 0) = 1 − P (X − 2 Y ≤ 0)
¶
µ
0 + 0, 5
X − 2 Y + 0, 5
√
= 1 − Φ(0, 1) = 1 − 0, 5398
≤ √
= 1−P
25
25
= 0, 4602.
Unter den gegebenen Voraussetzungen beträgt die Wahrscheinlichkeit dafür, dass die monatliche Rendite der Deutschen Bank die des DAX um mehr als das Doppelte übersteigt,
46,02%.
Lösung zu Aufgabe 22:
Zunächst scheint sich auch diese Aufgabe um die Binomialverteilung zu drehen. Denn werden
für jeden einzelnen Arbeitstag des Jahres Zufallsvariablen Xi definiert, die signalisieren, ob
eine Fahrkartenkontrolle stattfindet oder nicht,

1, Kontrolle am i-ten Arbeitstag
Xi =
,
0, keine Kontrolle am i-ten Arbeitstag
i = 1, . . . , 250,
so gilt:
uiv
X1 , X2 , . . . , X250 ∼ Bin (1; 0, 06).
Damit folgt für die eigentlich interessierende Zufallsvariable X = Anzahl der Kontrollen in
”
einem Jahr“:
X=
250
X
i=1
Xi ∼ Bin (250; 0, 06).
Gesucht ist dann die Wahrscheinlichkeit P (X ≥ 20). Diese berechnet sich standardmäßig
wie folgt:
P (X ≥ 20) = 1 − P (X < 20) = 1 − P (X ≤ 19) = 1 −
¶
19 µ
X
250
i=0
i
· 0, 06i · 0, 94250−i .
Und hier gehen die Probleme los. Zwar existieren diverse Tabellen für die Verteilungsfunktionen von Binomialverteilungen, die gesuchte Wahrscheinlichkeit ist aber mit Sicherheit in
keiner solchen Tabelle zu finden. Bleibt noch die Möglichkeit, die gesuchte Wahrscheinlichkeit
von Hand“ zu bestimmen. Schade nur, dass die meisten Taschenrechner beim Ausrechnen
”
der Binomialkoeffizienten, etwa
µ ¶
250
= 1, 482850 · 1028 ,
19
in die Knie gehen, ganz zu schweigen von dem zeitlichen Aufwand, den solche Berechnungen
in Anspruch nehmen. Auch schade, dass man in vielen Situationen, z. B. während einer
Klausur, keinen leistungsfähigen Computer dabei hat. All das ist aber kein Problem, wenn
man sich an dieser Stelle an den zentralen Grenzwertsatz erinnert. Für dessen Anwendung
sind zunächst folgende drei Voraussetzungen zu überprüfen:
(1) n = 250 ≥ 30 X,
(2) n p = 250 · 0, 06 = 15 ≥ 10 X,
(3) n (1 − p) = 250 · 0, 94 = 235 ≥ 10 X.
Der zentrale Grenzwertsatz darf somit hier angewendet werden. Mit seiner Hilfe folgt:
!
Ã
19 − n p
X − np
<p
P (X ≥ 20) = 1 − P (X ≤ 19) = 1 − P p
n p (1 − p)
n p (1 − p)
Ã
!
X − 250 · 0, 06
19 − 250 · 0, 06
= 1−P √
<p
250 · 0, 06 · 0, 94
250 · 0, 06 · 0, 94)
µ
¶
µ
¶
X − 15
19 − 15
19 − 15
= 1−P √
=1−Φ √
≈ 1 − Φ(1, 07)
< √
14, 1
14, 1
14, 1
= 1 − 0, 8577 = 0, 1423.
Damit beträgt die Wahrscheinlichkeit dafür, an mindestens 20 von 250 Arbeitstagen in eine
Fahrkartenkontrolle zu geraten, ungefähr 14,23%.
Teil 3 – Schließende Statistik
Lösung zu Aufgabe 23:
Es sei X = Stundenlohn“, µ = E (X) der durchschnittliche Stundenlohn und σ 2 = Var (X)
”
die Varianz der Stundenlöhne. Ein erwartungstreuer Schätzer für den durchschnittlichen
Stundenlohn ist durch das arithmetische Mittel der Stundenlöhne gegeben. Hier lautet es:
n
1X
Xi
µ̂ = X̄ =
n i=1
=
285
1
· (4 · 13 + 6 · 18 + 5 · 25) =
= 19.
15
15
Damit wird der durchschnittliche Stundenlohn erwartungstreu auf 19 Euro geschätzt.
2
Ein erwartungstreuer Schätzer für die Varianz der Stundenlöhne ist der Schätzer S̃X
, der der
Summe der quadrierten Abweichungen der Stundenlöhne vom erwartungstreu geschätzten
durchschnittlichen Stundenlohn, dividiert durch n − 1, entspricht. Also:
n
2
=
σ̂ 2 = S̃X
=
1 X
(Xi − X̄)2
n − 1 i=1
¤ 330
1 £
· 4 · (13 − 19)2 + 6 · (18 − 19)2 + 5 · (25 − 19)2 =
= 23, 571.
14
14
Damit wird die Varianz der Stundenlöhne erwartungstreu auf 23,571 (Euro2 ) geschätzt.
Lösung zu Aufgabe 24:
Es sei X = täglich vor dem Fernseher verbrachte Zeit in Stunden“. Gesucht ist dann ein
”
erwartungstreuer Schätzer für den unbekannten Anteil p = P (X ≥ 2). Da aus der vorherigen Aufgabe bekannt ist, dass allgemein das arithmetische Mittel ein erwartungstreuer
Schätzer für den unbekannten Erwartungswert einer Zufallsvariablen ist, sollte es nun zuerst
das Ziel sein, den unbekannten Anteil p als einen solchen Erwartungswert einer Zufallsvariablen darzustellen. Ein erwartungstreuer Schätzer für p ist dann nämlich schnell gefunden.
Dies gelingt, wenn man von den Stichprobenvariablen X1 , X2 , . . . , X20 übergeht zu den Zufallsvariablen Y1 , Y2 , . . . , Y20 mit

1, X ≥ 2
i
Yi =
, i = 1, . . . , 20.
0, X < 2
i
Denn für diese Zufallsvariablen gilt:
Yi ∼ Bin (1, p)
⇒
E (Yi ) = 1 · P (Xi ≥ 2) + 0 · P (Xi < 2) = P (Xi ≥ 2) = p.
Damit kann der Anteil der Personen, die täglich mindestens zwei Stunden vor dem Fernseher
verbringen, wie folgt erwartungstreu geschätzt werden:
n
1X
Yi
p̂ = Ȳ =
n i=1
1
· (1 + 0 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0 + 1 + 1 + 1 + 1 + 0 + 1 + 0)
20
11
= 0, 55 = 55%.
=
20
=
Lösung zu Aufgabe 25:
Laut Definition ist von zwei erwartungstreuen Schätzern für einen unbekannten Parameter
genau derjenige effizienter, der die kleinere Varianz besitzt. Vor der Bestimmung der Varianzen der beiden gegebenen Schätzer für µ ist also zu überprüfen, ob beide tatsächlich
erwartungstreu für µ sind. Sollte wenigstens einer der beiden gegebenen Schätzer nicht erwartungstreu für µ sein, so lässt sich die Frage nach der Effizienz schlicht und ergreifend
nicht beantworten. Aber wir haben Glück. Sowohl µ̂1 als auch µ̂2 sind gewichtete arithmetische Mittel der Stichprobenvariablen X1 , X2 , . . . , Xn und somit erwartungstreu für µ. Formal
lässt sich dies etwa für µ̂1 wie folgt zeigen (der Nachweis der Erwartungstreue funktioniert
für µ̂2 völlig analog):
µ
¶
1
1
(X1 + X2 + Xn−1 + Xn ) = [E (X1 ) + E (X2 ) + E (Xn−1 ) + E (Xn )]
E (µ̂1 ) = E
4
4
1
=
(µ + µ + µ + µ) = µ.
4
Somit kann die Frage nach der Effizienz über den Vergleich der Varianzen beider Schätzer
beantwortet werden. Beide Varianzen berechnen sich aufgrund der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn wie folgt:
µ
¶
1
(X1 + X2 + Xn−1 + Xn )
Var (µ̂1 ) = Var
4
1
=
[Var (X1 ) + Var (X2 ) + Var (Xn−1 ) + Var (Xn )]
16
1 2
4 2
=
(σ + σ 2 + σ 2 + σ 2 ) =
σ .
16
16
und
¶
3
1
1
3
X1 + X n2 + X n2 +1 + Xn
Var (µ̂2 ) = Var
8
8
8
8
9
1
1
9
=
Var (X1 ) +
Var (X n2 ) +
Var (X n2 +1 ) +
Var (Xn )
64
64
64
64
1 2
9 2
9 2
1 2 20 2
5 2
=
σ +
σ +
σ +
σ =
σ =
σ .
64
64
64
64
64
16
µ
Wegen
Var (µ̂1 ) =
4 2
5 2
σ <
σ = Var (µ̂2 )
16
16
ist µ̂1 effizienter zur Schätzung von µ als µ̂2 .
Lösung zu Aufgabe 26:
Im Gegensatz zu den vorangegangenen Aufgaben geht es jetzt nicht mehr um Punktschätzer
für einen unbekannten Parameter, sondern um Intervallschätzer. Die grundsätzliche Idee
solcher Schätzverfahren besteht darin, ein Intervall zu finden, das mit einer möglichst hohen
Wahrscheinlichkeit den unbekannten Parameter überdeckt.
Es sei X = Wasserverbrauch des neuen Waschmaschinenmodells in Litern“. Die Stichpro”
benvariablen X1 , X2 , . . . , X9 sind dann unabhängig und identisch wie X verteilt. Genauer
gilt zunächst:
¢
¡
uiv
X1 , X2 , . . . , X9 ∼ N µ, σ 2 .
Näheres über die beiden Parameter der Normalverteilung ist zunächst nicht bekannt.
a) Allgemein ist ein (1−α)-Konfidenzintervall für den unbekannten Erwartungswert einer
Normalverteilung mit gleichzeitig unbekannter Varianz gegeben durch:
#
"
S̃X
S̃X
KI1−α (µ) = X̄ − tn−1,1− α2 √ ; X̄ + tn−1,1− α2 √ .
n
n
Aus den gegebenen Beobachtungen folgt zunächst
X̄ =
1
1
(49 + 44 + 52 + 53 + 50 + 54 + 45 + 48 + 46) = · 441 = 49
9
9
und
2
=
S̃X
¤ 1
1 £
(49 − 49)2 + (44 − 49)2 + · · · + (46 − 49)2 = · 102 = 12, 75.
8
8
Wegen 1 − α = 0, 95 folgt weiter tn−1,1− α2 = t8,0.975 = 2, 306. Das gesuchte 95%-
Konfidenzintervall für den durchschnittlichen Wasserverbrauch des neuen Waschmaschinenmodells lautet damit:
¸
·
√
√
12, 75
12, 75
KI0,95 (µ) = 49 − 2, 306 · √
; 49 + 2, 306 · √
9
9
= [49 − 2, 745; 49 + 2, 745]
= [46, 255; 51, 745].
Zusatzfrage: Wie ist dieses Intervall nun zu interpretieren? Antwort: Mit einer Wahrscheinlichkeit von 95% überdeckt das Intervall [46, 255; 51, 745] die vom neuen Waschmaschinenmodell durchschnittlich verbrauchte Wassermenge in Litern.
b) Im Gegensatz zu Aufgabenteil a) ist nun die Standardabweichung der zu Grunde liegenden Normalverteilung bekannt. Sie lautet σ = 3 Liter. Dank dieser zusätzlichen
Information muss die Varianz der Normalverteilung nicht mehr aus den beobachteten
verbrauchten Wassermengen geschätzt werden. Es sollte also nicht verwundern, dass
2
der Schätzer S̃X
in dem gesuchten Konfidenzintervall keine Rolle mehr spielt. Vielmehr
ersetzt ihn nun vernünftigerweise die bekannte Varianz σ 2 . Das gesuchte Konfidenzintervall lautet damit:
·
¸
σ
σ
KI1−α (µ) = X̄ − u1− α2 √ ; X̄ + u1− α2 √ .
n
n
Nach wie vor ist α = 0, 05. Somit folgt u1− α2 = u0,975 = 1, 96. Das gesuchte 95%Konfidenzintervall ergibt sich damit zu:
¸
·
3
3
KI0,95 (µ) = 49 − 1, 96 · √ ; 49 + 1, 96 · √
9
9
= [49 − 1, 96; 49 + 1, 96]
= [47, 04; 50, 96] .
An der Interpretation dieses Konfidenzintervalls ändert sich im Vergleich zu a) nichts.
Übrigens sollte auffallen, dass das Konfidenzintervall aus a) etwas breiter als das aus
b) ist. Dieser Umstand ist schlicht und ergreifend der Tatsache geschuldet, dass in a)
weniger Informationen über die Parameter der zu Grunde liegenden Normalverteilung
vorhanden sind. Das Schätzen der Varianz birgt zusätzliche Unsicherheit, die bei einem
identischen Konfidenzniveau zwangsweise zu einem breiteren Konfidenzintervall führen
muss.
c) In der Situation von Aufgabenteil b) beträgt die Länge des 95%-Konfidenzintervalls
für den durchschnittlichen Wasserverbrauch des neuen Modells fast vier Liter, bei neun
Probeläufen wohlgemerkt. Wieviele Probeläufe sind also notwendig, um die Länge dieses Konfidenzintervalls auf höchstens zwei Liter zu begrenzen? Zur Beantwortung dieser Frage sollte man sich zunächst einmal bewusst machen, wie sich die Länge eines
Konfidenzintervalls allgemein angeben lässt. Und zwar gilt:
Länge = obere Intervallgrenze − untere Intervallgrenze
¶
µ
σ
σ
α
α
= X̄ + u1− 2 √ − X̄ − u1− 2 √
n
n
σ
= 2 u1− α2 √ .
n
Da sowohl das Konfidenzniveau als auch die Standardabweichung konstant bleibt, folgt
für die Länge L:
L≤2
⇔
2 u1− α2
σ
√ ≤2
n
⇔
³
n ≥ 2 u1− α2
σ ´2
=
2
µ
3
2 · 1, 96 ·
2
¶2
= 34, 5744.
Es sind also mindestens 35 Probeläufe notwendig, damit das in b) bestimmte 95%Konfidenzintervall für den durchschnittlichen Wasserverbrauch des neuen Modells nicht
breiter als zwei Liter ist.
Lösung zu Aufgabe 27:
Wie in der vorherigen Aufgabe stehen auch hier Konfidenzintervalle für unbekannte Erwartungswerte im Mittelpunkt. Allerdings sind die Stichprobenvariablen nicht mehr normal-,
sondern binomialverteilt. Denn setzt man

1, i-ter Befragter lebt unter dem Existenzminimum
Xi =
,
0, sonst
i = 1, . . . , 50,
uiv
so gilt X1 , X2 , . . . , X50 ∼ Bin (1, p), wobei p der unbekannte Anteil der armen Personen in
dem betreffenden Entwicklungsland ist.
a) Aus Aufgabe 24 ist bekannt, dass das arithmetische Mittel ein erwartungstreuer Schätzer
für p ist. Somit folgt:
50
1 X
30
= 0, 6 = 60%.
p̂ = X̄ =
Xi =
50 i=1
50
Weiter ist ein (approximatives) Konfidenzintervall für p zum Niveau 1 − α gegeben
durch:
·
KI1−α (p) = p̂ − u1− α2
wobei σ̂ =
p
¸
σ̂
σ̂
√ ; p̂ + u1− α2 √ ,
n
n
p̂ (1 − p̂) ist. Dies ist allerdings nur dann richtig, wenn die Vorausset-
zungen des zentralen Grenzwertsatzes erfüllt sind. Denn im obigen Konfidenzintervall
werden die Quantile der zu Grunde liegenden Binomialverteilung durch die entsprechenden Quantile der Standardnormalverteilung näherungsweise bestimmt. Zur großen
Überraschung sind hier die Voraussetzungen des zentralen Grenzwertsatzes in der Tat
erfüllt:
n = 50 ≥ 30 X,
n · p̂ = 30 ≥ 10 X,
n · (1 − p̂) = 20 ≥ 10 X.
Aus α = 0, 1 folgt zunächst u1− α2 = u0,95 = 1, 645. Weiter ist σ̂ =
Damit lautet das 90%-Konfidenzintervall für p:
·
0, 4899
0, 4899
KI0,9 (p) = 0, 6 − 1, 645 · √
; 0, 6 + 1, 645 · √
50
50
= [0, 486; 0, 714].
¸
√
0, 6 · 0, 4 = 0, 4899.
b) Bereits vor dem Ausrechnen des 95%-Konfidenzintervalls für den unbekannten Anteil der armen Personen in dem Entwicklungsland ist klar, dass dieses breiter als das
entsprechende 90%-Konfidenzintervall aus a) sein muss. Denn für die Erhöhung der
Vertrauenswahrscheinlichkeit (lies: die erhöhte Sicherheit, keinen Irrtum zu begehen)
muss bei gleichbleibendem Stichprobenumfang ein gewisser Preis bezahlt werden. Dieser
Preis kann aber nur durch eine schwächere Aussage“ über den unbekannten Erwar”
tungswert bezahlt werden. Und eine schwächere Aussage“ drückt sich einfach in einem
”
ungenaueren, weil breiteren Konfidenzintervall aus. Der Vollständigkeit halber sei abschließend erwähnt, dass das 95%-Konfidenzintervall wie folgt aussieht:
·
0, 4899
0, 4899
KI0,95 (p) = 0, 6 − 1, 96 · √
; 0, 6 + 1, 96 · √
50
50
= [0, 464; 0, 736].
¸
c) Die Breite eines Konfidenzintervalls kann nicht nur über die Vertrauenswahrscheinlichkeit gesteuert werden, sondern auch über den Umfang der Stichprobe. Gesucht
ist jetzt der (kleinstmögliche) Stichprobenumfang, für den das resultierende 90%Konfidenzintervall für p nicht breiter als fünf Prozentpunkte ist. Etwas formaler ist
also der Wert von n gesucht, ab dem gilt:
σ̂
L = 2 u1− α2 √ ≤ 0, 05.
n
Leider lässt sich diese Ungleichung nicht so einfach nach n umstellen und ausrechnen.
Denn der Stichprobenumfang geht indirekt auch in den Schätzer von σ ein:
v
!
Ã
u n
n
q
X
u1 X
p
1
σ̂ = p̂ (1 − p̂) = X̄ (1 − X̄) = t
Xi · 1 −
Xi .
n i=1
n i=1
Diese Unannehmlichkeit lässt sich aber über einen einfachen Trick schnell aus der Welt
schaffen. Da stets 0 ≤ p̂ ≤ 1 gilt, ist auch die geschätzte Standardabweichung nach
oben beschränkt. Genauer gilt stets 0 ≤ σ̂ ≤ 1/2. Daraus folgt allgemein
u1− α
σ̂
1/2
L = 2 u1− α2 √ ≤ 2 u1− α2 √ = √ 2
n
n
n
und speziell für diese Aufgabe
u1− α
L ≤ √ 2 ≤ 0, 05
n
⇔
n≥
µ
u1− α2
0, 05
¶2
=
µ
1, 645
0, 05
¶2
= 1082, 41.
Damit müssen mindestens 1083 Personen befragt werden, damit das 90%-Konfidenzintervall für den unbekannten Anteil der armen Personen in diesem Entwicklungsland
nicht breiter als fünf Prozentpunkte ist.
Lösung zu Aufgabe 28:
Statistische Testprobleme werden prinzipiell über die (unbekannten) Parameter einer Verteilung formuliert. Vor der Berechnung der Wahrscheinlichkeiten für die beiden Fehler, zu
denen eine Testentscheidung führen kann, ist der gegebenen Situation (hier: dem Untersuchungsgegenstand des Forschers) zwingend eine Verteilung zu unterstellen.
In dieser Aufgabe geht es um die Frage, ob die Einkommen von Männern und Frauen gleich
sind, also um eine Frage, die sich mit Ja“ oder Nein“ beantworten lässt. Das schreit gerade”
”
zu nach einer Binomialverteilung. Und da der Forscher die zehn Ehepaare auch voneinander
unabhängig ausgewählt hat und die interessierende Wahrscheinlichkeit
p = P (Mann verdient mehr als seine Frau)
für alle Ehepaare als konstant angenommen werden kann, sind insgesamt alle drei Voraussetzungen für eine Binomialverteilung gegeben. Setzt man

1, Mann verdient mehr als seine Frau
Xi =
, i = 1, . . . , 10,
0, sonst
dann gilt
uiv
X1 , X2 , . . . , X10 ∼ Bin (1, p)
und das Testproblem des Forscher lässt sich wie folgt formalisieren:
H0 : p =
1
2
1
gegen H1 : p 6= .
2
Letztendlich lehnt der Forscher H0 ab, wenn bei allen zehn Ehepaaren der Mann mehr
P
verdient als seine Frau, wenn also T = 10
i=1 Xi = 10 gilt. Damit ist auch klar, dass die
Teststatistik T ebenfalls binomialverteilt ist. Genauer gilt: T ∼ Bin (10, p).
a) Der Forscher begeht einen Fehler 1. Art, wenn er obige Nullhypothese ablehnt, obwohl
sie korrekt ist. Die Wahrscheinlichkeit hierfür lautet:
¯
µ
¶
¯
1
¯
P (Fehler 1. Art) = P (H1 | H0 ) = P T = 10 ¯ p =
2
µ ¶ µ ¶10 µ ¶10−10 µ ¶10
10
1
1
1
=
=
10
2
2
2
= 0, 00098.
b) Im Gegensatz dazu begeht der Forscher einen Fehler 2. Art, wenn er obige Nullhypothese nicht ablehnt, obwohl sie eigentlich falsch ist. Angenommen, es gilt p = 2/3. Dieser
Wert liegt relativ deutlich im Bereich der Alternativhypothese. Die Wahrscheinlichkeit,
einen Fehler 2. Art zu begehen, lässt sich dann wie folgt berechnen:
¯
¶
µ
¯
2
P (Fehler 2. Art) = P (H0 | H1 ) = P T < 10 ¯¯ p =
3
¯
µ
¶
¯
2
= 1 − P T = 10 ¯¯ p =
3
µ ¶ µ ¶10 µ ¶10−10
µ ¶10
2
10
1
2
= 1−
=1−
10
3
3
3
= 0, 98266.
c) Zunächst fällt auf, dass die Wahrscheinlichkeit für einen Fehler 2. Art sehr hoch ist.
Hier schlägt zu Buche, dass der Forscher die Nullhypothese erst sehr spät“ ablehnt
”
(die Männer müssen immer mehr verdienen als ihre Frauen). Somit fällt die Entscheidung des Forschers auch dann eher zu Gunsten der Nullhypothese aus, wenn diese
offensichtlich falsch ist. Hier wäre eine weniger restriktive Entscheidungsregel sicherlich wünschenswert.
Die Entscheidungsregel des Forschers aber noch einen zweiten Nachteil, und der wiegt
weitaus schwerer. Zur Erinnerung: Von Interesse ist, ob die Einkommen von Männern
und Frauen gleich sind. Laut seiner Entscheidungsregel lehnt der Forscher diese Nullhypothese aber nur dann ab, wenn die Männer mehr verdienen als ihre Frauen. Es
ist aber auch der umgekehrte Fall denkbar. Warum sollen nicht die Frauen grundsätzlich mehr verdienen können als ihre Männer? In diesem Fall wäre T = 0, was ebenso
gegen die Nullhypothese spricht, aber hier nicht zu einer Ablehnung führt. Mit anderen Worten: Der gegebenen Fragestellung liegt ein zweiseitiges Testproblem zu Grunde
(H1 : p 6= 1/2), die Entscheidungsregel des Forschers gehört aber eindeutig zu einem
einseitigen Testproblem (etwa H1 : p > 1/2).
Lösung zu Aufgabe 29:
Die in der Aufgabenstellung geschilderte Situation lässt sich zunächst wie folgt formalisieren: Im Mittelpunkt steht die Zufallsvariable X = Funktionsdauer einer Glühbirne (in
”
Monaten)“. Ein Verkäufer solcher Glühbirnen behauptet, dass E (X) ≥ 12 gilt. Ein Kunde
schätzt aufgrund einer Stichprobe vom Umfang n = 20 die erwartete Funktionsdauer auf
11,4 Monate. Mehr ist erstmal nicht bekannt.
a) Jetzt werden zusätzlich einige Informationen über die Verteilung von X und damit
auch über die Verteilung der Stichprobenvariablen X1 , X2 , . . . , X20 bekannt. Genauer
gilt:
uiv
X1 , X2 , . . . , X20 ∼ N (µ, 9).
Das Testproblem des Kunden lautet dann:
H0 : µ ≥ 12 gegen H1 : µ < 12.
Ein geeigneter Test zum Überprüfen von Hypothesen über unbekannter Erwartungswerte normalverteilter Zufallsvariablen bei bekannter Varianz ist der Gauß-Test. Die
obige Nullhypothese wird allgemein zum Niveau α abgelehnt, wenn
T =
√ X̄ − µ0
n
< −u1−α
σ
gilt. In diesem Fall lautet die Realisation der Teststatistik T :
T =
√
20
√
11, 4 − 12
= − 20 · 0, 2 = −0, 8944.
3
Aus α = 5% folgt weiter:
−u1−α = −u0,95 = −1, 645.
Damit gilt
T = −0, 8944 > −1, 645 = −u1−α
und der Kunde kann die Nullhypothese Die Funktionsdauer der Glühbirnen beträgt
”
durchschnittlich mindestens ein Jahr.“ zum 5%-Niveau nicht ablehnen.
b) Die Gütefunktion eines Tests gibt in Abhängigkeit eines unbekannten Parameters, hier
µ, die Wahrscheinlichkeit dafür an, die Nullhypothese zu verwerfen. Entscheidend für
die weiteren Berechnungen ist dabei die Tatsache, dass nun µ die in Wirklichkeit wahre
erwartete Funktionsdauer der Glühbirnen angibt. Das bedeutet vor allem, dass nun gilt:
√ X̄ − µ √ X̄ − µ
n
= 20
∼ N (0, 1).
σ
3
In Aufgabenteil a) ist diese Aussage für die Verteilung der Teststatistik T richtig.
Allerdings gilt sie nur eingeschränkt auf H0 und ist damit für die Berechnung der
Gütefunktion nicht geeignet, da letztere über den gesamten Parameterraum (hier: alle
reellen Zahlen) zu bestimmen ist!
Diese Mahnung im Hinterkopf behaltend, lässt sich nun die Gütefunktion des GaußTests aus a) berechnen. (In der folgenden Lösung werden die konkreten Zahlen“ der
”
Entscheidungsregel zum Verwerfen von H0 verwendet. Analog kann die Lösung aber
auch mit den abstrakten Werten n statt 20, µ0 statt 12, σ statt 3 und −u0,95 statt
−1, 645 hergeleitet werden.) Es gilt mit α = 0, 05:
g(µ) = P (H0 ablehnen | µ)
¯ ¶
µ
√ X̄ − 12
¯
< −1, 645 ¯¯ µ
= P
20
3
¯ ¶
µ
√ X̄ − µ + µ − 12
¯
= P
20
< −1, 645 ¯¯ µ
3
¯
µ
√ X̄ − µ √ µ − 12
¯
20
+ 20
< −1, 645 ¯¯
= P
3
3
¯
µ
√ µ − 12 ¯
√ X̄ − µ
¯
< −1, 645 − 20
20
= P
3
3 ¯
¯ ¶
µ
√ µ − 12 ¯
¯µ .
= Φ −1, 645 − 20
3 ¯
µ
¶
µ
¶
Diese Gütefunktion ist zugegeben etwas unhandlich. Auch wenn man es ihr auf den
ersten Blick nicht ansieht, so besitzt sie doch die Form, die jede halbwegs vernünftige
Gütefunktion besitzen sollte. Wie die folgende Abbildung zeigt, ist g(µ) auf H0 stets
kleiner als das Signifikanzniveau von 5%. Auf H1 strebt die Gütefunktion dagegen
verhältnismäßig schnell gegen 1.
1
0.8
g(µ)
0.6
H0
H1
0.4
0.2
α = 0,05
0
8
10
12
14
16
µ
c) Es sei jetzt in Wirklichkeit µ = 11 die wahre erwartete Funktionsdauer einer Glühbirne.
Bei der Berechnung der Wahrscheinlichkeit, mit der der Kunde einen Fehler 2. Art
begeht, zahlen sich endlich die Mühen aus, die man zur Bestimmung der Gütefunktion
in Aufgabenteil b) aufbringen musste. Denn auf der Alternativhypothese gilt:
g(µ) = P (H0 ablehnen | µ) = P (H1 | H1 ) = 1 − P (H0 | H1 ) = 1 − P (Fehler 2. Art).
Das bedeutet im Gegenzug:
P (Fehler 2. Art) = 1 − g(µ) = 1 − g(11)
¶
µ
√ 11 − 12
= 1 − Φ −1, 645 − 20
3
≈ 1 − Φ (−0, 15) = 1 − (1 − Φ (0, 15)) = Φ (0, 15)
= 0, 5596.
Für den Kunden beträgt die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, damit
fast 56%. Das ist einerseits viel, andererseits allerdings liegt die unterstellte erwartete
Funktionsdauer der Glühbirnen von elf Monaten aber auch noch relativ nah an der
Grenze zwischen Null- und Alternativhypothese. Der Gauß-Test hat hier sozusagen
noch seine Probleme, zwischen beiden Hypothese treffsicher“ zu unterscheiden. Somit
”
kann hier auch keine besonders hohe Güte erwartet werden.
Lösung zu Aufgabe 30:
Die in der Aufgabenstellung dargelegte Situation ist der aus der vorangegangenen Aufgabe sehr ähnlich. Daher überrascht es nicht, dass auch hier der Gauß-Test zum Einsatz
kommt. Aber der Reihe nach: Gegeben ist eine Stichprobe normalverteilte Zufallsvariablen
mit bekannter Varianz. Denn ist Xi der Calciumgehalt der i-ten Flasche Mineralwasser,
i = 1, . . . , 10, so gilt laut Aufgabenstellung:
uiv
X1 , X2 , . . . , X10 ∼ N (µ, 2500).
Weiter lautet das Testproblem
H0 : µ = 1000 gegen H1 : µ 6= 1000.
Wie bereits in der vorherigen Aufgabe gesehen, ist der Gauß-Test zum Überprüfen von Hypothesen über unbekannter Erwartungswerte normalverteilter Zufallsvariablen bei bekannter
Varianz sehr gut geeignet. Da nun jedoch ein zweiseitiges Testproblem vorliegt, wird die
Nullhypothese prinzipiell zum Niveau α abgelehnt, wenn gilt:
¯
¯
¯ √ X̄ − µ0 ¯
¯ > u1− α .
| T | = ¯¯ n
¯
2
σ
Anhand der gegebenen Stichprobe ergibt sich folgende Schätzung für den mittleren Calciumgehalt:
1
(950 + 940 + 1025 + 800 + 975 + 1000 + 875 + 990 + 915 + 1030)
10
= 950.
X̄ =
Daraus folgt für die Teststatistik T des Gauß-Tests:
√ 950 − 1000
√
T = 10
= − 10 = −3, 1623.
50
Weiter folgt aus α = 1%:
u1− α2 = u0,995 = 2, 576.
Wegen
| T | = 3, 1623 > 2, 576 = u1− α2
wird die Nullhypothese damit zum 1%-Niveau abgelehnt. Die gegebene Stichprobe spricht
also dafür, dass der mittlere Calciumgehalt der Wasserflaschen signifikant von 1000 mg/l
abweicht.
Lösung zu Aufgabe 31:
Wie bei den vorherigen Aufgaben ist es sinnvoll, zunächst die in der Aufgabenstellung enthaltenen Informationen zu bündeln. Offensichtlich ist eine Aussage über eine durchschnittliche
Geschwindigkeit zu testen. Welche Tests kommen dafür infrage? Die von der Polizei gemessenen Geschwindigkeiten können als Realisationen einer normalverteilten Zufallsvariablen X
aufgefasst werden, genauer gilt für sie:
¢
¡
uiv
X1 , X2 , . . . , X26 ∼ N µ, σ 2 .
Aus diesem Grund bieten sich zum Testen von Hypothesen über die durchschnittliche Geschwindigkeit µ der Gauß- und der t-Test an. Das Zünglein an der Waage ist nun die Frage,
ob die Varianz σ 2 bekannt ist oder nicht. Im Fall der gemessenen Geschwindigkeiten ist sie
es nicht, der Aufgabenstellung ist lediglich eine Schätzung für σ 2 zu entnehmen. Damit ist
nur der t-Test ein geeigneter Kandidat zum Überprüfen der Behauptung der Anwohner.
Doch wie lautet nun das (einseitige) Testproblem? Da beim Testen per Konstruktion nur der
Fehler 1. Art (Entscheidung für H1 , obwohl H0 richtig ist) kontrolliert wird, muss genau die
Behauptung in der Alternativhypothese H1 stehen, über die eine gesicherte Aussage getroffen
werden soll. Das ist in diesem Fall die Behauptung der Anwohner. Das Testproblem lautet
damit:
H0 : µ ≤ 40 gegen H1 : µ > 40.
Die Nullhypothese wird zum Niveau α abgelehnt, wenn gilt:
T =
√ X̄ − µ0
n
> tn−1;1−α .
S̃X
Anhand der von der Polizei gemessenen Geschwindigkeiten ergibt sich:
T =
√
26
42 − 40 √
= 26 · 0, 4 = 2, 0396.
5
Weiter folgt mit α = 10%:
tn−1;1−α = t25;0,9 = 1, 316.
Wegen T = 2, 0396 > 1, 316 = tn−1;1−α wird die Nullhypothese Der Durchgangsverkehr
”
fährt durchschnittlich höchstens 10 km/h zu schnell.“ zum 10%-Niveau verworfen. Die im
Rahmen der Polizeikontrolle gemessenen Geschwindigkeiten stützen somit die Behauptung
der Anwohner.
Lösung zu Aufgabe 32:
Im Gegensatz zu den vorangegangenen Aufgaben enthält die Aufgabenstellung jetzt keine
Informationen mehr darüber, dass den zu Grunde liegenden Zufallsvariablen eine Normalverteilung unterstellt werden kann. Der Grund dafür liegt auf der Hand. In dieser Aufgabe geht
es um die Frage, ob gewisse Personen unabhängig voneinander eine bestimmte Partei gewählt
haben oder nicht. Mit anderen Worten: Im Mittelpunkt des Interesses steht ein Zufallsexperiment mit zwei möglichen Ausgängen (alias Antworten), das insgesamt n-mal wiederholt
wird, wobei die Wiederholungen voneinander unabhängig und mit konstanter Erfolgswahrscheinlichkeit (alias konstanter Wahrscheinlichkeit, die Regierungspartei zu wählen) erfolgen.
Somit deutet hier alles auf eine Binomialverteilung als zu Grunde liegende Verteilung hin.
Formal lässt sich die geschilderte Ausgangssituation wie folgt beschreiben: Es sei Xi ein
Indikator dafür, ob der i-te Befragte die Regierungspartei gewählt hat oder nicht, also:

1, i-ter Befragter hat Regierungspartei gewählt
, i = 1, 2, . . . , 500.
Xi =
0, sonst
Dann gilt:
uiv
X1 , X2 , . . . , X500 ∼ Bin (1, p),
wobei p die unbekannte Wahrscheinlichkeit dafür ist, der Regierungspartei seine Stimme zu
geben. Da es von Interesse ist, die Behauptung des Regierungschefs zu widerlegen, lautet
das Testproblem
H0 : p ≥
1
2
1
gegen H1 : p < .
2
Dieses Testproblem lässt sich mit dem (approximativen) Binomialtest lösen. Dieser Test
lehnt die Nullhypothese zum Niveau α ab, wenn gilt:
T =
√
p̂ − p0
< −u1−α .
np
p0 (1 − p0 )
Dies gilt allerdings nur dann, wenn drei zusätzliche Bedingungen erfüllt sind (man erinnere
sich an den zentralen Grenzwertsatz sowie die Lösung zu Aufgabe 27). Diese Bedingungen
lauten:
n ≥ 30,
(1)
(2)
np̂ ≥ 10,
(3)
n (1 − p̂) ≥ 10.
In diesem Fall sind die Bedingungen (1) bis (3) in der Tat erfüllt, denn es ist n = 500,
np̂ = 230 und n (1 − p̂) = 270. Für die Teststatistik T ergibt sich dann:
T =
√
230
500 q 500¡
1
2
−
1
2
1−
¢=
1
√
2
Wegen α = 1% gilt weiter
√
− 20
500 q500 = − 500 · 0, 08 = −1, 7889.
1
4
−u1−α = −u0,99 = −2, 326.
Wegen T = −1, 7889 > −2, 326 = −u1−α wird obige Nullhypothese zum 1%-Niveau nicht
verworfen. Die Ergebnisse der Umfrage sprechen damit nicht gegen die Behauptung des
Regierungschefs.
Lösung zu Aufgabe 33:
Es sei X = Geschlecht“ und Y = Interesse an akademischer Karriere“. Zum Überprüfen,
”
”
ob diese Merkmale voneinander unabhängig sind, bietet sich der χ2 -Unabhängigkeitstest an.
Für dessen Anwendung ist es zunächst sinnvoll, die in der Aufgabenstellung enthaltenen
Informationen in einer Kontingenztafel zusammenzufassen. Dies geschieht in der folgenden
Tabelle, wobei die kursiv gedruckten Häufigkeiten direkt aus der Aufgabenstellung abgelesen
werden können (die restlichen können daraus berechnet werden):
Y
X
P
ja
nein
männlich
160
490
650
weiblich
60
290
350
P
220
780
1000
Aus den Randhäufigkeiten lassen sich nun via
H̃ij =
Hi• · H•j
,
n
i, j ∈ {1, 2},
die Häufigkeiten berechnen, die zu erwarten sind, wenn die Nullhypothese Die Merkmale X
”
und Y sind stochastisch unabhängig.“ tatsächlich richtig ist. Sämtliche unter H0 erwartete
Häufigkeiten sind in der folgenden Tabelle zusammengefasst:
Y
P
ja
nein
männlich
143
507
650
weiblich
77
273
350
P
220
780
1000
X
Für alle unter H0 erwarteten Häufigkeiten gilt: H̃ij ≥ 5. Die asymptotische Verteilung der
Teststatistik V des χ2 -Unabhängigkeitstests kann demnach hinreichend gut durch eine χ2 Verteilung mit (k − 1)(l − 1) Freiheitsgraden beschrieben werden. Wegen k = l = 2 ist hier
(k − 1)(l − 1) = 1. Die Teststatistik V realisiert sich wie folgt:
V
(160 − 143)2 (490 − 507)2 (60 − 77)2 (290 − 273)2
+
+
+
143
507
77
273
= 7, 403.
=
Weiter folgt aus α = 1%:
χ2(k−1)(l−1),1−α = χ21;0.99 = 6, 635.
Wegen
V = 7, 403 > 6, 635 = χ2(k−1)(l−1),1−α
wird die Nullhypothese (Unabhängigkeit der Merkmale Geschlecht“ und Interesse an aka”
”
demischer Karriere“) zum 1%-Niveau abgelehnt.
Lösung zu Aufgabe 34:
Zum Überprüfen der Behauptung, dass die Geburten in besagtem Krankenhaus über die
Woche gleichverteilt sind, bietet sich der χ2 -Anpassungstest an. Sei dazu pi , i = 1, . . . , 7,
die Wahrscheinlichkeit dafür, dass eine Geburt am i-ten Wochentag erfolgt (1 = Montag,
2 = Dienstag, . . . , 7 = Sonntag). Das Testproblem lautet dann:
1
gegen H1 : ¬H0 .
H 0 : p1 = p2 = . . . = p7 =
7
Die folgende Tabelle enthält für alle Wochentage die beobachteten sowie die unter Richtigkeit von H0 erwarteten Anzahlen an Geburten. Letztere sind für alle Tage gegeben durch
n pi = 840 · 1/7 = 120:
Wochentag
Mo
Di
Mi
Do
Fr
Sa
So
Anzahl Geburten
123
121
128
142
118
110
98
erwartete Anzahl Geburten
120
120
120
120
120
120
120
Für alle unter Gültigkeit von H0 erwarteten Anzahlen an Geburten gilt: n pi ≥ 5. Die asymp-
totische Verteilung der Teststatistik V des χ2 -Anpassungstests kann demnach hinreichend
gut durch eine χ2 -Verteilung mit k − 1 Freiheitsgraden beschrieben werden, wobei hier k = 7
ist. Die Teststatistik V ergibt sich dann wie folgt:
V
(123 − 120)2 (121 − 120)2 (128 − 120)2 (142 − 120)2
+
+
+
120
120
120
120
(118 − 120)2 (110 − 120)2 (98 − 120)2
+
+
+
120
120
120
= 9, 55.
=
Mit α = 10% folgt weiter:
χ2k−1,1−α = χ26;0.9 = 10, 64,
so dass die Nullhypothese Die Anzahl der Geburten ist über die Woche gleichverteilt.“
”
wegen
V = 9, 55 < 10, 64 = χ2k−1,1−α
zum 10%-Niveau nicht abgelehnt wird.
Herunterladen