Teil 1 – Beschreibende Statistik Lösung zu Aufgabe 1: Vor dem Zeichnen des Histogramms müssen die relativen Häufigkeiten der vorgegebenen Klassen sowie die Höhen des Histogramms über allen Klassen bestimmt werden. Beides geschieht in der folgenden Tabelle. Da die relative Häufigkeit einer Klasse gleich der Fläche des Histogramms über dieser Klasse sein soll, gilt dabei: Höhe = relative Häufigkeit . Klassenbreite Klasse i H(i) h(i) Klassenbreite Höhe [30, 34) 2 2/11 4 2/44 [34, 37) 3 3/11 3 3/33 = 4/44 [37, 41) 3 3/11 4 3/44 [41, 44] 3 3/11 3 3/33 = 4/44 Damit sieht das Histogramm wie folgt aus: 0.1 Höhe 0.075 0.05 0.025 0 30 34 37 41 44 Einnahmen Lösung zu Aufgabe 2: Im Folgenden sei X = Preis des Fernsehers“. ” a) Bevor die empirische Verteilungsfunktion der Preise gezeichnet werden kann, muss sie überhaupt einmal bestimmt werden. Dies benötigt die relativen Häufigkeiten der beobachteten Preise. Diese lauten: Preis ai (in Euro) 450 500 525 550 relative Häufigkeit h(ai ) 0,3 0,4 0,2 0,1 Die empirische Verteilungsfunktion summiert nun an jeder Stelle x ∈ R die relativen Häufigkeit der Preise 0 0, 3 F10 (x) = 0, 7 0, 9 1 ai auf, für die ai ≤ x gilt. Dies führt zu für x < 450 für 450 ≤ x < 500 für 500 ≤ x < 525 . für 525 ≤ x < 550 für x ≥ 550 0.6 0.4 0.0 0.2 F10(x) 0.8 1.0 Damit ergibt sich folgende Zeichnung der empirischen Verteilungsfunktion der Preise: 450 500 550 Preis b) Diese Frage lässt sich relativ leicht beantworten, wenn man sich klar macht, welche Szenarien überhaupt eintreten können. Wählt der elfte Anbieter seinen Preis über dem Durchschnitt der bereits beobachteten zehn Preise, so zieht er damit den Durchschnitt unweigerlich nach oben. Wählt der dagegen einen Preis, der kleiner als der Durchschnitt der bereits beobachteten zehn Preise ist, so muss der Durchschnitt danach sinken. Soll sich der durchschnittliche Preis nicht ändern, so muss der elfte Anbieter also seinen Preis so wählen, dass er genau dem Durchschnitt der bereits beobachteten zehn Preise entspricht. Mit anderen Worten: Der elfte Anbieter muss folgenden Preis wählen: x11 = x̄a10 4 X = h(ai ) · ai i=1 = 0, 3 · 450 + 0, 4 · 500 + 0, 2 · 525 + 0, 1 · 550 = 495. Lösung zu Aufgabe 3: Um beide Kennzahlen bestimmen zu können, müssen aus der gegebenen empirischen Verteilungsfunktion zuerst die möglichen Realisationen von X sowie deren relative Häufigkeiten rekonstruiert werden. Da die Sprungstellen der empirischen Verteilungsfunktion mit den möglichen Realisationen a1 , a2 , . . . , ak von X zwingend übereinstimmen, kommen als mögliche Anzahlen der Versuche zum Bestehen der Statistik-Klausur nur die Werte a1 = 1, a2 = 2 und a3 = 3 infrage. Deren relative Häufigkeiten lassen sich direkt aus der empirischen Verteilungsfunktion ablesen: h(1) = 1/2, h(2) = 1/4 und h(3) = 1/4. Damit ergeben sich für die gesuchten Kennzahlen die Werte x̄a = k X i=1 h(ai ) · ai = 0, 5 · 1 + 0, 25 · 2 + 0, 25 · 3 = 1, 75 sowie sx v u k uX = t h(ai ) · (ai − x̄a )2 i=1 = = p p 0, 5 · (1 − 1, 75)2 + 0, 25 · (2 − 1, 75)2 + 0, 25 · (3 − 1, 75)2 0, 6875 ≈ 0, 8292. Lösung zu Aufgabe 4: Es sei X = monatliches Einkommen“. Gegeben sind dann folgende Informationen: ” x̄aM = 5000, x̄aF = 4500, sM = sF = 0. Eine Standardabweichung von null bedeutet, dass die zugehörigen Beobachtungen überhaupt nicht schwanken. Also müssen alle Beobachtungen den gleichen Wert aufweisen, nämlich den des Durchschnittseinkommens in der jeweiligen Geschlechtsgruppe. Mit anderen Worten: In der Untersuchung wurde für jeden der 20 Männer ein monatliches Einkommen in Höhe von 5000 Euro und für jede der 30 Frauen ein monatliches Einkommen in Höhe von 4500 Euro beobachtet. Für die Bestimmung der Standardabweichung aller 50 Einkommen ist zunächst das gemeinsame Durchschnittseinkommen aller 50 Personen wie folgt zu berechnen: 1 · (Gesamteinkommen der Männer + Gesamteinkommen der Frauen) 50 1 · (20 · 5000 + 30 · 4500) = 50 = 4700. x̄ages = Damit ergibt sich zunächst die Varianz aller Einkommen zu: 50 s2ges ¢2 1 X¡ xi − x̄ages = 50 i=1 ¤ 1 £ · 20 · (5000 − 4700)2 + 30 · (4500 − 4700)2 = 50 = 60000. Also beträgt die Standardabweichung aller 50 Einkommen sges = √ 60000 ≈ 244, 95 Euro. Lösung zu Aufgabe 5: Um einen geeigneten Durchschnitt der individuellen Wachstumsraten der sechs Wertpapiere bestimmen zu können, sollten zuerst die individuellen Wachstumsraten berechnet werden. Die Wachstumsrate des i-ten Wertpapiers ist gegeben durch: Kurs von Wertpapier i am Jahresende − Kurs von Wertpapier i am Jahresanfang Kurs von Wertpapier i am Jahresanfang Kurs von Wertpapier i am Jahresende = − 1. Kurs von Wertpapier i am Jahresanfang ri = Somit folgt: r1 = 1/3, r2 = −1/3, r3 = −1/5, r4 = 3/2, r5 = 1/4, r6 = 0. Doch welcher Durchschnitt ist nun geeignet? Das geometrische Mittel, das einem beim Stichwort Wachstumsraten“ vielleicht zuerst in den Sinn kommt, scheidet aus. Denn hier ist nicht ” nach der durchschnittlichen Wachstumsrate eines Wertpapiers im Zeitverlauf gefragt, sondern nach der durchschnittlichen Wachstumsrate mehrerer Wertpapiere eines Depot über einen festen Zeitraum. Das (einfache) arithmetische Mittel ist ebenfalls ungeeignet, weil die einzelnen Wertpapiere die Wertentwicklung des Depots unterschiedlich stark beeinflussen. So hat beispielsweise ein Kursanstieg von Wertpapier 1 um 10% eine andere Auswirkung als ein Kursanstieg von Wertpapier 6 um 10%. Derartige Unterschiede berücksichtigt nur das gewichtete arithmetische Mittel. Als Gewichte dienen dabei die Anteile der Wertpapiere am Gesamtwert des Depots zum Jahresanfang. Somit ist: g1 = 60 400 = 0, 15; g2 = 90 400 = 0, 225; g3 = 100 400 = 0, 25; g4 = 20 400 = 0, 05; g5 = 80 400 = 0, 2; g6 = 500 400 = 0, 125. Damit ergibt sich eine durchschnittliche individuelle Wachstumsrate von r̄ga = 6 X i=1 gi · ri = 0, 15 · 1/3 − 0, 225 · 1/3 − 0, 25 · 0, 2 + 0, 05 · 1, 5 + 0, 2 · 0, 25 + 0, 125 · 0 = 0, 05. Lösung zu Aufgabe 6: Aus der Aufgabenstellung ist zunächst folgendes bekannt: ȳ a = 8, 5; sy = 1, 2; sxy = 27. Zur Bestimmung des Bravais-Pearson-Korrelationskoeffizienten fehlt also nur noch die Standardabweichung der Geschwindigkeiten. Da insgesamt 11 Geschwindigkeiten gemessen wurden und sich diese in gleichmäßigen Abständen zwischen 50 und 130 km/h verteilen, muss dieser Abstand gerade (130 − 50)/10 = 8 km/h betragen. Die gemessen Geschwindigkeiten lauten also: x1 = 50, x2 = 58, x7 = 98, x8 = 106, x3 = 66, x9 = 114, x4 = 74, x5 = 82, x10 = 122, x6 = 90, x11 = 130. Daraus folgt n x̄a = 1X xi n i=1 1 · (50 + 58 + 66 + 74 + 82 + 90 + 98 + 106 + 114 + 122 + 130) 11 = 90 = und n s2x = n 1X 1X 2 (xi − x̄a )2 = xi − (x̄a )2 n i=1 n i=1 1 · (502 + 582 + 662 + 742 + 822 + 902 + 982 + 1062 + 1142 + 1222 + 1302 ) − 902 11 = 640. = Damit ergibt sich der Bravais-Pearson-Korrelationskoeffizient zwischen der Geschwindigkeit und dem Benzinverbrauch zu sxy 27 rxy = = 0, 8894. =√ s x · sy 640 · 1, 2 Lösung zu Aufgabe 7: Die Kategorie, in die der Makler seine Häuser einteilt, ist ein ordinal skaliertes Merkmal. Deshalb kann hier der Bravais-Pearson-Korrelationskoeffizient nicht verwendet werden. Ein geeignetes Maß für den Zusammenhang zwischen Preis und Kategorie der Häuser ist vielmehr der Rangkorrelationskoeffizient nach Spearman. Im Folgenden sei dazu X = Preis“ ” und Y = Kategorie“. Die folgende Tabelle enthält die der Größe nach aufsteigend zugewie” senen Ränge für beide Merkmale: Haus 1 2 3 4 5 6 7 8 8 10 250 100 700 270 310 450 240 260 320 300 Rang R(xi ) 3 1 10 5 7 9 2 4 8 6 Kategorie yi 3 1 5 2 4 5 3 2 4 2 Rang R(yi ) 5,5 1 9,5 3 7,5 9,5 5,5 3 7,5 3 Preis xi Ein Wort zu den Rängen von Y : Da der Makler mehrere Häuser der gleichen Kategorie zugeordnet hat, treten hier Bindungen auf. So fallen etwa drei Häuser in Kategorie 2 (nämlich 4, 8 und 10). Beim Zuweisen der Ränge müssen diese Bindungen berücksichtigt werden, was hier durch das Bilden von Durchschnittsrängen geschieht. Kategorie 2 erhält damit den Rang 2+3+4 R(2) = = 3. 3 Mit diesen Werten lässt sich nun der Rangkorrelationskoeffizient nach Spearman berechnen. Dieser ist gegeben durch: n ¡ ¢¡ ¢ P R(xi ) − R̄xa R(yi ) − R̄ya R = r n i=1 . rxy n ¡ ¢2 P ¢2 P¡ a a R(xi ) − R̄x · R(yi ) − R̄y i=1 i=1 Zunächst gilt: R̄xa = R̄ya = 5, 5. Damit folgt: n X ¡ i=1 R(xi ) − R̄xa ¢¡ R(yi ) − R̄ya ¢ = −2, 5 · 0 + (−4, 5)2 + 4, 5 · 4 + · · · − 0, 5 · 2, 5 = 0 + 20, 25 + 18 + · · · − 1, 25 = 64. Weiter ist n X ¡ i=1 R(xi ) − R̄xa ¢2 = (3 − 5, 5)2 + (1 − 5, 5)2 + (10 − 5, 5)2 + · · · + (6 − 5, 5)2 = 6, 25 + 20, 25 + 20, 25 + · · · + 0, 25 = 82, 5 und n X ¡ i=1 R(yi ) − R̄ya ¢2 = (5, 5 − 5, 5)2 + (1 − 5, 5)2 + (9, 5 − 5, 5)2 + · · · + (3 − 5, 5)2 = 0 + 20, 25 + 16 + · · · + 6, 25 = 79. Damit lautet der Rangkorrelationskoeffizient nach Spearman R rxy =√ 64 = 0, 793. 82, 5 · 79 Lösung zu Aufgabe 8: Die allgemeine Form einer KQ-Geraden lautet: ŷi = â + b̂ xi , i = 1, . . . , n, â = ȳ a − b̂ x̄a und b̂ = mit sxy . s2x a) Für die Bestimmung der KQ-Geraden müssen also zunächst die durchschnittlichen Stückzahlen, die Varianz der Stückzahlen, die durchschnittlichen Stückkosten und die Kovarianz beider Merkmale berechnet werden. Dies geschieht am einfachsten anhand folgender Tabelle: P xi xi − x̄a (xi − x̄a )2 yi yi − ȳ a (xi − x̄a )(yi − ȳ a ) 10 -7 49 50 9 -63 15 -2 4 40 -1 2 15 -2 4 45 4 -8 20 3 9 40 -1 -3 25 8 64 30 -11 -88 85 0 130 205 0 -160 Somit ist x̄a = 17, s2x = 26, ȳ a = 41, sxy = −32. Daraus folgt b̂ = −32 = −1, 231 und â = 41 + 1, 231 · 17 = 61, 927. 26 Die KQ-Gerade lautet damit: ŷi = 61, 927 − 1, 231 xi . b) Gesucht ist nun die Stückzahl xi , für die ŷi ≤ 25 gilt. Einsetzen in die KQ-Gerade liefert: ŷi = 61, 927 − 1, 231 xi ≤ 25 ⇔ xi ≥ 61, 927 − 25 = 29, 998. 1, 231 Ab einer Menge von 30 produzierten Stück sind somit Stückkosten von weniger als 25 Euro/Stück zu erwarten. Lösung zu Aufgabe 9: Sei im Folgenden X = Anzahl der Arbeitslosen in der Region (in 1000)“ und Y = Anzahl ” ” der Krankmeldungen im Unternehmen“. a) Analog zur vorherigen Aufgabe sind zunächst die durchschnittlichen Arbeitslosenzahlen, die durchschnittliche Anzahl an Krankmeldungen, die Varianz der Arbeitslosenzahlen und die empirische Kovarianz beider Merkmale zu bestimmen. In Vorbereitung auf Aufgabenteil b) wird anhand der folgenden Tabelle auch die Varianz der Anzahl der Krankmeldungen berechnet: P xi xi − x̄a (xi − x̄a )2 yi yi − ȳ a (yi − ȳ a )2 (xi − x̄a )(yi − ȳ a ) 5 -5 25 18 9 81 -45 6 -4 16 16 7 49 -28 6 -4 16 14 5 25 -20 7 -3 9 13 4 16 -12 17 7 49 2 -7 49 -49 15 5 15 3 -6 36 -30 15 5 15 4 -5 25 -25 13 3 9 6 -3 9 -9 12 2 4 7 -2 4 -4 9 -1 1 10 1 1 -1 8 -2 4 7 -2 4 4 7 -3 9 8 -1 1 3 120 0 192 108 0 300 -216 ȳ a = 9, s2y = 25, Somit ist x̄a = 10, s2x = 16, sxy = −18. Daraus ergeben sich folgende Koeffizienten der KQ-Geraden: b̂ = −18 = −1, 125 und â = 9 + 1, 125 · 10 = 20, 25. 16 Die KQ-Gerade für die Anzahl der Krankmeldungen in Abhängigkeit von der Anzahl der Arbeitslosen in der Region lautet damit: ŷi = 20, 25 − 1, 125 xi . Grafisch stellt sich die KQ-Gerade wie folgt dar: Krankmeldungen 20 15 10 5 0 0 5 10 15 20 Arbeitslose in 1000 Noch ein Tipp zum Zeichnen einer KQ-Geraden: Eine Gerade ist eindeutig durch zwei Punkte festgelegt. Jede KQ-Gerade verläuft durch den so genannten Schwerpunkt der Daten, S = (x̄a , ȳ a ). Beide arithmetischen Mittel wurden bereits bestimmt, so dass mit S = (10, 9) der erste Punkt, der die KQ-Gerade festlegt, schon gefunden ist. Der zweite Punkt kann beliebig gewählt werden. Zum einfacheren Zeichnen empfiehlt sich jedoch ein Punkt, der von S etwas weiter entfernt liegt. Wählt man etwa als x-Koordinate 2, so ergibt sich die zugehörige y-Koordinate 20, 25 − 1, 125 · 2 = 18. Die KQ-Gerade ist damit durch die Punkte (10, 9) und (2, 18) festgelegt. b) Ein geeignetes Maß für die Anpassungsgüte der KQ-Geraden ist das Bestimmtheitsmaß R2 = s2ŷ . s2y Um dieses zu berechnen, müssen zunächst die von der KQ-Geraden prognostizierten Anzahlen an Krankmeldungen, ŷi , bestimmt werden. Sie lauten: Jahr 97 98 99 00 01 02 03 04 05 06 07 08 xi 5 6 6 7 17 15 15 13 12 9 8 7 ŷi 14,625 13,5 13,5 12,375 1,125 3,375 3,375 5,625 6,75 10,125 11,25 12,375 Mit ŷ¯a = ȳ a = 9 folgt daraus sofort s2ŷ = 20, 25 und schließlich R2 = 20, 25 = 0, 81. 25 c) Um die Anzahl an Krankmeldungen für das Jahr 2009 mit Hilfe der KQ-Geraden zu prognostizieren, ist einfach die Anzahl der Arbeitslosen für das Jahr 2009, x13 = 10, in die KQ-Gerade einzusetzen. Damit ergibt sich: ŷ13 = 20, 25 − 1, 125 x13 = 20, 25 − 1, 125 · 10 = 9. Es sind also für das Jahr 2009 neun Krankmeldungen im Unternehmen zu erwarten. Übrigens lässt sich dieses Vorgehen noch einmal anhand der folgenden Grafik veranschaulichen: Krankmeldungen 20 15 10 5 0 0 5 10 15 20 Arbeitslose in 1000 Lösung zu Aufgabe 10: In der Vorlesung wurden nur die Preisindices nach Laspeyres und Paasche behandelt. a) Die Frage, welcher Index-Typ in der vorliegenden Situation geeignet ist, lässt sich grundsätzlich anhand der gegebenen Informationen beantworten. Da hier nur die Ausgabenanteile aus der Basisperiode bekannt sind, lässt sich auch nur der Preisindex nach Laspeyres bestimmen. (Der Preisindex nach Paasche benötigt analoge Informationen aus der Berichtsperiode.) b) Da in der vorliegenden Situation nicht alle Preise und alle konsumierten Mengen der vier Güter bekannt sind, sondern nur“ deren relative Preisänderungen und die ent” sprechenden Ausgabenanteile, ist folgende Formel für den Preisindex nach Laspeyres zu verwenden: n X pt (i) L P0t = . g0 (i) p (i) 0 i=1 Mit pt (1) pt (2) pt (4) = = = 1, 1; p0 (1) p0 (2) p0 (4) pt (3) = 1; p0 (3) g0 (1) = g0 (2) = g0 (3) = g0 (4) = 1 4 ergibt sich 1 (1, 1 + 1, 1 + 1 + 1, 1) = 1, 075. 4 Gemessen am Laspeyres-Index steigen die Preise der vier Güter damit durchschnittlich P0tL = um 7,5%. c) Der Laspeyres-Index signalisiert ein konstantes Preisniveau, wenn P0tL = 1 gilt. Einsetzen in obige Gleichung liefert: ¶ µ pt (3) 1 L P0t = + 1, 1 = 1 1, 1 + 1, 1 + 4 p0 (3) ⇔ pt (3) = 0, 7. p0 (3) Damit müsste der Milchpreis um 30% fallen, damit der Laspeyres-Index ein konstantes Preisniveau anzeigt. Lösung zu Aufgabe 11: Für die Güter Strom“ und Gas“ sind aus beiden Jahren alle Preise und alle konsumier” ” ten Mengen bekannt. Daher lässt sich hier für den Paasche-Index die Formel anwenden, die auf dem Vergleich der tatsächlichen Gesamtausgaben in 2008 mit den hypothetischen Gesamtausgaben in 2007 beruht. Es ist n P p08 (i) · q08 (i) 482, 00 482, 00 i=1 P = P07,08 = P = = 1, 0905. n 0, 17 · 1400 + 3, 40 · 60 442, 00 p07 (i) · q08 (i) i=1 Also liegt die mittlere Preissteigerung nach Paasche für den betrachteten Warenkorb leicht über 9%. Lösung zu Aufgabe 12: Wenn sich die Preise aller Güter eines Warenkorbs um den gleichen Anteil verändern, dann bleibt der durchschnittlichen Preisänderung nichts anderes übrig, als genau dasselbe zu tun. Folglich muss auch der Preisindex nach Laspeyres eine Preissteigerung um 20% signalisieren, d. h. es ist P0tL = 1, 2. Formal lässt sich dies wie folgt zeigen: Betrachten wir die Formel, die den Laspeyres-Index als gewichtete Summe der individuellen Preisänderungen darstellt. Dann gilt: n n X X pt (i) g0 (i) · = 1, 2 · g0 (i) = 1, 2. P0tL = p (i) 0 i=1 | {z } |i=1 {z } =1,2 =1 Völlig analog kann stattdessen auch die Formel verwendet werden, die den Laspeyres-Index als Quotient aus den hypothetischen Gesamtausgaben in der Berichts- und den tatsächlichen Gesamtausgaben in der Basisperiode darstellt. Die/Der geneigte Leser/in möge dies als weitere Übung betrachten. Teil 2 – Wahrscheinlichkeitsrechnung Lösung zu Aufgabe 13: Um die gesuchte Wahrscheinlichkeit zu berechnen, sollte man sich zunächst klarmachen, was das Ereignis genau eine Zusage“ bedeutet. Sagt dem Absolventen eine der drei Firmen zu, ” so müssen ihm die anderen beiden Firma zwingend eine Absage erteilen. Für dieses Szenario gibt es nun wiederum drei Möglichkeiten (alias drei Firmen, die dem Absolventen zusagen). Seien dazu folgende unabhängige Ereignisse definiert: A = erste Firma sagt zu“ mit P (A) = 0, 8; ” B = zweite Firma sagt zu“ mit P (B) = 0, 65; ” C = dritte Firma sagt zu“ mit P (C) = 0, 3. ” Dann folgt: genau eine Zusage“ = (A ∩ B̄ ∩ C̄) ∪ (Ā ∩ B ∩ C̄) ∪ (Ā ∩ B̄ ∩ C). ” Somit ergibt sich die gesuchte Wahrscheinlichkeit zu P ( genau eine Zusage“) ” = P [(A ∩ B̄ ∩ C̄) ∪ (Ā ∩ B ∩ C̄) ∪ (Ā ∩ B̄ ∩ C)] = P (A ∩ B̄ ∩ C̄) + P (Ā ∩ B ∩ C̄) + P (Ā ∩ B̄ ∩ C) Unabh. = P (A) · P (B̄) · P (C̄) + P (Ā) · P (B) · P (C̄) + P (Ā) · P (B̄) · P (C) = 0, 8 · 0, 35 · 0, 7 + 0, 2 · 0, 65 · 0, 7 + 0, 2 · 0, 35 · 0, 3 = 0, 308. Die Wahrscheinlichkeit, dass der Absolvent genau eine Zusage erhält, beträgt 30,8%. Lösung zu Aufgabe 14: Wie in der vorherigen Aufgabe sollten zunächst einmal die zu betrachtenden Ereignisse definiert werden. Sei dazu etwa O = Oberteil weist keine Fehler auf“ mit P (O) = 0, 95; ” S = Sohle weist keine Fehler auf“ mit P (S) = 0, 9; ” A = Absatz weist keine Fehler auf“ mit P (A) = 0, 98. ” Laut Voraussetzung sind diese drei Ereignisse voneinander unabhängig. a) Da ein Schuh einwandfrei ist, wenn er keine Fehler aufweist, gilt: P (einwandfreier Schuh) = Unabh. P (O ∩ S ∩ A) = P (O) · P (S) · P (A) = 0, 95 · 0, 9 · 0, 98 = 0, 8379. b) Zunächst gilt natürlich P (Schuh wird aussortiert) = P (mehr als ein Fehler) = P (zwei Fehler) + P (drei Fehler). Diese zwei Wahrscheinlichkeiten kann man nun berechnen. Muss man aber nicht. Denn die Umformung P (Schuh wird aussortiert) = 1 − P (höchstens ein Fehler) = 1 − [P (kein Fehler) + P (ein Fehler)] erspart wertvolle Zeit, da jetzt nur noch eine Wahrscheinlichkeit berechnet werden muss (P (kein Fehler) wurde ja schon in a) bestimmt). Vollkommen analog zur vorherigen Aufgabe ergibt sich zunächst: P (ein Fehler) = P [(Ō ∩ S ∩ A) ∪ (O ∩ S̄ ∩ A) ∪ (O ∩ S ∩ Ā)] = P (Ō ∩ S ∩ A) + P (O ∩ S̄ ∩ A) + P (O ∩ S ∩ Ā) Unabh. = P (Ō) · P (S) · P (A) + P (O) · P (S̄) · P (A) + P (O) · P (S) · P (Ā) = 0, 05 · 0, 9 · 0, 98 + 0, 95 · 0, 1 · 0, 98 + 0, 95 · 0, 9 · 0, 02 = 0, 1543. Damit folgt insgesamt P (Schuh wird aussortiert) = 1 − (0, 8279 + 0, 1543) = 0, 0078. Lösung zu Aufgabe 15: Halten wir zunächst wieder fest, was in der Aufgabenstellung gegeben ist. Es geht um einen Studenten bzw. die Frage, wie er sich bei zwei Klausuren schlägt. Dazu seien erst einmal folgende Ereignisse definiert: K1 = Student besteht die erste Klausur“ ” K2 = Student besteht die zweite Klausur“ ” Im Gegensatz zu den vorherigen beiden Aufgaben sind jetzt die individuellen Wahrscheinlichkeiten beider Ereignisse unbekannt. Allerdings ist bekannt, dass der Student beide Klausuren mit einer Wahrscheinlichkeit von 45% besteht, d. h. es ist P (K1 ∩ K2 ) = 0, 45. Ferner ist bekannt, dass er die zweite Klausur mit einer Wahrscheinlichkeit von 60% besteht, gegeben er hat die erste Klausur bereits bestanden, d. h. es ist P (K2 | K1 ) = 0, 6. Gesucht ist letzt- endlich die Wahrscheinlichkeit, mit der der Student die erste Klausur besteht, also P (K1 ). Glücklicherweise finden sich alle drei beteiligten Wahrscheinlichkeiten in der Definition der bedingten Wahrscheinlichkeit wieder. Übersetzt auf das gegebene Problem lautet diese Definition: P (K2 | K1 ) = P (K1 ∩ K2 ) . P (K1 ) Somit folgt P (K1 ) = P (K1 ∩ K2 ) 0, 45 = = 0, 75. P (K2 | K1 ) 0, 6 Der Student besteht die erste Klausur demnach mit einer Wahrscheinlichkeit von 75%. Lösung zu Aufgabe 16: Laut Aufgabenstellung ist X = Anzahl der Arbeitstags in einer Woche“. ” a) Hinter der Anzahl der Tage, die die Studentin erwartungsgemäß pro Woche arbeiten muss, verbirgt sich nichts anderes als der Erwartungswert der diskreten Zufallsvariablen X, der sich wie folgt berechnen lässt: E (X) = n X i=1 P (X = xi ) · xi = 0, 05 · 0 + 0, 1 · 1 + 0, 2 · 2 + 0, 25 · 3 + 0, 15 · 4 + 0, 1 · 5 + 0, 1 · 6 + 0, 05 · 7 = 3, 3. Die Studentin arbeitet also erwartungsgemäß 3,3 Tage pro Woche. b) Von Interesse ist nun die Anzahl der Arbeitstage in einem Jahr. Diese neue Zufallsvariable sei im Folgenden mit Y bezeichnet. Da die Wahrscheinlichkeitsfunktion von Y nicht bekannt ist und sich vermutlich auch niemand die Mühe machen möchte, diese aus der Wahrscheinlichkeitsfunktion von X exakt herzuleiten, muss man sich etwas anderes überlegen. Die Idee, auf die Zufallsvariable X zurückzugreifen, ist ja nicht so schlecht. Sei X1 die Anzahl der Arbeitstage in der ersten Woche dieses Jahres, X2 die Anzahl der Arbeitstage in der zweiten Woche dieses Jahres, usw. Dann gilt offensichtlich: Y = 52 X i=1 Xi . Da sich die Wahrscheinlichkeitsfunktion von X in diesem Jahr nach Voraussetzung nicht ändert, besitzen die Zufallsvariablen X1 , X2 , . . . , X52 die gleiche Wahrscheinlichkeitsfunktion wie X. Somit gilt: ! à 52 52 X X Xi = E (Xi ) = 52 · E (X) = 52 · 3, 3 = 171, 6. E (Y ) = E i=1 i=1 Die Studentin arbeitet also erwartungsgemäß 171,6 Tage in einem Jahr. Lösung zu Aufgabe 17: Es empfiehlt sich, statt der Standardabweichung zunächst die Varianz der Lebensdauer des Akkus zu bestimmen. Dies geschieht über die Formel Var (X) = E (X 2 ) − [E (X)]2 . Beide Erwartungswerte lassen sich gemäß Definition wie folgt ausrechnen: E (X) = Z∞ x · f (x) dx −∞ Z4 Z4 1 1 x · (4 − x) dx = 4 x − x2 dx = 8 8 0 0 à ¯4 ! µ µ ¶ ¶ 1 4 1 3 ¯¯ 1 1 3 1 96 64 2 2 − = 2x − x ¯ = 2·4 − ·4 −0 = = 8 3 8 3 8 3 3 3 0 und 2 E (X ) = Z∞ x2 · f (x) dx −∞ Z4 Z4 1 1 = x · (4 − x) dx = 4 x2 − x3 dx 8 8 0 0 ! à ¯4 µ µ ¶ ¶ 1 4 3 1 4 1 4 3 1 4 ¯¯ 8 1 256 192 x − x¯ = ·4 − ·4 −0 = − = = . 8 3 4 8 3 4 8 3 3 3 0 2 Damit ergibt sich eine Varianz der Lebensdauer des Akkus von µ ¶2 24 16 8 4 8 = Var (X) = − − = 3 3 9 9 9 und schließlich eine Standardabweichung der Lebensdauer des Akkus von r √ p 2 2 8 = ≈ 0, 9428. σX = Var (X) = 9 3 Lösung zu Aufgabe 18: Es sei zunächst X = Anzahl der Störfälle pro Tag“ und Y = Kosten der Behebung der ” ” am einem Tag auftretenden Störfälle“. Zur Bestimmung der Korrelation zwischen X und Y werden die Standardabweichungen beider Zufallsvariablen sowie deren Kovarianz benötigt. Dafür braucht man wiederum die Erwartungswerte von X und Y . Die erwartete Anzahl der Störfälle pro Tag lautet: E (X) = n X i=1 xi · P (X = xi ) = 0 · 0, 5 + 1 · 0, 25 + 2 · 0, 15 + 3 · 0, 1 = 0, 85. Offensichtlich gilt weiter Y = K(X). Daraus folgt aber leider nicht, dass E (Y ) = K(E (X)) richtig ist. Dies wäre nämlich nur dann korrekt, wenn die Kostenfunktion K eine lineare Funktion, also eine Gerade ist. Das ist sie aber nicht. Somit müssen die erwarteten Kosten genau wie E (X) über die eigentliche Definition des Erwartungswertes berechnet werden. Für die möglichen Realisationen von Y gilt dabei yi = K(xi ). Also erhält man n X E (Y ) = i=1 n X = i=1 yi · P (Y = yi ) K(xi ) · P (X = xi ) = 1000 · 0, 5 + 3000 · 0, 25 + 3667 · 0, 15 + 4000 · 0, 1 = 2200, 05. Völlig analog lassen sich die Erwartungswerte der quadrierten Zufallsvariablen bestimmen. Sie lauten: 2 E (X ) = n X i=1 x2i · P (X = xi ) = 02 · 0, 5 + 12 · 0, 25 + 22 · 0, 15 + 32 · 0, 1 = 1, 75. und E (Y 2 ) = n X i=1 yi2 · P (Y = yi ) = 2 2 n X i=1 (K(xi ))2 · P (X = xi ) = 1000 · 0, 5 + 3000 · 0, 25 + 36672 · 0, 15 + 40002 · 0, 1 = 6367033. Damit nehmen die Maße für die Streuung von X und Y folgende Werte an: und Var (X) = E (X 2 ) − (E (X))2 = 1, 75 − 0, 852 = 1, 0275 bzw. p 1, 0275 ≈ 1, 0137 σX = Var (Y ) = E (Y 2 ) − (E (Y ))2 = 6367033 − 2200, 052 = 1526813 bzw. √ σY = 1526813 ≈ 1235, 643. Dann fehlt nur noch die Kovarianz zwischen der Anzahl der Störfälle pro Tag und den zu deren Behebung notwendigen Kosten. Diese ergibt sich wie folgt: σXY = E (XY ) − E (X) E (Y ) n X xi · yi · P (X = xi ∩ Y = yi ) − E (X) E (Y ) = i=1 = n X i=1 xi · K(xi ) · P (X = xi ) − E (X) E (Y ) = 0 · 1000 · 0, 5 + 1 · 3000 · 0, 25 + 2 · 3667 · 0, 15 + 3 · 4000 · 0, 1 − 0, 85 · 2200, 05 = 1180, 057. Wegen Y = K(X) bzw. yi = K(xi ) ist dabei die Vereinfachung P (X = xi ∩ Y = yi ) = P (X = xi ∩ K(X) = K(xi )) = P (X = xi ) möglich. Letztendlich beträgt die Korrelation zwischen X und Y damit ρXY = σXY 1180, 057 ≈ 0, 942. = σX σY 1, 0137 · 1235, 643 Lösung zu Aufgabe 19: Wie so oft empfiehlt es sich, zunächst einmal alle in der Aufgabenstellung gegebenen Informationen zu sortieren. Was ist gegeben? Was ist gesucht? Beginnen wir zur Abwechselung mit der zweiten Frage. Gesucht ist hier der erwartete Gewinn, wohlgemerkt des Versicherers. Wegen Gewinn = Erlös − Kosten gilt E (Gewinn) = E (Erlös) − E (Kosten). Wie groß ist nun der erwartete Erlös? Der Versicherer bekommt am Anfang des Jahres 200 Euro, völlig unabhängig davon, ob der 50-jährige Mann innerhalb des folgenden Jahres verstirbt oder nicht. Also ist E (Erlös) = 200. Welche Kosten kommen auf den Versicherer zu? Überlebt der 50-jährige Mann das folgende Jahr, so muss der Versicherer nicht einen Cent zahlen. Verstirbt der 50-jährige Mann innerhalb des folgenden Jahres, so muss der Versicherer 20.000 Euro zahlen. Letzteres geschieht aber nur mit einer Wahrscheinlichkeit von 0,5%. Somit gilt E (Kosten) = 20.000 · 0, 005 = 100. Insgesamt gilt damit: E (Gewinn) = 200 − 100 = 100. Alternativ zu dieser volkswirtschaftlich angehauchten Lösung kann man sich übrigens auch folgendes überlegen: Zunächst sei X = Gewinn des Versicherers“. Zur Berechnung des er” warteten Gewinns, also des Erwartungswerts von X, werden die möglichen Realisationen von X sowie die Wahrscheinlichkeiten, mit denen die möglichen Realisationen angenommen werden, benötigt. Überlebt der 50-jährige Mann das folgende Jahr, so realisiert der Versicherer einen Gewinn von 200 Euro. Dies geschieht mit Wahrscheinlichkeit 1 − 0, 005 = 0, 995. Verstirbt dagegen der 50-jährige Mann innerhalb des folgenden Jahres, so realisiert der Ver- sicherer einen Gewinn von 200 − 20.000 = −19.800 Euro. Dieses Szenario tritt mit einer Wahrscheinlichkeit von 0,5% ein. Damit lautet die Wahrscheinlichkeitsfunktion von X: xi P (X = xi ) 200 -19.800 0,995 0,005 Somit ergibt sich der erwartete Gewinn des Versicherers zu E (X) = 200 · 0, 995 − 19.800 · 0, 005 = 100. Lösung zu Aufgabe 20: Von Interesse ist hier die Zufallsvariable X = Anzahl der Fehlalarme bei n Anrufen in ” einem Monat“. Der Aufgabenstellung sind zusätzlich folgende Informationen zu entnehmen: Erstens, jeder einzelne Anruf ist entweder ein Fehlalarm oder nicht. Zweitens, die einzelnen Anrufe erfolgen voneinander unabhängig. Drittens, die Wahrscheinlichkeit für einen Fehlalarm ist bei jedem Anruf die gleiche, nämlich 10%. Dies schreit geradezu nach einer Binomialverteilung. Genauer gilt: X ∼ Bin (n; 0, 1). a) Jetzt ist n = 20. Die erwartete Anzahl der Fehlalarme in einem Monat mit 20 Anrufen ist dann E (X) = n p = 20 · 0, 1 = 2. b) Auch wenn in der Aufgabenstellung von der Anzahl der echten Alarme die Rede ist, lässt sich diese Frage auf die Verteilung von X zurückführen. Sei dazu zunächst Y = Anzahl der echten Alarme bei n Anrufen in einem Monat“, wobei wie zuvor n = 20 ” gilt. Dann folgt: P (Y ≥ 18) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) µ ¶ µ ¶ 20 20 0 20−0 + · 0, 11 · (1 − 0, 1)20−1 = · 0, 1 · (1 − 0, 1) 1 0 µ ¶ 20 + · 0, 12 · (1 − 0, 1)20−2 2 = 1 · 1 · 0, 920 + 20 · 0, 1 · 0, 919 + 190 · 0, 12 · 0, 918 = 0, 1216 + 0, 2702 + 0, 2852 = 0, 677. Die Wahrscheinlichkeit dafür, dass die Feuerwehr bei 20 Anrufen in einem Monat mindestens 18 Mal aufgrund eines echten“ Alarms ausrückt, beträgt also 67,7%. Diese ” Lösung ergibt sich alternativ übrigens auch direkt über die Verteilung von Y . Wegen X ∼ Bin (n; 0, 1) gilt n − X = Y ∼ Bin (n; 0, 9). Somit folgt: P (Y ≥ 18) = P (Y = 18) + P (Y = 19) + P (Y = 20) µ ¶ µ ¶ 20 20 18 20−18 · 0, 9 · (1 − 0, 9) = · 0, 919 · (1 − 0, 9)20−19 + 18 19 µ ¶ 20 + · 0, 920 · (1 − 0, 9)20−20 20 = 190 · 0, 918 · 0, 12 + 20 · 0, 919 · 0, 1 + 1 · 0, 920 · 1 = 0, 2852 + 0, 2702 + 0, 1216 = 0, 677. Lösung zu Aufgabe 21: Wie immer ist es am Anfang angebracht, sich klarzumachen, welche Informationen gegeben sind und wonach eigentlich gesucht wird. Gegeben sind hier zwei Zufallsvariablen X (monatliche Rendite der Deutschen Bank) und Y (monatliche Rendite des DAX), von denen folgendes bekannt ist: X ∼ N (0, 5; 13), Y ∼ N (0, 5; 6), Cov (X, Y ) = 3. Gesucht ist die Wahrscheinlichkeit, mit der die monatliche Rendite der Deutschen Bank die des DAX um mehr als das Doppelte übersteigt, also kurz P (X > 2 Y ). Mit dieser Wahrscheinlichkeit kann man natürlich noch nichts anfangen, da auf beiden Seiten der Ungleichung Zufallsvariablen stehen. Es sind also zunächst beide Zufallsvariablen auf eine Seite zu bringen. Dies führt zu P (X > 2 Y ) = P (X − 2 Y > 0). Es muss also geklärt werden, welche Verteilung die neue Zufallsvariable X − 2 Y hat. Da sowohl X als auch Y normalverteilt sind und Summen von normalverteilten Zufallsvariablen wieder normalverteilt sind, gehorcht auch X − 2 Y einer Normalverteilung. Wegen E (a X + b Y ) = a E (X) + b E (Y ) und Var (a X + b Y ) = a2 Var (X) + b2 Var (Y ) + 2ab Cov (X, Y ) ergeben sich Erwartungswert und Varianz von X − 2 Y wie folgt: E (X − 2 Y ) = E (X) − 2 E (Y ) = 0, 5 − 2 · 0, 5 = −0, 5 und Var (X − 2 Y ) = Var (X) + (−2)2 Var (Y ) + 2 (−2) Cov (X, Y ) = 13 + 4 · 6 − 4 · 3 = 25. Insgesamt gilt also X − 2 Y ∼ N (−0, 5; 25) bzw. X − 2 Y + 0, 5 √ ∼ N (0; 1). 25 Damit lässt sich nun die gesuchte Wahrscheinlichkeit angeben. Sie lautet: P (X > 2 Y ) = P (X − 2 Y > 0) = 1 − P (X − 2 Y ≤ 0) ¶ µ 0 + 0, 5 X − 2 Y + 0, 5 √ = 1 − Φ(0, 1) = 1 − 0, 5398 ≤ √ = 1−P 25 25 = 0, 4602. Unter den gegebenen Voraussetzungen beträgt die Wahrscheinlichkeit dafür, dass die monatliche Rendite der Deutschen Bank die des DAX um mehr als das Doppelte übersteigt, 46,02%. Lösung zu Aufgabe 22: Zunächst scheint sich auch diese Aufgabe um die Binomialverteilung zu drehen. Denn werden für jeden einzelnen Arbeitstag des Jahres Zufallsvariablen Xi definiert, die signalisieren, ob eine Fahrkartenkontrolle stattfindet oder nicht, 1, Kontrolle am i-ten Arbeitstag Xi = , 0, keine Kontrolle am i-ten Arbeitstag i = 1, . . . , 250, so gilt: uiv X1 , X2 , . . . , X250 ∼ Bin (1; 0, 06). Damit folgt für die eigentlich interessierende Zufallsvariable X = Anzahl der Kontrollen in ” einem Jahr“: X= 250 X i=1 Xi ∼ Bin (250; 0, 06). Gesucht ist dann die Wahrscheinlichkeit P (X ≥ 20). Diese berechnet sich standardmäßig wie folgt: P (X ≥ 20) = 1 − P (X < 20) = 1 − P (X ≤ 19) = 1 − ¶ 19 µ X 250 i=0 i · 0, 06i · 0, 94250−i . Und hier gehen die Probleme los. Zwar existieren diverse Tabellen für die Verteilungsfunktionen von Binomialverteilungen, die gesuchte Wahrscheinlichkeit ist aber mit Sicherheit in keiner solchen Tabelle zu finden. Bleibt noch die Möglichkeit, die gesuchte Wahrscheinlichkeit von Hand“ zu bestimmen. Schade nur, dass die meisten Taschenrechner beim Ausrechnen ” der Binomialkoeffizienten, etwa µ ¶ 250 = 1, 482850 · 1028 , 19 in die Knie gehen, ganz zu schweigen von dem zeitlichen Aufwand, den solche Berechnungen in Anspruch nehmen. Auch schade, dass man in vielen Situationen, z. B. während einer Klausur, keinen leistungsfähigen Computer dabei hat. All das ist aber kein Problem, wenn man sich an dieser Stelle an den zentralen Grenzwertsatz erinnert. Für dessen Anwendung sind zunächst folgende drei Voraussetzungen zu überprüfen: (1) n = 250 ≥ 30 X, (2) n p = 250 · 0, 06 = 15 ≥ 10 X, (3) n (1 − p) = 250 · 0, 94 = 235 ≥ 10 X. Der zentrale Grenzwertsatz darf somit hier angewendet werden. Mit seiner Hilfe folgt: ! à 19 − n p X − np <p P (X ≥ 20) = 1 − P (X ≤ 19) = 1 − P p n p (1 − p) n p (1 − p) à ! X − 250 · 0, 06 19 − 250 · 0, 06 = 1−P √ <p 250 · 0, 06 · 0, 94 250 · 0, 06 · 0, 94) µ ¶ µ ¶ X − 15 19 − 15 19 − 15 = 1−P √ =1−Φ √ ≈ 1 − Φ(1, 07) < √ 14, 1 14, 1 14, 1 = 1 − 0, 8577 = 0, 1423. Damit beträgt die Wahrscheinlichkeit dafür, an mindestens 20 von 250 Arbeitstagen in eine Fahrkartenkontrolle zu geraten, ungefähr 14,23%. Teil 3 – Schließende Statistik Lösung zu Aufgabe 23: Es sei X = Stundenlohn“, µ = E (X) der durchschnittliche Stundenlohn und σ 2 = Var (X) ” die Varianz der Stundenlöhne. Ein erwartungstreuer Schätzer für den durchschnittlichen Stundenlohn ist durch das arithmetische Mittel der Stundenlöhne gegeben. Hier lautet es: n 1X Xi µ̂ = X̄ = n i=1 = 285 1 · (4 · 13 + 6 · 18 + 5 · 25) = = 19. 15 15 Damit wird der durchschnittliche Stundenlohn erwartungstreu auf 19 Euro geschätzt. 2 Ein erwartungstreuer Schätzer für die Varianz der Stundenlöhne ist der Schätzer S̃X , der der Summe der quadrierten Abweichungen der Stundenlöhne vom erwartungstreu geschätzten durchschnittlichen Stundenlohn, dividiert durch n − 1, entspricht. Also: n 2 = σ̂ 2 = S̃X = 1 X (Xi − X̄)2 n − 1 i=1 ¤ 330 1 £ · 4 · (13 − 19)2 + 6 · (18 − 19)2 + 5 · (25 − 19)2 = = 23, 571. 14 14 Damit wird die Varianz der Stundenlöhne erwartungstreu auf 23,571 (Euro2 ) geschätzt. Lösung zu Aufgabe 24: Es sei X = täglich vor dem Fernseher verbrachte Zeit in Stunden“. Gesucht ist dann ein ” erwartungstreuer Schätzer für den unbekannten Anteil p = P (X ≥ 2). Da aus der vorherigen Aufgabe bekannt ist, dass allgemein das arithmetische Mittel ein erwartungstreuer Schätzer für den unbekannten Erwartungswert einer Zufallsvariablen ist, sollte es nun zuerst das Ziel sein, den unbekannten Anteil p als einen solchen Erwartungswert einer Zufallsvariablen darzustellen. Ein erwartungstreuer Schätzer für p ist dann nämlich schnell gefunden. Dies gelingt, wenn man von den Stichprobenvariablen X1 , X2 , . . . , X20 übergeht zu den Zufallsvariablen Y1 , Y2 , . . . , Y20 mit 1, X ≥ 2 i Yi = , i = 1, . . . , 20. 0, X < 2 i Denn für diese Zufallsvariablen gilt: Yi ∼ Bin (1, p) ⇒ E (Yi ) = 1 · P (Xi ≥ 2) + 0 · P (Xi < 2) = P (Xi ≥ 2) = p. Damit kann der Anteil der Personen, die täglich mindestens zwei Stunden vor dem Fernseher verbringen, wie folgt erwartungstreu geschätzt werden: n 1X Yi p̂ = Ȳ = n i=1 1 · (1 + 0 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0 + 1 + 1 + 1 + 1 + 0 + 1 + 0) 20 11 = 0, 55 = 55%. = 20 = Lösung zu Aufgabe 25: Laut Definition ist von zwei erwartungstreuen Schätzern für einen unbekannten Parameter genau derjenige effizienter, der die kleinere Varianz besitzt. Vor der Bestimmung der Varianzen der beiden gegebenen Schätzer für µ ist also zu überprüfen, ob beide tatsächlich erwartungstreu für µ sind. Sollte wenigstens einer der beiden gegebenen Schätzer nicht erwartungstreu für µ sein, so lässt sich die Frage nach der Effizienz schlicht und ergreifend nicht beantworten. Aber wir haben Glück. Sowohl µ̂1 als auch µ̂2 sind gewichtete arithmetische Mittel der Stichprobenvariablen X1 , X2 , . . . , Xn und somit erwartungstreu für µ. Formal lässt sich dies etwa für µ̂1 wie folgt zeigen (der Nachweis der Erwartungstreue funktioniert für µ̂2 völlig analog): µ ¶ 1 1 (X1 + X2 + Xn−1 + Xn ) = [E (X1 ) + E (X2 ) + E (Xn−1 ) + E (Xn )] E (µ̂1 ) = E 4 4 1 = (µ + µ + µ + µ) = µ. 4 Somit kann die Frage nach der Effizienz über den Vergleich der Varianzen beider Schätzer beantwortet werden. Beide Varianzen berechnen sich aufgrund der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn wie folgt: µ ¶ 1 (X1 + X2 + Xn−1 + Xn ) Var (µ̂1 ) = Var 4 1 = [Var (X1 ) + Var (X2 ) + Var (Xn−1 ) + Var (Xn )] 16 1 2 4 2 = (σ + σ 2 + σ 2 + σ 2 ) = σ . 16 16 und ¶ 3 1 1 3 X1 + X n2 + X n2 +1 + Xn Var (µ̂2 ) = Var 8 8 8 8 9 1 1 9 = Var (X1 ) + Var (X n2 ) + Var (X n2 +1 ) + Var (Xn ) 64 64 64 64 1 2 9 2 9 2 1 2 20 2 5 2 = σ + σ + σ + σ = σ = σ . 64 64 64 64 64 16 µ Wegen Var (µ̂1 ) = 4 2 5 2 σ < σ = Var (µ̂2 ) 16 16 ist µ̂1 effizienter zur Schätzung von µ als µ̂2 . Lösung zu Aufgabe 26: Im Gegensatz zu den vorangegangenen Aufgaben geht es jetzt nicht mehr um Punktschätzer für einen unbekannten Parameter, sondern um Intervallschätzer. Die grundsätzliche Idee solcher Schätzverfahren besteht darin, ein Intervall zu finden, das mit einer möglichst hohen Wahrscheinlichkeit den unbekannten Parameter überdeckt. Es sei X = Wasserverbrauch des neuen Waschmaschinenmodells in Litern“. Die Stichpro” benvariablen X1 , X2 , . . . , X9 sind dann unabhängig und identisch wie X verteilt. Genauer gilt zunächst: ¢ ¡ uiv X1 , X2 , . . . , X9 ∼ N µ, σ 2 . Näheres über die beiden Parameter der Normalverteilung ist zunächst nicht bekannt. a) Allgemein ist ein (1−α)-Konfidenzintervall für den unbekannten Erwartungswert einer Normalverteilung mit gleichzeitig unbekannter Varianz gegeben durch: # " S̃X S̃X KI1−α (µ) = X̄ − tn−1,1− α2 √ ; X̄ + tn−1,1− α2 √ . n n Aus den gegebenen Beobachtungen folgt zunächst X̄ = 1 1 (49 + 44 + 52 + 53 + 50 + 54 + 45 + 48 + 46) = · 441 = 49 9 9 und 2 = S̃X ¤ 1 1 £ (49 − 49)2 + (44 − 49)2 + · · · + (46 − 49)2 = · 102 = 12, 75. 8 8 Wegen 1 − α = 0, 95 folgt weiter tn−1,1− α2 = t8,0.975 = 2, 306. Das gesuchte 95%- Konfidenzintervall für den durchschnittlichen Wasserverbrauch des neuen Waschmaschinenmodells lautet damit: ¸ · √ √ 12, 75 12, 75 KI0,95 (µ) = 49 − 2, 306 · √ ; 49 + 2, 306 · √ 9 9 = [49 − 2, 745; 49 + 2, 745] = [46, 255; 51, 745]. Zusatzfrage: Wie ist dieses Intervall nun zu interpretieren? Antwort: Mit einer Wahrscheinlichkeit von 95% überdeckt das Intervall [46, 255; 51, 745] die vom neuen Waschmaschinenmodell durchschnittlich verbrauchte Wassermenge in Litern. b) Im Gegensatz zu Aufgabenteil a) ist nun die Standardabweichung der zu Grunde liegenden Normalverteilung bekannt. Sie lautet σ = 3 Liter. Dank dieser zusätzlichen Information muss die Varianz der Normalverteilung nicht mehr aus den beobachteten verbrauchten Wassermengen geschätzt werden. Es sollte also nicht verwundern, dass 2 der Schätzer S̃X in dem gesuchten Konfidenzintervall keine Rolle mehr spielt. Vielmehr ersetzt ihn nun vernünftigerweise die bekannte Varianz σ 2 . Das gesuchte Konfidenzintervall lautet damit: · ¸ σ σ KI1−α (µ) = X̄ − u1− α2 √ ; X̄ + u1− α2 √ . n n Nach wie vor ist α = 0, 05. Somit folgt u1− α2 = u0,975 = 1, 96. Das gesuchte 95%Konfidenzintervall ergibt sich damit zu: ¸ · 3 3 KI0,95 (µ) = 49 − 1, 96 · √ ; 49 + 1, 96 · √ 9 9 = [49 − 1, 96; 49 + 1, 96] = [47, 04; 50, 96] . An der Interpretation dieses Konfidenzintervalls ändert sich im Vergleich zu a) nichts. Übrigens sollte auffallen, dass das Konfidenzintervall aus a) etwas breiter als das aus b) ist. Dieser Umstand ist schlicht und ergreifend der Tatsache geschuldet, dass in a) weniger Informationen über die Parameter der zu Grunde liegenden Normalverteilung vorhanden sind. Das Schätzen der Varianz birgt zusätzliche Unsicherheit, die bei einem identischen Konfidenzniveau zwangsweise zu einem breiteren Konfidenzintervall führen muss. c) In der Situation von Aufgabenteil b) beträgt die Länge des 95%-Konfidenzintervalls für den durchschnittlichen Wasserverbrauch des neuen Modells fast vier Liter, bei neun Probeläufen wohlgemerkt. Wieviele Probeläufe sind also notwendig, um die Länge dieses Konfidenzintervalls auf höchstens zwei Liter zu begrenzen? Zur Beantwortung dieser Frage sollte man sich zunächst einmal bewusst machen, wie sich die Länge eines Konfidenzintervalls allgemein angeben lässt. Und zwar gilt: Länge = obere Intervallgrenze − untere Intervallgrenze ¶ µ σ σ α α = X̄ + u1− 2 √ − X̄ − u1− 2 √ n n σ = 2 u1− α2 √ . n Da sowohl das Konfidenzniveau als auch die Standardabweichung konstant bleibt, folgt für die Länge L: L≤2 ⇔ 2 u1− α2 σ √ ≤2 n ⇔ ³ n ≥ 2 u1− α2 σ ´2 = 2 µ 3 2 · 1, 96 · 2 ¶2 = 34, 5744. Es sind also mindestens 35 Probeläufe notwendig, damit das in b) bestimmte 95%Konfidenzintervall für den durchschnittlichen Wasserverbrauch des neuen Modells nicht breiter als zwei Liter ist. Lösung zu Aufgabe 27: Wie in der vorherigen Aufgabe stehen auch hier Konfidenzintervalle für unbekannte Erwartungswerte im Mittelpunkt. Allerdings sind die Stichprobenvariablen nicht mehr normal-, sondern binomialverteilt. Denn setzt man 1, i-ter Befragter lebt unter dem Existenzminimum Xi = , 0, sonst i = 1, . . . , 50, uiv so gilt X1 , X2 , . . . , X50 ∼ Bin (1, p), wobei p der unbekannte Anteil der armen Personen in dem betreffenden Entwicklungsland ist. a) Aus Aufgabe 24 ist bekannt, dass das arithmetische Mittel ein erwartungstreuer Schätzer für p ist. Somit folgt: 50 1 X 30 = 0, 6 = 60%. p̂ = X̄ = Xi = 50 i=1 50 Weiter ist ein (approximatives) Konfidenzintervall für p zum Niveau 1 − α gegeben durch: · KI1−α (p) = p̂ − u1− α2 wobei σ̂ = p ¸ σ̂ σ̂ √ ; p̂ + u1− α2 √ , n n p̂ (1 − p̂) ist. Dies ist allerdings nur dann richtig, wenn die Vorausset- zungen des zentralen Grenzwertsatzes erfüllt sind. Denn im obigen Konfidenzintervall werden die Quantile der zu Grunde liegenden Binomialverteilung durch die entsprechenden Quantile der Standardnormalverteilung näherungsweise bestimmt. Zur großen Überraschung sind hier die Voraussetzungen des zentralen Grenzwertsatzes in der Tat erfüllt: n = 50 ≥ 30 X, n · p̂ = 30 ≥ 10 X, n · (1 − p̂) = 20 ≥ 10 X. Aus α = 0, 1 folgt zunächst u1− α2 = u0,95 = 1, 645. Weiter ist σ̂ = Damit lautet das 90%-Konfidenzintervall für p: · 0, 4899 0, 4899 KI0,9 (p) = 0, 6 − 1, 645 · √ ; 0, 6 + 1, 645 · √ 50 50 = [0, 486; 0, 714]. ¸ √ 0, 6 · 0, 4 = 0, 4899. b) Bereits vor dem Ausrechnen des 95%-Konfidenzintervalls für den unbekannten Anteil der armen Personen in dem Entwicklungsland ist klar, dass dieses breiter als das entsprechende 90%-Konfidenzintervall aus a) sein muss. Denn für die Erhöhung der Vertrauenswahrscheinlichkeit (lies: die erhöhte Sicherheit, keinen Irrtum zu begehen) muss bei gleichbleibendem Stichprobenumfang ein gewisser Preis bezahlt werden. Dieser Preis kann aber nur durch eine schwächere Aussage“ über den unbekannten Erwar” tungswert bezahlt werden. Und eine schwächere Aussage“ drückt sich einfach in einem ” ungenaueren, weil breiteren Konfidenzintervall aus. Der Vollständigkeit halber sei abschließend erwähnt, dass das 95%-Konfidenzintervall wie folgt aussieht: · 0, 4899 0, 4899 KI0,95 (p) = 0, 6 − 1, 96 · √ ; 0, 6 + 1, 96 · √ 50 50 = [0, 464; 0, 736]. ¸ c) Die Breite eines Konfidenzintervalls kann nicht nur über die Vertrauenswahrscheinlichkeit gesteuert werden, sondern auch über den Umfang der Stichprobe. Gesucht ist jetzt der (kleinstmögliche) Stichprobenumfang, für den das resultierende 90%Konfidenzintervall für p nicht breiter als fünf Prozentpunkte ist. Etwas formaler ist also der Wert von n gesucht, ab dem gilt: σ̂ L = 2 u1− α2 √ ≤ 0, 05. n Leider lässt sich diese Ungleichung nicht so einfach nach n umstellen und ausrechnen. Denn der Stichprobenumfang geht indirekt auch in den Schätzer von σ ein: v ! à u n n q X u1 X p 1 σ̂ = p̂ (1 − p̂) = X̄ (1 − X̄) = t Xi · 1 − Xi . n i=1 n i=1 Diese Unannehmlichkeit lässt sich aber über einen einfachen Trick schnell aus der Welt schaffen. Da stets 0 ≤ p̂ ≤ 1 gilt, ist auch die geschätzte Standardabweichung nach oben beschränkt. Genauer gilt stets 0 ≤ σ̂ ≤ 1/2. Daraus folgt allgemein u1− α σ̂ 1/2 L = 2 u1− α2 √ ≤ 2 u1− α2 √ = √ 2 n n n und speziell für diese Aufgabe u1− α L ≤ √ 2 ≤ 0, 05 n ⇔ n≥ µ u1− α2 0, 05 ¶2 = µ 1, 645 0, 05 ¶2 = 1082, 41. Damit müssen mindestens 1083 Personen befragt werden, damit das 90%-Konfidenzintervall für den unbekannten Anteil der armen Personen in diesem Entwicklungsland nicht breiter als fünf Prozentpunkte ist. Lösung zu Aufgabe 28: Statistische Testprobleme werden prinzipiell über die (unbekannten) Parameter einer Verteilung formuliert. Vor der Berechnung der Wahrscheinlichkeiten für die beiden Fehler, zu denen eine Testentscheidung führen kann, ist der gegebenen Situation (hier: dem Untersuchungsgegenstand des Forschers) zwingend eine Verteilung zu unterstellen. In dieser Aufgabe geht es um die Frage, ob die Einkommen von Männern und Frauen gleich sind, also um eine Frage, die sich mit Ja“ oder Nein“ beantworten lässt. Das schreit gerade” ” zu nach einer Binomialverteilung. Und da der Forscher die zehn Ehepaare auch voneinander unabhängig ausgewählt hat und die interessierende Wahrscheinlichkeit p = P (Mann verdient mehr als seine Frau) für alle Ehepaare als konstant angenommen werden kann, sind insgesamt alle drei Voraussetzungen für eine Binomialverteilung gegeben. Setzt man 1, Mann verdient mehr als seine Frau Xi = , i = 1, . . . , 10, 0, sonst dann gilt uiv X1 , X2 , . . . , X10 ∼ Bin (1, p) und das Testproblem des Forscher lässt sich wie folgt formalisieren: H0 : p = 1 2 1 gegen H1 : p 6= . 2 Letztendlich lehnt der Forscher H0 ab, wenn bei allen zehn Ehepaaren der Mann mehr P verdient als seine Frau, wenn also T = 10 i=1 Xi = 10 gilt. Damit ist auch klar, dass die Teststatistik T ebenfalls binomialverteilt ist. Genauer gilt: T ∼ Bin (10, p). a) Der Forscher begeht einen Fehler 1. Art, wenn er obige Nullhypothese ablehnt, obwohl sie korrekt ist. Die Wahrscheinlichkeit hierfür lautet: ¯ µ ¶ ¯ 1 ¯ P (Fehler 1. Art) = P (H1 | H0 ) = P T = 10 ¯ p = 2 µ ¶ µ ¶10 µ ¶10−10 µ ¶10 10 1 1 1 = = 10 2 2 2 = 0, 00098. b) Im Gegensatz dazu begeht der Forscher einen Fehler 2. Art, wenn er obige Nullhypothese nicht ablehnt, obwohl sie eigentlich falsch ist. Angenommen, es gilt p = 2/3. Dieser Wert liegt relativ deutlich im Bereich der Alternativhypothese. Die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, lässt sich dann wie folgt berechnen: ¯ ¶ µ ¯ 2 P (Fehler 2. Art) = P (H0 | H1 ) = P T < 10 ¯¯ p = 3 ¯ µ ¶ ¯ 2 = 1 − P T = 10 ¯¯ p = 3 µ ¶ µ ¶10 µ ¶10−10 µ ¶10 2 10 1 2 = 1− =1− 10 3 3 3 = 0, 98266. c) Zunächst fällt auf, dass die Wahrscheinlichkeit für einen Fehler 2. Art sehr hoch ist. Hier schlägt zu Buche, dass der Forscher die Nullhypothese erst sehr spät“ ablehnt ” (die Männer müssen immer mehr verdienen als ihre Frauen). Somit fällt die Entscheidung des Forschers auch dann eher zu Gunsten der Nullhypothese aus, wenn diese offensichtlich falsch ist. Hier wäre eine weniger restriktive Entscheidungsregel sicherlich wünschenswert. Die Entscheidungsregel des Forschers aber noch einen zweiten Nachteil, und der wiegt weitaus schwerer. Zur Erinnerung: Von Interesse ist, ob die Einkommen von Männern und Frauen gleich sind. Laut seiner Entscheidungsregel lehnt der Forscher diese Nullhypothese aber nur dann ab, wenn die Männer mehr verdienen als ihre Frauen. Es ist aber auch der umgekehrte Fall denkbar. Warum sollen nicht die Frauen grundsätzlich mehr verdienen können als ihre Männer? In diesem Fall wäre T = 0, was ebenso gegen die Nullhypothese spricht, aber hier nicht zu einer Ablehnung führt. Mit anderen Worten: Der gegebenen Fragestellung liegt ein zweiseitiges Testproblem zu Grunde (H1 : p 6= 1/2), die Entscheidungsregel des Forschers gehört aber eindeutig zu einem einseitigen Testproblem (etwa H1 : p > 1/2). Lösung zu Aufgabe 29: Die in der Aufgabenstellung geschilderte Situation lässt sich zunächst wie folgt formalisieren: Im Mittelpunkt steht die Zufallsvariable X = Funktionsdauer einer Glühbirne (in ” Monaten)“. Ein Verkäufer solcher Glühbirnen behauptet, dass E (X) ≥ 12 gilt. Ein Kunde schätzt aufgrund einer Stichprobe vom Umfang n = 20 die erwartete Funktionsdauer auf 11,4 Monate. Mehr ist erstmal nicht bekannt. a) Jetzt werden zusätzlich einige Informationen über die Verteilung von X und damit auch über die Verteilung der Stichprobenvariablen X1 , X2 , . . . , X20 bekannt. Genauer gilt: uiv X1 , X2 , . . . , X20 ∼ N (µ, 9). Das Testproblem des Kunden lautet dann: H0 : µ ≥ 12 gegen H1 : µ < 12. Ein geeigneter Test zum Überprüfen von Hypothesen über unbekannter Erwartungswerte normalverteilter Zufallsvariablen bei bekannter Varianz ist der Gauß-Test. Die obige Nullhypothese wird allgemein zum Niveau α abgelehnt, wenn T = √ X̄ − µ0 n < −u1−α σ gilt. In diesem Fall lautet die Realisation der Teststatistik T : T = √ 20 √ 11, 4 − 12 = − 20 · 0, 2 = −0, 8944. 3 Aus α = 5% folgt weiter: −u1−α = −u0,95 = −1, 645. Damit gilt T = −0, 8944 > −1, 645 = −u1−α und der Kunde kann die Nullhypothese Die Funktionsdauer der Glühbirnen beträgt ” durchschnittlich mindestens ein Jahr.“ zum 5%-Niveau nicht ablehnen. b) Die Gütefunktion eines Tests gibt in Abhängigkeit eines unbekannten Parameters, hier µ, die Wahrscheinlichkeit dafür an, die Nullhypothese zu verwerfen. Entscheidend für die weiteren Berechnungen ist dabei die Tatsache, dass nun µ die in Wirklichkeit wahre erwartete Funktionsdauer der Glühbirnen angibt. Das bedeutet vor allem, dass nun gilt: √ X̄ − µ √ X̄ − µ n = 20 ∼ N (0, 1). σ 3 In Aufgabenteil a) ist diese Aussage für die Verteilung der Teststatistik T richtig. Allerdings gilt sie nur eingeschränkt auf H0 und ist damit für die Berechnung der Gütefunktion nicht geeignet, da letztere über den gesamten Parameterraum (hier: alle reellen Zahlen) zu bestimmen ist! Diese Mahnung im Hinterkopf behaltend, lässt sich nun die Gütefunktion des GaußTests aus a) berechnen. (In der folgenden Lösung werden die konkreten Zahlen“ der ” Entscheidungsregel zum Verwerfen von H0 verwendet. Analog kann die Lösung aber auch mit den abstrakten Werten n statt 20, µ0 statt 12, σ statt 3 und −u0,95 statt −1, 645 hergeleitet werden.) Es gilt mit α = 0, 05: g(µ) = P (H0 ablehnen | µ) ¯ ¶ µ √ X̄ − 12 ¯ < −1, 645 ¯¯ µ = P 20 3 ¯ ¶ µ √ X̄ − µ + µ − 12 ¯ = P 20 < −1, 645 ¯¯ µ 3 ¯ µ √ X̄ − µ √ µ − 12 ¯ 20 + 20 < −1, 645 ¯¯ = P 3 3 ¯ µ √ µ − 12 ¯ √ X̄ − µ ¯ < −1, 645 − 20 20 = P 3 3 ¯ ¯ ¶ µ √ µ − 12 ¯ ¯µ . = Φ −1, 645 − 20 3 ¯ µ ¶ µ ¶ Diese Gütefunktion ist zugegeben etwas unhandlich. Auch wenn man es ihr auf den ersten Blick nicht ansieht, so besitzt sie doch die Form, die jede halbwegs vernünftige Gütefunktion besitzen sollte. Wie die folgende Abbildung zeigt, ist g(µ) auf H0 stets kleiner als das Signifikanzniveau von 5%. Auf H1 strebt die Gütefunktion dagegen verhältnismäßig schnell gegen 1. 1 0.8 g(µ) 0.6 H0 H1 0.4 0.2 α = 0,05 0 8 10 12 14 16 µ c) Es sei jetzt in Wirklichkeit µ = 11 die wahre erwartete Funktionsdauer einer Glühbirne. Bei der Berechnung der Wahrscheinlichkeit, mit der der Kunde einen Fehler 2. Art begeht, zahlen sich endlich die Mühen aus, die man zur Bestimmung der Gütefunktion in Aufgabenteil b) aufbringen musste. Denn auf der Alternativhypothese gilt: g(µ) = P (H0 ablehnen | µ) = P (H1 | H1 ) = 1 − P (H0 | H1 ) = 1 − P (Fehler 2. Art). Das bedeutet im Gegenzug: P (Fehler 2. Art) = 1 − g(µ) = 1 − g(11) ¶ µ √ 11 − 12 = 1 − Φ −1, 645 − 20 3 ≈ 1 − Φ (−0, 15) = 1 − (1 − Φ (0, 15)) = Φ (0, 15) = 0, 5596. Für den Kunden beträgt die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, damit fast 56%. Das ist einerseits viel, andererseits allerdings liegt die unterstellte erwartete Funktionsdauer der Glühbirnen von elf Monaten aber auch noch relativ nah an der Grenze zwischen Null- und Alternativhypothese. Der Gauß-Test hat hier sozusagen noch seine Probleme, zwischen beiden Hypothese treffsicher“ zu unterscheiden. Somit ” kann hier auch keine besonders hohe Güte erwartet werden. Lösung zu Aufgabe 30: Die in der Aufgabenstellung dargelegte Situation ist der aus der vorangegangenen Aufgabe sehr ähnlich. Daher überrascht es nicht, dass auch hier der Gauß-Test zum Einsatz kommt. Aber der Reihe nach: Gegeben ist eine Stichprobe normalverteilte Zufallsvariablen mit bekannter Varianz. Denn ist Xi der Calciumgehalt der i-ten Flasche Mineralwasser, i = 1, . . . , 10, so gilt laut Aufgabenstellung: uiv X1 , X2 , . . . , X10 ∼ N (µ, 2500). Weiter lautet das Testproblem H0 : µ = 1000 gegen H1 : µ 6= 1000. Wie bereits in der vorherigen Aufgabe gesehen, ist der Gauß-Test zum Überprüfen von Hypothesen über unbekannter Erwartungswerte normalverteilter Zufallsvariablen bei bekannter Varianz sehr gut geeignet. Da nun jedoch ein zweiseitiges Testproblem vorliegt, wird die Nullhypothese prinzipiell zum Niveau α abgelehnt, wenn gilt: ¯ ¯ ¯ √ X̄ − µ0 ¯ ¯ > u1− α . | T | = ¯¯ n ¯ 2 σ Anhand der gegebenen Stichprobe ergibt sich folgende Schätzung für den mittleren Calciumgehalt: 1 (950 + 940 + 1025 + 800 + 975 + 1000 + 875 + 990 + 915 + 1030) 10 = 950. X̄ = Daraus folgt für die Teststatistik T des Gauß-Tests: √ 950 − 1000 √ T = 10 = − 10 = −3, 1623. 50 Weiter folgt aus α = 1%: u1− α2 = u0,995 = 2, 576. Wegen | T | = 3, 1623 > 2, 576 = u1− α2 wird die Nullhypothese damit zum 1%-Niveau abgelehnt. Die gegebene Stichprobe spricht also dafür, dass der mittlere Calciumgehalt der Wasserflaschen signifikant von 1000 mg/l abweicht. Lösung zu Aufgabe 31: Wie bei den vorherigen Aufgaben ist es sinnvoll, zunächst die in der Aufgabenstellung enthaltenen Informationen zu bündeln. Offensichtlich ist eine Aussage über eine durchschnittliche Geschwindigkeit zu testen. Welche Tests kommen dafür infrage? Die von der Polizei gemessenen Geschwindigkeiten können als Realisationen einer normalverteilten Zufallsvariablen X aufgefasst werden, genauer gilt für sie: ¢ ¡ uiv X1 , X2 , . . . , X26 ∼ N µ, σ 2 . Aus diesem Grund bieten sich zum Testen von Hypothesen über die durchschnittliche Geschwindigkeit µ der Gauß- und der t-Test an. Das Zünglein an der Waage ist nun die Frage, ob die Varianz σ 2 bekannt ist oder nicht. Im Fall der gemessenen Geschwindigkeiten ist sie es nicht, der Aufgabenstellung ist lediglich eine Schätzung für σ 2 zu entnehmen. Damit ist nur der t-Test ein geeigneter Kandidat zum Überprüfen der Behauptung der Anwohner. Doch wie lautet nun das (einseitige) Testproblem? Da beim Testen per Konstruktion nur der Fehler 1. Art (Entscheidung für H1 , obwohl H0 richtig ist) kontrolliert wird, muss genau die Behauptung in der Alternativhypothese H1 stehen, über die eine gesicherte Aussage getroffen werden soll. Das ist in diesem Fall die Behauptung der Anwohner. Das Testproblem lautet damit: H0 : µ ≤ 40 gegen H1 : µ > 40. Die Nullhypothese wird zum Niveau α abgelehnt, wenn gilt: T = √ X̄ − µ0 n > tn−1;1−α . S̃X Anhand der von der Polizei gemessenen Geschwindigkeiten ergibt sich: T = √ 26 42 − 40 √ = 26 · 0, 4 = 2, 0396. 5 Weiter folgt mit α = 10%: tn−1;1−α = t25;0,9 = 1, 316. Wegen T = 2, 0396 > 1, 316 = tn−1;1−α wird die Nullhypothese Der Durchgangsverkehr ” fährt durchschnittlich höchstens 10 km/h zu schnell.“ zum 10%-Niveau verworfen. Die im Rahmen der Polizeikontrolle gemessenen Geschwindigkeiten stützen somit die Behauptung der Anwohner. Lösung zu Aufgabe 32: Im Gegensatz zu den vorangegangenen Aufgaben enthält die Aufgabenstellung jetzt keine Informationen mehr darüber, dass den zu Grunde liegenden Zufallsvariablen eine Normalverteilung unterstellt werden kann. Der Grund dafür liegt auf der Hand. In dieser Aufgabe geht es um die Frage, ob gewisse Personen unabhängig voneinander eine bestimmte Partei gewählt haben oder nicht. Mit anderen Worten: Im Mittelpunkt des Interesses steht ein Zufallsexperiment mit zwei möglichen Ausgängen (alias Antworten), das insgesamt n-mal wiederholt wird, wobei die Wiederholungen voneinander unabhängig und mit konstanter Erfolgswahrscheinlichkeit (alias konstanter Wahrscheinlichkeit, die Regierungspartei zu wählen) erfolgen. Somit deutet hier alles auf eine Binomialverteilung als zu Grunde liegende Verteilung hin. Formal lässt sich die geschilderte Ausgangssituation wie folgt beschreiben: Es sei Xi ein Indikator dafür, ob der i-te Befragte die Regierungspartei gewählt hat oder nicht, also: 1, i-ter Befragter hat Regierungspartei gewählt , i = 1, 2, . . . , 500. Xi = 0, sonst Dann gilt: uiv X1 , X2 , . . . , X500 ∼ Bin (1, p), wobei p die unbekannte Wahrscheinlichkeit dafür ist, der Regierungspartei seine Stimme zu geben. Da es von Interesse ist, die Behauptung des Regierungschefs zu widerlegen, lautet das Testproblem H0 : p ≥ 1 2 1 gegen H1 : p < . 2 Dieses Testproblem lässt sich mit dem (approximativen) Binomialtest lösen. Dieser Test lehnt die Nullhypothese zum Niveau α ab, wenn gilt: T = √ p̂ − p0 < −u1−α . np p0 (1 − p0 ) Dies gilt allerdings nur dann, wenn drei zusätzliche Bedingungen erfüllt sind (man erinnere sich an den zentralen Grenzwertsatz sowie die Lösung zu Aufgabe 27). Diese Bedingungen lauten: n ≥ 30, (1) (2) np̂ ≥ 10, (3) n (1 − p̂) ≥ 10. In diesem Fall sind die Bedingungen (1) bis (3) in der Tat erfüllt, denn es ist n = 500, np̂ = 230 und n (1 − p̂) = 270. Für die Teststatistik T ergibt sich dann: T = √ 230 500 q 500¡ 1 2 − 1 2 1− ¢= 1 √ 2 Wegen α = 1% gilt weiter √ − 20 500 q500 = − 500 · 0, 08 = −1, 7889. 1 4 −u1−α = −u0,99 = −2, 326. Wegen T = −1, 7889 > −2, 326 = −u1−α wird obige Nullhypothese zum 1%-Niveau nicht verworfen. Die Ergebnisse der Umfrage sprechen damit nicht gegen die Behauptung des Regierungschefs. Lösung zu Aufgabe 33: Es sei X = Geschlecht“ und Y = Interesse an akademischer Karriere“. Zum Überprüfen, ” ” ob diese Merkmale voneinander unabhängig sind, bietet sich der χ2 -Unabhängigkeitstest an. Für dessen Anwendung ist es zunächst sinnvoll, die in der Aufgabenstellung enthaltenen Informationen in einer Kontingenztafel zusammenzufassen. Dies geschieht in der folgenden Tabelle, wobei die kursiv gedruckten Häufigkeiten direkt aus der Aufgabenstellung abgelesen werden können (die restlichen können daraus berechnet werden): Y X P ja nein männlich 160 490 650 weiblich 60 290 350 P 220 780 1000 Aus den Randhäufigkeiten lassen sich nun via H̃ij = Hi• · H•j , n i, j ∈ {1, 2}, die Häufigkeiten berechnen, die zu erwarten sind, wenn die Nullhypothese Die Merkmale X ” und Y sind stochastisch unabhängig.“ tatsächlich richtig ist. Sämtliche unter H0 erwartete Häufigkeiten sind in der folgenden Tabelle zusammengefasst: Y P ja nein männlich 143 507 650 weiblich 77 273 350 P 220 780 1000 X Für alle unter H0 erwarteten Häufigkeiten gilt: H̃ij ≥ 5. Die asymptotische Verteilung der Teststatistik V des χ2 -Unabhängigkeitstests kann demnach hinreichend gut durch eine χ2 Verteilung mit (k − 1)(l − 1) Freiheitsgraden beschrieben werden. Wegen k = l = 2 ist hier (k − 1)(l − 1) = 1. Die Teststatistik V realisiert sich wie folgt: V (160 − 143)2 (490 − 507)2 (60 − 77)2 (290 − 273)2 + + + 143 507 77 273 = 7, 403. = Weiter folgt aus α = 1%: χ2(k−1)(l−1),1−α = χ21;0.99 = 6, 635. Wegen V = 7, 403 > 6, 635 = χ2(k−1)(l−1),1−α wird die Nullhypothese (Unabhängigkeit der Merkmale Geschlecht“ und Interesse an aka” ” demischer Karriere“) zum 1%-Niveau abgelehnt. Lösung zu Aufgabe 34: Zum Überprüfen der Behauptung, dass die Geburten in besagtem Krankenhaus über die Woche gleichverteilt sind, bietet sich der χ2 -Anpassungstest an. Sei dazu pi , i = 1, . . . , 7, die Wahrscheinlichkeit dafür, dass eine Geburt am i-ten Wochentag erfolgt (1 = Montag, 2 = Dienstag, . . . , 7 = Sonntag). Das Testproblem lautet dann: 1 gegen H1 : ¬H0 . H 0 : p1 = p2 = . . . = p7 = 7 Die folgende Tabelle enthält für alle Wochentage die beobachteten sowie die unter Richtigkeit von H0 erwarteten Anzahlen an Geburten. Letztere sind für alle Tage gegeben durch n pi = 840 · 1/7 = 120: Wochentag Mo Di Mi Do Fr Sa So Anzahl Geburten 123 121 128 142 118 110 98 erwartete Anzahl Geburten 120 120 120 120 120 120 120 Für alle unter Gültigkeit von H0 erwarteten Anzahlen an Geburten gilt: n pi ≥ 5. Die asymp- totische Verteilung der Teststatistik V des χ2 -Anpassungstests kann demnach hinreichend gut durch eine χ2 -Verteilung mit k − 1 Freiheitsgraden beschrieben werden, wobei hier k = 7 ist. Die Teststatistik V ergibt sich dann wie folgt: V (123 − 120)2 (121 − 120)2 (128 − 120)2 (142 − 120)2 + + + 120 120 120 120 (118 − 120)2 (110 − 120)2 (98 − 120)2 + + + 120 120 120 = 9, 55. = Mit α = 10% folgt weiter: χ2k−1,1−α = χ26;0.9 = 10, 64, so dass die Nullhypothese Die Anzahl der Geburten ist über die Woche gleichverteilt.“ ” wegen V = 9, 55 < 10, 64 = χ2k−1,1−α zum 10%-Niveau nicht abgelehnt wird.