Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2010 Aufgabe 1 Die Inhaberin des Statistik-Lehrstuhls veranstaltet für die Fahrradgruppe des Lehrstuhls ein Wettfahren. Der Sieger wird in diesem Semester von der Klausuraufsicht und -korrektur befreit und darf stattdessen ins Freibad gehen. Zunächst radelt die Gruppe gemeinsam von Bamberg über Pettstadt nach Strullendorf. Dabei müssen sie mit Hilfe der Pettstadter Fahrrad- und Fußgängerfähre die Regnitz überqueren. Die Fähre setzt alle 10 Minuten über. a) Wie und mit welchen Parameter(n) ist die Zufallsvariable X : Wartezeit der Rad” fahrer auf die nächste Fähre“ verteilt? b) Wie lange müssen die Radfahrer im Durchschnitt auf die nächste Fähre warten? c) Wie groß ist die Wahrscheinlichkeit, dass die Radfahrer mehr als 7 Minuten auf die nächste Fähre warten müssen? Die Inhaberin des Lehrstuhls wartet auf dem Griess-Keller gespannt auf die Fahrer. Dabei sei vereinfachend angenommen, dass die Wartezeit (in Minuten) auf den nächsten eintreffenden Radfahrer auf dem Griess-Keller exponential verteilt sei mit Parameter λ = 1/10. d) Wie lange muss die Inhaberin des Lehrstuhls im Durchschnitt auf die Ankunft des nächsten Radlers warten? e) Wie groß ist die Wahrscheinlichkeit, dass die Inhaberin des Lehrstuhls mehr als eine halbe Stunde auf den nächsten Radler warten muss? Auf dem Griess-Keller sind auch einige Studenten, die sich auf die Statistik-Klausur vorbereiten. Gerade haben sie eine Übungsaufgabe zur Maximum-Likelihood-Methode durchb = 1/X für den Maximumgerechnet, kommen aber nicht auf das richtige Ergebnis λ Likelihood-Schätzer für den Parameter λ von unabhängig identisch exponential-verteilten Zufallsvariablen X1 , . . . , Xn . Die folgende Grafik zeigt den Lösungsweg der Studenten. Zufällig erblicken sie ihre Professorin und bitten sie um Hilfe. Selbstverständlich sieht sie den Fehler sofort. f) Finden auch Sie den Fehler der Studenten. Korrigieren Sie den Fehler. Auf die Weiterführung der Rechnung nach der Fehlerkorrektur kann anschließend verzichtet werden. g) Nennen Sie eine weitere Methode zur Schätzung des Parameters λ einer exponentialverteilten Zufallsvariable mit Parameter λ. Aufgabe 2 Es war einmal vor langer langer Zeit die wunderschöne Prinzessin Victoriana von Schweben auf der Suche nach ihrem Traumprinzen. Doch die Suche gestaltete sich äußerst schwierig, da im fernen Land Schweben die Wahrscheinlichkeit einen gutaussehenden und charmanten Prinzen zu finden nur 0, 1 betrug. a) Wie und mit welchem Parameter ist die Zufallsvariable X: Anzahl der häßlichen ” Prinzen, die um die Hand der Prinzessin anhalten, bevor die Prinzessin einen gutaussehenden Prinzen findet“ verteilt? b) Wie groß ist die Wahrscheinlichkeit, dass sich Prinzessin Victoriana mit genau zwei häßlichen Prinzen treffen muss, bevor ihr Traumprinz um ihre Hand anhält? c) Wie groß müsste die Wahrscheinlichkeit sein, einen gutaussehenden und charmanten Prinzen zu finden, damit Victoriana im Durchschnitt lediglich einen hässlichen Prinzen treffen muss? Der König von Schweben, Carl Gusto, möchte nicht länger auf die Hochzeit seiner Tochter warten und lädt deshalb 50 Prinzen, von denen Prinzessin Victoriana einen erwählen soll, in sein Schloss ein. Leider sind unter ihnen nur 5 gutaussehende und charmante Prinzen. Der König Carl Gusto von Schweben wählt von den 50 Bewerbern die drei Prinzen mit dem größten Vermögen aus, um sie seiner Tochter vorzustellen. d) Wie groß ist die Wahrscheinlichkeit, dass Prinzessin Victoriana von diesen mehr als ein Prinz gefällt? e) Approximiert man die in Teilaufgabe d) gesuchte Wahrscheinlichkeit durch die Normalverteilung erhält man als Ergebnis 0, 0091. Nennen Sie zwei Gründe für die relativ große Abweichung zu Ihrem Ergebnis aus Teilaufgabe d). f) Mit welchem Test würden Sie überprüfen, ob die Größe des jeweiligen Vermögens der Prinzen und ihr Aussehen zusammenhängen? Aufgabe 3 Eine Packung Würfelzucker beinhaltet 168 Stücke Würfelzucker, wobei ein Stück Würfelzucker laut Hersteller im Durchschnitt ca. 3 Gramm (g) wiegt. a) Ist das arithmetische Mittel der Gewichte der 168 Stücke Würfelzucker einer Packung ein erwartungstreuer Schätzer für das durchschnittliche Gewicht eines einzelnen Würfels Zucker? (nur ja oder nein) Das Gewicht des Verpackungsmaterials sei normalverteilt mit dem Erwartungswert 45 g und der Varianz 9 g2 . Das Gewicht X eines Stücks Würfelzuckers sei normalverteilt mit Erwartungswert 3 g und Varianz 0,1 g2 . Weiterhin kann davon ausgegangen werden, dass die Gewichte der Stücke Würfelzucker voneinander ebenso unabhängig sind wie die Gewichte der Verpackungen. Auch das Gewicht der Verpackung und das Gewicht des Würfelzuckers seien voneinander unabhängig. b) Wie und mit welchem/n Parameter(n) ist das Gewicht einer gefüllten Packung Würfelzucker verteilt? Gesucht wird ein geeigneter Schätzer für das Gewicht von 100 gefüllten Packungen Würfelzucker. c) Berechnen Sie dazu zunächst den Erwartungswert und die Varianz für das Gewicht des 100-fachen einer gefüllten Packung Würfelzucker. d) Berechnen Sie nun den Erwartungswert und die Varianz für das Gewicht von 100 gefüllten Packungen Würfelzucker. e) Die beiden Vorgehensweisen aus den Teilaufgaben c) und d) können verwendet werden, um das Gewicht von 100 gefüllten Packungen Würfelzucker zu schätzen. e1) Sind die angegebenen Schätzer erwartungstreu? e2) Was können Sie über die Effizienz der beiden Schätzer sagen? (Keine Rechnung notwendig) Der Hersteller der Zuckerwürfel zweifelt an der Genauigkeit seiner Maschine und entnimmt der laufenden Produktion 100 Zuckerwürfel. Er ermittelt für die Stichprobe ein X 100 von 2 2,976 g und ein S100 von 0,09 g2 . f) Überprüfen Sie die Hypothese Die Maschine produziert Zuckerwürfel mit einem ” durchschnittlichen Gewicht von 3 g“ anhand eines geeigneten Testverfahrens mit einer Irrtumswahrscheinlichkeit von 5%. Aufgabe 4 Im Halbfinale der Fussball-Weltmeisterschaft 2010 standen sich Deutschland und Spanien gegenüber. Beide Mannschaften hatten einen Kader von je 23 Mann. Betrachtet werden soll der Unterschied in der Körpergröße von Fussballern beider Nationen. Für die deutsche Nationalmannschaft ergab sich ein Mittelwert von 185,0435 cm bei einer Stichprobenvarianz von 57,0435 cm2 . Für den Kader der spanischen Nationalmannschaft ergab sich ein Mittelwert von 180,9565 cm sowie eine Stichprobenvarianz von 65,3162 cm2 . Gehen Sie davon aus, dass die Körpergrößen der Fussballer in den beiden Ländern näherungsweise normalverteilt sind und die Varianzen der Körpergrößen von Fussballern in den beiden Ländern identisch sind. a) Handelt es sich im vorliegenden Fall um eine repräsentative Stichprobe? Begründen Sie kurz Ihre Antwort. b) Berechnen Sie das Konfidenzintervall für die Differenz der Mittelwerte der Körpergrößen beider Kader (α = 0, 05). c) Würden Sie anhand der Berechnungen aus Teilaufgabe b) sagen, dass sich die Körpergröße in den beiden Kadern statistisch signifikant (α = 0, 05) unterscheidet? Begründen Sie kurz Ihre Antwort. d) Folgender R-Output zeigt das Ergebnis für einen Test, welcher die Frage aus Teilaufgabe c) klären soll. > t.test(deutschland, spanien,alternative=’’less’’,mu=0, + paired=FALSE,var.equal=TRUE,conf.level=0.95) Two Sample t-test data: deutschland and spanien t = 1.7719, df = 44, p-value = 0.9583 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf 7.962423 sample estimates: mean of x mean of y 185.0435 180.9565 d1) Erklären Sie kurz den Output. d2) Auffallend ist dabei der enorm hohe p-Wert. Erläutern Sie wie die Wahl des Hypothesenpaars hier dazu führt, dass die Nullhypothese nicht abgelehnt werden kann? e) Wie und mit welchem/n Parameter(n) ist die Teststatistik für den obigen Test bei Gültigkeit der Nullhypothese verteilt? Lösung zu Aufgabe 1 a) X ∼ R(0, 10) b) E(X) = 5 ⇒ 5 Minuten c) P (X > 7) = 0, 3 ⇒ 30% d) E(X) = 10 ⇒ 10 Minuten e) P (X > 30) = 0, 0498 ⇒ 4,98% f) L(λ, xi ) = n Q λe−λxi i=1 g) Momentenmethode = λn ·e −λ n P i=1 xi Lösung zu Aufgabe 2 a) X ∼ Geo(0, 1) b) P (X = 2) = 0, 081 ⇒ 8,1% c) p = 0, 5 ⇒ 50% d) X ∼ Hyp(N = 50, M = 5, n = 3) P (X < 1) = 0, 0234 ⇒ 2,34% e) Mögliche Antworten (Auswahl): - Approximationsbedingungen nicht erfüllt, da Varianz < 9 - n sehr klein - evtl. Stetigkeitskorrektur nicht beachtet f) χ2 -Unabhängigkeitstest Lösung zu Aufgabe 3 a) Ja b) X=“Das Gewicht einer gefüllten Packung Würfelzucker“ X ∼ N (549, 25, 8) c) Y1 =“Gewicht des 100-fachen einer gefüllten Packung Würfelzucker“ E(Y1 ) = E(100 · X) = 54900 V ar(Y1 ) = var(100 · X) = 258000 d) Y2 =“Gewicht von 100 gefüllten Packungen Würfelzucker“ E(Y2 ) = 100 · E(X) = 54900 V ar(Y2 ) = 100 · V ar(X) = 2580 e) e1) E(T1 ) = E(100 · X) = 100 · E(X) = 100 · µ E(T2 ) = 100 · E(X) = 100 · µ ⇒ ja e2) M SE(T1 ) = V ar(T1 ) = V ar(100 · X) = 10000 · σ 2 M SE(T2 ) = V ar(T2 ) = 100 · V ar(X) = 100 · σ 2 Der zweite Schätzer aus Teilaufgabe d) ist effizienter als der erste Schätzer aus Teilaufgabe c), da sein MSE geringer ist. f) Mittelwerttest bei unbekannter Varianz H0 : µ = 3 HA : µ 6= 3 t = 0, 8 < t0,975;n−1 = λ0,975 = 1, 96 ⇒ H0 kann nicht abgelehnt werden. Lösung zu Aufgabe 4 a) - Ja, da es sich um eine zufällige Stichprobe aus der Menge der Fussballer in den beiden Ländern handelt und nicht davon auszugehen ist, dass diese von den sonstigen Fussballern beider Länder abweicht. - Nein, da eine deutliche Selektion vorgenommen wurde, da damit zu rechnen ist, dass in den Kader der Nationalmannschaft besonders physisch geeignete Spieler aufgenommen werden. b) KI = [-0,4337;8,6077] c) Da der Wert 0 im KI enthalten ist, kann man sagen, dass sich die beiden Mittelwerte nicht signifikant unterscheiden. d) d1) - Mittwertdifferenzentest bei unverbundenen Stichproben und identischen Varianzen - α = 0, 05 - H0 : µD − µES ≥ 0 - 44 Freiheitsgrade - Teststatistik - Konfidenzintervall und p-Wert d2) In der Befehlszeile wird deutlich, dass hier in der Alternativhypothese kleiner“ ” steht, also steht in der Nullhypothese größer gleich“. Da der erste Mittelwert ” tatsächlich größer ist, resultiert daraus auch ein sehr hoher p-Wert. e) t-Verteilung mit 44 Freiheitsgraden