Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2010/2011 Aufgabe 1 Nach einer Veranstaltung in einer der modernsten Multifunktionsarenen der Welt in Berlin fahren die meisten Besucher mit der U-Bahn Linie U1 in Richtung Kurfürstendamm. Bei einer ersten Fahrkartenkontrolle durch Mitarbeiter der Berliner Verkehrsbetriebe (BVG) werden in einem U-Bahnwagenabteil mit 60 Fahrgästen, unter denen sich genau 9 Schwarzfahrer befinden, zunächst 7 zufällig ausgewählte Personen überprüft. Befindet sich unter diesen kein Schwarzfahrer, findet keine weitere Kontrolle statt. Andernfalls wird in drei von vier Fällen eine weitere Fahrkartenkontrolle durchgeführt. a) Wie und mit welchem/n Parameter(n) ist die Zufallsvariable Anzahl an Schwarz” fahrern unter den kontrollierten Fahrgästen in der ersten Kontrolle“ verteilt? b) Wie groß ist die Wahrscheinlichkeit dafür, dass in diesem Wagenabteil zwei Kontrollen durchgeführt werden? In einem Zug der U-Bahn Linie U5 befinden sich 900 Fahrgäste, von denen jeder sechste kontrolliert wird. c) Bestimmen Sie die Wahrscheinlichkeit dafür, dass mehr als 16 Schwarzfahrer bei der Kontrolle entdeckt werden, wenn der Anteil an Schwarzfahrern genau 12% beträgt. Eine Analyse des BVG hat ergeben, dass die Geschwindigkeit eines U-Bahnzugs approximativ normalverteilt ist mit einem Erwartungswert von 100 km/h und einer Varianz von 225 (km/h)2 . d) Zeichnen Sie die Dichtefunktion dieser Verteilung im Bereich von 50 bis 150. Zeichnen Sie zusätzlich den Erwartungswert ein. e) Wie groß ist die Wahrscheinlichkeit dafür, dass die Geschwindigkeit eines UBahnzugs genau 115 km/h beträgt? f) Bestimmen Sie die Wahrscheinlichkeit dafür, dass die Geschwindigkeit eines U-Bahnzugs höchstens 100 km/h beträgt. Aufgabe 2 Aus langjährigen Messreihen in der Zoologie ist bekannt, dass ausgewachsene Buckellachse ein Durchschnittsgewicht von 2800 g mit einer Varianz von 49.000 g2 aufweisen. Das Gewicht von Lachsen ist näherungsweise normalverteilt. Grizzlybär Bruno fischt an einem Tag 10 flussaufwärts wandernde Buckellachse aus dem Fluss. a) Wie groß ist die Wahrscheinlichkeit, dass die 10 von Bruno täglich gefangenen Buckellachse im Mittel zwischen 2700 g und 2800 g wiegen? b) Berechnen Sie das zentrale 95%-Schwankungsintervall für das Stichprobenmittel. c) Wie groß ist die Wahrscheinlichkeit, dass ein von Bruno gefangener Buckellachs über 3300 g wiegen wird? Am nächsten Tag bricht Bruno in eine Lachsfarm ein. Über das Gewicht von gezüchteten Lachsen ist nichts bekannt, aber Bruno fängt 6 Fische mit einem Gesamtgewicht von 17,1 kg und folgenden Einzelgewichten: Zuchtlachs i Gewicht in g 1 2700 2 3200 3 2400 4 3200 5 2600 6 3000 d) Berechnen Sie Stichprobenmittel und Stichprobenvarianz. Ermitteln Sie daraus das standardisierte Stichprobenmittel. Welcher Verteilung (mit zugehöriger Zahl der Freiheitsgrade) folgt das standardisierte Stichprobenmittel? e) Nennen Sie den grundlegenden Unterschied zwischen einem Schwankungs- und einem Konfidenzintervall. Brunos Raubzug wurde bemerkt und der Fischzüchter kannte ebenfalls das Gewicht der gefressenen Lachse (er führt Buch seit Brunos letztem Fischzug). Er behauptet nun: ”Ich bin mir sicher, dass der Bär erwartungsgemäß sogar über 20 kg Lachs bei einem Raubzug erbeutet und diese Daten beweisen es!” f) Wieso können Sie sicher sein, dass ein Test mit der gegenteiligen Behauptung als Nullhypothese bei einer Irrtumswahrscheinlichkeit bis mindestens 50(!)% nicht abgelehnt werden würde, ohne dass Sie den Test tatsächlich durchführen müssen? Aufgabe 3 Eine Firma, die Gasfedern für die Automobilindustrie fertigt, hat unter anderem eine Maschine im Einsatz, die Ventile produziert. Die Länge dieser Ventile ist normalverteilt, beträgt im Mittel 25 mm und weist eine Varianz von 0,4 mm2 auf. a) Für größere Gasfedern soll die Maschine nun so eingestellt werden, dass um 20% größere Ventile produziert werden. Wie und mit welchen Parametern wird die Ventilslänge dann verteilt sein? Kurz darauf wird eine neue Maschine angeschafft, die standardmäßig Ventile mit einer Durchschnittslänge von 30 mm bei einer Varianz von 0,49 mm2 produziert und gleichzeitig auch die Verschlussschrauben herstellt, deren Länge ebenfalls normalverteilt ist. Die Schrauben sind durchschnittlich 40 mm lang bei einer Varianz von 0,64 mm2 . Außerdem ist bekannt, dass Ventils- und Schraubenlänge im Fertigungsprozess mit 0,6 korrelieren. b) Wie und mit welchen Parametern ist die Gesamtlänge von Ventil und Verschlussschraube verteilt? Der Schichtleiter tauchte in den letzten drei Tagen während seiner Acht-StundenSchicht zwei-, sechs- und viermal in der Fertigungshalle auf. Ein Mechaniker, der im Fernstudium Statistik-Kurse besucht, will mit Hilfe der Maximum-LikelihoodMethode einen Erwartungswert für ein Auftauchen des Schichtleiters schätzen. Er unterstellt für die Zeitpunkte des Erscheinens eine Poisson-Verteilung. c) Welche weitere Annahme treffen Sie bezüglich der Erscheinens-Häufigkeit an den einzelnen Tagen? d) Helfen Sie dem Mechaniker, indem Sie die Einzelschritte der ML-Methode kurz beschreiben (die Zielverteilung ist definitiv nur eingipflig). e) Bestimmen Sie die Maximum-Likelihood-Schätzfunktion und berechnen Sie den ML-Schätzer aus den für die drei Tage vorliegenden Daten. Aufgabe 4 Dass die Baseballmannschaft Red Knickers nach zuletzt mehreren erfolglosen Gastspielen in Serie zu Hause einen Sieg einfahren konnte, löst bei einer Gruppe eingefleischter Fans nicht nur Euphorie aus. So diskutieren sie auf dem Rückweg vom Stadion auch darüber, dass die Red Knickers Heimspiele wesentlich häufiger als Auswärtsspiele gewinnen. Da einer der Fans statistisch interessiert ist, überprüft er die Behauptung seiner Freunde mithilfe einer einfachen Stichprobe. Für 600 zufällig ausgewählte Spiele der vergangenen Jahrzehnte stellt er den Austragungsort und die Spielergebnisse in der folgenden Tabelle zusammen: Heimspiel Auswärtsspiel Σ gewonnen 178 92 270 unentschieden 56 69 125 verloren 126 79 205 Σ 360 240 600 a) Nennen Sie einen geeigneten statistischen Test, mit dem die Behauptung der Baseballfans, dass die Spielergebnisse vom Austragungsort abhängen, überprüft werden kann. b) Führen Sie den in a) genannten Test durch (α = 0, 01) und interpretieren Sie Ihr Ergebnis inhaltlich und vor dem Hintergrund des Fehlerrisikos. Lösung zur Aufgabe 1 a) X ∼ Hyp(n = 7; N = 60; M = 9) b) P (X ≥ 1) = 0, 5252 c) P (X > 16) = 0, 6591 d) Skizze der Dichtefunktion e) P (X = 115) = 0, da Punktwahrscheinlichkeit gesucht und X stetig ist. f) P (X ≤ 100) = 0, 5 Lösung zur Aufgabe 2 a) P (2700 < X < 2800) = 0, 4234 b) [2663g; 2937g] c) P (X > 3300) = 0, 012 d) X̄ = 2850, S 2 = 111000 Das standardisierte Stichprobenmittel ist t-verteilt mit 5 Freiheitsgraden. e) Ein Konfidenzintervall wird um den Stichprobenmittelwert (allg.: die Stichprobenfunktion), ein Schwankungsintervall um den wahren Mittelwert (allg.: den wahren Parameter) konstruiert. f) Die Summe aus der Stichprobe (17,1 kg) ist kleiner als der Wert der Nullhypothese (20 kg). Damit kann die Nullhypothese nie abgelehnt werden, wenn α < 0.5! Lösung zur Aufgabe 3 a) a = 1, 2, aV ∼ N (30; 0, 576) b) Z = (X + Y ) ∼ N (70; 1, 802) c) Die Häufigkeit des Erscheinens an den einzelnen Tagen ist unabhängig voneinander. d) ML-Methode: (a) Likelihoodfunktion aufstellen durch Multiplikation der Einzeldichten (b) optional: Logarithmieren (c) Erste Ableitung nach dem interessierenden Parameter bilden (d) Nullsetzen und lösen (e) Zweite Ableitung, um Maximum sicherzustellen e) θ̂M L = 4 Da E(X) = θ geht der Mechaniker von vier Besuchen aus. Lösung zur Aufgabe 4 a) χ2 - Unabhängigkeitstest b) χ20,99;2 = 9, 21 χ2 = 16, 1669 Entscheidung und Interpretation: Da χ2 = 16, 1666 > 9,21 ist, wird die H0 (auf einem Signifikanzniveau von α = 0, 01) verworfen. Die vorliegende Stichprobe deutet demnach auf einen Zusammenhang zwischen dem Spielergebnis und dem Austragungsort hin. Es könnte allerdings ein Fehler 1. Art (α-Fehler) vorliegen: Die H0 wurde verworfen, ist aber doch richtig. Das Fehlerrisiko H0 (fälschlicherweise) zu verwerfen, errechnet sich durch α· 100%, hier: 1%. Wäre H0 doch richtig, würde der Test nur in höchstens 1% aller Stichproben zu Unrecht zum Verwerfen führen. Man kann wohl davon ausgehen, dass ein so unwahrscheinliches Ereignis nicht eingetreten ist. Die Entscheidung H0 ” verwerfen“ ist also relativ sicher.