Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2012/13 Aufgabe 1 Die Firma N.oe veranstaltet ihr jährliches Trainee-Treffen. In diesem Jahr haben sich 45 Trainees am Tigernsee eingefunden, darunter die beiden guten Freunde Markus und Katharina. Wie in jedem Jahr wird eine Gruppe von 5 Leuten zufällig ausgewählt, ein bestimmtes Projekt vorzubereiten und es anschließend zu präsentieren. (Hinweis: In den nachfolgenden Teilaufgaben wird der Begriff ’Parameter’ prinzipiell in der Pluralform verwendet, auch wenn die gesuchte Verteilung nur einen Parameter besitzt!) a) Wie groß ist die Wahrscheinlichkeit, dass die beiden Freunde gemeinsam für das Projekt ausgewählt werden? Benennen Sie zunächst die zugrundeliegende Verteilung und ihre entsprechenden Parameter. Die präsentierende Gruppe soll bekannt geben, wer Vortragender ist, kann sich jedoch nicht zwischen zwei Kandiaten entscheiden. Man überlegt, dies per Münzwurf zu klären. b) Welche beiden Verteilungsannahmen können für einen fairen Münzwurf getroffen werden und wie sehen die entsprechenden Parameter der jeweiligen Verteilung aus? Katharina und Markus telefonieren durchschnittlich elfmal pro Jahr miteinander. (Annahme: Es gibt keine festen Zeiten zu denen die beiden zum Hörer greifen!) c) Wie und mit welchen Parametern ist die Zufallsvariable X := “Anzahl der Telefonanrufe zwischen Markus und Katharina pro Jahr“ verteilt? d) Bestimmen Sie die Varianz von X. e) Wie groß ist die Wahrscheinlichkeit, dass Katharina und Markus innerhalb eines Jahres bis zu zehnmal miteinander telefonieren? f) Wie und mit welchen Parametern ist die Zufallsvariable X := “Wartezeit bis zum nächsten Telefonat zwischen Markus und Katharina“ verteilt? In welcher Beziehung steht diese Verteilung mit derjenigen aus Teilaufgabe c)? Argumentieren Sie auch anhand der Parameter. Aufgabe 2 Der Student Thomas hat lange gebraucht, eine geeignete Wohnung zu finden. Er denkt allerdings, seine Wohnung ist überteuert. Thomas glaubt, dass zu viele Studierende im letzten Semester ihr Studium begonnen haben und deswegen die Mietpreise zu hoch sind. Er befragt 7 zufällig ausgewählte Studenten zu ihren Mieten und ob sie die Wohnung erst seit letztem Semester bewohnen oder schon vor längerer Zeit gemietet haben. Seine Erhebung liefert folgende Daten: Student Miete in EUR Einzug letztes Semester 1 450 ja 2 900 ja 3 320 ja 4 405 ja 5 380 nein 6 410 nein 7 250 nein a) Berechnen Sie die Stichprobenmittel und die Stichprobenvarianzen für die Mietpreise bedingt auf den Einzugszeitpunkt. b) Thomas vermutet, dass generell im letzten Semester bezogene Wohnungen im Mittel höhere Mietpreise aufweisen als solche, die vor längerer Zeit gemietet wurden. Führen Sie zur Überprüfung einen entsprechenden Test mit einer Irrtumswahrscheinlichkeit von 10% durch. Können Sie Thomas Recht geben? Da die Größe der Wohnung ebenfalls einen Einfluss auf die Miete hat, erfragt Thomas die Größe der Wohnung in qm. Mit der Statistik-Software R schätzt er eine lineare Regression von Miete in EUR (’M’) auf Wohnfläche in qm (’qm’), d.h. Mi = α0 + α1 · qmi + Ui , mit Ui ∼ N (0, σ 2 ) und stochastisch unabhängig für i = 1, . . . , n. Er erhält folgenden Output: ## ## ## ## ## ## ## ## ## ## ## Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 36.63 82.42 0.44 0.6753 qm 9.72 1.79 5.42 0.0029 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 88.3 on 5 degrees of freedom Multiple R-squared: 0.854,Adjusted R-squared: 0.825 c) Geben Sie die Anzahl der Freiheitsgrade der t-Verteilung an, die zur Berechnung der Spalte Pr(>|t|) verwendet wurden. d) Wie lauten die Null- und Alternativhypothese des Tests, der zum t- und p-Wert in den beiden letzten Spalten der Teiltabelle ’Coefficients’ für die Zeile qm führt? e) Ist der Einfluss der Quadratmeterzahl qm bei α = 0.05 signifikant? Wie ist der p-Wert 0.0029 zu interpretieren? f) Interpretieren Sie knapp den Wert des (unkorrigierten) R2 . Aufgabe 3 Elmar Hildner ist Kleintierzüchter aus Leidenschaft. Er ist stets darum bemüht, die Haltungsbedingungen für seine Hühner so artgerecht und natürlich wie möglich zu gestalten. Im letzten Jahr wurde die Hälfte aller auf seinem Hof erzeugten Eier im kleinen Bio-Hofladen verkauft. Aus den restlichen 350 Eiern schlüpften kleine Küken. 60% dieser Küken schlüpften aus Eiern, die auf herkömmliche Art von einer Henne bebrütet wurden, der Rest kam in einem Brutkasten zur Welt. Elmar Hildner muss im Rahmen seiner Qualitätskontrolle außerdem feststellen, dass 30% seiner Küken im Winter an Schnupfen erkranken. Ganze 80% der Küken, die vom Schnupfen verschont bleiben, stammen aus der Bebrütung durch eine Henne. a) Wieviele Eier wurden im letzten Jahr auf Elmar Hildners Hof insgesamt erzeugt? b) Erstellen Sie eine komplette Kontingenztabelle für die Variablen ’Erkrankung’ vs. ’Art der Bebrütung’ mit den angegebenen Häufigkeiten. Ersatzergebnis: Falls Sie die Teilaufgabe nicht lösen konnten (bitte nur dann!), verwenden Sie im Folgenden die nachstehende Tabelle. Henne Brutkasten krank 30 80 100 gesund 190 50 240 220 130 350 c) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Küken Schnupfen hatte, wenn es aus dem Brutkasten kommt? Elmar Hildner fragt sich, ob sein Bestreben, möglichst viele Küken von Hennen ausbrüten zu lassen, überhaupt einen positiven Effekt auf die Gesundheit der Küken hat. d) Wie würde die Kontingenztabelle aussehen, wenn die ’Erkrankung’ und die ’Art der Bebrütung’ unabhängig wären? e) Überprüfen Sie mit Hilfe eines geeigneten statistischen Tests mit einer Irrtumswahrscheinlichkeit von 5%, ob die Anfälligkeit der Küken für einen Schnupfen von der Art der Bebrütung abhängt. Interpretieren Sie Ihr Testergebnis vor dem Hintergrund der Fehlerwahrscheinlichkeit. Aufgabe 4 Ein Politikwissenschaftler interessiert sich für die maximale Lautstärke von Jubel bei Wahlkampfveranstaltungen zu US-Präsidentschaftswahlen. Aus langjähriger Erfahrung weiß er, dass bei solchen Veranstaltungen ein maximaler Lärmpegel von durchschnittlich 90 dB zu erwarten ist. Zudem ist bekannt, dass die Varianz der maximalen Lärmpegel 9 dB2 beträgt. a) Gehen Sie davon aus, dass der maximale Lärmpegel bei den Wahlkampfveranstaltungen hinreichend genau normalverteilt ist. Wie groß ist die Wahrscheinlichkeit, dass bei einer Wahlkampfveranstaltung ein maximaler Lärmpegel von über 87 dB aber unter 94,5 dB gemessen wird? b) Berechnen Sie das 25%-Quantil für den maximalen Lärmpegel bei Wahlkampfveranstaltungen zu US-Präsidentschaftswahlen. Über den Wahlkampf 2012 ist zunächst nichts bekannt. Deswegen erhebt der Politikwissenschaftler eine Stichprobe bei sechs Wahlkampfveranstaltungen und misst folgende Lärmpegel: Messung i max. Lärmpegel in dB 1 96 2 101 3 103 4 98 5 97 6 102 c) Berechnen Sie das zentrale 95% - Konfidenzintervall für den Mittelwert der maximalen Lärmpegel. Warum ist die Aussage, dass das berechnete Konfidenzintervall den tatsächlichen mittleren maximalen Lärmpegel mit 95%-iger Wahrscheinlichkeit enthält, falsch? d) Welche Schlussfolgerung kann man treffen, wenn man die langjährigen Erfahrungswerte zum maximalen Lärmpegel von durchschnittlich 90 dB mit den Ergebnissen aus dem Wahlkampf 2012 vergleicht. Begründen Sie Ihre Aussage unter Verwendung des in Teilaufgabe c) ermittelten Konfidenzintervalls. Ersatzergebnis: Falls Sie das Konfidenzintervall nicht berechnen konnten, verwenden Sie stattdessen: [95; 101] Lösung zu Aufgabe 1 a) X ∼ Hyp(5, 45, 2) fX (2; 5, 45, 2) = 0, 0101 b) X ∼ Gl(N = 2) X ∼ Bin(p = 0, 5) c) E(X) = 11 X ∼ P ois(11) d) V ar(X) = 11 e) Approximation X ∼ N (11, 11) P (X ≤ 10) = 0, 4404 f) X ∼ exp(11), da gleicher Poisson-Prozess E(XP ois ) = λ → Ereignisrate E(XExp ) = λ1 → Ereignisabstand Lösung zu Aufgabe 2 a) M̄ |E=ja = 518, 75 M̄ |E=nein = 346, 6̄ S 2 |E=ja = 67.506, 25 S 2 |E=nein = 7233, 3̄ b) H0 : δ ≤ δ0q= 0 vs. HA : δ > 0 nm 0 Z = D−δ n+m = 1, 08 S̄ t0.90;5 = 1.476, Teststatistik nicht im kritischen Bereich, Nullhypothese kann bei einer Irrtumswahrscheinlichkeit von 5% nicht abgelehnt werden. Möglicherweise besteht ein β-Fehler. c) 5 Freiheitsgerade d) H0 : α1 = 0 vs. HA : α1 6= 0 e) Ja, signifikant. Erst bei einer Irrtumswahrscheinlichkeit kleiner als 0,29% würde die Nullhypothese nicht mehr abgelehnt werden. f) 85,4% der Streuung werden durch die Regression erklärt. Lösung zu Aufgabe 3 a) 700 Eier b) Henne Brutkasten krank 14 91 gesund 196 49 210 140 105 245 350 c) P (krank|Brutkasten) = P (Brutkasten ∩ krank)/P (Brutkasten) = 91/140 = 0, 65 d) Henne Brutkasten krank 63 42 105 gesund 147 98 245 210 140 350 n n e) Approximationsregeln nij ≥ 10 und i.n .j ≥ 5 H0 : pij = pi. p.j χ2 = 136, 1111 χ20,95;1 = 3, 841, die Nullhypothese wird auf einem Konfidenzniveau von 95% abgelehnt. Die Wahrscheinlichkeit für den α-Fehler liegt bei 5%. Lösung zu Aufgabe 4 a) P (87 < X < 94, 5) = 0, 7745 b) x0,25 = 87, 9765 c) X n = 99, 5, Sn2 = 8, 3 t0,975;5 = 2, 571 KI: [96,4761; 102,5239] Der wahre Parameter hat keine Verteilung. Entweder er liegt im KI oder nicht. d) KI enthält nicht den Erwartungswert der Grundgesamtheit. Veranstaltungen 2012 lauter, da X n > E(X).