Aufgabe 1 - Universität Bamberg

Werbung
Lehrstuhl für Statistik und Ökonometrie
der Otto-Friedrich-Universität Bamberg
Prof. Dr. Susanne Rässler
Klausur zu Methoden der Statistik II (mit Kurzlösung)
Wintersemester 2012/13
Aufgabe 1
Die Firma N.oe veranstaltet ihr jährliches Trainee-Treffen. In diesem Jahr haben sich
45 Trainees am Tigernsee eingefunden, darunter die beiden guten Freunde Markus und
Katharina. Wie in jedem Jahr wird eine Gruppe von 5 Leuten zufällig ausgewählt, ein
bestimmtes Projekt vorzubereiten und es anschließend zu präsentieren.
(Hinweis: In den nachfolgenden Teilaufgaben wird der Begriff ’Parameter’ prinzipiell
in der Pluralform verwendet, auch wenn die gesuchte Verteilung nur einen Parameter
besitzt!)
a) Wie groß ist die Wahrscheinlichkeit, dass die beiden Freunde gemeinsam für das
Projekt ausgewählt werden? Benennen Sie zunächst die zugrundeliegende Verteilung
und ihre entsprechenden Parameter.
Die präsentierende Gruppe soll bekannt geben, wer Vortragender ist, kann sich jedoch
nicht zwischen zwei Kandiaten entscheiden. Man überlegt, dies per Münzwurf zu klären.
b) Welche beiden Verteilungsannahmen können für einen fairen Münzwurf getroffen
werden und wie sehen die entsprechenden Parameter der jeweiligen Verteilung aus?
Katharina und Markus telefonieren durchschnittlich elfmal pro Jahr miteinander. (Annahme: Es gibt keine festen Zeiten zu denen die beiden zum Hörer greifen!)
c) Wie und mit welchen Parametern ist die Zufallsvariable X := “Anzahl der Telefonanrufe zwischen Markus und Katharina pro Jahr“ verteilt?
d) Bestimmen Sie die Varianz von X.
e) Wie groß ist die Wahrscheinlichkeit, dass Katharina und Markus innerhalb eines
Jahres bis zu zehnmal miteinander telefonieren?
f) Wie und mit welchen Parametern ist die Zufallsvariable X := “Wartezeit bis zum
nächsten Telefonat zwischen Markus und Katharina“ verteilt?
In welcher Beziehung steht diese Verteilung mit derjenigen aus Teilaufgabe c)? Argumentieren Sie auch anhand der Parameter.
Aufgabe 2
Der Student Thomas hat lange gebraucht, eine geeignete Wohnung zu finden. Er denkt
allerdings, seine Wohnung ist überteuert. Thomas glaubt, dass zu viele Studierende im
letzten Semester ihr Studium begonnen haben und deswegen die Mietpreise zu hoch sind.
Er befragt 7 zufällig ausgewählte Studenten zu ihren Mieten und ob sie die Wohnung
erst seit letztem Semester bewohnen oder schon vor längerer Zeit gemietet haben. Seine
Erhebung liefert folgende Daten:
Student
Miete in EUR
Einzug letztes Semester
1
450
ja
2
900
ja
3
320
ja
4
405
ja
5
380
nein
6
410
nein
7
250
nein
a) Berechnen Sie die Stichprobenmittel und die Stichprobenvarianzen für die Mietpreise
bedingt auf den Einzugszeitpunkt.
b) Thomas vermutet, dass generell im letzten Semester bezogene Wohnungen im Mittel
höhere Mietpreise aufweisen als solche, die vor längerer Zeit gemietet wurden. Führen
Sie zur Überprüfung einen entsprechenden Test mit einer Irrtumswahrscheinlichkeit
von 10% durch. Können Sie Thomas Recht geben?
Da die Größe der Wohnung ebenfalls einen Einfluss auf die Miete hat, erfragt Thomas die
Größe der Wohnung in qm.
Mit der Statistik-Software R schätzt er eine lineare Regression von Miete in EUR (’M’) auf
Wohnfläche in qm (’qm’), d.h. Mi = α0 + α1 · qmi + Ui , mit Ui ∼ N (0, σ 2 ) und stochastisch
unabhängig für i = 1, . . . , n.
Er erhält folgenden Output:
##
##
##
##
##
##
##
##
##
##
##
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
36.63
82.42
0.44
0.6753
qm
9.72
1.79
5.42
0.0029
--Signif. codes:
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 88.3 on 5 degrees of freedom
Multiple R-squared: 0.854,Adjusted R-squared: 0.825
c) Geben Sie die Anzahl der Freiheitsgrade der t-Verteilung an, die zur Berechnung der
Spalte Pr(>|t|) verwendet wurden.
d) Wie lauten die Null- und Alternativhypothese des Tests, der zum t- und p-Wert in
den beiden letzten Spalten der Teiltabelle ’Coefficients’ für die Zeile qm führt?
e) Ist der Einfluss der Quadratmeterzahl qm bei α = 0.05 signifikant? Wie ist der p-Wert
0.0029 zu interpretieren?
f) Interpretieren Sie knapp den Wert des (unkorrigierten) R2 .
Aufgabe 3
Elmar Hildner ist Kleintierzüchter aus Leidenschaft. Er ist stets darum bemüht, die Haltungsbedingungen für seine Hühner so artgerecht und natürlich wie möglich zu gestalten. Im letzten Jahr wurde die Hälfte aller auf seinem Hof erzeugten Eier im kleinen
Bio-Hofladen verkauft. Aus den restlichen 350 Eiern schlüpften kleine Küken. 60% dieser
Küken schlüpften aus Eiern, die auf herkömmliche Art von einer Henne bebrütet wurden, der Rest kam in einem Brutkasten zur Welt. Elmar Hildner muss im Rahmen seiner
Qualitätskontrolle außerdem feststellen, dass 30% seiner Küken im Winter an Schnupfen
erkranken. Ganze 80% der Küken, die vom Schnupfen verschont bleiben, stammen aus der
Bebrütung durch eine Henne.
a) Wieviele Eier wurden im letzten Jahr auf Elmar Hildners Hof insgesamt erzeugt?
b) Erstellen Sie eine komplette Kontingenztabelle für die Variablen ’Erkrankung’ vs.
’Art der Bebrütung’ mit den angegebenen Häufigkeiten.
Ersatzergebnis: Falls Sie die Teilaufgabe nicht lösen konnten (bitte nur dann!),
verwenden Sie im Folgenden die nachstehende Tabelle.
Henne
Brutkasten
krank
30
80
100
gesund
190
50
240
220
130
350
c) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Küken Schnupfen
hatte, wenn es aus dem Brutkasten kommt?
Elmar Hildner fragt sich, ob sein Bestreben, möglichst viele Küken von Hennen ausbrüten
zu lassen, überhaupt einen positiven Effekt auf die Gesundheit der Küken hat.
d) Wie würde die Kontingenztabelle aussehen, wenn die ’Erkrankung’ und die ’Art der
Bebrütung’ unabhängig wären?
e) Überprüfen Sie mit Hilfe eines geeigneten statistischen Tests mit einer Irrtumswahrscheinlichkeit von 5%, ob die Anfälligkeit der Küken für einen Schnupfen von der Art
der Bebrütung abhängt. Interpretieren Sie Ihr Testergebnis vor dem Hintergrund der
Fehlerwahrscheinlichkeit.
Aufgabe 4
Ein Politikwissenschaftler interessiert sich für die maximale Lautstärke von Jubel bei
Wahlkampfveranstaltungen zu US-Präsidentschaftswahlen. Aus langjähriger Erfahrung
weiß er, dass bei solchen Veranstaltungen ein maximaler Lärmpegel von durchschnittlich 90 dB zu erwarten ist. Zudem ist bekannt, dass die Varianz der maximalen Lärmpegel
9 dB2 beträgt.
a) Gehen Sie davon aus, dass der maximale Lärmpegel bei den Wahlkampfveranstaltungen hinreichend genau normalverteilt ist. Wie groß ist die Wahrscheinlichkeit,
dass bei einer Wahlkampfveranstaltung ein maximaler Lärmpegel von über 87 dB
aber unter 94,5 dB gemessen wird?
b) Berechnen Sie das 25%-Quantil für den maximalen Lärmpegel bei Wahlkampfveranstaltungen zu US-Präsidentschaftswahlen.
Über den Wahlkampf 2012 ist zunächst nichts bekannt. Deswegen erhebt der Politikwissenschaftler eine Stichprobe bei sechs Wahlkampfveranstaltungen und misst folgende
Lärmpegel:
Messung i
max. Lärmpegel in dB
1
96
2
101
3
103
4
98
5
97
6
102
c) Berechnen Sie das zentrale 95% - Konfidenzintervall für den Mittelwert der maximalen Lärmpegel. Warum ist die Aussage, dass das berechnete Konfidenzintervall
den tatsächlichen mittleren maximalen Lärmpegel mit 95%-iger Wahrscheinlichkeit
enthält, falsch?
d) Welche Schlussfolgerung kann man treffen, wenn man die langjährigen Erfahrungswerte zum maximalen Lärmpegel von durchschnittlich 90 dB mit den Ergebnissen
aus dem Wahlkampf 2012 vergleicht. Begründen Sie Ihre Aussage unter Verwendung
des in Teilaufgabe c) ermittelten Konfidenzintervalls.
Ersatzergebnis: Falls Sie das Konfidenzintervall nicht berechnen konnten, verwenden Sie stattdessen: [95; 101]
Lösung zu Aufgabe 1
a) X ∼ Hyp(5, 45, 2)
fX (2; 5, 45, 2) = 0, 0101
b) X ∼ Gl(N = 2)
X ∼ Bin(p = 0, 5)
c) E(X) = 11
X ∼ P ois(11)
d) V ar(X) = 11
e) Approximation X ∼ N (11, 11)
P (X ≤ 10) = 0, 4404
f) X ∼ exp(11), da gleicher Poisson-Prozess
E(XP ois ) = λ → Ereignisrate
E(XExp ) = λ1 → Ereignisabstand
Lösung zu Aufgabe 2
a)
M̄ |E=ja = 518, 75
M̄ |E=nein = 346, 6̄
S 2 |E=ja = 67.506, 25
S 2 |E=nein = 7233, 3̄
b) H0 : δ ≤ δ0q= 0 vs. HA : δ > 0
nm
0
Z = D−δ
n+m = 1, 08
S̄
t0.90;5 = 1.476, Teststatistik nicht im kritischen Bereich, Nullhypothese kann bei einer
Irrtumswahrscheinlichkeit von 5% nicht abgelehnt werden. Möglicherweise besteht
ein β-Fehler.
c) 5 Freiheitsgerade
d) H0 : α1 = 0 vs. HA : α1 6= 0
e) Ja, signifikant. Erst bei einer Irrtumswahrscheinlichkeit kleiner als 0,29% würde die
Nullhypothese nicht mehr abgelehnt werden.
f) 85,4% der Streuung werden durch die Regression erklärt.
Lösung zu Aufgabe 3
a) 700 Eier
b)
Henne
Brutkasten
krank
14
91
gesund
196
49
210
140
105
245
350
c) P (krank|Brutkasten) = P (Brutkasten ∩ krank)/P (Brutkasten) = 91/140 = 0, 65
d)
Henne
Brutkasten
krank
63
42
105
gesund
147
98
245
210
140
350
n n
e) Approximationsregeln nij ≥ 10 und i.n .j ≥ 5
H0 : pij = pi. p.j
χ2 = 136, 1111
χ20,95;1 = 3, 841, die Nullhypothese wird auf einem Konfidenzniveau von 95% abgelehnt. Die Wahrscheinlichkeit für den α-Fehler liegt bei 5%.
Lösung zu Aufgabe 4
a) P (87 < X < 94, 5) = 0, 7745
b) x0,25 = 87, 9765
c) X n = 99, 5, Sn2 = 8, 3
t0,975;5 = 2, 571
KI: [96,4761; 102,5239]
Der wahre Parameter hat keine Verteilung. Entweder er liegt im KI oder nicht.
d) KI enthält nicht den Erwartungswert der Grundgesamtheit. Veranstaltungen 2012
lauter, da X n > E(X).
Herunterladen