Einführung in die Inferenzstatistik

Werbung
Einführung in die Inferenzstatistik
Beispielsammlung
Zusammengestellt von F. Gach, D. Wozabal und N. Wozabal
(Version vom 14. Juni 2007)
Einführung und Wiederholung
1. Betrachten Sie das Experiment: Würfeln mit zwei sechsseitigen Würfeln. Berechnen Sie
die Wahrscheinlichkeitsfunktion und die Verteilung der Zufallsvariable Y, die die absolute Differenz der beiden Augenzahlen beschreibt.
(1P)
2. Geben Sie ein k an, so dass die Funktion

kx2 , 0 < x < 1
f (x) =
0,
sonst
eine Dichte ist. Berechnen Sie außerdem die Verteilungsfunktion und P( 31 < X ≤
wobei die Zufallsvariable X die Dichte f hat.
1
2 ),
(1P)
3. Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariable Y in Beispiel 1.
(1P)
4. Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariable X, wobei X die
folgende Verteilung hat



0,
x<0


F (x) = x3 , 0 ≤ x < 1



1,
x≥1
(1P)
5. Betrachten Sie die Zufallsvariable X mit E(X) = 10 und Var(X)=25. Geben Sie die
positiven Zahlen a und b an, so dass die Zufallsvariable Y = aX − b Erwartungswert 0
und Varianz 1 hat.
(1P)
6. Die ’moment generating function’ einer Zufallsvariable X ist definiert als
MX (t) := E(eXt ),
t ∈ R.
(a) Berechne MX (t) für eine standardnormalverteilte Zufallsvariable.
Hinweis: Ergänze in der Rechnung (x2 − 2xt) zu einem vollständigen Quadrat
und entdecke im gesamten Ausdruck die Dichte einer Normalverteilung mit Erwartungswert t und Varianz 1.
2
(b) Berechne die ’moment generating function’ einer geometrisch verteilten Z.v.
Hinweis: Für eine diskrete Z.v. ist MX (t) gegeben durch
MX (t) =
X
ekt P (X = k).
k
7. Betrachte folgendes Glücksspiel: Der Einsatz wird mit Wahrscheinlichkeit p verdoppelt,
mit Wahrscheinlichkeit 1 − p verliert man ihn.
(a) Wie viele Runden muß man im Schnitt spielen, um einmal zu gewinnen? Berechne
auch die Varianz der Anzahl der zu spielenden Runden.
(1P)
(b) Wenn man seinen Einsatz bei jedem Verlust verdoppelt und spielt, bis man einmal
gewonnen hat, wie hoch ist dann der zu erwartende Gewinn, wie hoch ist der zu
erwartende Einsatz?
(1P)
8. An einer Kreuzung wurde gezählt, wieviele Personen in einem Auto sitzen. Nimm an,
daß die Daten einer geometrischen Verteilung mit Parameter p folgen, also
pX (k; p) = (1 − p)k−1 p,
(2P)
k ∈ {1, 2, . . . }.
Schätze p und vergleiche beobachtete und erwartete Häufigkeiten.
Anzahl Personen Häufigkeit
1
678
2
227
3
56
4
28
5
8
6+
14
1011
Maximum Likelihood und Momentenmethode
9. Eine Urne enthält 10 Geldstücke. Sie kann zwei unterschiedliche Zusammensetzungen
aufweisen
Zustand I
3 mal 1 EURO und 7 mal 2 EURO
Zustand II
6 mal 1 EURO und 4 mal 2 EURO
Von Interesse ist der Gesamtbetrag θ des Geldes in der Urne. Der Zustand der Urne
und damit auch der Wert von θ seien unbekannt. Um θ zu schätzen, entnehmen wir der
Urne zwei Geldstücke mit Zurücklegen.
3
(a) Stellen Sie die Wahrscheinlichkeiten der einzelnen Stichproben in Abhängigkeit von
den Werten von θ in einer Tabelle zusammen.
(0,5P)
(b) Geben Sie die Maximum-Likelihood-Schätzfunktion für θ an.
(0,5P)
(c) Was gibt diese Likelihoodfunktion an?
(0,5P)
(d) Bei einer Ziehung werden zwei 1 EURO Stücke gezogen. Wie lautet der M-L
Schätzwert für θ ?
(0,5P)
(e) Ist der M-L Schätzer für θ erwartungstreu ? (1P)
10. (a) Wirf eine Münze 20 mal und zähle, wie oft Sie auf ‘Kopf’ fällt. Sei p die Wahrscheinlichkeit, daß sie auf ‘Kopf’ fällt, was ist dann die log-Likelihood von p? (1P)
(b) Wiederhole das Experiment nun leicht abgeändert: Wirf die Münze so lange, bis sie
10 mal auf ‘Kopf’gefallen ist. Berechne wiederum die log-Likelihood von p und vergleiche die beiden Resultate. Hinweis: Verwende die negative Binomialverteilung
(siehe http://en.wikipedia.org/wiki/Negative binomial)
(1P)
11. Berechne die log-Likelihood für den Parameter λ, wenn die Zufallsvariablen unabhängig
Poisson-verteilt sind.
(1P)
12. Betrachten Sie folgende Zufallsstichprobe bestehend aus den acht Werten 1, 0, 1, 1, 0,
1, 1, 0. Die Stichprobe gehört zu einer Grundgesamtheit, die folgender Wahrscheinlichkeitsverteilung folgt
pX (k, θ) = θk (1 − θ)1−k ,
k = 0, 1;
0<θ<1
Finden Sie den M-L Schätzwert für θ.
(1P)
13. In einer Urne befinden sich rote und weiße Kugeln, wobei der Anteil p der roten Kugeln
entweder
1
2
oder
1
3
ist. Man zieht jetzt fünf Mal mit Zurücklegen und erhält die Folge
rot, weiß, weiß, rot, weiß.
Was ist der Maximum Likelihood Schätzer für p?
(1P)
14. In einer Schachtel befinden sich 5 Kugeln, die entweder weiß oder rot sind. Die Anzahl
θ der roten Kugeln ist unbekannt (θ=0, 1, 2, 3, 4 oder 5). Ein Statistiker zieht mit
Zurucklegen 3 Kugeln aus der Urne und erhält folgendes Ergebnis
rot weiß rot
(a) Wie groß ist die Wahrscheinlichkeit dieses Ereignisses, wenn θ = 2 ist?
(b) Wie lautet die Likelihoodfunktion für θ aufgrund dieses Ergebnisses?
(c) Was gibt diese Likelihoodfunktion an?
(d) Bestimmen Sie den Maximum-Likelihood-Schätzwert für θ.
4
15. Betrachten Sie die Exponentialverteilung
(
fY (y, λ) =
(1P)
λe−λy y ≥ 0
0
sonst
und berechnen Sie den M-L Schätzwert gegeben
(a) eine beliebige Stichprobe Y1 , . . . , Yn
(b) die Zufallsstichprobe Y1 = 8.2, Y2 = 9.1, Y3 = 10.6, Y4 = 4.9
16. Betrachte ein Sample Y1 , . . . , Yn einer Normalverteilung mit bekanntem Parameter µ und
unbekanntem Parameter σ. Berechne den Maximum Likelihood Schätzer für σ.
(1P)
17. Eine Stichprobe der Größe n wird aus folgendem Wahrscheinlichkeitsmodell gezogen
2
θ2k e−θ
pX (k, θ) =
,
k!
k ∈ N0
Bestimmen Sie eine Formel für den M-L Schätzer θ̂.
18. Angenommen Y ist eine Zufallsvariable, die das Einkommen eines Individuums in einer
Volkswirtschaft beschreibt. Sei weiters angenommen, dass Y Pareto verteilt ist, also
θ
θ
k
k
P(Y ≥ y) =
und somit F (y) = 1 −
y
y
gilt, wobei k die Höhe des minimalen Einkommens ist. Hieraus folgt durch Differenzieren
θ+1
θ 1
fY (y, θ) = θk
,
y ≥ k;
θ≥1
y
Finden Sie den M-L Schätzer für θ, falls k bekannt ist und Ihnen die Einkommensdaten
von 25 Individuuen vorliegen.
(1P)
19. (a) Use the method of maximum likelihood to estimate the parameter θ in the uniform
pdf
1
fY (y, θ) = ,
0≤y≤θ
θ
based on a random sample of size n. Evaluate the obtained formula for the sample
Y1 = 6.3, Y2 = 1.8, Y3 = 14.2 and Y4 = 7.6.
(2P)
(b) Given a random sample of size n from a two-parameter uniform pdf
fY (y; θ1 , θ2 ) =
1
,
θ2 − θ1
θ 1 ≤ y ≤ θ2
Find the maximum likelihood estimates for θ1 and θ2 .
(1P)
20. The exponential pdf is a measure of lifetimes of devices that do not age. However,
the exponential pdf is a special case of the Weibull distribution, which measures time
to failure of devices where the probability of failure increase as time does. A Weibull
β
random variable Y has pdf fy (y; α, β) = αβy β−1 e−αy , 0 ≤ y, 0 < α, 0 < β
5
(a) Find the maximum likelihood estimator for α assuming that β is known.
(b) Suppose α and β are both unknown. Write down the equations that would be solved
simultaneously to find the maximum likelihood estimators of α and β.
21. Gegeben sei eine Stichprobe x1 , x2 , . . . , xn wobei xi aus einer Exponentialverteilung
mit Parameter 2i λ (λ > 0)gezogen wird. Die Ziehungen seien unabhängig von einander.
(a) Geben Sie eine Formel für die gemeinsame Dichte der (X1 , . . . , Xn ) an.
(b) Geben Sie den MLE-Schätzer für λ an.
(c) Wo verwenden Sie die Unabhängigkeit der Xi ?
(2P)
Tipp: Die Dichte der Exponentialverteilung mit Parameter λ ist f (y) = λe−λy
22. Betrachten Sie die Gleichverteilung auf dem Intervall [0, θ] (siehe Beispiel 19). Finden
Sie den Schätzer für θ mit der Methode der Momente und vergleichen Sie das Resultat
mit dem Resultat aus Beispiel 19.
(1P)
23. Schätzen Sie mit der Methode der Momente den Parameter λ der Exponentialverteilung
(siehe Beispiel 15).
24. Schätzen Sie mit der Methode der Momente die Parameter µ, σ einer Normalverteilung.
Vergleichen Sie die Resultate mit denen aus Beispiel 16.
(1P)
25. Die Verteilungsfunktion der Paretoverteilung mit Parametern k > 0 und θ > 1 ist
gegeben durch
(
f (y|θ) =
θkθ
y θ+1
y≥k
0
sonst.
Nimm an, dass k bekannt ist und man ein Sample der Größe n gegeben hat.
Berechne einen Schätzer mit Hilfe der Methode der Momente.
(1P)
26. Betrachten Sie die 2 Parameter Gleichverteilung mit folgender Dichte
fX (x; α1 , α2 ) =
1
,
2α2
α1 − α2 ≤ y ≤ α1 + α2 , α2 > 0
Gegeben eine Zufallsstichprobe x1 , . . . , xn , schätzen Sie die beiden Parameter mittels
der Momentenmethode.
27. Der Reaktorunfall von Tschernobyl
Am 26. April 1986 ereignete sich der in der Geschichte der Atomkraft folgenschwerste
Reaktorunfall in der ehemals russischen Stadt Tschernobyl. Zum Zeitpunkt des Unglücks
befanden sich 200 Tonnen Uran im Reaktor, und die Schätzungen über die freigewordene
Strahlung liegen zwischen 50 Millionen und 250 Millionen Curie.
6
Die staatliche ukrainische Agentur Tschernobyl Interinform behauptet, dass 95% des
Brennstoffs im Reaktor verblieben seien. Dem steht die recht aktuelle (2002) Untersuchung des russischen Atomphysikers Konstantin Tschetscherov vom Kurchatov-Institut
in Moskau und seines deutschen Kollegen Sebastian Pflugbeil, Direktor der Gesellschaft
für Strahlenschutz in Berlin, entgegen, die der Meinung sind, dass nahezu das gesamte
radioaktive Material in die Umwelt gelangt sei.
Fakt ist, dass der Reaktor erst im Jahr 2000 abgeschaltet worden ist. Es wird deshalb
auch unterstellt, dass der Bau der Betonummantelung, des sogenannten Sarkophags,
weniger davor schützen sollte, dass weitere Strahlung austritt, als die Weiterbenützung
der restlichen Blocks zu garantieren.
Im Internet findet man diese Informationen unter anderem unter
http://www.chernobyl.info
Einige Definitionen:
Die SI-Einheit von Radioaktivität ist das Becquerel: 1 Becquerel entspricht definitionsgemäß dem Zerfall eines Atomkerns pro Sekunde: 1 Bq = 1 s−1 .
Die ältere Einheit von Radioaktivität ist das Curie. Es wird heute folgendermaßen definiert: 1 Ci := 3.7 · 1010 Bq
Die von einem Material durch Ionisierung absorbierte Energie (die sogenannte absorbierte Dosis) wird in Gray gemessen; man definiert ein Gray (Gy) als die Energiemenge
von 1 Joule pro Kilogramm.
Will man die Auswirkungen auf ein Lebewesen bewerten, so bedient man sich der
äquivalenten Dosis, die sich als Produkt aus dem radiation weighting factor und der
absorbierten Dosis ergibt. Dieser Faktor hängt von der Art der Strahlung und dem
betroffenen Körperteil ab und wird in Sievert gemessen: 1 Sv = 1 J/kg.
Um die Radioaktivität an einer Stelle in der Natur zu messen, verwendet man einen
Geigerzähler, der die Anzahl der radioaktiven Zerfälle registriert.
(a) Sei Xt die Anzahl der Zerfälle bis zum Zeitpunkt t, wenn man zum Zeitpunkt 0
zu messen beginnt. Geht man davon aus, dass die Emissionen unabhängig voneinander erfolgen, so weiß man aus der Theorie, dass Xt einer Poissonverteilung mit
Parameter λt, λ > 0, folgt.
Berechne den Erwartungswert von Xt und leite daraus einen Momentenschätzer
für λt ab. Berücksichtige auch den Fall t = 1 s.
(b) Berechne den Maximum Likelihood-Schätzer für λt.
(c) Wie kommt man auf eine Schätzung der Becquerel, wenn man die radioaktive Strahlung
1
10
Sekunde lang misst? Macht die Aussage über die freigewordene Strahlung
in der Einleitung Sinn?
7
28. Ein Kriminologe durchsucht eine Fingerabdrucksdatenbank nach seltenen doppelt gewundenen Fingerabdrücken. Er durchsucht hierbei 6 mal 100000 Fingerabdrücke und
findet 3,0,3,4,2 and 1 Exemplare des gesuchten Musters in den entsprechenen Datensets.
Nehmen Sie an, dass doppelt gewundene Fingerabdrücke Poissonverteilt sind und benutzen Sie die Momentmethode um den Parameter λ zu schätzen. Wie würde sich Ihre
Antworkt ändern, wenn Sie einen M-L Schätzer verwenden würden.
(1P)
Hinweis: Die Dichte der Poissonverteilung ist
f (x, λ) =
e−λ λk
,
k!
k ∈ N0 ,
λ>0
Konfidenzintervalle
29. Das Gewicht einer Bevölkerung sei N(72, 10) verteilt.Wie groß muss der Stichprobenumfang gewählt werden, damit das mittlere Gewicht der Personen mit einer Wahrscheinlichkeit von
(a)
0.9
(b)
0.95
(c)
0.99
mehr als 70 kg beträgt?
(1P)
30. Eine Umfrage an 100 Personen im Alter zwischen 20 und 30 Jahren ergab, dass 46
Prozent der Befragten Raucher sind.
(1P)
(a) Finde ein 95%-Konfidenzintervall für den Anteil der Raucher in dieser Altersgruppe.
(b) Berechne die Anzahl der Personen, die befragt werden müssen, damit das 95%Konfidenzintervall höchstens 0.05 lang ist. Beachte, dass kein Vorwissen über p
besteht.
31. Eine Versicherung möchte herausfinden, wie viele der 150.000 Einwohner einer Stadt
prinzipiell an einer privaten Pensionsvorsorge interessiert wären. Bei einer Befragung
von 800 zufällig ausgewählten Bewohnern gaben 220 an, an einer Vorsorge interessiert
zu sein.
(1P)
(a) Ermittle ein 99%-Konfidenzintervall für die Anzahl der tatsächlich interessierten
Personen.
(b) Welche Information gibt uns die Einwohnerzahl für die Rechnung?
32. Eine Firma beliefert einen Supermarkt mit 200g-Packungen Tee. Aus Erfahrung ist bekannt, dass das Gewicht der Packungen Normalverteilt ist und eine Standardabweichung
von σ = 15g aufweist.
(1P)
8
(a) Wieviele Beobachtungen sind erforderlich, damit ein 95%-KI für das mittlere Gewicht höchstens 2g lang ist.
(b) Eine Stichprobe von 200 Packungen ergab ein Durchschnittsgewicht von 199g. Berechne das 95%-Konfidenzintervall.
(c) Ist es gerechtfertigt, den Inhalt der Teepackungen mit 200g anzugeben?
33. Ein Meinungsforscher publiziert vor einer Volksabstimmung das Ergebnis einer Studie,
wonach in einer repräsentativen Stichprobe 52% der Befragten angaben, mit ’Ja’ zu
stimmen.
(1P)
(a) Was können Sie mit dieser Angabe prognostizieren ?
(b) Was können Sie über die Zustimmungsrate der Gesamtbevölkerung aussagen, wenn
die Stichprobengröße n=100, n=500, n=2000, n=100000 betragen hat (α = 0.05).
34. The results of IQ tests are known to be normally distributed. Suppose that in 2002, the
distribution of IQ test scores for persons aged 18-35 years has a variance σ 2 = 225. A
random sample of 9 persons take the IQ test. The sample mean score is 115.
(a) Calculate the 50%, 75%, 90% and 95% confidence interval estimates of the unknown
population mean IQ score.
(b) What trade-offs are involved in reporting one interval estimate over another? a+b=(1P)
(c) If it is known that the population mean IQ score is µ = 105, what proportion of
samples of size 6 will result in sample mean values in the interval [135,150]? (1P)
35. Sie beobachten folgende realisierten Gewinne in einer Fernseh-Quizzshow (in Tausend
Euro)
73
34
17
96
33
189
282
33
66
64
Es wird davon ausgegangen, dass die Gesamtgewinne normalverteilt sind. Bestimmen
Sie für den unbekannten Parameter µ dieser Normalverteilung ein Konfidenzintervall,
das µ mit der Wahrscheinlichkeit 0.95 überdeckt.
36. Um den Bedarf an Autobahnmautvignetten zu planen, soll der Anteil der Autobesitzer,
die ein Pickerl kaufen wollen anhand einer (repräsenativen) Stichprobe von Autofahrern
geschätzt werden. Wieviele Personen müssen mindestens befragt werden, damit ein 95%
Konfidenzintervall für den gesuchten Anteil eine Länge von höchstens 0.02 aufweist?
37. Das Gewicht X des Brotes sei N (1, .3)-Verteilt. Um das mittlere Gewicht µ zu bestimmten, werden 20 Brote gewogen.
(a) Wie ist das durchschnittliche Gewicht X̄ dieser Stichprobe verteilt ?
9
(b) Mit welcher Wahrscheinlichkeit liegt das Durchschnittsgewicht zwischen 0.99 kg
und 1.10 kg ?
a+b=(1P)
(c) Um welchen Wert a weicht das Durchschnittsgewicht X̄ der Stichprobe vom Mittelwert µ höchstens mit Wahrscheinlichkeit 0.05 ab ?
(1P)
38. Gegeben seien 3 Konfidenzintervalle für µ berechnet aus dem gleichen Datensatz unter
der Annahme einer Normalverteilung mit bekanntem σ 2 = 4. Das erste Konfidenzintervall zum Konfidenzniveau 1−α = 0.95 hat die Länge l1 , das zweite zum Konfidenzniveau
1 − α = 0.9 hat die Länge l2 und das dritte zum Konfidenzniveau 1 − α = 0.99 hat die
Länge l3 . Ordnen Sie die drei Konfidenzintervalle nach ihrer Länge. Beginnen Sie mit
dem kürzesten.
(1P)
39. Es soll untersucht werden, ob die Bevölkerung aus betroffenen Gebieten eine negativere
Einstellung zu wild lebendnen Bären aufweist als die Bevölkderung von Wien. Hiefür
wurde ein Einstellungsfragebogen verwendet, dessen Testscore als normalverteilt angenommen werden darf. Hohe Werte stehen dabei für positive Einstellung.
Stadtbevölkerung
25
23
23
30
26
28
24
29
21
30
25
23
30
betroffene Bevölkerung
23
20
25
27
21
19
24
24
22
28
25
28
21
Nehmen Sie für die Auswertung gleiche Varianzen in den beiden Gruppen an.
40. Der Gehalt an Calcium eines Mineralwassers (in mg/l) wird an 6 verschiedenen Tagen
ermittelt: 840 680 920 1000 750 850. Der Produzent behauptet, dass das Mineralwasser
einen mittleren Calciumgehalt von 1000 mg/l hat. Testen Sie diese Hypothese zum
Niveau a=0.05.
(a) wenn die Varianz nicht bekannt ist.
(b) wenn die Standardabweichung 200 mg/l beträgt.
41. Die Juni-Durchschnittstemperatur liegt bei 22.2 Grad mit einer Standardabweichung
von 2 Grad. In den letzten 5 Jahren betrug die Durchschnittstemperatur im Juni: 2001:
23.5 2002: 22.3 2003: 23.2 2004: 24.3 2005: 25.4
(a) Hat sich die Juni-Temperatur in den letzten 5 Jahren verändert ? (α = 0.05)
(b) Wurde es in den letzten 5 Jahren signifikant wärmer ? (α = 0.05).
(c) Angenommen, die Varianz der Juni-Temperaturen wäre nicht bekannt, wurde es
dann signifikant wärmer in den letzten 5 Jahren (α = 0.05).
42. Von 1000 Personen einer Versuchsgruppe, die täglich 400mg Selen einnahmen, erkrankten im Zeitraum von 10 Jahren 125 Personen an Krebs. In der aus 800 Personen bestehenden Kontrollgruppe, die kein Selen (sondern ein Placebo) verabreicht bekam, erkrankten
210 Personen an Krebs.
(1P)
10
(a) Berechnen Sie ein 95% Konfidenzintervall für die Reduktion des Krebsrisikos durch
die Einnahme von Selen.
(b) Genauere Informationen über die Studie ergaben, dass alle Testpersonen in einem
Gebiet mit extrem geringen Selengehalt im Boden wohnten. Die Nahrung enthielt
daher sehr wenig Selen. Wie beurteilen Sie im Lichte dieser Information das Konfidenzintervall in (a) ?
43. Zwei Unterrichtsmethoden wurden verglichen. Bei Methode A erreichten 25 Studenten
beim darauffolgenden Test eine mittelere Punktzahl von x̄A = 82, wobei die Standardabweichung sA = 6.5 betrug. Bei Unterrichtsmethode B ergab sich mit 27 Studenten
ein durchschnittliches Ergebnis von x̄B = 77, sowie sB = 6.7. Berechnen Sie unter der
Annahme gleicher Varianzen und Normalverteiltheit der Ergebnisse ein 95% Konfidenzintervall für den Unterschied in der Effizienz der beiden Methoden.
44. Vor der Einführung der abschreckenden Zigarettenpackungen gaben von 600 Befragten
220 an zu rauchen. Nach der Einführung wurde wieder befragt und es gaben 80 von 300
Befragten an zu rauchen. Berechnen Sie Konfidenzintervalle für den Anteil der Raucher
für beide Befragungen und für die Differenz der Anteile.
(1P)
45. Angenommen, dass Konfidenzintervall des Stichprobenmittels für ein normal verteiltes
X mit Varianz σ 2 ist [0, 4]. Wie sieht das Konfidenzintervall für die Zufallsvariable Y =
aX + b (a, b ∈ R, a 6= 0) aus ?
(1P)
46. Nachstehende Tabelle enthält das Gewicht von Personen, die an einem Trainingsprogram
zur Gewichtsreduktion teilgenommen haben, vor und nach Absolvierung des Programmes.
Gewicht in kg
vorher
75
66
80
85
90
87
73
75
81
81
nachher
70
67
73
80
88
89
71
70
79
76
Erstellen Sie ein 95% Konfidenzintervall für die Differenz der Gewichte unter der Annahme, dass das Gewicht in beide Fllen Normalverteilt ist.
(1P)
Unverzerrtheit und Effizienz
47. Zeigen Sie, dass
n
1X
(Xi − µ)2
σˆ2 =
n
i=1
ein erwartungstreuer Schätzer für die Varianz ist, falls der Erwartungswert µ nicht aus
den unabhängigen Daten Xi geschätzt werden muss, sondern bekannt ist.
(1P)
11
48. Gegeben sei ein Sample Y1 , . . . , Yn von einer Exponentialverteilung mit Parameter θ,
deren Dichtefunktion folgendermaßen definiert ist:
(
1 − yθ
y>0
θ e
f (y|θ) =
0
y≤0
(a) Berechne den Erwartungswert von Y1 .
(b) Ist der Schätzer
n
θ̂ =
1X
Yi
n
i=1
unverzerrt für θ?
(1P)
49. Für den Erwartungswert µ einer Zufallsvariablen werden folgende Schätzfunktionen vorgeschlagen.
T1 = X̄, T2 = Xn , T3 =
n
n
X1 + Xn
1 X
1 X
, T4 =
Xi , T 5 = 2
Xi
2
n−1
n
i=1
i=1
Dabei werde angenommen, dass X1 , ..., Xn unabhängig sind. Außerdem soll gelten E(Xi ) =
µ und Var(Xi ) = σ 2 für i = 1, . . . , n.
(a) Welche der Schätzfunktionen sind erwartungstreu ?
(b) Welche der erwartungstreuen Schätzfunktionen hat die kleinste Varianz ?
(1P)
50. Gegeben seien zwei unabhängige Schätzer T1 , T2 für einen unbekannten statistischen
Parameter θ. Für die Schätzfunktionen gilt: E(T1 ) = 3θ, Var(T1 ) = 1 und E(T2 ) = 2θ,
Var(T2 ) = 9. Betrachten Sie Linearkombinationen T = a1 T1 + a2 T2 der beiden Schätzer.
(1P)
(a) Welche Bedingungen müssen die ai erfüllen, so dass T ein erwartungstreuer Schätzer
für θ ist.
(b) Bestimmen Sie ai , so dass T varianzminimal und erwartungstreu ist.
51. Eine Stichprobe der Größe 2 wird aus folgender Verteilung gezogen
fY (y; θ) = 2yθ2 ,
0<y<
(1P)
1
θ
Für welchen Wert c ist c(Y1 + 2Y2 ) ein unverzerrter (erwartungstreuer) Schätzer für
1
θ
?
52. Suppose that W1 is random variable with mean µ and variance σ12 and W2 has the same
mean and variance σ22 .
12
(a) Show that cW1 + (1 − c)W2 is an unbiased estimator for µ (for all c).
(b) Compute the variance of these estimators.
(c) Find the c such that the estimator in (a) is most efficient if W1 and W2 are independent.
53. Let X1 . . . Xn be a random sample of size n from the Poisson distribution, pX (x, λ) =
e−λ λx
1 Pn
(1P)
i=1 Xi is an efficient estimator for λ.
x! , x = 0, 1, . . .. Show that λ̂ = n
54. Gib die Definition der Fisher-Information für ein Modell, das durch θ parametrisiert ist,
und erkläre ausführlich, wie man diese Größe berechnet.
55. Sei X eine Bernoulli-verteilte Zufallsvariable mit Parameter p. Die probability mass function ist gegeben durch
pX (k|p) = pk (1 − p)1−k , k = 0, 1, p ∈ (0, 1).
Um den Parameter p zu schätzen, verwendet man ein i.i.d. Sample X1 , . . . , Xn und
P
betrachtet p̂ = X̄ = n1 n1 Xi .
Berechne folgende Ausdrücke:
(a) E(X), Var(X)
(b) E(X̄), Var(X̄)
(c) Fisher-Information I(p)
a+b+c=(1P)
(d) Cramér-Rao-Schranke des Modells
(e) Ist p̂ ein effizienter Schätzer für p?
d+e=(1P)
56. Sei X1 , . . . , Xn ein i.i.d. Sample aus einer Exponentialverteilung mit Parameter λ. Berechne die Fisher-Information dieses Modells und erkläre, was das bedeutet.
Konsistenz
57. Was bedeutet es, dass ein Schätzer konsistent für einen Parameter ist? Arbeite diese
Definition gut aus und präsentiere sie übersichtlich.
58. Es sei Y1 , . . . , Yn , . . . eine Folge von i.i.d. Zufallsvariablen mit Erwartungswert µ und
P
Varianz σ 2 . Betrachte die zugehörigen Sample Means Yn = ni=1 Yi .
(2P)
(a) Schreibe mathematisch auf, was es heißt, dass die Folge der Schätzer Yn , n ≥ 1,
konsistent für den Parameter µ ist.
(b) Wähle n fix und wende die Tschebyscheff-Ungleichung auf die Zufallsvariable Yn
an.
13
(c) Zeige nun mit Hilfe von (b) die Aussage in (a).
(d) Welches berühmte Theorem hast Du gerade bewiesen?
59. Gegeben sei ein i.i.d. Sample X1 , . . . , Xn aus einer Normalverteilung mit µ = 0 und
unbekannter Varianz σ 2 . Zeige, dass der Schätzer
n
Sn2 =
1X 2
Xi
n
i=1
für den Parameter σ 2 konsistent ist.
(1P)
Hinweis: Ist Xi ∼ N (µ, σ 2 ), dann gilt
Y =
n X
Xi − µ 2
i=1
σ
∼ χ2n
mit Var(Y ) = 2n.
Suffizienz
60. Was bedeutet es, dass eine Statistik suffizient für einen Parameter ist? Gib eine geeignete
Definition.
61. Sei X1 , X2 . . . Xn eine Zufallsstichprobe aus einer Bernoulli Verteilung mit Parameter θ.
Zeigen Sie, dass T (X) = X1 + ... + Xn ein suffizienter Schätzer für θ ist.
(2P)
62. Sei X1 , . . . , Xn ein i.i.d. Sample aus einer geometrischen Verteilung, pX (k| p) = (1 −
P
(2P)
p)k−1 p, k = 1, 2, . . .. Zeige, dass p̂ = ni=1 Xi suffizient für p ist.
63. Betrachte ein i.i.d. Sample der Größe n, das nach einer Dichte
(
e−(y−θ) y ≥ θ
fY (y| θ) =
0
sonst
gezogen wurde.
(2P)
(a) Die Dichte von Ymin , also dem kleinsten Wert im Sample, ist gegeben durch
fYmin (ymin ) = n(1 − FY1 (ymin ))n−1 fY1 (ymin ).
Berechne zunächst FY1 (ymin ) mit Hilfe von fY1 (ymin ). Leite dann daraus eine Formel
für fYmin (ymin ) her.
(b) Berechne die Likelihood L(θ).
14
(c) Lässt sich L(θ) in der Form
L(θ) = fYmin (ymin |θ)b(y1 , . . . , yn )
(1)
schreiben, wobei b(y1 , . . . , yn ) nur noch eine Funktion der Daten ist, dann ist Ymin
suffizient für den Parameter θ. Zeige (1).
64. Gegeben sei eine Zufallsstichprobe (x1 , . . . , xn ), wobei die Xi der Verteilung mit der
Dichte
fX (x, θ) = θe−(θ+1) log(1+x)
P
gehorchen. Ist der Schätzer θ̂ = ni=1 log(1 + xi ) suffizient ?
65. Given a random sample of size n from the gamma distribution with α unknown and β
known
β α α−1
x
exp (−βx)
Γ(α)
P
where Γ is the gamma function. Show that T = ni=1 log(xi ) is a sufficient statistic for
fX (x) =
α.
Hint: Use that
n
Y
(α−1)
xi
= exp (α − 1)
i=1
n
X
!
log(xi )
i=1
66. Gegeben sei eine Zufallsstichprobe (Y1 , . . . , Yn ) aus einer Gleichverteilung auf [0, θ] (siehe
Beispiel 19) mit der Dichte
1
fY (y, θ) = 1[0,θ] (y)
θ
wobei
(
1[a,b] (y) =
1, wenn y ∈ [a, b]
0, sonst
Der Momentenschätzer für θ ist durch
X
n
2
θ̂1 =
Yi
n
i=1
gegeben. Der Maximum Likelihood Schätzer ist θ̂2 = Ymax = max1≤i≤n Yi .
(a) Zeigen Sie, dass
L(θ) =
1
1 (Ymax )
θn [0,θ]
(b) Zeigen Sie, dass θ̂1 nicht suffizient ist.
(c) Zeigen Sie, dass θ̂2 suffizient ist.
Tipp: Benutzen Sie den Faktorisierungssatz aus der Vorlesung.
(2P)
15
Hypothesentests
67. Im folgenden seien die Daten nach einer Normalverteilung mit Parametern µ und σ
generiert. Argumentiere, ob man die Nullhypothese ablehnt oder nicht.
(1P)
(a) H0 : µ = 120 versus H1 : µ < 120; ȳ = 114.2, n = 25, σ = 18, α = 0.08
(b) H0 : µ = 42.9 versus H1 : µ 6= 42.9; ȳ = 45.1, n = 16, σ = 3.2, α = 0.01
(c) H0 : µ = 14.2 versus H1 : µ > 14.2; ȳ = 15.8, n = 9, σ = 4.1, α = 0.13
68. Road ’Hugger All-Weather’-Reifen halten im Durchschnitt 32500 Meilen. Die Herstellerfirma hofft durch Hinzufügen eines neuen Polymers, die Reifen gegen Abnützung bei
extremen Temperaturen zu schützen. In einer Untersuchung hielten die neuen Reifen bei
15 Fahrern im Durchschnitt 33800 Meilen.
Kann die Firma behaupten, dass die neuen Reifen signifikant besser sind als die alten?
Teste H0 : µ = 32500 gegen eine einseitige Alternativhypothese auf dem Signifikanzniveau α = 0.05. Nimm an, dass die Mileage sowohl der alten als auch der neuen Reifen
normalverteilt ist mit bekannter Standardabweichung σ = 4000 Meilen.
69. Ein Politiker behauptet, dass 60% der Bevölkerung eines Landes eine Verschlechterung
der Konjunktur erwartet. In einer Umfrage unter 500 Personen gaben allerdings nur
220 Personen an, mit einer Konjunkturverschlechterung zu rechnen. Glauben Sie der
Aussage des Politikers ? Testen Sie zum Niveau α = 0.01.
(1P)
70. Ein Politiker hat sich in den letzten beiden Jahren in seinen Reden auf das Thema Frauenrechte konzentriert und möchte nun wissen, ob der Anteil der ihn unterstützenden
männlichen Wähler dabei gleichgeblieben ist. In der letzten Wahl waren 65% seiner
Wähler Männer. In einer rezenten Befragung von 120 Leuten, die den Politiker unterstützen, sind 72 Männer gewesen.
(1P)
Teste H0 : ’Anteil der männlichen Unterstützer ist gleichgeblieben’ auf dem Signifikanzniveau α = 0.05. Die Alternative sei dabei einseitig gewählt.
71. Eine Fahrschule behauptet, dass 80% der Führerschein beim ersten Versuch schaffen. Im
vergangenen Jahr schafften 450 von 600 Fahrschülern den Führerschein sofort. Testen
Sie, ob die Aussage der Fahrschule zutrifft (α = 0.05).
72. Unter 100 befragten LeserInnen einer Zeitschrift mögen 25 eine bestimmte Politikerin.
Unter 120 LeserInnen eines Konkurrenzblattes mögen 22 die betreffende Politikerin. Testen zum Niveau α = 0.05, ob sich die Einschätzung der Politikerin in den Lesergruppen
beider Zeitungen unterscheidet.
(1P)
73. Testen Sie auf einem Signifikanzniveau von α = 5%, ob das in Beispiel 46 beschriebene
Trainingsprogramm tatsächlich zu einem Gewichtsverlust geführt hat.
(1P)
16
74. Gib eine Definition des p-Wertes. Berechne die p-Werte in Aufgabe 67.
75. Finden Sie den p-Wert in Beispiel 41 (Punkt (a) und (b)) und testen die jeweiligen
Hypothesen unter Verwendung des gefundenen Wertes.
(1P)
76. Finden Sie den p-Wert in Beispiel 71 und testen die jeweiligen Hypothesen unter Verwendung des gefundenen Wertes.
(1P)
77. Nimm an, H0 : µ = 120 wird gegen H1 : µ 6= 120 unter Normalverteilungsannahme
getestet. Sei σ = 10 und n = 16.
(1P)
(a) Was ergibt sich für den p-Wert, falls der Stichprobenmittelwert ȳ = 122.3 ist.
(b) Unter welchen Umständen verwirft man H0 ?
78. In einer repräsentativen Umfrage für ein Land wurde das monatliche Einkommen von
240 Männern und 160 Frauen erhoben. Das durchschnittliche Einkommen der Männer
lag in der Stichprobe bei 1650 EUR, jenes der Frauen bei 1280 EUR. Die Stichprobenstandardabweichung der Einkommen betrug 270 EUR bei den Männern und 480 EUR
bei den Frauen.
(2P)
(a) Testen Sie, ob ein Einkommensunterschied zwischen Männern und Frauen besteht.
(b) Führen Sie eine Test auf Varianzhomogenität durch.
(c) Diskutieren Sie inhaltlich, inwieweit für diese Fragestellung ein Test auf einen Mittelwertsunterschied sinnvoll ist.
79. (a) Wie wirken sich Lineartransformationen auf den F-Test aus ? (Lineartransformation: l(x) = a + bx mit a, b ∈ R)
(1P)
(b) Wie wirken sich Lineartransformationen auf den t-Test für unabhängige Stichproben (und homogene Varianzen) aus?
(1P)
80. Um einen Test durchzuführen, wirft ein fauler Statistiker vier faire Münzen und entscheidet sich für die Gegenhypothese, wenn bei allen Münzen Kopf erscheint. In allen
anderen Fällen entscheidet er sich für die Hypothese. Geben Sie die Wahrscheinlichkeit
für den Fehler 1. Art an.
(1P)
81. In einer Grundgesamtheit sei ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegen
HA : µ 6= 100 getestet werden, wobei der Umfang der Stichprobe bei n = 100 liegt. (2P)
(a) Bestimmen Sie den Annahmebereich für H0 (α = 0.05).
(b) Berechnen Sie den Fehler 2. Art (β) unter der Annahme, dass der unbekannte
Erwartungwert µ gleich (i) 105, (ii) 110 und (iii) 115 sei.
(c) Erstelllen Sie eine Skizze der Gütefunktion (Macht) des Tests.
17
82. Gegeben sei eine normalverteilte Grundgesamtheit mit σ = 4. Getestet werden soll die
Hypothese H0 : µ = 10 gegen H1 : µ 6= 10 (α = 0.05). Genügt eine Zufallsstichprobe der
Größe n = 45, um den Fehler zweiter Art unter 0.2 zu halten, wenn µ = 12 ?
(1P)
83. Es sei X1 , . . . , X7 ein i.i.d. Sample, wobei X1 einer Bernoulliverteilung mit unbekanntem
Parameter p folgt. Man möchte die Hypothese H0 : p = 0.75 gegen die einseitige Alternative H1 : p < 0.75 testen und verwendet dafür folgende Entscheidungsregel: ’Verwirf
P
H0 , falls k = 7i=1 xi ≤ 3.’
(1P)
(a) Was ist das Signifikanzniveau α des Tests?
(b) Zeichne die Wahrscheinlichkeit, dass H0 verworfen wird, als Funktion von p.
84. Es sei Y1 , . . . , Y8 ein i.i.d. Sample einer Gleichverteilung auf dem Intervall [0, θ]. Mit Hilfe
der Teststatistik
Ymax = max Yi
1≤i≤8
testet man die Hypothese H0 : θ = 2 gegen die Alternative H1 : θ < 2 auf dem
Signifikanzniveau α = 0.1.
(2P)
(a) Schreibe die Formel für die Dichtefunktion von Y1 auf und zeichne sie.
(b) Die Dichtefunktion von Ymax ist gegeben durch
y 7 1
· , 0 ≤ y ≤ θ.
θ
θ
Was ist der kritische Wert von Ymax ?
f (y, θ) = 8
(c) Was ist die Wahrscheinlichkeit, einen Fehler zweiter Art zu begehen, wenn θ = 1.7?
85. Betrachte ein Sample Y der Größe 1 aus einer Verteilung mit Dichte
fY (y) = (θ + 1)y θ , 0 ≤ y ≤ 1.
Falls y ≥ 0.9, dann verwirft man H0 : θ = 1 zugunsten von H1 > 1. Berechne das
Signifikanzniveau des Tests.
(1P)
86. Es seien n = 36 normalverteilte Beobachtungen gegeben, wobei σ = 8 bekannt ist.
Man möchte die Hypothese H0 : µ = 60 gegen die zweiseitige Alternative H1 : µ 6=
60 auf dem Signifikanzniveau α = 0.07 testen. Ein Student, der die Vorlesung über
die Konstruktion von Entscheidungsregeln versäumt hat, beschließt aus seiner Intuition
heraus H0 abzulehnen, falls ȳ außerhalb des Intervalls (60 − c1 , 60 + c1 ) liegt.
(a) Berechne c1 .
(b) Was ist die Güte des Tests, wenn µ = 62.
(c) Berechne den kritischen Wert c2 mit Hilfe einer korrekten Überlegung.
18
(d) Was ist die Güte des Tests jetzt, wenn µ = 62.
87. Zur Untersuchung der Variabilität der Stärke (in t/cm2 ) von zwei Typen von Stahlseilen
(Typ 1, Typ 2) ergaben sich folgende Werte n1 = 10, s21 = 19.2, n2 = 16, s22 = 3.5. Weist
der Unterschied in den Standardabweichungen auf eine höhere Variabilität des Typen 1
hin ? (α = .01).
(1P)
Herunterladen