Einführung in die Inferenzstatistik

Einführung in die Inferenzstatistik
Beispielsammlung
Zusammengestellt von F. Gach, D. Wozabal und N. Wozabal
(Version vom 25. Februar 2010)
1
Einführung und Wiederholung
1.1 Betrachten Sie das Experiment: Würfeln mit zwei sechsseitigen Würfeln. Berechnen Sie
die Wahrscheinlichkeitsfunktion und die Verteilung der Zufallsvariable Y, die die absolute Differenz der beiden Augenzahlen beschreibt.
(1P)
1.2 Geben Sie ein k an, so dass die Funktion

kx2 , 0 < x < 1
f (x) =
0,
sonst
eine Dichte ist. Berechnen Sie außerdem die Verteilungsfunktion und P( 31 < X ≤
wobei die Zufallsvariable X die Dichte f hat.
1
2 ),
(1P)
1.3 Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariable Y in Beispiel 1.1.
(1P)
1.4 Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariable X, wobei X die
folgende Verteilung hat



0,
x<0


F (x) = x3 , 0 ≤ x < 1



1,
x≥1
(1P)
1.5 Sei X die Lebensdauer von Glühbirnen (in



 2x,
3
f (x) =
4,


 0,
Stunden). Die Dichte von X sei durch (2P)
0≤x<
1
2
2<x<3
sonst
(a) Welcher Prozentsatz an Glühbirnen überlebt länger als 15 Minuten ?
(b) Berechnen Sie E(X) und V ar(X).
(c) Berechnen Sie P(0.25 < X ≤ 2.2|X > 1).
1
EINFÜHRUNG UND WIEDERHOLUNG
2
(d) Berechnen Sie P(X = 2), P(X = 0), P(X = E(X)).
1.6 Betrachten Sie die Zufallsvariable X mit E(X) = 10 und Var(X)=25. Geben Sie die
positiven Zahlen a und b an, so dass die Zufallsvariable Y = aX − b Erwartungswert 0
und Varianz 1 hat.
(1P)
1.7 Die momenterzeugende Funktion (engl.: moment generating function) einer Zufallsvariable X ist definiert als
MX (t) := E(eXt ),
t ∈ R.
(a) Berechne MX (t) für eine standardnormalverteilte Zufallsvariable.
(1P)
Hinweis: Ergänze in der Rechnung (x2 − 2xt) zu einem vollständigen Quadrat
und entdecke im gesamten Ausdruck die Dichte einer Normalverteilung mit Erwartungswert t und Varianz 1.
(b) Berechne die momenterzeugende Funktion einer geometrisch verteilten Z.v. (1P)
Hinweis: Für eine diskrete Z.v. ist MX (t) gegeben durch
MX (t) =
X
ekt P (X = k).
k
1.8 Betrachte folgendes Glücksspiel: Der Einsatz wird mit Wahrscheinlichkeit p verdoppelt,
mit Wahrscheinlichkeit 1 − p verliert man ihn.
(a) Wie viele Runden muß man im Schnitt spielen, um einmal zu gewinnen? Berechne
auch die Varianz der Anzahl der zu spielenden Runden.
(1P)
(b) Wenn man seinen Einsatz bei jedem Verlust verdoppelt und spielt, bis man einmal
gewonnen hat, wie hoch ist dann der zu erwartende Gewinn, wie hoch ist der zu
erwartende Einsatz?
(1P)
1.9 Birdie’s Bearing Works manufactures bearing shafts whose diameters are normally distributed with parameters µ = 1, σ = 0.002. The buyer’s specifications require these
diameters to be 1.000 ± 0.003 cm. What fraction of the manufacturer’s shafts are likely
to be rejected? If the manufacturer improves her quality control, she can reduce the
value of σ. What value of σ will ensure that not more than 1 percent of her shafts are
likely to be rejected?
(1P)
1.10 (Aus: S. Ross, A First Course in Probability Theory, 2nd ed. (New York: MacMillan,
1984)). An expert witness in a paternity suit testifies that the length (in days) of a
pregnancy, from conception to delivery, is approximately normally distributed, with
parameters µ = 270, σ = 10. The defendant in the suit is able to prove that he was out
of the country during the period from 290 to 240 days before the birth of the child. What
is the probability that the defendant was in the country when the child was conceived?
(1P)
2
MAXIMUM LIKELIHOOD UND MOMENTENMETHODE
3
1.11 Es wird mit zwei vierseitigen Würfeln gewürfelt. Berechnen Sie die gemeinsame Wahrscheinlichkeitsfunktion der Zufallsvariable X, die die maximale Augenzahl beschreibt,
und der Zufallsvariablen Y, die die Summe der beiden Augenzahlen beschreibt. Sind die
beiden Variablen unabhängig ?
(1P)
1.12 Gegeben sei eine Zufallsvariable X mit E(X) = µ und V ar(X) = σ 2 . Berechne Erwartungswert und Varianz der Zufallsvariable
Y =
(1P)
X −µ
σ
Welche Eigenschaften von Erwartungswert und Varianz verwenden Sie ?
2
Maximum Likelihood und Momentenmethode
2.1 Eine Urne enthält 10 Geldstücke. Sie kann zwei unterschiedliche Zusammensetzungen
aufweisen
Zustand I
3 mal 1 EURO und 7 mal 2 EURO
Zustand II
6 mal 1 EURO und 4 mal 2 EURO
Von Interesse ist der Gesamtbetrag θ des Geldes in der Urne. Der Zustand der Urne
und damit auch der Wert von θ seien unbekannt. Um θ zu schätzen, entnehmen wir der
Urne zwei Geldstücke mit Zurücklegen.
(a) Stellen Sie die Wahrscheinlichkeiten der einzelnen Stichproben in Abhängigkeit von
den Werten von θ in einer Tabelle zusammen.
(0,5P)
(b) Geben Sie die Maximum-Likelihood-Schätzfunktion für θ an.
(0,5P)
(c) Was gibt diese Likelihoodfunktion an?
(0,5P)
(d) Bei einer Ziehung werden zwei 1 EURO Stücke gezogen. Wie lautet der M-L
Schätzwert für θ ?
2.2
(0,5P)
(a) Wirf eine Münze 20 mal und zähle, wie oft Sie auf ‘Kopf’ fällt. Sei p die Wahrscheinlichkeit, daß sie auf ‘Kopf’ fällt, was ist dann die log-Likelihood von p? (1P)
(b) Wiederhole das Experiment nun leicht abgeändert: Wirf die Münze so lange, bis sie
10 mal auf ‘Kopf’ gefallen ist. Berechne wiederum die log-Likelihood von p und vergleiche die beiden Resultate. Hinweis: Verwende die negative Binomialverteilung
(siehe http://en.wikipedia.org/wiki/Negative_binomial)
(1P)
2.3 An einer Kreuzung wurde gezählt, wieviele Personen in einem Auto sitzen. Nimm an,
daß die Daten einer geometrischen Verteilung mit Parameter p folgen, also
pX (k; p) = (1 − p)k−1 p,
k ∈ {1, 2, . . . }.
(2P)
2
MAXIMUM LIKELIHOOD UND MOMENTENMETHODE
4
Schätze p und vergleiche beobachtete und erwartete Häufigkeiten.
Anzahl Personen Häufigkeit
1
678
2
227
3
56
4
28
5
8
6+
14
1011
2.4 Berechne die log-Likelihood für den Parameter λ, wenn die Zufallsvariablen unabhängig
Poisson-verteilt sind.
(1P)
2.5 Betrachten Sie folgende Zufallsstichprobe bestehend aus den acht Werten 1, 0, 1, 1, 0,
1, 1, 0. Die Stichprobe gehört zu einer Grundgesamtheit, die folgender Wahrscheinlichkeitsverteilung folgt
pX (k, θ) = θk (1 − θ)1−k ,
k = 0, 1;
0<θ<1
Finden Sie den M-L Schätzwert für θ.
(1P)
2.6 In einer Urne befinden sich rote und weiße Kugeln, wobei der Anteil p der roten Kugeln
entweder
1
2
oder
1
3
ist. Man zieht jetzt fünf Mal mit Zurücklegen und erhält die Folge
rot, weiß, weiß, rot, weiß.
Was ist der Maximum Likelihood Schätzer für p?
(1P)
2.7 In einer Schachtel befinden sich 5 Kugeln, die entweder weiß oder rot sind. Die Anzahl
θ der roten Kugeln ist unbekannt (θ=0, 1, 2, 3, 4 oder 5). Ein Statistiker zieht mit
Zurücklegen 3 Kugeln aus der Urne und erhält folgendes Ergebnis
(2P)
rot weiß rot
(a) Wie groß ist die Wahrscheinlichkeit dieses Ereignisses, wenn θ = 2 ist?
(b) Wie lautet die Likelihoodfunktion für θ aufgrund dieses Ergebnisses?
(c) Was gibt diese Likelihoodfunktion an?
(d) Bestimmen Sie den Maximum-Likelihood-Schätzwert für θ.
2.8 Betrachten Sie die Exponentialverteilung
(
fY (y, λ) =
(1P)
λe−λy y ≥ 0
0
und berechnen Sie den M-L Schätzwert gegeben
sonst
2
MAXIMUM LIKELIHOOD UND MOMENTENMETHODE
5
(a) eine beliebige Stichprobe Y1 , . . . , Yn
(b) die Zufallsstichprobe Y1 = 8.2, Y2 = 9.1, Y3 = 10.6, Y4 = 4.9
2.9 Betrachte ein Sample Y1 , . . . , Yn einer Normalverteilung mit bekanntem Parameter µ und
unbekanntem Parameter σ. Berechne den Maximum Likelihood Schätzer für σ.
(1P)
2.10 Eine Stichprobe der Größe n wird aus folgendem Wahrscheinlichkeitsmodell gezogen
2
θ2k e−θ
pX (k, θ) =
,
k!
k ∈ N0
Bestimmen Sie eine Formel für den M-L Schätzer θ̂.
2.11 Angenommen Y ist eine Zufallsvariable, die das Einkommen eines Individuums in einer
Volkswirtschaft beschreibt. Sei weiters angenommen, dass Y Pareto verteilt ist, also
θ
θ
k
k
P(Y ≥ y) =
und somit F (y) = 1 −
y
y
gilt, wobei k die Höhe des minimalen Einkommens ist. Hieraus folgt durch Differenzieren
fY (y, θ) = θk θ
θ+1
1
,
y
y ≥ k;
θ>0
Finden Sie den M-L Schätzer für θ, falls k bekannt ist und Ihnen die Einkommensdaten
von 25 Individuuen vorliegen.
2.12
(1P)
(a) Use the method of maximum likelihood to estimate the parameter θ in the uniform
pdf
1
fY (y, θ) = ,
0≤y≤θ
θ
based on a random sample of size n. Evaluate the obtained formula for the sample
Y1 = 6.3, Y2 = 1.8, Y3 = 14.2 and Y4 = 7.6.
(2P)
(b) Given a random sample of size n from a two-parameter uniform pdf
fY (y; θ1 , θ2 ) =
1
,
θ2 − θ1
θ1 ≤ y ≤ θ2
Find the maximum likelihood estimates for θ1 and θ2 .
(1P)
2.13 The exponential pdf is a measure of lifetimes of devices that do not age. However,
the exponential pdf is a special case of the Weibull distribution, which measures time
to failure of devices where the probability of failure increase as time does. A Weibull
β
random variable Y has pdf fy (y; α, β) = αβy β−1 e−αy , 0 ≤ y, 0 < α, 0 < β
(a) Find the maximum likelihood estimator for α assuming that β is known.
(b) Suppose α and β are both unknown. Write down the equations that would be solved
simultaneously to find the maximum likelihood estimators of α and β.
2
MAXIMUM LIKELIHOOD UND MOMENTENMETHODE
6
2.14 Gegeben sei eine Stichprobe x1 , x2 , . . . , xn wobei xi aus einer Exponentialverteilung
mit Parameter 2i λ (λ > 0) gezogen wird. Die Ziehungen seien unabhängig von einander.
(a) Geben Sie eine Formel für die gemeinsame Dichte der (X1 , . . . , Xn ) an.
(b) Geben Sie den MLE-Schätzer für λ an.
(c) Wo verwenden Sie die Unabhängigkeit der Xi ?
(2P)
Tipp: Die Dichte der Exponentialverteilung mit Parameter λ ist f (y) = λe−λy
2.15 Betrachten Sie die Gleichverteilung auf dem Intervall [0, θ] (siehe Beispiel 2.12). Finden
Sie den Schätzer für θ mit der Methode der Momente und vergleichen Sie das Resultat
mit dem Resultat aus Beispiel 2.12.
(1P)
2.16 Schätzen Sie mit der Methode der Momente den Parameter λ der Exponentialverteilung
(siehe Beispiel 2.8).
2.17 Schätzen Sie mit der Methode der Momente die Parameter µ, σ einer Normalverteilung.
(1P)
2.18 Die Verteilungsfunktion der Paretoverteilung mit Parametern k > 0 und θ > 1 ist
gegeben durch
(
f (y|θ) =
θkθ
y θ+1
y≥k
0
sonst.
Nimm an, dass k bekannt ist und man ein Sample der Größe n gegeben hat.
Berechne einen Schätzer mit Hilfe der Methode der Momente und vergleiche diesen mit
den Ergebnissen aus 2.11.
(1P)
2.19 Betrachten Sie die 2 Parameter Gleichverteilung mit folgender Dichte
fX (x; α1 , α2 ) =
1
,
2α2
α1 − α2 ≤ y ≤ α1 + α2 , α2 > 0
Gegeben eine Zufallsstichprobe x1 , . . . , xn , schätzen Sie die beiden Parameter mittels
der Momentenmethode.
2.20 Der Reaktorunfall von Tschernobyl
Am 26. April 1986 ereignete sich der in der Geschichte der Atomkraft folgenschwerste
Reaktorunfall in der ehemals russischen Stadt Tschernobyl. Zum Zeitpunkt des Unglücks
befanden sich 200 Tonnen Uran im Reaktor, und die Schätzungen über die freigewordene
Strahlung liegen zwischen 50 Millionen und 250 Millionen Curie.
Die staatliche ukrainische Agentur Tschernobyl Interinform behauptet, dass 95% des
Brennstoffs im Reaktor verblieben seien. Dem steht die recht aktuelle (2002) Untersuchung des russischen Atomphysikers Konstantin Tschetscherov vom Kurchatov-Institut
2
MAXIMUM LIKELIHOOD UND MOMENTENMETHODE
7
in Moskau und seines deutschen Kollegen Sebastian Pflugbeil, Direktor der Gesellschaft
für Strahlenschutz in Berlin, entgegen, die der Meinung sind, dass nahezu das gesamte
radioaktive Material in die Umwelt gelangt sei.
Fakt ist, dass der Reaktor erst im Jahr 2000 abgeschaltet worden ist. Es wird deshalb
auch unterstellt, dass der Bau der Betonummantelung, des sogenannten Sarkophags,
weniger davor schützen sollte, dass weitere Strahlung austritt, als die Weiterbenützung
der restlichen Blocks zu garantieren.
Im Internet findet man diese Informationen unter anderem unter
http://www.chernobyl.info
Einige Definitionen:
Die SI-Einheit von Radioaktivität ist das Becquerel: 1 Becquerel entspricht definitionsgemäß dem Zerfall eines Atomkerns pro Sekunde: 1 Bq = 1 s−1 .
Die ältere Einheit von Radioaktivität ist das Curie. Es wird heute folgendermaßen definiert: 1 Ci := 3.7 · 1010 Bq
Die von einem Material durch Ionisierung absorbierte Energie (die sogenannte absorbierte Dosis) wird in Gray gemessen; man definiert ein Gray (Gy) als die Energiemenge
von 1 Joule pro Kilogramm.
Will man die Auswirkungen auf ein Lebewesen bewerten, so bedient man sich der
äquivalenten Dosis, die sich als Produkt aus dem radiation weighting factor und der
absorbierten Dosis ergibt. Dieser Faktor hängt von der Art der Strahlung und dem
betroffenen Körperteil ab und wird in Sievert gemessen: 1 Sv = 1 J/kg.
Um die Radioaktivität an einer Stelle in der Natur zu messen, verwendet man einen
Geigerzähler, der die Anzahl der radioaktiven Zerfälle registriert.
(a) Sei Xt die Anzahl der Zerfälle bis zum Zeitpunkt t, wenn man zum Zeitpunkt 0
zu messen beginnt. Geht man davon aus, dass die Emissionen unabhängig voneinander erfolgen, so weiß man aus der Theorie, dass Xt einer Poissonverteilung mit
Parameter λt, λ > 0, folgt.
Berechne den Erwartungswert von Xt und leite daraus einen Momentenschätzer
für λt ab. Berücksichtige auch den Fall t = 1 s.
(b) Berechne den Maximum Likelihood-Schätzer für λt.
(c) Wie kommt man auf eine Schätzung der Becquerel, wenn man die radioaktive Strahlung
1
10
Sekunde lang misst? Macht die Aussage über die freigewordene Strahlung
in der Einleitung Sinn?
3
KONFIDENZINTERVALLE
8
2.21 Ein Kriminologe durchsucht eine Fingerabdrucksdatenbank nach seltenen doppelt gewundenen Fingerabdrücken. Er durchsucht hierbei 6 mal 100.000 Fingerabdrücke und
findet 3,0,3,4,2,1 Exemplare des gesuchten Musters in den entsprechenen Datensets.
Nehmen Sie an, dass doppelt gewundene Fingerabdrücke Poissonverteilt sind und benutzen Sie die Momentmethode um den Parameter λ zu schätzen. Wie würde sich Ihre
Antwort ändern, wenn Sie einen M-L Schätzer verwenden würden.
(1P)
Hinweis: Die Dichte der Poissonverteilung ist
f (k, λ) =
3
e−λ λk
,
k!
k ∈ N0 ,
λ>0
Konfidenzintervalle
Lösungen zu Beispielen in diesem Kapitel sollten (wo möglich) durch graphische Darstellungen
ergänzt werden (Zusammenhang Konfidenzintervalle und Dichte).
3.1 Das Gewicht einer Bevölkerung sei N (µ, σ 2 )-verteilt mit µ = 72 und σ 2 = 10. Wie groß
muss der Stichprobenumfang gewählt werden, damit das mittlere Gewicht der Personen
mit einer Wahrscheinlichkeit von
(a)
0.9
(b)
0.95
(c)
0.99
mehr als 70 kg beträgt?
(1P)
3.2 Eine Umfrage an 100 Personen im Alter zwischen 20 und 30 Jahren ergab, dass 46
Prozent der Befragten Raucher sind.
(2P)
(a) Finde ein 95%-Konfidenzintervall für den Anteil der Raucher in dieser Altersgruppe.
(b) Berechne die Anzahl der Personen, die befragt werden müssen, damit das 95%Konfidenzintervall höchstens 0.05 lang ist.
Hinweis: Leite eine geeignete Formel her. Beachte dabei, dass kein Vorwissen
über p besteht.
3.3 Eine Versicherung möchte herausfinden, wie viele der 150.000 Einwohner einer Stadt
prinzipiell an einer privaten Pensionsvorsorge interessiert wären. Bei einer Befragung
von 800 zufällig ausgewählten Bewohnern gaben 220 an, an einer Vorsorge interessiert
zu sein.
(1P)
(a) Ermittle ein 99%-Konfidenzintervall für die Anzahl der tatsächlich interessierten
Personen.
(b) Welche Information gibt uns die Einwohnerzahl für die Rechnung?
3
KONFIDENZINTERVALLE
9
3.4 Eine Firma beliefert einen Supermarkt mit 200g-Packungen Tee. Aus Erfahrung ist bekannt, dass das Gewicht der Packungen normalverteilt ist und eine Standardabweichung
von σ = 15g aufweist.
(a) Wieviele Beobachtungen sind erforderlich, damit ein 95%-KI für das mittlere Gewicht höchstens 2g lang ist. Gib eine Erklärung für die verwendete Formel. (1P)
(b) Eine Stichprobe von 200 Packungen ergab ein Durchschnittsgewicht von 199g. Berechne das 95%-Konfidenzintervall.
(c) Ist es gerechtfertigt, den Inhalt der Teepackungen mit 200g anzugeben? b+c=(1P)
3.5 Ein Meinungsforscher publiziert vor einer Volksabstimmung das Ergebnis einer Studie,
wonach in einer repräsentativen Stichprobe 52% der Befragten angaben, mit ’Ja’ zu
stimmen.
(1P)
(a) Was können Sie mit dieser Angabe prognostizieren ?
(b) Was können Sie über die Zustimmungsrate der Gesamtbevölkerung aussagen, wenn
die Stichprobengröße n=100, n=500, n=2.000, n=100.000 betragen hat (α = 0.05).
3.6 The results of IQ tests are known to be normally distributed. Suppose that in 2002, the
distribution of IQ test scores for persons aged 18-35 years has a variance σ 2 = 225. A
random sample of 9 persons take the IQ test. The sample mean score is 115.
(a) Calculate the 50%, 75%, 90% and 95% confidence interval estimates of the unknown
population mean IQ score.
(b) What trade-offs are involved in reporting one interval estimate over another?
a+b=(1P)
(c) If it is known that the population mean IQ score is µ = 105, what proportion of
samples of size 6 will result in sample mean values in the interval [135,150]? (1P)
3.7 Sie beobachten folgende realisierten Gewinne in einer Fernseh-Quizzshow (in Tausend
Euro)
73
34
17
96
33
189
282
33
66
64
Es wird davon ausgegangen, dass die Gesamtgewinne normalverteilt sind. Bestimmen
Sie für den unbekannten Parameter µ dieser Normalverteilung ein Konfidenzintervall,
das µ mit der Wahrscheinlichkeit 0.95 überdeckt.
(1P)
3.8 Um den Bedarf an Autobahnmautvignetten zu planen, soll der Anteil der Autobesitzer,
die ein Pickerl kaufen wollen anhand einer (repräsenativen) Stichprobe von Autofahrern
geschätzt werden. Wieviele Personen müssen mindestens befragt werden, damit ein 95%
3
KONFIDENZINTERVALLE
10
Konfidenzintervall für den gesuchten Anteil eine Länge von höchstens 0.02 aufweist?
(1P)
3.9 Das Gewicht X des Brotes sei N (µ, σ 2 )-verteilt mit µ = 1 und σ 2 = 0.3. Um das mittlere
Gewicht µ zu bestimmten, werden 20 Brote gewogen.
(a) Wie ist das durchschnittliche Gewicht X̄ dieser Stichprobe verteilt ?
(b) Mit welcher Wahrscheinlichkeit liegt das Durchschnittsgewicht zwischen 0.99 kg
und 1.10 kg ?
a+b=(1P)
(c) Um welchen Wert a weicht das Durchschnittsgewicht X̄ der Stichprobe vom Mittelwert µ höchstens mit Wahrscheinlichkeit 0.05 ab ?
(1P)
3.10 Gegeben seien 3 Konfidenzintervalle für µ berechnet aus dem gleichen Datensatz unter
der Annahme einer Normalverteilung mit bekanntem σ 2 = 4. Das erste Konfidenzintervall zum Konfidenzniveau 1−α = 0.95 hat die Länge l1 , das zweite zum Konfidenzniveau
1 − α = 0.9 hat die Länge l2 und das dritte zum Konfidenzniveau 1 − α = 0.99 hat die
Länge l3 . Ordnen Sie die drei Konfidenzintervalle nach ihrer Länge. Beginnen Sie mit
dem kürzesten.
(1P)
3.11 Es soll untersucht werden, ob die Bevölkerung aus betroffenen Gebieten eine negativere Einstellung zu wild lebendnen Bären aufweist als die Bevölkerung von Wien. Hiefür
wurde ein Einstellungsfragebogen verwendet, dessen Testscore als normalverteilt angenommen werden darf. Hohe Werte stehen dabei für positive Einstellung.
Stadtbevölkerung
25
23
23
30
26
28
24
29
21
30
25
23
30
betroffene Bevölkerung
23
20
25
27
21
19
24
24
22
28
25
28
21
Nehmen Sie für die Auswertung gleiche Varianzen in den beiden Gruppen an.
(1P)
3.12 Der Gehalt an Calcium eines Mineralwassers (in mg/l) wird an 6 verschiedenen Tagen
ermittelt: 840 680 920 1000 750 850. Der Produzent behauptet, dass das Mineralwasser
einen mittleren Calciumgehalt von 1000 mg/l hat. Testen Sie diese Hypothese zum
Niveau α = 0.05.
(a) wenn die Varianz nicht bekannt ist.
(b) wenn die Standardabweichung 200 mg/l beträgt.
3.13 Von 1000 Personen einer Versuchsgruppe, die täglich 400mg Selen einnahmen, erkrankten im Zeitraum von 10 Jahren 125 Personen an Krebs. In der aus 800 Personen bestehenden Kontrollgruppe, die kein Selen (sondern ein Placebo) verabreicht bekam, erkrankten
210 Personen an Krebs.
(1P)
4
UNVERZERRTHEIT UND EFFIZIENZ
11
(a) Berechnen Sie ein 95% Konfidenzintervall für die Reduktion des Krebsrisikos durch
die Einnahme von Selen.
(b) Genauere Informationen über die Studie ergaben, dass alle Testpersonen in einem
Gebiet mit extrem geringen Selengehalt im Boden wohnten. Die Nahrung enthielt
daher sehr wenig Selen. Wie beurteilen Sie im Lichte dieser Information das Konfidenzintervall in (a) ?
3.14 Zwei Unterrichtsmethoden wurden verglichen. Bei Methode A erreichten 25 Studenten
beim darauffolgenden Test eine mittelere Punktzahl von x̄A = 82, wobei die Standardabweichung sA = 6.5 betrug. Bei Unterrichtsmethode B ergab sich mit 27 Studenten
ein durchschnittliches Ergebnis von x̄B = 77, sowie sB = 6.7. Berechnen Sie unter der
Annahme gleicher Varianzen und Normalverteiltheit der Ergebnisse ein 95% Konfidenzintervall für den Unterschied in der Effizienz der beiden Methoden.
(1P)
3.15 Vor der Einführung der abschreckenden Zigarettenpackungen gaben von 600 Befragten
220 an zu rauchen. Nach der Einführung wurde wieder befragt und es gaben 80 von 300
Befragten an zu rauchen. Berechnen Sie Konfidenzintervalle für den Anteil der Raucher
für beide Befragungen und für die Differenz der Anteile.
(1P)
3.16 Angenommen, dass Konfidenzintervall des Stichprobenmittels für ein normal verteiltes
X mit Varianz σ 2 ist [0, 4]. Wie sieht das Konfidenzintervall für die Zufallsvariable Y =
aX + b (a, b ∈ R, a 6= 0) aus ?
(1P)
3.17 Nachstehende Tabelle enthält das Gewicht von Personen, die an einem Trainingsprogramm zur Gewichtsreduktion teilgenommen haben, vor und nach Absolvierung des
Programmes.
Gewicht in kg
vorher
75
66
80
85
90
87
73
75
81
81
nachher
70
67
73
80
88
89
71
70
79
76
Erstellen Sie ein 95% Konfidenzintervall für die Differenz der Gewichte unter der Annahme, dass das Gewicht in beide Fällen normalverteilt ist.
4
(1P)
Unverzerrtheit und Effizienz
4.1 Zeigen Sie, dass
n
1X
(Xi − µ)2
σˆ2 =
n
i=1
ein erwartungstreuer Schätzer für die Varianz ist, falls der Erwartungswert µ nicht aus
den unabhängigen, identisch verteilten Daten Xi geschätzt werden muss, sondern bekannt ist.
(1P)
4
UNVERZERRTHEIT UND EFFIZIENZ
12
4.2 Gegeben sei eine Zufallsstichprobe Y1 , . . . , Yn aus einer Exponentialverteilung mit Parameter θ, deren Dichtefunktion folgendermaßen definiert ist:
(
1 − yθ
y>0
θ e
f (y|θ) =
0
y≤0
(a) Berechne den Erwartungswert von Y1 .
(b) Ist der Schätzer
n
θ̂ =
1X
Yi
n
i=1
unverzerrt für θ?
(1P)
4.3 Für den Erwartungswert µ einer Zufallsvariablen werden folgende Schätzfunktionen vorgeschlagen.
T1 = X̄, T2 = Xn , T3 =
n
n
X1 + Xn
1 X
1 X
, T4 =
Xi , T5 = 2
Xi
2
n−1
n
i=1
i=1
Dabei werde angenommen, dass X1 , ..., Xn unabhängig und identisch verteilt sind. Außerdem soll gelten E(Xi ) = µ und Var(Xi ) = σ 2 für i = 1, . . . , n.
(a) Welche der Schätzfunktionen sind erwartungstreu ?
(b) Welche der erwartungstreuen Schätzfunktionen hat die kleinste Varianz ?
(1P)
4.4 Gegeben seien zwei unabhängige Schätzer T1 , T2 für einen unbekannten statistischen
Parameter θ. Für die Schätzfunktionen gilt: E(T1 ) = 3θ, Var(T1 ) = 1 und E(T2 ) = 2θ,
Var(T2 ) = 9. Betrachten Sie Linearkombinationen T = a1 T1 + a2 T2 der beiden Schätzer.
(1P)
(a) Welche Bedingungen müssen die ai erfüllen, so dass T ein erwartungstreuer Schätzer
für θ ist.
(b) Bestimmen Sie ai , so dass T varianzminimal und erwartungstreu ist.
4.5 Ist der Maximum Likelihood Schätzer aus Beispiel 2.1 erwartungstreu ?
(2P)
4.6 Eine Stichprobe der Größe 2 wird aus folgender Verteilung gezogen
(1P)
fY (y; θ) = 2yθ2 ,
0<y<
1
θ
Für welchen Wert c ist c(Y1 + 2Y2 ) ein unverzerrter (erwartungstreuer) Schätzer für
1
θ
?
4.7 Suppose that W1 is random variable with mean µ and variance σ12 and W2 has the same
mean and variance σ22 ; W1 and W2 are supposed to be independent.
(1P)
5
KONSISTENZ
13
(a) Show that cW1 + (1 − c)W2 is an unbiased estimator for µ (for all c).
(b) Compute the variance of these estimators.
(c) Find the c such that the estimator in (a) is most efficient.
4.8 Let X1 . . . Xn be a random sample of size n from the Poisson distribution, pX (x, λ) =
e−λ λx
1 Pn
(1P)
i=1 Xi is an efficient estimator for λ.
x! , x = 0, 1, . . .. Show that λ̂ = n
4.9 Gib die Definition der Fisher-Information für ein Modell, das durch θ parametrisiert ist,
und erkläre ausführlich, wie man diese Größe berechnet.
4.10 Sei X eine Bernoulli-verteilte Zufallsvariable mit Parameter p. Die probability mass
function ist gegeben durch
pX (k|p) = pk (1 − p)1−k , k = 0, 1, p ∈ (0, 1).
Um den Parameter p zu schätzen, verwendet man ein i.i.d. Sample X1 , . . . , Xn und
P
betrachtet p̂ = X̄ = n1 n1 Xi .
Berechne folgende Ausdrücke:
(a) E(X), Var(X)
(b) E(X̄), Var(X̄)
(c) Fisher-Information I(p)
a+b+c=(1P)
(d) Cramér-Rao-Schranke des Modells
(e) Ist p̂ ein effizienter Schätzer für p?
d+e=(1P)
4.11 Sei X1 , . . . , Xn ein i.i.d. Sample aus einer Exponentialverteilung mit Parameter θ. Diese
hat die Dichte
(
f (x|θ) =
1 − xθ
θ e
x>0
0
x≤0
Berechne die Fisher-Information dieses Modells und zeichne diese als Funktion von θ.
(2P)
5
Konsistenz
5.1 Was bedeutet es, dass ein Schätzer konsistent für einen Parameter ist? Arbeite diese
Definition gut aus und präsentiere sie übersichtlich.
(2P)
5.2 Es sei Y1 , . . . , Yn eine Folge von i.i.d. Zufallsvariablen mit Erwartungswert µ und Varianz
P
σ 2 . Betrachte die zugehörigen sample means Y n = n1 ni=1 Yi .
(2P)
(a) Schreibe mathematisch auf, was es heißt, dass die Folge der Schätzer Yn , n ≥ 1,
konsistent für den Parameter µ ist.
6
SUFFIZIENZ
14
(b) Wähle n fix und wende die Tschebyscheff-Ungleichung auf die Zufallsvariable Yn
an.
(c) Zeige nun mit Hilfe von (b) die Aussage in (a).
(d) Welches berühmte Theorem hast Du gerade bewiesen?
5.3 Gegeben sei ein i.i.d. Sample X1 , . . . , Xn aus einer Normalverteilung mit µ = 0 und
unbekannter Varianz σ 2 . Zeige, dass der Schätzer
n
Sn2
1X 2
=
Xi
n
i=1
für den Parameter σ 2 konsistent ist.
Hinweis: Ist Xi i.i.d.
N (µ, σ 2 ),
(2P)
dann gilt
Y =
n X
Xi − µ 2
i=1
σ
∼ χ2n
mit Var(Y ) = 2n.
6
Suffizienz
6.1 Was bedeutet es, dass eine Statistik suffizient für einen Parameter ist? Gib eine geeignete
Definition.
6.2 Sei X1 , X2 . . . Xn eine Zufallsstichprobe aus einer Bernoulli-Verteilung mit Parameter θ.
Zeigen Sie, dass T (X) = X1 + ... + Xn ein suffizienter Schätzer für θ ist.
(2P)
6.3 Sei X1 , . . . , Xn ein i.i.d. Sample aus einer geometrischen Verteilung, pX (k| p) = (1 −
P
p)k−1 p, k = 1, 2, . . . Zeige, dass p̂ = ni=1 Xi suffizient für p ist.
(2P)
6.4 Betrachte ein i.i.d. Sample Y1 , . . . , Yn der Größe n, das nach einer Dichte

e−(y−θ) , y ≥ θ
fYi (y| θ) =
0,
sonst
gezogen wurde.
(2P)
(a) Die Dichte von Ymin , also dem kleinsten Wert im Sample, ist gegeben durch
fYmin (ymin ) = n(1 − FY1 (ymin ))n−1 fY1 (ymin ).
Verwende diese Formel, um die Dichte des Minimums Ymin = min(Y1 , . . . , Yn ) im
obigen Fall zu berechnen.
(b) Berechne die Likelihood L(θ).
6
SUFFIZIENZ
15
(c) Lässt sich L(θ) in der Form
L(θ) = fYmin (ymin |θ)b(y1 , . . . , yn )
(1)
schreiben, wobei b(y1 , . . . , yn ) nur noch eine Funktion der Daten ist, dann ist Ymin
suffizient für den Parameter θ. Zeige (1).
6.5 Gegeben sei eine Zufallsstichprobe (x1 , . . . , xn ), wobei die Xi der Verteilung mit der
Dichte
fX (x, θ) = θe−(θ+1) log(1+x)
P
gehorchen. Ist der Schätzer θ̂ = ni=1 log(1 + xi ) suffizient ?
6.6 Given a random sample of size n from the gamma distribution with α unknown and β
known
β α α−1
x
exp (−βx)
Γ(α)
P
where Γ is the gamma function. Show that T = ni=1 log(xi ) is a sufficient statistic for
fX (x) =
α.
Hint: Use that
n
Y
(α−1)
xi
= exp (α − 1)
i=1
n
X
!
log(xi )
i=1
6.7 Gegeben sei eine Zufallsstichprobe (Y1 , . . . , Yn ) aus einer Gleichverteilung auf [0, θ] (siehe
Beispiel 2.12) mit der Dichte
1
fY (y, θ) = 1[0,θ] (y)
θ
wobei
(
1[a,b] (y) =
1, wenn y ∈ [a, b];
0
sonst.
Der Momentenschätzer für θ ist durch
θ̂1 =
X
n
2
Yi
n
i=1
gegeben. Der Maximum Likelihood Schätzer ist θ̂2 = Ymax = max1≤i≤n Yi .
(a) Zeigen Sie, dass
L(θ) =
1
1 (Ymax )
θn [0,θ]
(b) Zeigen Sie, dass θ̂2 suffizient ist.
a+b = (1P)
Hinweis: Benutzen Sie den Faktorisierungssatz aus der Vorlesung.
(c) Zeigen Sie, dass θ̂1 nicht suffizient ist.
c = (1P)
Hinweis: Es reicht zu zeigen, dass sich Ymax nicht als Funktion von Ȳ schreiben
lässt.
7
7
HYPOTHESENTESTS
16
Hypothesentests
7.1 Im folgenden seien die Daten nach einer Normalverteilung mit Parametern µ und σ
generiert. Argumentiere, ob man die Nullhypothese ablehnt oder nicht.
(1P)
(a) H0 : µ = 120 versus H1 : µ < 120; ȳ = 114.2, n = 25, σ = 18, α = 0.08
(b) H0 : µ = 42.9 versus H1 : µ 6= 42.9; ȳ = 45.1, n = 16, σ = 3.2, α = 0.01
(c) H0 : µ = 14.2 versus H1 : µ > 14.2; ȳ = 15.8, n = 9, σ = 4.1, α = 0.13
7.2 Road ’Hugger All-Weather’-Reifen halten im Durchschnitt 32500 Meilen. Die Herstellerfirma hofft durch Hinzufügen eines neuen Polymers, die Reifen gegen Abnützung bei
extremen Temperaturen zu schützen. In einer Untersuchung hielten die neuen Reifen bei
15 Fahrern im Durchschnitt 33800 Meilen.
Kann die Firma behaupten, dass die neuen Reifen signifikant besser sind als die alten?
Teste H0 : µ = 32500 gegen eine einseitige Alternativhypothese auf dem Signifikanzniveau α = 0.05. Nimm an, dass die Mileage sowohl der alten als auch der neuen Reifen
normalverteilt ist mit bekannter Standardabweichung σ = 4000 Meilen.
7.3 Ein Politiker behauptet, dass 60% der Bevölkerung eines Landes eine Verschlechterung
der Konjunktur erwartet. In einer Umfrage unter 500 Personen gaben allerdings nur
220 Personen an, mit einer Konjunkturverschlechterung zu rechnen. Glauben Sie der
Aussage des Politikers? Testen Sie zum Niveau α = 0.01.
(1P)
7.4 Die Juni-Durchschnittstemperatur liegt bei 22.2 Grad mit einer Standardabweichung
von 2 Grad. In den letzten 5 Jahren betrug die Durchschnittstemperatur im Juni: 2001:
23.5 2002: 22.3 2003: 23.2 2004: 24.3 2005: 25.4
(a) Hat sich die Juni-Temperatur in den letzten 5 Jahren verändert ? (α = 0.05)
(b) Wurde es in den letzten 5 Jahren signifikant wärmer ? (α = 0.05).
(c) Angenommen, die Varianz der Juni-Temperaturen wäre nicht bekannt, wurde es
dann signifikant wärmer in den letzten 5 Jahren (α = 0.05).
7.5 Ein Politiker hat sich in den letzten beiden Jahren in seinen Reden auf das Thema Frauenrechte konzentriert und möchte nun wissen, ob der Anteil der ihn unterstützenden
männlichen Wähler dabei gleichgeblieben ist. In der letzten Wahl waren 65% seiner
Wähler Männer. In einer rezenten Befragung von 120 Leuten, die den Politiker unterstützen, sind 72 Männer gewesen.
(1P)
Teste H0 : ’Anteil der männlichen Unterstützer ist gleichgeblieben’ auf dem Signifikanzniveau α = 0.05. Die Alternative sei dabei einseitig gewählt.
7
HYPOTHESENTESTS
17
7.6 Eine Fahrschule behauptet, dass 80% den Führerschein beim ersten Versuch schaffen. Im
vergangenen Jahr schafften 450 von 600 Fahrschülern den Führerschein sofort. Testen
Sie, ob die Aussage der Fahrschule zutrifft (α = 0.05).
7.7 Unter 100 befragten LeserInnen einer Zeitschrift mögen 25 eine bestimmte Politikerin.
Unter 120 LeserInnen eines Konkurrenzblattes mögen 22 die betreffende Politikerin. Testen zum Niveau α = 0.05, ob sich die Einschätzung der Politikerin in den Lesergruppen
beider Zeitungen unterscheidet.
(1P)
7.8 Testen Sie auf einem Signifikanzniveau von α = 5%, ob das in Beispiel 3.17 beschriebene
Trainingsprogramm tatsächlich zu einem Gewichtsverlust geführt hat.
(1P)
7.9 Gib eine Definition des p-Wertes. Berechne die p-Werte in Aufgabe 7.1.
7.10 Finde den p-Wert in Beispiel 7.4 (Punkt (a) und (b)) und teste die jeweiligen Hypothesen
unter Verwendung des gefundenen Wertes.
(1P)
7.11 Finde den p-Wert in Beispiel 7.6 und teste die Hypothese unter Verwendung des gefundenen Wertes.
(1P)
7.12 Nimm an, H0 : µ = 120 wird gegen H1 : µ 6= 120 unter Normalverteilungsannahme
getestet. Sei σ = 10 und n = 16.
(1P)
(a) Was ergibt sich für den p-Wert, falls der Stichprobenmittelwert ȳ = 122.3 ist.
(b) Unter welchen Umständen verwirft man H0 ?
7.13 In einer repräsentativen Umfrage für ein Land wurde das monatliche Einkommen von
240 Männern und 160 Frauen erhoben. Das durchschnittliche Einkommen der Männer
lag in der Stichprobe bei 1650 EUR, jenes der Frauen bei 1280 EUR. Die Stichprobenstandardabweichung der Einkommens betrug 270 EUR bei den Männern und 480 EUR
bei den Frauen.
(2P)
(a) Testen Sie, ob ein Einkommensunterschied zwischen Männern und Frauen besteht.
(b) Führen Sie einen Test auf Varianzhomogenität durch.
(c) Diskutieren Sie inhaltlich, inwieweit für diese Fragestellung ein Test auf einen Mittelwertsunterschied sinnvoll ist.
7.14
(a) Wie wirken sich Lineartransformationen auf den F-Test aus ? (Lineartransformation: l(x) = a + bx mit a, b ∈ R)
(1P)
(b) Wie wirken sich Lineartransformationen auf den t-Test für unabhängige Stichproben (und homogene Varianzen) aus?
(1P)
7.15 Um einen Test durchzuführen, wirft ein fauler Statistiker vier faire Münzen und entscheidet sich für die Gegenhypothese, wenn bei allen Münzen Kopf erscheint. In allen
7
HYPOTHESENTESTS
18
anderen Fällen entscheidet er sich für die Hypothese. Geben Sie die Wahrscheinlichkeit
für den Fehler 1. Art an.
(1P)
7.16 In einer Grundgesamtheit sei ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegen
HA : µ 6= 100 getestet werden, wobei der Umfang der Stichprobe bei n = 100 liegt. (2P)
(a) Bestimmen Sie den Annahmebereich für H0 (α = 0.05).
(b) Berechnen Sie den Fehler 2. Art (β) unter der Annahme, dass der unbekannte
Erwartungwert µ gleich (i) 105, (ii) 110 und (iii) 115 sei.
(c) Erstellen Sie eine Skizze der Gütefunktion (Macht) des Tests.
7.17 Gegeben sei eine normalverteilte Grundgesamtheit mit σ = 4. Getestet werden soll die
Hypothese H0 : µ = 10 gegen H1 : µ 6= 10 (α = 0.05). Genügt eine Zufallsstichprobe der
Größe n = 45, um den Fehler zweiter Art unter 0.2 zu halten, wenn µ = 12 ?
(1P)
7.18 Es sei X1 , . . . , X7 ein i.i.d. Sample, wobei X1 einer Bernoulliverteilung mit unbekanntem
Parameter p folgt. Man möchte die Hypothese H0 : p = 0.75 gegen die einseitige Alternative H1 : p < 0.75 testen und verwendet dafür folgende Entscheidungsregel: ’Verwirf
P
H0 , falls k = 7i=1 xi ≤ 3.’
(1P)
(a) Was ist das Signifikanzniveau α des Tests?
(b) Zeichne die Wahrscheinlichkeit, dass H0 verworfen wird, als Funktion von p.
7.19 Es sei Y1 , . . . , Y8 ein i.i.d. Sample einer Gleichverteilung auf dem Intervall [0, θ]. Mit Hilfe
der Teststatistik
Ymax = max Yi
1≤i≤8
testet man die Hypothese H0 : θ = 2 gegen die Alternative H1 : θ < 2 auf dem
Signifikanzniveau α = 0.1.
(2P)
(a) Schreibe die Formel für die Dichtefunktion von Y1 auf und zeichne sie.
(b) Die Dichtefunktion von Ymax ist gegeben durch
y 7 1
· , 0 ≤ y ≤ θ.
θ
θ
Was ist der kritische Wert von Ymax ?
f (y, θ) = 8
(c) Was ist die Wahrscheinlichkeit, einen Fehler zweiter Art zu begehen, wenn θ = 1.7?
7.20 Betrachte ein Sample Y der Größe 1 aus einer Verteilung mit Dichte
fY (y) = (θ + 1)y θ , 0 ≤ y ≤ 1.
Falls y ≥ 0.9, dann verwirft man H0 : θ = 1 zugunsten von H1 > 1. Berechne das
Signifikanzniveau des Tests.
(1P)
7
HYPOTHESENTESTS
19
7.21 Es seien n = 36 normalverteilte Beobachtungen gegeben, wobei σ = 8 bekannt ist.
Man möchte die Hypothese H0 : µ = 60 gegen die zweiseitige Alternative H1 : µ 6= 60
testen. Ein Student, der die Vorlesung über die Konstruktion von Entscheidungsregeln
versäumt hat, beschließt aus seiner Intuition heraus H0 abzulehnen, falls ȳ außerhalb
des Intervalls (60 − 8/6, 60 + 8/6) liegt.
(1P)
(a) Was ist die Güte des Tests, wenn µ = 62.
(b) Berechne den kritischen Bereich für die Teststatistik Ȳ (α = 0.05).
(c) Was ist die Güte des Tests jetzt, wenn µ = 62.
7.22 Zur Untersuchung der Variabilität der Stärke (in t/cm2 ) von zwei Typen von Stahlseilen
(Typ 1, Typ 2) ergaben sich folgende Werte n1 = 10, s21 = 19.2, n2 = 16, s22 = 3.5. Weist
der Unterschied in den Standardabweichungen auf eine höhere Variabilität des Typen 1
hin ? (α = .01).
(1P)
Verteilungstests
7.23 In einem Betrieb verteilen sich die Krankenstände der letzten sechs Monate folgendermaßen auf die Wochentage
Anzahl
Mo
Di
Mi
Do
Fr
125
111
98
104
112
Testen Sie zum Niveau α = 0.05, ob die Krankenstände über die Wochentage gleichverteilt sind.
7.24 Der Soziologe Max Weber führt in dem Aufsatz ”Zur Psychophysik der industriellen
Arbeit” folgende Verteilung der Arbeitsunfälle männlicher Arbeiter in Kopenhagen 18981907 dar
Wochentag
Mo
Di
Mi
Do
Fr
Sa
Anzahl
50
46
34
34
33
43
(a) Die hohe Frequenzen am Samstag und Montag hält Weber für eine Folge des Alkohols (Freitag ist Löhnungstag) bzw. für eine Folge größerer gesundheitlicher Strapazen am Wochenende. Testen Sie auf eine Gleichverteilung (α = 0.01).
(b) Vorausgesetzt, die Stichprobe wäre 10-mal so groß wie oben und die Verteilung
sehe wie folgt aus:
Wochentag
Mo
Di
Mi
Do
Fr
Sa
Anzahl
500
460
340
340
330
430
7
HYPOTHESENTESTS
20
Testen Sie wie unter (a).
(c) Vergleichen Sie die gefundenen Ergebnisse miteinander und kommentieren Sie diese.
7.25 Hundert ungeordnete Stichproben der Größe 2 werden ohne Zurücklegen aus einer Urne
mit 6 roten und 4 weißen Bällen gezogen. Die Ergebnisse sind wie folgt
weiße Kugeln
0
1
2
Stichproben
35
55
10
Führen Sie einen Verteilungsanpassungstest für die Hypergeometrische Verteilung durch
(α = 0.1).
Hinweis: Die Dichte der Hypergeometrischen Verteilung findet sich zB unter http:
//de.wikipedia.org/wiki/Hypergeometrische_Verteilung
7.26 Testen Sie mittels eines Verteilungsanpassungstests auf einem Niveau von α = 0.05,
ob folgende Daten aus einer Exponentialverteilungsfamilie mit Parameter λ (siehe 2.8)
stammen.
x
Beobachtungen
0≤x≤1
83
1<x≤2
57
2<x≤3
28
3<x≤4
17
4<x≤5
10
5<x≤6
4
6<x≤7
3
7<x≤8
4
8<x<∞
5
7.27 Überprüfen Sie, ob die nachfolgende empirische Verteilung einer Standardnormalverteilung entspricht.
Intervall
(−∞, −1)
(-1,-0.5)
(-0.5, 0)
(0, 0.5)
(0.5, 1)
(1, ∞)
93
96
115
107
88
101
Häufigkeit
Two-Sample Problems
7.28 Eine empirische Untersuchung über die Gefährdung von Rauchern durch Lungenkrebs
ergab folgende Werte:
8
EINFACHREGRESSION
21
Todesursache
Lungenkrebs
andere
Raucher
110
1275
Nichtraucher
12
650
Besteht eine Abhängigkeit zwischen dem Rauchen und der Todesursache?
7.29 Eine neue Zeitschrift kommt auf den Markt. Es soll geprüft werden, ob Personen, die
politisch interessiert sind, eher dazu neigen die Zeitschrift zu kaufen. Hierzu wurden in
einer Umfrage folgende Daten erhoben.
politisch interessiert
Käufer
ja
nein
ja
58
44
nein
35
23
7.30 In zwei Ländern (A und B) wurde die Einstellung zur EU-Osterweiterung erhoben. Dabei
ergab sich folgendes Ergebnis (Anzahl der Personen)
Einstellung zur Osterweiterung
Land
positiv
unentschieden
negativ
A
24
20
31
B
85
45
60
Besteht in den Ländern ein signifikanter Unterschied hinsichtlich der Einstellung zur
EU-Osterweiterung?
8
Einfachregression
8.1 Im folgenden sei
(1P)
n
sx,y
1X
=
(xi − x̄)(yi − ȳ)
n
i=1
die Stichprobenkovarianz von x1 , . . . , xn und y1 , . . . , yn . Wir definieren s2x = sx,x , s2y =
sy,y und die Stichprobenkorrelation
rx,y =
sx,y
.
sx sy
8
EINFACHREGRESSION
22
(a) Zeige folgende Gleichheiten:
n
sx,y =
1X
xi (yi − ȳ)
n
sx,y =
n
1X
(xi − x̄)yi
n
sx,y =
n
1X
xi yi − x̄ȳ
n
i=1
i=1
i=1
(b) Überlege, dass s2x = 0 ⇐⇒ xi = x̄ für alle i = 1, . . . , n.
(c) Für α, β > 0 bezeichnet αx die Stichprobe αx1 , . . . , αxn und βy die Stichprobe
βy1 , . . . , βyn . Zeige, dass
sαx,βy = αβsx,y
gilt. Wenn s2x , s2y > 0, dann
rαx,βy = rx,y .
Die Stichprobenkorrelation ist also skalenunabhängig.
8.2 Es sei das einfache Regressionsmodell
(2P)
y i = β 0 + β 1 x i + εi ,
i = 1, . . . , n
gegeben. Es gelte s2x > 0. Die Methode der kleinsten Quadrate besteht darin, den Minimierer (βˆ0 , βˆ1 ) der Funktion
n
X
f (β0 , β1 ) =
(yi − β0 − β1 xi )2 ,
f : R2 → R
i=1
zu finden.
(a) Leite die First Order Conditions
n
X
(yi − βˆ0 − βˆ1 xi ) = 0
i=1
n
X
(yi − βˆ0 − βˆ1 xi )xi = 0
i=1
her. Diese Gleichungen tragen die Namen 1. und 2. Normalgleichung.
(b) Zeige, dass
βˆ0 = ȳ − βˆ1 x̄
sx,y
βˆ1 = 2
sx
die eindeutige Lösung des Gleichungssystems aus dem vorigen Punkt ist.
8
EINFACHREGRESSION
23
(c) Zeige mit Hilfe der Hessematrix, dass f an der Stelle (βˆ0 , βˆ1 ) ein Minimum hat.
Wo verwendet man die Annahme s2x > 0?
8.3 Seien ŷi = β̂0 + β̂1 xi die gefitteten Werte und ei = yi − ŷi die Residuen. Zeige folgende
Aussagen:
(1P)
(a) Die erste Normalgleichung ist äquivalent zu ē =
1
n
Pn
(b) Die zweite Normalgleichung ist äquivalent zu se,x =
i=1 ei
1
n
= 0.
Pn
i=1 ei xi
8.4 Gegeben seien die folgenden Daten
= 0.
(1P)
x : 5 6 7 8 9 10 11 12 13 40
y: 1 2 4 2 3
5
7
6
9 10
(a) Berechne die Kleinst-Quadrate-Schätzer βˆ0 und βˆ1 für das Modell yi = β0 +β1 xi +εi .
(b) Veranschauliche die Einpassung der Regressionsgeraden in den Punktschwarm durch
eine Zeichnung.
(c) Ermittle und interpretiere die Stichprobenkorrelation rx,y .
8.5 Sei yi = β0 + β1 xi + εi , i = 1, . . . , n, das einfache lineare Regressionsmodell unter den
Annahmen s2 > 0 und E(εi ) = 0 für i = 1, . . . , n. Zeige, dass βˆ0 ein unverzerrter
x
Schätzer für β0 und βˆ1 ein unverzerrter Schätzer für β1 ist. Verwende dazu die Formeln
aus Beispiel 8.2.
(1P)

Zugehörige Unterlagen

Ubungen zum Computerpraktikum Stochastik - staff.uni

2. Aufgabenblatt - Humboldt

Einführung in die Inferenzstatistik

Zugehörige Unterlagen

Produkte

Unterstützung

Einführung in die Inferenzstatistik

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können