Einführung in die Inferenzstatistik Beispielsammlung Zusammengestellt von F. Gach, D. Wozabal und N. Wozabal (Version vom 14. Juni 2007) Einführung und Wiederholung 1. Betrachten Sie das Experiment: Würfeln mit zwei sechsseitigen Würfeln. Berechnen Sie die Wahrscheinlichkeitsfunktion und die Verteilung der Zufallsvariable Y, die die absolute Differenz der beiden Augenzahlen beschreibt. (1P) 2. Geben Sie ein k an, so dass die Funktion kx2 , 0 < x < 1 f (x) = 0, sonst eine Dichte ist. Berechnen Sie außerdem die Verteilungsfunktion und P( 31 < X ≤ wobei die Zufallsvariable X die Dichte f hat. 1 2 ), (1P) 3. Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariable Y in Beispiel 1. (1P) 4. Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariable X, wobei X die folgende Verteilung hat 0, x<0 F (x) = x3 , 0 ≤ x < 1 1, x≥1 (1P) 5. Betrachten Sie die Zufallsvariable X mit E(X) = 10 und Var(X)=25. Geben Sie die positiven Zahlen a und b an, so dass die Zufallsvariable Y = aX − b Erwartungswert 0 und Varianz 1 hat. (1P) 6. Die ’moment generating function’ einer Zufallsvariable X ist definiert als MX (t) := E(eXt ), t ∈ R. (a) Berechne MX (t) für eine standardnormalverteilte Zufallsvariable. Hinweis: Ergänze in der Rechnung (x2 − 2xt) zu einem vollständigen Quadrat und entdecke im gesamten Ausdruck die Dichte einer Normalverteilung mit Erwartungswert t und Varianz 1. 2 (b) Berechne die ’moment generating function’ einer geometrisch verteilten Z.v. Hinweis: Für eine diskrete Z.v. ist MX (t) gegeben durch MX (t) = X ekt P (X = k). k 7. Betrachte folgendes Glücksspiel: Der Einsatz wird mit Wahrscheinlichkeit p verdoppelt, mit Wahrscheinlichkeit 1 − p verliert man ihn. (a) Wie viele Runden muß man im Schnitt spielen, um einmal zu gewinnen? Berechne auch die Varianz der Anzahl der zu spielenden Runden. (1P) (b) Wenn man seinen Einsatz bei jedem Verlust verdoppelt und spielt, bis man einmal gewonnen hat, wie hoch ist dann der zu erwartende Gewinn, wie hoch ist der zu erwartende Einsatz? (1P) 8. An einer Kreuzung wurde gezählt, wieviele Personen in einem Auto sitzen. Nimm an, daß die Daten einer geometrischen Verteilung mit Parameter p folgen, also pX (k; p) = (1 − p)k−1 p, (2P) k ∈ {1, 2, . . . }. Schätze p und vergleiche beobachtete und erwartete Häufigkeiten. Anzahl Personen Häufigkeit 1 678 2 227 3 56 4 28 5 8 6+ 14 1011 Maximum Likelihood und Momentenmethode 9. Eine Urne enthält 10 Geldstücke. Sie kann zwei unterschiedliche Zusammensetzungen aufweisen Zustand I 3 mal 1 EURO und 7 mal 2 EURO Zustand II 6 mal 1 EURO und 4 mal 2 EURO Von Interesse ist der Gesamtbetrag θ des Geldes in der Urne. Der Zustand der Urne und damit auch der Wert von θ seien unbekannt. Um θ zu schätzen, entnehmen wir der Urne zwei Geldstücke mit Zurücklegen. 3 (a) Stellen Sie die Wahrscheinlichkeiten der einzelnen Stichproben in Abhängigkeit von den Werten von θ in einer Tabelle zusammen. (0,5P) (b) Geben Sie die Maximum-Likelihood-Schätzfunktion für θ an. (0,5P) (c) Was gibt diese Likelihoodfunktion an? (0,5P) (d) Bei einer Ziehung werden zwei 1 EURO Stücke gezogen. Wie lautet der M-L Schätzwert für θ ? (0,5P) (e) Ist der M-L Schätzer für θ erwartungstreu ? (1P) 10. (a) Wirf eine Münze 20 mal und zähle, wie oft Sie auf ‘Kopf’ fällt. Sei p die Wahrscheinlichkeit, daß sie auf ‘Kopf’ fällt, was ist dann die log-Likelihood von p? (1P) (b) Wiederhole das Experiment nun leicht abgeändert: Wirf die Münze so lange, bis sie 10 mal auf ‘Kopf’gefallen ist. Berechne wiederum die log-Likelihood von p und vergleiche die beiden Resultate. Hinweis: Verwende die negative Binomialverteilung (siehe http://en.wikipedia.org/wiki/Negative binomial) (1P) 11. Berechne die log-Likelihood für den Parameter λ, wenn die Zufallsvariablen unabhängig Poisson-verteilt sind. (1P) 12. Betrachten Sie folgende Zufallsstichprobe bestehend aus den acht Werten 1, 0, 1, 1, 0, 1, 1, 0. Die Stichprobe gehört zu einer Grundgesamtheit, die folgender Wahrscheinlichkeitsverteilung folgt pX (k, θ) = θk (1 − θ)1−k , k = 0, 1; 0<θ<1 Finden Sie den M-L Schätzwert für θ. (1P) 13. In einer Urne befinden sich rote und weiße Kugeln, wobei der Anteil p der roten Kugeln entweder 1 2 oder 1 3 ist. Man zieht jetzt fünf Mal mit Zurücklegen und erhält die Folge rot, weiß, weiß, rot, weiß. Was ist der Maximum Likelihood Schätzer für p? (1P) 14. In einer Schachtel befinden sich 5 Kugeln, die entweder weiß oder rot sind. Die Anzahl θ der roten Kugeln ist unbekannt (θ=0, 1, 2, 3, 4 oder 5). Ein Statistiker zieht mit Zurucklegen 3 Kugeln aus der Urne und erhält folgendes Ergebnis rot weiß rot (a) Wie groß ist die Wahrscheinlichkeit dieses Ereignisses, wenn θ = 2 ist? (b) Wie lautet die Likelihoodfunktion für θ aufgrund dieses Ergebnisses? (c) Was gibt diese Likelihoodfunktion an? (d) Bestimmen Sie den Maximum-Likelihood-Schätzwert für θ. 4 15. Betrachten Sie die Exponentialverteilung ( fY (y, λ) = (1P) λe−λy y ≥ 0 0 sonst und berechnen Sie den M-L Schätzwert gegeben (a) eine beliebige Stichprobe Y1 , . . . , Yn (b) die Zufallsstichprobe Y1 = 8.2, Y2 = 9.1, Y3 = 10.6, Y4 = 4.9 16. Betrachte ein Sample Y1 , . . . , Yn einer Normalverteilung mit bekanntem Parameter µ und unbekanntem Parameter σ. Berechne den Maximum Likelihood Schätzer für σ. (1P) 17. Eine Stichprobe der Größe n wird aus folgendem Wahrscheinlichkeitsmodell gezogen 2 θ2k e−θ pX (k, θ) = , k! k ∈ N0 Bestimmen Sie eine Formel für den M-L Schätzer θ̂. 18. Angenommen Y ist eine Zufallsvariable, die das Einkommen eines Individuums in einer Volkswirtschaft beschreibt. Sei weiters angenommen, dass Y Pareto verteilt ist, also θ θ k k P(Y ≥ y) = und somit F (y) = 1 − y y gilt, wobei k die Höhe des minimalen Einkommens ist. Hieraus folgt durch Differenzieren θ+1 θ 1 fY (y, θ) = θk , y ≥ k; θ≥1 y Finden Sie den M-L Schätzer für θ, falls k bekannt ist und Ihnen die Einkommensdaten von 25 Individuuen vorliegen. (1P) 19. (a) Use the method of maximum likelihood to estimate the parameter θ in the uniform pdf 1 fY (y, θ) = , 0≤y≤θ θ based on a random sample of size n. Evaluate the obtained formula for the sample Y1 = 6.3, Y2 = 1.8, Y3 = 14.2 and Y4 = 7.6. (2P) (b) Given a random sample of size n from a two-parameter uniform pdf fY (y; θ1 , θ2 ) = 1 , θ2 − θ1 θ 1 ≤ y ≤ θ2 Find the maximum likelihood estimates for θ1 and θ2 . (1P) 20. The exponential pdf is a measure of lifetimes of devices that do not age. However, the exponential pdf is a special case of the Weibull distribution, which measures time to failure of devices where the probability of failure increase as time does. A Weibull β random variable Y has pdf fy (y; α, β) = αβy β−1 e−αy , 0 ≤ y, 0 < α, 0 < β 5 (a) Find the maximum likelihood estimator for α assuming that β is known. (b) Suppose α and β are both unknown. Write down the equations that would be solved simultaneously to find the maximum likelihood estimators of α and β. 21. Gegeben sei eine Stichprobe x1 , x2 , . . . , xn wobei xi aus einer Exponentialverteilung mit Parameter 2i λ (λ > 0)gezogen wird. Die Ziehungen seien unabhängig von einander. (a) Geben Sie eine Formel für die gemeinsame Dichte der (X1 , . . . , Xn ) an. (b) Geben Sie den MLE-Schätzer für λ an. (c) Wo verwenden Sie die Unabhängigkeit der Xi ? (2P) Tipp: Die Dichte der Exponentialverteilung mit Parameter λ ist f (y) = λe−λy 22. Betrachten Sie die Gleichverteilung auf dem Intervall [0, θ] (siehe Beispiel 19). Finden Sie den Schätzer für θ mit der Methode der Momente und vergleichen Sie das Resultat mit dem Resultat aus Beispiel 19. (1P) 23. Schätzen Sie mit der Methode der Momente den Parameter λ der Exponentialverteilung (siehe Beispiel 15). 24. Schätzen Sie mit der Methode der Momente die Parameter µ, σ einer Normalverteilung. Vergleichen Sie die Resultate mit denen aus Beispiel 16. (1P) 25. Die Verteilungsfunktion der Paretoverteilung mit Parametern k > 0 und θ > 1 ist gegeben durch ( f (y|θ) = θkθ y θ+1 y≥k 0 sonst. Nimm an, dass k bekannt ist und man ein Sample der Größe n gegeben hat. Berechne einen Schätzer mit Hilfe der Methode der Momente. (1P) 26. Betrachten Sie die 2 Parameter Gleichverteilung mit folgender Dichte fX (x; α1 , α2 ) = 1 , 2α2 α1 − α2 ≤ y ≤ α1 + α2 , α2 > 0 Gegeben eine Zufallsstichprobe x1 , . . . , xn , schätzen Sie die beiden Parameter mittels der Momentenmethode. 27. Der Reaktorunfall von Tschernobyl Am 26. April 1986 ereignete sich der in der Geschichte der Atomkraft folgenschwerste Reaktorunfall in der ehemals russischen Stadt Tschernobyl. Zum Zeitpunkt des Unglücks befanden sich 200 Tonnen Uran im Reaktor, und die Schätzungen über die freigewordene Strahlung liegen zwischen 50 Millionen und 250 Millionen Curie. 6 Die staatliche ukrainische Agentur Tschernobyl Interinform behauptet, dass 95% des Brennstoffs im Reaktor verblieben seien. Dem steht die recht aktuelle (2002) Untersuchung des russischen Atomphysikers Konstantin Tschetscherov vom Kurchatov-Institut in Moskau und seines deutschen Kollegen Sebastian Pflugbeil, Direktor der Gesellschaft für Strahlenschutz in Berlin, entgegen, die der Meinung sind, dass nahezu das gesamte radioaktive Material in die Umwelt gelangt sei. Fakt ist, dass der Reaktor erst im Jahr 2000 abgeschaltet worden ist. Es wird deshalb auch unterstellt, dass der Bau der Betonummantelung, des sogenannten Sarkophags, weniger davor schützen sollte, dass weitere Strahlung austritt, als die Weiterbenützung der restlichen Blocks zu garantieren. Im Internet findet man diese Informationen unter anderem unter http://www.chernobyl.info Einige Definitionen: Die SI-Einheit von Radioaktivität ist das Becquerel: 1 Becquerel entspricht definitionsgemäß dem Zerfall eines Atomkerns pro Sekunde: 1 Bq = 1 s−1 . Die ältere Einheit von Radioaktivität ist das Curie. Es wird heute folgendermaßen definiert: 1 Ci := 3.7 · 1010 Bq Die von einem Material durch Ionisierung absorbierte Energie (die sogenannte absorbierte Dosis) wird in Gray gemessen; man definiert ein Gray (Gy) als die Energiemenge von 1 Joule pro Kilogramm. Will man die Auswirkungen auf ein Lebewesen bewerten, so bedient man sich der äquivalenten Dosis, die sich als Produkt aus dem radiation weighting factor und der absorbierten Dosis ergibt. Dieser Faktor hängt von der Art der Strahlung und dem betroffenen Körperteil ab und wird in Sievert gemessen: 1 Sv = 1 J/kg. Um die Radioaktivität an einer Stelle in der Natur zu messen, verwendet man einen Geigerzähler, der die Anzahl der radioaktiven Zerfälle registriert. (a) Sei Xt die Anzahl der Zerfälle bis zum Zeitpunkt t, wenn man zum Zeitpunkt 0 zu messen beginnt. Geht man davon aus, dass die Emissionen unabhängig voneinander erfolgen, so weiß man aus der Theorie, dass Xt einer Poissonverteilung mit Parameter λt, λ > 0, folgt. Berechne den Erwartungswert von Xt und leite daraus einen Momentenschätzer für λt ab. Berücksichtige auch den Fall t = 1 s. (b) Berechne den Maximum Likelihood-Schätzer für λt. (c) Wie kommt man auf eine Schätzung der Becquerel, wenn man die radioaktive Strahlung 1 10 Sekunde lang misst? Macht die Aussage über die freigewordene Strahlung in der Einleitung Sinn? 7 28. Ein Kriminologe durchsucht eine Fingerabdrucksdatenbank nach seltenen doppelt gewundenen Fingerabdrücken. Er durchsucht hierbei 6 mal 100000 Fingerabdrücke und findet 3,0,3,4,2 and 1 Exemplare des gesuchten Musters in den entsprechenen Datensets. Nehmen Sie an, dass doppelt gewundene Fingerabdrücke Poissonverteilt sind und benutzen Sie die Momentmethode um den Parameter λ zu schätzen. Wie würde sich Ihre Antworkt ändern, wenn Sie einen M-L Schätzer verwenden würden. (1P) Hinweis: Die Dichte der Poissonverteilung ist f (x, λ) = e−λ λk , k! k ∈ N0 , λ>0 Konfidenzintervalle 29. Das Gewicht einer Bevölkerung sei N(72, 10) verteilt.Wie groß muss der Stichprobenumfang gewählt werden, damit das mittlere Gewicht der Personen mit einer Wahrscheinlichkeit von (a) 0.9 (b) 0.95 (c) 0.99 mehr als 70 kg beträgt? (1P) 30. Eine Umfrage an 100 Personen im Alter zwischen 20 und 30 Jahren ergab, dass 46 Prozent der Befragten Raucher sind. (1P) (a) Finde ein 95%-Konfidenzintervall für den Anteil der Raucher in dieser Altersgruppe. (b) Berechne die Anzahl der Personen, die befragt werden müssen, damit das 95%Konfidenzintervall höchstens 0.05 lang ist. Beachte, dass kein Vorwissen über p besteht. 31. Eine Versicherung möchte herausfinden, wie viele der 150.000 Einwohner einer Stadt prinzipiell an einer privaten Pensionsvorsorge interessiert wären. Bei einer Befragung von 800 zufällig ausgewählten Bewohnern gaben 220 an, an einer Vorsorge interessiert zu sein. (1P) (a) Ermittle ein 99%-Konfidenzintervall für die Anzahl der tatsächlich interessierten Personen. (b) Welche Information gibt uns die Einwohnerzahl für die Rechnung? 32. Eine Firma beliefert einen Supermarkt mit 200g-Packungen Tee. Aus Erfahrung ist bekannt, dass das Gewicht der Packungen Normalverteilt ist und eine Standardabweichung von σ = 15g aufweist. (1P) 8 (a) Wieviele Beobachtungen sind erforderlich, damit ein 95%-KI für das mittlere Gewicht höchstens 2g lang ist. (b) Eine Stichprobe von 200 Packungen ergab ein Durchschnittsgewicht von 199g. Berechne das 95%-Konfidenzintervall. (c) Ist es gerechtfertigt, den Inhalt der Teepackungen mit 200g anzugeben? 33. Ein Meinungsforscher publiziert vor einer Volksabstimmung das Ergebnis einer Studie, wonach in einer repräsentativen Stichprobe 52% der Befragten angaben, mit ’Ja’ zu stimmen. (1P) (a) Was können Sie mit dieser Angabe prognostizieren ? (b) Was können Sie über die Zustimmungsrate der Gesamtbevölkerung aussagen, wenn die Stichprobengröße n=100, n=500, n=2000, n=100000 betragen hat (α = 0.05). 34. The results of IQ tests are known to be normally distributed. Suppose that in 2002, the distribution of IQ test scores for persons aged 18-35 years has a variance σ 2 = 225. A random sample of 9 persons take the IQ test. The sample mean score is 115. (a) Calculate the 50%, 75%, 90% and 95% confidence interval estimates of the unknown population mean IQ score. (b) What trade-offs are involved in reporting one interval estimate over another? a+b=(1P) (c) If it is known that the population mean IQ score is µ = 105, what proportion of samples of size 6 will result in sample mean values in the interval [135,150]? (1P) 35. Sie beobachten folgende realisierten Gewinne in einer Fernseh-Quizzshow (in Tausend Euro) 73 34 17 96 33 189 282 33 66 64 Es wird davon ausgegangen, dass die Gesamtgewinne normalverteilt sind. Bestimmen Sie für den unbekannten Parameter µ dieser Normalverteilung ein Konfidenzintervall, das µ mit der Wahrscheinlichkeit 0.95 überdeckt. 36. Um den Bedarf an Autobahnmautvignetten zu planen, soll der Anteil der Autobesitzer, die ein Pickerl kaufen wollen anhand einer (repräsenativen) Stichprobe von Autofahrern geschätzt werden. Wieviele Personen müssen mindestens befragt werden, damit ein 95% Konfidenzintervall für den gesuchten Anteil eine Länge von höchstens 0.02 aufweist? 37. Das Gewicht X des Brotes sei N (1, .3)-Verteilt. Um das mittlere Gewicht µ zu bestimmten, werden 20 Brote gewogen. (a) Wie ist das durchschnittliche Gewicht X̄ dieser Stichprobe verteilt ? 9 (b) Mit welcher Wahrscheinlichkeit liegt das Durchschnittsgewicht zwischen 0.99 kg und 1.10 kg ? a+b=(1P) (c) Um welchen Wert a weicht das Durchschnittsgewicht X̄ der Stichprobe vom Mittelwert µ höchstens mit Wahrscheinlichkeit 0.05 ab ? (1P) 38. Gegeben seien 3 Konfidenzintervalle für µ berechnet aus dem gleichen Datensatz unter der Annahme einer Normalverteilung mit bekanntem σ 2 = 4. Das erste Konfidenzintervall zum Konfidenzniveau 1−α = 0.95 hat die Länge l1 , das zweite zum Konfidenzniveau 1 − α = 0.9 hat die Länge l2 und das dritte zum Konfidenzniveau 1 − α = 0.99 hat die Länge l3 . Ordnen Sie die drei Konfidenzintervalle nach ihrer Länge. Beginnen Sie mit dem kürzesten. (1P) 39. Es soll untersucht werden, ob die Bevölkerung aus betroffenen Gebieten eine negativere Einstellung zu wild lebendnen Bären aufweist als die Bevölkderung von Wien. Hiefür wurde ein Einstellungsfragebogen verwendet, dessen Testscore als normalverteilt angenommen werden darf. Hohe Werte stehen dabei für positive Einstellung. Stadtbevölkerung 25 23 23 30 26 28 24 29 21 30 25 23 30 betroffene Bevölkerung 23 20 25 27 21 19 24 24 22 28 25 28 21 Nehmen Sie für die Auswertung gleiche Varianzen in den beiden Gruppen an. 40. Der Gehalt an Calcium eines Mineralwassers (in mg/l) wird an 6 verschiedenen Tagen ermittelt: 840 680 920 1000 750 850. Der Produzent behauptet, dass das Mineralwasser einen mittleren Calciumgehalt von 1000 mg/l hat. Testen Sie diese Hypothese zum Niveau a=0.05. (a) wenn die Varianz nicht bekannt ist. (b) wenn die Standardabweichung 200 mg/l beträgt. 41. Die Juni-Durchschnittstemperatur liegt bei 22.2 Grad mit einer Standardabweichung von 2 Grad. In den letzten 5 Jahren betrug die Durchschnittstemperatur im Juni: 2001: 23.5 2002: 22.3 2003: 23.2 2004: 24.3 2005: 25.4 (a) Hat sich die Juni-Temperatur in den letzten 5 Jahren verändert ? (α = 0.05) (b) Wurde es in den letzten 5 Jahren signifikant wärmer ? (α = 0.05). (c) Angenommen, die Varianz der Juni-Temperaturen wäre nicht bekannt, wurde es dann signifikant wärmer in den letzten 5 Jahren (α = 0.05). 42. Von 1000 Personen einer Versuchsgruppe, die täglich 400mg Selen einnahmen, erkrankten im Zeitraum von 10 Jahren 125 Personen an Krebs. In der aus 800 Personen bestehenden Kontrollgruppe, die kein Selen (sondern ein Placebo) verabreicht bekam, erkrankten 210 Personen an Krebs. (1P) 10 (a) Berechnen Sie ein 95% Konfidenzintervall für die Reduktion des Krebsrisikos durch die Einnahme von Selen. (b) Genauere Informationen über die Studie ergaben, dass alle Testpersonen in einem Gebiet mit extrem geringen Selengehalt im Boden wohnten. Die Nahrung enthielt daher sehr wenig Selen. Wie beurteilen Sie im Lichte dieser Information das Konfidenzintervall in (a) ? 43. Zwei Unterrichtsmethoden wurden verglichen. Bei Methode A erreichten 25 Studenten beim darauffolgenden Test eine mittelere Punktzahl von x̄A = 82, wobei die Standardabweichung sA = 6.5 betrug. Bei Unterrichtsmethode B ergab sich mit 27 Studenten ein durchschnittliches Ergebnis von x̄B = 77, sowie sB = 6.7. Berechnen Sie unter der Annahme gleicher Varianzen und Normalverteiltheit der Ergebnisse ein 95% Konfidenzintervall für den Unterschied in der Effizienz der beiden Methoden. 44. Vor der Einführung der abschreckenden Zigarettenpackungen gaben von 600 Befragten 220 an zu rauchen. Nach der Einführung wurde wieder befragt und es gaben 80 von 300 Befragten an zu rauchen. Berechnen Sie Konfidenzintervalle für den Anteil der Raucher für beide Befragungen und für die Differenz der Anteile. (1P) 45. Angenommen, dass Konfidenzintervall des Stichprobenmittels für ein normal verteiltes X mit Varianz σ 2 ist [0, 4]. Wie sieht das Konfidenzintervall für die Zufallsvariable Y = aX + b (a, b ∈ R, a 6= 0) aus ? (1P) 46. Nachstehende Tabelle enthält das Gewicht von Personen, die an einem Trainingsprogram zur Gewichtsreduktion teilgenommen haben, vor und nach Absolvierung des Programmes. Gewicht in kg vorher 75 66 80 85 90 87 73 75 81 81 nachher 70 67 73 80 88 89 71 70 79 76 Erstellen Sie ein 95% Konfidenzintervall für die Differenz der Gewichte unter der Annahme, dass das Gewicht in beide Fllen Normalverteilt ist. (1P) Unverzerrtheit und Effizienz 47. Zeigen Sie, dass n 1X (Xi − µ)2 σˆ2 = n i=1 ein erwartungstreuer Schätzer für die Varianz ist, falls der Erwartungswert µ nicht aus den unabhängigen Daten Xi geschätzt werden muss, sondern bekannt ist. (1P) 11 48. Gegeben sei ein Sample Y1 , . . . , Yn von einer Exponentialverteilung mit Parameter θ, deren Dichtefunktion folgendermaßen definiert ist: ( 1 − yθ y>0 θ e f (y|θ) = 0 y≤0 (a) Berechne den Erwartungswert von Y1 . (b) Ist der Schätzer n θ̂ = 1X Yi n i=1 unverzerrt für θ? (1P) 49. Für den Erwartungswert µ einer Zufallsvariablen werden folgende Schätzfunktionen vorgeschlagen. T1 = X̄, T2 = Xn , T3 = n n X1 + Xn 1 X 1 X , T4 = Xi , T 5 = 2 Xi 2 n−1 n i=1 i=1 Dabei werde angenommen, dass X1 , ..., Xn unabhängig sind. Außerdem soll gelten E(Xi ) = µ und Var(Xi ) = σ 2 für i = 1, . . . , n. (a) Welche der Schätzfunktionen sind erwartungstreu ? (b) Welche der erwartungstreuen Schätzfunktionen hat die kleinste Varianz ? (1P) 50. Gegeben seien zwei unabhängige Schätzer T1 , T2 für einen unbekannten statistischen Parameter θ. Für die Schätzfunktionen gilt: E(T1 ) = 3θ, Var(T1 ) = 1 und E(T2 ) = 2θ, Var(T2 ) = 9. Betrachten Sie Linearkombinationen T = a1 T1 + a2 T2 der beiden Schätzer. (1P) (a) Welche Bedingungen müssen die ai erfüllen, so dass T ein erwartungstreuer Schätzer für θ ist. (b) Bestimmen Sie ai , so dass T varianzminimal und erwartungstreu ist. 51. Eine Stichprobe der Größe 2 wird aus folgender Verteilung gezogen fY (y; θ) = 2yθ2 , 0<y< (1P) 1 θ Für welchen Wert c ist c(Y1 + 2Y2 ) ein unverzerrter (erwartungstreuer) Schätzer für 1 θ ? 52. Suppose that W1 is random variable with mean µ and variance σ12 and W2 has the same mean and variance σ22 . 12 (a) Show that cW1 + (1 − c)W2 is an unbiased estimator for µ (for all c). (b) Compute the variance of these estimators. (c) Find the c such that the estimator in (a) is most efficient if W1 and W2 are independent. 53. Let X1 . . . Xn be a random sample of size n from the Poisson distribution, pX (x, λ) = e−λ λx 1 Pn (1P) i=1 Xi is an efficient estimator for λ. x! , x = 0, 1, . . .. Show that λ̂ = n 54. Gib die Definition der Fisher-Information für ein Modell, das durch θ parametrisiert ist, und erkläre ausführlich, wie man diese Größe berechnet. 55. Sei X eine Bernoulli-verteilte Zufallsvariable mit Parameter p. Die probability mass function ist gegeben durch pX (k|p) = pk (1 − p)1−k , k = 0, 1, p ∈ (0, 1). Um den Parameter p zu schätzen, verwendet man ein i.i.d. Sample X1 , . . . , Xn und P betrachtet p̂ = X̄ = n1 n1 Xi . Berechne folgende Ausdrücke: (a) E(X), Var(X) (b) E(X̄), Var(X̄) (c) Fisher-Information I(p) a+b+c=(1P) (d) Cramér-Rao-Schranke des Modells (e) Ist p̂ ein effizienter Schätzer für p? d+e=(1P) 56. Sei X1 , . . . , Xn ein i.i.d. Sample aus einer Exponentialverteilung mit Parameter λ. Berechne die Fisher-Information dieses Modells und erkläre, was das bedeutet. Konsistenz 57. Was bedeutet es, dass ein Schätzer konsistent für einen Parameter ist? Arbeite diese Definition gut aus und präsentiere sie übersichtlich. 58. Es sei Y1 , . . . , Yn , . . . eine Folge von i.i.d. Zufallsvariablen mit Erwartungswert µ und P Varianz σ 2 . Betrachte die zugehörigen Sample Means Yn = ni=1 Yi . (2P) (a) Schreibe mathematisch auf, was es heißt, dass die Folge der Schätzer Yn , n ≥ 1, konsistent für den Parameter µ ist. (b) Wähle n fix und wende die Tschebyscheff-Ungleichung auf die Zufallsvariable Yn an. 13 (c) Zeige nun mit Hilfe von (b) die Aussage in (a). (d) Welches berühmte Theorem hast Du gerade bewiesen? 59. Gegeben sei ein i.i.d. Sample X1 , . . . , Xn aus einer Normalverteilung mit µ = 0 und unbekannter Varianz σ 2 . Zeige, dass der Schätzer n Sn2 = 1X 2 Xi n i=1 für den Parameter σ 2 konsistent ist. (1P) Hinweis: Ist Xi ∼ N (µ, σ 2 ), dann gilt Y = n X Xi − µ 2 i=1 σ ∼ χ2n mit Var(Y ) = 2n. Suffizienz 60. Was bedeutet es, dass eine Statistik suffizient für einen Parameter ist? Gib eine geeignete Definition. 61. Sei X1 , X2 . . . Xn eine Zufallsstichprobe aus einer Bernoulli Verteilung mit Parameter θ. Zeigen Sie, dass T (X) = X1 + ... + Xn ein suffizienter Schätzer für θ ist. (2P) 62. Sei X1 , . . . , Xn ein i.i.d. Sample aus einer geometrischen Verteilung, pX (k| p) = (1 − P (2P) p)k−1 p, k = 1, 2, . . .. Zeige, dass p̂ = ni=1 Xi suffizient für p ist. 63. Betrachte ein i.i.d. Sample der Größe n, das nach einer Dichte ( e−(y−θ) y ≥ θ fY (y| θ) = 0 sonst gezogen wurde. (2P) (a) Die Dichte von Ymin , also dem kleinsten Wert im Sample, ist gegeben durch fYmin (ymin ) = n(1 − FY1 (ymin ))n−1 fY1 (ymin ). Berechne zunächst FY1 (ymin ) mit Hilfe von fY1 (ymin ). Leite dann daraus eine Formel für fYmin (ymin ) her. (b) Berechne die Likelihood L(θ). 14 (c) Lässt sich L(θ) in der Form L(θ) = fYmin (ymin |θ)b(y1 , . . . , yn ) (1) schreiben, wobei b(y1 , . . . , yn ) nur noch eine Funktion der Daten ist, dann ist Ymin suffizient für den Parameter θ. Zeige (1). 64. Gegeben sei eine Zufallsstichprobe (x1 , . . . , xn ), wobei die Xi der Verteilung mit der Dichte fX (x, θ) = θe−(θ+1) log(1+x) P gehorchen. Ist der Schätzer θ̂ = ni=1 log(1 + xi ) suffizient ? 65. Given a random sample of size n from the gamma distribution with α unknown and β known β α α−1 x exp (−βx) Γ(α) P where Γ is the gamma function. Show that T = ni=1 log(xi ) is a sufficient statistic for fX (x) = α. Hint: Use that n Y (α−1) xi = exp (α − 1) i=1 n X ! log(xi ) i=1 66. Gegeben sei eine Zufallsstichprobe (Y1 , . . . , Yn ) aus einer Gleichverteilung auf [0, θ] (siehe Beispiel 19) mit der Dichte 1 fY (y, θ) = 1[0,θ] (y) θ wobei ( 1[a,b] (y) = 1, wenn y ∈ [a, b] 0, sonst Der Momentenschätzer für θ ist durch X n 2 θ̂1 = Yi n i=1 gegeben. Der Maximum Likelihood Schätzer ist θ̂2 = Ymax = max1≤i≤n Yi . (a) Zeigen Sie, dass L(θ) = 1 1 (Ymax ) θn [0,θ] (b) Zeigen Sie, dass θ̂1 nicht suffizient ist. (c) Zeigen Sie, dass θ̂2 suffizient ist. Tipp: Benutzen Sie den Faktorisierungssatz aus der Vorlesung. (2P) 15 Hypothesentests 67. Im folgenden seien die Daten nach einer Normalverteilung mit Parametern µ und σ generiert. Argumentiere, ob man die Nullhypothese ablehnt oder nicht. (1P) (a) H0 : µ = 120 versus H1 : µ < 120; ȳ = 114.2, n = 25, σ = 18, α = 0.08 (b) H0 : µ = 42.9 versus H1 : µ 6= 42.9; ȳ = 45.1, n = 16, σ = 3.2, α = 0.01 (c) H0 : µ = 14.2 versus H1 : µ > 14.2; ȳ = 15.8, n = 9, σ = 4.1, α = 0.13 68. Road ’Hugger All-Weather’-Reifen halten im Durchschnitt 32500 Meilen. Die Herstellerfirma hofft durch Hinzufügen eines neuen Polymers, die Reifen gegen Abnützung bei extremen Temperaturen zu schützen. In einer Untersuchung hielten die neuen Reifen bei 15 Fahrern im Durchschnitt 33800 Meilen. Kann die Firma behaupten, dass die neuen Reifen signifikant besser sind als die alten? Teste H0 : µ = 32500 gegen eine einseitige Alternativhypothese auf dem Signifikanzniveau α = 0.05. Nimm an, dass die Mileage sowohl der alten als auch der neuen Reifen normalverteilt ist mit bekannter Standardabweichung σ = 4000 Meilen. 69. Ein Politiker behauptet, dass 60% der Bevölkerung eines Landes eine Verschlechterung der Konjunktur erwartet. In einer Umfrage unter 500 Personen gaben allerdings nur 220 Personen an, mit einer Konjunkturverschlechterung zu rechnen. Glauben Sie der Aussage des Politikers ? Testen Sie zum Niveau α = 0.01. (1P) 70. Ein Politiker hat sich in den letzten beiden Jahren in seinen Reden auf das Thema Frauenrechte konzentriert und möchte nun wissen, ob der Anteil der ihn unterstützenden männlichen Wähler dabei gleichgeblieben ist. In der letzten Wahl waren 65% seiner Wähler Männer. In einer rezenten Befragung von 120 Leuten, die den Politiker unterstützen, sind 72 Männer gewesen. (1P) Teste H0 : ’Anteil der männlichen Unterstützer ist gleichgeblieben’ auf dem Signifikanzniveau α = 0.05. Die Alternative sei dabei einseitig gewählt. 71. Eine Fahrschule behauptet, dass 80% der Führerschein beim ersten Versuch schaffen. Im vergangenen Jahr schafften 450 von 600 Fahrschülern den Führerschein sofort. Testen Sie, ob die Aussage der Fahrschule zutrifft (α = 0.05). 72. Unter 100 befragten LeserInnen einer Zeitschrift mögen 25 eine bestimmte Politikerin. Unter 120 LeserInnen eines Konkurrenzblattes mögen 22 die betreffende Politikerin. Testen zum Niveau α = 0.05, ob sich die Einschätzung der Politikerin in den Lesergruppen beider Zeitungen unterscheidet. (1P) 73. Testen Sie auf einem Signifikanzniveau von α = 5%, ob das in Beispiel 46 beschriebene Trainingsprogramm tatsächlich zu einem Gewichtsverlust geführt hat. (1P) 16 74. Gib eine Definition des p-Wertes. Berechne die p-Werte in Aufgabe 67. 75. Finden Sie den p-Wert in Beispiel 41 (Punkt (a) und (b)) und testen die jeweiligen Hypothesen unter Verwendung des gefundenen Wertes. (1P) 76. Finden Sie den p-Wert in Beispiel 71 und testen die jeweiligen Hypothesen unter Verwendung des gefundenen Wertes. (1P) 77. Nimm an, H0 : µ = 120 wird gegen H1 : µ 6= 120 unter Normalverteilungsannahme getestet. Sei σ = 10 und n = 16. (1P) (a) Was ergibt sich für den p-Wert, falls der Stichprobenmittelwert ȳ = 122.3 ist. (b) Unter welchen Umständen verwirft man H0 ? 78. In einer repräsentativen Umfrage für ein Land wurde das monatliche Einkommen von 240 Männern und 160 Frauen erhoben. Das durchschnittliche Einkommen der Männer lag in der Stichprobe bei 1650 EUR, jenes der Frauen bei 1280 EUR. Die Stichprobenstandardabweichung der Einkommen betrug 270 EUR bei den Männern und 480 EUR bei den Frauen. (2P) (a) Testen Sie, ob ein Einkommensunterschied zwischen Männern und Frauen besteht. (b) Führen Sie eine Test auf Varianzhomogenität durch. (c) Diskutieren Sie inhaltlich, inwieweit für diese Fragestellung ein Test auf einen Mittelwertsunterschied sinnvoll ist. 79. (a) Wie wirken sich Lineartransformationen auf den F-Test aus ? (Lineartransformation: l(x) = a + bx mit a, b ∈ R) (1P) (b) Wie wirken sich Lineartransformationen auf den t-Test für unabhängige Stichproben (und homogene Varianzen) aus? (1P) 80. Um einen Test durchzuführen, wirft ein fauler Statistiker vier faire Münzen und entscheidet sich für die Gegenhypothese, wenn bei allen Münzen Kopf erscheint. In allen anderen Fällen entscheidet er sich für die Hypothese. Geben Sie die Wahrscheinlichkeit für den Fehler 1. Art an. (1P) 81. In einer Grundgesamtheit sei ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegen HA : µ 6= 100 getestet werden, wobei der Umfang der Stichprobe bei n = 100 liegt. (2P) (a) Bestimmen Sie den Annahmebereich für H0 (α = 0.05). (b) Berechnen Sie den Fehler 2. Art (β) unter der Annahme, dass der unbekannte Erwartungwert µ gleich (i) 105, (ii) 110 und (iii) 115 sei. (c) Erstelllen Sie eine Skizze der Gütefunktion (Macht) des Tests. 17 82. Gegeben sei eine normalverteilte Grundgesamtheit mit σ = 4. Getestet werden soll die Hypothese H0 : µ = 10 gegen H1 : µ 6= 10 (α = 0.05). Genügt eine Zufallsstichprobe der Größe n = 45, um den Fehler zweiter Art unter 0.2 zu halten, wenn µ = 12 ? (1P) 83. Es sei X1 , . . . , X7 ein i.i.d. Sample, wobei X1 einer Bernoulliverteilung mit unbekanntem Parameter p folgt. Man möchte die Hypothese H0 : p = 0.75 gegen die einseitige Alternative H1 : p < 0.75 testen und verwendet dafür folgende Entscheidungsregel: ’Verwirf P H0 , falls k = 7i=1 xi ≤ 3.’ (1P) (a) Was ist das Signifikanzniveau α des Tests? (b) Zeichne die Wahrscheinlichkeit, dass H0 verworfen wird, als Funktion von p. 84. Es sei Y1 , . . . , Y8 ein i.i.d. Sample einer Gleichverteilung auf dem Intervall [0, θ]. Mit Hilfe der Teststatistik Ymax = max Yi 1≤i≤8 testet man die Hypothese H0 : θ = 2 gegen die Alternative H1 : θ < 2 auf dem Signifikanzniveau α = 0.1. (2P) (a) Schreibe die Formel für die Dichtefunktion von Y1 auf und zeichne sie. (b) Die Dichtefunktion von Ymax ist gegeben durch y 7 1 · , 0 ≤ y ≤ θ. θ θ Was ist der kritische Wert von Ymax ? f (y, θ) = 8 (c) Was ist die Wahrscheinlichkeit, einen Fehler zweiter Art zu begehen, wenn θ = 1.7? 85. Betrachte ein Sample Y der Größe 1 aus einer Verteilung mit Dichte fY (y) = (θ + 1)y θ , 0 ≤ y ≤ 1. Falls y ≥ 0.9, dann verwirft man H0 : θ = 1 zugunsten von H1 > 1. Berechne das Signifikanzniveau des Tests. (1P) 86. Es seien n = 36 normalverteilte Beobachtungen gegeben, wobei σ = 8 bekannt ist. Man möchte die Hypothese H0 : µ = 60 gegen die zweiseitige Alternative H1 : µ 6= 60 auf dem Signifikanzniveau α = 0.07 testen. Ein Student, der die Vorlesung über die Konstruktion von Entscheidungsregeln versäumt hat, beschließt aus seiner Intuition heraus H0 abzulehnen, falls ȳ außerhalb des Intervalls (60 − c1 , 60 + c1 ) liegt. (a) Berechne c1 . (b) Was ist die Güte des Tests, wenn µ = 62. (c) Berechne den kritischen Wert c2 mit Hilfe einer korrekten Überlegung. 18 (d) Was ist die Güte des Tests jetzt, wenn µ = 62. 87. Zur Untersuchung der Variabilität der Stärke (in t/cm2 ) von zwei Typen von Stahlseilen (Typ 1, Typ 2) ergaben sich folgende Werte n1 = 10, s21 = 19.2, n2 = 16, s22 = 3.5. Weist der Unterschied in den Standardabweichungen auf eine höhere Variabilität des Typen 1 hin ? (α = .01). (1P)