Statistishe Inferenz und Resampling-Methoden Beispiele zur Lehrveranstaltung Wintersemester 2008/09 Josef Leydold Department für Statistik und Mathematik der Wirtshaftsuniversität Wien 15. September 2008 c 2008, [email protected] Beispiele Mit ∗ markierte Beispiele sind am Computer vorzuführen. Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09 Wiederholung: Klassische Inferenzstatistik 1. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in Gramm) erhoben: 99.2, 97.2, 103.2, 105.3, 95.7, 100.2, 105.7, 102.9, 109, 110, 93.6, 97.1, 99.8, 100.7, 104.4, 107.6, 100.4, 100.2, 102, 90.5, 102.2, 108.7, 102.2, 98.1, 102, 98.7, 105.8, 106.5, 102.2, 97.6, 91.2 . Laut Vertrag mit einem Kunden muss die durchschnittliche Verpackungsmenge mindestens 100 Gramm betragen. Muß die Maschine nachjustiert werden? (Signifikanzniveau 10 %). Halten Sie die Wahl des Signifikanzniveaus gut gewählt? P P 2 (Hinweis: n = 31, xi = 3139.9, xi = 318747.3.) 2. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in Gramm) erhoben: 99, 94.5, 90.7, 113.3, 95.4, 96.9, 98.5, 103, 101.1, 106.4, 95.3, 102.4, 111.5, 102, 93.1, 93.5, 101.7, 93.2, 93.9, 94.8, 93.6, 106.6, 95.9, 93.2, 95.9, 101.6, 99, 90, 97.9, 91.2, 99.1, 95, 95.8, 104.1, 95.6, 95.8, 101.6, 99.2 . Die (durchschnittliche) Verpackungsmenge sollte 100 Gramm betragen. Muß die Maschine nachjustiert werden? (Signifikanzniveau 5 %). P P 2 (Hinweis: n = 38, xi = 3731.3, xi = 367456.4.) 3. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in Gramm) erhoben: 100.2, 99, 97.1, 97.1, 91.6, 103.2, 107.4, 87.7, 98.9, 106.4, 97.7, 104.2, 100.2, 96.5, 102.8, 101, 98.4, 100.7, 100.2, 110.1, 101, 85.2, 108.4, 93.7, 97.1, 107.8, 99.1, 102.3, 100.8, 98.3, 100.9 . Schätzen Sie die durchschnittliche Verpackungsmenge (Konfidenzniveau 95 %). P P 2 (Hinweis: n = 31, xi = 3095, xi = 309906.) 4. Von 150 befragten Wahlberechtigten einer Landtagswahl wollen 133 von Ihrem Wahlrecht Gebrauch machen. Bestimmen Sie das 95%-Konfidenzintervall für den entsprechenden Anteil der Grundgesamtheit aller Wahlberechtigten. 5. 200 zufällig ausgewählte Bewohner eines Stadtteils werden zu ihrer Meinung über den Bau eines neuen Einkaufzentrums befragt. 115 Befragte sprechen sich für das Einkaufszentrum aus. Beweist dieses Ergebnis die Aussage eines Politikers, dass sich die Mehrheit der Bevölkerung für das Einkaufszentum ausspricht. (Signifikanzniveau α = 0.05). 1 Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09 Wahrscheinlichkeitsrechnung 6. Ein Produkt wird auf zwei verschiedenen Maschinen erzeugt. Bei laufenden Qualitätskontrollen ergibt sich folgende Kontingenztafel: Qualität I II Ausschuss Maschine 1 45 % 18 % 7% Maschine 2 25 % 3% 2% Eine neue Maschine soll angeschafft werden, die Maschine 1 ersetzen soll. Bei einer Teststellung wurde festgestellt, dass 75 % der von der neuen Maschine erzeugten Produkte Qualitätsklasse I und 22 % Qualitätsklasse II haben. Der Rest ist Ausschuss. (a) Wie groß ist der Anteil an Ausschuss vor und nach Inbetriebnahme der neuen Maschine? (b) Nach Inbetriebnahme der neuen Maschine wird bei der Qualitätskontrolle ein Stück als Ausschuss entfernt. Wie groß ist die Wahrscheinlichkeit, dass es von der neuen Maschine stammt. 7. Das Verhalten von Konsumenten eines TV-Films soll folgendermaßen modelliert werden: Ein/e Zuschauer/in, der/die sich den Film von Anfang an ansieht, wird nach einer Zeit T den Kanal wechseln oder das TV-Gerät abschalten, oder bis zum Ende des Films zuschauen. Die Zufallsvariable T wird dabei durch folgende Verteilungsfunktion modelliert: 0 für t < 0, 1 − exp(−2t) für 0 ≤ t < 21 , F(t) = 1 + e−2 − exp(−2t) für 12 ≤ t < 1, 1 für 1 ≤ t. (a) Zeichnen (skizzieren) Sie die Verteilungsfunktion. (b) Wie groß ist die Wahrscheinlichkeit, dass ein/e Zuschauer/in höchstens ein, zwei oder drei Viertel des Films sieht, bevor er/sie um-/abschaltet? (c) Wie groß ist die Wahrscheinlichkeit, dass er/sie mindestens ein Viertel aber höchstens drei Viertel des Films sieht? (d) Wie groß ist die Wahrscheinlichkeit, dass er/sie genau ein Viertel / genau zwei Viertel des Films sieht? (e) Ist diese Zufallsvariable diskret oder stetig? (f) Was soll das Modell beschreiben? Ist das Modell richtig oder falsch? (Was soll das heißen?) Welche Aussagen ergeben sich daraus für einen Werbekunden des TV-Senders? 8. Die Dauer von Ferngesprächen, die von einem Münztelefon aus geführt werden, soll durch eine Exponentialverteilung mit einem Erwartungswert von 2 Minuten beschrieben werden. 20 % aller Benutzer telefonieren allerdings noch nach dem eigentlichen Gespräch noch so lange weiter, bis das Guthaben aufgebraucht ist (i.e., bis zur nächsten vollen Minute; die Länge des eigentliche Gesprächs soll aber wieder exponentialverteilt mit Mittelwert 2 sein). Die Dauer dieser Telefonate soll durch die entsprechende geometrische Verteilung beschrieben werden. Wir bezeichnen diese Benutzer als Typ-II Telefonierer; alle anderen, die das Gesprächsguthaben verfallen lassen, als Typ-I Telefonierer. 2 Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09 (a) Wie lauten Dichte und Verteilungsfunktion der Dauer von Typ-I Gesprächen? (b) Wie lauten Dichte und Verteilungsfunktion der Dauer von Typ-II Gesprächen? (c) Wie lautet die Verteilungsfunktion für die Dauer eines zufällig ausgewählten Telefonats? (d) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch höchstens eine, zwei oder drei Minuten dauert. (e) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch höchstens 30, 90, oder 150 Sekunden beträgt? (f) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch genau eine, zwei oder drei Minuten dauert. (g) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch genau 30, 90, oder 150 Sekunden beträgt? (h) In welcher der zwei Benutzergruppen ist der Erwartungswert für die Dauer eines Telefonats größer? (i) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefonat von (genau) 120 Sekunden Dauer ein Typ-I Gespräch ist? (j) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefonat von 90 Sekunden Dauer ein Typ-II Gespräch ist? 9. Die Dauer T von Ferngesprächen soll durch eine Exponentialverteilung mit einem Mittelwert von µ Minuten modelliert werden. Der Parameter λ = 1/µ hängt vom Telefonierer ab und hat eine Dichte proportional zu max(1 − (3/2 − λ)2 , 0). (a) Wie lautet die Dichte von λ? (b) Wie lautet die Dichte von T gegeben λ? (c) Wie lautet die gemeinsame Dichte von T und λ? (d) Wie lautet die Dichte von λ wenn T bekannt ist? 10. In einer Grundgesamtheit mit 52 % Frauen und 48 % Männern sei die Körpergröße der Frauen normalverteilt mit Mittelwert 169 cm und Standardabweichung 10 cm, die Körpergröße der Männer normalverteilt mit Mittelwert 175 cm und Standardabweichung 10 cm. Sei H die Körpergröße einer zufällig ausgewählten Person, S deren Geschlecht. (a) Wie lautet die Dichte bzw. Wahrscheinlichkeitsfunktion der Variablen H und S? (b) Wie lautet die Dichte der Variablen H wenn das Geschlecht der Person bekannt ist? (c) Wie lautet die Wahrscheinlichkeitsfunktion der Variable S wenn die Körpergröße der Person bekannt ist? (d) Skizzieren Sie diese Dichtefunktionen. (e) Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person mit einer Körpergröße von 160 cm / 170 cm / 180 cm eine Frau ist? 3 Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09 Posterior-Verteilungen 11. Zeige, dass die a-posteriori Verteilung von θ, f(θ|x, y), nicht von der Reihenfolge abhängt, in der die Daten x und y verarbeitet werden. D.h., man erhält in allen drei Fällen das gleiche Ergebnis: (1) die a posteriori Verteilung f(θ|x) wird als a priori Verteilung für die Beobachtungen y verwendet; (2) die a posteriori Verteilung f(θ|y) wird als a priori Verteilung für die Beobachtungen x verwendet; (3) die Daten {x, y} werden zusammenfasst. 12. Gegeben sei ein Modell, in dem die beobachtete Variable X eine normalverteilte Zufallsvariablen mit bekannter Varianz σ20 ist. Als a priori Dichte wird ein gewichtetes Mittel von normalverteilten Zufallsvariablen verwendet, mit Mittelwerten µ∗1 bzw. µ∗2 und Varianzen σ∗1 bzw. σ∗2 . Berechnen Sie die a posteriori Verteilung. 13. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in Gramm) erhoben: 93.6, 96.1, 100.1, 103.3, 95.4, 104.4, 107.9, 92.8, 93.5, 106.7, 96.3, 100.5, 107.5, 95.8, 103.6, 102.4, 99.5, 97.6, 99.3, 109.7, 106.5, 97.5, 101.5, 116.7, 95.1, 101.9, 101.9, 95.7, 100, 99.8, 99.8, 111.4, 96.9, 94.4, 100, 104.5. Laut Herstellerangabe arbeitet die Maschine mit einer Präzision τ0 = 0.04 g−2 . Die a priori Information über die mittlere Füllmenge sei normalverteilt mit µ ∼ N(µ∗ = 102, σ2∗ = 9). (a) Wie lautet die Dichte der a priori Verteilung und die Likelihoodfunktion? (b) Wie lautet die a posteriori Verteilung. (c) Berechnen Sie das HPD-Intervall von Inhalt 0.95. (d) Wie groß ist die hypothetische Stichprobengröße? P P 2 Hinweis: n = 36, xi = 3629.6, xi = 367006.7. 14. Wie Aufgabe 13 aber mit nicht-informativer a priori Verteilung. Vergleichen Sie das Ergebnis mit dem klassischen 95 %-Konfidenzintervall. 4 Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09 MCMC Algorithmen ∗ 15. Schreiben Sie eine R Routine reject(dichte,mode), die Zufallszahlen von beliebigen Verteilungen mit Dichten über dem Einheitsinterval [0, 1] erzeugt. Die Argumente der Routine sind die Dichte und die Lage des Modus. Verwenden Sie dabei die Verwerfungsmethode unter Verwendung einer konstanten Hutfunktion. Die Routine soll es dem Benutzer auch erlauben, die Verwerfungskonstante zu bestimmen. Testen Sie den Algorithmus an folgenden Verteilungen: (1) Dichte proportional zu exp(−λx) auf [0, 1] mit λ = 1, 10 und 1000. (2) Betaverteilung mit Parameter a = 2 und b = 3 sowie für die Parameter a = 0.5 und b = 2. Führen Sie dazu die folgenden Experimente durch: (a) Erzeugen Sie ein Sample der Größe 10 000. (b) Ploten Sie die generierte Sequenz (trace plot ). (c) Erzeugen Sie ein Histogramm. (d) Führen Sie einen geeigneten Anpassungstest durch (goodness-of-fit test ). Was beobachten Sie (Zeit, Verwerfungskonstante, etc.)? ∗ 16. Implementieren Sie einen Independence Sampler in der R Routine mis(dichte) für beliebigen Verteilungen mit Dichten über dem Einheitsinterval [0, 1]. Verwenden Sie als Proposaldichte eine Gleichverteilung. (Sollte die Routine auch das Argument mode erhalten? Welches Argument fehlt genaugenommen?) Führen Sie die Experimente aus Aufgabe 15 durch. ∗ 17. Implementieren Sie einen Random Walk Metropolis Sampler in der R Routine rwm(dichte,radius) für beliebigen Verteilungen mit Dichten über dem Einheitsinterval [0, 1]. Verwenden Sie Proposaldichte eine Gleichverteilung auf dem Interval [−radius, radius]. Führen Sie die Experimente aus Aufgabe 15 durch. Experimentieren Sie dabei auch mit verschiedenen Werten von radius. Die Annahmewahrscheinlichkeit sollte bei 25–40% liegen. ∗ 18. Durch das Einführen sogenannter latenter Variablen werden manche statistische Probleme einfacher. Ein Beispiel ist die Verwendung der Zufallsvariable Y ∼ U[0, f(x)] im Verwerfungsalgorithmus (in dem ja eine Zufallsvariable X erzeugt wird). Y wird nur verwendet, um über Akzeptanz oder Verwerfung des erzeugten X zu entscheiden. Implementieren Sie einen Gibbs Sampler gibbs(dichte) für gemeinsame Verteilung von X und Y aus dem Verwerfungsalgorithm. Die Routine soll dabei nur die X Variable zurückgeben. Führen Sie die Experimente aus Aufgabe 15 durch. 5 Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09 winBUGS ∗ ∗ ∗ 19. Berechne Aufgaben 13 und 14 mit winBUGS. 20. Wie Aufgabe 19 aber mit informativer a priori Verteilung für die Präzision ν∗ ν∗ τ ∼ Γ 2 , 2τ∗ , mit τ∗ = 0.04 und ν∗ = 2. Vergleichen Sie das Resultat mit jenem aus Aufgabe 19. 21. Wie Aufgabe 19 aber mit diffuser a priori Verteilung für die Präzision. Vergleichen Sie das Resultat mit jenem aus Aufgabe 20 bzw. mit dem klassischen Konfindenzinterval. 6