Übungsbeispiele

Werbung
Statistishe Inferenz
und
Resampling-Methoden
Beispiele zur Lehrveranstaltung
Wintersemester 2008/09
Josef Leydold
Department für Statistik und Mathematik
der Wirtshaftsuniversität Wien
15. September 2008
c 2008, [email protected]
Beispiele
Mit ∗ markierte Beispiele sind am Computer vorzuführen.
Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09
Wiederholung: Klassische Inferenzstatistik
1. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in
Gramm) erhoben: 99.2, 97.2, 103.2, 105.3, 95.7, 100.2, 105.7, 102.9, 109, 110,
93.6, 97.1, 99.8, 100.7, 104.4, 107.6, 100.4, 100.2, 102, 90.5, 102.2, 108.7, 102.2,
98.1, 102, 98.7, 105.8, 106.5, 102.2, 97.6, 91.2 .
Laut Vertrag mit einem Kunden muss die durchschnittliche Verpackungsmenge mindestens 100 Gramm betragen. Muß die Maschine nachjustiert werden?
(Signifikanzniveau 10 %).
Halten Sie die Wahl des Signifikanzniveaus gut gewählt?
P
P 2
(Hinweis: n = 31,
xi = 3139.9,
xi = 318747.3.)
2. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in
Gramm) erhoben: 99, 94.5, 90.7, 113.3, 95.4, 96.9, 98.5, 103, 101.1, 106.4, 95.3,
102.4, 111.5, 102, 93.1, 93.5, 101.7, 93.2, 93.9, 94.8, 93.6, 106.6, 95.9, 93.2, 95.9,
101.6, 99, 90, 97.9, 91.2, 99.1, 95, 95.8, 104.1, 95.6, 95.8, 101.6, 99.2 .
Die (durchschnittliche) Verpackungsmenge sollte 100 Gramm betragen. Muß die
Maschine nachjustiert werden? (Signifikanzniveau 5 %).
P
P 2
(Hinweis: n = 38,
xi = 3731.3,
xi = 367456.4.)
3. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in
Gramm) erhoben: 100.2, 99, 97.1, 97.1, 91.6, 103.2, 107.4, 87.7, 98.9, 106.4, 97.7,
104.2, 100.2, 96.5, 102.8, 101, 98.4, 100.7, 100.2, 110.1, 101, 85.2, 108.4, 93.7,
97.1, 107.8, 99.1, 102.3, 100.8, 98.3, 100.9 .
Schätzen Sie die durchschnittliche Verpackungsmenge (Konfidenzniveau 95 %).
P
P 2
(Hinweis: n = 31,
xi = 3095,
xi = 309906.)
4. Von 150 befragten Wahlberechtigten einer Landtagswahl wollen 133 von Ihrem
Wahlrecht Gebrauch machen. Bestimmen Sie das 95%-Konfidenzintervall für den
entsprechenden Anteil der Grundgesamtheit aller Wahlberechtigten.
5. 200 zufällig ausgewählte Bewohner eines Stadtteils werden zu ihrer Meinung über
den Bau eines neuen Einkaufzentrums befragt.
115 Befragte sprechen sich für das Einkaufszentrum aus. Beweist dieses Ergebnis
die Aussage eines Politikers, dass sich die Mehrheit der Bevölkerung für das
Einkaufszentum ausspricht. (Signifikanzniveau α = 0.05).
1
Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09
Wahrscheinlichkeitsrechnung
6. Ein Produkt wird auf zwei verschiedenen Maschinen erzeugt. Bei laufenden Qualitätskontrollen ergibt sich folgende Kontingenztafel:
Qualität
I
II
Ausschuss
Maschine 1
45 %
18 %
7%
Maschine 2
25 %
3%
2%
Eine neue Maschine soll angeschafft werden, die Maschine 1 ersetzen soll. Bei
einer Teststellung wurde festgestellt, dass 75 % der von der neuen Maschine erzeugten Produkte Qualitätsklasse I und 22 % Qualitätsklasse II haben. Der Rest
ist Ausschuss.
(a) Wie groß ist der Anteil an Ausschuss vor und nach Inbetriebnahme der
neuen Maschine?
(b) Nach Inbetriebnahme der neuen Maschine wird bei der Qualitätskontrolle
ein Stück als Ausschuss entfernt. Wie groß ist die Wahrscheinlichkeit, dass
es von der neuen Maschine stammt.
7. Das Verhalten von Konsumenten eines TV-Films soll folgendermaßen modelliert
werden: Ein/e Zuschauer/in, der/die sich den Film von Anfang an ansieht, wird
nach einer Zeit T den Kanal wechseln oder das TV-Gerät abschalten, oder bis
zum Ende des Films zuschauen. Die Zufallsvariable T wird dabei durch folgende
Verteilungsfunktion modelliert:

0
für t < 0,



1 − exp(−2t)
für 0 ≤ t < 21 ,
F(t) =

1 + e−2 − exp(−2t) für 12 ≤ t < 1,



1
für 1 ≤ t.
(a) Zeichnen (skizzieren) Sie die Verteilungsfunktion.
(b) Wie groß ist die Wahrscheinlichkeit, dass ein/e Zuschauer/in höchstens ein,
zwei oder drei Viertel des Films sieht, bevor er/sie um-/abschaltet?
(c) Wie groß ist die Wahrscheinlichkeit, dass er/sie mindestens ein Viertel aber
höchstens drei Viertel des Films sieht?
(d) Wie groß ist die Wahrscheinlichkeit, dass er/sie genau ein Viertel / genau
zwei Viertel des Films sieht?
(e) Ist diese Zufallsvariable diskret oder stetig?
(f) Was soll das Modell beschreiben? Ist das Modell richtig oder falsch? (Was
soll das heißen?) Welche Aussagen ergeben sich daraus für einen Werbekunden des TV-Senders?
8. Die Dauer von Ferngesprächen, die von einem Münztelefon aus geführt werden,
soll durch eine Exponentialverteilung mit einem Erwartungswert von 2 Minuten
beschrieben werden. 20 % aller Benutzer telefonieren allerdings noch nach dem
eigentlichen Gespräch noch so lange weiter, bis das Guthaben aufgebraucht ist
(i.e., bis zur nächsten vollen Minute; die Länge des eigentliche Gesprächs soll
aber wieder exponentialverteilt mit Mittelwert 2 sein). Die Dauer dieser Telefonate soll durch die entsprechende geometrische Verteilung beschrieben werden.
Wir bezeichnen diese Benutzer als Typ-II Telefonierer; alle anderen, die das Gesprächsguthaben verfallen lassen, als Typ-I Telefonierer.
2
Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09
(a) Wie lauten Dichte und Verteilungsfunktion der Dauer von Typ-I Gesprächen?
(b) Wie lauten Dichte und Verteilungsfunktion der Dauer von Typ-II Gesprächen?
(c) Wie lautet die Verteilungsfunktion für die Dauer eines zufällig ausgewählten
Telefonats?
(d) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch höchstens eine, zwei oder drei Minuten dauert.
(e) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch höchstens 30, 90, oder 150 Sekunden beträgt?
(f) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch genau eine, zwei oder drei Minuten dauert.
(g) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefongespräch genau 30, 90, oder 150 Sekunden beträgt?
(h) In welcher der zwei Benutzergruppen ist der Erwartungswert für die Dauer
eines Telefonats größer?
(i) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefonat
von (genau) 120 Sekunden Dauer ein Typ-I Gespräch ist?
(j) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Telefonat
von 90 Sekunden Dauer ein Typ-II Gespräch ist?
9. Die Dauer T von Ferngesprächen soll durch eine Exponentialverteilung mit einem
Mittelwert von µ Minuten modelliert werden. Der Parameter λ = 1/µ hängt vom
Telefonierer ab und hat eine Dichte proportional zu max(1 − (3/2 − λ)2 , 0).
(a) Wie lautet die Dichte von λ?
(b) Wie lautet die Dichte von T gegeben λ?
(c) Wie lautet die gemeinsame Dichte von T und λ?
(d) Wie lautet die Dichte von λ wenn T bekannt ist?
10. In einer Grundgesamtheit mit 52 % Frauen und 48 % Männern sei die Körpergröße der Frauen normalverteilt mit Mittelwert 169 cm und Standardabweichung
10 cm, die Körpergröße der Männer normalverteilt mit Mittelwert 175 cm und
Standardabweichung 10 cm. Sei H die Körpergröße einer zufällig ausgewählten
Person, S deren Geschlecht.
(a) Wie lautet die Dichte bzw. Wahrscheinlichkeitsfunktion der Variablen H
und S?
(b) Wie lautet die Dichte der Variablen H wenn das Geschlecht der Person
bekannt ist?
(c) Wie lautet die Wahrscheinlichkeitsfunktion der Variable S wenn die Körpergröße der Person bekannt ist?
(d) Skizzieren Sie diese Dichtefunktionen.
(e) Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person
mit einer Körpergröße von 160 cm / 170 cm / 180 cm eine Frau ist?
3
Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09
Posterior-Verteilungen
11. Zeige, dass die a-posteriori Verteilung von θ, f(θ|x, y), nicht von der Reihenfolge
abhängt, in der die Daten x und y verarbeitet werden. D.h., man erhält in allen
drei Fällen das gleiche Ergebnis:
(1) die a posteriori Verteilung f(θ|x) wird als a priori Verteilung für die Beobachtungen y verwendet;
(2) die a posteriori Verteilung f(θ|y) wird als a priori Verteilung für die Beobachtungen x verwendet;
(3) die Daten {x, y} werden zusammenfasst.
12. Gegeben sei ein Modell, in dem die beobachtete Variable X eine normalverteilte Zufallsvariablen mit bekannter Varianz σ20 ist. Als a priori Dichte wird ein
gewichtetes Mittel von normalverteilten Zufallsvariablen verwendet, mit Mittelwerten µ∗1 bzw. µ∗2 und Varianzen σ∗1 bzw. σ∗2 . Berechnen Sie die a posteriori
Verteilung.
13. Bei der Kontrolle einer Verpackungsmaschine wurden folgende Abfüllmengen (in
Gramm) erhoben: 93.6, 96.1, 100.1, 103.3, 95.4, 104.4, 107.9, 92.8, 93.5, 106.7,
96.3, 100.5, 107.5, 95.8, 103.6, 102.4, 99.5, 97.6, 99.3, 109.7, 106.5, 97.5, 101.5,
116.7, 95.1, 101.9, 101.9, 95.7, 100, 99.8, 99.8, 111.4, 96.9, 94.4, 100, 104.5. Laut
Herstellerangabe arbeitet die Maschine mit einer Präzision τ0 = 0.04 g−2 .
Die a priori Information über die mittlere Füllmenge sei normalverteilt mit µ ∼
N(µ∗ = 102, σ2∗ = 9).
(a) Wie lautet die Dichte der a priori Verteilung und die Likelihoodfunktion?
(b) Wie lautet die a posteriori Verteilung.
(c) Berechnen Sie das HPD-Intervall von Inhalt 0.95.
(d) Wie groß ist die hypothetische Stichprobengröße?
P
P 2
Hinweis: n = 36,
xi = 3629.6,
xi = 367006.7.
14. Wie Aufgabe 13 aber mit nicht-informativer a priori Verteilung. Vergleichen Sie
das Ergebnis mit dem klassischen 95 %-Konfidenzintervall.
4
Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09
MCMC Algorithmen
∗
15. Schreiben Sie eine R Routine reject(dichte,mode), die Zufallszahlen von beliebigen Verteilungen mit Dichten über dem Einheitsinterval [0, 1] erzeugt. Die
Argumente der Routine sind die Dichte und die Lage des Modus. Verwenden Sie
dabei die Verwerfungsmethode unter Verwendung einer konstanten Hutfunktion.
Die Routine soll es dem Benutzer auch erlauben, die Verwerfungskonstante zu
bestimmen.
Testen Sie den Algorithmus an folgenden Verteilungen:
(1) Dichte proportional zu exp(−λx) auf [0, 1] mit λ = 1, 10 und 1000.
(2) Betaverteilung mit Parameter a = 2 und b = 3 sowie für die Parameter
a = 0.5 und b = 2.
Führen Sie dazu die folgenden Experimente durch:
(a) Erzeugen Sie ein Sample der Größe 10 000.
(b) Ploten Sie die generierte Sequenz (trace plot ).
(c) Erzeugen Sie ein Histogramm.
(d) Führen Sie einen geeigneten Anpassungstest durch (goodness-of-fit test ).
Was beobachten Sie (Zeit, Verwerfungskonstante, etc.)?
∗
16. Implementieren Sie einen Independence Sampler in der R Routine mis(dichte)
für beliebigen Verteilungen mit Dichten über dem Einheitsinterval [0, 1]. Verwenden Sie als Proposaldichte eine Gleichverteilung. (Sollte die Routine auch
das Argument mode erhalten? Welches Argument fehlt genaugenommen?)
Führen Sie die Experimente aus Aufgabe 15 durch.
∗
17. Implementieren Sie einen Random Walk Metropolis Sampler in der R Routine
rwm(dichte,radius) für beliebigen Verteilungen mit Dichten über dem Einheitsinterval [0, 1]. Verwenden Sie Proposaldichte eine Gleichverteilung auf dem
Interval [−radius, radius].
Führen Sie die Experimente aus Aufgabe 15 durch. Experimentieren Sie dabei auch mit verschiedenen Werten von radius. Die Annahmewahrscheinlichkeit
sollte bei 25–40% liegen.
∗
18. Durch das Einführen sogenannter latenter Variablen werden manche statistische Probleme einfacher. Ein Beispiel ist die Verwendung der Zufallsvariable
Y ∼ U[0, f(x)] im Verwerfungsalgorithmus (in dem ja eine Zufallsvariable X erzeugt wird). Y wird nur verwendet, um über Akzeptanz oder Verwerfung des
erzeugten X zu entscheiden.
Implementieren Sie einen Gibbs Sampler gibbs(dichte) für gemeinsame Verteilung von X und Y aus dem Verwerfungsalgorithm. Die Routine soll dabei nur
die X Variable zurückgeben.
Führen Sie die Experimente aus Aufgabe 15 durch.
5
Statistische Inferenz und Resamplingmethoden — Wintersemester 2008/09
winBUGS
∗
∗
∗
19. Berechne Aufgaben 13 und 14 mit winBUGS.
20.
Wie Aufgabe
19 aber mit informativer a priori Verteilung für die Präzision
ν∗ ν∗
τ ∼ Γ 2 , 2τ∗ , mit τ∗ = 0.04 und ν∗ = 2. Vergleichen Sie das Resultat mit
jenem aus Aufgabe 19.
21. Wie Aufgabe 19 aber mit diffuser a priori Verteilung für die Präzision. Vergleichen Sie das Resultat mit jenem aus Aufgabe 20 bzw. mit dem klassischen
Konfindenzinterval.
6
Herunterladen