Übung (9)

Werbung
Übung (9)
1. Ein Ereignis A bei einem Zufallsexperiment habe die unbekannte Wahrscheinlichkeit p. In 200 unabhängigen
Durchführungen des Experiments finden Sie, dass 160 mal das Ereignis A herausgekommen ist (und eben 40 mal
das Ereignis A).
(a) Man hat das folgende 99%− Vertrauensintervall für µ (X) (näherungsweise gerechnet, doppelt: Binomialverteilung ist durch Normalverteilung genähert, und bei geschätzter Streuung ist die Normalverteilungsgrenze
statt der korrekteren t− Verteilungsgrenze (bei 199 Freiheitsgraden) genommen:
∗)
160
40
·
160 ± 2.58 · 200 · 200 200 ,
199
(200)
Wir erklären die Streuungsschätzung: Nennen wir Y
die Mittelwertsvariable der Bernoulli-Variablen Y
mit dem unbekannten p. Dann hat man anhand der Daten die übliche Streuungsschätzung s (Y ) für σ (Y ) ,
nämlich
200
1 (yi − y)2 ,
199 i=1
wobei die yi die gefundenen Einsen und Nullen sind, also kommt 160 mal die Eins nach den Daten. Das
braucht man aber nicht auszurechnen, sondern man hat - hier einmal ganz konkret:
2
2 200
1 1
160
160
2
(yi − y) =
· 160 1 −
+ 40 ·
199 i=1
199
200
200
160 402
40 1602
1
·
+
·
=
199 200 200 200 200
1
160 40
=
·
(40 + 160)
199 200 200
1 160 · 40
.
=
199 200
Das rechnet man eigentlich besser allgemein, so: Mit gefundenen k Einsen bei n Versuchen:
2 2
n
1 1
k
k
2
(yi − y) =
+ (n − k) ·
· k 1−
n − 1 i=1
n−1
n
n
1
k (n − k)2 (n − k) k2
=
·
+
n−1
n2
n2
=
=
1
n−1
n
n−1
Es kommt stets (allgemein):
s (Y ) =
Das ergibt mit X =
200
k
n
k
·
n
·
n−k
· (n − k + k)
n
k
· 1−
.
n
·
n
· p (1 − p).
n−1
Yi die folgende Streuungsschätzung für die binomialverteilte Variable X:
i=1
√
√
s (X) =
n · s (Y ) = n ·
160
· 40
= 200 200 200 .
199
√
n
· p (1 − p) =hier 200 ·
n−1
1
200 160 40
·
·
199 200 200
Eine andere Überlegung: X = n · Y , also
Das Intervall ist also
s (Y ) √
s (X) = n · s Y = n · √ = n · s (Y ) , dasselbe wie oben.
n
[145; 175].
Es sei angemerkt, dass die t − V erteilungs − Grenze bei 2.6 liegt statt 2.58 und an diesem Resultat nichts
ändern würde. In diesem Intervall liegt daher der unbekannte Wert µ (X) mit Wahrscheinlichkeit 0.99.
(b) Wäre p = 0.7, so hätte man µ (X) = 200· 0.7 = 140, und dieser Wert fällt deutlich aus dem in a berechneten
Vertrauensintervall. Also wird man erwarten, dass die Hypothese ’p = 0.7’ auf 1%− Niveau verworfen werden
kann. Allerdings wäre mit der Hypothese das zweiseitige Vertrauensintervall für X einfach (die Streuung
ist in unserem Fall (!)) durch den Erwartungswert bereits festgelegt:
√
140 ± 2.58 200 · 0.7 · 0.3,
das ist das Intervall (ganzzahlig!)
[123; 157];
Der beobachtete Wert 160 fällt heraus. Man beachte: Die Streuung von X ist laut Hypothese größer als die
zuvor anhand der Stichprobe geschätzte Streuung! Daher wäre es nicht korrekt, aus dem Vertrauensintervall
von a darauf zu schließen, dass die Hypothese auf dem 1%− Niveau zu verwerfen sei, nur war der Abstand
von 140 zur Grenze deutlich genug.
√
(c) Wäre p = 0.7, so hätte man µ (X) = 140 und σ (X) = 200 · 0.7 · 0.3. Dann wäre (über Näherung mit
Normalverteilung, mit Stetigkeitskorrektur (!))
120.5 − 140
≈ 2Φ0,1 (−3.0) ,
P (X ≤ 120 ∪ X ≥ 160) ≈ 2Φ0,1 √
200 · 0.7 · 0.3
aus der Tabelle liest man ab:
Φ0,1 (−3.0) = 1 − 0.99865 = 0.00135
man kann also auf dem folgenden Niveau verwerfen:
120.5 − 140
√
2Φ0,1
= 0.0027,
200 · 0.7 · 0.3
man kann also auf dem Niveau 2.7/1000 verwerfen, da die Zahl
√120.5−140
200·0.7·0.3
< −3.0 ist.
2. Wir bezeichnen das monatliche Nettoeinkommen in einer bestimmten Berufsgruppe mit X (das ist natürlich scho
als Mittelwert etwa über ein Jahr zu nehmen). Es sei tatsächlich in dieser Berufsgruppe das mittlere monatliche
Nettoeinkommen µ (X) = 2300 Euro. Die Streuung sei σ (X) = 300 Euro. Jemand weiß das aber nicht und
möchte die (tatsächlich falsche) Hypothese ’µ (X) ≤ 2000’ mit einer Stichprobe testen.
(a) Die Vertrauensgrenze für das 1% − N iveau (einseitig!) ist mit dem Stichprobenumfang n = 50:
300
2000 + 2.33 · √ = 2098.85353 (Euro).
50
Die empirische Sozialforscherin wird also zum Verwerfen kommen, wenn sie in der Stichprobe einen EinkommensMittelwert über dieser Grenze findet. Nun haben wir mit dem tatsächlichen µ (X) = 2300 :
(50)
2098.85353 − 2300
√
P X
≥ 2098.85353
≈ 1 − Φ0,1
300/ 50
≈ 1 − Φ0,1 (−4.74)
= Φ0,1 (4.74) ≈ 0.999 998 9.
Die Hypothese ist also so falsch (relativ zur Streuung), dass die Sozialforscherin mit einer überwältigenden
Wahrscheinlichkeit schon mit einer Stichprobe vom Umfang 50 zum Verwerfen der Hypothese auf 1%Niveau gelangt. (Die Wahrscheinlichkeit dafür, dass dies Resultat nicht herauskommt, liegt bei etwa einem
Millionstel.)
2
(b) Die Bedingung lautet nun mit dem gesuchten Stichprobenumfang n :
√ − 2300
2000 + 2.33 · 300
300
(n)
n
√
P X
≥ 2000 + 2.33 · √
≈ 1 − Φ0,1
≥ 0.99,
n
300/ n
also
√ − 2300
2000 + 2.33 · 300
n
√
≤ −2.33.
300/ n
Wir lösen natürlich die entsprechende Gleichung und nennen dann den minimalen ganzzahligen Wert,
welcher die Ungleichung erfüllt:
√ − 2300
2000 + 2.33 · 300
n
√
= −2.33
300/ n
√
⇐⇒ − n + 2.33 = −2.33
⇐⇒ n = 4.662 ≈ 21.72
Also genügt der Stichprobenumfang n = 22 bereits, damit die Sozialforscherin mit einer Wahrscheinlichkeit
über 0.99 zum Verwerfen der Hypothese auf 1%− Niveau kommt.
(c) Wie kann die Sozialforscherin planen, obgleich sie die Daten µ (X) und σ (X) nicht kennt? Sie kann (und
sollte!) zunächst einmal festlegen, welche Einkommensdifferenz d sie überhaupt interessiert (10 Euro sicher
nicht), um die Hypothese ’µ (X) ≤ 2000’ nennenswert falsch zu finden. Wenn µ (X) ≥ 2000+ d, so möchte
sie das mit großer Sicherheit an ihrer Stichprobe erkennen. Oben im Beispiel hatten wir d = 300. Nun kann
sie σ (X) durch s (X) mit einer zunächst kleinen Stichprobe wie n = 10 schätzen und dann den benötigten
Stichprobenumfang unter Einsetzen von s (X) abschätzen.
3. Stellen Sie sich vor, dass jemand sehr viele Hypothesen der Form ’µ (X) = µ0 ’ statistisch testet, stets auf dem
Niveau 0.01. Ferner richtet er seine Tests so ein (vgl. 2c (!)), dass ein interessierender Grad von Falschheit definiert
wird und der Test so eingerichtet, dass eine (so) falsche Hypothese auch mit Wahrscheinlichkeit 1/2 wenigstens
als falsch erkannt wird. Nun seien die zufällig zum Testen vorgelegten Hypothesen mit Wahrscheinlichkeit 1/2
tatsächlich (in diesem Grade) falsch. Mit welcher Wahrscheinlichkeit ist dann eine Hypothese tatsächlich falsch,
wenn sie vom Testenden auf dem Niveau 0.01 verworfen wird? Wir bezeichnen das Ereignis: ’Die Hypothese ist
(im angesprochenen Grade) falsch’ mit F, die Verneinung davon mit F ferner das Ereignis: ’Die Hypothese wird
auf dem Niveau 0.01 verworfen’ mit V. Dann ist die Frage die nach
P (F |V ) ,
und mit der Bayesschen Formel hat man
1 1
·
P (V |F ) P (F )
= 1 1 2 21 1
P (V |F ) P (F ) + P V |F P F
2 · 2 + 100 · 2
50
=
≈ 0.98.
51
Dabei haben wir allerdings die Wahrscheinlichkeit für den Fehler, dass eine nicht (im interessierenden) Grade
falsche Hypothese verworfen wird, mit der Wahrscheinlichkeit für den Fehler, eine genau wahre Hypothese zu
verwerfen, näherungsweise gleichgesetzt. Das ist aber einigermaßen in Ordnung, weil sich die Verwerfungsbereiche nur leicht verschieben, der eine größer wird und der andere kleiner.
P (F |V ) =
Zur Zusatzfrage: Mit Wahrscheinlichkeit 0.8 für die Falschheit der eintreffenden Hypothesen hat man
P (F |V ) =
1
2
1
2
·
4
5
· 45
1
+ 100
·
1
5
=
200
≈ 0.995.
201
Wenn z.B. die Wahrscheinlichkeit für die Falschheit der eintreffenden Hypothesen nur 1/10 beträgt, hätte man
nur
1
· 1
50
P (F |V ) = 1 1 2 101
9 = 59 ≈ 0.85.
2 · 10 + 100 · 10
3
4. Die Anzahl der Fehlalarmmeldungen eines Auto-Bordcomputers sei Poisson-verteilt mit λ = 1 pro Jahr (bei
durchschnittlichem Betrieb des Autos).
(a) Nennen wir X die Anzahl der Fehlalarme in einem Betriebsjahr. Dann hat man
P (X = 3) = e−1
13
≈ 0.06.
3!
(b) In welcher Zeitspanne des Betriebes erlebt man mit Wahrscheinlichkeit 0.99 wenigstens einen Fehlalarm?
Die Frage ist die nach der Lösung t von (die Wartezeit T bis zum ersten Poisson-Treffer mit λ = 1 ist
exponentialverteilt mit λ = 1), also
P (T ≤ t) = 1 − e−t =
99
,
100
die Lösung findet man mit
1
,
100
t = ln (100) ≈ 4.61.
e−t
=
(c) In welcher Zeitspanne des Betriebes erlebt man mit Wahrscheinlichkeit 1/2 wenigstens einen Fehlalarm?
Diese Frage nach dem Median von T läuft auf die Lösung von
1
hinaus, und man findet analog zu b
2
t = ln (2) ≈ 0.693.
1 − e−t
=
(d) Wie lange muss man im Mittel warten, bis man einen Fehlalarm erlebt? Dies ist die Frage nach µ (T ) ,
und wir können uns intuitiv denken, dass µ (T ) = λ1 [Jahre] = 1 Jahr. Aber das rechnet man auch als das
Integral
∞
∞
−t
−t ∞
te dt = −te 0 −
−e−t dt = 1.
0
0
4
Herunterladen