3.3.1. Beispiel: Konfidenzbereiche für die Erfolgswahrscheinlichkeit

Werbung
3.3.1. Beispiel: Konfidenzbereiche für die Erfolgswahrscheinlichkeit bei
unabhängig wiederholten Experimenten. Ein in einem Erfolg oder einem Mißerfolg resultierendes Experiment wird unter gleichbleibenden Bedingungen N mal
unabhängig wiederholt 1. Es ist ein Konfidenzbereich für die Erfolgswahrscheinlichkeit q ∈ [0, 1] zu bestimmen.
Bestimmung eines statistischen Modells. Es erscheint sinnvoll, die Gesamtanzahl der Erfolge der Bestimmung des Konfidenzbereichs zugrunde zu legen 2. Als
statistisches Modell ergibt sich nun 3 (X, G, (Pq )q∈[0,1] ) mit
X = {0, 1, . . . , N },
G = Pot(X),
Pq = Binomialverteilung mit Parameter N und q 4,
q ∈ [0, 1].
Außerdem sei durch Z mit Z(x) = x, x ∈ X, eine 5 Statistik auf (X, G) definiert.
Bei der Bestimmung eines Konfidenzbereichs zu einem Irrtumsniveau α ∈ (0, 1)
für die Erfolgswahrscheinlichkeit q können bezüglich der Aussagekraft des angestrebten Ergebnisses unterschiedliche Prioritäten gesetzt werden 6. Auch bei der
Abwägung zwischen dem Interesse an einem möglichst geringen mathematischen
Aufwand und dem Wunsch, möglichst präzise Aussagen 7 zu treffen, sind verschiedene Standpunkte denkbar 8.
Aufgabe 1. Eine objektive“ Einschätzung der Erfolgswahrscheinlichkeit q ist ab”
zugeben, wobei das Irrtumsniveau α nicht überschritten werden sollte.
Als Ausgangspunkt einer schnellen, aber nicht optimalen Bestimmung eines Konfidenzbereichs wird die Abschätzung
1
1
q(1 − q) ≤ 9
, ǫ > 0, q ∈ [0, 1],
(4)
Pq [|Z/N − q| ≥ ǫ] ≤
2
Nǫ
4N ǫ2
eine Konsequenz der Čebyšev’schen Ungleichung 10, benutzt.
Setzt man
#
"
r
r
1
1
x
x
∩ 11 [0, 1], x ∈ X,
C(x) =
−
,
+
N
4N α N
4N α
1M.a.W., man betrachtet den N -fachen, unabhängigen Münzwurf mit einer Erfolgswahrscheinlichkeit q ∈ [0, 1].
2Wenn wie in Aufgabe 9 nur die Zeit bis zum ersten Mißerfolg oder auch bis zum ersten Erfolg
benutzt wird, geht schon gewonnene Information bei der Entscheidungsfindung verloren.
3Vgl. Ein Einblick in den Aufbau und die Themen der Stochastik“, Abschnitte 4 und 5. Dort
”
wird das gleiche statistische Modell verwendet.
4Nach den Überlegungen in Ein Einblick in den Aufbau und die Themen der Stochastik“,
”
Abschnitt 2, (1) - (5), ist die Anzahl der Erfolge binomialverteilt mit den Parametern N und q.
5Vgl. Definition 3.1.B.
6Man könnte einerseits an einer objektiven“ Einschätzung für die den Experimenten zugrunde”
liegende Erfolgswahrscheinlichkeit interessiert sein. Andererseits sind z.B. Situationen vorstellbar,
in denen ein Überschätzen der Erfolgswahrscheinlichkeit weitestgehend vermieden werden sollte.
7Eine präzise“ Aussage ist gleichbedeutend mit einem kleinen“ Konfidenzbereich.
”
”
8In den
folgenden beiden Aufgaben sollen diese unterschiedlichen Zielsetzungen erläutert
werden.
9Da q(1 − q) ≤ 1/4, q ∈ [0, 1].
10
Die Čebyšev’sche Ungleichung ist eine der vielen Ungleichungen, die in der Stochastik verwendet werden. Sie besagt, daß
ˆ
˜
˜
1 ˆ
P |X − E[X]| ≥ ǫ ≤ 2 E (X − E[X])2 , ǫ > 0,
ǫ |
{z
}
= Var(X)
für quadratintegrable Zufallsvariable X, vgl. Abschnitt 5.7. Für den hier betrachteten Spezialfall
wird die Čebyšev’sche Ungleichung auch in Ein Einblick in den Aufbau und die Themen der
”
Stochastik“, Abschnitt 3, erläutert.
1
2
so folgt
Pq [{x ∈ X : C(x) 6∋ q}]
"(
)#
r
r
x
1
1
x
= Pq x ∈ X : q >
+
oder q <
−
N
4N α
N
4N α
)#
"(
r
x
1
= Pq x ∈ X : − q >
N
4N α
"
#
r
Z
1
= Pq − q >
≤ 12 α, q ∈ [0, 1],
N
4N α
d.h., {0, 1, . . . , N } = X ∋ x → C(x) ist ein Konfidenzbereich
veau α 14.
13
zum Irrtumsni-
Bemerkung. Für
p N = 1000 und
p x = 80 ergibt sich das Konfidenzin α = 0.05,
tervall C(80) = (x/N ) − 5/N, (x/N ) + 5/N = [0.01, 0.15]. Um ein besseres,
d.h., kleineres Konfidenzintervall zu erhalten, muß die Verteilung der Statistik Z 15
stärker berücksichtigt werden.
Aufgabe 2 16. Unter Respektierung des Irrtumsniveaus α ist die Erfolgswahrscheinlichkeit q nach oben abzuschätzen 17.
Zur Bestimmung eines Konfidenzintervalls wird jetzt mit den Quantilen 18 der 19
Statistik Z gearbeitet, genauer mit 20
ηeqǫ = inf x ∈ X : Pq [Z ≤ x] 21 ≥ ǫ , ǫ, q ∈ [0, 1].
(5)
Sei zunächst
und dann
22
qo (x) = sup q ∈ [0, 1] : ηeqα ≤ x ,
C(x) = [0, qo (x)],
x ∈ X,
(6)
x ∈ X.
Mit wachsendem q verschiebt sich die Masse“ von Pq stetig und streng monoton
”
”
nach rechts“ 23. Insbesondere sind die Funktionen [0, 1] ∋ q → Pq [{0, 1, . . . , x}] =
11Es sollte C(x) ⊆ [0, 1] sein.
√
12Zum Nachweis dieser Ungleichung setze ǫ = 1/ 4N α in (4).
13Genaugenommen ist hier ein Konfidenzintervall bestimmt worden.
14Der Maximum-Likelihood-Schätzer für q ist x/N , vgl. Ein Einblick in den Aufbau und die
”
Themen der Stochastik“, Abschnitt 5, (15) und insbesondere Fußnote 61. Im vorliegenden Fall ist
daher C(x) symmetrisch bzgl. des Maximum-Likelihood-Schätzers.
15D.h., die Binomialverteilung mit den Parametern N = 1000 und q.
16
Eine ursprünglich fehlerhafte Behandlung dieser Aufgabe wurde nach einem Hinweis von
Herrn Lorenz Milla korrigiert.
17Insbesondere sind jetzt Konfidenzintervalle der Form [0, q ], 0 < q ≤ 1, zu suchen.
o
o
18
Vgl. Abschnitt 2.3.4. Zwischen der Familie der Quantile einer Zufallsvariable X und der
Verteilungsfunktion FX von X besteht eine enge Beziehung.
19
Vgl. Definition 3.1.B. Im folgenden wird benutzt, daß die Statistik Z für jedes q ∈ [0, 1] als
eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (X, G, Pq ) betrachtet werden kann. Z ist
dann binomialverteilt mit den Parametern N und q.
20η
eqǫ ist das kleinste ǫ-Quantil der Zufallsvariablen Z auf dem Wahrscheinlichkeitsraum
(X, G, Pq ), vgl. Bemerkung (iii) in Abschnitt 2.3.4.
21Es gilt P [Z ≤ x] = P [{0, 1, . . . , x}] = Px `N ´q l (1 − q)N−l , vgl. Fußnote 19.
q
q
l=0 l
22
qo (x) ist das größte q ∈ [0, 1], so daß das kleinste α-Quantil der Binomialverteilung mit den
Parametern N und q den Wert x nicht überschreitet.
23Wenn die Erfolgswahrscheinlichkeit q anwächst, treten mehr Erfolge ein.
10. Januar 2008
3
Pq [Z ≤ x], x ∈ {0, 1, . . . , N − 1}, stetig und streng monoton fallend 24. Als Konsequenz ist [0, 1] ∋ q → ηeqα ∈ {0, 1, . . . , N } monoton steigend 25 und linksstetig 26.
Für x ∈ X ist folglich ηeqαo (x) ≤ x und somit
q ∈ C(x)
⇐⇒
q ≤ qo (x)
⇐⇒
ηeqα ≤ x,
q 6∈ C(x)
⇐⇒
q > qo (x)
⇐⇒
ηeqα > x.
bzw.,
Nun gilt
Pq [{x ∈ X : C(x) 6∋ q}] = Pq [{x ∈ X : q > qo (x)}]
=
27
Pq [{x ∈ X : x < ηeqα }]
=Pq [{x ∈ X : x ≤ ηeqα − 1}] <
28
α,
(7)
q ∈ [0, 1].
Daher ist durch {0, 1, . . . , N } = X ∋ x → C(x) = [0, qo (x)] ein Konfidenzintervall
zum Irrtumsniveau α gegeben.
Bemerkung. Für α = 0.05, N = 1000 und x = 80 ergibt sich das Konfidenzintervall C(80) = [0, qo (80)] = [0, 0.096] 29 30
24Vgl. [1], Lemma 4.5. Beachte, daß q → P [{0, 1, . . . , x}] = Px `N ´q l (1 − q)N−l für jedes
q
l=0 l
x ∈ X ein Polynom ist. Natürlich ist Pq [Z ≤ N ] = 1, q ∈ [0, 1].
25Wenn q ansteigt, muß ein größeres x ∈ {0, 1, . . . , N } gewählt werden, damit P [Z ≤ x] =
q
Pq [{0, 1, . . . , x}] den Wert α übersteigt.
26
Da für festes x ∈ {0, 1, . . . , N − 1} die Funktion [0, 1] ∋ q → Pq [Z ≤ x] stetig und streng
monoton fallend ist, nimmt [0, 1] ∋ q → ηeqα ∈ {0, 1, . . . , N } auf Intervallen der Form (q1 , q2 ],
0 ≤ q1 < q2 ≤ 1, konstante Werte an.
In einer ausführlicheren Argumentation sei
ηeqα = x,
(∗)
wobei q ∈ (0, 1] und x ∈ {1, . . . , N }. Außerdem sei qn , n ∈ N, eine Folge in [0, 1) mit q1 <
q2 < · · · < q und limn→∞ qn = q. Als monoton steigende und beschränkte Folge besitzt ηeqαn ,
= x′ < x für ein n′ ∈ N,
n ∈ N, einen Grenzwert. Falls limn→∞ ηeqαn 6= ηeqα = x, folgt ηeqα ′
n +k
ein x′ ∈ {0, 1, . . . , x − 1} und alle k ∈ N und damit insbesondere Pqn′ +k [Z ≤ x′ ] ≥ α, k ∈ N,
vgl. (5). Die Stetigkeit von [0, 1] ∈ p → Pp [Z ≤ x′ ], vgl. Fußnote 24, ergibt nun Pq [Z ≤ x′ ] ≥ α,
d.h., ηeqα ≤ x′ < x, vgl. (5). Der nun vorliegende Widerspruch zu (∗) wird nur vermieden, wenn
limn→∞ ηeqαn = x = ηeqα , d.h., wenn [0, 1] ∈ q → ηeqα ∈ X linksstetig ist.
27Vgl. (7).
28Vgl. (5).
29Die Bestimmung von q kann mit geeigneter Software durchgeführt werden. Beispielsweise
o
kann man in R, einer Programmierumgebung für Datenanalyse und Graphik, das Quantil ηeqα
mit dem Befehl qbinom(α,N,q) berechnen. Für N = 1000, x = 80 und α = 0.05 ergibt sich
insbesondere:
>
>
>
>
>
qbinom(0.05,1000,0.08)
qbinom(0.05,1000,0.09)
qbinom(0.05,1000,0.094)
qbinom(0.05,1000,0.095)
qbinom(0.05,1000,0.096)
66
75
79
80
81
Mit der Wahl qo (80) = 0.096 ist sichergestellt, daß das theoretisch bestimmte Konfidenzintervall in dem numerisch berechneten enthalten ist. Durch ein kleines R-Programm könnte man auf
eine elegantere Weise zu diesem Ergebnis kommen.
In Maple steht mit statevalf[idcdf,binomiald[N ,q]](α) ein Befehl aus dem stats-Paket
zur Verfügung, mit dem sich das im vorliegenden Fall nur wenig von ηeqα unterscheidende ηbqα =
sup{x ∈ X : Pq [{0, 1, . . . , x}] ≤ α} bestimmen läßt.
30
Die Länge 0.096 des hier berechneten Konfidenzintervalls ist kleiner als die Länge 0.14 des
mit Hilfe der Čebyšev’schen Ungleichung bei der Lösung von Aufgabe 1 bestimmten Konfidenzintervalls. Es deutet sich an, daß zur Gewinnung von präzisen Aussagen die Struktur der Wahrscheinlichkeitsmaße Pq , q ∈ [0, 1], beachtet werden muß.
10. Januar 2008
4
Literatur
[1] U. Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik, 7. Auflage. Vieweg,
2003.
10. Januar 2008
Herunterladen