Stochastik einmal anders

Werbung
Stochastik einmal anders
Ergänzungen und Korrekturen zur 1. Auflage, Stand August 2005
(Hochgestellte Zahlen bedeuten: Zeile von oben, tiefgestellte Zahlen bedeuten: Zeile von unten.)
− 193
statt
− 217 bis 2311
m≤k−1
statt
lies
m≤k
Für p ∈] 0, 1 [. . . bestimmt. lies
Für p ∈] 0, 1 [ gibt es nun zwei Möglichkeiten:
Im ,,Normalfall” gibt es genau ein m mit F (am ) < p < F (am+1 ). Dann ist für
x < am+1 :
r(X ≤ x) ≤ F (am ) < p ,
x = am+1 : F (am ) = r(X < x) < p < r(X ≤ x) = F (am+1 ) ,
am+1 < x :
p < F (am+1 ) ≤ r(X < x) .
Also ist x̃p = am+1 das einzige p-Quantil.
Im ,,Ausnahmefall” gibt es genau ein m mit F (am ) = p < F (am+1 ). Dann ist für
am
x < am :
r(X ≤ x) < F (am ) = p ,
≤ x < am+1 :
r(X < x) ≤ F (am ) = p = r(X ≤ x) ,
x = am+1 : F (am ) = r(X < x) = p < r(X ≤ x) = F (am+1 ) ,
am+1 < x :
p < F (am+1 ) ≤ r(X < x) .
Also ist jedes x̃p ∈ [ am , am+1 ] ein p-Quantil.
Normalfall: Eindeutiges Quantil
Ausnahmefall: Intervall von Quantilen
In 2.8 werden wir Quantile einer stetigen Verteilungsfunktion F betrachten, das sind ganz
einfach die Werte der Umkehrfunktion F −1 . Da die hier betrachteten F unstetige Treppenfunktionen sind, muss man die obige etwas mühsame Ersatzkonstruktion ausführen!
− 278
statt
≤a·x
− 296
statt
c∈R
− 331
statt
x > 0.
− 378
statt
a1 , a2 , . . . , ak
− 379
statt
b1 , b 2 , . . . , b l
− 4411
− 475
statt
statt
lies
lies
lies
≤ a · xn
c ∈ R (dabei bezeichnen a1 , . . . , ak die Ausprägungen)
x > 0 . Für Y = aX mit a > 0 ist offensichtlich VY = VX .
lies
lies
10|6
lies
9|7
x :=
y :=
lies
a1 < a2 < . . . < ak
b1 < b 2 < . . . < b l
x :=
y :=
1
− 477
< x, y > − n xy .
statt
− 4712
statt
− 4914
statt
− 5914,15
F (γ, δ)
, so folgt
statt
statt
Ω
− 7310
statt
≤β
bis
751
lies
mit a, b > 0 , so folgt
lies
wie man die Konvergenz beweisen könnte.
Ω0
lies
lies
statt
< x, y > −n x · y .
F (γ, δ)
welche ... müssten.
− 665,8
− 755
lies
lies
<β
P 0 (a) . . . bestimmt.
lies
PX (a) := P (X = a) ,
so ist dadurch eine Wahrscheinlichkeitsverteilung PX auf Ω0 ⊂ R erklärt. Durch PX ist die
Verteilungsfunktion FX bestimmt und umgekehrt kann man an der Treppenfunktion FX die
Wahrscheinlichkeitsverteilung PX ablesen. Das mag als Rechtfertigung der etwas gewöhnungsbedürftigen Terminologie dienen.
− 777
statt
für i 6= j} ,
Ω2 := {(a1 , . . . , ak ) : 1 ≤ ai ≤ n, ai 6= aj
lies
− 85
Ω2 := {(a1 , . . . , ak ) : ai 6= aj
für
i 6= j} ,
Zusatz ganz unten
Welche Wahrscheinlichkeitsverteilung auf den Ωi angemessen ist, hängt davon ab, in welcher
Weise die Züge ausgeführt werden. Wird vor jedem Zug gründlich gemischt und wird ,,mit verbundenen Augen” gezogen, so ist eine Gleichverteilung angemessen. Insbesondere bedeutet dies,
dass das Ergebnis jedes einzelnen Zuges von den vorhergehenden Ergebnissen ,,unabhängig” angesehen wird. Dieser intuitive Begriff der Unabhängigkeit wird in 2.5 präzisiert.
− 8614
− 893
statt
statt
364 − k + 1
365 − k + 1
lies
Ausgangspunkt...
lies
Wie wir am Ende von Abschnitt 2.2 gesehen hatten, erhält man aus einer Wahrscheinlichkeitsverteilung P auf Ω und einer Zufallsvariablen X : Ω → R eine Wahrscheinlichkeitsverteilung
PX auf X(Ω) ⊂ R mit
PX (a) = P (X = a) .
Dafür geben wir in diesem Abschnitt zwei wichtige Beispiele.
Ausgangspunkt...
− 971
statt
− 981
lies
− 106
Fortsetzung Beispiel 4.
Ein ... Anhang
lies
Das wird im Anhang erläutert.
Ω2 = {(a1 , a2 ) ∈ {1, . . . , 32}2 : a1 6= a2 }.
2
Beispiel 4 (Unabhängigkeit von Zufallsvariablen und Ereignissen)
Zunächst wird eine Münze zweimal hintereinander geworfen, dann ist
Ω = {0, 1}2
und ω = (a1 , a2 ) ∈ Ω .
a) Wir betrachten die Zufallsvariablen
X1 (ω) = a1 , X2 (ω) = a2
und X3 (ω) = (a1 + a2 ) mod 2 ∈ {0, 1} .
Wie man sofort nachrechnet, sind die Paare X1 , X3 und X2 , X3 unabhängig, d.h. die Parität
der Summe ist stochastisch unabhängig vom ersten Wurf und stochastisch unabhängig vom
zweiten Wurf. Das mag verwunderlich klingen, aber die tatsächliche Abhängigkeit vom zufälligen Ergebnis des ersten Wurfes wird durch die Zufälligkeit des zweiten Wurfes ausgeglichen.
Offensichtlich ist X3 abhängig von X1 und X2 gemeinsam. Das sieht man rechnerisch in den
verletzten Produktregeln, z.B.
P (X1 = 0, X2 = 0, X3 = 1) = 0 6=
1
= P (X1 = 0) · P (X2 = 0) · P (X3 = 1) .
8
b)Wir betrachten die Ereignisse
A1 := {ω ∈ Ω : a1 = 0}, A2 = {ω ∈ Ω : a2 = 0} und A3 = {ω ∈ Ω : a1 = a2 } .
Dann ist
1
1
, P (A1 ∩ A2 ∩ A3 ) = .
2
4
Also sind A1 , A2 , A3 nicht unabhängig. Das ist auch intuitiv klar, denn A1 ∩ A2 ⊂ A3 . Dagegen
ist für alle i 6= j
1
P (Ai ∩ Aj ) = = P (Ai ) · P (Aj ) ,
4
also sind alle Paare Ai , Aj unabhängig.
P (A1 ) = P (A2 ) = P (A3 ) =
c) Für das letzte Gegenbeispiel wird zweimal gewürfelt, dann ist
Ω = {1, . . . , 6}2 3 ω = (a1 , a2 ) .
Als tückische Ereignisse wählen wir (vgl.[B-H], p.172)
A1
A2
A3
:= {ω ∈ Ω : 3 teilt a1 + a2 } ,
:= {ω ∈ Ω : 4 teilt a1 + a2 } ,
:= {ω ∈ Ω : 7 teilt a1 + a2 oder a1 + a2 ≥ 10} .
Dann ist
P (A1 ) =
1
1
1
, P (A2 ) = , P (A3 ) =
3
4
3
und P (A1 ∩ A2 ∩ A3 ) =
1
.
36
Also gilt die Produktformel für das Tripel A1 , A2 , A3 . Für alle möglichen Paare Ai , Aj mit i 6= j
ist sie verletzt:
1
36
1
P (A1 ∩ A3 ) =
36
1
P (A2 ∩ A3 ) =
36
P (A1 ∩ A2 ) =
1
= P (A1 ) · P (A2 ) ,
12
1
= P (A1 ) · P (A3 ) ,
9
1
= P (A2 ) · P (A3 ) .
12
6=
6=
6=
3
− 1075−2
− 1071
statt
statt
X n , an
lies
X r , ar
Erläuterungen ... 2.7
lies
Die Unabhängigkeit im Fall von mehr als zwei Beteiligten (also r ≥ 3) ist nicht frei von Tücken.
Wie im Anhang E zu 2.7 erläutert wird, folgt aus der Unabhängigkeit von Zufallsvariablen
X1 , . . . , Xr auch die Unabhängigkeit jedes Teilsystems; d.h. ist
{i1 , . . . , ik } ⊂ {1, . . . , r} ,
2≤k ≤r−1
irgend eine echte Teilmenge, so sind mit
X1 , . . . , Xn
auch Xi1 , . . . , Xik
unabhängig. Beispiel 4 a) zeigt, dass die Umkehrung nicht richtig ist.
Für Ereignisse A1 , . . . , Ar ist die Situation noch komplizierter. Sie heißen unabhängig, wenn für
jede Teilmenge
{i1 , . . . , ik } ⊂ {1, . . . , r} , 2 ≤ k ≤ r
die Produktregel
P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · . . . · P (Aik )
(2.5.10)
gilt. Die Beispiele 4 b) und c) zeigen, dass aus der Produktregel für alle Ai nicht die Produktregeln für Teilsysteme folgen, und dass aus den Produktregeln für alle echten Teilsysteme nicht
die Produktregel für das gesamte System folgt.
Die unterschiedliche Situation bei Zufallsvariablen und Ereignissen kann man sich so klar machen: Bedingung (2.5.9) ist nicht nur eine einzige Gleichung, sondern besteht aus so vielen
Gleichungen, wie es r-Tupel (a1 , . . . , ar ) von Werten der X1 , . . . , Xr gibt. Dagegen ist (2.5.10)
für k = r nur eine einzige Gleichung.
− 10912
− 1167−9
statt
statt
k = 2,
lies
r = 2,
Nach dieser ... verursacht hat.
lies
Das Ziegenproblem hat einige Aufregung verursacht, die Gründe dafür sind vielfältig. Eine
entscheidende Frage betrifft die Freiheiten des Moderators, insbesondere die Einschränkung
a3 6= a2 in Schritt 3. Die obige ganz simple Rechnung ist nur dann gerechtfertigt, wenn die
Regeln strikt eingehalten werden, und wenn die in den Schritten 1 bis 3 getroffenen Auswahlen
rein zufällig, d.h. etwa durch Würfeln, erfolgen (vgl. hierzu auch [Ge, Beispiel 3.5]).
− 1174
statt
... Produktverteilung.
lies
... Produktverteilung.
Im Spezialfall Ωi ⊂ R sind die Projektionen
Xi : Ω → Ωi , (a1 , . . . , ar ) 7→ ai ,
Zufallsvariable. Dann ist die Produktverteilung auf Ω = Ω1 × . . . × Ωr dadurch charakterisiert,
dass die X1 , . . . , Xr unabhängig sind, wie in (2.5.9) definiert.
− 1307−9
statt
1
3
und
1
6
lies
1
4
und
1
4
4
− 1547
statt
0.056
− 1545
statt
6%
− 1592
statt
P (X − µ ≤ cσ)
− 1596
statt
P (σ ≤ X − µ ≤ σ)
− 1671
statt
lies
lies
lies
0.066
7%
P (X − µ ≤ −cσ)
lies
P (−σ ≤ X − µ ≤ σ)
lies
folgenden Eigenschaften:
charakteristischen Eigenschaften für ein Maß :
− 1679−14
statt
Alle beliebigen ... erhalten.
lies
Im Beispiel des Glücksrades ist Ω die ganze Kreislinie, die angemessene Elementarwahrscheinlichkeit ist P (ω) = 0 für jedes ω ∈ Ω. Überabzählbare Summen zur Definition von P (A) sind
sinnlos, überdies wären alle Summanden P (ω) gleich Null. Man kann sogar beweisen, dass es
kein brauchbares Maß P auf der ganzen Potenzmenge P(Ω) geben kann (vgl. [Kr, Anhang zu
§10] für Ω = R oder [Ge, Satz 1.5] für Ω = {0, 1}N ).
− 1705
statt
X(ω) ± 10
− 1721
statt
X(ω + 120)
X(ω ± 10)
lies
X(ω ± 120)
lies
− 18012
statt
Da F (A) ...
− 18111
statt
Mit ... erhält man
− 18113
Einfügung
Da F |A monoton und F (A) ...
lies
lies
Es gilt
Die Berechnung dieser Integrale ist recht einfach, denn
t2
d − t2
(e 2 ) = −te− 2 .
dt
Daraus folgt für alle c > 0
Zc
−c
1
tϕ(t) dt = √
2π
Zc
t2
−1 − t2 c
te− 2 dt = √
e 2 |−c = 0 .
2π
−c
Partielle Integration ergibt
Zc
−c
1
t ϕ(t) dt = √
2π
2
Zc
2
− t2
t · te
−c
t2
1
dt = √
− te− 2 |c−c +
2π
Zc
t2
e− 2 dt ,
−c
also folgt die Behauptung für die Varianz aus
Zc
2
− c2
lim ±ce
c→∞
= 0 und
lim
c→∞
−c
t2
e− 2 dt =
5
√
2π .
− 18915,16,17,20,22
− 1900
statt
Einfügung:
FX,ϑ
∗
FX,ϑ
lies
Man beachte dabei, dass S1 < Xn sein kann!
− 1911 statt
... zu 2.9). Die Werte xj von X und Xj ...
Konstruktion von Pϑ folgt für alle j = 1, . . . , n
lies
... zu 2.9). Aus der
∗
FXj ,ϑ (x) := Pϑ (Xj ≤ x) = FX,ϑ
(x) .
Dafür sagt man, die X1 , . . . , Xn sind identisch wie X verteilt. Die Werte xj von Xj ...
− 19415
13,10,6,1
− 1954
− 19913
statt
statt
statt
x
S2
lies
lies
S2
X
S:Ω→R
S : Ω → R , ω 7→ S(ω) = x ,
lies
− 1996 statt
... jedem x ein Ix ...
Wert x von S ein Ix ...
− 20112−15 statt
kritischen Abstand
lies
jedem möglichen durch den Zufall bestimmten
... daraus folgt ... fest als
lies
daraus erhält man einen minimalen
σ
α := √ .
α
Damit ist folgendes bewiesen:
− 20111
statt
− 2033,4
statt
. . . σ2 ,
lies
σ 2 unabhängig von ϑ,
von Φ ... (3.3.4)
≥ σ · Φ−1 (1 −
α
),
2
von Φ−1 zu
lies
also
α := σ · Φ−1 (1 −
α
).
2
(3.3.4)
− 2033
statt
B
Sicherheit von Stichproben lies
Problematisch in den obigen
Sätzen C und G ist die Vorraussetzung, dass die Varianz σϑ2 von ϑ unabhängig ist. Ersatzweise
kann man eine obere Schranke σ 2 ≥ σ ϑ für alle ϑ verwenden. Ein Beispiel dafür folgt im
nächsten Abschnitt.
B
Schätzung einer Wahrscheinlichkeit
− 2056
statt
Pp
lies
Ep
− 206 Einfügung vor Beispiel 4 Eine bessere Methode die Chancen für das Überschreiten
einer Hürde zu beurteilen, ist ein einseitiger Binomialtest (Beispiel 3 in 4.1).
− 2075
statt
... von Rn gut ...
lies
... von Rn für großes n gut ...
− 2063 bis 2081 statt Nach (3.3.9) ... aller Wähler! lies Da ist mit der hier verwendeten (und wohl auch jeder anderen) Methode keine Vorhersage mehr möglich. Nach (3.3.9)
würde sich für eine Sicherheit von 90% ein Stichprobenumfang von
n≥
Φ−1 (0.95) 1.645 2
=
· 1010 = 4.2 · 108
−5
8 · 10
8
6
ergeben. Das ist weit mehr als die Zahl der Wahlberechtigten, allein die bei einer Binomialverteilung gemachte Annahme ,,mit Zurücklegen” ist hier absurd.
− 2132 und 21611
− 21914
− 220
statt
statt
=
Testing
lies
lies
Tasting
:=
Zusatz am Ende
Beispiel 3 (Absolute Mehrheit und Fünf-Prozent-Hürde)
In Beispiel 3 aus 3.3 war auch die Frage behandelt worden, wie nach dem Ergebnis der Umfrage
unter 500 Personen mit den Stimmenzahlen kA = 273 und kB = 28 die Chancen zu beurteilen
sind, dass Partei A die absolute Mehrheit erhält und Partei B die Fünf-Prozent-Hürde schafft.
Dafür ist ein einseitiger Binomialtest mit p0 = 0.5 für Partei A und p00 = 0.05 für Partei B
geeignet. Mit Hilfe von MAPLE kann man schnell die Werte der Gütefunktionen berechnen,
wir geben einige davon an:
k
g0.5,500 (k)
k
g0.05,500 (k)
264
265
268
269
276
277
0.114
0.097
0.059
0.049
0.011
0.009
27
28
31
32
37
38
0.369
0.296
0.131
0.094
0.012
0.008
Also ist für p0 = 0.5:
und für p00 = 0.05:
k0.1 = 265,
k0.3 = 28,
k0.1 = 32,
k0.05 = 269,
k0.01 = 277
k0.01 = 38
Eine Schranke für die Wahrscheinlichkeit dafür, dass eine Siegesfeier aufgrund dieses
Umfrageergebnisses falsch war, ist also 5% für Partei A und 30% für Partei B. Das bestätigt
den schon in 3.3 bemerkten Effekt der wesentlich größeren Unsicherheit bei kleineren Parteien.
− 2211 statt Die Chance ... akzeptiert zu werden,... lies Die Wahrscheinlichkeit für die
Nullhypothese p ≤ p0 , nach dem Test beibehalten zu werden, ...
− 221
Zusatz am Ende
Der mathematische Aspekt eines Tests ist recht einfach. In den praktischen Anwendungen gibt
es aber meist eine subjektive Hoffnung auf ein bestimmtes Ergebnis, und damit die Versuchung
von Manipulationen. Puristen fordern daher die strikte Einhaltung folgender
Spielregel. Zunächst wird ein angemessenes Signifikanzniveau α festgelegt und dazu der kritische Wert kα bestimmt. Erst danach wird der Test durchgeführt, das Ergebnis muss respektiert
werden.
Die Versuchung ist groß, erst den Test durchzuführen und dann auszuprobieren, mit welchem
α das erhoffte Ergebnis zu erhalten ist. Ein besonders fauler Trick zur Überlistung der obigen
Spielregel besteht darin, zu vorgegebenem α so oft hintereinander Testserien durchzuführen,
bis sich ,,zufällig” einmal das erhoffte Ergebnis einstellt, und die vorhergegangenen Serien zu
unterschlagen. Korrekt wäre es, alle Serien zu einer zusammenzufassen.
7
In den ausgeführten Beispielen können wir nur mögliche Werte und mögliche Ergebnisse angeben.
− 22810
− 2335
statt
... unabhängigen Varianz
statt
− 2377,6
:=
lies
... unabhängigen und bekannten Varianz
=:
T 0 ... mit der ...
statt
lies
lies
T − ϑ0
σ
T 0 :=
mit Eϑ (T 0 ) =
ϑ − ϑ0
.
σ
Man beachte, dass T 0 nur für ϑ = ϑ0 mit der ...
− 2456
nach ... ersetzt.
Neue Formulierung:
Analog zu 4.3 hat man dann den
Satz. Für einen kritischen Wert c > 0 sei die Entscheidungsregel
|T 0 | < c ⇒ H0 ,
|T 0 | ≥ c ⇒ H1 .
(4.4.4)
Dann ist die Wahrscheinlichkeit für einen Fehler 1. Art gleich 2Φ(−c).
Ist eine Schranke 0 < α < 1 für die Wahrscheinlichkeit eines Fehlers 1. Art vorgegeben, so ist
dazu cα := u1− α2 der kleinstmögliche kritische Wert.
− 24910
Einfügung nach
... beschrieben.
Beim einseitigen Test kann man die Schranken verbessern, indem man nach oben offene Konfidenzintervalle Ix = [ x−α , ∞ [ verwendet und die Wahrscheinlichkeiten entsprechend korrigiert.
− 2504
statt
− 2503
streiche
− 2517
statt
n = 4 lies
von n = 4
ϑ∈Θ
− 25111,12
statt
erwartungstreu,
− 252
n=5
lies
ϑ∈Θ⊂R
-X1 , . . . , Xn ... i = 1, . . . , n
lies
-X1 , . . . , Xn sind unabhängig und
Zusatz am Ende
Man beachte, dass die Vervielfachung der Werte zwar die Rechnung vereinfacht, aber mit der
Annahme der Unabhängigkeit schwer zu vereinbaren ist.
− 2534
statt
y
− 2569
statt
des Tests.
lies
der Testgröße.
1, . . . , r .
lies
ω1∗ , . . . , ωr∗ .
− 26310
− 26313,14
statt
lies
lies
t
des ,,Gitters”
G := {ω = (k1 , . . . , kr ) ∈ Nr : k1 + . . . + kr = n} ⊂ Ω := Nr
8
− 2632 statt Die X1 , . . . auf Ω betrachtet,
Zufallsvariable betrachtet,
− 2658−6 statt
dafür ist gleich
lies
... zu machen. ... Grundlage ...
X
lies
Die Xi : Ω → N, ω 7→ ki , werden als
... zu machen. Die Wahrscheinlichkeit
w(k) .
k∈Kc
Um sie zu berechnen, müsste man w(k) für alle Gitterpunkte k ∈ G berechnen, und all die
Werte ≤ c aufsummieren. Noch umständlicher wäre die Bestimmung eines minimalen kritischen
Wertes cα zu vorgegebenem Signifikanzniveau α.
Zum Glück gibt es eine Methode, die mit wesentlich weniger Rechenaufwand auskommt. Grundlage ...
− 2684
statt
− 26814
6.622
statt
− 2706
H5
lies
i−1
statt
− 2716 statt
Gr−1 , d.h. ...
− 273
lies
6.626
G5
lies
i=1
die Dichtefunktion ..., d.h. ... lies
Grafiken komplett
− 2772
statt
nq0
− 2776
statt
P
lies
Pp0
− 2777
statt
P
lies
Pq
− 277
die Verteilungsfunktion von Tr,n gegen
lies
np0
Zusatz am Ende
Schließlich noch einmal ein Warnung: Auch beim χ2 -Test kann man keine Aussage darüber
erhalten, mit welcher Wahrscheinlichkeit die Nullhypothese zutrifft. Im allgemeinen wird sie
gleich Null sein: nobody is perfect!
− 2792
...
− 2845,2,1
statt
... ist stückweise ...
statt
< x, y >
− 2946
statt
sx
− 2995
statt
1≤i≤j≤n
− 2999 − 301
F
σx
lies
lies
lies
... ist als Summe von Betragsfunktionen stückweise
< x, y >
sX
lies
σX
1≤i<j≤n
Neufassung
Gesetze der großen Zahlen
Wie in Abschnitt 2.1 ausgeführt wurde, wäre es naheliegend, die Wahrscheinlichkeit P (A) für
ein Ereignis A ⊂ Ω zu erklären als Grenzwert der relativen Häufigkeiten Rk (A) für das Eintreten
von A in einer Serie der Länge k von unabhängigen Zufallsexperimenten. In der Praxis sieht
9
man, dass die Konvergenz einer Folge Rk (A) meist sehr langsam ist; in der Theorie ist es ohne
den Begriff der Wahrscheinlichkeit nicht möglich, die Voraussetzung der Unabhängigkeit zu
präzisieren und die Konvergenz einer solchen Folge kann nicht bewiesen werden.
Dennoch ist ein Zusammenhang zwischen
einer Folge
Rk (A)
und P (A)
offensichtlich; nach der axiomatischen Einführung der Wahrscheinlichkeit und mit den daraus
gewonnenen Hilfsmitteln kann man ihn nun nachträglich aufklären. Es wird sich zeigen, dass
die Konvergenz außerordentlich wahrscheinlich, aber nicht absolut sicher ist.
Gegeben sei eine endliche Ergebnismenge Ω mit einer Wahrscheinlichkeitsverteilung P und
einem Ereignis A ⊂ Ω, es sei p := P (A). Standardbeispiel ist das Ziehen aus einer Urne mit n
Kugeln, r davon rot, und dem Ereignis ,,rot”. Dann ist
p=
r
.
n
Zieht man mit Zurücklegen k mal hintereinander, so liegt das Ergebnis ω in Ωk , es ist also
ω = (ω1 , . . . , ωk )
mit ωi ∈ Ω .
Allgemeiner kann ω als Ergebnis einer Folge von k Zufallsexperimenten angesehen werden. Dann
ist
1
Rk (A)(ω) := #{i : ωi ∈ A}
k
die relative Häufigkeit, mit der das Ereignis A in der vorliegenden Folge auftritt.
Der Kniff ist nun, Rk (A) als Zufallsvariable anzusehen: Zunächst hat man die Zufallsvariable
1 für ω ∈ A,
X : Ω → {0, 1} , X(ω) =
0 für ω 6= A.
Ihr Erwartungswert ist
E(X) =
X
X(ω)P (ω) =
ω∈Ω
X
P (ω) = P (A) .
ω∈A
Entsprechend hat man auf Ωk Zufallsvariable X1 , . . . , Xk mit
Xi (ω1 , . . . , ωn ) = X(ωi ) ,
d.h. Xi (ω) = 1 genau dann, wenn ωi ∈ A. Die Forderung der Unabhängigkeit der Zufallsexperimente wird dadurch erfüllt, dass Ωk mit der Produktverteilung Pk versehen wird. Entsprechend
(2.6.7) ist
Pk (ω1 , . . . , ωk ) := P (ω1 ) · . . . · P (ωk ) ,
also
Pk (X1 = δ1 , . . . , Xk = δk ) = pl (1 − p)k−l = Pk (X1 = δ1 ) · . . . · Pk (Xk = δk ) ,
wobei δi ∈ {0, 1} und l = δ1 +. . .+δk . Aus X1 , . . . , Xk erhalten wir schließlich die Zufallsvariable
Rk (A) :=
1
(X1 + . . . + Xk ) .
k
Aus E(Xi ) = E(X) für alle i folgt für den Erwartungswert
E(Rk (A)) =
1
(E(X1 ) + . . . + E(Xk )) = E(X) = P (A) = p .
k
10
Anders ist es bei der Varianz: Zunächst ist Var(Xi ) = Var(X) =: σ 2 für alle i. Wegen der
Unabhängigkeit von X1 , . . . , Xn folgt aber nach (2.7.18)
Var Rk (A)
=
Var
=
σ2
.
k
1
1
(X1 + . . . + Xk ) = 2 ( Var(X1 ) + . . . + Var(Xk ))
k
k
Das ist höchst bemerkenswert: Durch die Mittelbildung wird die Streuung kleiner, falls die
Ergebnisse unabhängig sind!
Zufallsvariable sind Funktionen, dafür gibt es verschiedenartige Begriffe von Konvergenz. Wir
betrachten zunächst die Folge Rk (A) und die konstante Zufallsvariable mit dem festen Wert
p = P (A). Am einfachsten ist die punktweise Konvergenz, sie bedeutet
lim Rk (A)(ω) = p
k→∞
für alle ω. Das entspräche der Aussage, dass die relativen Häufigkeiten bei allen möglichen
Folgen von Ergebnissen der Zufallsexperimente gegen P (A) konvergieren. Zu schön um wahr zu
sein! Aus diesem Dilemma sind schwächere Konvergenzbegriffe für Zufallsvariable entstanden.
Die folgende Überlegung führt zu einer ,,stochastischen Konvergenz”.
Wendet man die Ungleichung von Chebyshev auf Rk (A) an, so folgt für jedes relle > 0
Pk (ω ∈ Ωk : |Rk (A)(ω) − p | ≥ ) =: Pk (|Rk (A) − p | ≥ ) ≤
σ2
,
k2
also
σ2
.
k2
Pk (|Rk (A) − p | < ) ≥ 1 −
(?)
Zusammengefasst erhält man damit ein sogenanntes
Schwaches Gesetz der großen Zahlen. Sei Ω mit der Wahrscheinlichkeitsverteilung P , dem
Ereignis A ⊂ Ω und der Zufallsvariablen X wie oben mit E(X) = P (A) und Var(X) = σ 2
gegeben. Weiter seien X1 , . . . , Xk auf Ωk mit der Produktverteilung Pk die oben eingeführten
unabhängigen Zufallsvariablen mit E(Xi ) = P (A) und Var(Xi ) = σ 2 für i = 1, . . . , k. Dann
gilt für jedes > 0
lim Pk (|Rk (A) − P (A) | < ) = 1 .
k→∞
Anders ausgedrückt: Die Wahrscheinlichkeit dafür, dass die relative Häufigkeit Rk (A)(ω) für alle
möglichen Ergebnisse ω von Experimentfolgen der Länge k von der Wahrscheinlichkeit P (A)
einen beliebig kleinen vorgegebenen Abstand unterschreitet, geht mit größer werdendem k
gegen 1.
Im Spezialfall einer Bernoulli-Kette der Länge k (Anhang A zu 2.8) ist
E(Rk (A)) = p
und
Var(Rk (A)) =
1
p(1 − p)
≤
,
k
4k
also wird die obige Abschätzung (?) zu
Pk (|Rk (A) − p | < ) ≥ 1 −
1
.
4k2
11
(??)
Eine Aussage dieser Art hatte J. Bernoulli schon um 1690 gefunden, natürlich ohne all die
hier verwendeten und erst im vergangenen Jahrhundert entwickelten Techniken zur Verfügung
gehabt zu haben.
Dieses ,,schwache Gesetz” ist zwar einfach zu beweisen, aber die Aussage ist weit schwächer
als das, was man erwartet: Man möchte doch wissen, für ,,wie viele” unter allen möglichen
unendlichen Folgen von Zufallsexperimenten die relativen Häufigkeiten gegen die Wahrscheinlichkeit konvergieren. Zur Beantwortung dieser Frage durch ein ,,starkes Gesetz” kommt man
nicht mehr mit endlichen Ergebnismengen aus. Daher geben wir nur einen Ausblick in diese
Richtung, zusammen mit dem Hinweis auf Abschnitt 2.9.
Technisches Hilfsmittel sind Konvergenzbegriffe für Zufallsvariable, diese müssen alle auf der
gleichen Ergebnismenge erklärt sein. Für die auf Ωk erklärten Rk (A) von oben erreicht man das
durch Einführung des unendlichen Produkts
Ω∗ = Ω × Ω × . . . .
Die Elemente ω ∈ Ω∗ sind Folgen ω = (ω1 , ω2 , . . .) mit ωi ∈ Ω. Bei der Einführung einer
angemessenen Wahrscheinlichkeitsverteilung P∗ auf Ω∗ hat man zu bedenken, dass Ω∗ nicht
mehr abzählbar ist, wenn Ω mehr als ein Element enthält ( man verwende das Zweite Cantorsche
Diagonalverfahren). Entsprechend 2.9 (und Anhang A dazu) muss man daher eine Familie
F ⊂ P(Ω∗ ) und eine dadurch erzeugte σ-Algebra A(F) angeben, auf der P∗ erklärt wird (vgl.
[Ge, 3.4]).
Wir wählen dazu eine Zahl n ≥ 1 mit Teilmengen A1 , . . . , An ⊂ Ω und betrachten
A∗ (A1 , . . . , An ) := {ω = (ω1 , ω2 , . . .) ∈ Ω∗ : ω1 ∈ A1 , . . . , ωn ∈ An } ⊂ Ω∗ .
Die ersten n Terme ωi sind also eingeschränkt, die restlichen ωi sind beliebig. Dann ist F ⊂
P(Ω∗ ) erklärt als die Familie all solcher A∗ (A1 , . . . , An ) mit beliebigem n und beliebigen A1 , . . . , An .
Die Familie F ist Durchschnitt-stabil, denn
A∗ (A1 , . . . , An ) ∩ A∗ (B1 , . . . , Bm ) = A∗ (A1 ∩ B1 , . . . , Am ∩ Bm , Am+1 , . . . , An ) ,
falls m ≤ n. Die angemessene Wahrscheinlichkeit auf F ist
P∗ (A∗ (A1 , . . . , An )) := P (A1 ) · . . . · P (An ) ,
da die ersten n Ergebnisse unabhängig und die weiteren Ergebnisse irrelevant sind. Aus der
Maßtheorie (vgl. z. B. [El, II 5, 2.]) weiß man, dass sich dieses P∗ von F eindeutig auf A(F)
fortsetzen lässt. Man nennt diese Wahrscheinlichkeitsverteilung P∗ auf Ω∗ eine Produktverteilung. Im Gegensatz zu (2.6.7) hat man hier unendlich viele Faktoren. Man beachte, dass im
Allgemeinen
P∗ (ω) = P∗ (ω1 , ω2 , . . .) = 0 ,
d.h. die Wahrscheinlichkeit dafür, dass die ganze unendliche Folge vorgegebene Werte annimmt,
ist gleich Null.
Im einfachsten Spezialfall Ω = {0, 1} und P (1) = p ist für a1 , . . . , an ∈ Ω und k = a1 + . . . + an
P∗ (A∗ (a1 , . . . , an )) = pk (1 − p)n−k ,
wobei A∗ (a1 , . . . , an ) = {ω ∈ Ω∗ : ω1 = a1 , . . . , ωn = an } ∈ F. Nicht einmal hier kann man die
σ-Algebra A(F) ⊂ P(Ω∗ ) explizit angeben. Man bedenke dabei, dass Ω∗ gleichmächtig mit R
ist!
12
Sind auf diesem (oder irgend einem anderen) Ω∗ Zufallsvariable Y1 , Y2 , . . . , Yk , . . . und Y gegeben, so heißt eine Folge (Yk ) stochastisch konvergent gegen Y , wenn für jedes > 0
lim P∗ (| Yk − Y | < ) = 1 .
k→∞
Im Allgemeinen folgt daraus für kein einziges ω ∈ Ω∗ die Konvergenz der Folge (Yk (ω)) gegen
Y (ω) (siehe [Kr, 12.1]).
In dieser Terminologie besagt das schwache Gesetz der großen Zahlen die stochastische Konvergenz der Folge Rk (A) gegen die Konstante P (A).
Man nennt eine Folge (Yk ) von Zufallsvariablen auf Ω∗ punktweise fast sicher konvergent gegen
Y , wenn
P∗ ({ω ∈ Ω∗ : lim Yk (ω) = Y (ω)}) = 1 .
k→∞
Bemerkung. Aus punktweiser fast sicherer Konvergenz folgt stochastische Konvergenz.
Beweis. Bezeichnet
C := {ω ∈ Ω∗ : lim Yk (ω) = Y (ω)} ,
k→∞
so ist P (C) = 1. Für > 0 und n ≥ 1 sei
Bn := {ω ∈ Ω∗ : | Yk (ω) − Y (ω) | < Dann ist Bn ⊂ Bn+1 und
C ⊂ B :=
∞
[
für alle
k ≥ n} .
B n ⊂ Ω∗ .
n=1
Aus P∗ (C) = 1 folgt P∗ (B) = 1 und daraus lim P∗ (Bn ) = 1 (siehe Anhang B zu 2.9).
n→∞
In [Kr, 12.1] wird ein Beispiel einer stochastisch aber nicht punktweise fast sicher konvergenten
Folge angegeben.
Mit den nun bereitstehenden Hilfsmitteln können wir die oben im schwachen Gesetz der großen
Zahlen bewiesene Aussage verschärfen:
Starkes Gesetz der großen Zahlen. In der Ergebnismenge Ω mit der Wahrscheinlichkeitsverteilung P sei ein Ereignis A ⊂ Ω mit p := P (A) gegeben. Jede unendliche Folge von unabhängigen Zufallsexperimenten liefert ein Ergebnis
ω = (ω1 , ω2 , . . .) ∈ Ω∗ .
Ist Ω∗ mit der Produktverteilung P∗ versehen, so sind je endlich viele der Zufallsvariablen
Xi : Ω∗ → {0, 1}
mit
Xi (ω) = 1 ⇔ ωi ∈ A
unabhängig, es ist E(Xi ) = p für alle i. Weiter sei
Rk (A) :=
1
(X1 + . . . + Xk ) : Ω∗ → R
k
die Zufallsvariable, mit der die relative Häufigkeit des Ereignisses A nach k Experimenten angegeben wird; es ist
E(Rk (A)) = p .
13
Die wesentliche Aussage ist nun: Die Folge Rk (A) von Zufallsvariablen auf Ω∗ ist punktweise
fast sicher konvergent gegen die Konstante p = P (A), d.h.
P∗ ({ω ∈ Ω∗ : lim Rk (A)(ω) = p } = 1 ,
k→∞
oder abgekürzt
P∗ ( lim Rk (A) = p ) = 1 .
k→∞
Anders ausgedrückt: Die Wahrscheinlichkeit dafür, dass für eine Folge ω von Ergebnissen die
Folge Rk (A)(ω) von relativen Häufigkeiten nicht gegen p = P (A) konvergiert, ist gleich Null.
Es ist nicht auszuschließen, dass es passieren könnte, aber dazu muss der Teufel seine Hände
im Spiel haben.
Dies ist nur ein auf unsere Fragestellung zugeschnittener Spezialfall von allgemeineren ,,starken”
Gesetzen. Die Formulierungen und Beweise findet man etwa bei [Kr, §12]. Im Gegensatz zum
schwachen Gesetz wurden diese Ergebnisse erst im vergangenen Jahrhundert erhalten, unter
anderen von Borel, Hausdorff und Kolmogoroff.
Zum Schluss noch ein
Fazit. Das schwache Gesetz der großen Zahlen ist einfach zu begründen und für die Praxis ausreichend, da immer nur endlich viele Experimente ausführbar sind. Es gibt eine gute Sicherheit
dafür, dass sich Rk (A) mit wachsendem k beliebig wenig von P (A) unterscheidet. Die genaue
Formulierung ist elementar, aber etwas mühsam.
Das starke Gesetz der großen Zahlen (in dem hier formulierten Spezialfall) gibt eine perfekte
Antwort auf die grundlegende Frage, mit welchem Vorbehalt man die Wahrscheinlichkeit als
Grenzwert relativer Häufigkeiten ansehen kann. Schon für die Formulierung und noch mehr den
Beweis sind fortgeschrittene Techniken der Wahrscheinlichkeitstheorie nötig.
− 31217
statt
Wir geben ...
lies
Neben dieser Definition von A(F) ,,von oben” gibt es auch eine Definition ,,von unten” ausgehend von F. Dazu benötigt man allerdings eine transfinite Induktion (vgl. etwa [El, Kap.I,
§4,1]).
Wir geben ...
− 3145
statt
− 31510−16
X + . . . X 2.
statt
lies
aX + b
Ist X stetig ... dy.
oder
X 2.
lies
Ist X stetig verteilt mit Dichtefunktion f , so kann man die Dichtefunktion g von Y = ϕ ◦ X
berechnen, falls ϕ stetig differenzierbar ist und ϕ0 entweder überall positiv oder überall negativ
ist. In diesem Fall ist ϕ bijektiv und durch
g(y) =
f (ϕ−1 (y))
| ϕ0 (ϕ−1 (y)) |
ist die Transformation der Dichten gegeben. Im Fall ϕ0 > 0 hat man nämlich mit βi := ϕ(αi )
P (β1 ≤ Y ≤ β2 )
= P (α1 ≤ X ≤ α2 )
Zα2
Zβ2
=
f (x) dx = g(y) dy
α1
14
β1
nach der Transformationsformel für Integrale. Im Fall ϕ0 < 0 muss man Vorzeichen anpassen.
− 321
Einfügung vor Anhang zu 4.6 ...
Anhang zu 3.1
Punktschätzungen
Beweis des Satzes über die Schätzungen von Erwartungswert und Varianz
Zunächst wird festgehalten, dass aus der Voraussetzung der identischen Verteilung
Eϑ (Xj ) = Eϑ (X) = µϑ
Varϑ (Xj ) = Varϑ (X) = σϑ2
und
für alle j und ϑ folgt.
Die Beweise von (3.1.5) und (3.1.8) benötigen die Unabhängigkeit von X1 , . . . , Xn nicht, es
genügen (2.7.3) und (2.7.6):
n
Eϑ (X̄) =
Eϑ
n
1X Xj
n j=1
=
1X
Eϑ (Xj ) = µϑ ,
n j=1
=
1X
Varϑ (Xj ) = σϑ2 .
n j=1
n
Eϑ (S2∗ ) =
1X
Eϑ ((Xj − µ)2 )
n j=1
n
Für (3.1.7) benötigt man (2.7.7) und (2.7.18):
n
n
n
X
1X
1
1 X
1
Varϑ (X̄) = Varϑ (
Xj ) = 2 Varϑ
Xj = 2
Varϑ (Xj ) = σϑ2 .
n j=1
n
n
n
j=1
j=1
Der Beweis von (3.1.6) erfordert etwas mehr Rechnung. Zur Vereinfachung der Schreibweise
lassen wir dabei den Index ϑ von E, Var, µ und σ 2 weg.
Zunächst einige vorbereitende Rechnungen. Nach (2.7.6) ist
E(Xj2 ) = µ2 + σ 2
für j = 1, . . . , n .
Da X1 , . . . , Xn unabhängig sind, ist nach (2.7.15)
E(Xi · Xj ) = E(Xi ) · E(Xj ) = µ2
15
für i 6= j .
Daraus folgt
E(Xj X̄)
=
1
(E(Xj X1 ) + . . . + E(Xj2 ) + . . . + E(Xj Xn ))
n
=
n−1 2 1 2
· µ + (µ + σ 2 )
n
n
= µ2 +
E(X̄ 2 )
σ2
,
n
=
1
E((X1 + . . . + Xn )2 )
n2
=
1
n2
=
X
n
E(Xj2 )
+
j=1
X
E(Xi ) · E(Xj )
i6=j
1
(n(µ2 + σ 2 ) + (n2 − n)µ2 )
n2
= µ2 +
σ2
.
n
Unter Verwendung dieser Zwischenergebnisse erhält man
E((Xj − X̄)2 )
= E(Xj2 ) − 2E(Xj X̄) + E(X̄ 2 )
= µ2 + σ 2 − µ2 −
=
σ2
n
n−1 2
·σ .
n
Daraus ergibt sich schließlich
n
E(S2 ) =
1 X
n−1 2
n
E((Xi − X̄)2 ) =
·
· σ = σ2 ,
n − 1 i=1
n−1
n
also ist S2 erwartungstreu.
Warum bei S2∗ durch n und bei S2 nur durch n − 1 dividiert wird, kann man nach den obigen
Rechnungen so verstehen: Es ist
E((Xj − µ)2 ) = σ 2 = Var(X),
E((Xj − X̄)2 ) = σ 2 −
aber
σ2
= Var(X) − Var(X̄) .
n
Die Summanden in S2 haben also die Tendenz, um Var(X̄) kleiner auszufallen, als die in S2∗ .
Für größere n wird diese Korrektur natürlich unerheblich, für n = 2 ist sie extrem.
− 3214
Z∞
lies
t2
e− 2 dt
−∞
16
− 32112
− 323
lies
... e−t dt.
Ergänzungen
[Ba] Bauer, Heinz: Measure and Integration Theory. deGruyter 2001
[B-H] Büchter, Andreas und Henn, Hans-Wolfgang: Elementare Stochastik. Springer 2005
[El] Elstrodt, Jürgen: Maß-und Integrationstheorie. Springer 1996
[Ge] Georgii, Hans-Otto: Stochastik. deGruyter 2002
17
Herunterladen