Kapitel 5 : Etwas Wahrscheinlichkeitstheorie

Werbung
– 89 –
Kapitel 5 : Etwas Wahrscheinlichkeitstheorie
§1 Intuitiver Zugang
(Nach einer Vorlesungsausarbeitung von Prof. Dr. R. Höpfner)
1.1 Man fasse die Natur, die technische Versuchsanordnung, u.s.w. . . .
als „black box“ auf, d.h. als „ Maschine P “
(probability: Wahrscheinlichkeit),
P
X
die auf „Knopfdruck“ j eine „zufällige Zahl“ xj produziert, j = 1, 2, 3, . . .
Dabei werden folgende zwei Regeln befolgt:
i) Für jedes j gehorcht die Zufallsvariable Xj (produzierter Wert: xj)
demselben
Gesetz F :
P(Xj ≤ t) = F(t), für alle t ∈ IR .
F(t) ist die Verteilungsfunktion der Zufallsvariablen Xj, j = 1, 2, 3, . . .
ii) Die Zufallsvariablen Xj, j = 1, 2, 3, . . ., sind unabhängig
voneinander, d.h.
P( X j ≤ t j , X j ≤ t j , . . . , X j ≤ t j ) = F( t j )⋅⋅ F( t j )⋅⋅ . . . ⋅ F( t j )
1
1
2
2
l
l
1
2
l
Verbal bedeutet dies: Das Ergebnis xj aus Knopfdruck j
beeinflußt nicht und wird nicht beeinflußt
vom Ergebnis xj´ aus Knopfdruck j´ für j ≠ j´.
Für Maschine P gilt „auf lange Sicht“,
d.h. für eine große Anzahl
j = 1, 2, 3, . . ., n von Knopfdrücken:
– 90 –
Durch die von der Maschine P produzierten Zufallszahlen
x1, x2, x3, . . ., xn zeigt sich das Gesetz F
1) immer deutlicher für n → ∞
2) nie vollständig, auch nicht für sehr große n < ∞.
(Siehe hierzu auch §4.)
Bemerkung 1.2:
X1, X2, X3, . . . nennt man „eine Folge von iid Zufallsvariablen“.
iid = independent and identically distributed , d.h. diese Zufallsvariablen
sind unabhängig voneinander und haben alle dieselbe Verteilung.
F(t) ist die Verteilungsfunktion der Zufallsvariablen Xj und P ist das
Symbol für „Wahrscheinlichkeit“.
Wir schreiben Xj =d F, falls Xj nach F verteilt ist, und X =d Y,
falls X und Y dieselbe Verteilung haben.
§ 2 Wichtige stetige Verteilungen
Definition 2.1:
Verteilungen mit Dichte sind solche der Art
t
F(t) =
∫ f (x )dx , t ∈ IR ,
−∞
∞
wobei f(x) („Dichte“) eine nichtnegative Funktion mit
∫ f (x )dx
−∞
∞
(da F(∞) =
∫ f (x )dx
−∞
= P(X < ∞) = 1).
= 1 ist,
– 91 –
Insbesondere gilt:
P(a ≤ X ≤ b) = = F(b) – F(a).
Definition 2.2 : Für eine Zufallsvariable X mit Dichte f(x) heißt
a) E(X) : = ∙ (falls das uneigentliche Integral existiert)
Erwartungswert von X .
Man kann ihn als einen Mittelwert von X verstehen.
b) Var(X) = σ 2X : = E((X – E(X))2) = E(X2) – (E(X))2. *)
Varianz von X (falls E(X2) < ∞ und deshalb E(X) existiert),
wobei E(X2) = ∙ .
σX : = σ 2X = Var(X) ist die Standardabweichung von X .
Sie ist ein Maß dafür, wie weit die Werte von X um E(X) streuen.
2.3 Eigenschaften des Erwartungswertes :
X, Y seien reelle Zufallsvariable und a, b ∈ IR . g und h seien reelle
Funktionen auf IR .
(i) X ≡ a ⇒ E(X) = a.
(ii) E(aX + bY) = aE(X) + bE(Y)
– 92 –
(iii) X ≥ 0 ⇒ E(X) ≥ 0
(iv) E(g(X)) = , soweit dieses Integral existiert.
(v) g(x) ≤ h(x) , x ∈ IR , ⇒ E(g(X)) ≤ E(h(X))
Insbesondere: |E(X)| ≤ E(|X|).
(vi) Falls X und Y unabhängig sind und E(X) und E(Y) existieren, dann
gilt : E(XY) = E(X)·E(Y).
*)
E((X – E(X))2) = E(X2) – 2E(X)·E(X) + (E(X))2 = E(X2) – (E(X))2
2.4 Eigenschaften der Varianz :
X, Y seien reelle Zufallsvariable und a, b ∈ IR .
(i) Var(X) = E((X – E(X))2) ⇒ Var(X) ≥ 0.
(ii) Var(X) = 0 ⇔ P(X = a) = 1 für ein geeignetes a (= E(X)) ∈ IR .
(iii) Var(aX) = a2Var(X) ⇒ σaX = |a|σX .
(iv) Var(X + b) = Var(X).
(v) Var(X) = E(X2) – (E(X))2.
(vi) X, Y unabhängig ⇒ Var(X + Y) = Var(X) + Var(Y). **)
**)
Var(X + Y) = E((X+Y)2) – (E(X+Y))2 = E(X2) + 2E(XY) + E(Y2) –
– E(X)2 – 2E(X)·E(Y) – E(Y)2 = Var(X) + Var(Y) +
+ 2E(X)·E(Y) – 2E(X)·E(Y) = Var(X) + Var(Y)
Beispiele 2.5 :
a) U(a, b) : Die Gleichverteilung auf dem Intervall [a, b], a < b.
0
für
x<a
 1
f(x) = 
für a ≤ x ≤ b
b − a
für
x>b
0
0
t−a
F(t) = 
b − a
1
für
t<a
für a ≤ t ≤ b
für
t>b
– 93 –
U(a, b) beschreibt das „zufällige Auswählen eines Punktes x aus [a, b]
ohne jede Präferenz“.
X =d U(a, b) ⇒ E(X) =
b
1
(b − a ) 2
b+a
x
dx
.
=
;
Var(X)
=
b − a a∫
2
12
b) N(0, 1) auf IR : Die Standardnormalverteilung.
=
√
=: , x ∈ IR ,
Zu zeigen ist, daß
=
√
√ = = Φ, t ∈ IR .
= 1, d.h. daß I:
=
= √2 .
– 94 –
Wir zeigen, daß I2 = 2.
2
I =
∙
!
"
=
!.
Das Doppelintegral kann als Volumen eines hutförmigen Körpers über
der x-y- Ebene gedeutet werden. Die Funktion z = "
ist konstant
auf konzentrischen Kreisen mit Radius r = # $ ! um den Ursprung
(0,0), d.h. z =
oder r = #2ln 1/(.. Da der Flächeninhalt dieser
konzentrischen Kreise r2 = 2 )*1/( ist, ergibt sich für das gesuchte
Volumen
I2 = 2 + )*1/( ( = 2.
N(0, 1) beschreibt die „typische Verteilung“ eines kleinen Meßfehlers
um eine zu messende physikalische Größe.
X =d N(0, 1) ⇒ E(X) =
∞
1
2π
∫x e
−∞
2
− x2
dx = 0 ; Var(X) = 1.
– 95 –
c) N(µ, σ2) auf IR : Die Normalverteilung mit Parametern µ und σ2,
2
µ ∈ IR . und σ > 0.
=
√, -.
/
, x ∈ IR .
N(µ, σ2) ist eine „skalierte und verschobene Standardnormalverteilung“ :
X =d N(0,1) ⇒ σX + µ =d N(µ, σ2) ;
Y =d N(µ, σ2) ⇒
Y−µ d
= N(0,1).
σ
Y =d N(µ, σ2) ⇒ E(Y) = µ ; Var(Y) = σ2.
Beispiel : Die Ergebnisse eines IQ – Tests werden „akzeptabel“
beschrieben durch
3
1
4 , … , 47
89, : , ;. ;. .
? ⟹ 9
>
=
7
2A ≔ * ∙ A = 1 E − ? ⟹ : F
1 B
*−1
*−1
0
F=
G
AB heißt unverzerrte (oder erwartungstreue) Stichprobenvarianz. *)
(Gute Schätzwerte: ? = 100 ; AB = 15.)
*) JKB = J L
7
∑7F=F − ? N = : .
S2 = ∑7F=F − ? (verzerrte) Stichprobenvarianz : E(S2) =
7
7
7
:
– 96 –
Bemerkung : (i) X =d N(µ, σ2) ⇒ aX =d N(a·µ, a2·σ2) , a ∈ IR \ {0} .
(ii) X =d N(µ1, : ) und Y =d N(µ2, : ) seien unabhängig . Dann gilt :
Damit erhält man:
X + Y =d N(µ1 + µ2 , : $ : )
(iii) X1, . . . , Xn iid , Xk =d N(µ, σ2), dann gilt :
,
4O = X $ ⋯ $ XR =d N(µ, ) ⇒
7
7
SOT√7
,
d
= N(0,1) .
d) Exp(λ
λ) auf [0, ∞): Die Exponentialverteilung mit Parameter λ,
λ > 0.
0
− λx
λe
f(x) = 
0
− λt
1 − e
x<0
x≥0
t<0
t≥0
F(t) = 
Diese Verteilung beschreibt Wartezeiten zwischen sukzessiven
eintretenden „unvorhersehbaren“ Ereignissen, z.B.
—
Wartezeiten zwischen sukzessiven Anrufen in einer Telefonzentrale
—
Lebensdauern von Glühbirnen
X =d Exp(λ) ⇒ E(X) = U + ∙ VW =
V
; Var(X) =
V
.
– 97 –
Beispiel : Die Zeiten zwischen dem sukzessiven Auswechseln einer
gewissen Sorte von Glühbirnen werden gut beschrieben durch
4 , … , 47
JXU, ;. ;. .
>
=
Es sei ? = 8,5, d.h. eine Glühbirne hat eine mittlere Lebensdauer von
8,5 Monaten. ⇒
1
1
=
= 0,1176 ⟹ U ≈ 0,1176.
8,5
2.6 Bemerkung zur Interpretation der Dichte :
Es sei X =d F mit Dichte f(x). Sei f(x) stetig in x, dann gilt:
V
P(x ≤ X ≤ x + h) =
V W
W]^
^↓+
`a f(x), also
P(x ≤ X ≤ x + h) ≈ h⋅f(x) für kleines h > 0.
Speziell für Exp(λ) gilt :
P(x ≤ X ≤ x + h) ≈ h⋅λ⋅e–λx für kleines h > 0. Daraus ergibt sich, daß
die bedingte Wahrscheinlichkeit für „X ≤ x + h“, gegeben „X ≥ x“ =
P(X ≤ x + h | X ≥ x) =
≈
P (X ≤ x + h und X ≥ x )
P( x ≤ X ≤ x + h )
=
≈
P (X ≥ x )
P( X ≥ x )
h ⋅ λ ⋅ e − λx
e − λx
=
h⋅λ für kleines h > 0.
Für „unvorhersehbare“ Ereignisse muß also gelten, daß die bedingte
Wahrscheinlichkeit für „X ≤ x + h“, gegeben „X ≥ x“ ≈
≈ h ⋅ const. (unabhängig von x !) für kleines h > 0.
Weiter gilt:
=
P(X ≤ x + u | X ≥ x) =
e − λx − e − λ ( x + u )
e − λx
=
(1 − e − λ ( x + u ) ) − (1 − e − λx )
P( x ≤ X ≤ x + u )
=
P( X ≥ x )
e − λx
e − λx ⋅ (1 − e − λu )
= 1 – e–λu = P(X ≤ u)
− λx
e
für alle u ≥ 0.
Man sagt, daß die Exponentialverteilung gedächtnislos ist.
– 98 –
§ 3 Wichtige diskrete Verteilungen
Definition 3.1: Diskrete Verteilungen auf IN = {0, 1, 2, . . . }
0
c4 = d = XF , d ∈ f8+
sind solche der Art
G
b
XF ≥ 0 für alle j und E XF = 1
F=+
F
F(j) = P(X ≤ j) = ∑p=+ Xp für alle j ∈ IN .
0
Insbesondere ist
Definition 3.2: Für eine diskrete Zufallsvariable X mit Werten in IN
0
berechnet sich der Erwartungswert als
E(X) = ∑
F=+ d ∙ XF
(falls diese Reihe konvergiert) .
Var(X) wie in Definition 2.2, wobei hier E(X2) = ∑
F=+ d ∙ XF .
Allgemeiner gilt : g(j) sei eine reelle Funktion auf IN
0
⇒
E(g(X)) = ∑
F=+ d ∙ XF (falls diese Reihe konvergiert) .
3.3 Beispiele :
a) U({1,2,…,n}) : Die Gleichverteilung (Laplaceverteilung) auf der
Menge {1,2,…,n}.
X =d U({1,2, . . ., n}) : X nimmt nur die Werte 1, 2, . . ., n an, und zwar
jeden mit derselben Wahrscheinlichkeit, d.h. pk = P(X = k) =
E(X) = ∑7F= d ∙ XF = ∑7F= d =
7
(Bemerkung: ∑7F= d =
7∙7]
7]
; Var(X) =
; ∑7F= d =
7 .
7∙7]∙7]
q
.)
7
, 1≤ k ≤ n.
– 99 –
Beispiel : Beschreibt X den Ausgang beim (einmaligen) Würfeln, so ist
r
X =d U({1,2, 3, 4, 5, 6}). E(X) = = 3,5. Var(X) =
st
≈ 2,92 ⇒ σX ≈ 1,71.
b) B(1,p) : Die Bernoulliverteilung mit Parameter p, 0 < p < 1.
X =d B(1, p) : X nimmt nur die Werte 1 („Erfolg“) und 0 („Mißerfolg“) an.
P(X = 1) = p und P(X = 0) = 1 – p.
Beispiele:
i)
X = Wurf einer fairen Münze:
1
0
X = 
falls Münze
" Zahl"
" Kopf "
zeigt.
p = ½.
ii) X = Geschlecht eines neugeborenen Kindes:
1
0
X = 
falls Kind ein
Junge
Mädchen
ist.
p = 0,514 .
X =d B(1, p) ⇒ E(X) = 1⋅p = p ; Var(X) = 12⋅p – p2 = p – p2 = p(1 – p).
c) B(n,p) : Die Binomialverteilung mit Parametern n und p,
n ∈ IN , 0 < p < 1.
0
X =d B(n, p) : X nimmt nur Werte j ∈ {0, 1, . . ., n } an.
*
P(X = k) = L d N pj (1 – p)n – j, 0 ≤ j ≤ n .
*
n!
n ⋅ (n − 1) ⋅ . . . ⋅ ( n − j + 1)
n ⋅ ( n − 1) ⋅ . . . ⋅ ( n − j + 1)
Dabei sind L d N =
=
=
j !( n − j)!
j!
1⋅ 2 ⋅ .. . ⋅ j
die Binomialkoeffizienten.
Sie treten bei der Berechnung von (a + b)n auf :
– 100 –
7
*
u $ v = E L d N u F v 7F
7
F=+
2
2
2
z.B : (a + b)2 = a2 + 2ab + b2, d.h. L N = L N = 1 und L N= 2,
0
2
1
und deshalb
P(X = 0) = (1 – p)2 , P(X = 1) = 2 p(1 – p) und P(X = 2) = p2 ,
falls X =d B(2, p).
*
Allgemein kann man L N am Pascalschen Dreieck ablesen.
w
*
*
Es gilt (i) L N = L N = 1
0
*
*
*
*$1
(ii) L
N=L N$L
N,0≤k<n.
w$1
w
w$1
X =d B(n, p) :
X beschreibt die „Anzahl der Erfolge bei
n unabhängigen Versuchen mit fester Erfolgswahrscheinlichkeit p
im Einzelversuch“.
– 101 –
*
X =d B(n, p) ⇒ E(X) = ∑7F= d L d N X F 1 − X7F = n⋅p ;
Var(X) = n⋅p(1 – p) .
Beispiel : X =d B(n, 16 ) beschreibt die Anzahl von „6 – en“ bei
n – maligem Würfeln (mit fairem Würfel).
d) Pn(λ
λ) : Die Poissonverteilung mit Parameter λ, λ > 0.
X =d Pn(λ) : X nimmt nur Werte j ∈ IN an.
0
P(X = j) = V
Vx
F!
, j ∈ IN .
0
Pn(λ) entsteht als Grenzverteilung der B(n, p) – Verteilung, wenn p
verschwindend klein wird und dann n so groß ist, daß n⋅p, die
erwartete Anzahl von Erfolgen, gleich λ ist, d.h.
Pn(λ) ≈ B(n, p) für p sehr klein und
λ = n⋅p.
Pn(λ) beschreibt deshalb das zahlenmäßige Auftreten
X =d Pn(λ) ⇒ E(X) = V ∑
F= d ∙
Var(X) = V ∑
F= dd − 1 ∙
Vx
F!
Vx
F!
= V U ∑
F=+
+ V ∑
F= d ∙
= V U ∑
F=+
Vx
F!
Vx
F!
Vx
F!
seltener Ereignisse.
= λ;
– λ2 =
+ λ – λ2 = λ2 + λ – λ2 = λ.
Wichtiger Fall : Sind Y1, Y2, . . . =d Exp(λ) iid Wartezeiten
zwischen sukzessiv auftretenden „unvorhersehbaren“ Ereignissen, und
Xt = max{m |
Y1 + . . . + Ym
142
4 43
4
≤ t} =
Wartezeit bis zum Eintreten des m − ten Ereignisse s
= „Anzahl der eingetretenen Ereignisse bis zum Zeitpunkt t“,
so ist
Xt =d Pn(λ⋅t).
– 102 –
Beispiel : Die Anzahl der Glühbirnen, die in 10 Monaten ausbrennen,
X10 =d Pn(0,1176⋅10) = Pn(1,176)
wird gut beschrieben durch
(da λ ≈ 0,1176).
§ 4 Wahrscheinlichkeitsgesetze F , Grenzwertsätze
Bemerkung : Für alle Verteilungen gilt:
„Auf lange Sicht“, d.h. in einer nicht endenden Folge von „Knopfdrücken“
j = 1, 2, 3, . . .
zeigen die von der „ Maschine P “ produzierten Zufallszahlen
x1, x2, x3, . . .
das Gesetz F immer deutlicher und im Grenzfall ganz .
Genauer :
—
Man produziere X1, X2, X3, . . . =d F, iid.
—
Für jedes feste n ∈ IN bilde man die
empirische Verteilungsfunktion zu den
ersten n Beobachtungen
x1, . . ., xn:
z7 = ∑7F= 1
,{ F , t ∈ IR .
7
Dabei ist 1
,{ = |
1, u))A ≤ G
.
0, u))A > – 103 –
sup∈‚ ƒ„7 − ƒƒ `††a 0 .
7…
4.1 Satz von Gliwenko – Cantelli :
Der Satz von Gliwenko – Cantelli gehört zum Komplex der Gesetze der
großen Zahlen.
X sei eine Zufallsvariable mit existierenden Erwartungswert E(X) und
Varianz Var(X). Dann gilt die sogenannte
4.2 Tschebyscheffsche Ungleichung :
P( | X – E(X) | ≥ ε ) ≤
Var ( X )
ε2
für jedes ε > 0
(nichttrivial für jedes ε ≥ Var(X) ).
X1, X2, ... seien iid Zufallsvariable, deren Erwartungswert µ = E(Xj)
und Varianz σ2 = Var(Xj) existieren.
– 104 –
X =
n
1
n
⋅ ∑ X j sei der Stichprobenmittelwert. Dann gilt :
j=1
E( X ) = µ und Var( X ) =
σ2
.
n
Die Tschebyscheffsche Ugl. liefert nun unmittelbar das sogenannte
4.3 Schwache Gesetz der großen Zahlen :
n


lim P 1n ⋅ ∑ X j − µ ≥ ε  = 0
 j=1

n →∞




n
da P 1n ⋅ ∑ X j − µ ≥ ε  ≤
j=1


,
7‡ für jedes ε > 0,
`††a 0.
7→
Man sagt auch:
n
X =
1
n
⋅ ∑ X j konvergiert stochastisch gegen µ = E(Xj ) für n → ∞ ,
j=1
n
in Zeichen :
1
n
→ µ .
⋅ ∑ X j n
→∞
P
j=1
4.4 Bemerkungen :
(1) Wirken für den Wert einer Zufallsvariablen X viele kleine
unabhängige Einflüsse additiv zusammen, so ist X näherungsweise
normalverteilt. Hierher gehören Körpergröße, Gewicht, aber auch
Meßfehler und anderes. Eine Präzisierung dieser Aussage ist der
Zentrale Grenzwertsatz .
(2) Viele in der Natur beobachteten Größen sind (dem empirischen
Anschein nach) zumindest näherungsweise normalverteilt (z.B. die
Ergebnisse eines IQ – Tests, s. 2.5).
Wegen (1) und (2) spielt die Normalverteilung in der Statistik eine
besonders wichtige Rolle.
– 105 –
4.5 Der Zentrale Grenzwertsatz für iid Zufallsvariable :
X1, X2, ... seien iid Zufallsvariable mit existierenden µ = E(Xj) und
σ2 = Var(Xj), σ2 > 0.
n
Setze :
Zn =
∑X
X −µ
=
σ/ n
j
− n ⋅µ
j=1
.
σ⋅ n
Dann sind E(Zn) = 0, Var(Zn) = 1 und es gilt :
lim P( Zn ≤ x ) = Φ(x)
für jedes x ∈ IR .
n →∞
Man sagt auch, daß die standardisierte Zufallsvariable Zn des
Stichprobenmittelwerts in der Verteilung gegen N(0, 1) konvergiert ,
d
in Zeichen: Zn n
→ N(0, 1).
→∞
Ein Spezialfall : Für unabhängige Bernoulliverteilte Zufallsvariable
Xi =d Bn(1, p) ist S =
n
∑X
d
j
= Bn(n, p), und es gilt approximativ:
j=1
Zn =
X−p
pq / n
d.h. für jedes x ∈ IR gilt :
=
S− n⋅p
npq
S−n⋅p
P 

Setzt man
x =
k −n⋅p
npq
d
≈ N(0, 1) , q = 1 – p,

≤ x

npq

n
→
→∞
Φ(x) .
, so erhält man daraus für „großes n“ folgende
Approximationen der akkumulierten Binomialwahrscheinlichkeiten :
 k − n⋅p
.

npq


P( S ≤ k ) ≈ Φ 
– 106 –
Wegen pk = P( S = k ) = P( S ≤ k ) – P( S ≤ k – 1 ) kann damit auch
jede Binomialwahrscheinlichkeit pk durch Differenzieren von Werten der
Verteilungsfunktion Φ einer Standardnormalverteilung approximiert
werden.
Insbesondere gilt also :
B(n, p) ≈ N(n⋅p, n⋅p(1 – p)),
falls die Varianz n⋅p(1 – p) „hinreichend groß“ ( ≥ 9) ist.
Pn(λ) ≈ N(λ, λ) für große λ, u.s.w.
4.6 Eine weitere Version des Zentralen Grenzwertsatzes :
X1, X2, X3 , . . . seien unabhängige reelle Zufallsvariable. Es gebe ein
festes M > 0 mit – M ≤ Xj ≤ M für alle j und es gelte
Var(X1) + . . . + Var(Xn) n
→ ∞.
→∞
n
∑ (X
Dann konvergiert die Verteilung von
gegen N(0, 1).
j
− E (X j ))
j=1
Var( X 1 ) + . . . + Var (X n )
für n → ∞
Herunterladen