WAHRSCHEINLICHKEITSTHEORIE 1. Elementare Kombinatorik

Werbung
WAHRSCHEINLICHKEITSTHEORIE
1. Elementare Kombinatorik
Wir betrachten die Frage wieviele Möglichkeiten es gibt, aus n unterschiedlichen Objekten k auszuwählen. Dabei müssen wir sowohl unterscheiden ob ein Objekt mehrmals ausgewählt werden kann oder nicht,
als auch ob die Reihenfolge der Wahl dieser Objekte berücksichtigt
wird.
Der einfachste Fall ist die Auswahl von k Objekten aus n mit Wiederholung unter Berücksichtigung der Reihenfolge: Wir haben bei der
Wahl vom ersten bis zum k-ten jeweils n Möglichkeiten, also insgesamt
nk .
Bsp.: Es gibt 265 Möglichkeiten Wörter mit 5 Buchstaben aus einem
Alphabet mit 26 Elementen zu bilden.
Die gleiche Fragestellung ohne Wiederholungen gibt für das erste
Element n Möglichkeiten, für das zweite kommen die verbliebenen n−1
Elemente in Frage für das dritte dann n−2 u.s.w. Es gibt also insgesamt
n(n − 1)(n − 2) · · · (n − k + 1) Möglichkeiten.
Bsp.: Es gibt 70 · 69 · 68 Möglichkeiten für die Top-3 Platzierungen
bei einem Wettbewerb mit 70 Teilnehmern.
Ohne Berücksichtigung der Reihenfolge können wir die Zahl der
Möglichkeiten ohne Wiederholung ohne Reihenfolge aus der Zahl der
Möglichkeiten ohne Wiederholung mit Reihenfolge bestimmen indem
wir überlegen wieviele verschiedene Wahlen mit Berücksichtigung der
Reihenfolge einer Wahl ohne Berücksichtigung der Reihenfolge entsprechen:
Es gibt genau k! Möglichkeiten k Elemente anzuordnen, also entsprechen einer Wahl von k unterschiedlichen Elementen aus n k! mit
Berücksichtigung der Reihenfolge und wir sehen, dass es insgesamt
n(n − 1)(n − 2) · · · (n − k + 1)
n
=
k!
k
Möglichkeiten gibt.
Bsp.: Bei einem Kartenspiel mit 32 Karten bekommt jeder Spieler
5 Karten. Für den ersten Spieler gibt es 32
Möglichkeiten bei der
5
27
Verteilung.
Für
den
zweiten dann 5 u.s.w. Für 4 Spieler ergeben
32 27 22 17
sich 5 5 5 5 mögliche Zuteilungen.
1
2
WAHRSCHEINLICHKEITSTHEORIE
Zur Bestimmung der Möglichkeiten mit Wiederholung ohne Reihenfolge auszuwählen überlegen wir dass man jede Wahl von k Elementen
aus n darstellen kann, indem man die Elemente geordnet aufschreibt,
etwa: 1, 2, . . . , n und dann rechts neben jedem Element mit Strichen die
Zahl wie oft dieses Element ausgewählt wurde beschreibt. So entspricht
etwa
1 | | 2 3 | | | | 4 | 5···n | |
der Wahl 2x1, 0x2, 4x3, 1x4 u.s.w. bis 2xn. Und jeder solchen Wahl
von k Strichen zwischen den Zahlen bzw. rechts der Zahl n entspricht
genau eine Wahl von k Elementen. Eine solche Folge hat n+k Eintragungen mit k nichtunterscheidbaren Strichen und den Zahlen 1 bis n
aufsteigend an den verbleibenden Plätzen. Dabei muss an der ersten
Stelle die 1 stehen, da Striche nur rechts von den Zahlen erlaubt sind.
Es gibt also n+k−1
Möglichkeiten die k Striche zu setzen, die freien
k
n Stellen werden dann mit den Zahlen 1 bis n aufsteigend besetzt und
beschreiben so eine Wahl von k aus n Elementen.
Bsp.:
200 Wähler wählen eine von 5 Personen oder ungültig: Es gibt
205
mögliche Wahlausgänge.
6
Zusammenfassend ergibt sich:
Mögl. k aus n ohne Wiederholung mit Wiederholung
zu wählen
mit Reihenn!/(n − k)!
nk
folge.
n
n+k−1
ohne Reihenk
k
folge.
Man kann so Beziehungen zwischen Binomialkoeffizienten durch kombinatorische Überlegungen herleiten: Für die ungeordnete Wahl ohne
Wiederholung sieht man:
Wahlt man aus n Objekten k, so entspricht dem genau eine Wahl
von n − k nicht ausgewählten Objekten. Es gilt also
n
n
=
.
k
n−k
Man kann die Wahl von k aus n Objekten treffen, indem man entweder
das erste Element wählt und aus den verbliebenen n − 1 Elementen
k − 1 auswählt, oder das erste nicht wählt und aus den verbliebenen k
auswählt. Also gilt:
n−1
n−1
n
=
+
.
k
k−1
k
WAHRSCHEINLICHKEITSTHEORIE
3
Oder man wählt zuerst aus den letzten n − k + 1 Elementen das größte
zu wählende m aus, und wählt dann aus den ersten m − 1 die weiteren
k − 1 Elemente. So erhält man
X
n n−1 X
n
m−1
l
=
=
.
k
k−1
k−1
m=k
l=k−1
2. Zufallsgrößen
Wir bezeichnen für eine endliche oder
P abzählbar unendliche Menge
A eine Funktion p : A 7→ [0, P
1] mit a∈A p(a) = 1 eine Wahrscheinlichkeitsdichte. Mit p(B) =
b∈B p(b) wird für alle Teilmengen B
von A eine Wahrscheinlichkeit definiert. A heißt der Wahrscheinlichkeitsraum. Eine reellwertige Funktion X auf P
einem Wahrscheinlichkeitsraum heißt Zufallsgröße. Wir bezeichnen ω∈A: X(ω)=y p(ω) =
p([X −1 (y)) mit P (X = y). Es gilt für die Komplementärwahrscheinlichkeit
p(B { ) d.h. für die Wahrscheinlichkeit der Menge A \ B wegen
P
{
y∈A p(y) = 1 immer p(B ) = 1 − p(B).
Beispiel:
Gilt für alle l Werte k1 , k2 , . . . , kl einer Zufallsgröße X
p(X = ki ) = 1l , so spricht man von einer gleichverteilten Zufallsgröße.
Die Augenzahl eines Würfels ist demzufolge eine gleichverteilte Zufallsgröße. Allgemeiner ist jede k-elementige Folge mit Werten in der
Menge {1, 2, . . . , 6} ein Ereignis aus dem Raum {1, 2, . . .}k mit Wahrscheinlichkeit 1/6k .
Beispiel:
(6 aus 45). Wie groß ist die Wahrscheinlichkeit dass 6
aus 45 angekreuzte Zahlen bei der Lottoziehung gewählt werden? Mit
Berücksichtigung der Reihenfolge sind 45!/39! gleich wahrscheinliche
Ausgänge möglich. Von diesen stimmen 6! mit den angekreuzten über−1
ein. Die Wahrscheinlichkeit zu gewinnen ist also 6!39!/49! = 45
=
6
−7
1, 23 × 10 .
Beispiel: Bernoulliexperiment Ein Versuch mit zwei möglichen Ausgängen wird wiederholt durchgeführt. Dabei trete das Ereignis jeweils mit Wahrscheinlichkeit p ein. Wie groß ist die Wahrscheinlichkeit,
dass das Ereignis bei n Versuchen genau k mal eintritt? Es gibt nk
Möglichkeiten für die Reihenfolge der Versuchsausgänge wenn k Mal
das Ereignis eintritt. Für jede gegebene Folge von k-maligem Eintritt
des Ereignis und n−k-maligem Nichteintreten ist die Wahrscheinlichket
pk (1 − p)n−k . Die Wahrscheinlichkeit dass das Ereignis genau k mal
4
WAHRSCHEINLICHKEITSTHEORIE
eintritt ist also nk pk (1 − p)n−k . Diese Verteilungsfunktion wird Binomialverteilung genannt. Wegen
n X
n k
p (1 − p)n−k = (p + (1 − p))n = 1
k
k=0
erhält man die Gesamtwahrscheinlichkeit 1 über den binomischen Lehrsatz. Wir bezeichnen die entsprechende Zufallsvariable mit
n k
Bn,p : P (Bn,p = k) =
p (1 − p)n−k .
k
Beispiel: In einem Bernoulliexperiment das unendlich oft durchgefürt
wird bezeichne die Zufallsgröße X die Zahl der Versuche vor dem erstmaligen Auftreten des Ereignisses, also P (X = k) = p(1 − p)k . Diese
Verteilung wird als geometrische Verteilung bezeichnet. Es führt die
Berechnung der Gesamtwahrscheinlichkeit auf die geometrische Reihe:
P (X ∈ N0 ) =
∞
X
p(1 − p)k = p
k=0
1
p
= = 1.
1 − (1 − p)
p
Diese Verteilung beschreibt etwa die Wahrscheinlichkeitsverteilung k
Runden in einem Spiel zu überleben, wenn in jeder Runde das Ausscheiden aus dem Spiel mit der Wahrscheinlichkeit p eintritt. Das erstmalige
Eintreten wird auch als Stopzeit bezeichnet, weil man die Beobachtung nach dem erstmaligen Auftreten einstellt, der Zufallsprozess für
Beobachter die nur am erstmaligen Auftreten interessiert sind damit
beendet ist.
Beispiel: Multinomialverteilung Seien in Verallgemeinerung zur Binomialverteilung m Versuchsausgänge möglich dieP
in jeder Runde mit
Wahrscheinlichkeiten pµ , µ = 1, . . . , m auftreten ( m
µ=1 pµ = 1), so ist
die Wahrscheinlichkeit
P für das kµ -malige Eintreten des µ-ten Ereignisses
bei n Versuchen ( m
µ=1 kµ = n)
n!
Qm
µ=1
m
Y
kµ ! µ=1
pkµµ
wie man analog zur Binomialverteilung herleitet.
3. Erwartungswert und Varianz
Für eine Zufallsgröße X bezeichnet
X
E(X) :=
P (X = y)y,
y
WAHRSCHEINLICHKEITSTHEORIE
5
also der über die Wahrscheinlichkeiten gewichtete Mittelwert der möglichen Versuchsausgänge den Erwartungswert. Er beschreibt die durchschnittlich Größe der Zufallswariablen X. Ein Maß für die gewichtete
mittlere Abweichung eines Versuchsausganges von dem Erwartungswert
ist durch die Varianz
Var(X) :=
X
P (X = y)(y − E(X))2
y
gegeben.
Es gilt:
Var(X) =
X
P (X = y)(y − E(X))2
y
=
X
=
X
=
X
P (X = y)(y 2 − 2y E(X) + E(X)2 )
y
P (X = y)y 2 − 2 E(X)
X
P (X = y)y + E(X)2 )
y
y
P (X = y)y 2 − E(X)2 = E(X 2 ) − E(X)2
y
also
Var(X) = E(X 2 ) − E(X)2
(1)
Wir berechnen Erwartungswert und Varianz der geometrischen Verteilung:
Es gilt mit q := 1 − p, da wir im Inneren des Konvergenzkreises die
Differentiation einer Potenzreihe gliedweise ausführen dürfen:
E(X) = p
∞
X
k=0
k
kq = pq
∞
X
kq
k−1
k=1
∞
∞
X
d k
d X k
= pq
q = pq
q
dq
dq
k=1
k=1
p(1 − p)
1−p
d q
1−q+q
1
=
=
= pq
=
−1
= pq
dq 1 − q
(1 − q)2
p2
p
p
also
E(X) =
1
− 1.
p
(2)
6
WAHRSCHEINLICHKEITSTHEORIE
Mit (1) folgt
2
2
Var(X) = E(X ) − (E(X)) = p
= pq 2
∞
X
k=0
∞
X
k 2 q k − (E(X))2
k=0
∞
X
k(k − 1)q k−2 + p
kq k − (E(X))2
k=0
∞
X
d2 k
= pq 2
q + E(X) − (E(X))2
2
dq
k=0
d2 1
+ E(X) − (E(X))2
2
dq 1 − q
2
1
1
2
−3
= pq 2p + − 1 −
−1
p
p
1−p
2(1 − p)2 + p − p2 − 1 + sp − p2
=
=
2
p
p2
= pq 2
Für den Erwartungswert der Binomialverteilung erhält man wegen
n
n!k
n(n − 1)!k
n−1
k=
=
=n
:
k
k!(n − k)!
k(k − 1)!(n − 1 − (k − 1))!
k−1
n n
X
X
n k
n−1 k
n−k
p (1 − p) k =
n
p (1 − p)n−k
k
k
−
1
k=0
k=1
n−1
X n−1
= np
pl (1 − p)n−1−l = np.
l
l=0
Zur Berechnungder Varianz
der Binomialverteilung bemerken wir,
n
n−1 n
dass für k > 0 k = k−1 k gilt und wegen der Faktoren k für die
WAHRSCHEINLICHKEITSTHEORIE
7
P
P
betrachteten Summen nk=0 = nk=1 gilt. Es folgt
n X
n 2 k
2
E(Bn,p ) =
k p (1 − p)n−k
k
k=0
n
X
n−1
=
nkpk (1 − p)n−k
k
−
1
k=1
n−1 X
n − 1 l+1
=n
lp (1 − p)n−1−l + pl+1 (1 − p)n−1−l
l
l=0
n−1 X
n−2 l
= n(n − 1)p
p (1 − p)n−1−l + np(p + 1 − p)n−1
l
−
1
l=1
n−2 X
n−2 m
2
= n(n − 1)p
p (1 − p)n−2−m + np
m
m=0
= n(n − 1)p2 + np
und mit (1)
2
Var(Bn,p ) = E(Bn,p
) − (E(Bn,p ))2 = n2 p2 − np2 + np − n2 p2 = np(1 − p).
4. Konvergenz gegen Poisson oder Exponentalverteilung
Für sehr kleine p und große n ist die Berechnung der Wahrscheinlichkeit P (Bn,p = k) aber sehr aufwendig. Wir betrachten deshalb den
Grenzwert der Wahrscheinlichkeiten P (Bn,pn = k), wobei die Folge (pn )
so gewählt ist, dass für den Erwartungswert E(Bn,p ) = λ gilt. Der Erwartungswert der Binomialverteilung
ist np, also gilt pn = λ/n.
Bn,p
λ n
−λ
Wir erhalten wegen limn→∞ 1 − n = e :
n−k
k λ
n
λ
lim P (Bn,pn = k) = lim
1−
n→∞
n→∞ k
n
n
n −k
k
n(n − 1) . . . (n − k + 1) λ
λ
λ
λk −λ
= lim
1−
1−
= e .
n→∞
nk
k!
n
n
k!
k
Eine Zufallsgröße X auf N0 mit P (X = k) = λk! e−λ heisst Poissonverteilt. Durch sie wird die Wahrscheinlichkeitsverteilung für das
Auftreten von k Ereignissen bei einer großen Zahl von möglichen gleich wahrscheinlichen Einzelereignissen modelliert.
Der Erwartungswert einer Poissonverteilten Zufallsgröße ist
∞
∞
X
X
λk −λ
λk
−λ
k e =e
= λ.
k!
(k
−
1)!
k=0
k=1
8
WAHRSCHEINLICHKEITSTHEORIE
Wegen
E(X 2 ) = e−λ
∞
X
∞
k2
k=0
Xl+1
λk
= λe−λ
λl = λe−λ eλ + λeλ
k!
l!
l=0
= λ(1 + λ)
erhält man für die Varianz V (X) der Poissonverteilung
V (X) = E(X 2 ) − (E(X))2 = λ.
Beispiele sind die Zahl der Anrufe an einem Tag in einem Callcenter,
die Zahl von Sterbefällen in einem Zeitraum bei einer großen Personengruppe u.s.w.
Auch die Zahl von Defekten eines Gerätes in einem Beobachtungszeitraum kann durch eine Poissonverteilung beschrieben werden, wenn
man annimmt, dass das Gerät keinem Alterungsprozess unterliegt und
die Ausfallmöglichkeit durch eine Vielzahl von voneinander unabhängigen Einzelereignissen (Ausfall eines Transistors in einem Schaltkreis)
gegeben ist.
Hat etwa ein solches Gerät im Mittel einen Störfall alle 6 Jahre,
so kann man etwa die Wahrscheinlichkeit für das Auftreten von k
Störfällen in 2 Jahren wie folgt bestimmen: Die Zahl der Ausfälle in
einem Zeitintervall ist Poissonverteilt (wenn amn annimmt, dass keine
Alterungsprozesse eine Rolle spielen). Der Erwartungswert fr die Zahl
von Störfällen in einem Zeitintervall T ist T /6. In unserem Fall ist
das Zeitintervall 2, also ist die Zahl der Störfälle Poissonverteilt mit
Parameter 2/6 = 1/3. Die Wahrscheinlichkeit für das Auftreten von k
Störfällen ist also 3k1k! e−f rac13 .
Durch eine ähnliche Überlegung kann man die Exponentialverteilung
als Grenzverteilung von geometrischen Verteilungen Xg,p mit Parameter p erklären:
Tritt in einem Beobachtungszeitraum der Länge 1 ein Ereignis (z.B.
radioaktiver Zerfall) mit der Wahrscheinlichkeit p ein, so ist die Wahrscheinlichkeit für das erstmalige Eintreten nach n Zeitintervallen (1 −
p)n . Im Zeitintervall T tritt das Ereignis mit Wahrscheinlichkeit (1 −
pn )nT nicht ein, wenn pn die Wahrscheinlichkeit für das Auftreten des
Ereignisses im Zeitintervall n1 ist.
Der Erwartungswert für die Zahl der Zeitintervalle der Länge n1 ist
nach 2 P1n − 1, also ist der Erwartungswert für die Zeit bis zum Eintritt
des Ereignisses n1 p1n − 1 und die Folge der Erwartungswerte dieser
WAHRSCHEINLICHKEITSTHEORIE
9
Zufallsgrößen konvergiert gegen λ1 , wenn die Folge (npn ) gegen λ konvergiert. Für eine solche Folge (pn ) gilt
nT
λ
nT
= e−λT .
lim (1 − pn ) = lim 1 −
n→∞
n→∞
n
Die Wahrscheinlichkeit für das Auftreten des Ereignisses im Zeitintervall [s, t] ist also e−λs −e−λt . Demzufolge erfüllt
WahrscheinlichkeitsR tdie−λr
−λr
dr = e−λs − e−λt .
dichtefunktion ρ(r) = λe
die Bedingung s λe
Sie ist das kontinuierliche Analogon einer diskreten WahrscheinlichkeitsdichteR auf einer abzählaren Menge. Man
R ∞ erhält für den Erwart∞
ungswert 0 λte−λt dt = λ1 und die Varianz 0 t − λ1 2λe−λt dt = λ1 .
Eine Zufallsgröße auf R+ mit der Wahrscheinlichkeitsdichtefunktion
ρ(r) = λe−λr heisst exponentialverteilt
5. Zentraler Grenzwertsatz und Gesetz der großen
Zahlen
Wir haben den Erwartungswert als den über die Wahrscheinlichkeiten gewichteten Mittelwert der Zufallsgröße definiert. Ist der Ausgang eines Experimentes durch eine Zufallsgröße X beschrieben, die
einen endlichen Erwartungswert E(X) hat, so gilt für die Folge (X̄n ),
die man durch den Mittelwert von n Ausgängen des Experimentes und
beliebiges > 0 das schwache Gesetz der großen Zahlen:
lim P (|Xn − E(X)| > ) = 0.
n→∞
Ist etwa bei einem fairen Spiel (Erwartungswert 0) P (X = 1) =
P (X = −1) = 1/2 (Münzwurf), so sagt das schwache Gesetz der großen
Zahlen, dass mit fortschreitender Spieldauer n die Wahrscheinlichkeit
einen Gewinn oder Verlust zu machen der größer als n ist gegen 0
konvergiert, der mittlere Gewinn wird sich also mit zunehmender Spieldauer mit immer größerer Wahrscheinlichkeit um weniger als vom
Erwartungswert 0 unterscheiden.
Satz 5.1. (Markov’sche Ungleichung) Für eine positive Zufallsgröße
X und a > 0 gilt:
E(X)
.
P (X ≥ a) ≤
a
Beweis. Sei ρ die Wahrscheinlichkeitsdichte der Zufasllgröße X, so gilt
Z ∞
Z ∞
Z ∞
E(X) =
xρ(x) dx ≥
xρ(x) dx ≥ a
ρ(x) dx = aP (X ≥ a).
0
a
a
10
WAHRSCHEINLICHKEITSTHEORIE
Satz 5.2. (Tschebyschew’sche Ungleichung) Für eine Zufallsgröße mit
endlicher Varianz σ 2 und a > 0 gilt:
σ2
P (|X − E(X)| ≥ a) ≤ 2 .
a
Beweis. Es folgt aus der Markov’schen Ungleichung für die Zufallsgröße (X − E(X))2 , die positiv ist und Erwartungswert σ 2 hat:
P (|X − E(X)| ≥ a) = P ((X − E(X))2 ≥ a2 ≤
σ2
.
a2
Aus dem schwachen Gesetz der großen Zahlen folgt nicht unmittelbar, dass mit zunehmender Spieldauer der mittlere Gewinn gegen 0
konvergiert, da man auch für beliebig große n immer wieder große mittlere Abweichungen haben könnte. Man kann aber auf dem Raum der
Folgen von Experimenten eine Wahrscheinlichkeit definieren. Dann gilt
sogar das starke Gesetz der großen Zahlen: P (limn→∞ X̄n = µ) = 1.
Ist darüberhinaus auch die Varianz σ 2√von X endlich, so kann man
zeigen, dass die Folge von Zufallsgrößen ( nX̄n ) gegen eine kontinuierliche Verteilung konvergiert, die nur von der Varianz σ 2 und dem Erwartungswert µ der Zufallsgröße X abhängt und durch die Dichtefunktion
2 !
1
1 t−µ
ρ(t) = √ exp −
2
σ
σ 2π
gegeben ist. Dies ist die Aussage des zentralen Grenzwertsatzes. Die so
erhaltene Wahrscheinlichkeitsverteilung auf R wird Normalverteilung
Nσ,µ genannt.
Mit ihr modelliert man Versuche, deren Ausgang von einer Vielzahl
unabhängiger Faktoren abhängt, wenn die einzelnen Faktoren den Ausgang wenig beeinflussen. Sind etwa eine große Zahl N von Verbrauchern unabhängig voneinander mit einer gewissen Wahrscheinlichkeit p
ein oder ausgeschaltet, so beschreibt die Binomoalverteilung die Wahrscheinlichkeitsverteilung für die Zahl der eingeschaltenen Verbrauchern. Für große N konvergieren die Wahrscheinlichkeiten aber gegen
0, weshalb man eine bessere Vorstellung von der Verteilung gewinnt,
wenn man die (diskrete) Verteilung der Zahl der Verbraucher durch die
(kontinuierliche) Normalverteilung approximiert.
Herunterladen