3. Kombinatorik und Wahrscheinlichkeit

Werbung
3. Kombinatorik und Wahrscheinlichkeit
Es geht hier um die Bestimmung der Kardinalität endlicher Mengen.
Erinnerung: Seien A, B, A1 , . . . , An endliche Mengen. Dann gilt
• |A| = |B| ⇐⇒ ∃ϕ : A −→ B bijektiv
• Summenregel: |A1 ∪ . . . ∪ An | = |A1 | + · · · + |An |, falls A1 , . . . , An paarweise
disjunkt sind
• Produktregel: |A1 × . . . × An | = |A1 | · · · |An |
• Potenzregel: |AB | = |A||B|
• Potenzmenge: |2A | = 2|A|
1
3.1 Permutationen und Binomialkoeffizienten
Definition. Sei M eine endliche Menge.
Eine bijektive Abbildung ϕ : M −→ M heißt eine Permutation von M . Wir
bezeichnen die Menge der Permutationen von M mit Perm(M).
Bemerkung. Perm(M ) ist bezüglich der Komposition von Abbildungen eine
Gruppe. Die Gruppenoperation ist also
Perm(M ) × Perm(M ) → Perm(M ),
(ϕ, ψ) 7→ ϕ ◦ ψ
Das Neutralelement ist die Identität idM auf M . Die Inverse von ϕ ∈ Perm(M ) ist
die zu ϕ inverse Abbildung.
2
Definition. (Fakultät) Die Fakultätsfunktion ist rekursiv definiert durch 0! = 1 und
n! = n · (n − 1)!
für n ∈ N, n > 0.
Satz. Sei M eine endliche Menge mit |M | = n. Dann
|Perm(M )| = n!.
3
Definition. Seien k, n ∈ N. Sei M eine Menge mit |M | = n.
Die Kardinalität von
M
: = {X ∈ 2M : |X| = k}
k
n
heißt Binomialkoeffizient und wird mit k bezeichnet.
Bemerkung.
n
• k ist also die Anzahl k-elementiger Teilmengen von M .
n
• Offensichtlich ist k unabhängig von der Wahl von M .
n
• k = 0 für k > n
n
n
• 0 = 1, n = 1
4
n
Proposition. Für n ∈ N gilt 2 =
Pn
n
k=0 k
.
Proposition. (Symmetrie) Für k, n ∈ N mit 0 ≤ k ≤ n gilt:
n
n
=
.
k
n−k
5
Satz. (Rekursionsformel) Für k, n ∈ N, k, n ≥ 1, gilt
n
n−1
n−1
=
+
.
k
k−1
k
Aus der Rekursionsformel folgt die rekursive Berechnung von
Binomialkoeffizienten mit dem Pascalschen Dreieck.
6
Satz. Für k, n ∈ N, 0 ≤ k ≤ n, gilt
n
n!
=
k
k!(n − k)!
Folgerung.
n
n · (n − 1) · (n − 2) · · · (n − k + 1)
=
1 · 2 · 3···k
k
Beispiel.
6
6·5·4·3
=
= 15.
4
1·2·3·4
7
Satz. (Binomischer Lehrsatz)
Sei R ein kommutativer Ring, x, y ∈ R, n ∈ N. Dann gilt
(x + y)n =
n X
n
k=0
8
k
xk y n−k .
Folgerung. R = Z
n
n
(1) 2 = (1 + 1) =
Pn
n
k=0 k
.
Wissen wir schon!
(2) Für n ≥ 1 gilt
0 = (1 − 1)n =
n
X
k=0
9
n
(−1)k
.
k
3.2 Endliche Wahrscheinlichkeitsräume
Entwickeln ein mathematisches Modell zur Beschreibung und Analyse von
zufälligen Experimenten. Zuerst Motivation der Begriffe.
Bsp: Die möglichen Augenzahlen beim Würfeln sind beschrieben durch ein
Element ω der Menge Ω : = {1, 2, 3, 4, 5, 6}.
Nennen Ω Ergebnisraum
ω bzw. {ω} heißt Elementarereignis
Unter einem Ereignis verstehen eine Teilmenge A ⊆ Ω.
Z.B. beschreibt A = {2, 4, 6} das Ereignis “gerade Augenzahl”.
10
Angenommen, wir wiederholen ein Experiment n mal unabhängig.
Sei nA die Anzahl Experimente, bei denen das Ereignis A ⊆ Ω eingetreten ist
(absolute Häufigkeit).
relative Häufigkeit
nA
n
Intuitive Vorstellung: für großes n kommt
sogenannte “Wahrscheinlichkeit” von A.
Z.B. bei einem “fairen Würfel” ist pA =
nA
n
3
6
=
nahe an eine Zahl pA ∈ [0, 1], die
1
2
Feststellung. Für A, A1 , A2 ⊆ Ω gilt:
(1) 0 ≤
nA
n
(2)
n∅
n
(3)
nA1 ∪A2
n
≤1
= 0,
=
nΩ
n
=1
n A1
n
+
n A2
n
, falls A1 ∩ A2 = ∅.
11
für A = {2, 4, 6}.
Definition. Sei Ω eine endliche Menge. Eine Abbildung Pr : 2Ω −→ [0, 1] heißt
Wahrscheinlichkeitsmaß, falls Pr(∅) = 0, Pr(Ω) = 1 und
Pr(A ∪ B) = Pr(A) + Pr(B)
für disjunkte A, B ⊆ Ω.
Man nennt das Paar (Ω, Pr) einen (endlichen) Wahrscheinlichkeitsraum.
12
Bemerkung. Sei (Ω, Pr) ein Wahrscheinlichkeitsraum.
• Es gilt Pr(A1 ∪ A2 ∪ . . . ∪ An ) = Pr(A1 ) + Pr(A2 ) + . . . + Pr(An ) für
paarweise disjunkte A1 , . . . , An ⊆ Ω. (Beweis mit Induktion.)
P
• Die Funktion Ω −→ [0, 1], ω 7→ Pr(ω) := Pr({ω}) erfüllt ω∈Ω Pr(ω) = 1.
Solche Funktionen heißen Wahrscheinlichkeitsverteilungen auf Ω.
13
Bemerkung. Sei p : Ω −→ [0, 1] eine Wahrscheinlichkeitsverteilung, d.h.
P
ω∈Ω p(ω) = 1. Dann definiert
X
Ω
Pr : 2 −→ [0, 1], Pr(A) : =
p(ω)
ω∈A
ein Wahrscheinlichkeitsmaß.
Fazit: Wahrscheinlichkeitsmaße und Wahrscheinlichkeitsverteilungen sind
äquivalente Konzepte.
Im folgenden schreiben dafür kurz W-Verteilung bzw. W-Maß.
14
Proposition. Sei (Ω, Pr) ein Wahrscheinlichkeitsraum, A, B ⊆ Ω Ereignisse. Dann
gilt
• A ⊆ B =⇒ Pr(A) ≤ Pr(B)
• Pr(Ω \ A) = 1 − Pr(A)
• Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B)
Der Beweis ist trivial.
15
Beispiel. Die uniforme Verteilung (oder Gleichverteilung) auf Ω ist gegeben durch
Pr(A) = |A|
|Ω| .
Man spricht dann auch vom “Laplace-Modell”.
In diesem Modell reduziert sich die Berechnung von Pr(A) auf die Bestimmung der
Kardinalität von A.
Beispiel. (Lotto) Gegeben sei eine Menge von 49 Kugeln, nummeriert von 1 bis 49.
Ziehe daraus 6 Kugeln (ohne Zurücklegen). Die Reihenfolge der gezogenen Kugeln
sei egal.
Ω=
{1,2,...,49}
6
.
Jedes Elementarereignis ω ∈ Ω tritt auf mit Wahrscheinlichkeit
1
Pr(ω) = 49
≈ 7 · 10−8 , falls Gleichverteilung angenommen wird.
(6)
16
Beispiel. Was ist wahrscheinlicher,
bei vier Würfen mit einem Würfel mindestens eine Sechs zu werfen oder
bei 24 Würfen mit zwei Würfeln eine Doppelsechs?
17
Beispiel. (Binomialverteilung)
Ω = {0, 1}n , 0 ≤ p ≤ 1.
Für ω = (ω1 , . . . , ωn ) ∈ Ω bezeichne
|ω| : = |{i : ωi = 1}|
die Anzahl der Einsen in ω.
Behauptung.
Pr : Ω −→ [0, 1],
Pr(w) = p|ω| (1 − p)n−|ω|
definiert eine W-Verteilung, die sog. Binomialverteilung zum Parameter p.
Beachte:
n k
Pr{ω ∈ Ω : |ω| = k} =
p (1 − p)n−k
k
18
Beispiel. Andreas und Berta gehen zum Abendessen. Um zu entscheiden, wer
bezahlen soll, werfen sie dreimal eine faire Münze. Falls öfters Zahl (Z) als Kopf
(K) herauskommt, bezahlt Andreas, andernfalls Berta.
1. Wie sind die Chancen?
2. Nach erstmaligem Wurf der Münze kommt Zahl heraus. Wie sind jetzt die
Chancen?
19
Definition. (Bedingte Wahrscheinlichkeit)
Sei (Ω, Pr) ein W-Raum und B ⊆ Ω ein Ereignis mit Pr(B) > 0.
Für A ⊆ Ω heißt
Pr(A|B) : =
Pr(A ∩ B)
Pr(B)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
20
Beispiel. Die Polizei macht Fahrzeugkontrollen. Die Erfahrung zeigt: Mit
Wahrscheinlichkeit 3% wird das angehaltene Auto gelb sein und mit
Wahrscheinlichkeit 2% wird das angehaltene Auto gelb und der Fahrer blond sein.
Ich sehe, dass die Polizei gerade ein gelbes Auto angehalten hat. Wie groß ist die
Wahrscheinlichkeit, dass der Fahrer blond ist?
21
Wir definieren nun einen sehr wichtigen Begriff.
Intuitiv: Wenn das Ereignis A “unabhängig” von B ist, so gilt
Pr(A|B) = Pr(A).
Letzteres bedeutet
Pr(A∩B)
Pr(B)
= Pr(A), d.h.
Pr(A ∩ B) = Pr(A) · Pr(B).
22
Definition. (stochastische Unabhängigkeit)
Sei (Ω, Pr) ein W-Raum. Zwei Ereignisse A, B ⊆ Ω heißen unabhängig, falls
Pr(A ∩ B) = Pr(A) · Pr(B) gilt. Andernfalls heißen A und B abhängig.
Bemerkung.
(1) Pr(A) = 0 oder Pr(B) = 0
⇒ A und B unabhängig
(2) Falls Pr(B) > 0 so gilt
A und B unabhängig ⇐⇒ Pr(A|B) = Pr(A)
(3) Vorsicht: A ∩ B = ∅ impliziert nicht, dass A und B unabhängig sind. Gilt
nämlich Pr(A) > 0, Pr(B) > 0 und A ∩ B = ∅, so sind A und B abhängig.
23
Definition. Sei (Ω, Pr) ein W-Raum. Die Ereignisse A1 , A2 , . . . , An heißen
unabhängig, falls für alle I ⊆ {1, 2, . . . , m}, I 6= ∅, gilt
\ Y
Pr
Ai =
Pr(Ai ).
i∈I
i∈I
Vorsicht: A1 , . . . , An paarweise unabhängig 6⇒ A1 , . . . , An unabhängig
24
Bemerkung. Seien (Ω1 , Pr1 ) und (Ω2 , Pr2 ) zwei W-Räume.
Wir definieren das “Produktmaß” auf Ω : := Ω1 × Ω2 folgendermassen:
Für E ⊆ Ω setzen
Pr(E) : =
X
Pr1 (ω1 )Pr2 (ω2 ).
(ω1 ,ω2 )∈E
Dann ist (Ω, Pr) ein W-Raum, der sogenannte Produktraum von (Ω1 , Pr1 ) und
(Ω2 , Pr2 ).
Behauptung. Seien A1 ⊆ Ω1 , A2 ⊆ Ω2 . Dann sind A1 × Ω2 und Ω1 × A2
unabhängig im Produktraum.
Eine analoge Definition kann für mehrere Faktoren gemacht werden.
25
Analyse der Binomialverteilung. Sei 0 ≤ p ≤ 1.
Sei Ωi = {0, 1} mit W-Verteilung Pri (1) = p und Pri (0) = 1 − p.
Definiere Ω = Ω1 × . . . × Ωn = {0, 1}n und betrachte das Produktmaß
Pr(ω1 , . . . , ωn ) = Pr1 (ω1 ) · Pr2 (ω2 ) · · · Prn (ωn ) = p|ω| (1 − p)n−|ω|
wobei |ω| : = |{i : ωi = 1}|.
Die resultierende W-Verteilung auf Ω = {0, 1}n ist die Binomialverteilung zum
Parameter p.
Betrachte das Ereignis Ai = {ω ∈ {0, 1}n : ωi = 1}. Dann gilt Pr(Ai ) = p.
Seien 1 ≤ i1 < i2 < . . . < im ≤ n.
Beh: Die Ereignisse Ai1 , Ai2 , . . . , Aim sind unabhängig.
Interpretation: n unabhängige Münzwürfe: Kopf entspricht 0, Zahl entspricht 1.
26
3.3 Zufallsvariablen
Definition. Sei (Ω, Pr) ein W-Raum. Eine (reelle) Zufallsvariable (Zva) ist eine
Abbildung X : Ω −→ R.
27
Sei X : Ω −→ R eine Zva. Für a ∈ R interessiert die Wahrscheinlichkeit, dass X
den Wert a annimmt, d.h.
Pr{ω ∈ Ω : X(ω) = a}.
Man schreibt dafür meist kürzer Pr(X = a).
Sei S = {X(ω) : ω ∈ Ω} die Bildmenge von X.
S ist endlich und Pr(X = a) = 0 für a ∈ R \ S.
Die Abbildung
S −→ [0, 1], a 7→ Pr(X = a)
definiert eine W-Verteilung auf S.
Diese heißt die von X induzierte W-Verteilung.
28
Beispiel. Ω = {1, 2, . . . , 6}2 , X(ω1 , ω2 ) = ω1 + ω2 , S = {2, 3, . . . , 12}.
a
2
3
4
5
6
7
8
9
10
11
12
Pr(X = a)
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
29
Indikator Zva. Sei A ⊆ Ω ein Ereignis. Definiere die Zva

 1 falls
XA : Ω −→ {0, 1}, XA (ω) =
 0 sonst.
XA heißt die Indikator Zufallsvariable von A.
Offensichtlich gilt Pr(XA = 1) = Pr(A).
30
ω∈A
Definition. Sei X : Ω −→ R eine Zva im W-Raum (Ω, Pr).
Der Erwartungswert von X ist definiert als die Zahl
X
E(X) : =
X(w)Pr(ω)
ω∈Ω
Behauptung. Für eine Zva X : Ω −→ R mit Bildmenge S gilt
X
E(X) =
a · Pr(X = a).
a∈S
Insbesondere hängt E(X) nur von der von X induzierten Verteilung auf S ab.
Bemerkung. Sei XA die Indikator Zva des Ereignisses A. Dann gilt
E(XA ) = Pr(XA = 1) = Pr(A).
31
Die folgende Eigenschaft von Erwartungswerten ist außerordentlich wichtig.
Proposition. (Linearität des Erwartungswertes)
Seien X, Y : Ω −→ R Zva und α, β ∈ R. Dann gilt
E(αX + βY ) = αE(X) + βE(Y ).
32
Beispiel. Sei Ω = {0, 1}n mit der Binomialverteilung zum Parameter p ∈ [0, 1].
Sei X : Ω −→ N, X(ω) = Anzahl Einsen in ω = (ω1 , . . . , ωn ).
Man sagt, daß X binomialverteilt zum Parameter p ist.
Interpretation: Führe n-mal unabhängig ein Experiment mit
Erfolgswahrscheinlichkeit p durch. Die Zva X zählt die totale Anzahl Erfolge.
Satz. Für eine binomialverteilte Zva zum Parameter p gilt E(X) = np.
33
Definition. Sei (Ω, Pr) ein W-Raum und Xi : Ω −→ R eine Zva für 1 ≤ i ≤ n.
Die Zva X1 , . . . , Xn heißen unabhängig, falls die Ereignisse
{ω ∈ Ω : X1 (ω) = a1 }, . . . , {ω ∈ Ω : Xn (ω) = an }
unabhängig sind, für alle (a1 , . . . , an ) ∈ Rn .
Bemerkung. Zwei Zva X, Y : Ω −→ R sind unabhängig, genau dann, wenn
Pr(X = a, Y = b) = Pr(X = a) · Pr(Y = b)
für alle a, b ∈ R. Hierbei ist (X = a, Y = b) eine Abkürzung für das Ereignis
{ω ∈ Ω : X(a) = a, Y (ω) = b}.
34
Satz. Seien X, Y : Ω → R unabhängige Zva. Dann gilt
E(X · Y ) = E(X) · E(Y ).
35
Bemerkung. (Konstruktion unabhängiger “Kopien” von Zva)
Sei X : Ω −→ R eine Zva und n ∈ N, n ≥ 1.
Bilde den Produktraum Ωn (mit dem Produktmaß) und für i = 1, . . . n die Zva
Xi : Ωn −→ R, (ω1 , . . . , ωn ) 7→ X(ωi ).
Dann sind X1 , . . . , Xn unabhängig.
Diese Zva induzieren jedoch die gleiche Verteilung auf S = X(Ω).
Beweis als Übung.
36
Wir definieren nun ein Maß für die Abweichung einer Zva von ihrem
Erwartungswert.
Defintion. Sei (Ω, Pr) ein W-Raum und X : Ω −→ R eine Zva mit µ = E(X).
Die Varianz von X ist definiert als
Var(X) = E((X − µ)2 ).
Bemerkung.
1. Var(X) ist die mittlere quadratische Abweichung von X von µ.
2. Beachte E(X − µ) = E(X) − µ = µ − µ = 0.
3. Var(cX) = c2 Var(X) für c ∈ R.
4. Var(X) hängt nur von der Verteilung von X ab.
37
Proposition. Für eine Zva X : Ω −→ R gilt
Var(X) = E(X 2 ) − E(X)2 .
38
Satz. Seien X1 , . . . , Xn : Ω −→ R paarweise unabhängige Zva. Dann gilt
Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn ).
39
Anwendung:
Proposition. (Varianz einer binomialverteilten Zva)
Sei Ω = {0, 1}n mit Binomialverteilung zum Parameter p ∈ [0, 1].
X : Ω −→ N, X(ω) = Anzahl Einsen in ω = (ω1 , . . . , ωn ).
Dann gilt
Var(X) = np(1 − p).
Beispiel. (Augensumme bei zwei Würfeln)
Ω = {1, 2, . . . , 6}2 , X : Ω → N, X(ω1 , ω2 ) = ω1 + ω2 .
Var(X) = 35/6 = 5, .83.
40
Die Bedeutung der Varianz liegt darin, dass sie die Abweichung einer Zva vom
Erwartungswert mißt.
Die folgende Aussage ist oft nützlich zur Abschätzung von Wahrscheinlichkeit.
Markowsche Ungleichung
Sei Y : Ω −→ R eine Zufallsvariable mit nichtnegativen Werten.
Dann gilt für ε ∈ R, ε > 0
Pr(Y ≥ ε) ≤
41
1
E(Y ).
ε
Tschebyschewsche Ungleichung (1867)
Sei (Ω, Pr) ein W-Raum und X : Ω −→ R eine Zva mit
p
Erwartungswert µ = E(X) und “Standardabweichung” σ = Var(X).
Dann gilt für t > 0.
Pr(|X − µ| ≥ t · σ) ≤
1
t2
Folgerung.
Pr(|X − µ| ≥ 2σ)
≤
1
4
Pr(|X − µ| ≥ 10 · σ)
≤
1
100
= 25%
Gültig für jede Zva X!
= 1%
Bemerkung. Wenn X binomialverteilt ist, gibt es viele bessere Abschätzungen.
42
Schwaches Gesetz der großen Zahlen
Sei (Ω, Pr) ein W-Raum und seien X1 , . . . , Xn : Ω −→ R paarweise unabhängige
Zufallsvariablen mit Erwartungswert µ = E(Xi ) und Varianz σ 2 = Var(Xi )
(1 ≤ i ≤ n).
Setze Sn : = X1 + X2 + . . . + Xn . Dann gilt für t > 0
Pr(|
1
Sn
− µ| ≥ t · σ) ≤ 2 .
n
nt
Interpretation. Für wachsendes n wird eine Abweichung von
unwahrscheinlicher. Präziser:
Sn
n
von µ immer
Für jedes t > 0 “konvergiert” Pr(| Snn − µ| ≥ t · σ) gegen 0 für n −→ ∞ (vgl.
Analysis).
43
Spezialfall: Binomialverteilung (Jakob Bernoulli 1713)
Ein Experiment mit Erfolgswahrscheinlichkeit p werde n mal unabhängig
durchgeführt. Sei Sn die Anzahl Erfolge.
Dann gilt für die relative Häufigkeit
Pr(|
Sn
n
der Erfolge für jedes δ > 0
Sn
p(1 − p))
− p| ≥ δ) ≤
.
2
n
nδ
Die rechte Seite konvergiert gegen Null für n −→ ∞.
44
Herunterladen