Wahrscheinlichkeitstheorie für Informatikstudien

Werbung
Wahrscheinlichkeitstheorie für Informatikstudien
Lukas Prokop
October 26, 2013
1
Basisdefinitionen
Angenommen A und B seien zwei Ereignisse
(A, B ∈ A). Die Wahrscheinlichkeit, dass eines der
beiden Ereignisse eintritt, ist:
Ω Grundmenge (mögliche Ausgänge)
A Ereignisraum
P (A ∪ B) = P (A) + P (B)
(Ω, A) Stichprobenraum
Die Wahrscheinlichkeit, dass beide Ereignisse
eintreten sind:
{wi } Elementarereignisse (Ausgänge eines Zufallsexperiments)
P (A ∩ B) = P (A) · P (B)
A(∈ A) Ereignis
Statistische Regularität Gesetz
Zahlen
Bedingte Wahrscheinlichkeit (von A unter B):
der
großen
PB (A) := P (A|B) :=
Population, Grundgesamtheit mögliche
Ereignisse und ihre Wahrscheinlichkeit
In LAPLACE Wahrscheinlichkeitsräumen (alle
Ereignisse treten mit der selben Wahrscheinlichkeit
ein) reduziert sich die Berechnung der günstigen
Fälle mit ihrer Wahrscheinlichkeit auf kombinatorische Zählprobleme.
Stichproben Teilmengen der Population
Wahrscheinlichkeitsraum
{Ω, A, P }, A ← P (A), A(∈ A) ⊆ Ω
n
n!
=
k
(n − k)! · k!
σ-Algebra
A ⊆ P (Ω)
Ω ∈ A, A ∈SA ⇒ Ā ∈ A
∞
An ∈ A ⇒ n=1 An ∈ A
. . . ist σ-Algebra bei Ω 6= ∅
3
0≤k≤n
Totale Wahrscheinlichkeit
Die Wahrscheinlichkeit, dass Ereignis B eintritt
ist gleich dem Aufsummieren aller Ereignisse A
unter B als Bedingung.
Dies entspricht am
Wahrscheinlichkeitsbaum: Die Wahrscheinlichkeit
eines Knoten ist gleich der Summe aller darunterliegenden Knoten.
C Combination
V Variation
A ∩ B Durchschnitt (”intersection”)
A ∪ B Vereinigungsmenge (”union”)
Hk ∩ Ht = ∅, k 6= l,
2
P (A ∩ B)
P (B)
n
[
Hi = Ω
i=1
Basismodell
⇒ ∀b ∈ B : P (b) =
günstig
Maß(A)
⇒
möglich
Maß(Ω)
n
X
i=1
1
P (Hi ) · P (b|Hi )
4
n
X
Systeme
i=1
Seriell (eine Komponente muss ausfallen):
!
n
\
P (RS ) = P
Ri ≤ min P (Ri )
n
X
5
1 2
2
n (n + 1) 2n2 + 2n − 1
12
n
X
Parallel (alle Komponenten müssen ausfallen):
!
n
[
P (RS ) = P
Ri ≥ max P (Ri )
i=0
ki =
i=1
6
(a, b) =
]a, b[ = {x ∈ R | a < x < b}
(1)
n
X
[a, b) =
[a, b[ = {x ∈ R | a ≤ x < b}
(2)
i=1
(a, b] =
]a, b] = {x ∈ R | a < x ≤ b}
(3)
= {x ∈ R | a ≤ x ≤ b}
(4)
Summenformeln
n
X
c=n·c
i=1
n
X
c = (n − m + 1) · c
i=m
n
X
c · ai = c ·
i=m
n
X
i=m
n
X
ai +
i=m
n
X
i=1
i=
i=m
ai
i=m
(ai + bi ) =
n
X
n
X
i=
n
X
bi
i=m
n(n + 1)
2
(n + m)(n − m + 1)
2
n
X
(2i − 1) = n2
i=1
n
X
i2 =
i=1
n
X
i=1
3
i =
n(n + 1)(2n + 1)
6
n(n + 1)
2
2
=
n2 (n + 1)2
4
2
k n+1 − 1
k−1
1
1−k
n
X
Intervalle
[a, b]
ki =
i=0
∞
X
i
i=1
n(n + 1)(2n + 1)(3n2 + 3n − 1)
30
i5 =
i=1
i
i=1
i4 =
ki =
mit |k| < 1
k n+1 − k
k−1
k −i =
1 − k −n
k−1
7
Kombinatorik
Dabei ist Unterscheidbarkeit für die Ursprungsmenge A das, was Wiederholung für die Abbildungsmenge B ist. Die einzige Begründung für die
Unterscheidung dieser Begriffe (und fehlende Verallgemeinerung) ist, dass Unterscheidbarkeit die
Probleme wesentlich komplexer macht und die allgemeinen Formeln nicht bekannt sind. Die Formeln
für Unterscheidbarkeit können wir damit nicht betrachten; wir nehmen Unterscheidbarkeit in allen
Formel an. Wir werden aber vereinzelt Formeln für
unterschiedliche Kardinalitäten betrachten. Der
Spezialfall ”alle Elemente sind ununterscheidbar”
fällt mit dem Begriff ”mit Wiederholung” zusammen.
Wir können wir den Begriff der ”Reihenfolge” direkt in zwei Begriffe der Kombinatorik umsetzen:
Variation (V, ”Reihenfolge relevant”) und Kombination (C, ”Reihenfolge irrelevant”). Eine rVariation bezeichnet, dass die erzeugten Tupel aus
A r-elementig sind (|ti | = r). n bezeichnet die Kardinalität der Ursprungsmenge A.
In der Kombinatorik können wir vom Basisfall ausgehen, welcher eine Funktion definiert:
f :A→B
A = (a1 , a2 , . . . , ak )
B = {t1 , t2 , . . . , tl }
ti = (w1 , w2 , . . . , wr )
Dabei sieht unser Modell so aus, dass die
Beziehung zwischen ai und wi beliebig sein kann.
Die Tupel in B sind jedoch homogen (|wi | = |wj |).
Es wird aus einem gegebenen Tupel A eine Menge
an Tupel B generiert. Bezüglich dieser Generation
sind 3 Basisfragen zu stellen:
• Ist die Reihenfolge der erzeugten Tupelelemente w1...r relevant?
• Darf ein Element wiederholt im Tupel ti
vorkommen?
8
• Unterscheiden
sich
die
Kardinalitäten
(Größen) von A und Tupel in B?
Permutation
Unter Permutation versteht man die Annahme,
dass aus einem bereits erzeugten Tupel ti alle
möglichen Variationen erzeugt. Dies entspricht
mit Wiederholung
genauso der Abbildung f , wenn man die Basisfra”mit WH”, ”mit Zurücklegen”, ”mehrfach gen wie folgt beantwortet:
vorkommen”
• Die Reihenfolge ist relevant.
wi = wi+n n > 0
• Eine Wiederholung ist nicht möglich (alle Elegegenteilig auch ”ohne Wiederholung”
mente der Ursprungsmenge müssen genau einmal wiederverwendet werden). Damit ist n =
r.
Reihenfolge relevant
”Reihenfolge wichtig”, ”geordnet”
• Die Ursprungsmenge ist gleich der Abbildungsmenge. Damit ist die Kardinalität ident.
(w , w , w ) 6= (w , w , w )
Zuerst definieren wir die Begriffe:
1
2
3
1
3
2
gegenteilig auch ”Reihenfolge irrelevant”
Damit ist die Permutation ein Spezialfall der
Variation ohne Wiederholung. Mögliche Permutationen einer Menge {A, B, C} sind:
Unterschiedlichkeit
|A| =
6 |B1 |
{(A, B, C) , (A, C, B) , (B, A, C) ,
(B, C, A) , (C, A, B) , (C, B, A)}
Unterscheidbarkeit
”Unterscheidbarkeit der Elemente”
∈
/ ai 6= ai+n
Dabei kann die Größe aller Permutationen mittels der Formel n! berechnet werden (3! = 6). Herleitung:
n>0
3
9
Anwendung der Formeln
n!
V (n, n) =
= n!
(n − n)!
Q: Wählen Sie für das Lottospiel 6 aus 49 Zahlen
(”49 über 6”). 49
Die folgende Frage erfragt eine modifizierte Ver- A: C(n, r) = 6 = 13983816
sion der Permutationsformel; man spricht auch von
der ”Permutation mit Wiederholung”, wobei hier Q: Aus n Elementen wir r-mal mit Zurücklegen
gezogen
”Wiederholung” anders verwendet wird):
Gegeben sei ein Tupel von Elementen. Dabei A: Vw (n, r)
sind x der n Elemente nicht voneinander unterQ: Gegeben sei eine Menge {A, B, C}. Wieviele
scheidbar (siehe Mississippi-Beispiel unten):
Möglichkeiten gibt es diese Menge anzuordnen?
A: 3! = 6
n!
Pw (n; k1 , . . . , km ) =
Q: Gegeben sei ein Anordnungsproblem: r nicht
k1 ! · k2 ! · . . . · km !
unterscheidbare Bälle werden in n numerierte
wobei k die Anzahl aller eindeutigen Elemente ist Zellen gelegt
und ki für die Anzahl der identen Elemente ihrer A: Cw (n, r)
Art ist.
Q: Wieviele Varianten gibt es x Plätze in y
Gruppen zu teilen?
A: x+1
8.1 Beispiel für n = | {1, 2, 3} |, r = 2
y+1
V
C
mit WH
(1, 1) (1, 2) (1, 3)
(2, 1) (2, 2) (2, 3)
(3, 1) (3, 2) (3, 3)
Vw (n, r) = nr
(1, 1) (1, 2) (1, 3)
(2, 2) (2, 3)
(3, 3)
Cw (n, r) = n+r−1
r
ohne WH
Q: Wieviele Permutationen des Worts MISSIS(1, 2) (1, 3) (2, 1) SIPPI gibt es?
(2, 3) (3, 1) (3, 2) A: n! n = 11!11 mit der Permutationsformel
k1 !·...·kn ! = 4!·4!·2! = 34650
V (n, r) = nr r!
Q: Wieviele Kleinbuchstabenwörter mit der Länge
(1, 2) (1, 3) (2,
3) 5 gibt es?
C(n, r) = nr
A: Vw (30, 5) = 305 = 24300000
Q: 6 verschiedenfarbige Kästchen mit jeweils 1
gleichfarbigen Kugel.
Wieviele Möglichkeiten
gibt es die Kugeln in andersfarbige Kästchen zu
verteilen?
A: Subfakultät !n =!6 = 265
Wir lösen Binomialkoeffizienten auf:
V
mit WH
nr
C
(n−1+r)!
(n−1)!r!
ohne WH
n!
(n−r)!
n!
r!(n−r)!
Q: Wieviele Möglichkeiten gibt es 5 Objekte in 3
Schachteln zu legen, wobei Schachtel 1 3 Objekte
besitzen soll und die anderen 1? n
5
A: Multinomialkoeffizient k1 ,...,k
=
= 20
3,1,1
r
In der Programmiersprache python:
r-Variation mit WH itertools.product(n,
peat=r)
re-
Permutation itertools.permutations(n, r)
r-Kombination ohne WH
itertools.combinations(n, r)
4
10
Verteilungsmodelle
Z
fX (x) dx
a
Wir können für die meisten Aufgabenstellungen
unser Problem in ein Verteilungsmodell geben,
welches uns dann gefragte Parameter leichter errechnen lässt. Wir unterscheiden dabei zwischen
diskreten und stetigen Modellen.
Als erstes Werkzeug definieren wir eine Zufallsvariable X über eine Funktion X : Ω → R.
PX nennt sich die Verteilung von X. Dabei ist
x = X(w), w ∈ Ω die Realisation von X.
11
11.1
Kenngrößen
Steiner’scher
schiebungssatz
Ver-
Var (X) = E(X 2 ) − E2 (X)
11.2
P (Ω, A) → PX (R, B)
Erwartungswert
E(g(X)) :=
Die Funktion FX : R → [0, 1]
R∞
g(x)f (x) dx
−∞
P
∞
i=0 g(i)pi
für X stetige ZV
für X diskrete ZV
µk = E(X k ) ⇒ µ = E(X)
FX (x) = P (X ≤ x)∀x ∈ R
ist die Verteilungsfunktion der Zufallsvariablen
X.
Für diskrete Modelle gilt: Es können endlich
oder abzählbar unendlich viele Werte angenommen
werden.
pi := P (X = i)
b
P (a ≤ X ≤ b) =
11.3
Varianz
σ 2 = Var(X) = E((X − µ)2 )
11.4
Standardabweichung
σ=
i = 0, 1, 2, . . .
Für stetige Modelle gilt: fX ≥ 0 und fX heißt
Dichtefunktion von X.
Z x
FX (x) =
fX (t) dt
11.5
p
Var(X)
Schiefe
γ1 =
E((X − µ)3 )
(Var(X))3/2
−∞
γ1 (X) = 0
γ1 (X) < 0
γ1 (X) > 0
Wir möchten jetzt wissen, wie sich das Modell
verhält, wenn X einen bestimmten Wert annimmt
oder in einem bestimmen Intervall liegt. Durch die
Zuordnung können wir Techniken der Analysis für
die Wahrscheinlichkeitstheorie verwenden.
10.1
11.6
Kurtosis / Exzess
γ2 (X) =
Modellanwendung
P (a < X ≤ b) = FX (b) − FX (a) , a < b
12
P (−∞ < X ≤ b) = FX (b)
symmetrisch
linksschief
rechtsschief
E((X − µ)4 )
−3
(Var(X))2
Binomialverteilung
• Diskret, Bernoulli-Experimente
P (a < X < ∞) = 1 − FX (a)
• Analog zu Ziehen mit Zurücklegen
P (X = b) = FX (b) − lim FX (b − )
↓0
F (x) =
bxc
X
• Das Experiment wird n mal durchgeführt und
jede Wiederholung ist unabhängig und führt
mit p zu Erfolg. ⇒ Parameter n und p. q =
1 − p. ,,X ist binomialverteilt mit n und p”:
pi
i=0
∞
X
pi = 1
X ∼ B(n, p)
i=0
5
14
n k
B(k; n, p) = P (X = k) =
p (1 − p)n−k
k
k = 0, 1, . . . , n
Hypergeometrische
Verteilung
• Diskret
0<p<1
• Analog zu Urnenmodell ohne Zurücklegen
Wir nehmen ein Modell an, in dem nur Erfolge
und Misserfolge möglich sind. Solche Prozesse nennen sich Bernoulli-Prozesse. Dabei sind die einzelnen Erfolge gleichartig und unabhängig voneinander. Dabei ist n ist Anzahl der Versuche und
p ∈ [0, 1] die Erfolgswahrscheinlichkeit.
• X = #(Rote Kugeln)
• Anzahl der gezogenen Kugeln n, Anzahl aller
Kugeln N , Anzahl roter Kugeln M . X ist hypergeometrisch verteilt:
X ∼ H(N, M, n)
• E(X) = n · p
• Var(X) = n · p · q
• γ1 (X) =
1−2p
√
npq
• γ2 (X) =
1−6pq
npq
• P (a ≤ X ≤ b) =
13
h(N, M, n) := P (X = k) =
M
k
N −M
n−k
N
n
max(0, n − (N − M )) ≤ k ≤ min(M, n)
Pb
n
k=a k
pk q n−k
• E(X) = n M
N
• Var(X) = n M
N 1−
Geometrische Verteilung
(1−2 M
N
• γ1 (X) = √
• Diskret, Bernoulli-Experimente
M
N
n
)(1−2 N
2
Var(X)(1− N
N −n
N −1
)
)
• X = #(Anzahl der Fehlversuche bis ersten Erfolg)
15
• Wahrscheinlichkeit p
Poisson-Verteilung
• Diskret, Bernoulli-Experimente
X ∼ G(p)
• Y = X + 1 = #(Anzahl der Versuche)
• Anzahl der Versuche n sehr groß, Erfolgswahrscheinlichkeit p sehr klein
• E(X) = pq , E(Y ) =
• Binomialverteilung kann approximiert werden
(nur mehr 1 Parameter λ).
• Var(X) =
q
p2 , Var(Y
• γ1 (X) = γ1 (Y ) =
• P (X = k) = pq k
1
p
)=
q
p2
X ∼ P (λ)
λ = np
1+q
√
q
λk −λ
e
k!
λ > 0, k = 0, 1, 2, . . .
0 < p < 1, k = 0, 1, . . .
pk := P (X = k) =
• E(X) = λ
• Var(X) = λ
6
• γ1 (X) =
√1
λ
• γ2 (X) =
1
λ
16
Gleichverteilung
18
Normalverteilung
• Stetig
• Stetig
• Zufällige Auswahl eines Teilintervalls (alle mit
gleicher Wahrscheinlichkeit) der Länge δx in
einem Intervall (a, b).
• Gauß’sche Glockenkurve
• X ist gleichverteilt: X ∼ U (a, b)
• Lokalisationsparameter µ, Skalierungsparameter σ
• Im Intervall der Abweichung ±2σ sind 95% der
Werte zu finden
• X ist normalverteilt: X ∼ N (µ, σ)
1
b−a
a<x<b
a, b ∈ R, a < b
0
sonst

x<a
 0
x−a
a≤x<b
FX (x) =
 b−a
1
x≥b
fX (x) =
• E(X) =
1 x−µ 2
1
e− 2 ( σ )
2πσ
−∞ < x < ∞, µ ∈ R, σ > 0
Z x
1 t−µ 2
1
x−µ
FX (x) = √
e− 2 ( σ ) dt = Φ
σ
2πσ −∞
fX (x) = √
a+b
2
Φ(x) ist die Verteilungsfunktion von N (0, 1):
Z x
1 2
1
Φ(x) = √
e− 2 t dt
2π −∞
(b−a)2
12
• Var(X) =
• γ1 (X) = 0
• γ(X) = −1.2
17
• N (0, 1) : E(X) = 0, N (µ, σ 2 ) : E(Y ) = µ
• Var(X) = σ 2
Exponentialverteilung
19
• Stetig
• Werte können nicht 0 werden.
dauer.
zB Lebens-
Gammaverteilung
• Stetig
• Lebensdauer von Industriegütern
• Standardform der Exponentialverteilung ist
E(1)
• Gestaltparameter a und Skalierungsparam. λ
• Standardform: Z = λX ⇒ γ(a, 1)
• X ist exponentialverteilt X ∼ Exp(λ) mit dem
Skalierungsparameter λ.
• X ist gammaverteilt: X ∼ γ(a, λ)
λe−λx x > 0, λ > 0
0
sonst.
Z x
FX (x) =
λe−λt dt
(
fX (x) =
⇒ FX (x) = 1 − e
• E(X) =
Γ(a) :=
,
x>0
0
• E(X) =
1
λ
• Var(X) =
0
Z
0
−λx
λa xa−1 −λx
Γ(a) e
fX (x) =
a
λ
• Var(X) =
1
λ2
• γ1 (X) = 2
• γ2 (X) = 6
7
a
λ2
• γ1 (X) =
√2
a
• γ2 (X) =
6
a
x > 0, a > 0, λ > 0
sonst
∞
xa−1 e−x dx
20
Erzeugende Funktion
22.2
Diskreter Zufallsvektor (X, Y ).
stochastisch unabhängig, wenn
Die Erzeugende Funktion ist durch die Verteilung
von X eindeutig festgelegt.
GX (s) = E(sX ) =
∞
X
∞
X
Stetiger Zufallsvektor (X, Y ).
stochastisch unahängig, wenn
22.3
Skriptum
Z
FX,Y (x, y) := P (X ≤ x, Y ≤ y) ∀x, y ∈ R
X X
FX,Y (x, y) =
pij diskret
i≤bxc j≤byc
x
∞y−∞ fX,Y (u, v) dv du stetig
−∞
Randverteilungen
Diskreter Zufallsvektor (X, Y ):
P (X = i, Y = j)
W-Funktion von X
P (X = i, Y = j)
W-Funktion von Y
j=0
P (Y = j) =
i=0
Stetiger Zufallsvektor (X, Y ):
Z ∞
fX (x) =
fX,Y (x, y) dy Randdichte von X
−∞
Z
∞
fY (y) =
fX,Y (x, y) dy
g(i, j)pij
diskret
Z
∞
g(x, y)fX,Y (x, y) dx dy
−∞
(X, Y ) : (Ω, A) −→ (R2 , B 2 )
∞
X
∞
E(g(X, Y )) =
Wir erweitern den Wahrscheinlichkeitsraum auf
weitere Dimensionen (hier: auf eine zweite).
∞
X
∞ X
∞
X
i=0 j=0
Zufallsvektoren
P (X = i) =
Erwartungswert
E(g(X, Y )) =
Approximationen S. 74
Approximation H zu B S. 50
Normalverteilung Wertetabelle S. 68
22.1
sind
fX,Y (x, y) = fX (x)fY (y)
E(X) = G0X (1)
FX,Y (x, y) =
X, Y
P (X = i) = 1
i=0
Z
sind
P (X = i, Y = j) = P (X = i)P (Y = j) ∀i, j
⇒ GX (0) = P (X = 0) GX (1) =
22
X, Y
P (X = i)si
i=0
21
Unabhängigkeit
Randdichte von Y
−∞
8
−∞
stetig
23
Ableitung
0
(a) = 0
(a · f )0 = a · f 0
0
(g ± h) = g 0 ± h0
(g · h)0 = g 0 · h + g · h0
g 0
g 0 · h − g · h0
=
h
h2
0
(xn ) = nxn−1
(g ◦ h)0 (x) = (g(h(x)))0 = g 0 (h(x)) · h0 (x)
g 0 (x)
f (x) = g(x)h(x) ⇒ f 0 (x) = h0 (x) ln(g(x)) + h(x)
g(x)h(x)
g(x)
n X
n (k) (n−k)
(n)
(f g) =
f g
k
k=0
(ln u)0 =
u0
u
√
1
1 1
( x)0 = (x 2 )0 = x− 2
2
(sin x)0 = cos x
1
x
1
1 0
( ) =− 2
x
x
(ln x)0 =
24
Integrale
Z
Z
eax =
eax
+c
a
λe−λt dt = −eλ(−t) + c
9
Herunterladen