Stochastic kurz und knapp
Holger Karl
Nach: S. M. Ross, Introduction to Probability
and Statistics for Engineers and Scientists,
3rd. ed., Elsevier.
Computer Networks Group
Universität Paderborn
Wahrscheinlichkeit
• „In diesem Gebiet gibt es mit 60% Wahrscheinlichkeit Öl!“
• Interpretation 1:
• Sprecher hält das Vorkommen von Öl für plausibler als das NichtVorkommen; 60% ist eine Aussage über sein Vertrauen in den
Wahrheitsgehalt der Aussage
• Sog. subjektive Interpretation
• Interpretation 2:
• Wenn man ganz viele gleichartige Gebiete nimmt, dann wird man
in 60% dieser Gebiete Öl finden und in 40% nicht
• Sog. Häufigkeitsinterpretation
• Uns interessiert nur Interpretation 2!
v 1.1
Stochastik kurz und knapp
2
Von Häufigkeiten zu Wahrscheinlichkeiten
• Häufigkeiten: Beobachtungen über Anzahl von bestimmten
Ereignissen
• Insbes. „zufällige“ Ereignisse – kein Determinismus vorhanden
oder erkennbar
• Wahrscheinlichkeit: Formalisierung der Intuition
• Von Beobachtung tatsächlicher Ereignisse losgelöst
• Wahrscheinlichkeitstheorie: Entwickeln von Rechenregeln
v 1.1
Stochastik kurz und knapp
3
Experiment, Ereignisse, Ereignisraum
• Gedankliche (!) Grundlage: Ein Experiment mit zufälligem
Resultate
• Ereignisraum (sample space) S: Menge aller möglichen
Resultate
• Münzwurf, S = {Kopf, Zahl}
• Würfelwurf, S = {1, ..., 6}
• Wettrennen mit n Teilnehmer; S = {Alle Permutation der Zahlen
1, .., n}
• Teilmengen des Ereignisraums sind Ereignisse (event)
• Mit naheliegender Interpretation der Mengenoperationen
v 1.1
Stochastik kurz und knapp
4
Wahrscheinlichkeit
• Wahrscheinlichkeit: Ereignissen werden Zahlen zwischen 0
und 1 zugeordnet
• Genauer: Jeder Teilmenge des Ereignisraums (= jedem Ereignis)
wird eine Zahl zwischen 0 und 1 zugeordnet
• Geschrieben als Funktion P: 2S ! [0, 1]
• P für Probability
• ... mit folgenden Einschränkungen
• 0 <= P(E) <= 1 für alle E
• P(S) = 1
• P ([ Ei) = ∑ P(Ei) für alle Ei ½ S mit Ei Ej = 0
v 1.1
Stochastik kurz und knapp
5
Bedingte Wahrscheinlichkeit
• Angenommen, uns interessiert P(E)
• Wir wissen, dass ein anderes Ereignis F eingetreten ist
• Hilft uns das bei P(E)?
E
F
• Notation: Uns interessiert
P(E|F)
• Wahrscheinlichkeit von E, wenn
F schon eingetreten ist
• Angenommen, wir kennen P(F)
• Dann ist P(E|F) Wahrscheinlichkeit von E und F, normiert
auf Wahrscheinlichkeit von F
v 1.1
Stochastik kurz und knapp
6
Bedingte Wahrscheinlichkeit – Beispiel
• Urne enthält Dreiecke und Fünfecke
Aufdruck
=1
Dreiecke
40
2
2
Aufdruck
=2
1
20
1
10
30
2
1
1
2
1
2
Fünfecke
2
1
1
2
• Ziehen mit verbundenen Augen!
Berechne P(Aufdruck = 1 | Fünfeck gezogen)
v 1.1
Stochastik kurz und knapp
7
Bedingte Wahrscheinlichkeiten liefern
Fallunterscheidungen
• Angenommen, wir wollen Wahrscheinlichkeit P(A) eines
Ereignisses A berechnen
• Wir kennen die Wahrscheinlichkeiten anderer Ereignisse Bi, von
denen A abhängt
• Sowie die bedingten Wahrscheinlichkeiten P(A|Bi)
• Wenn die Bi alle Möglichkeiten abdecken und disjunkt sind,
kann man P(A) als Fallunterscheidung ausrechnen
• Formal: [ Bi = S, Bi Bj = 0
• Satz von der totalen Wahrscheinlichkeit
v 1.1
Stochastik kurz und knapp
8
Zufallsvariablen
• Oft: Nicht alle Details eines
Ereignisses relevant
• Formalisiert: Zufallsvariable
• Zufallsvariablen bilden
Ereignisse auf Werte ab
• Beispiel: Würfelwurf mit 20
Würfeln – alle Ereignisse
aufzählen ziemlich mühselig
• Sind also eigentlich Funktionen
• Praktisch: Wesentliche
Eigenschaften eines Ereignisses
benennen und Ereignis dadurch
definieren
• Eigenschaft meist numerisch
• Beispiel: Ereignis = Alle
Wurfkombinationen, bei denen
die Augensumme 25 ist
v 1.1
• Konvention: Geschrieben mit
großen lateinischen Buchstaben;
Werte mit kleinen lateinischen
Buchstaben
• Die Wahrscheinlichkeit, dass
eine Zufallsvariable einen Wert
„annimmt“, ist die Summe der
Wahrscheinlichkeiten, dass ein
entsprechendes (Elementar-)
Ereignis eintritt
Stochastik kurz und knapp
9
Typen von Zufallsvariablen
Diskrete Zufallsvariable
Kontinuierliche
Zufallsvariablen
• Nehmen Werte aus
diskreter Menge an
• Nehmen Werte aus einer
kontinuierlichen Menge an
• Z.B. jede endlich Menge,
natürliche Zahlen, ...
• Z.B. die reellen Zahlen
• Haben eine
Verteilungsfunktion
• Haben eine
Verteilungsfunktion
• FX(x) = P (X <= x)
• FX(x) = P (X <= x)
• Haben eine Zähldichte
• Haben eine Dichte
• fX(x) = P(X = x)
• Beispiel: P(X=1) = 0.3 ;
P(X=5) = 0.7 ; P(X=3) = 0
v 1.1
• fX(x) = FX‘(x)
• Achtung: P(X=x) sinnlos!
Stochastik kurz und knapp
10
Gemeinsam verteilte Zufallsvariablen
• Für ein Experiment kann man mehrere Zufallsvariablen
definieren
• Beispiel: X = Anzahl Zigaretten pro Tag, Y = Alter bei
Lungenkrebsbeginn
• Da auf gleichem Experiment (und entsprechenden
Ereignissen) definiert, haben sie eine gemeinsame
Verteilungsfunktion
v 1.1
Stochastik kurz und knapp
11
Unabhängige Zufallsvariable
• Gemeinsame verteilte Zufallsvariablen X, Y können
spezielles Verhalten haben:
Der Wahrscheinlichkeit für X hat keine Relevanz für den
Wahrscheinlichkeiten von Y u.u.
• Formal: X, Y heißen unabhängig g.d.w.
v 1.1
Stochastik kurz und knapp
12
Erwartungswert
• X diskret: E[X] = ∑i xi fX(xi) ,
wobei xi alle möglichen Werte von X annimmt
• Analog: E[g(X)] = ∑i g(xi) fX(xi)
• X kontinuierlich: E[X] = s x x fX(x) dx ,
wobei x alle möglichen Werte von X annimmt
• Analog: E[g(X)] = s x g(x) fX(x) dx
• Erwartungswert ist linear, additiv
v 1.1
Stochastik kurz und knapp
13
Some discrete random distributions
!
• Bernoulli distribution
• Flip a coin, heads / success
with probability p, tails with
probability 1-p
• Discrete uniform DU(i,j )
• All numbers between i and j
(inclusive) occur with the same
probability
!
• Binomial bin(n,p)
• Number of heads of n
independent Bernoulli
experiments with probability p
v 1.1
if x ∈ [0,..., n]
⎧ p
f X ( x) = ⎨
⎩ 1 − p otherwise
⎧ 1
⎪
f X ( x) = ⎨ j − i + 1
⎪⎩ 0
if x ∈ [i,..., j ]
otherwise
⎧⎛ n ⎞ x
⎪⎜⎜ ⎟⎟ p (1 − p) n − x if x ∈ [0,..., n]
f X ( x) = ⎨⎝ x ⎠
⎪
0
otherwise
⎩
Stochastik kurz und knapp
14
Some discrete random distributions
!
• Geometric geo(p): When
tossing a Bernoulli coin with
success probability p, the
number of consecutive failures
( tails ) before the first success
is geometrically distributed
• Negative binomial (s, p):
Number of failures of
independent Bernoulli
experiments with probability p
before s successes have
occurred
v 1.1
⎧ p (1 − p) x if x ∈ [0,1,...]
f X ( x) = ⎨
otherwise
⎩ 0
⎧⎛ s + x − 1⎞ s
⎟⎟ p (1 − p) x if x ∈ [0,1,...]
⎪⎜⎜
f X ( x) = ⎨⎝ x ⎠
⎪ 0
otherwise
⎩
Stochastik kurz und knapp
15
Some discrete random distributions
!
• Poisson (λ): Number of events
occurring in an interval of unit
time, when the time between
events is distributed
exponentially with parameter λ
v 1.1
⎧ e − λ λx
⎪
f X ( x) = ⎨ x!
⎪⎩ 0
Stochastik kurz und knapp
if x ∈ [0,1,...]
otherwise
16
Some continuous distributions
!
!
• Uniform U(a,b): R.v. varies
between a and b, without
preference for any particular
values.
U(0,1) is fundamental for
generating random values of all
other distributions!
• Exponential exp(λ): Time
between occurrence of events,
when events happen with a
constant rate (= number of
events per time interval).
Compare Poisson distribution
v 1.1
⎧ 1
⎪
f X ( x) = ⎨ b − a
⎪⎩ 0
if a ≤ x ≤ b
otherwise
⎧ 1 − x / λ
⎪ e
if x ≥ 0
f X ( x) = ⎨ λ
⎪⎩0
otherwise
⎧1 − e− x / λ
FX ( x ) = ⎨
⎩ 0
Stochastik kurz und knapp
if x > 0
else
17
Some continuous distribution
• Gamma (α,β): Time to complete
some task, generalizes
exponential distribution
• Weibull (α,β): Time to complete
some task
v 1.1
⎧ β −α xα −1e − x / β
⎪
f X ( x) = ⎨
Γ(α )
⎪⎩
0
α
⎧⎪1 − e −( x / β )
FX ( x) = ⎨
⎪⎩
0
Stochastik kurz und knapp
if x > 0
else
if x > 0
else
18
Some continuous distributions
!
• Normal (µ,σ): often describes
effects well that are the sum of a
large number of other quantities
f X ( x) =
1
2πσ 2
e
− ( x − µ ) 2 /( 2σ 2 )
• Lognormal (µ,σ): Time to
complete some task (similar to
Gamma and Weibull for α > 1,
with an additional spike close to
x=0
1
⎧
− (ln x − µ ) 2 /( 2σ 2 )
e
⎪
2
f X ( x) = ⎨ x 2πσ
⎪⎩
0
v 1.1
Stochastik kurz und knapp
if x > 0
else
19
Some continuous distributions
• Pareto (α): Time between task
arrivals (compare exponential)
•
v 1.1
1
⎧
⎪1 −
α
F
(
x
)
=
Pareto distribution is first
(
1
+
x
)
⎨
X
example of a so-called heavy⎪⎩
0
tailed distribution:
Stochastik kurz und knapp
if x >= 0, α > 0
else
20
Stochastischer Prozess
• Oft: nicht nur einzelne Experimente interessant, sondern
Folgen von Experimenten
• Entsprechend: Folge von Zufallsvariablen
• Formal: Stochastischer Prozess ist eine Folge von
Zufallsvariablen X1, X2, X3, ...
• ... mit vielen Erweiterungen und Spezialfällen
• Wichtige Spezialfälle
• Alle Xi haben die gleiche Verteilungsfunktion
• Alle Xi sind paarweise stochastisch unabhängig
• Beides gilt – die Xi sind dann independent and identically
distributed (i.i.d.)
v 1.1
Stochastik kurz und knapp
21
Stochastischer Prozess – Markov-Kette
• Wichtiger Spezialfall: Markov-Kette
• Eigenschaften
• Zufallsvariablen Xi nehmen nur Werte aus endlicher
Zustandsmenge {s1, ...., sn} an
• Indexmenge sind die natürlichen Zahlen: i 2 N
• Zeit ist diskret – Interpretation: Wert der Zufallsvariable Xi
beschreibt Systemzustand im iten Zeitschritt
• Die Wahrscheinlichkeit, welchen Wert Xi+1 annimmt, hängt NUR
vom Wert von Xi ab
• Die ganze Vorgeschichte Xj, j< i, ist irrelevant
• Formal:
P (Xk+1 = s(k+1) |Xk = s(k) ∧ Xk−1 = sk−1 ∧ · · · ∧ X1 = s(1) )
= P (Xk+1 = s(k+1) |Xk = s(k) )
• Die sog. Markov-Eigenschaft
v 1.1
Stochastik kurz und knapp
22
Markov-Kette – Notation
• Sei M die Zustandsübergangsmatrix
• M = (mij) mit mij = P(X2 = j | X1 = i) = P(Xk+1 = j | Xk = i)
• Matrizen gleich für alle k: homogene Markov-Kette
• Sei π = (π1, ..., πn) ein Zeilenvektor mit n Elementen aus
[0,1], so dass π1+...+πn = 1
• Wir benutzen π(k) als Kurzschreibweise für die Verteilung von Xk,
also π(k)i = P(Xk = i)
• Solche Zeilenvektoren π heißen auch kurz „eine Verteilung der
Markov-Kette“
v 1.1
Stochastik kurz und knapp
23
Zustandsübergänge bei Markov-Ketten
• Es gilt (Satz von der totalen Wahrscheinlichkeit):
n
�
(k+1)
(k)
πj
=
πi mij
i=1
• Oder auch kurz in Matrixschreibweise:
π
• Offenbar gilt:
(k+1)
π
(k)
=π
=π
(k)
(0)
M
M
k
• Die Verteilung des kten Zustandes hängt also nur von M und der
Anfangsverteilung π(0) ab
v 1.1
Stochastik kurz und knapp
24
Gleichgewichtsverteilungen
• Besonders interessant: Verteilungen von Xk, die sich nicht
ändern, wenn ein Schritt der Markov-Kette ausgeführt wird
• Formal: π* heißt stationär bezüglich der Markov-Kette M
wenn gilt
∗
∗
π =π M
• Unter geeigneten Annahmen (irreduzibel, aperiodisch, homogen)
existiert π* und ist eindeutig bestimmt
• Insbesondere: Unabhängig von der Anfangsverteilung π(0) !
• Interpretation: Egal zu welchem Zeitschritt man auf das
System schaut, es wird immer die gleiche Verteilung der
Zustände haben
v 1.1
Stochastik kurz und knapp
25
Finden der Gleichgewichtsverteilungen
• Für manche (irreduzibel, aperiodisch, homogen) Markov ∗
Ketten gilt:
π
k
lim M = · · ·
k→∞
∗
π
• Formaler Beweis: recht technisch
v 1.1
Stochastik kurz und knapp
26
Finden der Gleichgewichtsverteilung II
• Was nützt uns das?
• M ist diagonalisierbar, M= UDU-1;
• D Diagonalmatrix, D = (λ1, ..., λn), U Basiswechselmatrix
• λ1 = 1 ist der betragsgrößte, einfache Eigenwert von M
• Satz von Perron und Frobenius
• D.h.,
• Und:
• Damit:
v 1.1
−1 k
k −1
M k = (U
DU
)
=
U
D
U
1
0
k
lim D =
· · ·
k→∞
0
0
0
···
···
0
···
0
0
0
1
0
k
lim M = U
· · ·
k→∞
0
0
0
···
···
0
···
Stochastik kurz und knapp
0
0
U −1
0
27