Institut für Statistik der LMU FORMELSAMMLUNG 2005 zur

Werbung
Institut für Statistik der LMU
FORMELSAMMLUNG 2005
zur
STOCHASTIK FÜR
BIOINFORMATIKER
Inhaltsverzeichnis
1 Elementare Wahrscheinlichkeitsrechnung
1
1.1
Die Axiome von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . .
1
1.3
Laplace’sche Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.4
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.5
Satz von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . .
2
1.6
Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.7
Stochastische Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . . . .
2
1.8
Das Hardy-Weinberg-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2 Zufallsvariablen
2.1
4
Eindimensionale Zufallsvariablen und ihre Verteilungen . . . . . . . . . . . .
4
2.1.1
Die Verteilungsfunktion und ihre Eigenschaften . . . . . . . . . . . .
4
2.1.2
Quantile und die Quantilsfuntion . . . . . . . . . . . . . . . . . . . .
4
2.1.3
Diskrete Zufallsvariablen und Dichten . . . . . . . . . . . . . . . . . .
5
2.1.4
Stetige Zufallsvariablen und Dichten . . . . . . . . . . . . . . . . . .
6
2.1.5
Zusammenhänge zwischen Dichten und Verteilungsfunktionen . . . .
6
2.1.6
Erwartungswert, Varianz und Standardabweichung von Zufallsvariablen
6
2.1.7
Rechenregeln und Eigenschaften von Erwartungswerten und Varianzen
7
2.1.8
Transformationssatz für stetige Zufallsvariablen . . . . . . . . . . . .
8
2.1.9
Spezielle diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . .
9
i
2.2
2.1.10 Spezielle stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . .
10
Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.1
Die gemeinsame Verteilungsfunktion und die Randverteilung von zwei
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2
2.3
11
Erwartungswert, Varianz, Kovarianz und Korrelationskoeffizient von
zweidimensionalen Zufallsvariablen . . . . . . . . . . . . . . . . . . .
12
2.2.3
Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . .
12
2.2.4
Bedingte Verteilungen und Dichten . . . . . . . . . . . . . . . . . . .
13
Das Gesetz der großen Zahlen und der ZGS . . . . . . . . . . . . . . . . . .
13
2.3.1
Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . .
13
2.3.2
Der zentrale Grenzwertsatz
13
. . . . . . . . . . . . . . . . . . . . . . .
3 Inferenz
14
3.1
Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.2
Frequentistische Güteeigenschaften von Punktschätzern . . . . . . . . . . . .
15
3.3
Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.4
Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
4 Markov-Ketten
17
4.1
Die Chapman-Kolmogorov-Gleichungen . . . . . . . . . . . . . . . . . . . . .
17
4.2
Klassifikation von Zuständen und Markov-Ketten . . . . . . . . . . . . . . .
17
4.3
Die stationäre Verteilung und das Grenzwerttheorem . . . . . . . . . . . . .
18
ii
1
1.1
Elementare Wahrscheinlichkeitsrechnung
Die Axiome von Kolmogorov
Axiom 1: P (A) ≥ 0
für jedes Ereignis A
Axiom 2: P (Ω) = 1
Axiom 3: P (A1 ∪ A2 ) = P (A1 ) + P (A2 )
für A1 und A2 so, dass A1 ∩ A2 = ∅
1.2
Rechenregeln für Wahrscheinlichkeiten
P (A) ≤ 1
∀A ∈ Ω
P (∅) = 0
Aus A ⊂ B folgt P (A) ≤ P (B)
P (Ā) = 1 − P (A)
(Allgemeiner Additionssatz):
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
1.3
Laplace’sche Wahrscheinlichkeit
Prinzip von Laplace: Wenn nichts dagegen spricht, gehen wir davon aus, daß alle Elementarereignisse gleichwahrscheinlich sind.
P (A) =
1.4
|A|
Anzahl der für A günstigen Fälle
=
|Ω|
Anzahl aller möglichen Fälle
Bedingte Wahrscheinlichkeiten
P (A|B) =
P (A ∩ B)
,
P (B)
1
falls P (B) > 0
1.5
Satz von der totalen Wahrscheinlichkeit
Eine Familie B1 , B2 , . . . , Bn mit Bi ∈ Ω heißt disjunkte Zerlegung von Ω falls gilt:
(1) Bi ∩ Bj = ∅ für alle i 6= j
(2) B1 ∪ B2 ∪ . . . ∪ Bn = Ω
Sei B1 , B2 , . . . , Bn eine disjunkte Zerlegung, für die zusätzlich P (Bi ) > 0 für alle i = 1, . . . , n
gilt, so gilt für jedes A ⊂ Ω:
P (A) =
n
X
P (A|Bi ) · P (Bi )
i=1
Speziell erhält man für B mit 0 < P (B) < 1:
P (A) = P (A|B) · P (B) + P (A|B̄) · P (B̄)
1.6
Satz von Bayes
Falls zusätzlich zu den obigen Bedingungen des Satzes von der totalen Wahrscheinlichkeit
noch gilt, daß P (A) > 0 ist, so gilt für alle i = 1, . . . , n:
P (Bi |A) =
P (A|Bi )P (Bi )
P (A|Bi )P (Bi )
= Pn
P (A)
j=1 P (A|Bj )P (Bj )
Speziell erhält man
P (B|A) =
1.7
P (A|B)P (B)
P (A|B)P (B)
=
P (A)
P (A|B)P (B) + P (A|B̄)P (B̄)
Stochastische Unabhängigkeit zweier Ereignisse
Zwei Ereignisse A und B nennt man stochastisch unabhängig, falls
P (A ∩ B) = P (A)P (B)
2
erfüllt ist. Gilt zusätzlich P (A) > 0 und P (B) > 0, so sind A und B genau dann stochastisch
unabhängig, wenn eine der beiden folgenden Gleichungen erfüllt ist:
P (A|B) = P (A)
P (B|A) = P (B)
1.8
Das Hardy-Weinberg-Gesetz
In einer Population von diploiden Organismen seien zwei Allele a und b und drei Genotypen
aa, ab und bb gegeben.
Sei x ∈ {aa, ab, bb} der Genotyp eines zufällig ausgewählten Individuums. Sei paa , pab , pbb die
entsprechende Wahrscheinlichkeitsverteilung von x. Ist die Population im Hardy-WeinbergGleichgewicht, so gilt:
px =






q 2 für x = aa
2q(1 − q) für x = ab




 (1 − q)2 für x = bb
mit q ∈ [0, 1]. Der Parameter q ist die Häufigkeit des Allels a.
3
2
2.1
2.1.1
Zufallsvariablen
Eindimensionale Zufallsvariablen und ihre Verteilungen
Die Verteilungsfunktion und ihre Eigenschaften
Verteilungsfunktion einer Zufallsvariablen (ZV) X:
F (x) = P (X ≤ x),
x∈R
Eigenschaften:
(1) 0 = F (−∞) ≤ F (x) ≤ F (+∞) = 1
für alle x ∈ R
(2) F (x) steigt für wachsendes x monoton an, d.h. F (x1 ) ≤ F (x2 ),
falls −∞ ≤ x1 < x2 ≤ +∞
(3) F (x) ist in jedem Punkt x von rechts stetig, d.h. der rechtsseitige Grenzwert stimmt
stets mit dem Funktionswert F (x) überein.
(4) P (X = x) = F (x) − P (X < x)
speziell: P (X < x) = lim F (x − h), für h > 0.
h→0
(5) P (a < X ≤ b) = F (b) − F (a), falls a < b
P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a)
speziell: P (a ≤ X ≤ b) = F (b) − F (a) für stetige Verteilungen
P (a < X < b) = F (b) − F (a) − P (X = b)
P (a ≤ X < b) = F (b) − F (a) + P (X = a) − P (X = b)
2.1.2
Quantile und die Quantilsfuntion
Sei X eine ZV mit Verteilungsfunktion F (x), x ∈ R. Sei p ∈ (0, 1). Jeder Wert x, für den
P (X ≤ x) ≥ p und
P (X ≥ x) ≥ 1 − p
4
gilt, heisst p-Quantil xp der Verteilung von X.
Speziell nennt man das 0.5-Quantil den Median xM ed der Verteilung.
Ist die ZV X stetig und die Verteilungsfunktion F (x) invertierbar, so ist die Quantilsfunktion
F − (p) die Umkehrfunktion der Verteilungsfunktion,
F − (p) = F −1 (p)
und es gilt: xp = F − (p).
Ist X diskret, so definiert man die Quantilsfunktion wie folgt:
F − (p) = min{x|F (x) ≥ p}
Somit ist F − (p) das kleinste p-Quantil xp der ZV X.
2.1.3
Diskrete Zufallsvariablen und Dichten
Eine ZV X mit Ausprägungen in der reelen Zahlen R heißt diskret, falls sie nur endliche oder
abzählbar unendlich viele Werte x1 , x2 , . . . ∈ R annehmen kann. Die Menge T = {x1 , x2 , . . .}
der möglichen Ausprägungen (d.h. alle xi mit P ({xi }) > 0) von X heißt Träger der ZV X.
Die Wahrscheinlichkeitsfunktion von X ist durch
f (xi ) = P (X = xi )
für xi ∈ T gegeben. Eigenschaften der Wahrscheinlichkeitsfunktion:
(1) f (xi ) = 0 für x ∈
/T
(2) 0 ≤ f (x) ≤ 1 für alle x ∈ R
(3)
P
f (xi ) = 1
xi ∈T
5
2.1.4
Stetige Zufallsvariablen und Dichten
Eine ZV X mit Ausprägungen in der reelen Zahlen R heißt stetig, wenn es eine Funktion
f (x) mit f (x) ≥ 0 für alle x ∈ R gibt, so dass sich die Verteilungsfunktion von X wie folgt
darstellen läßt:
Z
x
F (x) =
f (u) du.
−∞
Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz Dichte oder Dichtefunktion)
von X. Der Träger T von X ist die Menge aller Elemente x ∈ R für die f (x) > 0 gilt.
Für stetige Zufallsvariablen gilt:
(1) P (X = x) = 0 für alle x ∈ R.
(2) f (x) = F 0 (x) =
dF (x)
,
dx
falls F (x) an der Stelle x differenzierbar ist.
Z+∞
(3)
f (x)dx = 1.
−∞
2.1.5
Zusammenhänge zwischen Dichten und Verteilungsfunktionen
F (x) =
X
f (xi ) =
xi ≤x
Zx
X
P (X = xi )
xi ≤x
f (t)dt
F (x) =
im diskreten Fall
im stetigen Fall
−∞
X
P (a ≤ X ≤ b) =
f (xi ) =
a≤xi ≤b
X
P (X = xi ) im diskreten Fall
a≤xi ≤b
Zb
P (a ≤ X ≤ b) =
f (t)dt
im stetigen Fall
a
2.1.6
Erwartungswert, Varianz und Standardabweichung von Zufallsvariablen
Falls die entsprechenden Summen bzw. Integrale absolut konvergent bzw. absolut integrierbar
sind, gelten folgende Definitionen:
6
Erwartungswert:
µ = E(X) =

X


xf (x),




 x
falls X diskret
Z+∞




xf (x)dx, falls X stetig



−∞
Varianz:
 X


(x − E(X))2 f (x),
falls X diskret


 x
Z+∞
σ 2 = V (X) =



(x − E(X))2 f (x)dx, falls X stetig


−∞
√
p
Standardabweichung: σ = + σ 2 = + V (X)
2.1.7
Rechenregeln und Eigenschaften von Erwartungswerten und Varianzen
Sei X eine Zufallsvariable. Für die Zufallsvariable Y = g(X), wobei g(x) eine beliebige reele
Funktion sei, gilt:
 X


g(x)f (x),
falls X diskret


 x
Z+∞
E(Y ) =



g(x)f (x)dx, falls X und g(X) stetig


−∞
Für eine lineare Transformation aX + b gilt:
E(aX + b) = aE(X) + b für alle a, b ∈ R
E(X + Y ) = E(X) + E(Y )
V (aX + b) = a2 V (X)
Für die Varianz einer stetigen bzw. diskreten Zufallsvariablen gilt der Verschiebungssatz:
V (X) = E(X 2 ) − [E(X)]2
Existiert der Erwartungswert von X und ist die Dichte- bzw. Wahrscheinlichkeitsfunktion
f (x) symmetrisch um einen Punkt c, d.h. f (c − x) = f (c + x)
E(X) = c.
7
für alle x ∈ R, so ist
Standardisierung von Zufallsvariablen:
Die Zufallsvariable X sei verteilt mit E(X) = µ und V (X) = σ 2 .
Für die zugehörige standardisierte Zufallsvariable
Z=
X −µ
σ
gilt:
E(Z) = 0,
2.1.8
V (Z) = 1.
Transformationssatz für stetige Zufallsvariablen
Sei X eine stetige Zufallsvariable mit Dichte fX (x). Sei g(x) eine streng monotone und
differenzierbare Funktion. Dann gilt für die Dichte fY (y) der transformierten Zufallsvariable
Y = g(X):
−1 d g (y) fY (y) = fX (g (y)) · dy −1
8
2.1.9
Spezielle diskrete Verteilungen
X ∼ B(π)
Schreibweise: Bernoulliverteilung
X ∼ B(n, π)
Binomialverteilung
Hypergeometrische Verteilung X ∼ H(n, N, M )
Verteilung
Poissonverteilung
X ∼ P(λ)
Geometrische Verteilung
X ∼ G(π)
Träger T
Wahrscheinlichkeits-
E(X)
V (X)
π
π(1 − π)
nπ
n π(1 − π)
funktion
X ∼ B(π)
f (x) = π x (1 − π)1−x
T = {0, 1}
0<π<1
X ∼ B(n, π)
T = {0, 1, . . . , n}
f (x) =
n
x
π x (1 − π)n−x
n ∈ {1, 2, . . .}
0<π<1
X ∼ H(n, N, M )
T = {max{0; n − (N − M )},
f (x) =
−M
(Mx )(Nn−x
)
N
(n)
nM
N
N −n
N −1
. . . , min{n; M }}
X ∼ P(λ)
nM
1−
N
λx
x!
T = {0, 1, . . .}
f (x) =
exp(−λ)
λ
λ
T = {1, 2, . . .}
f (x) = (1 − π)x−1 π
1
π
1−π
π2
λ>0
X ∼ G(π)
0<π<1
9
M
N
·
2.1.10
Spezielle stetige Verteilungen
X ∼ U(a, b)
Schreibweise: Gleichverteilung
Exponentialverteilung X ∼ E(λ)
Normalverteilung
X ∼ N (µ, σ 2 )
Gammaverteilung
X ∼ Ga(α, β)
Betaverteilung
X ∼ Be(α, β)
Verteilung
X ∼ U(a, b)
a<b
X ∼ E(λ)
λ>0
X ∼ N (µ, σ 2 )
Träger T
Dichte
T = [a, b]
T = R+
f (x) =
f (x) = λ exp(−λx)
+
f (x) =
√1
2πσ
T = R+
f (x) =
β α α−1
x
Γ(α)
T =R
2
µ ∈ R, σ > 0
X ∼ Ga(α, β)
α, β ∈ R+
X ∼ Be(α, β)
α, β ∈ R
+
Gammafunktion: Γ(α) =
Betafunktion: B(α, β) =
1
b−a
exp
2
− (x−µ)
2σ 2
exp(−βx)
E(X)
V (X)
Modus
a+b
2
(b−a)2
12
NA
1
λ
1
λ2
0
µ
σ2
µ
α
β
α
β2
α−1
β
für α > 1
α−1
α+β−2
T = [0, 1] f (x) =
1
xα−1 (1
B(α,β)
− x)β−1
α
α+β
αβ
(α+β)2 (α+β+1)
für
α, β > 1
R∞
0
R1
0
exp(−x)xα−1 d x
xα−1 (1 − x)β−1 d x = Γ(α)Γ(β)/Γ(α + β)
Chi-Quadrat-(χ2 -)Verteilung:
Z=
n
P
Xi2 ∼ χ2 (d)
(d.h. χ2 -verteilt mit d Freiheitsgraden)
i=1
falls X1 , . . . , Xd unabhängige, standardnormalverteilte Zufallsvariablen sind
Die χ2 -Verteilung ist ein Spezialfall der Gamma-Verteilung, eine Ga( d2 , 21 )-Verteilung.
10
2.2
2.2.1
Mehrdimensionale Zufallsvariablen
Die gemeinsame Verteilungsfunktion und die Randverteilung von zwei
Zufallsvariablen
- beide diskret
Diskrete gemeinsame Wahrscheinlichkeitsfunktion:
f (x, y) = P (X = x, Y = y)
Diskrete Verteilungsfunktion:
F (x, y) = P (X ≤ x, Y ≤ y) =
XX
f (xi , yj )
xi ≤x yj ≤y
((xi , yj ) sind die Ausprägungskombinationen von (X, Y ))
Diskrete Randdichte:
fX (x) = P (X = x) =
X
f (x, yj )
j
(analog für Y )
- beide stetig
Stetige gemeinsame Dichtefunktion:
f (x, y)
Stetige Verteilungsfunktion:
Zx Zy
F (x, y) = P (X ≤ x, Y ≤ y) =
f (u, v)dvdu
−∞ −∞
2
∂ F (x, y)
= f (x, y),
∂x∂y
falls F differenzierbar im Punkt (x, y)
Stetige Randdichte:
Z+∞
fX (x) =
f (x, y) dy
−∞
(analog für Y )
11
2.2.2
Erwartungswert, Varianz, Kovarianz und Korrelationskoeffizient von
zweidimensionalen Zufallsvariablen
Diskrete Zufallsvariablen:
E(XY ) =
XX
i
xi · yj · f (xi , yj )
j
Stetige Zufallsvariablen:
Z+∞ Z+∞
E(XY ) =
x · y · f (x, y)dydx
−∞ −∞
Kovarianz:
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y )
Korrelationskoeffizient:
ρXY = ρ(X, Y ) =
Cov(X, Y )
,
σX σY
wobei σX die Standardabweichung von X ist.
Es gilt: −1 ≤ ρ(X, Y ) ≤ +1.
2.2.3
Unabhängigkeit von Zufallsvariablen
Zwei ZV X, Y heißen unabhängig, wenn
FX,Y (x, y) = FX (x)FY (y)
d.h. die gemeinsame Verteilungsfunktion = Produkt der Randverteilungen bzw.
fX,Y (x, y) = fX (x)fY (y),
d.h. die gemeinsame Dichte = Produkt der Randdichten.
Falls X, Y unabhängig sind, gilt
Cov(X, Y ) = 0 und E(XY ) = E(X)E(Y ).
12
2.2.4
Bedingte Verteilungen und Dichten
Die bedingte Verteilungsfunktion von X gegeben Y = y mit P (Y = y) > 0 ist definiert als
FX|Y (x|y) =
P (X ≤ x, Y = y)
,
P (Y = y)
x ∈ R.
Die bedingte Wahrscheinlichkeitsfunktion (-dichte) von X lautet sowohl bei diskreten als auch
bei stetigen X für jedes feste y mit fY (y) 6= 0
fX|Y (x|y) =
fX,Y (x, y)
,
fY (y)
x ∈ R.
(Analog für Y )
2.3
2.3.1
Das Gesetz der großen Zahlen und der zentrale Grenzwertsatz
Das Gesetz der großen Zahlen
Seien X1 , . . . , Xn unabhängige identisch verteilte Zufallsvariablen mit µ =E(Xi ) < ∞, so
P
gilt für X̄n = n1 ni=1 Xi :
X̄n → µ für n → ∞.
2.3.2
Der zentrale Grenzwertsatz
Seien X1 , . . . , Xn unabhängige identisch verteilte Zufallsvariablen mit µ =E(Xi ) < ∞ und
endlicher Varianz σ 2 = Var(Xi ) > 0. Dann gilt für die Summe Yn = X1 + · · · + Xn
n
Yn − nµ
1 X Xi − µ a
√
=√
∼ N (0, 1);
σ
σ n
n i=1
oder auch
a
Yn ∼ N (n · µ, n · σ 2 )
13
3
Inferenz
Ziel: Unter bestimmten Modellannahmen Aussagen über unbekannte Parameter θ ∈ Θ zu
machen, nachdem Daten X beobachtet wurden.
3.1
Likelihood-Inferenz
Likelihood-Prinzip:
Schlüsse werden nur aus der Likelihood gezogen.
Likelihood:
Dichte f (x) in Abhängigkeit vom Parameter θ:
L(θ) = f (x; θ)
Log-Likelihood:
l(θ) = log(L(θ))
Maximum-Likelihood-Schätzer:
Derjenige Wert θ̂M L , der die Likelihood
(bzw. die Log-Likelihood) maximiert:
L(θ̂M L ) = maxθ∈Θ L(θ)
l(θ̂M L ) = maxθ∈Θ l(θ)
Normierte Likelihood:
L̃(θ) = L(θ)/L(θ̂M L )
˜l(θ) = l(θ) − l(θ̂M L )
rh
i−1
−l00 (θ̂M L )
Standardfehler des ML-Schätzers: SE(θ̂M L ) =
Normierte Log-Likelihood:
Likelihoodbasierte Vertrauensintervalle:
1. Exaktes Vertrauensintervall
{θ : ˜l(θ̂) ≥ c} zum Niveau α mit c aus folgender Tabelle:
α
c
0.9
-1.353
0.95
-1.921
0.99
-3.317
2. Approximatives Vertrauensintervall
θ̂M L ± d · SE(θ̂M L ) mit d aus folgender Tabelle:
14
α
d
0.9
1.645
0.95
1.960
0.99
2.576
3.2
Frequentistische Güteeigenschaften von Punktschätzern
• Erwartungstreue: E(θ̂) = θ.
• Die Varianz V (θ̂) eines erwartungstreuen Schätzers ist Maß für die Güte.
• Sei θ̂M L der ML-Schätzer. Der Standardfehler SE(θ̂M L ) ist ein Schätzer der Standardabweichung des ML-Schätzers:
q
SE(θ̂M L ) = V̂ (θ̂M L )
3.3
Bayes-Inferenz
Vorwissen über den unbekannten Parameter θ wird durch eine Priori-Dichte f (θ) ausgedrückt. Bayes Prinzip: Alle Schlüsse werden nur aus der Posteriori gezogen.
Für die Posteriori-Dichte ergibt sich f (θ|x) ∝ f (x|θ) · f (θ).
Punktschätzer:
1. Posteriori-Modus
2. Posteriori-Erwartungswert
3. Posteriori-Median
Intervallschätzer:
1. Highest-Posterior-Density-Intervall
2. Über die Quantile der Posteriori-Verteilung
3.4
Anpassungstests
Häufig ist es von Interesse, die Anpassung eines bestimmten Modells an vorliegende Daten
zu studieren. Dies ist insbesondere bei kategorialen Daten der Fall.
15
Vorgehensweise
Vergleich des Null-Modells mit dem saturierten Modell unter Annahme einer Multinomialverteilung mit p Kategorien.
1. ML-Schätzung der unbekannten Parameter θ im Null-Modell.
2. Berechnung der erwarteten Anzahl Ei an Fällen unter Annahme des Null-Models.
3. Berechnung des χ2 -Werts
2
χ =
p
X
(Xi − Ei )2
i=1
Ei
,
wobei Xi die tatsächlich beobachteten Anzahlen in Kategorie i sind.
Alternativ kann auch die Devianz berechnet werden:
p
X
Xi
Xi log
D =2·
Ei
i=1
Unter der Annahme des Null-Modells sind χ2 und D asymptotisch χ2 -verteilt mit
k = p − 1 − q Freiheitsgraden, wobei q die Anzahl der geschätzten Parameter im
Null-Modell ist.
16
4
Markov-Ketten
Im folgenden sei X = (X0 , X1 , X2 , . . .) eine homogene Markov-Kette mit abzählbarem Zustandsraum S und Übergangsmatrix P mit Elementen
pij = P (Xn+1 = j|Xn = i) = P (X1 = j|X0 = i)
4.1
Die Chapman-Kolmogorov-Gleichungen
Die Langzeitentwicklung einer homogenen MK X ist durch die n-Schritt-Übergangsmatrix P n mit Elementen
pij (n) = P (Xm+n = j|Xm = i)
= P (Xn = j|X0 = i)
für alle m = 0, 1, . . . gegeben.
Es gelten die Chapman-Kolmogorov-Gleichungen:
Pn = Pn
Hierbei ist P n die n-te Potenz von P .
4.2
Klassifikation von Zuständen und Markov-Ketten
Ein Zustand i ∈ S heißt rekurrent oder auch persistent, falls
P (Xn = i für irgend ein n ≥ 1|X0 = i) = 1
Ansonsten heißt der Zustand transient.
Die Periode eines Zustandes i ist der größte gemeinsame Teiler der Menge
{n : pii (n) > 0}
17
Man nennt den Zustand i periodisch, falls dessen Periode größer eins ist, ansonsten heißt
i aperiodisch.
Haben alle Zustände einer Markov-Kette Periode 1, so heißt sie aperiodisch.
Zwei Zustände i 6= j einer Markov-Kette X kommunizieren miteinander, falls fij > 0 und
∞
P
fji > 0, wobei fij =
fij (n) und
n=1
fij (n) = P (X1 6= j, X2 6= j, . . . , Xn−1 6= j, Xn = j|X0 = i)
Schreibweise: i ↔ j
Ein Zustand i kommuniziert (per definitionem) immer mit sich selber: i ↔ i
Eine Menge C ⊂ S heißt irreduzibel, falls i ↔ j für alle i, j ∈ C. Eine Markov-Kette X
heißt irreduzibel, falls ihr Zustandsraum S irreduzibel ist.
4.3
Die stationäre Verteilung und das Grenzwerttheorem
Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Einträgen (πj : j ∈ S) heißt stationäre Verteilung einer Markov-Kette X mit Übergangsmatrix P , falls gilt:
X
πj =
πi pij
i
oder in Matrixnotation:
π =π·P
Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre stationäre Verteilung
π:
pij (n) −→ πj
bzw.
für n → ∞ und alle i





P n = P n −→ 



und daher µ(0) P n −→ π für alle µ(0)
18

··· π ··· 

··· π ··· 

..
..
.. 

.
.
. 

··· π ···
Herunterladen