Institut für Statistik der LMU FORMELSAMMLUNG 2005 zur STOCHASTIK FÜR BIOINFORMATIKER Inhaltsverzeichnis 1 Elementare Wahrscheinlichkeitsrechnung 1 1.1 Die Axiome von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 1 1.3 Laplace’sche Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.5 Satz von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 2 1.6 Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.7 Stochastische Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . . . . 2 1.8 Das Hardy-Weinberg-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Zufallsvariablen 2.1 4 Eindimensionale Zufallsvariablen und ihre Verteilungen . . . . . . . . . . . . 4 2.1.1 Die Verteilungsfunktion und ihre Eigenschaften . . . . . . . . . . . . 4 2.1.2 Quantile und die Quantilsfuntion . . . . . . . . . . . . . . . . . . . . 4 2.1.3 Diskrete Zufallsvariablen und Dichten . . . . . . . . . . . . . . . . . . 5 2.1.4 Stetige Zufallsvariablen und Dichten . . . . . . . . . . . . . . . . . . 6 2.1.5 Zusammenhänge zwischen Dichten und Verteilungsfunktionen . . . . 6 2.1.6 Erwartungswert, Varianz und Standardabweichung von Zufallsvariablen 6 2.1.7 Rechenregeln und Eigenschaften von Erwartungswerten und Varianzen 7 2.1.8 Transformationssatz für stetige Zufallsvariablen . . . . . . . . . . . . 8 2.1.9 Spezielle diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . 9 i 2.2 2.1.10 Spezielle stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . 10 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Die gemeinsame Verteilungsfunktion und die Randverteilung von zwei Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 2.3 11 Erwartungswert, Varianz, Kovarianz und Korrelationskoeffizient von zweidimensionalen Zufallsvariablen . . . . . . . . . . . . . . . . . . . 12 2.2.3 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . 12 2.2.4 Bedingte Verteilungen und Dichten . . . . . . . . . . . . . . . . . . . 13 Das Gesetz der großen Zahlen und der ZGS . . . . . . . . . . . . . . . . . . 13 2.3.1 Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 13 2.3.2 Der zentrale Grenzwertsatz 13 . . . . . . . . . . . . . . . . . . . . . . . 3 Inferenz 14 3.1 Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2 Frequentistische Güteeigenschaften von Punktschätzern . . . . . . . . . . . . 15 3.3 Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 Markov-Ketten 17 4.1 Die Chapman-Kolmogorov-Gleichungen . . . . . . . . . . . . . . . . . . . . . 17 4.2 Klassifikation von Zuständen und Markov-Ketten . . . . . . . . . . . . . . . 17 4.3 Die stationäre Verteilung und das Grenzwerttheorem . . . . . . . . . . . . . 18 ii 1 1.1 Elementare Wahrscheinlichkeitsrechnung Die Axiome von Kolmogorov Axiom 1: P (A) ≥ 0 für jedes Ereignis A Axiom 2: P (Ω) = 1 Axiom 3: P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) für A1 und A2 so, dass A1 ∩ A2 = ∅ 1.2 Rechenregeln für Wahrscheinlichkeiten P (A) ≤ 1 ∀A ∈ Ω P (∅) = 0 Aus A ⊂ B folgt P (A) ≤ P (B) P (Ā) = 1 − P (A) (Allgemeiner Additionssatz): P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) 1.3 Laplace’sche Wahrscheinlichkeit Prinzip von Laplace: Wenn nichts dagegen spricht, gehen wir davon aus, daß alle Elementarereignisse gleichwahrscheinlich sind. P (A) = 1.4 |A| Anzahl der für A günstigen Fälle = |Ω| Anzahl aller möglichen Fälle Bedingte Wahrscheinlichkeiten P (A|B) = P (A ∩ B) , P (B) 1 falls P (B) > 0 1.5 Satz von der totalen Wahrscheinlichkeit Eine Familie B1 , B2 , . . . , Bn mit Bi ∈ Ω heißt disjunkte Zerlegung von Ω falls gilt: (1) Bi ∩ Bj = ∅ für alle i 6= j (2) B1 ∪ B2 ∪ . . . ∪ Bn = Ω Sei B1 , B2 , . . . , Bn eine disjunkte Zerlegung, für die zusätzlich P (Bi ) > 0 für alle i = 1, . . . , n gilt, so gilt für jedes A ⊂ Ω: P (A) = n X P (A|Bi ) · P (Bi ) i=1 Speziell erhält man für B mit 0 < P (B) < 1: P (A) = P (A|B) · P (B) + P (A|B̄) · P (B̄) 1.6 Satz von Bayes Falls zusätzlich zu den obigen Bedingungen des Satzes von der totalen Wahrscheinlichkeit noch gilt, daß P (A) > 0 ist, so gilt für alle i = 1, . . . , n: P (Bi |A) = P (A|Bi )P (Bi ) P (A|Bi )P (Bi ) = Pn P (A) j=1 P (A|Bj )P (Bj ) Speziell erhält man P (B|A) = 1.7 P (A|B)P (B) P (A|B)P (B) = P (A) P (A|B)P (B) + P (A|B̄)P (B̄) Stochastische Unabhängigkeit zweier Ereignisse Zwei Ereignisse A und B nennt man stochastisch unabhängig, falls P (A ∩ B) = P (A)P (B) 2 erfüllt ist. Gilt zusätzlich P (A) > 0 und P (B) > 0, so sind A und B genau dann stochastisch unabhängig, wenn eine der beiden folgenden Gleichungen erfüllt ist: P (A|B) = P (A) P (B|A) = P (B) 1.8 Das Hardy-Weinberg-Gesetz In einer Population von diploiden Organismen seien zwei Allele a und b und drei Genotypen aa, ab und bb gegeben. Sei x ∈ {aa, ab, bb} der Genotyp eines zufällig ausgewählten Individuums. Sei paa , pab , pbb die entsprechende Wahrscheinlichkeitsverteilung von x. Ist die Population im Hardy-WeinbergGleichgewicht, so gilt: px = q 2 für x = aa 2q(1 − q) für x = ab (1 − q)2 für x = bb mit q ∈ [0, 1]. Der Parameter q ist die Häufigkeit des Allels a. 3 2 2.1 2.1.1 Zufallsvariablen Eindimensionale Zufallsvariablen und ihre Verteilungen Die Verteilungsfunktion und ihre Eigenschaften Verteilungsfunktion einer Zufallsvariablen (ZV) X: F (x) = P (X ≤ x), x∈R Eigenschaften: (1) 0 = F (−∞) ≤ F (x) ≤ F (+∞) = 1 für alle x ∈ R (2) F (x) steigt für wachsendes x monoton an, d.h. F (x1 ) ≤ F (x2 ), falls −∞ ≤ x1 < x2 ≤ +∞ (3) F (x) ist in jedem Punkt x von rechts stetig, d.h. der rechtsseitige Grenzwert stimmt stets mit dem Funktionswert F (x) überein. (4) P (X = x) = F (x) − P (X < x) speziell: P (X < x) = lim F (x − h), für h > 0. h→0 (5) P (a < X ≤ b) = F (b) − F (a), falls a < b P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a) speziell: P (a ≤ X ≤ b) = F (b) − F (a) für stetige Verteilungen P (a < X < b) = F (b) − F (a) − P (X = b) P (a ≤ X < b) = F (b) − F (a) + P (X = a) − P (X = b) 2.1.2 Quantile und die Quantilsfuntion Sei X eine ZV mit Verteilungsfunktion F (x), x ∈ R. Sei p ∈ (0, 1). Jeder Wert x, für den P (X ≤ x) ≥ p und P (X ≥ x) ≥ 1 − p 4 gilt, heisst p-Quantil xp der Verteilung von X. Speziell nennt man das 0.5-Quantil den Median xM ed der Verteilung. Ist die ZV X stetig und die Verteilungsfunktion F (x) invertierbar, so ist die Quantilsfunktion F − (p) die Umkehrfunktion der Verteilungsfunktion, F − (p) = F −1 (p) und es gilt: xp = F − (p). Ist X diskret, so definiert man die Quantilsfunktion wie folgt: F − (p) = min{x|F (x) ≥ p} Somit ist F − (p) das kleinste p-Quantil xp der ZV X. 2.1.3 Diskrete Zufallsvariablen und Dichten Eine ZV X mit Ausprägungen in der reelen Zahlen R heißt diskret, falls sie nur endliche oder abzählbar unendlich viele Werte x1 , x2 , . . . ∈ R annehmen kann. Die Menge T = {x1 , x2 , . . .} der möglichen Ausprägungen (d.h. alle xi mit P ({xi }) > 0) von X heißt Träger der ZV X. Die Wahrscheinlichkeitsfunktion von X ist durch f (xi ) = P (X = xi ) für xi ∈ T gegeben. Eigenschaften der Wahrscheinlichkeitsfunktion: (1) f (xi ) = 0 für x ∈ /T (2) 0 ≤ f (x) ≤ 1 für alle x ∈ R (3) P f (xi ) = 1 xi ∈T 5 2.1.4 Stetige Zufallsvariablen und Dichten Eine ZV X mit Ausprägungen in der reelen Zahlen R heißt stetig, wenn es eine Funktion f (x) mit f (x) ≥ 0 für alle x ∈ R gibt, so dass sich die Verteilungsfunktion von X wie folgt darstellen läßt: Z x F (x) = f (u) du. −∞ Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz Dichte oder Dichtefunktion) von X. Der Träger T von X ist die Menge aller Elemente x ∈ R für die f (x) > 0 gilt. Für stetige Zufallsvariablen gilt: (1) P (X = x) = 0 für alle x ∈ R. (2) f (x) = F 0 (x) = dF (x) , dx falls F (x) an der Stelle x differenzierbar ist. Z+∞ (3) f (x)dx = 1. −∞ 2.1.5 Zusammenhänge zwischen Dichten und Verteilungsfunktionen F (x) = X f (xi ) = xi ≤x Zx X P (X = xi ) xi ≤x f (t)dt F (x) = im diskreten Fall im stetigen Fall −∞ X P (a ≤ X ≤ b) = f (xi ) = a≤xi ≤b X P (X = xi ) im diskreten Fall a≤xi ≤b Zb P (a ≤ X ≤ b) = f (t)dt im stetigen Fall a 2.1.6 Erwartungswert, Varianz und Standardabweichung von Zufallsvariablen Falls die entsprechenden Summen bzw. Integrale absolut konvergent bzw. absolut integrierbar sind, gelten folgende Definitionen: 6 Erwartungswert: µ = E(X) = X xf (x), x falls X diskret Z+∞ xf (x)dx, falls X stetig −∞ Varianz: X (x − E(X))2 f (x), falls X diskret x Z+∞ σ 2 = V (X) = (x − E(X))2 f (x)dx, falls X stetig −∞ √ p Standardabweichung: σ = + σ 2 = + V (X) 2.1.7 Rechenregeln und Eigenschaften von Erwartungswerten und Varianzen Sei X eine Zufallsvariable. Für die Zufallsvariable Y = g(X), wobei g(x) eine beliebige reele Funktion sei, gilt: X g(x)f (x), falls X diskret x Z+∞ E(Y ) = g(x)f (x)dx, falls X und g(X) stetig −∞ Für eine lineare Transformation aX + b gilt: E(aX + b) = aE(X) + b für alle a, b ∈ R E(X + Y ) = E(X) + E(Y ) V (aX + b) = a2 V (X) Für die Varianz einer stetigen bzw. diskreten Zufallsvariablen gilt der Verschiebungssatz: V (X) = E(X 2 ) − [E(X)]2 Existiert der Erwartungswert von X und ist die Dichte- bzw. Wahrscheinlichkeitsfunktion f (x) symmetrisch um einen Punkt c, d.h. f (c − x) = f (c + x) E(X) = c. 7 für alle x ∈ R, so ist Standardisierung von Zufallsvariablen: Die Zufallsvariable X sei verteilt mit E(X) = µ und V (X) = σ 2 . Für die zugehörige standardisierte Zufallsvariable Z= X −µ σ gilt: E(Z) = 0, 2.1.8 V (Z) = 1. Transformationssatz für stetige Zufallsvariablen Sei X eine stetige Zufallsvariable mit Dichte fX (x). Sei g(x) eine streng monotone und differenzierbare Funktion. Dann gilt für die Dichte fY (y) der transformierten Zufallsvariable Y = g(X): −1 d g (y) fY (y) = fX (g (y)) · dy −1 8 2.1.9 Spezielle diskrete Verteilungen X ∼ B(π) Schreibweise: Bernoulliverteilung X ∼ B(n, π) Binomialverteilung Hypergeometrische Verteilung X ∼ H(n, N, M ) Verteilung Poissonverteilung X ∼ P(λ) Geometrische Verteilung X ∼ G(π) Träger T Wahrscheinlichkeits- E(X) V (X) π π(1 − π) nπ n π(1 − π) funktion X ∼ B(π) f (x) = π x (1 − π)1−x T = {0, 1} 0<π<1 X ∼ B(n, π) T = {0, 1, . . . , n} f (x) = n x π x (1 − π)n−x n ∈ {1, 2, . . .} 0<π<1 X ∼ H(n, N, M ) T = {max{0; n − (N − M )}, f (x) = −M (Mx )(Nn−x ) N (n) nM N N −n N −1 . . . , min{n; M }} X ∼ P(λ) nM 1− N λx x! T = {0, 1, . . .} f (x) = exp(−λ) λ λ T = {1, 2, . . .} f (x) = (1 − π)x−1 π 1 π 1−π π2 λ>0 X ∼ G(π) 0<π<1 9 M N · 2.1.10 Spezielle stetige Verteilungen X ∼ U(a, b) Schreibweise: Gleichverteilung Exponentialverteilung X ∼ E(λ) Normalverteilung X ∼ N (µ, σ 2 ) Gammaverteilung X ∼ Ga(α, β) Betaverteilung X ∼ Be(α, β) Verteilung X ∼ U(a, b) a<b X ∼ E(λ) λ>0 X ∼ N (µ, σ 2 ) Träger T Dichte T = [a, b] T = R+ f (x) = f (x) = λ exp(−λx) + f (x) = √1 2πσ T = R+ f (x) = β α α−1 x Γ(α) T =R 2 µ ∈ R, σ > 0 X ∼ Ga(α, β) α, β ∈ R+ X ∼ Be(α, β) α, β ∈ R + Gammafunktion: Γ(α) = Betafunktion: B(α, β) = 1 b−a exp 2 − (x−µ) 2σ 2 exp(−βx) E(X) V (X) Modus a+b 2 (b−a)2 12 NA 1 λ 1 λ2 0 µ σ2 µ α β α β2 α−1 β für α > 1 α−1 α+β−2 T = [0, 1] f (x) = 1 xα−1 (1 B(α,β) − x)β−1 α α+β αβ (α+β)2 (α+β+1) für α, β > 1 R∞ 0 R1 0 exp(−x)xα−1 d x xα−1 (1 − x)β−1 d x = Γ(α)Γ(β)/Γ(α + β) Chi-Quadrat-(χ2 -)Verteilung: Z= n P Xi2 ∼ χ2 (d) (d.h. χ2 -verteilt mit d Freiheitsgraden) i=1 falls X1 , . . . , Xd unabhängige, standardnormalverteilte Zufallsvariablen sind Die χ2 -Verteilung ist ein Spezialfall der Gamma-Verteilung, eine Ga( d2 , 21 )-Verteilung. 10 2.2 2.2.1 Mehrdimensionale Zufallsvariablen Die gemeinsame Verteilungsfunktion und die Randverteilung von zwei Zufallsvariablen - beide diskret Diskrete gemeinsame Wahrscheinlichkeitsfunktion: f (x, y) = P (X = x, Y = y) Diskrete Verteilungsfunktion: F (x, y) = P (X ≤ x, Y ≤ y) = XX f (xi , yj ) xi ≤x yj ≤y ((xi , yj ) sind die Ausprägungskombinationen von (X, Y )) Diskrete Randdichte: fX (x) = P (X = x) = X f (x, yj ) j (analog für Y ) - beide stetig Stetige gemeinsame Dichtefunktion: f (x, y) Stetige Verteilungsfunktion: Zx Zy F (x, y) = P (X ≤ x, Y ≤ y) = f (u, v)dvdu −∞ −∞ 2 ∂ F (x, y) = f (x, y), ∂x∂y falls F differenzierbar im Punkt (x, y) Stetige Randdichte: Z+∞ fX (x) = f (x, y) dy −∞ (analog für Y ) 11 2.2.2 Erwartungswert, Varianz, Kovarianz und Korrelationskoeffizient von zweidimensionalen Zufallsvariablen Diskrete Zufallsvariablen: E(XY ) = XX i xi · yj · f (xi , yj ) j Stetige Zufallsvariablen: Z+∞ Z+∞ E(XY ) = x · y · f (x, y)dydx −∞ −∞ Kovarianz: Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) Korrelationskoeffizient: ρXY = ρ(X, Y ) = Cov(X, Y ) , σX σY wobei σX die Standardabweichung von X ist. Es gilt: −1 ≤ ρ(X, Y ) ≤ +1. 2.2.3 Unabhängigkeit von Zufallsvariablen Zwei ZV X, Y heißen unabhängig, wenn FX,Y (x, y) = FX (x)FY (y) d.h. die gemeinsame Verteilungsfunktion = Produkt der Randverteilungen bzw. fX,Y (x, y) = fX (x)fY (y), d.h. die gemeinsame Dichte = Produkt der Randdichten. Falls X, Y unabhängig sind, gilt Cov(X, Y ) = 0 und E(XY ) = E(X)E(Y ). 12 2.2.4 Bedingte Verteilungen und Dichten Die bedingte Verteilungsfunktion von X gegeben Y = y mit P (Y = y) > 0 ist definiert als FX|Y (x|y) = P (X ≤ x, Y = y) , P (Y = y) x ∈ R. Die bedingte Wahrscheinlichkeitsfunktion (-dichte) von X lautet sowohl bei diskreten als auch bei stetigen X für jedes feste y mit fY (y) 6= 0 fX|Y (x|y) = fX,Y (x, y) , fY (y) x ∈ R. (Analog für Y ) 2.3 2.3.1 Das Gesetz der großen Zahlen und der zentrale Grenzwertsatz Das Gesetz der großen Zahlen Seien X1 , . . . , Xn unabhängige identisch verteilte Zufallsvariablen mit µ =E(Xi ) < ∞, so P gilt für X̄n = n1 ni=1 Xi : X̄n → µ für n → ∞. 2.3.2 Der zentrale Grenzwertsatz Seien X1 , . . . , Xn unabhängige identisch verteilte Zufallsvariablen mit µ =E(Xi ) < ∞ und endlicher Varianz σ 2 = Var(Xi ) > 0. Dann gilt für die Summe Yn = X1 + · · · + Xn n Yn − nµ 1 X Xi − µ a √ =√ ∼ N (0, 1); σ σ n n i=1 oder auch a Yn ∼ N (n · µ, n · σ 2 ) 13 3 Inferenz Ziel: Unter bestimmten Modellannahmen Aussagen über unbekannte Parameter θ ∈ Θ zu machen, nachdem Daten X beobachtet wurden. 3.1 Likelihood-Inferenz Likelihood-Prinzip: Schlüsse werden nur aus der Likelihood gezogen. Likelihood: Dichte f (x) in Abhängigkeit vom Parameter θ: L(θ) = f (x; θ) Log-Likelihood: l(θ) = log(L(θ)) Maximum-Likelihood-Schätzer: Derjenige Wert θ̂M L , der die Likelihood (bzw. die Log-Likelihood) maximiert: L(θ̂M L ) = maxθ∈Θ L(θ) l(θ̂M L ) = maxθ∈Θ l(θ) Normierte Likelihood: L̃(θ) = L(θ)/L(θ̂M L ) ˜l(θ) = l(θ) − l(θ̂M L ) rh i−1 −l00 (θ̂M L ) Standardfehler des ML-Schätzers: SE(θ̂M L ) = Normierte Log-Likelihood: Likelihoodbasierte Vertrauensintervalle: 1. Exaktes Vertrauensintervall {θ : ˜l(θ̂) ≥ c} zum Niveau α mit c aus folgender Tabelle: α c 0.9 -1.353 0.95 -1.921 0.99 -3.317 2. Approximatives Vertrauensintervall θ̂M L ± d · SE(θ̂M L ) mit d aus folgender Tabelle: 14 α d 0.9 1.645 0.95 1.960 0.99 2.576 3.2 Frequentistische Güteeigenschaften von Punktschätzern • Erwartungstreue: E(θ̂) = θ. • Die Varianz V (θ̂) eines erwartungstreuen Schätzers ist Maß für die Güte. • Sei θ̂M L der ML-Schätzer. Der Standardfehler SE(θ̂M L ) ist ein Schätzer der Standardabweichung des ML-Schätzers: q SE(θ̂M L ) = V̂ (θ̂M L ) 3.3 Bayes-Inferenz Vorwissen über den unbekannten Parameter θ wird durch eine Priori-Dichte f (θ) ausgedrückt. Bayes Prinzip: Alle Schlüsse werden nur aus der Posteriori gezogen. Für die Posteriori-Dichte ergibt sich f (θ|x) ∝ f (x|θ) · f (θ). Punktschätzer: 1. Posteriori-Modus 2. Posteriori-Erwartungswert 3. Posteriori-Median Intervallschätzer: 1. Highest-Posterior-Density-Intervall 2. Über die Quantile der Posteriori-Verteilung 3.4 Anpassungstests Häufig ist es von Interesse, die Anpassung eines bestimmten Modells an vorliegende Daten zu studieren. Dies ist insbesondere bei kategorialen Daten der Fall. 15 Vorgehensweise Vergleich des Null-Modells mit dem saturierten Modell unter Annahme einer Multinomialverteilung mit p Kategorien. 1. ML-Schätzung der unbekannten Parameter θ im Null-Modell. 2. Berechnung der erwarteten Anzahl Ei an Fällen unter Annahme des Null-Models. 3. Berechnung des χ2 -Werts 2 χ = p X (Xi − Ei )2 i=1 Ei , wobei Xi die tatsächlich beobachteten Anzahlen in Kategorie i sind. Alternativ kann auch die Devianz berechnet werden: p X Xi Xi log D =2· Ei i=1 Unter der Annahme des Null-Modells sind χ2 und D asymptotisch χ2 -verteilt mit k = p − 1 − q Freiheitsgraden, wobei q die Anzahl der geschätzten Parameter im Null-Modell ist. 16 4 Markov-Ketten Im folgenden sei X = (X0 , X1 , X2 , . . .) eine homogene Markov-Kette mit abzählbarem Zustandsraum S und Übergangsmatrix P mit Elementen pij = P (Xn+1 = j|Xn = i) = P (X1 = j|X0 = i) 4.1 Die Chapman-Kolmogorov-Gleichungen Die Langzeitentwicklung einer homogenen MK X ist durch die n-Schritt-Übergangsmatrix P n mit Elementen pij (n) = P (Xm+n = j|Xm = i) = P (Xn = j|X0 = i) für alle m = 0, 1, . . . gegeben. Es gelten die Chapman-Kolmogorov-Gleichungen: Pn = Pn Hierbei ist P n die n-te Potenz von P . 4.2 Klassifikation von Zuständen und Markov-Ketten Ein Zustand i ∈ S heißt rekurrent oder auch persistent, falls P (Xn = i für irgend ein n ≥ 1|X0 = i) = 1 Ansonsten heißt der Zustand transient. Die Periode eines Zustandes i ist der größte gemeinsame Teiler der Menge {n : pii (n) > 0} 17 Man nennt den Zustand i periodisch, falls dessen Periode größer eins ist, ansonsten heißt i aperiodisch. Haben alle Zustände einer Markov-Kette Periode 1, so heißt sie aperiodisch. Zwei Zustände i 6= j einer Markov-Kette X kommunizieren miteinander, falls fij > 0 und ∞ P fji > 0, wobei fij = fij (n) und n=1 fij (n) = P (X1 6= j, X2 6= j, . . . , Xn−1 6= j, Xn = j|X0 = i) Schreibweise: i ↔ j Ein Zustand i kommuniziert (per definitionem) immer mit sich selber: i ↔ i Eine Menge C ⊂ S heißt irreduzibel, falls i ↔ j für alle i, j ∈ C. Eine Markov-Kette X heißt irreduzibel, falls ihr Zustandsraum S irreduzibel ist. 4.3 Die stationäre Verteilung und das Grenzwerttheorem Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Einträgen (πj : j ∈ S) heißt stationäre Verteilung einer Markov-Kette X mit Übergangsmatrix P , falls gilt: X πj = πi pij i oder in Matrixnotation: π =π·P Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihre stationäre Verteilung π: pij (n) −→ πj bzw. für n → ∞ und alle i P n = P n −→ und daher µ(0) P n −→ π für alle µ(0) 18 ··· π ··· ··· π ··· .. .. .. . . . ··· π ···