03 Institut für Statistik der LMU FORMELSAMMLUNG 2003 20 zur STOCHASTIK FÜR BIOINFORMATIKER Inhaltsverzeichnis 1 Elementare Wahrscheinlichkeitsrechnung 1 1.1 Die Axiome von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 1 1.3 Laplace’sche Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.5 Satz von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 2 1.6 Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.7 Stochastische Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . . . . 2 2 Zufallsvariablen 2.1 3 Eindimensionale Zufallsvariablen und ihre Verteilungen . . . . . . . . . . . . 3 2.1.1 Die Verteilungsfunktion und ihre Eigenschaften . . . . . . . . . . . . 3 2.1.2 Diskrete Zufallsvariablen und Dichten . . . . . . . . . . . . . . . . . . 3 2.1.3 Stetige Zufallsvariablen und Dichten . . . . . . . . . . . . . . . . . . 4 2.1.4 Zusammenhänge zwischen Dichten und Verteilungsfunktionen . . . . 4 2.1.5 Erwartungswert, Varianz und Standardabweichung von Zufallsvariablen 5 2.1.6 Rechenregeln und Eigenschaften von Erwartungswerten und Varianzen 5 2.1.7 Transformationssatz für stetige Dichten 6 2.1.8 Spezielle diskrete Verteilungen mit ihren Dichten, Erwartungswerten . . . . . . . . . . . . . . . . und Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 7 2.1.9 2.2 Spezielle stetige Verteilungen mit ihren Dichten, Erwartungswerten und Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.1 Die gemeinsame Verteilungsfunktion und die Randverteilung von zwei Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 2.3 9 Erwartungswert, Varianz, Kovarianz und Korrelationskoeffizient von zweidimensionalen Zufallsvariablen . . . . . . . . . . . . . . . . . . . 10 2.2.3 Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . 11 2.2.5 Bedingte Verteilungen und Dichten . . . . . . . . . . . . . . . . . . . 11 Das Gesetz der großen Zahlen und der ZGS . . . . . . . . . . . . . . . . . . 12 2.3.1 Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 12 2.3.2 Der zentrale Grenzwertsatz 12 . . . . . . . . . . . . . . . . . . . . . . . 3 Inferenz 13 3.1 Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2 Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3 Güteeigenschaften von Punktschätzern . . . . . . . . . . . . . . . . . . . . . 14 3.4 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4 Simulation 16 4.1 Inversionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2 Rejection sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3 Kongruenzgenerator 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii 1 1.1 Elementare Wahrscheinlichkeitsrechnung Die Axiome von Kolmogorov (1) Axiom: P (A) ≥ 0 für jedes Ereignis A (2) Axiom: P (Ω) = 1 (3) Axiom: P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) für A1 und A2 so, dass A1 ∩ A2 = ∅ 1.2 Rechenregeln für Wahrscheinlichkeiten P (A) ≤ 1 ∀A ∈ Ω P (∅) = 0 Aus A ⊂ B folgt P (A) ≤ P (B) P (Ā) = 1 − P (A) (Allgemeiner Additionssatz): P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) 1.3 Laplace’sche Wahrscheinlichkeit Prinzip von Laplace: Wenn nichts dagegen spricht, gehen wir davon aus, daß alle Elementarereignisse gleichwahrscheinlich sind. P (A) = 1.4 |A| Anzahl der für A günstigen Fälle = |Ω| Anzahl aller möglichen Fälle Bedingte Wahrscheinlichkeiten P (A|B) = P (A ∩ B) , P (B) 1 falls P (B) > 0 Außerdem gilt: 1.5 P (A ∩ B) = P (A|B)P (B), sofern P (B) > 0 ⇔ P (A ∩ B) = P (B|A)P (A), sofern P (A) > 0. Satz von der totalen Wahrscheinlichkeit P (B) = n P P (B|Ai )P (Ai ) für jedes Ereignis B, sofern P (Ai ) > 0 gilt und die Ai , i=1 i = 1, . . . , n, eine disjunkte Zerlegung von Ω bilden. 1.6 Formel von Bayes Falls zusätzlich zu den obigen Bedingungen des Satzes von der totalen Wahrscheinlichkeit noch gilt, daß P (B) > 0 ist, so lautet die Formel von Bayes: P (Aj |B) = P (B|Aj )P (Aj ) P (B|Aj )P (Aj ) =X P (B) P (B|Ai )P (Ai ) für jedes j. i 1.7 Stochastische Unabhängigkeit zweier Ereignisse Stochastische Unabhängigkeit zweier Ereignisse A und B: ⇐⇒ P (A ∩ B) = P (A)P (B) ⇔ P (A|B) = P (A), falls P (B) > 0 ⇔ P (B|A) = P (B), falls P (A) > 0 2 2 2.1 2.1.1 Zufallsvariablen Eindimensionale Zufallsvariablen und ihre Verteilungen Die Verteilungsfunktion und ihre Eigenschaften Verteilungsfunktion einer Zufallsvariablen (ZV) X: F (x) = P (X ≤ x), x∈R Eigenschaften: (1) 0 = F (−∞) ≤ F (x) ≤ F (+∞) = 1 für alle x ∈ R (2) F (x) steigt für wachsendes x monoton an, d.h. F (x1 ) ≤ F (x2 ), falls −∞ ≤ x1 < x2 ≤ +∞ (3) F (x) ist in jedem Punkt x von rechts stetig, d.h. der rechtsseitige Grenzwert stimmt stets mit dem Funktionswert F (x) überein. (4) P (X = x) = F (x) − P (X < x) speziell: P (X < x) = lim F (x − h), für h > 0. h→0 (5) P (a < X ≤ b) = F (b) − F (a), falls a < b P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a) speziell: P (a ≤ X ≤ b) = F (b) − F (a) für stetige Verteilungen P (a < X < b) = F (b) − F (a) − P (X = b) P (a ≤ X < b) = F (b) − F (a) + P (X = a) − P (X = b) (6) P (X > x) = 1 − F (x) P (X < x) = F (x) − P (X = x) 2.1.2 Diskrete Zufallsvariablen und Dichten Eine ZV X heißt diskret, falls der Wertebereich (Träger) von X nur endlich oder abzählbar unendlich viele Werte annehmen kann. Besitzt ihr Wertebereich also die Gestalt 3 (x1 , x2 , x3 , . . .), so heißt sie und auch ihre Verteilung diskret. Wahrscheinlichkeitsfunktion (Dichte) einer diskreten ZV: P (X = x ) für x = x ∈ (x , x , x , . . .) i i 1 2 3 f (x) = 0 sonst 2.1.3 Stetige Zufallsvariablen und Dichten Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt, so daß die Verteilungsfunktion von X die Gestalt Zx f (t)dt für jedes x ∈ R F (x) = −∞ hat. Die Funktion f (x) heißt Dichte. Es gilt: (1) P (X = x) = 0 für alle x ∈ R, falls X eine stetige ZV ist. (2) f (x) = F 0 (x) = dF (x) , dx falls F (x) an der Stelle x differenzierbar ist. Z+∞ (3) f (x)dx = 1. −∞ 2.1.4 Zusammenhänge zwischen Dichten und Verteilungsfunktionen F (x) = X f (xi ) = xi ≤x Zx F (x) = X P (X = xi ) im diskreten Fall xi ≤x f (t)dt im stetigen Fall −∞ X P (a ≤ X ≤ b) = f (xi ) = a≤xi ≤b X P (X = xi ) im diskreten Fall a≤xi ≤b Zb P (a ≤ X ≤ b) = f (t)dt im stetigen Fall a 4 2.1.5 Erwartungswert, Varianz und Standardabweichung von Zufallsvariablen Falls die entsprechenden Summen bzw. Integrale definiert sind, gelten folgende Definitionen: Erwartungswert: X xf (x), falls X diskret x µ = E(X) = Z+∞ xf (x)dx, falls X stetig −∞ Varianz: X (x − E(X))2 f (x), falls X diskret x Z+∞ σ 2 = Var(X) = (x − E(X))2 f (x)dx, falls X stetig −∞ √ p Standardabweichung: σ = + σ 2 = + Var(X) 2.1.6 Rechenregeln und Eigenschaften von Erwartungswerten und Varianzen Für die stetige Transformation Y = g(X) einer Zufallsvariable gilt: X g(x)f (x), falls X diskret x Z+∞ E(Y ) = g(x)f (x)dx, falls X stetig −∞ Für eine lineare Transformation aX + b gilt: E(aX + b) = aE(X) + b für alle a, b ∈ R E(X + Y ) = E(X) + E(Y ) Var(aX + b) = a2 Var(X) Für die Varianz einer stetigen bzw. diskreten Zufallsvariablen gilt der Verschiebungssatz: Var(X) = E(X 2 ) − [E(X)]2 5 Standardisierung von Zufallsvariablen: Die Zufallsvariable X sei verteilt mit E(X) = µ und Var(X) = σ 2 . Für die zugehörige standardisierte Zufallsvariable Z= X −µ σ gilt: E(Z) = 0, Var(Z) = 1. 2.1.7 Transformationssatz für stetige Dichten Sei X eine stetige Zufallsvariable mit Dichte fX (x). Sei g(x) eine streng monotone und differenzierbare Funktion. Dann gilt für die Dichte fY (y) der transformierten Zufallsvariable Y = g(X): −1 d g (y) fY (y) = fX (g (y)) · dy −1 6 2.1.8 Spezielle diskrete Verteilungen mit ihren Dichten, Erwartungswerten und Varianzen X ∼ B(n, π) Schreibweise: Binomialverteilung Hypergeometrische Verteilung X ∼ H(n, N, M ) Poissonverteilung X ∼ P o(λ) Geometrische Verteilung X ∼ G(π) Negative Binomialverteilung X ∼ N B(r, π) Diskrete Gleichverteilung X ∼ U {a, . . . , b} Verteilung X ∼ B(n, π) X ∼ H(n, N, M ) X ∼ P o(λ) Wahrscheinlichkeitsfunktion E(X) Var(X) P (X = x) = n π x (1 − π)n−x für x = 0, 1, . . . , n x 0, sonst n π n π(1 − π) P (X = x) = (M )(N −M ) x Nn−x (n) 0 nM N P (X = x) = für x = max{0; n − (N − M )}, . . . , min{n; M } nM 1− N M N N −n N −1 sonst λx −λ e x! für x = 0, 1, 2, . . . 0, sonst λ λ 1 π 1−π π2 r π r(1−π) π2 (λ > 0) X ∼ G(π) X ∼ N B(r, π) P (X = x) = (1 − π)x−1 π P (X = x + r) = x+r−1 x für x = 1, 2, . . . π r (1 − π)x für r mit x = 0, 1, 2, . . . b−a · b−a−1 X ∼ U {a, . . . , b} P (X = x) = 1/(b − a + 1) für a ≤ x ≤ b a+b 2 ·( 13 (b − a)2 + + 12 (b − a) + 16 ) 7 2.1.9 Spezielle stetige Verteilungen mit ihren Dichten, Erwartungswerten und Varianzen Verteilung Dichte X ∼ U [a, b] Gleichverteilung f (x) = a<b X ∼ Ex(λ) Exponentialverteilung f (x) = Normalverteilung µ ∈ R, σ 2 > 0 X ∼ Cauchy Cauchy- f (x) = f (x) = X ∼ Ga(α, β) f (x) = Verteilung α, β ∈ R+ X ∼ Beta(α, β) Beta-Verteilung Var(X) Modus a+b 2 (b−a)2 12 NA 1 λ 1 λ2 0 µ σ2 µ NA NA 0 α β α β2 für a ≤ x ≤ b 0, sonst λe−λx für x ≥ 0 √1 2πσ E(X) sonst 2 exp( −(x−µ) ) 2σ 2 für x ∈ R Verteilung Gamma- 1 , b−a 0 λ>0 X ∼ N (µ, σ 2 ) f (x) = Beta-Funktion: B(α, β) = R∞ 0 R1 0 β α α−1 −βx x e Γ(α) für x ≥ 0 0 sonst 1 xα−1 (1 − x)β−1 B(α,β) α, β ∈ R+ Gamma-Funktion: Γ(α) = 1 π(1+x2 ) für 0 ≤ x ≤ 1 α−1 β für α > 1 α−1 α+β−2 α α+β αβ (α+β)2 (α+β+1) für α, β > 1 0 sonst e−x xα−1 d x xα−1 (1 − x)β−1 d x 8 Chi-Quadrat-(χ2 -)Verteilung: Z= n P Xi2 ∼ χ2 (d) (d.h. χ2 -verteilt mit d Freiheitsgraden) i=1 falls X1 , . . . , Xd unabhängige, standardnormalverteilte Zufallsvariablen sind Die χ -Verteilung ist ein Spezialfall der Gamma-Verteilung, eine Ga( d2 , 12 )-Verteilung. 2 2.2 2.2.1 Mehrdimensionale Zufallsvariablen Die gemeinsame Verteilungsfunktion und die Randverteilung von zwei Zufallsvariablen - beide diskret Diskrete gemeinsame Wahrscheinlichkeitsfunktion: f (x, y) = P (X = x, Y = y) Diskrete Verteilungsfunktion: F (x, y) = P (X ≤ x, Y ≤ y) = XX f (xi , yj ) xi ≤x yj ≤y ((xi , yj ) sind die Ausprägungskombinationen von (X, Y )) Diskrete Randdichte: fX (x) = P (X = x) = X j (analog für Y ) - beide stetig Stetige gemeinsame Dichtefunktion: f (x, y) 9 f (x, yj ) Stetige Verteilungsfunktion: Zx Zy F (x, y) = P (X ≤ x, Y ≤ y) = f (u, v)dvdu −∞ −∞ 2 ∂ F (x, y) = f (x, y), ∂x∂y falls F differenzierbar im Punkt (x, y) Stetige Randdichte: Z+∞ fX (x) = f (x, y) dy −∞ (analog für Y ) 2.2.2 Erwartungswert, Varianz, Kovarianz und Korrelationskoeffizient von zweidimensionalen Zufallsvariablen Diskrete Zufallsvariablen: E(XY ) = XX i xi · yj · f (xi , yj ) j Stetige Zufallsvariablen: Z+∞ Z+∞ E(XY ) = x · y · f (x, y)dydx −∞ −∞ Kovarianz: Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) Korrelationskoeffizient: ρXY = ρ(X, Y ) = wobei σX die Standardabweichung von X ist. Es gilt: −1 ≤ ρ(X, Y ) ≤ +1. 10 Cov(X, Y ) , σX σY 2.2.3 Multinomialverteilung Verteilung Wahrscheinlichkeitsfunktion X = (X1 , X2 , . . . , Xp ) ∼ Mp (n; π) π = (π1 , . . . , πp ), p P P (X1 = x1 , X2 = x2 , . . . , Xp = xp ) = n! π x1 π2x2 x1 !·xn !···xp ! 1 πi = 1 i=1 x · · · πp p für xi = 0, 1, . . . , n (i = 1, . . . , p); p P xi = n i=1 Momente: E(Xi ) = nπi , Var(Xi ) = nπi (1 − πi ), Cov(Xi , Xj ) = −nπi πj (i 6= j) Spezialfall p = 2 → Binomialverteilung 2.2.4 Unabhängigkeit von Zufallsvariablen Zwei ZV X, Y heißen unabhängig, wenn FX,Y (x, y) = FX (x)FY (y) d.h. die gemeinsame Verteilungsfunktion = Produkt der Randverteilungen bzw. fX,Y (x, y) = fX (x)fY (y), d.h. die gemeinsame Dichte = Produkt der Randdichten. Falls X, Y unabhängig sind, gilt Cov(X, Y ) = 0 und E(XY ) = E(X)E(Y ). 2.2.5 Bedingte Verteilungen und Dichten Die bedingte Verteilungsfunktion von X gegeben Y = y mit P (Y = y) > 0 ist definiert als FX|Y (x|y) = P (X ≤ x, Y = y) , P (Y = y) x ∈ R. Die bedingte Wahrscheinlichkeitsfunktion (-dichte) von X lautet sowohl bei diskreten als auch bei stetigen X für jedes feste y mit fY (y) 6= 0 fX|Y (x|y) = f (x, y) , fY (y) (Analog für Y ) 11 x ∈ R. 2.3 2.3.1 Das Gesetz der großen Zahlen und der zentrale Grenzwertsatz Das Gesetz der großen Zahlen Seien X1 , . . . , Xn unabhängige identisch verteilte Zufallsvariablen mit µ =E(Xi ) < ∞, so P gilt für X̄n = n1 ni=1 Xi : X̄n → µ für n → ∞. 2.3.2 Der zentrale Grenzwertsatz Seien X1 , . . . , Xn unabhängige identisch verteilte Zufallsvariablen mit µ =E(Xi ) < ∞ und endlicher Varianz σ 2 = Var(Xi ) > 0. Dann gilt für die Summe Yn = X1 + · · · + Xn n Yn − nµ 1 X Xi − µ a √ ∼ N (0, 1); =√ σ σ n n i=1 oder auch a Yn ∼ N (n · µ, n · σ 2 ) 12 3 Inferenz Ziel: Unter bestimmten Modellannahmen Aussagen über unbekannte Parameter θ ∈ Θ zu machen, nachdem Daten X beobachtet wurden. 3.1 Likelihood-Inferenz Likelihood-Prinzip: Schlüsse werden nur aus der Likelihood gezogen. Likelihood: Dichte f (x) in Abhängigkeit vom Parameter θ: L(θ) = f (x; θ) Loglikelihood: l(θ) = ln(L(θ)) Maximum-Likelihood-Schätzer: Derjenige Wert θ̂M L , der die Likelihood maximiert: L(θ̂M L ) = maxθ∈Θ L(θ) Normierte Likelihood: L̃(θ) = L(θ)/L(θ̂M L ) ˜l(θ) = l(θ) − l(θ̂M L ) rh i−1 Standardfehler des ML-Schätzers: SE(θ̂M L ) = −l00 (θ̂M L ) Normierte Loglikelihood: Likelihoodbasierte Vertrauensintervalle: 1. Exaktes Vertrauensintervall {θ : ˜l(θ̂) ≥ c} zum Niveau α mit c aus folgender Tabelle: α c 0.9 -1.353 0.95 -1.921 0.99 -3.317 13 2. Approximatives Vertrauensintervall θ̂ ± d · SE(θ̂M L ) mit d aus folgender Tabelle: α d 0.9 1.645 0.95 1.960 0.99 2.576 3.2 Bayes-Inferenz Vorwissen über den unbekannten Paramter θ wird durch eine Priori-Dichte f (θ) ausgedrückt. Bayes-Prinzip: Alle Schlüsse werden nur aus der Posteriori gezogen. Für die Posteriori-Dichte ergibt sich f (θ|x) ∝ f (x|θ) · f (θ) Punktschätzer: 1. Posteriori-Modus 2. Posteriori-Erwartungswert Intervallschätzer: 1. Highest-Posterior-Density-Intervall 2. Über die Quantile der Posteriori-Verteilung 3.3 Güteeigenschaften von Punktschätzern • Erwartungstreue: E(θ̂) = θ. • Varianz Var(θ̂) eines erwartungstreuen Schätzers ist Maß für die Güte. 3.4 Anpassungstests Häufig ist es von Interesse, die Anpassung eines bestimmten Modells an vorliegende Daten zu studieren. Dies ist insbesondere bei kategorialen Daten der Fall. Vorgehensweise Vergleich des Null-Modells mit dem saturierten Modell unter Annahme einer Multinomialverteilung mit p Kategorien. 14 1. ML-Schätzung der unbekannten Parameter θ im Null-Modell. 2. Berechnung der erwarteten Anzahl Ei an Fällen unter Annahme des Null-Models. 3. Berechnung der Residuen ri = X√ i −Ei . Ei 4. Berechnung des χ2 -Werts 2 χ = p X ri2 = i=i p X (Xi − Ei )2 Ei i=1 Alternative ist die Devianz D =2· p X i=1 Xi log Xi Ei Unter der Annahme des Null-Modells sind χ2 und D asymptotisch χ2 -verteilt mit k = p − 1 − q Freiheitsgraden, wobei q die Anzahl der geschätzten Parameter im NullModell ist. 15 4 4.1 Simulation Inversionsverfahren Aus einer beliebigen stetigen Verteilung mit Verteilungsfunktion F (x) lässt sich eine Zufallszahl X wie folgt erzeugen: X = F −1 (U ) 4.2 wobei U ∼ U [0, 1] Rejection sampling Aus einer beliebigen Verteilung mit Dichte fX (x) lässt sich wie folgt eine Zufallszahl ziehen: Sei fY (y) die Dichte einer weiteren Verteilung, aus der leicht Zufallszahlen erzeugt werden können. Es existiere eine Konstante c ≥ 1 mit fX (x) ≤ c · fY (x) für alle x ∈ R. Dann wird wie folgt gezogen: REPEAT Erzeuge Zufallzahl X aus fy . Erzeuge eine von X unabhängige Zufallszahl U aus U [0, 1]. Berechne Akzeptanzwahrscheinlichkeit p(X) = UNTIL (U ≤ p(X)) RETURN X 16 fX (X) . c·fY (X) 4.3 Kongruenzgenerator Ziel: Erzeugung von stetig gleichverteilten Zufallsvariablen auf [0, 1]. Wähle einen Startwert X0 (seed). Erzeuge eine Folge von Zufallszahlen Ui , i = 1, 2, . . . wie folgt: Xi = (a · Xi−1 + c) mod M Ui = Xi /M Bei geeigneter Wahl der Parameter a, c und M erhält man eine Folge von zufällig erscheinenden Pseudo-Zufallszahlen. 17