Formelsammlung Stochastik Andrea Katharina Fuchs 31. Januar 2008 1 2 Wahrscheinlichkeit Ω ... Ereignisraum, Grundraum ω ... Elementarereignis A, B, C ... Ereignis, Teilmenge von Ω X ... Zufallsvariable X : Ω → <, ω → X(ω) X diskret, falls W = X(Ω) diskret X stetig, falls ∃a, b : W = X(Ω) ⊃]a, b[ Schnittmenge: A ∩ B heisst ” A und B” Vereinigung: A ∪ B heisst ” A oder B” Komplement: Ac = A = AΩ heisst ”nicht A” 2.1 Verteilungsfunktion Def: Fx (b) = P [X 6 b] Laplace Modell: P [A] = AnzahlA AnzahlΩ uniforme Verteilung: P [ω] = 1/Ω für alle ω 1. Fx ist monoton steigend: Fx (x1 ) 6 Fx (x2 ) ∀ x2 > x1 2. Fx ist rechtsstetig: limh→0 Fx (x + h) = Fx (x) 3. limx→∞ Fx (x) = 1 und limx→0 Fx (x) = 0 De Morgan: (A ∩ B)c = Ac ∪ B c (A ∪ B)c = Ac ∩ B c 1.1 Zufallsvariable und Wahrscheinlichkeitsverteilung 2.2 Rechenregeln Wahrscheinlichkeitsfunktion p(xi ) = P [X = xi ] P [Ac ] = 1 − P [A] (P [Ac ] + P [A] = 1) p(xi ) > 0 und P [A ∪ B] = P [A] + P [B] − P [A ∩ B] 2.3 P p(xi ) = 1 Erwartungswert und Varianz 1 > P [A] > 0, P [Ω] = 1 P [A ∩ B]c = P [Ac ] ∪ P [B c ] P (∪m i=1 Ai ) = P [A1 ∪ ... ∪ Am ] 6 P [A1 ] + ... + P [Am ] Erwartungswert: P (mean) P E(X)= µx = g(xi ) · p(xi ) = xi · p(xi ) 1.2 Varianz: P V ar(X)= σx2 = E[(X − E(X))2 ] = (xi − µi )2 · p(xi ) = E[X 2 ] − E[X]2 Unabghängigkeit wenn A, B unabhängig: P [A ∩ B] = P [A] · P [B] unabhängig = disjunkt: falls A ∩ B = ∅ (leere Menge) P [A ∩ B ∩ C] = P [A] · P [B] · P [C] etc. 1.3 Standardabweichung: p σx = V ar(X) Kombinatorik 2.4 n: # in Grundmenge k: # in Elemente Diskrete Verteilung P pi = 1 Falls die Menge W der möglichen Werte von X endlich oder abzählbar ist • Reihenfolge wesentlich, Wiederholung gestattet: v(k, n) = nk • Binomialverteilung X ∼ BI(n, p) • Poissonverteilung X ∼ P OI(λ) • Reihenfolge wesentlich, Wiederholung nicht gestattet: n! v(k, n) = (n−k)! • geometrische Verteilung X ∼ GEO(p) • Reihenfolge Wiederh. nicht gestattet: unwesentlich, n n! v(k, n) = = k!(n−k)! k • Reihenfolge unwesentlich, Wiederholung gestattet: n+k−1 v(k, n) = k 1 3 Stetige W’keitsverteilung P [X 6 b] = Fx (b) = Rb −∞ 4 fx (u)du 4.1 Fx ... Verteilungsfunktion von X fx ... Dichtefuntion von X V ar(X) = σx2 • A1 , ..., An sind unabhängig, Unabh.keit der Ereignissse • P [A1 ] = ... = P [An ] = P [A] gleiche Wahrsch.keiten R∞ x · f (x)dx −∞ = R∞ −∞ • X1 , ..., Xn sind unabhängig 2 • alle Xi haben dieselbe Verteilung (x − µx ) · f (x)dx Somit gilt: P [A ∩ B] = P [A] · P [B] Fx1 = Fxn → P (x1 6 t) = P (xn 6 t) E[X1 · X2 ] = E[X1 ] · E[X2 ] f (x) ist Dichtefunktion, wenn: 1. f (x) > 0 R∞ 2. −∞ f (x)dx = 1 3.1 4.2 Quantile q(α) Summe: Sn = X1 + ... + Xn Median wenn α = 1/2: q(1/2) arithmetisches Mittel: X n = Wichtige stetige Verteilungen Sn n Ausnahmen von Sn mit einfacher Bestimmung: • uniforme Verteilung X ∼ U N I(a, b) • Exponentialverteilung X ∼ EXP (α) Wenn die Zeiten zwischen den Ausfällen eines Systems Exponential(λ)-verteilt sind, dann ist die Anzahl Ausfälle in einem Intervall der Länge t Poisson(λ t)-verteilt. 2 • Normalerteilung (Gauss) X ∼ N (µ, σ ) 3.2.1 Funktionen von Zufallsvariablen Y = g(X1 , ...Xn ) und X1 , ...Xn stets i.i.d. P [X 6 q(α)] = α ⇔ q(α) = F −1 (α) 3.2 Die i.i.d. Annahme independent and identically distributed f (b) = F 0 (b) = limh→0 P [x6b6x+h] h E[X] = µx = Mehrere Zufallsvariablen und Funktionen davon 2. Wenn Xi ∼ P OI(λ), dann ist Sn ∼ P OI(n · λ) 3. Wenn Xi ∼ N (µ, σ 2 ), dann ist Sn ∼ N (n · µ, n · σ 2 ) E[Sn ] = n · E[Xi ] V ar(Sn√) = n · V ar(Xi ) σSn = n · σXi Transformation Y = g(X) E[X n ] = E[Xi ] V ar(X n ) = √ V ar(Xi )/n σXn = σXi / n limn→∞ V ar(barXn ) = 0 g linear: g(X) = a + b · X = Y E[Y ] = E[a + bX] = a + b · E[X] V ar(Y ) = V ar(a + bX) = b2 · V ar(X) und σy = b · σx 1 x−a Fy (x) = Fx ( x−a b ) und fy (x) = b fx ( b ) 4.3 Allgemein: R∞ E[Y ] = E[g(x)] = −∞ g(x) · f (x)dx V ar(Y ) = E[Y 2 ] − E[Y ]2 1 Fy (b) = Fx (g −1 (b)) · g0 (g−1 (b)) Das Gesetz der Grossen Zahlen X1 , ..., Xn i.i.d. mit Erwartungswert µ, dann: X n → µ (n → ∞) Spezialfall davon: fn [A] → P [A] (n → ∞) Lognormalverteilt: Y ∼ LOG(µ, σ 2 ) ↔ log(Y ) ∼ N (µ, σ 2 ) Y = ex aus X ∼ N (µ, σ 2 ) 2 Es gilt: E[Y ] = exp( µ+σ 2 ) E[ln(X)] = µ P [a < X < b] = P [ln a < ln X < ln b] = Ψ Ψ ln a−µ σ 1. Wenn Xi ∈ {0, 1}, dann ist Sn ∼ BI(n, p) mit p = P [Xi = 1] 4.4 Der Zentrale Grenzwertsatz X1 , ..., Xn i.i.d. mit Erwartungswert µ und Varianz σ 2 , dann: ln b−µ σ 2 − Sn ≈ N (n · µ,2n · σ ) für grosse n X n ≈ N (µ, σ /n) für grosse n 4.5 Paretoverteilt: Y = ex aus X ∼ EXP (α) P [X > x] = x−α fy (x) = α · x−(α+1) Fy (x) = 1 − x−α Chebychev Ungleichung P [|X n − µ| > c] 6 σ2 n·c2 Mit dieser ist man stets auf der sicheren Seite, dafür aber meistens ziemlich grob. 2 5 5.1 Gemeinsame und bedingte Wahrscheinlichkeit 6 Bedingte Wahrscheinlichkeit 6.1 Die Bedingte Wahrscheinlichkeit von A gegeben B: P [A|B] = P [A∩B c ] P [B c ] Daraus abgeleitete R Rallgemeine Wahrscheinlichkeit: P [(X, Y ) ∈ A] = f (x, y)dxdy mit A ⊆ <2 A X,Y Falls A und B unabhängig: P [A|B] = P [A|B c ] = P [A] 5.2 Gemeinsame Dichte Gemeinsame Dichte fX,Y (., .) von zwei stetigen Zufallsvariablen X und Y: P [x 6 X 6 x + dx, y 6 Y 6 y + dy] = fX,Y (x, y)dxdy P [A∩B] P [B] analog: P [A|B c ] = Gemeinsame und bedingte stetige Verteilungen 6.1.1 Randdichte und bedingte Dichte Randdichte R ∞von X, bzw. von Y: fX (x) = −∞ fX,Y (x, y)dy R∞ fY (y) = −∞ fX,Y (x, y)dx Satz der totalen Wahrscheinlichkeit Gegeben: P [B], P [A|B], P [A|B c ] Bedingte Dichte, wenn X = x gegeben: Satz I: (x,y) P [A] = P [A∩B]+P [A∩B c ] = P [A|B]·P [B]+P [A|B c ]·P [B c ] fY (y|X = x) = fX,Y fX (x) Satz II: P k P [A] = i=1 P [A|Bi ] · P [Bi ] Bei Unabghängigkeit von X und Y: fX,Y (x, y) = fX (x) · fY (y) 5.3 6.2 Satz von Bayes P [Bi |A] = P [A|Bi ]·P [Bi ] P [A|B1 ]·P [B1 ]+...+P [A|Bk ]·P [Bk ] Erwartungswert bei mehreren Zufallsvariablen E[g(X, Y )] = 5.4 Gemeinsame und bedingte diskrete Verteilungen R∞ R∞ −∞ −∞ g(x, y) · fX,Y (x, y)dxdy Im diskreten Fall: P P E[g(X, Y )] = i j g(xi , yj ) · P [X = xi , Y = yj ] Randverteilung: P [X = xi ] und P [Y = yj ] ErwartungswertR der einen Zufallsvariable Y gegeben X = x: ∞ E[Y |X = x] = −∞ yfY (y|X = x)dy Gemeinsame Verteilung: P [X = xi , Y = yj ] 6.3 Kovarianz und Korrelation Kovarianz: Cov(X, Y ) = E[(X − µX )(Y − µY )] BedingteVerteilung: P [Y = yj |X = xi ] Korrelation: Corr(X, Y ) = ρXY = Cov(X,Y ) σX ·σY Rechenregeln: E[X + Y ] = E[X] + E[Y ] für beliegige, auch abhängige Zufallsvariablen Cov(X, Y ) = E[XY ] − E[Y ] · E[Y ] Cov(X, Y ) = 0 falls X und Y unabhängig Cov(a + bX, c + dY ) = b · d · Cov(X, Y ) Cov(a + bX, c + dY ) = sign(b) · sign(d) · Cov(X, Y ) V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) Die Korrelation misst Stärke und Richtung der linearen Abhängigkeit zwischen X und Y. Corr(X, Y ) = +1 genau dann wenn Y = a + bX für ein a ∈ < und ein b > 0 Corr(X, Y ) = −1 genau dann wenn Y = a+bX für ein a ∈ < und ein b < 0 Wenn X,Y unabhängig: ⇒ Corr(X, Y ) = 0 3 6.4 8 Lineare Prognose Schliessende Statistik Lineare Prognose von Y gestützt auf X, Ansatz: Yb = a + bX: 8.1 Das Testproblem ) Yb = µY + Cov(X,Y V ar(X) (X − µX ) Nullhypothese: E[(Y − Yb )2 ] = (1 − ρ2XY ) · V ar(Y ) H0 : p = p0 Alternativen: 6.5 Zwei-dimensionale Normalverteilung p 6= p0 (zweiseitig) p > p0 Kovarianz-Matrix: (einseitig nach oben) p < p0 V ar(X) Cov(X, Y ) (einseitig nach unten) Cov(X, Y ) V ar(Y ) Normalverteilung: X Y ∼ N2 µX µY Wenn wir an der Abweichung nach oben interessiert sind, dann lehnen wir die Nullhypthese ab, falls x > c. Wir nehmen einmal an, dass die Nullhypthese stimmt, dann ist die Wahrscheinlichkeit, die Nullhypthese fälschlicherweise abzulehnen (Fehler 1. Art): Pn n Pp0 [X > c] = k=c pk0 (1 − p0 )n−k k ,Σ Dichte: 0 fX,Y (x, y) = 6.6 7 7.1 1 √ e 2π detΣ − 21 (x−µX ,y−µY )Σ−1 @ x − µX y − µY 1 A Fehler 2. Art: kein Verwerfen der Nullhypthese, obwohl sie falsch ist: Pp0 [X > c] 6 α Mehr als 2 Zufallsvariablen Zweiseitig: verwerfe Nullhypothese, falls c1 > x und c2 6 x Pc1 n pk0 (1 − p0 )n−k 6 α2 k=0 k Pn n pk0 (1 − p0 )n−k 6 α2 k=c2 k Deskriptive Statistik Kennzahlen Arithmetisches Mittel: x = n1 (x1 + ...xn ) Ablauf eines Testes 1. Lege Nullhypothese fest Empirische Varianz: 2. Vernünftige Alternative, zweiseitig oder einseitig, oben oder P n 1 2 s2 = n−1 i=1 (xi − x) unten 3. Signifikanzniveau, α = 0.05(üblich) oder 0.01 Empirisches α-Quantil: x(k) mit k die kleinste ganze Zahl 4. Konstruiere Verwerfungsbereich für H0 , so dass: > αn bei geordetenen Werten x(1) 6 x(2) 6 ... 6 x(n) P [F ehler1.Art] 6 α 5. Erst jetzt: betrachte ob Beobachtung x in den VerwerfungsQuartilsdifferenz: Unterschied zwischen 25%- und 75%-Quantil bereich fällt. Falls ja, verwerfe Nullhypothese 7.2 Histogramm, Boxplot und Q-Q Plot 8.2 P-Wert Es gibt ein Niveau, wo H0 gerade noch verworfen wird. Der PWert ist das kleinste Signifikanzniveau wo H0 verworfen wird. 8.3 Vertrauensintervalle Vertrauensintervall q für p, falls X ∼ Binom(n, p): x α −1 (1 − 2 ) nx (1 − nx ) n1 n ±Φ Vertrauensintervall √ für λ, falls X ∼ P oisson(λ): x ± Φ−1 (1 − α2 ) x Vertrauensintervall q für λ̂: λ̂ ± Φ−1 (1 − α2 ) nλ̂ Histogramm: Berechnung der Häufigkeit einzelner Werte im Intervall, proportianale Balken Boxplot: Rechteck begrenzt durch das 25%- und 75%-Quantil, Linien von gršsstem bis kleinstem ”normalen”Wert (1.5 mal die Quartilsdifferenz), Ausreisser: Sterne Q-Q-Plot: ”Quantil-Quantil-Plot”, bei Normalverteulung: Gerade, jedoch nicht durch Null und nicht im 45 Grad Winkel Vertrauensintervall q für p̂: α −1 p̂ ± Φ (1 − 2 ) np̂ 4 9 Statistik bei normalverteilten Daten 9.1 allen möglichen Tests ist, falls die Beobachtungen normalverteilt sind. Bei nicht-normalverteilten Beobachtungen können andere Tests sehr viel besser sein. Schätzungen 10 Punktschätzungen: Pn µ b = X n = n1 i=1 Xi σ b2 = Sn2 = 1 n−1 Pn i=1 (Xi −µ b)2 Die Verteilung von Xi sei bekannt bis auf einen unbekannten Parameter θ, dabei kann θ auch mehrere Komponenten haben und ist dann ein Parametervektor. Erwartungswert der Schätzer: E(b µ) = µ E(b σ2 ) = σ2 9.2 10.1 X̄−µ √0 σ/ n 10.2 ∼ N (0, 1) Maximum-likelihood Schätzer Wählt als Schätzer Parameterwert, der die log-LikelihoodFunktion maximiert P n für diskrete Xi : l(θ) =P i=1 log(pθ (Xi )) n für stetige Xi : l(θ) = i=1 log(fθ (Xi )) Vertrauensintervall zweiseitig: i h α σ −1 √ X̄ − n Φ (1 − 2 ), X̄ + √σn Φ−1 (1 − α2 ) Verwerfungsbereich einseitig: −1 Φ (1 − α), ∞ oben −∞, Φ−1 (α) unten t-Test σ unbekannt, Daten sind Normalverteilt H0 verwerfen, falls: zweiseitig: √ 0 |T | = | x−µ n| > tn−1,1− α2 Sx einseitig: √ 0 n > tn−1,1−α T = x−µ Sx Vertrauensintervall zweiseitig: h i Sx S α , X̄ + √x t α X̄ − √ t n n−1,1− 2 n n−1,1− 2 Verwerfungsbereich einseitig: [tn−1,1−α , ∞] oben [−∞, tn−1,α ] unten 9.2.1 Momentenmethode Unbekannter Parameter mit Hilfe der Momente µk = E[X k ] ausdrückbar: θj = gj (µ1 , ...µp ) Momentenschätzer ersetzt wahre µk durch empirische Analoga: θ̂j = gj (µ̂ P1n, ..., µ̂p ) µ̂k = n1 i=1 Xik Testen z-Test σ bekannt, Daten sind Normalverteilt H0 verwerfen, falls: |X n − µ0 | > √σn Φ−1 (1 − α2 ) Betrag bei zweiseitigem Test, ohne bei einseitigem, > bei nach oben, < bei nach unten Z= Punktschätzungen: allgemeine Methoden Macht eines Tests Macht: 1 − β(µ) = P [Test verwirft richtigerweise H0 für ein µ ∈ HA ] mit Wahrscheinlichkeit eines Fehler 2. Art: β(µ) = P [Test akzeptiert H0 obschon ein µ ∈ HA stimmt] Die Macht beschreibt die Kapazität wie gut ein Test einen Parameter im Bereich der Alternative richtigerweise entdecken kann. Deshalb kann die Macht als Gütekriterium gebraucht werden, um optimale Tests zu charakterisieren. Man kann zeigen, dass der t-Test der optimale Test unter 5 11 11.1 Vergleich zweier Stichproben |X̄n −Ȳm | √ Spool 1/n+1/m X̄ √n −Ȳm Spool 1/n+1/m Gepaarte und ungepaarte Stichproben > tn+m−2,1− α2 bei Alternative HA : µX 6= µY > tn+m−2,1−α bei Alternative HA : µX > µY mit: Pn Pn Randomisierung: 1 2 (Xi − X̄n )2 + i=1 (Yi − Ȳm )2 Spool = n+m−2 i=1 Zufällig gewählte Reihenfolge der Versuche, verschiedene Versuchseinheiten unter zwei verschiedenen Versuchbedingungen 1 V ar(X̄n − Ȳm ) = σ 2 ( n1 + m ) ergeben eine ungepaarte Stichprobe. Einzelne Tests müssen nicht gleiche Stichprobengrösse haben. Gepaarte Stichproben: beide Versuchsbedingungen an derselben Versuchseinheit getestet. Notwendigerweise müssen die beiden Stichprobengrössen gleich sein. 11.2 Gepaarte Vergleiche Differenz innerhalb der Paare: ui = xi − yi Besteht kein Unterschied zwischen den Versuchsreihen: E[Ui ] = 0 → Nullhypthese und Alternative aufstellen Verschiedene mögliche Tests: 1. t-Test 2. Vorzeichen-Test 3. Wilcoxon-Test 11.2.1 Vorzeichen-Test Annahme: NUR i.i.d, keine normalverteilten Daten Daten: X1 , ..., Xn und Zi = Xi − µ Vorzeichen: sign(Z1 ), ...sign(Zn ) wobei: sign(Zi > 0) = 1 und sign(Zi 6 0) = −1 Teststatistik: V=Anzahl pos. Beobachtungen Verteilung von V: BIN (n, p = P [Zi > 0]) 11.2.2 Wilcoxon-Test Kompromiss: setzt weniger vorraus als t-Test, nützt Daten aber besser aus als Vorzeichen-Test. 1. Ränge bilden: Rang(|Ui |) = k z.B. k = 1 für kleinste Differenz U. Wenn einzelne |Ui | zusammenfallen, teilt man die Ränge auf 2. Vi ist Indikator, ob Ui positiv ist: V (U > 0) = 1 und V (U < 0) = 0 3. Verwerfung der Nullhypothese falls Pn W = i=1 Rang(|Ui |) · Vi zu gross, zu klein oder beides ist. Eigenschaften: U hält das Niveau α exakt, falls F symm. (um 0) und xi i.i.d Fehler 2.Art von t-Test ist oft viel grösser als Fehler 2.Art von U. Wilcoxon-Test ist in der Praxis dem t- oder Vorzeichen-Test vorzuziehen, ausser z.B. die Daten sind gut mit einer Normalverteilungbeschrieben (dann t-Test). 11.3 Zwei-Stichproben Tests Ungepaarte Stichproben, unabhängige Zufallsvariablen Xi ∼ N (µX , σ 2 ) Yi ∼ N (µY , σ 2 ) Nullhypothese H0 : µX = µY verwerfen, falls: 6