Wahrscheinlichkeitsrechnung und Statistik Zusamenfassung Patrick Pletscher 22. September 2003 1 Wahrscheinlichkeiten Exkurs in die Kombinatorik 1.1 Ereignisraum Permutationen ohne Zurücklegen Aus n Objekten sind k ≤ n herauszugreifen, wobei die Reihenfolge eine Rolle spielen soll. Der Ereignisraum Ω umfasst alle möglichen Ausgänge eines Zufallsexpermiments. Ein Elementarereignis Ω ist ein Element ω ∈ Ω Ein Ereignis A ist eine Teilmenge von Ω, d.h. eine Kombination von Elementarereignissen A ⊂ Ω ] Mögl. = n! (n−k)! Permutationen mit Zurücklegen Gegeben sind n Objekte. Wieviele Folgen der Länge k können gebildet werden, falls jedes Objekt beliebig oft gewählt werden darf. Ac (Komplement) ist das Ereignis, dass A nicht eintritt. A ist die Klasse der beobachteten Ereignisse. Falls Ω endlich ist, dann ist A die Menge aller Teilmengen ] Mögl. = nk von Ω, d.h. die Potenzmenge. P : A → [0, 1] . P(A)= ’die Wahrscheinlichkeit, dass A eintritt’ Kombinationen ohne Zurücklegen Gegeben eine Menge mit n Elementen. Wieviele Teilmengen mit k ≤ n Elementen kann man daraus bilden? Axiome der Wahrscheinlichkeitstheorie ] Mögl. = 1.2 Das Wahrscheinlichkeitsmass n! (n−k)!k! = n k A1 0 ≤ P (A) ≤ 1 für alle A ⊂ Ω Bsp: Lotto (6 aus 45) A = {6Richtige} = 45 6 B = {4Richtige} = 64 39 2 A2 P (Ω) = 1 A3 Sei A1 , A2 , . . . eine Folge disjunkter Ereignisse, P∞ dann P (∪∞ ) = i=1 i=1 P (Ai ) 1.4 Bedingte W’keiten Weitere Rechenregeln P (Ac ) = 1 − P (A) Seien A,B Ereignisse, P (A) > 0 Def.: Die bedingte W’keit, dass A gegeben B eintritt, ist P (B|A) = P P(A∩B) (A) P (∅) = 0 A ⊂ B ⇒ P (A) ≤ P (B) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Multiplikationssatz Sei P (A) > 0: Dann P (A ∩ B) = P (B|A)· P (A) ¯ + P (B)) ¯ P (A ∪ B) = 1 − (P (A) und → Multiplikation 1.3 Berechnung von W’keiten in endlichen Räumen P (A) = Satz von der totalen W’keit Gegeben seien Ereignisse A1 , . . . , An mit P (Ai ) > 0. Def.: Die Ai bilden eine Zerlegung von Ω, falls |A| |Ω| 1 1. Ai ∩ Aj = ∅ für i 6= j, paarw. disj. 2. Ω = n S Die Verteilungsfunktion ist: • rechtsstetig Ai i=1 • limx→−∞ F (X) = 0, limx→+∞ F (X) = 1 Dann gilt für B ⊂ Ω dass n P P (B|Ai )· P (Ai ) P (B) = 2.3 Einige wichtige diskrete Verteilungen i=1 Satz von Bayes P (A|B) = P P(A∩B) (B) = 1. Uniforme Verteilung (Gleichverteilung) ω = {x1 , . . . , xn } p(xi ) = P (X = xi ) = n1 Bsp: Würfeln mit einem Würfel P (B|A)·P (A) P (B|A)·P (A)+P (B|AC )·P (AC ) 2. Bernoulli-Verteilung X nimmt nur die Werte 0 und 1 an P (X = 1) = p P (X = 0) = 1 − p P (X) = px · (1 − p)1−x , x = 0, 1 X ∼ Be(p) Allgemeine Formel von Bayes P (B|Ak )P (Ak ) P (Ak |B) = P n P (B|Ai )P (Ai ) i=1 1.5 Unabhängigkeit Seien A, B ⊂ Ω zwei Ereignisse. Def. A und B sind unabhängig, falls P (A ∩ B) = P (A)P (B) Falls P (A) > 0: A,B unabh. ⇔ P (B|A) = P (B) Falls P (B) > 0: A,B unabh. ⇔ P (A|B) = P (A) 3. Binomialverteilung X=”Anzahl Erfolge bei n Versuchen” p(k) = nk pk (1 − p)n−k X ∼ B(n, p) Approx. durch Poisson Multinomialverteilung Allgemeine Definition der Unabhängigkeit 4. Die geometrische Verteilung X=”Anzahl der Versuche, bis ein Erfolg eintritt” p(k) = P (X = k) = (1 − p)k−1 p P [X1 = x1 , X2 = x2 , X3 = x3 ] = n Ereignisse A1 , . . . , An heissen unabhängig, falls für jede Wahl von je m Ereignissen Ak1 , . . . , Akm , {k1 , . . . , km } ⊂ {1, . . . , n}, stets gilt: P (Ak1 ∩ . . . ∩ Akm ) = P (Ak1 )· . . . · P (Akm ) x1 x2 x3 n! x1 !x2 !x3 ! p1 p2 p3 5. Die negativbinomiale Verteilung X=”Anzahl Versuche, bis ich r-mal erfolgreich bin” r k−r P (X = k) = k−1 r−1 p (1 − p) 2 Zufallsvariable 6. Die hypergeometrische Verteilung n Gegenstände in einer Urne, r vom Typ I und n-r vom Typ II, ich ziehe m davon (ohne Zurück(r )( n−r ) legen) P (X = k) = k nm−k (m) Bsp: Lotto, 6 aus 45, W’keit eines Vierers: n=45, r=6, m=6, k=4 2.1 Begriff der ZV Es sei Ω ein Ereignisraum. Eine ZV auf Ω ist eine Funktion Ω → R. Wir nennen eine ZV diskret, falls sie endliche oder abzählbar viele Werte annimmt. 7. Die Poisson-Verteilung X=”Anzahl Ereignisse in einem Zeitintervall(Anrufe, gedruckte Files)” X ist Poisson-verteilt mit Parameter λ, falls k −λ e P (X = k) = λ k! k = 0, 1, . . . Wertebereich W = 1, . . . , ∞ λ = E[X] = n· p 2.2 Wahrscheinlichkeit- und Verteilungsfunktion Def. Die W’keitsfunktion der diskreten ZV X ist die Funktion P (X = x) falls x ∈ ω p(x) = 0 sonst ω: Wertebereich von X 2.4 Stetige Zufallsvariablen Sind ZV, die Werte in einem Intervall W annehmen können. z.B.: W = R, W = R+ , W = [0, 1] Definition Sei X eine ZV mit Verteilungsfunktion oder W’keitsfunktion F (x) = P [X ≤ x]. Falls es eine Funktion f(x) gibt, so dass Verteilungsfunktion F: F (x) = P (X ≤ x) Für diskrete P ZV ist F (x) = p(xi ) xi : xi ∈ ω, xi ≤ x 2 Rx F (x) = −∞ f (y)dy für alle x ∈ W , dann heisst f (x) 2.5 Transformation von ZV die Dichte von X. Sei X eine ZV mit Verteilungsfkt. FX (x) und Dichte fX (x). Gesucht: Verteilung und Dichte von Y = g(X) Eigenschaften • f (x) ≥ 0 für alle x Satz Wenn X ∼ N (µ, σ 2 ) und Y = aX + b, dann gilt Y ∼ N (aµ + b, a2 σ 2 ) • f (x) ist stetig oder stückweise stetig • R∞ f (x)dx = 1, weil lim F (x) = 1 x→∞ −∞ • a < b : P [a < X ≤ b] = P [X ≤ b] − P [X ≤ a] = Satz Rb Sei X stetig, mit Dichte fX (x), Verteilung FX (x). F (b) − F (a) = f (x)dx a Sei Y = g(X), mit g diff’bar, streng monoton steigend/fallend auf einem Intervall I, wobei fX (x) = 0 • P [X = a] = 0 für x ∈ / I (I = R ist zugelassen). Satz Dann ist die Dichte von Y d −1 An allen Stellen, an denen f (x) stetig ist, gilt: g (y)| fX (g −1 (y))· | dy fY (y) = F 0 (x) = f (x) 0 sonst wobei g −1 die Umkehrfkt. von g und y ∈ {g(x)|x ∈ I} Beispiele von Y ist 1. Gleichverteilung (Uniform Distribution): X ∼ und die Verteilungsfkt. −1 F (g (y)) für g steigend X U (0, 1) FY (y) = −1 1 − F (g (y)) für g fallend X 1 für x ∈ [0, 1] f (x) = y ∈ {g(x)|x ∈ I} 0 sonst 0 für x < 0 x für x ∈ [0, 1] F (x) = 1 für x > 1 Lognormale Verteilung X ∼ N (µ, σ 2 ), Y = ex 2. Exponentialverteilung X ∼ Exp(λ) g(x) = ex , g −1 (y) = ln y, I = R λ>0 λe−λx für x > 0 f (x) = 0xsonst Satz x R f (y)dy = R λe−λx dy = 1 − e−λx für x ≥ 0 Sei U ∼ U (0, 1). F (x) = 0 0 Sei F (x) eine stetige, streng monoton wachsende 0 für x < 0 Verteilungsfunktion. Setze Die Exp-Verteilung ist gedächnislos. X := F −1 (U ) Ein Ankunftsprozess, bei dem die Zeiten zwiDann gilt: schen den Ankünften Exponentiell-verteilt P [X ≤ x] = F (x) ist, heisst Poisson-Prozess. λ heisst dann die (Ankunfts)Rate des Poisson-Prozess. 3. Die Normalverteilung X ∼ N (µ, σ 2 ) / Gauss-Verteilung Definition • Der Wert F −1 (p) (für p ∈ (0, 1)) heisst das pQuantil der Verteilung F 1 1 x−µ 2 f (x) = √ exp{− ( ) } 2 σ 2Πσ µ = ”Mean”, Mittelwert, −∞ < µ < ∞ σ = Standardabweichung, σ > 0 σ 2 = Varianz Rx F (x) = f (y)dy: keine geschlossene Form, • F −1 (0.5) heisst der Median der Verteilung F. −∞ 3 Gemeinsame Verteilung mehrerer ZV aber Tabellen Standardisierte NV: µ = 0, σ = 1 Wenn X ∼ N (µ, σ 2 ) dann ist x−µ σ ∼ N (0, 1) 0 x−µ x0 −µ 0 P [X ≤ x ] = P [ σ ≤ σ ] = Φ( x σ−µ ) Φ(−x) = 1 − Φ Seien X1 , . . . , Xn Zufallsvariablen. Dann ist F (x1 , . . . , xn ) = P [X1 ≤ x1 , . . . , Xn ≤ xn ] 3 3.1 Stetige ZV Wichtige Mehrdimensionale Verteilungen Falls wir F (x1 , . . . , xn ) folgendermassen darstellen können F (x1 , . . . , xn ) = x Rn Rx1 f (y1 , . . . , yn )dyn . . . dy1 dann heisst ... 1. die mehrdimensionale Normalverteilung (stetige Verteilung) Dichte: 1√ · f (x, y) = 2 −∞ −∞ 2ΠσX σY f (x1 . . . xn ) die Dichte von (X1 . . . Xn ) exp{− 1 2(1−ρ2 )[( x−µX σX )2 +( y−µY σY )2 − 2ρ(x−µX )(y−µY ) ] σX σ Y } −1 < ρ < +1 Korrelation zw. X und Y. Randverteilung 1 X 2 exp(− 21 ( x−µ fX (x) = σ √ σX ) ) X 2Π Unabhängigkeit von X und Y, genau dann, wenn ρ=0 Eigenschaften RR • P [(X1 . . . Xn ) ∈ A] = f (~x)d~x A R R ... f (x1 , . . . , xn )dx1 . . . dx1 1−ρ = (x1 ...xn )∈A R∞ • ... −∞ R∞ 2. Die Multinomiale Verteilung (diskret) Es werden n unabhängige Experimente durchgeführt. Es gibt jeweils Pn r mögliche Ergebnisse mit W’keit p1 , . . . , pr . i=1 pi = 1. Sei Ni die Anzahl der Ergebnisse ”i”. Die Vtlg. von [N1 , . . . , Nr ] heisst Multinomialvtlg. n1 n p(N1 = n1 , . . . , Nr = nr ) = n1 ···n p1 · · · pnr r r n n! n1 ···nr = n1 !···nr ! : Multinomialkoeffizient RV von Ni : pNi (ni ) = P [Ni = ni ] = nni pni i (1 − pi )n−ni r Q p(n1 . . . nr ) 6= pNi (ni ) ⇔ keine Unabh. f (x1 , . . . , xn )dxn . . . dx1 = 1 −∞ • f (x1 , . . . , xn = ∂n ∂x1 ...∂xn F (x1 . . . xn ) 3.2 Randverteilungen Gegeben sei die gemeinsame Verteilung von X und Y:F (x, y). Die Randverteilung von X ist: FX (x) = P [X ≤ x] = P [X ≤ x; Y ∈ (−∞, ∞)] = lim F (x, y) y→∞ i=1 Diskrete ZV: Y ∈ {y1 , y2 , . . .} Die W’keitsfkt. der Randverteilung von X ist P pX (x) = p(x, yj ) 3. Mehrdim. Verteilungen mit U(0,1)-RV 1 F (x, y) = exp(−[(− ln x)β + (− ln y)β ] β x, y ∈]0, 1], β ≥ 1 RV: FX (x) = F (x, y = 1) = x: U(0,1)-Vrtlg. (Y genauso) j Stetige ZV: Die Dichte der RV von X ist Rx R∞ d d fX (x) = dx FX (x) = dx [ f (x0 , y 0 )dy 0 ]dx0 = 3.4 Bedingte Verteilungen −∞ −∞ R∞ 0 f (x, y )dy 0 Diskrete ZV −∞ X,Y ZV diskret mit gemeinsamer W’keitsfkt. p(x,y) Def. Die bedingte W’keitsfkt. von X unter der Bedingung, dass Y=y ist, ist pX|Y (x|y) = P [X = x|Y = y] = P [X = x, Y = y]/P [Y = y] Beispiel 6(x − y) für 0 ≤ y ≤ x ≤ 1 f (x, y) = 0 sonst Rx fX (x) = f (x, y)dy Bem: 0 fY (y) = R1 P f (x, y)dx • y P pX|Y (xi , y) = i 3.3 Unabhängigkeit von ZV p(xi ,y) i pY (y) =1 • Wenn pX|Y (x|y) = pX (x) für alle x,y, dann sind X und Y unabh. Die ZV X1 , . . . , Xn sind unabhängig, falls F (x1 , . . . , xn ) = FX1 (x1 )· FX2 (x2 )· . . . · FXn (xn ) Stetige ZV für alle (x1 . . . xn ) ∈ Rn 1. Diskreter Fall: (X1 . . . Xn ) ⇔ p(x1 . . . xn ) = PX1 · . . . · PXn (xn ) 2. Stetiger Fall: fX1 (x1 )· . . . · fXn (xn ) X,Y unabhängig (F (x, y) f (x, y) = fX (x)· fY (y) f (x1 . . . xn ) = unabh. Seien X,Y stetige ZV mit gem. Dichte f (x, y) Def. Die bedingte Dichte von Y, gegeben X=x, ist (x,y) fY |X (y|x) = ffX (x) , wenn 0 < fX (x) < ∞ sont = fY |X (y|x) = 0 FX (x)· FY (y)) ⇔ Bem: 4 • R∞ 4.2 Funktionen von ZV fY |X (y|x)dy = 1 −∞ Satz • fY |X (y|x) = fY (y) für alle x,y ⇔ X und Y sind Sei Y = g(X). Falls X diskret P mit W’keitsfkt. p(x) unabh. ist, dann ist E[g(X)] = g(xi )px (xi ), falls die i X,Y ZV mit bekannter gem. Vtlg. Summe absolut konvergiert. Falls X stetig verteilt verteilt ist mit Dichtefkt. f, +∞ R dann ist E[g(X)] = g(x)f (x)dx falls das Integral Was ist die Vtlg. der Summe X+Y? konvergiert. 3.5 Funktionen von ZV −∞ 1. Diskreter Fall Z = X +P Y pZ (z) = p(xi , z − xi ), Satz Seien X1 , . . . , Xn , Y ZV mit Y = g(X1 , . . . , Xn ). Falls X1P ,...,X n diskret sind mit p(x1 , . . . , xn ), dann P E[Y ] = . . . g(x1 , . . . , xn )p(x1 , . . . , xn ) i Falls X,YPunabhängig: pZ (z) = pX (xi )pY (z − xi ) (Faltung von X,Y) X1 Xn stetiger Fall: +∞ R E[Y ] = g(x1 , . . . , xn )f (x1 , . . . , xn )dx1 . . . dxn i 2. stetiger Fall X,Y Dichtefkt. f(x,y) sind gegeben. Z=X+Y +∞ R fZ (z) = f (x, z − x)dx −∞ falls das Integral absolut konvergiert. −∞ Falls X,Y unabhängig: +∞ R fZ (z) = fX (x)fY (z − x)dx Korollar zum Satz Seien X,Y unabh. ZV Dann E[g(X)h(Y )] = E[g(X)]E[h(Y )] −∞ 4 Erwartungswert 4.3 Linearkombinationen von ZV Satz Der E’wert ist ein linearer Operator, d.h. X1 , . . . , Xn Diskrete ZV seien ZV mit E’werten E[X1 ], . . . , E[Xn ]. Sei Y = n n P P X sei diskrete ZV mit W’keitsfunktion P p(x). Dann ist ai + bi Xi . Dann ist E[Y ] = ai + bi E[Xi ]. der EW von X def. durch E[X] = xi p(xi ) falls die i=1 i=1 4.1 Definition und Eigenschaften i Reihe absolut konvergiert. 4.4 Varianz und Standardabweichung 1. Bernoulli Verteilung (X ∼ Be(p)) E[X] = 1· p + 0· (1 − p) = p Definition X sei eine ZV mit E’wert E[X]. Dann heisst var(X) = E[(X − E[X])2 ] die Varianz von X (falls var(X) < +∞). Es gilt aber auch var(X) = E[X 2 ] − (E[X])2 , was meist einfacher zu berechnen ist. Es gilt: var(X) > 0! p σ(X) = var(X) heisst Standardabweichung. 2. Geometrische Verteilung (X ∼ N b(1, p)) E[X] = p1 3. Poisson Verteilung (X ∼ Pλ (x)) ∞ −λ k P e λ E[X] = λ k! k=1 Stetige ZV X diskret: P X sei stetig verteilt mit Dichtefkt. fX . Dann ist var(X) = (xi − µ)2 p(xi ), µ = E[X] +∞ i R E[X] = xfX (x)dx, falls das Integral absolut konX stetig: −∞ +∞ R vergiert. var(X) = (x − µ)2 f (x)dx, µ = E[X] −∞ 1. Uniforme Verteilung (X ∼ U (0, 1)) E[X 2 ] = E[X]2 − var(X) R1 E[X] = xdx = [ 21 x2 ]10 = 12 0 2. Normale Verteilung (X ∼ N (µ, σ 2 )) E[X] = µ Satz Sei X eine ZV mit var(X) < +∞, a, b ∈ R. Dann ist var(a + bX) = b2 var(X) 3. Cauchy Verteilung 1 f (x) = Π1 1+x 2 , −∞ < x < +∞ E[X] = +∞ 1. Bernoulli-Verteilung X ∼ Be(p) 5 E[X] = p var(X) = p(1 − p) 8. var(a + n P bi X i ) = i=1 n P n P bi bj cov(Xi , Xj ) i=1 j=1 9. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ) 2. Binomial Verteilung X ∼ B(n, p) E[X] = np var(X) = np(1 − p) 10. Falls X1 , . . . , Xn unabh.: n n P P var( Xi ) = var(Xi ) i=1 3. Normalverteilung X ∼ N (µ, σ) E[X] = µ var(x) = σ 2 i=1 im Gegensatz dazu gilt immer: E[ n P 4. Uniforme Verteilung U ∼ U (0, 1) E[X] = 21 1 var(U ) = 12 n P xi ] = i=1 E[Xi ] i=1 X, Y seien ZV mit endlichen Varianzen. Dann heisst PXY = ρ(X, Y ) = √ cov(X,Y ) var(X)var(Y ) 5. X ∼ P oisson(µ) E[X] = µ var(X) = µ die Korrelation. Eigenschaften 6. Geometrische Verteilung E[X] = p1 var(X) = 1−p p2 • ρ(X, Y ) ∈ [−1, 1] • falls ρ(X, Y ) = ±1 dann P [Y = aX + b] = 1 für a, b ∈ R, b 6= 0 7. Exponential Verteilung E[X] = λ1 var(X) = λ12 • ρ(X, Y ) ≈ ±1 ⇒ X und Y sind stark linear abhängig • ρ(X, Y ) ≈ 0 ⇒ X und Y sind schwach linear abhängig Gamma Funktion R∞ α > 0 Γ(α) = uα−1 e−u du 0 α ∈ R+ : Γ(α) = (α − 1)! α > 0 : √Γ(α) = (α − 1)Γ(α − 1) √ Γ( 12 ) = Π, Γ( 32 ) = 12 Π 5 Grenzwertsätze Seien X1 , . . . , Xn unabh. ZV, mit E[Xi ] = µ und var(Xi ) = σ 2 < +∞. Dann gilt: lim P (| X̄n − µ |≥ ) = 0 ∀ > 0 4.5 Kovarianz und Korrelation µX = E[X], µY = E[Y ] cov(X, Y ) = E[(x − µX )(Y − µY )] cov(X, Y ) = E[XY ] − µX µY n→∞ 5.1 Zentraler Grenzwertsatz X1 , X2 , . . . Folge identisch verteilter, unabh. ZV mit E[Xi ] = µ, var(Xi ) = σ 2 < ∞ n P sn = xi ; Standardisierung: sn√−µn nσ RR E[XY ] = xyf (x, y)dxdy falls gem. Dichtefkt. E[XY ] = E[X]· E[Y ] falls unabh. i=1 Rechenregeln Standardisierung: U = 1. X,Y unabh. ⇒ cov(X, Y ) = 0 Die Umkehrung gilt aber nicht. X−µ σ ∼ N (0, 1) Zentraler Grenzwertsatz lim P ( sn√−µn ≤ x) = Φ(x), Φ ist die Vertfkt. nσ 2. cov(X, X) = var(X) n→∞ der N (0, 1)-Verteilung. Kann auch so geschrieben werden: X̄−µ √ ≤ x) ∼ N (0, 1) lim P ( σ/ n 3. cov(aX, Y ) = a· cov(X, Y ) 4. cov(X + Y, Z) = cov(X, Z) + cov(Y, Z) n→∞ 5. cov(X + Y, Z + W ) = cov(X, Z) + cov(X, W ) + cov(Y, Z) + cov(Y, W ) 7. cov(a + bi X i , c i=1 n P m P 120 P Ii > x] = 0.95 i=1 6. cov(X, a) = 0 für a ∈ R n P Beispiel Gesucht ist x, so dass P [ + m P dj Yj ) Aus dem ZGS folgt: 120 120 P P 0.05 = 1 − P [ I > x] = P [ Ii ≤ x] = i = i=1 j=1 120 P bi dj cov(Xi , Yj ) √ P [ i=1 Ii −120E[I] 120 V ar(I) i=1 j=1 6 i=1 ≤ √x−120E[I] ] ≈ Φ( √x−120E[I] ) 120 V ar(I) 120V ar(I) Monte-Carlo-Integration j(f ) = R1 Satz Sei var(Xi ) = σ 2 . Dann E[S 2 ] = σ 2 . Man sagt, der Schätzer S 2 habe keinen Bias. f (x)dx sei numerisch zu berechnen 0 Generiere unabh. auf [0, 1] gleichverteilte ZV. n 6.2 χ2 Verteilung ¯ ) = 1 P f (ui ). U1 , . . . , Un und berechne f (U n i=1 Satz Falls X ∼ N (0, 1), dann ist X 2 ∼ Γ( 21 , 12 ). Diese Verteilung nennt man χ21 -Verteilung. Lies: chi-Quadrat mit 1 Freiheitsgrad. Sei var(f (Ui )) endlich. Nach dem Gesetz der grossen Zahlen gilt: n R1 P lim n1 f (Ui ) = E[f (Ui )] = dx n→∞ i=1 E[g(x)] = R∞ 0 Satz Seien X1 , . . . , Xn unabh. ident. verteilt, Xi ∼ χ21 . Dann ist V = X1 + . . . + Xn χ2n -verteilt. χ2n ist eine Γ( 21 , 12 )-Verteilung. D.h., die Dichte ist n t f (t) = Γ( n12n/2 t 2 −1 e− 2 t ≥ 0 g(x)· fx (x)dx, wobei fx (x) die Dichte −∞ von x ist. 5.2 Normalapproximation der Binomialverteilung 2 Falls V ∼ χ2n , dann E[V ] = n, var(V ) = 2n Falls gilt np(1 − p)p > 9 so kann B(n; p) durch Satz N (µ = np; σ = np(1 − p)) approximiert werSeien X1 , . . . , Xn eine Stichprobe von N (µ, σ 2 )den, sonst falls np ≤ 10 und n ≥ 1500p durch 2 ∼ χ2n−1 verteilten ZV. Dann ist (n−1)S P oiss(λ = np). σ2 Beispiel 6.3 t Verteilung VB auf α Niveau für Binomialvrtlg. √X−np ∼ N (0, 1) np(1−p) p ⇒ {X > Φ−1 (1 − α)· np̂(1 − p̂) + np̂} Satz Sei X1 , . . . , Xn eine Stichprobe aus einer N (µ, σ 2 )X̄−µ √ tn−1 verteilt. Dichte Population. Dann ist t = S/ n der t-Verteilung: f (x) = 6 Statistik Γ( n+1 2 ) √ · (1 ΠnΓ( 12 ) + x2 −n+1 2 . n ) 6.4 F Verteilung Definition 2 Eine Stichprobe vom Umfang n ist eine Folge U und V unabh. χ ZV mit m bzw. n Freiheitsgraden, X1 , . . . , Xn von unabh., ident. verteilten ZV. Ei- so wird die Verteilung: ne Statistik ist eine ZV g(X1 , . . . , Xn ), wobei U/m g : Rn → R W = V /n als F Verteilung mit m und n Freiheitsgraden bezeichnet, geschrieben Fm,n 6.1 empirischer Mittelwert und empirische Varianz 7 Konfidenzintervalle ... Für eine Stichprobe X1 , . . . , Xn , n ≥ 2 n X̄ = 7.1 ... für unbekannte Mittelwert µ einer Normalverteilung bei bekannter Varianz σ 2 1X Xi n i=1 n S2 = 1 X (Xi − X̄)2 n − 1 i=1 Vertrauensniveau (1 − α) wählen (z.B. 0.95) Satz Falls die Xi EW µ und var σ 2 haben, so ist 2 E[X̄] = µ, var(X̄) = σn . X̄ ist eine ZV, µ eine Zahl. Man sagt, X̄ ist ein Schätzer von µ. Eine Stichprobe 1. Verteilung ist gleich Z = X̄−µ √ σ/ n ∼ N (0, 1) 2. Konfidenzintervall Satz 2 Falls die Xi N (µ, σ 2 )-verteilt sind, so ist X̄ N (µ, σn )verteilt. a) zweiseitig X̄−µ √ ≤ q1− α ] = 1 − α P [q α2 ≤ σ/ n 2 ⇒ [X̄ − q1− α2 · √σn ≤ µ ≤ X̄ + q α2 ] 7 b) nach oben X̄−µ √ ≤ q1−α ] = 1 − α P [ σ/ n Eine Stichprobe S2 (n − 1) ∼ χ2n−1 σ2 c) nach unten X̄−µ √ ]=1−α P [qα ≤ σ/ n Zwei Stichproben 2 2 SX /σX ∼ F(m−1,n−1) 2 SY /σY2 Zwei Stichproben (Differenz der Mittelwerte) gleich wie eine Stichprobe, aber mit folgender Verteilung: Wobei m (n) Anz. Experimente für ZV X (Y). (X̄ − Ȳ ) − (µX − µY ) q 2 ∼ N (0, 1) 2 σY σX + m n 7.4 ... für unbekannten Parameter p einer Binomialverteilung 1. Verteilung ist gleich Z = √np̂−np np̂(1−p̂) 7.2 ... für unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz σ 2 wobei p̂ = ∼ N (0, 1), k n k= Anz. Erfolge bei n Versuchen. q1− α p 2. Konfidenzintervall [p̂ − n 2 np̂(1 − p̂) ≤ p ≤ p qα p̂ − n2 np̂(1 − p̂)] Vertrauensniveau (1 − α) wählen (z.B. 0.95) 8 Schätztheorie Eine Stichprobe 1. Verteilung ist gleich T = X̄−µ √ S/ n Ein Schätzer ist erwartungstreu, falls E[θ̂] = θ. ∼ tn−1 8.1 Maximum Likelihood 2. Konfidenzintervall Sei X1 , . . . , Xn eine Stichprobe des Umfangs n einer a) zweiseitig Dichte f (x, θ), dann ist die gemeinsame Dichte von α α P [tn−1, 2 ≤ T ≤ tn−1,1− 2 ] = 1 − α (X1 , . . . , Xn ) die Likelihood-Funktion. S ¯ ¯ ⇒ [Xn − tn−1,1− α2 · √n ≤ µ ≤ Xn + • X diskret: tn−1,1− α2 · √Sn ] n Q L(Θ) = P (Xi = xi ) b) nach oben i=1 P [T ≤ tn−1,1−α ] = 1 − α • X stetig: n Q c) nach unten L(Θ) = f (xi ) P [tn−1,α ≤ T ] = 1 − α i=1 Wähle Θ so dass die Realisierungen X1 , . . . , Xn am wahrscheinlichsten sind. Um die Berechnung zu vereinfachen: logarithmiere, so ergibt sich aus dem Produkt eine Summe. l(Θ) = log L(Θ). Differenziere da- Zwei Stichproben (Differenz der Mittelwerte) gleich wie eine Stichprobe, aber mit folgender Verteilung: (X̄ − Ȳ ) − (µX − µY ) q ∼ tm+n−2 1 SP m + n1 nach und setze gleich 0. nach Θ ⇒ Θ̂M L ∂ ∂Θ l(Θ) ! = 0. Löse danach 8.2 Momentenmethode wobei Sp : Sp2 = Berechne für X ∼ F (Θ): 2 (m − 1)SX + (n − 1)SY2 m+n−2 • E[X] hängt von Θ ab (da f (x) oder P (X = xi ) von Θ abhängen). n R∞ P E[X] = −∞ xf (x)dx oder E[X] = xi P (X = die gepoolte Varianz ist i=1 falls m=n und Stichproben nicht unbedingt unabh.: Di = Xi − Yi D̄−(µX −µY ) √ ∼ tn−1 SD / n xi ) • X̄ = 1 n n P Xi i=1 Danach setze E[X] = X̄ und löse nach Θ ⇒ Θ̂M M 7.3 ... für unbekannte Varianz σ 2 einer Normalverteilung p-tes Moment: Setze auch noch E[X 2 ] = X¯2 . . . E[X p ] = X¯p ⇒ p-Gleichungen, löse nach Θ Vertrauensniveau (1 − α) wählen (z.B. 0.95) 8 9 Testen von Hypothesen Unter H0 : T ∼ tn−1 9.1 Neyman-Pearson Paradigma Verwerfungsbereich: Nullhypothese H0 : Die zu zeigende Aussage, meist also µ = µ0 • HA : µ 6= µ0 V B = {| T |≥ tn−1,1− α2 } Alternative HA : Was gilt, falls HA nicht gilt: µ 6= µ0 , µ > µ0 , µ < µ0 • HA : µ > µ0 V B = {T > tn−1,1−α } Fehler 1. Art (α): Verwerfung von H0 , α = P (F ehler 1.Art) • HA : µ < µ0 V B = {T < tn−1,α } obwohl H0 richtig. Falls T bzw. |T | in VB ⇒ H0 verwerfen, sonst H0 beibehalten. Fehler 2. Art (β): Keine Ablehnung von H0 , obwohl H0 falsch. 2-Stichproben t-Test β = P (F ehler 2.Art). (X̄−Ȳ )−(µX −µY ) √1 1 T = Macht Macht = 1 − β. W’keit, dass H0 verworfen Sp2 wird, wenn es tatsächlich falsch ist. ist. = SP m+n 2 2 (m−1)SX +(n−1)SY m+n−2 ∼ tm+n−2 . Wobei die gepoolte Varianz Man versucht α möglichst klein, und 1 − β möglichst gross zu wählen. Dazu wird α fixiert. Danach konstruiert man dazu einen Test mit möglichst grosser 9.4 Der z-Test Macht. Mittelwert bei bekanntem σ Beispiel Macht, wenn µX , σX gleich wirklicher Mittelwert bzw. Varianz und G die zuvor ausgerechnete Grenze des VB’s ist: M acht = 1 − P (F ehler 2. Art) = 1 − P (X ≤ G) = G−µx x x ≤ G−µ 1 − P ( X−µ σX σx ) = 1 − Φ( σx ) Modellannahmen: • Xi ∼ N (µ, σ) • Xi unabhängig • µ unbekannt, σ bekannt 9.2 Neyman-Pearson Lemma Wir wollen testen, ob µ = µ0 oder Alternative. Likelihood ratio = ffA0 (x) (x) ( 1 wenn ffA0 (x) (x) < Kα ρL = f0 (x) 0 wenn fA (x) > Kα Kα muss so gewählt sein, dass E0 [ρL ] = α Verteilung: X̄−µ √ ∼ N (0, 1) σ/ n Verwerfungsbereich: Der Likelihood-Test ρL ist der mächtigste Test unter den Tests ρ∗ mit Signifikanzlevel α∗ ≤ α • HA : µ 6= µ0 √ 0 | > q1− α } V B = {| X̄−µ σ/ n 2 9.3 Der t-Test • HA : µ > µ0 √ 0 > q1−α } V B = { X̄−µ σ/ n Mittelwert bei unbekanntem σ Modellannahmen: • HA : µ < µ0 √ 0 < qα } V B = { X̄−µ σ/ n • Xi ∼ N (µ, σ) • Xi unabhängig 9.5 Likelihood-Ratio Tests für Multinomialverteilungen • µ, σ unbekannt Wir wollen testen, ob µ = µ0 oder Alternative. m Zellen, n Beobachtungen ⇒ Histogramm −2 ln Λ = 2 Für den t-Test gilt: √ 0 T = n X̄−µ S m P i=1 xi xi ln( E ) ist χ2 -verteilt mit m − 1 − k i Freiheitsgraden, wobei k die Anz. freier Parameter in H0 ist. 9 n P χ2 Anpassungstest βˆ1 = • Modellannahme: X ∼ F , F irgend eine Verteilungsfkt. (xi −X̄)(yi −Ȳ ) i=1 n P (xi −X̄)2 i=1 10.1 Statistisches Modell • Nullhypothese H0 : F = P ois(λ) yi = β0 + β1 xi + ei ei : Beobachtungsfehler • Alternative HA : F 6= P ois(λ) • Die Teststatistik ist gegeben durch die χ2 TestVoraussetzungen: statistik: man bildet die qudrierten Differenzen zwischen den beobachteten Häufigkeiten (Beobi ) 1. ei sind unabhängig und den erwarteten Häufigkeiten (Erwi ), man 2. E[ei ] = 0 teilt durch die erwarteten Häufigkeiten (Erwi ) und summiert über alle möglichen Klassen. 3. var(ei ) = σ 2 n= Anz. Klassen n P (Beobi −Erwi )2 4. xi sind fest χ2 = Erwi i=0 Unter H0 ist die Teststatistik χ2 -verteilt mit f Freiheitsgraden, wobei f= Anz. Klassen - 1 - Anzahl geschätzter Parameter Varianz i=1 n n P i=1 var(βˆ1 ) = x2i −( nσ n • Entscheidung: VB={χ2 > χ2f ;p } n P i=1 x2i n P x2i −( n P n Teststatistik: Di unabhängig mit Median m̃ m̃ = 0 m̃ 6= 0 n P T = 1|{Di >0} Unter H0 : T ∼ Bin(n, p) = xi )2 n P i=1 x2i −( (xi −X̄)2 xi i=1 n P n P σ2 n P i=1 i=1 −σ 2 cov(βˆ0 , βˆ1 ) = xi )2 i=1 2 Korrelation Vorzeichen Test Modellannahme: Nullhypothese: Alternative: n P σ2 var(βˆ0 ) = xi )2 i=1 Bemerkungen • eˆi := yi − βˆ0 − βˆ1 xi i=1 n P 2 • S = Beispiel für T = 7 und n = 10 10 P 2P [T ≥ 7] = 2 P [T = i] = 0.34 (eˆi )2 i=1 n−2 ist bias-freier Schätzer für σ 2 • Setze S 2 ein in Formel für var(βˆ0 ) bzw. var(βˆ1 ) und erhalte: s2βˆ bzw. s2βˆ . i=1 Da 0.34 > 0.05 wird H0 beibehalten auf 5% Test 0 1 • Wenn ei normalverteilt sind, dann sind βˆ0 , βˆ1 ˆ ˆ 1 0 auch normalverteilt, und β0s−β und β1s−β sind ˆ ˆ 10 Methode der kleinsten Quadrate und lineare Regression β0 β1 t-verteilt mit n-2 Freiheitsgraden. Korrelation und Regression n P Beobachtungen: SXX = n1 (xi − X̄)2 ”Varianz von X” i=1 {(xi , yi ) | i = 1 . . . n} n y = die abhängige Variabel, ”zu erklärende Variabel” SY Y = 1 P (yi − Ȳ )2 ”Varianz von Y” n x = die unabhängige Variabel, ”erklärende Variabel” i=1 n P 1 SXY = n (xi − Ȳ )(yi − Ȳ ) ”Kovarianz von X und Ansatz: i=1 Der Zusammenhang zw. x und y ist linear, d.h Y” y = β0 + β1 x Der Korrelationskoeffizient von X und Y ist: r = √SSXYS Abweichung (Residuum) des i-ten Punktes: ei = yi − (β0 + β1 xi ) XX Ergebnis: βˆ0 = ( n P i=1 x2i )( n P yi )−( i=1 n P n i=1 n P xi )( i=1 n P x2i −( n P xi yi ) i=1 xi )2 i=1 10 YY