Wahrscheinlichkeitsrechnung und Statistik für Biologen 3. Grundlagen aus der Wahrscheinlichkeitstheorie Matthias Birkner & Dirk Metzler 30. April / 4. Mai 2009 Inhaltsverzeichnis 1 Zufallsvariablen und Verteilung 1 2 Von der Unabhängigkeit zur Binomialverteilung 2 3 Erwartungswert 4 4 Varianz und Kovarianz 6 5 Die Normalverteilung 10 6 Der z-Test 12 Warnung Diese Folien enthalten nur eine Zusammenfassung. Details werden an der Tafel ausgeführt. 1 Zufallsvariablen und Verteilung Zufallsvariablen und Wahrscheinlichkeitsverteilung Eine Zufallsgröße X besitzt einen Wertebereich S , also die Menge aller möglichen Ausgänge, und eine (Wahrscheinlichkeits-) Verteilung . Letztere definiert definiert für alle Teilmengen A ⊆ S die Wahrscheinlichkeit Pr(X ∈ A), dass X einen Wert in A annimmt. Üblicherweise verwendet man Großbuchstaben für Zufallsgrößen und Kleinbuchstaben für konkrete Ausgänge und Beobachtungen (also Daten). 1 Rechenregeln • 0 ≤ Pr(X ∈ A) ≤ 1 • Sind A, B ⊆ S disjunkt, d.h. A ∩ B = ∅, Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B) • Allgemein gilt Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B) − Pr(X ∈ A ∩ B) Beispiele Münzwurf: Pr(X = Kopf) = Pr(X = Zahl) = 12 , Pr(X ∈ {Kopf, Zahl}) = 1 Uniforme Verteilung auf einer endlichen Menge S: Pr(X ∈ A) = |A| |S| Ziehen zweier Karten aus Skatblatt Pr(K1 ist eine 7, K2 ist ein Herz) = 18 · 14 = 1 3 3 8 · 31 = 248 , 1 32 , Pr(K1 ist eine 7, K2 ist eine 7) = Details an der Tafel In dem Skatbeispiel haben wir verwendet: Pr(X1 ∈ A, X2 ∈ B) = Pr(X1 ∈ A) · Pr(X2 ∈ B | X1 ∈ A) Dabei bezeichnet Pr(X2 ∈ B | X1 ∈ A) die Wahrscheinlichkeit von {X2 ∈ B} unter der Bedingung, dass {X1 ∈ A} eintritt, kurz: “bedingte Wahrscheinlichkeit von {X2 ∈ B}, gegeben {X1 ∈ A}” Bayes-Formel für die bedingte Wahrscheinlichkeit: Pr(X2 ∈ B | X1 ∈ A) = Pr(X1 ∈ A, X2 ∈ B) Pr(X1 ∈ A) mehr dazu später im Semester.... 2 Von der Unabhängigkeit zur Binomialverteilung Sochastische Unabhängigkeit Definition 1. Zwei Zufallsgrößen X und Y heißen (stochastisch) unabhängig, wenn für alle Ereignisse {X ∈ A}, {Y ∈ B} gilt Pr(X ∈ A, Y ∈ B) = Pr(X ∈ A) · Pr(Y ∈ B) Beispiele für stochastische Unabhängigkeit • Werfen zweier Würfel: X = Augenzahl Würfel 1, Y = Augenzahl Würfel 2. Pr(X = 2, Y = 5) = Pr(X = 2) · Pr(Y = 5) = 1 1 1 · = 6 6 36 • Zurück zum Bsp. mit 2 Skatkarten: W1 = Wert von K1 , F2 = Farbe von K2 . Obwohl (K1 , K2 ) voneinander abhängig sind, sind (W1 , F2 ) stochastisch unabhängig: Pr(W1 = 7, F2 = Herz) = = 2 Pr(W1 = 7) · Pr(F2 = Herz) 1 1 1 · = 8 4 32 Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt. Wie groß ist die Wahrscheinlichkeit, dass es... 1. ...immer gelingt? p · p · p · · · p = pn 2. ...immer scheitert? (1 − p) · (1 − p) · · · (1 − p) = (1 − p)n 3. ...erst k mal gelingt und dann n − k mal scheitert? pk · (1 − p)n−k 4. ...insgesamt k mal gelingt und n − k mal scheitert? Sei X die Anzahl der Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit von jeweils p. Dann gilt für k ∈ {0, 1, . . . , n} µ ¶ n k Pr(X = k) = p · (1 − p)n−k k und X ist binomialverteilt, kurz: X ∼ bin(n, p). Erläuterung ¡ n¢ n! k = k!·(n−k)! ist die Anzahl der Möglichkeiten, die k Erfolge in die n Versuche einzusortieren. 0.30 probabilities of bin(n=10,p=0.2) ● 0.20 0.25 ● ● ● 0.05 0.10 0.15 ● 0.00 ● ● 0 2 4 6 ● ● 8 k 3 ● ● 10 0.10 probabilities of bin(n=100,p=0.2) ●● ● ● 0.08 ● ● ● 0.06 ● ● ● 0.04 ● 0.02 ● ● ● ● ● 0.00 ● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●● 0 20 40 60 80 100 k 3 Erwartungswert Definition 2 (Erwartungswert). Sei X eine Zufallsvariable mit endlichem oder aufzählbaren Wertebereich S = {a1 , a2 , a3 . . . } ⊆ R. Dann ist der Erwartungswert von X definiert durch X EX = a · Pr(X = a) a Manche schreiben auch µX statt EX. Rechnen mit Erwartungswerten Satz 1 (Linearität der Erwartung). Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so gilt: • E(a · X) = a · EX • E(X + Y ) = EX + EY Satz 2 (Nur für Unabhängige!). Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten in R, so gilt E(X · Y ) = EX · EY. Beweise an der Tafel. Was heißt überhaupt aX? Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von X abhängt. Nimmt X den Wert x ∈ R an, so nimmt a · X den Wert ax an. Beispiel: Bei einem Brettspiel ist ein Spieler in Besitz einer Speed-Karte und darf die doppelte Augenzahl seines Würfelwurfs vorwärtsgehen. Dann ist X die gewürfelte Augenzahl und a · X mit a = 2 die Anzahl der Schritte. Die Zufallsgröße a·X nimmt die Werte 2, 4, 6, 8, 10, 12 jeweils mit Wahrscheinlichkeit 1 6 an. 4 Und was ist X + Y ? Sind X und Y R-wertige Zufallsgrößen, ist X + Y ebenfalls eine Zufallsgröße. Nehmen X den Wert x und Y den Wert y an, so nimmt X + Y den Wert x + y an. Bespiel: Sind X und Y die Augenzahlen zweier Würfel, so ist X + Y die zufällige Summe der Augen1 1 1 1 zahlen. X + Y nimmt die Werte 2, 3, 4, . . . , 12 mit den Wahrscheinlichkeiten 36 , 18 , 12 , . . . , 36 an. Frage and Auditorium: Ist Ihnen nun auch klar, was X · Y ist? Oder auch X 2 , log(X), . . . ? Rechnen mit Erwartungswerten Satz 3 (Linearität der Erwartung). Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so gilt: • E(a · X) = a · EX • E(X + Y ) = EX + EY Satz 4 (Nur für Unabhängige!). Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten in R, so gilt E(X · Y ) = EX · EY. Beweise an der Tafel. Erwartungswert der Binomialverteilung Seien Y1 , Y2 , . . . , Yn die Indikatorvariablen der n unabhängigen Versuche d.h. ½ 1 falls der i − te Versuch gelingt Yi = 0 falls der i − te Versuch scheitert Dann ist X = Y1 + · · · + Yn binomialverteilt mit Parametern (n, p), wobei p die Erfolgswahrscheinlichkeit der Versuche ist. Wegen der Linearität der Erwartung gilt EX = E(Y1 + · · · + Yn ) = EY1 + · · · + EYn = p + · · · + p = np Erwartungswert der Binomialverteilung Wir halten fest: X ∼ bin(n, p) ⇒ EX = n · p 5 4 Varianz und Kovarianz Definition 3 (Varianz, Kovarianz und Korrelation). Die Varianz einer R-wertigen Zufallsgröße X ist £ ¤ 2 VarX = σX = E (X − EX)2 . √ σX = Var X ist die Standardabweichung. Ist Y eine weitere reellwertige Zufallsvariable, so ist Cov(X, Y ) = E [(X − EX) · (Y − EY )] die Kovarianz von X und Y . Die Korrelation von X und Y ist Cov(X, Y ) . σX · σY Cor(X, Y ) = 10 10 Wieso Cov(X, Y ) = E([X − EX][Y − EY ])? ● ● 8 ● 8 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● 6 6 Y 4 ● ●● ● ● ● ● ● ● ● [X−EX]<0 ● 4 ● ● ● ● ● ● ● ● Y ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● [X−EX]>0 ● 2 ● 2 ● 0 ● 0 ● 0 2 4 6 8 10 X 0 2 4 6 X 6 8 10 10 10 Cov(X,Y)= 1.11 ● ● ● 8 8 [Y−EY]>0 ● ● ● ● ● ● ● ● ● [X−EX]*[Y−EY]<0 ● ●● 6 ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● [X−EX]>0 ● 4 ● 4 Y [X−EX]<0 ● ● ● Y 6 ● ● ● ● ● [X−EX]*[Y−EY]>0 ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● [X−EX]*[Y−EY]>0 2 2 ● ● ● [X−EX]*[Y−EY]<0 ● 0 0 [Y−EY]<0 0 2 4 6 8 10 0 2 X 4 6 8 X 10 Cov(X,Y)= −0.78 8 ● [X−EX]*[Y−EY]<0 [X−EX]*[Y−EY]>0 ● ● ● ● 6 ● ● ● ● 4 Y ● ● ● ●● ●● ● ●● ● ●●● ● ●●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● 2 ● ● ● [X−EX]*[Y−EY]<0 0 [X−EX]*[Y−EY]>0 0 2 4 6 8 10 X Beispiel: Die empirische Verteilung Sind x1 , . . . , xn ∈ R Daten und entsteht X durch rein zufälliges Ziehen aus diesen Daten, so gilt: EX = x und n Var X = 1X (xi − x)2 n i=1 Entsprechend kann man auch für Daten (xi , yi ) die empirischen Kovarianzen und Korrelationen ausrechen, siehe nächste Seite... 7 10 ●● 8 8 8 10 σX = 1.13, σY = 1.2 Cov(X, Y ) = −1.26 Cor(X, Y ) = −0.92 10 σX = 0.91, σY = 0.88 Cov(X, Y ) = 0 Cor(X, Y ) = 0 10 σX = 0.95, σY = 0.92 Cov(X, Y ) = −0.06 Cor(X, Y ) = −0.069 ● ● ● 6 Y 6 Y ● 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 2 4 6 8 10 0 2 4 X 6 8 10 0 X 10 8 8 ● ● ● ●●● Y 6 ● ● ● ●● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●●●● ●● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ●● ● 4 4 Y 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● 2 2 ● 0 0 ● 0 2 4 6 8 10 0 2 4 X 6 8 10 X Rechenregeln für Kovarianzen • Sind X und Y unabhängig, so folgt Cov(X, Y ) = 0 (die Umkehrung gilt nicht!) • Cov(X, Y )=Cov(Y, X) • Cov(X, Y ) = E(XY ) − (EX)(EY ) • Cov(a · X, Y ) = a · Cov(X, Y ) = Cov(X, a · Y ) • Cov(X + Z, Y ) = Cov(X, Y ) + Cov(Z, Y ) • Cov(X, Z + Y ) = Cov(X, Z) + Cov(X, Y ) Die letzten drei Regeln beschreiben die Bilinearität der Covarianz. Rechenregeln für die Korrelation • −1 ≤ Cor(X, Y ) ≤ 1 • Cor(X, Y ) = Cor(Y, X) • Cor(X, Y ) = Cov(X/σX , Y /σY ) 8 2 4 6 X σX = 1.03, σY = 0.32 Cov(X, Y ) = 0.32 Cor(X, Y ) = 0.95 10 σX = 1.14, σY = 0.78 Cov(X, Y ) = 0.78 Cor(X, Y ) = 0.71 ● ● ● ● ● ● ● ● 0 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ●●● ●● 0 0 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ●● ● 2 ● ● 4 6 Y 4 ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●●●● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ●●● 8 10 Rechenregeln für Varianzen • VarX = Cov(X, X) • VarX = EX 2 − (EX)2 • Var(a · X) = a2 · VarX • Var(X + Y ) = VarX + VarY + 2 · Cov(X, Y ) • Sind (X, Y ) stochastisch unabhängig, so folgt: Var(X + Y ) = VarX + VarY Mit diesen Rechenregeln können wir nun endlich beweisen: 2 Satz 5. Sind X P1 , X2 , . . . Xn unabhängige R-wertige Zufallsgrößen mit Mittelwert µ und Varianz σ , so 1 gilt für X = n i Xi : EX = µ und Var X = d.h. 1 2 σ , n σ σX = √ n Bernoulli-Verteilung Eine {0, 1}-wertige Zufallsvariable Y mit Pr(Y = 1) = p und Pr(Y = 0) = 1 − p heißt Bernoulliverteilt. EY = p Var Y = p · (1 − p) (s. Tafel) Sei Y1 , · · · , Yn unabhängig Bernoulli-verteilt mit Parameter p. Dann gilt X Yi =: X ∼ bin(n, p) und es folgt: Var X = X Var Yi = n · p · (1 − p) Satz 6 (Erwartungswert und Varianz der Binomialverteilung). Ist X binomialverteilt mit Parametern (n, p), so gilt: EX = n · p und Var X = n · p · (1 − p) Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal durch CCA codiert. Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird? Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003. EX = n · p = 104001.5 9 p σX = n · p · (1 − p) ≈ 230 104001.5 − 101844 = 2157.5 ≈ 9.5 · σX Sieht ¡n¢ das nach Zufall aus? k exakt zu berechnen, kann für große n sehr aufwändig sein, daher wir die Binomialverteilung oft durch andere Verteilungen approximiert. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 550 ● ● 0.015 ● ● ● ● ● ● ● ● ● ● 0.010 ● ● 0.010 dbinom(400:600, 1000, 0.5) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 0.005 0.015 ● ● 0.005 dbinom(400:600, 1000, 0.5) ● ● ● ● ● ● 450 ● ● ● ● 400 0.020 ● ● ● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.000 0.020 ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.000 0.025 Die Normalverteilung 0.025 5 600 400 450 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 400:600 550 600 400:600 Dichte der Standardnormalverteilung Eine Zufallsvariable Z mit der Dichte 0.4 “Gauß-Glocke” 0.3 x2 1 f (x) = √ · e− 2 2π kurz: Z ∼ N (0, 1) 0.2 EZ = 0 0.0 0.1 Var Z = 1 −3 −2 −1 0 1 2 3 heißt standardnormalverteilt. Ist Z N (0, 1)-verteilt, so ist X = σ · Z + µ normalverteilt mit Mittelwert µ und Varianz σ 2 , kurz: X ∼ N (µ, σ 2 ) X hat dann die Dichte 2 1 − (x−µ) 2 2σ f (x) = √ ·e . 2πσ 10 Merkregeln Ist Z ∼ N (µ, σ 2 ), so gilt: • Pr(|Z − µ| > σ) < 1 3 • Pr(|Z − µ| > 2 · σ) < 0.05 • Pr(|Z − µ| > 3 · σ) < 0.003 2 1 − (x−µ) 2 2σ ·e 2πσ 0.00 0.05 0.10 0.15 0.20 0.25 f (x) = √ 0 2 µ − σ4 µ 6 + σ µ 8 10 0.00 0.05 0.10 0.15 0.20 0.25 Dichten brauchen Integrale Sei Z eine Zufallsvariable mit Dichte f (x). 0 2 4 6 a 8 b Dann gilt Z Pr(Z ∈ [a, b]) = b f (x)dx. a Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25). Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5) Berechnung von Pr(Z ∈ [3, 4]): Pr(Z ∈ [3, 4]) = Pr(Z < 4) − Pr(Z < 3) > pnorm(4,mean=5,sd=1.5)-pnorm(3,mean=5,sd=1.5) [1] 0.1612813 Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)? 11 10 Antwort: Für jedes x ∈ R gilt Pr(Z = x) = 0 Was wird dann aus EZ = P a a · Pr(Z = a) ? Muss reformiert werden: Z ∞ x · f (x)dx EZ = −∞ Aber zum Glück kennen wir schon das Ergebnis EZ = µ. Normalapproximation Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren: Ist X ∼ bin(n, p) und Z ∼ N (µ = n · p, σ 2 = n · p · (1 − p)), so gilt Pr(X ∈ [a, b]) ≈ Pr(Z ∈ [a, b]) ● ● ● ● ● 0.010 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 500 550 0.20 ● 0.15 ● ● ● 0.05 0.015 ● dbinom(0:10, 10, 0.2) ● ● ● 0.005 dbinom(400:600, 1000, 0.5) ● ● 0.000 0.30 ● ● 450 0.25 ● ● ● ● ● 400 ● ● ● 0.00 0.020 ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.10 0.025 (eine Faustregel: für den Hausgebrauch meist okay, wenn n · p · (1 − p) ≥ 9) n = 1000, p = 0.5, n · p · (1 − p) = 250 n = 10, p = 0.2, n · p · (1 − p) = 1.6 600 ● 0 2 4 400:600 6 ● ● 8 ● ● 10 0:10 Theorem 4 (Zentraler Grenzwertsatz). Die R-wertigen Zufallsgrößen X1 , X2 , . . . seien unabhängig identisch verteilt mit Erwartungswert EXi = µ und Varianz Var Xi = σ 2 , wobei −∞ < µ < ∞ und 0 < σ < ∞. Sei außerdem X1 +···+Xn −µ n √ Yn := . σ/ n Dann gilt für alle −∞ ≤ a < b ≤ ∞ lim Pr(a ≤ Yn ≤ b) → Pr(a ≤ Z ≤ d), n→∞ wobei Z eine standardnormalverteilte Zufallsvariable ist. 6 Der z-Test Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA. CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor Null-Hypothese: Alles Zufall. d.h. X, die Anzahl der CCT ist bin(n, p)-verteilt mit n = 208003 und p = 0.5. 12 Normalapproximation: X ist ungefähr N (µ, σ 2 )-verteilt mit µ = n · p = 104001.5 ≈ 104000 und σ= p n · p · (1 − p) = 228.0367 ≈ 230 Frage: Ist es plausibel, dass eine Größe X, die den Wert k = 101844 angenommen hat, ungefähr N (104000, 2302 )-verteilt ist? k Wenn diese Nullhypothese H0 gilt, dann folgt Pr(X = 101844) = 0 Aber das bedeutet nichts, denn Pr(X = k) = 0 gilt für jeden Wert k! Entscheidend ist die Wahrscheinlichkeit, dass X (unter Annahme der H0 ) einen mindestens so extremen Wert wie k annimmt: k Pr(|X − µ| ≥ |k − µ|) = Pr(|X − µ| ≥ 2156) ≈ Pr(|X − µ| ≥ 9.37 · σ) Wir wissen bereits: P r(|X − µ| ≥ 3 · σ) < 0.003 (siehe Merkregeln!) Also muss Pr(|X − µ| ≥ 9.37 · σ) extrem klein sein. In der Tat: > 2 * pnorm(101844,mean=104000,sd=230) [1] 6.989218e-21 Ohne Normalapproximation: > pbinom(101844,size=208003,p=0.5) + + pbinom(106158.99,size=208003,p=0.5,lower.tail=FALSE) 13 [1] 3.098994e-21 Wir können also argumentieren, dass eine derartig starke Abweichung vom Erwartungswerte nur durch einen extremen Zufall zu erklären ist. Wir werden also die Nullhypothese “alles nur Zufall” verwerfen und nach alternativen Erklärungen suchen, etwa unterschiedliche Effizienz von CCA und CCT oder unterschiedliche Verfügbarkeit von A und T. Zusammenfassung z-Test Nullhypothese H0 (möchte man meistens verwerfen): der beobachtete Wert x kommt aus einer Normalverteilung mit Mittelwert µ und bekannter Varianz σ 2 . p-Wert =Pr(|X − µ| ≥ |x − µ|), wobei X ∼ N (µ, σ 2 ), also die Wahrscheinlichkeit einer mindestens so großen Abweichung wie der beobachteten. Signifikanzniveau α : oft 0.05. Wenn der p-Wert kleiner ist als α, verwerfen wir die Nullhypothese und suchen nach einer alternativen Erklärung. Grenzen des z-Tests Der z-Test kann nur angewendet werden, wenn die Varianz der Normalverteilung bekannt ist oder zumindest in der Nullhypothese als bekannt angenommen wird. Das ist meistens nicht der Fall, wenn die Normalverteilung beim statistischen Testen verwendet wird. Meistens wird die Varianz aus den Daten geschätzt. Dann muss statt dem z-Test der berühmte t-Test angewendet werden. 14