Handout

Werbung
Wahrscheinlichkeitsrechnung und
Statistik für Biologen
3. Grundlagen aus der Wahrscheinlichkeitstheorie
Matthias Birkner & Dirk Metzler
30. April / 4. Mai 2009
Inhaltsverzeichnis
1 Zufallsvariablen und Verteilung
1
2 Von der Unabhängigkeit zur Binomialverteilung
2
3 Erwartungswert
4
4 Varianz und Kovarianz
6
5 Die Normalverteilung
10
6 Der z-Test
12
Warnung
Diese Folien enthalten nur eine Zusammenfassung. Details werden an der
Tafel ausgeführt.
1
Zufallsvariablen und Verteilung
Zufallsvariablen und Wahrscheinlichkeitsverteilung
Eine Zufallsgröße X besitzt einen
Wertebereich S , also die Menge aller möglichen Ausgänge, und eine
(Wahrscheinlichkeits-) Verteilung . Letztere definiert definiert für alle Teilmengen A ⊆ S die Wahrscheinlichkeit Pr(X ∈ A), dass X einen Wert in A annimmt.
Üblicherweise verwendet man Großbuchstaben für Zufallsgrößen und Kleinbuchstaben für konkrete
Ausgänge und Beobachtungen (also Daten).
1
Rechenregeln
• 0 ≤ Pr(X ∈ A) ≤ 1
• Sind A, B ⊆ S disjunkt, d.h. A ∩ B = ∅,
Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B)
• Allgemein gilt
Pr(X ∈ A ∪ B) = Pr(X ∈ A) + Pr(X ∈ B) − Pr(X ∈ A ∩ B)
Beispiele
Münzwurf: Pr(X = Kopf) = Pr(X = Zahl) = 12 , Pr(X ∈ {Kopf, Zahl}) = 1
Uniforme Verteilung auf einer endlichen Menge S: Pr(X ∈ A) =
|A|
|S|
Ziehen zweier Karten aus Skatblatt Pr(K1 ist eine 7, K2 ist ein Herz) = 18 · 14 =
1
3
3
8 · 31 = 248 ,
1
32 ,
Pr(K1 ist eine 7, K2 ist eine 7) =
Details an der Tafel
In dem Skatbeispiel haben wir verwendet:
Pr(X1 ∈ A, X2 ∈ B) = Pr(X1 ∈ A) · Pr(X2 ∈ B | X1 ∈ A)
Dabei bezeichnet Pr(X2 ∈ B | X1 ∈ A) die Wahrscheinlichkeit von {X2 ∈ B} unter der Bedingung,
dass {X1 ∈ A} eintritt,
kurz: “bedingte Wahrscheinlichkeit von {X2 ∈ B}, gegeben {X1 ∈ A}”
Bayes-Formel für die bedingte Wahrscheinlichkeit:
Pr(X2 ∈ B | X1 ∈ A) =
Pr(X1 ∈ A, X2 ∈ B)
Pr(X1 ∈ A)
mehr dazu später im Semester....
2
Von der Unabhängigkeit zur Binomialverteilung
Sochastische Unabhängigkeit
Definition 1. Zwei Zufallsgrößen X und Y heißen (stochastisch) unabhängig, wenn für alle Ereignisse
{X ∈ A}, {Y ∈ B} gilt
Pr(X ∈ A, Y ∈ B) = Pr(X ∈ A) · Pr(Y ∈ B)
Beispiele für stochastische Unabhängigkeit
• Werfen zweier Würfel: X = Augenzahl Würfel 1, Y = Augenzahl Würfel 2.
Pr(X = 2, Y = 5) = Pr(X = 2) · Pr(Y = 5) =
1 1
1
· =
6 6
36
• Zurück zum Bsp. mit 2 Skatkarten: W1 = Wert von K1 , F2 = Farbe von K2 . Obwohl (K1 , K2 )
voneinander abhängig sind, sind (W1 , F2 ) stochastisch unabhängig:
Pr(W1 = 7, F2 = Herz)
=
=
2
Pr(W1 = 7) · Pr(F2 = Herz)
1 1
1
·
=
8 4
32
Angenommen, ein Zufallsexperiment (z.B. Münzwurf zeigt Kopf), das mit Wahrscheinlichkeit p gelingt, wird n mal unabhängig wiederholt.
Wie groß ist die Wahrscheinlichkeit, dass es...
1. ...immer gelingt?
p · p · p · · · p = pn
2. ...immer scheitert?
(1 − p) · (1 − p) · · · (1 − p) = (1 − p)n
3. ...erst k mal gelingt und dann n − k mal scheitert?
pk · (1 − p)n−k
4. ...insgesamt k mal gelingt und n − k mal scheitert?
Sei X die Anzahl der Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit von jeweils
p. Dann gilt für k ∈ {0, 1, . . . , n}
µ ¶
n k
Pr(X = k) =
p · (1 − p)n−k
k
und X ist binomialverteilt, kurz:
X ∼ bin(n, p).
Erläuterung
¡ n¢
n!
k = k!·(n−k)! ist die Anzahl der Möglichkeiten, die k Erfolge in die n Versuche einzusortieren.
0.30
probabilities of bin(n=10,p=0.2)
●
0.20
0.25
●
●
●
0.05
0.10
0.15
●
0.00
●
●
0
2
4
6
●
●
8
k
3
●
●
10
0.10
probabilities of bin(n=100,p=0.2)
●●
●
●
0.08
●
●
●
0.06
●
●
●
0.04
●
0.02
●
●
●
●
●
0.00
●
●
●
●
●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●●●●●●●●●
0
20
40
60
80
100
k
3
Erwartungswert
Definition 2 (Erwartungswert). Sei X eine Zufallsvariable mit endlichem oder aufzählbaren Wertebereich S = {a1 , a2 , a3 . . . } ⊆ R. Dann ist der Erwartungswert von X definiert durch
X
EX =
a · Pr(X = a)
a
Manche schreiben auch µX statt EX.
Rechnen mit Erwartungswerten
Satz 1 (Linearität der Erwartung). Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so
gilt:
• E(a · X) = a · EX
• E(X + Y ) = EX + EY
Satz 2 (Nur für Unabhängige!). Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten
in R, so gilt
E(X · Y ) = EX · EY.
Beweise an der Tafel.
Was heißt überhaupt aX?
Ist X eine Zufallsgröße mit Werten in R und a ∈ R, so ist a · X eine Zufallsvariable, deren Wert von
X abhängt.
Nimmt X den Wert x ∈ R an, so nimmt a · X den Wert ax an.
Beispiel: Bei einem Brettspiel ist ein Spieler in Besitz einer Speed-Karte und darf die doppelte Augenzahl seines Würfelwurfs vorwärtsgehen. Dann ist X die gewürfelte Augenzahl und a · X mit a = 2 die
Anzahl der Schritte. Die Zufallsgröße a·X nimmt die Werte 2, 4, 6, 8, 10, 12 jeweils mit Wahrscheinlichkeit
1
6 an.
4
Und was ist X + Y ?
Sind X und Y R-wertige Zufallsgrößen, ist X + Y ebenfalls eine Zufallsgröße.
Nehmen X den Wert x und Y den Wert y an, so nimmt X + Y den Wert x + y an.
Bespiel: Sind X und Y die Augenzahlen zweier Würfel, so ist X + Y die zufällige Summe der Augen1
1
1
1
zahlen. X + Y nimmt die Werte 2, 3, 4, . . . , 12 mit den Wahrscheinlichkeiten 36
, 18
, 12
, . . . , 36
an.
Frage and Auditorium:
Ist Ihnen nun auch klar, was X · Y ist?
Oder auch X 2 , log(X), . . . ?
Rechnen mit Erwartungswerten
Satz 3 (Linearität der Erwartung). Sind X und Y Zufallsvariablen mit Werten in R und ist a ∈ R, so
gilt:
• E(a · X) = a · EX
• E(X + Y ) = EX + EY
Satz 4 (Nur für Unabhängige!). Sind X und Y stochastisch unabhängige Zufallsvariablen mit Werten
in R, so gilt
E(X · Y ) = EX · EY.
Beweise an der Tafel.
Erwartungswert der Binomialverteilung
Seien Y1 , Y2 , . . . , Yn die Indikatorvariablen der n unabhängigen Versuche d.h.
½
1 falls der i − te Versuch gelingt
Yi =
0 falls der i − te Versuch scheitert
Dann ist X = Y1 + · · · + Yn binomialverteilt mit Parametern (n, p), wobei p die Erfolgswahrscheinlichkeit
der Versuche ist.
Wegen der Linearität der Erwartung gilt
EX
= E(Y1 + · · · + Yn )
= EY1 + · · · + EYn
= p + · · · + p = np
Erwartungswert der Binomialverteilung
Wir halten fest:
X ∼ bin(n, p) ⇒ EX = n · p
5
4
Varianz und Kovarianz
Definition 3 (Varianz, Kovarianz und Korrelation). Die Varianz einer R-wertigen Zufallsgröße X ist
£
¤
2
VarX = σX
= E (X − EX)2 .
√
σX = Var X ist die Standardabweichung.
Ist Y eine weitere reellwertige Zufallsvariable, so ist
Cov(X, Y ) = E [(X − EX) · (Y − EY )]
die Kovarianz von X und Y .
Die Korrelation von X und Y ist
Cov(X, Y )
.
σX · σY
Cor(X, Y ) =
10
10
Wieso Cov(X, Y ) = E([X − EX][Y − EY ])?
●
●
8
●
8
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ● ●●
●
●●
●
●●
●
●
●
●
● ●
●●
● ●
● ●● ● ●
●
●● ● ●●● ●
●
●
●
●
●
●●
●
●
●
● ●
● ●
●
●● ●
●
● ●
●●●
●
●
● ●
●
● ●
●
●
●
●
●
●
●●
●
6
6
Y
4
●
●●
●
● ●
●
●
●
●
[X−EX]<0
●
4
●
●
●
● ●
●
●
●
Y
●
●
●●
●
●
●
●
●
●●
●
●
● ● ●●
●
●●
●
●●
●
●
●
●
● ●
●●
● ●
● ●● ● ●
●
●● ● ●●● ●
●
●
●
●
●
●●
●
●
●
● ●
● ●
●
●● ●
●
● ●
●●●
●
●
● ●
●
● ●
●
●
●
●
●
●
●●
●
[X−EX]>0
●
2
●
2
●
0
●
0
●
0
2
4
6
8
10
X
0
2
4
6
X
6
8
10
10
10
Cov(X,Y)= 1.11
●
●
●
8
8
[Y−EY]>0
●
●
●
●
●
●
●
●
●
[X−EX]*[Y−EY]<0
●
●●
6
●
●
●
●●
●
●
●
●
●
●
●●
●
●
● ● ●●
●
●●
●
●●
●
●
●●
● ●
●●
● ●
● ●● ● ●
●
●
●
●●
●
●
●● ●●
● ●●
●●
●
●
● ●
● ●
●
●● ●
●
● ●
●●●
●
●
● ●
●
● ●
●
●
[X−EX]>0
●
4
●
4
Y
[X−EX]<0
● ●
●
Y
6
●
●
● ●
●
[X−EX]*[Y−EY]>0
●
●
●
●●
●
●
●
●
●
●
●●
●
●
● ● ●●
●
●●
●
●●
●
●
●●
● ●
●●
● ●
● ●● ● ●
●
●
●
●●
●
●
●● ●●
● ●●
●●
●
●
● ●
● ●
●
●● ●
●
● ●
●●●
●
●
● ●
●
● ●
●
●
●
●
●
●
●●
●
●
●
[X−EX]*[Y−EY]>0
2
2
●
●
●
[X−EX]*[Y−EY]<0
●
0
0
[Y−EY]<0
0
2
4
6
8
10
0
2
X
4
6
8
X
10
Cov(X,Y)= −0.78
8
●
[X−EX]*[Y−EY]<0
[X−EX]*[Y−EY]>0
●
●
●
●
6
●
●
●
●
4
Y
●
●
●
●●
●●
● ●●
● ●●●
●
●●●● ● ● ●
●
●● ● ● ●
●
●
● ● ● ●
●
●
● ●
●●
●● ●
●
●● ● ● ●● ●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●●
●
●
●
●
●●
● ●●
●
●
●
● ●
●
●
2
●
●
●
[X−EX]*[Y−EY]<0
0
[X−EX]*[Y−EY]>0
0
2
4
6
8
10
X
Beispiel: Die empirische Verteilung
Sind x1 , . . . , xn ∈ R Daten und entsteht X durch rein zufälliges Ziehen aus diesen Daten, so gilt:
EX = x
und
n
Var X =
1X
(xi − x)2
n i=1
Entsprechend kann man auch für Daten (xi , yi ) die empirischen Kovarianzen und Korrelationen ausrechen, siehe nächste Seite...
7
10
●●
8
8
8
10
σX = 1.13, σY = 1.2
Cov(X, Y ) = −1.26
Cor(X, Y ) = −0.92
10
σX = 0.91, σY = 0.88
Cov(X, Y ) = 0
Cor(X, Y ) = 0
10
σX = 0.95, σY = 0.92
Cov(X, Y ) = −0.06
Cor(X, Y ) = −0.069
● ●
●
6
Y
6
Y
●
4
● ●
●
●
●
●
●
●
●
●
●
●
●
●
0
2
4
6
8
10
0
2
4
X
6
8
10
0
X
10
8
8
●
●
●
●●●
Y
6
●
●
●
●●
●●● ●
●
● ●
● ●● ●●
●
●
●
●
●● ●●
●● ●●● ●●●
●
●
●●
●
●
●
●
●●●●●
●●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●●●
●●● ●
●●
●
●
●
●●
●
●●
●
●
●●
●
4
4
Y
6
●
●
●
● ●
●
● ● ●
● ●
●
●
●
●
●
●
●
● ●● ●
●●
● ●●●
●
●
●
●
● ●●
●
● ● ●●
●
●●
●●
● ●
●●
●● ●
●
●● ●● ●
●
●
●●●●
●
●
●
●
●● ●
● ●● ● ●
● ●
●
●
● ●
●● ●
●●
●
● ●
●
●
●
2
2
●
0
0
●
0
2
4
6
8
10
0
2
4
X
6
8
10
X
Rechenregeln für Kovarianzen
• Sind X und Y unabhängig, so folgt Cov(X, Y ) = 0 (die Umkehrung gilt nicht!)
• Cov(X, Y )=Cov(Y, X)
• Cov(X, Y ) = E(XY ) − (EX)(EY )
• Cov(a · X, Y ) = a · Cov(X, Y ) = Cov(X, a · Y )
• Cov(X + Z, Y ) = Cov(X, Y ) + Cov(Z, Y )
• Cov(X, Z + Y ) = Cov(X, Z) + Cov(X, Y )
Die letzten drei Regeln beschreiben die Bilinearität der Covarianz.
Rechenregeln für die Korrelation
• −1 ≤ Cor(X, Y ) ≤ 1
• Cor(X, Y ) = Cor(Y, X)
• Cor(X, Y ) = Cov(X/σX , Y /σY )
8
2
4
6
X
σX = 1.03, σY = 0.32
Cov(X, Y ) = 0.32
Cor(X, Y ) = 0.95
10
σX = 1.14, σY = 0.78
Cov(X, Y ) = 0.78
Cor(X, Y ) = 0.71
●
● ●
●
●
●
●
●
0
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●●
●●●
●●●
●●
0
0
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
● ●● ●
●
●
●
●
●●
● ● ●●
●
●
● ●
●
●
● ● ●
●
● ● ●● ●
●●
●●
●● ● ● ●
●
● ●●●
● ●● ●●
● ● ●
●
● ●● ●
2
●
●
4
6
Y
4
●
●
●●
●
●
●
●
●
● ●
● ● ● ●●●
●
●●
●
●● ●
●
●
●
● ●
● ●
●
●
●
●●
●
●
●
●
● ●●
●●
● ●
●
● ●
● ●
●
●
● ●●
●
●
●
●
●
●
● ●
● ● ●
● ● ●● ● ● ● ●
●
●
● ●
● ●●●
●
●
● ●●●●
● ●
● ●●● ●
●
●
● ●
●
● ●●
●●
●●●
8
10
Rechenregeln für Varianzen
• VarX = Cov(X, X)
• VarX = EX 2 − (EX)2
• Var(a · X) = a2 · VarX
• Var(X + Y ) = VarX + VarY + 2 · Cov(X, Y )
• Sind (X, Y ) stochastisch unabhängig, so folgt:
Var(X + Y ) = VarX + VarY
Mit diesen Rechenregeln können wir nun endlich beweisen:
2
Satz 5. Sind X
P1 , X2 , . . . Xn unabhängige R-wertige Zufallsgrößen mit Mittelwert µ und Varianz σ , so
1
gilt für X = n i Xi :
EX = µ
und
Var X =
d.h.
1 2
σ ,
n
σ
σX = √
n
Bernoulli-Verteilung
Eine {0, 1}-wertige Zufallsvariable Y mit Pr(Y = 1) = p und Pr(Y = 0) = 1 − p heißt Bernoulliverteilt.
EY = p
Var Y = p · (1 − p)
(s. Tafel)
Sei Y1 , · · · , Yn unabhängig Bernoulli-verteilt mit Parameter p. Dann gilt
X
Yi =: X ∼ bin(n, p)
und es folgt:
Var X =
X
Var Yi = n · p · (1 − p)
Satz 6 (Erwartungswert und Varianz der Binomialverteilung). Ist X binomialverteilt mit Parametern
(n, p), so gilt:
EX = n · p
und
Var X = n · p · (1 − p)
Auf der menschlichen mtDNA wird die Aminosäure Prolin 101844 mal durch CCT und 106159 mal
durch CCA codiert.
Ist es nur vom reinen Zufall abhängig, welches Codon verwendet wird?
Dann wäre die Anzahl X der CCT binomialverteilt mit p = 21 und n = 101844 + 106159 = 208003.
EX = n · p = 104001.5
9
p
σX =
n · p · (1 − p) ≈ 230
104001.5 − 101844 = 2157.5 ≈ 9.5 · σX
Sieht
¡n¢ das nach Zufall aus?
k exakt zu berechnen,
kann für große n sehr aufwändig sein, daher wir
die Binomialverteilung oft durch andere Verteilungen approximiert.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●●
●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
500
550
●
●
0.015
●
●
●
●
●
●
●
●
●
●
0.010
●
●
0.010
dbinom(400:600, 1000, 0.5)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0.005
0.015
●
●
0.005
dbinom(400:600, 1000, 0.5)
●
●
●
●
●
●
450
●
●
●
●
400
0.020
●
●
●
●●●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.000
0.020
●●●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.000
0.025
Die Normalverteilung
0.025
5
600
400
450
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●●
●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
500
400:600
550
600
400:600
Dichte der Standardnormalverteilung
Eine Zufallsvariable Z mit der Dichte
0.4
“Gauß-Glocke”
0.3
x2
1
f (x) = √ · e− 2
2π
kurz: Z ∼ N (0, 1)
0.2
EZ = 0
0.0
0.1
Var Z = 1
−3
−2
−1
0
1
2
3
heißt standardnormalverteilt.
Ist Z N (0, 1)-verteilt, so ist X = σ · Z + µ normalverteilt mit Mittelwert µ und Varianz σ 2 , kurz:
X ∼ N (µ, σ 2 )
X hat dann die Dichte
2
1
− (x−µ)
2
2σ
f (x) = √
·e
.
2πσ
10
Merkregeln
Ist Z ∼ N (µ, σ 2 ), so gilt:
• Pr(|Z − µ| > σ) <
1
3
• Pr(|Z − µ| > 2 · σ) < 0.05
• Pr(|Z − µ| > 3 · σ) < 0.003
2
1
− (x−µ)
2
2σ
·e
2πσ
0.00
0.05
0.10
0.15
0.20
0.25
f (x) = √
0
2
µ − σ4
µ
6 + σ
µ
8
10
0.00
0.05
0.10
0.15
0.20
0.25
Dichten brauchen Integrale
Sei Z eine Zufallsvariable mit Dichte f (x).
0
2
4
6
a
8
b
Dann gilt
Z
Pr(Z ∈ [a, b]) =
b
f (x)dx.
a
Beispiel: Sei Z ∼ N (µ = 5, σ 2 = 2.25).
Pr(Z < a) berechnet man dann in R mit pnorm(a,mean=5,sd=1.5)
Berechnung von Pr(Z ∈ [3, 4]):
Pr(Z ∈ [3, 4]) = Pr(Z < 4) − Pr(Z < 3)
> pnorm(4,mean=5,sd=1.5)-pnorm(3,mean=5,sd=1.5) [1] 0.1612813
Sei Z ∼ N (µ, σ 2 ) Frage: Wie berechnet man Pr(Z = 5)?
11
10
Antwort: Für jedes x ∈ R gilt Pr(Z = x) = 0
Was wird dann aus EZ =
P
a
a · Pr(Z = a) ?
Muss reformiert werden:
Z
∞
x · f (x)dx
EZ =
−∞
Aber zum Glück kennen wir schon das Ergebnis EZ = µ.
Normalapproximation
Für große n und p, die nicht zu nahe bei 0 oder 1 liegen, kann man die Binomialverteilung durch die
Normalverteilung mit dem entsprechenden Erwartungswert und der entsprechenden Varianz approximieren:
Ist X ∼ bin(n, p) und Z ∼ N (µ = n · p, σ 2 = n · p · (1 − p)), so gilt
Pr(X ∈ [a, b]) ≈ Pr(Z ∈ [a, b])
●
●
●
●
●
0.010
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●●
●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
500
550
0.20
●
0.15
●
●
●
0.05
0.015
●
dbinom(0:10, 10, 0.2)
●
●
●
0.005
dbinom(400:600, 1000, 0.5)
●
●
0.000
0.30
●
●
450
0.25
●
●
●
●
●
400
●
●
●
0.00
0.020
●●●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.10
0.025
(eine Faustregel: für den Hausgebrauch meist okay, wenn n · p · (1 − p) ≥ 9)
n = 1000, p = 0.5, n · p · (1 − p) = 250 n = 10, p = 0.2, n · p · (1 − p) = 1.6
600
●
0
2
4
400:600
6
●
●
8
●
●
10
0:10
Theorem 4 (Zentraler Grenzwertsatz). Die R-wertigen Zufallsgrößen X1 , X2 , . . . seien unabhängig identisch verteilt mit Erwartungswert EXi = µ und Varianz Var Xi = σ 2 , wobei −∞ < µ < ∞ und
0 < σ < ∞. Sei außerdem
X1 +···+Xn
−µ
n
√
Yn :=
.
σ/ n
Dann gilt für alle −∞ ≤ a < b ≤ ∞
lim Pr(a ≤ Yn ≤ b) → Pr(a ≤ Z ≤ d),
n→∞
wobei Z eine standardnormalverteilte Zufallsvariable ist.
6
Der z-Test
Zurück zu dem Beispiel mit den Prolin-Codons in der menschlichen mtDNA.
CCT kommt k = 101844 mal vor CCA kommt n − k = 106159 mal vor
Null-Hypothese: Alles Zufall. d.h. X, die Anzahl der CCT ist bin(n, p)-verteilt mit n = 208003 und
p = 0.5.
12
Normalapproximation: X ist ungefähr N (µ, σ 2 )-verteilt mit
µ = n · p = 104001.5 ≈ 104000
und
σ=
p
n · p · (1 − p) = 228.0367 ≈ 230
Frage: Ist es plausibel, dass eine Größe X, die den Wert k = 101844 angenommen hat, ungefähr
N (104000, 2302 )-verteilt ist?
k
Wenn diese Nullhypothese H0 gilt, dann folgt
Pr(X = 101844) = 0
Aber das bedeutet nichts, denn Pr(X = k) = 0 gilt für jeden Wert k!
Entscheidend ist die Wahrscheinlichkeit, dass X (unter Annahme der H0 ) einen mindestens so extremen Wert wie k annimmt:
k
Pr(|X − µ| ≥ |k − µ|) = Pr(|X − µ| ≥ 2156) ≈ Pr(|X − µ| ≥ 9.37 · σ)
Wir wissen bereits:
P r(|X − µ| ≥ 3 · σ) < 0.003
(siehe Merkregeln!)
Also muss Pr(|X − µ| ≥ 9.37 · σ) extrem klein sein.
In der Tat:
> 2 * pnorm(101844,mean=104000,sd=230)
[1] 6.989218e-21
Ohne Normalapproximation:
> pbinom(101844,size=208003,p=0.5) +
+ pbinom(106158.99,size=208003,p=0.5,lower.tail=FALSE)
13
[1] 3.098994e-21
Wir können also argumentieren, dass eine derartig starke Abweichung vom Erwartungswerte nur durch
einen extremen Zufall zu erklären ist.
Wir werden also die Nullhypothese “alles nur Zufall” verwerfen und nach alternativen Erklärungen
suchen, etwa unterschiedliche Effizienz von CCA und CCT oder unterschiedliche Verfügbarkeit von A
und T.
Zusammenfassung z-Test
Nullhypothese H0 (möchte man meistens verwerfen): der beobachtete Wert x kommt aus einer Normalverteilung mit Mittelwert µ und bekannter Varianz σ 2 .
p-Wert =Pr(|X − µ| ≥ |x − µ|), wobei X ∼ N (µ, σ 2 ), also die Wahrscheinlichkeit einer mindestens so
großen Abweichung wie der beobachteten.
Signifikanzniveau α : oft 0.05. Wenn der p-Wert kleiner ist als α, verwerfen wir die Nullhypothese und
suchen nach einer alternativen Erklärung.
Grenzen des z-Tests
Der z-Test kann nur angewendet werden, wenn die Varianz der Normalverteilung bekannt ist oder
zumindest in der Nullhypothese als bekannt angenommen wird.
Das ist meistens nicht der Fall, wenn die Normalverteilung beim statistischen Testen verwendet wird.
Meistens wird die Varianz aus den Daten geschätzt. Dann muss statt dem z-Test der berühmte
t-Test
angewendet werden.
14
Herunterladen