BSc Bioinformatik Wintersemester 2013/2014 Klausur zur Statistik I

Werbung
BSc Bioinformatik Wintersemester 2013/2014
Klausur zur Statistik I
Freie Universität Berlin
12. Februar 2014
Matrikelnummer
Nachname
Vorname
Unterschrift
Aufgabe 1 (4 Punkte): Eine faire Münze werde 10 mal unabhängig voneinander geworfen.
A
Wie groß ist die Wahrscheinlichkeit, genau zweimal Kopf zu werfen?
B
Wie groß ist die Wahrscheinlichkeit, dass der erste, der neunte und der
zehnte Wurf Kopf zeigen und unter den restlichen sieben Würfen genau
einmal Kopf geworfen wird?
Lösung:
A
Man kann direkt die Formel für die Binomialverteilung anwenden. Hier
ist k = 2, n = 10 und p = 12 .
2 8 10
10
1
1
10
1
9 ∗ 10 1
45
=
=
=
2
2
2
2
2
2 1024
1024
B
Die Wahrscheinlichkeit, dass der erste, der neunte und der zehnte Wurf
3
Kopf sind, beträgt 12 = 81 . Die Wahrscheinlichkeit, dass unter den restlichen sieben Würfen genau einmal Kopf geworfen wird, kann wieder mit
der Binomialformel mit k = 1, n = 7 und p = 21 ausgerechnet werden.
Da die Würfe unabhängig sind, ergibt sich insgesamt:
3 7
10
1
7
1
1
7
=7
=
2
1
2
2
1024
1
Aufgabe 2 (4 Punkte): Ein Insekt bewegt sich auf einer Linie in jeder Sekunde entweder 1mm nach rechts oder 1mm nach links. Die Bewegung nach
rechts erfolgt mit Wahrscheinlichkeit 41 , die nach links mit Wahrscheinlichkeit
3
.
4
A
Geben Sie die Wahrscheinlichkeit Pn an, dass sich das Insekt nach n
Sekunden wieder am Ausgangspunkt befindet.
B
Geben Sie P4 explizit an.
Lösung:
A
Um nach n Sekunden wieder am Ausgangspunkt anzulangen, muss das
Insekt genauso viele Schritte nach rechts wie nach links machen. Die
Reihenfolge spielt keine Rolle. Zunächst ist klar, dass nach einer ungeraden Anzahl von Sekunden das Insekt unmöglich wieder am Ausgangspunkt sein kann, die Wahrscheinlichkeit also 0 ist. Ist n gerade, kann die
Wahrscheinlichkeit mit Hilfe der Binomialformel mit k = n2 und p = 41
ausgerechnet werden.
(
0 für n ungerade
1 n2 3 n2
n
Pn =
n
n 32
=
für n gerade
n/2
n/2 22n
4
4
B
Benutze die eben hergeleitete Formel für n = 4:
P4 =
4! 9
27
=
2!2! 256
128
Aufgabe 3 (4 Punkte): Erwartungswert und Standardabweichung (=Quadratwurzel aus der Varianz) einer Binomialverteilung B(n, p) seien gleich. Drücken
Sie p durch n aus. Begründen Sie Ihre Antwort durch Herleitung des Ergebnisses.
Lösung: Standardabweichung
und Erwartungswert der Binomialverteilung B(n, p)
p
betragen np(1 − p) bzw. np. Setzt man beide Größen gleich, ergibt sich die
Bestimmungsgleichung für p:
p
np(1 − p) = np
Nach Quadrieren dieser Gleichung kann p ausgerechnet werden:
np(1 − p) = n2 p2
(1 − p) = np
1 = (n + 1)p
1
p =
.
n+1
Aufgabe 4 (4 Punkte): Seien Ω = {1, 2, 3, 4} ein Laplaceraum und A =
{1, 2, 3} ein Ereignis von Ω.
2
A
Welche Wahrscheinlichkeit hat A?
B
Geben Sie Ereignisse B1 , B2 , B3 und B4 an, so dass
(a) P(A|B1 ) = 2/3
(b) P(A|B2 ) = 1/2
(c) P(A|B3 ) = 1
(d) P(A|B4 ) = 0
gelten.
Lösung:
A
Da Ω ein Laplaceraum ist, haben alle Elemente die gleiche Wahrscheinlichkeit. Die Wahrscheinlichkeit von A ist daher die Anzahl der Elemente
von A geteilt durch die Anzahl der Elemente in Ω:
P(A) = 3/4
B
Aus der Definition P(A|B) =
P(A∩B)
P(B)
erhält man durch Probieren:
(a)
B1 = {2, 3, 4}
Es gilt
P(A|B1 ) =
2
4
3
4
P({2, 3})
P(A ∩ B1 )
=
=
P(B1 )
P({2, 3, 4})
2
= .
3
(b) B2 = {3, 4} Es gilt
P(A ∩ B2 )
P({3})
P(A|B2 ) =
=
=
P(B2 )
P({3, 4})
1
4
2
4
1
= .
2
(c) B3 = {1, 2, 3} Es gilt
P(A|B3 ) =
P(A ∩ B3 )
P({1, 2, 3})
=
= 1.
P(B3 )
P({1, 2, 3})
(d) B4 = {4} Es gilt
P(A|B4 ) =
P(A ∩ B4 )
P(∅)
=
= 0,
P(B4 )
P({4})
da P(∅) = 0 gilt.
Die angegeben Lösungen sind nicht die einzigen möglichen Lösungen!
3
Aufgabe 5 (4 Punkte): Sei X eine poissonverteilte Zufallsvariable mit Erwartungswert λ.
A
Geben Sie die Wahrscheinlichkeit für P(1 ≤ X ≤ 2) an.
B
Geben Sie die bedingte Wahrscheinlichkeit P(1 ≤ X ≤ 2|X > 0) an.
C
Gegen welche Grenzwerte streben
(a) P(1 ≤ X ≤ 2)
(b) P(1 ≤ X ≤ 2|X > 0),
wenn λ gegen Null geht? Beachten Sie eλ ≈ 1 + λ für betragsmäßig kleine
λ.
Lösung:
A
Da X nur ganzzahlige Werte annehmen kann ist P(1 ≤ X ≤ 2) = P(X = 1) + P(X = 2).
Damit folgt direkt aus der Formel für die Poissonverteilung
P(1 ≤ X ≤ 2) = (λ + λ2 /2)e−λ .
B
Mit der Definition der bedingten Wahrscheinlichkeit gilt
P(1 ≤ X ≤ 2|X > 0) =
P(X = 1) + P(X = 2)
P(1 ≤ X ≤ 2 und X > 0)
=
P(X > 0)
1 − P(X = 0)
Beachte P(1 ≤ X ≤ 2 und X > 0) = P(1 ≤ X ≤ 2), da X > 0 aus
1 ≤ X ≤ 2 folgt. Mit der Formel für die Poissonverteilung folgt weiter
P(1 ≤ X ≤ 2|X > 0) =
(λ + λ2 /2)e−λ
.
1 − e−λ
Es wurde P(X > 0) = 1 − P(X = 0) benutzt.
C
(a)
lim (λ + λ2 /2)e−λ = 0,
λ→0
da e−λ gegen 1 und λ + λ2 /2 gegen 0 strebt.
(b)
(λ + λ2 /2)e−λ
(λ + λ2 /2)e−λ
=
lim
= lim [(1 + λ/2) ∗ e−λ ] = 1,
λ→0
λ→0
λ→0
1 − e−λ
1−1+λ
lim
da der erste und zweite Faktor gegen 1 streben.
Aufgabe 6 (4 Punkte): Ein Gen komme in einer Population mit nur zwei
Allelen a und A vor. Die Häufigkeit des Allels A in der Gesamtpopulation sei
P(A) = p. Die Population soll sich im Hardy-Weinberg Gleichgewicht befinden.
4
A
Geben Sie die Wahrscheinlichkeiten für die Genotypen AA, aa und Aa
an.
B
Man nehme nun weiter an, dass das Allel a rezessiv eine schwere Erbkrankheit verursacht. Wie groß ist die Wahrscheinlichkeit, vom Genotyp
AA zu sein, wenn man nicht an dieser Erbkrankheit leidet?
Lösung:
A
P(AA) = p2
P(aa) = (1 − p)2
P(Aa) = 2p(1 − p)
B
Gefragt ist nach der bedingten Wahrscheinlichkeit P(AA|aaC ) = P(AA|Aa oder AA).
Damit ergibt sich
P(AA und (Aa oder AA))
P(AA)
=
P(Aa oder AA)
P(Aa) + P(AA)
2
p
p
=
.
=
2
2p(1 − p) + p
2−p
P(AA|Aa oder AA) =
Aufgabe 7 (4 Punkte): Für eine Zufallsvariable X sei
Z=
X −3
.
5
Es sei bekannt, dass E(Z) = 5 und Var(Z) = 9 gelte.
A
Geben Sie Erwartungswert und Varianz von X an.
B
Geben Sie die standardisierte Zufallsvariable zu X an.
A
Aus
5 = E(Z) = E
X −3
5
1
= (E(X) − 3)
5
folgt
E(X) = 28.
Für die Varianz gilt
9 = Var(Z) = Var
X −3
5
=
1
Var(X)
25
und damit
Var(X) = 9 ∗ 25 = 225.
Es wurden E(X + a) = E(X) + a und Var(X + a) = Var(X) benutzt.
5
B
Die Standardisierte zu X ist
X − E(X)
X − 28
p
=
.
15
Var(X)
Aufgabe 8 (4 Punkte): Sei X eine Zufallsvariable, deren Verteilungsfunktion
folgenden Graph hat:
1.0
Verteilungsfunktion
0.8
●
0.6
●
0.4
●
0.0
0.2
●
0
1
2
3
4
5
X
Geben Sie P(X = r) für eine beliebige reelle Zahl r an.
Lösung: Die kumulierte Verteilungsfunktion F (r) ist durch F (r) := P(X ≤ r)
definiert. Bei r = 1, 2, 3, 4 macht sie einen Sprung um 1/4. Damit gilt
1/4 für r = 1, 2, 3, 4
P(X = r) =
0 sonst.
Aufgabe 9 (6 Punkte): Die Qualität eines diagnostischen Tests in der Medizin wird durch spezielle Größen charakterisiert.
A
Definieren Sie die Begriffe
(a) Sensitivität
6
(b) Spezifität
(c) Prävalenz
(d) positiver prädiktiver Wert und
(e) negativer prädiktiver Wert.
B
Ein diagnostischer Test habe eine Sensitivität von 80% und eine Spezifität von 90%.
(a) Wie groß muss die Prävalenz mindestens sein, damit der positive
prädiktive Wert mindestens 90% beträgt?
(b) Wie groß darf die Prävalenz höchstens sein, damit der negative prädiktive Wert mindestens 90% beträgt?
Hinweis: Geben Sie die Ergebnisse als gekürzte Brüche an.
Lösung:
A
Definitionen:
(a) Sensitivität: Wahrscheinlichkeit positiv getestet zu werden, wenn
man krank ist.
(b) Spezifität: Wahrscheinlichkeit negativ getestet zu werden, wenn man
gesund ist.
(c) Prävalenz: Wahrscheinlichkeit krank zu sein.
(d) Positiver prädiktiver Wert: Wahrscheinlichkeit krank zu sein, wenn
man positiv getestet wurde.
(e) Negativer prädiktiver Wert: Wahrscheinlichkeit gesund zu sein, wenn
man negativ getestet wurde.
B
(a) Sei P die Prävalenz der Erkrankung. Der positive prädiktive Wert
(PPW) hängt über die Bayessche Formel von Sensitivität, Spezifität
und Prävalenz folgendermaßen ab:
PPW =
P ∗ 0.8
≥ 0.9
P ∗ 0.8 + (1 − P ) ∗ 0.1
P ∗ 0.8 ≥ P ∗ 0.72 + 0.09 − P ∗ 0.09
9
P ≥
17
(b) Entsprechend gilt für den negativen prädiktiven Wert (NPW):
NPW =
(1 − P ) ∗ 0.9
≥ 0.9
(1 − P ) ∗ 0.9 + P ∗ 0.2
(1 − P ) ∗ 0.9 ≥ (1 − P ) ∗ 0.81 + P ∗ 0.18
−P ∗ 0.27 ≥ −0.09
1
P ≤
3
7
Aufgabe 10 (4 Punkte): In einer klinischen Studie werden Patienten zufällig
zwei Studiengruppen (Placebo- und Medikamentengruppe) zugeordnet.
A
Für jeden Patienten wird nur Erfolg bzw. kein Erfolg betrachtet. Mit welchem Test können die Erfolgsraten in beiden Gruppen verglichen werden?
B
Bei Studienbeginn wird bei jedem Patienten der diastolische Blutdruck
gemessen. In beiden Gruppen erscheinen die Messwerte normalverteilt.
Mit welchem Test können die beiden Gruppen bezüglich des diastolischen
Blutdrucks verglichen werden?
C
Nach zwei Wochen wird bei jedem Patienten wieder der Blutdruck gemessen. Mit welchem Test kann geprüft werden, ob es eine signifikante
Veränderung in der Medikamentengruppe zwischen der Messung bei Studienbeginn und der nach zwei Wochen gegeben hat. Die Differenzen der
beiden Messungen erscheinen nicht normalverteilt.
D
Mit welchem statistischen Test können die beiden Gruppen bezüglich
des Blutdrucks, der zwei Wochen nach Studienbeginn gemessen wurde,
verglichen werden.
Lösung:
A
Es sollen die Erfolgsraten (Prozentsätze) in beiden Studienarmen verglichen werden. Dazu verwendet man den χ2 -Test.
B
t-Test für unabhängige Stichproben.
C
Vorzeichentest oder Wilcoxon-Vorzeichenrangtest.
D
Mann-Whitney-U Test, da Daten wohl nicht normalverteilt.
Aufgabe 11 (4 Punkte): Seien S1 und S2 zwei unabhängige Stichproben aus
einer normalverteilten Population mit Erwartungswert µ und Varianz σ 2 . Beide
Stichproben haben das gleiche arithmetische Mittel 2. Der Stichprobenumfang
von S2 sei aber viermal so groß wie der von S1 . Der zweiseitige Einstichproben
Z-Test (H0 : µ = 0) ergebe für S1 einen P-Wert von P = 0.4. Ist der zweiseitige
Einstichproben Z-Test (H0 : µ = 0) für S2 signifikant auf dem Niveau 10%?
Benutzen Sie folgende R Ausgabe und begründen Sie Ihre Antwort.
> qnorm(c(0.8, 0.85, 0.9, 0.95))
[1] 0.8416212 1.0364334 1.2815516 1.6448536
Lösung: Für ein Signifikanzniveau α wird die Grenze des rechten Teils des Ablehnungsbereichs durch Φ−1 (1 − α2 ) berechnet. Φ bezeichnet die (kumulative)
Verteilungsfunktion der Standardnormalverteilung und Φ−1 ihre Umkehrfunktion. In R sind diese Funktionen in pnorm bzw. qnorm implementiert. In der R
8
Ausgabe werden daher die Grenzen des rechten Teils der Ablehnungsbereiche
für die Signifikanzniveaus α = 0.4, 0.3, 0.2 und 0.1 berechnet. Da der P-Wert
das kleinste Signifikanzniveau ist, auf dem der Test gerade noch signifikant ist,
muss die Statistik Z1 des Z-Tests für S1 auf dem Rand des Ablehnungsbereichs
für α = 0.4 liegen. Damit folgt |Z1 | = 0.8416212. Da S2 den gleichen Mittelwert
wie S1 hat und beide Stichproben aus einer Population mit bekannter Varianz
σ 2 stammen, ist der Wert der Z-Statistik
Z2 für S2 doppelt so groß wie der für
√
S1 (die Fallzahl n geht als Faktor n in die Berechnung der Statistik ein!).
Wegen 2 ∗ 0.8416212 > 1.6448536 liegt deshalb Z2 im Ablehnungsbereich für
α = 0.1 und die Nullhypothese kann auf dem 10% Niveau abgelehnt werden.
Aufgabe 12 (4 Punkte): Sei S = (1, 3) eine Stichprobe (n = 2) aus einer
normalverteilten Population.
A
Berechnen Sie die Statistik T des Einstichproben t-Tests für die Nullhypothese H0 : µ = 5.
B
Welcher R Befehl berechnet den zweiseitigen P-Wert? Mehrere oder auch
keine Antwort können richtig sein.
(a) 2*pt(T, df=1)
(b) 2*pt(T, df=2)
(c) 2*pt(-abs(T), df=1)
(d) 2*pt(-T, df=1)
(e) 2*pt(-T, df=2)
Lösung:
A
Zunächst berechnet man Mittelwert und die empirische Varianz der Stichprobe:
1
(1 + 3) = 2
2
1
=
((1 − 2)2 + (3 − 2)2 ) = 2
2−1
µ̂ =
σˆ2
Setz man diese Größen in die Formel für den Einstichprroben t-Test ein,
erhält man:
2 − 5√
T = √
2 = −3
2
B
Da n = 2 ist, ist T unter Nullhypothese t-verteilt mit einem Freiheitsgrad.
Man erhält den zweiseitige P-Wert durch den R Ausdruck in (c). Da
T < 0 ist, kommt bei (a) das Gleiche wie bei (c) heraus. Die anderen
Möglichkeiten benutzen entweder die falsche Anzahl von Freiheitsgraden
((b) und (e)) oder werten die Verteilungsfunktion bei 3 statt bei -3 aus
((d)). Somit sind genau (a) und (c) richtig.
9
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Wahrscheinlichkeitsdichte der t−Verteilung mit
einem Freiheitsgrad
−6
−4
−2
0
2
4
6
Aufgabe 13 (4 Punkte): Mit dem Mann-Whitney-U Test werden zwei unabhängige Stichproben S1 = (X1 , . . . , Xn ) und S2 = (Y1 , . . . , Ym ) verglichen.
Die Werte in beiden Stichproben seien positiv. Der P-Wert betrage P = 0.651.
Nun werden beide Stichproben logarithmiert und anschließend wieder mit dem
Mann-Whitney-U Test verglichen. Der P-Wert dieses Tests sei P 0 . Was kann
über den P-Wert P 0 ausgesagt werden? Mehrere Antworten können richtig sein.
A
(a) P 0 < P
(b) P 0 > P
(c) P 0 = P
(d) P 0 ≤ 0.5
(e) Es ist keine allgemeine Aussage möglich.
B
Geben Sie eine kurze Begründung Ihrer Wahl.
Lösung:
A
c ist richtig.
B
Der Logarithmus ist eine streng monoton steigende Funktion. Logarithmieren hat deshalb auf die Ränge keinen Einfluss. Da in die Statistik des
Mann-Whitney-U Tests nur die Ränge eingehen, ändert sich am Wert
der Statistik, und damit auch am P-Wert, nichts.
10
Aufgabe 14 (4 Punkte): Sei
S = (1, 1, 2.4, −5, 0, 6)
eine Stichprobe aus einer normalverteilten Population. Welche der Werte 1.1,
6.7, 14 und -14 liegen innerhalb, welche außerhalb des zweiseitigen 90%, 95%
oder 99% Konfidenzintervalls? Markieren Sie das entsprechende Feld in folgender Tabelle mit i für innerhalb und a für außerhalb:
90% 95% 99%
1.1
6.7
14
-14
Lösen Sie die Aufgabe mit Hilfe folgender R- Ausgabe:
> S <- c(1, 1, 2.4 ,-5 , 0 ,6)
> mean(S)
[1] 0.9
> t.test(S,mu=1.1)$p.value
[1] 0.8963481
> t.test(S,mu=6.7)$p.value
[1] 0.01059285
> t.test(S,mu=14)$p.value
[1] 0.0002862922
Lösung:
90% 95% 99%
1.1
i
i
i
6.7
a
a
i
14
a
a
a
-14
a
a
a
Eine reelle Zahl µ0 liegt genau dann im zweiseitigen (1 − α)100% Konfidenzintervall, wenn die Nullhypothese H0 : µ = µ0 des Einstichproben t-Tests auf
dem Niveau α nicht abgelehnt werden kann. Da der P-Wert des Einstichproben
t-Tests für µ0 = 1.1 mit P = 0.8963481 größer als α = 0.1, 0.05, 0.01 ist, kann
11
H0 : µ = 1.1 auf allen drei Signifikanzniveaus nicht abgelehnt werden. 1.1 ist
daher in allen drei Konfidenzintervallen enthalten.
Für µ0 = 6.7 kann die Nullhypothese H0 : µ = 6.7 für α = 0.1, 0.05 abgelehnt,
für α = 0.01 jedoch nicht abgelehnt werden. Damit liegt 6.7 außerhalb des 90%
und 95%, aber innerhalb des 99% Konfidenzintervalls.
Da die Nullhypothese H0 : µ = 14 mit P = 0.0002862922 auch auf dem Niveau
α = 0.01 abgelehnt werden kann, liegt 14 außerhalb aller drei Konfidenzintervalle.
Schließlich muss auch −14 außerhalb aller drei Konfidenzintervalle liegen, da
−14 vom Mittelwert 0.9 weiter entfernt liegt als 14.
Aufgabe 15 (4 Punkte): Betrachten Sie folgende Kreuztabelle:
Gruppe 1
Gruppe 2
Responder ja Responder Nein
55
45
45
55
A
Berechnen Sie die vier erwarteten Häufigkeiten für die Kreuztabelle.
B
Berechnen Sie die χ2 -Statistik X.
C
Formulieren Sie die Nullhypothese, die durch den χ2 -Test geprüft wird.
D
Kann diese Nullhypothese für diese Kreuztabelle auf dem Niveau α =
0.05 abgelehnt werden? Entscheiden Sie mit Hilfe folgender R Ausgabe:
> pchisq(1:4, df=1)
[1] 0.6826895 0.8427008 0.9167355 0.9544997
Lösung:
A
In der gesamten Stichprobe gibt es 100 Responder und 100 Non-Responder.
Die geschätzte Wahrscheinlichkeit für Response (z.B. Ansprechen auf eine Therapie) beträgt damit p̂ = 1/2. Da sich in beiden Gruppen jeweils
100 Patienten befinden, erwartet man sowohl in Gruppe 1 wie in Gruppe
2 genau 100 ∗ 1/2 = 50 Responder und genauso viele Non-Responder.
Die erwarteten Häufigkeiten sind damit:
Gruppe 1
Gruppe 2
B
Responder ja Responder Nein
50
50
50
50
Aus den erwarteten und beobachteten Häufigkeiten berechnet man die
Statistik des χ2 Tests:
(55 − 50)2 (45 − 50)2 (45 − 50)2 (55 − 50)2
X=
+
+
+
=2
50
50
50
50
12
C
Die Wahrscheinlichkeit für einen Responder in der Population, aus der
die Gruppe 1 gezogen wurde, sei p1 , die entsprechende Wahrscheinlichkeit
für Gruppe 2 sei p2 . Die gesuchte Nullhypothese ist dann
H0 : p1 = p2 .
D
Sei Fχ2 ,1 die Verteilungsfunktion der χ2 Verteilung mit einem Freiheitsgrad. Da es beim χ2 Test nur einen rechten Ablehnungsbereich gibt, gilt
P = 1 − Fχ2 ,1 (X). In R ist Fχ2 ,1 in pchisq(.,df=1) implementiert. Der
P-Wert für den χ2 Test der Kreuztabelle kann daher mit der R Ausgabe
aus dem Wert der Statistik X = 2 zu
1 − 0.8427008 = 0.1572992
bestimmt werden. Der χ2 -Test ist deshalb nicht signifikant auf dem Niveau 5%. Ist fχ2 ,1 die Wahrscheinlichkeitsdichte der χ2 Verteilung mit einem Freiheitsgrad, dann ist der P-Wert die Fläche unter fχ2 ,1 von X = 2
bis ∞:
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Wahrscheinlichkeitsdichte der Chiquadratverteilung
mit einem Freiheitsgrad
0
1
2
3
4
5
6
Aufgabe 16 (4 Punkte): In der gewöhnlichen linearen Regressionsanalyse
werden die Geradenparameter a und b der Geraden
La,b : y = a + bx
13
so bestimmt, dass eine bestimmte Quadratsumme minimal wird.
Berechnen Sie diese Quadratsumme Q für die Punkte
(1, 2), (2, 5), (3, 10)
und die Gerade L : y = x.
Lösung: Die Quadratsumme Q ist die Summe der Quadrate der vertikalen
Abstände der Punkte zur Geraden L. Für die Punkte (1, 2), (2, 5), (3, 10) und
L : y = x. ist das
10
Q = (2 − 1)2 + (5 − 2)2 + (10 − 3)3 = 59.
6
8
●
4
●
0
2
●
0
2
4
6
8
10
Q= Summe der Flächen des roten, blauen und grünen Quadrats.
14
Nützliche Formeln:
• Binomialverteilung:
n k
b(k, n, p) =
p (1 − p)n−k
k
Erwartungswert: np
Varianz: np(1 − p)
• Poissonverteilung:
p(k, λ) = e
k
−λ λ
k!
Erwartungswert und Varianz sind λ.
• Formel von Bayes:
P(A|B) =
P(B|A)P(A)
P(B|A)P(A) + P(B|AC )P(AC )
• Statistik des Z-Tests:
x̄ − µ0 √
n
σ
x̄ ist das arithmetische Mittel der Stichprobe.
Z=
• Einstichproben t-Test:
x̄ − µ0 √
n
T = p
σˆ2
mit
n
σˆ2 =
1 X
(xi − x̄)2 .
n − 1 i=1
• Statistik des χ2 -Tests:
X=
(N11 − E11 )2 (N12 − E12 )2 (N21 − E21 )2 (N22 − E12 )2
+
+
+
E11
E12
E21
E22
Die Nij sind die beobachteten und die Eij die erwarteten Häufigkeiten.
15
Herunterladen