1 Wahrscheinlichkeitsrechnung

Werbung
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
1
1 Wahrscheinlichkeitsrechnung
Laplace-Wahrscheinlichkeit:
P( E ) =
Anzahl der für das Ereignis E günstigen Ausgänge | E |
=
Anzahl der möglichen Ausgänge
|Ω|
Elementare Eigenschaften:
1. Für jedes Ereignis E ist P(E) ≥ 0 (Nichtnegativität)
2. Für das sichere Ereignis Ω ist P(Ω)=1 (Normiertheit).
3. Für zwei disjunkte Ereignisse E1, E2 gilt die spezielle Additionsregel: P(E1 oder E2) = P(E1) +
P(E2). Daraus folgt für zwei komplementäre Ereignisse E, Ec: P(Ec) = 1 – P(E).
Allgemeine Additionsregel:
P ( A oder B ) = P ( A) + P ( B ) − P ( A und B )
Bedingte Wahrscheinlichkeit:
Für zwei Ereignisse A ⊂ Ω (A≠∅), B ⊂ Ω ist die Wahrscheinlichkeit P(B|A) von B unter der
Bedingung A (d.h. unter der Voraussetzung, dass A eingetreten ist):
P ( B | A) =
P ( A und B )
P( A)
Multiplikationsregel:
P( A und B) = P(B | A)P( A) = P( A | B)P(B)
Sonderfall für unabhängige Ereignisse A, B: P ( A und B ) = P ( A ) P ( B )
Satz von der totalen Wahrscheinlichkeit:
Ereignisse Ai (i=1,2,…,n) bilden eine „Zerlegung“ von Ω, d.h. jeder Versuchsausgang liegt genau
in einem Ai. Für jedes Ereignis B aus Ω gilt:
n
P ( B ) = ∑ P ( B | Ai ) P ( Ai )
i =1
Bayes’sche Formel:
Die Ereignisse Ai ≠∅ (i=1,2,…,n) bilden eine „Zerlegung“ von Ω; dann gilt für jedes Ereignis
B ⊂ Ω (B≠∅):
P ( Ai | B ) =
StatFormeln
n
1
P( B | Ai ) P ( Ai ) mit P( B) = ∑ P ( B | Ai ) P ( Ai )
i =1
P ( B)
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
2
2 Wahrscheinlichkeitsverteilungen
2.1 Diskrete Verteilungen
Binomialverteilung:
Die Zufallsvariable X = "Anzahl der Wiederholungen mit dem Ausgang E" ist binomialverteilt mit
den Parametern n und p (kurz X ∼Bn,p); die Werte der Binomialverteilung Bn,p sind gegeben durch:
n x
 p (1 −

x
 
P( X = x) = B n, p ( x) = 
p) n− x ( x = 0, 1, 2,..., n)
R-Funktionen: dbinom(), pbinom()
dbinom(x, size, prob)
pbinom(q, size, prob)
Parameter:
x, q = Quantile (Skalar oder Vektor)
size = Anzahl der Versuchswiederholungen
prob = Erfolgswahrscheinlichkeit (Skalar oder Vektor)
Binomialkoeffizient:
 n  n(n − 1)(n − 2)L(n − x + 1)
n!
 =
=
 
1⋅ 2 ⋅ 3L x
(n − x)!x!
 x
 n
 n
  = 1,   = n
 
 
 0
1
( x = 2,3,K)
n! (gelesen n-Faktorielle, n=2,3,4, …) = 1⋅2⋅3 ⋅⋅⋅ n bezeichnet die Anzahl von Permutationen (d.h.
Anordnungen) von n Elementen. Für die Sonderfälle n=0 und n=1 gilt: 0!=1, 1!=1.
R-Funktionen: factorial(), choose()
factorial(x)
choose(n, k)
Parameter:
x, n, k = nichtnegative ganze Zahlen, k <=n
Mittelwert und Varianz einer Bn,p-verteilten Zufallsvariablen X:
µ
= E[ X ] = np
X
σ 2 = Var [X ] = npq = np(1 − p) = E [X ] ( 1 − E [X ] / n)
X
Poisson-Verteilung:
Die Binomialverteilung strebt für p 0 und konstant bleibendem Mittelwert np = λ gegen die
sogenannte Poissonverteilung Pλ mit den Funktionswerten
x
P( X = x) = P ( x) = e −λ λ ( x = 0, 1, 2, K )
λ
x!
Gute Approximation Bn,p ≈ Pλ bereits für n >10 und p < 0.1!
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
3
Es gilt:
E[ X ] = Var[ X ] = λ
R-Funktionen: dpois(), ppois()
dpois(x, lambda)
ppois(q, lambda)
Parameter:
x, q = Quantile(Skalar oder Vektor)
lambda = Parameter der Poisson-Verteilung
Hypergeometrische Verteilung:
Es seien M eine Menge von N Elementen, von denen a vom Typ A sind, und X die Zufallsvariable
„Anzahl der Elemente vom Typ A, wenn insgesamt n aus der Menge M gezogenen (und nicht
wieder zurückgelegt) werden“. Dann ist X hypergeometrisch verteilt mit den Parametern a,N-a und
n (kurz X ∼ Ha, N-a, p). Die Funktionswerte der hypergeometrischen Verteilung Ha, N-a, n sind:
 a  N − a 
 

 x  n − x 
P( X = x) = H a , N − a , n ( x ) =
N
 
n
( x = 0, 1, K , a)
Ha, N-a, p (x)≈ Bn,p (x) für n/N < 0,1 und N > 60 !
Es gilt:
E[ X ] = np
N −n
Var[ X ] = np(1 − p)
N −1
R-Funktionen: dhyper(), phyper()
dhyper(x, m, n, k)
phyper(q, m, n, k)
Parameter (in Klammern die Bezeichnungen des VO-Textes):
x, q = Quantile(Skalar oder Vektor), Anzahl der A-Elemente in der Stichprobe
m = Anzahl der A-Elemente in der Grundmenge (a)
n = Anzahl der nicht-A-Elemente in der Grundmenge (N-a)
k = Anzahl der Elemente in der Stichprobe (n)
2.2 Stetige Verteilungen
Standardnormalverteilung:
X heißt standardnormalverteilt – kurz X ∼ N(0,1), wenn die Dichtefunktion von X gegeben ist
durch:
1
exp(− x 2 / 2 ) ( −∞ < x < +∞ )
ϕ ( x) =
2π
Mittelwert und Varianz einer N(0,1)-verteilten Zufallsvariablen X:
µ X = E( X ) = 0
σ X2 = Var ( X ) = 1
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
Verteilungsfunktion:
x
Φ : x → Φ( x) = P( X < x) = ∫ ϕ (ξ )dξ
−∞
Hinweis: Φ(-x) = 1 - Φ(x)
Allgemeine Normalverteilung:
X heißt normalverteilt mit dem Mittelwert µ und der Varianz σ2 - kurz: X ∼ N(µ,σ2),
wenn Z = (X-µ )/σ standardnormalverteilt ist.
Dichtefunktion von X:

 (x − µ) 

f : x → f ( x) = 1 exp - 1 
2 σ 
σ 2π
 

2



Verteilungsfunktion:
x
F : x → F ( x) = P( X < x) = ∫ f (ξ )dξ
−∞
Hinweis:
X
F(x) = P( X < x) = P

−µ
σ
<
x − µ 
σ
x−µ
 = Φ σ 



R-Funktionen: dnorm(), pnorm(), qnorm(), r(norm()
dnorm(x,
pnorm(q,
qnorm(p,
rnorm(n,
mean
mean
mean
mean
=
=
=
=
0,
0,
0,
0,
sd
sd
sd
sd
=
=
=
=
1)
1)
1)
1)
Parameter:
x, q = Quantile (Skalar oder Vektor)
p = Unterschreitungswahrscheinlichkeit (Skalar oder Vektor)
mean = Mittelwert der Normalverteilung
sd = Standardabweichung der Normalverteilung
n = Anzahl der zu generierenden Zufallszahlen
StatFormeln
04.11.14
4
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
5
3 Parameterschätzung
3.1 Mittelwert und Varianz
Zufallsstichprobe der metrischen Variablen X vom Umfang n :
X 1 , X 2 ,..., X n
(Arithmetisches) Mittel:
1 n
X = ∑ Xi
n i =1
Varianz:
1 n
(X i − X )2
S2 =
∑
n − 1 i =1
Standardabweichung:
S=
1 n
(X i − X )2
∑
n − 1 i =1
(1-α)-Konfidenzintervall für den Mittelwert µ:
[X − d , X + d ]
mit d = t n−1,1−α / 2 SE und SE = S / n
Approximation für großes n:
[X − z
1−α / 2
SE , X + z1−α / 2 SE ] mit d = z1−α / 2 SE und SE = S / n
Faustformel zur Planung des Stichprobenumfanges (Approximation für großes n):
Notwendiger Stichprobenumfang für Mittelwertschätzung mit Genauigkeit d und Sicherheit 1 - α:
σ
z
n ≈  1−α / 2 
 d 
2
R-Funktionen:
Arithmetisches Mittel: mean()
Varianz: var()
Standardabweichung: sd()
Konfidenzintervall für Mittelwert: t.test()
Hinweis: die Funktion ist nur anwendbar, wenn die Stichprobenwerte gegeben sind, sonst direkte
Berechnung mit den Definitionsgleichungen.
t.test(x, conf.level = 0.95)
x = Datenvektor, conf.level
StatFormeln
= Konfidenzzahl (default: 0.95)
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
6
R-Funktion zur Bestimmung eines (1-α)-Konfidenzintervalls für denMittelkwert:
# R-Funktion mit Übergabeparameter:
# n (Stichprobenumfang), xquer (arithmetisches Mittel),
# std (Standardabweichung), alpha (Irrtumsrisiko)
CI_mean <- function(n, xquer, std, alpha){
q <- qt(1-alpha/2, n-1); se=std/sqrt(n); d <- q*se
ug <- xquer-d; og <- xquer+d
grenzen <- cbind(ug, og)
return(grenzen)}
options(digits=4)
# Funktionsaufruf mit n=30, xquer=10, std=5, alpha=5%
CI_mean(30, 10, 5, 0.05)
(1-α)-Konfidenzintervall für die Varianz σ2:
 (n − 1) S 2 (n − 1) S 2 
, 2
 2

 χ n−1,1−α / 2 χ n −1,α / 2 
(1-α)-Konfidenzintervall für die Standardabweichung σ:
 (n − 1) S 2 (n − 1) S 2 
,


2
χ n2−1,α / 2 
 χ n −1,1−α / 2
R-Funktion zur Bestimmung eines (1-α)-Konfidenzintervalls für die Varianz:
# R-Funktion mit Übergabeparameter:
# n (Stichprobenumfang), var (Varianz), alpha (Irrtumsrisiko)
CI_var <- function(n, var, alpha){
ug <- (n-1)*var/qchisq(1-alpha/2, n-1)
og <- (n-1)*var/qchisq(alpha/2, n-1)
grenzen <- cbind(ug, og)
return(grenzen)}
options(digits=4)
# Funktionsaufruf mit n=30, var=7.93, alpha=5%
CI_var(30, 7.93, 0.05)
ug
og
[1,] 5.03 14.33
3.2 Quantile
Berechnung des p-Quantils xp (0 < p < 1):
Eine Stichprobe der Variablen X umfasse die n metrischen Werte x1, x2, ... , xn.
Die Anordnung der Stichprobenwerte nach aufsteigender Größe führt auf die geordnete Stichprobe
x(1), x(2), ... , x(n). Man bestimme die Zahl u = 1+(n-1)p und daraus die größte ganze Zahl [u]
kleiner oder gleich u; ferner setzen man v= u-[u]
x p = (1 − v) x([ u ]) + vx([ u ]+1)
Sonderfälle:
• p = 50% (Median x0.5)
• p = 25% (unteres Quartil x0.25)
• p = 75% (oberes Quartil x0.75)
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
7
R-Funktionen:
Median: median()
Quantil: quantile(), summary()
5-Punkte-Zusammenfassung: fivenum()
3.3 Einfache Grafiken
Punktdiagramm:
Darstelleng der Stichprobenwerte als Punkteauf der Merkmalsachse, für kleinere Stichproben
(n<=15)
R-Funktion: stripchart()
1. Lös.
2. Lös.
3. Lös.
Punkt-Plots für drei Messreihen
140
160
180
200
Mg-Konzentration in mikromol/100g Trockengewicht
Box-Plot:
besteht aus einem Rechteck, das durch das untere und obere Quartil begrenzt wird und in dem der
Median markiert ist. Die Ausläufer nach unten und oben reichen bis zum kleinsten bzw. größten
Merkmalswert.
140
160
180
200
R-Funktion: boxplot()
1
2
3
Normal QQ-Plot:
Zur Beurteilung, ob die Werte x1, x2, …, xn einer Zufallsstichprobe von X gegen die Annahme „X ist
normalverteilt“ sprechen.
Wenn X N(µ, σ2) – verteilt ist, besteht zwischen dem p-Quantil xp von X und dem entsprechenden Quantil
zp der N(0, 1)-verteilten Zufallsvariablen Z=(X-µ)/σ der lineare Zusammenhang xp = σ zp + µ. Die Punkte
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
8
P(zp, xp) mit den für verschiedene Werte von p (0 < p < 1) berechneten Quantilen von Z und X als
Koordinaten) liegen im (Z, X)-Koordinatensystem auf einer Geraden mit dem Anstieg σ und dem yAchsenabschnitt µ.
Die folgende Grafik enthält Normal-QQ-Plots für zwei Zufallsstichproben (jeweils vom Umfang n=30). Die
QQ-Plots enthalten auch die Orientierungsgeraden durch die den unteren und oberen Quartilen
entsprechenden Punkte. Links sind die Dichtekurven der Grundgesamtheiten dargestellt, aus denen die
Stichproben generiert wurden (oben: Normalverteilung mit µ=5 und σ=0.25, unten: logarithmische
Normalverteilung mit µ= - 0.2 und σ=1).
Vertikal sind die (nach aufsteigender Größe angeordneten) Stichprobenwerte x(i) als (empirische) Quantile
von X aufgetragen. Die entsprechenden „Unterschreitungswahrscheinlichkeiten“ pi werden für n>10 mit
pi=(i-0.5)/n und für n ≤ 10 mit pi = (i- 3/8)(n + ¼) bestimmt. Aus den pi ermittelt man die dazu gehörenden
die Quantile zpi=φ-1(pi) der N(0, 1)-Verteilung, die horizontal aufgetragen sind.
R-Funktionen: qqnorm(), qqline()
3.4 Wahrscheinlichkeit
Zufallsstichprobe der dichotomen (0/1-skalierten) Variablen X vom Umfang n:
X 1 , X 2 ,..., X n
m = absolute Häufigkeit der Ausprägung 1 (Anzahl der Untersuchungseinheiten mit der
Ausprägung 1), yn = m/n der Anteil der Wiederholungen mit der Ausprägung 1.
Approximatives (1-α)-Konfidenzintervall [uA, oA] für die Wahrscheinlichkeit p (Agresti-Coull-Intervall):
u A = mW − l A , o A = mW + l A mit
mW =
m + z12−α / 2 / 2
n+
z12−α / 2
und l A = z1−α / 2
mW (1 − mW )
n + z12−α / 2
Voraussetzung für die Approximation: nyn(1-yn) > 9
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
Exaktes (1-α)-Konfidenzintervall [pu, po] für die Wahrscheinlichkeit p (Clopper-PearsonIntervall):
uC =
mF2 m, 2 ( n−m+1),α / 2
n − m + 1 + mF2 m, 2 ( n−m+1),α / 2
, oC =
(m + 1) F2 ( m+1), 2 ( n−m ),1−α / 2
n − m + (m + 1) F2 ( m+1), 2 ( n−m ),1−α / 2
R-Funktionen:
Konfidenzintervall für die Wahrscheinlichkeit p:
library(binom)
binom.confint(x, n, conf.level=0.95, methods=c("ac", "exact"))
x = Zahl der Erfolge, n = Anzahl der Versuche,
conf.level = Kinfidenzzahl (default: 0.95)
methods = Auswahlparamter für das gewünschte Konfidenzintervall
("ac"= Agresti-Coull, "exact"=Clopper-Pearson)
Alternativen für Clopper-Pearson-Intervall:
binom.test(x, n, conf.level = 0.95)
(im Basis-Paket enthalten)
oder
selbstdefinierte R-Funktion:
# R-Funktion mit Übergabeparameter:
# n (Stichprobenumfang), m (Anzahl der Erfolge), alpha (Irrtumsrisiko)
CI_p <- function(m, n, alpha){
qu <- qf(alpha/2, 2*m, 2*(n-m+1))
qo <- qf(1-alpha/2, 2*(m+1), 2*(n-m))
uC <- m*qu/(n-m+1+m*qu); oC <- (m+1)*qo/(n-m+(m+1)*qo)
grenzen <- cbind(uC, oC)
return(grenzen)}
options(digits=4)
# Funktionsaufruf mit n=20, m=14, alpha=5%
CI_p(14, 20, 0.05)
Faustformel zur Planung des Stichprobenumfanges (Approximation für nyn(1-yn) > 9):
Notwendiger Stichprobenumfang zur Schätzung von p mit Genauigkeit d und Sicherheit 1 - α:
z

n ≈  1−α / 2 
 2d 
StatFormeln
2
04.11.14
9
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
10
4 Testen von Hypothesen: Einstichprobenvergleiche
4.1 Allgemeines
Entscheidungsalternativen (Hypothesen):
z.B. über den Mittelwert µ einer Verteilung:
2-seitiger Test auf Abweichung: H0 : µ =µo versus H1: µ ≠ µo (Fall II)
1-seitiger Test auf Überschreitung: H0 : µ ≤µo versus H1: µ > µo (Fall Ia)
1-seitiger Test auf Unterschreitung: H0 : µ ≥µo versus H1: µ < µo (Fall Ib)
Entscheidungsproblem:
Fehlerrisken:
1. Fehler 1. Art (α-Fehler): irrtümliche Ablehnung von H0 ; Testentscheidung so, dass
P(Entscheidung für H1 | Ho ist richtig) < α.
2. Fehler 2. Art (β-Fehler): irrtümliche Nichtablehnung von H0; P(keine Entscheidung für H1 | H1
ist richtig) < β, u.a. vom Verteilungsparameter µ abhängig.
Zusammenfassung beider Fehlerrisken in der Gütefunktion (power-function):
G(µ) = P(Ablehnung von H0 | µ)
= Wahrscheinlichkeit, auf Grund einer Zufallsstichprobe gegen H0 zu entscheiden.
Testentscheidung:
Entscheidung erfolgt mit einer (für den jeweiligen Test typischen) Testgröße TG;
Zufallsstichprobe Realisierung TGs.
Entscheidung mit dem P-Wert (=Wahrscheinlichkeit, dass eine Zufallsstichprobe vom Umfang n
einen Wert der Testgröße TG ergibt, der zumindest gleich extrem im Sinne von H1 liegt, wie die
beobachtete Realisierung TGs. Ho wird abgelehnt, wenn TGs (oder noch extremere Werte) unter der
Voraussetzung der Gültigkeit von Ho nur mit kleiner Wahrscheinlichkeit P auftritt (d.h. P kleiner
als α) ist. Menge der "sehr unwahrscheinlichen" TGs-Werte bildet den sog. Ablehnungsbereich.
Die bei der Ablehnung von Ho zur Anwendung kommende logische Schlussfigur folgt dem
Schema:
Wenn Ho gilt, dann ist ein TGs im Ablehnungsbereich "sehr unwahrscheinlich";
aus einer Zufallsstichprobe ergibt sich ein TGs im Ablehnungsbereich.
⇒ Ho ist sehr unwahrscheinlich.
H0 , H 1 ?
Was bedeutet ein nicht-signifikantes Testergebnis?
Power ≥ 1−β
H0
StatFormeln
P≥α
P<α
H0, H1?
H1
Power < 1−β
H0 , H 1 ?
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
11
4.2 Ausgewählte Testverfahren
Gauß-Test
Der Gauß-Test dient zur Prüfung, ob der Mittelwert einer N(µ, σ2)-verteilten Zufallsvariablen X
von einem vorgegebenen Sollwert µ0 abweicht bzw. diesen unter- oder überschreitet. Die Varianz
σ2 wird dabei als bekannt vorausgesetzt.
Hypothesen und Testgröße:
(Ia)
H0: µ ≤ µ0, H1: µ > µ0
(Ib) H0: µ ≥ µ0, H1: µ < µ0
(II)
H0: µ = µ0, H1: µ ≠ µ0
TG =
X − µ0
σ
n
Die Testgröße TG ist unter H0 standardnormalverteilt.
Testentscheidung mit dem P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α ist.
Berechnung des P-Wertes:
P = 1 − Φ (TG s ) (Fall Ia), P = Φ (TGs ) (Fall Ib), P = 2[1 − Φ (| TGs |)] (Fall II)
Testentscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
TGs > z1- α (Fall Ia) bzw. TGs < zα (Fall Ib) bzw. |TGs| > z1-α/2 (Fall II).
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µ von µ0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht:
σ 2
n =  2
∆

σ 2
(z1−α / 2 + z1− β )2 (Fall II) bzw. n = 

 ∆2



(z1−α + z1− β )2 (Fälle Ia, b)


Gütefunktionen:

µ − µ0
G ( µ ) = Φ − z1−α / 2 −
σ/ n



µ − µ0
 + Φ − z1−α / 2 +
σ/ n



 (Fall II)


µ − µ0 
 (Fall Ia)
G( µ ) = Φ − z1−α +
σ / n 


µ −µ
 (Fall Ib)
G( µ ) = Φ − z1−α + 0
σ / n 

R-Funktion: z.test() im Paket “TeachingDemos”
z.test(x, mu=0, sd=stdev, alternative = c("two.sided", "less", "greater"),
mu = 0, conf.level = 0.95)
Parameter:
x = Datenvektor;
mu = Referenzwert mu0; stdev = bekannte Standardabweichung
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
12
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
conf.level = Konfidenzzahl (default: 0.95)
1-Stichproben-t-Test
dient zur Prüfung, ob der Mittelwert µ einer normalverteilten Zufallsvariablen von einem vorgegebenen
Sollwert µ0 abweicht (oder µ0 überschreitet bzw. unterschreitet).
Hypothesen und Testgröße:
(I)
H0: µ = µ0, H1: µ ≠ µ0
(IIa) H0: µ ≤ µ0, H1: µ > µ0
(IIb) H0: µ ≥ µ0, H1: µ < µ0
TG =
X − µ0
n
S
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n-1.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1-Fn-1(TGs) (Fall Ia) bzw. P=Fn-1(TGs) (Fall Ib) bzw.
P=2Fn-1(-|TGs|) (Fall II) ; Fn-1 ist die Verteilungsfunktion der tn-1-Verteilung.
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
TGs > tn-1,1- α (Fall Ia) bzw. TGs < tn-1,α (Fall Ib) bzw. |TGs| > tn-1,1-α/2 (Fall I).
R-Funktion: t.test()
t.test(x, alternative = c("two.sided", "less", "greater"),
mu = 0, conf.level = 0.95)
Parameter:
x = Datenvektor;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
mu = Referenzwert mu0;
conf.level = Konfidenzzahl (default: 0.95)
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µ von µ0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht (die Formeln
liefern ab n=20 brauchbare Näherungswerte):
σ 2 
σ 2 
2
2




n ≈  2 (z1−α / 2 + z1− β ) (Fall II) bzw. n ≈  2 (z1−α + z1− β ) (Fälle Ia, b)
∆ 
∆ 
R-Funktion: power. t.test()
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05 (default),
power = NULL, type = "one.sample",
alternative = c("two.sided", "one.sided"))
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
13
Parameter:
n = Stichprobenumfang;
delta = relevante Abweichung;
sd = Standardabweichung;
sig.level = Testniveau α;
power = 1 – ß;
type = Parameter zur Kennzeichnung des Typs des t-Tests;
alternative = Parameter zur Kennzeichnung der Testalternativen.
Binomialtest
dient zur Prüfung, ob eine unbekannte Wahrscheinlichkeit p von einem vorgegebenen Sollwert p0
abweicht bzw. diesen über- oder unterschreitet; p ist die Wahrscheinlichkeit, dass eine
Untersuchungseinheit die Ausprägung E zeigt.
Hypothesen und Testgröße:
(Ia) H0: p ≤ p0, H1: p > p0 bzw. (Ib) H0: p ≥ p0, H1: p < p0 bzw. (II) H0: p = p0, H1: p ≠ p0
TG=H = Anzahl der Beobachtungen mit der Ausprägung E (n ist der Stichprobenumfang);
TG ~ Bn,p0 für p=p0.
Normalverteilungsapproximation (Voraussetzung: np0(1-p0)>9):
TG* =
H − np 0
np 0 (1 − p 0 )
~ N (0,1) für H 0 : p = p 0
Für die konkrete Beobachtungsreihe H=h an.
Testentscheidung mit dem P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
• Exakter Binomialtest:
P=1 - FB(h-1) (Fall Ia) bzw. P= FB(h) (Fall Ib) bzw. P= FB (np0-d)+1- FB (np0+d-1) (Fall II)
FB bezeichnet die Verteilungsfunktion der Bn,p0-Verteilung, d=|h-np0|.
• Approximativer Binomialtest (mit Stetigkeitskorrektur)
P≈ 1-FN(h-0.5) (Fall Ia) bzw. P≈ FN(h+0.5) (Fall Ib) bzw. P≈ 2FN(np_0-d+0.5) (Fall II)
FN ist die Verteilungsfunktion der N(µ, σ2)-Verteilung mit µ=np0 und σ02=np0(1-p0); d=|hnp0| ist die Abweichung der beobachteten Anzahl vom Mittelwert.
(Approximative) Testentscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
TG*s - p0 > 0.5+z1-α σ0 (Variante Ia) bzw. TG*s - p0 > 0.5-z1-α σ0 (Variante Ib) bzw.
|TG*s - p0| > 0.5+ z1-α/2 σ0 (Variante II);
z1-α und z1-α/2 sind das (1-α)- bzw. das (1-α/2)- Quantil der N(0, 1)-Verteilung und σ02=np0(1-p0).
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn p von p0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht:
n≈
(z1−α + z1− β )2
(2 arcsin
StatFormeln
p − 2 arcsin
p0
)
2
(Fälle Ia, b) bzw. n ≈
(z1−α / 2 + z1− β )2
(2 arcsin
p − 2 arcsin
p0
)
2
(Fall II)
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
14
R-Funktion: binom.test() - Exakter Binomialtest
binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x = Anzahl der Erfolge;
n = Anzahl der Versuche;
p = Referenzwert p0 (siehe Hypothesen);
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
conf.level = Konfidenzzahl (default: 0.95).
R-Funktion: prop.test() - Approximativer Binomialtest
prop.test(x, n, p = NULL,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, correct = TRUE)
Parameter:
x = Anzahl der Erfolge;
n =
Anzahl der Versuche;
p = Referenzwert p0 (siehe Hypothesen);
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
conf.level = Konfidenzzahl (default: 0.95);
correct = logischer Parameter für Kontinuitätskorrektur.
χ2-Test zur Prüfung auf ein vorgegebenes Verhältnis
dient zur Prüfung, ob die beobachteten Häufigkeiten einer mehrstufig skalierten Zufallsvariablen
von einem vorgegebenen Verhältnis abweichen.
Hypothesen und Testgröße:
H0: pi = p0i (i=1,2, ..., k) gegen H1: pi ≠ p0i für wenigstens ein i
pi ist die Wahrscheinlichkeit, dass eine k-stufig skalierte Zufallsvariable
(mit den Werten a1, a2,…, ak) den Wert ai annimmt; die p0i sind vorgegebene Sollwerte. Die unter
der Nullhypothese bei insgesamt n Beobachtungen zu erwartende Häufigkeit der Ausprägung ai ist
Ei=npi0.
Testgröße (Chiquadrat-Summe, Goodness of Fit-Statistik):
k
(Oi − Ei )2
i =1
Ei
TG= GF = ∑
k
(Oi − np0i )2
i =1
np0i
=∑
Oi ist die Häufigkeit der Ausprägung ai. Die Testgröße ist unter H0 asymptotisch χ2-verteilt ist mit
k-1 Freiheitsgraden. Ersetzt man die Oi durch die beobachteten Häufigkeiten oi, erhält man die
Realisierung TGs der Testgröße.
Näherungsweise Testentscheidung mit dem P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei P ≈1-Fk-1(TGs); Fk-1 ist die
Verteilungsfunktion der χ2k-1-Verteilung.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
15
Näherungsweise Testentscheidung mit Quantil:
H0 auf Signifikanzniveau α ablehnen, wenn TGs > χ2k-1,α (= (1-α)-Quantil der χ2k-1-Verteilung).
Die Näherungen sind vertretbar genau, wenn alle erwarteten Häufigkeiten Ei>5 sind.
R-Funktion: chisq.test()
chisq.test(x, p = c(p01, p02, …, p0k))
Parameter:
x = numerischer Datenvektor;
p = Vektor mit den Sollwahrscheinlichkeiten.
Überprüfung der Normalverteilungsannahme, Ausreißer
Shapiro-Wilk-Test
wurde speziell zur Überprüfung der Annahme (=Nullhypothese) entwickelt, dass eine metrische
Zufallsvariable X normalverteilt ist. Die Nullhypothese wird auf dem Niveau α abgelehnt, wenn
der P-Wert kleiner als α ist.
Hypothesen:
H0: Daten stammen aus normalverteilter Grundgesamtheit
H1: Daten stammen aus nicht-normalverteilter Grundgesamtheit
R-Funktion: shapiro.test() – Shapiro-Wilk-Test
shapiro.test(x)
Parameter:
x = Datenvektor.
Identifizierung von Ausreißern
Theoretischer Grundlage:
• X ~ N(µ, σ2) P(X < µ-4σ)+P(X > µ+4σ)= 0.0063%
Tritt ein Wert außerhalb des 4-fachen Sigma-Bereichs auf, so steht er im Verdacht, dass er
keine Realisierung von X ist, sondern z.B. durch einen Datenfehler oder einen Störeinfluss
bei der Messung zustande gekommen ist.
• Mutmaßliche Ausreißer sollten jedenfalls dokumentiert und nur dann aus der Stichprobe
entfernt werden, wenn es dafür einen sachlogischen Grund gibt.
• Zur Identifizierung eines Stichprobenwerts als Ausreißer gibt es einfache Kriterien - z.B. die
Unter- bzw. Überschreitung der mit dem Interquartilabstand IQR gebildeten robusten
Grenzen
Q1-1.5 IQR bzw. Q3+1.5 IQR (Boxplot!) - oder spezielle Testverfahren.
Grubbs-Test zur Identifizierung eines einzelnen Ausreißers:
• Voraussetzung: X ~ N(µ, σ2);
Überprüfung mit einem Normal-QQ-Plot
• Testentscheidung:
H0: „Der Wert mit dem größten Abstand vom arithmetischen Mittel ist kein Ausreißer“
wird auf dem Testniveau α abgelehnt, wenn
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
5 Testen von Hypothesen: Zweistichprobenvergleiche
5.1 Zweistichprobenvergleiche bei metrischen Merkmalen
5.1.1 Übersicht
5.1.2 Ausgewählte Testverfahren: Zweistichprobenvergleiche - Parallelversuch
2-Stichproben-t-Test
Hypothesen und Testgröße:
(II)
H0: µ1 = µ2, H1: µ1 ≠ µ2
(Ia) H0: µ1 ≤ µ2, H1: µ1 > µ2
(Ib) H0: µ1 ≥ µ2, H1: µ1 < µ2
TG =
X1 − X 2
S2
n1n2
(n − 1) S12 + (n2 − 1) S 22
mit S 2 = 1
n1 + n2
n1 + n2 − 2
Voraussetzung: Varianzhomogenität
StatFormeln
04.11.14
16
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
17
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n1+n2-2.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=P(TG ≤ -|TGs| oder TG ≥ |TGs|) (Fall II) bzw.
P=P(TG ≥ TGs) (Fall Ia) bzw.
P=P(TG ≤ -TGs) (Fall Ib).
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
|TGs| > tn1+ n2 - 2,1-α/2 (Fall II) bzw. TGs > tn1 + n2 - 2,1- α (Fall Ia) bzw. TGs < tn1 + n2
- 2, α
(Fall Ib)
R-Funktion: t.test() – 2-Stichproben t-Test
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
var.equal = T, conf.level = 0.95)
Parameter:
x = Datenvektor (X-Stichprobe);
y = Datenvektor (Y-Stichprobe)
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein; „greater“ bedeutet
H1: Mittelwert von X > Mittelwert von Y);
var.equal = logischer Parameter zur Varianzhomogenität;
conf.level = Konfidenzzahl (default=0.95).
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µ1 von µ2 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht (die Formeln
gelten für n1 = n2 =n und liefern ab n=20 brauchbare Näherungswerte):
σ 2 
σ 2 
2
2
n ≈ 2 2 (z1−α / 2 + z1− β ) (Fall II) bzw. n ≈ 2 2 (z1−α + z1− β ) (Fälle Ia, b)
∆
∆




R-Funktion: power.t.test() - Power/Mindeststichprobenumfang
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05,
power = NULL, type = "two.sample",
alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang (in jeder der zu vergleichenden Gruppen)
delta = relevante Abweichung (der Gruppenmittelwerte);
sd = Standardabweichung
(Quadratwurzel der gewichteten
Stichprobenvarianzen);
sig.level = Testniveau α;
power = 1-ß;
type = Parameter zur Kennzeichnung des Typs des t-Tests;
alternative = Parameter zur Kennzeichnung der Testalternativen.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
18
Welch-Test
Hypothesen: siehe 2-Stichproben-t-Test.
Testgröße:
TG =
X1 − X 2
S12 / n1 + S 22 / n2
Hinweis: Die Testgröße TG ist unter H0 approximativ t-verteilt mit dem Freiheitsgrad
f ≈
( s12 / n1 + s22 / n2 ) 2
( s12 / n1 ) 2 /(n1 − 1) + ( s22 / n2 ) 2 /(n2 − 1)
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=2Ff(-|TGs|) (Fall II) bzw.
P=1-Ff( TGs) (Fall Ia) bzw.
P=Ff(TGs) (Fall Ib);
Ff ist die Verteilungsfunktion der t-Verteilung mit f Freiheitsgraden.
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
|TGs| > tf, 1-α/2 (Fall II) bzw. TGs > tf, 1- α (Fall Ia) bzw. TGs < tf, α (Fall Ib).
R-Funktion: t.test() – Welch-Test
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"), conf.level = 0.95)
Parameter:
x = Datenvektor (X-Stichprobe);
y = Datenvektor (Y-Stichprobe)
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein; „greater“ bedeutet
H1: Mittelwert von X > Mittelwert von Y);
conf.level = Konfidenzzahl (default=0.95).
F - Test (Parallelversuch)
Hypothesen und Testgröße:
(II)
H0: σ12 = σ22, H1: σ12 ≠ σ22
(Ia)
H0: σ12 ≤ σ22, H1: σ12 > σ22
(Ib) H0: σ12 ≥ σ22, H1: σ12 < σ22
TG =
S12
S 22
Hinweis: Die Testgröße TG ist unter H0 F-verteilt mit dem ersten Freiheitsgrad f1=n1-1 und dem
zweiten Freiheitsgrad f2=n2-1.
Entscheidung mit P-Wert:
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
19
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=2[1-Ff1,f2(TGs)] (Fall II) bzw.
P=1-Ff1,f2(TGs) (Fall Ia) bzw.
P=Ff1,f2(TGs) (Fall Ib);
dabei ist Ff1,f2 die Verteilungsfunktion der F-Verteilung mit den Freiheitsgraden f1 und f2;
TGs wird so angesetzt, dass die größere Varianz im Zähler steht.
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
TGs <Fn1-1,n2-1,α/2 oder TGs >Fn1-1,n2-1,1-α/2 (Fall II) bzw. TGs >Fn1-1,n2-1,1-α (Fall Ia )
bzw. TGs <Fn1-1,n2-1,α (Fall Ib).
R-Funktion: var.test() – F-Test
var.test(x, y, ratio = 1,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x, y = Datenvektoren (X- und Y-Stichprobe);
ratio = theoretische Varianzverhältnis;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein; „greater“ bedeutet
H1: Varianz von X > Varianz von Y);
conf.level = Konfidenzzahl (default: 0.95).
U-Test (Wilcoxon-Rangsummentest, Mann-Whitney-Test, Parallelversuch)
Verteilungsfunktionen F1 und F2 des Untersuchungsmerkmals unter den Versuchsbedingungen
unterscheiden sich nur in der Lage, d.h., Graph von F2 geht durch Verschiebung um ein bestimmtes
θ in Richtung der positiven horizontalen Achse in Graphen von F1 über. F1 und F2 müssen nicht
normalverteilt sein.
Hypothesen und Testgröße:
(II)
H0: θ = 0, H1: θ ≠ 0
(Ia)
H0: θ ≤ 0, H1: θ > θ
(Ib) H0: θ ≥ 0, H1: θ < 0
Signifikanzniveau: α
TG = W = R1-n1(n1+1)/2;
für θ = 0 gilt: E(W)=µW=n1 n2/2
bzw. Var(W)= σW2=n1n2(n1+n2+1)/12
Approximation bei großen Stichproben (n1>20, n2>20):
TG ' =
U − E[W ]
Var[W ]
≅ N (0,1)
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P= FW(µW-d) + 1- FW(µW+d-1) mit d = |TGs-µW| für die zweiseitige Testvariante II,
P=1 - FW(TGs-1) für die Variante Ia,
P=1 - FW(TGs) für die Variante Ib
(FW bezeichnet die Verteilungsfunktionen von W bei Gültigkeit von H0).
Entscheidung mit Quantilen:
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
20
H0 auf Signifikanzniveau α ablehnen, wenn
TGs < wn1, n2, α/2 oder TGs > wn1, n2, 1-α/2 (Variante II) bzw.
TGs > wn1, n2, 1-α (Variante Ia) bzw.
TGs < wn1, n2, α (Variante Ib) gilt;
Dabei bezeichnet wn1, n2, γ das γ-Quantil der Nullverteilung der Testgröße.
In R werden Werte der Verteilungsfunktion FW von W mit der Funktion pwilcox() und die Quantile von F_W
mit qwilcox() bestimmt.
R-Funktion: wilcox.test()
wilcox.test(x, y, alternative = c("two.sided", "less", "greater"),
exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95)
Parameter:
x, y = numeric vectors of data values.
alternative = a character string specifying the alternative hypothesis,
must be one of "two.sided" (default), "greater" or "less".
exact = a logical indicating whether an exact p-value should be computed.
correct = a logical indicating whether to apply continuity correction in the
normal approximation for the p-value.
conf.int = a logical indicating whether a confidence interval should be
computed.
conf.level = confidence level of the interval.
5.1.3 Ausgewählte Testverfahren: Zweistichprobenvergleiche - Paarvergleiche
t-Test für abhängige Stichproben (Paarvergleich)
ist ein mit der Differenzvariablen D=X1-X2 und dem Sollwert µ0=0 geführter 1-Stichproben-t-Test.
Es bedeuten µD und σD den Mittelwert bzw. die Standardabweichung von D; X D und SD sind das
Stichprobenmittel bzw. die Stichprobenvarianz der Differenzstichprobe.
Hypothesen und Testgröße:
(I)
H0: µD = 0, H1: µD ≠ 0
(IIa) H0: µ D ≤ 0, H1: µD > 0
(IIb) H0: µ D ≥ 0, H1: µD < 0
TG =
XD
SD
n
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n-1.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1-Fn-1(TGs) (Fall Ia) bzw. P=Fn-1(TGs) (Fall Ib) bzw.
P=2Fn-1(-|TGs|) (Fall II); Fn-1 ist die Verteilungsfunktion der tn-1-Verteilung.
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
TGs > tn-1,1- α (Fall Ia) bzw. TGs < tn-1,α (Fall Ib) bzw. |TGs| > tn-1,1-α/2 (Fall I).
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
21
R-Funktion: t.test()
t.test(x1, x2, paired=T, alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x1, x2 = Datenvektor;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
paired = logische Variable, ist bei Paarvergleich auf TRUE zu setzen;
conf.level = Konfidenzzahl (default: 0.95)
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µD von 0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht (die Formeln
liefern ab n=20 brauchbare Näherungswerte):
σ 2
n ≈  D2
∆

σ 2 
(z1−α / 2 + z1− β )2 (Fall II) bzw. n ≈  D (z1−α + z1− β )2 (Fälle Ia, b)

 ∆2 



R-Funktion: power. t.test()
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05 (default),
power = NULL, type = "paired",
alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang;
delta = relevante Abweichung;
sd = Standardabweichung;
sig.level = Testniveau α;
power = 1 – ß;
type = "paired" Parametersetzung zur Kennzeichnung des t-Tests für abhängige
Stichproben;
alternative = Parameter zur Kennzeichnung der Testalternativen.
Wilcoxon-Test (Wilcoxon signed rank test, Paarvergleich)
Differenzvariable Y-X nicht notwendigerweise normalverteilt, ζ Median der Verteilung von Y-X.
Hypothesen und Testgröße:
(I)
H0: ζ = 0, H1: ζ ≠ 0
(IIa) H0: θ ≤ 0, H1: ζ > θ
(IIb) H0: ζ ≥ 0, H1: ζ < 0
Signifikanzniveau: α
TG = T+
(unter H0: E[T+]=n(n+1)/4, Var[T+]= n(n+1)(2n+1)/24)
Approximation für große Stichproben (n>20):
TG ' =
T + − E[T + ]
Var[T + ]
StatFormeln
≅ N (0,1)
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
22
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P= FW+(µW+-d) + 1- FW+(µW++d-1) mit d = |TGs-µW+| für die zweiseitige Testvariante II,
P=1 - FW+(TGs-1) für die Variante Ia,
P=1 - FW+(TGs) für die Variante Ib
(FW+ bezeichnet die Verteilungsfunktionen von W+ bei Gültigkeit von H0).
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
TGs < w+n, α/2 oder TGs > w+n, 1-α/2 (Variante II) bzw.
TGs > w+n, 1-α (Variante Ia) bzw.
TGs < w+n, α (Variante Ib) gilt;
Dabei bezeichnet w+n, γ das γ-Quantil der Nullverteilung der Testgröße.
Zur Berechnung von Funktionswerten der Verteilungsfunktion von W+ steht in R die Anweisung
psignrank() zur Verfügung, Quantile erhält man mit qsignrank()
R-Funktion: wilcox.test()
wilcox.test(x, y, alternative = c("two.sided", "less", "greater"),
paired = TRUE, exact = NULL, correct = TRUE,
conf.int = FALSE, conf.level = 0.95)
Parameter:
x, y = numeric vectors of data values.
alternative = a character string specifying the alternative hypothesis,
must be one of "two.sided" (default), "greater" or "less".
exact = a logical indicating whether an exact p-value should be computed.
correct = a logical indicating whether to apply continuity correction in the
normal approximation for the p-value.
conf.int = a logical indicating whether a confidence interval should be
computed.
conf.level = confidence level of the interval.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
23
5. 2 Zweistichprobenvergleiche bei 2-stufigen Merkmalen
5.2.1 Übersicht
5.2.2 Ausgewählte Testverfahren
Vergleich zweier Wahrscheinlichkeiten (unabhängige Stichproben)
X = zweistufiges Merkmal mit den Ausprägungen a1 und a2, das unter zwei Versuchsbedingungen
beobachtet wird; n1, n2 = Umfänge der Parallelstichproben; p1, p2 = Wahrscheinlichkeiten, dass X
unter den Versuchsbedingungen den Wert a1 annimmt.
Hypothesen und Testgröße:
(II)
H0: p1 = p2, H1: p1 ≠ p2
(Ia)
H0: p1 ≤ p2, H1: p1 > p2
(Ib) H0: p1 ≥ p2, H1: p1 < p2
TG =
Y1 − Y2
Y (1 − Y )
n1 n2
n1 + n2
Y1, Y2 = Anteile, mit denen die Merkmalsausprägung unter der ersten bzw. zweiten
Versuchsbedingung auftritt; Y = Anteil, mit dem der Wert a1 in beiden zusammengefassten
Gruppen auftritt.
Indem man für Y1, Y2 und Y die entsprechenden relativen Häufigkeiten y1=n11/n1, y2=n12/n2 bzw.
y=n1./n einsetzt, erhält man die Realisierung TGs der Testgröße; dabei ist nij die Anzahl der
Untersuchungseinheiten mit der Ausprägung ai unter der j-ten Versuchsbedingung und n1. Der
Anteil der Untersuchungseinheiten mit der Ausprägung a1 in beiden Gruppen.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
24
TG ist unter H0 (p1=p2) angenähert standardnormalverteilt, wenn die auf den Gesamtumfang
n=n1+n2 bezogenen Produkte der Spaltensummen mit den Zeilensummen größer als 5 sind.
Die Approximation kann verbessert werden, wenn Stetigkeitskorrektur so vorgenommen wird,
dass man in TGs y1 und y2 im
Falle y1 > y2 durch y1 - 1/(2n1) bzw. y2 + 1/(2n2) und im
Falle y1 < y2 durch y1 +1/(2n1) bzw. y2 - 1/(2n2) ersetzt.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P= 2F(-|TGs|) für die zweiseitige Testvariante II bzw. P=1 - F(TGs) für die Variante Ia bzw.
P= F(TGs) für die Variante Ib ist.
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
|TGs| > z1-α/2 (Fall II) bzw. TGs > z1- α (Fall Ia) bzw. TGs < zα (Fall Ib)
R-Funktion: prop.test()
prop.test(x, n, alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x = Vektor mit den Anzahlen der Erfolge in den zu vergleichenden Gruppen;
n = Vektor mit den Anzahlen der Versuche in den zu vergleichenden Gruppen;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein)
conf.level = Konfidenzzahl (default = 0.95).
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn p1 von p2 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht:
2(z1−α / 2 + z1− β )
2
n1 = n2 ≈
h2
mit h = 2 arcsin p 2 + ∆ − 2 arcsin p 2
Im Falle der 1-seitigen Testvarianten ist α/2 durch α zu ersetzen.
R-Funktion: power.prop.test() - Power/Mindeststichprobenumfang
power.prop.test(n = NULL, p1 = NULL, p2 = NULL, sig.level = 0.05,
power = NULL, alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang (in jeder Gruppe);
p1 = Erfolgswahrscheinlichkeit in Gruppe 1;
p2 = Erfolgswahrtscheinlichkeit in Gruppe 2;
sig.level = Testniveau α;
power = 1-ß:
alternative = Parameter zur Kennzeichnung der Testalternativen.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
25
McNemar-Test zum Vergleich von Wahrscheinlichkeiten (abhängige Stichproben)
X1, X2 = zweistufige Merkmale mit Werten a1 und a2; Beobachtung von X1 und X2 an n
Untersuchungseinheiten 2 abhängige Stichproben Zusammenfassung in Vierfeldertafel:
X1
a1
a2
Σ
X2
a1 a2
n11 n12
n21 n22
n.1 n.2
Σ
n1.
n2.
n
Hypothesen und Testgröße:
p1.= P(X1=a1) = P(X1=a1 und X2=a1) + P(X1=a1 und X2=a2),
p.1= P(X2=a1) = P(X2=a1 und X1=a1) + P(X2=a1 und X1=a2),
p12 = P(X1=a1 und X2=a2), p21 = P(X2=a1 und X1=a2);
H0 : p1.= p.1 vs. H1 : p1. ≠ p.1
H0 : p12 = p21 vs. H1 : p12 ≠ p21
H0 : p12*:=p12/(p12+ p21) = p21 /(p12+ p21) =: p21* vs. H1 : p12* ≠ p21*
H0 : p12* = ½ vs. H1 : p12* ≠ ½ (wegen p12*+ p21*=1)
Testgröße (Binomialtest):
TG = H12 ~ Bn*,p0 (falls H0 gilt)
H12 = Anzahl der Untersuchungseinheiten mit X1=a1 und X2=a2, n*=n12+n21, p0=1/2;
Realisierung von TG: TGs=n12.
Testgröße (McNemar-Statistik, Normalverteilungsapproximation):
TG =
(| H12 − H 21 | −1)2
H 12 + H 21
~ χ12 unter H0 (approx. für
n12 + n21
>9
4
Entscheidung mit dem P-Wert (Binomialtest)
P < α ⇒ H0 ablehnen, wobei
P=FB(µ0-d)+1- FB(µ0+d-1);
FB = Verteilungsfunktion der Bn*,1/2-Verteilung, µ0=n*/2, d= |n12-µ0|=|n12 - n21|/2.
Entscheidung mit dem P-Wert (Normalverteilungsapproximation)
P < α ⇒ H0 ablehnen, wobei P=1- F1(TGs) (F1 =Verteilungsfunktion der χ21 –Verteilung)
Planung des Stichprobenumfangs:
Notwendiger Mindeststichprobenumfang n* (=n12+n21), um auf dem Niveau α mit der Sicherheit
1-β eine Entscheidung für H1 herbeizuführen, wenn p12* von 1/2 um ∆ ≠ 0 abweicht:
2
(
z1−α / 2 + z1−β )
n* ≈
( 2 arcsin 0.5 + ∆ − 2 arcsin 0.5 ) 2
R-Funktion: mcnemar.test() - McNemar–Test
mcnemar.test(x, correct = TRUE)
Parameter:
x = Matrix (Vierfeldertafel mit den absoluten Häufigkeiten: Anzahl der
Untersuchungseinheiten vom Typ + zum Zeitpunkt 1, die auch zum Zeitpunkt 2 vom
Typ + sind, Anzahl der Untersuchungseinheiten vom Typ + zum Zeitpunkt 1, die zum
Zeitpunkt 2 vom Typ – sind, usw.)
correct = logischer Parameter für Kontinuitätskorrektur.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
26
5.3 Zweistichprobenvergleiche bei m-stufigen Merkmalen (m>=2)
Chiquadrat-Test (Homogenitätsprüfung)
Hypothesen und Testgröße:
H0: pi1 = pi2 vs. H1: nicht alle pi1 = pi2 (i=1,2,...,m)
Signifikanzniveau: α
m
TG = GF =
∑∑
i =1
mit e ij =
2
j =1
(n
ij
− e ij
e ij
)
2
~ χ m2 −1 unter H 0 (approx.)
n i. n. j
n
(Faustformel: alle eij ≥ 1 und max. 20% der eij < 5):
Entscheidung mit Quantil:
H0 auf Testniveau α ablehnen, wenn TGs >
χ2m-1,1-α.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P= P(TG ≥ |TGs|)<α.
R-Funktion: chisq.test()
chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE)
Parameter:
x = a numeric vector or matrix.
y = a numeric vector; ignored if x is a matrix.
correct = a logical indicating whether to apply continuity correction when
computing the test statistic for 2 by 2 tables: one half is subtracted from
all |O - E| differences.
p = a vector of probabilities of the same length of x.
rescale.p = a logical scalar; if TRUE then p is rescaled (if necessary) to sum
to 1. If rescale.p is FALSE, and p does not sum to 1, an error is given.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
27
6 Abhängigkeit (Zusammenhang) zwischen zwei Merkmalen
Zusammenhang zwischen
zwei Merkmalen
abhängige Stichproben
Metrische Merkmale
k-stufige Merkmale
Abhängigkeitsprüfung
über ρ (t-Test)
Abhängigkeitsprüfung
mit χ2-Statistik
6.1 Produktmomentkorrelation
Produktmomentkorrelation als Parameter der 2-dimensionalen Normalverteilung
Definition:
X und Y heißen 2-dimensional normalverteilt mit den Parametern µX, µY, σX, σY und ρXY, wenn sie
mit Hilfe von 2 unabhängigen, N(0,1)-verteilten Zufallsvariablen Z1, Z2 durch wie folgt erzeugt
werden:
X = σ X Z1 + µ X
2
Y = σ Y ρ XY Z1 + σ Y 1 − ρ XY
Z 2 + µY
Schätzung des Verteilungsparameters ρXY:
Es sei (xi,yi) (i=1,2,...,n) eine Zufallsstichprobe der Zufallsvariablen X und Y mit
zweidimensionaler Normalverteilung. Dann ist
rXY =
s XY
(−1 ≤ rXY ≤ +1)
s X sY
ein Schätzwert für die Produktmomentkorrelation (Pearson-Korrelation) ρXY. Es sind: sX und sY
die Standardabweichungen der X- und Y-Stichprobe und sXY deren Kovarianz:
s XY
1
=
n −1
StatFormeln
n
∑ (x − x )(y − y )
i
i
i =1
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
Z-Transformtion:
1 1+ r
Z : r → Z (r ) = ln
2 1− r
1
2
µ Z ≈ ln
⇒
1+ ρ
1− ρ
Z − µZ
σZ
, σ Z2 ≈
28
mit
1
n−3
≈ N (0,1)
(1-α)-Konfidenzintervall [zu, zo] für Z(ρ)≈µZ mit
z u = Z (r ) − z1−α / 2σ Z ,
z o = Z (r ) + z1−α / 2σ Z
Rücktransformation von der Z- auf die r-Skala
(1-α)-Konfidenzintervall für ρ
 exp(2zu ) − 1 exp(2zo ) − 1
,


 exp(2zu ) + 1 exp(2zo ) + 1
Abhängigkeitsprüfung mit der Produktmomentkorrelation
Hypothesen und Testgröße:
(II)
H0: ρXY = 0, H1: ρXY ≠ 0, (Ia) H0: ρXY ≤ 0, H1: ρXY > 0, (Ib) H0: ρXY ≥ 0, H1: ρXY < 0
TG =
rxy n − 2
1− r
2
xy
mit
rxy =
s xy
sx s y
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n-2.
Entscheidung mit Quantilen:
H0 auf Signifikanzniveau α ablehnen, wenn
|TGs| > tn -2,1-α/2 (Fall II) bzw. TGs > tn - 2,1- α (Fall Ia) bzw. TGs < tn - 2, α (Fall Ib)
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1-Fn-2(TGs) (Fall Ia) bzw. P=Fn-2(TGs) (Fall Ib) bzw.
P=2Fn-2(-|TGs|) (Fall II); Fn-1 ist die Verteilungsfunktion der tn-2-Verteilung.
R-Funktion: cor.test()
cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = "pearson", conf.level = 0.95)
Parameter:
x, y = Datenvektoren (X- und Y-Stichproben)
alternative = Parameter zur Kennzeichnung der Testalternativen
Gestalt "two.sided" (default), "greater" oder "less" sein;
method = Parameter zur Festlegung des Korrelationsmaßes;
conf.level = Konfidenzzahl (default: 0.95).
StatFormeln
(muss von der
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
29
6.2 Einfache lineare Regression
Lineares Modell
(Typ B: zufallsgestörte lineare Abhängigkeit der Zielvariablen Y von der Einflussvariablen X):
Y ( x) = µY ( x) + E mit
µY ( x) = f ( x; β 0 , β1 ) = β 0 + β1 x, E ≈ N (0,σ E2 )
Es sind µY(x) der durchschnittliche (durch X bestimmte) Wert von Y sowie βo und β1 die zu
schätzenden Parameter der Regressionsgeraden mit der Gleichung µY(x) = βo + β1 X. Die
Schätzwerte für βo (y-Achsenabschnitt) und β1 (Anstieg) seien bo bzw. b1.
Prinzip der Kleinsten Quadrat – Schätzung:
Y
y^ = b 0+ b 1x
Pi
yi
^y
i
ei2
^P
i
(0, b 0)
X
xi
Schätzwerte:
βˆ1 = b1 =
s XY
s
= rXY Y , βˆ0 = b0 = y − b1 x
2
sX
sX
Vorgangsweise bei linearer Regressionsanalyse:
1. Überprüfung der Adäquatheit des linearen Modells (Regressionsgerade) im Streudiagramm
2. wenn 1. zutrifft: Prüfung auf (lineare) Abhängigkeit (Abhängigkeitsprüfung mit der
Produktmomentkorrelation)
3. wenn 2. zutrifft: Schätzen der Regressionsparameter und Angabe der Regressionsgeraden
4. Überprüfung der Residuen (Normalverteilung)
5. Beurteilung der Güte der Anpassung mit dem Bestimmtheitsmaß B=r2
R-Funktion: plot() – Streudiagramm
plot(x, y, ...)
Parameter:
x = Datenvektor für die unabhängige Variable X;
y = Datenvektor für die abhängige Variable Y;
... Grafikparameter (zB main (main= „Überschrift“), xlab (xlab =“X-AchsenBezeichnung“), ylab (ylab=“Y-Achsenbezeichnung“).
R-Funktion: abline() – Einzeichnen der Regressionsgeraden in das Streudiagramm
abline(lm(y~x))
Parameter:
x = Datenvektor für die unabhängige Variable X;
y = Datenvektor für die abhängige Variable Y.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
30
R-Funktion: lm() – Lineares Modell
lm(formula, data)
Parameter:
formula = Regressionsfunktionsterm (bei einfacher linearer Regression:
abh. V. ~ unabh. V.)
data = dataframe mit den Stichproben der Variablen als Spalten.
6.3 Lineare Regression durch den Nullpunkt:
Modell:
Y ( x) = µY ( x) + E mit
µY ( x) = f ( x; β1 ) = β1 x, E ≅ N (0, σ E2 )
Parameterschätzung:
Schätzwerte für die Modellparameter:
n
β̂1 = b1 =
n
∑x y ∑x ,
2
i
i i
i =1
i =1
SQE
MQE =
mit SQE =
n −1
n
∑
i =1

yi2 − 


n
∑
i =1

xi yi 


2
n
∑x
2
i
i =1
(1-α)-Konfidenzintervall für den Anstieg:
MQE
b1 ± t n −1,1−α / 2 SE (b1 ) = b1 ± t n −1,1−α / 2 n
∑x
2
i
i =1
R-Funktion: lm() – Lineares Modell
lm(formula, data)
Parameter:
formula = Regressionsfunktionsterm (bei linearer Regression durch den Nullpunkt:
abh. V. ~ 0 + unabh. V.)
data = dataframe mit den Stichproben der Variablen als Spalten.
6.4 Lineare Kalibrationsfunktionen:
Bestimmung der Kalibrationsfunktion:
s
s
βˆ1 = b1 = XY
= rXY Y , βˆ0 = b0 = y − b1 x ,
2
sX
sX
σˆ E2 = MQE =
SQE
2
mit SQE = (n − 1)sY2 (1 − rXY
)
n−2
Voraussetzung (Abhängigskeitsprüfung):
TG =
rXY n − 2
2
1 − rXY
=
b12 ( n − 1) s X2
> t n − 2,1−α / 2
MQE
Rückschluss von Y auf X:
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
31
Schätzwert für gesuchten Probenwerte von X zu bekanntem Wert (Erwartungswert) η von Y:
ξ = (η − β 0 ) / β1 .
Im Allgemeinen sind weder die Regressionsparameter noch η bekannt;
η wird durch den Mittelwert y * aus m zum selben ξ gemessenen Y-Werten (im Extremfall kann m=1 sein)
geschätzt, ξ durch xˆ = x + ( yˆ * − y ) / b1 ; Standardfehler s xˆ von x̂ :
2
1 1

′
 + + (y − y) 
 m n b 2 (n − 1) s 2 
1
X 

2
2
Voraussetzung: g = t n − 2,1−α / 2 / TG < 0.1
s xˆ =
MQE
| b1 |
Approximatives (1-α)-Konfidenzintervall für Probenwert
ξ : UG = xˆ − t n −2,1−α / 2 s xˆ und OG = xˆ + t n − 2,1−α / 2 s xˆ
Hinweis:
Für ein optimales Design der Kalibrationsfunktion wird man darauf achten, dass ( y ′ − y ) möglichst klein und
s X2 möglichst groß ist.
R-Funktion zur Schätzung eines Probenwertes mit Hilfe einer linearen Kaibrationsfunktion:
# R-Funktion zur Schätzung eines Probenwertes
# mit Hilfe einer linaren Kalibrationsfunktion
# ***************************************************************************
# Eingabeparameter
# x, y = Vektoren der Kalibrierprobenwerte bzw. der Hilfsgrößenwerte
# lineare Regression von y auf x ergibt die Kalibrationsfunktion
# y0 = gemessener y-Wert
# alpha = Irrtumsrisiko
# Ausgabeparameter
# y0 = gemessener y-Wert y0 der unbekannten Probe
# x0 <- Schätzwert für den unbekannten Probenwert
# alpha = Irrtumsrisiko
# se_xd = Standardfehler der Schätzfunktion für unbekannten Probenwert
# UG, OG = Grenzen eines (1-alpha)-CI für unbekannten Probenwert
# g = kritischer Wert für Approximation: muss < 0.1 sein!
# ****************************************************************************
prob_est = function(x, y, y0, alpha){
# a) Abhängigkeitsprüfung und Parameterschätzung:
daten <- data.frame(x, y)
kal_modell <- lm(y~x, data=daten)
ergebnis <- summary(kal_modell); b <- ergebnis$coefficients
b0 <- b[1,1]; b1 <- b[2,1]
# b) Schätzung des Wertes x0 zu gemessenen y-Wert y0 der unbekannten Probe
x0 <- (y0-b0)/b1 # Schätzwert für unbekannten Probenwert
yquer <- mean(y); n <- length(x); sigma <- ergebnis$sigma
se_xd <- sigma/abs(b1)*sqrt(1+1/n+(y0-yquer)^2/b1^2/(n-1)/var(x))
t_quantil <- qt(1-alpha/2, n-2)
UG <- x0 - t_quantil*se_xd; OG <- x0 + t_quantil*se_xd
# Überprüfung der Voraussetzung
r <- cor(x, y); tgs <- r*sqrt(n-2)/sqrt(1-r^2); g <- t_quantil^2/tgs^2
out <- c(y0, x0, alpha, se_xd, UG, OG, g)
return(out) }
# Beispiel für Aufruf der R-Funktion
masse <- c(1.409,3.013, 5.508, 8.100, 10.303)
peak <- c(0.027, 0.040, 0.065, 0.084, 0.102)
y0 <- 0.055; alpha <- 0.05
prob_est(masse, peak, y0, alpha)
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
6.3 Abhängigkeitsprüfung mit der Chiquadrat-Statistik
(X, Y zwei mehrstufig skalierte Variable, Daten =Kontingenztafel;
Durchführung: siehe Homogenitätsprüfung)
StatFormeln
04.11.14
32
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
33
7 Varianzanalyse
7.1 Globaltest
Daten:
Variable Y unter k Versuchsbedingungen (= Faktorstufen) wiederholt (an nj Untersuchungseinheiten auf
der Faktorstufe j) gemessen
k unabhängige Stichproben
Anordnung in Datentabelle (yij = Messwert von der i-ten Untersuchungseinheit unter der j Versuchsbedingung):
Versuchsbedingung (Faktorstufe)
1
2
...
j
...
k
Wiederholungen y11
y12 ... y1j ... y1k
y21
y22 ... y2j ... y2k
...
... ... ... ... ...
yi1
yi2 ... yij ... yik
...
... ... ... ... ...
yn1,1 yn2,2 ... ynj,j ... ynk,k
Anzahl
n1
n2 ... nj ... nk
Mittelwert
m1
m2 ... mj ... mk
Varianz
s 12
s22 ... sj2 ... sk2
Hypothesen und Testgröße:
H0: µ1 = µ2 = ... = µk vs. H1: wenigstens zwei der µj unterscheiden sich
TG =
MQF
≅ Fk −1, N − k mit
MQE
SQF
MQF =
, SQF =
k −1
k
∑ n (m − m)
2
j
j
j =1
Einsetzen der Stichprobenwerte in die Testgröße ergibt die Realsierung TGs .
Zusammenfassung der relevanten Rechengrößen in der ANOVA-Tafel:
Variationsursache
Faktor F (Bedingung)
Versuchsfehler
Summe
Quadratsumme
SQF
SQE
SQT
Freiheitsgrad
k -1
N-k
n-1
Mittlere
Quadratsumme
MQF=SQF/(k-1)
MQE=SQE/(N-k)
Testgröße
TG=MQF/MQE
SQT = (n1-1)s12+(n2-1)s22+...+(n2-1)s22
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei P=1 – Ff1,f2(TGs) ; dabei ist Ff1,f2 die
Verteilungsfunktion der F-Verteilung mit den Freiheitsgraden f1=k-1 und f2=N-k.
Entscheidung mit Quantilen:
H0 auf Testniveau α ablehnen, wenn TGs > Fk-1,N-k,1-α.
Voraussetzungen:
Die 1-faktorielle ANOVA setzt voraus, dass die Fehlergrößen Eij voneinander unabhängig variierende und
N(0, σ2)-verteilte Zufallsvariable sind (Überprüfung durch ein mit den Residuen erstelltes Normal-QQ-Plot
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
34
oder Shapiro-Wilk-Test). Diese Voraussetzung bedeutet im Besonderen, dass die Normalverteilungen auf
jeder Faktorstufe dieselbe Fehlervarianz aufweisen (Varianzhomogenität, Überprüfung mit dem LeveneTest).
R-Funktion: aov()
aov(formula, data = NULL)
Parameter:
formula = Formel zur Festlegung des Modells (1-faktorielle ANOVA:
formula = abh. V. ~ Faktorvariable)
data = Dataframe mit den Werten der Modellvariablen
7.2 Levene-Test (zur Prüfung auf ungleiche Varianzen)
Daten (wie bei Globaltest)
Hypothesen:
H0: σ12 = σ22 = ... = σk2 vs. H1: wenigstens zwei der σj2 unterscheiden sich
Testgröße:
Beobachtungen Yij auf der j-ten Faktorstufe werden durch Abstände Zij=|Yij - mj| vom jeweiligen
Stichprobenmittel mj ersetzt modifizierte Datentabelle
Versuchsbedingung (Faktorstufe)
1
2
...
j
...
k
Wiederholungen z11
z12 ... z1j ... z1k
z21
z22 ... z2j ... z2k
...
... ... ... ... ...
zn1,1 zn2,2 ... znj,j ... znk,k
Anzahl
n1
n2 ... nj ... nk
z-Mittelwerte
m1(z) m2(z) ... mj(z) ... mk(z)
z-Varianzen
s12(z) s22(z) ... sj2(z) ... sk2(z)
Idee:
Wenn Varianzhomogenität vorliegt, stimmen die Mittelwerte mj(z) bis auf zufallsbedingte Abweichungen
überein. Prüfung der Abweichungen im Rahmen einer einfaktoriellen ANOVA mit der Testgröße:
TG ( z ) =
MQF ( z )
mit
MQE ( z )
1
MQE ( z ) =
N −k
MQF =
1
k −1
k
∑ (n − 1)s ( z) und
j
2
j
j =1
k
∑ n [m ( z) − m( z)]
2
j
j
j =1
Einsetzen der Stichprobenwerte in die Testgröße ergibt die Realsierung TG(z)s ; m(z) ist das aus allen zWerten berechnete Gesamtmittel).
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei P=P(TG(z) ≥ TG(z)s)
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
35
Entscheidung:
H0 auf Testniveau α ablehnen, wenn TG(z)s
> Fk-1,N-k,1-α.
R-Funktion: leveneTest() aus dem Paket „car“
leveneTest(y, data, center=c(mean, median))
Parameter:
y = Objekt vom Typ formula (zB Zielvariable ~ Faktor oder vom Typ lm)
data = dataframe mit den Stichprobenwerten der Zielvariablen und der Faktorvariablen
center = Funktion zur Bestimmung der Zentren der Faktorgruppen (center=mean oder
center=median); Voreinstellung: center=median
ODER
R-Funktion: aov()
Analog zum Globaltest mit den Abständen Zij
7.3 Multiple Mittelwertvergleiche
7.3.1 HSD-Test von Tukey
Ausgangssituation:
Globaltest der 1-faktoriellen ANOVA ergibt Ablehnung der Nullhypothese (Gleichheit der k Mittelwerte)
auf Signifikanzniveau α.
Frage: Was sind die Paare mit verschiedenen Stufenmittelwerten
Idee:
Es wird eine Mindestdistanz angegeben, die zwei Stufenmittelwerte haben müssen, damit sie auf
dem (simultan festgelegten Niveau α) als verschieden anzusehen sind.
R-Funktion: TukeyHSD()
TukeyHSD(x, conf.level = 0.95)
Parameter:
x = mit aov erzeugtes Objekt
con.level = 1-α (Voreinstellung 0.95)
7.3.2 Scheffe-Test
Ausgangssituation: Globaltest der 1-faktoriellen ANOVA ergibt Ablehnung der Nullhypothese (Gleichheit
der k Mittelwerte) auf Signifikanzniveau α.
Frage: Welche Mittelwertunterschiede sind dafür verantwortlich.
Daten, Modell:
Wie bei 1-faktorieller ANOVA.
Hypothesen, Testgröße:
Scheffé-Test so angelegt ist, dass das gesamte α-Risiko für eine Vielzahl von mit linearen Kontrasten
L = c1µ1 + c2µ2 + ... + ckµk (c1 + c2 + ... + ck = 0) formulierbaren Mittelwertvergleichen ein
vorgegebenes Signifikanzniveau α' nicht überschreitet.
StatFormeln
04.11.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
H0: L = 0 vs. H1: L ≠ 0
TG = c1m1 + c2m2 + ... + ckmk
Entscheidung:
H0 auf Testniveau α' ablehnen, wenn
k
TGs > ( k − 1) Fk −1, N −k ,1−α ′ MQE ∑
c 2j
j =1 n j
Sind zwei Mittelwerte zu vergleichen (z.B. mi mit mj) setzt man ci=1, cj= -1 und alle anderen
Koeffizienten gleich Null; Gleichheit der beiden Mittelwerte wird auf dem Testniveau α' abgelehnt,
wenn gilt:
1 1
mi − m j > d S (i, j ) = ( k − 1) Fk −1, N −k ,1−α ′ MQE  + 
 ni n j 
StatFormeln
04.11.14
36
Zugehörige Unterlagen
Herunterladen