( ) ( ) ∑

Werbung
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
1
4 Punkt- und Intervallschätzung
4.1 Mittelwert und Varianz
Zufallsstichprobe der metrischen Variablen X vom Umfang n :
X 1 , X 2 ,..., X n
(Arithmetisches) Mittel:
1 n
X = ∑ Xi
n i =1
Varianz:
1 n
(X i − X )2
S2 =
∑
n − 1 i =1
Standardabweichung:
S=
1 n
(X i − X )2
∑
n − 1 i =1
(1-α)-Konfidenzintervall für den Mittelwert µ:
[X − d , X + d ]
mit d = t n−1,1−α / 2 SE und SE = S / n
Approximation für großes n:
[X − z
1−α / 2
SE , X + z1−α / 2 SE ] mit d = z1−α / 2 SE und SE = S / n
Faustformel zur Planung des Stichprobenumfanges (Approximation für großes n):
Notwendiger Stichprobenumfang für Mittelwertschätzung mit Genauigkeit d und Sicherheit 1 - α:
σ
z
n ≈  1−α / 2 
 d 
2
R-Funktionen:
Arithmetisches Mittel: mean()
Varianz: var()
Standardabweichung: sd()
Konfidenzintervall für Mittelwert: t.test()
Hinweis: die Funktion ist nur anwendbar, wenn die Stichprobenwerte gegeben sind, sonst direkte
Berechnung mit den Definitionsgleichungen.
t.test(x, conf.level = 0.95)
x = Datenvektor, conf.level
StatFormeln_kurz_2-Sem
= Konfidenzzahl (default: 0.95)
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
2
R-Funktion zur Bestimmung eines (1-α)-Konfidenzintervalls für denMittelkwert:
# R-Funktion mit Übergabeparameter:
# n (Stichprobenumfang), xquer (arithmetisches Mittel),
# std (Standardabweichung), alpha (Irrtumsrisiko)
CI_mean <- function(n, xquer, std, alpha){
q <- qt(1-alpha/2, n-1); se=std/sqrt(n); d <- q*se
ug <- xquer-d; og <- xquer+d
grenzen <- cbind(ug, og)
return(grenzen)}
options(digits=4)
# Funktionsaufruf mit n=30, xquer=10, std=5, alpha=5%
CI_mean(30, 10, 5, 0.05)
(1-α)-Konfidenzintervall für die Varianz σ2:
 (n − 1) S 2 (n − 1) S 2 
, 2
 2

 χ n−1,1−α / 2 χ n −1,α / 2 
(1-α)-Konfidenzintervall für die Standardabweichung σ:
 (n − 1) S 2 (n − 1) S 2 
,


2
χ n2−1,α / 2 
 χ n −1,1−α / 2
R-Funktion zur Bestimmung eines (1-α)-Konfidenzintervalls für die Varianz:
# R-Funktion mit Übergabeparameter:
# n (Stichprobenumfang), var (Varianz), alpha (Irrtumsrisiko)
CI_var <- function(n, var, alpha){
ug <- (n-1)*var/qchisq(1-alpha/2, n-1)
og <- (n-1)*var/qchisq(alpha/2, n-1)
grenzen <- cbind(ug, og)
return(grenzen)}
options(digits=4)
# Funktionsaufruf mit n=30, var=7.93, alpha=5%
CI_var(30, 7.93, 0.05)
ug
og
[1,] 5.03 14.33
4.2 Box-Plot
Berechnung des p-Quantils xp (0 < p < 1):
Eine Stichprobe der Variablen X umfasse die n metrischen Werte x1, x2, ... , xn.
Die Anordnung der Stichprobenwerte nach aufsteigender Größe führt auf die geordnete Stichprobe
x(1), x(2), ... , x(n). Man bestimme die Zahl u = 1+(n-1)p und daraus die größte ganze Zahl [u]
kleiner oder gleich u; ferner setzen man v= u-[u]
x p = (1 − v) x([ u ]) + vx([ u ]+1)
Sonderfälle:
• p = 50% (Median x0.5)
• p = 25% (unteres Quartil x0.25)
• p = 75% (oberes Quartil x0.75)
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
3
R-Funktionen:
Median: median()
Quantil: quantile(), summary()
5-Punkte-Zusammenfassung: fivenum()
Ein Boxplot besteht aus einem Rechteck, das durch das untere und obere Quartil begrenzt wird und
in dem der Median markiert ist. Die Ausläufer nach unten und oben reichen bis zum kleinsten bzw.
größten Merkmalswert.
140
160
180
200
R-Funktion: boxplot()
1
2
3
Normal QQ-Plot:
Zur Beurteilung, ob die Werte x1, x2, …, xn einer Zufallsstichprobe von X gegen die Annahme „X ist
normalverteilt“ sprechen.
Wenn X N(µ, σ2) – verteilt ist, besteht zwischen dem p-Quantil xp von X und dem entsprechenden Quantil
zp der N(0, 1)-verteilten Zufallsvariablen Z=(X-µ)/σ der lineare Zusammenhang xp = σ zp + µ. Die Punkte
P(zp, xp) mit den für verschiedene Werte von p (0 < p < 1) berechneten Quantilen von Z und X als
Koordinaten) liegen im (Z, X)-Koordinatensystem auf einer Geraden mit dem Anstieg σ und dem yAchsenabschnitt µ.
Die folgende Grafik enthält Normal-QQ-Plots für zwei Zufallsstichproben (jeweils vom Umfang n=30). Die
QQ-Plots enthalten auch die Orientierungsgeraden durch die den unteren und oberen Quartilen
entsprechenden Punkte. Links sind die Dichtekurven der Grundgesamtheiten dargestellt, aus denen die
Stichproben generiert wurden (oben: Normalverteilung mit µ=5 und σ=0.25, unten: logarithmische
Normalverteilung mit µ= - 0.2 und σ=1).
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
4
Vertikal sind die (nach aufsteigender Größe angeordneten) Stichprobenwerte x(i) als (empirische) Quantile
von X aufgetragen. Die entsprechenden „Unterschreitungswahrscheinlichkeiten“ pi werden für n>10 mit
pi=(i-0.5)/n und für n ≤ 10 mit pi = (i- 3/8)(n + ¼) bestimmt. Aus den pi ermittelt man die dazu gehörenden
die Quantile zpi=φ-1(pi) der N(0, 1)-Verteilung, die horizontal aufgetragen sind.
R-Funktionen: qqnorm(), qqline()
4.3 Wahrscheinlichkeit
Zufallsstichprobe der dichotomen (0/1-skalierten) Variablen X vom Umfang n:
X 1 , X 2 ,..., X n
m = absolute Häufigkeit der Ausprägung 1 (Anzahl der Untersuchungseinheiten mit der
Ausprägung 1), yn = m/n der Anteil der Wiederholungen mit der Ausprägung 1.
Exaktes (1-α)-Konfidenzintervall [pu, po] für die Wahrscheinlichkeit p (Clopper-PearsonIntervall):
uC =
mF2 m, 2 ( n−m+1),α / 2
n − m + 1 + mF2 m, 2 ( n−m+1),α / 2
, oC =
(m + 1) F2 ( m+1), 2 ( n−m ),1−α / 2
n − m + (m + 1) F2 ( m+1), 2 ( n−m ),1−α / 2
R-Funktionen:
binom.test(x, n, conf.level = 0.95)
(im Basis-Paket enthalten)
oder
selbstdefinierte R-Funktion:
# R-Funktion mit Übergabeparameter:
# n (Stichprobenumfang), m (Anzahl der Erfolge), alpha (Irrtumsrisiko)
CI_p <- function(m, n, alpha){
qu <- qf(alpha/2, 2*m, 2*(n-m+1))
qo <- qf(1-alpha/2, 2*(m+1), 2*(n-m))
uC <- m*qu/(n-m+1+m*qu); oC <- (m+1)*qo/(n-m+(m+1)*qo)
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
5
grenzen <- cbind(uC, oC)
return(grenzen)}
options(digits=4)
# Funktionsaufruf mit n=20, m=14, alpha=5%
CI_p(14, 20, 0.05)
Faustformel zur Planung des Stichprobenumfanges (Approximation für nyn(1-yn) > 9):
Notwendiger Stichprobenumfang zur Schätzung von p mit Genauigkeit d und Sicherheit 1 - α:
z

n ≈  1−α / 2 
 2d 
2
5 Testen von Hypothesen: Einstichprobenvergleiche
Allgemeines
Entscheidungsalternativen (Hypothesen):
z.B. über den Mittelwert µ einer Verteilung:
2-seitiger Test auf Abweichung: H0 : µ =µo versus H1: µ ≠ µo (Fall II)
1-seitiger Test auf Überschreitung: H0 : µ ≤µo versus H1: µ > µo (Fall Ia)
1-seitiger Test auf Unterschreitung: H0 : µ ≥µo versus H1: µ < µo (Fall Ib)
Entscheidungsproblem:
Fehlerrisken:
1. Fehler 1. Art (α-Fehler): irrtümliche Ablehnung von H0 ; Testentscheidung so, dass
P(Entscheidung für H1 | Ho ist richtig) < α.
2. Fehler 2. Art (β-Fehler): irrtümliche Nichtablehnung von H0; P(keine Entscheidung für H1 | H1
ist richtig) < β, u.a. vom Verteilungsparameter µ abhängig.
Zusammenfassung beider Fehlerrisken in der Gütefunktion (power-function):
G(µ) = P(Ablehnung von H0 | µ)
= Wahrscheinlichkeit, auf Grund einer Zufallsstichprobe gegen H0 zu entscheiden.
Testentscheidung:
Entscheidung erfolgt mit einer (für den jeweiligen Test typischen) Testgröße TG;
Zufallsstichprobe Realisierung TGs.
Entscheidung mit dem P-Wert (=Wahrscheinlichkeit, dass eine Zufallsstichprobe vom Umfang n
einen Wert der Testgröße TG ergibt, der zumindest gleich extrem im Sinne von H1 liegt, wie die
beobachtete Realisierung TGs. Ho wird abgelehnt, wenn TGs (oder noch extremere Werte) unter der
Voraussetzung der Gültigkeit von Ho nur mit kleiner Wahrscheinlichkeit P auftritt (d.h. P kleiner
als α) ist. Menge der "sehr unwahrscheinlichen" TGs-Werte bildet den sog. Ablehnungsbereich.
Die bei der Ablehnung von Ho zur Anwendung kommende logische Schlussfigur folgt dem
Schema:
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
6
Wenn Ho gilt, dann ist ein TGs im Ablehnungsbereich "sehr unwahrscheinlich";
aus einer Zufallsstichprobe ergibt sich ein TGs im Ablehnungsbereich.
⇒ Ho ist sehr unwahrscheinlich.
H0 , H 1 ?
Was bedeutet ein nicht-signifikantes Testergebnis?
P≥α
P<α
H0, H1?
H1
Power ≥ 1−β
H0
Power < 1−β
H0 , H 1 ?
1-Stichproben-t-Test
dient zur Prüfung, ob der Mittelwert µ einer normalverteilten Zufallsvariablen von einem vorgegebenen
Sollwert µ0 abweicht (oder µ0 überschreitet bzw. unterschreitet).
Hypothesen und Testgröße:
(I)
H0: µ = µ0, H1: µ ≠ µ0
(IIa) H0: µ ≤ µ0, H1: µ > µ0
(IIb) H0: µ ≥ µ0, H1: µ < µ0
TG =
X − µ0
n
S
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n-1.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1-Fn-1(TGs) (Fall Ia) bzw. P=Fn-1(TGs) (Fall Ib) bzw.
P=2Fn-1(-|TGs|) (Fall II) ; Fn-1 ist die Verteilungsfunktion der tn-1-Verteilung.
R-Funktion: t.test()
t.test(x, alternative = c("two.sided", "less", "greater"),
mu = 0, conf.level = 0.95)
Parameter:
x = Datenvektor;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
mu = Referenzwert mu0;
conf.level = Konfidenzzahl (default: 0.95)
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µ von µ0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht (die Formeln
liefern ab n=20 brauchbare Näherungswerte):
σ 2 
σ 2 
2
2




n ≈  2 (z1−α / 2 + z1− β ) (Fall II) bzw. n ≈  2 (z1−α + z1− β ) (Fälle Ia, b)
∆ 
∆ 
R-Funktion: power. t.test()
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
7
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05 (default),
power = NULL, type = "one.sample",
alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang;
delta = relevante Abweichung;
sd = Standardabweichung;
sig.level = Testniveau α;
power = 1 – ß;
type = Parameter zur Kennzeichnung des Typs des t-Tests;
alternative = Parameter zur Kennzeichnung der Testalternativen.
Binomialtest
dient zur Prüfung, ob eine unbekannte Wahrscheinlichkeit p von einem vorgegebenen Sollwert p0
abweicht bzw. diesen über- oder unterschreitet; p ist die Wahrscheinlichkeit, dass eine
Untersuchungseinheit die Ausprägung E zeigt.
Hypothesen und Testgröße:
(Ia) H0: p ≤ p0, H1: p > p0 bzw. (Ib) H0: p ≥ p0, H1: p < p0 bzw. (II) H0: p = p0, H1: p ≠ p0
TG=H = Anzahl der Beobachtungen mit der Ausprägung E (n ist der Stichprobenumfang);
TG ~ Bn,p0 für p=p0. Für die konkrete Beobachtungsreihe ist H=h.
Testentscheidung mit dem P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1 - FB(h-1) (Fall Ia) bzw. P= FB(h) (Fall Ib) bzw. P= FB (np0-d)+1- FB (np0+d-1) (Fall II)
FB bezeichnet die Verteilungsfunktion der Bn,p0-Verteilung, d=|h-np0|.
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn p von p0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht:
n≈
(z1−α + z1− β )2
(2 arcsin
p − 2 arcsin
p0
)
2
(Fälle Ia, b) bzw. n ≈
(z1−α / 2 + z1− β )2
(2 arcsin
p − 2 arcsin
p0
)
2
(Fall II)
R-Funktion: binom.test() - Exakter Binomialtest
binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x = Anzahl der Erfolge;
n = Anzahl der Versuche;
p = Referenzwert p0 (siehe Hypothesen);
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
conf.level = Konfidenzzahl (default: 0.95).
Shapiro-Wilk-Test
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
8
wurde speziell zur Überprüfung der Annahme (=Nullhypothese) entwickelt, dass eine metrische
Zufallsvariable X normalverteilt ist. Die Nullhypothese wird auf dem Niveau α abgelehnt, wenn
der P-Wert kleiner als α ist.
Hypothesen:
H0: Daten stammen aus normalverteilter Grundgesamtheit
H1: Daten stammen aus nicht-normalverteilter Grundgesamtheit
R-Funktion: shapiro.test() – Shapiro-Wilk-Test
shapiro.test(x)
Parameter:
x = Datenvektor.
6 Testen von Hypothesen: Zweistichprobenvergleiche
Welch-Test
Hypothesen und Testgröße:
(II)
H0: µ1 = µ2, H1: µ1 ≠ µ2
(Ia) H0: µ1 ≤ µ2, H1: µ1 > µ2
(Ib) H0: µ1 ≥ µ2, H1: µ1 < µ2
TG =
X1 − X 2
S12 / n1 + S 22 / n2
Hinweis: Die Testgröße TG ist unter H0 approximativ t-verteilt mit dem Freiheitsgrad
f ≈
( s12 / n1 + s22 / n2 ) 2
( s12 / n1 ) 2 /(n1 − 1) + ( s22 / n2 ) 2 /(n2 − 1)
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=2Ff(-|TGs|) (Fall II) bzw.
P=1-Ff( TGs) (Fall Ia) bzw.
P=Ff(TGs) (Fall Ib);
Ff ist die Verteilungsfunktion der t-Verteilung mit f Freiheitsgraden.
R-Funktion: t.test() – Welch-Test
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"), conf.level = 0.95)
Parameter:
x = Datenvektor (X-Stichprobe);
y = Datenvektor (Y-Stichprobe)
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein; „greater“ bedeutet
H1: Mittelwert von X > Mittelwert von Y);
conf.level = Konfidenzzahl (default=0.95).
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
9
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µ1 von µ2 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht (die Formeln
gelten für n1 = n2 =n und liefern ab n=20 brauchbare Näherungswerte):
σ 2 
σ 2 
2
2
n ≈ 2 2 (z1−α / 2 + z1− β ) (Fall II) bzw. n ≈ 2 2 (z1−α + z1− β ) (Fälle Ia, b)
∆
∆




R-Funktion: power.t.test() - Power/Mindeststichprobenumfang
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05,
power = NULL, type = "two.sample",
alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang (in jeder der zu vergleichenden Gruppen)
delta = relevante Abweichung (der Gruppenmittelwerte);
sd = Standardabweichung (Quadratwurzel der gewichteten Stichprobenvarianzen);
sig.level = Testniveau α;
power = 1-ß;
type = Parameter zur Kennzeichnung des Typs des t-Tests;
alternative = Parameter zur Kennzeichnung der Testalternativen.
t-Test für abhängige Stichproben (Paarvergleich)
ist ein mit der Differenzvariablen D=X1-X2 und dem Sollwert µ0=0 geführter 1-Stichproben-t-Test.
Es bedeuten µD und σD den Mittelwert bzw. die Standardabweichung von D; X D und SD sind das
Stichprobenmittel bzw. die Stichprobenvarianz der Differenzstichprobe.
Hypothesen und Testgröße:
(I)
H0: µD = 0, H1: µD ≠ 0
(IIa) H0: µ D ≤ 0, H1: µD > 0
(IIb) H0: µ D ≥ 0, H1: µD < 0
TG =
XD
SD
n
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n-1.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1-Fn-1(TGs) (Fall Ia) bzw. P=Fn-1(TGs) (Fall Ib) bzw.
P=2Fn-1(-|TGs|) (Fall II); Fn-1 ist die Verteilungsfunktion der tn-1-Verteilung.
R-Funktion: t.test()
t.test(x1, x2, paired=T, alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x1, x2 = Datenvektor;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein);
paired = logische Variable, ist bei Paarvergleich auf TRUE zu setzen;
conf.level = Konfidenzzahl (default: 0.95)
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
10
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn µD von 0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht (die Formeln
liefern ab n=20 brauchbare Näherungswerte):
σ 2
n ≈  D2
∆

σ 2 
(z1−α / 2 + z1− β )2 (Fall II) bzw. n ≈  D (z1−α + z1− β )2 (Fälle Ia, b)

 ∆2 



R-Funktion: power. t.test()
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05 (default),
power = NULL, type = "paired",
alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang;
delta = relevante Abweichung;
sd = Standardabweichung;
sig.level = Testniveau α;
power = 1 – ß;
type = "paired" Parametersetzung zur Kennzeichnung des t-Tests für abhängige
Stichproben;
alternative = Parameter zur Kennzeichnung der Testalternativen.
Vergleich zweier Wahrscheinlichkeiten (unabhängige Stichproben)
X = zweistufiges Merkmal mit den Ausprägungen a1 und a2, das unter zwei Versuchsbedingungen
beobachtet wird; n1, n2 = Umfänge der Parallelstichproben; p1, p2 = Wahrscheinlichkeiten, dass X
unter den Versuchsbedingungen den Wert a1 annimmt.
Hypothesen und Testgröße:
(II)
H0: p1 = p2, H1: p1 ≠ p2
(Ia)
H0: p1 ≤ p2, H1: p1 > p2
(Ib) H0: p1 ≥ p2, H1: p1 < p2
TG =
Y1 − Y2
Y (1 − Y )
n1 n2
n1 + n2
Y1, Y2 = Anteile, mit denen die Merkmalsausprägung unter der ersten bzw. zweiten
Versuchsbedingung auftritt; Y = Anteil, mit dem der Wert a1 in beiden zusammengefassten
Gruppen auftritt.
Indem man für Y1, Y2 und Y die entsprechenden relativen Häufigkeiten y1=n11/n1, y2=n12/n2 bzw.
y=n1./n einsetzt, erhält man die Realisierung TGs der Testgröße; dabei ist nij die Anzahl der
Untersuchungseinheiten mit der Ausprägung ai unter der j-ten Versuchsbedingung und n1. Der
Anteil der Untersuchungseinheiten mit der Ausprägung a1 in beiden Gruppen.
TG ist unter H0 (p1=p2) angenähert standardnormalverteilt, wenn die auf den Gesamtumfang
n=n1+n2 bezogenen Produkte der Spaltensummen mit den Zeilensummen größer als 5 sind.
Entscheidung mit P-Wert:
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
11
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P= 2F(-|TGs|) für die zweiseitige Testvariante II bzw. P=1 - F(TGs) für die Variante Ia bzw.
P= F(TGs) für die Variante Ib ist.
R-Funktion: prop.test()
prop.test(x, n, alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
Parameter:
x = Vektor mit den Anzahlen der Erfolge in den zu vergleichenden Gruppen;
n = Vektor mit den Anzahlen der Versuche in den zu vergleichenden Gruppen;
alternative = Parameter zur Kennzeichnung der Testalternativen (muss von der
Gestalt "two.sided" (default), "greater" oder "less" sein)
conf.level = Konfidenzzahl (default = 0.95).
Planung des Stichprobenumfanges:
Notwendiger Stichprobenumfang, um auf Niveau α mit Sicherheit 1-ß eine Entscheidung für H1
herbeizuführen, wenn p1 von p2 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht:
2(z1−α / 2 + z1− β )
2
n1 = n2 ≈
h2
mit h = 2 arcsin p 2 + ∆ − 2 arcsin p 2
Im Falle der 1-seitigen Testvarianten ist α/2 durch α zu ersetzen.
R-Funktion: power.prop.test() - Power/Mindeststichprobenumfang
power.prop.test(n = NULL, p1 = NULL, p2 = NULL, sig.level = 0.05,
power = NULL, alternative = c("two.sided", "one.sided"))
Parameter:
n = Stichprobenumfang (in jeder Gruppe);
p1 = Erfolgswahrscheinlichkeit in Gruppe 1;
p2 = Erfolgswahrtscheinlichkeit in Gruppe 2;
sig.level = Testniveau α;
power = 1-ß:
alternative = Parameter zur Kennzeichnung der Testalternativen.
7 Abhängigkeit (Zusammenhang) zwischen zwei Merkmalen
7.1 Produktmomentkorrelation
Definition:
X und Y heißen 2-dimensional normalverteilt mit den Parametern µX, µY, σX, σY und ρXY, wenn sie
mit Hilfe von 2 unabhängigen, N(0,1)-verteilten Zufallsvariablen Z1, Z2 durch wie folgt erzeugt
werden:
X = σ X Z1 + µ X
2
Y = σ Y ρ XY Z1 + σ Y 1 − ρ XY
Z 2 + µY
Schätzung des Verteilungsparameters ρXY:
Es sei (xi,yi) (i=1,2,...,n) eine Zufallsstichprobe der Zufallsvariablen X und Y mit
zweidimensionaler Normalverteilung. Dann ist
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
rXY =
12
s XY
(−1 ≤ rXY ≤ +1)
s X sY
ein Schätzwert für die Produktmomentkorrelation (Pearson-Korrelation) ρXY. Es sind: sX und sY
die Standardabweichungen der X- und Y-Stichprobe und sXY deren Kovarianz:
s XY =
1
n −1
n
∑ (x − x )(y − y )
i
i
i =1
Abhängigkeitsprüfung mit der Produktmomentkorrelation
Hypothesen und Testgröße:
(II)
H0: ρXY = 0, H1: ρXY ≠ 0, (Ia) H0: ρXY ≤ 0, H1: ρXY > 0, (Ib) H0: ρXY ≥ 0, H1: ρXY < 0
TG =
rxy n − 2
1 − rxy2
mit
rxy =
s xy
sx s y
Hinweis: Die Testgröße TG ist unter H0 t-verteilt mit FG=n-2.
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei
P=1-Fn-2(TGs) (Fall Ia) bzw. P=Fn-2(TGs) (Fall Ib) bzw.
P=2Fn-2(-|TGs|) (Fall II); Fn-1 ist die Verteilungsfunktion der tn-2-Verteilung.
R-Funktion: cor.test()
cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = "pearson", conf.level = 0.95)
Parameter:
x, y = Datenvektoren (X- und Y-Stichproben)
alternative = Parameter zur Kennzeichnung der Testalternativen
Gestalt "two.sided" (default), "greater" oder "less" sein;
method = Parameter zur Festlegung des Korrelationsmaßes;
conf.level = Konfidenzzahl (default: 0.95).
(muss von der
7.2 Einfache lineare Regression
Lineares Modell
(Typ B: zufallsgestörte lineare Abhängigkeit der Zielvariablen Y von der Einflussvariablen X):
Y ( x) = µY ( x) + E mit
µY ( x) = f ( x; β 0 , β1 ) = β 0 + β1 x, E ≈ N (0,σ E2 )
Es sind µY(x) der durchschnittliche (durch X bestimmte) Wert von Y sowie βo und β1 die zu
schätzenden Parameter der Regressionsgeraden mit der Gleichung µY(x) = βo + β1 X. Die
Schätzwerte für βo (y-Achsenabschnitt) und β1 (Anstieg) seien bo bzw. b1.
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
13
Prinzip der Kleinsten Quadrat – Schätzung:
Y
y^ = b 0+ b 1x
Pi
yi
^y
i
ei2
^P
i
(0, b 0)
X
xi
Schätzwerte:
βˆ1 = b1 =
s XY
s
= rXY Y , βˆ0 = b0 = y − b1 x
2
sX
sX
Vorgangsweise bei linearer Regressionsanalyse:
1. Überprüfung der Adäquatheit des linearen Modells (Regressionsgerade) im Streudiagramm
2. wenn 1. zutrifft: Prüfung auf (lineare) Abhängigkeit (Abhängigkeitsprüfung mit der
Produktmomentkorrelation)
3. wenn 2. zutrifft: Schätzen der Regressionsparameter und Angabe der Regressionsgeraden
4. Überprüfung der Residuen (Normalverteilung)
5. Beurteilung der Güte der Anpassung mit dem Bestimmtheitsmaß B=r2
R-Funktion: plot() – Streudiagramm
plot(x, y, ...)
Parameter:
x = Datenvektor für die unabhängige Variable X;
y = Datenvektor für die abhängige Variable Y;
... Grafikparameter (zB main (main= „Überschrift“), xlab (xlab =“X-AchsenBezeichnung“), ylab (ylab=“Y-Achsenbezeichnung“).
R-Funktion: abline() – Einzeichnen der Regressionsgeraden in das Streudiagramm
abline(lm(y~x))
Parameter:
x = Datenvektor für die unabhängige Variable X;
y = Datenvektor für die abhängige Variable Y.
R-Funktion: lm() – Lineares Modell
lm(formula, data)
Parameter:
formula = Regressionsfunktionsterm (bei einfacher linearer Regression:
abh. V. ~ unabh. V.)
data = dataframe mit den Stichproben der Variablen als Spalten.
7.3 Lineare Regression durch den Nullpunkt:
Modell:
Y ( x) = µY ( x) + E mit
µY ( x) = f ( x; β1 ) = β1 x, E ≅ N (0, σ E2 )
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
14
Parameterschätzung:
Schätzwerte für die Modellparameter:
n
β̂1 = b1 =
∑
n
xi yi
i =1
∑x ,
2
i
i =1
SQE
MQE =
mit SQE =
n −1
n
∑
i =1
yi2

−


n
∑
i =1

xi yi 


2
n
∑x
2
i
i =1
(1-α)-Konfidenzintervall für den Anstieg:
MQE
b1 ± t n −1,1−α / 2 SE (b1 ) = b1 ± t n −1,1−α / 2 n
∑x
2
i
i =1
R-Funktion: lm() – Lineares Modell
lm(formula, data)
Parameter:
formula = Regressionsfunktionsterm (bei linearer Regression durch den Nullpunkt:
abh. V. ~ 0 + unabh. V.)
data = dataframe mit den Stichproben der Variablen als Spalten.
7.4 Lineare Kalibrationsfunktionen:
Bestimmung der Kalibrationsfunktion:
s
s
βˆ1 = b1 = XY
= rXY Y , βˆ0 = b0 = y − b1 x ,
2
sX
sX
σˆ E2 = MQE =
SQE
2
mit SQE = (n − 1)sY2 (1 − rXY
)
n−2
Voraussetzung (Abhängigskeitsprüfung):
TG =
rXY n − 2
2
1 − rXY
=
b12 ( n − 1) s X2
> t n − 2,1−α / 2
MQE
Rückschluss von Y auf X:
Schätzwert für gesuchten Probenwerte von X zu bekanntem Wert (Erwartungswert) η von Y:
ξ = (η − β 0 ) / β1 .
Im Allgemeinen sind weder die Regressionsparameter noch η bekannt;
η wird durch den Mittelwert y * aus m zum selben ξ gemessenen Y-Werten (im Extremfall kann m=1 sein)
geschätzt, ξ durch xˆ = x + ( yˆ * − y ) / b1 ; Standardfehler s xˆ von x̂ :
2
1 1

′
 + + (y − y) 
2
2
 m n b (n − 1) s 
1
X 

2
2
Voraussetzung: g = t n − 2,1−α / 2 / TG < 0.1
s xˆ =
MQE
| b1 |
Approximatives (1-α)-Konfidenzintervall für Probenwert
ξ : UG = xˆ − t n −2,1−α / 2 s xˆ und OG = xˆ + t n − 2,1−α / 2 s xˆ
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
15
Hinweis:
Für ein optimales Design der Kalibrationsfunktion wird man darauf achten, dass ( y ′ − y ) möglichst klein und
s X2 möglichst groß ist.
R-Funktion zur Schätzung eines Probenwertes mit Hilfe einer linearen Kaibrationsfunktion:
# R-Funktion zur Schätzung eines Probenwertes
# mit Hilfe einer linaren Kalibrationsfunktion
# ***************************************************************************
# Eingabeparameter
# x, y = Vektoren der Kalibrierprobenwerte bzw. der Hilfsgrößenwerte
# lineare Regression von y auf x ergibt die Kalibrationsfunktion
# y0 = gemessener y-Wert
# alpha = Irrtumsrisiko
# Ausgabeparameter
# y0 = gemessener y-Wert y0 der unbekannten Probe
# x0 <- Schätzwert für den unbekannten Probenwert
# alpha = Irrtumsrisiko
# se_xd = Standardfehler der Schätzfunktion für unbekannten Probenwert
# UG, OG = Grenzen eines (1-alpha)-CI für unbekannten Probenwert
# g = kritischer Wert für Approximation: muss < 0.1 sein!
# ****************************************************************************
prob_est = function(x, y, y0, alpha){
# a) Abhängigkeitsprüfung und Parameterschätzung:
daten <- data.frame(x, y)
kal_modell <- lm(y~x, data=daten)
ergebnis <- summary(kal_modell); b <- ergebnis$coefficients
b0 <- b[1,1]; b1 <- b[2,1]
# b) Schätzung des Wertes x0 zu gemessenen y-Wert y0 der unbekannten Probe
x0 <- (y0-b0)/b1 # Schätzwert für unbekannten Probenwert
yquer <- mean(y); n <- length(x); sigma <- ergebnis$sigma
se_xd <- sigma/abs(b1)*sqrt(1+1/n+(y0-yquer)^2/b1^2/(n-1)/var(x))
t_quantil <- qt(1-alpha/2, n-2)
UG <- x0 - t_quantil*se_xd; OG <- x0 + t_quantil*se_xd
# Überprüfung der Voraussetzung
r <- cor(x, y); tgs <- r*sqrt(n-2)/sqrt(1-r^2); g <- t_quantil^2/tgs^2
out <- c(y0, x0, alpha, se_xd, UG, OG, g)
return(out) }
# Beispiel für Aufruf der R-Funktion
masse <- c(1.409,3.013, 5.508, 8.100, 10.303)
peak <- c(0.027, 0.040, 0.065, 0.084, 0.102)
y0 <- 0.055; alpha <- 0.05
prob_est(masse, peak, y0, alpha)
8 Varianzanalyse
8.1 Globaltest
Daten:
Variable Y unter k Versuchsbedingungen (= Faktorstufen) wiederholt (an nj Untersuchungseinheiten auf
der Faktorstufe j) gemessen
k unabhängige Stichproben
Anordnung in Datentabelle (yij = Messwert von der i-ten Untersuchungseinheit unter der j Versuchsbedingung):
Versuchsbedingung (Faktorstufe)
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
Wiederholungen
Anzahl
Mittelwert
Varianz
1
y11
y21
...
yi1
...
yn1,1
n1
m1
s 12
2
y12
y22
...
yi2
...
yn2,2
n2
m2
s 22
...
...
...
...
...
...
...
...
...
...
j
y1j
y2j
...
yij
...
ynj,j
nj
mj
sj2
...
...
...
...
...
...
...
...
...
...
16
k
y1k
y2k
...
yik
...
ynk,k
nk
mk
sk2
Hypothesen und Testgröße:
H0: µ1 = µ2 = ... = µk vs. H1: wenigstens zwei der µj unterscheiden sich
TG =
MQF
≅ Fk −1, N − k mit
MQE
SQF
MQF =
, SQF =
k −1
k
∑ n (m − m)
2
j
j
j =1
Einsetzen der Stichprobenwerte in die Testgröße ergibt die Realsierung TGs .
Zusammenfassung der relevanten Rechengrößen in der ANOVA-Tafel:
Variationsursache
Faktor F (Bedingung)
Versuchsfehler
Summe
Quadratsumme
SQF
SQE
SQT
Freiheitsgrad
k -1
N-k
n-1
Mittlere
Quadratsumme
MQF=SQF/(k-1)
MQE=SQE/(N-k)
Testgröße
TG=MQF/MQE
SQT = (n1-1)s12+(n2-1)s22+...+(n2-1)s22
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei P=1 – Ff1,f2(TGs) ; dabei ist Ff1,f2 die
Verteilungsfunktion der F-Verteilung mit den Freiheitsgraden f1=k-1 und f2=N-k.
Voraussetzungen:
Die 1-faktorielle ANOVA setzt voraus, dass die Fehlergrößen Eij voneinander unabhängig variierende und
N(0, σ2)-verteilte Zufallsvariable sind (Überprüfung durch ein mit den Residuen erstelltes Normal-QQ-Plot
oder Shapiro-Wilk-Test). Diese Voraussetzung bedeutet im Besonderen, dass die Normalverteilungen auf
jeder Faktorstufe dieselbe Fehlervarianz aufweisen (Varianzhomogenität, Überprüfung mit dem LeveneTest).
R-Funktion: aov()
aov(formula, data = NULL)
Parameter:
formula = Formel zur Festlegung des Modells (1-faktorielle ANOVA:
formula = abh. V. ~ Faktorvariable)
data = Dataframe mit den Werten der Modellvariablen
8.2 Levene-Test (zur Prüfung auf ungleiche Varianzen)
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
17
Daten (wie bei Globaltest)
Hypothesen:
H0: σ12 = σ22 = ... = σk2 vs. H1: wenigstens zwei der σj2 unterscheiden sich
Testgröße:
Beobachtungen Yij auf der j-ten Faktorstufe werden durch Abstände Zij=|Yij - mj| vom jeweiligen
Stichprobenmittel mj ersetzt modifizierte Datentabelle
Versuchsbedingung (Faktorstufe)
1
2
...
j
...
k
Wiederholungen z11
z12 ... z1j ... z1k
z21
z22 ... z2j ... z2k
...
... ... ... ... ...
zn1,1 zn2,2 ... znj,j ... znk,k
Anzahl
n1
n2 ... nj ... nk
z-Mittelwerte
m1(z) m2(z) ... mj(z) ... mk(z)
z-Varianzen
s12(z) s22(z) ... sj2(z) ... sk2(z)
Idee:
Wenn Varianzhomogenität vorliegt, stimmen die Mittelwerte mj(z) bis auf zufallsbedingte Abweichungen
überein. Prüfung der Abweichungen im Rahmen einer einfaktoriellen ANOVA mit der Testgröße:
TG ( z ) =
MQF ( z )
mit
MQE ( z )
1
MQE ( z ) =
N −k
MQF =
1
k −1
k
∑ (n − 1)s ( z) und
j
2
j
j =1
k
∑ n [m ( z) − m( z)]
2
j
j
j =1
Einsetzen der Stichprobenwerte in die Testgröße ergibt die Realsierung TG(z)s ; m(z) ist das aus allen zWerten berechnete Gesamtmittel).
Entscheidung mit P-Wert:
H0 auf Signifikanzniveau α ablehnen, wenn P < α, wobei P=P(TG(z) ≥ TG(z)s)
R-Funktion: leveneTest() aus dem Paket „car“
leveneTest(y, data, center=c(mean, median))
Parameter:
y = Objekt vom Typ formula (zB Zielvariable ~ Faktor oder vom Typ lm)
data = dataframe mit den Stichprobenwerten der Zielvariablen und der
Faktorvariablen
center = Funktion zur Bestimmung der Zentren der Faktorgruppen (center=mean oder
center=median); Voreinstellung: center=median
ODER
R-Funktion: aov()
Analog zum Globaltest mit den Abständen Zij
StatFormeln_kurz_2-Sem
03.12.14
W. Timischl, Angewandte Statistik - Formeln (Angewandte Statistik Bachelor-Bioengineering/Biotechnologie)
18
8.3 Multiple Mittelwertvergleiche: HSD-Test von Tukey
Ausgangssituation:
Globaltest der 1-faktoriellen ANOVA ergibt Ablehnung der Nullhypothese (Gleichheit der k Mittelwerte)
auf Signifikanzniveau α.
Frage: Was sind die Paare mit verschiedenen Stufenmittelwerten
Idee:
Es wird eine Mindestdistanz angegeben, die zwei Stufenmittelwerte haben müssen, damit sie auf
dem (simultan festgelegten Niveau α) als verschieden anzusehen sind.
R-Funktion: TukeyHSD()
TukeyHSD(x, conf.level = 0.95)
Parameter:
x = mit aov erzeugtes Objekt
con.level = 1- (Voreinstellung 0.95)
StatFormeln_kurz_2-Sem
03.12.14
Herunterladen