Formelsammlung Biometrie und Methodik 1 Beschreibende Statistik

Werbung
Formelsammlung Biometrie und Methodik
1
Beschreibende Statistik
Univariate Datenanalyse
( Beobachtungswerte x1 , ..., xn )
Absolute Häufigkeit
nk = Anzahl der ωi mit x i = ak
Relative H’keit/ Empirische Verteilung
hk = nk /n
Empirische Verteilungsfunktion
Fn ( x ) = ∑ ak ≤ x hk = n1 · Anzahl der xi mit xi ≤ x
Arithmetisches Mittel
x=
Empirische Varianz
σ2 =
1
n
Stichprobenvarianz
s2 =
1
n −1
Variationskoeffizient
v = σ/x
Multivariate Datenanalyse
( Beobachtungswerte ( x1 , y1 ), ..., ( xn, yn ) )
Absolute Häufigkeit
nkl = Anzahl der ωi mit xi = ak und yi = bl
Häufigkeiten der einzelnen Merkmale
nkX = ∑l nkl , nYl = ∑k nkl
Relative H’keit/ Empirische Verteilung
hkl = nkl /n
Randverteilungen
hkX = ∑l hkl , hYl = ∑k hkl
Bedingte relative Häufigkeiten
hk|l = hkl /hYl , e
hl |k = hkl /hkX
Quadratische Kontingenz
Mittlere quadratische Kontingenz
Cramérsches Kontingenzmaß
1
n
∑i xi = ∑k hk ak
∑i ( x i − x̄ )2 = x2 − x 2 = ∑k hk ( ak − x )2
χ2 = ∑k,l
∑i ( xi − x̄ )2 =
bkl )2
(nkl −n
bkl
n
n
n −1
∑k h k ( a k − x )2
bkl = n1 nkX nYl
mit n
2
2
( h −h X hY )
φ2 = χn = ∑k,l kl h X hkY l
k l
r
r
2
2
φ
C = min(r −1,s−1) = n·min(rχ−1,s−1)
(wobei r, s Zeilen-/Spaltenzahl in Kontingenztabelle)
Empirische Kovarianz
c x,y = n1 ∑i ( xi − x ) · (yi − y) = xy − x · y
c x,y = ∑k ∑l hkl · ( ak − x ) · (bl − y)
Korrelationskoeffizient
ρ x,y =
Regressionsgerade
f ( x ) = α̂ + β̂x , β̂ =
c x,y
σx σy
c x,y
σx2
, α̂ = y − β̂x
Für klassierte Daten gelten die Formeln zur Berechnung von Mittelwert, empirischer Varianz und
Kovarianz näherungsweise, wenn man für ak den Klassenmittelpunkt und für hk die relative Häufigkeit
der Klasse einsetzt.
1
2
Wahrscheinlichkeiten
Gegenereignis
P[ A tritt nicht ein] = 1 − P[ A tritt ein]
Additionssatz
P[ A tritt ein oder B tritt ein]
= P[ A tritt ein] + P[ B tritt ein] − P[ A tritt ein und B tritt ein]
P [ A und B ]
P[B]
=
P [ A und B treten beide ein]
P [ B tritt ein]
Bedingte W’keit
P[ A| B] =
Fallunterscheidung
P [ A] = ∑ni=1 P [ A| Hi ] · P [ Hi ]
wobei Hi disjunkte Fälle, von denen genau einer eintritt
Satz von Bayes
P [ Hi | A ] =
P [ A | Hi ]· P [ Hi ]
∑nj=1 P [ A | H j ]· P [ H j ]
= const. · P[ A| Hi ] · P[ Hi ]
wobei Hi disjunkte Fälle, von denen genau einer eintritt
Multiplikativität
P[ A und B treten ein] = P[ A] · P[ B| A] = P[ B] · P[ A| B]
Unabhängigkeit
P[ A und B treten ein] = P[ A] · P[ B]
2
3
3.1
Zufallsvariablen und ihre Verteilung
Diskrete Zufallsvariablen
Verteilung/Massenfkt.
p X ( ak ) = P[ X = ak ]
Verteilungsfunktion
FX (y) = P [ X ≤ y] = ∑ ak ≤y p X ( ak )
i
i
h
h
P X < x( p) ≤ p ≤ P X ≤ x( p)
p-Quantil
E[ X ] = ∑k ak · p X ( ak )
Erwartungswert
Varianz
Standardabweichung
3.2
Stetige Zufallsvariablen
Rb
P[ a ≤ X ≤ b] = P[ a < X < b] = a f X ( x ) dx
Ry
FX (y) = P[ X ≤ y] = −∞ f X ( x ) dx
Dichtefunktion
Verteilungsfunktion
′
f X = FX
Zusammenhang
p-Quantil
Erwartungswert
Varianz
Standardabweichung
3.3
E[ g( X )] = ∑k g( ak ) · p X ( ak )
h
i
Var ( X ) = E ( X − E[ X ])2 = E X 2 − E [ X ]2
p
σ ( X ) = Var ( X )
h
i
FX ( x( p) ) = P X ≤ x( p) = p
R∞
E [ X ] = −∞ x · f X ( x ) dx
R∞
E [ g( X )] = −∞ g( x ) · f X ( x ) dx
h
i
Var ( X ) = E ( X − E[ X ])2 = E X 2 − E [ X ]2
R∞
= −∞ ( x − E[ X ])2 · f X ( x ) dx
p
σ ( X ) = Var ( X )
Rechenregeln
Erwartungswert
E[ a · X + b · Y ] = a · E[ X ] + b · E[Y ]
Varianz
Var ( a · X ) = a2 · Var ( X )
σ ( a · X ) = | a| · σ ( X )
Var ( X + Y ) = Var ( X ) + Var (Y ) + 2 · Cov( X, Y )
X, Y unkorreliert ⇒ Var ( X + Y ) = Var ( X ) + Var (Y )
Standardisierung
Y=
X −E[X ]
σ( X )
ist ZV mit E [Y ] = 0 und σ (Y ) = 1
3
4
Spezielle Verteilungen
1
m
1
= Anzahl der möglichen
Werte
Gleichverteilung
p( ai ) =
(auf { a1 , . . . , am })
Erw.wert =
Empirische Verteilung
(der Daten x1 , . . . , x n )
p( ak ) = rel. Häufigkeit von ak unter x1 , . . . , x n
Erw.wert = x n = n1 ∑i xi
m +1
2 ,
Varianz = σn2 =
Bernoulli (p)
p(1) = p,
1
n
m2 −1
12
Varianz =
∑i (xi − x n )
2
p (0) = 1 − p
Erw.wert = p, Varianz = p · (1 − p)
Bin (n, p)
p(k) = (nk) · p k · (1 − p)n−k
(nk) =
n ·( n −1)·····( n −k +1)
k ·( k −1)·····1
=
(k = 0, 1, . . . , n)
n!
k! ( n −k ) !
Erw.wert = n · p , Varianz = n · p · (1 − p)
Hypergeom (b
n, b
k, n)
Poisson (λ)
p(k) =
b
b
( kk)·( nnb−−kk)
( nnb)
Erw.wert = n ·
p(k) =
1 k
k! λ
(k = 0, 1, . . . , n)
bk
b,
n
Varianz = n
· e−λ
bk n
b− b
b− n
k n
b n
b
b−1
n
n
(k = 0, 1, 2, ...)
Erw.wert = λ, Varianz = λ
Exp (λ)
f (t) = λ · e−λ·t für t > 0, f (t) = 0 für t ≤ 0
Erw.wert =
N (0, 1)
f (x) =
1
λ,
Standardabw. =
1
λ
2
√1 e− x /2
2π
Erw.wert = 0, Varianz = 1
N (m, σ2)
f (x) =
2
2
√ 1 e−( x −m) /2σ
2πσ2
Erw.wert = m, Varianz = σ2
Lineare Transformationen
X ∼ N (m, σ2)
X + a ∼ N (m + a, σ2 )
=⇒
b · X ∼ N (b · m, b2 · σ2 )
4
5
Approximation von Verteilungen
Poissonapproximation
der Binomialverteilung
Für große n und für p mit n · p = λ (also p = λ/n) gilt
(nk) · pk · (1 − p)n−k ≈ k!1 λk · e−λ
Gesetz der großen Zahlen
(n → ∞)
Für X1 , X2 , . . . unabh., ident. vert., E [ Xi ] = m, Var ( Xi ) = σ2 gilt:
X n = n1 · (X1 + X2 + · · · + Xn ) −→ m
Anwendung auf rel. H’keiten
hn ( a) −→ p( a)
Zentraler Grenzwertsatz
Für X1 , X2 , . . . unabh., ident. vert., E[ Xi ] =m, Var ( Xi ) = σ2 gilt:
2
X n = n1 · (X1 + X2 + · · · + Xn ) ≈ N m, σn für große n
Normalapproximation
X ∼ Bin(n, p),
der Binomialverteilung
p
Y = ( X − np)/ np(1 − p)
Rb
2
P [ a ≤ Y ≤ b] ≈ a √1 e− x /2 dx = Φ(b) − Φ( a)
2π
Anwendbarkeit (Faustregel)
np(1 − p) > 9
Normalapproximation für
P [| X − E[ X ]| ≤ σ ( X )] ≈ 68.2% (exakt für X ∼ N (0, 1))
W’keiten der σ-Umgebungen
P [| X − E[ X ]| ≤ 2σ ( X )] ≈ 95.4% (exakt für X ∼ N (0, 1))
P [| X − E[ X ]| ≤ 3σ ( X )] ≈ 99.7% (exakt für X ∼ N (0, 1))
5
6
Punktschätzer und Teststatistiken
Verteilung unter H0
Einstichprobenproblem
Statistiken
Schätzung des Mittelwerts
· ( X1 + X2 + · · · + X n )
2
n
1
S2n = n−
1 ∑ i =1 Xi − X n
Schätzung der Varianz
Gauß-Statistik
Xn =
1
n
Zn =
Xn −
√m0
σ/ n
X n −√
m0
Sn / n
∼ N (0, 1) im Gaußmodell
t-Statistik
T=
V-Statistik (Vorzeichentest)
V =Anzahl der pos. Vorzeichen
von Xi − µ0
∼ Bin(n, 0.5) bei stet. Verteilung
W-Statistik (Wilcoxontest)
W =Summe der Ränge der
pos. Differenzen Xi − m0
N (n(n + 1)/4, n(n + 1)(2n + 1)/24)
für große n
Vorauss. stet. sym. Verteilung
Verb. Zweistichprobenprobl.
Statistiken (Ui = Xi − Yi )
Verteilung unter H0
Schätzung der Diff. der Mittelw.
Un = Xn − Yn
Schätzung der Varianz
S2n =
1
n −1
Gauß-Statistik
Zn =
U√
n
σ/ n
t-Statistik
T=
V-Statistik (Vorzeichentest)
V =Anzahl der pos. Vorzeichen
von Ui
∼ Bin(n, 0.5) bei stet. Verteilung
W-Statistik (Wilcoxontest)
W =Summe der Ränge der
pos. Differenzen Ui
N (n(n + 1)/4, n(n + 1)(2n + 1)/24)
für große n
Vorauss. stet. Verteilungen
unterscheiden sich nur in Lage
Unverb. Zweistichprobenprobl.
Statistiken
Verteilung unter H0
Schätzung der Mittelwerte
∼ t(n − 1) im Gaußmodell
∑ni=1 Ui − U n
2
U√
n
Sn / n
Xn =
1
n
Ym =
1
m
∼ N (0, 1) im Gaußmodell
∼ t(n − 1) im Gaußmodell
· ( X1 + X2 + · · · + X n )
· (Y1 + Y2 + · · · + Ym )
2
= n+m1 −2 ∑ni=1 Xi − X n
2 + ∑m
Y
−
Y
m
i
i =1
Gepoolte Schätzung der Varianz
S2pool
Gauß-Statistik
Zn =
t-Statistik
T=
Xq
n −Y m
1
1
n+m
∼ N (0, 1) im Gaußmodell
X nq
−Y m
∼ t(n + m − 2) im Gaußmodell
σ·
S pool ·
1
1
n+m
6
Einfaktorielle Varianzanalyse
Schätzer für i-tes Gruppenmittel
Yi =
Schätzer für Gesamtmittelwert
Y=
Varianz zwischen den Gruppen
Verteilung unter H0
Statistiken
ni
1
n i ∑ j =1 Yij
n
∑ki=1 ∑ j=i 1 Yij
= n1 ∑ki=1 ni · Y i
2
S2b = n1 ∑ki=1 ni · Y i − Y
1
n
Varianz innerhalb der Gruppen
S2w =
F-Statistik
F=
1
n
n
( n−k ) S2b
( k −1) S2w
2
∼ F (k − 1, n − k) im Gaußmodell
Verteilung unter H0
Statistiken
Chiquadrat-Statistik
(Anpassungstest)
χ2 = ∑rl=1 l nb l
l
nl =Häufigkeit der Klasse Kl
bl =theoretische H’keit unter H0
n
b )2
(n −n
b
n −n
(k Gruppen)
∑ki=1 ∑ j=i 1 Yij − Y i
Anpassungs- und
Unabhängigkeitstest
Chiquadrat-Statistik
(Unabhängigkeitstest)
(ni Daten yi1 , . . . , y ini in Gruppe i)
2
χ2 = ∑kl ( kl nb kl )
kl
nkl =H’keit der Kombin. (ak , bl )
bkl = n1 nkX nYl theoret. H’keit
n
7
≈ χ2 (r − 1) für große n
≈ χ2 ((r − 1) · (s − 1)) für große n
7
Konfidenzintervalle (im Gaußmodell)
Einstichprobenproblem
Konfidenzintervall
√
X n ± z1−α/2 · σ/ n
Mittelwert bei bekannter Varianz
√
X n ± tn−1,1−α/2 · Sn / n
Mittelwert bei unbekannter Varianz
Konfidenzintervall (Ui = Xi − Yi )
√
U n ± z1−α/2 · σ/ n
Verbundenes Zweistichprobenproblem
Differenz der Mittelwerte bei bekannter Varianz
Differenz der Mittelwerte bei unbekannter Varianz
√
U n ± tn−1,1−α/2 · Sn / n
Unverbundenes Zweistichprobenproblem
Konfidenzintervall
Differenz der Mittelwerte bei bekannter Varianz
X n − Y m ± z1−α/2 · σ ·
Differenz der Mittelwerte bei unbekannter Varianz
X n − Y m ± tn+m−2,1−α/2 · S pool ·
8
q
1
n
+
1
m
Hypothesentests
=
=
α =
uα =
U
u
Teststatistik (z.B. U = Z, T, W, χ2 , etc.)
beobachteter Wert der Teststatistik
Signifikanzniveau
α-Quantil der Teststatistik
Testentscheidung über Quantile
H0 wird verworfen, falls
Rechtsseitige Alternative
u > u1 − α
Linksseitige Alternative
u < uα
Beidseitige Alternative
(allgemein)
u > u1−α/2 oder u < uα/2
Beidseitige Alternative
(bei symmetrischer Verteilung von U mit Mittelwert 0)
|u| > u1−α/2
Testentscheidung über p-Wert
H0 wird verworfen, falls
Beliebige Alternative
α>p
Berechnung des p-Werts
p-Wert
Rechtsseitige Alternative
p = PH0 [U ≥ u]
Linksseitige Alternative
p = PH0 [U ≤ u]
Beidseitige Alternative
(bei symmetrischer Verteilung von U mit Mittelwert c)
p = PH0 [|U − c| ≥ |u − c|]
8
q
1
n
+
1
m
9
!
" " " " #
$" 10
Herunterladen