Formelsammlung - Universität des 3. Lebensalters

Werbung
Goethe-Universität Frankfurt
Sommersemester 2014
Prof. Dr. Katrin Auspurg
Formelsammlung Statistik I (Stand 14.Juli 2014)
Rechenregeln zu
Summenzeichen
2
2
2
2
n
∑i=1 xi = x1 + x2 + ... + xn
(∑
n
i =1
xi ) = ( x1 + x2 + ... + xn )
2
2
n
∑i=1 xi yi = x1 y1 + x2 y2 + ... + xn yn
n
n
n
∑i=1 ( xi + yi ) = ∑i=1 xi + ∑i=1 yi
n
2
n
n
2
n
∑i=1 ( xi + yi ) = ∑ i =1 xi + ∑ i=1 2 xi yi + ∑ i=1 yi
2
n
n
∑i=1 kxi = k ∑i=1 xi
∑i=1 k = nk
n
n
∑ j =1 yi x j = yi ∑ j =1 x j
n
2
3
2
3
∑i=1 ∑ j =1 xi y j = (∑i=1 xi )(∑ j =1 y j ) = ( x1 + x2 )( y1 + y2 + y3 )
Univariate Beschreibung/ Maße
Kumulierte
Häufigkeitsverteilung
0

H( x ) =  i
n

für
für
x < x (1)
x (i) ≤ x < x (i +1) , i = 1, ..., n - 1
für
x ≥ x (n)
j
H ( x) = h(a1 ) + ... + h(a j ) = ∑ hi ,
i =1
wobei aj ≤ x < aj+1
Empirische
Verteilungsfunktion
F ( x) = Anteilder Wertexi mit xi ≤ x = p( X ≤ x) = H n( x ) .
0

F(x ) =  i n
1

für
x < x (1)
für
für
x (i) ≤ x < x (i +1) , i = 1, ..., n - 1
x ≥ x (n)
j
F ( x) = f (a1 ) + ... + f (a j ) = ∑ f i ,
i =1
wobei aj ≤ x < aj+1
Modus
{
}
x D = x j h j = max h k bzw. f j = max f(x k )
1
Median
für ungerades n
 x(n +1 )
~
x = 1 2
 2 ( x(n 2 ) + x(n 2 +1) ) für gerades n
Median bei gruppierten
Daten
~
x = c j−1 + d j ⋅
Quantile
Für den p-Quantils-Wert xp gilt:
n
2
hj
(
)
h X ≤ xp
n
x
p
− H j−1
= x

 

= c j−1 + d j ⋅
≥ p und
np 
0,5 − Fj−1
fj
(
h X ≥ xp
n
≥ 1 − p,
falls np nicht ganzzahlig

G
)
+ 1



x ∈ x   , x 
falls np ganzzahlig
p   np   np + 1 
wobei [np]G die zu np nächste kleinere ganze Zahl ist.
Arithmetisches Mittel
n
1
n
x=
∑x
i
i =1
Arithmethisches Mittel bei
gruppierten Daten
Sind die Daten in j Gruppen mit den Gruppengrenzen[c j-1; cj)
unterteilt, so gilt:
x=
1
n
k
k
j =1
j=1
∑ h jm j = ∑ f jm j
Mit:
m j = (c j−1 + c j ) / 2 (also: mj = Klassenmitte; c j-1 und cj sind die
untere/obere Grenze der Einfallsklasse)
Arithmetisches Mittel bei
geschichteten Daten
Ist die Stichprobe in r Schichten mit schichtspezifischen Mittelwerten
x j unterteilt, so gilt:
r
x=
1
n
∑h x = ∑f x
j
j=1
Geometrisches Mittel
k
j
j
xg =
1
 n
 n
x1 ⋅ ... ⋅ xn = n ∏ xi =  ∏ xi  , xi ≥ 0
 i =1 
i =1
n
n
j
j=1
2
Spannweite (Range)
R = xmax − xmin
Interquartilsabstand und
Dezilsabstand
d Q = Q3 − Q1 = x 0.75 − x 0.25
d D = D9 − D1 = x0.9 − x0.1
Wobei xp die Quantile sind.
Mittlere absolute
Abweichung
Varianz
n
AD = 1n ∑ xi − x bzw. AD =
k
1
n
i =1
s2 =
1
n
∑h
k
j
aj − x = ∑ f j aj − x
j =1
[(x
j =1
2
2
n
] ∑ (x
=
1 − x ) + ... + (x n − x )
1
n
i
i =1
Standardabweichung
n
2
s= s =
Stichprobenvarianz
 n

2
− x ) =  1n ∑ x i2  − x 2
 1=1 
1
n
( xi − x )2
∑
i =1
n
2
s =
1
n −1
∑ (x
− x)
2
i
i =1
Verschiebungssatz der
Varianz
n
n
i =1
i =1
∑ (xi − c )2 = ∑ (xi − x )2 + n( x − c )2
Für den Spezialfall c=0 ergibt sich
n
s2 =
1
n
∑x
2
i
− x2
i =1
Varianz für geschichtete
Daten/ Varianzzerlegung
Ist die Stichprobe in r Schichten unterteilt, so gilt
r
2
s =
1
n
∑n s
2
j j
r
+
j=1
Variationskoeffizient
v = xs ,
1
n
∑ n (x
j
j=1
x >0
3
− x)
2
j
Herfindahl-Index
k
HF = 1 − ∑
j =1
( ) = 1− ∑ f
k
hj 2
n
j =1
2
j
mit:
k = Anzahl der Kategorien
Normierter Herfindahl-Index
RHF = kk−1 ⋅ HF, RHF∈[0,1]
Schiefe
γ 1 = ms33 mit m3 = 1n ∑ (xi − x )3
n
i =1
Wölbung (Kurtosis)
n
γ2 =
m4
s4
− 3 mit m4 =
1
n
∑ (x
i
− x)
4
i =1
Konzentrations- und Ungleichheitsmaße
Dezilverhältnis
Gini-Koeffizient
DR =
Duncan Index der
Segregation
=
x0 . 9
x 0 .1
Fläche zwischen Diagonale und Lorenzkurve
Fläche zwischen Diagonale und Abszisse
= 2 ⋅ Fläche zwischen Diagonale und Lorenzkurve
G=
G=
Normierter Gini-Koeffizient
D9
D1
G
2 ∑in=1ix( i )
n ∑in=1 xi
− nn+1
∗= G = n G mit ∗∈[ 0 ,1]
G
Gmax n −1
n
I=
1
2
∑M
i
− Fi
i =1
wobei Mi und Fi die Anteile von M und F in den Gruppen sind:
Mi ≡
mi
f
und Fi ≡ i
m
f
4
Bivariate Beschreibung/ Maße
Prozentsatzdifferenz
%D = (
h11 h12
− ) ⋅ 100
h⋅1 h⋅2
Odds
O(a1 , a2 | X = bi ) =
Odds Ratio
OR =
h1i
, i = 1, 2
h2i
h11 / h21 h11 h22
=
⋅
h12 / h22 h21 h12
Erwartete Häufigkeit bei
Unabhängigkeit
~ h i⋅h . j
h ij =
n
Chi2
~
(hij − hij ) 2
χ = ∑∑
~
hij
i =1 j =1
k
m
2
Chi2 für 2x2 Kreuztabelle
n(h11h22 − h21h12 ) 2
χ =
h⋅1h⋅2 h1⋅ h2⋅
2
Phi (nur für 2x2-Tabelle)
φ=
Cramer’s V (bei k x mTabellen)
V=
Mit:
PRE- Maße
χ2
n
=
( h11 h22 − h21 h12 )
h⋅1 h⋅2 h1⋅ h2⋅
χ
2
n ⋅ min(m − 1, k − 1)
m = Anzahl Spalten; k = Anzahl Zeilen
E − E2
PRE = 1
E1
Mit:
E1:
E2:
Vorhersagefehler bei Kenntnis der eindimensionalen
Häufigkeitsverteilung (Randverteilung) von X.
Vorhersagefehler bei Kenntnis der bedingten
Verteilung von Y für X = bj, j = 1, … m.
5
Goodman‘s λ
PRE der Vorhersage von Y bei Kenntnis der Randverteilung von X:
E1 =n − max( hi ⋅ )
i
m
m
E2 = ∑[h⋅ j − max(hij )] = n − ∑ max(hij )
i
j =i
i
j =1
m
m
(n − max i ( h i⋅ )) − ( n − ∑ max i (h ij ))
j=1
λY =
Kendall‘s Taub
∑ max
=
n − max i (h i⋅ )
C−D
(C + D + TX )(C + D + TY )
τb =
γ=
C−D
C+D
mit γ ∈ [−1, 1]
(Definition von C, D: siehe Kendall’s Taub)
Korrelationskoeffizient nach
Bravais-Pearson
n
∑ (x
i
− x )( yi − y )
i =1
r=
n
=
n
∑ (x
i
− x ) 2 ∑ ( yi − y ) 2
i =1
i =1
s XY =
1 n
∑ ( xi − x )( y i − y )
n i =1
sX =
1n
2
∑ ( xi − x )
n i =1
n
Rechengünstigere
Formel:
∑x y
i
r=
i
− nxy
i =1
n
n
(∑ x i − nx 2 )(∑ y i − ny 2 )
2
i =1
i =1
6
2
(h ij ) − max i (h i⋅ )
n − max i (h i⋅ )
mit τ b ∈ [−1, 1]
Mit:
C = Konkordante Paare
D = Diskonkordante Paare
Tx = Bindungen (Ties) in X
TY = Bindungen (Ties) in Y
Goodman und Kruskal‘s
Gamma
i
j=1
s XY
s X sY
Spearman‘s ρ
n
∑ [rg ( xi ) − r g X ][rg ( yi ) − r gY ]
ρ=
i =1
n
n
i =1
i =1
2
2
∑[rg ( xi ) − r g X ] ∑[rg ( yi ) − r gY ]
r g X = r gY =
Spearman’s ρ falls keine
Bindungen
(rechengünstigere Formel)
n +1
2
n
ρ = 1−
6∑ [rg ( xi ) − rg ( yi )]2
i =1
( n 2 − 1) n
Wahrscheinlichkeiten
Wahrscheinlichkeit
Fakultät
Anzahl möglicher
Permutationen:
Mit Reihenfolge / mit
Zurücklegen
P ( A) =
| A|
|Ω|
N ! = N ⋅ ( N − 1) ⋅ ( N − 2 ) ⋅ ... ⋅ 2 ⋅ 1
Nn
Mit Reihenfolge/ ohne
Zurücklegen
N!
(N − n)!
Ohne Reihenfolge / mit
Zurücklegen
 N + n − 1 ( N + n − 1)!

=
n  ( N − 1)!⋅n!

Ohne Reihenfolge /
ohne Zurücklegen
N
N!
 =
 n  ( N − n)!⋅n!
P ( A ∩ B)
P( B)
Bedingte
Wahrscheinlichkeiten
P( A | B) =
Produktsatz
P( A ∩ B) = P( A | B) ⋅ P( B)
7
Stochastische
Unanbhängigkeit
P ( A | B ) = P ( A)
bzw.
P ( B | A) = P ( B )
mit P ( B ) > 0
mit P ( A) > 0
P( A ∩ B) = P( A) ⋅ P(B)
Theorem von Bayes
P ( Aj | B ) =
P ( B | A j ) ⋅ P ( Aj ) P ( B | Aj ) ⋅ P ( Aj )
= k
P( B)
∑ P( B | A ) ⋅ P( A )
i =1
i
i
x ∈ T = {x1 , x2 ,...}

für x ∉ T

Wahrscheinlichkeitsfunktion
einer diskreten
Zufallsvariable
 P ( X = xi ) = p i ,
f ( x) = 
= 0,

Erwartungswert einer
diskreten Zufallsvariable
µ = E(X) = x1p1 + ... = ∑ x i pi == ∑ x i f (x i )
für
i≥1
i≥1
Rechenregeln für Erwartungswerte
Transformationsregel: Für Y = aX + b gilt
E(Y) = aE(X) + b
Erwartungswert der Summe von ZV
E(X + Y) = E(X) + E(Y)
Produktregel für unabhängige (!) ZV
E(X ∙ Y) = E(X) ∙ E(Y)
Varianz einer diskreten
Zufallsvariable
σ 2 = Var (X) = ∑ ( x i − µ ) 2 p i =∑ ( x i − µ ) 2 f ( x i ) = E(X ²) − µ ²
i ≥1
i ≥1
Rechenregeln für Varianzen
Transformationsregel: Für Y = aX + b gilt
Var(Y) = a2Var(X)
Für unabhängige ZV gilt
Var(X + Y) = Var(X) + Var(Y)
Bernoulli Verteilung
Die Zufallsvariable X (Indikator)
X=1
falls A eintritt
X=0
falls A nicht eintritt
ist eine Bernoulli-Variable
mit P(A) = π
P ( X = 1) = π 
 Bernoulli − Verteilung
P ( X = 0) = 1 − π 
8
Geometrische Verteilung
Wird ein Bernoulli-Experiment mit P(A) = π solange wiederholt, bis
zum ersten Mal A eintritt, dann ist die Zufallsvariable X „Anzahl der
Versuche bis zum ersten Mal A eintritt“ geometrisch verteilt mit
Parameter π : X ~G(π). Es gilt:
P(X = x i ) = (1 − π ) x i −1π
E(X) 1/ π
Binomialverteilung
Var(X)= (1- π)/ π²
Wiederholt man ein Bernoulli-Experiment mit P(A) = π n-mal, dann ist
die Zufallsvariable X = „Anzahl der Versuche, bei denen A eintritt
(Trefferzahl)“ binomialverteilt mit den Parametern n und π: X ~B(n,π).
Es gilt:
n
P ( X = x) =  π x (1 − π ) n− x
 x
E(X) = nπ
Hypergeometrische
Verteilung
Var(X) = nπ(1- π)
Aus einer endlichen Grundgesamtheit von N Einheiten, von denen M
eine Eigenschaft A besitzen, wird zufällig n-mal ohne Zurücklegen
gezogen. Die Variable X „Anzahl der gezogenen Objekte mit der
Eigenschaft A“ ist hypergeometrisch verteilt mit den Parametern n, M
und N: X ~ H(n, M, N). Es gilt:
 M  N − M 
 

x  n − x 

P( x ) =
 N
 
n 
E ( X )=n
Dichtefunktion und
Verteilungsfunktion
stetiger Zufallsvariablen
M
M
M N−n
, Var (X ) =n (1 − )
N
N
N N −1
b
P(a ≤ X ≤ b) = ∫ f ( x)dx
a
+∞
P(−∞ ≤ X ≤ +∞) = ∫ f ( x)dx = 1
−∞
x
P( X ≤ x) = F ( x) = ∫ f (t )dt
−∞
Zwei stetige ZV X und Y sind
unabhängig, falls gilt
P( X ≤ x, Y ≤ y ) = P( X ≤ x) ⋅ P(Y ≤ y ) = Fx ( x) ⋅ Fy ( y)
9
Der Erwartungswert ist
definiert als:
Die Varianz ist definiert als
+∞
µ = E ( x) = ∫ xf ( x)dx
−∞
+∞
σ = Var( x) = ∫ ( x − µ ) 2 f ( x)dx
2
−∞
Stetige Gleichverteilung
Die Dichtefunktion ist
 1
 b − a für a ≤ x ≤ b

f ( x) = 
 0
sonst


Dichte Normalverteilung
Die Normalverteilung mit den Parametern μ und σ2 besitzt die Dichte:
f ( x) =
Dichte
Standardnormalverteilung
 1 ( x − µ )2 
1

exp −
2
σ 2π
 2 σ

N(0,1) ist die Standardnormalverteilung, für deren Dichte meist das
Symbol φ(x) verwendet wird:
1
 x2 
exp − 
2π
 2
φ ( x) =
Verteilungsfunktion der
Normalverteilung
Verteilungsfunktion der
Standardnormalverteilung
Z-Standardisierung
1
 1 (t − µ ) 2 
exp − ⋅
dt
2
−∞ σ
2π
 2 σ

x
F ( x) = P ( X ≤ x ) = ∫
x
Φ ( x ) = ∫ φ (t ) dt
−∞
Z=
X − µX
σX
 x − µx 
 = Φ( z)
F ( x) = Φ
 σx 
10
t-Verteilung
Sind X und Z unabhängige Zufallsvariablen mit X ~ N (0,1) und Z ~ χ2(n)
T=
F-Verteilung oder
Fisher-Verteilung
Sind X und Y unabhängige Zufallsvariablen mit X ~ χ2(m) und Y ~ χ2(n)
mit m (= Gruppenzahl - 1) und n (= Fallzahl - Gruppenzahl), dann gilt:
Z=
Konfidenzintervall für µ
X
Z
n
X/m
~ F( m , n )
Y/n
Fall 1: (X ~N(µ,σ2), σ2 bekannt:
X ± z1−α / 2 ⋅
σ
n
Fall 2: (X ~N(µ,s2), σ2 unbekannt und n < 30
X ± t1−α / 2 (n − 1) ⋅
Approximatives
Konfidenzintervall für π
S
n
πˆ (1 − πˆ )
πˆ ± z1−α / 2 ⋅
n
Testtheorie
Stichprobenverteilung
Ist X normalverteilt, so ist die Stichprobenverteilung:
X ~ N( µ ,
σ2
n
)
der Standardfehler ist somit σ / n .
Sonst gilt laut dem Grenzwertsatz:
a
X ~ N( µ ,
σ2
n
)
Ab n > 30 ist diese Approximation bereits akzeptabel.
11
Binomialtest für einen
Anteilswert
πx = π0 ;H1: πx ≠ π0
Sei X = die Anzahl der Fälle mit dem interessierenden Merkmal
(Xi = 1 falls das Merkmal vorliegt; Xi = 0 falls nicht), dann gilt:
n
X =∑ X i ~ B( n, π0)
i =1
Approximativer Binomialtest
für einen Anteilswert
Falls nπ ≥ 5 und n(1-π) ≥ 5 kann die Approximation der
n
∑X
Normalverteilung genutzt werden. Mit X = X =
i =1
πx = π0 ;H1: πx ≠ π0
X − nπ 0
Z=
nπ 0 (1 − π 0 )
a
~ N(0,1)
bzw.
Z=
a
πx −π0
π 0 (1 − π 0 )
~ N(0,1)
n
Testgrößen für Tests über
Mittelwerthypothesen
Einstichprobenfall:
H0: μx = μ0 ;H1: μx ≠ μ0
Fall 1: σ2 bekannt: (Gauß-Test)
Z=
X − µ0
n ~ N (0,1)
σ
Fall 2: σ2 unbekannt
T=
Zweistichprobenfall
(Vergleich zweier
Mittelwerte):
H0: μ1 = μ2 ;H1: μ1 ≠ μ2)
(t-Test)
Unabhängige
Stichproben
X − µ0
n ~ t (n − 1)
S
Fall 1: σ2x und σ2ybekannt:
Z=
X −Y
σ x2
n
+
σ y2
~ N (0,1)
m
Mit n und m = Fallzahlen für X und Y
Fall 2: σ2x und σ2y unbekannt, aber σ2x = σ2y
T=
X −Y
2
 1 1  (n − 1) S x + (m − 1) S y
 + 
n+m−2
 n m
12
2
~ t ( n + m − 2)
i
gilt:
Fall 3: σ2x und σ2y unbekannt, aber σ2x ≠ σ2y
T=
X −Y
~ t (k )
2
2
Sy
Sx
+
n
m
(Satterthwaite Formel für k
Verbundene
/abhängige
Stichproben
(H0: μD=μ0 ; H1: μD≠μ0)
Testgröße für Varianzen
T=
siehe Statistikbücher)
D − µ0
n ~ t ( n − 1)
SD
Mit:
μD = D = mittlere Paardifferenz (Di = Xi - Yi)
SD = Standardabweichung der Paardifferenz
s12
F = 2 ~ F(n 1 − 1, n 2 − 1)
s2
(Vergleich zweier
Varianzen:
2
2
( H0 : σ12 −σ22 =0; H1 :σ12 −σ22 ≠ 0 ) Wobei s 1 und s 2 die Stichprobenvarianzen sind, n1 und n2 die
Fallzahlen der beiden Gruppen.
(F-Test)
Testgröße für signifikante
Zusammenhänge in
Kreuztabellen:
~
( hij − hij ) 2
χ = ∑∑
~ χ 2 (( k − 1) ⋅ ( m − 1))
~
hij
i =1 j =1
k
m
2
(H0: kein Zusammenh.;
H1: Zusammenhang)
Chi²- Unabhängigkeitstest
Lineare Regression
Regressionsgerade OLS
n
n
n
2
min ∑ (Yi − Yˆ ) 2 = min ∑ εˆi = min ∑ (Yi − αˆ − βˆxi ) 2
α ,β
α ,β
i =1
i =1
α ,β
i =1
αˆ = Y − βˆx
n
∑ (x
i
βˆ =
n
− x )(Yi − Y )
i =1
n
∑ (x
i
− x )2
i =1
s
= XY2
sX
∑ x Y − nx Y
i i
=
i =1
n
∑x
i
i =1
13
2
− nx 2
Mittlere quadratische
Abweichung (Mean Squared
Error)
n
εi2
∑
i =1
n
SSε
=
=
(n − 2)
(n − 2)
MSE = σˆ ε2 =
Standardfehler des
Koeffizienten
(Yi − Yˆi ) 2 /(n − 2)
∑
i =1
n
∑ (Y − Yˆ )
i
SE ( β ) = MSE / SS x =
2
i
/(n − 2)
i =1
n
∑(x − x )
i
2
i
i =1
Beta-Koeffizient
SQT (Gesamtstreuung)
SQE (erklärte Streuung)
SQR (Residualstreuung)
βˆ * j = βˆ j ⋅
sx j
sy
n
SQT = ∑ (Yi − Y ) 2
i =1
n
SQE = ∑ (Yˆi − Y ) 2
i =1
n
SQR = ∑ (Yi − Yˆi ) 2
i =1
n
n
n
i =1
i =1
i =1
2
2
2
∑ (Yi − Y ) = ∑ (Yˆi − Y ) + ∑ (Yi − Yˆi )
=
SQT
R2 Anteil der erklärten
Varianz
SQR
+
SQE
n
R2 =
2
∑ (Yˆi − Y )
erklärte Streuung SQE i =1
=
= n
gesamte Streuung SQT ∑ (Y − Y ) 2
i
i =1
Teststatistik [H0 verwerfen falls: |T| > t1-α/2(n-2)]
Testgröße Koeffizient βj:
Tj =
βˆ j − β 0 j
~ t (n − 2) bzw. t ( n − p − 1)
σˆ j
F-Test (testet ob R2
signifikant)
n
∑ ( yˆ
i
Femp =
− y )2 / p
i =1
n
∑(y
i
− yˆ i ) 2 /( n − p − 1)
i =1
=
R 2 ⋅ ( n − p − 1)
(1 − R 2 ) ⋅ p
mit p = Zahl der unabhängigen Variablen
14
1-α-Konfidenzintervall von
βj
Korrigiertes R2
βˆ j ± t 1−α / 2 ( n − p − 1) ⋅ σˆ j
2
Rkorr = 1 −
n −1
(1 − R 2 ) mit p = Zahl der unabhängigen
n − p −1
Variablen
15
Herunterladen