Goethe-Universität

Goethe-Universität Frankfurt
Sommersemester 2014
Prof. Dr. Katrin Auspurg
Formelsammlung Statistik I (Stand 27.5.2014)
Rechenregeln zu
Summenzeichen
2
2
2
2
n
∑i=1 xi = x1 + x2 + ... + xn
(∑
n
i =1
xi ) = ( x1 + x2 + ... + xn )
2
2
n
∑i=1 xi yi = x1 y1 + x2 y2 + ... + xn yn
n
n
n
∑i=1 ( xi + yi ) = ∑i=1 xi + ∑i=1 yi
n
2
n
n
2
n
∑i=1 ( xi + yi ) = ∑ i =1 xi + ∑ i=1 2 xi yi + ∑ i=1 yi
2
n
n
∑i=1 kxi = k ∑i=1 xi
∑i=1 k = nk
n
n
∑ j =1 yi x j = yi ∑ j =1 x j
n
2
3
2
3
∑i=1 ∑ j =1 xi y j = (∑i=1 xi )(∑ j =1 y j ) = ( x1 + x2 )( y1 + y2 + y3 )
Univariate Beschreibung/ Maße
Kumulierte
Häufigkeitsverteilung
0

H( x ) =  i
n

für
für
x < x (1)
x (i) ≤ x < x (i +1) , i = 1, ..., n - 1
für
x ≥ x (n)
j
H ( x) = h(a1 ) + ... + h(a j ) = ∑ hi ,
i =1
wobei aj ≤ x < aj+1
Empirische
Verteilungsfunktion
F ( x) = Anteilder Wertexi mit xi ≤ x = p( X ≤ x) = H n( x) .
0

F(x ) =  i n
1

für
x < x (1)
für
für
x (i) ≤ x < x (i +1) , i = 1, ..., n - 1
x ≥ x (n)
j
F ( x) = f (a1 ) + ... + f (a j ) = ∑ f i ,
i =1
wobei aj ≤ x < aj+1
Modus
{
}
x D = x j h j = max h k bzw. f j = max f(x k )
1
Median
für ungerades n
 x(n +1 )
~
x = 1 2
 2 ( x(n 2 ) + x(n 2 +1) ) für gerades n
Median bei gruppierten
Daten
~
x = c j−1 + d j ⋅
Quantile
Für den p-Quantils-Wert xp gilt:
n
(
= c j−1 + d j ⋅
0,5 − Fj−1
fj
) ≥ p und h (X
n
p
− H j−1
hj
h X ≤ xp
x
2
= x

 

≥ xp
n
) ≥ 1 − p,
falls np nicht ganzzahlig

np  G + 1



x ∈ x   , x 
falls np ganzzahlig
p   np   np + 1 
wobei [np]G die zu np nächste kleinere ganze Zahl ist.
Arithmetisches Mittel
n
x=
1
n
∑x
i
i =1
Arithmethisches Mittel bei
gruppierten Daten
Sind die Daten in j Gruppen mit den Gruppengrenzen[c j-1; cj)
unterteilt, so gilt:
k
x=
1
n
k
∑h m = ∑f m
j
j
j =1
j
j
j=1
Mit:
m j = (c j−1 + c j ) / 2 (also: mj = Klassenmitte; c j-1 und cj sind die
untere/obere Grenze der Einfallsklasse)
Arithmetisches Mittel bei
geschichteten Daten
Ist die Stichprobe in r Schichten mit schichtspezifischen Mittelwerten
x j unterteilt, so gilt:
x=
1
n
r
k
j=1
j=1
∑ h jx j = ∑ f jx j
1
Geometrisches Mittel
 n n
x g = n x1 ⋅ ... ⋅ xn = n ∏ xi =  ∏ xi  , xi ≥ 0
 i =1 
i =1
Spannweite (Range)
R = x max − x min
n
2
Interquartilsabstand und
Dezilsabstand
dQ = Q3 − Q1 = x0.75 − x0.25
d D = D9 − D1 = x0.9 − x0.1
Wobei xp die Quantile sind.
Mittlere absolute
Abweichung
Varianz
n
AD =
1
n
∑x
k
i
− x bzw. AD =
1
n
∑h
i =1
s2 =
1
n
k
j
aj − x = ∑ f j aj − x
j =1
[(x
2
n
] ∑ (x
− x ) + ... + (x n − x ) =
2
1
j =1
1
n
i
i =1
Standardabweichung
n
s = s2 =
1
n
∑ (x
 n

2
− x ) =  1n ∑ x i2  − x 2
 1=1 
− x)
2
i
i =1
Stichprobenvarianz
n
s2 =
1
n −1
∑ (x
− x)
2
i
i =1
Verschiebungssatz der
Varianz
n
n
i =1
i =1
∑ (xi − c )2 = ∑ (xi − x )2 + n( x − c )2
Für den Spezialfall c=0 ergibt sich
n
2
s =
1
n
∑x
2
i
− x2
i =1
Varianz für geschichtete
Daten/ Varianzzerlegung
Ist die Stichprobe in r Schichten unterteilt, so gilt
r
2
s =
1
n
∑n s
2
j j
r
+
j=1
Variationskoeffizient
v = xs ,
1
n
∑ n (x
j
j=1
x>0
3
− x)
2
j
Herfindahl-Index
k
HF = 1 − ∑
j =1
( ) = 1− ∑ f
k
hj 2
n
j =1
2
j
mit:
k = Anzahl der Kategorien
Normierter Herfindahl-Index
RHF = kk−1 ⋅ HF, RHF∈ [0,1]
Schiefe
γ 1 = ms33 mit m3 = 1n ∑ (xi − x )3
n
i =1
Wölbung (Kurtosis)
n
γ2 =
m4
s
4
− 3 mit m4 =
1
n
∑ (x
i
− x)
4
i =1
Konzentrations- und Ungleichheitsmaße
Dezilverhältnis
Gini-Koeffizient
DR =
Duncan Index der
Segregation
=
x0.9
x 0 .1
Fläche zwischen Diagonale und Lorenzkurve
Fläche zwischen Diagonale und Abszisse
= 2 ⋅ Fläche zwischen Diagonale und Lorenzkurve
G=
G=
Normierter Gini-Koeffizient
D9
D1
G
2 ∑in=1ix( i )
n ∑in=1 xi
− nn+1
∗= G = n G mit ∗∈[ 0 ,1]
G
Gmax n −1
n
I=
1
2
∑M
i
− Fi
i =1
wobei Mi und Fi die Anteile von M und F in den Gruppen sind:
Mi ≡
mi
f
und Fi ≡ i
m
f
4
Bivariate Beschreibung/ Maße
Prozentsatzdifferenz
%D = (
h11 h12
− ) ⋅ 100
h⋅1 h⋅2
Odds
O(a1 , a2 | X = bi ) =
Odds Ratio
OR =
h1i
, i = 1, 2
h2i
h11 / h21 h11 h22
=
⋅
h12 / h22 h21 h12
Erwartete Häufigkeit bei
Unabhängigkeit
~ h i⋅ h . j
h ij =
n
Chi2
~ 2
(
h
−
h
ij
ij )
χ 2 = ∑∑
~
hij
i =1 j =1
Chi2 für 2x2 Kreuztabelle
n(h11h22 − h21h12 ) 2
χ =
h⋅1h⋅2 h1⋅ h2⋅
k
m
2
Phi (nur für 2x2-Tabelle)
φ=
Cramer’s V (bei k x mTabellen)
V=
Mit:
PRE- Maße
χ2
n
=
( h11 h22 − h21 h12 )
h⋅1h⋅2 h1⋅ h2⋅
χ
2
n ⋅ min(m − 1, k − 1)
m = Anzahl Spalten; k = Anzahl Zeilen
E − E2
PRE = 1
E1
Mit:
E1:
E2:
Vorhersagefehler bei Kenntnis der eindimensionalen
Häufigkeitsverteilung (Randverteilung) von X.
Vorhersagefehler bei Kenntnis der bedingten
Verteilung von Y für X = bj, j = 1, … m.
5
Goodman‘s λ
PRE der Vorhersage von Y bei Kenntnis der Randverteilung von X:
E1 =n − max( hi ⋅ )
i
m
m
E2 = ∑[h⋅ j − max(hij )] = n − ∑ max(hij )
i
j =i
i
j =1
m
m
(n − max i ( h i⋅ )) − ( n − ∑ max i (h ij ))
j=1
λY =
Kendall‘s Taub
∑ max
=
n − max i (h i⋅ )
C−D
(C + D + TX )(C + D + TY )
τb =
γ=
C−D
C+D
mit γ ∈ [−1, 1]
(Definition von C, D: siehe Kendall’s Taub)
Korrelationskoeffizient nach
Bravais-Pearson
n
∑ (x
i
− x )( yi − y )
i =1
r=
=
n
n
i =1
i =1
∑ ( xi − x ) 2 ∑ ( yi − y ) 2
s XY =
1 n
∑ ( xi − x )( y i − y )
n i =1
sX =
1 n
2
∑ ( xi − x )
n i =1
n
Rechengünstigere
Formel:
∑x y
i
r=
i
− nxy
i =1
n
n
(∑ x i − nx 2 )(∑ y i − ny 2 )
2
i =1
i =1
6
2
(h ij ) − max i (h i⋅ )
n − max i (h i⋅ )
mit τ b ∈ [−1, 1]
Mit:
C = Konkordante Paare
D = Diskonkordante Paare
Tx = Bindungen (Ties) in X
TY = Bindungen (Ties) in Y
Goodman und Kruskal‘s
Gamma
i
j=1
s XY
s X sY
Spearman‘s ρ
n
∑[rg ( xi ) − r g X ][rg ( yi ) − r gY ]
ρ=
i =1
n
n
i =1
i =1
2
2
∑[rg ( xi ) − r g X ] ∑ [rg ( yi ) − r gY ]
r g X = r gY =
Spearman’s ρ falls keine
Bindungen
(rechengünstigere Formel)
n +1
2
n
ρ = 1−
6∑ [rg ( xi ) − rg ( yi )]2
i =1
( n 2 − 1) n
Wahrscheinlichkeiten
Wahrscheinlichkeit
Fakultät
Anzahl möglicher
Permutationen:
Mit Reihenfolge / mit
Zurücklegen
P ( A) =
| A|
|Ω|
N ! = N ⋅ ( N − 1) ⋅ ( N − 2 ) ⋅ ... ⋅ 2 ⋅ 1
Nn
Mit Reihenfolge/ ohne
Zurücklegen
N!
( N − n)!
Ohne Reihenfolge / mit
Zurücklegen
 N + n − 1 ( N + n − 1)!

=
n  ( N − 1)!⋅n!

Ohne Reihenfolge /
ohne Zurücklegen
N
N!
 =
 n  ( N − n )!⋅n!
P ( A ∩ B)
P( B)
Bedingte
Wahrscheinlichkeiten
P( A | B) =
Produktsatz
P( A ∩ B) = P( A | B) ⋅ P( B)
7
Stochastische
Unanbhängigkeit
P ( A | B ) = P ( A)
bzw.
P ( B | A) = P ( B )
mit P ( B ) > 0
mit P ( A) > 0
P( A∩ B) = P( A) ⋅ P(B)
Theorem von Bayes
P ( Aj | B ) =
P ( B | A j ) ⋅ P ( Aj ) P ( B | Aj ) ⋅ P ( Aj )
= k
P( B)
∑ P( B | A ) ⋅ P( A )
i =1
i
i
x ∈ T = {x1 , x2 ,...}

für x ∉ T

Wahrscheinlichkeitsfunktion
einer diskreten
Zufallsvariable
 P ( X = xi ) = p i ,
f ( x) = 
= 0,

Erwartungswert einer
diskreten Zufallsvariable
µ = E(X) = x1p1 + ... = ∑ x i pi == ∑ x i f (x i )
für
i≥1
i≥1
Rechenregeln für Erwartungswerte
Transformationsregel: Für Y = aX + b gilt
E(Y) = aE(X) + b
Erwartungswert der Summe von ZV
E(X + Y) = E(X) + E(Y)
Produktregel für unabhängige (!) ZV
E(X ∙ Y) = E(X) ∙ E(Y)
Varianz einer diskreten
Zufallsvariable
σ 2 = Var (X) = ∑ ( x i − µ ) 2 p i =∑ ( x i − µ ) 2 f ( x i ) = E(X ²) − µ ²
i ≥1
i ≥1
Rechenregeln für Varianzen
Transformationsregel: Für Y = aX + b gilt
Var(Y) = a2Var(X)
Für unabhängige ZV gilt
Var(X + Y) = Var(X) + Var(Y)
Bernoulli Verteilung
Die Zufallsvariable X (Indikator)
X=1
falls A eintritt
X=0
falls A nicht eintritt
ist eine Bernoulli-Variable
mit P(A) = π
P ( X = 1) = π 
 Bernoulli − Verteilung
P ( X = 0) = 1 − π 
8
Geometrische Verteilung
Wird ein Bernoulli-Experiment mit P(A) = π solange wiederholt, bis
zum ersten Mal A eintritt, dann ist die Zufallsvariable X „Anzahl der
Versuche bis zum ersten Mal A eintritt“ geometrisch verteilt mit
Parameter π : X ~G(π). Es gilt:
P(X = x i ) = (1 − π ) x i −1π
E(X) 1/ π
Binomialverteilung
Var(X)= (1- π)/ π²
Wiederholt man ein Bernoulli-Experiment mit P(A) = π n-mal, dann ist
die Zufallsvariable X = „Anzahl der Versuche, bei denen A eintritt
(Trefferzahl)“ binomialverteilt mit den Parametern n und π: X ~B(n,π).
Es gilt:
n
P ( X = x) =  π x (1 − π ) n− x
 x
E(X) = nπ
Hypergeometrische
Verteilung
Var(X) = nπ(1- π)
Aus einer endlichen Grundgesamtheit von N Einheiten, von denen M
eine Eigenschaft A besitzen, wird zufällig n-mal ohne Zurücklegen
gezogen. Die Variable X „Anzahl der gezogenen Objekte mit der
Eigenschaft A“ ist hypergeometrisch verteilt mit den Parametern n, M
und N: X ~ H(n, M, N). Es gilt:
 M  N − M 
 

x  n − x 

P( x ) =
N
 
n 
E ( X )=n
Dichtefunktion und
Verteilungsfunktion
stetiger Zufallsvariablen
M
M
M N−n
, Var (X ) =n (1 − )
N
N
N N −1
b
P(a ≤ X ≤ b) = ∫ f ( x)dx
a
+∞
P(−∞ ≤ X ≤ +∞) = ∫ f ( x)dx = 1
−∞
x
P( X ≤ x) = F ( x) = ∫ f (t )dt
−∞
Zwei stetige ZV X und Y sind
unabhängig, falls gilt
P ( X ≤ x, Y ≤ y ) = P ( X ≤ x ) ⋅ P (Y ≤ y ) = Fx ( x) ⋅ Fy ( y )
9
Der Erwartungswert ist
definiert als:
Die Varianz ist definiert als
+∞
µ = E ( x) = ∫ xf ( x)dx
−∞
+∞
σ = Var( x) = ∫ ( x − µ ) 2 f ( x)dx
2
−∞
Stetige Gleichverteilung
Die Dichtefunktion ist
 1
 b − a für a ≤ x ≤ b

f ( x) = 
 0
sonst


Dichte Normalverteilung
Die Normalverteilung mit den Parametern μ und σ2 besitzt die Dichte:
f ( x) =
Dichte
Standardnormalverteilung
 1 ( x − µ )2 
1

exp −
2
σ 2π
 2 σ

N(0,1) ist die Standardnormalverteilung, für deren Dichte meist das
Symbol φ(x) verwendet wird:
1
 x2 
exp − 
φ ( x) =
2π
 2
Verteilungsfunktion der
Normalverteilung
Verteilungsfunktion der
Standardnormalverteilung
Z-Standardisierung
1
 1 (t − µ ) 2 
exp  − ⋅
 dt
−∞ σ
2π
σ2 
 2
x
F ( x) = P( X ≤ x) = ∫
x
Φ ( x ) = ∫ φ (t ) dt
−∞
Z=
X − µX
σX
 x − µx 
 = Φ( z)
F ( x) = Φ
 σx 
10
t-Verteilung
Sind X und Z unabhängige Zufallsvariablen mit X ~ N (0,1) und Z ~ χ2(n)
T=
F-Verteilung oder
Fisher-Verteilung
Sind X und Y unabhängige Zufallsvariablen mit X ~ χ2(m) und Y ~ χ2(n)
mit m (= Gruppenzahl - 1) und n (= Fallzahl - Gruppenzahl), dann gilt:
Z=
Konfidenzintervall für µ
X
Z
n
X/m
~ F( m , n )
Y/n
Fall 1: (X ~N(µ,σ2), σ2 bekannt:
X ± z1−α / 2 ⋅
σ
n
Fall 2: (X ~N(µ,s2), σ2 unbekannt und n < 30
X ± t1−α / 2 (n − 1) ⋅
Approximatives
Konfidenzintervall für π
S
n
πˆ (1 − πˆ )
πˆ ± z1−α / 2 ⋅
n
Testtheorie
Stichprobenverteilung
Ist X normalverteilt, so ist die Stichprobenverteilung:
X ~ N( µ ,
σ2
n
)
der Standardfehler ist somit σ / n .
Sonst gilt laut dem Grenzwertsatz:
a
X ~ N( µ ,
σ2
n
)
Ab n > 30 ist diese Approximation bereits akzeptabel.
Binomialtest für einen
Anteilswert
πx = π0 ;H1: πx ≠ π0
Sei X = die Anzahl der Fälle mit dem interessierenden Merkmal
(Xi = 1 falls das Merkmal vorliegt; Xi = 0 falls nicht), dann gilt:
n
X =∑ X i ~ B( n, π0)
i =1
11
Approximativer Binomialtest
für einen Anteilswert
Falls nπ ≥ 5 und n(1-π) ≥ 5 kann die Approximation der
n
∑X
Normalverteilung genutzt werden. Mit X = X =
i =1
πx = π0 ;H1: πx ≠ π0
X − nπ 0
Z=
nπ 0 (1 − π 0 )
a
~ N(0,1)
bzw.
Z=
a
π − nπ 0
π 0 (1 − π 0 )
~ N(0,1)
n
Testgrößen für Tests über
Mittelwerthypothesen
Einstichprobenfall:
H0: μx = μ0 ;H1: μx ≠ μ0
Fall 1: σ2 bekannt: (Gauß-Test)
Z=
X − µ0
n ~ N (0,1)
σ
Fall 2: σ2 unbekannt
T=
Zweistichprobenfall
(Vergleich zweier
Mittelwerte):
H0: μ1 = μ2 ;H1: μ1 ≠ μ2)
(t-Test)
Unabhängige
Stichproben
X − µ0
n ~ t ( n − 1)
S
Fall 1: σ2x und σ2ybekannt:
Z=
X −Y
2
σ x2 σ y
n
+
~ N (0,1)
m
Mit n und m = Fallzahlen für X und Y
Fall 2: σ2x und σ2y unbekannt, aber σ2x = σ2y
X −Y
T=
2
 1 1  (n − 1) S x + (m − 1) S y
 + 
n+m−2
 n m
2
~ t ( n + m − 2)
Fall 3: σ2x und σ2y unbekannt, aber σ2x ≠ σ2y
T=
X −Y
2
2
Sy
Sx
+
n
m
~ t (k )
(Satterthwaite Formel für k
12
siehe Statistikbücher)
i
gilt:
Verbundene
D − µ0
T=
n ~ t ( n − 1)
/abhängige
S
D
Stichproben
(H0: μD=μ0 ; H1: μD≠μ0) Mit:
μD = D = mittlere Paardifferenz (Di = Xi - Yi)
SD = Standardabweichung der Paardifferenz
Testgröße für Varianzen
F=
(Vergleich zweier
Varianzen:
( H :σ2 −σ2 =0; H :σ2 −σ2 ≠0 )
0
1
2
1
1
s12
~ F(n 1 − 1, n 2 − 1)
s 22
Wobei s21 und s22 die Stichprobenvarianzen sind, n1 und n2 die
Fallzahlen der beiden Gruppen.
2
(F-Test)
Testgröße für signifikante
Zusammenhänge in
Kreuztabellen:
~
( hij − hij ) 2
χ = ∑∑
~ χ 2 (( k − 1) ⋅ ( m − 1))
~
hij
i =1 j =1
k
m
2
mit k = Anzahl Zeilen, m = Anzahl Spalten.
(H0: kein Zusammenh.;
H1: Zusammenhang)
Chi²- Unabhängigkeitstest
Lineare Regression
Regressionsgerade OLS
n
n
n
2
min ∑ (Yi − Yˆ ) 2 = min ∑ εˆi = min ∑ (Yi − αˆ − βˆxi ) 2
α ,β
α ,β
i =1
α ,β
i =1
i =1
αˆ = Y − βˆx
n
n
∑ ( xi − x )(Yi − Y )
βˆ =
n
∑ (x
i
∑ x Y − nx Y
i i
s
= XY2
sX
i =1
− x )2
=
i =1
n
∑x
i
i =1
2
− nx 2
i =1
Standardfehler des
Koeffizienten
n
∑ (Y
i
σˆ ( βˆ ) = MSE / SS x =
− Yˆi ) 2 /(n − p − 1)
i =1
n
∑(X
i
i =1
mit p = Zahl der unabhängigen Variablen
13
− X i )2
n
2
R Anteil der erklärten
Varianz
R2 =
2
∑ (Yˆi − Y )
erklärte Streuung SQE i =1
=
= n
gesamte Streuung SQT ∑ (Y − Y ) 2
i
i =1
Teststatistik [H0 verwerfen falls: |T| > t1-α/2(n-2)]
Testgröße Koeffizient βj:
Tj =
βˆ j − β 0 j
~ t ( n − 2) bzw. t ( n − p − 1)
σˆ j
F-Test (testet ob R2
signifikant)
n
∑ ( yˆ
i
Femp =
− y )2 / p
i =1
n
∑(y
i
− yˆ i ) 2 /( n − p − 1)
i =1
=
R 2 ⋅ (n − p − 1)
(1 − R 2 ) ⋅ p
mit p = Zahl der unabhängigen Variablen
1-α-Konfidenzintervall von
βj
Korrigiertes R2
βˆ j ± t1− α / 2 ⋅ σˆ j
2
Rkorr = 1 −
n −1
(1 − R 2 )
n − p −1
mit p = Zahl der unabhängigen Variablen
14