dxxf x xVar - Goethe

Goethe‐Universität Frankfurt Wintersemester 2014/15 Prof. Dr. Katrin Auspurg/PD Dr. Sören Petermann Formelsammlung zur „Einführung in die Sozialwissenschaftliche Statistik“ Rechenregeln zu Summenzeichen 2
2
2
2
n
i1 xi  x1  x2  ...  xn

n
i 1
xi    x1  x2  ...  xn 
2
2
n
i1 xi yi  x1 y1  x2 y2  ...  xn yn
n
n
n
i1  xi  yi   i1 xi  i 1 yi
n
n
n
2
2
n
i1  xi  yi    i 1 xi   i1 2 xi yi   i 1 yi
2
n
n
i1 kxi  k i 1 xi
i1 k  nk
n
n
 j 1 yi x j  yi  j 1 x j
n
2
3
2
3
i1  j 1 xi y j  i 1 xi  j 1 y j    x1  x2  y1  y2  y3  Univariate Beschreibung/ Maße Kumulierte Häufigkeitsverteilung 0

H( x )   i
n

x  x (1)
x (i)  x  x (i 1) , i  1, ..., n - 1 x  x (n)
für
für
für
j
H ( x)  h(a1 )  ...  h(a j )   hi ,
i 1
Empirische Verteilungsfunktion wobei aj ≤ x < aj+1
F ( x)  Anteil der Wertexi mit xi  x  p( X  x)  H n( x ) . 0

F( x )   i n
1

für
für
x  x (1)
x (i)  x  x (i 1) , i  1, ..., n - 1 x  x (n)
für
j
F ( x)  f (a1 )  ...  f (a j )   f i ,
i 1
wobei aj ≤ x < aj+1
Modus 

xD  x j h j  max h k bzw. f j  max f(x k ) 1 Median Median bei gruppierten Daten Quantile für ungerades n
 xn 1 
~
x  1 2
 2 ( xn 2   xn 2 1 ) für gerades n
~
x  c j1  d j 
n
2
 H j1
hj
 c j1  d j 
0,5  Fj1
fj
Für den p‐Quantils‐Wert xp gilt: 
h X  xp
n
  p und h X  x   1  p ,
p
n
x  x
p
  np 
 


falls np nicht ganzzahlig


G  1


x  x   , x 
falls np ganzzahlig

p   np   np  1 
Arithmetisches Mittel Arithmethisches Mittel bei gruppierten Daten wobei [np]G die zu np nächste kleinere ganze Zahl ist.
n
x
1
n
x
i 1
i
Sind die Daten in j Gruppen mit den Gruppengrenzen[c j-1; cj)
unterteilt, so gilt:
x
k
k
j 1
j 1
 h jm j   f j m j
1
n
Mit:
m j  (c j1  c j ) / 2 (also: mj = Klassenmitte; c j-1 und cj sind die
untere/obere Grenze der Einfallsklasse)
Arithmetisches Mittel bei geschichteten Daten Ist die Stichprobe in r Schichten mit schichtspezifischen Mittelwerten x j unterteilt, so gilt: x
Geometrisches Mittel 1
n
r
k
j1
j1
 h jx j   f jx j xg  n
2 1
 n
 n
x1  ...  xn  n  xi    xi  , xi  0
 i 1 
i 1
n
Spannweite (Range) Interquartilsabstand und Dezilsabstand Mittlere absolute Abweichung R  xmax  xmin
d Q  Q3  Q1  x 0.75  x 0.25 d D  D9  D1  x0.9  x0.1 Wobei xp die Quantile sind. AD 
Varianz Standardabweichung Stichprobenvarianz s2 
1
n
1
n
n

xi  x bzw. AD 
i 1
x
1
n
2
s  s2 
2
n
1
n
 x
i 1
 x
2
i
s2 
n
1
n 1
 x
i 1
 x
2
i
n
1
n
i 1
i
n
i 1
i 1
1
n
n
x
i 1
2
i
 x2 Ist die Stichprobe in r Schichten unterteilt, so gilt s 
2
r
1
n
n s
j1
v  xs ,
2
j j

x  0 3  n x
r
1
n
j1
j
 x
2
j
 n

2
 x    1n  x i2   x 2
 11 
 xi  c 2   xi  x 2  nx  c 2
n
s2 
  x
Für den Spezialfall c=0 ergibt sich j 1
j 1
Variationskoeffizient k
 hj a j  x   f j a j  x
 x   ...  x n  x  
1
Verschiebungssatz der Varianz Varianz für geschichtete Daten/ Varianzzerlegung k
Herfindahl‐Index k
HF  1  
j 1
   1  f
hj 2
k
n
j 1
2
j
mit:
k = Anzahl der Kategorien
Normierter Herfindahl‐Index RHF  k  HF, RHF 0,1 k 1
 
Schiefe  1  ms33 mit m3  1n  xi  x 3
n
i 1
Wölbung (Kurtosis) 2 
m4
s4
 3 mit m4 
Konzentrations‐ und Ungleichheitsmaße D9
Dezilverhältnis DR 
Gini‐Koeffizient D1

n
1
n
 x
i 1
i
 x x 0 .9
x 0 .1
Fläche zwischen Diagonale und Lorenzkurve
Fläche zwischen Diagonale und Abszisse
 2  Fläche zwischen Diagonale und Lorenzkurve G
G
Normierter Gini‐Koeffizient G
2 in1ix( i )
n in1 xi
 nn1
 G  n G mit 0 ,1
G
Gmax n 1
4 4
Bivariate Beschreibung/ Maße Prozentsatzdifferenz %D  (
Odds Odds Ratio Erwartete Häufigkeit bei Unabhängigkeit Chi2 O(a1 , a2 | X  bi ) 
OR 
~
h ij 
Phi (nur für 2x2‐Tabelle) PRE‐ Maße n
~
(hij  hij ) 2   
~
hij
i 1 j 1
k
m
n(h11h22  h21h12 ) 2  
h1h2 h1 h2
2

2
n
V

( h11 h22  h21 h12 ) h1 h2 h1 h2

2
n  min(m  1, k  1)
Mit: m = Anzahl Spalten; k = Anzahl Zeilen E1  E2 PRE 
Mit: E1
E1: Vorhersagefehler bei Kenntnis der eindimensionalen Häufigkeitsverteilung (Randverteilung) von X. E2: Vorhersagefehler bei Kenntnis der bedingten Verteilung von Y für X = bj, j = 1, … m. 5 h1i
, i  1, 2 h2i
h11 / h21 h11 h22 

h12 / h22 h21 h12
h i h . j
2
Chi2 für 2x2 Kreuztabelle Cramer’s V (bei k x m‐
Tabellen) h11 h12
 )  100
h1 h2
Goodman‘s λ PRE der Vorhersage von Y bei Kenntnis der Randverteilung von X: E n  max( h ) i
1
i
m
m
E2  [h j  max(hij )]  n   max(hij ) j i
j 1
i
i
m
(n  max i (h i ))  (n   max i (h ij ))
j1
Y 
Kendall‘s Taub Goodman und Kruskal‘s Gamma Korrelationskoeffizient nach Bravais‐Pearson n  max i (h i )

CD
CD
(Definition von C, D: siehe Kendall’s Taub) n
r
n
n
i 1
i 1
 ( xi  x ) 2  ( yi  y ) 2
s
 XY
s X sY
1 n
 ( xi  x )( yi  y ) n i 1
sX 
1n
2
 ( xi  x ) n i 1
n
r
x y
i 1
n
i
i
 nxy
n
i 1
2
i 1
6 ( x i  nx )( y i  ny )
2
2
2
ij
)  max i (h i )
mit  b  [1, 1]
mit   [1, 1] ( xi  x )( yi  y )

i 1
i
n  max i (h i )
Mit: C = Konkordante Paare D = Diskonkordante Paare Tx = Bindungen (Ties) in X TY = Bindungen (Ties) in Y s XY 
j1

CD
(C  D  TX )(C  D  TY )
b 
Rechengünstigere Formel: m
 max (h
Spearman‘s 
n

[rg ( xi )  r g X ][rg ( yi )  r gY ]
2
i 1
Wahrscheinlichkeiten   1
Fakultät Anzahl möglicher Permutationen: Mit Reihenfolge / mit Zurücklegen Mit Reihenfolge/ ohne Zurücklegen n  1 2
n
Wahrscheinlichkeit Ohne Reihenfolge / mit Zurücklegen P ( A) 
6 [rg ( xi )  rg ( yi )]2
i 1
Bedingte Wahrscheinlichkeiten Produktsatz (n  1)n
| A| ||
N !  N  ( N  1)  ( N  2 )  ...  2  1
N n N! (N  n)!
 N  n  1 ( N  n  1)! 

n  ( N  1)!n!

N
N!
 
 n  ( N  n)!n!
P( A | B) 
P( A  B) P( B)
P( A  B)  P( A | B)  P( B)
7 2
Ohne Reihenfolge / ohne Zurücklegen 2
i 1
r g X  r gY 
n
[rg ( xi )  r g X ] [rg ( yi )  r gY ]
Spearman’s falls keine Bindungen (rechengünstigere Formel) i 1
n
Stochastische Unanbhängigkeit P ( A | B )  P ( A)
bzw.
mit P ( B )  0
P ( B | A)  P ( B )
mit P ( A)  0
P( A  B)  P( A)  P(B) Theorem von Bayes P ( Aj | B ) 
P ( B | Aj )  P ( Aj ) P ( B | Aj )  P ( Aj )  k
P( B)
 P( B | A )  P( A )
i 1
Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable Erwartungswert einer diskreten Zufallsvariable Varianz einer diskreten Zufallsvariable Bernoulli Verteilung  P ( X  xi )  p i ,
f ( x)  
 0,

x  T  x1 , x2 ,... 
für x  T

  E(X)  x1p1  ...   x i pi   x i f (x i ) i 1
i 1
Rechenregeln für Erwartungswerte Transformationsregel: Für Y = aX + b gilt E(Y) = aE(X) + b Erwartungswert der Summe von ZV E(X + Y) = E(X) + E(Y) Produktregel für unabhängige (!) ZV E(X ∙ Y) = E(X) ∙ E(Y)  2  Var (X)   ( x i   ) 2 p i  ( x i   ) 2 f ( x i )  E(X ²)   ² i 1
i 1
Rechenregeln für Varianzen Transformationsregel: Für Y = aX + b gilt Var(Y) = a2Var(X) Für unabhängige ZV gilt Var(X + Y) = Var(X) + Var(Y)
Die Zufallsvariable X (Indikator) X = 1 falls A eintritt X = 0 falls A nicht eintritt ist eine Bernoulli‐Variable mit P(A) = π P ( X  1)   
8 i
für
 Bernoulli  Verteilung
P ( X  0)  1   
i
Geometrische Verteilung Binomialverteilung Wird ein Bernoulli‐Experiment mit P(A) = π solange wiederholt, bis zum ersten Mal A eintritt, dann ist die Zufallsvariable X „Anzahl der Versuche bis zum ersten Mal A eintritt“ geometrisch verteilt mit Parameter π : X ~G(π). Es gilt: P(X  x i )  (1   ) x i 1 E(X) 1/ π Var(X)= (1‐ π)/ π² Wiederholt man ein Bernoulli‐Experiment mit P(A) = π n‐mal, dann ist die Zufallsvariable X = „Anzahl der Versuche, bei denen A eintritt (Trefferzahl)“ binomialverteilt mit den Parametern n und π: X ~B(n,π). Es gilt: n
P ( X  x)    x (1   ) n x
 x
Hypergeometrische Verteilung E(X) = nπ Var(X) = nπ(1‐ π) Aus einer endlichen Grundgesamtheit von N Einheiten, von denen M eine Eigenschaft A besitzen, wird zufällig n‐mal ohne Zurücklegen gezogen. Die Variable X „Anzahl der gezogenen Objekte mit der Eigenschaft A“ ist hypergeometrisch verteilt mit den Parametern n, M und N: X ~ H(n, M, N). Es gilt:  M  N  M 

 
x  n  x 

P( x ) 
 N
 
n 
E (X)n
Dichtefunktion und Verteilungsfunktion stetiger Zufallsvariablen M
M
M Nn
, Var (X) n (1  )
N
N
N N 1
b
P(a  X  b)   f ( x)dx a

P(  X  )   f ( x)dx  1 
x
P( X  x)  F ( x)   f (t )dt 
Zwei stetige ZV X und Y sind unabhängig, falls gilt P( X  x, Y  y )  P( X  x)  P(Y  y )  Fx ( x)  Fy ( y ) 9 
Der Erwartungswert ist definiert als:   E ( x)   xf ( x)dx Die Varianz ist definiert als 

  Var ( x)   ( x   ) 2 f ( x)dx 2

Stetige Gleichverteilung Dichte Normalverteilung Die Dichtefunktion ist  1
 b  a für a  x  b

f ( x)  
 0
sonst


Die Normalverteilung mit den Parametern μ und σ2 besitzt die Dichte:  1 ( x   )2  1

f ( x) 
exp 
2
 2
 2 

Dichte Standardnormalverteilung N(0,1) ist die Standardnormalverteilung, für deren Dichte meist das Symbol φ(x) verwendet wird: 1
 x2  exp  
2
 2
 ( x) 
Verteilungsfunktion der Normalverteilung Verteilungsfunktion der Standardnormalverteilung Z‐Standardisierung 1
 1 (t   ) 2 
exp   
 dt
 
2 
2
 2
x
F ( x)  P ( X  x)  
x
 ( x )    (t ) dt

Z
X  X
X
 x  x 
  ( z )
F ( x)  
 x 
10 t‐Verteilung Sind X und Z unabhängige Zufallsvariablen mit X ~ N (0,1) und Z ~ 2(n)
T
F‐Verteilung oder Fisher‐Verteilung Sind X und Y unabhängige Zufallsvariablen mit X ~ 2(m) und Y ~ 2(n) mit m (= Gruppenzahl ‐ 1) und n (= Fallzahl ‐ Gruppenzahl), dann gilt: Z
Konfidenzintervall für  X
Z
n
X/m
~ F( m , n ) Y/n
Fall 1: (X ~N(,2), 2 bekannt:  X  z1 / 2 
n
Fall 2: (X ~N(,s2), 2 unbekannt und n < 30 S X  t1 / 2 (n  1) 
Approximatives Konfidenzintervall für  Testtheorie Stichprobenverteilung ˆ  z1 / 2 
n
ˆ (1  ˆ )
n
Ist X normalverteilt, so ist die Stichprobenverteilung: 2

X
~
N(
,
)
n
 der Standardfehler ist somit  / n . Sonst gilt laut dem Grenzwertsatz: 2
a
X ~ N (  ,  )
n
Ab n > 30 ist diese Approximation bereits akzeptabel. 11 Binomialtest für einen Anteilswert x = 0 ;H1: x ≠ 0 Sei X = die Anzahl der Fälle mit dem interessierenden Merkmal (Xi = 1 falls das Merkmal vorliegt; Xi = 0 falls nicht), dann gilt: n
X  X i ~ B( n, 0) i 1
Approximativer Binomialtest Falls n ≥ 5 und n(1‐) ≥ 5 kann die Approximation der n
für einen Anteilswert Normalverteilung genutzt werden. Mit X = X

X i gilt: i 1
x = 0 ;H1: x ≠ 0 
a
X  n 0
Z
n 0 (1   0 )
~ N(0,1) bzw. Z 
a
x 0
 0 (1   0 )
~ N(0,1) n
Testgrößen für Tests über Mittelwerthypothesen Einstichprobenfall: H0: μx = μ0 ;H1: μx ≠ μ0 Fall 1: σ2 bekannt: (Gauß‐Test) Z
X  0

n ~ N (0,1)
Fall 2: σ2 unbekannt T
X  0
n ~ t ( n  1)
S
Fall 1: σ2x und σ2ybekannt: Zweistichprobenfall (Vergleich zweier X Y
Z
~ N (0,1)
Mittelwerte): 2
2

x
H0: μ1 = μ2 ;H1: μ1 ≠ μ2)  y
n
m
(t‐Test) Mit n und m = Fallzahlen für X und Y Unabhängige Stichproben Fall 2: σ2x und σ2y unbekannt, aber σ2x = σ2y T
X Y
2
 1 1  (n  1) S x  (m  1) S y
  
nm2
 n m
12 2
~ t (n  m  2)
2
2
Fall 3: σ2x und σ2y unbekannt, aber σ
x ≠ σ y T 
X Y
2
2
Sy
Sx

n
m
~ t (k )
(Satterthwaite Formel für k  siehe Statistikbücher) Verbundene D  0
T
n ~ t ( n  1)
/abhängige SD
Stichproben (H0: μD=μ0 ; H1: μD≠μ0) Mit: μD = D = mittlere Paardifferenz (Di = Xi ‐ Yi) SD = Standardabweichung der Paardifferenz
Testgröße für Varianzen 2
F
s1
~ F(n 1  1, n 2  1) s 22
(Vergleich zweier Varianzen: 2
2
( H0 : σ12 σ22 0; H1 :σ12 σ22 0 ) Wobei s 1 und s 2 die Stichprobenvarianzen sind, n1 und n2 die Fallzahlen der beiden Gruppen. (F‐Test) ~
k m (h  h ) 2
Testgröße für signifikante ij
ij
2
 
~  2 (( k  1)  ( m  1))
~
Zusammenhänge in hij
i 1 j 1
Kreuztabellen: 
(H0: kein Zusammenh.; H1: Zusammenhang) Chi²‐ Unabhängigkeitstest Lineare Regression
Regressionsgerade OLS n
n
n
2
min  (Yi  Yˆ ) 2  min  ˆi  min  (Yi  ˆ  ˆxi ) 2
 ,
 ,
i 1
i 1
 ,
i 1
ˆ  Y  ˆx
n
n
ˆ 
( xi  x )(Yi  Y )

i 1
n
 ( xi  x )
2
i 1
13 s
 XY2
sX

xiYi  nx Y

i 1
n
2
xi  nx 2

i 1
Mittlere quadratische Abweichung (Mean Squared Error) Standardfehler des Koeffizienten n
i2

i 1
n
 (Y  Yˆ )
i
i 1
i
ˆ * j  ˆ j 
sx j
2
/( n  2) n
 (x  x )
i
i 1
SQT (Gesamtstreuung) SQE (erklärte Streuung) SQR (Residualstreuung) (Yi  Yˆi ) 2 /(n  2)

i 1
SE (  )  MSE / SS x 
Beta‐Koeffizient n
SS


(n  2)
(n  2)
MSE  ˆ 2 
2
i
sy
n
SQT   (Yi  Y ) 2 i 1
n
SQE   (Yˆi  Y ) 2 i 1
n
SQR   (Yi  Yˆi ) 2 i 1
n
n
n
i 1
i 1
i 1
2
2
2
 (Yi  Y )   (Yˆi  Y )   (Yi  Yˆi ) 
SQT
SQR

SQE
R2 Anteil der erklärten Varianz Testgröße Koeffizient j: Teststatistik [H0 verwerfen falls: |T| > t1‐α/2(n‐2)] ˆ j   0 j
F‐Test (testet ob R2 signifikant) n
(Yˆi  Y ) 2 erklärte Streuung SQE 
2
i 1

 n
R 
gesamte Streuung SQT  (Y  Y ) 2
i
i 1
Tj 
n
Femp 
 ( yˆ
i 1
n
(y
i 1

~ t ( n  2) bzw. t ( n  p  1)
ˆ j
i
i
 y )2 / p
 yˆ i ) 2 /( n  p  1) R 2  ( n  p  1)
(1  R 2 )  p
mit p = Zahl der unabhängigen Variablen 14 1‐‐Konfidenzintervall von βj Korrigiertes R2 ˆ j  t 1 / 2 ( n  p  1)  ˆ j 2
Rkorr  1 
n 1
(1  R 2 ) mit p = Zahl der unabhängigen n  p 1
Variablen 15