sta0formeln

Werbung
Formeln zur Statistik
(1.1)
(1.2)
(1.3)
(1.4)
(1.5)
(1.6)
(1.7)
Mittelwert, Varianz bei Einzelwerten
Freiheitsgrade
Abweichungsquadrate
Lineare Einfach-Regression
Multiple lineare Regression, DW-Tabelle
A'-Regression
VT – Regression
(2.1)
(2.2)
(2.3)
(2.4)
(2.5)
Linearer Trend und Saisonschwankungen
Logistischer Trend
Gleitende Mittelwerte
Wachstumsfaktoren
Exponentielles Glätten
(3.1) Konzentrationsmaße
(3.3) Häufigkeitsverteilung
(4.1)
(4.2)
(4.3)
(4.4)
(4.5)
Wahrscheinlichkeit
Chi2-Unabhängigkeitstest
Diskrete Zufallsvariable
Stichprobenmittel
Stetige Zufallsvariable
(5.1)
(5.2)
(5.3)
(5.4)
(5.5)
(5.6)
(5.7)
(5.8)
Binomialverteilung
Hypergeometrische Verteilung
POISSON-Verteilung
Normalverteilung
Standard-Normalverteilung
Approximationsbedingungen
Anpassung und Korrekturfaktoren
Chi2 - Anpassungstest
(6.1)
(6.2)
(6.3)
(6.4)
Konfidenzintervall
Hypothesentest
 unbekannt
Stichprobe ohne Zurücklegen
Tabellen
(7.1) Binomialverteilung
(7.2) POISSON-Verteilung
(7.3) Tabelle FISHER-Prüfmaß xF
(7.4) Tabelle Chi2-Prüfmaß 2
(7.5a)Tabelle STUDENT-Prüfmaß F(t)
(7.5b)Tabelle STUDENT-Prüfmaß D(t)
(7.6) Standardnormalverteilung FSN
Statistik - Neff
Formeln zur Statistik
(1.1) Maßzahlen bei Einzelwerten
Mittelwert bei N bzw. n Einzelwerten xi
1 N
In der Grundgesamtheit µ   xi
N i 1
n
Statistik - Neff
Ax    xi  x    xi 2 
Abweichungsquadrate
2
i 0
s2 
1 n
 xi
n i 1
2
1
xi 


n
Varianz bei N bzw. n Einzelwerten xi
1 N
1
2
    xi  µ  
der Grundgesamtheit:
N i 1
N
der Stichprobe:
x
in der Stichprobe:
N
x
i 1
i
2
µ2   n

1
1  n 2

2
x

x

xi  nx 2   n1




i

n  1 i 1
n  1  i 1

n
Standardabweichung in der Grundgesamtheit:   2

in der Stichprobe: s  s 2 
(1.2) Freiheitsgrade 
"nü"
Freiheitsgrade df, degrees of freedom) ist die Anzahl der frei wählbaren, unabhängigen
Einzelwerte, die in die statistischen Berechnungen einbezogen werden können.
a) bei der Stichprobenvarianz
n-1
b) beim FISHER-Prüfmaß
 = n-p-1
p Anzahl der Einflussgrößen
c) beim STUDENT-t-Prüfmaß
in der multiplen Regression:
 = n-p-1
im Hypothesentest:  = n -1
d) beim Chi2-Prüfmaß 
im Unabhängigkeitstest
 = (k - 1) · (l - 1)
im Anpassungstest
=k–p–1
(1.3) Abweichungsquadrate bei Regressionsanalysen
SS "Sum of Squares", Summe der Abweichungsquadrate A
MS Mittlere Summe der Abweichungsquadrate, Varianz 2, Mean Sum of Squares
p Anzahl der Einflussfaktoren
2
n
n
yi  yˆi 

SSRes

2
2
AError   ( yi  yˆi )   ei = SSResiduen
MSResiduen 

n - p -1
n  p 1
i 1
i 1
2
n
SSGesamt  ( yi  yi )
2
AGesamt   ( yi  yi )  SSGesamt
MSGesamt 

  n21
n

1
n

1
i 1
n
SSRegression  ( yˆi  yi )2
2
Aerklärt   ( yˆi  yi )  SSRegression
MSerklärt 

p
p
i 1
n
Bestimmtheitsmaß r 2 
2
erklärt
2
gesamt
s
s

  yˆi  y 
i 1
n 1
n
  yi  y 
2
:
i 1
n 1
n
2

  yˆ  y 
2
 y  y 
2
i 1
n
i 1
2
 1
Adjustiertes Bestimmtheitsmaß radjust
FISHER-Prüfgröße xFempir =
MS erklärt
MS Residuen
MS Residuen
MSGesamt
i
i
Formeln zur Statistik
Statistik - Neff
(1.4) Lineare Einfach-Regression ŷ = m x + b
Summe der Abweichungsquadrate
Regressionskoeffizienten m 
n
i 1
i 1
n xi yi   xi   yi
n xi 2    xi 
r
Korrelationskoeffizient
n
AError   ( yi  yˆi ) 2   ei2
 n x
i
b
2
1
m
yi   xi

n
n
n xi yi   xi   yi
2

   xi   n yi 2    yi 
2
2

Bestimmtheitsmaß r2
FISHER-Prüfgröße xFempir 
MSerklärt
r2
 n  2 
2 
1 r
MSResiduen
Die Nullhypothese wird verworfen, wenn xFempirisch > xFc,  | 1 | 
(1.5) Multiple lineare Regression
p Einflussfaktoren,  = n-p-1 Freiheitsgrade 
Die Nullhypothese wird verworfen, wenn xFempirisch > xFc,  | p | 
Signifikanter Beitrag des Einflussfaktors xk , wenn | tempirisch | > tc,  | Tabelle 7.5a
Signifikante Interkorrelation zwischen den Einflussfaktoren xj, xk , wenn rjk > 0,5.
Signifikante Autokorrelation, wenn für
die DURBIN-WATSON-Prüfgröße gilt:
DW1  [DWunten ; DWoben]
n
DW1 
 e  e 
i 2
2
i 1
i
n
e
2
i
i 1
n
 e  e 
DWk  i k 1
2
i k
i
n
e
i 1
2
i
(1.6) A'-Regression ŷ = a (x) + b
Ansatzfunktionen
(x)
n
Summe der Abweichungsquadrate
A   ( yi  a ( x)  b) 2
i 1

a  ( xi )   b ( xi )   yi ( xi )

a ( xi )  nb   yi


2
Normalgleichungen
Regressionskoeffizienten a 
n yi  ( xi )   yi    ( xi )
n  ( xi )      ( xi ) 
2
2
b
1
a
yi    ( xi ) 

n
n
Formeln zur Statistik
Statistik - Neff

(1.7) VT–Regression
Lineare Regressionsmodelle
mit den Ansatzfunktionen
ŷ(x) = a0 + a11(x) + a2 2(x) + … + ak k(x)
 i (x)
VANDERMONDE-Matrix
 1 0 ( x0 ) 1 ( x0 )

1 0 ( x1 ) 1 ( x1 )
V 


 1 0 ( xm ) 0 ( xm )
VANDERMONDE-Gleichung
V·a = y
Interpolationswert für x =z
ŷ(z) = a0 + a11(z) + a2 2(z) + … + ak k(z)

k ( x0 ) 

k ( x1 ) 


k ( xm ) 
V TV a = V T y
(2.1) Linearer Trend und Saisonschwankungen
Komponentenmodell
yi = ŷi + si + iri
Saisonschwankungen
si = yi – ŷi
Irreguläre Restwerte
iri = si – s j = yi – ŷî  s j
Prognosewerte
p̂ = ŷ(xn+z) + sij
sj 
1 k
 sij
k i 1
(2.2) Logistischer Trend
S 
*
ytransformiert
 ln   1
y 
n xi  yi*   xi  yi*
1
m
Regressionskoeffizienten m 
b   yi*   xi
2
n
n
n xi2    xi 
Ansatzfunktion
yˆ 
S
1  e mx b
(2.3) Gleitende Mittelwerte
k vorausgehende und k nachfolgende Zeitreihenwerte
Ungerade bzw. gerade Ordnung des gleitenden Mittelwerts
m=i+ k-1

1 1
1
yi 
 yi-k   ym  yi+k 
2k  2
2
m=i- k-1

1 m=i+k
yi 
 ym
2k  1 m=i-k
(2.4) Wachstumsfaktoren
Indizes
Wachstumsfaktoren
Bk
B0
y
xi  i
yi 1
I 0,k 
(Berichtsperiode k, Basisperiode 0)
Zuwachsrate ri = xi – 1
yn
Mittlere Zuwachsrate
y0
(Es liegen n+1 y-Werte y0, y1, …, yn vor)
Mittlerer Wachstumsfaktor GM ( xi )  n
n
yn
-1
y0
Formeln zur Statistik
Statistik - Neff
(2.5) Exponentielles Glätten
n Beobachtungswerte, Glättungskonstante 

n 1
i 0
i 0
yˆ n 1    (1   )i  yn-i    (1   )i  yn-i
Prognosewerte, direkt
yˆi 1   yi+1  (1   )  yˆi
Geglättete Werte, rekursiv
  y  yˆ 
 y  y 
Prognosen für i = n
2
THEIL'scher Ungleichheitskoeffizient U 
i
i
i
2
i 1
Die Prognose ist signifikant besser als die naive Prognose, wenn U < 1
(3.1) Konzentrationsmaße
n Merkmalsträger mit den Mengen Mi und den Anteilen an der Merkmalsumme mi.
Anteile an den Merkmalsträgern fi. Die k anteilsschwächsten Merkmalsträger.
LORENZ-Kurve aus

k
m 
i
i=1
KGini = 1 – 2 Aunten
Gini-Koeffizient
(3.2) speziell für hi 
 k
x
|
y

 k k    hi
 i=1

1 n
  yi1  yi   hi
2 i=1
mit
Aunten 
mit
1 n
1
Aunten    yi  
n  i=1
2
1
n
LORENZ-Kurve aus
GINI-Koeffizient
k
n
 xk | yk   

k
m 
i
i=1

KGini = 1 – 2 Aunten
n
HERFINDAHL-Koeffizient
K Herfindal   mi2
i=1
(3.3) Häufigkeitsverteilungen
Stichprobenumfang n, Anzahl der Klassen k, ersatzweise Klassenmitten xi* statt xi.
n
hi  i
Relative Häufigkeiten
n
h
fi  i
Häufigkeitsdichten
xi
k
Empirische Verteilungsfunktion Fi  F ( xi )   hi  h  X  xi 
i 1
Zentralwert (Median)
Mittelwert
xz = xi mit Fi = 0,5
k
1 n
x   xi  ni   xi  hi
n i 1
i 1
1  k 2

xi ni  n x 2  für n ≤ 200.


n  1  i 1

s
v
Variationskoeffizient
x
Varianz
s2 
Standardabweichung
s   s2
k
s    xi 2  hi  x 2 für n > 200.
i 1
Formeln zur Statistik
(4.1) Wahrscheinlichkeit

Statistik - Neff

Statistische Konvergenz
lim W lim(hn  p)  0  1
Allgemeiner Additionssatz
W(A B) = W(A) + W(B)  W(AB)
Allgemeiner Multiplikationssatz
W(AB) = W(A) · W(B|A)
Unabhängige Ereignisse
W(AB) = W(A) · W(B)
Verteilungsfunktion F
W(a < X  b) = F(b) – F(a)
n 
n 
(Treffer-Wahrschlk. p)
(4.2) Chi2-Unabhängigkeitstest
k Zeilen (Anzahl der Kategorien von X), l Spalten (Anzahl der Kategorien von Y).
Häufigkeiten nij für den i-ten Wert des Merkmals X und den j-ten Wert des Merkmals Y.
Randhäufigkeiten n, ni, nj.
ni  n j
Berechnete Häufigkeiten
uij 
Voraussetzung für Test
uij ≥ 5
Normierte Abweichungsquadrate
2
Chi -Prüfmaß
2
empirisch
chi

Freiheitsgrade für 2crit | 
qij
n
n

ij
 uij 
2
uij
k
2
empirisch
l
  qij  
i 1 j1
n
ij
 uij 
uij
2
n n 

n  i  j 
k
l  ij
n 
 
ni n j
i 1 j1
2
n
 = (k - 1) · (l - 1)
2
2
  Unabhängigkeitshypothese wird verworfen, wenn empirisch
 crit
. 
(4.3) Diskrete Zufallsvariable
k
Erwartungswert
   xi  fi
i 1
k
Erwartete Varianz
2   xi2  fi   2
i 1
Erwartete Standardabweichung
   2
(4.4) Stichprobenmittel
X  X 2  ...  X n
X 1
kommt der Normalverteilung mit zunehmendem n immer näher.
n
Die Xi müssen nicht selbst normalverteilt sein.
Die Xi müssen nicht völlig voneinander unabhängig sein.
Erwartungswerte
µ  X   µ( X )
Erwartete Varianzen
( X ) 
1
( X )
n
σX 
σ
n

Formeln zur Statistik
Statistik - Neff
(4.5) Stetige Zufallsvariable

Dichtefunktion f mit
f(x)  0
und

f ( x)dx  1  100%

Verteilungsfunktion F
F ( x2 ) 
x2

f ( x)dx  W ( X  x2 )

lim F ( x2 )  1  100%
x2 
b
Wahrscheinlichkeit
W (a  X  b)   f ( x)dx  F (b)  F (a )  [ F ( x2 )]ba
a

Erwartungswert
µ
 x  f ( x) dx


Erwartete Varianz
2 


x 2  f ( x) dx  µ2 

Erwartete Standardabweichung
  x  µ
2
 f ( x) dx

   2
(5.1) Binomialverteilung
Treffer-Wahrscheinlichkeit p, q = 1 – p, Anzahl der Treffer x.
 n  n  (n  1)  (n  2)  ...  (n  x  1)
n!
Binomialkoeffizienten

 
x!
x !(n  x)!
 x
n
 n
Wahrscheinlichkeitsfunktion
W(X = x) = fn,p(x) =   p x q n  x    p x (1  p)n  x
 x
 x
k
k
n
FBin | n | p (k )   f n, p ( x)    p x q n x
Verteilungsfunktion
Tabelle 7.1
x 0
x 0  x 
Erwartungswert
µ=np
Erwartete Varianz
2 = n p q
Erwartete Standardabweichung
   2
(5.2) Hypergeometrische Verteilung
N Anzahl der Elemente in der Grundgesamtheit, n Stichprobenumfang
M Anzahl der Treffer in der Grundgesamtheit M = N p
M
M
p .
q  1 p  1
Treffer-Wahrscheinlichkeit
N
N
M  N M 
 

x
nx 
W ( X  x)  f Hyp | n , N ,M ( x)    
Wahrscheinlichkeitsfunktion
N
 
n 
Erwartungswert
µ = n p.
N n
Erwartete Varianz
2 = n p q 
.
N 1

N n
N n
Erwartete Standardabweichung
σHyp  n  p  q 
 σ Bin 
N 1
N 1
Formeln zur Statistik
Statistik - Neff
(5.3) POISSON-Verteilung
µ
µ
und q  1  p  1 
n
n
x
x
µ µ
µ
f Poi| µ ( x) 
e 
x!
x ! eµ
µ  n p  p 
Erwartungswert
Wahrscheinlichkeitsfunktion
µx  µ
e
x 0 x !
k
Verteilungsfunktion
FPoi | µ (k )  
Erwartete Varianz
 = µ
Tabelle 7.2
(5.4) Normalverteilung
1  xµ 

σ 
2
 
1
f Norm|μ,σ ( x) 
e 2
σ 2
Dichtefunktion
x
1  xµ 

σ 
2
 
1
W ( X  x2 )  FNorm|μ,σ ( x2 ) 
e 2

σ 2 
Verteilungsfunktion
2
dx
(5.5) Standard-Normalverteilung
1
 z2
1  12 z 2
Dichtefunktion
fSN(z) =
e
 0, 4e 2
2
z
1 2  12 z 2
W ( Z  z )  FSN ( z ) 
Verteilungsfunktion
e dz
2 
Erwartungswert
µ=0
Standardabweichung
 = 1
xµ
z
bzw. x  µ  z  
Standard-Normalvariable

x  0,5  µ
Standardnormalvariable z mit Stetigkeitskorrektur z 
σ
Tabelle 7.6
(5.6) Approximationsbedingungen
Übergang von der
wenn n/N ≤ 0,05
wenn n/p ≥ 1500
wenn n/N ≤ 0,05 und n/p ≥ 1500
Hypergeometrischen V.
Binomial-V.
Hypergeometrischen V.
zur Binomial-V.,
zur POISSON-V.,
zur POISSON-V.,
Binomial-V
Hypergeometrischen V.
POISSON-V.
STUDENT-t-V.
zur Normalverteilung, wenn 2 = n p q > 9
zur Normalverteilung, wenn n/N ≤ 0,05 und 2 = n p q > 9
zur Normalverteilung, wenn µ = 2 > 9
zur Normalverteilung,
wenn n > 30, bei normalverteilter Grundgesamtheit
wenn n > 50, bei unbekannter Verteilung der Grundgesamtheit
Formeln zur Statistik
Statistik - Neff
(5.7) Anpassung und Korrekturfaktoren
µ,  aus Grundgesamtheit, x , s aus Stichprobe
Diskrete Zufallsvariable X
Stichprobenmittel X
n/N > 0,05:
x  0,5  µ
(Stetigkeitskorrektur)
σ
σ
x µ
σx 
 z
n
σ
n
z
N n
N 1
korrigiert = ·
   unbekannt, n < 30 bzw. n < 50
t
xµ
s
bzw.
t
x µ
n
s
(5.8) Chi2 - Anpassungstest
k Klassen [xiunten ; xioben], i = 1, 2, …, k. Signifikanzniveau 
  p ist die Anzahl der Parameter ( x , s) , die aus der Stichprobe ermittelt werden.
Wahrscheinlichkeiten
Wahrscheinlichkeiten
Theoretische Häufigkeiten
xioben  x
s
W(–∞ < X ≤ xioben) = FSN(zi)
wi = FSN(zi) – FSN(zi – 1)
mit FSN(z0) = 0
ui = n · wi.
Testgröße

Prüfmaß
Freiheitsgrade
Entscheidung

Standardnormalvariablen
zi 
k
2
empirisch
2

 ni  ui 
i 1
crit | 1 –  | 

2
ui
Tabelle 7.5
=k–p–1
2
2
Verteilungshypothese bestätigt, wenn empirisch
 crit.
(6.1) Konfidenzintervall
Intervall
Intervall-Länge
Abweichung

 

µ   x  zc
; x  zc

n
n


µoben  µunten  2  2 zc
n
 x µ
2
Stichprobenumfang
Kritischer Wert
Signifikanzniveau
 z 
n c 
 x µ
x µ
zc 
n

D(zc) = 1 –   
Formeln zur Statistik


(6.2) Hypothesentest
Intervall
Nullhypothese H0
Empirischer Wert
Signifikanzniveau
Statistik - Neff
x µ  z σX , µ  z σX 
H0 wird verworfen, wenn zempirisch > zkritisch
x µ
zempirisch 
n
σ
D(zc) = 1 – 
(6.3)  unbekannt, n < 30 bzw. n < 50
  Kritischer Wert
Signifikanzniveau
x µ
n
s
D (tc) = 1 –  mit
tempirisch 
 = n – 1.
(6.4) Stichprobe ohne Zurücklegen, n/N > 0,05
Standardweichung des Stichprobenmittels
x 
Notwendiger Stichprobenumfang
n

N n

N 1
n
N
  
1  ( N  1) 

 zc σ 
2
Formeln zur Statistik
(7.1 a)
Statistik - Neff
Formeln zur Statistik
(7.1 b)
Statistik - Neff
Formeln zur Statistik
(7.2)
Statistik - Neff
Formeln zur Statistik
(7.3)
Statistik - Neff
Formeln zur Statistik
(7.4)
Statistik - Neff
Formeln zur Statistik
(7.5a)
Statistik - Neff
Formeln zur Statistik
(7.5b)
Statistik - Neff
Formeln zur Statistik
(7.6)
Statistik - Neff
Formeln zur Statistik
(7.6)
Statistik - Neff
Herunterladen