Formeln zur Statistik (1.1) Mittelwert, Varianz bei Einzelwerten (1.2

Werbung
Formeln zur Statistik
(1.1)
(1.2)
(1.3)
(1.4)
(1.5)
(1.6)
(1.7)
Mittelwert, Varianz bei Einzelwerten
Freiheitsgrade
Abweichungsquadrate
Lineare Einfach-Regression
Multiple lineare Regression, DW-Tabelle
A'-Regression
VT – Regression
(2.1)
(2.2)
(2.3)
(2.4)
(2.5)
Linearer Trend und Saisonschwankungen
Logistischer Trend
Gleitende Mittelwerte
Wachstumsfaktoren
Exponentielles Glätten
(3.1) Konzentrationsmaße
(3.3) Häufigkeitsverteilung
(4.1)
(4.2)
(4.3)
(4.4)
(4.5)
Wahrscheinlichkeit
Chi2-Unabhängigkeitstest
Diskrete Zufallsvariable
Stichprobenmittel
Stetige Zufallsvariable
(5.1)
(5.2)
(5.3)
(5.4)
(5.5)
(5.6)
(5.7)
(5.8)
Binomialverteilung
Hypergeometrische Verteilung
POISSON-Verteilung
Normalverteilung
Standard-Normalverteilung
Approximationsbedingungen
Anpassung und Korrekturfaktoren
Chi2 - Anpassungstest
(6.1)
(6.2)
(6.3)
(6.4)
Konfidenzintervall
Hypothesentest
σ unbekannt
Stichprobe ohne Zurücklegen
Tabellen
(7.1) Binomialverteilung
(7.2) POISSON-Verteilung
(7.3) Tabelle FISHER-Prüfmaß xF
(7.4) Tabelle Chi2-Prüfmaß χ2
(7.5a)Tabelle STUDENT-Prüfmaß F(t)
(7.5b)Tabelle STUDENT-Prüfmaß D(t)
(7.6) Standardnormalverteilung FSN
Statistik - Neff
Formeln zur Statistik
(1.1) Maßzahlen bei Einzelwerten
Mittelwert bei N bzw. n Einzelwerten xi
1 N
In der Grundgesamtheit µ = ∑ xi
N i =1
n
Statistik - Neff
Ax = ∑ ( xi − x ) = ∑ xi 2 −
Abweichungsquadrate
2
i=0
s2 =
1 n
∑ xi
n i =1
2
1
xi )
(
∑
n
Varianz bei N bzw. n Einzelwerten xi
1 N
1
2
der Grundgesamtheit:
σ2 = ∑ ( xi − µ ) =
N i =1
N
der Stichprobe:
x=
in der Stichprobe:
N
∑x
i
2
−µ2 = σn
2
i =1
1
1  n 2

2
−
=
x
x
xi − nx 2  = σ n −1
(
)
∑
∑
i

n − 1 i =1
n − 1  i =1

n
Standardabweichung in der Grundgesamtheit: σ = σ2
2
in der Stichprobe: s = s 2
(1.2) Freiheitsgrade ν
"nü"
Freiheitsgrade ν (df, degrees of freedom) ist die Anzahl der frei wählbaren, unabhängigen
Einzelwerte, die in die statistischen Berechnungen einbezogen werden können.
a) bei der Stichprobenvarianz
n-1
ν = n-p-1
p Anzahl der Einflussgrößen
b) beim FISHER-Prüfmaß
c) beim STUDENT-t-Prüfmaß
in der multiplen Regression:
ν = n-p-1
im Hypothesentest: ν = n -1
d) beim Chi2-Prüfmaß χ2
im Unabhängigkeitstest
ν = (k - 1) · (l - 1)
im Anpassungstest
ν=k–p–1
(1.3) Abweichungsquadrate bei Regressionsanalysen
SS "Sum of Squares", Summe der Abweichungsquadrate A
MS Mittlere Summe der Abweichungsquadrate, Varianz σ2, Mean Sum of Squares
p Anzahl der Einflussfaktoren
2
n
n
yi − yˆi )
(
SS Res
∑
2
2
MSResiduen =
=
AError = ∑ ( yi − yˆi ) = ∑ ei = SSResiduen
n - p -1
n − p −1
i =1
i =1
2
n
SSGesamt ∑ ( yi − yi )
2
AGesamt = ∑ ( yi − yi ) = SSGesamt
MS Gesamt =
=
= σ n2−1
n
−
1
n
−
1
i =1
n
SS Regression ∑ ( yˆi − yi )2
2
Aerklärt = ∑ ( yˆi − yi ) = SS Regression
MS erklärt =
=
p
p
i =1
n
Bestimmtheitsmaß r 2 =
2
erklärt
2
gesamt
s
s
=
∑ ( yˆi − y )
i =1
n −1
n
∑ ( yi − y )
2
:
i =1
n −1
n
2
∑ ( yˆ − y )
2
∑( y − y )
2
i
=
i =1
n
i
i =1
2
= 1−
Adjustiertes Bestimmtheitsmaß radjust
FISHER-Prüfgröße xFempir =
MSerklärt
MS Residuen
MS Residuen
MSGesamt
Formeln zur Statistik
Statistik - Neff
(1.4) Lineare Einfach-Regression ŷ = m x + b
Summe der Abweichungsquadrate
Regressionskoeffizienten m =
i =1
i =1
n∑ xi 2 − ( ∑ xi )
( n∑ x
i
Bestimmtheitsmaß r
n
n ∑ xi yi − ∑ xi ⋅ ∑ yi
r=±
Korrelationskoeffizient
n
AError = ∑ ( yi − yˆi )2 = ∑ ei2
b=
2
1
m
yi − ∑ xi
∑
n
n
n∑ xi yi − ∑ xi ⋅ ∑ yi
2
)(
− ( ∑ xi ) ⋅ n∑ yi 2 − ( ∑ yi )
2
2
)
2
FISHER-Prüfgröße xFempir =
MS erklärt
r2
⋅ n − 2) =
2 (
1− r
MS Residuen
Die Nullhypothese wird verworfen, wenn xFempirisch > xFc, α | 1 | ν
(1.5) Multiple lineare Regression
p Einflussfaktoren, ν = n-p-1 Freiheitsgrade
Die Nullhypothese wird verworfen, wenn xFempirisch > xFc, α | p | ν
Signifikanter Beitrag des Einflussfaktors xk , wenn | tempirisch | > tc, α | ν
Tabelle 7.5a
Signifikante Interkorrelation zwischen den Einflussfaktoren xj, xk , wenn rjk > 0,5.
Signifikante Autokorrelation, wenn für
die DURBIN-WATSON-Prüfgröße gilt:
DW1 ∉ [DWunten ; DWoben]
n
∑ (e − e )
DW1 =
2
i −1
i
i=2
n
∑e
2
i
i =1
n
∑ (e − e )
DWk =
2
i −k
i
i = k +1
n
∑e
2
i
i =1
(1.6) A'-Regression ŷ = a ϕ(x) + b
Ansatzfunktionen
ϕ(x)
n
Summe der Abweichungsquadrate
A = ∑ ( yi − a ϕ( x) − b)2
i =1
a ∑ ( ϕ( xi ) ) + b∑ ϕ( xi ) = ∑ yi ϕ( xi )

a ∑ ϕ( xi ) + nb = ∑ yi

2
Normalgleichungen
Regressionskoeffizienten a =
n∑ yi ⋅ϕ ( xi ) − ∑ yi ⋅ ∑ ϕ ( xi )
n ∑ (ϕ ( xi ) ) − ( ∑ ϕ ( xi ) )
2
2
b=
1
a
yi − ∑ ϕ ( xi )
∑
n
n
Formeln zur Statistik
Statistik - Neff
(1.7) VT–Regression
Lineare Regressionsmodelle
mit den Ansatzfunktionen
ŷ(x) = a0 + a1ϕ1(x) + a2 ϕ2(x) + … + ak ϕk(x)
ϕ i (x)
VANDERMONDE-Matrix
 1 ϕ0 ( x0 ) ϕ1 ( x0 ) ⋯ ϕk ( x0 ) 


1 ϕ0 ( x1 ) ϕ1 ( x1 ) ⋯ ϕk ( x1 ) 

V=


⋯


 1 ϕ0 ( xm ) ϕ0 ( xm ) ⋯ ϕk ( xm ) 
VANDERMONDE-Gleichung
V·a = y
Interpolationswert für x =z
ŷ(z) = a0 + a1ϕ1(z) + a2 ϕ2(z) + … + ak ϕk(z)
⇒
V TV a = V T y
(2.1) Linearer Trend und Saisonschwankungen
Komponentenmodell
yi = ŷi + si + iri
Saisonschwankungen
s i = yi – ŷi
Irreguläre Restwerte
iri = si – s j = yi – ŷî − s j
Prognosewerte
p̂ = ŷ(xn+z) + sij
sj =
1 k
∑ sij
k i =1
(2.2) Logistischer Trend
S 
*
= ln  − 1
ytransformiert
y 
n ∑ xi ⋅ yi* − ∑ xi ∑ yi*
m
1
Regressionskoeffizienten m =
b = ∑ yi* − ∑ xi
2
n
n
n∑ xi2 − ( ∑ xi )
Ansatzfunktion
yˆ =
S
1 + emx +b
(2.3) Gleitende Mittelwerte
k vorausgehende und k nachfolgende Zeitreihenwerte
Ungerade bzw. gerade Ordnung des gleitenden Mittelwerts
m=i+( k-1)

1 1
1
yɶi =
 yi-k + ∑ ym + yi+k 
2k  2
2
m=i-( k-1)

1 m=i+k
yɶi =
∑ ym
2k + 1 m=i-k
(2.4) Wachstumsfaktoren
Indizes
Wachstumsfaktoren
Bk
B0
y
xi = i
yi −1
I 0,k =
(Berichtsperiode k, Basisperiode 0)
Zuwachsrate ri = xi – 1
yn
Mittlere Zuwachsrate
y0
(Es liegen n+1 y-Werte y0, y1, …, yn vor)
Mittlerer Wachstumsfaktor GM ( xi ) =
n
n
yn
-1
y0
Formeln zur Statistik
Statistik - Neff
(2.5) Exponentielles Glätten
n Beobachtungswerte, Glättungskonstante α
∞
n −1
i =0
i =0
yˆ n +1 = α ∑ (1 − α )i ⋅ yn-i = α ∑ (1 − α )i ⋅ yn-i
Prognosewerte, direkt
yˆi +1 = α yi+1 + (1 − α ) ⋅ yˆ i
Geglättete Werte, rekursiv
∑ ( y − yˆ )
∑( y − y )
Prognosen für i = n
2
THEIL'scher Ungleichheitskoeffizient U =
i
i
i
2
i −1
Die Prognose ist signifikant besser als die naive Prognose, wenn U < 1
(3.1) Konzentrationsmaße
n Merkmalsträger mit den Mengen Mi und den Anteilen an der Merkmalsumme mi.
Anteile an den Merkmalsträgern fi. Die k anteilsschwächsten Merkmalsträger.
LORENZ-Kurve aus
Gini-Koeffizient
(3.2) speziell für hi =
 k
x
|
y
=
( k k )  ∑ hi
 i=1

k
∑m 
i
i=1
KGini = 1 – 2 Aunten

mit
Aunten =
1 n
∑ ( yi−1 + yi ) ⋅ hi
2 i=1
mit
Aunten =
1 n
1
yi − 
∑

n  i=1
2
1
n
LORENZ-Kurve aus
GINI-Koeffizient
k
n
( xk | yk ) = 

k
∑m 
i
i=1

KGini = 1 – 2 Aunten
n
HERFINDAHL-Koeffizient
K Herfindal = ∑ mi2
i=1
(3.3) Häufigkeitsverteilungen
Stichprobenumfang n, Anzahl der Klassen k, ersatzweise Klassenmitten xi* statt xi.
n
hi = i
Relative Häufigkeiten
n
h
Häufigkeitsdichten
fi = i
∆xi
k
Empirische Verteilungsfunktion Fi = F ( xi ) = ∑ hi = h ( X ≤ xi )
i =1
Zentralwert (Median)
Mittelwert
xz = xi mit Fi = 0,5
k
1 n
x = ∑ xi ⋅ ni = ∑ xi ⋅ hi
n i =1
i =1
1  k 2

xi ni − n x 2  für n ≤ 200.
∑

n − 1  i =1

s
Variationskoeffizient
v=
x
Varianz
s2 =
Standardabweichung
s = + s2
k
s 2 = ∑ xi 2 ⋅ hi − x 2 für n > 200.
i =1
Formeln zur Statistik
(4.1) Wahrscheinlichkeit
(
Statistik - Neff
)
Statistische Konvergenz
lim W lim(hn − p ) = 0 = 1
Allgemeiner Additionssatz
W(A ∪B) = W(A) + W(B) − W(A∩B)
Allgemeiner Multiplikationssatz
W(A∩B) = W(A) · W(B|A)
Unabhängige Ereignisse
W(A∩B) = W(A) · W(B)
Verteilungsfunktion F
W(a < X ≤ b) = F(b) – F(a)
n →∞
n →∞
(Treffer-Wahrschlk. p)
(4.2) Chi2-Unabhängigkeitstest
k Zeilen (Anzahl der Kategorien von X), l Spalten (Anzahl der Kategorien von Y).
Häufigkeiten nij für den i-ten Wert des Merkmals X und den j-ten Wert des Merkmals Y.
Randhäufigkeiten n, ni•, n•j.
ni• ⋅ n• j
Berechnete Häufigkeiten
uij =
Voraussetzung für Test
ui j ≥ 5
Normierte Abweichungsquadrate
2
Chi -Prüfmaß
2
empirisch
chi
=χ
qij
n
(n
=
ij
− uij )
2
uij
k
2
empirisch
l
= ∑ qij = ∑∑
i =1 j=1
Freiheitsgrade für χ2crit | ν | α
(n
ij
− uij )
2
uij
n n 

n − i• • j 
k
l  ij
n 
=∑∑ 
ni• n• j
i =1 j=1
2
n
ν = (k - 1) · (l - 1)
2
Unabhängigkeitshypothese wird verworfen, wenn χ2empirisch > χcrit
..
(4.3) Diskrete Zufallsvariable
k
Erwartungswert
µ = ∑ xi ⋅ fi
i =1
k
Erwartete Varianz
σ2 = ∑ xi2 ⋅ f i − µ 2
i =1
Erwartete Standardabweichung
σ = + σ2
(4.4) Stichprobenmittel
X + X 2 + ... + X n
X= 1
kommt der Normalverteilung mit zunehmendem n immer näher.
n
Die Xi müssen nicht selbst normalverteilt sein.
Die Xi müssen nicht völlig voneinander unabhängig sein.
Erwartungswerte
µ ( X ) = µ( X )
Erwartete Varianzen
σ( X ) =
1
σ( X )
n
σX =
σ
n
Formeln zur Statistik
Statistik - Neff
(4.5) Stetige Zufallsvariable
+∞
Dichtefunktion f mit
f(x) ≥ 0
und
∫
f ( x)dx = 1 = 100%
−∞
x2
Verteilungsfunktion F
F ( x2 ) =
∫
f ( x)dx = W ( X ≤ x2 )
−∞
lim F ( x2 ) = 1 = 100%
x2 →∞
b
Wahrscheinlichkeit
W (a ≤ X ≤ b) = ∫ f ( x)dx = F (b) − F (a) = [ F ( x2 )]ba
a
+∞
Erwartungswert
µ=
∫ x ⋅ f ( x) dx
−∞
+∞
Erwartete Varianz
σ2 =
∫
+∞
x 2 ⋅ f ( x) dx − µ2 =
−∞
Erwartete Standardabweichung
∫ ( x − µ)
2
⋅ f ( x) dx
−∞
σ = + σ2
(5.1) Binomialverteilung
Treffer-Wahrscheinlichkeit p, q = 1 – p, Anzahl der Treffer x.
 n  n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ (n − x + 1)
n!
=
Binomialkoeffizienten
 =
x!
x !(n − x)!
 x
n
n
Wahrscheinlichkeitsfunktion
W(X = x) = fn,p(x) =   p x q n − x =   p x (1 − p ) n − x
 x
 x
k
k
n
FBin | n | p (k ) = ∑ f n, p ( x) =∑   p x q n − x
Verteilungsfunktion
Tabelle 7.1
x =0
x=0  x 
Erwartungswert
µ=np
Erwartete Varianz
σ2 = n p q
Erwartete Standardabweichung
σ = + σ2
(5.2) Hypergeometrische Verteilung
N Anzahl der Elemente in der Grundgesamtheit, n Stichprobenumfang
M Anzahl der Treffer in der Grundgesamtheit M = N p
M
M
p= .
q = 1− p = 1−
Treffer-Wahrscheinlichkeit
N
N
M  N −M 
 ⋅

x
n− x 
Wahrscheinlichkeitsfunktion
W ( X = x) = f Hyp | n , N , M ( x) =   
N
 
n 
Erwartungswert
µ = n p.
N −n
Erwartete Varianz
σ2 = n p q ⋅
.
N −1
Erwartete Standardabweichung
σ Hyp = n ⋅ p ⋅ q ⋅
N −n
N −n
= σ Bin ⋅
N −1
N −1
Formeln zur Statistik
Statistik - Neff
(5.3) POISSON-Verteilung
µ
µ
und q = 1 − p = 1 −
n
n
x
x
µ −µ
µ
f Poi| µ ( x) =
⋅e =
x!
x! eµ
µ = n⋅ p ⇒ p =
Erwartungswert
Wahrscheinlichkeitsfunktion
µx − µ
⋅e
x=0 x !
k
Verteilungsfunktion
FPoi | µ (k ) = ∑
Erwartete Varianz
σ2 = µ
Tabelle 7.2
(5.4) Normalverteilung
1  x−µ 

σ 
2
− 
1
f Norm|µ,σ ( x) =
e 2
σ 2π
Dichtefunktion
1
W ( X ≤ x2 ) = FNorm|µ,σ ( x2 ) =
σ 2π
Verteilungsfunktion
x2
∫e
1  x−µ 
− 

2 σ 
2
dx
−∞
(5.5) Standard-Normalverteilung
fSN(z) =
Dichtefunktion
1
− z2
1 − 12 z 2
e
= 0, 4e 2
2π
z
1 2 − 12 z 2
Verteilungsfunktion
W ( Z ≤ z ) = FSN ( z ) =
∫e dz
2π −∞
Erwartungswert
µ=0
Standardabweichung
σ=1
x−µ
Standard-Normalvariable
z=
bzw. x = µ + z ⋅ σ
σ
x + 0,5 − µ
Standardnormalvariable z mit Stetigkeitskorrektur z =
σ
Tabelle 7.6
(5.6) Approximationsbedingungen
Übergang von der
Hypergeometrischen V.
Binomial-V.
Hypergeometrischen V.
zur Binomial-V.,
zur POISSON-V.,
zur POISSON-V.,
wenn n/N ≤ 0,05
wenn n/p ≥ 1500
wenn n/N ≤ 0,05 und n/p ≥ 1500
Binomial-V
Hypergeometrischen V.
POISSON-V.
STUDENT-t-V.
zur Normalverteilung, wenn σ2 = n p q > 9
zur Normalverteilung, wenn n/N ≤ 0,05 und σ2 = n p q > 9
zur Normalverteilung, wenn µ = σ2 > 9
zur Normalverteilung,
wenn n > 30, bei normalverteilter Grundgesamtheit
wenn n > 50, bei unbekannter Verteilung der Grundgesamtheit
Formeln zur Statistik
Statistik - Neff
(5.7) Anpassung und Korrekturfaktoren
µ, σ aus Grundgesamtheit, x , s aus Stichprobe
Diskrete Zufallsvariable X
Stichprobenmittel X
n/N > 0,05:
x + 0,5 − µ
(Stetigkeitskorrektur)
σ
σ
x −µ
σx =
⇒ z=
n
σ
n
z=
N −n
N −1
σkorrigiert = σ·
σ unbekannt, n < 30 bzw. n < 50
t=
x−µ
s
bzw.
t=
x −µ
n
s
(5.8) Chi2 - Anpassungstest
k Klassen [xiunten ; xioben], i = 1, 2, …, k. Signifikanzniveau α.
p ist die Anzahl der Parameter ( x , s) , die aus der Stichprobe ermittelt werden.
Wahrscheinlichkeiten
Wahrscheinlichkeiten
Theoretische Häufigkeiten
xioben − x
s
W(–∞ < X ≤ xioben) = FSN(zi)
wi = FSN(zi) – FSN(zi – 1)
mit FSN(z0) = 0
ui = n · w i .
Testgröße
χ
Prüfmaß
Freiheitsgrade
Entscheidung
χ
Standardnormalvariablen
zi =
k
2
empirisch
=∑
( ni − ui )
i =1
2
crit | 1 – α | ν
2
ui
Tabelle 7.5
ν=k–p–1
2
2
≤ χ crit.
Verteilungshypothese bestätigt, wenn χempirisch
(6.1) Konfidenzintervall
Intervall
Intervall-Länge
Abweichung
σ
σ 

µ ∈  x − zc
; x + zc

n
n

σ
µoben − µunten = 2ε = 2 zc
n
ε= x −µ
2
Stichprobenumfang
Kritischer Wert
Signifikanzniveau
 zσ 
n= c 
 x −µ
x −µ
zc =
n
σ
D(zc) = 1 – α
Formeln zur Statistik
(6.2) Hypothesentest
Intervall
Nullhypothese H0
Empirischer Wert
Signifikanzniveau
Statistik - Neff
x ∈ [µ − z σ X , µ + z σ X ]
H0 wird verworfen, wenn zempirisch > zkritisch
x −µ
zempirisch =
n
σ
D(zc) = 1 – α
(6.3) σ unbekannt, n < 30 bzw. n < 50
Kritischer Wert
Signifikanzniveau
x −µ
n
s
Dν (tc) = 1 – α mit
tempirisch =
ν = n – 1.
(6.4) Stichprobe ohne Zurücklegen, n/N > 0,05
Standardweichung des Stichprobenmittels
σx =
Notwendiger Stichprobenumfang
n≥
σ
N −n
⋅
N −1
n
N
 ε 
1 + ( N − 1) 

 zc σ 
2
Formeln zur Statistik
(7.1 a)
Statistik - Neff
Formeln zur Statistik
(7.1 b)
Statistik - Neff
Formeln zur Statistik
(7.2)
Statistik - Neff
Formeln zur Statistik
(7.3)
Statistik - Neff
Formeln zur Statistik
(7.4)
Statistik - Neff
Formeln zur Statistik
(7.5a)
Statistik - Neff
Formeln zur Statistik
(7.5b)
Statistik - Neff
Formeln zur Statistik
(7.6)
Statistik - Neff
Formeln zur Statistik
(7.6)
Statistik - Neff
Herunterladen