Eine vorläufige Version der Formelsammlung kann hier

Werbung
Formelsammlung
zur Vorlesung
Statistik I
PD Dr. C. Heumann
Deskriptive Statistik
Formelsammlung Statistik I
Häufigkeitsverteilungen
Darstellungsformen von Daten
• Rohdaten:
x1 , x2 , . . . , xn
n
xi
Anzahl der Beobachtungen
Merkmalsausprägung des i-ten Objekts
• Geordnete Daten:
x(1) , x(2) , . . . , x(n)
n
x(i)
Anzahl der Beobachtungen
i-t größte Merkmalsausprägung
• Klassierte Daten (bei stetigen Merkmalen), z.B.:
| x(1) , x(2) , x(3) | x(4) , x(5) | x(6) , . . . | . . . , x(n) |
|
{z
} | {z }
| {z }
K1
K2
k
Kj
e j−1
ej
d j = e j − e j−1
a j = 12 (e j + e j−1 )
nj
n
f j = nj
Kk
Anzahl der Klassen
j-te Klasse
untere Grenze der j-ten Klasse
obere Grenze der j-ten Klasse
Klassenbreite der j-ten Klasse
Klassenmitte der j-ten Klasse
absolute Häufigkeit in der j-ten Klasse
relative Häufigkeit in der j-ten Klasse
• Häufigkeitstabelle für unterschiedliche
Merkmalsausprägungen:
a1 , a2 , . . . , ak
k
aj
nj
f j = f (a j ) =
PD Dr. C. Heumann
nj
n
Anzahl unterschiedlicher
Merkmalsausprägungen
j-te Merkmalsausprägung
absolute Häufigkeit von a j
relative Häufigkeit von a j
Empirische Verteilungsfunktion
Für Häufigkeitstabelle:
F(x) =
∑
f (a j )
a j ≤x
1
Deskriptive Statistik
Formelsammlung Statistik I
Lagemaße
Modus
Geometrisches Mittel
Für Häufigkeitstabelle bzw. bei gruppierten Daten:
s
⇔
= aj
x̄M
n j = max{n1 , n2 , . . . , nk }
x̄G
n
=
n
!1
n
n
∏ xi =
∏ xi
i=1
i=1
Für Häufigkeitstabelle bzw. bei gruppierten Daten:
Median
=
x̃0,5
x((n+1)/2)
falls n ungerade,
1
(x
+
x
)
falls n gerade.
(n/2)
(n/2+1)
2
m−1
0, 5 − ∑ f j
j=1
= em−1 +
fm
und
j=1
!1
n
ajj
n
j=1
dm
m
f j < 0, 5
∑
∏
j=1
√
x̄G = n x1 · . . . · xn =
wobei m folgendermaßen bestimmt ist:
m−1
k
Falls bekannt können im klassierten Fall statt der Klassenmitten
a j auch die klassenspezifischen geometrischen Mittel verwendet
werden.
Bei klassierten Daten:
x̃0,5
v
u k
u
n
n
x̄G = t
∏ ajj =
∑ f j ≥ 0, 5

x(k)



falls nα keine ganze Zahl ist,
k ist dann die kleinste,
x̃α =
ganze Zahl > nα,


1
2 (x(nα) + x(nα+1) ) falls nα ganzzahlig ist.
n
Bn
B0
mit
j=1
Quantile
r
Bn = B0 · x1 · . . . · xn
B0
Bi
Bn
xi =
Bi
Bi−1
Anfangsbestand
Bestand zum Zeitpunkt i = 1, . . . , n
Endbestand
i-ter Wachstumsfaktor
Harmonisches Mittel
n
∑ wi
Arithmetisches Mittel
x̄H =
=
1
∑ xi
n i=1
Für Häufigkeitstabelle bzw. bei gruppierten Daten:
Bei Häufigkeitstabelle bzw. bei gruppierten Daten:
x̄
=
1
n
k
k
∑ n ja j = ∑ f ja j
j=1
j=1
Falls bekannt werden im klassierten Fall statt der Klassenmitten
a j die Klassenmittelwerte x̄ j verwendet.
PD Dr. C. Heumann
w
∑ xii
i=1
n
x̄
i=1
n
x̄H =
n
k
nj
∑ aj
j=1
=
1
k
fj
∑ aj
j=1
Falls bekannt können im klassierten Fall statt der Klassenmitten
a j auch die klassenspezifischen harmonischen Mittel verwendet
werden.
2
Deskriptive Statistik
Formelsammlung Statistik I
Streuungsmaße
Spannweite
mit
s2zwischen
R = x(n) − x(1)
dQ = x̃0,75 − x̃0,25
(Empirische) Varianz
s2
=
1 n
1 n
(xi − x̄)2 = ∑ xi2 − x̄2
∑
n i=1
n i=1
Für Häufigkeitstabelle bzw. bei gruppierten Daten:
s2
=
1
n
k
1
n
∑ n j (a j − x̄)2 =
j=1
k
k
∑ n j (x̄ j − x̄)2
j=1
k
=
1
n
s2j
=
1
(xi − x̄ j )2
n j xi∑
∈K j
x̄ j
=
1
xi
n j xi∑
∈K j
s2innerhalb
Quartilsabstand
1
n
=
∑ n j s2j
j=1
(Empirische) Standardabweichung
√
s = s2 =
s
∑ n j a2j − x̄2
1 n
∑ (xi − x̄)2
n i=1
j=1
Variationskoeffizient
Streuungszerlegung:
s2 = s2zwischen + s2innerhalb
v=
s
x̄
Konzentrationsmaße
Lorenzkurve
u0 = 0,
ui
=
Gini-Koeffizient
v0 = 0
i
,
n
n
n
i=1
i=1
2 ∑ ix(i) − (n + 1) ∑ x(i)
i = 1, . . . , n
G =
n
n ∑ x(i)
i
vi
=
,
i = 1, . . . , n
Bei gruppierten Daten:
∑ x( j)
j=1
G = 1−
Bei gruppierten Daten:
ũ0 = 0,
ṽ0 = 0
=
∑ f j,
0≤G≤
i = 1, . . . , k
j=1
i
ṽi
=
i
∑ f ja j
∑ n ja j
j=1
j=1
k
∑ f ja j
k
∑ n j (ṽ j−1 + ṽ j )
j=1
=
nx̄
n−1
n
Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient):
,
i = 1, . . . , k
j=1
Falls bekannt werden im gruppierten Fall statt der Klassenmitten
a j die Klassenmittelwerte x̄ j verwendet.
PD Dr. C. Heumann
1
n
Wertebereich:
i
ũi
1 n
∑ (vi−1 + vi )
n i=1
i=1
∑ x( j)
j=1
n
= 1−
G+ =
n
G
n−1
Wertebereich:
0 ≤ G+ ≤ 1
3
Deskriptive Statistik
Formelsammlung Statistik I
Maßzahlen für den Zusammenhang zweier Merkmale
Schema einer k×l - Kontingenztafel
Merkmal X
Kontingenzkoeffizient C
Merkmal Y
yj
· · · n1 j · · ·
..
.
x1
..
.
y1
n11
..
.
xi
..
.
ni1
..
.
···
xk
∑
nk1
n+1
···
···
Bei ordinalen Merkmalen:
K = ∑i<m ∑ j<n ni j nmn
D = ∑i<m ∑ j>n ni j nmn
TX = ∑i=m ∑ j<n ni j nmn
TY = ∑i<m ∑ j=n ni j nmn
ni j
..
.
···
nk j
n+ j
···
···
yl
n1l
..
.
∑
n1+
..
.
nil
..
.
ni+
..
.
nkl
n+l
nk+
n
s
C
0≤C ≤
x1
x2
∑
s
l
0 ≤ χ2 ≤ n(min(k, l) − 1)
Spezialfall: 2 × 2-Tafeln:
n(ad − bc)2
(a + b)(c + d)(a + c)(b + d)
Φ =
χ2
χ2 + n
Odds-Ratio
k
l
∑∑
n2i j
i=1 j=1 ni+ n+ j
!
−1
ad
bc
Wertebereich:
0 ≤ OR < ∞
Gamma nach Goodman und Kruskal
K −D
γ=
K +D
Wertebereich:
−1 ≤ γ ≤ 1
χ2
n
Wertebereich:
p
0 ≤ Φ ≤ min(k, l) − 1
Spezialfall: 2 × 2-Tafeln:
ad − bc
Φ= p
(a + b)(c + d)(a + c)(b + d)
Cramers V
Kendalls τb
K −D
τb = p
(K + D + TX )(K + D + TY )
Wertebereich:
−1 ≤ τb ≤ 1
Kendalls/Stuarts τc
s
V
s
0 ≤ Ckorr ≤ 1
OR =
Phi-Koeffizient
r
min(k, l)
·
min(k, l) − 1
Wertebereich:
∑
a+b
c+d
n
n n 2
ni j − i+n + j
χ2 = ∑ ∑
=n
ni+ n+ j
i=1 j=1
n
Wertebereich:
χ2 =
=
Ckorr
χ2 -Statistik
k
min(k, l) − 1
min(k, l)
Korrigierter Kontingenzkoeffizient Ckorr
Schema einer 2×2 - Kontingenztafel
Merkmal X
χ2
χ2 + n
Wertebereich:
s
Anzahl konkordanter Paare
Anzahl diskordanter Paare
Anzahl Bindungen bzgl. X
Anzahl Bindungen bzgl. Y
Merkmal Y
y1
y2
a
b
c
d
a+c b+d
=
=
χ2
n(min(k, l) − 1)
Wertebereich:
0≤V ≤1
PD Dr. C. Heumann
τc =
2 min(k, l)(K − D)
n2 (min(k, l) − 1)
Wertebereich:
−1 ≤ τc ≤ 1
4
Deskriptive Statistik
Formelsammlung Statistik I
Rangkorrelationskoeffizient nach Spearman
Korrelationskoeffizient nach Bravais-Pearson
• Ohne Bindungen:
r
Sxy
Covar(X,Y )
p
=p
Sxx Syy
Var(X) ·Var(Y )
=
n
6 ∑ di2
R = 1−
n
∑ (xi − x̄)(yi − ȳ)
i=1
n(n2 − 1)
i=1
=
r
n
n
∑ (xi − x̄)2 · ∑ (yi − ȳ)2
i=1
mit
i=1
n
∑ xi yi − nx̄ȳ
i=1
=
R(xi )
R(yi )
di = R(xi ) − R(yi )
Rang der i-ten Beobachtung von X
Rang der i-ten Beobachtung von Y
Rangdifferenz
r
n
n
i=1
i=1
( ∑ xi2 − nx̄2 )( ∑ y2i − nȳ2 )
mit
• Mit Bindungen:
n
Sxx
J
K
=
i=1
n
n
n(n2 − 1) − 12 ∑ b j (b2j − 1) − 12 ∑ ck (c2k − 1) − 6 ∑ di2
j=1
i=1
k=1
s
R= s
J
K
j=1
k=1
Syy
=
Sxy
=
i=1
n
∑ (yi − ȳ)2 = ∑ y2i − nȳ2
i=1
n
n(n2 − 1) − ∑ b j (b2j − 1) n(n2 − 1) − ∑ ck (c2k − 1)
n
∑ (xi − x̄)2 = ∑ xi2 − nx̄2
i=1
n
∑ (xi − x̄)(yi − ȳ) = ∑ xi yi − nx̄ȳ
i=1
mit
und
Var(X) =
J
K
bj
ck
i=1
Anzahl unterschiedl. Merkmalsausprägungen bei X
Anzahl unterschiedl. Merkmalsausprägungen bei Y
abs. Häufigkeit der j-ten Merkmalsausprägung bei X
abs. Häufigkeit der k-ten Merkmalsausprägung bei Y
Wertebereich:
−1 ≤ R ≤ 1
PD Dr. C. Heumann
Var(Y ) =
Covar(X,Y ) =
1
· Sxx
n
1
· Syy
n
1
· Sxy
n
Wertebereich:
−1 ≤ r ≤ 1
5
Deskriptive Statistik
Formelsammlung Statistik I
Lineare Einfachregression
Modell
Streuungszerlegung
Y = a + bX + e
SQTotal = SQRegression + SQResidual
n
SQTotal
KQ-Schätzer
=
∑ (yi − ȳ)2
i=1
n
Sxy
Sxy
=√ p ·
Sxx
Sxx Syy
b̂
=
â
= ȳ − b̂x̄
r
Syy
=r
Sxx
r
Syy
Sxx
SQRegression
=
∑ (ŷi − ȳ)2
i=1
n
SQResidual
=
∑ (yi − ŷi )2
i=1
n
=
∑ (yi − (â + b̂xi ))2
i=1
Eigenschaften der Regressionsgeraden
ŷi
= â + b̂xi = ȳ + b̂(xi − x̄)
êi
= yi − ŷi
= Syy − b̂2 Sxx = Syy −
(Sxy )2
Sxx
Es gilt: Syy = SQTotal
= yi − (â + b̂xi )
= yi − (ȳ + b̂(xi − x̄))
n
n
∑ êi
=
i=1
n
n
∑ yi − ∑ ȳ − b̂ ∑ (xi − x̄)
i=1
i=1
Bestimmtheitsmaß
i=1
R2
=
SQRegression
SQResidual
= 1−
= r2
SQTotal
SQTotal
= nȳ − nȳ − b̂(nx̄ − nx̄) = 0
ŷ¯ =
1 n
1
ŷi = (nȳ + b̂(nx̄ − nx̄)) = ȳ
∑
n i=1
n
PD Dr. C. Heumann
Wertebereich:
0 ≤ R2 ≤ 1
6
Deskriptive Statistik
Formelsammlung Statistik I
Verhältniszahlen und Indizes
Indexzahlen
Mengenindex nach Laspeyres
Einfache Indexzahl (oder Messzahl):
QL0t =
xt
I0t =
x0
mit
p00 qt
∑ni=1 p0 (i)qt (i)
=
p00 q0
∑ni=1 p0 (i)q0 (i)
Mengenindex nach Paasche
Wert der Maßzahl in der Basisperiode
Wert der Maßzahl in der Berichtsperiode t
x0
xt
QP0t =
Veränderung des Basisjahres:
xt
=
Ikt =
xk
xt
x0
xk
x0
=
I0t
I0k
pt0 qt
∑n pt (i)qt (i)
= ni=1
0
pt q0
∑i=1 pt (i)q0 (i)
Umsatzindex (Wertindex)
W0t =
Verkettungsregel:
pt0 qt
∑n pt (i)qt (i)
= ni=1
0
p0 q0
∑i=1 p0 (i)q0 (i)
I0t = I0k · Ikt
Erweiterung des Warenkorbs
Definitionen
Einführung des neuen Guts (mit Nummer n + 1)
zum Zeitpunkt t 0 :
p00
= (p0 (1), . . . , , p0 (n))
pt0
q00
qt0
= (pt (1), . . . , pt (n))
PtL0 ,t 0 +1 (erweitert) =
= (q0 (1), . . . , q0 (n))
pt0 0 +1 q0 + pt 0 +1 (n + 1)qt 0 (n + 1)
pt0 0 q0 + pt 0 (n + 1)qt 0 (n + 1)
L
L
L
P0,t
= P0,t
0 +1 (verkettet)
0 · Pt 0 ,t 0 +1 (erweitert)
= (qt (1), . . . , qt (n))
Subindizes
mit
p0 (i)
pt (i)
q0 (i)
qt (i)
Preis von Gut i = 1, . . . , n in der Basisperiode
Preis von Gut i = 1, . . . , n in der Berichtsperiode t
Menge von Gut i = 1, . . . , n in der Basisperiode
Menge von Gut i = 1, . . . , n in der Berichtsperiode t
Preisindex nach Laspeyres
P0tL
=
pt0 q0
∑ni=1 pt (i)q0 (i)
=
p00 q0
∑ni=1 p0 (i)q0 (i)
Preisindex nach Paasche
P0tP
=
pt0 qt
p00 qt
=
∑ni=1 pt (i)qt (i)
∑ni=1 p0 (i)qt (i)
P0tL = wI P0tL (I) + wII P0tL (II)
mit
P0tL (I) =
P0tL (II) =
∑m
i=1 pt (i)q0 (i)
m
∑i=1 p0 (i)q0 (i)
∑ni=m+1 pt (i)q0 (i)
∑ni=m+1 p0 (i)q0 (i)
n
U
=
∑ p0 (i)q0 (i)
i=1
∑m
i=1 p0 (i)q0 (i)
wI
=
wII
= 1 − wI =
U
∑ni=m+1 p0 (i)q0 (i)
U
Zeitreihen
Additives Komponentenmodell
Gleitende Durchschnitte
ungerader Ordnung 2k + 1:
yt = gt + st + rt ,
t = 1, . . . , T
yt∗ =
mit
yt
gt
st
rt
Beobachtung zum Zeitpunkt t
glatte Komponente zum Zeitpunkt t
saisonale Komponente zum Zeitpunkt t
Restkomponte zum Zeitpunkt t
PD Dr. C. Heumann
1
2k + 1
k
∑
yt+ j
j=−k
gerader Ordnung 2k:
1
yt∗ =
2k
k−1
1
1
yt−k + ∑ yt+ j + yt+k
2
2
j=−k+1
!
7
Herunterladen