Formelsammlung für die Vorlesung Statistik A

Werbung
Formelsammlung
für die Vorlesung
Statistik A
Univ.-Prof. Dr. Kneip
Universität Bonn
Statistische Abteilung
Wintersemester 2013/2014
Inhaltsverzeichnis
2 Univariate Deskription und Exploration von Daten
2
3 Bivariate Deskription und Exploration von Daten
9
4 Zeitreihenanalyse
16
5 Indexzahlen
17
6 Wahrscheinlichkeitsrechnung
20
Formelsammlung Statistik A
2
Seite 2
Univariate Deskription und Exploration von
Daten
Gegeben seien Daten x1 , . . . , xn eines Merkmals X mit Ausprägungen a1 , . . . , ak .
Häufigkeiten und ihre graphischen Darstellungen
Formel/Notation
h(aj ) = hj
h
f (aj ) = fj = nj
{h1 , . . . , hk }
{f1 , . . . , fk }
Absolute Häufigkeit
Relative Häufigkeit
Abs. Häufigkeitsverteilung
Rel. Häufigkeitsverteilung
Diagramm
Strichliste
Stabdiagramm
Säulendiagramm
Balkendiagramm
Kreisdiagramm
Histogramm
Erläuterung
Anzahl der Werte mit xi = aj
Anteil der Werte mit xi = aj
Menge der abs. Häufigkeiten
Menge der rel. Häufigkeiten
Beschreibung
Für jedes ak jeweils hk Striche
Über a1 , . . . , ak jeweils zur x-Achse senkrechter Strich
mit Höhe h1 , . . . , hk (oder f1 , . . . , fk )
wie Stabdiagramm, jedoch mit Rechtecken anstatt
Strichen
wie Säulendiagramm, jedoch mit a1 , . . . , ak auf der yAchse
Kreissektoren mit Winkeln αj = fj · 360◦ , so daß Fläche proportional zu den Häufigkeiten
Über den Klassen [c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit
Breite δj = cj − cj−1 und Höhe gleich (oder proportional zu) hj /δj bzw. fj /δj . Damit ist die Fläche der
Rechtecke gleich (oder proportinal zu) hj bzw. fj .
Kumulierte Häufigkeitsverteilungen
Absolute kumulierte
Häufigkeitsverteilung
Empirische Verteilungsfunktion
(relative kumulierte
Häufigkeitsverteilung)
Formel/Notation
P
h(ai )
H(x) =
Erläuterung
Anzahl der Werte xi
mit xi ≤ x
i:ai ≤x
F (x) =
[email protected]
H(x)
n
=
P
i:ai ≤x
f (ai )
Anteil der Werte xi mit
xi ≤ x
Formelsammlung Statistik A
Seite 3
Lagemaße
Lagemaß
Arithmetisches
Mittel
Formel
n
P
x̄ = n1
xi
i=1
k
P
x̄ =
f j aj =
j=1
Median
Modus
Geometrisches
Mittel
k
P
1
n
hj aj
j=1
Für ungerades n:
xmed = x( n+1 )
2
Für gerades n:
xmed = 12 x(n/2) + x(n/2+1)
xmod = ai ,
mit fi = maxj=1,···k fj
√
x̄geo = n x1 · x2 · · · xn
n
P
bzw. ln(x̄geo ) = n1
ln(xi )
Erläuterung
Empirischer Mittelwert der Beobachtungen
hj = h(aj ) abs. Häufigkeiten
fj = f (aj ) rel. Häufigkeiten
x(1) ≤ . . . ≤ x(n) bezeichnet
die aufsteigend sortierte Urliste
x1 , . . . , x n .
Ausprägung mit größter Häufigkeit.
Nur für positive x1 , . . . , xn .
i=1
bzw. ln(x̄geo ) =
k
P
fj ln(aj )
Häufigkeitsdaten mit aj > 0
j=1
x̄har =
Harmonisches
Mittel
bzw.
bzw.
1
n
1
x̄har
1
x̄har
1
n
P
i=1
=
=
1
xi
1
n
n
P
i=1
k
P
j=1
1
xi
fj a1j
Lageregeln
Verteilung
symmetrisch
linkssteil (rechtsschief)
rechtssteil (linksschief)
Lagemaße
x̄ ≈ xmed ≈ xmod
x̄ > xmed > xmod
x̄ < xmed < xmod
[email protected]
Entweder alle xi > 0
oder alle xi < 0
Häufigkeitsdaten und entweder
alle aj > 0 oder alle aj < 0
Formelsammlung Statistik A
Seite 4
Streuungsmaße
Streuungsmaß
Formel
s̃2 =
Empirische Varianz
s̃2 =
1
n
Erläuterung
n
P
(xi − x̄)2 =
i=1
k
P
fj (aj − x̄)2 =
j=1
√
Empirische Standardabweichung
s̃ =
Stichprobenvarianz
s2 =
1
n
n
P
x2i − x̄2
i=1
k
P
fj a2j − x̄2
Für Häufigkeitsdaten
j=1
Quadratwurzel aus emp.
Varianz
s̃2
1
n−1
x̄ emp. Mittelwert
n
P
(xi − x̄)2
Division durch n − 1
i=1
Variationskoeffizient
v = s̃/x̄
Spannweite
R = maxi xi − mini xi = x(n) − x(1)
Interquartilsabstand
QA = x0.75 − x0.25
Sinnvoll für
Beobachtungen xi > 0
x(1) ≤ . . . ≤ x(n) , geordnete
Urliste
x0.25 , x0.75 unteres bzw. oberes Quartil
Bemerkung: Die Formel für die empirische Varianz wird oft auch in der
n
P
Form s̃2 = x2 − x̄2 , wobei x2 = n1
x2i der Mittelwert der quadrierten Daten
i=1
ist, geschrieben.
Schichtung und Streuungszerlegung
Eine Erhebungseinheit E vom Umfang n sei zerlegt in
Prr Schichten (oder Teilgesamtheiten) E1 , . . . , Er , jeweils vom Umfang nj , j=1 nj = n, mit Mittel
x̄j und Varianz s̃2j . Dann gilt
• Gesamtmittel in E:
r
1X
x̄ =
nj x̄j
n j=1
• Varianz in E:
s̃2 =
r
r
1X
1X
nj s̃2j
nj (x̄j − x̄)2
+
n j=1
n j=1
| {z }
|
{z
}
Streuung innerhalb Streuung zwischen
der Schichten
den Schichten
[email protected]
Formelsammlung Statistik A
Seite 5
Quantile und Boxplot
Quantile
Für 0 < p < 1 heißt jeder Wert xp , für den
Anzahl(xi : xi ≥ xp )
Anzahl(xi : xi ≤ xp )
≥p
und
≥1−p
n
n
gilt, p-Quantil. Damit gilt für das p-Quantil:
xp = x(bnpc+1) , wenn np nicht ganzzahlig
xp ∈ x(np) , x(np+1) , wenn np ganzzahlig
Bemerkungen:
• Spezielle Bezeichnungen:
x0.5
Median
x0.25 , x0.75
Unteres bzw. Oberes Quartil
x0.1 , . . . , x0.9 Dezile
• Analog zum Median kann man für ganzzahliges np ein p-Quantil auch
eindeutig als den Mittelwert xp = 12 x(np) + x(np+1) definieren.
• In Statistikprogrammen werden empirische p-Quantile gewöhnlich durch
lineare Näherung aus der empirischen Verteilungsfunktion gewonnen.
Graphische Darstellung
• 5-Punkte Zusammenfassung einer Verteilung:
Angabe von xmin , x0.25 , xmed , x0.75 , xmax .
• Boxplot:
1. x0.25 = Anfang der Box
2. x0.75 = Ende der Box
3. xmed durch senkr. Strich in der Box markieren
4. Berechnung der „Zäune“ zu = x0.25 − 1.5 QA und zo = x0.75 +
1.5 QA
5. Zwei Linien („whiskers“) gehen von der Box aus zum kleinsten und
größten Beobachtungswert innerhalb des Bereichs [zu , zo ] der Zäune. (Üblicherweise werden die Endpunkte durch senkrechte Striche
markiert.)
6. Beobachtungen außerhalb der Zäune zu , zo werden einzeln markiert.
[email protected]
Formelsammlung Statistik A
Seite 6
Gruppierte Daten
Lagemaße
Arithm. Mittel
Formel
k
P
x̄ =
fj c̄j
Erläuterung
j=1
Median
i−1
xmed = ci−1 + δi 0.5−F
fi
Modus
xmod = c̄i
Geom. Mittel
ln(x̄geo ) =
Harm. Mittel
1
x̄har
=
k
P
1
n
k
P
1
n
j=1
fj ln(c̄j )
c̄j Mitte der Klasse (cj−1 , cj ]
fj rel. Häufigkeit
P
Fi−1 = i−1
j=1 fj (emp. Vert.),
(ci−1 , ci ] Einfallsklasse des Medians,
d.h. Fi−1 ≤ 0.5 < Fi
δi = ci − ci−1 Breite der i-ten Klasse
c̄i Mitte der Modalklasse
Alle c̄j > 0
j=1
fj
c̄j
Entweder alle c̄j > 0 oder alle c̄j < 0
Streuungsmaße
Formel
Empirische Varianz
s̃2 =
k
P
fj (c̄j − x̄)2 =
j=1
k
P
k
P
j=1
Empirische Varianz
mit Sheppard-Korrektur
s̃2 =
Spannweite
R = ck − c0
Interquartilsabstand
QA = x0.75 − x0.25
fj (c̄j − x̄)2 −
j=1
δ2
12
fj c̄2j − x̄2
Erläuterung
x̄ emp. Mittelwert,
fj rel. Häufigkeit,
c̄j Klassenmitte
Nur für konstante Klassenbreiten δ = cj − cj−1
c0 Untergrenze der untersten Klasse
ck Obergrenze der obersten Klasse
x0.25 , x0.75 unteres bzw.
oberes Quartil (für gruppierte Daten)
p-Quantil für gruppierte Daten
Analog zum Median für gruppierte Daten wird ein p-Quantil (0 < p < 1)
definiert durch
p − Fi−1
xp = ci−1 + δi
,
fi
P
Pi
wobei der Index i so bestimmt wird, daß i−1
j=1 fj ≤ p <
j=1 fj .
[email protected]
Formelsammlung Statistik A
Seite 7
Maßzahlen für Schiefe
Empirische Momente
Formel
Empirische Momente
Empirische zentrale
Momente
Mr =
mr =
1
n
1
n
Erläuterung
n
P
xri
r = 1, 2, . . .
i=1
n
P
(xi − x̄)r
r = 2, 3, . . .
M1 = Arithmetisches Mittel
m2 = Empirische Varianz
i=1
Maßzahlen für Schiefe („Skewness“)
Schiefemaß
Formel
Momentenkoeffizient
der Schiefe
gm =
Quantilskoeffizient
der Schiefe
gp =
m3
s3
mit m3 =
1
n
n
P
(xi − x̄)3
i=1
(x1−p −xmed )−(xmed −xp )
x1−p −xp
Erläuterung
m3 emp. 3tes zentrales Moment,
s emp. Standardabw.
Für p = 0.25 ergibt sich
der Quartilskoeffizient
Konzentrationsmaße
Lorenzkurve und Gini-Koeffizient
Die Lorenzkurve ist der Streckenzug durch die Punkte (0, 0), (u1 , v1 ), . . . , (uκ , vκ ) =
(1, 1), wobei für die Punkte (uj , vj ) gilt:
• Bei geordneter Urliste x1 ≤ . . . ≤ xn :
Pj
xi
j
uj =
vj = Pi=1
n
n
i=1 xi
für j = 1, . . . , n
• Bei Häufigkeitsdaten {(ai , fi )}1≤i≤k (aufsteigend geordnet):
uj =
j
X
Pj
fi
i=1
vj = Pi=1
k
f i ai
i=1 fi ai
für j = 1, . . . , k
• Bei gruppierten Daten mit Klassen [c0 , c1 ], . . . , (ck−1 , ck ] und Klassenmittelpunkten c̄i :
uj =
j
X
Pj
fi
i=1
[email protected]
vj = Pi=1
k
i=1
fi c̄i
fi c̄i
für j = 1, . . . , k
Formelsammlung Statistik A
Seite 8
Gini-Koeffizient
Fläche zw. Diagonale u. Lorenzkurve
= 2·Fläche zw. Diagonale u. Lorenzkurve
G=
Fläche zw. Diagonale und u-Achse
Damit ergibt sich für den Gini-Koeffizienten
• Bei geordneter Urliste x1 ≤ . . . ≤ xn :
2
G=
n
P
ixi
i=1
n
P
n
n
−
xi
n+1
1X
n+1
=
−2·
vj
n
n
n j=1
i=1
• Bei Häufigkeitsdaten {(ai , fi )}1≤i≤k (aufsteigend geordnet):
Pk
i=1 (ui−1 + ui )fi ai
Pk
i=1 fi ai
G=
−1=1−2·
k
X
fj v̄j ,
mit v̄j =
j=1
vj−1 + vj
2
• Bei gruppierten Daten mit Klassen [c0 , c1 ], . . . , (ck−1 , ck ] und Klassenmittelpunkten c̄i :
Pk
G=
i=1 (ui−1 + ui )fi c̄i
Pk
i=1 fi c̄i
−1=1−2·
k
X
fj v̄j ,
mit v̄j =
j=1
vj−1 + vj
2
Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient)
G? =
n
G
=
G
Gmax
n−1
mit dem Wertebereich: G? ∈ [0, 1]
Absolute Konzentrationsmaße
Ausgangspunkt ist eine geordnete Urliste x1 ≤ . . . ≤ xn .
• Merkmalsanteil der i-ten Einheit: pi =
xi
n
P
xj
j=1
• Konzentrationsrate der g größten Merkmalsträger: CRg =
n
P
i=n−g+1
n
P
• Herfindahl-Index: H =
i=1
[email protected]
p2i ; Wertebereich: H ∈ [ n1 , 1]
pi
Formelsammlung Statistik A
3
Seite 9
Bivariate Deskription und Exploration von
Daten
Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungen
a1 , . . . , ak für X und b1 , . . . , bm für Y .
Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte (x1 , y1 ), . . . , (xn , yn ).
Kontingenztabelle der absoluten Häufigkeiten
Eine (k × m)–Kontingenztabelle der absoluten Häufigkeiten besitzt die Form
XY
a1
a2
..
.
ak
b1 b2
h11 h12
h21 h22
..
..
.
.
hk1 hk2
h•1 h•2
· · · bm
. . . h1m h1•
. . . h2m h2•
..
..
.
.
. . . hkm hk•
· · · h•m n
und gibt die gemeinsame Verteilung der Merkmale X und Y in absoluten
Häufigkeiten wieder.
Bezeichnungen
Absolute Häufigkeit der Kombination (ai , bj )
Zeilensummen
Spaltensummen
Gesamtsumme
hij = h(ai , bj )
hi• = hi1 + · · · + him ,
h•j = h1j + · · · + hkj , 1 ≤ j ≤ m
k P
m
k
m
P
P
P
h• • =
hij =
hi• =
h•j = n
i=1 j=1
Randhäufigkeiten
des Merkmals X
Randhäufigkeiten
des Merkmals Y
[email protected]
1≤i≤k
h1• , . . . , hk•
h•1 , . . . , h•m
i=1
j=1
Formelsammlung Statistik A
Seite 10
Kontingenztabelle der relativen Häufigkeiten
Eine (k × m)-Kontingenztabelle der relativen Häufigkeiten besitzt die Form
XY
a1
a2
..
.
ak
b1 b2
f11 f12
f21 f22
..
..
.
.
fk1 fk2
f•1 f•2
· · · bm
. . . f1m f1•
. . . f2m f2•
..
..
.
.
. . . fkm fk•
· · · f•m 1
und gibt die gemeinsame Verteilung der Merkmale X und Y wieder.
Bezeichnungen
Relative Häufigkeit der Kombination (ai , bj )
Zeilensummen
Spaltensummen
Gesamtsumme
fij =
fi• = fi1 + · · · + fim =
[email protected]
hi•
,
n
h•j
,
n
1≤i≤k
f•j = f1j + · · · + fkj =
1≤j≤m
k
m
k
m
PP
P
P
fij =
fi• =
f•j = 1
i=1 j=1
Randverteilung des Merkmals X
Randverteilung des Merkmals Y
Bedingte
Häufigkeitsverteilung
von X unter der Bedingung
Y = bj , kurz X|Y = bj
Bedingte
Häufigkeitsverteilung
von Y unter der Bedingung
X = ai , kurz Y |X = ai
hij
n
i=1
j=1
{f1• , . . . , fk• }
{f•1 , . . . , f•m }
f
1j
kj
,
.
.
.
,
f
(a
|Y
=
b
)
=
X k
j
f
f
•j
•j
f
fX (a1 |Y = bj ) =
f
f
fY (b1 |X = ai ) = fi1 , . . . , fY (bm |X = ai ) = fim
i•
i•
Formelsammlung Statistik A
Seite 11
Graphische Darstellung quantitativer Merkmale
Streudiagramm („Scatter plot“)
• Darstellung der Meßwerte (x1 , y1 ), . . . , (xn , yn ) im xy-Koordinatensystem.
Zweidimensionales Histogramm
• Intervalle [c0 , c1 ], . . . , (ck−1 , ck ] für Merkmal X.
• Intervalle [d0 , d1 ], . . . , (dm−1 , dm ] für Merkmal Y .
• Quader mit den Rechtecken (ci−1 , ci ] × (dj−1 , dj ] als Grundfläche und
Höhe
hij
(ci − ci−1 ) · (dj − dj−1 )
bzw.
fij
(ci − ci−1 ) · (dj − dj−1 )
„Odds“ und Kreuzproduktverhältnis
Ausgangspunkt ist eine (k×m)-Kontingenztabelle der relativen Häufigkeiten.
• (Empirische) bedingte Chance („Odds“) zwischen Y = br und Y = bs
für gegebenes X = ai ist:
γ(br , bs |X = ai ) =
hir
his
• Das Kreuzproduktverhältnis („Odds ratio“) zwischen X = ai und X =
aj in bezug auf die Chancen von Y = br zu Y = bs ist:
γ(br , bs |X = ai , X = aj ) =
[email protected]
hir /his
hir hjs
=
hjr /hjs
hjr his
Formelsammlung Statistik A
Seite 12
Kontingenz und χ2 –Koeffizient
Formel
χ2 -Koeffizient
χ2 =
Wertebereich/Erläuterung
k X
m
X
i=1 j=1
s
Kontingenzkoeffizient
K=
Korrigierter
Kontingenzkoeffizient
K? =
Assoziationsmaß
V =
von Cramér
s
hij −
hi• h•j
n
hi• h•j
n
χ2
n + χ2
K
Kmax
χ2
n(min(k, m) − 1)
2 Es gilt: 0 ≤ χ2 ≤ n · (min(k, m) − 1)
h h
h̃ij = i•n •j = erwartete Häufigkeiten,
wenn kein Zusammenhang vorliegt.
K ∈ [0, Kmax ], wobei Kmax =
M = min(k, m).
V ∈ [0, 1]
V = |φ-Koeffizient| für 2 × 2-Tafeln
Für eine (2 × 2)–Kontingenztafel der Form
h11 + h12
h11
h12
h21
h22
h21 + h22
h11 + h21 h12 + h22
n
gilt
n(h11 h22 − h12 h21 )2
(h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 )
und der φ-Koeffizient ist definiert als
h11 h22 − h12 h21
φ= p
(h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 )
und hat den Wertebereich φ ∈ [−1, 1].
[email protected]
M −1
,
M
K ? ∈ [0, 1]
Spezialfall: Vierfeldertafel
χ2 =
q
Formelsammlung Statistik A
Seite 13
Zusammenhangsmaße bei metrischen Merkmalen
Empirischer Korrelationskoeffizient nach Bravais-Pearson
• Empirische Standardabweichungen (für X bzw. Y ): s̃X , s̃Y
n
s̃2X
1X 2
=
xi − x̄2
n i=1
n
und
s̃2Y
1X 2
=
yi − ȳ 2
n i=1
• Empirische Kovarianz (zwischen X und Y ):
n
s̃XY
n
1X
1X
=
(xi − x̄)(yi − ȳ) =
xi yi − x̄ · ȳ
n i=1
n i=1
• Empirischer Korrelationskoeffizient:
r = rXY =
• Wertebereich: r ∈ [−1, 1].
[email protected]
s̃XY
s̃X s̃Y
Formelsammlung Statistik A
Seite 14
Spearmans Korrelationskoeffizient
• Rang von xi : rang(xi ) = Position des i-ten Messwertes in der aufsteigend sortierten Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n) mit der Zusatzregel,
dass gleichen Messwerten (sog. Bindungen, „ties“) jeweils das Mittel
ihrer Ränge zugewiesen wird.
• Mittel aller Ränge: rangX =
1
n
n
P
rang(xi ) =
i=1
1
n
n
P
i=
i=1
n+1
2
• Spearmans Korrelationskoeffizient:
n
P
rSP =
(rang(xi ) − rangX )(rang(yi ) − rangY )
r ni=1
P
(rang(xi ) − rangX )2
i=1
n
P
(rang(yi ) − rangY )2
i=1
• Wertebereich: rSP ∈ [−1, 1]
• Rechentechnisch günstige Version:
Unter der Voraussetzung, dass keine Bindungen („ties“) auftreten
(d.h., xi 6= xj , yi 6= yj für alle i, j), gilt:
6
rSP = 1 −
n
P
Di2
i=1
n(n2 − 1)
mit den Rangdifferenzen Di = rang(xi ) − rang(yi ), 1 ≤ i ≤ n.
Lineare Einfachregression
Gegeben seien n Beobachtungen der Merkmale Y und X: (y1 , x1 ), . . . , (yn , xn ).
• Lineare Einfachregression:
yi = α + βxi + i ,
i = 1, . . . , n
• Parameter α, β: α bezeichnet den Achsenabschnitt, β die Steigung.
• Fehlerterme i . (Annahme: Unsystematische Schwankung um 0.)
[email protected]
Formelsammlung Statistik A
Seite 15
• Bestimmung der Paramter der Ausgleichsgeraden durch die KleinsteQuadrate-Methode:
n
P
α̂ = ȳ − β̂ x̄,
β̂ =
(xi − x̄)(yi − ȳ)
i=1
n
P
=
(xi − x̄)2
s̃XY
s̃2X
i=1
• als Lösung der Normalgleichungen:
α̂ n + β̂
α̂
n
X
xi + β̂
i=1
n
X
i=1
n
X
• Streuungszerlegung:
n
P
n
P
x2i =
i=1
• Angepaßte Werte: ŷi = α̂ + β̂xi ,
• Residuen: ˆi = yi − ŷi ,
xi =
n
X
i=1
n
X
yi
xi y i
i=1
i = 1, . . . , n.
i = 1, . . . , n.
n
P
(yi − ȳ)2 =
i=1
(ŷi − ȳ)2 +
i=1
(yi − ȳ)2
n
P
(yi − ŷi )2
i=1
Gesamtstreuung
i=1
n
P
(ŷi − ȳ)2 = β̂ 2
i=1
n
P
n
P
(xi − x̄)2
Durch Regression erklärte Streuung
i=1
(yi − ŷi )2
Residualstreuung
i=1
• Bestimmtheitsmaß (Determinationskoeffizient):
n
P
2
R =
n
P
(ŷi − ȳ)2
i=1
n
P
(yi − ȳ)2
i=1
=1−
(yi − ŷi )2
i=1
n
P
=
(yi − ȳ)2
i=1
• Prognose an einer Stelle x0 : ŷ0 = α̂ + β̂x0
[email protected]
s̃XY
s̃X s̃Y
2
2
= rXY
Formelsammlung Statistik A
4
Seite 16
Zeitreihenanalyse
Gegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merkmals X: x1 , x2 , . . . , xn
Graphische Darstellung
• Zeitreihenpolygon: Darstellung der Werte {xt }1≤t≤n in Abhängigkeit
von t mit anschließender linearer Interpolation.
• Alternativ: Darstellung von xt in Abhängigkeit vom Datum der t-ten
Messung mit anschließender linearer Interpolation.
Komponentenmodelle
• Additives Komponentenmodell:
Modellierung der Zeitreihe als: xt = gt + st + zt
|{z} |{z} |{z}
Trend
Saison
Rest
• Multiplikatives Komponentenmodell:
Modellierung der Zeitreihe als: xt = gt · st · zt .
Durch Logarithmieren kann ein multiplikatives Modell auf ein additives
Komponentenmodell zurückgeführt werden: ln xt = ln gt + ln st + ln zt
|{z} |{z} |{z} |{z}
x?t
gt?
s?t
Schätzung eines linearen Trends
• Modell: gt = β0 + β1 · t
• Schätzung der Parameter durch die KQ-Methode:
β̂0
und β̂1
minimieren
n
X
(xt − β0 − β1 · t)2
t=1
• Lösungen: (für t = 1, 2, . . . , n)
β̂1 =
n
P
xt · t
t=1
n(n2 − 1)
12
−
6x̄
n−1
und β̂0 = x̄ − β̂1
• Geschätzte Trendfunktion: ĝt = β̂0 + β̂1 · t
• Trendbereinigte Zeitreihe: xt − ĝt
[email protected]
n+1
2
zt?
Formelsammlung Statistik A
Seite 17
• Bestimmtheitsmaß:
Pn
2
β̂12 n(n2 − 1)
t=1 (ĝt − x̄)
P
P
R = n
=
2
12 nt=1 (xt − x̄)2
t=1 (xt − x̄)
2
• Exponentieller Trend:
Durch Logarithmieren kann ein exponentielles Trendmodell der Form:
gt = β0 · β1t in ein lineares Trendmodell überführt werden.
Schätzung einer konstanten Saisonfigur
• Gegebene Periodizität: l
Für j = 1, . . . , l sind xj , xl+j , x2l+j , x3l+j , . . . jeweils die Beobachtungen
zur j-ten Periode (Quartal, Monat, o.ä.)
• Annahme: (Konstante Saisonfigur)
Für jedes j = 1, . . . , l gilt: sj = sl+j = s2l+j = s3l+j = · · ·
• Schätzung der sj : Arithmetische Mittel ŝj =
1
mj
mP
j −1
(xkl+j − ĝkl+j )
k=0
(Bemerkung: Falls n = m · l, dann mj = m für alle j)
• Geschätzte Saisonkomponente: ŝt = ŝj falls t = j, l + j, 2l + j, 3l + j, . . .
• Prognose (von xn+h , h ≥ 1):
x̂n+h = ĝn+h + ŝn+h (additiv) bzw. x̂n+h = ĝn+h · ŝn+h (multiplikativ)
5
Indexzahlen
Klassifikation der Verhältniszahlen
• Gliederungszahl
• Beziehungszahl
• Meßzahl (einfache/zusammengesetzte Indexzahl)
Preis-, Mengen und Wertindizes
Bezeichnungen
• Bezeichnungen (Warenkorb mit m Gütern.)
q0i , p0i : Menge und Preis des i-ten Gutes in der „Basisperiode 0“
qti , pti : Menge und Preis des i-ten Gutes in der „Berichtsperiode t“
[email protected]
Formelsammlung Statistik A
Seite 18
m
P
• Preisindex nach Laspeyres:
P0tL
i=1
m
P
=
i=1
m
P
• Preisindex nach Paasche: P0tP =
i=1
m
P
i=1
pti q0i
p0i q0i
pti qti
p0i qti
m
P
• Mengenindex nach Laspeyres: QL0t =
i=1
m
P
i=1
m
P
• Mengenindex nach Paasche: QP0t =
i=1
m
P
i=1
p0i qti
p0i q0i
pti qti
pti q0i
m
P
• Wertindex: (auch: Umsatz- oder Ausgabenindex) W0t =
i=1
m
P
i=1
• Preisindex nach Fisher: P0tF =
qti pti
q0i p0i
p
P0tP P0tL
Indexumrechnungen
• Umbasierung:
Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Basisperiode 0): I00 = 1, I01 , I02 , . . . , I0k , . . . , I0n
?
Ikt
= I0t /I0k ergibt die auf die neue Basisperiode k umbasierte Zeitreihe.
• Verknüpfung:
Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode
(hier in t) überlappen: I01 , I02 , . . . , I0t und Ikt , Ik,t+1 , . . .
Fortführung der alten Zeitreihe:
?
I0,t+h
= Ik,t+h ·
I0t
,
Ikt
h = 1, 2, . . .
Rückrechnung der neuen Zeitreihe:
?
Ik,t−h
= I0,t−h ·
[email protected]
Ikt
,
I0t
h = 1, 2, . . .
Formelsammlung Statistik A
Seite 19
• Verkettung:
Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperiode als Basis: I01 , I12 , I23 , I34 , . . .
?
I0t
= I01 · I12 · · · It−1,t bezeichnet die verkettete Zeitreihe mit gemeinsamer Basis 0.
• Deflationierung oder Preisbereinigung: Division einer nominalen
Größe Vt durch einen sachlich zugehörigen Preisindex P0t ergibt die
reale (preisbereinigte) Größe Rt = Vt /P0t .
[email protected]
Formelsammlung Statistik A
6
Seite 20
Wahrscheinlichkeitsrechnung
Kombinatorik
Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:
ohne Zurücklegen
Reihenfolge wichtig
Reihenfolge nicht wichtig
„Sortieren nicht erlaubt“
„Sortieren erlaubt“
N · (N − 1) · · · (N − (n − 1))
N
n
N
mit Zurücklegen
n
n+N −1
n+N −1
=
n
N −1
Binomialkoeffizienten
• Definition:
n!
n
n · (n − 1) · · · (n − (k − 1))
=
=
k · (k − 1) · · · 1
k!(n − k)!
k
• Rechenregeln:
n
n
=
=1
0
n
n
n
=
k
n−k
n
n
=
=n
1
n−1
n
n−1
n−1
=
+
k
k
k−1
Rechenregeln für Mengen
• Kommutativgesetz:
A∩B =B∩A
A∪B =B∪A
• Assoziativgesetz:
(A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
• Distributivgesetz:
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
• De Morgansche Regeln:
(A ∪ B) = Ā ∩ B̄
(A ∩ B) = Ā ∪ B̄
• Aus A ⊂ B folgt B̄ ⊂ Ā
• Für die Differenzmenge A\B
gilt: A\B = A ∩ B̄
[email protected]
Formelsammlung Statistik A
Seite 21
Wahrscheinlichkeiten und Axiome von Kolmogoroff
• Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P )
- Grundraum
- Ereignisse
- Wahrscheinlichkeit P
Ω
P(Ω)
P (A)
=
=
=
{ω1 , ω2 , . . . ωN }
Menge aller Teilmengen A ⊂ Ω
Wahrscheinlichkeit für das Eintreten
von A
Die Wahrscheinlichkeitsverteilung P erfüllt die Axiome von Kolmogoroff :
(A1)
(Nichtnegativität) P (A) ≥ 0
(A2)
(Normiertheit)
P (Ω) = 1
(A3)
(Additivität)
P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅
• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt durch das Axiom
∞
∞
[
X
(A3’) (σ−Additivität)
P(
Ak ) =
P (Ak ) für Ai ∩ Aj = ∅, i 6= j
k=1
k=1
Rechenregeln für Wahrscheinlichkeiten
1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1
2. A ⊆ B
⇒
P (A) ≤ P (B)
3. P (Ā) = 1 − P (A) mit Ā = Ω\A
4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5. P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ),
falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅
6. P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An )
7. Wenn die Elementarwahrscheinlichkeiten pi = P ({ωi }), i = 1, 2, . . . bekannt
sind,
dann gilt für die Wahrscheinlichkeit eines Ereignisses A:
X
X
P (A) =
P ({ωi }) =
pi
i:ωi ∈A
[email protected]
i:ωi ∈A
Formelsammlung Statistik A
Seite 22
Laplace-Modell
1. Annahme: Endlicher Grundraum Ω = {ω1 , . . . , ωN }
2. Annahme: P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN })
Wahrscheinlichkeiten: P (A) =
Anzahl ωi in A
#A
#A
=
=
Anzahl ωi in Ω
#Ω
N
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit von A gegeben B
P (A|B) =
P (A ∩ B)
P (B)
für A, B ⊂ Ω mit P (B) > 0
Unabhängigkeit von Ereignissen
• Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn
P (A ∩ B) = P (A) · P (B)
• Ereignisse A1 , . . . , An heißen stochastisch unabhängig, wenn für jede Auswahl Ai1 , . . . , Aik mit k ≤ n gilt:
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik )
Multiplikationssatz
• Für Ereignisse A1 , . . . , An gilt:
P (A1 ∩. . .∩An ) = P (A1 )·P (A2 |A1 )·P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩. . .∩An−1 )
• Falls die Ereignisse A1 , . . . , An unabhängig sind, gilt:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An )
Totale Wahrscheinlichkeit und Satz von Bayes
Seien A1 , . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte
Vereinigung der Ai ; es gilt: Ai 6= ∅, Ai ∩ Aj = ∅, i 6= j, und A1 ∪ A2 ∪ . . . ∪ An = Ω).
[email protected]
Formelsammlung Statistik A
Seite 23
B sei ein Ereignis mit P (B) > 0.
P (B|Ak ) · P (Ak ) = P (B ∩ Ak ) = P (Ak |B) · P (B)
n
n
X
X
P (B) =
P (B|Ai ) · P (Ai ) =
P (B ∩ Ai )
i=1
P (Ak |B) =
i=1
P (B|Ak ) · P (Ak )
P (B|Ak ) · P (Ak )
= n
X
P (B)
P (B|Ai ) · P (Ai )
i=1
[email protected]
(totale Wahrscheinlichkeit)
(Satz von Bayes)
Herunterladen