Formelsammlung für die Vorlesung Statistik A

Werbung
Formelsammlung
für die Vorlesung
Statistik A
Univ.-Prof. Dr. Kneip / Dr. Scheer
Universität Bonn
Statistische Abteilung
Wintersemester 2009/2010
Inhaltsverzeichnis
2
Univariate Deskription und Exploration von Daten
2
3
Bivariate Deskription und Exploration von Daten
9
4
Zeitreihenanalyse
16
5
Indexzahlen
17
6
Wahrscheinlichkeitsrechnung
20
Formelsammlung Statistik I
2
Seite 2
Univariate Deskription und Exploration von
Daten
Gegeben seien Daten
x1 , . . . , xn eines Merkmals X mit Ausprägungen a1 , . . . , ak .
Häugkeiten und ihre graphischen Darstellungen
Absolute Häugkeit
Relative Häugkeit
Abs. Häugkeitsverteilung
Rel. Häugkeitsverteilung
Formel/Notation
Erläuterung
h(aj ) = hj
f (aj ) = fj =
{h1 , . . . , hk }
{f1 , . . . , fk }
Anzahl der Werte mit
hj
n
Anteil der Werte mit
x i = aj
x i = aj
Menge der abs. Häugkeiten
Menge der rel. Häugkeiten
Diagramm
Beschreibung
Strichliste
ak jeweils hk Striche
Über a1 , . . . , ak jeweils zur x-Achse senkrechter Strich
mit Höhe h1 , . . . , hk (oder f1 , . . . , fk )
Stabdiagramm
Säulendiagramm
Balkendiagramm
Kreisdiagramm
Für jedes
wie Stabdiagramm, jedoch mit Rechtecken anstatt
Strichen
wie Säulendiagramm, jedoch mit
a1 , . . . , a k
auf der
y-
Achse
Kreissektoren mit Winkeln
αj = fj · 360◦ ,
so daÿ Flä-
che proportional zu den Häugkeiten
[c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit
δj = cj − cj−1 und Höhe gleich (oder proportional zu) hj /δj bzw. fj /δj . Damit ist die Fläche der
Rechtecke gleich (oder proportinal zu) hj bzw. fj .
Über den Klassen
Histogramm
Breite
Kumulierte Häugkeitsverteilungen
Formel/Notation
Absolute kumulierte
H(x) =
Häugkeitsverteilung
P
Erläuterung
Anzahl
h(ai )
mit
i:ai ≤x
der
Werte
xi
xi ≤ x
Empirische Verteilungsfunktion
F (x) =
(relative kumulierte
Häugkeitsverteilung)
[email protected]
H(x)
n
=
P
i:ai ≤x
f (ai )
Anteil der Werte
xi ≤ x
xi mit
Formelsammlung Statistik I
Seite 3
Lagemaÿe
Lagemaÿ
Arithmetisches
Mittel
Formel
1
n
x̄ =
Erläuterung
n
P
obachtungen
i=1
k
P
x̄ =
Empirischer Mittelwert der Be-
xi
f j aj =
j=1
k
P
1
n
hj aj
j=1
n:
xmed = x( n+1 )
2
Für gerades n:
xmed = 12 x(n/2) + x(n/2+1)
Für ungerades
Median
Modus
Geometrisches
Mittel
xmod = ai ,
mit fi = maxj=1,···k fj
√
x̄geo = n x1 · x2 · · · xn
n
P
1
bzw. ln(x̄geo ) =
ln(xi )
n
hj = h(aj ) abs. Häugkeiten
fj = f (aj ) rel. Häugkeiten
x(1) ≤ . . . ≤ x(n)
bezeichnet
die aufsteigend sortierte Urliste
x1 , . . . , x n .
Ausprägung mit gröÿter Häugkeit.
Nur für positive
x1 , . . . , x n .
i=1
bzw.
ln(x̄geo ) =
k
P
fj ln(aj )
Häugkeitsdaten mit
aj > 0
j=1
x̄har =
Harmonisches
Mittel
bzw.
bzw.
1
n
1
x̄har
1
x̄har
1
n
P
i=1
=
=
1
xi
1
n
i=1
k
P
j=1
1
xi
fj a1j
Lageregeln
Verteilung
Lagemaÿe
symmetrisch
x̄ ≈ xmed ≈ xmod
x̄ > xmed > xmod
x̄ < xmed < xmod
linkssteil (rechtsschief )
rechtssteil (linksschief )
[email protected]
xi > 0
xi < 0
Entweder alle
n
P
oder alle
Häugkeitsdaten und entweder
alle
aj > 0
oder alle
aj < 0
Formelsammlung Statistik I
Seite 4
Streuungsmaÿe
Streuungsmaÿ
Formel
s̃2 =
Empirische Varianz
s̃2 =
1
n
Erläuterung
n
P
(xi − x̄)2 =
i=1
k
P
fj (aj − x̄)2 =
j=1
Empirische
Standard-
abweichung
s̃ =
√
s2 =
Stichprobenvarianz
1
n
n
P
x2i − x̄2
i=1
k
P
fj a2j − x̄2
emp. Mittelwert
Für Häugkeitsdaten
j=1
Quadratwurzel
s̃2
1
n−1
x̄
(xi − x̄)2
Division durch
Sinnvoll für
Spannweite
R = maxi xi − mini xi = x(n) − x(1)
Interquartilsabstand
QA = x0.75 − x0.25
Beobachtungen
n
P
x2i
x(1) ≤ . . . ≤ x(n) ,
res Quartil
der Mittelwert der quadrierten Daten
i=1
Schichtung und Streuungszerlegung
E vom Umfang n sei zerlegt in
Prr Schichten (oder Teilgesamtheiten) E1 , . . . , Er , jeweils vom Umfang nj ,
j=1 nj = n, mit Mittel
2
x̄j und Varianz s̃j . Dann gilt
Eine Erhebungseinheit
Gesamtmittel in
E:
r
1X
x̄ =
nj x̄j
n j=1
•
Varianz in
E:
r
s̃2 =
1X
nj s̃2j
n j=1
| {z }
Streuung innerhalb
der Schichten
[email protected]
r
+
geordnete
x0.25 , x0.75 unteres bzw. obe-
ist, geschrieben.
•
xi > 0
Urliste
Bemerkung: Die Formel für die empirische Varianz wird oft auch in der
1
n
n−1
i=1
v = s̃/x̄
s̃2 = x2 − x̄2 , wobei x2 =
emp.
Varianz
n
P
Variationskoezient
Form
aus
1X
nj (x̄j − x̄)2
n j=1
|
{z
}
Streuung zwischen
den Schichten
Formelsammlung Statistik I
Seite 5
Quantile und Boxplot
Quantile
Für
0<p<1
heiÿt jeder Wert
xp ,
: x i ≤ xp )
≥p
n
Anzahl(xi
gilt,
p-Quantil.
für den
und
Damit gilt für das
: xi ≥ xp )
≥1−p
n
Anzahl(xi
p-Quantil:
xp = x(bnpc+1) , wenn np
xp ∈ x(np) , x(np+1) , wenn np
nicht ganzzahlig
ganzzahlig
Bemerkungen:
•
Spezielle Bezeichnungen:
x0.5
x0.25 , x0.75
x0.1 , . . . , x0.9
•
Median
Unteres bzw. Oberes Quartil
Dezile
Analog zum Median kann man für ganzzahliges np ein p-Quantil auch
xp = 12 x(np) + x(np+1) denieren.
eindeutig als den Mittelwert
•
In Statistikprogrammen werden empirische
p-Quantile gewöhnlich durch
lineare Näherung aus der empirischen Verteilungsfunktion gewonnen.
Graphische Darstellung
•
5-Punkte Zusammenfassung einer Verteilung:
Angabe von
•
xmin , x0.25 , xmed , x0.75 , xmax .
Boxplot:
1.
x0.25 =
Anfang der Box
2.
x0.75 =
Ende der Box
3.
xmed
durch senkr. Strich in der Box markieren
4. Berechnung der Zäune
zu = x0.25 − 1.5 QA
und
zo = x0.75 +
1.5 QA
5. Zwei Linien ( whiskers ) gehen von der Box aus zum kleinsten und
gröÿten Beobachtungswert innerhalb des Bereichs
[zu , zo ] der Zäu-
ne. (Üblicherweise werden die Endpunkte durch senkrechte Striche
markiert.)
6. Beobachtungen auÿerhalb der Zäune
kiert.
[email protected]
zu , zo
werden einzeln mar-
Formelsammlung Statistik I
Seite 6
Gruppierte Daten
Lagemaÿe
Formel
x̄ =
Arithm. Mittel
k
P
Erläuterung
fj c̄j
j=1
Median
i−1
xmed = ci−1 + δi 0.5−F
fi
Modus
xmod = c̄i
Geom. Mittel
ln(x̄geo ) =
1
Harm. Mittel
x̄har
=
k
P
1
n
k
P
1
n
j=1
fj ln(c̄j )
c̄j Mitte der Klasse (cj−1 , cj ]
fj rel. Häugkeit
P
Fi−1 = i−1
j=1 fj (emp. Vert.),
(ci−1 , ci ] Einfallsklasse des Medians,
d.h. Fi−1 ≤ 0.5 < Fi
δi = ci − ci−1 Breite der i-ten Klasse
c̄i Mitte der Modalklasse
Alle
c̄j > 0
j=1
fj
c̄j
Entweder alle
c̄j > 0
oder alle
c̄j < 0
Streuungsmaÿe
Formel
Empirische Varianz
s̃2 =
k
P
Erläuterung
fj (c̄j − x̄)2 =
j=1
Empirische Varianz
mit Sheppard-Korrektur
s̃2 =
k
P
k
P
fj c̄2j − x̄2
j=1
fj (c̄j − x̄)2 −
j=1
x̄ emp. Mittelwert,
fj rel. Häugkeit,
c̄j Klassenmitte
Nur für konstante Klas-
δ2
12
senbreiten
c0
Untergrenze der un-
tersten Klasse
R = ck − c0
Spannweite
δ = cj − cj−1
ck
Obergrenze der ober-
sten Klasse
x0.25 , x0.75
Interquartilsabstand
QA = x0.75 − x0.25
unteres bzw.
oberes Quartil (für gruppierte Daten)
p-Quantil
für gruppierte Daten
Analog zum Median für gruppierte Daten wird ein
deniert durch
p − Fi−1
,
fi
Pi−1
Pi
daÿ
j=1 fj ≤ p <
j=1 fj .
xp = ci−1 + δi
wobei der Index
i
so bestimmt wird,
[email protected]
p-Quantil (0 < p < 1)
Formelsammlung Statistik I
Seite 7
Maÿzahlen für Schiefe
Empirische Momente
Formel
Mr =
Empirische Momente
Empirische zentrale
mr =
Momente
1
n
1
n
Erläuterung
n
P
xri
r = 1, 2, . . .
i=1
n
P
(xi − x̄)r
r = 2, 3, . . .
M1
= Arithmetisches Mittel
m2
= Empirische Varianz
i=1
Maÿzahlen für Schiefe ( Skewness )
Schiefemaÿ
Formel
Momentenkoezient
gm =
der Schiefe
Quantilskoezient
gp =
der Schiefe
Erläuterung
m3
mit
s3
m3 =
1
n
n
P
m3 emp. 3tes zentrales Mo3
(xi − x̄)
i=1
ment,
s
emp. Standardabw.
Für
(x1−p −xmed )−(xmed −xp )
x1−p −xp
p = 0.25
ergibt sich
der Quartilskoezient
Konzentrationsmaÿe
Lorenzkurve und Gini-Koezient
Die
Lorenzkurve ist der Streckenzug durch die Punkte (0, 0), (u1 , v1 ), . . . , (uκ , vκ ) =
(1, 1),
•
wobei für die Punkte
Bei geordneter Urliste
uj =
•
j
n
Bei Häugkeitsdaten
uj =
j
X
(uj , vj )
x1 ≤ . . . ≤ xn :
Pj
xi
vj = Pi=1
n
i=1 xi
{(ai , fi )}1≤i≤k
Pj
fi
i=1
•
gilt:
vj = Pi=1
k
mittelpunkten
uj =
j = 1, . . . , n
(aufsteigend geordnet):
f i ai
i=1 fi ai
Bei gruppierten Daten mit Klassen
für
für
j = 1, . . . , k
[c0 , c1 ], . . . , (ck−1 , ck ]
und Klassen-
c̄i :
j
X
Pj
fi
i=1
[email protected]
vj = Pi=1
k
i=1
fi c̄i
fi c̄i
für
j = 1, . . . , k
Formelsammlung Statistik I
Seite 8
Gini-Koezient
G=
Fläche zw. Diagonale u. Lorenzkurve
Fläche zw. Diagonale und
= 2·Fläche
u-Achse
zw. Diagonale u. Lorenzkurve
Damit ergibt sich für den Gini-Koezienten
•
Bei geordneter Urliste
2
G=
n
P
x1 ≤ . . . ≤ xn :
ixi
i=1
n
P
n
n
−
xi
n+1
1X
n+1
=
−2·
vj
n
n
n j=1
i=1
•
Bei Häugkeitsdaten
{(ai , fi )}1≤i≤k
(aufsteigend geordnet):
Pk
i=1 (ui−1 + ui )fi ai
Pk
i=1 fi ai
G=
•
−1=1−2·
mit
v̄j =
[c0 , c1 ], . . . , (ck−1 , ck ]
vj−1 + vj
2
und Klassen-
c̄i :
Pk
G=
fj v̄j ,
j=1
Bei gruppierten Daten mit Klassen
mittelpunkten
k
X
i=1 (ui−1 + ui )fi c̄i
Pk
i=1 fi c̄i
−1=1−2·
k
X
fj v̄j ,
mit
v̄j =
j=1
vj−1 + vj
2
Normierter Gini-Koezient (Lorenz-Münzner-Koezient)
G? =
n
G
=
G
Gmax
n−1
mit dem Wertebereich:
G? ∈ [0, 1]
Absolute Konzentrationsmaÿe
Ausgangspunkt ist eine
•
geordnete Urliste
Merkmalsanteil der i-ten Einheit:
x1 ≤ . . . ≤ xn .
pi =
xi
n
P
xj
j=1
•
g
Konzentrationsrate der
gröÿten Merkmalsträger:
CRg =
n
P
i=n−g+1
•
Herndahl-Index:
n
P
H=
i=1
[email protected]
p2i ;
Wertebereich:
H ∈ [ n1 , 1]
pi
Formelsammlung Statistik I
3
Seite 9
Bivariate Deskription und Exploration von
Daten
Gegeben seien zwei Merkmale
X
a1 , . . . , a k
für
für
X
und
b1 , . . . , b m
und
Y
mit den möglichen Ausprägungen
Y.
Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte
(x1 , y1 ), . . . , (xn , yn ).
Kontingenztabelle der absoluten Häugkeiten
Eine
(k × m)Kontingenztabelle der absoluten Häugkeiten besitzt die Form
XY
a1
a2
.
.
.
ak
und gibt die
b1 b2 · · · bm
h11 h12 . . . h1m h1•
h21 h22 . . . h2m h2•
.
.
.
.
.
.
.
.
.
.
.
.
hk1 hk2 . . . hkm hk•
h•1 h•2 · · · h•m n
gemeinsame Verteilung
der Merkmale
X
und
Y
in absoluten
Häugkeiten wieder.
Bezeichnungen
Absolute Häugkeit der Kombination
(ai , bj )
Zeilensummen
hij = h(ai , bj )
hi• = hi1 + · · · + him ,
Spaltensummen
Gesamtsumme
h•j = h1j + · · · + hkj , 1 ≤ j ≤ m
k P
m
k
m
P
P
P
h• • =
hij =
hi• =
h•j = n
i=1 j=1
Randhäugkeiten
des Merkmals
X
Randhäugkeiten
des Merkmals
Y
[email protected]
1≤i≤k
h1• , . . . , hk•
h•1 , . . . , h•m
i=1
j=1
Formelsammlung Statistik I
Seite 10
Kontingenztabelle der relativen Häugkeiten
Eine
(k × m)-Kontingenztabelle
XY
a1
a2
b1 b2 · · · bm
f11 f12 . . . f1m f1•
f21 f22 . . . f2m f2•
.
.
.
ak
und gibt die
der relativen Häugkeiten besitzt die Form
.
.
.
.
.
.
.
.
.
.
.
.
fk1 fk2 . . . fkm fk•
f•1 f•2 · · · f•m 1
gemeinsame Verteilung
der Merkmale
X
und
Y
wieder.
Bezeichnungen
Relative Häugkeit der Kombination
(ai , bj )
Zeilensummen
fij =
fi• = fi1 + · · · + fim =
Spaltensummen
i=1 j=1
Randverteilung des Merkmals
Randverteilung des Merkmals
von
X
Y = bj ,
kurz
Bedingte
Y
X = ai ,
von
X
Y
der
Bedingung
X|Y = bj
Häugkeitsverteilung
unter
kurz
1≤i≤k
i=1
der
Bedingung
Y |X = ai
[email protected]
j=1
{f1• , . . . , fk• }
{f•1 , . . . , f•m }
Häugkeitsverteilung
unter
hi•
,
n
h•j
,
n
f•j = f1j + · · · + fkj =
1≤j≤m
k
m
k
m
PP
P
P
fij =
fi• =
f•j = 1
Gesamtsumme
Bedingte
hij
n
f
1j
kj
,
.
.
.
,
f
(a
|Y
=
b
)
=
X k
j
f
f
•j
•j
f
fX (a1 |Y = bj ) =
f
f
fY (b1 |X = ai ) = fi1 , . . . , fY (bm |X = ai ) = fim
i•
i•
Formelsammlung Statistik I
Seite 11
Graphische Darstellung quantitativer Merkmale
Streudiagramm ( Scatter plot)
•
Darstellung der Meÿwerte
(x1 , y1 ), . . . , (xn , yn ) im xy -Koordinatensystem.
Zweidimensionales Histogramm
•
Intervalle
[c0 , c1 ], . . . , (ck−1 , ck ]
•
Intervalle
[d0 , d1 ], . . . , (dm−1 , dm ]
•
Quader mit den Rechtecken
für Merkmal
X.
für Merkmal
Y.
(ci−1 , ci ] × (dj−1 , dj ]
als Grundäche und
Höhe
hij
(ci − ci−1 ) · (dj − dj−1 )
bzw.
fij
(ci − ci−1 ) · (dj − dj−1 )
Odds und Kreuzproduktverhältnis
Ausgangspunkt ist eine
•
(k×m)-Kontingenztabelle der relativen Häugkeiten.
bedingte Chance
(Empirische)
für gegebenes
X = ai
( Odds ) zwischen
Y = bs
hir
his
Das Kreuzproduktverhältnis ( Odds ratio ) zwischen
aj
und
ist:
γ(br , bs |X = ai ) =
•
Y = br
in bezug auf die Chancen von
Y = br
γ(br , bs |X = ai , X = aj ) =
[email protected]
zu
Y = bs
X = ai
ist:
hir /his
hir hjs
=
hjr /hjs
hjr his
und
X=
Formelsammlung Statistik I
Kontingenz und
Seite 12
χ2 Koezient
Formel
χ
2
-Koezient
Wertebereich/Erläuterung
k X
m
X
χ2 =
hi• h•j
n
i=1 j=1
s
Kontingenz-
K=
koezient
Korrigierter
K? =
Kontingenzkoezient
s
Assoziationsmaÿ
V =
von Cramér
hij −
hi• h•j
n
χ2
n + χ2
K
Kmax
χ2
n(min(k, m) − 1)
2
2
Es gilt: 0 ≤ χ ≤ n · (min(k, m) − 1)
hi• h•j
h̃ij = n = erwartete Häugkeiten,
wenn kein Zusammenhang vorliegt.
K ∈ [0, Kmax ], wobei Kmax =
M = min(k, m).
(2 × 2)Kontingenztafel
V ∈ [0, 1]
V = |φ-Koezient|
der Form
h11 + h12
h11
h12
h21
h22
h21 + h22
h11 + h21 h12 + h22
n
gilt
χ2 =
und der
n(h11 h22 − h12 h21 )2
(h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 )
φ-Koezient
ist deniert als
h11 h22 − h12 h21
φ= p
(h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 )
und hat den Wertebereich
φ ∈ [−1, 1].
[email protected]
M −1
,
M
K ? ∈ [0, 1]
Spezialfall: Vierfeldertafel
Für eine
q
für
2 × 2-Tafeln
Formelsammlung Statistik I
Seite 13
Zusammenhangsmaÿe bei metrischen Merkmalen
Empirischer Korrelationskoezient nach Bravais-Pearson
•
Empirische Standardabweichungen (für
X
bzw.
n
s̃2X
•
1X 2
=
xi − x̄2
n i=1
Empirische Kovarianz (zwischen
n
s̃2Y
und
X
und
n
1X
1X
=
(xi − x̄)(yi − ȳ) =
xi yi − x̄ · ȳ
n i=1
n i=1
• Empirischer Korrelationskoezient :
r = rXY =
•
Wertebereich:
1X 2
=
yi − ȳ 2
n i=1
Y ):
n
s̃XY
Y ): s̃X , s̃Y
r ∈ [−1, 1].
[email protected]
s̃XY
s̃X s̃Y
Formelsammlung Statistik I
Seite 14
Spearmans Korrelationskoezient
• Rang von xi : rang(xi )
i-ten Messwertes in der aufstei≤ . . . ≤ x(n) mit der Zusatzregel,
= Position des
gend sortierten Urliste
x(1) ≤ x(2)
dass gleichen Messwerten (sog. Bindungen, ties ) jeweils das Mittel
ihrer Ränge zugewiesen wird.
•
rangX =
Mittel aller Ränge:
1
n
n
P
rang(xi ) =
i=1
1
n
n
P
i=
i=1
n+1
2
• Spearmans Korrelationskoezient :
n
P
rSP =
(rang(xi ) − rangX )(rang(yi ) − rangY )
r ni=1
P
(rang(xi ) − rangX )2
i=1
•
Wertebereich:
n
P
(rang(yi ) − rangY )2
i=1
rSP ∈ [−1, 1]
• Rechentechnisch günstige Version :
Unter der
(d.h.,
Voraussetzung, dass keine Bindungen ( ties) auftreten
xi 6= xj , yi 6= yj
für alle
i, j ),
gilt:
6
rSP = 1 −
mit den
n
P
Di2
i=1
n(n2 − 1)
Rangdierenzen Di = rang(xi ) − rang(yi ), 1 ≤ i ≤ n.
Lineare Einfachregression
Gegeben seien
n Beobachtungen der Merkmale Y
und
X : (y1 , x1 ), . . . , (yn , xn ).
• Lineare Einfachregression :
yi = α + βxi + i ,
• Parameter α, β : α
• Fehlerterme i .
i = 1, . . . , n
bezeichnet den Achsenabschnitt,
β
die Steigung.
(Annahme: Unsystematische Schwankung um
[email protected]
0.)
Formelsammlung Statistik I
•
Seite 15
Bestimmung der Paramter der Ausgleichsgeraden durch die
Quadrate-Methode :
n
P
α̂ = ȳ − β̂ x̄,
β̂ =
(xi − x̄)(yi − ȳ)
i=1
n
P
=
(xi − x̄)2
Kleinste-
s̃XY
s̃2X
i=1
•
als Lösung der
Normalgleichungen :
α̂ n + β̂
α̂
n
X
xi + β̂
i=1
n
X
i=1
n
X
• Streuungszerlegung :
n
P
n
P
x2i =
i=1
• Angepaÿte Werte : ŷi = α̂ + β̂xi ,
• Residuen : ˆi = yi − ŷi ,
xi =
n
X
i=1
n
X
yi
xi y i
i=1
i = 1, . . . , n.
i = 1, . . . , n.
n
P
(yi − ȳ)2 =
i=1
(ŷi − ȳ)2 +
i=1
(yi − ȳ)2
n
P
(yi − ŷi )2
i=1
Gesamtstreuung
i=1
n
P
(ŷi − ȳ)2 = β̂ 2
i=1
n
P
n
P
(xi − x̄)2
Durch Regression erklärte Streuung
i=1
(yi − ŷi )2
Residualstreuung
i=1
• Bestimmtheitsmaÿ
n
P
2
R =
(Determinationskoezient):
i=1
n
P
(yi − ȳ)2
i=1
•
n
P
(ŷi − ȳ)2
Prognose an einer Stelle
[email protected]
=1−
(yi − ŷi )2
i=1
n
P
=
(yi − ȳ)2
i=1
x0 : ŷ0 = α̂ + β̂x0
s̃XY
s̃X s̃Y
2
2
= rXY
Formelsammlung Statistik I
4
Seite 16
Zeitreihenanalyse
Gegeben sei eine zeitlich geordnete Folge von
mals
n
Beobachtungen eines Merk-
X : x1 , x2 , . . . , xn
Graphische Darstellung
• Zeitreihenpolygon: Darstellung der Werte {xt }1≤t≤n
von t mit anschlieÿender linearer Interpolation.
• Alternativ:
Darstellung von
xt
in Abhängigkeit
in Abhängigkeit vom Datum der
t-ten
Messung mit anschlieÿender linearer Interpolation.
Komponentenmodelle
• Additives Komponentenmodell:
Modellierung der Zeitreihe als:
xt = gt + st + zt
|{z} |{z} |{z}
Trend Saison Rest
• Multiplikatives Komponentenmodell:
Modellierung der Zeitreihe als: xt = gt · st · zt .
Durch Logarithmieren kann ein multiplikatives Modell auf ein additives
Komponentenmodell zurückgeführt werden:
ln xt = ln gt + ln st + ln zt
|{z} |{z} |{z} |{z}
x?t
gt?
s?t
Schätzung eines linearen Trends
• Modell: gt = β0 + β1 · t
• Schätzung der Parameter durch die KQ-Methode:
β̂0
und
β̂1
minimieren
n
X
(xt − β0 − β1 · t)2
t=1
• Lösungen:
(für
t = 1, 2, . . . , n)
β̂1 =
n
P
xt · t
t=1
n(n2 − 1)
12
−
6x̄
n−1
und
• Geschätzte Trendfunktion: ĝt = β̂0 + β̂1 · t
• Trendbereinigte Zeitreihe: xt − ĝt
[email protected]
β̂0 = x̄ − β̂1
n+1
2
zt?
Formelsammlung Statistik I
Seite 17
• Bestimmtheitsmaÿ:
Pn
2
β̂12 n(n2 − 1)
t=1 (ĝt − x̄)
P
P
R = n
=
2
12 nt=1 (xt − x̄)2
t=1 (xt − x̄)
2
• Exponentieller Trend:
Durch Logarithmieren kann ein exponentielles Trendmodell der Form:
gt = β0 · β1t in ein lineares Trendmodell überführt werden.
Schätzung einer konstanten Saisongur
• Gegebene Periodizität: l
Für j = 1, . . . , l sind xj , xl+j , x2l+j , x3l+j , . . .
zur j -ten Periode (Quartal, Monat, o.ä.)
jeweils die Beobachtungen
• Annahme: (Konstante Saisongur)
Für jedes j = 1, . . . , l gilt: sj = sl+j = s2l+j = s3l+j = · · ·
• Schätzung der sj :
Arithmetische Mittel
(Bemerkung: Falls
n = m · l,
dann
mj = m
• Geschätzte Saisonkomponente: ŝt = ŝj
• Prognose (von xn+h , h ≥ 1):
x̂n+h = ĝn+h + ŝn+h (additiv)
5
bzw.
ŝj =
falls
1
mj
mP
j −1
(xkl+j − ĝkl+j )
k=0
für alle j )
t = j, l + j, 2l + j, 3l + j, . . .
x̂n+h = ĝn+h · ŝn+h
(multiplikativ)
Indexzahlen
Klassikation der Verhältniszahlen
•
Gliederungszahl
•
Beziehungszahl
•
Meÿzahl (einfache/zusammengesetzte Indexzahl)
Preis-, Mengen und Wertindizes
Bezeichnungen
• Bezeichnungen (Warenkorb mit m Gütern.)
q0i , p0i : Menge und Preis des i-ten Gutes in der Basisperiode 0
qti , pti : Menge und Preis des i-ten Gutes in der Berichtsperiode t
[email protected]
Formelsammlung Statistik I
Seite 18
• Preisindex nach Laspeyres:
m
P
P0tL
i=1
m
P
=
i=1
• Preisindex nach Paasche: P0tP =
m
P
i=1
m
P
i=1
pti q0i
p0i q0i
pti qti
p0i qti
• Mengenindex nach Laspeyres: QL0t =
m
P
i=1
m
P
i=1
• Mengenindex nach Paasche: QP0t =
m
P
i=1
m
P
i=1
• Wertindex:
p0i qti
p0i q0i
pti qti
pti q0i
m
P
(auch: Umsatz- oder Ausgabenindex)
W0t =
i=1
m
P
i=1
• Preisindex nach Fisher: P0tF =
qti pti
q0i p0i
p
P0tP P0tL
Indexumrechnungen
•
Umbasierung:
Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Basisperiode 0):
?
Ikt
= I0t /I0k
I00 = 1, I01 , I02 , . . . , I0k , . . . , I0n
ergibt die auf die neue Basisperiode
k
umbasierte Zeitrei-
he.
•
Verknüpfung:
Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode
(hier in
t)
überlappen:
I01 , I02 , . . . , I0t
und
Ikt , Ik,t+1 , . . .
Fortführung der alten Zeitreihe:
?
I0,t+h
= Ik,t+h ·
I0t
,
Ikt
h = 1, 2, . . .
Rückrechnung der neuen Zeitreihe:
?
Ik,t−h
= I0,t−h ·
[email protected]
Ikt
,
I0t
h = 1, 2, . . .
Formelsammlung Statistik I
•
Seite 19
Verkettung:
Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperiode als Basis:
I01 , I12 , I23 , I34 , . . .
?
I0t
= I01 · I12 · · · It−1,t
bezeichnet die verkettete Zeitreihe mit gemeinsa-
mer Basis 0.
•
Deationierung oder Preisbereinigung: Division einer nominalen
Gröÿe
Vt
durch einen sachlich zugehörigen Preisindex
reale (preisbereinigte) Gröÿe
[email protected]
Rt = Vt /P0t .
P0t
ergibt die
Formelsammlung Statistik I
6
Seite 20
Wahrscheinlichkeitsrechnung
Kombinatorik
Anzahl der möglichen Ziehungen von
ohne Zurücklegen
n
Kugeln aus einer Urne mit
N
Kugeln:
Reihenfolge wichtig
Reihenfolge nicht wichtig
Sortieren nicht erlaubt
Sortieren erlaubt
N · (N − 1) · · · (N − (n − 1))
N
n
mit Zurücklegen
N
n
n+N −1
n+N −1
=
n
N −1
Binomialkoezienten
•
Denition:
n!
n
n · (n − 1) · · · (n − (k − 1))
=
=
k · (k − 1) · · · 1
k!(n − k)!
k
•
Rechenregeln:
n
n
=
=1
0
n
n
n
=
k
n−k
n
n
=
=n
1
n−1
n
n−1
n−1
=
+
k
k
k−1
Rechenregeln für Mengen
•
Kommutativgesetz:
•
A∩B =B∩A
A∪B =B∪A
•
(A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
Distributivgesetz:
•
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
•
Aus
A⊂B
folgt
Assoziativgesetz:
B̄ ⊂ Ā
De Morgansche Regeln:
(A ∪ B) = Ā ∩ B̄
(A ∩ B) = Ā ∪ B̄
•
Für die Dierenzmenge
gilt:
[email protected]
A\B = A ∩ B̄
A\B
Formelsammlung Statistik I
Seite 21
Wahrscheinlichkeiten und Axiome von Kolmogoro
•
Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P )
- Grundraum
- Ereignisse
- Wahrscheinlichkeit P
Ω
P(Ω)
P (A)
=
=
=
{ω1 , ω2 , . . . ωN }
Menge aller Teilmengen
Wahrscheinlichkeit für das Eintreten
A
von
Die Wahrscheinlichkeitsverteilung
•
P
erfüllt die
Axiome von Kolmogoro :
(A1)
(Nichtnegativität)
P (A) ≥ 0
(A2)
(Normiertheit)
P (Ω) = 1
(A3)
(Additivität)
P (A ∪ B) = P (A) + P (B)
Für
A⊂Ω
für
A∩B =∅
nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) er-
setzt durch das Axiom
(A3')
(σ−Additivität)
P(
∞
[
Ak ) =
k=1
∞
X
P (Ak )
für
Ai ∩ Aj = ∅, i 6= j
k=1
Rechenregeln für Wahrscheinlichkeiten
1.
P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1
2.
A⊆B
3.
P (Ā) = 1 − P (A)
⇒
4. Additionssatz:
P (A) ≤ P (B)
mit
Ā = Ω\A
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5.
P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ),
falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅
6.
P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An )
7. Wenn die Elementarwahrscheinlichkeiten
pi = P ({ωi }), i = 1, 2, . . .
sind,
dann gilt für die Wahrscheinlichkeit eines Ereignisses
P (A) =
X
i:ωi ∈A
[email protected]
P ({ωi }) =
X
i:ωi ∈A
A:
pi
bekannt
Formelsammlung Statistik I
Seite 22
Laplace-Modell
1. Annahme:
Endlicher Grundraum
2. Annahme:
P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN })
Wahrscheinlichkeiten:
P (A) =
Ω = {ω1 , . . . , ωN }
Anzahl
Anzahl
ωi in A
#A
#A
=
=
ωi in Ω
#Ω
N
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit von A gegeben B
P (A|B) =
P (A ∩ B)
P (B)
für
A, B ⊂ Ω
mit
P (B) > 0
Unabhängigkeit von Ereignissen
•
Zwei Ereignisse A und B heiÿen stochastisch unabhängig, wenn
P (A ∩ B) = P (A) · P (B)
•
A1 , . . . , An heiÿen stochastisch unabhängig,
Ai1 , . . . , Aik mit k ≤ n gilt:
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik )
Ereignisse
wenn für jede Aus-
wahl
Multiplikationssatz
•
Für Ereignisse
A1 , . . . , A n
gilt:
P (A1 ∩. . .∩An ) = P (A1 )·P (A2 |A1 )·P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩. . .∩An−1 )
•
A1 , . . . , An unabhängig sind, gilt:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An )
Falls die Ereignisse
Totale Wahrscheinlichkeit und Satz von Bayes
Seien
A1 , . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte
Ai ; es gilt: Ai 6= ∅, Ai ∩ Aj = ∅, i 6= j , und A1 ∪ A2 ∪ . . . ∪ An = Ω).
Vereinigung der
[email protected]
Formelsammlung Statistik I
B
sei ein Ereignis mit
Seite 23
P (B) > 0.
P (B|Ak ) · P (Ak ) = P (B ∩ Ak ) = P (Ak |B) · P (B)
n
n
X
X
P (B) =
P (B|Ai ) · P (Ai ) =
P (B ∩ Ai )
i=1
P (Ak |B) =
i=1
P (B|Ak ) · P (Ak )
P (B|Ak ) · P (Ak )
= n
X
P (B)
P (B|Ai ) · P (Ai )
i=1
[email protected]
(totale Wahrscheinlichkeit)
(Satz von Bayes)
Herunterladen