Explorative Datenanalyse, Statistik 1

Werbung
WS0708 Explorative Datenanalyse
9. November 2008
Inhaltsverzeichnis
1 Statistische Merkmale und Variablen
1.1
1.2
1.3
1.4
1.5
1.6
Statistische Einheiten und Grundgesamtheiten,
Teilgesamtheiten, Stichproben . . . . . . . . .
Statistische Verteilung: . . . . . . . . . . . .
Häugkeits- und Verteilungsfunktion . . . . .
Quantile . . . . . . . . . . . . . . . . . . . .
Häugkeitsdichte und Histogramm . . . . . .
Merkmale
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
2 Maÿzahlen zur Beschreibung statistischer Verteilungen
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
Arithmetisches Mittel als Lagemaÿ
Median . . . . . . . . . . . . . . .
Modus . . . . . . . . . . . . . . .
Das geometrische Mittel . . . . . .
Das harmonische Mittel . . . . . .
Weitere Mittelwerte . . . . . . . .
Streuungsmaÿe . . . . . . . . . . .
Varianz und Standardabweichung .
Konzentrationsmaÿe . . . . . . . .
Lorenz-Kurven . . . . . . . . . . .
GINI-Koezient . . . . . . . . . .
3 Zweidimensionale Verteilungen
3.1
3.2
3.3
3.4
3.5
3.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Streudiagramm und gemeinsame Verteilung . . . . . .
Randverteilungen: . . . . . . . . . . . . . . . . . . . .
Bedingte Verteilungen und statistische Zusammenhänge
Kovarianz . . . . . . . . . . . . . . . . . . . . . . . .
Korrelationskoezient . . . . . . . . . . . . . . . . . .
Kontigenzkoezient . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
5
6
7
8
10
10
11
11
12
12
13
13
13
15
15
17
17
18
18
19
20
20
22
Titel Inhaltsverzeichnis
4 Lineare Regressionsrechnung
4.1
4.2
4.3
4.4
4.5
4.6
4.7
Motivation . . . . . . . . . . . . . . . . . . .
Korrelationsrechnung und Regressionsrechnung
Bestimmung der Regressionsgeraden . . . . .
Eigenschaften der Regressionsgeraden . . . . .
Nichtlineare Regression . . . . . . . . . . . .
4.5.1 logarithmische Ansätze . . . . . . . .
4.5.2 quadratische Ansätze . . . . . . . . .
Mehrfache Regression . . . . . . . . . . . . .
Ausblick: Interdependenz und Simultanität . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Die Komponenten einer Zeitreihe . . . . . . . . . .
Bestimmung des Trends durch Regressionsrechnung
Höhere Polynome für die glatte Komponente . . . .
Exponentieller Trend . . . . . . . . . . . . . . . . .
Trendprognose . . . . . . . . . . . . . . . . . . . .
Gleitende Durchschnitte . . . . . . . . . . . . . . .
Exponentielle Glättung . . . . . . . . . . . . . . .
Exkurs: Wissenschaftstheoretische Ansätze . . . . .
Konstante additive Saisonkomponente . . . . . . .
Konstante additive Saisonkomponente . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Beschreibung von Zeitreihen
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
6 Indexzahlen
6.1
6.2
6.3
6.4
6.5
6.6
6.7
Meÿzahlen . . . . . . . . . . . .
Preisindices . . . . . . . . . . .
Anwendungen . . . . . . . . . .
Umbasierung . . . . . . . . . . .
Indexreihen . . . . . . . . . . . .
Deationierung nominaler Gröÿen
Mengenindizes . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Einführung: . . . . . . . . . . . . . . .
statistische Wahrscheinlichkeit: . . . . .
Klassische Wahrscheinlichkeit . . . . . .
Mengentheoretische Konzepte . . . . . .
Axiomatik der Wahrscheinlichkeitstheorie
Theoreme aus den Axiomen . . . . . . .
Bedingte Wahrscheinlichkeit . . . . . . .
Stochastische Unabhängigkeit . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Wahrscheinlichkeitsrechnung
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
23
24
25
25
26
26
27
27
28
29
29
29
30
30
32
33
34
35
35
35
35
38
39
39
39
40
41
41
42
43
43
44
44
45
47
2
Titel 1 Statistische Merkmale und Variablen
1 Statistische Merkmale und Variablen
1.1 Statistische Einheiten und Grundgesamtheiten, Merkmale
Denition:
Die Menge aller statistischen Einheiten ω , die diesselben wohldenierten Identikationskriterien IK
erfüllen, heiÿt Grundgesamtheit oder statistische Masse. Man schreibt: Ω := (ω/ω erfüllt IK)
Die Anzahl nΩ heiÿt der Umfang einer Grundgesamtheit. Es gibt reale Grundgesamtheiten (Bevölkerung eines Landes) und ktive (Würfe mit einem Würfeln) Grundgesamtheiten.
Statistische Einheiten ω sind die Objekte, deren Merkmale in einer gegebenen Fragestellung von
Interesse sind und im Rahmen einer empirischen Untersuchung erhoben, also beobachtet, erfragt oder
gemessen werden sollen.
Zur Identikation der gleichartigen statistischen Einheiten der Grundgesamtheit werden in der Regel
objektive und genaue Identikationskriterien zeitlicher, räumlicher und sachlicher Art angegeben.
Die verschiedenen Werte, die ein Merkmal M annehmen kann, werden als Modalitäten oder Merkmalausprägungen bezeichnet.
Zusammenspiel der Symbole/Teile:
Es existiert eine Grundgesamtheit Ω := (ω/ω erfüllt IK) Diese Untersuchungseinheit ω wird aus
ein Merkmal M hin untersucht: M(w). Dieses M wird dann in die statistische Variable X, eine Funktion für die gilt:
Xω = F kt(M (ω))
Da die Merkmalsausprägungen häug schon als Zahlen vorliegen ist X eine identische Funktion:
M (ω) → X[M (ω)] = x über einem Wertebreich W.
Beispiel: Aus der Grundgesamtheit aller Wimbeldonsieger wird die Untersuchungseinheit Boris Becker auf das Merkmal Geschlecht untersucht. Bei einem Wertebereich von 0,1, wobei 0 männlich und
1 weiblich ist, erhält man die statistische Variable 0.
Beispiel: Aus der Grundgesamtheit alle DAX-Unternehmen wird die Untersuchungseinheit Daimler
auf das Merkmal Aktienkurs am Tag t untersucht. Bei einem Wertebreich von 0,∞ erhält man eine
bestimmte statistische Variable wie z.B. 100.
Einteilung von statistischen Variablen und Merkmalen:
Meÿbarkeitsniveaus:
• nominal skalierte Variablen:
lediglich Gleichheit oder Andersartigkeit kann festgestellt werden, keine Bewertung: Mann und
Frau, Nationalität
3
Titel 1 Statistische Merkmale und Variablen
Tabelle 1: Merkmals-/Variablentypen
qualitative Merkmale
quantitative Merkmale
stetige Variablen
diskrete Variablen
der Beschaenheit
der Gröÿe nach, schon
können jeden Wert
abgestufte Werte,
nach, endlich
als Zahl verfügbar
eines Intervalls
abzählbar viele
annehmen,
Ausprägungen
Ausprägungen werden
gemessen
alle nominalen
alle ordinal, kradinalen
Variablen
Variablen
z.B. Zeitmaÿe
z.B. Geschlecht
• ordinal skalierte Variablen:
Merkmalsausprägungen unterschiedbar, sinnvolle Rangordnung: Schulnoten, sozialer Status
• kardinal skalierte Variablen:
Rangfolge wird ausgedrückt, quantitavier Unterschied zwischen ihnen kann bestimmt werden:
BIP, Ination
verhältnisskaliertes Merkmal:
besitzt absoluten Nullpunkt, so dass gilt: X(ω1 ) = 2 ∗ X(ω2 ): Einkommen, Preis item
intervallskaliertes Merkmal:
besitzt keinen absoluten Nullpunkt, Rechnung also so nicht durchführbar: Celsiusskala
Erhebungstechniken:
• Primärerhebung:
Daten isnd für einen bestimmten Zweck erhoben und werden direkt dafür genutzt
• Sekundärerhebung:
Daten wurde ursprünglich für andere Zwecke erhoben und werden fremdgenutzt
Datenarten:
• Zeitreihendaten:
zu einer Person über einen bestimmten Zeitraum erhoben
• Querschnittsdaten:
zu mehreren Personen zu einem Zeitpunkt erhoben
• Paneldaten:
zu mehreren Personen über einen bestimmten Zeitraum erhoben
1.2 Teilgesamtheiten, Stichproben
Denition:
Jede echte Teilmenge Ω* von Ω heiÿt Teilgesamtheit der Grundgesamtheit.
Teilgesamtheiten heiÿen Stichproben wenn bei der Auswahl der Elemente der Zufall wesentlich
4
Titel 1 Statistische Merkmale und Variablen
beteiligt war.
Bei einer reinen Zufallsstichprobe hat jedes Element der Grundgesamtheit die gleiche Chance, in
die Stichprobe aufgenommen zu werden.
Bei einer repräsentativen Stichprobe versucht man, die Repräsentanz bezüglich anderer Merkmale
zu gewährleisten, wobei angenommen wird, dass das zu untersuchende Merkmal mit diesem anderen
Merkmal in einem gewissen statistischen Zusammenahng steht.
Beispiel:
Bei der Sonntagsfrage benötigt man eine repräsentative Stichprobe. Man wählt den anteil der Frauen wie in der Gesamtwählerschaft sowie die Alterstruktur. Gut wäre auch geograsche Verteilung und
Berufsstruktur zu berücksichtigen.
1.3 Statistische Verteilung:
X ist die statistische Variable: ω eingesetzt darin ergibt eine Zahl/Wert x
n ist die Anzahl der Beobachtungen
Urliste:
ω1 ω2 ...ωv ...ωn unsortierte Reihe der Untersuchungseinheiten
x1 x2 ...xv ...xn Reihe der Merkmalwerte: mit xv = X(ωv ) für v=1,...,n heiÿt Beobachtungsreihe der
Variablen X oder statistische Reihe X
Tabelle 2: Beispiel
ω1
ω2
ω3
ω290
Studenten
42
47,5
31,5
68
Klausurpunktezahl
Sortierung und Umnumeruierung:
x1 ≤ x2 ≤ xi ≤ xn nach Gröÿe geordnete Liste möglicher Versuchswerte
x1 < x2 < xk wobei k ≤ n
Bsp.: n=10
1.6 1.6 3.0 3.0 3.0 4.1 4.1 4.1 4.1 5.0 und k=4
1.6 3.0 4.1 5.0
Gilt für diskrete X
Dention: absolute Häugkeit
Gibt an wie oft die statistische Variable X einen bestimmten Wert xi annimmt: also wie oft kommt
der Wert xi unter den ω vor:
ni := absH(X = xi ) oder n(xi )
5
Titel 1 Statistische Merkmale und Variablen
Denition: relative Häugkeit
Gibt an wie viel ni prozentual ausmacht:
ni (=absoluteHuf igkeit)
hi := relH(X = xi ) = n(=AnzahlderBeobachtungen)
oder h(xi )
Dabei gilt: 0 < hi ≤ 1
Denition: Häugkeitsverteilung
P
P
Die Tabellen 3 und 4 und für die gilt:
ni = n und
hi = h heiÿen absolute bzw. relative
Häugkeitsverteilung der statistische Variablen X
Tabelle 3: absolute Häugkeit
x1
n1
x2 ...
n2 ...
xk
nk
Tabelle 4: relative Häugkeit
x1
h1
x2 ...
h2 ...
xk
hk
1.4 Häugkeits- und Verteilungsfunktion
Denition: Häugkeitsfunktion:
Die Funktion h(x) = hi falls x = xi und sonst 0 heiÿt Häugkeitsfuntkion der statistischen Variablen X
Die korrekte Darstellung erfolgt in einem Stabidagramm (siehe Anlage Nr.1)
Dention: empirische Verteilungfunktion
P
oder H(x) = xi ≤x h(xi ) für stetige und diskrete X heiÿt empirische
Funktion H(x) = absH(X≤x)
n
Verteilungsfunktion der statistischen Variablen X. Sie heiÿt auch Summenhäugkeitsfunktion.
Die korrekte Darstellung erfolgt in einem Treppendiagramm (siehe Anlage Nr.2)
Eigenschaften der empirischen Verteilungsfunktion:
Die empirische Verteilungsfunktion h ist:
lim
H(x + ∆x) = H(x)
• überall wenigstens rechtsseitig stetig: ∆x→0
An den Sprungstellen ist sie nur rechtsseitig stetig
• monoton steigend: H(a) ≤ H(b) falls a<b
• besitzt einen unteren Grenzwert und einen oberen Grenzwert:
1
lim
x→−∞ H(x)
= 0 und
lim
x→∞ H(x)
=
6
Titel 1 Statistische Merkmale und Variablen
Verwendung:
• Die Dierenz H(b)-H(a)=relH(a < X ≤ b) gibt für a<b die relative Häugkeit der Beobachtungswerte der Variablen X an, die gröÿer als a, aber nicht gröÿer als b sind
• Der Funktionswert an jeder Stelle x gibt die relative Häugkeit an, mit welcher Werte, die kleiner
oder gleich x sind, in der statistischen Reihe vorkommen: H(x)=relH(x ≤ x)
• An jeder Stelle erhält man aus der empirischen Verteilungsfunktion die Werte der Häugkeitslim
funktion als Dierenz: h(x)=H(x)- ∆x→0
H(x − ∆x)
1.5 Quantile
Eine Zahl x[q] mit 0<q<1 heiÿt q-Quantil wenn sie die statistische Reihe X so aufteilt, dass mindestens 100*q% ihrer Beobchtungswerte kleiner oder gleich x[q] sind und gleichzeitig mindestens
100*(1-q)% gröÿer oder gleich x[q] sind (Datenteiler), also:
relH(X ≤ x[q]) ≥ q und relH(X ≥ x[q]) ≥ 1 − q
Der kleinste Wert ist mit qx100 %, der gröÿte mit (1 − q)x100 % bestimmt
Besondere Quantile:
• unteres Quantil (Quartil): Q1 =x[0.25]
• Median (Quartil): Q2 =x[0.5]
• oberes Quantil (Quartil): Q3 =x[0.75]
• Dezile: x[0.1], x[0.2],...,x[0.9]
• Perzentile: x[0.01], x[0.02],...,x[0.99]
Quantilsfunktion:
Die Quantilsfunktion ist die Umkehrfunktion zu H(x): Aus H(x)=q (q ist gesucht, x gegeben) und
H(x[q])=q (x[q] ist gesucht, q gegeben) folgt:
x[q]=H −1 [q]
Man kann die Quantile aus der Verteilungfunktion grasch ablesen (Vgl. Anlage Nr.3)
Berechnung der Quantile:
Grundsätzlich ergibt sich:
x[q] = 21 (xn∗q + xn∗q+1 )für n(Anzahl) ∗ q(Quantil)=ganze Zahl bzw
x[q] = x<n∗q> für <n*q> ist nächsthöhere Zahl
Diese berechnungen gelten für diskrete, nach der Gröÿe geordnete werte. Für stetige werte muss man
andere Überlegungen anstellen.
7
Titel 1 Statistische Merkmale und Variablen
Es ergibt sich grundsätzlich das Problem, dass die empirische Verteilungsfunktion Sprungstellen besitzt und x[q] uneindeutig sein kann.
Wenn man genau auf einer Treppenstufe von H landet, ist die Umkehrfunktion nicht eindeutig bestimmt, so dass in diesem Fall jeder Wert zwischen den benachbarten Sprungstellen xi ≤ x[q] ≤ xi−1
ein q-Quantil ist. Man nimmt dafür den Mittelwert:
xi +xi−1
2
Wenn man genau zwischen zwei Treppenfunktionen von H landet, ist die Umkehrfunktion auch nicht
eindeutig bestimmt, da theoretisch kein Wert das q-Quantil bildet. Man nimmt den Wert an dem
q[xi ] gerade überschritten wird = q[xi−1 ]
Beispiel zur Berechnung siehe Skript
Anwendung der Quantile: Quantile und Value at risk (VaR)
Berechnung der Rendite:
t+10
X= pt+10p+d
-1 = einfache Rendite
t
e = log[ pt+10p+dt+10 ] = log-Rendite
x
t
e ≈ X für
x
pt+10 +dt+10
pt
klein
Man nimmt nun die Renditekurven von zwei Unternehmen und berechnet jeweils das 1%-Quantil(VaR
at 1% signicance level)
Bei der Frage welche Anlage risikoreicher ist betrachten wir x[q] und vergleichen: das kleinere Ergebnis
birgt das geringere Risiko, da im schlechtesten Fall ein geringerer Absturz folgt
Vergleiche Anlage Nr.4
1.6 Häugkeitsdichte und Histogramm
Bildung von Gröÿenklassen (Schichten)
durch geeignet gewählte Klassengrenzen ξ0 , ξ1 , ...ξm (Beispiel
Anlage Nr.5)
Die Abschnitte m haben die Klassenbreiten:
δi := ξi − ξi−1 mit i=1,.....,m
und die Klassenhäugkeit der Werte in jeder Gröÿenklasse beträgt:
hi := relH(ξi−1 < X ≤ ξi mit i=1,...,m
Denition: Verteilungsfunktion der Klassen
Ordnet man die Klassenhäugkeiten den Klassenobergrenzen zu (eine alternative Möglichkeit wäre ,
die Klassenhäugkeiten den Klassenmitten zuordnen), so kann aus den Werten der folgenden HäugP
keitstabelle mit hi = 1
die Verteilungsfunktion der Klassen Hk (x) gezeichnet werden.
8
Titel 1 Statistische Merkmale und Variablen
Tabelle 5: Titel
ξ1
h1
ξ2
h2
...
...
ξm
hm
Dies geschieht durch einen approximierenden Polygonzug H(x), bei dem die x-Achse die Klassenabstände und die y-Achse die relative Häugkeit darstellt. Die Punkte aus obiger Tabelle werden einfach
verbunden.
Beispeil Anhang Nr.6
e
Diesen Polygonzug kann man noch Glätten und erhält eine approximierende glatte Kurve H(x)
=
Hk (x)
Beispiel siehe Anhang Nr.7
Denition: Häugkeitsdichte:
Sei Hk (x) die Verteilungsfunktion eines nach Gröÿenklassen erhobenen Merkmals X mit den Klassenobergrenzen ξ1 , ...ξm so heiÿt der Quotient:
HK (ξi )−Hk (ξi−1 )
= hδii
ξi −ξi−1
die durchschnittliche Häugkeitsdichte der i-ten Gröÿenklasse (i=1,...,m)
Histogramme:
sind geeignet für stetige Daten oder diskrete Daten mit vielen Merkmalsausprägungen.
Die Klassenbreite ist frei wählbar, muss jedoch Maÿstabsgetreu angetragen werden.
Man berechnet das Histogramm mittels:
h(x) := dH(x)
dx
Dies beudetet: normierte relative Häugkeit (Balkenhöhe, y-Achse)= relHderKlasse
Klassenbreite
Damit ist die Fläche einer Säule gleich der relativen Häugkeit und die Gesamtäche beträgt 1.
Beispiel siehe Anhang
Approximiert man Histogramme so erhält man die Dichtefunktion für die gilt:
e
dH(x)
dx
Beispiel Anhang Nr.8
e
h(x)
:=
Beispiel für Histogramme: die demograsche Entwicklung Deutschlands
• Bevölkerungspyramiden sind Histograme. Die senkrechte Achse ist hier die Achse der Merkmalswerte
• Die Ursachen für die moderne Gesellschaften typische Bauhform können dabei recht unterschiedlich sein und es lassen sich Vermutungen über die auswirkungen des 2.Weltkriegs in Deutschland
und Frankreich, der 68er Bewegung (Pillenknick) in Deutschland, Frankreich, Italien und den
USA sowie der späteren Ein-Kind-Politik in Chmia anstellen.
• Die künftige demograsche Entwicklung Deutschlands bereitet Sorgen. In einer Projektion auf
9
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
das Jahre 2050 sieht man, dass wenn im Jahre 2000 100 Personen der altersgruppe 20-60 rund
41 über Sechszigjährigen gegenüberstehen so würde diese Zahl bis 2050 auf 91 ansteigen. Diese
Zahl nennt man den Altersquotient Aq.
•
Grafiken siehe Skript
2 Maÿzahlen zur Beschreibung statistischer Verteilungen
• Ziel: Beschreibung der Verteilung der Daten mit wenigen Maÿzahlen
• Bsp. Mittelwerte:
Werte, um die sich die Daten gruppieren
Abstand der Beobachtungen vom Mittelwert möglichst klein
•
Beispiele für Möglichkeiten der Verteilung und die angetragenen Mittelwerte: siehe Anlage Nr.9
2.1 Arithmetisches Mittel als Lagemaÿ
Denition: Arithmetische Mittel
DieGrexoderxn = n1 ∗ (x1 + x2 ...xn ) = n1 nv=1 xv heiÿt arithmetisches Mittel oder Mittelwert einer
statistischen Verteilung.
Berechnung auch mit Hilfe der absoluten bzw. relativen Häugkeiten:
P
P
x := n1 ki=1 ni ∗ xi bzw. x := ki=1 xi ∗ nni wobei diese im Gegensatz zur Summe über die Betrachtungen die Summe über die i-te Merkmalsausprägung bilden. (Das arithmetische Mittel steht nicht in
der EDA-Formelsammlung)
P
Eigenschaften des arithmetischen Mittels:
• Zentraleigenschaft: nv=1 (xv − xn ) = 0
Die Summe aus der Dierenz aller aufsummierter Werte x - jeweils den Mittelwert ergibt 0
P
• ⇒ xn ist das Zentrum der Massenverteilung: Mittelwert muss weder häug noch überhaupt
selbst in den Daten vorkommen, sondern ist nur der Schwerpunkt. Bsp.: Kindergeburtenrate
von 1,52 Kinder
• xn minimiert
Pn
v=1 (xv
− a)2
• Verschiebung aller Werte einr statistischen Reihe um den konstanten Wert a verschiebt das
arithmetische Mittel um eben diesen Wert:
yi := xi + a ⇒ y = x + a
10
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
• Homogenität. Multiplikation aller Werte einer statistischen Reihe X mit dem konstanten Faktor
b 6= 0 multipliziert das arithmetische Mittel mit diesem Wert:
zi := b ∗ xi ⇒ z = b ∗ x
• Berechnung aus Gruppenmittelwerten:
Die Reihe X mit n Elementen sei in m<n disjunkte statistische Teilreihen mit den jeweiligen
Elememten und den Mittelwerten zerlegt worden. Es gilt dann:
P
xges = n1 m
j=1 nj ∗ xj
• Der Mittelwert ist ausreiÿerempndlich: wenige Fehler können den ganzen Wert maÿgeblich
verändern
• Der Mittelwert ist demokratisch: jede Beobachtung erhält das gleiche Gewicht:
P
xn = g ∗ x1 + g ∗ x2 ... = nv=1 g ∗ xv , wobei g = n1
• Dies ist anders als beim gewogenen arithmetischen Mittel für das gilt:
P
x ∗ g = g1 ∗ x1 + g2 ∗ x2 ....gn ∗ xn = nv=1 gv ∗ xv
2.2 Median
Wir sortieren x1 ≤ x2 ≤ V ≤ xi ≤ V ≤ xn
Eine Zahl xM ed mit xmed = x n+1 falls n ungerade und x n2 ≤ xM ed ≤ x n2 +1 falls n gerade heiÿt
2
Median oder Zentralwert der empirischen Reihe X.
Ist der Median bei geraden Reihen nicht eindeutig bestimmt so wählt man:
xmed = 12 ∗ (x n2 + x n2 +1 )
(Der Median steht nicht in der EDA-Formelsammlung)
Zusammenhang zwischen Median und Mittelwert:
• Median ≈ Arithmetische Mittel bei symmetrischer Verteilung
emed )
• Median 6= Arithmetisches Mittel bei Ausreiÿern: linksschief/rechtssteiler Verteilung (x < x
emed )
oder linkssteile/rechtsschiefe Verteilung (x > x
2.3 Modus
Denition:
Die Zahl XM = xi mit h(xi ) > h(xk ) für alle k 6= i heiÿt Modus oder modalwert einer empirischen
statistischen Reihe. Der Modus beziechnet den am häugsten auftretenden Wertoder als modale Klasse die Klasse mit der gröÿten Dichte.
Der Modus muss nicht für jede statistische Reihe existieren. Verteilungen, die genau einen Modus
besitzen, heiÿen unimodal.
Der Modus behält seinen Sinn auch bei rein qualitativen Merkmalen.
Beispiel:
11
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
Die statistische Reihe 2,3,3,4,4,4,5,6 hat den Modus 4.
Zwei häugste Werte gibt es in der statistischen Reihe 1,2,3,3,3,4,5,6,6,6,7, nämlich 3 und 6. Die
Werte liegen getrennt und kommen jeweils häuger vor als ihre beiden Nachbarwerte.
2.4 Das geometrische Mittel
im Gegensatz zum arithmetischen Mittel wird es für Wachstumsraten/Prozentzahlen verwendet, und
nicht für feste Werte.
Einstiegsbeispiel:
Tabelle 6: Datenerhebung
pt −pt−1
pt−1
pt
pt−1
200
1
2
100
-0,5
0,5
t
pt
0
100
1
2
Schreibweisen für dasqgeometrische
√ Mittel:
Aufs Beispiel bezogen:
p1
p0
Allgemein für n-Perioden:
p2
p1 =
q
n p1 ∗ p2
p0
p1
∗
2 ∗ 0.5 = 1(bzw.0)
∗ ... ∗
pn
pn−1 = Bruttowachstum -1(*100%)=Nettowachstum
pn
p0 =Bruttowachstum-1 (*100%)=Nettowachstum
Vereinfacht für Anfangs- und Endwert: n
pt
Allgemeine Bruttowachstumsraten pt−1
= xt :
q
1
√
xg = n x1 ∗ x2 ∗ ... ∗ xn = (x1 ∗ x2 ∗ ... ∗ xn ) n
Das bedeutet theoretisch, wenn der Wert p0 pro Periode um [xg − 1]*100% wächst bin ich nach n
Perioden bei pn
xg und log-Renditen: bei groÿen Zahlen ist diese Berechnung leichter zu interpretieren
P
ln[x ∗ g] = n1 (lnx1 + lnx2 + ... + lnxn ) = n1 nv=1 ln(xv ) → exp(lnxg ) = xg
Das geometrische Mittel ist für jede Reihe mit nur positiven Werten stets kleiner als das arithmetische
Mittel, es sei denn, alle Werte der Reihe sind gleich
2.5 Das harmonische Mittel
Bildet man von den Werten xi einer statistischen Reihe die Kehrwerte x1i und berechnet von diesen
das arithmetische Mittel n1 ∗ ( x11 + ... + x1n . Nimmt man von diesen Ergebnissen wieder den Kehrwert
erhält man das sogenannte harmonische Mittel:
Hx := Pn n ( 1 )
j=1 xj
Weitere Berechnung:
12
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
Für zwei Werte a,b gilt: xharm.M. =
2ab
a+b
=
x2geom=
xarithm
Nutzung:
km
Beispiel Geschwindigkeit: Fährt ein Auto erst 100km mit 50 km
h und dann 100km mit 100 h so benutzt man zur errechnung der Durchschnittsgeschwindigkeit das harmonische Mittel. Ginge es nur um
km
die Durchschnittsgeschwindigkeit von einaml 100 km
h und einmal 50 h würde man das arithmetische
Mittel benutzen
Für jede statistische Reihe mit (verschiedenen) positiven Werten ist Hx < Gx < x
2.6 Weitere Mittelwerte
Midrange:
1
2 (x(1)
+ x(n) ) =
der Mittelwert aus dem gröÿten und kleinsten Wert
sehr ausreiÿerempndlich
Quartilsmittel:
2 −Q1 )
1
+ x[0, 75]] = (Q3 −Q2)+(Q
= Q3 −Q
2
2
Andere Bezeichnungen: Interquartilabstand IQA oder mittlerer Quartilabstand
Beispiel siehe Skript Seite 20
1
2 [x[0, 25]
2.7 Streuungsmaÿe
Spannweite
Die Spannweite ist die Dierenz zwischen der gröÿten und der kleinsten Merkmalsausprägung in der
statistischen Reihe:
Spannweite:=xmax − xmin
mittlere absolute Abweichung
Die sogenannte mittlere absolute Abweichung
P
M AA := 15 nj=1 |xj − x|
2.8 Varianz und Standardabweichung
Vergleiche Beispiel eigene Anlage Nr.10
Die mittlere quadratische Abweichung vom arithmetischen Mittel s2x := n1 nj=1 (xj − x)2
heiÿt empirische Varianz oder kurz Varianz einer beobachtenden statistischen Reihe X.
P
Die Varianz übernimmt alle Stärken und Schwächen des arithmetischen Mittels.
Umso gröÿer die Varianz ist, umso gröÿer ist die Streuung.
13
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
Die positive
p Wurzel aus der Varianz
sx := + s2x
heiÿt Standardabweichung.
Bei diskreten Variablen kann man folgende Schreibweise benutzen:
P
s2x = ki=1 (xi − x2 ∗ n(x = xi ) wobei n=Anzahl der Werte und k=Zahl der Merkmalsausprägungen
P
s2x = ki=1 (xi − x2 ∗ hi wobei hi =rel H und K=Zahl der Merkmalsausprägungen
Bei stetigen
Variablen tritt an die Stelle des Summenzeichens das Integral:
R∞
s2x = −∞
wobei h(x) die Dichtefunktion ist.
Beispiele siehe Skript
Eigenschaften der Varianz
• Die Varianz ist stets gröÿer oder gleich Null:
s2x ≥ 0
• Translation der statistischen Reihe um a=const lässt die Varianz unverändert:
yi := xi + a ⇒ s2y = s2x
• Streckung der statistischen Reihe mit dem Faktor b=const:
zi := b ∗ xi ⇒ s2z = b2 ∗ s2x
• Zu ihrer vereinfachten Berechnung dient die folgende Formel:
P
1 P
(xv − x)2 = n1 x2v − x2
n
• Obiger Sachvethalt ist nur ein Spezialfall (mit d=0) des folgenden Steinerschen Verschiebungssatzes. Für jedes konstante d gilt:
P
1 P
(xv − x)2 = n1 (xv − d)2 − (x − d)2
n
• Gesamtvarianz: Zerlegt man die statistische Reihe X in einzelne Gruppen mit jeweils n-Elementen
und den zugehörigen Mittelwerten und Varianzen so errechnet sich die Gesamtvarianz wie folgt:
P
1 Pm
2
2
s2ges = n1 m
j=1 nj sj + n
j=1 nj (xj − x)
wobei der erste Ausdruck als innere und der zweite als äuÿere Varianz angesehen wird.
• Minimaleigenschaft: Die Summe der quadratischen Abweichungen von irgendeinem d ist stets
gröÿer als die Varianz
P
P
SQA(d) := (xj − d)2 ≥ (xj − x)2
Das arithmetische Mittel sei diejenige Zahl d, die SQA minimiert: Das ist das Prinzip der
kleinsten Quadrate
Fallstricke: Streuung, Konzentration, Unsicherheit, Risiko
Bei der Umskalierung bleibt das arithmetische Mittel sowie die Standardabweichung gleich bis auf den
Faktor der Umskalierung. Varianzen sind wegen ihres quadratischen Charakters nicht mehr vergleichbar.
Es gelten folgende Regeln: Wenn y=a*x, dann
• y=
1
n
Pn
v=1 yv
=a∗x
14
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
Pn
• s2y =
1
n
• sy =
p
v=1 (yv
− y)2 = a2 ∗ s2x (Beweis über:
1
n
Pn
v=1 (a
∗ xv − a ∗ x)2
a2 ∗ s2x = a ∗ sx
Wenn y=x+a und yv = xv + a (für jede Beobachtung), dann
• y=
1
n
Pn
v=1 (xv
+ a) = x + a
• s2y = s2x (Beweis:
y)2 )
1
n
Pn
1
v=1 [(xv +a)− n
(xv +a)]2 =
P
1
n
Pn
1
v=1 (yv − n
Pn
v=1 yv )
2
=
1
n
Pn
v=1 (yv −
S oder s2 taugen nicht als Maÿe für die Ungleichheit, da sie Relationen vernachlässigen (z:B. Unterschied 1-2 ist gleich 31-32)
2.9 Konzentrationsmaÿe
Frage: Wie groÿ ist der Anteil, den einzelne satistische Einheiten ωi an der gesamten Summe der
Merkmalswerte in einer statistischen Reihe S := x1 + x2 + .... + xn haben?
Unter der Konzentration versteht man eine Ungleichheit in der Verteilung der Merkmalsumme auf
die Merkmalsträger.
Absolute Konzentration: Ein hoher Anteil der Merkmalsumme s entfällt auf eine kleine absolute
Anzahl von Merkmalsträgern (Bsp.: 4 Firmen machen 62% des Gesamtumsatzes einer Branche)
Relative Konzentration: Ein hoher Anteil der Merkmalsumme S entfällt auf einen kleinen Anteil der
Merkmalsträger (Bsp.: 4% des Einkommenssteuerumsatzes wurde vin 30% dr Zahler aufgebracht)
Zur Berechnung
Aus ener gegebenen absoluten Verteilung (siehe Tabelle Skript) berechnet man:
Pi
j=1 xj = (Zahlx1 + Zahlx2 ... + Zahlxi )
j=1 nj =(Merkmalsausprägung 1+2+...+i) für
Es werden also jeweils alle Ergebnisse bis zum betrachteten aufaddiert. In einem Diagramm werden
diese dann der rel H gegenübergestellt (Vergleich zweier Graphen).
Keine Konzentration liegt vor wenn ale Elemente ωi denselben Merkmalswert x(ωi ) = xi = x
aufweisen.
Pi
2.10 Lorenz-Kurven
Bedingungen für die Werte:
• keine negativen Merkmalsausprägungen
• Merkmalsausprägungen nach Gröÿe geordnet
• gröÿen ni xi ≥ 0 und
Pk
j=1 nj xj
> 0 müssen sinnvoll interpretiert sein
15
Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen
Konstruktion der Kurve:
Pi
n j xj
• Ordinate: Mi = 100 ∗ j=1S
jeweilige kumulierte Werte (d.h. die Anzahl der Ausprügungen*n) mit ihrem Anteil an der
Merkmalssumme S (gesamte Merkmalssumme)
z.B. Stückzahl
• Abszisse: Hi = 100 ∗ ij=1 hj
also die kumulierten rel.H
P
Denition:
Ein Streckenzug, der in einem Koordinatensystem ausgehend vom Ursprung P0 = (0, 0) die Punkte
Pi = (Hi , Mi ) miteinander verbindet, heiÿt Lorenzkurve.
Die Lorenzkurve gibt somit zu jedem Prozentsatz der statistischen Einheiten den dazugehörigen Prozentsatz an der Merkmalsumme an.
Die Lorenzkurve ist somit eigentlich keine Kurve, sondern ein Polygon- oder Streckenzug, der stets
vollständig unterhalb der Diagonlane verläuft, er beginnt im Punkt P0 = (0, 0) und endet im Punkt
Pk = (100, 100). Jedes einzelne Stück des Streckenzugs ist steiler als das vorhergehende: die Lorenzkurve ist konvex.
Vgl. Beispiepl S.66/67
Die Lorenzkurve stellt zunächst kein Konzentrationsmaÿ im Sinne einer einzigen summarischen Maÿzahl für die ganze Vertielung dar. Vielmehr gibt sie punktuelle Maÿe an.
Zu jedem Punkt Hi wird die sogenannte relative Konzentration Mi angegeben: auf Hi Prozent der
kleineren statistischen Einheiten entfallen Mi Prozent der Merkmalssumme. Dabei sind die kleineren
statistischen Einheiten, diejenigen mit den geringeren Merkmalswerten. Natürlich entfallen dann auf
die 100 − Hi Prozent gröÿeren Eiheiten 100 − Mi Prozent der Merkmalssumme.
Lorenzkurve nach Gröÿenklassen:
Die Klassenobergrenzen bilden die Knickstellen der Kurve. Man benötigt auÿerdem die absoluten oder
relativen Häugkeiten (z.B. der Unternehmen pro Klasse) und die Merkmalsteilsummen jeder Gröÿenklasse (z.B. die Bruttoanlageinvestitionen) die zusammen die Gesamtsumme ausmachen.
Man geht nach folgeneder Arbeitstabelle vor:
P
P
Gröÿenklasse → ni → xi → Si = ni xi → ij=1 nj & ij=1 Sj → Hi &Mi
Beispiel S. 70
In Worten heiÿt dies:
Zuerst werden aus absH*Mittelwerte die Merkmalsteilsummen bestimmt. Durch Teilen durch die Gesamtsumme der Teilsummen erhält man die unkumulierten Werte. Die kumulierten Werte bilden die
Ordinate.
Die Abzisse enthält weiterhin die kumulierten rel.H.
Die wahre Konzentrationskurve wird zwischen den Knickstellen stärker durchhängen, es sei denn
16
Titel 3 Zweidimensionale Verteilungen
innerhalb der Klassen gäbe es keinerlei Konzentration. Die Konzentrationsäche K des nach Gröÿenklassen berechneten und gezeichenten Lorenz-Polygons wird dadurch etwas kleiner ausfallen.
Möchte man dies verhindern so kann man auf eine Approximation zurückgreifen, mit der man eine
stetige Kurve erhält.
Beispiel S. 71
2.11 GINI-Koezient
Die einfachste Art die Konzentration zu messen wäre
• die Länge der Kurve oder
• die Fläche K zu messen, die sie mit der Diagonalen einschlieÿt
√
Normiert man√
die Seitenlänge des Quadrats auf 1 (Lorenz:100) so liegt die Länge zwischen 2 und
2, wobei L = 2 fehlende und L=2 vollständige Konzentration bedeutet.
Die Fläche liegt dann zwischen 0 und 21 wobei K=0 fehlende und K = 12 vollständige Konzentration
bedeuten würden.
Man vergleicht aber die Konzentrationsäche K mit der maximal möglichen Konzentrationsäche:
Konzentrationsf lcheK
GINI:= grtmglicheKonzentrationsf
lche
heiÿt Gini-Konzentrationskoezient einer Verteilung.
1
Kmax = 12 − 2n
wobei 1=Anzahl in erster Klasse und n=Gesamtzahl darstellen
2n
→ GIN I = K ∗ n−1
(wobei dies nur bei diskreten Daten möglich ist, bei Klassen wird durch 0,5
geteilt)
0≤ Gini ≤ 1 → normierte Maÿzahl der summarischen relativen Konzentration
Berechnung
der Konzentrationsäche K:
P
K = 21 − kj=1 12 (Mj−1 + Mj ) ∗ hj wobei h=Klassenbreite (also unkumulierte rel.H), Mj = zweite
Höhe und Mj−1 = erste Höhe darstellen.
3 Zweidimensionale Verteilungen
Jede statistische Einheit ωi einer Grundgesamtheit Ω kann Träger einer Vielzahl von Merkmalen sein.
Die univariate Statistik beachtet davon nur ein Merkmal bzw. eine Variable
Die multivariate Statistik beobachtet von jedem Merkmalsträger ωi mehrere Variablen
17
Titel 3 Zweidimensionale Verteilungen
3.1 Streudiagramm und gemeinsame Verteilung
Zwei Variablen x(ωi ) und y(ωi ) sind von Interesse. Das Eregbnis der Erhebung sind Wertepaare
(xi , yi ) : P1 = (x1 , y1 ); Pn = (xn , yn )
Die Kontigenztabelle stellt die gemeinsame Verteilung der statistischen Variablen X und Y übersichtlich dar.
Man benötigt die gemeinsame Verteilung, nicht nur die Randverteilung um eine komplette Tabelle
aufstellen zu können (d.h. man rechnet vom Detail innen nach auÿen).
Vergleiche Anlage Nr.11
In der Kontigenztabelle stehen die absoluten Häugkeiten:
Absolute Häugkeit mit der die Wertekombination (xi , yj ) auftritt:
nij = absH(X = xi ∩ Y = yi ) für i=1...k und j=1...l
Randhäugkeiten:
Absolute Häugkeit mit der Werte xi und yj auftreten:
P
P
ni∗ = lj=1 nij bzw. n∗j = ki=1 nij
P
P
P
P
P
P
Natürlich ist: ki=1 lj=1 = ki=1 ni∗ = n = lj=1 n∗j = lj=1 ki=1 nij
In der Kontigenztabelle stehen die relativen Häugkeiten:
Relative Häugkeiten mit der die Wertekombination (xi , yi ) auftritt:
n
hij = relH(X = xi ∩ Y = yi ) = nij
Randhäugkeiten:
Absolute Häugkeit mit der Werte xi und yj auftreten:
P
P
hi∗ = lj=1 hij bzw. h∗j = ki=1 hij
P
P
P
P
P
P
Natürlich ist: ki=1 lj=1 = ki=1 hi∗ = 1 = lj=1 h∗j = lj=1 ki=1 hij
3.2 Randverteilungen:
Denition:
Die beiden eindimensionalen Verteilungen
hi∗ = relH(X = xi ) = nni∗ mit i=1...k und
n
h∗j = relH(Y = yj = n∗j mit j=1...l
heiÿen Randverteilungen der statistischen Variablen X bzw. Y
Es wird dabei eine Verdichtung von der Mitte (gemeinsame Verteilungen) an den Rand erreicht
Berechnung von Mittelwert und Varianz daraus:
Mittelwerte und Varianzen der einzelnen Komponenten X und Y zwei- oder mehrdimensionaler Zufallsvariablen berechnet man leicht mit den Randverteilungen:
P
P
x = ki=1 hi∗ ∗ xi bzw.y = lj=1 h∗j ∗ xj
P
P
s2x = ki=1 hi∗ (xi − x)2 bzw. s2y = lj=1 h∗j (yj − y)2
Beispiel zu Berechnung dieses Kapitels: S.9-11 Skript
18
Titel 3 Zweidimensionale Verteilungen
3.3 Bedingte Verteilungen und statistische Zusammenhänge
Denition:
Die i=1...k eindimensionalen Verteilungen
absH(x=xi ∧y=yj )
nij
hij
= ni∗
h(y = yj /x = xi ) =
= hi∗
absH(x=xi )
und die j=1...l eindimensionalen Verteilungen
absH(x=xi ∧y=yj )
nij
hij
h(x = xi /y = yj ) =
= n∗j
= h∗j
absH(y=yj )
heiÿen bedingte Verteilungen.
Der zweite Faktor wird jeweils festgehalten, während der erste alle felder dieser Spalte oder Zeile
durchläuft.
Unabhängigkeit von x und y:
Denition:
Wenn h(xi /y1 ) = h(xi /y2 = ... = h(xi /yl = h(xi )
oder(!) h(yj /x1 ) = h(yj /x2 = ... = h(yj /xk = h(yj )
dann gilt für i=1...k und j=1...l sowie X und Y dass sie statistisch unabhängig sind und es gilt
hij = hi∗ ∗ h∗j
Andernfalls liegt ein statistischer Zusammenahng vor (linear oder nichtlinear)
Bei unabhängigen statistischen Variablen sind die bedingten Verteilungen identisch und jeweils gleich
der Randverteilung. Daraus ergibt sich:
h(x = xi /y = yj ) = hi∗ und h(y = yj /x = xi ) = h∗j
Ein Beispiel zur Berechnung siehe Skript S.15f
Beweis statistischer Unabhängigkeit: Die komplette Tabelle muss obige Bedingungen erfüllen, als
Gegenbeweis reicht eine einzige Zelle, die die Bedingungen nicht erfüllt.
Da gilt:
nij
n∗j
=
ni∗
n
ergibt sich für jede einzelen Zelle bei statistischer Unabhängigkeit die hypo-
thetische Wahrscheinlichkeit
n ∗n
e ij = i∗ n ∗j = hij = h(xi ) ∗ h(yj )
n
d.h. hier kann von den Randverteilungen nach innen rechnen.
Summe und Differenzen verschiedener Werte:
Das Wertepaar xi = X(ωi ) und yj = Y (ωj ) wurde untersucht und es gilt:
• Der Mittelwert einer Summe ist gleich der Summe der Mittelwerte: x ± y = x ± y
• Durch Anwendung der binomischen Formel gilt:
P
s2X±Y = s2x + s2y ± 2 ∗ n1 (xj − x) ∗ (yj − y)
• Spezialfall:
P
s2X±Y = s2x + s2y wenn n1 (xj − x) ∗ (yj − y) = 0
19
Titel 3 Zweidimensionale Verteilungen
3.4 Kovarianz
Dention: Kovarianz:
Die aus den n Wertepaaren (xi , yi ) berechnete Gröÿe
P
cxy := n1 nj=1 (xj − x) ∗ (yj − y)
heiÿt empirische Kovarianz oder Kovarianz zwischen den statistischen Variablen X und Y
Für diskrete metrische Variablen X und Y mit X = x1 , ...xk und Y = y1 , ...yl ergibt sich eine
alternative
Berechnung für Cxy
Pk Pl
(x
i=1
j=1 i − x) ∗ (yj − y) ∗ relH(x = xi , y = yj ) oder
P
k
1 Pl
j=1
i=1 (xi − x) ∗ (yj − y) ∗ nij
n
Beispiel dazu Skript S.25
Interpretation der Kovarianz und der Abweichung:
Sind zwei Variablen X und Y statistisch unabhängig, so ist die Kovarianz zwischen ihnen 0. Dieser
Satz ist nicht umkehrbar, da die Kovarianz nur den linearen Anteil der Abhängigkeit misst, d.h. man
kann sagen wenn die Kovarianz 6= 0 ist sind X und Y abhängig, aber nicht wenn die Kovarianz = 0
ist sie seien unabhängig.
Rechenregeln:
• Cxy =
1
n
Pn
v=1 xv
∗ yv − x ∗ y
• mit U=a+b*x und V=c+d*y gilt: Cuv = b ∗ d ∗ Cxy
3.5 Korrelationskoezient
Die Kovarianz ist abhängig von Maÿeinheiten, weshalb eine standardisierte Maÿzahl benötigt wird:
yv −y
xv −x
1 Pn
2
)
∗
(
)
wobei
für
u
=
gilt:
zev = ( xvs−x
v
v=1 uv = 0 und su = 1.
s
s
n
x
y
x
Denition:
empirischer Korrelationskoezient
P
1
n
n
ev
v=1 z
=
cxy
sx ∗sy
= rxy und heiÿt Korrelatiinskoezient nach Bravais-Pearson zwischen X und Y.
Eigenschaften der Korrelation:
• Der Korrelationskoezent stellt ein normiertes Maÿ für die strenge des linearen statitischen
Zusammnenhangs dar:
−1 ≤ rxy ≤ +1 und löst die Cuchy-Schwartz-Ungleichung: c2xy ≤ s2x ∗ s2y
• Für rxy = ±1 spricht man von perfekter Korrelation und diese tritt auf, wenn yv = a + b ∗ xv
mit cxy = ±1
20
Titel 3 Zweidimensionale Verteilungen
Interpretation des Korrelationskoezienten:
• 0: keine Korrelation statistisch unabhängig
• <0-0,5: schwache Korrelation
• 0,5-0,8: mittlere Korrelation
• 0,8-<1: starke Korrelation
• 1: perfekte Korrelation
Fallstricke der Kovarianz und des Korrelationskoezienten:
• cxy und rxy messen nur lineare Zusammenhänge
Bsp.: eine Parabel hat einen Korrelationskoezienten von null, da der quadratische Zusammenhabng nicht messbar ist
• Korrelation6= Kausalität
Kovarianz und korrelationskoezient beudeten nicht zwingend eine kausale Beziehung. Lediglich die gerade vorliegenden Beobachtungen zeigen eine statistische Tendenz, welche aber auch
rein zufällig sein könnte
Man muss auch dritte oder sogar vierte Variablen berücksichtigen oder beachten, dass die
Kausalrichtung verdreht sein kann (Geschenke→ Weihnachten) Bsp.: Zusammenhang Studiendauer und Anfangsgehalt siehe Anlage Nr.13
• rxy kann nicht für nominale oder ordinale Skalierung benutzt werden
Anwendung der Kovarianz und der Korrelation: Portfolio-Management
Für ein Portfolio aus zwei Aktien gilt: Z=a*x+b*y wobei a,b die Anteile der jeweiligen Rendite x,y
im Portfolio darstellen.
Daraus ergibt sich das gewichtete Mittel des Vermögens: zv = a ∗ xv + b ∗ yv
Daraus lassen sich folgende Formeln für das arithmetische Mittel und die Varianz aufstellen:
P
P
z = n1 nv=1 zv = n1 nv=1 (a ∗ xv + b ∗ yv ) = a ∗ x + b ∗ y
P
P
s2z = n1 nv=1 (zv − z)2 = n1 nv=1 (a ∗ xv + b ∗ yv − a ∗ x − b ∗ y)2 = a2 s2x + b2 s2y + 2 ∗ a ∗ b ∗ cxy
Daraus kann man nun die Markowitz-Kurve aufstellen, in dem man auf der x-Achse die Standardabweichung und auf der y-Achse das arithmetische Mittel abträgt, und zwar mit allen möglichen
Kombination für a+b=1 (z.B. a=0,1 und b=0,9).
Das funktioniert jedoch nur wenn eine starke negative kovarianz/Korrelationskoezient zwischen x
und y herrscht.
Vergleiche Schaubild Anlage Nr.14
21
Titel 4 Lineare Regressionsrechnung
3.6 Kontigenzkoezient
Berechnung und Interpretation der Kovarianz und des Korrelationskoezienten setzen metrische Messbarkeit voraus.
Für den Rangkorrelationskoezienten reicht eine ordinale Messbarkeit.
Problem: Messung des statistischen Zusammenhangs bei nominalskalierten Merkmalen... Ausgangspunkt sei die statistiche Unabhängigkeit.
e ij sind die hypothetischen gemeinsamen Häugkeiten für Unabhängigkeit (siehe dort)
n
e ij der BeUm das Ausmaÿ der Abhängigkeit zu quantizieren wird man auf die Abweichung nij − n
obachtungswerte schauen.
Denition:
Die Summe der relativen quadratischen Abweichungen
P
P
(n −e
n )2
χ2 := ki=1 lj=1 ijen ij
ij
heiÿt quadratische Kontigenz oder Chi-Quadrat-Koezient
Das normierte
Maÿ
q
QK
KK := QK+n
heiÿt Kontigenzkoezient.
Der maximal mögliche Konigenzkoezient KKmax =
ist von der Kontigenztabelle abhängig.
q
m−1
m
< 1 wobei m=min(k,l)
Denition:
q
QK∗m
KK
KK∗ := KK
=
(QK+n)∗(m−1)
max
heiÿt korrigierter Kontigenzkoezient.
Er liegt zwischen Null und 1. Je näher er bei Null liegt, umso näher liegt er an der Unabhängigkeit
und je näher er bei 1 liegt, umso näher liegt er an der Abhängigkeit.
Rechenbeispiel siehe Skript S.32-34
Beispiel
zur Kombination von Kontigenzkoezient und Korrelationskoezient
Anlage Nr.12
4 Lineare Regressionsrechnung
4.1 Motivation
Um das Problem der fehlenden Kausalität bei der Korrelation zu lösen, hat man die Regressionsrechnung eingeführt, denn in der ökonomischen Theorei werden Kausalbeziehungen doch impliziert/postuliert.
Wenn man eine Variable X kennt will man wissen was eine Änderung von X für Y hervorruft. Wegen
22
Titel 4 Lineare Regressionsrechnung
der simultanität (Konsum hängt von Einkommen ab, das einkommen vom Sparen, das sparen vom
Zins, kann dies sehr komplex sein.
4.2 Korrelationsrechnung und Regressionsrechnung
Kovarianz und Korrelationskoezient sind nur Maÿzahlen. Die Regressionsrechnung geht einen Schritt
weiter: Der durchschnittliche lineare Zusammenhang zwischen den Merkmalswerten einer zweidimensionalen statistischen Variablen (X,Y) soll nun duech eine lineare Funktion also eine Gerade:
y = b0 + b1 ∗ x + e
im Streudiagramm dargestellt werden.
Y ist hier die abhängige Variable und X die erklärende Variable, wobei Y = y1 ...yn und x = x1 ...xn
(bivariater Datensatz). b0 und b1 sind unbekannte Parameter und e ist das Residium (etwas was das
Modell nicht erklärt), wobei gilt: e = yv − ybv .
Die Gerade soll eine mittlere Gerade sein, das heiÿt sie soll so durch die beobachteten Merkmalswerte
(Xi , yi ) hindurchgehen, dass sie die Lage und Hauptrichtung der Punktwolke im Streudiagramm anzeigt.
Mit der Methode der kleinsten Quadrate wird jeder Punktwolke eindeutig eine mittlere Gerade zugeordnet.
Die Abweichung zwischen Beobachtungswerten und Geraden kann man als senkrechte Striche oder
Quadrate abtragen. Vergleiche Anlage Nr.15
4.3 Bestimmung der Regressionsgeraden
K-Q-Methode:
Minimierung der Summe der quadrierten Abweichungen:
P
P
Pn
2
(yv − ybv )2 = (yv − bb0 − bb1 ∗ xv )2 = SQA(b0 , b1 )
j=1 ev =
(Vergleiche Anlage Nr.16)
Ableiten nach b0 und b1 und Nullsetzen liefert die beiden Normalgleichung:
P
δ
1) δa
SQA = v=1 n2 ∗ (yj − bb0 − bb1 ∗ xv ) ∗ (−1) = 0
P
δ
2) δa
SQA = v=1 n2 ∗ (yj − bb0 − bb1 ∗ xv ) ∗ (−xv ) = 0
1) (yv − bb0 − bb1 ∗ xv ) = 0
P
2) (yv − bb0 − bb1 ∗ xv ) ∗ xv = 0
P
1) yv − bb0 ∗ n − bb1 xv = 0
P
P
P
2) xv ∗ yv − bb0 xv − bb1 x2v = 0
P
P
1) bb0 + x ∗ bb1 = y
2) x ∗ bb0 + x2bb1 = xy
23
Titel 4 Lineare Regressionsrechnung
1) bb0 = y − bb1 ∗ x
c
2) bb1 = sxy
2
x
Denition: Regressionsgerade:
Seien (x1 , y1 )...(xn , yn ) beobachtete Wertepaare einer zweidmensionalen statistischen Variablen (X,Y)
und sei sx > 0.
Die Gerade y(x) = bb0 + bb1 ∗ x
c
b
b
mit den Koezienten bb1 = sxy
2 und b0 = y − b1 ∗ x
x
heiÿt Regressionsgerade einer Regression von Y auf X. Die zu den einzelnen xi gehörenden Werte auf
der Regressionsgeraden ybi = y(xi ) heiÿen Regressionswerte.
4.4 Eigenschaften der Regressionsgeraden
• Mittlere Gerade: Sie geht durch den Schwerpunkt der Punktewolke (x, y) und die Summe der
Abweichungen ei ist null
P
P
(yv − bb0 − bb1 ∗ xv ) = ev = 0 = e
• Varianzminimierung: Die Varianz der Abweichungen
P
1 P
(ev − e)2 = n1 e2v = n1 SQA(b0 , b1 )
n
ist bis auf den Faktor n identisch mit der Summe der kleinsten Quadrate. Das bedeutet, dass
die Regressionsgerade die Varianz der Abweichungen minimiert.
• Steigungsregression: Die Steigung der Regressionsgerade beträgt
c
cxy ∗sy
sy
b
b1 = sxy
2 = s ∗s ∗s = rxy s
x x y
x
x
und ist uso acher, je kleiner die Korrelation ist (Vergleiche Skript
S.11).
• Varianzzerlegung: die Gesamtvarianz von Y wird in zwei Teile
P
P
P
(yv − y)2 = (ybv − y)2 + (yv − ybv )2
zerlegt und zwar in die Varianz der Regressionswerte und die Varianz der Abweichungen
• Kovarianz aus der Abweichung und der unabhängigen Variablen X ist gleich 0
1 Pb
ev (xv − x) = 0
n
• Der Mittelwert aus der Summe aller y ist gleich dem Mittelwert aus der Summe aller abhängigen
y:
P
1 P
yv = y = n1 ybv = yb
n
Anwendung:
"`High-beta-stocks : bb1 sei gröÿer als 1
d.h. wenn der Marktwert aller Aktie um 1 steigt, so steigt eine speziell betrachtete in disem Fall mehr
als 1.
Bestimmtheitsmaÿ:
Durch Varianzzerlegung kann man aus yv = ybv + ebv durch Umformungen (siehe eigene Anlage) die
Varianz in einen erklärbaren und einen nichterklärbaren Teil zerlegen.
24
Titel 4 Lineare Regressionsrechnung
Denition: Bestimmtheitsmaÿ:
Das Verhältnis der in iener linearen Regression erklärten Varianz zur Gesamtvarianz der abhängigen Variabeln Y
s2
R2 := sby2
y
heiÿt Bestimmtheitsmaÿ der linearen Regression.
Je gröÿer R ist, umso besser ist die Anpassung der Regressionsgerade an die Punktwolke, es
wird daher als Maÿ für die Güte der Anpassung verwendet.
2
Es ist 0 ≤ R2 ≤ 1 und R2 = ( sxcxy
)2 = rxy
∗sy
Über yv = ybv + ebv erhält man den Ausdruck:
P
P
1 P
(yv − y)2 = n1 (ybv − ybv )2 + n1 eb2v
n
also die empirische Varianz unterteilt in die Varianz der Prognosewerte und die Varianz der
Prognosefehler.
Es gilt also: P
P
1
(y −b
y )2
R2 = n1 P(yvv −y)v 2 = 1 −
n
Beispiel Skript S.13-16
1
1
n
n
P
b
e2v
(yv −y)2
=
erklrteV arianz
Gesamtvarianzabh.V ariable
=1−
unerklrteV ariable
Gesamtvarianzabh.V ariable
4.5 Nichtlineare Regression
Ausgleichsgerade: Die Annahme der Linearität ist oft eine gute Annäherung an eine nichtlineare Realität.
Die Linearitätsannahme ist aufzugeben, wenn die Daten im Streudiagramm sehr deutliche
einen nichtlinearen Zusammenhang nahelegen
Welchen Funktionstyp soll man wählen?
Nichtlineare Funktionen, die durch einfache Transformaion in lineare Funktionen überführt
werden können:
• logarithmische Ansätze (logarithmisch-linear, halblogarithmisch)
• quadratische Ansätze
4.5.1 logarithmische Ansätze
Denition:
Der logarithmisch lineare Ansatz formuliert eine lineare Beziehung in den Logarithmen der
Daten:
logy=a+b*logx.
25
Titel 4 Lineare Regressionsrechnung
Durch Rücktranformation erhalten wir den Zusammenhang zwischen den urpsünglichen Beobachtungswerten:
y = a∗ ∗ x b
Die Koezienten dieser regression a und b werden mit den schon bekannten Formeln berechnet, jedoch muss man zuvor die Ausgangsdaten einer Transformation unterziehen und die
Logarithmen der Beobachtungswerte nehmen.
Denition:
Bei dem sogenannten halblogarithmischen Ansatz wird nur eine der beiden Variablen logarithmisch transformiert:
logy=a+bx.
Durch Rücktransformation erhalten wir den Zusammenhang zwischen den ursprünglichen Beobachtungswerten:
y = a∗ ∗ ebx
Beispiele für logarithmische Regressionsansätze: Skript S.24
4.5.2 quadratische Ansätze
Denition:
Bei dem quadratischen Ansatz wird der Zusammenhang zwischen X und Y als Polynom 2.
Grades formuliert:
y = a + b1 x + b 2 x 2
Unter Verwendung der Beobachtungswerte werden die drei Koezienten a, b1 und b2 mit
der MQK berechnet. Man benutzt dazu das Verfahren der Mehrfachregression (siehe unten).
Die Variablen x und x2 werden dabei rein rechnerisch wie zwei verschiedene Variablen behandelt, obwohl sie es natürlich nicht sind.
Der quadratische Ansätze haben den Vorteil, dass mit ihnen auch solche Zusammenhänge
dargestellt werde können, deren Richtung umkehrt. Das ist dann von Nutzen, wenn die Korrelation mit ansteigenden x-Werten nicht nur schwächer wird, sondern das Vorzeichen wechselt.
Beispiel: Skript S.26; Skript S.27-29.
4.6 Mehrfache Regression
In manchen Fällen ist es angezeigt die Variation einer statistischen Variablen Y in Abhängigkeit
von zwei anderen Variablen X1 und x2 darzustellen und zwar in der Form:
yi = b0 + b1 ∗ x1i + b2 ∗ x2i + ei
26
Titel 5 Beschreibung von Zeitreihen
Es handelt sich jetzt nicht mehr um eine Regressionsgeraden, sondern um eine Regressionsebene in einem dreidimensiopnalen Koordinatensystem.
Zur Berechnung der drei Koezienten wäre ein Minimierungsproblem wie bei der Einfachregression zu lösen ,wobei die drei partiellen Ableitungen nun zu drei Normalengleichungen
führen. Man muss also wieder die ersten Ableitungen gleich 0 setzen und nacheinander nach
den Variablen ableiten, wobei einmal eine Lösung mit zwei Unbekannten, einmal mit einer
Unbekannten und einmal ohne Unbekannte ensteht.
Die Koezienten b1 und b2 geben die Steigung der Ebene in x1 -Richtung und in x2 Richtung an. Die Ebene schendiet die y-Achse bei b0 . Es ist zu beachten, dass die rechteckige,
graue Fläche nur der bildmäÿigen Darstellung dient, die Regressionsebene selbst ist natürlich
nicht durch sie begrenzt. Darstellung siehe Skript S.31.
Prinzipiell können auch noch mehr als zwei unabhängige Variablen ins Spiel gebracht werden, wenn es im Einzelfall sinnvoll ist. Die Regressionsbeziehung lautet dann:
yi = b0 + b1 x1i + b2 x2i + ... + bk xki + ei
Beispiel Skript S.32
4.7 Ausblick: Interdependenz und Simultanität
Es könnte folgendes Schema existieren: y1 =Zins, y2 =Geldmenge, y3 =Preisniveau:
y1 = b11 ∗ y3 + a11 ∗ x1 + a12 ∗ x2 + e1
y2 = b21 ∗ y1 + a21 ∗ x1 + e2
y3 = b31 ∗ y2 + a31 ∗ x3
Dieses Gleichungsschema indem verschiedene abhängige Variablen sich gegenseitig bedingen
ist nicht mehr mit der Kleinst-Quadrate-Methode zu lösen.
5 Beschreibung von Zeitreihen
Bei der bisherigen Behandlung statistischer Variablen spielte die Anordnung der einzelnen Beobachtungswerte in der statistischen Reihe keine Rolle. Beliebige Umstellungen der Werte
ändern nichts am Mittelwert oder an der Varianz, die Häugkeitsverteilung bleibt diesselbe.
Willman aber mit einer statistischen Reihe von Beobachtungswerten die Veränderung einer
Variablen in der Zeit untersuchen, ist deren zeitliche Anordnung sehr wohl von Interesse. Man
denke nur an die Entwicklung von Aktienkursen oder den Gewinn einer Unternehmung.
Denition:
Eine empirische Zeitreihe ist eine Sequenz oder zeitlich geordnete Folge von T Beobachtungen
27
Titel 5 Beschreibung von Zeitreihen
y1 , y2 , ...yt , ...yT
einer statisischen Variablen Y.
Wird ein Merkmalsträger beobachtet heiÿt sie univariat, bei mehreren Merkmalträgern multivariat.
5.1 Die Komponenten einer Zeitreihe
•
Trend Tr: Die Trendkomponente beschreibt die langfristige Veränderung des durchschnittlichen Niveaus der Zeitreihe
•
Zyklus Cy:
•
glatte Komponente G: Wenn sie sich nicht vernünftig trennen lassen, faÿt man Trend
Die zyklische oder Konjunkturkomponente beschreibt mehrjährige, nicht
notwendig regelmäÿige Schwankungen. Interessant sind die Länge des Zykluses und die
Abgrenzung zum Trend
und Zyklus zu einer Komponente zusammen. Man wird dies dann tun müssen, wenn die
Zeitreihe nur einen Teil eines Konjuknturzykluses umfasst. Vergleiche Anhang Nr.17
Berechnung über Regressionsgeraden.
•
Saison S: Die Saisonkomponente oder periodische Komponente soll Schwankungen mit
regelmäÿiger Periode (normalerweise innerhalb eines Jahres) angeben.
•
Rest U:
•
Schaubild Skript S.5
Die Restschwankung, irreguläre oder stochastische Komponente schlieÿlich
nimmt die unregelmäÿigen Einüsse oder Störungen auf Rauschen.
Wie fügen sich die Komponenten zusammen?
Additives Modell: Y=Tr+Cy+S+U oder
Multiplikatives Modell: Y=Tr*Cy*S*U
Ansätze für die periodische Komponente:
• Additiv überlagerte konstante Saisongur: Die positiven und negativen saisonalen Abweichungen in den einander entsprechenden Phasen sind in allen Perioden des Beobachtungszeitraums gleich groÿ.
• Multiplikativ überlagerte konstante Saisongur: Die Abweichungen in den einzelnen Phasen stehen in jeder Periode im gleichen Verhältnis zu den Werten der glatten Komponente.
• Variable Saisongur: Die Höhe der Abweichungen variiert im Zeitverlauf allmählich, es
verändert sich also ihre Struktur. Die Verfahren für diesen Modellansatz streben eine
lokale Approximation der variablen Saisonstruktur an die der eng benachbarten Perioden
an.
28
Titel 5 Beschreibung von Zeitreihen
5.2 Bestimmung des Trends durch Regressionsrechnung
Wahl der Trendfunktion:
Prüfen, wie gut sie sich in der graschen Darstellung an die beobachteten Zeitreihenwerte anpasst. Viele ökonomische Zeitreihen haben eine ausgesprochen lineare Grundrichtung, so dass
eine Trendgerade nahe liegt.
Man denkt sich die anderen möglichen Komponenten einer Zeitreihe in der Restkomponenten
U zusammengefasst. Diese sind in der linearen Funktion:
y t = b0 + b1 ∗ t + u t
als Abweichungen vom linearen Trend zu interpretieren.
Die Koezienten der Funktion werden mit Hilfe einer Regressionsrechnung ermittelt, in welcher t die unabhängige und y die mathematisch abhängige Variable ist. Vorteil von t: zu jedem
Zeit der Zukunft bestimmbar.
Schätzung von b0 und b1 mit der KQ-Methode:
P
min.bb0 , bb1 Tt=1 (yt − bb0 − bb1 t)2
b
b0 = y t − bb1 ∗ t
t ,t)
b
b1 = cov(y
var(t)
Schaubild geschätzte Kurve: Vergleiche eigene Anlage oder Skript S.11
5.3 Höhere Polynome für die glatte Komponente
Eine lineare Funktion ist ungeeignet wenn die Zeitreihe einen gekrümmten Verlauf nimmt oder
gar eine Trendumkehr zeigt.
Polynom höherer Ordnung:
G(k) (t) = b0 + b1 t + b2 t2 + ... + bk tk
Prüfen, inwieweit die Krümmungen durch eine passende Funktion nachgezeichnet oder ausgeglichen werden sollen.
Grundsatz: Die glatte Komponente darf nicht jeder Einzelbewegung folgen, sondern sie muss
glatt sein, so dass der typische Verlauf erkennbar wird. Achtung: k höchstens 4.
Beispiel Skript S.13-14
5.4 Exponentieller Trend
Dieses Modell wird verwendet, wenn die Wachstumsrate einer Zeitreihe zwar von zyklischen,
saisonalen und irrgeluären Schwankungen überlagert ist, aber über den Beobachtungszeitraum
29
Titel 5 Beschreibung von Zeitreihen
als konstant angesehen werden soll.
T r(t) = a ∗ ebt
Die Steigung der Trendfunktion ist proportional zum erreichten Niveau:
Der Koezient b gibt die konstante Rate an, mit der die Trendfunktion wächst: durchschnittliche Wachstumsrate der Zeitreihe.
multiplikatives Modell: yt = a ∗ ebt ∗ ut ⇒
additives Modell: lnyt = lna + b ∗ t + lnut
transformiert wurden)
= lnyt = b0 + b1 t + u∗t (wenn Daten vorher
Berechnung:
b0 = lny t − b1 ∗ t
t ,t)
b1 = cov(lny
var(t)
Beispiel Skript S.17-18
Interpretation:
Steigt t um 1, steigt yt um b1 ∗ 100%
5.5 Trendprognose
Fortschreiben von t, einsetzen in Funktion mit geschätzen Parametern und den zukünftigen
Prognosefehler auf 0 setzen:
yT +1 = b0 + b1 (T + 1)bzw.yT +1 = exp(b0 + b1 (T + 1)) (bei einer Periode)
yT +j = b0 + b1 (T + j)bzw.yT +j = exp(b0 + b1 (T + j)) (bei j Perioden)
Annahme dafür: der Trend setzt sich fort.
aber:
• eventuell besteht gar kein Trend sondern organisierter Zufall (random walk) (Dax-Datenreihe)
• es kann Brüche im Trend geben (Energieproblem wird gelöst)
• die Bestimmung der Art der Trendfunktion und der benutzen zur Fortschreibung ist
schwierig zu bestimmbar (Benutzung einer exp.Fkt für die Entwicklung ds CO2 -Ausstoÿes)
5.6 Gleitende Durchschnitte
Wenn keine stabile Funktion als Entwicklungsmuster für die glatte Komponente G erkennbar
ist, kann man als alternativen Ansatz Filtermethoden benutzen.
Man kann lokale Trend berechnen die sich über den Beobachtungszeitraum gleitend ändern.
Geeignete Filter erreichen eine gewisse Glättung der ursprüngliche Zeitreihe Y : G = ΦY
30
Titel 5 Beschreibung von Zeitreihen
Unter bestimmten Bedingungen kann man mit Filtern auch die Saison- und Restkomponente
aus einer Zeitreihe herausltern
Denition:
Eine lineare Transformation F einer Zeireihe Y in eine neue Zeitreihe G gemäÿ der Transformationsvorschrift G := ΦY
P
gt+v := li=1 αi yt+i−1 für t=1...T-l+1
heiÿt linearer Filter. Die αi heiÿen Gewichte, die Anzahl der Summanden l heiÿt Länge des
Filters v und bestimmt den Zeitindex, der dem jeweiligen Wert g zugewisen wird.
Beispiel:
Ein linearer Filter Φ der Länge l=4 habe die Gewichte α1 = 0, 1, α2 = 0, 6, α3 = 0, 3, α4 = 0, 2.
Filtert man mit ihm die Zeitreihe Y=6,12,16,13,6,16,19,17,21,8,15,21 so erhält man als Output für den ersten Wert (mit v=0 gesetzt):
g1 =0,1*6+0,6*12+0,3*16+0,2*13=15,2
Die gelterte Zeitreihe lautet dann: G=15,2;15,9;14,4;13,5;19,3;22,3;20,0;19,7;15,6
Einee so gelterte Zeitreihe ist um l-1 Werte kürzer als die ursprüngliche Beobachtungsreihe
Beispiel:
Ein häug verwendeter Filter ist der Dierenzenlter ∆. Es ist ein linearer Filter der Länge
zwei mit den Gewichten α1 = 1 und α2 = −1. Sein Output sind die ersten Dierenzen.
∆yt := yt − yt−1
einer Zeitreihe, die nun nicht mehr das Niveau der Zeitreihenwerte, sondern ihre Veränderungen zeigen.
Mit der Zeitreihe aus dem obigen Beispiel Y=6,12,16,13,6,16,19,17,21,8,15,21 liefert dieser
Dierenzenlter G=6,4,-3,-7,10,3,2,4,-13,7,6
Einfache und weithin verwendete lineare Filter sind die so genannten gleitenden Durchschnitte.
Sie dienen der Bestimmung von Trend- bzw. glatter Komponente.
Denition:
Ein linearer Filter Φ, dessen Gewichte li=1 αi = 1 sich zu eins addieren heiÿt gleitender
Durchschnitt.
Die Mittelwerte g heiÿen gleitend weil ihr Stützbereich sich von Wert zu Wert verändert und
über die Zeitreihe hinweg gleitet:
y1 ...yn wobei g=1+v
P
Bevorzugte Zuordnung des Zeitindex für die Werte der glatten Komponente:
• Vorlaufende gleitende Durchschnitte: v=0, d.h. g1 , g2 ...
• zentrierte gleitende Durchschnitte: v=(l-1)/2, d.h. bei l=5 gilt g3 , g4 ...
31
Titel 5 Beschreibung von Zeitreihen
• nachlaufende gleitende Durchschnitte: v=l-1, d.h. bei l=5 gilt g5 , g6 ...
• wären die ersten 5 Zahlen der Zeitreihe z.B. 2,4,3,5,5 so ergäbe z.B. der zentrierte gleitende Durchschnitt einer Länge l=4 folgendes Ergebnis: g2,5 =0,25*2+0,25*4+0,25*3+0,25*5=3,5
Denition:
Sind die Gewichte, mit denen einzelne Beobachtungen in die Berechnung von g eingehen alle
gleich spricht man von einfachen, bei verschiedenen Gewichten von gewichteten gleitenden Durchschnitten.
• Je gröÿer die Länge l ist, umso stärker ist die bewirkte Glättung, es ist ΦU ≈ 0.
• Will man nicht nur glätten, sondern eine Saisonkomponente S wegltern so muss die
Länge l des Filters der Anzahl der Phasen der Periodik entsprechen oder ein ganzzahliges
Vielfaches davon sein. Denn die Saisonschwankungen gleichen sich über eine Periodik
hinweg gegenseitig weitgehend aus, so dass ΦS ≈ 0.
Beispiel: Saisonbereinigung von Quartalswerten
Will man mit einfachen gleitenden Durchschnitten die Saisonschwankungen aus Zeitreihen mit
Quartalswerten wegltern, wäre eine gerade Filterlänge l=4 angezeigt. Für die Zentrierung
wäre v=(l-1)/2=1,5 zu verwenden. Das ergäbe:
g1+v = g2,5 = 41 (y1 + y2 + y3 + y4 )undg3,5 = 14 (y2 + y3 + y4 + y5 ),
dies wären aber unpassende Zeitindizes. Deshalb rechnet man:
g3∗ = 21 (g2.5 + g3.5 ) = 18 y1 + 14 y2 + 41 y3 + 14 y4 + 18 y5
Gleitender Durchschnitt zweiter Ordnung oder gewichteter gleitender Durchschnitt
der Länge 5.
5.7 Exponentielle Glättung
Verfahren zur Ermittlung einer glatten Komponente einer Zeitreihe. Die Glättung erfolgt durch
den Einsatz eines rekursiven linearen Filters.
Denition:
e
+(1−β)yt für t=1...T heiÿt einfaches exponentielles Glätten,
Die Filterung gte := β ∗gt−1
e
e
wobei gt der Wert zum Zeitpunkt t (nicht in Daten), gt−1
der vorherige geglättete Wert und
yt der aktuelle Wert in den Daten sind. β liegt zwischen 0 und 1 und heiÿt Glättungsparameter.
Für eine Prognose benutzt man:
ybt+1 = β ∗ ybt + (1 − β) ∗ yt , wobei ybt+1 der Prognosewert, ybt die alte Prognose und yt der
beobachtete Wert snd.
Der geglättete Wert ist ein gewichtetes Mittel aus dem geglätteten Wert der Vorperiode und
dem aktuellen Beobachtungswert.
32
Titel 5 Beschreibung von Zeitreihen
Durch die Rekursivität geht in jedes g die ganze Vergangenheit der Zeitreihe ein.
e
e
e
gte = β ∗ gt−1
+ (1 − β)yt und gt−1
= β ∗ gt−2
+ (1 − β)yt−1 , daraus folgt:
e e
e
e
gt = β ∗ /β ∗ gt−2 + (1 − β)yt−1 = β gt−2 + β(1 − β)yt−1 + (1 − β)yt
Allgemein gilt also:
gte = (1 − β)yt + β(−β)yt−1 + β 2 (1 − β)yt−2 + ... + β t−1 (1 − β)y1 + β t ∗ g0e
Dies bildet eine geometrische folge, so dass es eigentlich geometrisches Glätten heiÿen müsste.
Unbekannt: β und g0e (Startwert: z.B yt oder arithm. Mittel)
β ≈ 0 : β t−1 und β t sehr klein und 1 − β sehr groÿ: aktueller Wert yt mit starkem Einuss
auf Prognose/Glättung
β ≈ 1: aktueller Wert mit geringem Einuss
⇒ optimale
Wahl für β : hilfreich ist Prognoseinterpretation
PT −1
argminβ t=m (yt+1 − ybt+1 )2 (quadrierter Prognosefehler) wobei m nicht 1 sien sollte, sondern
ein wert, bei dem der Startwertfehler langsam abnimmt.
1) Man kann ausprobiren Werte zwischen 0 und 1 für β mit Excel: Grid-sarch (Gitter)
2) Man benutzt numerische Verfahren (z.B. Solver)
Je gröÿer der Parameter β umso gröÿer die Glättung.
Funktioniet gut bei: persistenten Zeitreihen wie quadrierte Renditen, Zinsen, Inationsraten
(die mal über/unter Mittelwert liegen, aber nicht übermäÿig abweichen)
Funktioniert schlecht bei: Trend-Daten oder nicht-persistenten Reihen wie BIP (welches immer
steigt), normale Renditen, da die Schätzung IMMER UNTER dem realen Wert liegt und diesen
nie einholen kann. Vergleiche Schaubild S.30
5.8 Exkurs: Wissenschaftstheoretische Ansätze
Induktivistisches Schema:
• Beobachtungen/ Daten liegen vor
• werden verallgemeinert um Theorie zu formulieren
• es folgen noch mehr Beobachtungen
• und diese bestätigen die Theorie, was sie als richtig gelten lässt
Kritischer Rationalismus:
• Es existiert ein Problem
33
Titel 5 Beschreibung von Zeitreihen
• Lösungsvorschläge, Theorien, Erklärungen werden gemacht (beste Theorie ist die einfachste)
• Kritik (gut!), experimentelles Testen
• Ersetzen von abgelehnten, schlechten Theorien
• Neues Problem (nicht durch vorhandene Theorien erklärbar)
5.9 Konstante additive Saisonkomponente
Ausgangspunkt: Additives Modell: Y=G+S+U mit Annahme: Stabile Saisongur über die ganze Reihe
Im Falle von Quartalsdaten gibt es also vier Saisonveränderungszahlen S1 + S2 + S3 + S4 = 0 :
1.Schritt: Betimmen der glatten Komponente G mit einer passenden linearen Funktion von t,
Polynom, Exponentialfunktion oder gleitende Durchschnitte
2. Schritt: Berechnung der Dierenzen D=Y-G=S+U
3. Schritt: Bilden der Phasendurchschnitte Dph D1 , D2 ... für jede Untereinheit (z.B. Quartal):
arithmetisches Mittel
P
4. Schritt: Berechnung von d = n1 ni=1 Dphn
5. Schritt: Daraus ergeben sich nun die Saisonveränderungszahlen Sph = Dph − d
Die Saisonveränderungszahlen können auch mit Hilfe der Regressionsrechnung bestimmt werden:
yt − gt = b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b4 Dummy4 + ut
Dieser Ansatz wird gern und häug verwendet und ist mit den gängigen Statistikprogrammen
einfach durchführbar. Man bedient sich dabei sogenannter Saisondummies.
Noch häuger ist der inhomogene Ansatz mit Absolutglied: yt − gt = b0 + b1 Dummy1 +
b2 Dummy2 + b3 Duimmy3 + ut
Man erhält die Durchschnitte nun durch: D1 = b0 + b1 , D2 = b0 + b2 , D3 = b0 + b3 , D4 = b0
Die Saisonveränderungszahlen ergeben sich nun aus der Dierenz der Durchschnitte und deren Mittelwert (siehe erstes Verfahren). Es gibt folgende Regressionsansätze, die gleichzeitig
Saison- und glatte Komponente berücksichtigen:
Linear: yt = b0 + b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b5 t + ut
Quadratisch gekrümmt: yt = b0 + b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b5 t + b6 t2 + ut
Zusätzliche Variable X:bei Korrelation mit anderer Zeitreihe X: yt = b0 + b1 Dummy1 +
b2 Dummy2 + b3 Dummy3 + b5 t + b7 xt + ut
Beispiel für eine solche Rechnung Skript S.38
34
Titel 6 Indexzahlen
5.10 Konstante additive Saisonkomponente
Wachsen die saisonalen Ausschläge einer Zeitreihe mit der Gröÿe der Beobacthungswerte verwendet man das multiplikative Modell: Y=Tr*Cy*S*U
Es gilt: YG = S ∗ U
Man bildet wieder die vier Phasendurchschnitte Q1 − Q4 aus den einzelnen Quotienten
P
y1
... ygTT . Wieder korrigiert man um den Mittelwert q = 14 Qph .
g1
Die Saisonfaktoren erhält man also aus Sph =
Qph
.
q
Sie addieren sich zu vier auf.
Beispiel Buch S.161f.
6 Indexzahlen
Zielsetzung: zeitliche Entwicklung, regionale Abweichung, sachliche Unterschiede von statistischen Variablen oder Gruppen von Variablen darstellen und deren Vergleich erleichtern.
Meÿzahlen: Nur jeweils eine statistische Variable in ihrer unterschiedlichen Ausprägung wird
verglichen.
Indexzahlen: Gruppen gleichartiger Variablen werden zusammengefasst und verglichen.
Für diese Zusammenfassung in einer Indexzahl ist das Problem der Gewichtung der einzelnen
Variablen zu lösen
6.1 Meÿzahlen
Ausgangspunkt: z.B. Zeitreihe von Beobachtungen eines Merkmals Y y0 , y1 , y2 , ..., yt , ...yT
Denition:
y0
∗ 100, yy10 ∗ 100, yy20 ∗ 100, ..., yy0t ∗ 100, ..., yyT0 ∗ 100 heiÿt eine Zeitreihe von Meÿzahlen zur
y0
Basis t=0.
Die Meÿzahl für die Basisperioe hat stets den Wert 100, die prozentuale Abweichung der übrigen Meÿzahlen von dieser Bezugsgröÿe ist sofort erkennbar.
Beispiele Skript S.4,5
6.2 Preisindices
In einer Marktwirtschaft bleiben Preise über die Zeit hinweg nicht konstant.
• Veränderung der relativen Preise durch veränderte Knappheitsrelationen
35
Titel 6 Indexzahlen
• allgemeine Tendenz zu meistens höheren, selten niedrigeren Preisen
Zur Quantizierung der zeitlichen Veränderung des allgemeinen Preisniveaus benutzt man
Preisindizes.
• Stabilität oder Instabilität des Geldwertes
• Entwicklung der Kaufkraft der Einkommen
• Nominale und reale Phänomene
Preisindizes beschreiben die durchschnittliche Preisntwicklung einer wohldenierten Gruppe
von Gütern (z.B. Lebensmittel, Dienstleistungen, BIP; Exporte)
• Unterschiedliche Preisentwicklung der einzelnen Güter in der Gruppe ⇒
• Problem der geeigneten Gewichtung bei der Durchschnittsbildung
Für die Gewichtung werden die (konsumierten, verkauften, produzierten, exportierten) Mengen
eine Rolle spielen.
Nicht die Messung der Preisentwicklung einzelner Güter wird vorgenommen, sondern die Messug der allgemeinen Preisentiwcklung (Warenkorb).
Wenn i=1,...,n die Güter und t=0,1...T die Beobachtungperioden darstellen, ist:
qit die Menge des i-ten Gutes in der Periode t.
pit dr Preis des i-ten Gutes in der Periode t.
Denition:
Das geordnete n-Tupel der transferierten Mengen
qt = (q1t , q2t , ..., qnt ) heiÿt Mengenvektor, Mengenschema oder Warenkorb der Periode t.
Denition:
Das geordnete n-Tupel der erzielten Preise
pt = (p1t , p2t , ..., pnt ) heiÿt Preisvektor der Periode t.
Der Gesamtwert des Warenkorbes als Skalarprodukt zwischen Preis- und Mengenvektor:
P
pt qt = Wt = nj=1 pjt ∗ qjt
Laspeyres-Preisindex:
Man legt sich für eine Periode einen Warenkorb fest und berechnet den Warenwert für die
P
jeweiligen Preise: pi0 ∗ qi0
Man lässt für die nächste Periode den Warenkorb gleich und berechnet den Warenwert mit
P
den Preisen dieser Periode: pit ∗ qi0
36
Titel 6 Indexzahlen
Denition:
P
p ∗q
it i0
Der Quotient PtL := P pi0
∗ 100
∗qi0
heiÿt Preisindex nach Laspeyres für die Berichtsperiode t zur Basisperiode 0.
Zwei Wertaggregate (Zusammenfassung bestimmter Güter(mengen) und ihrer Preise) werden miteinander verglichen:
Nenner: tatsächlicher Wert des Warenkorbes der Basisperiode
Zähler: ktiver Wert des Warenkorbes der Basisperiode bewertet zu Preisen der jeweilige Berichtsperiode
Beispiel: Zähler: 519,1 und Nenner 376 ⇒ Index 138, d.h. 38% Preissteigerung
Paasche-Preisindex
Denition:
P
p ∗q
Der Quotient PtP = P pi0it ∗qiti0
heipt Preisindex nach Paasche für die Berichtspreiode t zur Basisperiode 0.
Zwei Wertaggregate werden miteinander verglichen:
Zähler: tatsächlicher Wert des warenkorbes in der Berichtsperiode
Nenner: ktiver wert des Warenkorbes der Berictsperiode bewertet zu Preisen der Basisperiode
Beispiel: Zähler: 316,6 und Nenner 306,8 ⇒ Index 103,2, d.h. 3,2% Preissteigerung
Die Preisindizes als gewogene arithmetische Mittel:
Denition Preismeÿzahlen:
Πit := ΠPiti0 ∗ 100 für jedes Gut j in verschiedenen Berichtsperioden t.
Sie zeigen den Preisanstieg/-fall seit der Basisperiode an.
Satz: Beides Preisindizes sind geiwchtete arithmetische Mittel aus den Preismeÿzahlen Π
Laspeyres:
Die Gewichte sind die Wertanteile aus der Basisperiode: wj0 := pj0 ∗ qj0
P
P
W0 :=P wi0 = pi0P∗ qi0
P L = wWi00 ∗ Πit = gi ∗ Πit wobei gi das Gewicht der Produkte in t=0 ist, daraus:
Pt
gi = 1
Paasche:
In diesen Gewichten stecken die Mengen der Berichtsperiode aber auch die Preisrelationen der
Basisperiode: gjt := pj0 ∗ qji
P
P
Gt := git = pi0 ∗ qit
P
P
PtP = git G=t ∗Πit git ∗ Πit so dass man hier sieht, dass die Gewichte von Periode zu Periode
37
Titel 6 Indexzahlen
variieren.
Pro und Contra:
Laspeyres:
• PRO: Warenkörbe könnten nach 10 Jahre geändert werden
• CONTRA: Ist der Basiswarenkorb Repräsentativ?
• CONTRA: Substitutionseekte
• CONTRA: Qualitätsverbesserungen, -verschlechterungen unberücksichtigt
• CONTRA: Veraltung des Warenkorbs kann vorkommen
Paasche:
• PRO: immer aktueller Warenkorb
• PRO: Substitutionseekt abgemildert (man unterschätzt die Ination eher)
• CONTRA: Güter existieren eventuell in t=0 nicht
• CONTRA: aufwändige Ermittlung
• CONTRA: auch Mengenänderungen (durch Substutitution) beeinussen Preisindex (gewollt?)
6.3 Anwendungen
Inationsrate:
P
[
L
t+1
PtL
] ∗ 100%
Praxisbeispiel für Laspeyres-Index: DAX
30 Standardwerte: gröÿte Aktiengesellschaft i=1...30
qi0 : Gewicht der Aktie i im Warenkorb (z.B. Aktie Tui=1000 Stück zum Wert von 1 ⇔ Aktie
1
Allianz= 5000 zum Wert von 2 ⇒ Wert Tui 10
von Wert Allianz)
pit : Kurs Aktie i zum Zeitpunkt t
Basisperiode 30.12.1987 Indexwert 1000, aktuell 7743
Internationale Preisvergleiche:
piA =Preis im Ausland, gerechnet in Euro
qiI =fester Warenkorb I im Inland
pPiI =Preis im Inland Euro
P PiA ∗qiI ∗ 100
PiI ∗qiI
38
Titel 6 Indexzahlen
Probleme : wieder Substitution, Verfügbarkeit der Produkte, Wechselkurse beeinussen Ergebnis in Euro (Verzerrungen möglich)
6.4 Umbasierung
Man will eine Umbasierung auf das Jahr 1985 vornehmen. Der Wert des Warenkorbes beträgt
dort 114,6. Er wird wieder auf 100 zurückgesetzt.
100(neuerW ert1985)
Rückrechnung in neuer Reihe: 114,6(alterW
= 0, 8726 → alter vergleichbarer Wert*0,8726
ert1985)
= neuer Wert
ert1985)
Vorrechnung in alter Reihe: 114,6(alterW
= 1.146 → neuer vergleichbarer Wert*1,146 =
100(neuerW ert1985)
alter Wert
6.5 Indexreihen
Preisindexreihe: P0 = 100, P1 , ..., Pt
Preissteigerung für eine Gütergruppe von der Basisperiode 0 bis zur Berichtsperiode t: (Pt −
100)%
Prozentuale Preisveränderung zwischen verschiedenen Perioden t und t'<t: (100 PPt0 −100)%
t
6.6 Deationierung nominaler Gröÿen
Die amtliche Statistik ermittelt Wertaggregate (z.B. Investitionsrate, BIP) und dafr snd reale
Gröÿen gewünscht.
In einer Ein-Produkt-Ökonomie kein Problem: xreal
=20l Milch und xreal
t
t+1 =30l Milch
In der Realität jedoch inhomogene Aggregate
Nominale Wertaggregate: Xtnominal = pit ∗ qit
Reale Gröÿen durch Wertaggregate zuPkonstanten Preisen einer Basisperiode t=0 approxi= pi0 ∗ qit
mieren oder operationalisieren: xreal
t
xnominal
t
Aus dem Paasche-Preisindize xreal ∗ 100 = PtP ermittelt man eine preisbereinigte oder deP
t
ationierte Zeitreihe: Xtber = x
nominal
t
PtP
∗ 100
meist ist der Paasche Index nicht verfügbar, deshalb benutzt man folgende
Warenkorb möglichst nahe an korrekten anpassen
Laspeyres anstatt Paasche benutzen
Approximation:
39
Titel 6 Indexzahlen
6.7 Mengenindizes
Zielsetzung: Die durchschnittliche Mengenänderung einer Gruppe von n Gütern soll angegeben
werden.
Mengenindex-Zeitreihe: Q0 = 100, Q1 , ..., Qt
Schwierigkeit: Die einzelnen Mengen des Mengenvektors können oft nicht sinnvoll addiert
werden:
• verschiedene Gröÿenarten (kg, Stück)
• sehr verschiedene Bedeutung (Rohsto Kohle - Rohsto Gold)
Deshalb geht man entsprechend der Berechnung des Preisindizes vor - und gewichtet jetzt
umgekehrt die Mengen mit den Preisen der Güter.
Laspeyres-Mengenindex:
Denition:
P
q ∗p
it
i0
Der Quotient QLt = P qi0
∗pi0
heiÿt Mengenindex nach Laspeyres für die Berichtsperiode t zur Basisperiode 0.
Zwei Wertaggregate werden miteinander verglichen:
Zähler: ktiver Wert des Warenkorbs der Berichtsperiode, bewertet mit Preisen der Basisperiode
Nenner: tatsächlicher Wert des Warenkorbs der Basisperiode
Paasche Mengenindex:
Denition:
Der Quotient
=
heiÿt Mengenindex
QPt
P
P qit ∗pit
qi0 ∗pit
nach Paasche für die Berichtsperiode t zur Basisperiode 0.
Zwei Wertaggregate werden miteinander verglichen:
Zähler: tatsächlicher Wert des Warenkorbes der Berichtsperiode
Nenner: ktiver Wert des Warenkorbes der Basisperiode, bewertet zu Preisen der Berichtsperiode
40
Titel 7 Wahrscheinlichkeitsrechnung
7 Wahrscheinlichkeitsrechnung
7.1 Einführung:
bisher: rein deskriptive Analyse, keine Erklärung des Daten generierenden Prozesses (DGP)
DGP: bestimmte Wahrscheinlichkeit für das Auftreten von Ereignissen
Ziele:
• ökonomische Modellierung
• Bestimmung DPG
• Erklärungen für Daten
• Prognosen
• Hypothesentest
Beispiele:
• 1mal Münze werfen und Kopf kommt; W.keit: 0,5
• Würfeln und 6 kommt; W.keit:
1
6
• VfB wird Fuÿballmeister; W.keit: ?
• Portfolio wird morgen 10% weniger Wert sein
• BIP steigt um 5%
• Kreditnehmer John Doe zahlt nicht zurück
2 Sichtweisen auf die Wahrscheinlichkeitsrechnung
Denitionen
Ereignisraum S: Menge der möglichen Ereignisse des Experiments
Elemente von S: Elementarereignisse
Beispiele:
2x Münzwurf S=KK,KZ,ZK,ZZ wobei in der Klammer die Elementarereignisse stehen
Werfen der Nadel auf liniertes Papier und Messen des Winkels zu einer Linie S = α/0 ≤ α ≤ 180
wobei die messbaren Winkel die Elementarereignisse sind
→es existiert ein diskreter (endlich viele Elementarereignisse [abzählbar unendlich viele Ereinisse])und ein stetiger (unendlich viele Elementarereignisse [überabzählbar viele Ereignisse])
Ereignisraum
41
Titel 7 Wahrscheinlichkeitsrechnung
Tabelle 7: Titel
klassische Frequentisten
Bayesianisch
objektiv
subjektiv
Konzeptioneller Rahmen: Zufallsexperiment
Wahrscheinlichkeit=Quantizierung der Stärke
von Hypothesen
→mögliche
Ergebnisse bekannt
→Ereignisse
= Wahrscheinlichkeiten werden
angepasst
→konkretes
Ergebnis des Versuchs nicht bekannt
a-priori Wahrscheinlichkeiten
→
a-posteriori
Wahrscheinlichkeiten
→Experiment
wiederholbar unter gleichen
Bedingungen
Ereignis A:Teilmenge des Ereignisraums S
A=mindestens einmal Kopf
A=KK,KZ,ZK A⊂S
Besondere Ereignisse:
unmögliches Ereignis:
sicheres Ereignis: S
Ereignis wieder in Menge zusammengefasst:
Ereignismenge E(S) oder einfach E
E=mind. 1x Kopf;zweimal Zahl; keinmal Zahl=KZ,ZK,KK;ZZ;KK
Ziel: Zuordnung von Wahrscheinlichkeiten für Ereignisse aus E
7.2 statistische Wahrscheinlichkeit:
Zufallsexperiment nx durchgeführt
Ereignis A tritt absHn (A) auf
rel.H.: hn (A) = absH(A)
n
Beispiel:
limn→∞ hn (A) → P(A): statistische Wahrscheinlichkeit
Die hn an sich sind also noch keine Wahrscheinlichkeiten, sondern werden es erst durch den
Grenzwert.
42
Titel 7 Wahrscheinlichkeitsrechnung
Tabelle 8: Titel
n
absHn (Kopf )
hn (Kopf )
10
7
0,7
20
11
0,55
40
17
0,425
60
24
0,4
100
47
0,47
1000
492
0,492
5000
2515
0,503
7.3 Klassische Wahrscheinlichkeit
Der Laplacsche Ereignisraum ist deniert als:
S = (e1 , ..., em ), und darin haben alle Elementarereignisse die gleiche Eintrittswahrscheinlich1
keit P (ei ) = m
(Prinzip des unzureichenden Grundes)
Auÿerdem gibt es eine endliche Zahl von Elementarereignisse.
Wenn A=Ereignis und damit Menge von elementarereignissen:
P (A) = AnzahlElementeinA
= mg =Wahrscheinlichkeit
AnzahlElementeinS
⇒ Kombinatorik hilft bei der Berechnung
7.4 Mengentheoretische Konzepte
Vereinigung
A ∪ B : Das Ereignis A oder B tritt genau dan nein, wenn Ereignis A oder
ereignis B oder beide zugleich eintreten.
Bsp.: A=Augenzahl≥ 4=4,5,6; B=Augenzahl gerade=2,4,6 → A ∪ B = 2, 4, 5, 6 → P (A ∪
B) = 46
Durchschnitt
A∩ B: Das Ereignis A und B tritt genau dann ein, wenn Ereignis A und
Ereignis B zugleich eintreten.
Bsp.: Ereignisse oben → A ∩ B = 4, 6 → P (A ∩ B) = 62
Negation A: Das Ereignis Nicht A
Bsp.: Ereignis oben → A = 1, 2, 3
tritt genau dann ein, wenn A nicht eintritt.
Dierenz
A/B: Das Ereignis A ohne B tritt genau dann ein, wenn zwar A aber nicht B
eintritt.
Bsp.: Ereignisse oben → A/B=5
Komplementäres Ereignis: S/A ist das zu A komplementäre Ereignis (Vgl. Negation)
43
Titel 7 Wahrscheinlichkeitsrechnung
Disjunktes Ereignis: Zwei Ereignisse A und B heiÿen disjunkt wenn A∩ B=leere Menge
7.5 Axiomatik der Wahrscheinlichkeitstheorie
Funktion:
P : E → R; A → P (A) (jedem A∈ E wird eine reelle Zahl zugeordnet, die die Wahrscheinlichkeit angibt)
Folgende drei
Axiome müssen jedoch erfüllt sein:
• Axiom K1: P (a) ≥ 0 für jedes A=E.
Die Wahrscheinlichkeit P(A) jedes Ereignisses A ist eine nichtnegative reelle Zahl
• Axiom K2: P(S)=1
Das sichere Ereignis hat die Wahrscheinlichkeit 1
• Axiom K3: P(A∪ B)=P(A)+P(B), falls A∩ B=leeres Menge
Additionsregel für disjunkte Ereignisse
• Axiom K3*: P (A1 ∪ A2 ∪ ...) = P (A1 ) + P( A2 ) + ...
eine unendliche Folge von paarweise disjunkten Ereignissen
Kolmogorovs Ereignisraum:
E muss abgeschlossen sein, d.h.
A∈ E, dann auch A ∈ E
S∈ E
alle vereinigten A∈ E
(S,E,P(*)) heiÿt Kolmogorovscher Wahrscheinlichkeitsraum, wobei S=Ereignisraum, E=abgeschlossener
Ereignisraum, P=Wahrscheinlichkeitsmaÿ
Wenn E Anforderungen erfüllt: Sigma-Algebra (kleinste Sigma-Algebra: E=S;leeres menge
7.6 Theoreme aus den Axiomen
Theorem 1:
P(A)=1-P(A)
A und A sind disjunkt und ihre Vereinigung=S.
Nach K3 ist P(A∪A)=P(A)+P(A)=P(S)=1
Damit ist P(A)=1-P(A)
44
Titel 7 Wahrscheinlichkeitsrechnung
Theorem 2:
P(unmögliches Ereignis)=0
Unmögliches ereignis und S sind komplementäre Ereignisse. Nach K2 ist P(S)=1 und nach
Theorem 1 ist dann P(S )=P(unmögliches Ereignis)=1-P(S)=1-1=0
Theorem 3
A1 , A2 , ..., An sind paarweise
disjunkt:
P
P (A1 ∪ A2 ∪ ...An ) = P (Aj )
Beweis durch vollständige Induktion von K3
Theorem 4
P(A/B)=P(A)-P(A∩ B)
Theorem 5
Additionssatz für beliebige Ereignisse:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Gilt auch wenn A ∩ B 6= 0
Nach K3 gilt: A ∪ B : (A/B) ∪ (A ∩ B) ∪ (B/A)
P (A ∪ B) = P (A/B) + P (A ∩ B) + P (B/A)
P (A) = P (A ∩ B) + P (A/B)undP (B) = P (A ∩ B) + P (B/A)
einsetzen ergibt
P (A ∪ B) = P (A) − P (A ∩ B) + P (A ∩ B) + P (B) − P (A ∩ B) = P (A) + P (B) − P (A ∩ B)
Additionssatz für drei beliebige Ereignisse:
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
Theorem 6
Monotonieeigenschaft des Wahrscheinlichkeitsmaÿes:
A ⊂ B ⇒ P (A) ≤ P (B)
7.7 Bedingte Wahrscheinlichkeit
Denition: Bedingte Wahrscheinlichkeit:
Die Wahrscheinlichkeit des Eintretens eines Ereignisses A unter der Bedingung dass Ereignis B
eingetreten ist (oder gleichzeitig mit A eintritt heiÿt bedingte Wahrscheinlichkeit von A unter
der Bedingung B.
Seien A und B zwei Ereignisse eines gegebenen Wahrscheinlichkeitsraums. Die bedingte Wahrscheinlichkeit ist dann deniert als:
45
Titel 7 Wahrscheinlichkeitsrechnung
für 0<P(B);P(A∩ B);P(A!B)<1
P(A!B):= P P(A∩B)
(B)
Möglichkeiten für A∩ B siehe eigene Anlage.
Tabelle 9: Zwei Interpretationen
klassisch-frequentistisch
bayesianisch-subjektiv
Einschränkung des Ereignisraum S auf
Veränderung (Update) durch subjektive
Elementarereignisse, die den Eintritt von B
Wahrscheinlichkeit durch Eintritt B
implizieren
zeitliche Abfolge
B: Würfel≥
4→
Ereignisraum dann 4,5,6
Beispiel 1:
gleichzeitiger Münzwurf und Würfelwurf
B: Münze zeigt Kopf
A: Zahl ≥ 4
P(A!B)=P(A!B )=P(A)= 21
Beispiel 2:
B: 10x hintereinander rot beim Roulette
A: beim elften Mal kommt auch rot
P(A!B)=P(A)= 18
37
Beispiel 3
einmaliger Würfelwurf
S=(1,2,3,4,5,6)
B: Zahl > 2 =(3,4,5,6) und B =(12)
A: Zahl ≥ 4 =(4,5,6)
Berechnung nach Denition:
P(B)= 46
P(A∩ B)= 63
P(A!B)= P P(A∩B)
=
(B)
3
6
:
4
6
=
3
4
Direkte Berechnung
Einschränkung von S auf Elemente bei denen B eintritt:
B=(3,4,5,6)=SB ; (1,2) fällt weg
A=(4,5,6); A in SB =(4,5,6)
B
P(A!B)= AnzahlAinS
= 43
SB
46
Titel 7 Wahrscheinlichkeitsrechnung
7.8 Stochastische Unabhängigkeit
Denition:
Zwei Ereignisse A und B heiÿen stochastisch unabhängig oder kurz unabhängig wenn:
P(A!B)=P(A) oder P(B!A)=P(B)
Gilt dies nicht heiÿen sie stochastisch abhängig.
Multiplikationssätze der Wahrscheinlichkeitsrechnung:
• bei stochastischer Abhängigkeit gilt:
• P(A∩ B)=P(A)*P(B!A)
• P(B∩ a)=P(B)*P(A!B)
• bei stochastischer Unabhängikeit gilt:
• P(A∩ B)=P(A)*P(B) bzw. P(B∩ A)=P(B)*P(A)
Implikationen daraus
• P(A!B)= P P(A∩B)
=
(B)
P (A)∗P (B)
P (B)
= P (A)
• damit gilt auch für P(B!A)=P(B)
NICHT VERWECHSELN:
Wenn A und B sich ausschlieÿen (disjunkt) gilt:
P(A∪ B)=P(A)+P(B)
Wenn A und B stochastisch unabhängig gilt:
P(A∩ B)=P(A)*P(B)
Damit impliziert weder stochastische Unabhängigkeit dass zwei Ereignisse disjunkt sind, noch
dass zwei disjunkte Ereignisse stochastisch unabhängig sind.
47
Herunterladen