Explorative Datenanalyse, Statistik 1

Werbung
Explorative Datenanalyse WS 07/08 – Grammig
1/69
Inhalt:
Teil I: Beschreibende Statistik
1.
2.
3.
4.
5.
6.
7.
Statistische Merkmale und Variablen
Verteilungsfunktion, Quantile, Histogramm
Maßzahlen zur Beschreibung statistischer Verteilungen
Zweidimensionale Verteilungen
Lineare Regressionsrechnung
Beschreibung von Zeitreihen
Indexzahlen, Preisindizes, Deflationierung
Seite 2
Seite 4
Seite 10
Seite 21
Seite 30
Seite 38
Seite 47
Teil II: Wahrscheinlichkeitsrechnung
8. Elementare Kombinatorik
9. Grundlagen der Wahrscheinlichkeitstheorie
Seite 54
Seite 57
10.Litaruturverweis
Seite 69
Explorative Datenanalyse WS 07/08 – Grammig
2/69
1. Statistische Merkmale und Variablen
Beispiel 1
Statistische Variable X
(eine Funktion)
{0, 1} c
Beispiel 2
[0, ∞[ c
ℜ
ℜ
X [ M(ω) ]
Geschlecht
→ abgeleitet aus Merkmal M(ω)
Aktienkurs eines Unternehmens
am Tag t
Untersuchungseinheit
(Mengeneinheit) ω
Daimler
Boris Becker
ausgesucht aus Grundgesamtheit
(statistischen Masse) Ω (Menge) alle Wimbledon-Gewinner
alle DAX-Unternehmen oder
“alle” Aktienkurse von Daimler
Ω := {ω | ω erfüllt IK}
IK: Identifikationskriterium
aus Primärerhebung
(spez. für diesen Zweck)
Skalenniveau
* nominal skaliert:
keine natürliche Rangfolge
(z.B. Mann/Frau)
* ordinal geordnet:
natürliche Rangfolge mit
nicht angebbaren
Abständen
(z.B. Schulnoten)
* kardinal geordnet
angebbare Abstände
(z.B. Einkommen)
aus Sekundärerhebung
(Daten aus anderer
Quelle)
* Zeitreihendaten
(Zeitraum)
Statistische Variable X
oder
Merkmal M
Qualitativ
→ der Beschaffenheit nach,
endlich
* Querschnittsdaten
(zu einem Zeitpunkt)
* Paneldaten
(Kombination aus
Zeitreihen- u.
Querschnittsdaten
Quantitativ
→ zahlenmäßig/metrisch
(müssen nicht von M nach X
umgerechnet werden)
Stetig: unendlich viele Elemente (jeden
beliebigen Wert in einem Intervall)
Diskret: abzählbare
Ausprägungen
Explorative Datenanalyse WS 07/08 – Grammig
3/69
weitere Begriffe und deren Differenzierung:
statistische Einheiten (auch Merkmalsträger):
Grundlegende Objekte bzw. Informationsträger, deren Merkmale in einer empirischen
Untersuchung erhoben werden. Durch Einschränkungen, den so genannten Identifikationskriterien,
erhält man aus einer statistischen Einheit die zu beobachtende Grundgesamtheit, auch statistische
Masse genannt (aus obigem Beispiel: statistische Einheit = Tennisspieler; Grundgesamtheit = alle
Wimbledon-Gewinner).
Merkmale:
Sind die Eigenschaften der statistischen Einheiten (aus obigem Beispiel: Geschlecht). Die
verschiedenen Erscheinungsformen heißen Merkmalsausprägungen (männlich, weiblich).
Unterscheidung „statistische Variable” und „Merkmal”:
Die statistische Variable ist eine Funktion, die den Merkmalsausprägungen der
Untersuchungseinheiten ω (aus obigem Beispiel: Boris Becker) reelle Zahlen zuordnet. Ein
Merkmal kann NUR dann als Variable benutzt werden, wenn die Merkmalsausprägungen bereits als
reelle Zahlen vorliegen (z.B. Aktien).
Quantifizierung vs. Signierung:
(Qualitative Merkmale in Zahlen ausdrücken)
•
Quantifizierung:
Ausbildungsniveau mit der dazu nötigen Mindestzahl an Ausbildungsjahren ausdrücken.
•
Signierung:
die Merkmalsausprägungen des Geschlechts mit „0“ (für „männlich“) und „1“ (für „weiblich“)
ausdrücken. → scheinbare Quantifizierung
metrische Daten:
Werte der Daten lassen sich addieren und subtrahieren → Ausprägungen müssen immer Zahlen
sein.
Verfeinerung des kardinalen Skalenniveaus:
•
verhältnisskaliert:
Es existiert ein Nullpunkt → Bildung von Quotienten möglich (z.B.: Einkommen, Preis,
Gewicht) → „das Einkommen von ω1 ist doppelt so groß wie das von ω2“
•
intervallskaliert:
Es existiert kein Nullpunkt → lediglich die Differenz zwischen den Merkmalsausprägungen
können sinnvoll interpretiert werden (z.B.: Temperaturangaben bei °C)
Stichproben:
•
reine Zufallstichprobe:
Jedes Element der Grundgesamtheit besitzt die gleiche „Chance“, in die Stichprobe mit
aufgenommen zu werden (in der Praxis irrelevant).
•
repräsentative Stichprobe:
„Kreieren“ einer der Grundgesamtheit entsprechenden Stichprobe. Man versucht mithilfe von
anderen, im statistischen Zusammenhang stehenden Merkmalen die Repräsentativität zu
gewährleisten → eingeschränkte Zufallsauswahl, Eliminieren von Selbstselektion
Explorative Datenanalyse WS 07/08 – Grammig
4/69
2. Verteilungsfunktion, Quantile, Histogramm
Exkurs: Notation
X: statistische Variable (großes X)
n: Anzahl der Beobachtungen
X(ω)
„ur – Liste“:
→ unsortierte Liste der Daten
ω1
x1
ω2 ........... ωv
x2 ........... xv
ωn
xn
ωn: Elemente / Untersuchungseinheiten
xn: Variablen / Merkmalswerte
Die Folge der Merkmalswerte (x1, x2, ...), die n-fach vorliegen, heißt Beobachtungsreihe der
Variablen X oder einfach statistische Reihe X. Die Anordnung der Werte spielt keine Rolle, sie
darf – wenn es sich nicht um Zeitreihen (dazu mehr im 6. Kapitel) handelt – beliebig verändert
werden.
Bsp. (Klausurpunkte):
ω1
ω2
ω3 ........... ω290
42
47,5
31,5
68
für diskrete X:
x1 < x2 < x3 ... < xi ... < xk
0 < 0,5 < 1 .......
< 110
k = 221
[0 → kleinster annehmbarer Wert]
→ nach Größe geordnete Liste der möglichen Variablenwerte – Konfusion möglich (da k ≤ n)!
k: Anzahl der vorkommenden Merkmalsausprägungen
absolute Häufigkeit:
abs H(X = xi)
z.B.: “wie viele Studenten haben genau 10 Punkte?”
oder n(xi ) oder ni
Anzahl Beobachtungen für X = xi → absolute Häufigkeitsfunktion
relative Häufigkeit:
rel H(X = xi)
z.B.: “wie viele Prozent aller Schüler haben genau 10 Punkte?”
oder h(xi) oder hi =
hi ∙ 100 % => Prozentzahl
ni, hi für diskrete X sinnvoll
Explorative Datenanalyse WS 07/08 – Grammig
Die Darstellung der absoluten bzw. relativen Häufigkeiten in Tabellen nennt sich absolute bzw.
relative Häufigkeitsverteilung der statistischen Variablen X.
Stengel-Blatt-Diagramm:
(Stem-and-Leaf-Display)
Möglichkeit kleine Datenmengen zu verwerten → Konzentration wird sichtbar
Bsp.: Altersbefragung
13 36 8 12 17 41 32 21 23 18 19 18 27 30
0|8
1|3 2 8 9 8
2|1 3 7
3|6 2 0
4|1
Verteilungsfunktion:
für stetige und diskrete X brauchbar
für diskrete X:
H(x) = summiere alle h(xi) für xi ≤ x
H(x):
- empirische Verteilungsfunktion
- Summenhäufigkeitsfunktion
korrekte grafische Darstellung der Häufigkeitfunktion h(x) und Verteilungsfunktion H(x):
xi
1
2
3
4
hi
0,1 0,2 0,4 0,3
5/69
Explorative Datenanalyse WS 07/08 – Grammig
6/69
Die empirische Verteilungsfunktion gibt für jedes reelle x die relative Häufigkeit aller
Beobachtungen an, die gleich groß oder kleiner als das jeweilige x sind. Der Wertebereich ist auf
das Intervall [0, 1] beschränkt.
Der Graph hat die Gestalt einer Treppenfunktion. Die Sprungstellen befinden sich an den x-Werten
mir positiver relativer Häufigkeit (im obigen Beispiel also 1, 2, 3 und 4). An diesen Stellen springt
der Funktionswert um den Betrag der relativen Häufigkeit hi nach oben.
Zwischen zwei benachbarten Sprungstellen verharrt die Funktion auf konstantem Niveau.
Quantile: „Datenteiler“
Eine Zahl x[q] mit 0 < q < 1 heißt q-Quantil, wenn sie die statistische Reihe X so aufteilt, dass
mindestens 100 – q % ihrer Beobachtungswerte kleiner oder gleich x[q] sind und gleichzeitig
mindestens 100 ∙ (1 – q) % größer oder gleich x[q] sind.
qx % kleinste
q * 100 %
(1 – q) * 100 %
100
(1 - q)x % größte Werte
kleiner/gleich
x[q]
größer/gleich
x[q]
100
Quantilsfunktion:
...ist der Kehrwert von der Verteilungsfunktion H(x)
H(x) = p
p * 100 % Beobachtungen
X≤x
gegeben gesucht
H[x[q]] = q (gegeben)
x[q] = H-1 [q]
Explorative Datenanalyse WS 07/08 – Grammig
7/69
Vergleich:
Verteilungsfunktion: „Wie viel Prozent aller Schüler haben weniger als 10 Punkte? - Antwort: 10“
Ablesen erfolgt von der x-Achse an die y-Achse
Quantilsfunktion: „10 Prozent aller Schüler liegen im 0,1 Quantil der Notenverteilung und haben
somit weniger als 10 Punkte.“
Ablesen erfolgt von der y-Achse an die x-Achse
Bsp.: Quantile und VaR („Value-at-Risk“)
“Value at Risk” (Wert im Risiko) bezeichnet ein Risikomaß, das angibt, welchen Wert der Verlust
einer bestimmten Risikoposition (z. B. eines Portfolios von Wertpapieren) mit einer gegebenen
Wahrscheinlichkeit und in einem gegebenen Zeithorizont nicht überschreitet.
Gekaufte Anlage (Aktie, Staatsanleihe)
→ in 10 Tagen wieder verkaufen
einfache Rendite: x =
→ Prozentsatz: x * 100 %
= ln [
≈ x ( für
] = log-Rendite
klein)
1% - Quantil: VaR at 1 % significance level
→ welche Anlage ist risikoreicher? - a.)
Explorative Datenanalyse WS 07/08 – Grammig
8/69
Fall a.) x[0,01] ? Konvention -0,163
→ Wert an dem q(0.01) gerade überschritten wird
Fall b.) x[0,005]
→ jeder Wert [-0,180 ; -0,163[ ; teilt Daten korrekt
Schira: Mittelwert (-0,180 - 0,163) : 2
Besondere Quantile:
x[0,01], x[0,02] ... x[0,99]
x[0,1], x[0,2] ... x[0,9]
x[0,25], x[0,5] ... x[0,75]
x[0,5]
Perzentile
Dezile
Quartile
Median
Häufigkeitsdichtefunktion, Histogramme:
•
Histogramm = Darstellungsform; geeignet für stetige Daten
; geeignet für diskrete Daten mit vielen Merkmalsausprägungen
•
Klassengrenzen, Größenklassen → Merkmalsausprägungen werden in endliche Intervalle
eingeteilt
•
erfolgt aus mess-, erhebungs- oder aufbereitungstechnischen Gründen
•
bessere und aussagekräftigere Darstellungsform der Daten
... fällt ein Wert genau auf die Klassengrenze, so ist er der kleineren Größenklasse zuzuordnen
relH (ζi-1 < x ≤ ζi) = hi
∆i = Klassenbreite = ζi - ζi-1 → flächenproportional
Erstellung mit approxmierendem Polygonzug:
Verbinden der Sprungstellen der Verteilungsfunktion (ζ1 mit ζ2 etc.)
→ (durchschnittliche) Häufigkeitsdichte: 1. Ableitung
direkte Erstellung:
= normierte Häufigkeit
abs. Häufigkeit
Gesamtzahl der
Beobachtungen
...wird an der y-Achse abgetragen
Explorative Datenanalyse WS 07/08 – Grammig
Bsp.:
approximierender Polygonzug:
Histogramm:
→ relative Häufigkeit: Fläche der Säule; NICHT die Höhe
Fallstricke:
zu feine oder zu grobe Intervalle?
•
starke Präsenz von möglichen Zufallsschwankungen
9/69
Explorative Datenanalyse WS 07/08 – Grammig
3. Maßzahlen zur Beschreibung statistischer Verteilungen
Ziel: Beschreibung der Verteilung der Daten mit wenigen Maßzahlen
Lageparameter/Mittelwerte:
●
●
„Werte, um die sich Daten gruppieren.”
Abstand der Beobachtungen vom Mittelwert möglichst klein
Beispiel:
10/69
Explorative Datenanalyse WS 07/08 – Grammig
11/69
1. Kandidat: arithmetisches Mittel
=
n
→ arithmetisches Mittel der n-ten Beobachtung
In Worten: Summe der Merkmalswerte geteilt durch die Anzahl n der Merkmalswerte. Das
arithmetische Mittel balanciert die Merkmalswerte gerade aus.
Eigenschaften von
:
(→ die Werte, die größer als der Mittelwert, und die, die kleiner als dieser
sind, heben sich gegenseitig auf)
:
Zentrum
der
Masseverteilung
n
●
●
Bsp.:
v
xv
1
5
2
5
3
→
20
3 = 10
●
n
●
n
●
●
minimiert:
kann, muss aber nicht in den Daten vorkommen
(Bsp.: durchschnittliche Kinderzahl pro Familie: 1,52 Kinder)
ausreißerempfindlich (siehe „Studenten Uni D“)
demokratisch → berücksichtigt jeden Wert
n
=
=
≠ beim gewogenen arithmetischen Mittel:
g
= g1x1 + g2x2 ... + gnxn
→ statistische Eigenschaften treffen nicht zu.
Explorative Datenanalyse WS 07/08 – Grammig
●
12/69
alternative Berechnung für diskrete Variablen:
n=
i-te Merkmalsausprägung
●
Summe über
Betrachtungen
Vorteil: Man benötigt im Prinzip keine Einzelwerte, sondern lediglich deren Summe und die
Anzahl n, um es zu bilden
2. Kandidat: Median
xMed,
, x[0,5] → Wert, der in der Mitte liegt
Berechnung:
● Unterscheidung bei gerader und ungerader Anzahl n
● hilfreich: der Größe nach anordnen:
x(1) ≤ x(2) ... ≤ x(n)
kleinster Wert
größter Wert
→ falls n ungerade
xMed
→
≠
●
●
→ falls n gerade
bei asymmetrischer Verteilung
Vorteile: - keine Ausreißerempfindlichkeit
Bsp.: Kinderzahl in 9 Haushalten: 0 0 0 0 1 2 3 3 69
arithm. Mittel: 8,66
Median: 1
- auch bei nicht metrischen, aber ordinalen Daten anwendbar
Nachteil: enthält weniger Information (arithm. Mittel erlaubt das Schließen auf die
Gesamtzahl)
Minimierung mit Median und arithm. Mittel:
•
•
keine andere Zahl hat eine kleinere Summe absoluter Abweichungen von vorgegebenen
Ausgangsdaten als deren Median.
keine andere Zahl hat eine kleinere Summe quadrierter Abweichungen von vorgegebenen
Ausgangsdaten als deren arithmetisches Mittel
3. Kandidat: Modus
xM: der häufigste Merkmalswert einer statistischen Reihe
xM = xi , mit h(xi) > h(xk), für alle k ≠ i
Explorative Datenanalyse WS 07/08 – Grammig
13/69
unimodal: statistische Verteilungen, die nur einen Modalwert besitzen
→ keine allzu große Aussagekraft!
Quartilsmittel:
Midrange:
[x[0,25] + x[0,75]]
(x(1) + x(n))
4. Kandidat: Geometrisches Mittel
Anwendung beim Mitteln von Quotienten, Prozenten, Wachstumsraten (Beschreibung von
Zeitreihen)
Daten:
t pt
(pt – pt-1) / pt-1 * 100 %
pt / pt-1
0
100
1
200 1
100 %
2
200/100
2
100 -0,5
50 %
0,5
100/200
[-1] → Nettowachstumsrate
[* 100 %]
=0%
Berechnung erfolgt (brutto) über Wachstumsfaktoren und nicht über Wachstumsraten (stets > 0).
Um die Nettowachstumsrate zu erhalten, zieht man nach der Berechnung des geometrischen Mittels
1 von diesem Ergebnis ab.
allg. für n-Perioden:
[-1]
Gx =
allg.: Bruttowachstumsraten:
Gx :=
Gx <
(Ausnahme: alle Werte der Reihe sind gleich also bei gleichen Wachstumsraten)
→ die xi/Gx Quotienten multiplizieren sich zu 1 auf
Explorative Datenanalyse WS 07/08 – Grammig
14/69
Wenn der Wert p0 pro Periode um [Gx - 1][*100%] wächst, bin ich nach n Perioden bei pn
Durchschnittswachstumssatz.
Gx und log-Renditen (alternativ: ln)
In der Praxis wird (aus Gründen der Einfachheit) das arithmetische Mittel zur approximativen
Annäherung an die durchschnittliche Wachstumsrate dem genauen geometrischen Mittel oftmals
vorgezogen.
5. Kandidat: Harmonisches Mittel
, xi > 0
Zähler ist stets konstant
Hx < Gx <
...wird zur Berechnung von Durchschnittsgeschwindigkeiten verwendet.
Ökonomisches Beispiel zum harmonischen Mittel:
ein Unternehmen besitzt 3 Produktionsstätten:
(1) In jeder Produktionsstätte werden 60 Stück produziert...
Produktionsstätte Produktivität benötigte Stunden
1
5 Stücke
60/5 = 12 h
2
6 Stücke
60/6 = 10 h
3
10 Stücke
60/10 = 6 h
Durchschnittsproduktivität:
(2) In allen Produktionsstätten werden 8 Stunden gearbeitet...
Explorative Datenanalyse WS 07/08 – Grammig
15/69
Produktionsstätte produzierte Stückzahl in 8 Stunden
1
5*8 = 40 Stück
2
6*8 = 48 Stück
3
10*8 = 80 Stück
Durchschnittsproduktivität:
arithmetisches Mittel:
•
symmetrische, rechtssteile oder linkssteile Verteilung?
symmetrisch:
Streuungsmaße:
→ sx2(B) > sx2(A)
rechtssteil (= linksschief):
linkssteil (= rechtsschief):
Explorative Datenanalyse WS 07/08 – Grammig
Schreibweise: s2 = sx2
Rechenregeln (empirische Varianz):
•
16/69
empirische Varianz: quadrierte Abweichung vom Mittelwert
große Varianz→ starke Streuung
kleine Varianz → geringe Streuung
stammt vom arithmetischen Mittel ab, erbt somit auch alle
Schwächen des arithmetischen Mittels
Umformung der Varianz:
Alternative Streuungsmaße:
Spannweite: Differenz zwischen dem größten und kleinsten Wert
Eindämmen der Ausreißerempfindlichkeit durch Quartilsabstände (→ Eingrenzung der Daten)
1 2 3 4
•
1. u. 4 Quartil fallen weg.
Spannweite zwischen 2. u. 3. Quartil
Variationskoeffizient: Quotient aus Standardabweichung und Absolutbetrag des Mittelwerts.
Relatives Maß, das die Streuung relativ zum Niveau der statistischen Reihe angibt.
Findet Verwendung, um die Volatilität einer Aktie zu berechnen.
•
Explorative Datenanalyse WS 07/08 – Grammig
17/69
für diskrete Daten:
K: verschiedene Merkmalsausprägungen
(z.B.: 0,1,2,3...K)
rel. Häufigkeit
arithmetisches Mittel
≠
Standardabweichung
= Standardabweichung
Fallstricke: Streuung, Konzentration, Unsicherheit, Chance & Risiko
•
Was geschieht beim Umskalierung:
DM → € (Bsp.: Einkommen)
v
xv (in T DM)
1
110
2
90
3
100
= 100
(DM)
1 € = 1,95583 DM
v
xv (in T €)
1
52,24
2
46,02
3
51,13
=>
= 51,13
s2(DM) = 66,67
s2(€) = 17,43
?
= (1,95583)2
s(€) = 4,175
→ s(DM) ist um 1,95583 größer als s(€).
Explorative Datenanalyse WS 07/08 – Grammig
•
wenn y = a ∙ x, dann...
•
wenn y = x + a, dann...
18/69
yv = xv + a → jede Betrachtung
•
s oder s² als Vergleichsmaß für Ungleichheit? - Nein!
Bsp.:
3 Bauern (Österreich nach 30-jährigem Krieg)
nach EU-Sponsoring (+ 30 Kühe)
v
xv (=Anzahl Kühe)
v
xv
1
1
1
31
2
2
2
32
3
7
3
37
s = 2,62
s = 2,62
Konzentrationsmaße:
Fragestellungen:
Welcher Anteil der (Merkmals-)Summe entfällt auf den Ärmsten oder Kleinsten, welcher Anteil auf
die zwei Ärmsten oder Kleinsten usw.?
absolute Konzentration:
hoher Anteil der Merkmalssumme S entfällt auf eine kleine absolute Anzahl von Mermalsträgern
→ (z.B. 4 Unternehmen machen 75 % des Gesamtumsatzes)
•
Explorative Datenanalyse WS 07/08 – Grammig
19/69
relative Konzentration:
hoher Anteil der Merkmalssumme entfällt auf einen kleinen Anteil der Merkmalsträger
→ z.B. nur knapp 4 % des Einkommensteueraufkommens wurde vom unteren Drittel der
Steuerpflichtigen aufgebracht
•
Lorenz-Kurve:
Bedingungen:
(1) keine negativen Merkmalsausprägungen (xi ≥ 0)
(2) Merkmalsausprägungen werden der Größe nach angeordnet (0 ≤ x1≤ x2 ... ≤ xk)
(3) sinnvoller und interpretierbarer Einsatz der folgenden Größen:
ni xi ≥ 0
und
Konstruktion:
x-Achse: Werte der empirischen Verteilungsfunktion
y-Achse: Werte des kumulierten Anteils an der Merkmalssumme
Merkmalssumme
Beispiel: produzierte PKWs im Jahr 1995
Marke
i
ni
xi
xi
kumuliert
Hi in %
Mi in %
Porsche
1
1
18.868
18.868
14,3
0,5
Ford
2
1
350.663
369.531
28,6
10,5
Audi
3
1
447.683
817.214
42,9
23,3
Mercedes
4
1
550.287
1.367.501
57,1
38,9
BMW
5
1
563.431
1.930.932
71,4
55,0
Opel
6
1
743.819
2.674.751
85,7
76,1
VW
7
1
838.090
3.513.660
100
100
K
Explorative Datenanalyse WS 07/08 – Grammig
20/69
Definition:
Ein Streckenzug, der in einem Koordinatensystem ausgehend vom Ursprung P0=(0, 0) die Punkte Pi
= (Hi, Mi) miteinander verbindet, heißt Lorenzkurve (mittels Approximation zur Kurve
transformierbar).
=> je gleichmäßiger die Verteilung, desto gerader die Lorenzkurve bzw. desto näher liegt die
Lorenzkurve an der 1. Winkelhalbierenden (der 45°-Linie der völligen Gleichheit)
=> die Ungleichheit ist umso kleiner, je näher die Lorenzkurve der 45°-Linie kommt, und die
Ungleichheit ist umso größer, je weiter sich die Lorenzkurve von der 45°-Linie entfernt
=> keine Konzentration in einer Verteilung liegt vor, wenn alle Elemente denselben Merkmalswert
(also das arithmetische Mittel) aufweisen
Gini-(Konzentrations-)Koeffizient:
Gilt als normierte Maßzahl der summarischen relativen Konzentration, da...
0 ≤ GINI ≤ 1
Alternative Berechnung:
Summe der absoluten Differenzen aller
möglichen Wertpaare voneinander geteilt durch
die Zahl der Wertpaare
Explorative Datenanalyse WS 07/08 – Grammig
21/69
4. Zweidimensionale Verteilungen
Bsp.: Beobachtungen an einer Straße (Anselmo)
→ auch als Kontingenztabelle darstellbar:
(1) absolut
(2) relativ
(3) bedingt relativ h(xi|yj); bezieht sich auf die Spalten
5/20
Gegeben, dass Anselmo die
“Straße hoch” betrachtete,
waren in 25 % der Fälle
Panzer unterwegs.
Explorative Datenanalyse WS 07/08 – Grammig
22/69
(4) bedingt relativ h(yj|xi); bezieht sich auf die Zeilen
5/10
Gegeben, dass Anselmo die
“Panzer” betrachtete, sind
sie in 50 % der Fälle die
Straße hoch gefahren.
Merke: Berechnung erfolgt stets von „innen“ nach „außen“ (Randstellen)...
von „außen“ nach „innen“ ist nur in einem Spezialfall möglich (dazu später mehr)
Betrachtet man aber nur die Ränder, geht die wesentliche Information einer zweidimensionalen
Statistik, nämlich die über das gemeinsame Verhalten der Merkmale und deren Abhängigkeit oder
Unabhängigkeit, leider verloren.
gemeinsame relative Häufigkeit:
→ absolute Häufigkeit
andere Notation: “und”, “,”
→ relative, gemeinsame Häufigkeit relH
Randverteilung von X:
für i = 1,2,3, ... , k
Anzahl der
Ausprägungen
von Y
Anzahl der
Ausprägungen
von X
Randverteilung von Y:
für j = 1,2,3, ... , l
„von der Mitte zum Rand“
bedingte relative Häufigkeiten:
Relative Häufigkeit einer Variable, wenn (unter der Bedingung, dass) die andere auf einem
bestimmten Wert fest/konstant gehalten (ceteris paribus) wird.
Explorative Datenanalyse WS 07/08 – Grammig
23/69
wichtig für
Wahrscheinlichkeiten
entsprechend:
Unabhängigkeit von X und Y:
wenn h(xi|y1) = h(xi|y2) = ... = h(xi|yl) = h(xi)
(entsprechend: h(x1|yj) = h(x2|yj) = ... = h(xk|yj) = h(yj)
•
→ (statistische) Unabhängigkeit
aus
gilt für Unabhängigkeit
→ den Wert, den ich für X erhalte, verändert NICHT die
Häufigkeit des Auftretens von Y und umgekehrt.
→ von den Rändern zur Mitte
→ binär betrachteter Spezialfall (0 oder 1, abhängig oder
unabhängig)
Bsp.:
Ereignis X Student schreibt Klausur
Ereignis Y Mitbewohner hat das Bad geputzt
xi = 1
besteht
yi = 1
geputzt
xi = 2
besteht nicht
yi = 2
nicht geputzt
h(X = besteht | Y = geputzt) = h(X = besteht | Y = nicht geputzt) = h(X = besteht)
>> X und Y sind unabhängig.
Ereignis Z Besuch des Tutoriums
zi = 1
besucht
zi = 2
nicht besucht
h(X = bestanden | Z = besucht) > h(X = bestanden | Z = nicht besucht)
>> X und Z sind nicht unabhängig.
Explorative Datenanalyse WS 07/08 – Grammig
24/69
Abhängigkeitsmessung:
Randverteilungen
Anzahl der Beobachtungen
tatsächlich
hypothetische
gemeinsame
Häufigkeit d.
Unabhängigkeit
→ quadratische Kontingenz
χ² stets größer 0; außer bei Unabhängigkeit
je größer χ², desto größer die Abweichung zur
Unabhängigkeit (bzw. desto größer die Abhängigkeit)
Kontingenzkoeffizient:
M = min {k , l}
keine Aussage über die Wirkungsweise des Zusammenhangs
*
0≤K ≤1
*je näher K* bei 0, desto näher an Unabhängigkeit
*je näher K* bei 1, desto stärker die Abhängigkeit
Zusammenfassende Maßzahlen:
Mittelwert:
•
der Mittelwert einer Summe ist gleich der Summe der Mittelwerte
•
der Mittelwert einer Differenz ist gleich der Differenz der Mittelwerte
für einen Anteil a an der zusammenfassenden Variablen Z:
(z.B. Portfolio, das sich aus zwei verschiedenen Aktien zusammensetzt)
Varianz:
Z = X + Y mittels Anwenden der binomischen Formel
→ Varianz der Summe
Explorative Datenanalyse WS 07/08 – Grammig
25/69
→ Varianz der Differenz
•
Umformung der Varianz
Kovarianz und Korrelationskoeffizient:
Kovarianz → das arithmetische Mittel des Produkts der Abweichungen der einzelnen
Beobachtungen von ihrem jeweiligen Mittel.
Berechnung (Step-by-Step):
- arithmetisches Mittel der Variablen X und Y
(1)
(2)
- Produkt der Abweichung zum Mittelwert
Spreadsheet
(3)
- arithemtisches Mittel von zv
•
Umformung der Kovarianz
Explorative Datenanalyse WS 07/08 – Grammig
•
•
•
26/69
cXY > 0, wenn X und Y tendenziell einen gleich sinnigen linearen Zusammenhang besitzen, d.h.
hohe Werte von X gehen mit hohen Werten von Y einher und niedrige mit niedrigen
cXY < 0, wenn X und Y einen gegen sinnigen linearen Zusammenhang aufweisen, d.h. hohe
Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen
einher.
cXY = 0: es besteht kein Zusammenhang oder ein nicht linearer Zusammenhang z.B. eine Uförmige Beziehung zwischen den beiden Variablen X und Y.
JEDOCH: keine Aussage über die Stärke des Zusammenhangs!
Problem: Die Kovarianz ist von der Skalierung der Daten (der Maßeinheiten) abhängig
→ eine Umskalierung führt zu einem anderen Wert für cXY.
›› Standardisierung der Daten:
Korrelationskoeffizient:
•
normiertes Maß für die Strenge des linearen statistischen Zusammenhangs
•
rXY besitzt das gleiche Vorzeichen wie cXY
•
keine Veränderung bei Umskalierung (z.B.: Euro nach Yen)
•
symmetrische Behandlung der Variablen X und Y (rXY = rYX)
u v besitzt sowohl positive als auch
negative Werte, die sich (da sie
nicht wie bei der Varianz quadriert
werden) gegenseitig “auslöschen”
die Werte von uv liegen stets zwischen
-1 und +1. Quadriert summieren sich so
die Abweichungen zum Mittelwert zu 1
auf
→ empirischer Korrelationskoeffizient
(nach Bravais-Pearson)
Explorative Datenanalyse WS 07/08 – Grammig
27/69
Die Werte der beiden Variablen bewegen sich umso stärker in die gleiche Richtung (korrelieren
umso stärker), je größer die Fläche des schraffierten Rechtecks ist, je weiter rechts oben oder links
unten im Schaubild sich der Datenpunkt befindet.
Eigenschaften der Kovarianz/des Korrelationskoeffizienten:
(1) Wertebereich: -1 ≤ rXY ≤ +1
(bzw. (cXY)² ≤ sx² ∙ sy² → Cauchy-Schwarz-Ungleichung)
(2)
(2), (3) = zeigen!
(3) mit M = a + b ∙ X und V = c + d ∙ Y
cMV = b ∙ d ∙ cXY
(4) perfekte Korrelation: rXY = |1|
tritt auf, wenn yv = a + b ∙ yv (Y ist eine lineare Funktion von X → cXY = |1|)
(5) diskrete (metrische) Variablen X und Y
k-Ausprägungen von X: x1, x2, ... xk
l-Ausprägungen von Y: y1, y2, ... yl
→ Abzählen, wie häufig ein
Merkmal auftritt
Explorative Datenanalyse WS 07/08 – Grammig
28/69
→ alternative Berechnung für cXY:
gemeinsame relative Häufigkeit
gemeinsame absolute Häufigkeit
Faustregeln (Korrelationskoeffizient):
0
< 0 bis < 0,5
≤ 0,5 bis < 0,8
≤ 0,8 bis < 1
1
„keine Korrelation“
„schwache Korrelation“
„mittlere Korrelation“
„starke Korrelation“
„perfekte Korrelation “
Rangkorrelation:
•
findet Verwendung bei ordinal skalierten Merkmalen
•
Berechnung erfolgt nicht über die gemessenen Variablenwerte, sondern über ihre Rangplätze
(der Größe nach geordnete Reihenfolge)
Fallstricke bei Kovarianz und Korrelation:
(1) cXY und rXY messen linearen Zusammenhang:
Bsp.:
xv -4 -3 -2 -1 0 1 2 3 4
yv 16
9
4
1
0
1
4
9 16
Annahme: kein Zusammenhang
→ Schwachsinn
(kein linearer, aber quadratischer
Zusammenhang)
(2) Korrelation
(verändert sich X → verändert sich Y)
≠
Kausalität
(weil X sich verändert → ändert sich Y automatisch)
Explorative Datenanalyse WS 07/08 – Grammig
29/69
→ 3. (oder 4. oder 5.) Variabel(n) im Hintergrund und vernachlässigt (z.B.: Studiengang)
Kausalrichtung verdreht (aus Minus wird Plus)
Bsp.:
weitere Beispiele:
•
Kopfläuse und Körpertemperaturen (rXY negativ)
•
Bierkonsum und Temperatur
weitere Gründe für Korrelation ≠ Kausalität:
•
zu kleine Stichprobe
•
falsche Stichprobenauswahl („Selbstselektion“)
•
zufälliger Zusammenhang (z.B.: Zahl der Störche und Kinderzahl)
•
post hoc ergo propter hoc-Fehler (weil etwas vorher geschah, war es die Ursache dessen, was
später geschah; Ursache hinkt der Wirkung hinterher)
Anwendung der bisherigen Ergebnisse im Portfolio Management:
Z=a∙X+b∙Y
zv = a∙xv + b∙yv
Rendite, die aus den Renditen X und Y entstehen
erst ausmultiplizieren, dann Summe bilden;
Punkt vor Strich beachten
Explorative Datenanalyse WS 07/08 – Grammig
30/69
5. Lineare Regressionsrechnung
Korrelation ≠ Kausalität
postuliert
ökonomische Theorie
impliziert
Kausalitätsbeziehungen
X → Y (X wirkt auf Y)
Konsum
=
f (Einkommen; c)
Einkommen
Sparen
Investitionen
Zins
Rendite
=
=
=
=
=
Konsum + Sparen
f (Zins; δ)
f (Zins; ξ)
f (Zeitpräferenz, Inflation; ς)
f (Risiko; γ)
Output
=
f (Kapital, Arbeit; α, β)
=
Wichtigkeit der Faktoren
für das Ergebnis
f (Ausbildungsjahre, Alter, Studiengang, ...; β1, β2, β3, ...)
End-Lohn
Elastizität des Konsums
z.B. Risikobereitschaft
X: Einkommen
Y: Konsum
X: Werbeausgaben
Y: Umsatz
X→ Y
(oft lineare Beziehungen)
→ Implikatoren
X: Überschussrendite Marktportfolio
Y: Überschussrendite Aktie
Y
=
b0
abhängige
Variable
+ b1
∙
unbekannte
Parameter
(messbar)
X
erklärende
Variable
+
e
Residuum
(keine Daten, „unerklärlich“)
z.B. „1€ mehr an Werbeausgaben wirkt sich wie folgt auf den Umsatz aus.“
→ β-Koeffizienten im Finanzmarkt
Beobachtungen für Y und X:
Y: y1, y2, ... yn
X: x1, x2, ... xn
e: nicht betrachtet!
bivariater Datensatz (d.h. von X und Y gibt es n-Untersuchungseinheiten)
Explorative Datenanalyse WS 07/08 – Grammig
yv = b0 + b1xv + ev
...postuliertes Modell:
...wir beobachten (Punktwolke):
→ Regressionsanalyse („schätzen“, „optimal wählen“)
b0 und b1
31/69
Explorative Datenanalyse WS 07/08 – Grammig
32/69
Optimale Wahl von b0 und b1 ?
Kriterium: Minimierung von Abstandsquadraten
K-Q-Methode (Methode der kleinsten Quadrate)
•
Schira-Notation:
a ≡ b0
b ≡ b1
Summe der quadrierten Abweichungen
arg min
Hinweis!
Quadrate immer
nach rechts abtragen
arg min
innere Funktion
äußere Funktion(en)
quadratische Funktion, die n-mal „existiert“
Explorative Datenanalyse WS 07/08 – Grammig
33/69
→ für jedes Element (partiell) ableiten:
: (-2)
Regressionsgerade durch arithm.
Mittel von abh. und unabh. Variable
→
K-Q-Schätzer für b0 und b1
Eigenschaften des K-Q-Schätzers:
(Prognose für yv)
(Prognosefehler)
Explorative Datenanalyse WS 07/08 – Grammig
34/69
Zeigen Sie!
→ Kovarianz zwischen Prognosefehler
und erklärender Variable
=0
(1)
die Summe von nicht-quadrierten
Abweichungen zum Mittelwert ist
stets 0
(2)
Explorative Datenanalyse WS 07/08 – Grammig
(3)
Schira: Umkehrregression
→ „größter Schwachsinn unter der Sonne“ (O-Ton)
standardisiertes Maß: Bestimmtheitsmaß R²
→ Beurteilung der Güte der Regression:
0 ≤ R² ≤ 1
empirische
Varianz von Y
Varianz der
Prognosewerte
Varianz der
Prognosefehler
35/69
Explorative Datenanalyse WS 07/08 – Grammig
36/69
Das Bestimmtheitsmaß ist definiert als der erklärte Anteil der quadrierten Abweichungen vom
Mittelwert geteilt durch die gesamte Varianz:
→ 100 % der Streuung wird durch das Modell erklärt!
Interpretation von kausalen Beziehungen zur Regression → Quatsch
Eigenschaften der Regressionsgeraden:
(1) mittlere Gerade
Regressionsgerade verläuft exakt durch den Schwerpunkt der Punktwolke.
=> das arithmetische Mittel der Originalwerte yv ist gleich dem der Regressionswerte.
Normalgleichung: 1. partielle Ableitung
(2) Varianzminimierung
Summe der kleinsten Quadrate → Regressionsgerade minimiert die Varianz der Abweichungen
(3) Steigungsregression
enge Beziehung zwischen Steigungsmaß b1 und dem Korrelationskoeffizienten rxy
•
•
•
Vorzeichen der Steigung entspricht dem Vorzeichen des Korrelationskoeffizienten
Steigung hängt vom Verhältnis der beiden Standardabweichungen ab
je schwächer die Korrelation, desto flacher die Gerade
(4) Varianzzerlegung
Gesamtvarianz lässt in „Varianz der Prognosewerte“ und „Varianz der Prognosefehler“ zerlegen
(siehe Bestimmtheitsmaß auf S. 35)
Explorative Datenanalyse WS 07/08 – Grammig
Ausblick: ökonometrische Methoden
multiple Einflussfunktion:
y = b1x1 + b2x2 + ... + bkxk + e
(z.B.: Lohn als Funktion von Humankapital, Alter, Berufserfahrung)
•
nicht lineare Beziehung:
y = f(x1, x2, x3, ... xk, e)
(z.B.: b0 ∙ xb1 ∙ e → Linearisierung (K-Q)
→ Lineare Beziehung nicht in den Daten, sondern in deren Logarithmen.
•
•
Interdependenz und Simultaneität:
37/69
Explorative Datenanalyse WS 07/08 – Grammig
6. Beschreibung von Zeitreihen
→ empirische Zeitreihe
zeitlich geordnete Folge von T Beobachtungen eines Merkmalsträgerunivariats (mehrere:
multivariat) einer statistischen Variablen Y
y1, y2, ...
yt,
yT
t anstelle v
T anstelle n
Kompetenzzerlegung:
•
Trendkomponente Tr
(langfristige Bewegung)
•
zyklische Komponente Cy
(mittelfristige Bewegung)
- Länge des Zyklus?
- Abgrenzung zum Trend?
•
Saisonkomponente S
(innerhalb eines Jahres (oder allgemein: einer Periode))
•
Restkomponente (irreguläre Komponente) U
“glatte Komponente”
G
(Y = Tr + Cy + S + U = G + S + U)
Schätzung von Komponenten von Zeitreihen:
–
–
–
Trendkomponente (Trendfunktionen)
glatte Komponente (glatte Durchschnitte, exponentielle Glättung)
Saisonkomponente
Trendkomponente: Schätzung mit K-Q-Methode (s.v.)
Daten (siehe Spreadsheet v. Kursseite)
torig
t
yt
1929
1
y1
.
.
y2
.
.
.
.
.
.
.
.
.
.
.
.
2002
T
yT
38/69
Explorative Datenanalyse WS 07/08 – Grammig
39/69
Trendkomponente
linearer Trend:
yt = b0 + b1 ∙ t + ut
Restkomponente
erklärende Variable: Zeit
Schätzung von b0 und b1 mit K-Q-Methode:
arg min
exponentieller Trend:
yt = a ∙ eb1t ∙
Parameter
et
unerklärliche Komponente
→ Linearisieren:
b0 = ln a ; ut = ln et
ln yt = b0 + b1t + ut
Interpretation:
steigt t um 1, steigt yt ≈
∙ 100 %
Trendprognose:
Fortschreiben von t, einsetzen in Funktion mit geschätzten Parametern zukünftiger Parameterfehler
u = 0.
Prognose für 1. Periode in der Zukunft
allgemein:
Explorative Datenanalyse WS 07/08 – Grammig
40/69
→ Annahme: Trend setzt sich fort.
ABER:
•
eventuell kein Trend, sondern „organisierter Zufall“ (Randomwerte)
•
Brücke im Trend
wirtschaftstheoretischer Exkurs:
*Induktivistisches Schema:
Ausgangspunkt:
Beobachtungen/
Daten
werden verallgemeinert,
um Theorie zu
formulieren
noch mehr Beobachtungen
und bestätigen
die Theorie
*kritischer Rationalismus:
Ausgangspunkt:
Problem
Kritik,
experimentelles Testen
Lösungsvorschläge
(Theorien, Erklärungen)
Ersetzen von abgelehnten
bzw. schlechten
Erklärungen/Theorien
neues Problem
(nicht durch vorhandene
Theorie erklärbar)
Schätzung glatte Komponente (Trend & Zyklus)
gleitende Durchschnitte:
→ Filtermethoden (Glättung der Zeitreihe)
•
linearer Filter:
die Summe der einzelnen Gewichte ergibt 1
1.) einfacher gleitender Durchschnitt:
a1 = a2 = ... = ai: alle Gewichte sind gleich groß (1/l)
2.) gewichteter gleitender Durchschnitt
v: Zeitindex, der dem jeweiligen gWert zugewiesen wird (0≤ v ≤ l-1).
Explorative Datenanalyse WS 07/08 – Grammig
41/69
verschiedene Durchschnittsarten:
(Bsp.: Fünferdurchschnitte)
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g1+v
erster Durchschnittswert
1.) zentrierte gleitende Durchschnitte: v = (l – 1) / 2
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g3
...
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g10
2.) vorlaufende gleitende Durchschnitte (werden selten verwendet): v = 0
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g1
...
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g8
3.) nachlaufende gleitende Durchschnitte: v = l -1
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g5
...
y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12
g12
Eigenschaften der Glättung:
•
je größer die Filterlänge l, desto stärker die Glättung
•
„Wegfiltern“ einer Saisonkomponente: l muss der Anzahl der Phasen der Saisonperiode
entsprechen oder ein ganzzahliges Vielfaches davon sein
•
gelten nur für UNGERADE Längen l
Glättung mit geraden Längen l:
(Bsp.: zentrierter gleitender Durchschnitt für l = 4)
...aus den y-Werten erhält man:
Explorative Datenanalyse WS 07/08 – Grammig
42/69
...damit werden nun gleitende Zweierdurchschnitte gebildet, um ganzzahlige Indizes zu erhalten:
der Anfangs- und Endwert werden mit „halbem“ Gewicht berücksichtigt.
→ gleitende Durchschnitte
zweiter Ordnung
der Länge l (für l = gerade)
=
gewichtete zentrierte gleitende
Durchschnitte
der Länge l +1
Exponentielles Glätten:
•
Interpretation 1: Glättung
in den Daten
0<β<1
•
Interpretation 2: Prognose
Prognosewert
→ bei steigendem Trend stets „nachlaufend“
→ Exponentielles Glätten bei „Trend-Daten“ ungeeignet
→ besser bei „persistenten“ (sich bei einem Wert „einpendelnden“) Zeitreihen
(z.B.: Zinsen, quadrierte Renditen, Inflationsraten)
Explorative Datenanalyse WS 07/08 – Grammig
43/69
Rekursion zur Ermittlung von
(2) in (1) einsetzen:
... bis y1: erste Betrachtung:
Startwert
β und
frei wählbar!
β ≈ 0: aktueller Wert yt starker Einfluss auf Prognose/Glättung
β ≈ 1: aktueller Wert yt geringer Einfluss auf Prognose/Glättung
→ optimale Wahl für β?
hilfreich: Prognoseinterpretation
arg min
{β}
wir beginnen nicht bei t =1,
um Startwert-Effekt abzumildern
β [0;1]
“Grid-Search”
(Parameterraum absuchen)
Explorative Datenanalyse WS 07/08 – Grammig
44/69
→ Solver in Excel!
Saisonkomponente
konstante additive Saisonfiguren:
Annahme:
Der saisonale Effekt S senkt oder erhöht den Beobachtungswert in einem bestimmten Monat oder
Quartal um einen konstanten Betrag.
Ansatz:
Man bildet die glatte Komponente G und und erhält aus Y = Tr + Cy + S + U die Differenz Y – G =
S + U bzw. die Zeitreihe y1 – g1, y2 – g2, ... yT – gT
→ aufgrund der Restkomponente U wird die Zeitreihe jedoch nicht periodisch verlaufen.
•
Phasendurchschnittsverfahren:
Ziel: „Eliminieren“ der Restkomponenten U.
Vorgehensweise:
– Berechnung des Durchschnitts D der Abweichungen von der glatten Komponente (für jede
Phase – also Monat oder Quartal)
– Addieren sich die Werte von D nicht zu 0, Korrektur um ihren Mittelwert
→
→ S1 + S2 + ... + Sn = 0
Gleitende Durchschnitte sind sukzessive arithmetische Mittel benachbarter Zeitreihenwerte, wobei
darauf zu achten ist, dass immer alle Quartale (oder Perioden) im Mittelwert zur Saisonbereinigung
Explorative Datenanalyse WS 07/08 – Grammig
45/69
vertreten sind.
saisonbereinigte Zeitreihe: unbereinigte Zeitreihenwerte – Saisonveränderungszahlen
•
Regressionsverfahren:
–
Verwendung von so genannten Saison-Dummies: künstliche Hilfsvariablen, die nur zwei Werte
annehmen können (normalerweise 0 oder 1)
pro Phase ein Dummie (Bsp.: bei der Betrachtung der Quartale werden 4 Dummies benötigt)
für die Zeitreihe ergibt sich (am Beispiel der Quartale) so:
–
–
Restkomponente
–
Die mit der K-Q-Methode berechneten Regressionskoeffizienten bn entsprechen den
Phasendurchschnitten Dph der zuvor erläuterten Methode.
–
Obige Gleichung transformieren wir jetzt in die übliche Regressionsgeraden-Form b0 + b1∙t:
→
–
Wir benötigen so nur 3 Saison-Dummies, da ihre Koeffizienten lediglich den Achsenabschnitt
(das Absolutglied) b0 modifizieren:
D1 = b0 + b1; D2 = b0 + b2; D3 = b0 + b3; D4 = b0
–
Addieren sich die Werte von D nicht zu 0, Korrektur um ihren Mittelwert (siehe
Phasendurchschnittsverfahren):
→
Bsp.: Quartalswertbewegungen des BIP von 1992 bis 2001:
geg.: Regressionsgerade:
Interpretation: ein schwach noch oben gebogener Trend, da Koeffizient bei t² positiv
Vorgehensweise:
– die Koeffizienten bei den Saison-Dummies = Phasendurchschnitte
→
b 0 ist definiert als 0
→ Indem wir diesen Durchschnitt (bzw. die Restkomponente) von den Koeffizienten abziehen,
erhalten wir folglich die Saisonveränderungszahlen:
S1 = -11,73
S2 = -1,04
S3 = +6,01
S4 = 0 - (-6,77) = +6,77
Explorative Datenanalyse WS 07/08 – Grammig
46/69
Bestimmung von Trend und glatter Komponente mittels des Regressionsverfahrens:
linear:
quadratisch:
konstante multiplikative Saisonfiguren:
Verwendungszweck:
additives Modell ist nicht immer geeignet, da die saisonalen Ausschläge auch mit der Größe der
Beobachtungswerte (meist proportional) wachsen können.
Ansatz:
Man bildet die glatte Komponente G und und erhält aus Y = Tr ∙ Cy ∙ S ∙ U den Quotienten
Y/G = S ∙ U.
Interpretation des Quotienten:
Verhältnis der Beobachtungswerte zu der jeweiligen glatten Komponente (z.B. 1,10 bedeutet, dass
der aktuelle Wert um 10 % höher liegt als die glatte Komponente).
Anwendung des Phasendurchschnittsverfahrens:
(1) Die Durchschnitte entsprechen den Quotienten Q1, Q2, ..., Qn
(2) Berechnung des Quotientendurchschnitts zur Gewährleistung der Neutralität der Saisonfaktoren
(der Einfachheit halber mit dem arithmetischen und nicht mit dem geometrischen Mittel):
(3) Berechnung der Saisonfaktoren:
→
Explorative Datenanalyse WS 07/08 – Grammig
47/69
7. Indexzahlen, Preisindizes, Deflationierung
Übersicht:
– Preisindizes (Inflationsmessung)
– Mengenindizes
– Umbasierung und Deflationierung
Preisindizes:
Messung: nicht Preisentwicklung einzelner Güter, sondern „allgemeine“ Preisentwicklung
Warenkorb (wird durch
repräsentative Erhebungen ermittelt)
Ziel:
•
Inflationsmessung
•
Kaufkraftvergleich
Bsp.: Sind die Preise gegenüber dem Vorjahr um 2 % gestiegen, ist der Index für Lebenshaltung auf
102 % (1,02) gestiegen: Das Preisniveau hat sich erhöht. Sprich: „Ich brauche mehr Geld, um den
Warenkorb aus dem Vorjahr zusammenzustellen.“
Notation: i = 1, 2, ..., n
t = 0, 1, 2, ... T
konsumierte
produzierte
qit: in Periode t
exportierte
importierte
pit: Preis Gut i in Periode t
qt = (q1t, q2t, ... qnt)
Güter
Betrachtungsperioden
Menge des i-ten Gutes
Warenkorb in Periode t
Mengenvektor
pt = (p1t, p2t, ... pnt)
Preisvektor der Periode t
Wert des Warenkorbs in t (Skalarprodukt aus
Preisvektor und Mengenvektor)
Hypothetisches wird mit Realem verglichen!
Festlegen Warenkorb in t = 0 (Basisperiode)
(t ≠ 0: Berichtsperioden)
Berechnen von W0:
Explorative Datenanalyse WS 07/08 – Grammig
48/69
Bsp.: Vier-Personen-Haushalt:
Basismonat
Jan 2001
i Gut
q_i0
p_0
1 Brot
32
kg 1,9
2 Milch
28
l
0,5
3 Eier
54
St. 0,1
4 Kartoffeln
45
Pf 0,2
5 Fleisch
24
kg 6,3
6 Pizza
30
St. 4,5
Berichtsmonat
Jan 2002
q_1
p_1
Euro/kg
40
kg
2,0
Euro/l
30
l
0,5
Euro/St.
60
St.
0,2
Euro/Pf
38
Pf
0,2
Euro/kg
32
kg
6,4
Euro/St.
0
St.
9,0
Euro/kg
Euro/l
Euro/St.
Euro/Pf
Euro/kg
Euro/St.
Ausgaben des Haushalts in der Basisperiode:
i p_0 q_0
1
60,8
2
15,1
3
7,0
4
8,1
5
150,0
6
135,0
S
376,0
Ausgaben für denselben Warenkorb in der Berichtsperiode (hypothetisch):
i p_1 q_0
1
64,0
2
15,1
3
8,1
4
9,0
5
152,9
6
270,0
S
519,1
Ausgaben des Haushalts in der Berichtsperiode (neue Zusammenstellung des Warenkorbs):
i p_1 q_1
1
80,0
2
16,2
3
9,0
4
7,6
5
203,8
6
0,0
S
316,6
Ausgaben des neuen Warenkorbs mit den Preisen der Basisperiode (hypothetisch):
i p_0 q_1
1
76,0
2
16,2
3
7,8
4
6,8
5
200,0
6
0,0
S
306,8
Explorative Datenanalyse WS 07/08 – Grammig
49/69
Laspeyres Index:
obiges Beispiel:
Der Preisindex nach Laspeyres zeigt an, wie viel der Warenkorb der Basisperiode in der
Berichtsperiode kostet. Er ist der Quotient der hypothetischen Gesamtausgaben der Berichtsperiode
durch die tatsächlichen Gesamtausgaben der Basisperiode.
→ reiner Preiseffekt; bezieht sich nicht auf Veränderungen in der Zusammenstellung des
Warenkorbs.
Preisindex für Lebenshaltung „aller“ privater Haushalte:
→ Inflationsrate
Anmerkungen:
● Repräsentativität q0? (trifft der Warenkorb auf mich zu?)
● Substitutionseffekte bleiben unberücksichtigt
● Qualitätsverbesserungen? (Verbesserung der Technik)
● Veraltung q0 (Berücksichtigung von „ausrangierten“ Items wie Kassetten)
Paasche Index:
obiges Beispiel:
Vorteile:
● Warenkorb ist immer aktuell
● Substitutionseffekt abgemildert (der Inflation ausweichen)
Nachteile:
● Güter existieren eventuell in t = 0 nicht
Explorative Datenanalyse WS 07/08 – Grammig
●
●
50/69
aufwändige Ermittlung (dauerhafte Veränderung des Warenkorbs)
→ [pt, qt, p0, ...]
Substitutionsverhalten reflektiert sich im Index
→ Mengenänderungen (gewollt?)
Beim Paasche-Index wird in Betracht gezogen, dass Konsumenten Güter bei einer Preissteigerung
substituieren. Dies ist beim Laspeyres-Index nicht der Fall. Deshalb ist der Paasche-Index meist
niedriger als der nach Laspeyres.
Bsp.: für Laspeyres Index: DAX
30 Standardwerte: größte Aktiengesellschaften i = 1, ..., i = 30
qi0: Gewicht Aktie i im „Warenkorb“ in t = 0
pit: Kurs Aktie i zum Zeitpunkt t
Basisperiode: 30.12.1987;
Indexwert: 1.000 (aktuell 14.01.: 7.743)
→ Laspeyres, weil stets 30 Items im Warenkorb
(scheidet 1 Unternehmen aus, kommt 1 neues rein)
→ Verkettung von Indizes
Durchschnittsbildung:
nochmal
→ gewogene arithmetische Mittel
dazu
Wert der Menge qi0 in t = 0
Warenkorbgesamt
Preismesszahl
→ in Laspeyres-Formel:
Beweis: Laspeyres-Index mit pi0 im Zähler erweitern!
ähnlich für Paasche:
wobei... git = pi0 qit2
Explorative Datenanalyse WS 07/08 – Grammig
51/69
Internationale Preisvergleiche:
Preise im Ausland, gerechnet in Euro (!)
Preis Inland (Euro) fester Warenkorb I: Inland
→ wieder Substitution, Verfügbarkeit der Produkte
Umbasierung und Zusammenbinden von Indexreihen
Anwendung bei Reformierung (neues Bewerten) von Indizes
•
•
Schritt 1: Umbasierung:
Umbasierungsfaktor = Quotient aus den beiden Indexwerten für die reformierte Periode
Schritt 2: Ergänzung
... durch die in den jeweiligen Perioden „fehlenden“ Indexwerte mittels Rück- bzw.
Vorrechnung
Bsp.: Lebenshaltung aller privaten Haushalte:
Umbasierungsfaktor 1 = 114,6 / 100 = 1,146
Umbasierungsfaktor 2 = 100 / 114,6 = 0,8726
originale Indexreihen
Zusammengebundende Index
Jahr
1991 = 100
1991
100
100
1992
105
105
1993
109,7
109,7
95,7
1994
112,7
112,7
98,3
1995
114,6
100
114,6
100
101,4
116,2
1996
1995 = 100 1991 = 100
1995 = 100
100 * 0,8726
87,2
91,6
101,4
101,4 * 1,146
1997
103,3
118,4
1998
104,3
119,5
104,3
1999
104,9
120,2
104,9
2000
106,9
122,5
106,9
2001
109,6
125,6
109,6
→ wirkt nur „äußerlich“ auf die Höhe des Indexwertes
→ Wägungsschema und Preisrelationen bleiben unberührt
103,3
Explorative Datenanalyse WS 07/08 – Grammig
52/69
Preisindex für die Lebenshaltung:
Laspeyres-Index, dessen Warenkorb in bestimmten Zeitabständen aktualisiert wird.
=> Aktualität
=> Durchschnittspreisindex
=> spezielle Indizes für bestimmte Personengruppen (bessere Repräsentativität)
Deflationierung nominaler Größen
Definition Deflationierung:
Deflationierung bezeichnet die Bereinigung von in Geldeinheiten ausgedrückten Größen (z. B. das
Bruttoinlandsprodukt) um den Einfluss der Inflation. Dies geschieht, indem man die beobachtete
Größe (nominale Größe) durch einen entsprechenden Preisindex dividiert. Als Ergebnis erhält man
eine reale, preisbereinigte Größe.
Ziel: reale Größe!
•
Ein-Produkt-Ökonomie:
Real: „inhomogenes“ Aggregat (Preis * Menge): Millionen von Produkten
Idee: Wertgrößen zu konstanten Preisen
aktueller Warenkorb
nicht direkt
beobachtbar
Basisperioden-Preise
(konstant)
erhoben!
→
Deflationierung!
•
warum nicht direkt? Realwert aufwändig zu erheben!
•
korrekter Warenkorb oft nicht verfügbar
•
meist: Paasche-Index nicht verfügbar!
Explorative Datenanalyse WS 07/08 – Grammig
53/69
Mengenindizes
(= Volumenindizes)
Problem: Errechnen einer Durchschnittsmenge bei verschiedenen Größenarten (z.B. kg, km, Liter
etc.) nicht möglich. Bei gleicher Größenart besteht zudem die Gefahr einer zusammenfassenden
Gewichtung (z.B. Gold und Kohle).
Lösung: Umkehrung der Gewichtung bei Preisindizes → Mengen werden mit den Preisen der Güter
gewichtet.
Mengenindex nach Laspeyres:
Mengenindex nach Paasche:
Bsp.: Produktionsindex
Misst die reine Menge, nicht die Preise von Industrieprodukten und sagt aus , wie viel in der
Berichtsperiode mehr oder weniger konsumiert wurde.
Explorative Datenanalyse WS 07/08 – Grammig
54/69
8. Elementare Kombinatorik
•
•
beschäftigt sich mit der Bildung von Zusammenstellungen von Elementen aus einer
vorgegebenen endlichen Menge
Unterscheidung Permutationen (Verwendung aller Elemente) und Kombinationen (Verwendung
eines Teils der Elemente)
Fakultäten und Binomialkoeffizienten:
n!: n-Fakultät:
Das Produkt der natürlichen Zahlen von 1 bis n.
n! = 1 ∙ 2 ∙ 3 ∙ ... ∙ (n-1) ∙ n
Spezialfall: 0! = 1
Stirling-Formel zur approximativen Berechnung von n-Fakultät:
Der absolute Fehler wächst für größer werdende n.
Binomialkoeffizient („n über k“):
Bsp:
Binomialkoeffizient, weil sie (n und k) die Koeffizienten der binomischen Formel sind (darstellbar
mit Pascal'schem Dreieck):
Regeln:
Explorative Datenanalyse WS 07/08 – Grammig
55/69
Fundamentalprinzip der Kombinatorik:
Die Anzahl der Möglichkeiten (T), k Sachverhalte, die unabhängig voneinander auf jeweils ni-Arten
(i = 1, 2, ..., k) erfüllt werden können, gleichzeitig zu erfüllen, ist gleich dem Produkt der einzelnen
Anzahlen:
T = n1∙ n2 ∙ ... ∙ nk
Bsp:
Wenn es für den Posten des Wirtschaftsministers 3 geeignete Kandidaten gäbe und für den des
Finanzministers 5 andere Kandidaten, dann hätte der Regierungschef 3 ∙ 5 = 15 verschiedene
Möglichkeiten, diese beiden Ämter zu besetzen.
falls n1 = n2 = ... = nk = n
dann ist die Anzahl der Möglichkeiten T gleich nk
Bsp: Gleichzeitiges Werfen von drei Würfeln
Wie viele Ergebnisse können hervortreten?
n = 6 (Würfel besitzt 6 Zahlen)
k = 3 (3 Würfel)
T = 6³ = 216
Permutationen:
Gegeben sei eine Menge mit n Elementen. Jede Zusammenstellung („vollständiges Ziehen ohne
Zurücklegen“) aller dieser Elemente in irgendeiner Reihenfolge heißt eine Permutation dieser n
Elemente.
1.) Elemente n sind unterscheidbar?
Anzahl der möglichen Permutationen nP = n!
2.) Elemente n lassen sich nicht vollständig differenzieren!
Sind nicht alle Elemente der zu permutierenden Menge verschieden, bildet man aus ihnen m
Gruppen gleicher Elemente.
Bsp.: Mögliche Permutationen des Worts „STATISTIK“
Explorative Datenanalyse WS 07/08 – Grammig
Kombinationen:
Gegeben sei eine Menge mit n verschiedenen Elementen. Jede Zusammenstellung von k
Elementen daraus heißt Kombination k-ter Ordnung aus diesen Elementen (d.h. Anzahl der
Kombinationen hängt davon ab, wie viele Elemente „gezogen“ werden).
Kombinationen mit Berücksichtigung der Anordnung:
Bsp.: mögliche Medaillenverteilung beim 100-Meter-Lauf
n = 8 (es starten 8 Läufer)
k = 3 (es gibt 3 Medaillen)
Kombinationen ohne Berücksichtigung der Anordnung (= Variationen):
Bsp.: mögliche Lottotipps
n = 49
k=6
Ck in Abhängigkeit von nVk:
n
56/69
Explorative Datenanalyse WS 07/08 – Grammig
57/69
9. Grundlagen der Wahrscheinlichkeitstheorie
bisher: - rein deskriptive (positive) Analyse
- keine Erklärung des Daten generierenden Prozesses (DGP)
DGP: bestimmt Wahrscheinlichkeiten für das Auftreten von Ereignissen
→ Ziele:
● ökonomische Modellierung
● Beschreibung des DGP
● Erklärungen für Daten
● Prognosen
● Hypothesentest
Ereignis (A)
– 1 x Münze werfen und Kopf (K) kommt
– Würfeln und 6 kommt
– VfB wird Meister
– Portfolio wird morgen 10 % weniger wert sein
– BIP steigt um 5 %
– Kreditnehmer John Doe in USA zahlt nicht zurück
Wahrscheinlichkeiten P(A)
0,5
1/6
?
Wahrscheinlichkeiten
(2 Sichtweisen)
klassisch/frequentistisch
(konzeptioneller Rahmen)
Zufallsexperiment
→ mögliche Ergebnisse bekannt
→ Ergebnisse des konkreten Versuchs
nicht bekannt
→ Experiment wiederholbar
(gleiche Bedingungen, gleiche
Vorschrift)
•
•
Bayesianisch
(subjektiv, Bauchgefühl, gesunder
Menschenverstand)
Wahrscheinlichkeiten:
→ Quantifizierung der Stärke von
Meinungen/Hypothesen
Ereignisse
→ a-prior-W'keit
→ a-posteri-W'keit
(Veränderung der W'keiten)
S: Ereignisraum: Menge der möglichen Ergebnisse des Experiments
Elemente von S: Elementarereignisse (einzelne, nicht mehr zerlegbare und sich gegenseitig
ausschließende Ergebnisse eines Zufallsexperiments)
Explorative Datenanalyse WS 07/08 – Grammig
Bsp. 1: 2 x Münzwurf: S = {KK, KZ, ZK, ZZ)
Elementarereignisse
58/69
Notation:
Elementarereignis1 oder Elementarereignis2
Bsp. 2: Werfen Nadel auf liniertes Papier:
messen Winkel
S = {α | 0 ≤ α < 180}
Elementarereignisse sind gemessene Winkel
(stetiges Kontinuum: überabzählbar unendlich viele Elementarereignisse)
→ diskreter
vs.
endlich viele
Elementarereignisse
- abzählbar unendlich
viele Elementarereignisse
Ereignis:
Großbuchstaben
stetiger
Ergebnisraum
überabzählbar unendlich viele
Elementarereignisse
(messen statt zählen)
Teilmenge des Ereignisraums S
A = „mindestens 1 mal Kopf“
A = {KK, KZ, ZK}
AcS
Besondere Ereignisse:
•
unmögliches Ereignis {} oder 0 (tritt nie ein, da es kein Element enthält)
•
sicheres Ereignis S (tritt immer ein, da es sämtliche Elementarereignisse enthält)
→ Ereignisse wieder in Menge zusammengefasst
Ereignismenge E(S) oder einfach E (konsistente Wahrscheinlichkeiten; Summe = 1)
E = {„mindestens 1 x Kopf“, „2 x Zahl“, „kein mal Zahl“}
= {{KZ, ZK, KK}, {ZZ}, {KK}}
Ziel: Anordnung von Wahrscheinlichkeiten für Ereignisse aus E
klassisches Wahrscheinlichkeitskonzept (I): statistische Wahrscheinlichkeiten
•
Zufallsexperiment n x durchgeführt
Ereignis A tritt absHn(A) mal an f
rel. Häufigkeit
•
Gesetz der großen Zahlen: empirisch nicht beweisbar
•
•
Explorative Datenanalyse WS 07/08 – Grammig
59/69
Bsp.: Häufigkeit von Kopf beim Münzwurf
n
10
20
40
...
60
100
1.000
5.000
absHn(„Kopf“)
7
11
17
...
24
47
492
2.515
hn(„Kopf“)
0,7
0,55
0,425
...
0,4
0,47
0,492
0,503
Grenzwert = Wahrscheinlichkeiten
statistische Wahrscheinlichkeit
(von Mises)
klassisches Wahrscheinlichkeitskonzept (II): Laplace Wahrscheinlichkeiten
Annahmen:
•
jedes Elementarereignis in S gleich möglich
•
endliche Zahl von Elementarereignissen in S (keine absehbare Unendlichkeit)
Ereignis A: Menge von Elementarereignissen
Prinzip des unzureichenden Grundes:
Wahrscheinlichkeiten werden durch
Wahrscheinlichkeiten erklärt!
→ Kombinatorik (siehe Kapitel 8) hilft beim Berechnen von g und m.
Mengentheoretische Konzepte in Wahrscheinlichkeitstheorie
Negation:
Das Ereignis nicht A tritt genau dann ein, wenn A nicht eintritt. Es ist das zu A komplementäre
Ereignis.
Es gilt:
disjunkt (elementfremd)
Vereinigung:
vereint
Bsp.:
mindestens A oder B treten ein (eventuell beide gleichzeitig)
A = „Augenzahl ≥ 4“ = {4, 5, 6}
B = „Augenzahl gerade“ = {2, 4, 6}
S = {1, 2, 3, 4, 5, 6}
Explorative Datenanalyse WS 07/08 – Grammig
60/69
Durchschnitt:
A ∩ B: sowohl A als auch B treten ein
Bsp.:
A = „Augenzahl ≥ 4“ = {4, 5, 6}
B = „Augenzahl gerade“ = {2, 4, 6}
S = {1, 2, 3, 4, 5, 6}
A ∩ B = {4, 6}
Differenz:
A \ B: Das Ereignis A ohne B tritt genau dann ein, wenn zwar A, aber nicht B eintritt
(die Schnittmenge fällt hier raus)
Implikation:
C impliziert A; d.h.: Jedes Elementarereignis von C ist auch in A enthalten.
C ist eine Teilmenge von A.
Kolmogorov's Axiomatik der Wahrscheinlichkeitstheorie
Wahrscheinlichkeit P(A) ist ein Maß zur Quantifizierung des Grades der Gewissheit, den man dem
Eintreten eines Ereignisses A beimessen will.
Die Zuordnung der Wahrscheinlichkeiten zu den Ereignissen kann als eine Abbildung (eine
Funktion P) angesehen werden, bei der jedem Ereignis eine reelle Zahl zugeordnet wird
Explorative Datenanalyse WS 07/08 – Grammig
61/69
(→ reellwertige Funktion)
Funktion P...
...heißt Wahrscheinlichkeitsfunktion von P(A). P(A) ist eine Wahrscheinlichkeit, wenn P 3 Axiome
(→ kein Beweis erforderlich) erfüllt:
Additionsaxiom
für disjunkte Ereignisse
(mgl.) unendliche Folge von
paarweise disjunkten Ereignissen
Kolmogorov fordert bezüglich E:
...E muss „abgeschlossen“ sein!
3 Postulate:
A tritt nicht ein
(1) S muss zur Ereignismenge gehören
(2) Ereignis und das dazugehörige
Komplement müssen in E enthalten
sein (→ unmögliches Ereignis ist
ausgeschlossen)
(3) Ergebnisse von Mengenoperatoren
führen nicht aus E heraus
→ Abgeschlossenheit von E
Kolmogorov'scher Wahrscheinlichkeitsraum:
(S
,
Ereignisraum
E
,
Ereignismenge
P())
W'keitsfunktion
wenn E diese Abgeschlossenheitsanforderung der 3 Postulate erfüllt:
Sigma Algebra: kleinste Sigma Algebra E = {S, 0}
Explorative Datenanalyse WS 07/08 – Grammig
62/69
Folgerung aus den Axiomen:
I:
P(A) ≤ 1
P(A) = 1 – P(A)
P(A) + P(A) = 1 → P(A) = 1 – P(A) ≤ 1
≥0
≥0
≥0
(K1)
II:
P(0) = 0
Das unmögliche Ereignis hat die Wahrscheinlichkeit 0.
Folgerung I
(→ vollständige Induktion von K3)
K3
weitere Theoreme:
•
für eine Differenzmenge A \ B gilt stets:
•
Monotonieeigenschaft des Wahrscheinlichkeitsmaßes:
Impliziert das Ereignis A das Ereignis B, dann ist die Wahrscheinlichkeit von B niemals kleiner
als die von A.
Explorative Datenanalyse WS 07/08 – Grammig
Zum Additionssatz:
wenn A und B disjunkt:
was aber, wenn A ∩ B ≠ 0 ?
lies: B tritt ein, aber A nicht
P(A) und P(B) nach den „nicht-gemeinsamen Ereignissen“ umformen und einsetzen:
→ auch für mehrere Ereignisse:
Herleitung:
63/69
Explorative Datenanalyse WS 07/08 – Grammig
64/69
P(A), P(B) und P(C) nach den „nicht-gemeinsamen Ereignissen“ umformen und hier einsetzen:
→ UNIVERSAL für alle Wahrscheinlichkeitstheoretiker!!!
Bedingte Wahrscheinlichkeit:
Definition:
0 ≤ P(A/B) ≤ 1
→
Die „neuen“ Wahrscheinlichkeiten werden auf den neuen, eingeschränkten Ereignisraum B
bezogen. Die gesamte Wahrscheinlichkeitsmasse von P(A|B) liegt auf der Menge von B:
Explorative Datenanalyse WS 07/08 – Grammig
65/69
2 Interpretationen von P(A/B):
klassisch/frequentistisch
→ Einschränkung des Ereignisraums S
auf die Elementarereignisse, die den
Eintritt von B implizieren.
Bsp.: B = „Würfel ≥ 4“
neuer Ereignisraum {4,5,6}
andere Philosophie
Bayesianisch/subjektiv
Veränderung (“Update”) der subjektiven
Wahrscheinlichkeit P(A) durch Eintritt
von B
→ zeitliche Abfolge!
stochastische Unabhängigkeit:
Wir sagen: wenn P(A/B) = P(A/B) = P(A)
=> A und B sind stochastisch unabhängig: B hat keinen Einfluss auf die Wahrscheinlichkeit des
Eintretens von A
Bsp. 1: gleichzeitig Münze und Würfel werfen
B = „Münze Kopf“
A = „Zahl ≥ 4“
P(A/B) = (PA/B) = P(A) = 0,5
Bsp. 2: einfacher Würfelwurf mit S = {1,2,3,4,5,6}
B = „Zahl ≥ 2“
B = {3,4,5,6}
B = {1,2}
A = „Zahl ≥ 4“
A = {4,5,6}
=> A und B sind stochastisch abhängig
→ klassisch/frequentistisch
(Laplace)
Bsp. 3: Roulette
B = „10 mal hintereinander „rot““
A = „beim 11. mal kommt auch „rot““
Intuitives Denken, dass sich
W'keit ändert
P(A) = P(A/B) = P(A/B) = 18/37
Fazit: die Definition
macht Sinn!!!
Explorative Datenanalyse WS 07/08 – Grammig
66/69
am Bsp.2:
B {3,4,5,6}
S → 6 Elementarereignisse
AnB {4,5,6}
direkt: Einschränkung von S, so dass B „eingetreten“ ist.
B = {3, 4, 5, 6} = neuer, eingeschränkter Ereignisraum
4 Elementarereignisse
{1, 2} fallen weg
A = {4, 5, 6} = P(A/B) = ¾ (A kann auf 3 Weisen eintreten)
(eingeschränkter S hat 4 Elemente)
=> keine Reihenfolge
(nicht sequentiell)
Implikationen aus stochastischer Unabhängigkeit:
P(A/B) = P(A/B) = P(A)
„von den Rändern zur Mitte“ (siehe Kontingenz)
=> P(A/B) = P(A) => P(B/A) = P(B)
→ symmetrisch in beide Richtungen
Im Spezialfall stochastischer Unabhängigkeit:
Multiplikationssatz:
aber generell:
Möglichkeit von W'keiten für Ereignisse A und B auf W'keit
für gemeinsames Auftreten einschließen.
Bsp.: Subprimes: → Ausgangspunkt: Modell bei Unabhängigkeit („das Liquiditätsproblem von A
hat nichts mit dem Liquiditätsproblem von B zu tun“)
→ ökonomische Entscheidungen anhand von bedingten W'keiten treffen.
Explorative Datenanalyse WS 07/08 – Grammig
67/69
Satz ist auch anwendbar auf mehrere voneinander unabhängige Ereignisse.
Nicht verwechseln:
wenn A und B sich ausschließen (disjunkt):
wenn A und B stochastisch unabhängig:
Verständnisfragen:
Disjunkt und unabhängig?
Disjunkt und abhängig?
[...]
Totale Wahrscheinlichkeit:
•
•
Totale Wahrscheinlichkeit = Gegensatz zur bedingten Wahrscheinlichkeit
Berechnungen von Wahrscheinlichkeiten mittels bedingten Wahrscheinlichkeiten
Bsp.: Produktion mit 2 Maschinen
Ein und derselbe Massenartikel werde auf zwei Maschinen gefertigt. Die schnellere M1 hinterlässt
10 % Ausschuss, produziert aber doppelt so viel wie M2, die aber nur einen Ausschussanteil von 7
% aufweist.
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus der Gesamtproduktion gezogenes
Einzelstück defekt ist (gesucht: P(Stück defekt))?
•
•
•
•
P(Stück defekt | Stück auf M1 produziert) = 0,1
P(Stück auf M1 produziert) = 2/3
P(Stück defekt | Stück auf M2 produziert) = 0,07
P(Stück auf M2 produziert) = 1/3
nach Axiom K3 folgt:
Explorative Datenanalyse WS 07/08 – Grammig
68/69
Grafische Veranschaulichung der totalen Wahrscheinlichkeit:
•
•
Ereignisraum S in zwei disjunkte Ereignisse H1 und H2 (im Beispiel M1 und M2) aufgeteilt
Trennlinie durchschneidet A und teilt es wiederum in 2 disjunkte Ereignisse
Bayes-Theorem:
•
•
stellt Verbindung zwischen zwei bedingten Wahrscheinlichkeiten her
bilden die Ereignisse H1, H2, ..., Hn irgendeine Aufteilung des Ereignisraumes S und sei B ein
Ereignis mit P(B) > 0, dann gilt für jedes Hi:
Bsp.: Produktion mit 2 Maschinen (siehe totale W'keit)
A-priori-W'keit P(Stück auf M1 produziert) = 2/3
Nun: Beobachtung eines defekten Stücks bei M1.
A-posteriori-W'keit P(Stück auf M1 produziert | Stück defekt) = 20/27 = 0,741
In der „Bayes-Statistik“ kennzeichnenH1, H2, ..., Hn alternative Hypothesen. Sie schließen sich
gegenseitig aus und bilden zusammen das sichere Ereignis S.
P(Hi): A-priori-Wahrscheinlichkeit der i-ten Hypothese
P(Hi | B): A-Posteriori-Wahrscheinlichkeit der i-ten Hypothese nach Kenntnis der Beobachtung B
(im Beispiel: „Stück defekt“)
Explorative Datenanalyse WS 07/08 – Grammig
10. Literaturverweis
•
Josef Schira: Statistische Methoden der VWL und BWL / Theorie und Praxis
2. Auflage
Pearson Studium
•
Walter Krämer: Statistik verstehen / Eine Gebrauchsanweisung
6. Auflage
Piper Serie
69/69
Herunterladen