WS0708 Explorative Datenanalyse 9. November 2008 Inhaltsverzeichnis 1 Statistische Merkmale und Variablen 1.1 1.2 1.3 1.4 1.5 1.6 Statistische Einheiten und Grundgesamtheiten, Teilgesamtheiten, Stichproben . . . . . . . . . Statistische Verteilung: . . . . . . . . . . . . Häugkeits- und Verteilungsfunktion . . . . . Quantile . . . . . . . . . . . . . . . . . . . . Häugkeitsdichte und Histogramm . . . . . . Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Maÿzahlen zur Beschreibung statistischer Verteilungen 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 Arithmetisches Mittel als Lagemaÿ Median . . . . . . . . . . . . . . . Modus . . . . . . . . . . . . . . . Das geometrische Mittel . . . . . . Das harmonische Mittel . . . . . . Weitere Mittelwerte . . . . . . . . Streuungsmaÿe . . . . . . . . . . . Varianz und Standardabweichung . Konzentrationsmaÿe . . . . . . . . Lorenz-Kurven . . . . . . . . . . . GINI-Koezient . . . . . . . . . . 3 Zweidimensionale Verteilungen 3.1 3.2 3.3 3.4 3.5 3.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streudiagramm und gemeinsame Verteilung . . . . . . Randverteilungen: . . . . . . . . . . . . . . . . . . . . Bedingte Verteilungen und statistische Zusammenhänge Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . Korrelationskoezient . . . . . . . . . . . . . . . . . . Kontigenzkoezient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 6 7 8 10 10 11 11 12 12 13 13 13 15 15 17 17 18 18 19 20 20 22 Titel Inhaltsverzeichnis 4 Lineare Regressionsrechnung 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Motivation . . . . . . . . . . . . . . . . . . . Korrelationsrechnung und Regressionsrechnung Bestimmung der Regressionsgeraden . . . . . Eigenschaften der Regressionsgeraden . . . . . Nichtlineare Regression . . . . . . . . . . . . 4.5.1 logarithmische Ansätze . . . . . . . . 4.5.2 quadratische Ansätze . . . . . . . . . Mehrfache Regression . . . . . . . . . . . . . Ausblick: Interdependenz und Simultanität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Komponenten einer Zeitreihe . . . . . . . . . . Bestimmung des Trends durch Regressionsrechnung Höhere Polynome für die glatte Komponente . . . . Exponentieller Trend . . . . . . . . . . . . . . . . . Trendprognose . . . . . . . . . . . . . . . . . . . . Gleitende Durchschnitte . . . . . . . . . . . . . . . Exponentielle Glättung . . . . . . . . . . . . . . . Exkurs: Wissenschaftstheoretische Ansätze . . . . . Konstante additive Saisonkomponente . . . . . . . Konstante additive Saisonkomponente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Beschreibung von Zeitreihen 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 6 Indexzahlen 6.1 6.2 6.3 6.4 6.5 6.6 6.7 Meÿzahlen . . . . . . . . . . . . Preisindices . . . . . . . . . . . Anwendungen . . . . . . . . . . Umbasierung . . . . . . . . . . . Indexreihen . . . . . . . . . . . . Deationierung nominaler Gröÿen Mengenindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einführung: . . . . . . . . . . . . . . . statistische Wahrscheinlichkeit: . . . . . Klassische Wahrscheinlichkeit . . . . . . Mengentheoretische Konzepte . . . . . . Axiomatik der Wahrscheinlichkeitstheorie Theoreme aus den Axiomen . . . . . . . Bedingte Wahrscheinlichkeit . . . . . . . Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Wahrscheinlichkeitsrechnung 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 . . . . . . . . . . . . . . . . . . . . . 22 22 23 23 24 25 25 26 26 27 27 28 29 29 29 30 30 32 33 34 35 35 35 35 38 39 39 39 40 41 41 42 43 43 44 44 45 47 2 Titel 1 Statistische Merkmale und Variablen 1 Statistische Merkmale und Variablen 1.1 Statistische Einheiten und Grundgesamtheiten, Merkmale Denition: Die Menge aller statistischen Einheiten ω , die diesselben wohldenierten Identikationskriterien IK erfüllen, heiÿt Grundgesamtheit oder statistische Masse. Man schreibt: Ω := (ω/ω erfüllt IK) Die Anzahl nΩ heiÿt der Umfang einer Grundgesamtheit. Es gibt reale Grundgesamtheiten (Bevölkerung eines Landes) und ktive (Würfe mit einem Würfeln) Grundgesamtheiten. Statistische Einheiten ω sind die Objekte, deren Merkmale in einer gegebenen Fragestellung von Interesse sind und im Rahmen einer empirischen Untersuchung erhoben, also beobachtet, erfragt oder gemessen werden sollen. Zur Identikation der gleichartigen statistischen Einheiten der Grundgesamtheit werden in der Regel objektive und genaue Identikationskriterien zeitlicher, räumlicher und sachlicher Art angegeben. Die verschiedenen Werte, die ein Merkmal M annehmen kann, werden als Modalitäten oder Merkmalausprägungen bezeichnet. Zusammenspiel der Symbole/Teile: Es existiert eine Grundgesamtheit Ω := (ω/ω erfüllt IK) Diese Untersuchungseinheit ω wird aus ein Merkmal M hin untersucht: M(w). Dieses M wird dann in die statistische Variable X, eine Funktion für die gilt: Xω = F kt(M (ω)) Da die Merkmalsausprägungen häug schon als Zahlen vorliegen ist X eine identische Funktion: M (ω) → X[M (ω)] = x über einem Wertebreich W. Beispiel: Aus der Grundgesamtheit aller Wimbeldonsieger wird die Untersuchungseinheit Boris Becker auf das Merkmal Geschlecht untersucht. Bei einem Wertebereich von 0,1, wobei 0 männlich und 1 weiblich ist, erhält man die statistische Variable 0. Beispiel: Aus der Grundgesamtheit alle DAX-Unternehmen wird die Untersuchungseinheit Daimler auf das Merkmal Aktienkurs am Tag t untersucht. Bei einem Wertebreich von 0,∞ erhält man eine bestimmte statistische Variable wie z.B. 100. Einteilung von statistischen Variablen und Merkmalen: Meÿbarkeitsniveaus: • nominal skalierte Variablen: lediglich Gleichheit oder Andersartigkeit kann festgestellt werden, keine Bewertung: Mann und Frau, Nationalität 3 Titel 1 Statistische Merkmale und Variablen Tabelle 1: Merkmals-/Variablentypen qualitative Merkmale quantitative Merkmale stetige Variablen diskrete Variablen der Beschaenheit der Gröÿe nach, schon können jeden Wert abgestufte Werte, nach, endlich als Zahl verfügbar eines Intervalls abzählbar viele annehmen, Ausprägungen Ausprägungen werden gemessen alle nominalen alle ordinal, kradinalen Variablen Variablen z.B. Zeitmaÿe z.B. Geschlecht • ordinal skalierte Variablen: Merkmalsausprägungen unterschiedbar, sinnvolle Rangordnung: Schulnoten, sozialer Status • kardinal skalierte Variablen: Rangfolge wird ausgedrückt, quantitavier Unterschied zwischen ihnen kann bestimmt werden: BIP, Ination verhältnisskaliertes Merkmal: besitzt absoluten Nullpunkt, so dass gilt: X(ω1 ) = 2 ∗ X(ω2 ): Einkommen, Preis item intervallskaliertes Merkmal: besitzt keinen absoluten Nullpunkt, Rechnung also so nicht durchführbar: Celsiusskala Erhebungstechniken: • Primärerhebung: Daten isnd für einen bestimmten Zweck erhoben und werden direkt dafür genutzt • Sekundärerhebung: Daten wurde ursprünglich für andere Zwecke erhoben und werden fremdgenutzt Datenarten: • Zeitreihendaten: zu einer Person über einen bestimmten Zeitraum erhoben • Querschnittsdaten: zu mehreren Personen zu einem Zeitpunkt erhoben • Paneldaten: zu mehreren Personen über einen bestimmten Zeitraum erhoben 1.2 Teilgesamtheiten, Stichproben Denition: Jede echte Teilmenge Ω* von Ω heiÿt Teilgesamtheit der Grundgesamtheit. Teilgesamtheiten heiÿen Stichproben wenn bei der Auswahl der Elemente der Zufall wesentlich 4 Titel 1 Statistische Merkmale und Variablen beteiligt war. Bei einer reinen Zufallsstichprobe hat jedes Element der Grundgesamtheit die gleiche Chance, in die Stichprobe aufgenommen zu werden. Bei einer repräsentativen Stichprobe versucht man, die Repräsentanz bezüglich anderer Merkmale zu gewährleisten, wobei angenommen wird, dass das zu untersuchende Merkmal mit diesem anderen Merkmal in einem gewissen statistischen Zusammenahng steht. Beispiel: Bei der Sonntagsfrage benötigt man eine repräsentative Stichprobe. Man wählt den anteil der Frauen wie in der Gesamtwählerschaft sowie die Alterstruktur. Gut wäre auch geograsche Verteilung und Berufsstruktur zu berücksichtigen. 1.3 Statistische Verteilung: X ist die statistische Variable: ω eingesetzt darin ergibt eine Zahl/Wert x n ist die Anzahl der Beobachtungen Urliste: ω1 ω2 ...ωv ...ωn unsortierte Reihe der Untersuchungseinheiten x1 x2 ...xv ...xn Reihe der Merkmalwerte: mit xv = X(ωv ) für v=1,...,n heiÿt Beobachtungsreihe der Variablen X oder statistische Reihe X Tabelle 2: Beispiel ω1 ω2 ω3 ω290 Studenten 42 47,5 31,5 68 Klausurpunktezahl Sortierung und Umnumeruierung: x1 ≤ x2 ≤ xi ≤ xn nach Gröÿe geordnete Liste möglicher Versuchswerte x1 < x2 < xk wobei k ≤ n Bsp.: n=10 1.6 1.6 3.0 3.0 3.0 4.1 4.1 4.1 4.1 5.0 und k=4 1.6 3.0 4.1 5.0 Gilt für diskrete X Dention: absolute Häugkeit Gibt an wie oft die statistische Variable X einen bestimmten Wert xi annimmt: also wie oft kommt der Wert xi unter den ω vor: ni := absH(X = xi ) oder n(xi ) 5 Titel 1 Statistische Merkmale und Variablen Denition: relative Häugkeit Gibt an wie viel ni prozentual ausmacht: ni (=absoluteHuf igkeit) hi := relH(X = xi ) = n(=AnzahlderBeobachtungen) oder h(xi ) Dabei gilt: 0 < hi ≤ 1 Denition: Häugkeitsverteilung P P Die Tabellen 3 und 4 und für die gilt: ni = n und hi = h heiÿen absolute bzw. relative Häugkeitsverteilung der statistische Variablen X Tabelle 3: absolute Häugkeit x1 n1 x2 ... n2 ... xk nk Tabelle 4: relative Häugkeit x1 h1 x2 ... h2 ... xk hk 1.4 Häugkeits- und Verteilungsfunktion Denition: Häugkeitsfunktion: Die Funktion h(x) = hi falls x = xi und sonst 0 heiÿt Häugkeitsfuntkion der statistischen Variablen X Die korrekte Darstellung erfolgt in einem Stabidagramm (siehe Anlage Nr.1) Dention: empirische Verteilungfunktion P oder H(x) = xi ≤x h(xi ) für stetige und diskrete X heiÿt empirische Funktion H(x) = absH(X≤x) n Verteilungsfunktion der statistischen Variablen X. Sie heiÿt auch Summenhäugkeitsfunktion. Die korrekte Darstellung erfolgt in einem Treppendiagramm (siehe Anlage Nr.2) Eigenschaften der empirischen Verteilungsfunktion: Die empirische Verteilungsfunktion h ist: lim H(x + ∆x) = H(x) • überall wenigstens rechtsseitig stetig: ∆x→0 An den Sprungstellen ist sie nur rechtsseitig stetig • monoton steigend: H(a) ≤ H(b) falls a<b • besitzt einen unteren Grenzwert und einen oberen Grenzwert: 1 lim x→−∞ H(x) = 0 und lim x→∞ H(x) = 6 Titel 1 Statistische Merkmale und Variablen Verwendung: • Die Dierenz H(b)-H(a)=relH(a < X ≤ b) gibt für a<b die relative Häugkeit der Beobachtungswerte der Variablen X an, die gröÿer als a, aber nicht gröÿer als b sind • Der Funktionswert an jeder Stelle x gibt die relative Häugkeit an, mit welcher Werte, die kleiner oder gleich x sind, in der statistischen Reihe vorkommen: H(x)=relH(x ≤ x) • An jeder Stelle erhält man aus der empirischen Verteilungsfunktion die Werte der Häugkeitslim funktion als Dierenz: h(x)=H(x)- ∆x→0 H(x − ∆x) 1.5 Quantile Eine Zahl x[q] mit 0<q<1 heiÿt q-Quantil wenn sie die statistische Reihe X so aufteilt, dass mindestens 100*q% ihrer Beobchtungswerte kleiner oder gleich x[q] sind und gleichzeitig mindestens 100*(1-q)% gröÿer oder gleich x[q] sind (Datenteiler), also: relH(X ≤ x[q]) ≥ q und relH(X ≥ x[q]) ≥ 1 − q Der kleinste Wert ist mit qx100 %, der gröÿte mit (1 − q)x100 % bestimmt Besondere Quantile: • unteres Quantil (Quartil): Q1 =x[0.25] • Median (Quartil): Q2 =x[0.5] • oberes Quantil (Quartil): Q3 =x[0.75] • Dezile: x[0.1], x[0.2],...,x[0.9] • Perzentile: x[0.01], x[0.02],...,x[0.99] Quantilsfunktion: Die Quantilsfunktion ist die Umkehrfunktion zu H(x): Aus H(x)=q (q ist gesucht, x gegeben) und H(x[q])=q (x[q] ist gesucht, q gegeben) folgt: x[q]=H −1 [q] Man kann die Quantile aus der Verteilungfunktion grasch ablesen (Vgl. Anlage Nr.3) Berechnung der Quantile: Grundsätzlich ergibt sich: x[q] = 21 (xn∗q + xn∗q+1 )für n(Anzahl) ∗ q(Quantil)=ganze Zahl bzw x[q] = x<n∗q> für <n*q> ist nächsthöhere Zahl Diese berechnungen gelten für diskrete, nach der Gröÿe geordnete werte. Für stetige werte muss man andere Überlegungen anstellen. 7 Titel 1 Statistische Merkmale und Variablen Es ergibt sich grundsätzlich das Problem, dass die empirische Verteilungsfunktion Sprungstellen besitzt und x[q] uneindeutig sein kann. Wenn man genau auf einer Treppenstufe von H landet, ist die Umkehrfunktion nicht eindeutig bestimmt, so dass in diesem Fall jeder Wert zwischen den benachbarten Sprungstellen xi ≤ x[q] ≤ xi−1 ein q-Quantil ist. Man nimmt dafür den Mittelwert: xi +xi−1 2 Wenn man genau zwischen zwei Treppenfunktionen von H landet, ist die Umkehrfunktion auch nicht eindeutig bestimmt, da theoretisch kein Wert das q-Quantil bildet. Man nimmt den Wert an dem q[xi ] gerade überschritten wird = q[xi−1 ] Beispiel zur Berechnung siehe Skript Anwendung der Quantile: Quantile und Value at risk (VaR) Berechnung der Rendite: t+10 X= pt+10p+d -1 = einfache Rendite t e = log[ pt+10p+dt+10 ] = log-Rendite x t e ≈ X für x pt+10 +dt+10 pt klein Man nimmt nun die Renditekurven von zwei Unternehmen und berechnet jeweils das 1%-Quantil(VaR at 1% signicance level) Bei der Frage welche Anlage risikoreicher ist betrachten wir x[q] und vergleichen: das kleinere Ergebnis birgt das geringere Risiko, da im schlechtesten Fall ein geringerer Absturz folgt Vergleiche Anlage Nr.4 1.6 Häugkeitsdichte und Histogramm Bildung von Gröÿenklassen (Schichten) durch geeignet gewählte Klassengrenzen ξ0 , ξ1 , ...ξm (Beispiel Anlage Nr.5) Die Abschnitte m haben die Klassenbreiten: δi := ξi − ξi−1 mit i=1,.....,m und die Klassenhäugkeit der Werte in jeder Gröÿenklasse beträgt: hi := relH(ξi−1 < X ≤ ξi mit i=1,...,m Denition: Verteilungsfunktion der Klassen Ordnet man die Klassenhäugkeiten den Klassenobergrenzen zu (eine alternative Möglichkeit wäre , die Klassenhäugkeiten den Klassenmitten zuordnen), so kann aus den Werten der folgenden HäugP keitstabelle mit hi = 1 die Verteilungsfunktion der Klassen Hk (x) gezeichnet werden. 8 Titel 1 Statistische Merkmale und Variablen Tabelle 5: Titel ξ1 h1 ξ2 h2 ... ... ξm hm Dies geschieht durch einen approximierenden Polygonzug H(x), bei dem die x-Achse die Klassenabstände und die y-Achse die relative Häugkeit darstellt. Die Punkte aus obiger Tabelle werden einfach verbunden. Beispeil Anhang Nr.6 e Diesen Polygonzug kann man noch Glätten und erhält eine approximierende glatte Kurve H(x) = Hk (x) Beispiel siehe Anhang Nr.7 Denition: Häugkeitsdichte: Sei Hk (x) die Verteilungsfunktion eines nach Gröÿenklassen erhobenen Merkmals X mit den Klassenobergrenzen ξ1 , ...ξm so heiÿt der Quotient: HK (ξi )−Hk (ξi−1 ) = hδii ξi −ξi−1 die durchschnittliche Häugkeitsdichte der i-ten Gröÿenklasse (i=1,...,m) Histogramme: sind geeignet für stetige Daten oder diskrete Daten mit vielen Merkmalsausprägungen. Die Klassenbreite ist frei wählbar, muss jedoch Maÿstabsgetreu angetragen werden. Man berechnet das Histogramm mittels: h(x) := dH(x) dx Dies beudetet: normierte relative Häugkeit (Balkenhöhe, y-Achse)= relHderKlasse Klassenbreite Damit ist die Fläche einer Säule gleich der relativen Häugkeit und die Gesamtäche beträgt 1. Beispiel siehe Anhang Approximiert man Histogramme so erhält man die Dichtefunktion für die gilt: e dH(x) dx Beispiel Anhang Nr.8 e h(x) := Beispiel für Histogramme: die demograsche Entwicklung Deutschlands • Bevölkerungspyramiden sind Histograme. Die senkrechte Achse ist hier die Achse der Merkmalswerte • Die Ursachen für die moderne Gesellschaften typische Bauhform können dabei recht unterschiedlich sein und es lassen sich Vermutungen über die auswirkungen des 2.Weltkriegs in Deutschland und Frankreich, der 68er Bewegung (Pillenknick) in Deutschland, Frankreich, Italien und den USA sowie der späteren Ein-Kind-Politik in Chmia anstellen. • Die künftige demograsche Entwicklung Deutschlands bereitet Sorgen. In einer Projektion auf 9 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen das Jahre 2050 sieht man, dass wenn im Jahre 2000 100 Personen der altersgruppe 20-60 rund 41 über Sechszigjährigen gegenüberstehen so würde diese Zahl bis 2050 auf 91 ansteigen. Diese Zahl nennt man den Altersquotient Aq. • Grafiken siehe Skript 2 Maÿzahlen zur Beschreibung statistischer Verteilungen • Ziel: Beschreibung der Verteilung der Daten mit wenigen Maÿzahlen • Bsp. Mittelwerte: Werte, um die sich die Daten gruppieren Abstand der Beobachtungen vom Mittelwert möglichst klein • Beispiele für Möglichkeiten der Verteilung und die angetragenen Mittelwerte: siehe Anlage Nr.9 2.1 Arithmetisches Mittel als Lagemaÿ Denition: Arithmetische Mittel DieGrexoderxn = n1 ∗ (x1 + x2 ...xn ) = n1 nv=1 xv heiÿt arithmetisches Mittel oder Mittelwert einer statistischen Verteilung. Berechnung auch mit Hilfe der absoluten bzw. relativen Häugkeiten: P P x := n1 ki=1 ni ∗ xi bzw. x := ki=1 xi ∗ nni wobei diese im Gegensatz zur Summe über die Betrachtungen die Summe über die i-te Merkmalsausprägung bilden. (Das arithmetische Mittel steht nicht in der EDA-Formelsammlung) P Eigenschaften des arithmetischen Mittels: • Zentraleigenschaft: nv=1 (xv − xn ) = 0 Die Summe aus der Dierenz aller aufsummierter Werte x - jeweils den Mittelwert ergibt 0 P • ⇒ xn ist das Zentrum der Massenverteilung: Mittelwert muss weder häug noch überhaupt selbst in den Daten vorkommen, sondern ist nur der Schwerpunkt. Bsp.: Kindergeburtenrate von 1,52 Kinder • xn minimiert Pn v=1 (xv − a)2 • Verschiebung aller Werte einr statistischen Reihe um den konstanten Wert a verschiebt das arithmetische Mittel um eben diesen Wert: yi := xi + a ⇒ y = x + a 10 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen • Homogenität. Multiplikation aller Werte einer statistischen Reihe X mit dem konstanten Faktor b 6= 0 multipliziert das arithmetische Mittel mit diesem Wert: zi := b ∗ xi ⇒ z = b ∗ x • Berechnung aus Gruppenmittelwerten: Die Reihe X mit n Elementen sei in m<n disjunkte statistische Teilreihen mit den jeweiligen Elememten und den Mittelwerten zerlegt worden. Es gilt dann: P xges = n1 m j=1 nj ∗ xj • Der Mittelwert ist ausreiÿerempndlich: wenige Fehler können den ganzen Wert maÿgeblich verändern • Der Mittelwert ist demokratisch: jede Beobachtung erhält das gleiche Gewicht: P xn = g ∗ x1 + g ∗ x2 ... = nv=1 g ∗ xv , wobei g = n1 • Dies ist anders als beim gewogenen arithmetischen Mittel für das gilt: P x ∗ g = g1 ∗ x1 + g2 ∗ x2 ....gn ∗ xn = nv=1 gv ∗ xv 2.2 Median Wir sortieren x1 ≤ x2 ≤ V ≤ xi ≤ V ≤ xn Eine Zahl xM ed mit xmed = x n+1 falls n ungerade und x n2 ≤ xM ed ≤ x n2 +1 falls n gerade heiÿt 2 Median oder Zentralwert der empirischen Reihe X. Ist der Median bei geraden Reihen nicht eindeutig bestimmt so wählt man: xmed = 12 ∗ (x n2 + x n2 +1 ) (Der Median steht nicht in der EDA-Formelsammlung) Zusammenhang zwischen Median und Mittelwert: • Median ≈ Arithmetische Mittel bei symmetrischer Verteilung emed ) • Median 6= Arithmetisches Mittel bei Ausreiÿern: linksschief/rechtssteiler Verteilung (x < x emed ) oder linkssteile/rechtsschiefe Verteilung (x > x 2.3 Modus Denition: Die Zahl XM = xi mit h(xi ) > h(xk ) für alle k 6= i heiÿt Modus oder modalwert einer empirischen statistischen Reihe. Der Modus beziechnet den am häugsten auftretenden Wertoder als modale Klasse die Klasse mit der gröÿten Dichte. Der Modus muss nicht für jede statistische Reihe existieren. Verteilungen, die genau einen Modus besitzen, heiÿen unimodal. Der Modus behält seinen Sinn auch bei rein qualitativen Merkmalen. Beispiel: 11 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen Die statistische Reihe 2,3,3,4,4,4,5,6 hat den Modus 4. Zwei häugste Werte gibt es in der statistischen Reihe 1,2,3,3,3,4,5,6,6,6,7, nämlich 3 und 6. Die Werte liegen getrennt und kommen jeweils häuger vor als ihre beiden Nachbarwerte. 2.4 Das geometrische Mittel im Gegensatz zum arithmetischen Mittel wird es für Wachstumsraten/Prozentzahlen verwendet, und nicht für feste Werte. Einstiegsbeispiel: Tabelle 6: Datenerhebung pt −pt−1 pt−1 pt pt−1 200 1 2 100 -0,5 0,5 t pt 0 100 1 2 Schreibweisen für dasqgeometrische √ Mittel: Aufs Beispiel bezogen: p1 p0 Allgemein für n-Perioden: p2 p1 = q n p1 ∗ p2 p0 p1 ∗ 2 ∗ 0.5 = 1(bzw.0) ∗ ... ∗ pn pn−1 = Bruttowachstum -1(*100%)=Nettowachstum pn p0 =Bruttowachstum-1 (*100%)=Nettowachstum Vereinfacht für Anfangs- und Endwert: n pt Allgemeine Bruttowachstumsraten pt−1 = xt : q 1 √ xg = n x1 ∗ x2 ∗ ... ∗ xn = (x1 ∗ x2 ∗ ... ∗ xn ) n Das bedeutet theoretisch, wenn der Wert p0 pro Periode um [xg − 1]*100% wächst bin ich nach n Perioden bei pn xg und log-Renditen: bei groÿen Zahlen ist diese Berechnung leichter zu interpretieren P ln[x ∗ g] = n1 (lnx1 + lnx2 + ... + lnxn ) = n1 nv=1 ln(xv ) → exp(lnxg ) = xg Das geometrische Mittel ist für jede Reihe mit nur positiven Werten stets kleiner als das arithmetische Mittel, es sei denn, alle Werte der Reihe sind gleich 2.5 Das harmonische Mittel Bildet man von den Werten xi einer statistischen Reihe die Kehrwerte x1i und berechnet von diesen das arithmetische Mittel n1 ∗ ( x11 + ... + x1n . Nimmt man von diesen Ergebnissen wieder den Kehrwert erhält man das sogenannte harmonische Mittel: Hx := Pn n ( 1 ) j=1 xj Weitere Berechnung: 12 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen Für zwei Werte a,b gilt: xharm.M. = 2ab a+b = x2geom= xarithm Nutzung: km Beispiel Geschwindigkeit: Fährt ein Auto erst 100km mit 50 km h und dann 100km mit 100 h so benutzt man zur errechnung der Durchschnittsgeschwindigkeit das harmonische Mittel. Ginge es nur um km die Durchschnittsgeschwindigkeit von einaml 100 km h und einmal 50 h würde man das arithmetische Mittel benutzen Für jede statistische Reihe mit (verschiedenen) positiven Werten ist Hx < Gx < x 2.6 Weitere Mittelwerte Midrange: 1 2 (x(1) + x(n) ) = der Mittelwert aus dem gröÿten und kleinsten Wert sehr ausreiÿerempndlich Quartilsmittel: 2 −Q1 ) 1 + x[0, 75]] = (Q3 −Q2)+(Q = Q3 −Q 2 2 Andere Bezeichnungen: Interquartilabstand IQA oder mittlerer Quartilabstand Beispiel siehe Skript Seite 20 1 2 [x[0, 25] 2.7 Streuungsmaÿe Spannweite Die Spannweite ist die Dierenz zwischen der gröÿten und der kleinsten Merkmalsausprägung in der statistischen Reihe: Spannweite:=xmax − xmin mittlere absolute Abweichung Die sogenannte mittlere absolute Abweichung P M AA := 15 nj=1 |xj − x| 2.8 Varianz und Standardabweichung Vergleiche Beispiel eigene Anlage Nr.10 Die mittlere quadratische Abweichung vom arithmetischen Mittel s2x := n1 nj=1 (xj − x)2 heiÿt empirische Varianz oder kurz Varianz einer beobachtenden statistischen Reihe X. P Die Varianz übernimmt alle Stärken und Schwächen des arithmetischen Mittels. Umso gröÿer die Varianz ist, umso gröÿer ist die Streuung. 13 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen Die positive p Wurzel aus der Varianz sx := + s2x heiÿt Standardabweichung. Bei diskreten Variablen kann man folgende Schreibweise benutzen: P s2x = ki=1 (xi − x2 ∗ n(x = xi ) wobei n=Anzahl der Werte und k=Zahl der Merkmalsausprägungen P s2x = ki=1 (xi − x2 ∗ hi wobei hi =rel H und K=Zahl der Merkmalsausprägungen Bei stetigen Variablen tritt an die Stelle des Summenzeichens das Integral: R∞ s2x = −∞ wobei h(x) die Dichtefunktion ist. Beispiele siehe Skript Eigenschaften der Varianz • Die Varianz ist stets gröÿer oder gleich Null: s2x ≥ 0 • Translation der statistischen Reihe um a=const lässt die Varianz unverändert: yi := xi + a ⇒ s2y = s2x • Streckung der statistischen Reihe mit dem Faktor b=const: zi := b ∗ xi ⇒ s2z = b2 ∗ s2x • Zu ihrer vereinfachten Berechnung dient die folgende Formel: P 1 P (xv − x)2 = n1 x2v − x2 n • Obiger Sachvethalt ist nur ein Spezialfall (mit d=0) des folgenden Steinerschen Verschiebungssatzes. Für jedes konstante d gilt: P 1 P (xv − x)2 = n1 (xv − d)2 − (x − d)2 n • Gesamtvarianz: Zerlegt man die statistische Reihe X in einzelne Gruppen mit jeweils n-Elementen und den zugehörigen Mittelwerten und Varianzen so errechnet sich die Gesamtvarianz wie folgt: P 1 Pm 2 2 s2ges = n1 m j=1 nj sj + n j=1 nj (xj − x) wobei der erste Ausdruck als innere und der zweite als äuÿere Varianz angesehen wird. • Minimaleigenschaft: Die Summe der quadratischen Abweichungen von irgendeinem d ist stets gröÿer als die Varianz P P SQA(d) := (xj − d)2 ≥ (xj − x)2 Das arithmetische Mittel sei diejenige Zahl d, die SQA minimiert: Das ist das Prinzip der kleinsten Quadrate Fallstricke: Streuung, Konzentration, Unsicherheit, Risiko Bei der Umskalierung bleibt das arithmetische Mittel sowie die Standardabweichung gleich bis auf den Faktor der Umskalierung. Varianzen sind wegen ihres quadratischen Charakters nicht mehr vergleichbar. Es gelten folgende Regeln: Wenn y=a*x, dann • y= 1 n Pn v=1 yv =a∗x 14 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen Pn • s2y = 1 n • sy = p v=1 (yv − y)2 = a2 ∗ s2x (Beweis über: 1 n Pn v=1 (a ∗ xv − a ∗ x)2 a2 ∗ s2x = a ∗ sx Wenn y=x+a und yv = xv + a (für jede Beobachtung), dann • y= 1 n Pn v=1 (xv + a) = x + a • s2y = s2x (Beweis: y)2 ) 1 n Pn 1 v=1 [(xv +a)− n (xv +a)]2 = P 1 n Pn 1 v=1 (yv − n Pn v=1 yv ) 2 = 1 n Pn v=1 (yv − S oder s2 taugen nicht als Maÿe für die Ungleichheit, da sie Relationen vernachlässigen (z:B. Unterschied 1-2 ist gleich 31-32) 2.9 Konzentrationsmaÿe Frage: Wie groÿ ist der Anteil, den einzelne satistische Einheiten ωi an der gesamten Summe der Merkmalswerte in einer statistischen Reihe S := x1 + x2 + .... + xn haben? Unter der Konzentration versteht man eine Ungleichheit in der Verteilung der Merkmalsumme auf die Merkmalsträger. Absolute Konzentration: Ein hoher Anteil der Merkmalsumme s entfällt auf eine kleine absolute Anzahl von Merkmalsträgern (Bsp.: 4 Firmen machen 62% des Gesamtumsatzes einer Branche) Relative Konzentration: Ein hoher Anteil der Merkmalsumme S entfällt auf einen kleinen Anteil der Merkmalsträger (Bsp.: 4% des Einkommenssteuerumsatzes wurde vin 30% dr Zahler aufgebracht) Zur Berechnung Aus ener gegebenen absoluten Verteilung (siehe Tabelle Skript) berechnet man: Pi j=1 xj = (Zahlx1 + Zahlx2 ... + Zahlxi ) j=1 nj =(Merkmalsausprägung 1+2+...+i) für Es werden also jeweils alle Ergebnisse bis zum betrachteten aufaddiert. In einem Diagramm werden diese dann der rel H gegenübergestellt (Vergleich zweier Graphen). Keine Konzentration liegt vor wenn ale Elemente ωi denselben Merkmalswert x(ωi ) = xi = x aufweisen. Pi 2.10 Lorenz-Kurven Bedingungen für die Werte: • keine negativen Merkmalsausprägungen • Merkmalsausprägungen nach Gröÿe geordnet • gröÿen ni xi ≥ 0 und Pk j=1 nj xj > 0 müssen sinnvoll interpretiert sein 15 Titel 2 Maÿzahlen zur Beschreibung statistischer Verteilungen Konstruktion der Kurve: Pi n j xj • Ordinate: Mi = 100 ∗ j=1S jeweilige kumulierte Werte (d.h. die Anzahl der Ausprügungen*n) mit ihrem Anteil an der Merkmalssumme S (gesamte Merkmalssumme) z.B. Stückzahl • Abszisse: Hi = 100 ∗ ij=1 hj also die kumulierten rel.H P Denition: Ein Streckenzug, der in einem Koordinatensystem ausgehend vom Ursprung P0 = (0, 0) die Punkte Pi = (Hi , Mi ) miteinander verbindet, heiÿt Lorenzkurve. Die Lorenzkurve gibt somit zu jedem Prozentsatz der statistischen Einheiten den dazugehörigen Prozentsatz an der Merkmalsumme an. Die Lorenzkurve ist somit eigentlich keine Kurve, sondern ein Polygon- oder Streckenzug, der stets vollständig unterhalb der Diagonlane verläuft, er beginnt im Punkt P0 = (0, 0) und endet im Punkt Pk = (100, 100). Jedes einzelne Stück des Streckenzugs ist steiler als das vorhergehende: die Lorenzkurve ist konvex. Vgl. Beispiepl S.66/67 Die Lorenzkurve stellt zunächst kein Konzentrationsmaÿ im Sinne einer einzigen summarischen Maÿzahl für die ganze Vertielung dar. Vielmehr gibt sie punktuelle Maÿe an. Zu jedem Punkt Hi wird die sogenannte relative Konzentration Mi angegeben: auf Hi Prozent der kleineren statistischen Einheiten entfallen Mi Prozent der Merkmalssumme. Dabei sind die kleineren statistischen Einheiten, diejenigen mit den geringeren Merkmalswerten. Natürlich entfallen dann auf die 100 − Hi Prozent gröÿeren Eiheiten 100 − Mi Prozent der Merkmalssumme. Lorenzkurve nach Gröÿenklassen: Die Klassenobergrenzen bilden die Knickstellen der Kurve. Man benötigt auÿerdem die absoluten oder relativen Häugkeiten (z.B. der Unternehmen pro Klasse) und die Merkmalsteilsummen jeder Gröÿenklasse (z.B. die Bruttoanlageinvestitionen) die zusammen die Gesamtsumme ausmachen. Man geht nach folgeneder Arbeitstabelle vor: P P Gröÿenklasse → ni → xi → Si = ni xi → ij=1 nj & ij=1 Sj → Hi &Mi Beispiel S. 70 In Worten heiÿt dies: Zuerst werden aus absH*Mittelwerte die Merkmalsteilsummen bestimmt. Durch Teilen durch die Gesamtsumme der Teilsummen erhält man die unkumulierten Werte. Die kumulierten Werte bilden die Ordinate. Die Abzisse enthält weiterhin die kumulierten rel.H. Die wahre Konzentrationskurve wird zwischen den Knickstellen stärker durchhängen, es sei denn 16 Titel 3 Zweidimensionale Verteilungen innerhalb der Klassen gäbe es keinerlei Konzentration. Die Konzentrationsäche K des nach Gröÿenklassen berechneten und gezeichenten Lorenz-Polygons wird dadurch etwas kleiner ausfallen. Möchte man dies verhindern so kann man auf eine Approximation zurückgreifen, mit der man eine stetige Kurve erhält. Beispiel S. 71 2.11 GINI-Koezient Die einfachste Art die Konzentration zu messen wäre • die Länge der Kurve oder • die Fläche K zu messen, die sie mit der Diagonalen einschlieÿt √ Normiert man√ die Seitenlänge des Quadrats auf 1 (Lorenz:100) so liegt die Länge zwischen 2 und 2, wobei L = 2 fehlende und L=2 vollständige Konzentration bedeutet. Die Fläche liegt dann zwischen 0 und 21 wobei K=0 fehlende und K = 12 vollständige Konzentration bedeuten würden. Man vergleicht aber die Konzentrationsäche K mit der maximal möglichen Konzentrationsäche: Konzentrationsf lcheK GINI:= grtmglicheKonzentrationsf lche heiÿt Gini-Konzentrationskoezient einer Verteilung. 1 Kmax = 12 − 2n wobei 1=Anzahl in erster Klasse und n=Gesamtzahl darstellen 2n → GIN I = K ∗ n−1 (wobei dies nur bei diskreten Daten möglich ist, bei Klassen wird durch 0,5 geteilt) 0≤ Gini ≤ 1 → normierte Maÿzahl der summarischen relativen Konzentration Berechnung der Konzentrationsäche K: P K = 21 − kj=1 12 (Mj−1 + Mj ) ∗ hj wobei h=Klassenbreite (also unkumulierte rel.H), Mj = zweite Höhe und Mj−1 = erste Höhe darstellen. 3 Zweidimensionale Verteilungen Jede statistische Einheit ωi einer Grundgesamtheit Ω kann Träger einer Vielzahl von Merkmalen sein. Die univariate Statistik beachtet davon nur ein Merkmal bzw. eine Variable Die multivariate Statistik beobachtet von jedem Merkmalsträger ωi mehrere Variablen 17 Titel 3 Zweidimensionale Verteilungen 3.1 Streudiagramm und gemeinsame Verteilung Zwei Variablen x(ωi ) und y(ωi ) sind von Interesse. Das Eregbnis der Erhebung sind Wertepaare (xi , yi ) : P1 = (x1 , y1 ); Pn = (xn , yn ) Die Kontigenztabelle stellt die gemeinsame Verteilung der statistischen Variablen X und Y übersichtlich dar. Man benötigt die gemeinsame Verteilung, nicht nur die Randverteilung um eine komplette Tabelle aufstellen zu können (d.h. man rechnet vom Detail innen nach auÿen). Vergleiche Anlage Nr.11 In der Kontigenztabelle stehen die absoluten Häugkeiten: Absolute Häugkeit mit der die Wertekombination (xi , yj ) auftritt: nij = absH(X = xi ∩ Y = yi ) für i=1...k und j=1...l Randhäugkeiten: Absolute Häugkeit mit der Werte xi und yj auftreten: P P ni∗ = lj=1 nij bzw. n∗j = ki=1 nij P P P P P P Natürlich ist: ki=1 lj=1 = ki=1 ni∗ = n = lj=1 n∗j = lj=1 ki=1 nij In der Kontigenztabelle stehen die relativen Häugkeiten: Relative Häugkeiten mit der die Wertekombination (xi , yi ) auftritt: n hij = relH(X = xi ∩ Y = yi ) = nij Randhäugkeiten: Absolute Häugkeit mit der Werte xi und yj auftreten: P P hi∗ = lj=1 hij bzw. h∗j = ki=1 hij P P P P P P Natürlich ist: ki=1 lj=1 = ki=1 hi∗ = 1 = lj=1 h∗j = lj=1 ki=1 hij 3.2 Randverteilungen: Denition: Die beiden eindimensionalen Verteilungen hi∗ = relH(X = xi ) = nni∗ mit i=1...k und n h∗j = relH(Y = yj = n∗j mit j=1...l heiÿen Randverteilungen der statistischen Variablen X bzw. Y Es wird dabei eine Verdichtung von der Mitte (gemeinsame Verteilungen) an den Rand erreicht Berechnung von Mittelwert und Varianz daraus: Mittelwerte und Varianzen der einzelnen Komponenten X und Y zwei- oder mehrdimensionaler Zufallsvariablen berechnet man leicht mit den Randverteilungen: P P x = ki=1 hi∗ ∗ xi bzw.y = lj=1 h∗j ∗ xj P P s2x = ki=1 hi∗ (xi − x)2 bzw. s2y = lj=1 h∗j (yj − y)2 Beispiel zu Berechnung dieses Kapitels: S.9-11 Skript 18 Titel 3 Zweidimensionale Verteilungen 3.3 Bedingte Verteilungen und statistische Zusammenhänge Denition: Die i=1...k eindimensionalen Verteilungen absH(x=xi ∧y=yj ) nij hij = ni∗ h(y = yj /x = xi ) = = hi∗ absH(x=xi ) und die j=1...l eindimensionalen Verteilungen absH(x=xi ∧y=yj ) nij hij h(x = xi /y = yj ) = = n∗j = h∗j absH(y=yj ) heiÿen bedingte Verteilungen. Der zweite Faktor wird jeweils festgehalten, während der erste alle felder dieser Spalte oder Zeile durchläuft. Unabhängigkeit von x und y: Denition: Wenn h(xi /y1 ) = h(xi /y2 = ... = h(xi /yl = h(xi ) oder(!) h(yj /x1 ) = h(yj /x2 = ... = h(yj /xk = h(yj ) dann gilt für i=1...k und j=1...l sowie X und Y dass sie statistisch unabhängig sind und es gilt hij = hi∗ ∗ h∗j Andernfalls liegt ein statistischer Zusammenahng vor (linear oder nichtlinear) Bei unabhängigen statistischen Variablen sind die bedingten Verteilungen identisch und jeweils gleich der Randverteilung. Daraus ergibt sich: h(x = xi /y = yj ) = hi∗ und h(y = yj /x = xi ) = h∗j Ein Beispiel zur Berechnung siehe Skript S.15f Beweis statistischer Unabhängigkeit: Die komplette Tabelle muss obige Bedingungen erfüllen, als Gegenbeweis reicht eine einzige Zelle, die die Bedingungen nicht erfüllt. Da gilt: nij n∗j = ni∗ n ergibt sich für jede einzelen Zelle bei statistischer Unabhängigkeit die hypo- thetische Wahrscheinlichkeit n ∗n e ij = i∗ n ∗j = hij = h(xi ) ∗ h(yj ) n d.h. hier kann von den Randverteilungen nach innen rechnen. Summe und Differenzen verschiedener Werte: Das Wertepaar xi = X(ωi ) und yj = Y (ωj ) wurde untersucht und es gilt: • Der Mittelwert einer Summe ist gleich der Summe der Mittelwerte: x ± y = x ± y • Durch Anwendung der binomischen Formel gilt: P s2X±Y = s2x + s2y ± 2 ∗ n1 (xj − x) ∗ (yj − y) • Spezialfall: P s2X±Y = s2x + s2y wenn n1 (xj − x) ∗ (yj − y) = 0 19 Titel 3 Zweidimensionale Verteilungen 3.4 Kovarianz Dention: Kovarianz: Die aus den n Wertepaaren (xi , yi ) berechnete Gröÿe P cxy := n1 nj=1 (xj − x) ∗ (yj − y) heiÿt empirische Kovarianz oder Kovarianz zwischen den statistischen Variablen X und Y Für diskrete metrische Variablen X und Y mit X = x1 , ...xk und Y = y1 , ...yl ergibt sich eine alternative Berechnung für Cxy Pk Pl (x i=1 j=1 i − x) ∗ (yj − y) ∗ relH(x = xi , y = yj ) oder P k 1 Pl j=1 i=1 (xi − x) ∗ (yj − y) ∗ nij n Beispiel dazu Skript S.25 Interpretation der Kovarianz und der Abweichung: Sind zwei Variablen X und Y statistisch unabhängig, so ist die Kovarianz zwischen ihnen 0. Dieser Satz ist nicht umkehrbar, da die Kovarianz nur den linearen Anteil der Abhängigkeit misst, d.h. man kann sagen wenn die Kovarianz 6= 0 ist sind X und Y abhängig, aber nicht wenn die Kovarianz = 0 ist sie seien unabhängig. Rechenregeln: • Cxy = 1 n Pn v=1 xv ∗ yv − x ∗ y • mit U=a+b*x und V=c+d*y gilt: Cuv = b ∗ d ∗ Cxy 3.5 Korrelationskoezient Die Kovarianz ist abhängig von Maÿeinheiten, weshalb eine standardisierte Maÿzahl benötigt wird: yv −y xv −x 1 Pn 2 ) ∗ ( ) wobei für u = gilt: zev = ( xvs−x v v=1 uv = 0 und su = 1. s s n x y x Denition: empirischer Korrelationskoezient P 1 n n ev v=1 z = cxy sx ∗sy = rxy und heiÿt Korrelatiinskoezient nach Bravais-Pearson zwischen X und Y. Eigenschaften der Korrelation: • Der Korrelationskoezent stellt ein normiertes Maÿ für die strenge des linearen statitischen Zusammnenhangs dar: −1 ≤ rxy ≤ +1 und löst die Cuchy-Schwartz-Ungleichung: c2xy ≤ s2x ∗ s2y • Für rxy = ±1 spricht man von perfekter Korrelation und diese tritt auf, wenn yv = a + b ∗ xv mit cxy = ±1 20 Titel 3 Zweidimensionale Verteilungen Interpretation des Korrelationskoezienten: • 0: keine Korrelation statistisch unabhängig • <0-0,5: schwache Korrelation • 0,5-0,8: mittlere Korrelation • 0,8-<1: starke Korrelation • 1: perfekte Korrelation Fallstricke der Kovarianz und des Korrelationskoezienten: • cxy und rxy messen nur lineare Zusammenhänge Bsp.: eine Parabel hat einen Korrelationskoezienten von null, da der quadratische Zusammenhabng nicht messbar ist • Korrelation6= Kausalität Kovarianz und korrelationskoezient beudeten nicht zwingend eine kausale Beziehung. Lediglich die gerade vorliegenden Beobachtungen zeigen eine statistische Tendenz, welche aber auch rein zufällig sein könnte Man muss auch dritte oder sogar vierte Variablen berücksichtigen oder beachten, dass die Kausalrichtung verdreht sein kann (Geschenke→ Weihnachten) Bsp.: Zusammenhang Studiendauer und Anfangsgehalt siehe Anlage Nr.13 • rxy kann nicht für nominale oder ordinale Skalierung benutzt werden Anwendung der Kovarianz und der Korrelation: Portfolio-Management Für ein Portfolio aus zwei Aktien gilt: Z=a*x+b*y wobei a,b die Anteile der jeweiligen Rendite x,y im Portfolio darstellen. Daraus ergibt sich das gewichtete Mittel des Vermögens: zv = a ∗ xv + b ∗ yv Daraus lassen sich folgende Formeln für das arithmetische Mittel und die Varianz aufstellen: P P z = n1 nv=1 zv = n1 nv=1 (a ∗ xv + b ∗ yv ) = a ∗ x + b ∗ y P P s2z = n1 nv=1 (zv − z)2 = n1 nv=1 (a ∗ xv + b ∗ yv − a ∗ x − b ∗ y)2 = a2 s2x + b2 s2y + 2 ∗ a ∗ b ∗ cxy Daraus kann man nun die Markowitz-Kurve aufstellen, in dem man auf der x-Achse die Standardabweichung und auf der y-Achse das arithmetische Mittel abträgt, und zwar mit allen möglichen Kombination für a+b=1 (z.B. a=0,1 und b=0,9). Das funktioniert jedoch nur wenn eine starke negative kovarianz/Korrelationskoezient zwischen x und y herrscht. Vergleiche Schaubild Anlage Nr.14 21 Titel 4 Lineare Regressionsrechnung 3.6 Kontigenzkoezient Berechnung und Interpretation der Kovarianz und des Korrelationskoezienten setzen metrische Messbarkeit voraus. Für den Rangkorrelationskoezienten reicht eine ordinale Messbarkeit. Problem: Messung des statistischen Zusammenhangs bei nominalskalierten Merkmalen... Ausgangspunkt sei die statistiche Unabhängigkeit. e ij sind die hypothetischen gemeinsamen Häugkeiten für Unabhängigkeit (siehe dort) n e ij der BeUm das Ausmaÿ der Abhängigkeit zu quantizieren wird man auf die Abweichung nij − n obachtungswerte schauen. Denition: Die Summe der relativen quadratischen Abweichungen P P (n −e n )2 χ2 := ki=1 lj=1 ijen ij ij heiÿt quadratische Kontigenz oder Chi-Quadrat-Koezient Das normierte Maÿ q QK KK := QK+n heiÿt Kontigenzkoezient. Der maximal mögliche Konigenzkoezient KKmax = ist von der Kontigenztabelle abhängig. q m−1 m < 1 wobei m=min(k,l) Denition: q QK∗m KK KK∗ := KK = (QK+n)∗(m−1) max heiÿt korrigierter Kontigenzkoezient. Er liegt zwischen Null und 1. Je näher er bei Null liegt, umso näher liegt er an der Unabhängigkeit und je näher er bei 1 liegt, umso näher liegt er an der Abhängigkeit. Rechenbeispiel siehe Skript S.32-34 Beispiel zur Kombination von Kontigenzkoezient und Korrelationskoezient Anlage Nr.12 4 Lineare Regressionsrechnung 4.1 Motivation Um das Problem der fehlenden Kausalität bei der Korrelation zu lösen, hat man die Regressionsrechnung eingeführt, denn in der ökonomischen Theorei werden Kausalbeziehungen doch impliziert/postuliert. Wenn man eine Variable X kennt will man wissen was eine Änderung von X für Y hervorruft. Wegen 22 Titel 4 Lineare Regressionsrechnung der simultanität (Konsum hängt von Einkommen ab, das einkommen vom Sparen, das sparen vom Zins, kann dies sehr komplex sein. 4.2 Korrelationsrechnung und Regressionsrechnung Kovarianz und Korrelationskoezient sind nur Maÿzahlen. Die Regressionsrechnung geht einen Schritt weiter: Der durchschnittliche lineare Zusammenhang zwischen den Merkmalswerten einer zweidimensionalen statistischen Variablen (X,Y) soll nun duech eine lineare Funktion also eine Gerade: y = b0 + b1 ∗ x + e im Streudiagramm dargestellt werden. Y ist hier die abhängige Variable und X die erklärende Variable, wobei Y = y1 ...yn und x = x1 ...xn (bivariater Datensatz). b0 und b1 sind unbekannte Parameter und e ist das Residium (etwas was das Modell nicht erklärt), wobei gilt: e = yv − ybv . Die Gerade soll eine mittlere Gerade sein, das heiÿt sie soll so durch die beobachteten Merkmalswerte (Xi , yi ) hindurchgehen, dass sie die Lage und Hauptrichtung der Punktwolke im Streudiagramm anzeigt. Mit der Methode der kleinsten Quadrate wird jeder Punktwolke eindeutig eine mittlere Gerade zugeordnet. Die Abweichung zwischen Beobachtungswerten und Geraden kann man als senkrechte Striche oder Quadrate abtragen. Vergleiche Anlage Nr.15 4.3 Bestimmung der Regressionsgeraden K-Q-Methode: Minimierung der Summe der quadrierten Abweichungen: P P Pn 2 (yv − ybv )2 = (yv − bb0 − bb1 ∗ xv )2 = SQA(b0 , b1 ) j=1 ev = (Vergleiche Anlage Nr.16) Ableiten nach b0 und b1 und Nullsetzen liefert die beiden Normalgleichung: P δ 1) δa SQA = v=1 n2 ∗ (yj − bb0 − bb1 ∗ xv ) ∗ (−1) = 0 P δ 2) δa SQA = v=1 n2 ∗ (yj − bb0 − bb1 ∗ xv ) ∗ (−xv ) = 0 1) (yv − bb0 − bb1 ∗ xv ) = 0 P 2) (yv − bb0 − bb1 ∗ xv ) ∗ xv = 0 P 1) yv − bb0 ∗ n − bb1 xv = 0 P P P 2) xv ∗ yv − bb0 xv − bb1 x2v = 0 P P 1) bb0 + x ∗ bb1 = y 2) x ∗ bb0 + x2bb1 = xy 23 Titel 4 Lineare Regressionsrechnung 1) bb0 = y − bb1 ∗ x c 2) bb1 = sxy 2 x Denition: Regressionsgerade: Seien (x1 , y1 )...(xn , yn ) beobachtete Wertepaare einer zweidmensionalen statistischen Variablen (X,Y) und sei sx > 0. Die Gerade y(x) = bb0 + bb1 ∗ x c b b mit den Koezienten bb1 = sxy 2 und b0 = y − b1 ∗ x x heiÿt Regressionsgerade einer Regression von Y auf X. Die zu den einzelnen xi gehörenden Werte auf der Regressionsgeraden ybi = y(xi ) heiÿen Regressionswerte. 4.4 Eigenschaften der Regressionsgeraden • Mittlere Gerade: Sie geht durch den Schwerpunkt der Punktewolke (x, y) und die Summe der Abweichungen ei ist null P P (yv − bb0 − bb1 ∗ xv ) = ev = 0 = e • Varianzminimierung: Die Varianz der Abweichungen P 1 P (ev − e)2 = n1 e2v = n1 SQA(b0 , b1 ) n ist bis auf den Faktor n identisch mit der Summe der kleinsten Quadrate. Das bedeutet, dass die Regressionsgerade die Varianz der Abweichungen minimiert. • Steigungsregression: Die Steigung der Regressionsgerade beträgt c cxy ∗sy sy b b1 = sxy 2 = s ∗s ∗s = rxy s x x y x x und ist uso acher, je kleiner die Korrelation ist (Vergleiche Skript S.11). • Varianzzerlegung: die Gesamtvarianz von Y wird in zwei Teile P P P (yv − y)2 = (ybv − y)2 + (yv − ybv )2 zerlegt und zwar in die Varianz der Regressionswerte und die Varianz der Abweichungen • Kovarianz aus der Abweichung und der unabhängigen Variablen X ist gleich 0 1 Pb ev (xv − x) = 0 n • Der Mittelwert aus der Summe aller y ist gleich dem Mittelwert aus der Summe aller abhängigen y: P 1 P yv = y = n1 ybv = yb n Anwendung: "`High-beta-stocks : bb1 sei gröÿer als 1 d.h. wenn der Marktwert aller Aktie um 1 steigt, so steigt eine speziell betrachtete in disem Fall mehr als 1. Bestimmtheitsmaÿ: Durch Varianzzerlegung kann man aus yv = ybv + ebv durch Umformungen (siehe eigene Anlage) die Varianz in einen erklärbaren und einen nichterklärbaren Teil zerlegen. 24 Titel 4 Lineare Regressionsrechnung Denition: Bestimmtheitsmaÿ: Das Verhältnis der in iener linearen Regression erklärten Varianz zur Gesamtvarianz der abhängigen Variabeln Y s2 R2 := sby2 y heiÿt Bestimmtheitsmaÿ der linearen Regression. Je gröÿer R ist, umso besser ist die Anpassung der Regressionsgerade an die Punktwolke, es wird daher als Maÿ für die Güte der Anpassung verwendet. 2 Es ist 0 ≤ R2 ≤ 1 und R2 = ( sxcxy )2 = rxy ∗sy Über yv = ybv + ebv erhält man den Ausdruck: P P 1 P (yv − y)2 = n1 (ybv − ybv )2 + n1 eb2v n also die empirische Varianz unterteilt in die Varianz der Prognosewerte und die Varianz der Prognosefehler. Es gilt also: P P 1 (y −b y )2 R2 = n1 P(yvv −y)v 2 = 1 − n Beispiel Skript S.13-16 1 1 n n P b e2v (yv −y)2 = erklrteV arianz Gesamtvarianzabh.V ariable =1− unerklrteV ariable Gesamtvarianzabh.V ariable 4.5 Nichtlineare Regression Ausgleichsgerade: Die Annahme der Linearität ist oft eine gute Annäherung an eine nichtlineare Realität. Die Linearitätsannahme ist aufzugeben, wenn die Daten im Streudiagramm sehr deutliche einen nichtlinearen Zusammenhang nahelegen Welchen Funktionstyp soll man wählen? Nichtlineare Funktionen, die durch einfache Transformaion in lineare Funktionen überführt werden können: • logarithmische Ansätze (logarithmisch-linear, halblogarithmisch) • quadratische Ansätze 4.5.1 logarithmische Ansätze Denition: Der logarithmisch lineare Ansatz formuliert eine lineare Beziehung in den Logarithmen der Daten: logy=a+b*logx. 25 Titel 4 Lineare Regressionsrechnung Durch Rücktranformation erhalten wir den Zusammenhang zwischen den urpsünglichen Beobachtungswerten: y = a∗ ∗ x b Die Koezienten dieser regression a und b werden mit den schon bekannten Formeln berechnet, jedoch muss man zuvor die Ausgangsdaten einer Transformation unterziehen und die Logarithmen der Beobachtungswerte nehmen. Denition: Bei dem sogenannten halblogarithmischen Ansatz wird nur eine der beiden Variablen logarithmisch transformiert: logy=a+bx. Durch Rücktransformation erhalten wir den Zusammenhang zwischen den ursprünglichen Beobachtungswerten: y = a∗ ∗ ebx Beispiele für logarithmische Regressionsansätze: Skript S.24 4.5.2 quadratische Ansätze Denition: Bei dem quadratischen Ansatz wird der Zusammenhang zwischen X und Y als Polynom 2. Grades formuliert: y = a + b1 x + b 2 x 2 Unter Verwendung der Beobachtungswerte werden die drei Koezienten a, b1 und b2 mit der MQK berechnet. Man benutzt dazu das Verfahren der Mehrfachregression (siehe unten). Die Variablen x und x2 werden dabei rein rechnerisch wie zwei verschiedene Variablen behandelt, obwohl sie es natürlich nicht sind. Der quadratische Ansätze haben den Vorteil, dass mit ihnen auch solche Zusammenhänge dargestellt werde können, deren Richtung umkehrt. Das ist dann von Nutzen, wenn die Korrelation mit ansteigenden x-Werten nicht nur schwächer wird, sondern das Vorzeichen wechselt. Beispiel: Skript S.26; Skript S.27-29. 4.6 Mehrfache Regression In manchen Fällen ist es angezeigt die Variation einer statistischen Variablen Y in Abhängigkeit von zwei anderen Variablen X1 und x2 darzustellen und zwar in der Form: yi = b0 + b1 ∗ x1i + b2 ∗ x2i + ei 26 Titel 5 Beschreibung von Zeitreihen Es handelt sich jetzt nicht mehr um eine Regressionsgeraden, sondern um eine Regressionsebene in einem dreidimensiopnalen Koordinatensystem. Zur Berechnung der drei Koezienten wäre ein Minimierungsproblem wie bei der Einfachregression zu lösen ,wobei die drei partiellen Ableitungen nun zu drei Normalengleichungen führen. Man muss also wieder die ersten Ableitungen gleich 0 setzen und nacheinander nach den Variablen ableiten, wobei einmal eine Lösung mit zwei Unbekannten, einmal mit einer Unbekannten und einmal ohne Unbekannte ensteht. Die Koezienten b1 und b2 geben die Steigung der Ebene in x1 -Richtung und in x2 Richtung an. Die Ebene schendiet die y-Achse bei b0 . Es ist zu beachten, dass die rechteckige, graue Fläche nur der bildmäÿigen Darstellung dient, die Regressionsebene selbst ist natürlich nicht durch sie begrenzt. Darstellung siehe Skript S.31. Prinzipiell können auch noch mehr als zwei unabhängige Variablen ins Spiel gebracht werden, wenn es im Einzelfall sinnvoll ist. Die Regressionsbeziehung lautet dann: yi = b0 + b1 x1i + b2 x2i + ... + bk xki + ei Beispiel Skript S.32 4.7 Ausblick: Interdependenz und Simultanität Es könnte folgendes Schema existieren: y1 =Zins, y2 =Geldmenge, y3 =Preisniveau: y1 = b11 ∗ y3 + a11 ∗ x1 + a12 ∗ x2 + e1 y2 = b21 ∗ y1 + a21 ∗ x1 + e2 y3 = b31 ∗ y2 + a31 ∗ x3 Dieses Gleichungsschema indem verschiedene abhängige Variablen sich gegenseitig bedingen ist nicht mehr mit der Kleinst-Quadrate-Methode zu lösen. 5 Beschreibung von Zeitreihen Bei der bisherigen Behandlung statistischer Variablen spielte die Anordnung der einzelnen Beobachtungswerte in der statistischen Reihe keine Rolle. Beliebige Umstellungen der Werte ändern nichts am Mittelwert oder an der Varianz, die Häugkeitsverteilung bleibt diesselbe. Willman aber mit einer statistischen Reihe von Beobachtungswerten die Veränderung einer Variablen in der Zeit untersuchen, ist deren zeitliche Anordnung sehr wohl von Interesse. Man denke nur an die Entwicklung von Aktienkursen oder den Gewinn einer Unternehmung. Denition: Eine empirische Zeitreihe ist eine Sequenz oder zeitlich geordnete Folge von T Beobachtungen 27 Titel 5 Beschreibung von Zeitreihen y1 , y2 , ...yt , ...yT einer statisischen Variablen Y. Wird ein Merkmalsträger beobachtet heiÿt sie univariat, bei mehreren Merkmalträgern multivariat. 5.1 Die Komponenten einer Zeitreihe • Trend Tr: Die Trendkomponente beschreibt die langfristige Veränderung des durchschnittlichen Niveaus der Zeitreihe • Zyklus Cy: • glatte Komponente G: Wenn sie sich nicht vernünftig trennen lassen, faÿt man Trend Die zyklische oder Konjunkturkomponente beschreibt mehrjährige, nicht notwendig regelmäÿige Schwankungen. Interessant sind die Länge des Zykluses und die Abgrenzung zum Trend und Zyklus zu einer Komponente zusammen. Man wird dies dann tun müssen, wenn die Zeitreihe nur einen Teil eines Konjuknturzykluses umfasst. Vergleiche Anhang Nr.17 Berechnung über Regressionsgeraden. • Saison S: Die Saisonkomponente oder periodische Komponente soll Schwankungen mit regelmäÿiger Periode (normalerweise innerhalb eines Jahres) angeben. • Rest U: • Schaubild Skript S.5 Die Restschwankung, irreguläre oder stochastische Komponente schlieÿlich nimmt die unregelmäÿigen Einüsse oder Störungen auf Rauschen. Wie fügen sich die Komponenten zusammen? Additives Modell: Y=Tr+Cy+S+U oder Multiplikatives Modell: Y=Tr*Cy*S*U Ansätze für die periodische Komponente: • Additiv überlagerte konstante Saisongur: Die positiven und negativen saisonalen Abweichungen in den einander entsprechenden Phasen sind in allen Perioden des Beobachtungszeitraums gleich groÿ. • Multiplikativ überlagerte konstante Saisongur: Die Abweichungen in den einzelnen Phasen stehen in jeder Periode im gleichen Verhältnis zu den Werten der glatten Komponente. • Variable Saisongur: Die Höhe der Abweichungen variiert im Zeitverlauf allmählich, es verändert sich also ihre Struktur. Die Verfahren für diesen Modellansatz streben eine lokale Approximation der variablen Saisonstruktur an die der eng benachbarten Perioden an. 28 Titel 5 Beschreibung von Zeitreihen 5.2 Bestimmung des Trends durch Regressionsrechnung Wahl der Trendfunktion: Prüfen, wie gut sie sich in der graschen Darstellung an die beobachteten Zeitreihenwerte anpasst. Viele ökonomische Zeitreihen haben eine ausgesprochen lineare Grundrichtung, so dass eine Trendgerade nahe liegt. Man denkt sich die anderen möglichen Komponenten einer Zeitreihe in der Restkomponenten U zusammengefasst. Diese sind in der linearen Funktion: y t = b0 + b1 ∗ t + u t als Abweichungen vom linearen Trend zu interpretieren. Die Koezienten der Funktion werden mit Hilfe einer Regressionsrechnung ermittelt, in welcher t die unabhängige und y die mathematisch abhängige Variable ist. Vorteil von t: zu jedem Zeit der Zukunft bestimmbar. Schätzung von b0 und b1 mit der KQ-Methode: P min.bb0 , bb1 Tt=1 (yt − bb0 − bb1 t)2 b b0 = y t − bb1 ∗ t t ,t) b b1 = cov(y var(t) Schaubild geschätzte Kurve: Vergleiche eigene Anlage oder Skript S.11 5.3 Höhere Polynome für die glatte Komponente Eine lineare Funktion ist ungeeignet wenn die Zeitreihe einen gekrümmten Verlauf nimmt oder gar eine Trendumkehr zeigt. Polynom höherer Ordnung: G(k) (t) = b0 + b1 t + b2 t2 + ... + bk tk Prüfen, inwieweit die Krümmungen durch eine passende Funktion nachgezeichnet oder ausgeglichen werden sollen. Grundsatz: Die glatte Komponente darf nicht jeder Einzelbewegung folgen, sondern sie muss glatt sein, so dass der typische Verlauf erkennbar wird. Achtung: k höchstens 4. Beispiel Skript S.13-14 5.4 Exponentieller Trend Dieses Modell wird verwendet, wenn die Wachstumsrate einer Zeitreihe zwar von zyklischen, saisonalen und irrgeluären Schwankungen überlagert ist, aber über den Beobachtungszeitraum 29 Titel 5 Beschreibung von Zeitreihen als konstant angesehen werden soll. T r(t) = a ∗ ebt Die Steigung der Trendfunktion ist proportional zum erreichten Niveau: Der Koezient b gibt die konstante Rate an, mit der die Trendfunktion wächst: durchschnittliche Wachstumsrate der Zeitreihe. multiplikatives Modell: yt = a ∗ ebt ∗ ut ⇒ additives Modell: lnyt = lna + b ∗ t + lnut transformiert wurden) = lnyt = b0 + b1 t + u∗t (wenn Daten vorher Berechnung: b0 = lny t − b1 ∗ t t ,t) b1 = cov(lny var(t) Beispiel Skript S.17-18 Interpretation: Steigt t um 1, steigt yt um b1 ∗ 100% 5.5 Trendprognose Fortschreiben von t, einsetzen in Funktion mit geschätzen Parametern und den zukünftigen Prognosefehler auf 0 setzen: yT +1 = b0 + b1 (T + 1)bzw.yT +1 = exp(b0 + b1 (T + 1)) (bei einer Periode) yT +j = b0 + b1 (T + j)bzw.yT +j = exp(b0 + b1 (T + j)) (bei j Perioden) Annahme dafür: der Trend setzt sich fort. aber: • eventuell besteht gar kein Trend sondern organisierter Zufall (random walk) (Dax-Datenreihe) • es kann Brüche im Trend geben (Energieproblem wird gelöst) • die Bestimmung der Art der Trendfunktion und der benutzen zur Fortschreibung ist schwierig zu bestimmbar (Benutzung einer exp.Fkt für die Entwicklung ds CO2 -Ausstoÿes) 5.6 Gleitende Durchschnitte Wenn keine stabile Funktion als Entwicklungsmuster für die glatte Komponente G erkennbar ist, kann man als alternativen Ansatz Filtermethoden benutzen. Man kann lokale Trend berechnen die sich über den Beobachtungszeitraum gleitend ändern. Geeignete Filter erreichen eine gewisse Glättung der ursprüngliche Zeitreihe Y : G = ΦY 30 Titel 5 Beschreibung von Zeitreihen Unter bestimmten Bedingungen kann man mit Filtern auch die Saison- und Restkomponente aus einer Zeitreihe herausltern Denition: Eine lineare Transformation F einer Zeireihe Y in eine neue Zeitreihe G gemäÿ der Transformationsvorschrift G := ΦY P gt+v := li=1 αi yt+i−1 für t=1...T-l+1 heiÿt linearer Filter. Die αi heiÿen Gewichte, die Anzahl der Summanden l heiÿt Länge des Filters v und bestimmt den Zeitindex, der dem jeweiligen Wert g zugewisen wird. Beispiel: Ein linearer Filter Φ der Länge l=4 habe die Gewichte α1 = 0, 1, α2 = 0, 6, α3 = 0, 3, α4 = 0, 2. Filtert man mit ihm die Zeitreihe Y=6,12,16,13,6,16,19,17,21,8,15,21 so erhält man als Output für den ersten Wert (mit v=0 gesetzt): g1 =0,1*6+0,6*12+0,3*16+0,2*13=15,2 Die gelterte Zeitreihe lautet dann: G=15,2;15,9;14,4;13,5;19,3;22,3;20,0;19,7;15,6 Einee so gelterte Zeitreihe ist um l-1 Werte kürzer als die ursprüngliche Beobachtungsreihe Beispiel: Ein häug verwendeter Filter ist der Dierenzenlter ∆. Es ist ein linearer Filter der Länge zwei mit den Gewichten α1 = 1 und α2 = −1. Sein Output sind die ersten Dierenzen. ∆yt := yt − yt−1 einer Zeitreihe, die nun nicht mehr das Niveau der Zeitreihenwerte, sondern ihre Veränderungen zeigen. Mit der Zeitreihe aus dem obigen Beispiel Y=6,12,16,13,6,16,19,17,21,8,15,21 liefert dieser Dierenzenlter G=6,4,-3,-7,10,3,2,4,-13,7,6 Einfache und weithin verwendete lineare Filter sind die so genannten gleitenden Durchschnitte. Sie dienen der Bestimmung von Trend- bzw. glatter Komponente. Denition: Ein linearer Filter Φ, dessen Gewichte li=1 αi = 1 sich zu eins addieren heiÿt gleitender Durchschnitt. Die Mittelwerte g heiÿen gleitend weil ihr Stützbereich sich von Wert zu Wert verändert und über die Zeitreihe hinweg gleitet: y1 ...yn wobei g=1+v P Bevorzugte Zuordnung des Zeitindex für die Werte der glatten Komponente: • Vorlaufende gleitende Durchschnitte: v=0, d.h. g1 , g2 ... • zentrierte gleitende Durchschnitte: v=(l-1)/2, d.h. bei l=5 gilt g3 , g4 ... 31 Titel 5 Beschreibung von Zeitreihen • nachlaufende gleitende Durchschnitte: v=l-1, d.h. bei l=5 gilt g5 , g6 ... • wären die ersten 5 Zahlen der Zeitreihe z.B. 2,4,3,5,5 so ergäbe z.B. der zentrierte gleitende Durchschnitt einer Länge l=4 folgendes Ergebnis: g2,5 =0,25*2+0,25*4+0,25*3+0,25*5=3,5 Denition: Sind die Gewichte, mit denen einzelne Beobachtungen in die Berechnung von g eingehen alle gleich spricht man von einfachen, bei verschiedenen Gewichten von gewichteten gleitenden Durchschnitten. • Je gröÿer die Länge l ist, umso stärker ist die bewirkte Glättung, es ist ΦU ≈ 0. • Will man nicht nur glätten, sondern eine Saisonkomponente S wegltern so muss die Länge l des Filters der Anzahl der Phasen der Periodik entsprechen oder ein ganzzahliges Vielfaches davon sein. Denn die Saisonschwankungen gleichen sich über eine Periodik hinweg gegenseitig weitgehend aus, so dass ΦS ≈ 0. Beispiel: Saisonbereinigung von Quartalswerten Will man mit einfachen gleitenden Durchschnitten die Saisonschwankungen aus Zeitreihen mit Quartalswerten wegltern, wäre eine gerade Filterlänge l=4 angezeigt. Für die Zentrierung wäre v=(l-1)/2=1,5 zu verwenden. Das ergäbe: g1+v = g2,5 = 41 (y1 + y2 + y3 + y4 )undg3,5 = 14 (y2 + y3 + y4 + y5 ), dies wären aber unpassende Zeitindizes. Deshalb rechnet man: g3∗ = 21 (g2.5 + g3.5 ) = 18 y1 + 14 y2 + 41 y3 + 14 y4 + 18 y5 Gleitender Durchschnitt zweiter Ordnung oder gewichteter gleitender Durchschnitt der Länge 5. 5.7 Exponentielle Glättung Verfahren zur Ermittlung einer glatten Komponente einer Zeitreihe. Die Glättung erfolgt durch den Einsatz eines rekursiven linearen Filters. Denition: e +(1−β)yt für t=1...T heiÿt einfaches exponentielles Glätten, Die Filterung gte := β ∗gt−1 e e wobei gt der Wert zum Zeitpunkt t (nicht in Daten), gt−1 der vorherige geglättete Wert und yt der aktuelle Wert in den Daten sind. β liegt zwischen 0 und 1 und heiÿt Glättungsparameter. Für eine Prognose benutzt man: ybt+1 = β ∗ ybt + (1 − β) ∗ yt , wobei ybt+1 der Prognosewert, ybt die alte Prognose und yt der beobachtete Wert snd. Der geglättete Wert ist ein gewichtetes Mittel aus dem geglätteten Wert der Vorperiode und dem aktuellen Beobachtungswert. 32 Titel 5 Beschreibung von Zeitreihen Durch die Rekursivität geht in jedes g die ganze Vergangenheit der Zeitreihe ein. e e e gte = β ∗ gt−1 + (1 − β)yt und gt−1 = β ∗ gt−2 + (1 − β)yt−1 , daraus folgt: e e e e gt = β ∗ /β ∗ gt−2 + (1 − β)yt−1 = β gt−2 + β(1 − β)yt−1 + (1 − β)yt Allgemein gilt also: gte = (1 − β)yt + β(−β)yt−1 + β 2 (1 − β)yt−2 + ... + β t−1 (1 − β)y1 + β t ∗ g0e Dies bildet eine geometrische folge, so dass es eigentlich geometrisches Glätten heiÿen müsste. Unbekannt: β und g0e (Startwert: z.B yt oder arithm. Mittel) β ≈ 0 : β t−1 und β t sehr klein und 1 − β sehr groÿ: aktueller Wert yt mit starkem Einuss auf Prognose/Glättung β ≈ 1: aktueller Wert mit geringem Einuss ⇒ optimale Wahl für β : hilfreich ist Prognoseinterpretation PT −1 argminβ t=m (yt+1 − ybt+1 )2 (quadrierter Prognosefehler) wobei m nicht 1 sien sollte, sondern ein wert, bei dem der Startwertfehler langsam abnimmt. 1) Man kann ausprobiren Werte zwischen 0 und 1 für β mit Excel: Grid-sarch (Gitter) 2) Man benutzt numerische Verfahren (z.B. Solver) Je gröÿer der Parameter β umso gröÿer die Glättung. Funktioniet gut bei: persistenten Zeitreihen wie quadrierte Renditen, Zinsen, Inationsraten (die mal über/unter Mittelwert liegen, aber nicht übermäÿig abweichen) Funktioniert schlecht bei: Trend-Daten oder nicht-persistenten Reihen wie BIP (welches immer steigt), normale Renditen, da die Schätzung IMMER UNTER dem realen Wert liegt und diesen nie einholen kann. Vergleiche Schaubild S.30 5.8 Exkurs: Wissenschaftstheoretische Ansätze Induktivistisches Schema: • Beobachtungen/ Daten liegen vor • werden verallgemeinert um Theorie zu formulieren • es folgen noch mehr Beobachtungen • und diese bestätigen die Theorie, was sie als richtig gelten lässt Kritischer Rationalismus: • Es existiert ein Problem 33 Titel 5 Beschreibung von Zeitreihen • Lösungsvorschläge, Theorien, Erklärungen werden gemacht (beste Theorie ist die einfachste) • Kritik (gut!), experimentelles Testen • Ersetzen von abgelehnten, schlechten Theorien • Neues Problem (nicht durch vorhandene Theorien erklärbar) 5.9 Konstante additive Saisonkomponente Ausgangspunkt: Additives Modell: Y=G+S+U mit Annahme: Stabile Saisongur über die ganze Reihe Im Falle von Quartalsdaten gibt es also vier Saisonveränderungszahlen S1 + S2 + S3 + S4 = 0 : 1.Schritt: Betimmen der glatten Komponente G mit einer passenden linearen Funktion von t, Polynom, Exponentialfunktion oder gleitende Durchschnitte 2. Schritt: Berechnung der Dierenzen D=Y-G=S+U 3. Schritt: Bilden der Phasendurchschnitte Dph D1 , D2 ... für jede Untereinheit (z.B. Quartal): arithmetisches Mittel P 4. Schritt: Berechnung von d = n1 ni=1 Dphn 5. Schritt: Daraus ergeben sich nun die Saisonveränderungszahlen Sph = Dph − d Die Saisonveränderungszahlen können auch mit Hilfe der Regressionsrechnung bestimmt werden: yt − gt = b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b4 Dummy4 + ut Dieser Ansatz wird gern und häug verwendet und ist mit den gängigen Statistikprogrammen einfach durchführbar. Man bedient sich dabei sogenannter Saisondummies. Noch häuger ist der inhomogene Ansatz mit Absolutglied: yt − gt = b0 + b1 Dummy1 + b2 Dummy2 + b3 Duimmy3 + ut Man erhält die Durchschnitte nun durch: D1 = b0 + b1 , D2 = b0 + b2 , D3 = b0 + b3 , D4 = b0 Die Saisonveränderungszahlen ergeben sich nun aus der Dierenz der Durchschnitte und deren Mittelwert (siehe erstes Verfahren). Es gibt folgende Regressionsansätze, die gleichzeitig Saison- und glatte Komponente berücksichtigen: Linear: yt = b0 + b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b5 t + ut Quadratisch gekrümmt: yt = b0 + b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b5 t + b6 t2 + ut Zusätzliche Variable X:bei Korrelation mit anderer Zeitreihe X: yt = b0 + b1 Dummy1 + b2 Dummy2 + b3 Dummy3 + b5 t + b7 xt + ut Beispiel für eine solche Rechnung Skript S.38 34 Titel 6 Indexzahlen 5.10 Konstante additive Saisonkomponente Wachsen die saisonalen Ausschläge einer Zeitreihe mit der Gröÿe der Beobacthungswerte verwendet man das multiplikative Modell: Y=Tr*Cy*S*U Es gilt: YG = S ∗ U Man bildet wieder die vier Phasendurchschnitte Q1 − Q4 aus den einzelnen Quotienten P y1 ... ygTT . Wieder korrigiert man um den Mittelwert q = 14 Qph . g1 Die Saisonfaktoren erhält man also aus Sph = Qph . q Sie addieren sich zu vier auf. Beispiel Buch S.161f. 6 Indexzahlen Zielsetzung: zeitliche Entwicklung, regionale Abweichung, sachliche Unterschiede von statistischen Variablen oder Gruppen von Variablen darstellen und deren Vergleich erleichtern. Meÿzahlen: Nur jeweils eine statistische Variable in ihrer unterschiedlichen Ausprägung wird verglichen. Indexzahlen: Gruppen gleichartiger Variablen werden zusammengefasst und verglichen. Für diese Zusammenfassung in einer Indexzahl ist das Problem der Gewichtung der einzelnen Variablen zu lösen 6.1 Meÿzahlen Ausgangspunkt: z.B. Zeitreihe von Beobachtungen eines Merkmals Y y0 , y1 , y2 , ..., yt , ...yT Denition: y0 ∗ 100, yy10 ∗ 100, yy20 ∗ 100, ..., yy0t ∗ 100, ..., yyT0 ∗ 100 heiÿt eine Zeitreihe von Meÿzahlen zur y0 Basis t=0. Die Meÿzahl für die Basisperioe hat stets den Wert 100, die prozentuale Abweichung der übrigen Meÿzahlen von dieser Bezugsgröÿe ist sofort erkennbar. Beispiele Skript S.4,5 6.2 Preisindices In einer Marktwirtschaft bleiben Preise über die Zeit hinweg nicht konstant. • Veränderung der relativen Preise durch veränderte Knappheitsrelationen 35 Titel 6 Indexzahlen • allgemeine Tendenz zu meistens höheren, selten niedrigeren Preisen Zur Quantizierung der zeitlichen Veränderung des allgemeinen Preisniveaus benutzt man Preisindizes. • Stabilität oder Instabilität des Geldwertes • Entwicklung der Kaufkraft der Einkommen • Nominale und reale Phänomene Preisindizes beschreiben die durchschnittliche Preisntwicklung einer wohldenierten Gruppe von Gütern (z.B. Lebensmittel, Dienstleistungen, BIP; Exporte) • Unterschiedliche Preisentwicklung der einzelnen Güter in der Gruppe ⇒ • Problem der geeigneten Gewichtung bei der Durchschnittsbildung Für die Gewichtung werden die (konsumierten, verkauften, produzierten, exportierten) Mengen eine Rolle spielen. Nicht die Messung der Preisentwicklung einzelner Güter wird vorgenommen, sondern die Messug der allgemeinen Preisentiwcklung (Warenkorb). Wenn i=1,...,n die Güter und t=0,1...T die Beobachtungperioden darstellen, ist: qit die Menge des i-ten Gutes in der Periode t. pit dr Preis des i-ten Gutes in der Periode t. Denition: Das geordnete n-Tupel der transferierten Mengen qt = (q1t , q2t , ..., qnt ) heiÿt Mengenvektor, Mengenschema oder Warenkorb der Periode t. Denition: Das geordnete n-Tupel der erzielten Preise pt = (p1t , p2t , ..., pnt ) heiÿt Preisvektor der Periode t. Der Gesamtwert des Warenkorbes als Skalarprodukt zwischen Preis- und Mengenvektor: P pt qt = Wt = nj=1 pjt ∗ qjt Laspeyres-Preisindex: Man legt sich für eine Periode einen Warenkorb fest und berechnet den Warenwert für die P jeweiligen Preise: pi0 ∗ qi0 Man lässt für die nächste Periode den Warenkorb gleich und berechnet den Warenwert mit P den Preisen dieser Periode: pit ∗ qi0 36 Titel 6 Indexzahlen Denition: P p ∗q it i0 Der Quotient PtL := P pi0 ∗ 100 ∗qi0 heiÿt Preisindex nach Laspeyres für die Berichtsperiode t zur Basisperiode 0. Zwei Wertaggregate (Zusammenfassung bestimmter Güter(mengen) und ihrer Preise) werden miteinander verglichen: Nenner: tatsächlicher Wert des Warenkorbes der Basisperiode Zähler: ktiver Wert des Warenkorbes der Basisperiode bewertet zu Preisen der jeweilige Berichtsperiode Beispiel: Zähler: 519,1 und Nenner 376 ⇒ Index 138, d.h. 38% Preissteigerung Paasche-Preisindex Denition: P p ∗q Der Quotient PtP = P pi0it ∗qiti0 heipt Preisindex nach Paasche für die Berichtspreiode t zur Basisperiode 0. Zwei Wertaggregate werden miteinander verglichen: Zähler: tatsächlicher Wert des warenkorbes in der Berichtsperiode Nenner: ktiver wert des Warenkorbes der Berictsperiode bewertet zu Preisen der Basisperiode Beispiel: Zähler: 316,6 und Nenner 306,8 ⇒ Index 103,2, d.h. 3,2% Preissteigerung Die Preisindizes als gewogene arithmetische Mittel: Denition Preismeÿzahlen: Πit := ΠPiti0 ∗ 100 für jedes Gut j in verschiedenen Berichtsperioden t. Sie zeigen den Preisanstieg/-fall seit der Basisperiode an. Satz: Beides Preisindizes sind geiwchtete arithmetische Mittel aus den Preismeÿzahlen Π Laspeyres: Die Gewichte sind die Wertanteile aus der Basisperiode: wj0 := pj0 ∗ qj0 P P W0 :=P wi0 = pi0P∗ qi0 P L = wWi00 ∗ Πit = gi ∗ Πit wobei gi das Gewicht der Produkte in t=0 ist, daraus: Pt gi = 1 Paasche: In diesen Gewichten stecken die Mengen der Berichtsperiode aber auch die Preisrelationen der Basisperiode: gjt := pj0 ∗ qji P P Gt := git = pi0 ∗ qit P P PtP = git G=t ∗Πit git ∗ Πit so dass man hier sieht, dass die Gewichte von Periode zu Periode 37 Titel 6 Indexzahlen variieren. Pro und Contra: Laspeyres: • PRO: Warenkörbe könnten nach 10 Jahre geändert werden • CONTRA: Ist der Basiswarenkorb Repräsentativ? • CONTRA: Substitutionseekte • CONTRA: Qualitätsverbesserungen, -verschlechterungen unberücksichtigt • CONTRA: Veraltung des Warenkorbs kann vorkommen Paasche: • PRO: immer aktueller Warenkorb • PRO: Substitutionseekt abgemildert (man unterschätzt die Ination eher) • CONTRA: Güter existieren eventuell in t=0 nicht • CONTRA: aufwändige Ermittlung • CONTRA: auch Mengenänderungen (durch Substutitution) beeinussen Preisindex (gewollt?) 6.3 Anwendungen Inationsrate: P [ L t+1 PtL ] ∗ 100% Praxisbeispiel für Laspeyres-Index: DAX 30 Standardwerte: gröÿte Aktiengesellschaft i=1...30 qi0 : Gewicht der Aktie i im Warenkorb (z.B. Aktie Tui=1000 Stück zum Wert von 1 ⇔ Aktie 1 Allianz= 5000 zum Wert von 2 ⇒ Wert Tui 10 von Wert Allianz) pit : Kurs Aktie i zum Zeitpunkt t Basisperiode 30.12.1987 Indexwert 1000, aktuell 7743 Internationale Preisvergleiche: piA =Preis im Ausland, gerechnet in Euro qiI =fester Warenkorb I im Inland pPiI =Preis im Inland Euro P PiA ∗qiI ∗ 100 PiI ∗qiI 38 Titel 6 Indexzahlen Probleme : wieder Substitution, Verfügbarkeit der Produkte, Wechselkurse beeinussen Ergebnis in Euro (Verzerrungen möglich) 6.4 Umbasierung Man will eine Umbasierung auf das Jahr 1985 vornehmen. Der Wert des Warenkorbes beträgt dort 114,6. Er wird wieder auf 100 zurückgesetzt. 100(neuerW ert1985) Rückrechnung in neuer Reihe: 114,6(alterW = 0, 8726 → alter vergleichbarer Wert*0,8726 ert1985) = neuer Wert ert1985) Vorrechnung in alter Reihe: 114,6(alterW = 1.146 → neuer vergleichbarer Wert*1,146 = 100(neuerW ert1985) alter Wert 6.5 Indexreihen Preisindexreihe: P0 = 100, P1 , ..., Pt Preissteigerung für eine Gütergruppe von der Basisperiode 0 bis zur Berichtsperiode t: (Pt − 100)% Prozentuale Preisveränderung zwischen verschiedenen Perioden t und t'<t: (100 PPt0 −100)% t 6.6 Deationierung nominaler Gröÿen Die amtliche Statistik ermittelt Wertaggregate (z.B. Investitionsrate, BIP) und dafr snd reale Gröÿen gewünscht. In einer Ein-Produkt-Ökonomie kein Problem: xreal =20l Milch und xreal t t+1 =30l Milch In der Realität jedoch inhomogene Aggregate Nominale Wertaggregate: Xtnominal = pit ∗ qit Reale Gröÿen durch Wertaggregate zuPkonstanten Preisen einer Basisperiode t=0 approxi= pi0 ∗ qit mieren oder operationalisieren: xreal t xnominal t Aus dem Paasche-Preisindize xreal ∗ 100 = PtP ermittelt man eine preisbereinigte oder deP t ationierte Zeitreihe: Xtber = x nominal t PtP ∗ 100 meist ist der Paasche Index nicht verfügbar, deshalb benutzt man folgende Warenkorb möglichst nahe an korrekten anpassen Laspeyres anstatt Paasche benutzen Approximation: 39 Titel 6 Indexzahlen 6.7 Mengenindizes Zielsetzung: Die durchschnittliche Mengenänderung einer Gruppe von n Gütern soll angegeben werden. Mengenindex-Zeitreihe: Q0 = 100, Q1 , ..., Qt Schwierigkeit: Die einzelnen Mengen des Mengenvektors können oft nicht sinnvoll addiert werden: • verschiedene Gröÿenarten (kg, Stück) • sehr verschiedene Bedeutung (Rohsto Kohle - Rohsto Gold) Deshalb geht man entsprechend der Berechnung des Preisindizes vor - und gewichtet jetzt umgekehrt die Mengen mit den Preisen der Güter. Laspeyres-Mengenindex: Denition: P q ∗p it i0 Der Quotient QLt = P qi0 ∗pi0 heiÿt Mengenindex nach Laspeyres für die Berichtsperiode t zur Basisperiode 0. Zwei Wertaggregate werden miteinander verglichen: Zähler: ktiver Wert des Warenkorbs der Berichtsperiode, bewertet mit Preisen der Basisperiode Nenner: tatsächlicher Wert des Warenkorbs der Basisperiode Paasche Mengenindex: Denition: Der Quotient = heiÿt Mengenindex QPt P P qit ∗pit qi0 ∗pit nach Paasche für die Berichtsperiode t zur Basisperiode 0. Zwei Wertaggregate werden miteinander verglichen: Zähler: tatsächlicher Wert des Warenkorbes der Berichtsperiode Nenner: ktiver Wert des Warenkorbes der Basisperiode, bewertet zu Preisen der Berichtsperiode 40 Titel 7 Wahrscheinlichkeitsrechnung 7 Wahrscheinlichkeitsrechnung 7.1 Einführung: bisher: rein deskriptive Analyse, keine Erklärung des Daten generierenden Prozesses (DGP) DGP: bestimmte Wahrscheinlichkeit für das Auftreten von Ereignissen Ziele: • ökonomische Modellierung • Bestimmung DPG • Erklärungen für Daten • Prognosen • Hypothesentest Beispiele: • 1mal Münze werfen und Kopf kommt; W.keit: 0,5 • Würfeln und 6 kommt; W.keit: 1 6 • VfB wird Fuÿballmeister; W.keit: ? • Portfolio wird morgen 10% weniger Wert sein • BIP steigt um 5% • Kreditnehmer John Doe zahlt nicht zurück 2 Sichtweisen auf die Wahrscheinlichkeitsrechnung Denitionen Ereignisraum S: Menge der möglichen Ereignisse des Experiments Elemente von S: Elementarereignisse Beispiele: 2x Münzwurf S=KK,KZ,ZK,ZZ wobei in der Klammer die Elementarereignisse stehen Werfen der Nadel auf liniertes Papier und Messen des Winkels zu einer Linie S = α/0 ≤ α ≤ 180 wobei die messbaren Winkel die Elementarereignisse sind →es existiert ein diskreter (endlich viele Elementarereignisse [abzählbar unendlich viele Ereinisse])und ein stetiger (unendlich viele Elementarereignisse [überabzählbar viele Ereignisse]) Ereignisraum 41 Titel 7 Wahrscheinlichkeitsrechnung Tabelle 7: Titel klassische Frequentisten Bayesianisch objektiv subjektiv Konzeptioneller Rahmen: Zufallsexperiment Wahrscheinlichkeit=Quantizierung der Stärke von Hypothesen →mögliche Ergebnisse bekannt →Ereignisse = Wahrscheinlichkeiten werden angepasst →konkretes Ergebnis des Versuchs nicht bekannt a-priori Wahrscheinlichkeiten → a-posteriori Wahrscheinlichkeiten →Experiment wiederholbar unter gleichen Bedingungen Ereignis A:Teilmenge des Ereignisraums S A=mindestens einmal Kopf A=KK,KZ,ZK A⊂S Besondere Ereignisse: unmögliches Ereignis: sicheres Ereignis: S Ereignis wieder in Menge zusammengefasst: Ereignismenge E(S) oder einfach E E=mind. 1x Kopf;zweimal Zahl; keinmal Zahl=KZ,ZK,KK;ZZ;KK Ziel: Zuordnung von Wahrscheinlichkeiten für Ereignisse aus E 7.2 statistische Wahrscheinlichkeit: Zufallsexperiment nx durchgeführt Ereignis A tritt absHn (A) auf rel.H.: hn (A) = absH(A) n Beispiel: limn→∞ hn (A) → P(A): statistische Wahrscheinlichkeit Die hn an sich sind also noch keine Wahrscheinlichkeiten, sondern werden es erst durch den Grenzwert. 42 Titel 7 Wahrscheinlichkeitsrechnung Tabelle 8: Titel n absHn (Kopf ) hn (Kopf ) 10 7 0,7 20 11 0,55 40 17 0,425 60 24 0,4 100 47 0,47 1000 492 0,492 5000 2515 0,503 7.3 Klassische Wahrscheinlichkeit Der Laplacsche Ereignisraum ist deniert als: S = (e1 , ..., em ), und darin haben alle Elementarereignisse die gleiche Eintrittswahrscheinlich1 keit P (ei ) = m (Prinzip des unzureichenden Grundes) Auÿerdem gibt es eine endliche Zahl von Elementarereignisse. Wenn A=Ereignis und damit Menge von elementarereignissen: P (A) = AnzahlElementeinA = mg =Wahrscheinlichkeit AnzahlElementeinS ⇒ Kombinatorik hilft bei der Berechnung 7.4 Mengentheoretische Konzepte Vereinigung A ∪ B : Das Ereignis A oder B tritt genau dan nein, wenn Ereignis A oder ereignis B oder beide zugleich eintreten. Bsp.: A=Augenzahl≥ 4=4,5,6; B=Augenzahl gerade=2,4,6 → A ∪ B = 2, 4, 5, 6 → P (A ∪ B) = 46 Durchschnitt A∩ B: Das Ereignis A und B tritt genau dann ein, wenn Ereignis A und Ereignis B zugleich eintreten. Bsp.: Ereignisse oben → A ∩ B = 4, 6 → P (A ∩ B) = 62 Negation A: Das Ereignis Nicht A Bsp.: Ereignis oben → A = 1, 2, 3 tritt genau dann ein, wenn A nicht eintritt. Dierenz A/B: Das Ereignis A ohne B tritt genau dann ein, wenn zwar A aber nicht B eintritt. Bsp.: Ereignisse oben → A/B=5 Komplementäres Ereignis: S/A ist das zu A komplementäre Ereignis (Vgl. Negation) 43 Titel 7 Wahrscheinlichkeitsrechnung Disjunktes Ereignis: Zwei Ereignisse A und B heiÿen disjunkt wenn A∩ B=leere Menge 7.5 Axiomatik der Wahrscheinlichkeitstheorie Funktion: P : E → R; A → P (A) (jedem A∈ E wird eine reelle Zahl zugeordnet, die die Wahrscheinlichkeit angibt) Folgende drei Axiome müssen jedoch erfüllt sein: • Axiom K1: P (a) ≥ 0 für jedes A=E. Die Wahrscheinlichkeit P(A) jedes Ereignisses A ist eine nichtnegative reelle Zahl • Axiom K2: P(S)=1 Das sichere Ereignis hat die Wahrscheinlichkeit 1 • Axiom K3: P(A∪ B)=P(A)+P(B), falls A∩ B=leeres Menge Additionsregel für disjunkte Ereignisse • Axiom K3*: P (A1 ∪ A2 ∪ ...) = P (A1 ) + P( A2 ) + ... eine unendliche Folge von paarweise disjunkten Ereignissen Kolmogorovs Ereignisraum: E muss abgeschlossen sein, d.h. A∈ E, dann auch A ∈ E S∈ E alle vereinigten A∈ E (S,E,P(*)) heiÿt Kolmogorovscher Wahrscheinlichkeitsraum, wobei S=Ereignisraum, E=abgeschlossener Ereignisraum, P=Wahrscheinlichkeitsmaÿ Wenn E Anforderungen erfüllt: Sigma-Algebra (kleinste Sigma-Algebra: E=S;leeres menge 7.6 Theoreme aus den Axiomen Theorem 1: P(A)=1-P(A) A und A sind disjunkt und ihre Vereinigung=S. Nach K3 ist P(A∪A)=P(A)+P(A)=P(S)=1 Damit ist P(A)=1-P(A) 44 Titel 7 Wahrscheinlichkeitsrechnung Theorem 2: P(unmögliches Ereignis)=0 Unmögliches ereignis und S sind komplementäre Ereignisse. Nach K2 ist P(S)=1 und nach Theorem 1 ist dann P(S )=P(unmögliches Ereignis)=1-P(S)=1-1=0 Theorem 3 A1 , A2 , ..., An sind paarweise disjunkt: P P (A1 ∪ A2 ∪ ...An ) = P (Aj ) Beweis durch vollständige Induktion von K3 Theorem 4 P(A/B)=P(A)-P(A∩ B) Theorem 5 Additionssatz für beliebige Ereignisse: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Gilt auch wenn A ∩ B 6= 0 Nach K3 gilt: A ∪ B : (A/B) ∪ (A ∩ B) ∪ (B/A) P (A ∪ B) = P (A/B) + P (A ∩ B) + P (B/A) P (A) = P (A ∩ B) + P (A/B)undP (B) = P (A ∩ B) + P (B/A) einsetzen ergibt P (A ∪ B) = P (A) − P (A ∩ B) + P (A ∩ B) + P (B) − P (A ∩ B) = P (A) + P (B) − P (A ∩ B) Additionssatz für drei beliebige Ereignisse: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) Theorem 6 Monotonieeigenschaft des Wahrscheinlichkeitsmaÿes: A ⊂ B ⇒ P (A) ≤ P (B) 7.7 Bedingte Wahrscheinlichkeit Denition: Bedingte Wahrscheinlichkeit: Die Wahrscheinlichkeit des Eintretens eines Ereignisses A unter der Bedingung dass Ereignis B eingetreten ist (oder gleichzeitig mit A eintritt heiÿt bedingte Wahrscheinlichkeit von A unter der Bedingung B. Seien A und B zwei Ereignisse eines gegebenen Wahrscheinlichkeitsraums. Die bedingte Wahrscheinlichkeit ist dann deniert als: 45 Titel 7 Wahrscheinlichkeitsrechnung für 0<P(B);P(A∩ B);P(A!B)<1 P(A!B):= P P(A∩B) (B) Möglichkeiten für A∩ B siehe eigene Anlage. Tabelle 9: Zwei Interpretationen klassisch-frequentistisch bayesianisch-subjektiv Einschränkung des Ereignisraum S auf Veränderung (Update) durch subjektive Elementarereignisse, die den Eintritt von B Wahrscheinlichkeit durch Eintritt B implizieren zeitliche Abfolge B: Würfel≥ 4→ Ereignisraum dann 4,5,6 Beispiel 1: gleichzeitiger Münzwurf und Würfelwurf B: Münze zeigt Kopf A: Zahl ≥ 4 P(A!B)=P(A!B )=P(A)= 21 Beispiel 2: B: 10x hintereinander rot beim Roulette A: beim elften Mal kommt auch rot P(A!B)=P(A)= 18 37 Beispiel 3 einmaliger Würfelwurf S=(1,2,3,4,5,6) B: Zahl > 2 =(3,4,5,6) und B =(12) A: Zahl ≥ 4 =(4,5,6) Berechnung nach Denition: P(B)= 46 P(A∩ B)= 63 P(A!B)= P P(A∩B) = (B) 3 6 : 4 6 = 3 4 Direkte Berechnung Einschränkung von S auf Elemente bei denen B eintritt: B=(3,4,5,6)=SB ; (1,2) fällt weg A=(4,5,6); A in SB =(4,5,6) B P(A!B)= AnzahlAinS = 43 SB 46 Titel 7 Wahrscheinlichkeitsrechnung 7.8 Stochastische Unabhängigkeit Denition: Zwei Ereignisse A und B heiÿen stochastisch unabhängig oder kurz unabhängig wenn: P(A!B)=P(A) oder P(B!A)=P(B) Gilt dies nicht heiÿen sie stochastisch abhängig. Multiplikationssätze der Wahrscheinlichkeitsrechnung: • bei stochastischer Abhängigkeit gilt: • P(A∩ B)=P(A)*P(B!A) • P(B∩ a)=P(B)*P(A!B) • bei stochastischer Unabhängikeit gilt: • P(A∩ B)=P(A)*P(B) bzw. P(B∩ A)=P(B)*P(A) Implikationen daraus • P(A!B)= P P(A∩B) = (B) P (A)∗P (B) P (B) = P (A) • damit gilt auch für P(B!A)=P(B) NICHT VERWECHSELN: Wenn A und B sich ausschlieÿen (disjunkt) gilt: P(A∪ B)=P(A)+P(B) Wenn A und B stochastisch unabhängig gilt: P(A∩ B)=P(A)*P(B) Damit impliziert weder stochastische Unabhängigkeit dass zwei Ereignisse disjunkt sind, noch dass zwei disjunkte Ereignisse stochastisch unabhängig sind. 47