Explorative Datenanalyse WS 07/08 – Grammig 1/69 Inhalt: Teil I: Beschreibende Statistik 1. 2. 3. 4. 5. 6. 7. Statistische Merkmale und Variablen Verteilungsfunktion, Quantile, Histogramm Maßzahlen zur Beschreibung statistischer Verteilungen Zweidimensionale Verteilungen Lineare Regressionsrechnung Beschreibung von Zeitreihen Indexzahlen, Preisindizes, Deflationierung Seite 2 Seite 4 Seite 10 Seite 21 Seite 30 Seite 38 Seite 47 Teil II: Wahrscheinlichkeitsrechnung 8. Elementare Kombinatorik 9. Grundlagen der Wahrscheinlichkeitstheorie Seite 54 Seite 57 10.Litaruturverweis Seite 69 Explorative Datenanalyse WS 07/08 – Grammig 2/69 1. Statistische Merkmale und Variablen Beispiel 1 Statistische Variable X (eine Funktion) {0, 1} c Beispiel 2 [0, ∞[ c ℜ ℜ X [ M(ω) ] Geschlecht → abgeleitet aus Merkmal M(ω) Aktienkurs eines Unternehmens am Tag t Untersuchungseinheit (Mengeneinheit) ω Daimler Boris Becker ausgesucht aus Grundgesamtheit (statistischen Masse) Ω (Menge) alle Wimbledon-Gewinner alle DAX-Unternehmen oder “alle” Aktienkurse von Daimler Ω := {ω | ω erfüllt IK} IK: Identifikationskriterium aus Primärerhebung (spez. für diesen Zweck) Skalenniveau * nominal skaliert: keine natürliche Rangfolge (z.B. Mann/Frau) * ordinal geordnet: natürliche Rangfolge mit nicht angebbaren Abständen (z.B. Schulnoten) * kardinal geordnet angebbare Abstände (z.B. Einkommen) aus Sekundärerhebung (Daten aus anderer Quelle) * Zeitreihendaten (Zeitraum) Statistische Variable X oder Merkmal M Qualitativ → der Beschaffenheit nach, endlich * Querschnittsdaten (zu einem Zeitpunkt) * Paneldaten (Kombination aus Zeitreihen- u. Querschnittsdaten Quantitativ → zahlenmäßig/metrisch (müssen nicht von M nach X umgerechnet werden) Stetig: unendlich viele Elemente (jeden beliebigen Wert in einem Intervall) Diskret: abzählbare Ausprägungen Explorative Datenanalyse WS 07/08 – Grammig 3/69 weitere Begriffe und deren Differenzierung: statistische Einheiten (auch Merkmalsträger): Grundlegende Objekte bzw. Informationsträger, deren Merkmale in einer empirischen Untersuchung erhoben werden. Durch Einschränkungen, den so genannten Identifikationskriterien, erhält man aus einer statistischen Einheit die zu beobachtende Grundgesamtheit, auch statistische Masse genannt (aus obigem Beispiel: statistische Einheit = Tennisspieler; Grundgesamtheit = alle Wimbledon-Gewinner). Merkmale: Sind die Eigenschaften der statistischen Einheiten (aus obigem Beispiel: Geschlecht). Die verschiedenen Erscheinungsformen heißen Merkmalsausprägungen (männlich, weiblich). Unterscheidung „statistische Variable” und „Merkmal”: Die statistische Variable ist eine Funktion, die den Merkmalsausprägungen der Untersuchungseinheiten ω (aus obigem Beispiel: Boris Becker) reelle Zahlen zuordnet. Ein Merkmal kann NUR dann als Variable benutzt werden, wenn die Merkmalsausprägungen bereits als reelle Zahlen vorliegen (z.B. Aktien). Quantifizierung vs. Signierung: (Qualitative Merkmale in Zahlen ausdrücken) • Quantifizierung: Ausbildungsniveau mit der dazu nötigen Mindestzahl an Ausbildungsjahren ausdrücken. • Signierung: die Merkmalsausprägungen des Geschlechts mit „0“ (für „männlich“) und „1“ (für „weiblich“) ausdrücken. → scheinbare Quantifizierung metrische Daten: Werte der Daten lassen sich addieren und subtrahieren → Ausprägungen müssen immer Zahlen sein. Verfeinerung des kardinalen Skalenniveaus: • verhältnisskaliert: Es existiert ein Nullpunkt → Bildung von Quotienten möglich (z.B.: Einkommen, Preis, Gewicht) → „das Einkommen von ω1 ist doppelt so groß wie das von ω2“ • intervallskaliert: Es existiert kein Nullpunkt → lediglich die Differenz zwischen den Merkmalsausprägungen können sinnvoll interpretiert werden (z.B.: Temperaturangaben bei °C) Stichproben: • reine Zufallstichprobe: Jedes Element der Grundgesamtheit besitzt die gleiche „Chance“, in die Stichprobe mit aufgenommen zu werden (in der Praxis irrelevant). • repräsentative Stichprobe: „Kreieren“ einer der Grundgesamtheit entsprechenden Stichprobe. Man versucht mithilfe von anderen, im statistischen Zusammenhang stehenden Merkmalen die Repräsentativität zu gewährleisten → eingeschränkte Zufallsauswahl, Eliminieren von Selbstselektion Explorative Datenanalyse WS 07/08 – Grammig 4/69 2. Verteilungsfunktion, Quantile, Histogramm Exkurs: Notation X: statistische Variable (großes X) n: Anzahl der Beobachtungen X(ω) „ur – Liste“: → unsortierte Liste der Daten ω1 x1 ω2 ........... ωv x2 ........... xv ωn xn ωn: Elemente / Untersuchungseinheiten xn: Variablen / Merkmalswerte Die Folge der Merkmalswerte (x1, x2, ...), die n-fach vorliegen, heißt Beobachtungsreihe der Variablen X oder einfach statistische Reihe X. Die Anordnung der Werte spielt keine Rolle, sie darf – wenn es sich nicht um Zeitreihen (dazu mehr im 6. Kapitel) handelt – beliebig verändert werden. Bsp. (Klausurpunkte): ω1 ω2 ω3 ........... ω290 42 47,5 31,5 68 für diskrete X: x1 < x2 < x3 ... < xi ... < xk 0 < 0,5 < 1 ....... < 110 k = 221 [0 → kleinster annehmbarer Wert] → nach Größe geordnete Liste der möglichen Variablenwerte – Konfusion möglich (da k ≤ n)! k: Anzahl der vorkommenden Merkmalsausprägungen absolute Häufigkeit: abs H(X = xi) z.B.: “wie viele Studenten haben genau 10 Punkte?” oder n(xi ) oder ni Anzahl Beobachtungen für X = xi → absolute Häufigkeitsfunktion relative Häufigkeit: rel H(X = xi) z.B.: “wie viele Prozent aller Schüler haben genau 10 Punkte?” oder h(xi) oder hi = hi ∙ 100 % => Prozentzahl ni, hi für diskrete X sinnvoll Explorative Datenanalyse WS 07/08 – Grammig Die Darstellung der absoluten bzw. relativen Häufigkeiten in Tabellen nennt sich absolute bzw. relative Häufigkeitsverteilung der statistischen Variablen X. Stengel-Blatt-Diagramm: (Stem-and-Leaf-Display) Möglichkeit kleine Datenmengen zu verwerten → Konzentration wird sichtbar Bsp.: Altersbefragung 13 36 8 12 17 41 32 21 23 18 19 18 27 30 0|8 1|3 2 8 9 8 2|1 3 7 3|6 2 0 4|1 Verteilungsfunktion: für stetige und diskrete X brauchbar für diskrete X: H(x) = summiere alle h(xi) für xi ≤ x H(x): - empirische Verteilungsfunktion - Summenhäufigkeitsfunktion korrekte grafische Darstellung der Häufigkeitfunktion h(x) und Verteilungsfunktion H(x): xi 1 2 3 4 hi 0,1 0,2 0,4 0,3 5/69 Explorative Datenanalyse WS 07/08 – Grammig 6/69 Die empirische Verteilungsfunktion gibt für jedes reelle x die relative Häufigkeit aller Beobachtungen an, die gleich groß oder kleiner als das jeweilige x sind. Der Wertebereich ist auf das Intervall [0, 1] beschränkt. Der Graph hat die Gestalt einer Treppenfunktion. Die Sprungstellen befinden sich an den x-Werten mir positiver relativer Häufigkeit (im obigen Beispiel also 1, 2, 3 und 4). An diesen Stellen springt der Funktionswert um den Betrag der relativen Häufigkeit hi nach oben. Zwischen zwei benachbarten Sprungstellen verharrt die Funktion auf konstantem Niveau. Quantile: „Datenteiler“ Eine Zahl x[q] mit 0 < q < 1 heißt q-Quantil, wenn sie die statistische Reihe X so aufteilt, dass mindestens 100 – q % ihrer Beobachtungswerte kleiner oder gleich x[q] sind und gleichzeitig mindestens 100 ∙ (1 – q) % größer oder gleich x[q] sind. qx % kleinste q * 100 % (1 – q) * 100 % 100 (1 - q)x % größte Werte kleiner/gleich x[q] größer/gleich x[q] 100 Quantilsfunktion: ...ist der Kehrwert von der Verteilungsfunktion H(x) H(x) = p p * 100 % Beobachtungen X≤x gegeben gesucht H[x[q]] = q (gegeben) x[q] = H-1 [q] Explorative Datenanalyse WS 07/08 – Grammig 7/69 Vergleich: Verteilungsfunktion: „Wie viel Prozent aller Schüler haben weniger als 10 Punkte? - Antwort: 10“ Ablesen erfolgt von der x-Achse an die y-Achse Quantilsfunktion: „10 Prozent aller Schüler liegen im 0,1 Quantil der Notenverteilung und haben somit weniger als 10 Punkte.“ Ablesen erfolgt von der y-Achse an die x-Achse Bsp.: Quantile und VaR („Value-at-Risk“) “Value at Risk” (Wert im Risiko) bezeichnet ein Risikomaß, das angibt, welchen Wert der Verlust einer bestimmten Risikoposition (z. B. eines Portfolios von Wertpapieren) mit einer gegebenen Wahrscheinlichkeit und in einem gegebenen Zeithorizont nicht überschreitet. Gekaufte Anlage (Aktie, Staatsanleihe) → in 10 Tagen wieder verkaufen einfache Rendite: x = → Prozentsatz: x * 100 % = ln [ ≈ x ( für ] = log-Rendite klein) 1% - Quantil: VaR at 1 % significance level → welche Anlage ist risikoreicher? - a.) Explorative Datenanalyse WS 07/08 – Grammig 8/69 Fall a.) x[0,01] ? Konvention -0,163 → Wert an dem q(0.01) gerade überschritten wird Fall b.) x[0,005] → jeder Wert [-0,180 ; -0,163[ ; teilt Daten korrekt Schira: Mittelwert (-0,180 - 0,163) : 2 Besondere Quantile: x[0,01], x[0,02] ... x[0,99] x[0,1], x[0,2] ... x[0,9] x[0,25], x[0,5] ... x[0,75] x[0,5] Perzentile Dezile Quartile Median Häufigkeitsdichtefunktion, Histogramme: • Histogramm = Darstellungsform; geeignet für stetige Daten ; geeignet für diskrete Daten mit vielen Merkmalsausprägungen • Klassengrenzen, Größenklassen → Merkmalsausprägungen werden in endliche Intervalle eingeteilt • erfolgt aus mess-, erhebungs- oder aufbereitungstechnischen Gründen • bessere und aussagekräftigere Darstellungsform der Daten ... fällt ein Wert genau auf die Klassengrenze, so ist er der kleineren Größenklasse zuzuordnen relH (ζi-1 < x ≤ ζi) = hi ∆i = Klassenbreite = ζi - ζi-1 → flächenproportional Erstellung mit approxmierendem Polygonzug: Verbinden der Sprungstellen der Verteilungsfunktion (ζ1 mit ζ2 etc.) → (durchschnittliche) Häufigkeitsdichte: 1. Ableitung direkte Erstellung: = normierte Häufigkeit abs. Häufigkeit Gesamtzahl der Beobachtungen ...wird an der y-Achse abgetragen Explorative Datenanalyse WS 07/08 – Grammig Bsp.: approximierender Polygonzug: Histogramm: → relative Häufigkeit: Fläche der Säule; NICHT die Höhe Fallstricke: zu feine oder zu grobe Intervalle? • starke Präsenz von möglichen Zufallsschwankungen 9/69 Explorative Datenanalyse WS 07/08 – Grammig 3. Maßzahlen zur Beschreibung statistischer Verteilungen Ziel: Beschreibung der Verteilung der Daten mit wenigen Maßzahlen Lageparameter/Mittelwerte: ● ● „Werte, um die sich Daten gruppieren.” Abstand der Beobachtungen vom Mittelwert möglichst klein Beispiel: 10/69 Explorative Datenanalyse WS 07/08 – Grammig 11/69 1. Kandidat: arithmetisches Mittel = n → arithmetisches Mittel der n-ten Beobachtung In Worten: Summe der Merkmalswerte geteilt durch die Anzahl n der Merkmalswerte. Das arithmetische Mittel balanciert die Merkmalswerte gerade aus. Eigenschaften von : (→ die Werte, die größer als der Mittelwert, und die, die kleiner als dieser sind, heben sich gegenseitig auf) : Zentrum der Masseverteilung n ● ● Bsp.: v xv 1 5 2 5 3 → 20 3 = 10 ● n ● n ● ● minimiert: kann, muss aber nicht in den Daten vorkommen (Bsp.: durchschnittliche Kinderzahl pro Familie: 1,52 Kinder) ausreißerempfindlich (siehe „Studenten Uni D“) demokratisch → berücksichtigt jeden Wert n = = ≠ beim gewogenen arithmetischen Mittel: g = g1x1 + g2x2 ... + gnxn → statistische Eigenschaften treffen nicht zu. Explorative Datenanalyse WS 07/08 – Grammig ● 12/69 alternative Berechnung für diskrete Variablen: n= i-te Merkmalsausprägung ● Summe über Betrachtungen Vorteil: Man benötigt im Prinzip keine Einzelwerte, sondern lediglich deren Summe und die Anzahl n, um es zu bilden 2. Kandidat: Median xMed, , x[0,5] → Wert, der in der Mitte liegt Berechnung: ● Unterscheidung bei gerader und ungerader Anzahl n ● hilfreich: der Größe nach anordnen: x(1) ≤ x(2) ... ≤ x(n) kleinster Wert größter Wert → falls n ungerade xMed → ≠ ● ● → falls n gerade bei asymmetrischer Verteilung Vorteile: - keine Ausreißerempfindlichkeit Bsp.: Kinderzahl in 9 Haushalten: 0 0 0 0 1 2 3 3 69 arithm. Mittel: 8,66 Median: 1 - auch bei nicht metrischen, aber ordinalen Daten anwendbar Nachteil: enthält weniger Information (arithm. Mittel erlaubt das Schließen auf die Gesamtzahl) Minimierung mit Median und arithm. Mittel: • • keine andere Zahl hat eine kleinere Summe absoluter Abweichungen von vorgegebenen Ausgangsdaten als deren Median. keine andere Zahl hat eine kleinere Summe quadrierter Abweichungen von vorgegebenen Ausgangsdaten als deren arithmetisches Mittel 3. Kandidat: Modus xM: der häufigste Merkmalswert einer statistischen Reihe xM = xi , mit h(xi) > h(xk), für alle k ≠ i Explorative Datenanalyse WS 07/08 – Grammig 13/69 unimodal: statistische Verteilungen, die nur einen Modalwert besitzen → keine allzu große Aussagekraft! Quartilsmittel: Midrange: [x[0,25] + x[0,75]] (x(1) + x(n)) 4. Kandidat: Geometrisches Mittel Anwendung beim Mitteln von Quotienten, Prozenten, Wachstumsraten (Beschreibung von Zeitreihen) Daten: t pt (pt – pt-1) / pt-1 * 100 % pt / pt-1 0 100 1 200 1 100 % 2 200/100 2 100 -0,5 50 % 0,5 100/200 [-1] → Nettowachstumsrate [* 100 %] =0% Berechnung erfolgt (brutto) über Wachstumsfaktoren und nicht über Wachstumsraten (stets > 0). Um die Nettowachstumsrate zu erhalten, zieht man nach der Berechnung des geometrischen Mittels 1 von diesem Ergebnis ab. allg. für n-Perioden: [-1] Gx = allg.: Bruttowachstumsraten: Gx := Gx < (Ausnahme: alle Werte der Reihe sind gleich also bei gleichen Wachstumsraten) → die xi/Gx Quotienten multiplizieren sich zu 1 auf Explorative Datenanalyse WS 07/08 – Grammig 14/69 Wenn der Wert p0 pro Periode um [Gx - 1][*100%] wächst, bin ich nach n Perioden bei pn Durchschnittswachstumssatz. Gx und log-Renditen (alternativ: ln) In der Praxis wird (aus Gründen der Einfachheit) das arithmetische Mittel zur approximativen Annäherung an die durchschnittliche Wachstumsrate dem genauen geometrischen Mittel oftmals vorgezogen. 5. Kandidat: Harmonisches Mittel , xi > 0 Zähler ist stets konstant Hx < Gx < ...wird zur Berechnung von Durchschnittsgeschwindigkeiten verwendet. Ökonomisches Beispiel zum harmonischen Mittel: ein Unternehmen besitzt 3 Produktionsstätten: (1) In jeder Produktionsstätte werden 60 Stück produziert... Produktionsstätte Produktivität benötigte Stunden 1 5 Stücke 60/5 = 12 h 2 6 Stücke 60/6 = 10 h 3 10 Stücke 60/10 = 6 h Durchschnittsproduktivität: (2) In allen Produktionsstätten werden 8 Stunden gearbeitet... Explorative Datenanalyse WS 07/08 – Grammig 15/69 Produktionsstätte produzierte Stückzahl in 8 Stunden 1 5*8 = 40 Stück 2 6*8 = 48 Stück 3 10*8 = 80 Stück Durchschnittsproduktivität: arithmetisches Mittel: • symmetrische, rechtssteile oder linkssteile Verteilung? symmetrisch: Streuungsmaße: → sx2(B) > sx2(A) rechtssteil (= linksschief): linkssteil (= rechtsschief): Explorative Datenanalyse WS 07/08 – Grammig Schreibweise: s2 = sx2 Rechenregeln (empirische Varianz): • 16/69 empirische Varianz: quadrierte Abweichung vom Mittelwert große Varianz→ starke Streuung kleine Varianz → geringe Streuung stammt vom arithmetischen Mittel ab, erbt somit auch alle Schwächen des arithmetischen Mittels Umformung der Varianz: Alternative Streuungsmaße: Spannweite: Differenz zwischen dem größten und kleinsten Wert Eindämmen der Ausreißerempfindlichkeit durch Quartilsabstände (→ Eingrenzung der Daten) 1 2 3 4 • 1. u. 4 Quartil fallen weg. Spannweite zwischen 2. u. 3. Quartil Variationskoeffizient: Quotient aus Standardabweichung und Absolutbetrag des Mittelwerts. Relatives Maß, das die Streuung relativ zum Niveau der statistischen Reihe angibt. Findet Verwendung, um die Volatilität einer Aktie zu berechnen. • Explorative Datenanalyse WS 07/08 – Grammig 17/69 für diskrete Daten: K: verschiedene Merkmalsausprägungen (z.B.: 0,1,2,3...K) rel. Häufigkeit arithmetisches Mittel ≠ Standardabweichung = Standardabweichung Fallstricke: Streuung, Konzentration, Unsicherheit, Chance & Risiko • Was geschieht beim Umskalierung: DM → € (Bsp.: Einkommen) v xv (in T DM) 1 110 2 90 3 100 = 100 (DM) 1 € = 1,95583 DM v xv (in T €) 1 52,24 2 46,02 3 51,13 => = 51,13 s2(DM) = 66,67 s2(€) = 17,43 ? = (1,95583)2 s(€) = 4,175 → s(DM) ist um 1,95583 größer als s(€). Explorative Datenanalyse WS 07/08 – Grammig • wenn y = a ∙ x, dann... • wenn y = x + a, dann... 18/69 yv = xv + a → jede Betrachtung • s oder s² als Vergleichsmaß für Ungleichheit? - Nein! Bsp.: 3 Bauern (Österreich nach 30-jährigem Krieg) nach EU-Sponsoring (+ 30 Kühe) v xv (=Anzahl Kühe) v xv 1 1 1 31 2 2 2 32 3 7 3 37 s = 2,62 s = 2,62 Konzentrationsmaße: Fragestellungen: Welcher Anteil der (Merkmals-)Summe entfällt auf den Ärmsten oder Kleinsten, welcher Anteil auf die zwei Ärmsten oder Kleinsten usw.? absolute Konzentration: hoher Anteil der Merkmalssumme S entfällt auf eine kleine absolute Anzahl von Mermalsträgern → (z.B. 4 Unternehmen machen 75 % des Gesamtumsatzes) • Explorative Datenanalyse WS 07/08 – Grammig 19/69 relative Konzentration: hoher Anteil der Merkmalssumme entfällt auf einen kleinen Anteil der Merkmalsträger → z.B. nur knapp 4 % des Einkommensteueraufkommens wurde vom unteren Drittel der Steuerpflichtigen aufgebracht • Lorenz-Kurve: Bedingungen: (1) keine negativen Merkmalsausprägungen (xi ≥ 0) (2) Merkmalsausprägungen werden der Größe nach angeordnet (0 ≤ x1≤ x2 ... ≤ xk) (3) sinnvoller und interpretierbarer Einsatz der folgenden Größen: ni xi ≥ 0 und Konstruktion: x-Achse: Werte der empirischen Verteilungsfunktion y-Achse: Werte des kumulierten Anteils an der Merkmalssumme Merkmalssumme Beispiel: produzierte PKWs im Jahr 1995 Marke i ni xi xi kumuliert Hi in % Mi in % Porsche 1 1 18.868 18.868 14,3 0,5 Ford 2 1 350.663 369.531 28,6 10,5 Audi 3 1 447.683 817.214 42,9 23,3 Mercedes 4 1 550.287 1.367.501 57,1 38,9 BMW 5 1 563.431 1.930.932 71,4 55,0 Opel 6 1 743.819 2.674.751 85,7 76,1 VW 7 1 838.090 3.513.660 100 100 K Explorative Datenanalyse WS 07/08 – Grammig 20/69 Definition: Ein Streckenzug, der in einem Koordinatensystem ausgehend vom Ursprung P0=(0, 0) die Punkte Pi = (Hi, Mi) miteinander verbindet, heißt Lorenzkurve (mittels Approximation zur Kurve transformierbar). => je gleichmäßiger die Verteilung, desto gerader die Lorenzkurve bzw. desto näher liegt die Lorenzkurve an der 1. Winkelhalbierenden (der 45°-Linie der völligen Gleichheit) => die Ungleichheit ist umso kleiner, je näher die Lorenzkurve der 45°-Linie kommt, und die Ungleichheit ist umso größer, je weiter sich die Lorenzkurve von der 45°-Linie entfernt => keine Konzentration in einer Verteilung liegt vor, wenn alle Elemente denselben Merkmalswert (also das arithmetische Mittel) aufweisen Gini-(Konzentrations-)Koeffizient: Gilt als normierte Maßzahl der summarischen relativen Konzentration, da... 0 ≤ GINI ≤ 1 Alternative Berechnung: Summe der absoluten Differenzen aller möglichen Wertpaare voneinander geteilt durch die Zahl der Wertpaare Explorative Datenanalyse WS 07/08 – Grammig 21/69 4. Zweidimensionale Verteilungen Bsp.: Beobachtungen an einer Straße (Anselmo) → auch als Kontingenztabelle darstellbar: (1) absolut (2) relativ (3) bedingt relativ h(xi|yj); bezieht sich auf die Spalten 5/20 Gegeben, dass Anselmo die “Straße hoch” betrachtete, waren in 25 % der Fälle Panzer unterwegs. Explorative Datenanalyse WS 07/08 – Grammig 22/69 (4) bedingt relativ h(yj|xi); bezieht sich auf die Zeilen 5/10 Gegeben, dass Anselmo die “Panzer” betrachtete, sind sie in 50 % der Fälle die Straße hoch gefahren. Merke: Berechnung erfolgt stets von „innen“ nach „außen“ (Randstellen)... von „außen“ nach „innen“ ist nur in einem Spezialfall möglich (dazu später mehr) Betrachtet man aber nur die Ränder, geht die wesentliche Information einer zweidimensionalen Statistik, nämlich die über das gemeinsame Verhalten der Merkmale und deren Abhängigkeit oder Unabhängigkeit, leider verloren. gemeinsame relative Häufigkeit: → absolute Häufigkeit andere Notation: “und”, “,” → relative, gemeinsame Häufigkeit relH Randverteilung von X: für i = 1,2,3, ... , k Anzahl der Ausprägungen von Y Anzahl der Ausprägungen von X Randverteilung von Y: für j = 1,2,3, ... , l „von der Mitte zum Rand“ bedingte relative Häufigkeiten: Relative Häufigkeit einer Variable, wenn (unter der Bedingung, dass) die andere auf einem bestimmten Wert fest/konstant gehalten (ceteris paribus) wird. Explorative Datenanalyse WS 07/08 – Grammig 23/69 wichtig für Wahrscheinlichkeiten entsprechend: Unabhängigkeit von X und Y: wenn h(xi|y1) = h(xi|y2) = ... = h(xi|yl) = h(xi) (entsprechend: h(x1|yj) = h(x2|yj) = ... = h(xk|yj) = h(yj) • → (statistische) Unabhängigkeit aus gilt für Unabhängigkeit → den Wert, den ich für X erhalte, verändert NICHT die Häufigkeit des Auftretens von Y und umgekehrt. → von den Rändern zur Mitte → binär betrachteter Spezialfall (0 oder 1, abhängig oder unabhängig) Bsp.: Ereignis X Student schreibt Klausur Ereignis Y Mitbewohner hat das Bad geputzt xi = 1 besteht yi = 1 geputzt xi = 2 besteht nicht yi = 2 nicht geputzt h(X = besteht | Y = geputzt) = h(X = besteht | Y = nicht geputzt) = h(X = besteht) >> X und Y sind unabhängig. Ereignis Z Besuch des Tutoriums zi = 1 besucht zi = 2 nicht besucht h(X = bestanden | Z = besucht) > h(X = bestanden | Z = nicht besucht) >> X und Z sind nicht unabhängig. Explorative Datenanalyse WS 07/08 – Grammig 24/69 Abhängigkeitsmessung: Randverteilungen Anzahl der Beobachtungen tatsächlich hypothetische gemeinsame Häufigkeit d. Unabhängigkeit → quadratische Kontingenz χ² stets größer 0; außer bei Unabhängigkeit je größer χ², desto größer die Abweichung zur Unabhängigkeit (bzw. desto größer die Abhängigkeit) Kontingenzkoeffizient: M = min {k , l} keine Aussage über die Wirkungsweise des Zusammenhangs * 0≤K ≤1 *je näher K* bei 0, desto näher an Unabhängigkeit *je näher K* bei 1, desto stärker die Abhängigkeit Zusammenfassende Maßzahlen: Mittelwert: • der Mittelwert einer Summe ist gleich der Summe der Mittelwerte • der Mittelwert einer Differenz ist gleich der Differenz der Mittelwerte für einen Anteil a an der zusammenfassenden Variablen Z: (z.B. Portfolio, das sich aus zwei verschiedenen Aktien zusammensetzt) Varianz: Z = X + Y mittels Anwenden der binomischen Formel → Varianz der Summe Explorative Datenanalyse WS 07/08 – Grammig 25/69 → Varianz der Differenz • Umformung der Varianz Kovarianz und Korrelationskoeffizient: Kovarianz → das arithmetische Mittel des Produkts der Abweichungen der einzelnen Beobachtungen von ihrem jeweiligen Mittel. Berechnung (Step-by-Step): - arithmetisches Mittel der Variablen X und Y (1) (2) - Produkt der Abweichung zum Mittelwert Spreadsheet (3) - arithemtisches Mittel von zv • Umformung der Kovarianz Explorative Datenanalyse WS 07/08 – Grammig • • • 26/69 cXY > 0, wenn X und Y tendenziell einen gleich sinnigen linearen Zusammenhang besitzen, d.h. hohe Werte von X gehen mit hohen Werten von Y einher und niedrige mit niedrigen cXY < 0, wenn X und Y einen gegen sinnigen linearen Zusammenhang aufweisen, d.h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher. cXY = 0: es besteht kein Zusammenhang oder ein nicht linearer Zusammenhang z.B. eine Uförmige Beziehung zwischen den beiden Variablen X und Y. JEDOCH: keine Aussage über die Stärke des Zusammenhangs! Problem: Die Kovarianz ist von der Skalierung der Daten (der Maßeinheiten) abhängig → eine Umskalierung führt zu einem anderen Wert für cXY. ›› Standardisierung der Daten: Korrelationskoeffizient: • normiertes Maß für die Strenge des linearen statistischen Zusammenhangs • rXY besitzt das gleiche Vorzeichen wie cXY • keine Veränderung bei Umskalierung (z.B.: Euro nach Yen) • symmetrische Behandlung der Variablen X und Y (rXY = rYX) u v besitzt sowohl positive als auch negative Werte, die sich (da sie nicht wie bei der Varianz quadriert werden) gegenseitig “auslöschen” die Werte von uv liegen stets zwischen -1 und +1. Quadriert summieren sich so die Abweichungen zum Mittelwert zu 1 auf → empirischer Korrelationskoeffizient (nach Bravais-Pearson) Explorative Datenanalyse WS 07/08 – Grammig 27/69 Die Werte der beiden Variablen bewegen sich umso stärker in die gleiche Richtung (korrelieren umso stärker), je größer die Fläche des schraffierten Rechtecks ist, je weiter rechts oben oder links unten im Schaubild sich der Datenpunkt befindet. Eigenschaften der Kovarianz/des Korrelationskoeffizienten: (1) Wertebereich: -1 ≤ rXY ≤ +1 (bzw. (cXY)² ≤ sx² ∙ sy² → Cauchy-Schwarz-Ungleichung) (2) (2), (3) = zeigen! (3) mit M = a + b ∙ X und V = c + d ∙ Y cMV = b ∙ d ∙ cXY (4) perfekte Korrelation: rXY = |1| tritt auf, wenn yv = a + b ∙ yv (Y ist eine lineare Funktion von X → cXY = |1|) (5) diskrete (metrische) Variablen X und Y k-Ausprägungen von X: x1, x2, ... xk l-Ausprägungen von Y: y1, y2, ... yl → Abzählen, wie häufig ein Merkmal auftritt Explorative Datenanalyse WS 07/08 – Grammig 28/69 → alternative Berechnung für cXY: gemeinsame relative Häufigkeit gemeinsame absolute Häufigkeit Faustregeln (Korrelationskoeffizient): 0 < 0 bis < 0,5 ≤ 0,5 bis < 0,8 ≤ 0,8 bis < 1 1 „keine Korrelation“ „schwache Korrelation“ „mittlere Korrelation“ „starke Korrelation“ „perfekte Korrelation “ Rangkorrelation: • findet Verwendung bei ordinal skalierten Merkmalen • Berechnung erfolgt nicht über die gemessenen Variablenwerte, sondern über ihre Rangplätze (der Größe nach geordnete Reihenfolge) Fallstricke bei Kovarianz und Korrelation: (1) cXY und rXY messen linearen Zusammenhang: Bsp.: xv -4 -3 -2 -1 0 1 2 3 4 yv 16 9 4 1 0 1 4 9 16 Annahme: kein Zusammenhang → Schwachsinn (kein linearer, aber quadratischer Zusammenhang) (2) Korrelation (verändert sich X → verändert sich Y) ≠ Kausalität (weil X sich verändert → ändert sich Y automatisch) Explorative Datenanalyse WS 07/08 – Grammig 29/69 → 3. (oder 4. oder 5.) Variabel(n) im Hintergrund und vernachlässigt (z.B.: Studiengang) Kausalrichtung verdreht (aus Minus wird Plus) Bsp.: weitere Beispiele: • Kopfläuse und Körpertemperaturen (rXY negativ) • Bierkonsum und Temperatur weitere Gründe für Korrelation ≠ Kausalität: • zu kleine Stichprobe • falsche Stichprobenauswahl („Selbstselektion“) • zufälliger Zusammenhang (z.B.: Zahl der Störche und Kinderzahl) • post hoc ergo propter hoc-Fehler (weil etwas vorher geschah, war es die Ursache dessen, was später geschah; Ursache hinkt der Wirkung hinterher) Anwendung der bisherigen Ergebnisse im Portfolio Management: Z=a∙X+b∙Y zv = a∙xv + b∙yv Rendite, die aus den Renditen X und Y entstehen erst ausmultiplizieren, dann Summe bilden; Punkt vor Strich beachten Explorative Datenanalyse WS 07/08 – Grammig 30/69 5. Lineare Regressionsrechnung Korrelation ≠ Kausalität postuliert ökonomische Theorie impliziert Kausalitätsbeziehungen X → Y (X wirkt auf Y) Konsum = f (Einkommen; c) Einkommen Sparen Investitionen Zins Rendite = = = = = Konsum + Sparen f (Zins; δ) f (Zins; ξ) f (Zeitpräferenz, Inflation; ς) f (Risiko; γ) Output = f (Kapital, Arbeit; α, β) = Wichtigkeit der Faktoren für das Ergebnis f (Ausbildungsjahre, Alter, Studiengang, ...; β1, β2, β3, ...) End-Lohn Elastizität des Konsums z.B. Risikobereitschaft X: Einkommen Y: Konsum X: Werbeausgaben Y: Umsatz X→ Y (oft lineare Beziehungen) → Implikatoren X: Überschussrendite Marktportfolio Y: Überschussrendite Aktie Y = b0 abhängige Variable + b1 ∙ unbekannte Parameter (messbar) X erklärende Variable + e Residuum (keine Daten, „unerklärlich“) z.B. „1€ mehr an Werbeausgaben wirkt sich wie folgt auf den Umsatz aus.“ → β-Koeffizienten im Finanzmarkt Beobachtungen für Y und X: Y: y1, y2, ... yn X: x1, x2, ... xn e: nicht betrachtet! bivariater Datensatz (d.h. von X und Y gibt es n-Untersuchungseinheiten) Explorative Datenanalyse WS 07/08 – Grammig yv = b0 + b1xv + ev ...postuliertes Modell: ...wir beobachten (Punktwolke): → Regressionsanalyse („schätzen“, „optimal wählen“) b0 und b1 31/69 Explorative Datenanalyse WS 07/08 – Grammig 32/69 Optimale Wahl von b0 und b1 ? Kriterium: Minimierung von Abstandsquadraten K-Q-Methode (Methode der kleinsten Quadrate) • Schira-Notation: a ≡ b0 b ≡ b1 Summe der quadrierten Abweichungen arg min Hinweis! Quadrate immer nach rechts abtragen arg min innere Funktion äußere Funktion(en) quadratische Funktion, die n-mal „existiert“ Explorative Datenanalyse WS 07/08 – Grammig 33/69 → für jedes Element (partiell) ableiten: : (-2) Regressionsgerade durch arithm. Mittel von abh. und unabh. Variable → K-Q-Schätzer für b0 und b1 Eigenschaften des K-Q-Schätzers: (Prognose für yv) (Prognosefehler) Explorative Datenanalyse WS 07/08 – Grammig 34/69 Zeigen Sie! → Kovarianz zwischen Prognosefehler und erklärender Variable =0 (1) die Summe von nicht-quadrierten Abweichungen zum Mittelwert ist stets 0 (2) Explorative Datenanalyse WS 07/08 – Grammig (3) Schira: Umkehrregression → „größter Schwachsinn unter der Sonne“ (O-Ton) standardisiertes Maß: Bestimmtheitsmaß R² → Beurteilung der Güte der Regression: 0 ≤ R² ≤ 1 empirische Varianz von Y Varianz der Prognosewerte Varianz der Prognosefehler 35/69 Explorative Datenanalyse WS 07/08 – Grammig 36/69 Das Bestimmtheitsmaß ist definiert als der erklärte Anteil der quadrierten Abweichungen vom Mittelwert geteilt durch die gesamte Varianz: → 100 % der Streuung wird durch das Modell erklärt! Interpretation von kausalen Beziehungen zur Regression → Quatsch Eigenschaften der Regressionsgeraden: (1) mittlere Gerade Regressionsgerade verläuft exakt durch den Schwerpunkt der Punktwolke. => das arithmetische Mittel der Originalwerte yv ist gleich dem der Regressionswerte. Normalgleichung: 1. partielle Ableitung (2) Varianzminimierung Summe der kleinsten Quadrate → Regressionsgerade minimiert die Varianz der Abweichungen (3) Steigungsregression enge Beziehung zwischen Steigungsmaß b1 und dem Korrelationskoeffizienten rxy • • • Vorzeichen der Steigung entspricht dem Vorzeichen des Korrelationskoeffizienten Steigung hängt vom Verhältnis der beiden Standardabweichungen ab je schwächer die Korrelation, desto flacher die Gerade (4) Varianzzerlegung Gesamtvarianz lässt in „Varianz der Prognosewerte“ und „Varianz der Prognosefehler“ zerlegen (siehe Bestimmtheitsmaß auf S. 35) Explorative Datenanalyse WS 07/08 – Grammig Ausblick: ökonometrische Methoden multiple Einflussfunktion: y = b1x1 + b2x2 + ... + bkxk + e (z.B.: Lohn als Funktion von Humankapital, Alter, Berufserfahrung) • nicht lineare Beziehung: y = f(x1, x2, x3, ... xk, e) (z.B.: b0 ∙ xb1 ∙ e → Linearisierung (K-Q) → Lineare Beziehung nicht in den Daten, sondern in deren Logarithmen. • • Interdependenz und Simultaneität: 37/69 Explorative Datenanalyse WS 07/08 – Grammig 6. Beschreibung von Zeitreihen → empirische Zeitreihe zeitlich geordnete Folge von T Beobachtungen eines Merkmalsträgerunivariats (mehrere: multivariat) einer statistischen Variablen Y y1, y2, ... yt, yT t anstelle v T anstelle n Kompetenzzerlegung: • Trendkomponente Tr (langfristige Bewegung) • zyklische Komponente Cy (mittelfristige Bewegung) - Länge des Zyklus? - Abgrenzung zum Trend? • Saisonkomponente S (innerhalb eines Jahres (oder allgemein: einer Periode)) • Restkomponente (irreguläre Komponente) U “glatte Komponente” G (Y = Tr + Cy + S + U = G + S + U) Schätzung von Komponenten von Zeitreihen: – – – Trendkomponente (Trendfunktionen) glatte Komponente (glatte Durchschnitte, exponentielle Glättung) Saisonkomponente Trendkomponente: Schätzung mit K-Q-Methode (s.v.) Daten (siehe Spreadsheet v. Kursseite) torig t yt 1929 1 y1 . . y2 . . . . . . . . . . . . 2002 T yT 38/69 Explorative Datenanalyse WS 07/08 – Grammig 39/69 Trendkomponente linearer Trend: yt = b0 + b1 ∙ t + ut Restkomponente erklärende Variable: Zeit Schätzung von b0 und b1 mit K-Q-Methode: arg min exponentieller Trend: yt = a ∙ eb1t ∙ Parameter et unerklärliche Komponente → Linearisieren: b0 = ln a ; ut = ln et ln yt = b0 + b1t + ut Interpretation: steigt t um 1, steigt yt ≈ ∙ 100 % Trendprognose: Fortschreiben von t, einsetzen in Funktion mit geschätzten Parametern zukünftiger Parameterfehler u = 0. Prognose für 1. Periode in der Zukunft allgemein: Explorative Datenanalyse WS 07/08 – Grammig 40/69 → Annahme: Trend setzt sich fort. ABER: • eventuell kein Trend, sondern „organisierter Zufall“ (Randomwerte) • Brücke im Trend wirtschaftstheoretischer Exkurs: *Induktivistisches Schema: Ausgangspunkt: Beobachtungen/ Daten werden verallgemeinert, um Theorie zu formulieren noch mehr Beobachtungen und bestätigen die Theorie *kritischer Rationalismus: Ausgangspunkt: Problem Kritik, experimentelles Testen Lösungsvorschläge (Theorien, Erklärungen) Ersetzen von abgelehnten bzw. schlechten Erklärungen/Theorien neues Problem (nicht durch vorhandene Theorie erklärbar) Schätzung glatte Komponente (Trend & Zyklus) gleitende Durchschnitte: → Filtermethoden (Glättung der Zeitreihe) • linearer Filter: die Summe der einzelnen Gewichte ergibt 1 1.) einfacher gleitender Durchschnitt: a1 = a2 = ... = ai: alle Gewichte sind gleich groß (1/l) 2.) gewichteter gleitender Durchschnitt v: Zeitindex, der dem jeweiligen gWert zugewiesen wird (0≤ v ≤ l-1). Explorative Datenanalyse WS 07/08 – Grammig 41/69 verschiedene Durchschnittsarten: (Bsp.: Fünferdurchschnitte) y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g1+v erster Durchschnittswert 1.) zentrierte gleitende Durchschnitte: v = (l – 1) / 2 y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g3 ... y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g10 2.) vorlaufende gleitende Durchschnitte (werden selten verwendet): v = 0 y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g1 ... y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g8 3.) nachlaufende gleitende Durchschnitte: v = l -1 y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g5 ... y1, y2, y3, y4, y5, y6, y7, y8, y9, y10, y11, y12 g12 Eigenschaften der Glättung: • je größer die Filterlänge l, desto stärker die Glättung • „Wegfiltern“ einer Saisonkomponente: l muss der Anzahl der Phasen der Saisonperiode entsprechen oder ein ganzzahliges Vielfaches davon sein • gelten nur für UNGERADE Längen l Glättung mit geraden Längen l: (Bsp.: zentrierter gleitender Durchschnitt für l = 4) ...aus den y-Werten erhält man: Explorative Datenanalyse WS 07/08 – Grammig 42/69 ...damit werden nun gleitende Zweierdurchschnitte gebildet, um ganzzahlige Indizes zu erhalten: der Anfangs- und Endwert werden mit „halbem“ Gewicht berücksichtigt. → gleitende Durchschnitte zweiter Ordnung der Länge l (für l = gerade) = gewichtete zentrierte gleitende Durchschnitte der Länge l +1 Exponentielles Glätten: • Interpretation 1: Glättung in den Daten 0<β<1 • Interpretation 2: Prognose Prognosewert → bei steigendem Trend stets „nachlaufend“ → Exponentielles Glätten bei „Trend-Daten“ ungeeignet → besser bei „persistenten“ (sich bei einem Wert „einpendelnden“) Zeitreihen (z.B.: Zinsen, quadrierte Renditen, Inflationsraten) Explorative Datenanalyse WS 07/08 – Grammig 43/69 Rekursion zur Ermittlung von (2) in (1) einsetzen: ... bis y1: erste Betrachtung: Startwert β und frei wählbar! β ≈ 0: aktueller Wert yt starker Einfluss auf Prognose/Glättung β ≈ 1: aktueller Wert yt geringer Einfluss auf Prognose/Glättung → optimale Wahl für β? hilfreich: Prognoseinterpretation arg min {β} wir beginnen nicht bei t =1, um Startwert-Effekt abzumildern β [0;1] “Grid-Search” (Parameterraum absuchen) Explorative Datenanalyse WS 07/08 – Grammig 44/69 → Solver in Excel! Saisonkomponente konstante additive Saisonfiguren: Annahme: Der saisonale Effekt S senkt oder erhöht den Beobachtungswert in einem bestimmten Monat oder Quartal um einen konstanten Betrag. Ansatz: Man bildet die glatte Komponente G und und erhält aus Y = Tr + Cy + S + U die Differenz Y – G = S + U bzw. die Zeitreihe y1 – g1, y2 – g2, ... yT – gT → aufgrund der Restkomponente U wird die Zeitreihe jedoch nicht periodisch verlaufen. • Phasendurchschnittsverfahren: Ziel: „Eliminieren“ der Restkomponenten U. Vorgehensweise: – Berechnung des Durchschnitts D der Abweichungen von der glatten Komponente (für jede Phase – also Monat oder Quartal) – Addieren sich die Werte von D nicht zu 0, Korrektur um ihren Mittelwert → → S1 + S2 + ... + Sn = 0 Gleitende Durchschnitte sind sukzessive arithmetische Mittel benachbarter Zeitreihenwerte, wobei darauf zu achten ist, dass immer alle Quartale (oder Perioden) im Mittelwert zur Saisonbereinigung Explorative Datenanalyse WS 07/08 – Grammig 45/69 vertreten sind. saisonbereinigte Zeitreihe: unbereinigte Zeitreihenwerte – Saisonveränderungszahlen • Regressionsverfahren: – Verwendung von so genannten Saison-Dummies: künstliche Hilfsvariablen, die nur zwei Werte annehmen können (normalerweise 0 oder 1) pro Phase ein Dummie (Bsp.: bei der Betrachtung der Quartale werden 4 Dummies benötigt) für die Zeitreihe ergibt sich (am Beispiel der Quartale) so: – – Restkomponente – Die mit der K-Q-Methode berechneten Regressionskoeffizienten bn entsprechen den Phasendurchschnitten Dph der zuvor erläuterten Methode. – Obige Gleichung transformieren wir jetzt in die übliche Regressionsgeraden-Form b0 + b1∙t: → – Wir benötigen so nur 3 Saison-Dummies, da ihre Koeffizienten lediglich den Achsenabschnitt (das Absolutglied) b0 modifizieren: D1 = b0 + b1; D2 = b0 + b2; D3 = b0 + b3; D4 = b0 – Addieren sich die Werte von D nicht zu 0, Korrektur um ihren Mittelwert (siehe Phasendurchschnittsverfahren): → Bsp.: Quartalswertbewegungen des BIP von 1992 bis 2001: geg.: Regressionsgerade: Interpretation: ein schwach noch oben gebogener Trend, da Koeffizient bei t² positiv Vorgehensweise: – die Koeffizienten bei den Saison-Dummies = Phasendurchschnitte → b 0 ist definiert als 0 → Indem wir diesen Durchschnitt (bzw. die Restkomponente) von den Koeffizienten abziehen, erhalten wir folglich die Saisonveränderungszahlen: S1 = -11,73 S2 = -1,04 S3 = +6,01 S4 = 0 - (-6,77) = +6,77 Explorative Datenanalyse WS 07/08 – Grammig 46/69 Bestimmung von Trend und glatter Komponente mittels des Regressionsverfahrens: linear: quadratisch: konstante multiplikative Saisonfiguren: Verwendungszweck: additives Modell ist nicht immer geeignet, da die saisonalen Ausschläge auch mit der Größe der Beobachtungswerte (meist proportional) wachsen können. Ansatz: Man bildet die glatte Komponente G und und erhält aus Y = Tr ∙ Cy ∙ S ∙ U den Quotienten Y/G = S ∙ U. Interpretation des Quotienten: Verhältnis der Beobachtungswerte zu der jeweiligen glatten Komponente (z.B. 1,10 bedeutet, dass der aktuelle Wert um 10 % höher liegt als die glatte Komponente). Anwendung des Phasendurchschnittsverfahrens: (1) Die Durchschnitte entsprechen den Quotienten Q1, Q2, ..., Qn (2) Berechnung des Quotientendurchschnitts zur Gewährleistung der Neutralität der Saisonfaktoren (der Einfachheit halber mit dem arithmetischen und nicht mit dem geometrischen Mittel): (3) Berechnung der Saisonfaktoren: → Explorative Datenanalyse WS 07/08 – Grammig 47/69 7. Indexzahlen, Preisindizes, Deflationierung Übersicht: – Preisindizes (Inflationsmessung) – Mengenindizes – Umbasierung und Deflationierung Preisindizes: Messung: nicht Preisentwicklung einzelner Güter, sondern „allgemeine“ Preisentwicklung Warenkorb (wird durch repräsentative Erhebungen ermittelt) Ziel: • Inflationsmessung • Kaufkraftvergleich Bsp.: Sind die Preise gegenüber dem Vorjahr um 2 % gestiegen, ist der Index für Lebenshaltung auf 102 % (1,02) gestiegen: Das Preisniveau hat sich erhöht. Sprich: „Ich brauche mehr Geld, um den Warenkorb aus dem Vorjahr zusammenzustellen.“ Notation: i = 1, 2, ..., n t = 0, 1, 2, ... T konsumierte produzierte qit: in Periode t exportierte importierte pit: Preis Gut i in Periode t qt = (q1t, q2t, ... qnt) Güter Betrachtungsperioden Menge des i-ten Gutes Warenkorb in Periode t Mengenvektor pt = (p1t, p2t, ... pnt) Preisvektor der Periode t Wert des Warenkorbs in t (Skalarprodukt aus Preisvektor und Mengenvektor) Hypothetisches wird mit Realem verglichen! Festlegen Warenkorb in t = 0 (Basisperiode) (t ≠ 0: Berichtsperioden) Berechnen von W0: Explorative Datenanalyse WS 07/08 – Grammig 48/69 Bsp.: Vier-Personen-Haushalt: Basismonat Jan 2001 i Gut q_i0 p_0 1 Brot 32 kg 1,9 2 Milch 28 l 0,5 3 Eier 54 St. 0,1 4 Kartoffeln 45 Pf 0,2 5 Fleisch 24 kg 6,3 6 Pizza 30 St. 4,5 Berichtsmonat Jan 2002 q_1 p_1 Euro/kg 40 kg 2,0 Euro/l 30 l 0,5 Euro/St. 60 St. 0,2 Euro/Pf 38 Pf 0,2 Euro/kg 32 kg 6,4 Euro/St. 0 St. 9,0 Euro/kg Euro/l Euro/St. Euro/Pf Euro/kg Euro/St. Ausgaben des Haushalts in der Basisperiode: i p_0 q_0 1 60,8 2 15,1 3 7,0 4 8,1 5 150,0 6 135,0 S 376,0 Ausgaben für denselben Warenkorb in der Berichtsperiode (hypothetisch): i p_1 q_0 1 64,0 2 15,1 3 8,1 4 9,0 5 152,9 6 270,0 S 519,1 Ausgaben des Haushalts in der Berichtsperiode (neue Zusammenstellung des Warenkorbs): i p_1 q_1 1 80,0 2 16,2 3 9,0 4 7,6 5 203,8 6 0,0 S 316,6 Ausgaben des neuen Warenkorbs mit den Preisen der Basisperiode (hypothetisch): i p_0 q_1 1 76,0 2 16,2 3 7,8 4 6,8 5 200,0 6 0,0 S 306,8 Explorative Datenanalyse WS 07/08 – Grammig 49/69 Laspeyres Index: obiges Beispiel: Der Preisindex nach Laspeyres zeigt an, wie viel der Warenkorb der Basisperiode in der Berichtsperiode kostet. Er ist der Quotient der hypothetischen Gesamtausgaben der Berichtsperiode durch die tatsächlichen Gesamtausgaben der Basisperiode. → reiner Preiseffekt; bezieht sich nicht auf Veränderungen in der Zusammenstellung des Warenkorbs. Preisindex für Lebenshaltung „aller“ privater Haushalte: → Inflationsrate Anmerkungen: ● Repräsentativität q0? (trifft der Warenkorb auf mich zu?) ● Substitutionseffekte bleiben unberücksichtigt ● Qualitätsverbesserungen? (Verbesserung der Technik) ● Veraltung q0 (Berücksichtigung von „ausrangierten“ Items wie Kassetten) Paasche Index: obiges Beispiel: Vorteile: ● Warenkorb ist immer aktuell ● Substitutionseffekt abgemildert (der Inflation ausweichen) Nachteile: ● Güter existieren eventuell in t = 0 nicht Explorative Datenanalyse WS 07/08 – Grammig ● ● 50/69 aufwändige Ermittlung (dauerhafte Veränderung des Warenkorbs) → [pt, qt, p0, ...] Substitutionsverhalten reflektiert sich im Index → Mengenänderungen (gewollt?) Beim Paasche-Index wird in Betracht gezogen, dass Konsumenten Güter bei einer Preissteigerung substituieren. Dies ist beim Laspeyres-Index nicht der Fall. Deshalb ist der Paasche-Index meist niedriger als der nach Laspeyres. Bsp.: für Laspeyres Index: DAX 30 Standardwerte: größte Aktiengesellschaften i = 1, ..., i = 30 qi0: Gewicht Aktie i im „Warenkorb“ in t = 0 pit: Kurs Aktie i zum Zeitpunkt t Basisperiode: 30.12.1987; Indexwert: 1.000 (aktuell 14.01.: 7.743) → Laspeyres, weil stets 30 Items im Warenkorb (scheidet 1 Unternehmen aus, kommt 1 neues rein) → Verkettung von Indizes Durchschnittsbildung: nochmal → gewogene arithmetische Mittel dazu Wert der Menge qi0 in t = 0 Warenkorbgesamt Preismesszahl → in Laspeyres-Formel: Beweis: Laspeyres-Index mit pi0 im Zähler erweitern! ähnlich für Paasche: wobei... git = pi0 qit2 Explorative Datenanalyse WS 07/08 – Grammig 51/69 Internationale Preisvergleiche: Preise im Ausland, gerechnet in Euro (!) Preis Inland (Euro) fester Warenkorb I: Inland → wieder Substitution, Verfügbarkeit der Produkte Umbasierung und Zusammenbinden von Indexreihen Anwendung bei Reformierung (neues Bewerten) von Indizes • • Schritt 1: Umbasierung: Umbasierungsfaktor = Quotient aus den beiden Indexwerten für die reformierte Periode Schritt 2: Ergänzung ... durch die in den jeweiligen Perioden „fehlenden“ Indexwerte mittels Rück- bzw. Vorrechnung Bsp.: Lebenshaltung aller privaten Haushalte: Umbasierungsfaktor 1 = 114,6 / 100 = 1,146 Umbasierungsfaktor 2 = 100 / 114,6 = 0,8726 originale Indexreihen Zusammengebundende Index Jahr 1991 = 100 1991 100 100 1992 105 105 1993 109,7 109,7 95,7 1994 112,7 112,7 98,3 1995 114,6 100 114,6 100 101,4 116,2 1996 1995 = 100 1991 = 100 1995 = 100 100 * 0,8726 87,2 91,6 101,4 101,4 * 1,146 1997 103,3 118,4 1998 104,3 119,5 104,3 1999 104,9 120,2 104,9 2000 106,9 122,5 106,9 2001 109,6 125,6 109,6 → wirkt nur „äußerlich“ auf die Höhe des Indexwertes → Wägungsschema und Preisrelationen bleiben unberührt 103,3 Explorative Datenanalyse WS 07/08 – Grammig 52/69 Preisindex für die Lebenshaltung: Laspeyres-Index, dessen Warenkorb in bestimmten Zeitabständen aktualisiert wird. => Aktualität => Durchschnittspreisindex => spezielle Indizes für bestimmte Personengruppen (bessere Repräsentativität) Deflationierung nominaler Größen Definition Deflationierung: Deflationierung bezeichnet die Bereinigung von in Geldeinheiten ausgedrückten Größen (z. B. das Bruttoinlandsprodukt) um den Einfluss der Inflation. Dies geschieht, indem man die beobachtete Größe (nominale Größe) durch einen entsprechenden Preisindex dividiert. Als Ergebnis erhält man eine reale, preisbereinigte Größe. Ziel: reale Größe! • Ein-Produkt-Ökonomie: Real: „inhomogenes“ Aggregat (Preis * Menge): Millionen von Produkten Idee: Wertgrößen zu konstanten Preisen aktueller Warenkorb nicht direkt beobachtbar Basisperioden-Preise (konstant) erhoben! → Deflationierung! • warum nicht direkt? Realwert aufwändig zu erheben! • korrekter Warenkorb oft nicht verfügbar • meist: Paasche-Index nicht verfügbar! Explorative Datenanalyse WS 07/08 – Grammig 53/69 Mengenindizes (= Volumenindizes) Problem: Errechnen einer Durchschnittsmenge bei verschiedenen Größenarten (z.B. kg, km, Liter etc.) nicht möglich. Bei gleicher Größenart besteht zudem die Gefahr einer zusammenfassenden Gewichtung (z.B. Gold und Kohle). Lösung: Umkehrung der Gewichtung bei Preisindizes → Mengen werden mit den Preisen der Güter gewichtet. Mengenindex nach Laspeyres: Mengenindex nach Paasche: Bsp.: Produktionsindex Misst die reine Menge, nicht die Preise von Industrieprodukten und sagt aus , wie viel in der Berichtsperiode mehr oder weniger konsumiert wurde. Explorative Datenanalyse WS 07/08 – Grammig 54/69 8. Elementare Kombinatorik • • beschäftigt sich mit der Bildung von Zusammenstellungen von Elementen aus einer vorgegebenen endlichen Menge Unterscheidung Permutationen (Verwendung aller Elemente) und Kombinationen (Verwendung eines Teils der Elemente) Fakultäten und Binomialkoeffizienten: n!: n-Fakultät: Das Produkt der natürlichen Zahlen von 1 bis n. n! = 1 ∙ 2 ∙ 3 ∙ ... ∙ (n-1) ∙ n Spezialfall: 0! = 1 Stirling-Formel zur approximativen Berechnung von n-Fakultät: Der absolute Fehler wächst für größer werdende n. Binomialkoeffizient („n über k“): Bsp: Binomialkoeffizient, weil sie (n und k) die Koeffizienten der binomischen Formel sind (darstellbar mit Pascal'schem Dreieck): Regeln: Explorative Datenanalyse WS 07/08 – Grammig 55/69 Fundamentalprinzip der Kombinatorik: Die Anzahl der Möglichkeiten (T), k Sachverhalte, die unabhängig voneinander auf jeweils ni-Arten (i = 1, 2, ..., k) erfüllt werden können, gleichzeitig zu erfüllen, ist gleich dem Produkt der einzelnen Anzahlen: T = n1∙ n2 ∙ ... ∙ nk Bsp: Wenn es für den Posten des Wirtschaftsministers 3 geeignete Kandidaten gäbe und für den des Finanzministers 5 andere Kandidaten, dann hätte der Regierungschef 3 ∙ 5 = 15 verschiedene Möglichkeiten, diese beiden Ämter zu besetzen. falls n1 = n2 = ... = nk = n dann ist die Anzahl der Möglichkeiten T gleich nk Bsp: Gleichzeitiges Werfen von drei Würfeln Wie viele Ergebnisse können hervortreten? n = 6 (Würfel besitzt 6 Zahlen) k = 3 (3 Würfel) T = 6³ = 216 Permutationen: Gegeben sei eine Menge mit n Elementen. Jede Zusammenstellung („vollständiges Ziehen ohne Zurücklegen“) aller dieser Elemente in irgendeiner Reihenfolge heißt eine Permutation dieser n Elemente. 1.) Elemente n sind unterscheidbar? Anzahl der möglichen Permutationen nP = n! 2.) Elemente n lassen sich nicht vollständig differenzieren! Sind nicht alle Elemente der zu permutierenden Menge verschieden, bildet man aus ihnen m Gruppen gleicher Elemente. Bsp.: Mögliche Permutationen des Worts „STATISTIK“ Explorative Datenanalyse WS 07/08 – Grammig Kombinationen: Gegeben sei eine Menge mit n verschiedenen Elementen. Jede Zusammenstellung von k Elementen daraus heißt Kombination k-ter Ordnung aus diesen Elementen (d.h. Anzahl der Kombinationen hängt davon ab, wie viele Elemente „gezogen“ werden). Kombinationen mit Berücksichtigung der Anordnung: Bsp.: mögliche Medaillenverteilung beim 100-Meter-Lauf n = 8 (es starten 8 Läufer) k = 3 (es gibt 3 Medaillen) Kombinationen ohne Berücksichtigung der Anordnung (= Variationen): Bsp.: mögliche Lottotipps n = 49 k=6 Ck in Abhängigkeit von nVk: n 56/69 Explorative Datenanalyse WS 07/08 – Grammig 57/69 9. Grundlagen der Wahrscheinlichkeitstheorie bisher: - rein deskriptive (positive) Analyse - keine Erklärung des Daten generierenden Prozesses (DGP) DGP: bestimmt Wahrscheinlichkeiten für das Auftreten von Ereignissen → Ziele: ● ökonomische Modellierung ● Beschreibung des DGP ● Erklärungen für Daten ● Prognosen ● Hypothesentest Ereignis (A) – 1 x Münze werfen und Kopf (K) kommt – Würfeln und 6 kommt – VfB wird Meister – Portfolio wird morgen 10 % weniger wert sein – BIP steigt um 5 % – Kreditnehmer John Doe in USA zahlt nicht zurück Wahrscheinlichkeiten P(A) 0,5 1/6 ? Wahrscheinlichkeiten (2 Sichtweisen) klassisch/frequentistisch (konzeptioneller Rahmen) Zufallsexperiment → mögliche Ergebnisse bekannt → Ergebnisse des konkreten Versuchs nicht bekannt → Experiment wiederholbar (gleiche Bedingungen, gleiche Vorschrift) • • Bayesianisch (subjektiv, Bauchgefühl, gesunder Menschenverstand) Wahrscheinlichkeiten: → Quantifizierung der Stärke von Meinungen/Hypothesen Ereignisse → a-prior-W'keit → a-posteri-W'keit (Veränderung der W'keiten) S: Ereignisraum: Menge der möglichen Ergebnisse des Experiments Elemente von S: Elementarereignisse (einzelne, nicht mehr zerlegbare und sich gegenseitig ausschließende Ergebnisse eines Zufallsexperiments) Explorative Datenanalyse WS 07/08 – Grammig Bsp. 1: 2 x Münzwurf: S = {KK, KZ, ZK, ZZ) Elementarereignisse 58/69 Notation: Elementarereignis1 oder Elementarereignis2 Bsp. 2: Werfen Nadel auf liniertes Papier: messen Winkel S = {α | 0 ≤ α < 180} Elementarereignisse sind gemessene Winkel (stetiges Kontinuum: überabzählbar unendlich viele Elementarereignisse) → diskreter vs. endlich viele Elementarereignisse - abzählbar unendlich viele Elementarereignisse Ereignis: Großbuchstaben stetiger Ergebnisraum überabzählbar unendlich viele Elementarereignisse (messen statt zählen) Teilmenge des Ereignisraums S A = „mindestens 1 mal Kopf“ A = {KK, KZ, ZK} AcS Besondere Ereignisse: • unmögliches Ereignis {} oder 0 (tritt nie ein, da es kein Element enthält) • sicheres Ereignis S (tritt immer ein, da es sämtliche Elementarereignisse enthält) → Ereignisse wieder in Menge zusammengefasst Ereignismenge E(S) oder einfach E (konsistente Wahrscheinlichkeiten; Summe = 1) E = {„mindestens 1 x Kopf“, „2 x Zahl“, „kein mal Zahl“} = {{KZ, ZK, KK}, {ZZ}, {KK}} Ziel: Anordnung von Wahrscheinlichkeiten für Ereignisse aus E klassisches Wahrscheinlichkeitskonzept (I): statistische Wahrscheinlichkeiten • Zufallsexperiment n x durchgeführt Ereignis A tritt absHn(A) mal an f rel. Häufigkeit • Gesetz der großen Zahlen: empirisch nicht beweisbar • • Explorative Datenanalyse WS 07/08 – Grammig 59/69 Bsp.: Häufigkeit von Kopf beim Münzwurf n 10 20 40 ... 60 100 1.000 5.000 absHn(„Kopf“) 7 11 17 ... 24 47 492 2.515 hn(„Kopf“) 0,7 0,55 0,425 ... 0,4 0,47 0,492 0,503 Grenzwert = Wahrscheinlichkeiten statistische Wahrscheinlichkeit (von Mises) klassisches Wahrscheinlichkeitskonzept (II): Laplace Wahrscheinlichkeiten Annahmen: • jedes Elementarereignis in S gleich möglich • endliche Zahl von Elementarereignissen in S (keine absehbare Unendlichkeit) Ereignis A: Menge von Elementarereignissen Prinzip des unzureichenden Grundes: Wahrscheinlichkeiten werden durch Wahrscheinlichkeiten erklärt! → Kombinatorik (siehe Kapitel 8) hilft beim Berechnen von g und m. Mengentheoretische Konzepte in Wahrscheinlichkeitstheorie Negation: Das Ereignis nicht A tritt genau dann ein, wenn A nicht eintritt. Es ist das zu A komplementäre Ereignis. Es gilt: disjunkt (elementfremd) Vereinigung: vereint Bsp.: mindestens A oder B treten ein (eventuell beide gleichzeitig) A = „Augenzahl ≥ 4“ = {4, 5, 6} B = „Augenzahl gerade“ = {2, 4, 6} S = {1, 2, 3, 4, 5, 6} Explorative Datenanalyse WS 07/08 – Grammig 60/69 Durchschnitt: A ∩ B: sowohl A als auch B treten ein Bsp.: A = „Augenzahl ≥ 4“ = {4, 5, 6} B = „Augenzahl gerade“ = {2, 4, 6} S = {1, 2, 3, 4, 5, 6} A ∩ B = {4, 6} Differenz: A \ B: Das Ereignis A ohne B tritt genau dann ein, wenn zwar A, aber nicht B eintritt (die Schnittmenge fällt hier raus) Implikation: C impliziert A; d.h.: Jedes Elementarereignis von C ist auch in A enthalten. C ist eine Teilmenge von A. Kolmogorov's Axiomatik der Wahrscheinlichkeitstheorie Wahrscheinlichkeit P(A) ist ein Maß zur Quantifizierung des Grades der Gewissheit, den man dem Eintreten eines Ereignisses A beimessen will. Die Zuordnung der Wahrscheinlichkeiten zu den Ereignissen kann als eine Abbildung (eine Funktion P) angesehen werden, bei der jedem Ereignis eine reelle Zahl zugeordnet wird Explorative Datenanalyse WS 07/08 – Grammig 61/69 (→ reellwertige Funktion) Funktion P... ...heißt Wahrscheinlichkeitsfunktion von P(A). P(A) ist eine Wahrscheinlichkeit, wenn P 3 Axiome (→ kein Beweis erforderlich) erfüllt: Additionsaxiom für disjunkte Ereignisse (mgl.) unendliche Folge von paarweise disjunkten Ereignissen Kolmogorov fordert bezüglich E: ...E muss „abgeschlossen“ sein! 3 Postulate: A tritt nicht ein (1) S muss zur Ereignismenge gehören (2) Ereignis und das dazugehörige Komplement müssen in E enthalten sein (→ unmögliches Ereignis ist ausgeschlossen) (3) Ergebnisse von Mengenoperatoren führen nicht aus E heraus → Abgeschlossenheit von E Kolmogorov'scher Wahrscheinlichkeitsraum: (S , Ereignisraum E , Ereignismenge P()) W'keitsfunktion wenn E diese Abgeschlossenheitsanforderung der 3 Postulate erfüllt: Sigma Algebra: kleinste Sigma Algebra E = {S, 0} Explorative Datenanalyse WS 07/08 – Grammig 62/69 Folgerung aus den Axiomen: I: P(A) ≤ 1 P(A) = 1 – P(A) P(A) + P(A) = 1 → P(A) = 1 – P(A) ≤ 1 ≥0 ≥0 ≥0 (K1) II: P(0) = 0 Das unmögliche Ereignis hat die Wahrscheinlichkeit 0. Folgerung I (→ vollständige Induktion von K3) K3 weitere Theoreme: • für eine Differenzmenge A \ B gilt stets: • Monotonieeigenschaft des Wahrscheinlichkeitsmaßes: Impliziert das Ereignis A das Ereignis B, dann ist die Wahrscheinlichkeit von B niemals kleiner als die von A. Explorative Datenanalyse WS 07/08 – Grammig Zum Additionssatz: wenn A und B disjunkt: was aber, wenn A ∩ B ≠ 0 ? lies: B tritt ein, aber A nicht P(A) und P(B) nach den „nicht-gemeinsamen Ereignissen“ umformen und einsetzen: → auch für mehrere Ereignisse: Herleitung: 63/69 Explorative Datenanalyse WS 07/08 – Grammig 64/69 P(A), P(B) und P(C) nach den „nicht-gemeinsamen Ereignissen“ umformen und hier einsetzen: → UNIVERSAL für alle Wahrscheinlichkeitstheoretiker!!! Bedingte Wahrscheinlichkeit: Definition: 0 ≤ P(A/B) ≤ 1 → Die „neuen“ Wahrscheinlichkeiten werden auf den neuen, eingeschränkten Ereignisraum B bezogen. Die gesamte Wahrscheinlichkeitsmasse von P(A|B) liegt auf der Menge von B: Explorative Datenanalyse WS 07/08 – Grammig 65/69 2 Interpretationen von P(A/B): klassisch/frequentistisch → Einschränkung des Ereignisraums S auf die Elementarereignisse, die den Eintritt von B implizieren. Bsp.: B = „Würfel ≥ 4“ neuer Ereignisraum {4,5,6} andere Philosophie Bayesianisch/subjektiv Veränderung (“Update”) der subjektiven Wahrscheinlichkeit P(A) durch Eintritt von B → zeitliche Abfolge! stochastische Unabhängigkeit: Wir sagen: wenn P(A/B) = P(A/B) = P(A) => A und B sind stochastisch unabhängig: B hat keinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A Bsp. 1: gleichzeitig Münze und Würfel werfen B = „Münze Kopf“ A = „Zahl ≥ 4“ P(A/B) = (PA/B) = P(A) = 0,5 Bsp. 2: einfacher Würfelwurf mit S = {1,2,3,4,5,6} B = „Zahl ≥ 2“ B = {3,4,5,6} B = {1,2} A = „Zahl ≥ 4“ A = {4,5,6} => A und B sind stochastisch abhängig → klassisch/frequentistisch (Laplace) Bsp. 3: Roulette B = „10 mal hintereinander „rot““ A = „beim 11. mal kommt auch „rot““ Intuitives Denken, dass sich W'keit ändert P(A) = P(A/B) = P(A/B) = 18/37 Fazit: die Definition macht Sinn!!! Explorative Datenanalyse WS 07/08 – Grammig 66/69 am Bsp.2: B {3,4,5,6} S → 6 Elementarereignisse AnB {4,5,6} direkt: Einschränkung von S, so dass B „eingetreten“ ist. B = {3, 4, 5, 6} = neuer, eingeschränkter Ereignisraum 4 Elementarereignisse {1, 2} fallen weg A = {4, 5, 6} = P(A/B) = ¾ (A kann auf 3 Weisen eintreten) (eingeschränkter S hat 4 Elemente) => keine Reihenfolge (nicht sequentiell) Implikationen aus stochastischer Unabhängigkeit: P(A/B) = P(A/B) = P(A) „von den Rändern zur Mitte“ (siehe Kontingenz) => P(A/B) = P(A) => P(B/A) = P(B) → symmetrisch in beide Richtungen Im Spezialfall stochastischer Unabhängigkeit: Multiplikationssatz: aber generell: Möglichkeit von W'keiten für Ereignisse A und B auf W'keit für gemeinsames Auftreten einschließen. Bsp.: Subprimes: → Ausgangspunkt: Modell bei Unabhängigkeit („das Liquiditätsproblem von A hat nichts mit dem Liquiditätsproblem von B zu tun“) → ökonomische Entscheidungen anhand von bedingten W'keiten treffen. Explorative Datenanalyse WS 07/08 – Grammig 67/69 Satz ist auch anwendbar auf mehrere voneinander unabhängige Ereignisse. Nicht verwechseln: wenn A und B sich ausschließen (disjunkt): wenn A und B stochastisch unabhängig: Verständnisfragen: Disjunkt und unabhängig? Disjunkt und abhängig? [...] Totale Wahrscheinlichkeit: • • Totale Wahrscheinlichkeit = Gegensatz zur bedingten Wahrscheinlichkeit Berechnungen von Wahrscheinlichkeiten mittels bedingten Wahrscheinlichkeiten Bsp.: Produktion mit 2 Maschinen Ein und derselbe Massenartikel werde auf zwei Maschinen gefertigt. Die schnellere M1 hinterlässt 10 % Ausschuss, produziert aber doppelt so viel wie M2, die aber nur einen Ausschussanteil von 7 % aufweist. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus der Gesamtproduktion gezogenes Einzelstück defekt ist (gesucht: P(Stück defekt))? • • • • P(Stück defekt | Stück auf M1 produziert) = 0,1 P(Stück auf M1 produziert) = 2/3 P(Stück defekt | Stück auf M2 produziert) = 0,07 P(Stück auf M2 produziert) = 1/3 nach Axiom K3 folgt: Explorative Datenanalyse WS 07/08 – Grammig 68/69 Grafische Veranschaulichung der totalen Wahrscheinlichkeit: • • Ereignisraum S in zwei disjunkte Ereignisse H1 und H2 (im Beispiel M1 und M2) aufgeteilt Trennlinie durchschneidet A und teilt es wiederum in 2 disjunkte Ereignisse Bayes-Theorem: • • stellt Verbindung zwischen zwei bedingten Wahrscheinlichkeiten her bilden die Ereignisse H1, H2, ..., Hn irgendeine Aufteilung des Ereignisraumes S und sei B ein Ereignis mit P(B) > 0, dann gilt für jedes Hi: Bsp.: Produktion mit 2 Maschinen (siehe totale W'keit) A-priori-W'keit P(Stück auf M1 produziert) = 2/3 Nun: Beobachtung eines defekten Stücks bei M1. A-posteriori-W'keit P(Stück auf M1 produziert | Stück defekt) = 20/27 = 0,741 In der „Bayes-Statistik“ kennzeichnenH1, H2, ..., Hn alternative Hypothesen. Sie schließen sich gegenseitig aus und bilden zusammen das sichere Ereignis S. P(Hi): A-priori-Wahrscheinlichkeit der i-ten Hypothese P(Hi | B): A-Posteriori-Wahrscheinlichkeit der i-ten Hypothese nach Kenntnis der Beobachtung B (im Beispiel: „Stück defekt“) Explorative Datenanalyse WS 07/08 – Grammig 10. Literaturverweis • Josef Schira: Statistische Methoden der VWL und BWL / Theorie und Praxis 2. Auflage Pearson Studium • Walter Krämer: Statistik verstehen / Eine Gebrauchsanweisung 6. Auflage Piper Serie 69/69