Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Univariates Datenmaterial • Zufallstichprobe: Umfang n, d.h. Stichprobe von n Zufallsvariablen o Merkmal/Zufallsvariablen: Y = {Y1, Y2, . . . , Yn} o Realisationen/Daten: x = {y1, y2, . . . , yn} o Ausprägungen: a1 < a2 < . . . < ak , k ≤ n • Deskriptive Statistik: Aufarbeitung der Daten o Tabellarisch (Werte, relative und kumulative Häufigkeiten) o Graphisch: Stabdiagramm, Kreisdiagramm, Histogramm 1 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Lageparameter • Abhängig vom Skalierungsniveau der Variable • Nominale Daten o Modalwert: häufigster Wert • Ordinale Daten o Median: teilt n gegebene Werte in die 50% kleineren bzw. größeren Beobachtungen o Quantil: z ist p-Quantil, falls p-fache der Beobachtungen kleiner gleich z sind • Kardinale Daten 1 Pn o Mittelwert (arithmetisches Mittel): ȳ = i=1 yi n 2 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Streuungsparameter • Spannweite: max(yi) - min(yi) • Interquartilsspanne: Differenz zwischen 0.75-Quantil (3. Quartil) und 0.25-Quantil (1. Quartil) • Kardinale Daten o o o o 1 Pn 2 Empirische Varianz: s = i=1 (yi − ȳ) n−1 1 Pn 2 2 (y − ȳ) Mittlere quadratische Abweichung: smqa = i i=1 n √ Standardabweichung: s = s2 s Variationskoeffizient: ȳ 2 3 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Mehrdimensionales Datenmaterial µ ¶ µ ¶ µ ¶ Xn X1 X2 , , ···, • Beispiel: zwei Merkmale/ Zufallsvariablen: Yn Y2 Y1 µ ¶ µ ¶ µ ¶ x1 x2 xn • Daten: , , ···, y1 y2 yn • Datenaufbereitung o nominale oder ordinale/kardinale Daten mit wenigen Ausprägungen: Kontingenztabelle o kardinale/ordinale Daten mit wenigen Ausprägungen (stetige Daten): Streudiagramm/Scatterplot 4 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Streudiagramm 5 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Korrelation • Ordinale Daten o Rangkorrelationkoeffizient (Spearman): rSP Pn rSP ¯ x)(rg(yi) − rg ¯ y) − rk qP = pP n n 2 ¯ ¯ 2 (rg(x ) − rg ) i x i=1 i=1 (rg(yi ) − rgy ) i=1 (rg(xi ) • Kardinale Daten o Korrelationkoeffizient (Pearson): −1 ≤ rxy ≤ 1 Pn rxy i=1 (xi − x̄)(yi − ȳ) Cov(x, y) pPn = = pPn 2 2 sxsy i=1 (xi − x̄) i=1 (yi − ȳ) 6 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Kovarianz und Korrelation • Kardinale Daten o Kovarianz von x und y: Cov(x, y) = sxy n Cov(x, y) = sxy 1 X (xi − x̄)(yi − ȳ) = n − 1 i=1 • Kovarianz und Korrelation beschreiben die lineare Abhängigkeit/ Beziehung von zwei Variablen bzw. den relevanten Daten • Korrelation ist im Gegensatz zur Kovarianz ein normiertes Maß: −1 ≤ rxy ≤ 1 o rxy = 1: perfekter positiver linearer Zusammenhang o rxy = −1: perfekter negativer linearer Zusammenhang o rxy = 0: kein linearer Zusammenhang 7 Empirischen Volkswirtschaftslehre 1.6.1 Deskriptive Statistik Varianz-Kovarianz Matrix • Varianz-Kovarianz Matrix von x und y µ s2x sx,y sx,y s2y ¶ • Merke: Cov(x, y) = Cov(y, x) bzw. sx,y = sy,x 8 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Wahrscheinlichkeitstheorie/ Stochastik • Modellieren ökonomische Phänomene als Ergebnis von Zufallsexperimenten • Ökonomischen Variablen werden entsprechend als Zufallsvariablen interpretiert o Zufallsvariablen werden durch Verteilungen (z.B. Normalverteilung) und deren Charakteristika beschrieben (z.B. Erwartungswert und Varianz) o Verteilung repräsentiert Eigenschaften der interessierenden Grundgesamtheit (z.B. Grundgesamtheit aller Arbeitnehmer im Rahmen einer Arbeitsmarktstudie) • Kollektion von ökonomischen Variablen (z.B. Lohn von 10 Arbeitnehmern) wird als Kollektion von Zufallsvariablen interpretiert (Stichprobe) 9 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Wahrscheinlichkeitstheorie/ Stochastik • Wieso? o Wollen etwas über die Eigenschaften der Grundgesamtheit (z.B. Streuung der Löhne) lernen ⇒ Anwendung von Schätzern o Stochastische Modellierung erlaubt uns die sinnvolle Evaluation von Schätzern und Interpretation von Schätzergebnissen o Durch Verteilungssannahmen werden Eigenschaften der Grundgesamtheit ,,parametrisiert” o Schätzer schätzen die Parameter o Wir können die Eigenschaften der Schätzer ableiten o Wir können Aussagen darüber machen, ob Schätzergebnisse relevant (signifikant) verschieden von einer Referenz sind (Statistische Tests) • Referenz: Stock & Watson: Kap. 2.1-2.4 10 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Zufallsexperiment • Annahme: beobachtete Ereignisse sind Ergebnis eines Zufallsexperiment/ Zufallsprozess ,,Computerabstürze während des Schreibens einer Seminararbeit” o Ergebnisse: sich gegenseitig ausschließende Resultate eines Zufallsexperimentes kein, 1, 2, 3, . . ., Computerabstürze o Jedem Ergebnis kann eine Wahrscheinlichkeit zugeordnet werden o Ergebnismenge: Menge aller möglichen Ergebnise o Ereignis: Untermenge der Ergebnismenge Ereignis: ,,Der Computer stürzt nicht mehr als einmal ab” = Menge bestehend aus den Ergebnissen ,,kein” und ,,1” Absturz 11 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Zufallsvariablen • Zufallsvariable: numerische Zusammenfassung eines zufälligen Ergebnisses ZV: ,,Anzahl der Computerabstürze” o diskrete ZVen: ZV nimmt nur eine diskrete Menge an Werten an z.B. 0, 1, . . . Computerabstürze o stetige ZVen: ZV kann unendliche viele Werte (in einem Interval) annehmen z.B. Haushaltseinkommen, Aktienkurse, ... o Hinweis: Die meisten ,,stetigen” ökonomischen Variablen, wie z.B. Einkommen, werden nur als stetig modelliert, sind es im strengen Sinne aber nicht. Grund: die Einheiten, z.B. Währung, sind nicht beliebig teilbar. • Zufallsvariablen können durch Verteilungen beschrieben werden: Unterscheidung in diskrete und stetige Variablen ist wichtig 12 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Diskrete Zufallsvariablen • Wahrscheinlichkeitsfunktion o Liste aller möglichen Werte yi einer ZVen und deren Wahrscheinlichkeiten P (Y = yi) o Summe der W.keiten = 1 • (Kumulative) Verteilungsfunktion o Wahrscheinlichkeit, dass ZVe kleiner oder gleich einem Wert c ist P P (Y ≤ c) = i:yi≤c P (Y = yi) = F (c) • Beispiele: fiktive Verteilung für Computerabstürze, Bernoulli-Verteilung 13 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Stetige Zufallsvariablen • (Kumulative) Verteilungsfunktion o Definiert wie für diskrete Variablen o Beispiel: fiktive Verteilung für Fahrzeit zwischen Wohnung und Uni, Normalverteilung • Dichtefunktion (Wahrscheinlichkeitsdichte) o Formal: Ableitung der Verteilungsfunktion f (c) = F 0(c) o Fläche unter der Dichtefunktion zwischen zwei Punkten a und b (Integral) gibt Wahrscheinlichkeit an, dass Wert der ZVe zwischen a und b liegt: P (a ≤ Y ≤ b) o Merke: P (Y = a) = P (a) = 0 für stetige Zufallsvariablen! 14 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Verteilungsannahmen • Die wahren Verteilungen von Zufallsvariablen sind unbekannt • Häufig nehmen wir eine spezifische Verteilung an, z.B. Normalverteilung o Problem: Daten widersprechen oft der Verteilungsannahme o Lösung: Keine spezifischen Verteilungsannahme, sondern nur Annahmen über Erwartungswert und Varianz einer Zufallsvariable (Existenz, manchmal auch konkrete Werte) o Merke: Erwartungswert und Varianz sind Eigenschaften, die aus der Verteilung der Zufallsvariable abgeleitet werden bzw. Verteilung näher charakterisieren! • Konzentrieren uns bei Erläuterungen zu Erwartungswert und Varianz auf diskrete ZVen o stetige ZVen: Summen werden durch Integrale ersetzt 15 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Erwartungswert • Erwartungswert: mittlerer (durchschnittlicher) Wert, den eine Zufallsvariable nach unendlich vielen Wiederholungen eines Zufallsexperimentes annimmt • Lageparameter der Verteilung der Zufallsvariable o Notation: E(Y ) = µY , der Wert µY ist üblicherweise unbekannt Pk o E(Y ) = y1p1 + y2p2 + · · · + yk pk = i=1 yipi o Beispiele: erwartete Anzahl von Computerabstürzen, Erwartungswert einer Bernoulli-ZVe 16 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Varianz und Standardabweichung • Maße für Streuung der Verteilung o Notation Varianz: Var(Y ) = σY2 Standardabweichung: σY 2 o Var(Y ) = E[(Y − µY ) ] = Pk 2 (y − µ ) pi i Y i=1 o Beispiele: Varianz der Anzahl von Computerabstürzen, Varianz einer Bernoulli-ZVe 17 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Lineare Funktion einer Zufallsvariable • Lineare Funktion der Zufallsvariablen X: Y = a + bX a, b sind Konstanten • Y ist folglich auch eine Zufallsvariable • Erwartungswert und Varianz von Y ? o E(Y ) = µY = a + bE(X) = a + bµX 2 o Var(Y ) = σY2 = b2Var(X) = b2σX 18 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Zwei Zufallsvariablen • Die meisten ökonomisch interessanten Fragen betreffen zwei oder mehrere Variablen o Finden Uniabsolventen leichter einen Arbeitsplatz als als Bewerber ohne Uniabschluß? o Ist die Einkommensverteilung für Männer und Frauen unterschiedlich? • Wir müssen Verteilung mehrerer Zufallsvariablen (z.B. Ausbildung/ Einkommen und Einkommen/Geschlecht) gleichzeitig berücksichtigen. • Konzepte: gemeinsame, marginale und bedingte Wahrscheinlichkeitsverteilung 19 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Gemeinsame und marginale Verteilung • Gemeinsame Wahrscheinlichkeitsverteilung gibt Wahrscheinlichkeit an, dass die ZVen X und Y gleichzeitig die Werte x und y annehmen P (X = x, Y = y) o Beispiel: Gemeinsame Verteilung von Wetterbedingungen und Fahrzeit • Marginale Wahrscheinlichkeitsverteilung einer ZVe Y ist ein anderer Name für die Wahrscheinlichkeitsfunktion von Y o Marginale Verteilung ergibt sich aus gemeinsamer Verteilung durch Addition der W.keiten aller Ereignisse für die Y einen bestimmten Wert annimmt Pl P (Y = y) = i=1 P (X = xi, Y = y) 20 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Bedingte Verteilung, Erwartungswert und Varianz • Bedingte Verteilung von Y gegeben X Verteilung von Y gegeben, dass eine andere Zufallsvariable X einen spezifischen Wert annimmt P (X = x, Y = y) o P (Y = y|X = x) = P (X = x) o Beispiel: Bedingte Verteilung der Fahrzeit gegeben, dass es regnet • Bedingter Erwartungswert von Y gegeben X o Wird unter Verwendung bedingter Verteilung bestimmt Pk o E(Y |X = x) = i=1 yiP (Y = yi|X = x) • Bedingte Varianz von Y gegeben X ist die Varianz der bedingten Verteilung von Y gegeben X 21 Empirischen Volkswirtschaftslehre o Var(Y |X = x) = Pk 1.2.2 Wahrscheinlichkeitstheorie 2 [y − E(Y |X = x)] P (Y = yi|X = x) i i=1 22 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Gesetz der iterierten Erwartungen • Herleitung des unbedingten Erwartungswertes über den bedingten Erwartungswert • E(Y ) = E[E(Y |X)] o Implikation: E(Y |X) = 0 ⇒ E(Y ) = E[E(Y |X)] = E[0] = 0 23 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Unabhängigkeit von Zufallsvariablen • X und Y sind unabhängig verteilt bzw. unabhängig, falls Informationen über eine Variable keine Information über die andere Variable liefert o Bedingte Verteilung von Y gegeben X entspricht marginaler Verteilung von Y o P (Y = y|X = x) = P (Y = y) o Implikation: P (Y = y, X = x) = P (X = x)P (Y = y) 24 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Kovarianz und Korrelation • Kovarianz ist lineares Abhängigkeitsmaß der Zufallsvariablen X und Y Cov(X, Y ) = σXY = E[(X − µX )(Y − µY )] l k X X (xi − µX )(yj − µY )P (X = xi, Y = yj ) = i=1 j=1 • Korrelation ist normiertes lineares Abhängigkeitsmaß ρX,Y σXY Cov(X, Y ) p = = , σ σ Var(X)Var(Y ) X Y −1 ≤ ρX,Y ≤ 1 25 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Unabhängigkeit, Korrelation und bedingter Erwartungswert • Unabhängigkeit von X und Y ⇒ Cov(X, Y ) = ρX,Y = 0 o Umkehrung gilt nicht! • E(Y |X) = E(Y ) ⇒ Cov(X, Y ) = ρX,Y = 0 o Umkehrung gilt nicht! 26 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Summen von Zufallsvariablen • E(X + Y ) = E(X) + E(Y ) = µX + µY 2 • Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = σX + σY2 + σXY o Falls X und Y unabhängig oder unkorrelliert sind: 2 Var(X + Y ) = σX + σY2 • Weitere Eigenschaften von Summen von Zufallsvariablen: siehe Key Concept 2.3 in Stock & Watson 27 Empirischen Volkswirtschaftslehre 1.2.2 Wahrscheinlichkeitstheorie Verteilungen von Zufallsvariablen • Normalverteilung: charakterisiert durch Erwartungswert und Varianz: Y ∼ N (µ, σ 2) • Standardnormalverteilung: µ = 0 und σ 2 = 1 Z = (Y − µ)/σ ⇒ Z ∼ N (0, 1) o Berechnung von Wahrscheinlichkeiten mit Normalverteilung: siehe Key Concept 2.4 und Figure 2.6 in Stock & Watson • Weitere Verteilungen o Chi2-Verteilung mit m Freiheitsgraden Pm Z1, . . . Zm sind unabhängig ∼ N (0, 1) ⇒ i=1 Zi2 ∼ χ2m o t-Verteilung mit m Freiheitsgraden p 2 Z ∼ N (0, 1) und W ∼ χm sind unabhängig ⇒ Z/ W/m ∼ tm 28