Datenstrukturen Datenstrukturen Querschnitt Panel 2 Zeitreihe Grösche: Empirische Wirtschaftsforschung Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt Fahrgastbefragung in Straßenbahn, Kunden- oder Haushaltsbefragung Sonntagsfrage ! Wahlanalyse Annahmen Zufallsstichprobe: Beobachtungseinheiten haben alle gleiche Wahrscheinlichkeit in Stichprobe gezogen zu werden Beobachtungs -einheit Unabhängig Realisationen: Merkmalsausprägungen einer Person hat keinen Einfluss auf Ausprägung einer anderen Person Zeit t 3 Grösche: Empirische Wirtschaftsforschung Datenorganisation viele Statistikprogramme speichern Daten in Form von Spreadsheets spaltenweise: Variablen zeilenweise: Beobachtungen Querschnitt: jede Beobachtung ein Individuum 4 Grösche: Empirische Wirtschaftsforschung Zeitreihe Eine Variable wird über die Zeit mehrere Male beobachtet typischerweise sehr aggregierte Daten Entwicklung volkswirtschaftlicher Größen (Bruttoinlandsprodukt, Arbeitslose, etc..) dieselbe Variable wird wiederholt beobachtet Beobachtungen sind per se nicht unabhängig serielle Korrelation in GDP-Zeitreihe: GDPt ¼ GDPt+1 ¼ GDPt+2 Beobachtungs -einheit t 5 t+1 t+2 Grösche: Empirische Wirtschaftsforschung Zeit Datenorganisation Zeitreihen 500 1000 1500bip 2000 2500 3000 Entwicklung nominales BIP Deutschland 1970 1980 1990 jahr 2000 2010 Spalten: Variablen Zeilen: Beobachtungen ! Jahre Quelle: StaBuA 6 Grösche: Empirische Wirtschaftsforschung Paneldaten Querschnitt + Zeitreihe: Jedes Individuum wird wiederholt beobachtet „Verfolgung“ des gleichen Individuums über die Zeit Sichprobenumfang enthält n Personen, befragt zu t Zeitpunkten Beobachtungs -einheit t 7 t+1 t+2 Grösche: Empirische Wirtschaftsforschung Zeit Paneldaten Vorteil von Paneldaten: latente, nicht offensichtliche Einflussfaktoren können kontrolliert werden Beispiel: Analyse von Lohnentwicklung mögliche Gründe 8 Fortbildung, Beförderung Jobwechsel Dauer zwischen Lohnanpassung und Ursache dafür Grösche: Empirische Wirtschaftsforschung wiederholte Beobachtung notwendig Paneldaten - Datenorganisation 9 Grösche: Empirische Wirtschaftsforschung Deskriptive Analyse Grundlegende Terminologie Grundgesamtheit: Menge aller statistischen Einheiten, über die man eine Aussage treffen möchte alle Deutschen alle Menschen in Deutschland ( alle Deutschen) alle Studenten der BWL der HS Anhalt Eine statistische Einheit ist ein Objekt innerhalb der Grundgesamtheit, über das man statistische Aussagen treffen möchte Grundgesamtheit hängt vom Ziel der Untersuchung ab 12 ist Grundgesamtheit klein, kann eine Vollerhebung durchgeführt werden ! alle Studenten der BWL der HS Anhalt werden befragt ist Grundgesamtheit groß () Vollerhebung = kostenintensiv) ) es wird aus Grundgesamtheit eine Stichprobe gezogen Grösche: Empirische Wirtschaftsforschung Grundlegende Terminologie Statistischer Rückschluss Grundgesamtheit lerne aus Analyse für Verhältnisse in Grundgesamtheit analysiere Verhältnisse in der Stichprobe 13 Grösche: Empirische Wirtschaftsforschung Grundgesamtheit ziehe Zufallsstichprobe Grundlegende Terminologie Stichprobe (Sample): ist eine Auswahl der statistischen Einheiten aus der Grundgesamtheit repräsentative Stichprobe geben Verhältnisse (die Merkmalsausprägungen) aus Grundgesamtheit wieder je größer Stichprobe ! tendiert zu Vollerhebung ) desto besser (exakter) werden Verhältnisse der GG wiedergegeben je kleiner Stichprobe ) desto größer ist der mögliche statistische Fehler (dazu später mehr ! statistischer Rückschluss) Eine (Zufalls-)Variable ist ein Merkmal einer statistischen Einheit, der Wert der Variablen ist die Merkmalsausprägung Beispiel: 14 statistische Einheit: eine Person, ein Haushalt, etc. Variable: Geschlecht (mögliche) Ausprägungen: männlich, weiblich Realisation: z.B. männlich Grösche: Empirische Wirtschaftsforschung Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik Grundgesamtheit Empirische Daten übersichtlich darstellen Verdichtung zu einer Maßzahl Kreuztabellierung Maßzahlen für Zusammenhang Korrelationskoeffizienten Visualisierung 15 Mittelwerte, Mediane & Quartile Histogramme Boxplot usw. Grösche: Empirische Wirtschaftsforschung Beispiel Gewicht Auszug aus Datensatz mit 25 Personen Wie kann man die Information über das Gewicht geeignet “verdichten”? mögliche Statistiken 16 Alter in Jahren Größe in cm Gewicht in kg Geschlecht: 8 Männer (codiert sex=0) & 17 Frauen (codiert sex=1) Mittelwert Standardabweichung Median Grösche: Empirische Wirtschaftsforschung Mittelwert arithmetischer Mittelwert (Mean) ) Maß für Zentraltendenz Summe der Einzelbeobachtungen dividiert durch Beobachtungsanzahl im Beispieldatensatz: „Im Durchschnitt ist eine Person... 17 ... 55,96 Jahre alt ... 163,45 cm groß .... 69,99 kg schwer Geschlecht: 1,68 ( nicht aussagekräftig Grösche: Empirische Wirtschaftsforschung Visualisierung Mittelwert ) Zentraltendenz ) starke Verdichtung der Information Visualisierung der Daten über Histogramm und/oder Boxplot Boxplot (für Gewicht) (für Gewicht) 40 60 80 weight (kg) 100 120 80 40 0 60 5 weight (kg) Frequency 10 100 120 15 Histogramm Mittelwert Streuung 18 Grösche: Empirische Wirtschaftsforschung Streuungsmaße Standardabweichung mittlere Abweichung vom Mean “im Durchschnitt weicht Gewicht um 16,19kg vom Mittelwert ab” 5 Standardabweichung im Beispiel für Gewicht: 16,19kg Frequency 10 15 (Stichproben)Varianz mittlere quadrierte Abweichung vom Mean Standardabweichung = 0 ) alle Personen haben gleiches Gewicht hohe Standardabweichung ) starke Streuung 0 19 40 60 Grösche: Empirische Wirtschaftsforschung 80 weight (kg) 100 120 Aussagegehalt Mittelwert & Standardabweichung 2 Datenreihen – je 10.000 Beobachtungen – nahezu identischer Mittelwert welche Datenreihe wird durch Mittelwert = 50 besser beschrieben? .02 0 Density je geringer die Standardabweichung ) desto mehr konzentrieren sich Werte um den Mittelwert ) desto präziser ist Aussagekraft des Mittelwerts .01 .03 .04 0 20 40 60 Density (Extremfall: Standardabweichung= 0 ! alle Beobachtungen = Mittelwert) 20 Variable Obs Mean uniform normal 100000 100000 50.12813 49.9453 Grösche: Empirische Wirtschaftsforschung 80 100 Density Std. Dev. 28.91378 10.01333 Min Max .0003108 3.669917 99.99957 94.90108 Median Der Wert, der genau in der Mitte einer Datenverteilung liegt, nennt sich Median oder Zentralwert. Die eine Hälfte aller Individualdaten ist immer kleiner, die andere größer als der Median. Beispiel mit 5 Personen ) ordne Gewicht aufsteigend 48.76 | 62.48 | 67.25 | 74.28 | 94.46 Median (zum Vergleich: Mittelwert = 69.45) 21 Grösche: Empirische Wirtschaftsforschung Verteilungsmaße Median: teilt eine Verteilung in zwei gleich große Stücke ) p50 50% der Beobachtungen Quartile: Verteilung wird in vier gleich große Stücke geteilt ) p25 p50 p75 25% 25% 25% 25% Perzentile: Verteilung wird in zehn gleich große Stücke geteilt ) p10 p20 p30 10% 50% der Beobachtungen 10% 10% 10% Verteilungsmaße geben eine gute Beschreibung der Verhältnisse 22 Grösche: Empirische Wirtschaftsforschung Beschreibung der Verteilung durch Verteilungsmaße 10% Perzentil (p10) bei 53,52kg .025 10% der Personen wiegen nicht mehr als ... 90% der Personen sind schwerer als ... 50% Perzentil (p50, Median) bei 70,42kg 10% der Personen wiegen nicht mehr als 53,52kg die Hälfte der Personen wiegt nicht mehr als ..., die andere Hälfte ist schwerer als ... .015 .02 10% der Personen sind schwerer als 91,63kg 0 50 90% Perzentil (p90) bei 91,63kg 90% der Personen wiegen nicht nicht mehr als ... 10% der Personen sind schwerer als ... 23 p90 0 p50 .01 p10 .005 Density Grösche: Empirische Wirtschaftsforschung 100 Gewicht (kg) 150 200 .025 p75 Graphische Darstellung der Verteilung beide Diagramme zeigen Existenz “ungewöhnlicher” Beobachtungen (Outlier) an .005 (für Gewicht) .015 Histogramm .01 Density .02 p25 0 0 50 p25 100 weight (kg) 150 Histogramm Höhe der Stäbchen zeigt Anzahl der Beobachtungen nur eine Verteilung kann gezeigt werden 200 p75 Outlier Boxplot wo liegen “die mittleren 50%” der Beobachtungen (Box: p25 bis p75) innerhalb der Box keine genauere Darstellung aber: Möglichkeit vergleichender Boxplots (2 oder mehr Gruppen) Boxplot (für Gewicht) Median (p50) 0 24 50 100 weight (kg) 150 200 Grösche: Empirische Wirtschaftsforschung Einkommensverteilung Quelle: Focus Money 25 Grösche: Empirische Wirtschaftsforschung 4.0e-04 Einkommensverteilung p50 p90 3.0e-04 bei schiefen Verteilungen ist Median Mittelwert 2.0e-04 Mittelwert anfällig für “Outlier” 0 1.0e-04 Density mean 0 26 5000 10000 15000 monatlich verfügbares Einkommen (2012) Grösche: Empirische Wirtschaftsforschung 20000 Verteilungsmaße und Outliersensitivität Mittelwert in beiden Landesteilen größer als Medianwert (“Mittelwert des Einkommens größer als mittlere Einkommen”) + Outliersensitivität des Mittelwertes 27 Grösche: Empirische Wirtschaftsforschung Verteilungsmaße und Outliersensitivität Sehr „schiefe“ Verteilungen (z.B. Einkommenverteilungen) werden häufig mit Median charakterisiert Grund: Outlierproblematik „ungewöhnliche“ Beobachtungen nicht typisch für Stichprobe (und für Grundgesamtheit) Mittelwert kann dann „verzerrtes“ Bild der Zentraltendenz geben Mittelwert: Outlier jede Beobachtung geht mit gleichem Gewicht ein Folge: „ungewöhnliche“ Beobachtungen habe großen Einfluss auf Zentraltendenz Median: teilt die Stichprobe genau in zwei Hälften Outlier haben keinen Einfluss auf Median 28 0 5,000 10,000 15,000 monatlich verfügbares Einkommen (2012) Grösche: Empirische Wirtschaftsforschung 20,000