Datenstrukturen

Werbung
Datenstrukturen
Datenstrukturen
Querschnitt
Panel
2
Zeitreihe
Grösche: Empirische Wirtschaftsforschung
Querschnittsdaten
Stichprobe von enthält mehreren Individuen
(Personen, Haushalte, Firmen, Länder, etc.)
einmalig beobachtet zu einem Zeitpunkt




Fahrgastbefragung in Straßenbahn, Kunden- oder Haushaltsbefragung
Sonntagsfrage ! Wahlanalyse
Annahmen
Zufallsstichprobe:
Beobachtungseinheiten haben alle gleiche
Wahrscheinlichkeit in Stichprobe gezogen zu werden
Beobachtungs
-einheit
Unabhängig Realisationen:
Merkmalsausprägungen einer Person hat keinen Einfluss
auf Ausprägung einer anderen Person
Zeit
t
3
Grösche: Empirische Wirtschaftsforschung
Datenorganisation
viele Statistikprogramme speichern Daten in Form von Spreadsheets



spaltenweise: Variablen
zeilenweise: Beobachtungen
Querschnitt: jede Beobachtung ein Individuum

4
Grösche: Empirische Wirtschaftsforschung
Zeitreihe
Eine Variable wird über die Zeit mehrere Male beobachtet



typischerweise sehr aggregierte Daten
Entwicklung volkswirtschaftlicher Größen
(Bruttoinlandsprodukt, Arbeitslose, etc..)
dieselbe Variable wird wiederholt beobachtet



Beobachtungen sind per se nicht unabhängig
serielle Korrelation in GDP-Zeitreihe: GDPt ¼ GDPt+1 ¼ GDPt+2
Beobachtungs
-einheit
t
5
t+1
t+2
Grösche: Empirische Wirtschaftsforschung
Zeit
Datenorganisation Zeitreihen
500
1000
1500bip 2000
2500
3000
Entwicklung nominales BIP Deutschland
1970
1980
1990
jahr
2000
2010
Spalten: Variablen
Zeilen: Beobachtungen ! Jahre
Quelle: StaBuA
6
Grösche: Empirische Wirtschaftsforschung
Paneldaten
Querschnitt + Zeitreihe: Jedes Individuum wird wiederholt beobachtet
„Verfolgung“ des gleichen Individuums über die Zeit
Sichprobenumfang enthält n Personen, befragt zu t Zeitpunkten



Beobachtungs
-einheit
t
7
t+1
t+2
Grösche: Empirische Wirtschaftsforschung
Zeit
Paneldaten

Vorteil von Paneldaten:
latente, nicht offensichtliche Einflussfaktoren können kontrolliert werden

Beispiel: Analyse von Lohnentwicklung
mögliche Gründe



8
Fortbildung, Beförderung
Jobwechsel
Dauer zwischen Lohnanpassung und Ursache dafür
Grösche: Empirische Wirtschaftsforschung
wiederholte
Beobachtung
notwendig
Paneldaten - Datenorganisation
9
Grösche: Empirische Wirtschaftsforschung
Deskriptive Analyse
Grundlegende Terminologie

Grundgesamtheit: Menge aller statistischen Einheiten, über die man eine
Aussage treffen möchte



alle Deutschen
alle Menschen in Deutschland ( alle Deutschen)
alle Studenten der BWL der HS Anhalt

Eine statistische Einheit ist ein Objekt innerhalb der Grundgesamtheit,
über das man statistische Aussagen treffen möchte

Grundgesamtheit hängt vom Ziel der Untersuchung ab


12
ist Grundgesamtheit klein, kann eine Vollerhebung durchgeführt werden
! alle Studenten der BWL der HS Anhalt werden befragt
ist Grundgesamtheit groß () Vollerhebung = kostenintensiv)
) es wird aus Grundgesamtheit eine Stichprobe gezogen
Grösche: Empirische Wirtschaftsforschung
Grundlegende Terminologie
Statistischer Rückschluss
Grundgesamtheit
lerne aus Analyse für Verhältnisse
in Grundgesamtheit
analysiere
Verhältnisse in der
Stichprobe
13
Grösche: Empirische Wirtschaftsforschung
Grundgesamtheit
ziehe
Zufallsstichprobe
Grundlegende Terminologie

Stichprobe (Sample): ist eine Auswahl der statistischen Einheiten
aus der Grundgesamtheit



repräsentative Stichprobe geben Verhältnisse (die Merkmalsausprägungen)
aus Grundgesamtheit wieder
je größer Stichprobe ! tendiert zu Vollerhebung ) desto besser (exakter) werden
Verhältnisse der GG wiedergegeben
je kleiner Stichprobe ) desto größer ist der mögliche statistische Fehler
(dazu später mehr ! statistischer Rückschluss)

Eine (Zufalls-)Variable ist ein Merkmal einer statistischen Einheit,
der Wert der Variablen ist die Merkmalsausprägung

Beispiel:





14
statistische Einheit: eine Person, ein Haushalt, etc.
Variable: Geschlecht
(mögliche) Ausprägungen: männlich, weiblich
Realisation: z.B. männlich
Grösche: Empirische Wirtschaftsforschung
Deskriptive Statistik
Ziel der deskriptiven
(beschreibenden) Statistik
Grundgesamtheit

Empirische Daten übersichtlich darstellen

Verdichtung zu einer Maßzahl



Kreuztabellierung

Maßzahlen für Zusammenhang

Korrelationskoeffizienten
Visualisierung



15
Mittelwerte, Mediane & Quartile
Histogramme
Boxplot
usw.
Grösche: Empirische Wirtschaftsforschung
Beispiel Gewicht

Auszug aus Datensatz mit 25 Personen





Wie kann man die Information über das
Gewicht geeignet “verdichten”?

mögliche Statistiken



16
Alter in Jahren
Größe in cm
Gewicht in kg
Geschlecht: 8 Männer (codiert sex=0)
& 17 Frauen (codiert sex=1)
Mittelwert
Standardabweichung
Median
Grösche: Empirische Wirtschaftsforschung
Mittelwert

arithmetischer Mittelwert (Mean) ) Maß für Zentraltendenz

Summe der Einzelbeobachtungen dividiert durch Beobachtungsanzahl

im Beispieldatensatz: „Im Durchschnitt ist eine Person...




17
... 55,96 Jahre alt
... 163,45 cm groß
.... 69,99 kg schwer
Geschlecht: 1,68 ( nicht aussagekräftig
Grösche: Empirische Wirtschaftsforschung
Visualisierung

Mittelwert ) Zentraltendenz ) starke Verdichtung der Information

Visualisierung der Daten über Histogramm und/oder Boxplot
Boxplot
(für Gewicht)
(für Gewicht)
40
60
80
weight (kg)
100
120
80
40
0
60
5
weight (kg)
Frequency
10
100
120
15
Histogramm
Mittelwert
Streuung
18
Grösche: Empirische Wirtschaftsforschung
Streuungsmaße
Standardabweichung mittlere
Abweichung
vom Mean

“im Durchschnitt weicht Gewicht
um 16,19kg vom Mittelwert ab”
5
Standardabweichung im Beispiel
für Gewicht: 16,19kg
Frequency

10
15
(Stichproben)Varianz
mittlere quadrierte
Abweichung vom Mean
Standardabweichung = 0
) alle Personen haben gleiches Gewicht

hohe Standardabweichung ) starke Streuung
0

19
40
60
Grösche: Empirische Wirtschaftsforschung
80
weight (kg)
100
120
Aussagegehalt Mittelwert & Standardabweichung
2 Datenreihen – je 10.000 Beobachtungen – nahezu identischer Mittelwert

welche Datenreihe wird durch
Mittelwert = 50 besser
beschrieben?
.02
0
Density
je geringer die Standardabweichung
) desto mehr konzentrieren sich
Werte um den Mittelwert
) desto präziser ist Aussagekraft
des Mittelwerts
.01

.03
.04

0
20
40
60
Density

(Extremfall: Standardabweichung= 0
! alle Beobachtungen = Mittelwert)
20
Variable
Obs
Mean
uniform
normal
100000
100000
50.12813
49.9453
Grösche: Empirische Wirtschaftsforschung
80
100
Density
Std. Dev.
28.91378
10.01333
Min
Max
.0003108
3.669917
99.99957
94.90108
Median
Der Wert, der genau in der Mitte einer
Datenverteilung liegt, nennt sich Median oder
Zentralwert. Die eine Hälfte aller Individualdaten ist
immer kleiner, die andere größer als der Median.

Beispiel mit 5 Personen
) ordne Gewicht aufsteigend

48.76 | 62.48 | 67.25 | 74.28 | 94.46
Median

(zum Vergleich: Mittelwert = 69.45)
21
Grösche: Empirische Wirtschaftsforschung
Verteilungsmaße

Median: teilt eine Verteilung in zwei gleich große Stücke ) p50
50% der Beobachtungen

Quartile: Verteilung wird in vier gleich große Stücke geteilt ) p25 p50 p75
25%

25%
25%
25%
Perzentile: Verteilung wird in zehn gleich große Stücke geteilt ) p10 p20 p30
10%

50% der Beobachtungen
10%
10%
10%
Verteilungsmaße geben eine gute Beschreibung der Verhältnisse
22
Grösche: Empirische Wirtschaftsforschung
Beschreibung der Verteilung durch Verteilungsmaße
10% Perzentil (p10) bei 53,52kg



.025
10% der Personen
wiegen nicht mehr als ...
90% der Personen
sind schwerer als ...
50% Perzentil (p50, Median)
bei 70,42kg
10% der Personen wiegen
nicht mehr als 53,52kg
die Hälfte der Personen
wiegt nicht mehr als ...,
die andere Hälfte ist
schwerer als ...
.015
.02
10% der Personen sind
schwerer als 91,63kg
0
50
90% Perzentil (p90) bei 91,63kg


90% der Personen wiegen nicht nicht mehr als ...
10% der Personen sind schwerer als ...
23
p90
0

p50
.01

p10
.005

Density

Grösche: Empirische Wirtschaftsforschung
100
Gewicht (kg)
150
200
.025
p75

Graphische Darstellung der
Verteilung

beide Diagramme zeigen
Existenz “ungewöhnlicher”
Beobachtungen (Outlier) an
.005
(für Gewicht)
.015
Histogramm
.01
Density
.02
p25
0

0
50
p25
100
weight (kg)
150
Histogramm

Höhe der Stäbchen zeigt Anzahl
der Beobachtungen

nur eine Verteilung kann gezeigt
werden
200
p75
Outlier

Boxplot

wo liegen “die mittleren 50%” der
Beobachtungen (Box: p25 bis p75)

innerhalb der Box keine
genauere Darstellung

aber: Möglichkeit vergleichender
Boxplots (2 oder mehr Gruppen)
Boxplot
(für Gewicht)
Median (p50)
0
24
50
100
weight (kg)
150
200
Grösche: Empirische Wirtschaftsforschung
Einkommensverteilung
Quelle: Focus Money
25
Grösche: Empirische Wirtschaftsforschung
4.0e-04
Einkommensverteilung
p50
p90
3.0e-04
bei schiefen Verteilungen ist Median  Mittelwert
2.0e-04
Mittelwert anfällig für “Outlier”
0
1.0e-04
Density
mean
0
26
5000
10000
15000
monatlich verfügbares Einkommen (2012)
Grösche: Empirische Wirtschaftsforschung
20000
Verteilungsmaße und Outliersensitivität
Mittelwert in beiden Landesteilen
größer als Medianwert
(“Mittelwert des Einkommens
größer als mittlere Einkommen”)
+
Outliersensitivität des Mittelwertes
27
Grösche: Empirische Wirtschaftsforschung
Verteilungsmaße und Outliersensitivität

Sehr „schiefe“ Verteilungen (z.B. Einkommenverteilungen) werden häufig
mit Median charakterisiert

Grund: Outlierproblematik



„ungewöhnliche“ Beobachtungen nicht typisch für Stichprobe (und für Grundgesamtheit)
Mittelwert kann dann „verzerrtes“ Bild der Zentraltendenz geben
Mittelwert:
Outlier



jede Beobachtung geht mit
gleichem Gewicht ein
Folge: „ungewöhnliche“ Beobachtungen
habe großen Einfluss auf Zentraltendenz
Median:


teilt die Stichprobe genau in zwei Hälften
Outlier haben keinen Einfluss auf Median
28
0
5,000
10,000
15,000
monatlich verfügbares Einkommen (2012)
Grösche: Empirische Wirtschaftsforschung
20,000
Herunterladen