Statistik I Einführung

Werbung
Statistik IEinführung
Statistik I
Einführung
Prof. Dr. Andreas Behr
1 / 40
Statistik IEinführung
Inhaltsverzeichnis
Einleitung
Ziele
Motivation
Literatur und Vorlesungsplan
Beispiel: PSID
Das PSID
Die Lohnverteilung
Gruppenvergleiche
2 / 40
Statistik IEinführung
Einleitung
Einleitung
I
Deskriptive Statistik:
I
I
I
Nächstes Semester: ’Stochastische Statistik’
I
I
I
3 / 40
Einführung in die deskriptive (beschreibende) Datenanalyse
Darstellung und Charakterisierung von Daten
Einführung in die Wahrscheinlichkeitsrechnung
Zufallsvorgänge
Wahrscheinlichkeitsurteile
Statistik IEinführung
Einleitung
Ziele
Ziele der Vorlesung "Deskriptive Statitik"
I
Wissen um Methoden und Probleme der
I
I
I
I
Statistischen Begriffsbildung
Methoden der Datengewinnung
Methoden der Datenauswertung
Schwerpunkt: Datenauswertung, Datenanalyse
1. Aufbereitung und Verdichtung von Daten
2. Tabellarische und grafische Darstellung
3. Charakterisierung der Daten durch Kennzahlen
4 / 40
Statistik IEinführung
Einleitung
Ziele
Ziele
I
Auswertungsmethoden
I
I
I
5 / 40
Methoden der graphischen Darstellung
Beschreibung eindimensionaler Daten mit Hilfe von
Maßzahlen
Beschreibung mehrdimensionaler Daten mit Hilfe von
Maßzahlen
Statistik IEinführung
Einleitung
Motivation
Motivation
I
Funktion der Statistik in den Wirtschaftswissenschaften
I
I
I
I
6 / 40
Die Statistik ist das Sinnersorgan der
Wirtschaftswissenschaften
BWL: Die Umsatzentwicklung läßt sich nicht ’erfühlen’
VWL: Die Entwicklung der Arbeitslosigkeit läßt sich nicht
’erfühlen’
Es muß jeweils gezählt/gemessen, ausgewertet und
dargestellt werden!
Statistik IEinführung
Einleitung
Motivation
Motivation
I
Beispiele aus der Tageszeitung:
1. Aktienindex−→ Kapitel Preisindizes
2. Arbeitslosenquote−→ Kapitel Zeitreihen
7 / 40
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
Grundlegende Literatur zur Vorlesung
8 / 40
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
Grundlegende Literatur zur Vorlesung
9 / 40
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
Grundlegende Literatur zur Vorlesung
10 / 40
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
Weitere Literatur
11 / 40
I
Rohwer, Götz u. Ulrich Pötter, Grundzüge der
sozialwissenschaftlichen Statistik, 2001, Juvenat,
Weinheim.
I
Assenmacher, Walter, Deskriptive Statistik, 3. Aufl., 2003,
Springer, Berlin.
I
Lippe, Peter von der, Deskriptive Statistik, 7. Aufl., 2006,
Oldenbourg.
I
Formelsammlung: Bomsdorf, E. et al., Definitionen, Formeln
und Tabellen zur Statistik, 4. Auflage, 2003, Köln.
I
In der Klausur wird ein ’Formelblatt’ ausgeteilt.
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
3 Komponenten der Veranstaltung
I
Vorlesung
I
Übung: Wiederholung wichtiger Konzepte, Beispiele
Tutorien: Besprechung der Aufgabenblätter
I
I
I
12 / 40
Beachte: nur eigenständiges Lösen der Aufgaben nützt Ihnen
Nutzen der Tutorien hängt weitgehend von Ihrer individuellen
Vorbereitung ab!
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
Gliederung der Vorlesung
1. Einführung
2. Daten und Variablen
3. Grundlagen Häufigkeitsverteilung
4. Maßzahlen zu Häufigkeitsverteilung
5. Klassierte Daten
6. Vergleichsmaßzahlen
7. Konzentrationsmessung
8. Preis- und Mengenindizes
9. Zeitreihen
10. Korrelationsrechnung I
11. Korrelationsrechnung II
12. Regressionsrechnung
13 / 40
Statistik IEinführung
Einleitung
Literatur und Vorlesungsplan
Empirische Analysen
14 / 40
I
Zum Erlernen der Methoden sind Mickey Maus-Beispiele
nützlich (Berechnen Sie den Durchschnitt folgender 3
Zahlen...)
I
Aber in der Praxis warten große Datenmengen auf Sie
I
Im Bereich der BWL: Kundendatenbanken, etc.
I
Im Bereich der VWL: Haushalts- oder
Unternehmensdatensätze, etc.
I
Daher soll auch mit einem echten Datensatz gearbeitet
werden!
Statistik IEinführung
Beispiel: PSID
Eine Analyse der Lohneinkommen
15 / 40
I
PSID: Panel Study of Income Dynamics
I
Querschnitt: Einheiten werden zu einem Zeitpunkt befragt
I
Längsschnitt (Zeitreihe): Einheit wird an mehreren
Zeitpunkten beobachtet
I
Panelerhebung: Gleiche Einheiten werden an mehreren
Zeitpunkten befragt
Statistik IEinführung
Beispiel: PSID
Das PSID
PSID
16 / 40
I
Erste Welle in 1968
I
Bis 1997 jährlich, seither 2-jährlich (Kosten!)
I
4.800 Haushalte in 1986, mehr als 7.000 Haushalte in 2005
I
Anwachsen durch Weiterverfolgung bei Haushaltssplits
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
Urliste
21481 28130 81835 24550 15000 14321 12786 14321 35803
61376 7860 40917 1636 26902 25573 20636 15344 33245
33757 28130 30686 22095 13297 3000 8183 25573 14321
18002 26596 3000 20458 98625 38870 12275 61376 35803 ...
17 / 40
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
0.010
0.000
0.005
Dichte
0.015
0.020
Histogramm der Lohnverteilung 2005
0
1000
2000
3000
4000
Jahreslohn in 1000 US−Dollar
18 / 40
5000
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
40
Sektorale Durchschnittslöhne nach Geschlecht
Männer
19 / 40
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0
10
20
30
Frauen
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
0.010
0.000
0.005
Dichte
0.015
0.020
Ungleiche Klassenbreiten
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
20 / 40
150
175
200
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
Maßzahlen: Lagemaße
21 / 40
I
Wie läßt sich das Lohnniveau mit einer Zahl beschreiben?
I
Modus: Welches Einkommen kommt am häufigsten vor?
I
Zentralwerte: Welches Einkommen liegt in der Mitte?
I
Durchschnitt: Welches Einkommen, wenn alle gleiches
Einkommen hätten?
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
Lagemaße
0.010
0.000
0.005
Dichte
0.015
0.020
Z X
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
22 / 40
150
175
200
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
Maßzahlen: Streuungsmaße
23 / 40
I
Liegen die Daten dicht bei dem Lagemaß oder streuen sie
weit?
I
Spannweite: Wie breit ist das Intervall zwischen kleinstem
und größtem Wert?
I
Quartilsabstand: Wie breit ist das Intervall der mittleren
50%?
I
Standardabweichung: Wie ist die Wurzel der mittleren
quadrierten Abstände aller Einkommen vom Durchschnitt?
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
0.010
Intervall: 14.4 − 46.0
0.005
Dichte
0.015
0.020
Streuung: Quartilsabstand
0.000
50%
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
24 / 40
150
175
200
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
Maßzahlen: Schiefe
25 / 40
I
Ist die Verteilung symmetrisch oder schief?
I
Liegt eine links- oder rechtsschiefe Verteilung vor?
I
überwiegen große Abweichungen nach oben oder nach
unten?
I
Rechtsschief bedeutet linkssteil und rechtsflach
Statistik IEinführung
Beispiel: PSID
Die Lohnverteilung
0.010
0.000
0.005
Dichte
0.015
0.020
Schiefe: rechtsschief, linkssteil und rechtsflach
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
26 / 40
150
175
200
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Streuungszerlegung
27 / 40
I
Betrachtung von Gruppen/Klassen
I
Unterscheiden sich die Verteilungen (Lage, Streuung) der
Gruppen?
I
Welcher Teil der Gesamtstreuung läßt sich auf
Gruppenzugehörigkeit zurückführen?
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
0.010
Mittl. Eink. Frauen: 28 Tsd. $
Mittl. Eink. Männer: 51 Tsd. $
0.000
Dichte
0.020
Einkommensverteilungen nach Geschlecht
●
0
25
X
●
50
X
75
100
125
Jahreslohn in 1000 US−Dollar
28 / 40
150
175
200
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
0.02
0.03
Mittl. Std.lohn Frauen: 16 $
Mittl. Std.lohn Männer: 24 $
0.00
0.01
Dichte
0.04
0.05
Einkommensverteilungen nach Geschlecht
●
0
10
●
X 20 X
30
40
50
60
Stundenlohn in US−Dollar
29 / 40
70
80
90
100
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Beispiel: Geschlecht
30 / 40
I
Frauen verdienen weniger als Männer
I
Warum? Eigener Forschungszweig
I
Welcher Teil läßt sich durch ’Humankapitalvariablen’
erklären?
I
Welcher Teil ist reine Diskriminierung?
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Strukturvergleiche
I
Frauen und Männer weisen eine unterschiedliche Struktur
auf, bezüglich Iher
I
I
I
31 / 40
Tätigkeiten
Branchen
etc.
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Vergleichsmaßzahlen
32 / 40
I
Mit welchen Maßzahlen läßt sich der Strukturunterschied
zusammenfassend beschreiben?
I
Bsp: 0.5· Summe der absoluten Anteilsdifferenzen
I
Sagt aus, wieviel % der Frauen ihre Tätigkeit wechseln
müssen, damit ihre Beschäftigungsstruktur der der Männer
entspricht.
33 / 40
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0.0
0.1
0.2
0.3
0.4
0.5
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Sektorale Beschäftigungsstruktur
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Analytische Vergleiche
34 / 40
I
Woher kommt der Unterschied im Einkommensniveau?
I
Erhalten Frauen für gleiche Tätigkeiten/in denselben
Sektoren weniger?
I
Oder erhalten Frauen für gleiche Tätigkeiten das Gleiche,
aber üben Tätigkeiten mit geringerem Lohnniveau aus?
I
Wie groß wäre der Unterschied, wenn Frauen die gleiche
Tätigkeitsstruktur hätten?
I
Wie groß wäre der Unterschied, wenn Frauen je Tätigkeit den
gleichen Lohn erhielten?
35 / 40
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0.0
0.1
0.2
0.3
0.4
0.5
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Sektorstruktur nach Geschlecht
Männer
Frauen
36 / 40
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0
5
10
15
20
$ je Stunde
25
30
35
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Durchschnittslöhne in den Sektoren
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
40
Sektorale Durchschnittslöhne nach Geschlecht
Männer
37 / 40
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0
10
20
30
Frauen
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
Maßzahlen des Zusammenhangs
38 / 40
I
Wird in Sektoren mit hohem Frauenanteil mehr oder weniger
gezahlt?
I
Ausgangsbasis sind für die 10 Sektoren (Missing als eigener
Sektor) Wertepaare mit
I
Frauenanteil und durchnittlichen Stundenlöhnen
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
30
Frauenanteil und Durchschnittslöhne
● Construction
25
20
● Manufacturing
● Transport
● Services
● Agr./Energy/Min.
● Trade
15
Durschnittslohn
● Bank/Insurance
● Missing
0.0
0.2
0.4
0.6
Frauenanteil
39 / 40
0.8
1.0
Statistik IEinführung
Beispiel: PSID
Gruppenvergleiche
30
Frauenanteil und Durchschnittslöhne
● Construction
25
20
● Manufacturing
● Transport
● Services
● Agr./Energy/Min.
● Trade
15
Durschnittslohn
● Bank/Insurance
● Missing
0.0
0.2
0.4
0.6
Frauenanteil
40 / 40
0.8
1.0
Statistik I Daten und Variablen
Statistik I
Daten und Variablen
Prof. Dr. Andreas Behr
1 / 37
Statistik I Daten und Variablen
Inhaltsverzeichnis
Das Untersuchungsobjekt
Grundbegriffe
Die Operationalisierung
Untersuchungsmerkmale
Die Erhebung
Der Erhebungsplan
Erhebungstechniken
Notation
Merkmalsträger und Merkmale
Datenstruktur
Merkmalswerte und -ausprägungen
Datenquellen
Amtliche Statistik
Nicht-amtliche Statistik
Panel Study of Income Dynamics
2 / 37
Statistik I Daten und Variablen
Internet: www.stat.wiwi.uni-due.de/studium-lehre
3 / 37
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Grundbegriffe
Grundbegriffe
4 / 37
I
Erkenntnisprojekt (Was interessiert?)
I
Erhebungsobjekt (Wen befragen?)
I
Begriffsmerkmale (Wie erkennen?)
I
Untersuchungsmerkmale (Was fragen?)
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Grundbegriffe
Beispiel: Einkommenssituation
5 / 37
I
Erkenntnisprojekt: Einkommenssituation von Haushalten
I
Erhebungsobjekt: Haushalte
I
Begriffsmerkmale: Gemeinsame Wohnung, gemeinsames
Wirtschaften
I
Untersuchungsmerkmal: Haushaltsnettoeinkommen
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Die Operationalisierung
Der Idealtypus
I
Ausgangspunkt ist das Erkenntnisprojekt (z.B.
Wohnsituation von Studierenden)
I
Die Idee des Forschers bezieht sich zunächst auf einen
„Idealtypus“
I
I
6 / 37
Der „Idealtypus“ ist eine idealisierte, möglicherweise nicht
existierende Vorstellung
Der Idealtypus ist nicht „objektiv eindeutig“, nicht
„operational“
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Die Operationalisierung
Idealtypus und statistischer Begriff
I
Für eine praktische Erhebung ist der Idealtypus meist nicht
direkt verwendbar
I
Es muss ein „statistischer Begriff“ entwickelt werden
Der statistische Begriff soll
I
I
I
I
7 / 37
die Einheiten klar definieren
leicht erkennbare Kriterien verwenden
und evtl. eine leicht handhabbare Messvorschrift enthalten
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Die Operationalisierung
Begriffs- und Untersuchungsmerkmale
I
Beispiele: Erhebungsobjekt und Untersuchungsmerkmal
Grundgesamtheit
Private Haushalte
in Deutschland
am 1.1.2004
Handwerksbetriebe
in Münster, 1.1.2004
Studierende WiWi
Beginn WS 2008
8 / 37
Merkmal
Monatliches
Haushaltsnettoeinkommen
Anzahl der
Beschäftigten
Geschlecht
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Die Operationalisierung
Güte der Operationalisierung
9 / 37
I
Der statistische Begriff weicht vom Idealtypus ab
I
Die Entwicklung statistischer Begriffe wird als
Operationalisierung bezeichnet
I
Die Güte der Operationalisierung (auch Adäquation) ist für
das gesamte Erkenntnisprojekt entscheidend
I
Fehler in der Adäquation sind in der Auswertungsphase
nicht mehr zu reparieren
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Untersuchungsmerkmale
Merkmalsarten
Merkmalsuntergliederungen
I qualitative vs. quantitative Merkmale
I
I
häufbare vs. nichthäufbare Merkmale
I
I
Beispiele: Hobbys, 1. Wohnsitz
diskrete vs. stetige Merkmale
I
10 / 37
Beispiele: Geschlecht, Alter
Beispiele: Anzahl Artzbesuche, Behandlungsdauer
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Untersuchungsmerkmale
Skalierung
I
Nominalskala (unterscheidbar)
I
Ordinalskala (anordenbar)
Kardinalskala (messbar)
I
I
I
11 / 37
Intervallskala (kein abs. Nullpunkt)
Verhältnisskala (abs. Nullpunkt)
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Untersuchungsmerkmale
Nominalskala
12 / 37
I
Ein Merkmal ist nur nominal skalierbar, wenn lediglich die
Andersartigkeit festgestellt werden kann
I
Eine Rangfolge lässt sich nicht begründen
I
Für die Einheiten wird nur festgestellt, welche Ausprägung
vorliegt
I
Oftmals werden numerische Symbole (Zahlen) zur
Kennzeichnung der Ausprägungen benutzt
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Untersuchungsmerkmale
Ordinalskala
13 / 37
I
Ein Merkmal ist nur ordinal skalierbar, wenn die
Ausprägungen in eine Rangordnung gebracht werden
können
I
Die Abstände sind jedoch nicht sinnvoll quantifizierbar
I
Meist werden Zahlen zur Kennzeichnung der Ausprägungen
benutzt
I
Die Zahlen geben jedoch nur die Rangfolge an
Statistik I Daten und Variablen
Das Untersuchungsobjekt
Untersuchungsmerkmale
Kardinalskala: Intervall- und Verhältnisskala
14 / 37
I
Für intervallskalierte Merkmale lassen sich Abstände
quantifizieren, Verhältnisse der Ausprägungen machen
jedoch keinen Sinn
I
Für verhältnisskalierte Merkmale lassen sich sowohl
Differenzen als auch Verhältnisse sinnvoll interpretieren
I
Kardinalskalierte Merkmale werden auch als metrische
Merkmale bezeichnet
Statistik I Daten und Variablen
Die Erhebung
Der Erhebungsplan
Erhebungsplan
I
Festlegung des Verfahrens, Anweisungskatalog
I
Erhebungsgegenstand und die zugehörigen Messkonzepte
Statistischer Begriff: zu erfassende Masse und zu
erfassende Untersuchungsmerkmale
I
I
I
I
15 / 37
das Erhebungsgebiet
die Berichtsperiode bzw. der Berichtszeitpunkt
die anzuwendende Erhebungstechnik
Statistik I Daten und Variablen
Die Erhebung
Der Erhebungsplan
Erhebungseinheit
I
Oftmals ist Erhebungseinheit nicht mit der statistischen
Einheit identisch
I
I
I
16 / 37
Die Auskunftsstelle oder Auskunftsperson
Die Aufbereitungs- oder Darstellungseinheit
Die Auswahleinheit
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Erhebungstechniken
I
I
Verfahrenstechniken, die in einer konkreten Erhebung
kombiniert werden
Beobachtung falls
I
I
I
I
I
17 / 37
keine Alternative besteht (Verkehrszählung)
Beobachtung leichter, verlässlicher als Befragung (z.B
Saatenstandsbegutachtung)
die Beobachtung Kontrollfunktionen hat (statistische
Qualitätskontrolle)
technische Voraussetzungen für Befragung fehlen
„Beobachtung“ meint auch: die Auswertung von Dateien,
Karteien etc.
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Befragung
I
Vorteile der Befragung von Auskunftspersonen:
I
I
I
Nachteile der Befragung:
I
I
I
Auskunft eventuell nicht wahrheitsgemäß (vorsätzlich oder
irrtümlich)
Schriftliche Befragung, Erhebungsbogen
Güte des Fragebogens entscheidet über Güte der Ergebnisse
I
I
18 / 37
Wissen von Auskunftspersonen nutzen
Erfragung „subjektiver“ Phänomene (Einstellungen,
Erwartungen)
Allgemeinverständlichkeit
Klarheit und Einfachheit
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Befragung
I
Arten von Fragen
I
I
I
Wegen Eindeutigkeit und leichterer Eingabe/Auswertung
dominieren geschlossene Fragen
I
Mündliche Befragung (Interview)
Vorteil des Interviews
I
I
I
I
19 / 37
geschlossene Fragen: Ankreuzen
offene Fragen: Formulierung der Antwort
Hilfestellung bei Beantwortung
Überprüfung der Antworten auf Plausibilität
Nachteile: hohe Kosten, schwierige Auswertung
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Primärstatistische und sekundärstatistische
Erhebung
I
Primärstatistisch: Erhebung von Daten eigens für
Erkenntnisprojekt
I
I
I
Sekundärstatistisch: Auswertung von vorliegenden Daten
I
I
20 / 37
Vorteil: Fragen genau auf Erkenntnisprojekt ausgerichtet
Nachteil: Teuer und zeitaufwendig
Vorteil: Oft professionelles Erhebungspersonal, hohe
Datenqualität
Nachteil: Interessierende Merkmale nicht oder nicht in der
gewünschten Weise erfasst
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Vollerhebung (Totalerhebung) und Teilerhebung
Vollerhebung (Totalerhebung)
21 / 37
I
Alle Einheiten der statistischen Masse werden befragt
I
Vorteil: Alle Details, Untersuchung der Feinstruktur
I
Nachteil: Teuer, zeitaufwendig, begrenztes Frageprogramm
I
Daher fast nur Teilerhebungen: schneller, billiger,
schwierigere Fragen möglich
I
Problem: eventuell keine Feinstruktur, Auswahlgrundlage
nötig
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Vollerhebung (Totalerhebung) und Teilerhebung
Teilerhebung (Stichprobe)
22 / 37
I
anstelle einer Vollerhebung: schneller und billiger
I
zusätzlich: Erhebung „komplizierter“ Sachverhalte
I
zusätzlich: Kontrolle der Vollerhebung
I
aus dem Erhebungsmaterial einer Totalerhebung
I
wenn sich eine Vollerhebung verbietet: „zerstörende
Qualitätskontrolle“ (Crashtest)
I
wenn eine Vollerhebung unmöglich ist: „unendliche
Grundgesamtheit“, z.B. laufende Produktion
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Teilerhebung
I
I
23 / 37
Erhebung von Teilmasse, aber Urteile über die
Gesamtmasse
Teilmasse soll Gesamtmasse repräsentieren, aber was heißt
„repräsentativ“?
I
Repräsentativität bezüglich aller Merkmale?
I
Repräsentativität nur bezüglich ausgewählter Merkmale?
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Auswahlverfahren
Zwei prinzipielle Möglichkeiten:
I Echte Zufallsstichproben (Stichproben)
I
I
I
Nicht-zufällige Auswahlverfahren
I
I
I
24 / 37
Auswahl mit Hilfe eines Zufallsgenerators
Möglichkeit von Wahrscheinlichkeitsaussagen
Z.B. Auswahl typischer Fälle
Quotenverfahren
Keine Wahrscheinlichkeitsaussagen möglich
Statistik I Daten und Variablen
Die Erhebung
Erhebungstechniken
Datenqualität
I
Erhobene Daten weisen in der Praxis oft gravierende Mängel
auf
I
I
I
I
25 / 37
Non-Response: Antwortverweigerung
Item-Non-Response: Antwortverweigerung bei bestimmten
Fragen
Falsche Angaben (unabsichtlich, absichtlich)
Rundungen
Statistik I Daten und Variablen
Notation
Merkmalsträger und Merkmale
Einheiten und Merkmale
I
I
I
I
I
I
Grundgesamtheit G = {e1 , . . . , en }
Umfang der Grundgesamtheit n = |G |
Bestandsmasse (Angabe zu Zeitpunkt)
Bewegungsmasse (Angabe zu Zeitraum)
Merkmalsträger (e1 , . . . , en )
Daten: beobachtete Werte eines Merkmals (oder mehrerer
Merkmale)
Notation bei einem Merkmal X :
x1 , . . . , xn
I
Notation bei zwei Merkmalen X und Y :
(x1 , y1 ), . . . , (xn , yn )
26 / 37
Statistik I Daten und Variablen
Notation
Datenstruktur
Datenmatrix
27 / 37
I
Daten werden meist als Matrix gespeichert
I
Bei einem Eintrag xij bezeichnet i die Einheit (Zeile) und j
das Merkmal (Spalte)
I
Werden z.B. bei n = 4 Einheiten jeweils die Ausprägungen
von m = 3 Merkmalen X1 , X2 , X3 erhoben, ergibt sich
folgende Datenmatrix der Dimension 4 × 3
⎡
⎤
⎢⎢ x1,1 x1,2 x1,3 ⎥⎥
⎢⎢⎢ x2,1 x2,2 x2,3 ⎥⎥⎥
⎢⎢
⎥⎥
⎢⎢ x
⎥
⎢⎢ 3,1 x3,2 x3,3 ⎥⎥⎥
⎣
⎦
x4,1 x4,2 x4,3
Statistik I Daten und Variablen
Notation
Merkmalswerte und -ausprägungen
Merkmale, Werte, Ausprägungen
28 / 37
I
Merkmal (X , Y etc.)
I
Merkmalswerte (x1 , x2 , ...)
I
Merkmalsausprägungen (x̃1 , x̃2 , ...)
Statistik I Daten und Variablen
Notation
Merkmalswerte und -ausprägungen
Ausprägungen und Häufigkeiten
Ein Beispiel:
29 / 37
I
n = 3, x1 = 1, x2 = 4, x3 = 4
I
J = 2, x̃1 = 1, x̃2 = 4
I
Die Verwendung von Ausprägungen x̃j und Häufigkeiten nj
ist oftmals ökonomischer
I
Statt x1 = 1, x2 = 1, ..., x10 = 1
I
Nun x̃1 = 1, n1 = 10
Statistik I Daten und Variablen
Notation
Merkmalswerte und -ausprägungen
Klassierung
I
Oft werden Merkmalswerte zu Klassen (Intervallen)
zusammengefasst
I
I
30 / 37
Klassengrenzen und Häufigkeiten [xju ; xjo [, nj
Häufigkeitsverteilung gibt dann für jede Klasse die Häufigkeit
an
I
Die Klassierung erlaubt die übersichtliche Darstellung
großer Datenmengen
I
Mit der Klassierung geht meist ein erheblicher
Informationsverlust einher
Statistik I Daten und Variablen
Datenquellen
Amtliche Statistik
Datenquellen der amtlichen Statistik:
31 / 37
I
Statistisches Bundesamt
I
Statistische Landesämter
I
EUROSTAT
I
Deutsche Bundesbank
I
Bundesagentur für Arbeit
I
Bundesanstalt für Finanzdienstleistungsaufsicht
I
Kraftfahrtbundesamt
I
etc.
Statistik I Daten und Variablen
Datenquellen
Nicht-amtliche Statistik
Datenquellen der nicht-amtlichen Statistik:
32 / 37
I
Wirtschaftswissenschaftliche Institute (IfW Kiel, DIW, HWWA,
ifo, RWI, IWH)
I
Wirtschaftsforschungsinstitute von Interessenverbänden
I
halbamtliche Institutionen (Sachverständigenrat,
Monopolkommission)
Statistik I Daten und Variablen
Datenquellen
Panel Study of Income Dynamics
PSID
I
Panel Study of Income Dynamics
I
Querschnitt: Einheiten werden zu einem Zeitpunkt befragt
I
Zeitreihe (Längsschnitt): Ein Merkmal wird an mehreren
Zeitpunkten beobachtet
I
Panelerhebung: Gleiche Einheiten werden an mehreren
Zeitpunkten befragt
I
Vorteil von Panelerhebungen: Verläufe werden sichtbar
I
Bekanntes Beispiel
2 Querschnitte in t = 0 und t = 1, Arbeitslosenquote je 10%
Beachte: 2 völlig verschiedene Sachverhalte möglich!
- gleiche Personen in t = 0 und t = 1 arbeitslos
- komplett andere Personen in t = 0 und t = 1 arbeitslos
33 / 37
Statistik I Daten und Variablen
Datenquellen
Panel Study of Income Dynamics
PSID
34 / 37
I
Erste Welle in 1968
I
Bis 1997 jährlich, seither 2-jährlich (Kosten!)
I
4.800 Haushalte in 1986, 7.000 Haushalte in 2001
I
Insgesamt 65.000 Personen in bis zu 37 Jahren
I
Insgesamt mehrere hundert Variable
I
Änderungen im Frageprogramm, der Codierung, etc.
I
PSID-Daten sind relativ schwer zu handhaben
Statistik I Daten und Variablen
Datenquellen
Panel Study of Income Dynamics
PSID-CNEF
35 / 37
I
CNEF: Cross National Equivalent Files
I
Forschergruppe, die Daten verschiedener nationaler
Erhebungen vergleichbar macht
I
ähnliche Panelerhebungen in anderen Ländern:
I
Deutschland: SOEP (Sozioökonomisches Panel)
I
UK: BHPS (British Household Panel Study)
I
Canada: SLID (Survey of Labour and Income Dynamics)
Statistik I Daten und Variablen
Datenquellen
Panel Study of Income Dynamics
PSID-CNEF
36 / 37
I
Bereitstellung von harmonisierten Datensätzen
I
Ziel ist die Möglichkeit vergleichender Analysen
I
Wenige aber vereinheitlichte Variablen
I
CNEF-File mit PSID Daten leichter zu handhaben
I
Wir nutzen die PSID-CNEF-Daten 2005 (Querschnitt)
I
2005 ist letzte verfügbare Welle
I
Wenige ausgewählte Variablen
Statistik I Daten und Variablen
Datenquellen
Panel Study of Income Dynamics
Variablen
I
Variablen (I)
I
I
I
I
I
I
Variablen (II)
I
I
I
I
37 / 37
pid: Personennummer
age: Alter
sex: Geschlecht
edu: Bildungskategorien (3)
eduyears: Ausbildungsjahre
wage: Jahreseinkommen
hours: Jahresarbeitsstunden
occupa: Tätigkeit/Beruf
sector: Branche/Wirtschaftszweig
Statistik I Auswertung eindimensionaler Daten
Statistik I
Auswertung eindimensionaler Daten
Prof. Dr. Andreas Behr
1 / 33
Statistik I Auswertung eindimensionaler Daten
Inhaltsverzeichnis
Häufigkeiten
Absolute und relative Häufigkeiten
Häufigkeitstabelle
Grafische Darstellung
Empirische Verteilungsfunktion
Definition
Eigenschaften
Beispiel
Quantile
Definition
Ermittlung von Quantilen
PSID
2 / 33
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Absolute und relative Häufigkeiten
Eindimensionale Daten
I
Ausgangssituation: Grundgesamtheit G vom Umfang n
I
Nur ein Merkmal X wird betrachtet
I
Urliste: x1 , . . . , xn
Zahlenbeispiel I:
x = {2, 4, 5, 2, 1, 4, 3, 5, 5, 1, 2, 3, 2, 3, 2, 2, 2, 5, 3, 5}
n = 20
I
3 / 33
Problem: Wie kann man die Informationen kompakt und
übersichtlich darstellen?
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Absolute und relative Häufigkeiten
Definition von Häufigkeiten
I
Anzahl unterschiedlicher Merkmalsausprägungen: J
I
Merkmalsausprägungen: x̃1 , x̃2 , . . . , x̃J
I
Absolute Häufigkeit von x̃j
nj = Anzahl der Daten mit Merkmalsausprägung x̃j
I
Relative Häufigkeit von x̃j
fj =
4 / 33
nj
= Anteil der Daten mit Merkmalsausprägung x̃j
n
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Absolute und relative Häufigkeiten
Definition von Häufigkeiten
I
Es gilt
J
∑︀
j =1
I
nj = n und
J
∑︀
fj = 1
j =1
Diskrete Klassierung (oder: Häufigkeitsverteilung)
(x̃1 , n1 ), (x̃2 , n2 ), . . . , (x̃J , nJ )
bzw.
(x̃1 , f1 ), (x̃2 , f2 ), . . . , (x̃J , fJ ).
5 / 33
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Häufigkeitstabelle
Häufigkeitstabelle
Darstellung in Form einer Häufigkeitstabelle:
6 / 33
x̃j
x̃1
x̃2
..
.
nj
n1
n2
..
.
fj = nj /n
f1
f2
..
.
x̃J
nJ
n
fJ
1
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Häufigkeitstabelle
Häufigkeitstabelle
Unser Zahlenbeispiel I:
x̃j
x̃1 = 1
x̃2 = 2
x̃3 = 3
x̃4 = 4
x̃5 = 5
7 / 33
nj
n1 = 2
n2 = 7
n3 = 4
n4 = 2
n5 = 5
n = 20
fj = nj /n
f1 = 0.1
f2 = 0.35
f3 = 0.2
f4 = 0.1
f5 = 0.25
Σ=1
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Häufigkeitstabelle
Grafische Darstellung der Häufigkeitstabelle:
Häufigkeitsfunktion
4
0
1
2
3
f(x)
5
6
7
8
Häufigkeitsfunktion
0
1
2
3
x
8 / 33
4
5
6
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Häufigkeitstabelle
Beispiel II:
I
Grundgesamtheit: 20 Beschäftigte eines Betriebs
I
Merkmal: Verkehrsmittel für den Arbeitsweg
I
Merkmalsausprägungen:
x̃1 = 1 (öPNV)
x̃2 = 2 (PKW)
x̃3 = 3 (Motorrad)
x̃4 = 4 (Fahrrad)
x̃5 = 5 (zu Fuß)
9 / 33
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Häufigkeitstabelle
Beispiel II:
I
Urliste:
1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4, 1, 1, 2, 2, 1, 2, 1
I
Häufigkeitstabelle
x̃j
(1) öPNV
(2) PKW
(3) Motorrad
(4) Fahrrad
(5) zu Fuß
10 / 33
nj
6
9
1
2
2
20
fj
0.30
0.45
0.05
0.10
0.10
1.00
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
6
4
0
2
Häufigkeiten nj
8
10
Stabdiagramm
ÖPNV
PKW
Motorrad
Verkehrsmittel
11 / 33
Fahrrad
zu Fuß
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
Balkendiagramm
zu Fuß
Fahrrad
Motorrad
PKW
ÖPNV
0
2
4
6
Häufigkeiten nj
12 / 33
8
10
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
Tortendiagramm (Pie)
Schön bunt, nicht sehr informativ ...
ÖPNV
PKW
zu Fuß
Fahrrad
Motorrad
13 / 33
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
Manipulation von Grafiken
I
Grafiken können auf viele Arten manipuliert werden
I
Manipulation muss nicht immer schlecht sein
Typische Fälle:
I
I
I
I
14 / 33
Verzerren der Achsen
Skalierung der y-Achse
Irreführende Flächen
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
Beispiel: Original y-Achse
Müll (kg) je Einwohner
0
100 200 300 400 500 600 700
Höhe (u. Fläche) proportional zu Verbrauch
Japan
EU
Land
15 / 33
USA
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
Beispiel: Verzerrende y-Achse
600
500
400
300
Müll (kg) je Einwohner
700
Achsenmanipulation
Japan
EU
Land
16 / 33
USA
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
Beispiel: Verzerrende Fläche
Müll (kg) je Einwohner
0
100 200 300 400 500 600 700
Fläche überproportional zu Verbrauch
Japan
EU
USA
Land
17 / 33
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
10
Beispiel: Orignal x-Achse
●
9
●
8
●
7
●
Y
6
●
5
●
4
●
3
●
1
2
●
●
2001
2002
2003
2004
2005
2006
Jahr
18 / 33
2007
2008
2009
2010
Statistik I Auswertung eindimensionaler Daten
Häufigkeiten
Grafische Darstellung
10
Beispiel: Verzerren der x-Achse
9
●
7
8
●
Y
6
●
5
●
4
●
3
●
1
2
●
●
2001
2002
2003
2004
2005
Jahr
19 / 33
2006
2008
2010
Statistik I Auswertung eindimensionaler Daten
Empirische Verteilungsfunktion
Definition
Empirische Verteilungsfunktion
I
Die Merkmale müssen mindestens ordinal skaliert sein
F (x) = Anteil der Daten mit Merkmalswert ≤ x
=
=
|{i |xi ≤ x}|
n
∑︁
fr
{r|x̃r ≤x}
20 / 33
I
Sprungstellen: Die Werte, die vorkommen
I
Sprunghöhen: Relative Häufigkeiten
Statistik I Auswertung eindimensionaler Daten
Empirische Verteilungsfunktion
Eigenschaften
Eigenschaften der empirischen Verteilungsfunktion:
21 / 33
I
Definitionsbereich R, Wertebereich [0; 1]
I
limx→−∞ F (x) = 0 und limx→∞ F (x) = 1
I
Monoton steigend
I
Rechtsstetig, d.h. limx↓x0 F (x) = F (x0 )
Statistik I Auswertung eindimensionaler Daten
Empirische Verteilungsfunktion
Beispiel
Nochmal Beispiel I: Häufigkeitstabelle
I
x = {2, 4, 5, 2, 1, 4, 3, 5, 5, 1, 2, 3, 2, 3, 2, 2, 2, 5, 3, 5}
x̃j
x̃1 = 1
x̃2 = 2
x̃3 = 3
x̃4 = 4
x̃5 = 5
22 / 33
nj
n1 = 2
n2 = 7
n3 = 4
n4 = 2
n5 = 5
n = 20
fj = nj /n
f1 = 0.1
f2 = 0.35
f3 = 0.2
f4 = 0.1
f5 = 0.25
Σ=1
Fj
F1 = 0.10
F2 = 0.45
F3 = 0.65
F4 = 0.75
F5 = 1.00
Statistik I Auswertung eindimensionaler Daten
Empirische Verteilungsfunktion
Beispiel
Darstellung der empirischen Verteilungsfunktion:
1.0
Verteilungsfunktion
0.6
F(x)
●
●
●
0.2
0.4
0.3
0.2
0.1
f(x)
●
0.8
0.4
Häufigkeitsfunktion
0.0
0.0
●
0
1
2
3
x
23 / 33
4
5
6
0
1
2
3
x
4
5
6
Statistik I Auswertung eindimensionaler Daten
Quantile
Definition
Quantile
I
Definition:
x̃p
= min{x|F (x) ≥ p}
x∈R
= kleinster Wert x ∈ R mit der
Eigenschaft, dass F (x) ≥ p
heißt p-Quantil (oder p · 100%-Punkt)
I
24 / 33
Bestimmung aus der empirischen Verteilungsfunktion oder
aus der (geordneten) Urliste
Statistik I Auswertung eindimensionaler Daten
Quantile
Definition
Spezielle Quantile:
Median (Zentralwert)
Quartile
Quintile
Dezile
25 / 33
x̃0.5
x̃0.25 ,
x̃0.2 ,
x̃0.1 ,
x̃0.5 ,
x̃0.4 ,
x̃0.2 ,
x̃0.75
x̃0.6 ,
...,
x̃0.8
x̃0.9
Statistik I Auswertung eindimensionaler Daten
Quantile
Ermittlung von Quantilen
Quantile
I
Urliste:
Mit jedem Wert steigt F (x) um 1/n
Wandere so weit in der Urliste, bis F (x) ≥ p
I
Das p-Quantil ist
{︃
xnp ,
falls np ganzzahlig
x̃p =
x[np ]+1 , sonst
wobei [np] der ganzzahlige Anteil von np ist.
26 / 33
Statistik I Auswertung eindimensionaler Daten
Quantile
Ermittlung von Quantilen
Beispiel III: Bestimmung über die Urliste
I
Bestimme x̃0.1 , und x̃0.72 aus der (geordneten) Urliste
{1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 5, 5, 5, 5}
I
Ganzzahlige Werte np
x̃0.1 = x0.1·20 = x2 = 1
I
Nicht ganzzahliger Wert np
x̃0.72 = x[0.72·20]+1 = x[14.4]+1 = x15 = 4
27 / 33
Statistik I Auswertung eindimensionaler Daten
Quantile
Ermittlung von Quantilen
Beispiel III: Bestimmung über F(x)
1.0
Verteilungsfunktion, n=20
●
0.6
●
0.4
●
0.2
F(x)
0.8
●
0.0
●
0
1
2
3
x
28 / 33
4
5
6
Statistik I Auswertung eindimensionaler Daten
Quantile
Ermittlung von Quantilen
Beispiel IV:
29 / 33
I
Grundgesamtheit: 20 Studentinnen, die an einer Klausur
teilnehmen
I
Merkmal: Note (1, 2, 3, 4 oder 5)
I
Urliste: 4, 3, 4, 5, 3, 2, 1, 2, 3, 3, 4, 5, 4, 4, 2, 3, 1, 3, 3, 5
I
Bestimme x̃0.5 , x̃0.85 und x̃0.99 .
Statistik I Auswertung eindimensionaler Daten
Quantile
Ermittlung von Quantilen
Beispiel IV: Bestimmung über die Urliste
I
Bestimme x̃0.5 , x̃0.85 und x̃0.99 aus der (geordneten) Urliste
1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5
I
Ganzzahlige Werte np
x̃0.5 = x0.5·20 = x10 = 3
x̃0.85 = x0.85·20 = x17 = 4
I
Nicht ganzzahliger Wert np
x̃0.99 = x[0.99·20]+1 = x[19.8]+1 = x20 = 5
30 / 33
Statistik I Auswertung eindimensionaler Daten
Quantile
Ermittlung von Quantilen
Beispiel IV: Bestimmung über F(x)
1.0
Verteilungsfunktion
●
0.6
0.8
●
0.4
F(x)
●
0.2
●
0.0
●
0
1
2
3
x
31 / 33
4
5
6
Statistik I Auswertung eindimensionaler Daten
Quantile
PSID
PSID, Häufigkeitsfunktion
250
Häufigkeitsfunktion, n=10023
150
0
50
100
f(x)
200
0.25−Quantil (14 Tsd. US $)
0.50−Quantil (28 Tsd. US $)
0.75−Quantil (45 Tsd. US $)
0
50
100
Einkommen, 1000 US$
32 / 33
150
200
Statistik I Auswertung eindimensionaler Daten
Quantile
PSID
PSID, Verteilungsfunktion
0.6
0.4
0.25−Quantil (14 Tsd. US $)
0.50−Quantil (28 Tsd. US $)
0.75−Quantil (45 Tsd. US $)
0.0
0.2
F(x)
0.8
1.0
Verteilungsfunktion, n=10023
0
50
100
Einkommen, 1000 US$
33 / 33
150
200
Statistik I Maßzahlen
Statistik I
Maßzahlen
Prof. Dr. Andreas Behr
1 / 32
Statistik I Maßzahlen
Inhaltsverzeichnis
Einleitung
Maßzahlen
Lagemaße
Streuungsmaße
Schiefemaße
Wölbungsmaße
2 / 32
Statistik I Maßzahlen
Einleitung
Maßzahlen
3 / 32
I
Maßzahlen zur Beschreibung von Häufigkeitsverteilungen
(HV)
I
Ziel ist, wesentliche Charakteristika der HV mit wenigen
Maßzahlen zu beschreiben
I
Durch Kenntnis wichtiger Maßzahlen, entsteht eine
Vorstellung der HV
I
Nicht alle Maßzahlen sind für alle Häufigkeitsverteilungen
gleichermaßen geeignet
Statistik I Maßzahlen
Einleitung
PSID: Jahreseinkommen 2007
0.010
0.000
0.005
Dichte
0.015
0.020
Ungleiche Klassenbreiten
0
4 / 32
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
150
175
200
Statistik I Maßzahlen
Einleitung
Behandelte Maßzahlen
5 / 32
I
Lagemaße
I
Streuungsmaße
I
Schiefemaße
I
Wölbungsmaße
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Niveaucharakterisierende Maßzahlen
6 / 32
I
Lagemaße sind Maßzahlen, die ausdrücken „wo“ die Daten
sich befinden
I
Je nach Skalenniveau sind unterschiedliche Lagemaße
sinnvoll anwendbar
I
Je nach Fragestellung sind unterschiedliche Lagemaße
aussagekräftiger
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Behandelte Lagemaße
1. Modus (häufigster Wert)
2. Median (0.5-Quantil)
3. Arithmetisches Mittel, (Durchschnitt)
4. Harmonisches Mittel
5. Geometrisches Mittel
7 / 32
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Modus
I
Auch bei nominalen und ordinalen Merkmalen anwendbar
I
Am häufigsten vorkommender Wert
I
8 / 32
Bei metrischen Merkmalen oft keine Werte mehrfach, dann
„Verdichtungsstelle“
I
Sehr anschauliches Lagemaß
I
Nur bei unimodalen (eingipfligen) Verteilungen
aussagekräftig
I
Unempfindlich gegenüber Ausreißern
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Modus: Beispiel
I
Urliste
1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5
I
Häufigkeitstabelle
x̃j
1
2
3
4
5
9 / 32
nj
2
3
7
5
3
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Median (Zentralwert)
10 / 32
I
Das 0.5-Quantil bereits betrachtet: x̃0.5
I
Sehr anschauliches Maß :
50% der Werte sind kleiner(gleich),
50% der Werte sind größer
I
Wert, der die Fläche einer Verteilung halbiert
I
Sehr robust gegenüber Ausreißern
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Arithmetisches Mittel (Durchschnitt)
11 / 32
I
Gebräuchlichster Mittelwert
I
Aber auch unanschaulichster Wert
I
Muss als Wert selbst gar nicht vorkommen
I
Sehr empfindlich gegenüber Ausreißern
I
Popularität ist durch die Verwendung der Normalverteilung
in der Stochastik begründet
I
Für deskriptive Zwecke sind oft andere Lagemaße besser
geeignet
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Ungewichtetes/gewichtetes arithmetisches Mittel
I
Ungewichtetes arithmetisches Mittel
n
x̄ =
1 ∑︁
xi
n
i =1
I
Gewichtetes arithmetisches Mittel:
Entweder mit absoluten oder mit relativen Häufigkeiten
J
J
j =1
j =1
∑︁
1 ∑︁
x̄ =
x̃j nj =
x̃j fj
n
12 / 32
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Arithmetisches Mittel: 1. Beispiel
I
Grundgesamtheit: n = 5 Angestellte in
einem Betrieb
I
Merkmal X : Bruttomonatsgehalt
I
Durchschnittliches Bruttomonatsgehalt:
i
1
2
3
4
5
xi
2258
2343
2218
1703
3444
x̄ = (2258 + 2343 + 2218 + 1703 + 3444) /5 = 2393.20
13 / 32
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Arithmetisches Mittel: 2. Beispiel
I
Grundgesamtheit: n = 520 Haushalte
eines Vororts
I
Merkmal X : Anzahl der
Haushaltsmitglieder
I
Durchschnittliche Haushaltsgröße
x̄ =
14 / 32
x̃j
1
2
3
4
5
6
nj
188
173
79
56
20
4
520
1
(1 · 188 + 2 · 173 + . . . + 6 · 4) = 2.1519
520
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Harmonisches Mittel
I
I
I
Oft als Rechenprogramm für das gewichtete arithmetische
Mittel
Reziprokes arithmetisches Mittel der reziproken
Merkmalswerte
ungewichtet
⎞−1
⎛ n
⎟⎟
⎜⎜ 1 ∑︁
1
xi−1 ⎟⎟⎟⎠ = 1 ∑︀n 1
x̄H = ⎜⎜⎜⎝
n
i =1 x
n
i =1
I
i
gewichtet
⎞−1
⎛ ∑︀J
∑︀J
nj
⎜⎜ j =1 x̃j−1 · nj ⎟⎟⎟
⎜
⎟⎟ = ∑︀ j =1
x̄H = ⎜⎝ ∑︀J
⎠
J
1
j =1 n j
j =1 x̃ · nj
j
15 / 32
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Harmonisches Mittel: Beispiel
I
I
Ein Fahrzeug fährt 200 km mit 100 km/Std. und 300 km mit
150 km/Std. Mit welcher mittleren Geschwindigkeit ist es
gefahren?
Berechnung über arithmetisches Mittel:
I
I
Erst Stunden als Gewichte berechnen:
2 Std. mit 100 km/Std. und 2 Std. mit 150 km/Std.
dann gewichtet arithmetisch mitteln
x̄ =
16 / 32
km
km
2Std . · 100 Std
500 km
km
. + 2Std . · 150 Std .
=
= 125
4Std .
4 Std
Std
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Harmonisches Mittel: Beispiel (Forts.)
I
Berechnung direkt mit harmonischem Mittel:
I
200 km mit 100 km/Std. und 300 km mit 150 km/Std.
=
x̄H
=
I
· 200km +
1
km
150 Std
.
· 300km
500 km
km
= 125
4 Std
Std
Achtung: Falsch wäre
x̄
,
=
17 / 32
200km + 300km
1
km
100 Std
.
km
km
200km · 100 Std
. + 300km · 150 Std .
500km
650 km 2 /Std .
km
= 130
5
km
Std
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Geometrisches Mittel
I
Verwendung in einer „multiplikativen Welt“
I
ungewichtet
⎛ n ⎞ n1
⎜⎜∏︁ ⎟⎟
√
x̄G = ⎜⎜⎜⎝
xi ⎟⎟⎟⎠ = n x1 · x2 · . . . · xn
i =1
I
gewichtet
⎞1
⎛
J
⎟ n √︁
⎜⎜∏︁
n⎟
n
n
n
⎟
⎜
x̄G = ⎜⎜⎜
x̃j j ⎟⎟⎟ = n x̃1 1 · x̃2 2 · . . . · x̃J J
⎠
⎝
j =1
18 / 32
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Geometrisches Mittel: Beispiel
I
Bsp. Portfolioveränderung in 2007 10% und in 2008 −20%
I
Wie hoch war die mittlere Veränderung in beiden Jahren?
I
Ungewichtetes geometrisches Mittel
I
Beachte: Es muß mit Vervielfachungskoeffizienten gerechnet
werden
I
Wachstum von 10% heißt
I
1.1 ist der Vervielfachungskoeffizient
I
Wert2007
Wert2006
I
Wert2007
Wert2006
= 1.1
− 1 = 0.1 ist die Wachstumsrate
(︁
)︁
2007
üblich Wachstumsrate in Prozent: Wert
−
1
· 100 = 10%
Wert
2006
19 / 32
Statistik I Maßzahlen
Maßzahlen
Lagemaße
Geometrisches Mittel: Beispiel (Forts.)
I
Also:
⎛ n ⎞ n1
√
⎜⎜∏︁ ⎟⎟
x̄G = ⎜⎜⎜⎝
xi ⎟⎟⎟⎠ = 1.1 · 0.8 = 0.938 08
i =1
20 / 32
I
Mittlerer Vervielfachungskoeffizient ist also 0.938 08
I
D.h. die Wachstumsrate betrug 0.938 08 − 1 = −0.061 92
bzw. −6.19 %
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Maßzahlen der Streuung
I
Streuungsmaße sind Maßzahlen, die ausdrücken „wie stark“
die Daten streuen (um ein Lagemaß herum)
0.8
0.6
0.4
0.0
0.0
−3
−2
−1
0
x
21 / 32
σ = 0.5
0.2
0.4
Dichte
0.6
σ=1
0.2
Dichte
0.8
1.0
Kleine Streuung
1.0
Große Streuung
1
2
3
−3
−2
−1
0
x
1
2
3
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Behandelte Streuungsmaße
1. Standardabweichung, Varianz
2. Mittlere absolute Abweichung
3. Quartilsabstand
4. Spannweite
22 / 32
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Varianz und Standardabweichung
I
Varianz (Streuung)
n
s2 =
1 ∑︁
(xi − x̄)2
n
i =1
I
Standardabweichung
√
s = s2 =
⎯
⎷
n
1 ∑︁
(xi − x̄)2
n
i =1
23 / 32
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Eigenschaften von Varianz und Standardabweichung
24 / 32
I
Beide Maße sind extrem empfindlich gegenüber Ausreißern
I
Popularität ist durch die Verwendung der Normalverteilung
in der Stochastik begründet
I
Für deskriptive Zwecke sind oft andere Streuungsmaße
besser geeignet
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Mittlere absolute Abweichung
I
Mittlere absolute Abweichung
n
d=
1 ∑︁
|xi − x̃0.5 |
n
i =1
25 / 32
I
Die mittlere absolute Abweichung ist das zum Zentralwert
korrespondierende Streuungsmaß
I
Gelegentlich wird auch die mittlere absolute Abweichung
vom arithmetischen Mittel betrachtet
I
Die mittlere abs. Abw. ist anschaulicher als die
Standardabweichung und deutlich unempfindlicher
gegenüber Ausreißern
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Quartilsabstand
I
Quartilabstand
Q = x̃0.75 − x̃0.25
26 / 32
I
Der Quartilsabstand ist sehr anschaulich und unempfindlich
gegenüber Ausreißern
I
Er gibt die Länge des Intervalls an, in dem die mittleren 50%
der Daten liegen
I
Die Werte im ersten und vierten Quartil bleiben völlig
unberücksichtigt
I
Alternativ werden auch andere Quantile (z.B. 10 und 90%)
betrachtet
Statistik I Maßzahlen
Maßzahlen
Streuungsmaße
Spannweite
I
Spannweite
R = max xi − min xi
i
27 / 32
i
I
Die Spannweite gibt die Länge des Intervalls an, indem alle
Daten liegen
I
Die Spannweite ist ein sehr anschauliches Maß
I
Da sie vollständig von kleinstem und größtem Merkmalswert
bestimmt wird, ist sie extrem reagibel gegenüber Ausreißern
Statistik I Maßzahlen
Maßzahlen
Schiefemaße
Schiefe: Grafische Darstellung
I
I
Rechtsschief (=linkssteil), wenn g > 0
Linksschief (=rechtssteil), wenn g < 0
0.5
0.4
0.3
0.1
0.0
0.1
0.0
−3
−2
−1
0
x
28 / 32
g = 0.57
0.2
0.3
Dichte
g = −0.64
0.2
Dichte
0.4
0.5
0.6
Rechtsschief
0.6
Linksschief
1
2
3
−3
−2
−1
0
x
1
2
3
Statistik I Maßzahlen
Maßzahlen
Schiefemaße
Maßzahlen der Schiefe
I
I
I
Kennzahl für die Symmetrie einer Häufigkeitsverteilung
Verhältnis von drittem Zentralmoment zur 3. Potenz der
Standardabweichung
𝜇3
g= 3
s
Allgemein: k − tes Zentralmoment
n
𝜇k =
1 ∑︁
(xi − x̄)k
n
i =1
I
Schiefe
n (︂
)︂
1 ∑︁ xi − x̄ 3
g=
=
n
s
i =1
29 / 32
1
n
∑︀n
i =1 (xi
s3
− x̄)3
=
𝜇3
s3
Statistik I Maßzahlen
Maßzahlen
Wölbungsmaße
Wölbung: Grafische Darstellung
I
I
Steiler als Normalverteilung, wenn k > 0
Flacher als Normalverteilung, wenn k < 0
1.0
0.8
Platykurtisch
1.2
Leptokurtisch
k = −1.3
0.2
0.0
0.2
0.0
−3
−2
−1
0
x
30 / 32
0.4
Dichte
0.6
0.4
Dichte
0.8
0.6
k = 2.4
1
2
3
−3
−2
−1
0
x
1
2
3
Statistik I Maßzahlen
Maßzahlen
Wölbungsmaße
Maßzahlen der Wölbung (Kurtosis)
31 / 32
I
„Spitzigkeit“, Aufgewölbtheit der Verteilung
I
Verhältnis von viertem Zentralmoment zur 4. Potenz der
Standardabweichung
I
Exzess: Wölbung abzüglich dem Wert 3
Wölbung der Normalverteilung ist gleich 3 (Exzess 0)
I
Steil aufgewölbt: Leptokurtisch
I
Wenig aufgewölbt: Platykurtisch
Statistik I Maßzahlen
Maßzahlen
Wölbungsmaße
Maßzahlen der Wölbung (Kurtosis)
k
I
32 / 32
⎤
⎡ n
⎢⎢ 1 ∑︁ (︂ xi − x̄ )︂4 ⎥⎥
⎥⎥ − 3
= ⎢⎢⎢⎣
⎥⎦
n
s
i =1
4
1 ∑︀n
𝜇4
i =1 (xi − x̄)
n
=
−3 = 4 −3
4
s
s
Beachte: Nur bei symmetrischen Verteilungen
aussagekräftig
Statistik I Klassierte Daten
Statistik I
Klassierte Daten
Prof. Dr. Andreas Behr
1 / 35
Statistik I Klassierte Daten
Inhaltsverzeichnis
Einführung
Additionssätze
Teilgesamtheit
Grundgesamtheit
Stetige Klassierung
Grundlagen
Histogramm
Empirische Verteilung und Quantile
Mittelwert und Varianz
2 / 35
Statistik I Klassierte Daten
Einführung
Klassierte Daten
3 / 35
I
Daten werden in der Praxis meist in klassierter Form
dargestellt
I
Z.B. Umsatzklassen und Anzahl der Unternehmen in einer
Klasse statt Urliste
I
Daten können auch nach inhaltlichen Kriterien gruppiert
werden (z.B. Rechtsform)
Statistik I Klassierte Daten
Einführung
Additionssätze
4 / 35
I
Fragestellung (1):
Wie kann man aus Mittelwerten von Teilgesamtheiten den
Mittelwert der Grundgesamtheit errechnen?
−→ Additionssatz für Mittelwerte
I
Fragestellung (2):
Wie kann man aus Varianzen von Teilgesamtheiten die
Varianz der Grundgesamtheit errechnen?
−→ Additionssatz für Varianzen, Streuungszerlegungssatz
Statistik I Klassierte Daten
Einführung
Ausgangssituation:
5 / 35
I
Grundgesamtheit lässt sich in J Teilgesamtheiten G1 , . . . , GJ
gliedern
I
j ist der Index, der die Klassen kennzeichnet, j = 1, ..., J
I
in einer Klasse befinden sich nj Einheiten, Index k = 1, ..., nj
I
xjk ist k − tes Element in Klasse j
I
Jede der J Teilgesamtheiten kann wie bisher als eigene
Gesamtheit betrachtet werden
Statistik I Klassierte Daten
Additionssätze
Teilgesamtheit
Mittelwert und Varianz der Teilgesamtheit
I
Mittelwert in Gruppe j
x̄j =
nj
1 ∑︁
xjk
nj
k =1
I
Varianz in Gruppe j
sj2
nj
1 ∑︁
(xjk − x̄j )2
=
nj
k =1
I
Beachte: Mosler/Schmid verwenden andere Notation
nj
1 ∑︁
1 ∑︁
x̄j =
xjk =
xi
nj
nj
k =1
6 / 35
i ∈Gj
Statistik I Klassierte Daten
Additionssätze
Teilgesamtheit
Beispiel
I
I
I
I
I
Beispiel: x1 = 1, x2 = 3, x3 = 2, x4 = 4
in Klasse j = 1 sind x11 = 1 (x1 ) und x12 = 3, (x2 )
in Klasse j = 2 sind x21 = 2 (x3 ) und x22 = 4 (x4 )
bzw. G1 = {1, 2} und G2 = {3, 4}
Mit doppelter Indizierung
n1
1
1
1 ∑︁
x1k = (x11 + x12 ) = (1 + 3) = 2
x̄1 =
n1
2
2
k =1
I
Mit Indexmenge
x̄1 =
1 ∑︁
1
1
xi = (x1 + x2 ) = (1 + 3) = 2
n1
2
2
i ∈G1
7 / 35
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Mittelwert der Grundgesamtheit
I
I
I
Mittelwerte x̄1 , . . . , x̄J und Varianzen s12 , . . . , sJ2 der
Teilgesamtheiten
Mittelwert x̄ und Varianz s 2 der Grundgesamtheit
Umfänge der Teilgesamtheiten |Gj | = nj und der
Grundgesamtheit |G | = n
n=
J
∑︁
nj
j =1
I
Additionssatz für Mittelwerte
x̄ =
J
∑︁
j =1
8 / 35
x̄j
nj
n
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Mittelwert der Grundgesamtheit
I
Warum?
x̄ =
J
∑︁
x̄j
j =1
=
=
9 / 35
1
n
1
n
nj
J
nj ∑︁ nj 1 ∑︁
=
xjk
n
n nj
j =1
nj
J ∑︁
∑︁
j =1 k =1
n
∑︁
xi
i =1
xjk
k =1
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Mittelwert der Grundgesamtheit: Beispiel
Männer
2797
2119
3967
3738
Frauen
2284
3570
3889
2042
3887
2977
Männer
n1 = 4
x̄1 = 3155.25
10 / 35
I
Merkmal X : Einkommen
I
2 Teilgesamtheiten
Frauen
n2 = 6
x̄2 = 3108.17
Gesamt
n = 10
x̄ = 3127
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Varianz der Grundgesamtheit
I
Additionssatz für Varianzen, Streuungszerlegungssatz
s2 =
J
∑︁
j =1
⏟
J
)︁2 nj
nj ∑︁ (︁
+
x̄j − x̄
n
n
j =1
⏞
⏟
⏞
sj2
2
=sint
I
Interne Varianz und externe Varianz
I
Bestimmtheitsmaß
B=
11 / 35
2
=sext
2
sext
s2
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Varianz der Grundgesamtheit: Beispiel
I
I
I
12 / 35
Situation I
Männer
Frauen
Merkmal X :
1
0.5
Einkommen
2
1.5
2 Teilgesamtheiten
3
2.5
Streuungszerlegung
4
3.5
für beide Situationen
4.5
5.5
Situation II
Männer Frauen
1
3.5
2
4.5
3
5.5
4
6.5
7.5
8.5
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Varianz der Grundgesamtheit: Beispiel 1
Situation I
Männer Frauen
1
0.5
2
1.5
3
2.5
4
3.5
4.5
5.5
Männer
n1 = 4
x̄1 = 2.5
s12 = 1.25
13 / 35
Frauen
n2 = 6
x̄2 = 3
s22 = 2.91667
Gesamt
n = 10
x̄ = 2.8
s 2 = 2.31
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Varianz der Grundgesamtheit: Beispiel 1
I
Varianz
s
2
=
J
∑︁
j =1
s2
J (︁
∑︁
)︁2 nj
x̄j − x̄
+
n
n
nj
sj2
j =1
[︂
]︂
4
6
= 1.25 ·
+ 2.91667 ·
+
10
10
[︂
]︂
4
6
(2.5 − 2.8)2 ·
+ (3 − 2.8)2 ·
10
10
=
2.25 + 0.06 = 2.31
⏟ ⏞
⏟ ⏞
int. Varianz
I
Bestimmtheitsmaß
B=
14 / 35
ext. Varianz
2
sext
0.06
=
= 0.026
2
2.31
s
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Varianz der Grundgesamtheit: Beispiel 2
Situation II
Männer Frauen
1
3.5
2
4.5
3
5.5
4
6.5
7.5
8.5
Männer
n1 = 4
x̄1 = 2.5
s12 = 1.25
15 / 35
Frauen
n2 = 6
x̄2 = 6
s22 = 2.91667
Gesamt
n = 10
x̄ = 4.6
s 2 = 5.19
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Varianz der Grundgesamtheit: Beispiel 2
I
Varianz
s
2
=
J
∑︁
j =1
s2
J (︁
∑︁
)︁2 nj
x̄j − x̄
+
n
n
nj
sj2
j =1
[︂
]︂
4
6
= 1.25 ·
+ 2.91667 ·
+
10
10
[︂
]︂
4
6
(2.5 − 4.6)2 ·
+ (6 − 4.6)2 ·
10
10
=
2.25 + 2.94 = 5.19
⏟ ⏞
⏟ ⏞
int. Varianz
I
Bestimmtheitsmaß
B=
16 / 35
ext. Varianz
2
sext
2.94
=
= 0.566
2
5.19
s
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Situation 1: Grafische Darstellung
0.15
0.10
0.00
0.05
Density
0.20
0.25
Situation 1
0
5
x
17 / 35
10
Statistik I Klassierte Daten
Additionssätze
Grundgesamtheit
Situation 2: Grafische Darstellung
0.15
0.10
0.00
0.05
Density
0.20
0.25
Situation 2
0
5
x
18 / 35
10
Statistik I Klassierte Daten
Stetige Klassierung
Grundlagen
Stetige Klassierung
I
I
I
Stetige Merkmale werden oft in Klassen (Intervalle)
zusammengefasst (stetige Klassierung)
Notation: Anzahl der Klassen J
Klassengrenzen
x1u < x1o = x2u < x2o = x3u < . . . < xJo−1 = xJu < xJo
I
Intervalle:
K1 = [x1u , x1o ],
I
Kj =]xju , xjo ],
j = 2, . . . , J
Stetige Klassierung
(K1 , n1 ), (K2 , n2 ), . . . , (KJ , nJ )
bzw. (K1 , f1 ), (K2 , f2 ), . . . , (KJ , fJ )
19 / 35
Statistik I Klassierte Daten
Stetige Klassierung
Grundlagen
Stetige Klassierung
I
Häufigkeitsverteilung in Form einer
Tabelle
I
Beim übergang von der Urliste zur
stetigen Klassierung geht viel
Information verloren
I
I
I
20 / 35
Kj
K1
K2
..
.
über die Verteilung innerhalb der
Klassen macht die
Häufigkeitsverteilung keine Angaben K
J
Häufig verwendete Näherung:
Gleichverteilung in den Intervallen
Konsequenzen für empirische
Verteilungsfunktion und Quantile?
nj
n1
n2
..
.
fj = nj /n
f1
f2
..
.
nJ
n
fJ
1
Statistik I Klassierte Daten
Stetige Klassierung
Histogramm
Histogramm
I
I
I
I
I
Stetig klassierte Daten lassen sich durch Histogramme
grafisch darstellen
Durch Rechtecke über den Klassen werden die relativen
Häufigkeiten repräsentiert
Beachte: Fläche über Kj proportional zu fj
Es muss also die Dichte und nicht einfach die relative
Häufigkeit abgetragen werden
Empirische Dichte in der Klasse Kj
xjo
I
21 / 35
fj
− xju
Nur bei konstanten Klassenbreiten kann fj verwendet
werden
Statistik I Klassierte Daten
Stetige Klassierung
Histogramm
PSID: Fläche proportional zur Häufigkeit
0.010
0.000
0.005
Dichte
0.015
0.020
Ungleiche Klassenbreiten
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
22 / 35
150
175
200
Statistik I Klassierte Daten
Stetige Klassierung
Histogramm
FALSCH: Höhe proportional zur Häufigkeit
Dichte
FALSCH!!!
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
23 / 35
150
175
200
Statistik I Klassierte Daten
Stetige Klassierung
Histogramm
PSID: Grobe Klassierung
Tabelle: Klassenmittel und -varianzen
(0,40]
(40,80]
(80,120]
(120,160]
(160,200]
24 / 35
n
7035
2253
495
174
66
mean
19.94
55.62
96.90
137.51
182.41
variance
130.84
122.77
119.88
149.50
177.93
Statistik I Klassierte Daten
Stetige Klassierung
Histogramm
Histogramm: PSID-Jahreslöhne (≤200Tsd. $)
5000
3000
0 1000
Abs. Häufigkeit
7000
5 Klassen gleicher Breite
0
25
50
75
100
125
Jahreslohn in 1000 US−Dollar
25 / 35
150
175
200
Statistik I Klassierte Daten
Stetige Klassierung
Empirische Verteilung und Quantile
Empirische Verteilungsfunktion und Quantile
I
Annahme: Gleichverteilung innerhalb der Klassen
I
Nur die Werte F (xjo ) sind exakt bekannt (und F (x1u ))
(︁
(︁ )︁)︁ (︁
)︁
(︁
)︁
Die Punkte x1u , F x1u , x1o , F (x1o ) , . . . , xJo , F (xJo ) werden
linear interpoliert
I
26 / 35
Statistik I Klassierte Daten
Stetige Klassierung
Empirische Verteilung und Quantile
Polygonzug: PSID-Jahreslöhne (≤200Tsd. $)
1.0
Annahme der Gleichverteilung in den Klassen
●
●
●
0.8
●
0.0
0.2
0.4
F(x)
0.6
●
●
0
20
40
60
80
100
x
27 / 35
120
140
160
180
200
Statistik I Klassierte Daten
Stetige Klassierung
Empirische Verteilung und Quantile
Beispiel: Gesucht ist F(50)
1.0
Approximative Ermittlung von F(x)
●
●
●
0.8
●
0.0
0.2
0.4
F(x)
0.6
●
●
0
20
40
60
80
100
x
28 / 35
120
140
160
180
200
Statistik I Klassierte Daten
Stetige Klassierung
Empirische Verteilung und Quantile
Approximative empirische Verteilungsfunktion
I
Approximative empirische Verteilungsfunktion
)︁
(︁
(︁ )︁
fj
)︁ x − xju
F (x) = F xju + (︁
xjo − xju
I
29 / 35
Wählen wir für F (x) einen vorgegebenen Wert p, führt
Auflösen nach x zu dem gesuchten approximativen Quantil
x̃p
(︁ )︁
)︁
p − F xju (︁
xjo − xju
x̃p = xju +
fj
Statistik I Klassierte Daten
Stetige Klassierung
Empirische Verteilung und Quantile
Herleitung
I
I
I
I
30 / 35
(︁ )︁
Start ist der Punkt xju ; F xju
(︁ )︁
Die Gerade zum Punkt xjo ; F xjo hat die Steigung
(︁ )︁
(︁ )︁
F xjo − F xju
fj
= o
o
u
xj − xj
xj − xju
Wir laufen die Strecke x − xju mit dieser Steigung
und landen bei F (x) :
(︁ )︁
(︁ )︁
(︁ )︁
F xjo − F xju
F (x) = F xju + (x − xju ) ·
xjo − xju
(︁ )︁
fj
= F xju + o
(x − xju )
xj − xju
Statistik I Klassierte Daten
Stetige Klassierung
Mittelwert und Varianz
Mittelwert bei klassierten Daten
(1) Wenn Klassenmittelwerte x̄j bekannt sind, gilt exakt
x̄ =
J
∑︁
x̄j
j =1
nj
n
(Folge aus Additionssatz für Mittelwerte)
(2) Wenn Klassenmittelwerte unbekannt sind, gilt approximativ
x̄ ≈
J
∑︁
j =1
mit x̃j = Klassenmitte von Kj
31 / 35
x̃j
nj
n
Statistik I Klassierte Daten
Stetige Klassierung
Mittelwert und Varianz
Varianz bei klassierten Daten
(1) Wenn x̄j und sj2 für alle Kj bekannt sind, verwende
Streuuungszerlegungssatz
2
s =
J
∑︁
j =1
J (︁
∑︁
)︁2 nj
+
x̄j − x̄
n
n
nj
sj2
j =1
(2) Wenn nur x̄j bekannt sind, approximiere
J (︁
∑︁
)︁2 nj
s ≈
x̄j − x̄
n
2
j =1
Beachte: Es fehlt die gesamte „interne Streuung“!
32 / 35
Statistik I Klassierte Daten
Stetige Klassierung
Mittelwert und Varianz
Varianz bei klassierten Daten
(3) Wenn auch x̄j unbekannt sind, approximiere mit
Klassenmitten x̃j
J (︁
∑︁
)︁2 nj
s ≈
x̃j − x̄
n
2
j =1
Beachte: Es fehlt die gesamte „interne Streuung“, die
„externe Streuung“ wird approximiert!
33 / 35
Statistik I Klassierte Daten
Stetige Klassierung
Mittelwert und Varianz
Varianz bei klassierten Daten: PSID-Löhne
I
PSID 2005: n = 10023 Jahreslöhne (≤ 200 Tsd $)
I
Tatsächliche Varianz
s
2
=
J
∑︁
j =1
J (︁
∑︁
)︁2 nj
+
x̄j − x̄
n
n
nj
sj2
j =1
= 129.1163 + 769.5483
= 898.6647
34 / 35
Statistik I Klassierte Daten
Stetige Klassierung
Mittelwert und Varianz
Approximation bei klassierten Daten: PSID-Löhne
I
Approximation mit Klassenmitteln x̄j
s
2
J (︁
∑︁
)︁2 nj
x̄j − x̄
≈
n
j =1
= 769.5483
I
Unterschätzung um 14.4% (769.5483/898.6647 =
0.856 32)
Approximation mit Klassenmitten x̃j
s2
≈
J (︁
∑︁
)︁2 nj
x̃j − x̄
n
j =1
= 837.2031
Unterschätzung um 6.8% (837.2031/898.6647 = 0.931 61)
35 / 35
Statistik I Vergleichsmaßzahlen
Statistik I
Vergleichsmaßzahlen
Prof. Dr. Andreas Behr
1 / 29
Statistik I Vergleichsmaßzahlen
Inhaltsverzeichnis
Verhältniszahlen
Gliederungszahlen
Beziehungszahlen
Strukturanalysen
Grundlagen
Maßzahlen des Strukturvergleichs
Standardisierung und Isolierung
PSID
2 / 29
Statistik I Vergleichsmaßzahlen
Verhältniszahlen
Arten von Verhältniszahlen
I
I
Eine Verhältniszahl ist der Quotient von zwei statistischen
Maßzahlen
Drei Arten von Verhältniszahlen:
1. Gliederungszahlen (Anteile)
2. Beziehungszahlen
3. Messzahlen
3 / 29
Statistik I Vergleichsmaßzahlen
Verhältniszahlen
Gliederungszahlen
Gliederungszahlen (Anteile)
I
Eine Grundgesamtheit G zerfällt in J Teilgesamtheiten
G1 , . . . , GJ
I
U ist ein Merkmal, bei dem die Merkmalssumme einen Sinn
macht
I
Die Werte u1 , . . . , uJ von U beziehen sich auf G1 , . . . , GJ
∑︀
Die Summe u = Jj=1 uj bezieht sich auf G
I
I
Gliederungszahlen:
gj =
4 / 29
uj
uj
= ∑︀J
u
r =1 ur
Statistik I Vergleichsmaßzahlen
Verhältniszahlen
Beziehungszahlen
Beziehungszahlen
I
I
Eine Grundgesamtheit G zerfällt in J Teilgesamtheiten
G1 , . . . , GJ
Zwei Merkmale U und V mit Werten
I
I
I
I
uj und vj in Gj
∑︀
∑︀
u = Jj=1 uj und v = Jj=1 vj in G
U und V sind sachlich verschieden, stehen aber in einer
sinnvollen Verbindung zueinander
Die Quotienten
bj =
I
5 / 29
uj
vj
und b =
u
v
heißen Beziehungszahlen in Gj bzw. G
Beispiel: Umsatzrendite (Gewinn/Umsatz)
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Grundlagen
Strukturvergleich: Beispiel
Beschäftigte
Sektoren
1
2
3
4
Land A
300
100
400
200
Land B
200
400
600
800
Land A
0.3
0.1
0.4
0.2
Land B
0.1
0.2
0.3
0.4
Anteile
Sektoren
1
2
3
4
6 / 29
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Grundlagen
Summarische Maße von Strukturunterschieden
7 / 29
I
Ziel: Zusammenfassende Maßzahl des Unterschieds
I
Interpretationshilfe durch Normierung
I
Oft wird auf den Bereich [0, 1] normiert
I
Wert für minimalen (z.B. 0) und Wert für maximalen
Unterschied (z.B. 1)
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Grundlagen
Anteile und Anteilsdifferenzen
I
Ausgangspunkt sind Gliederungszahlen aj
I
Wir betrachten zwei Massen 1 und 2
I
Masse 1 : a11 , a12 , a13 , ...
I
Masse 2 : a21 , a22 , a23 , ...
Sektoren
1
2
3
4
8 / 29
Land A
a11 = 0.3
a12 = 0.1
a13 = 0.4
a14 = 0.2
Land B
a21 = 0.1
a22 = 0.2
a23 = 0.3
a24 = 0.4
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Maßzahlen des Strukturvergleichs
Strukturdifferenz
I
Strukturdifferenz
SD
=
J
∑︁
|a1j − a2j |
j =1
0 ≤ SD ≤ 2
I
Beispiel:
SD
=
J
∑︁
|a1j − a2j |
j =1
= |0.3 − 0.1| + |0.1 − 0.2| + |0.4 − 0.3| + |0.2 − 0.4|
= 0.2 + 0.1 + 0.1 + 0.2 = 0.6
9 / 29
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Maßzahlen des Strukturvergleichs
Normierte Strukturdifferenz
I
Normierte Strukturdifferenz
I
Vereinfachtung der Interpretation durch Normierung auf
den Bereich 0 bis 1
NSD
= 0.5
J
∑︁
|a1j − a2j |
j =1
0 ≤ NSD ≤ 1
I
10 / 29
NSD gibt den Anteil an, der ’wandern’ muss, um eine
Gleichheit der Struktur zu erreichen
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Maßzahlen des Strukturvergleichs
Euklidische Norm
I
Euklidische Norm
EN
=
⎯
⎸
⎷ J
∑︁
(a1j − a2j )2
j =1
√
0 ≤ EN ≤ 2
I
Beispiel:
EN
⎯
⎸
⎷ J
∑︁
(a1j − a2j )2
=
j =1
√︃
=
(0.3 − 0.1)2 + (0.1 − 0.2)2
+(0.4 − 0.3)2 + (0.2 − 0.4)2
= 0.316 23
11 / 29
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Strukturanalysen
12 / 29
I
Z.B. Analyse von Lohndifferenzen
I
Frauen verdienen weniger als Männer
I
Verdienen Frauen für gleiche Tätigkeiten weniger
(Niveau-Effekt)?
I
Haben Frauen eine ungünstigere Struktur bezüglich der
Tätigkeiten (Struktur-Effekt)?
I
Wie tragen beide Effekte zum gesamten Unterschied bei?
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Beschäftigungs- und Lohnstruktur
I
Wir betrachten 2 Gruppen, Männer (m) und Frauen (w)
I
und zwei Sektoren Hochlohnsektor (h ) und
Niedriglohnsektor (l )
I
Folgende Durchschnittslöhne in den Sektoren sind gegeben
Hochlohnsektor (h )
Niedriglohnsektor (l )
13 / 29
Männer (m)
Lohn
7
3
Frauen (w)
Lohn
5
2
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Beispiel
I
Frauen verdienen in beiden Sektoren weniger als Männer,
d.h. Frauen haben ein niedrigeres Lohnniveau
I
Der Durchschnittslohn von Männern und Frauen insgesamt
hängt von der sektoralen Struktur der Beschäftigung ab
A: h
l
14 / 29
m
0.5
0.5
f
0.5
0.5
B: h
l
m
0.2
0.8
f
0.8
0.2
C: h
l
m
0.8
0.2
f
0.2
0.8
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Beispiel
I
15 / 29
Folgende Durchschnittslöhne resultieren:
A : w̄m = 7 · 0.5 + 3 · 0.5 = 5.0
w̄f = 5 · 0.5 + 2 · 0.5 = 3.5
B : w̄m = 7 · 0.2 + 3 · 0.8 = 3.8
w̄f = 5 · 0.8 + 2 · 0.2 = 4.4
C : w̄m = 7 · 0.8 + 3 · 0.2 = 6.2
w̄f = 5 · 0.2 + 2 · 0.8 = 2. 6
I
Offenkundig ist die Struktur A ’neutral’
I
Struktur B ist für die Männer ungünstig, der Vorteil im
Niveau wird durch die nachteilige Struktur überkompensiert
I
Struktur C ist für die Männer günstig, der Vorteil im Niveau
wird durch die günstige Struktur verstärkt
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Komponenten von Gesamtdifferenzen
I
Im Folgenden betrachten wir die Struktur C
(h )
(l )
16 / 29
Männer (m)
Lohn (w)
7
3
Anteil (a)
0.8
0.2
Frauen (f )
Lohn (w)
5
2
Anteil (a)
0.2
0.8
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Komponenten von Gesamtdifferenzen
I
Die Durchschnittslöhne in den Länder ergeben sich als mit
den sektoralen Beschäftigungsanteilen gewichtete
arithmetische Mittel der sektoralen Durchschnittslöhne
w̄m
=
J
∑︁
w̄mj · amj = 6.2
j =1
w̄f
=
J
∑︁
w̄fj · afj = 2.6
j =1
I
Zwei Komponenten
I
I
17 / 29
Sektorale Durchschnittslöhne
Sektorale Beschäftigungsanteile
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Standardisierung auf eine Referenzstruktur
I
Gesamte Lohndifferenz
w̄m − w̄f =
J
∑︁
j =1
18 / 29
w̄mj · amj −
J
∑︁
w̄fj · afj = 3.6
j =1
I
Ziel ist die Ermittlung der isolierten Beiträge der beiden
Komponenten Lohnhöhe und Beschäftigungsstruktur zur
Gesamtdifferenz
I
Standardisierung auf eine Komponente eliminiert den Effekt
dieser Komponente
I
Der Einfluß der anderen Komponente wird isoliert
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Isolierung des Niveaueffekts
I
Standardisierung von w̄f bezüglich amj
w̄f (am ) =
J
∑︁
w̄fj · amj = 4.4
j =1
I
Vergleich von bezüglich der Struktur standardisierten
Mittelwerten isoliert den Lohneffekt
w̄m − w̄f (am ) =
J
∑︁
(w̄mj − w̄fj ) · amj = 1.8
j =1
19 / 29
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Isolierung des Struktureffekts
I
Standardisierung von w̄f bezüglich w̄mj
w̄f (w̄m ) =
J
∑︁
w̄mj · afj = 3.8
j =1
I
Vergleich von bezüglich der Löhne standardisierten
Mittelwerten isoliert den Struktureffekt
w̄m − w̄f (w̄m ) =
J
∑︁
j =1
20 / 29
w̄mj (amj − afj ) = 2.4
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Gesamtunterschied und isolierte Komponenten
I
Die Gesamtdifferenz
w̄m − w̄f =
J
∑︁
w̄mj · amj −
j =1
I
w̄fj · afj = 3.6
j =1
wird nicht vollständig in isolierte Lohn- und Struktureffekte
zerlegt
w̄m − w̄f
, (w̄m − w̄f (am ) ) + (w̄m − w̄f (w̄m ) )
3.6 , 1.8 + 2.4
21 / 29
J
∑︁
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Mischeffekt
I
Es verbleibt ein Mischeffekt
w̄m − w̄f
=
J
∑︁
(w̄mj − w̄fj ) · amj
j =1
+
J
∑︁
w̄mj (amj − afj )
j =1
J
∑︁
−
(w̄mj − w̄fj )(amj − afj )
j =1
3.6 = 1.8 + 2.4 − 0.6
I
22 / 29
Der Mischeffekt beinhaltet ein Zusammenwirken von Lohnund Struktureffekt
Statistik I Vergleichsmaßzahlen
Strukturanalysen
Standardisierung und Isolierung
Vollständige Zerlegung ohne Mischeffekt
I
Der Mischeffekt läßt sich nicht weiter aufspalten
I
Je größer der Mischeffekt, desto weniger aussagekräftig ist
die Zerlegung
I
Beachte:
w̄m − w̄f
=
J
∑︁
w̄mj (amj − afj ) +
j =1
J
∑︁
(w̄mj − w̄fj ) · afj
j =1
3.6 = 2.4 + 1.2
I
23 / 29
Aber nur scheinbar vollständige Zerlegung in isolierte
Effekte, weil auf Löhne der Männer und Struktur der Frauen
standardisiert wurde
Statistik I Vergleichsmaßzahlen
PSID
PSID: Lohndifferenz Männer/Frauen
I
Insgesamt beobachten wir folgende Differenz der
Durchschnittslöhne zwischen Männern und Frauen
w̄m − w̄f = 24.25 − 16.08 = 8.17
I
Diese Differenz soll durch
I
I
24 / 29
Unterschiede in den sektoralen Durchschnittslöhnen und
Unterschiede in der sektoralen Beschäftigungsstruktur
’erklärt’ werden
Statistik I Vergleichsmaßzahlen
PSID
PSID: Datentabelle
Tabelle: Sektorale Beschäftigungs- und Lohnstruktur
Missing
Agr./Energy/Min.
Manufacturing
Construction
Trade
Transport
Bank/Insurance
Services
25 / 29
a_f
0.194
0.008
0.068
0.010
0.090
0.022
0.087
0.520
a_m
0.165
0.040
0.149
0.102
0.115
0.060
0.063
0.305
w_f
11.75
14.06
16.49
22.03
13.20
16.94
20.95
17.20
w_m
13.67
20.79
25.70
30.74
21.47
22.07
38.93
25.99
Statistik I Vergleichsmaßzahlen
PSID
PSID: Sektorale Beschäftigungsstruktur
0.5
Sektorstruktur nach Geschlecht
26 / 29
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0.0
0.1
0.2
0.3
0.4
Frauen
Männer
Statistik I Vergleichsmaßzahlen
PSID
PSID: Sektorale Durchschnittslöhne
40
Sektorale Durchschnittslöhne nach Geschlecht
Männer
27 / 29
Services
Bank/Insurance
Transport
Trade
Construction
Manufacturing
Agr./Energy/Min.
Missing
0
10
20
30
Frauen
Statistik I Vergleichsmaßzahlen
PSID
PSID: Niveau- und Struktureffekt
I
Niveaueffekt:
w̄m − w̄f (am ) =
J
∑︁
(w̄mj − w̄fj ) · amj = 7.92
j =1
I
Struktureffekt:
w̄m − w̄f (w̄m ) =
J
∑︁
j =1
28 / 29
w̄mj (amj − afj ) = 0.03
Statistik I Vergleichsmaßzahlen
PSID
PSID: Komponentenzerlegung
I
Mischeffekt
J
∑︁
(w̄mj − w̄fj )(amj − afj ) = −0.22
j =1
Gesamtdifferenz = Niveaueffekt + Struktureffekt - Mischeffekt
8.17 = 7.92 + 0.03 + 0.22
29 / 29
Wir betrachten 2 Gruppen, Männer (m) und Frauen (w)
und zwei Sektoren Hochlohnsektor (h) und Niedriglohnsektor (n)
Folgende Durchschnittslöhne in den Sektoren sind gegeben
Hochlohnsektor (h)
Niedriglohnsektor (l)
Männer (m)
Lohn
6
3
Anteil
0:8
0:2
Frauen (w)
Lohn
5
2
Anteil
0:2
0:8
Frauen verdienen in beiden Sektoren weniger als Männer, d.h. Frauen
haben niedrigeres Lohnniveau
Der Durchschnittslohn von Männern und Frauen insgesamt hängt von der
sektoralen Struktur der Beschäftigung ab
A: h
l
m
0:5
0:5
w
0:5 B : h
0:5
l
m
0:2
0:8
w
0:8 C : h
0:2
l
m
0:8
0:2
w
0:2
0:8
Folgende Durchschnittslöhne resultieren:
A : xm = 6 0:5 + 3 0:5 = 4:5 xw = 5 0:5 + 2 0:5 = 3:5
B : xm = 6 0:2 + 3 0:8 = 3:6 xw = 5 0:8 + 2 0:2 = 4:4
C : xm = 6 0:8 + 3 0:2 = 5:4 xw = 5 0:2 + 2 0:8 = 2: 6
O¤enkundig ist die Struktur A ’neutral’
Struktur B ist für die Männer ungünstig, der Vorteil im Niveau wird durch
die nachteilige Struktur überkompensiert
Struktur C ist für die Männer günstig, der Vorteil im Niveau wird durch
die günstige Struktur verstärkt
Im Folgenden betrachten wir die Struktur C
1
Statistik I Konzentrations- und Disparitätsmessung
Statistik I
Konzentrations- und Disparitätsmessung
Prof. Dr. Andreas Behr
1 / 42
Statistik I Konzentrations- und Disparitätsmessung
Inhaltsverzeichnis
Konzentrationsmessung
Absolute Konzentration
Merkmalssummenverteilung
Konzentrationskurve
Rosenbluth-Index
Herfindahl-Index
Disparitätsmessung
Lorenzkurve
Gini-Koeffizient
2 / 42
Statistik I Konzentrations- und Disparitätsmessung
Konzentrationsmessung
Konzentration
3 / 42
I
Es wird unterschieden in absolute und relative
Konzentration
I
Absolute und relative Konzentrationsmessung verfolgen
sachlogisch unterschiedliche Anliegen
I
Absolute Konzentration: „Zusammenballung“ eines hohen
Anteils der gesamten Merkmalssumme auf wenige
(absolute) Einheiten
I
Relative Konzentration: Ungleichheit der Verteilung,
Disparität
I
Beachte: bei gleichem Sachverhalt können absolute und
relative Konzentrationsmaße ein ganz unterschiedliches
Ausmaß der „Konzentration“ anzeigen
Statistik I Konzentrations- und Disparitätsmessung
Konzentrationsmessung
Konzentration
Absolute Konzentration
I
Typisches Beispiel: Die drei größten Kfz-Hersteller erzielen
X % des gesamten Umsatzes
I
Anliegen ist hier die Abschätzung der Gefahr schädlicher
Oligopolwirkungen (Preisabsprachen, etc.)
Relative Konzentration
4 / 42
I
Typisches Beispiel: Die X % ärmsten Haushalte Deutschlands
verfügen über lediglich Y % des gesamten Einkommens
I
Anliegen ist hier das Ausmaß der Verteilungsungerechtigkeit
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Merkmalssummenverteilung
Merkmalssumme
I
Beachte: hier absteigend sortierte Merkmalswerte
x1 ≥ x2 ≥ x3 ≥ ... ≥ xn ≥ 0
I
I
Ausgangspunkt der Konzentrationsmaße ist die
Merkmalssummenverteilung
Die Merkmalssumme ist
n
∑︁
xi
i =1
I
Der Anteil der Einheit r an der Merkmalssumme ist
x
x
hr = n r = r r = 1, . . . , n
∑︀
n x̄
xi
i =1
5 / 42
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Merkmalssummenverteilung
Merkmalssumme
I
Die Merkmalssummenverteilung kann ganz analog der
Häufigkeitsverteilung dargestellt und analysiert werden
I
D.h. es können praktisch alle Maßzahlen direkt übertragen
werden
I
Wir betrachten ein kleines Zahlenbeispiel
x = {12, 5, 2, 1}
I
Für unser Zahlenbeispiel finden wir
n
∑︁
i =1
6 / 42
xi = 20
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Merkmalssummenverteilung
Merkmalssumme
I
Für jede Einheit kann die relative Häufigkeit f und die
relative Merkmalssumme h ermittelt werden
I
In unserem Beispiel finden wir für r = 3
f3 = 1/n = 1/4 = 0.25
x
h3 = n 3 = 2/20 = 0.1
∑︀
xi
i =1
7 / 42
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Merkmalssummenverteilung
Merkmalssumme
I
Insgesamt ergibt sich
r
1
2
3
4
I
xr
fr
hr
12
5
2
1
1
4
1
4
1
4
1
4
12
20
5
20
2
20
1
20
= 0.6
= 0.25
= 0.1
= 0.05
Auch für die Merkmalsanteile gilt damit
h1 ≥ h2 ≥ h3 ≥ ... ≥ hn ≥ 0
8 / 42
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Konzentrationskurve
Konzentrationsraten
I
I
I
I
Einfaches und sehr anschauliches Maß der absoluten
Konzentration
CR3 gibt an, wieviel Prozent der gesamten Merkmalssumme
die größten drei Einheiten haben
Die Konzentrationsrate ist somit einfach eine Summe von
Merkmalsanteilen
Konzentrationsrate CR3
CR3 =
3
∑︁
hr
r =1
I
Allgemein CRi :
CRi =
i
∑︁
r =1
9 / 42
hr
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Konzentrationskurve
Konzentrationsraten: Extremfälle
I
Eine Einheit hat die gesamte Merkmalssumme (maximale
Konzentration):
h1 = 1, h2 = h3 = ... = hn = 0
I
Alle Einheiten haben die gleiche Merkmalssumme (minimale
Konzentration):
h1 = h2 = h3 = ... = hn = 1/n
I
Definitionsbereich
i /n ≤ CRi ≤ 1
10 / 42
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Konzentrationskurve
Konzentrationskurve
11 / 42
I
Darstellung der Wertepaare (i ; CRi )
I
Je weiter aufgewölbt die Konzentrationskurve ist, desto
höher ist die Konzentration
I
Die Fläche über der Konzentrationskurve wird mit A
bezeichnet
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Konzentrationskurve
Konzentrationskurve: Grafische Darstellung
Konzentrationskurve
1.0
●
●
CR(i)
●
A
0.8
0.6
●
0.4
0.2
0.0
0
1
2
i
12 / 42
3
4
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Konzentrationskurve
Konzentrationskurve: Minimale und maximale
Konzentration
Konzentrationskurve
1.0
●
max
min
0.8
CR(i)
●
●
●
●
0.6
●
0.4
●
0.2
0.0
0
13 / 42
1
2
3
4
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Rosenbluth-Index
Rosenbluth-Index
I
Konzentrationskurve enthält punktuelle Maße: CRi
I
Wünschenswert ist die Verdichtung aller CRi zu einer
Maßzahl
I
Die Fläche A oberhalb der Konzentrationskurve ist ein
zusammenfassendes Maß
I
Je kleiner die Fläche, desto höher die Konzentration
I
Der Rosenbluth-Index ist definiert als
KR =
14 / 42
1
2A
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Rosenbluth-Index
Rosenbluth-Index
I
Der Index kann direkt berechnet werden als
KR =
1
1
)︃
= (︃
n
2A
∑︀
2
i · hi − 1
i =1
I
Der Rosenbluth-Index hat folgenden Definitionsbereich
1
≤ KR ≤ 1
n
15 / 42
1
n
I
KR =
I
KR = 1 bei maximaler Konzentration
bei minimaler Konzentration
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Rosenbluth-Index
Rosenbluth-Index
I
In unserem Beispiel
KR
1
=
2
n
∑︀
i · hi − 1
i =1
1
2(1 · 0.6 + 2 · 0.25 + 3 · 0.1 + 4 · 0.05) − 1
= 0.454 55
=
Beachte:
16 / 42
I
absteigende Sortierung muß beachtet werden
I
Die kleinsten Einheiten (kleine hr ) erhalten die größten
Gewichte (große i )
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Herfindahl-Index
Herfindahl-Index
I
Der Herfindahl-Index ist definiert als Summe der quadrierten
Merkmalsanteile
n
∑︁
KH =
hi2
i =1
I
KH ist ein einfaches und sehr oft verwendets Maß der
absoluten Konzentration
I
Der Herfindahl-Index hat folgenden Definitionsbereich
1
≤ KH ≤ 1
n
17 / 42
1
n
I
KH =
I
KH = 1 bei maximaler Konzentration
bei minimaler Konzentration
Statistik I Konzentrations- und Disparitätsmessung
Absolute Konzentration
Herfindahl-Index
Herfindahl-Index
I
KH
In unserem Beispiel
n
∑︁
=
r
hi2
i =1
= 0.62 + 0.252 + 0.12 + 0.052
I
= 0.435
Beachte:
I
I
I
18 / 42
1
2
3
4
xr
fr
hr
12
5
2
1
1
4
1
4
1
4
1
4
12
20
5
20
2
20
1
20
= 0.6
= 0.25
= 0.1
= 0.05
Hier ist die Sortierung unerheblich
Die kleinen Einheiten (kleine hr ) erhalten besonders kleine
Gewichte (kleine hr )
In der Praxis werden oft die kleinsten Einheiten nicht erhoben.
In diesen Fällen ist der Herfindahl-Index sehr viel besser als
der Rosenbluth-Index geeignet
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve
I
Die Lorenzkurve dient der Beurteilung der relativen
Konzentration
I
Die Lorenzkurve stellt die Disparität (Ungleichheit) dar
I
Wie die Konzentrationskurve stellt die Lorenzkurve die
Verknüpfung punktueller Konzentrationsmaße dar
I
Beachte: hier aufsteigend sortierte Merkmalswerte
x1 ≤ x2 ≤ x3 ≤ ... ≤ xn
I
Auch für die Merkmalsanteile gilt damit
h1 ≤ h2 ≤ h3 ≤ ... ≤ hn
19 / 42
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve
I
Ein punktuelles Maß ist der Vergleich von kumulierter
relativer Häufigkeit und kumulierter relativer
Merkmalssumme
i
∑︁
r =1
fr
=
i
∑︁
1
r =1
n
=
i
n
i
(︂ )︂
∑︁
i
L
=
hr
n
r =1
I
I
20 / 42
Für i = 5 gibt 5/n den Anteil der 5 kleinsten Einheiten an
allen n Einheiten an
L (5/n) gibt den Anteil der fünf kleinsten Einheiten an der
gesamten Merkmalssumme an
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve: Beispiel
I
Einkommensdisparität in einer Kleinstadt mit n = 1000
I
Punktuelle Aussage für i = 100
I i = 100 = 0.10
n
1000
I L ( i ) = L (0.1) = 0.02
n
I D.h. die ärmsten 10% der
Einwohner haben lediglich 2% der
Einkommenssumme
21 / 42
I
Die Lorenzkurve stellt alle punktuellen Maße (i /n; L (i /n)) dar
I
Die punktuellen Maße werden mit Geraden verbunden
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve: Beispiel
I
Beachte: Für i = n gilt i /n = n/n = 1 und
L (i /n) = L (n/n) = L (1) = 1
I
In unserem Beispiel findet sich
i
1
2
3
4
22 / 42
xi
fi
i /n
hi
1
2
5
12
1
4
1
4
1
4
1
4
1
4
2
4
3
4
1
20
2
20
5
20
12
20
1
L (i /n)
= 0.05
= 0.1
= 0.25
= 0.6
0.05
0.05 + 0.1 = 0.15
0.15 + 0.25 = 0.4
0.4 + 0.6 = 1
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve: Grafische Darstellung
Lorenzkurve
1.0
●
0.8
L(i/n)
0.6
0.4
●
0.2
●
●
0.0
0.0
0.2
0.4
0.6
i/n
23 / 42
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve: Extremfälle
24 / 42
I
Maximale Disparität L ( n1 ) = L ( n2 ) = ... = L ( n−1
n ) = 0 und
L ( nn ) = 1
I
D.h. eine Einheit hat die gesamte Merkmalssumme
I
Minimale Disparität h1 = h2 = ... = hn = 1/n und L ( ni ) =
I
D.h. alle Einheiten haben die gleiche Merkmalsausprägung
i
n
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Lorenzkurve
Lorenzkurve: Minimale und maximale Disparität
Lorenzkurve
1.0
●
max
min
0.8
●
L(i/n)
0.6
●
0.4
●
0.2
0.0
●
0.0
●
0.2
●
0.4
0.6
i
25 / 42
●
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient
I
Die in der Lorenzkurve enthaltene Information soll wieder zu
einer einzelnen Maßzahl verdichtet werden
I
Je weiter die Lorenzkurve ’durchhängt’, desto höher ist die
relative Konzentration
I
Die Fläche A zwischen der Diagonalen und der Lorenzkurve
misst damit die Konzentration
I
Der Gini-Index ist definiert
DG
= 2A
n
∑︁
2i − n − 1
=
hi
n
i =1
I
26 / 42
Beachte: Die Daten müssen aufsteigend sortiert sein
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Lorenzkurve: Konzentrationsfläche
Lorenzkurve
1.0
●
0.8
L(i/n)
0.6
A
0.4
●
0.2
●
●
0.0
0.0
0.2
0.4
0.6
i/n
27 / 42
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient: Definitionsbereich
I
Der Gini-Index hat folgenden Definitionsbereich
0 ≤ DG ≤ 1 −
28 / 42
1
n
I
DG = 0 bedeutet minimale Konzentration
I
DG = 1 − 1/n bedeutet maximale Konzentration
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient
29 / 42
I
In unserem Beispiel
I
Mit einer kleinen Hilfstabelle
i
xi
fi
i /n
hi
1
1
0.05
2
0.1
0.15
3
5
1
4
2
4
3
4
0.05
2
0.25
0.4
4
∑︀
12
1
4
1
4
1
4
1
4
1
0.6
20
1
1
L (i /n)
1
2i −n−1
n
2·1−4−1
4
2·2−4−1
4
2·3−4−1
4
2·4−4−1
4
0
hi 2i −n−1
n
= −0.75
0.05 · (−0.75) = −0.037 5
= −0.25
0.1 · (−0.25) = −0.025
= 0.25
0.25 · 0.25 = 0.062 5
= 0.75
0.6 · 0.75 = 0.45
DG = 0.45
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient
I
Oder durch direktes Einsetzen
DG
=
n
∑︁
hi
i =1
2i − n − 1
n
2·1−4−1
2·2−4−1
2·3−4−1
+ 0.1
+ 0.25
4
4
4
2·4−4−1
+0.6
4
= 0.45
= 0.05
30 / 42
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei klassierten Daten
31 / 42
I
Bisher wurde das Vorliegen von Individualdaten
vorausgesetzt
I
Oftmals werden amtliche Daten nur klassiert bereitgestellt
I
In diesem Falle geht die Information über die Verteilung
innherhalb der Klassen verloren
I
Betrachten wir ein anderes kleines Beispiel
I
x = (1, 2, 3, 4, 4, 4, 6, 6, 8, 12)
I
Es liegen die Daten nur klassiert nach 3 Klassen vor, n = 10
sei bekannt
I
k1 = [0, 4], k2 = ]4, 7] , k3 = ]7, 14]
I
f1 = 0.6, f2 = 0.2, f3 = 0.2
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei klassierten Daten
32 / 42
I
Es ist zu unterscheiden, ob Klassenmittel x̄j geliefert werden,
oder diese über die Klassenmitten x̃j geschätzt werden
müssen
I
Wir nehmen an, die Klassenmittel sind bekannt
I
Damit kann die tatsächliche Merkmalssumme berechnet
werden
j kj
fj
x̄j
nj x̄j hj
Lj
1 [0, 4]
0.6 3
18
0.36 0.36
2 ]4, 7]
0.2 6
12
0.24 0.60
3 ]7, 14] 0.2 10 20
0.4
1
1
50
1
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei klassierten Daten
DG = 1 −
J
∑︁
fj (Lj −1 + Lj )
j =1
I
In unserem Beispiel mit klassierten Daten
DG
= 1 − (0.6 · 0.36 + 0.2 · 0.96 + 0.2 · 1.6)
= 0.272
I
In unserem Beispiel mit Individualdaten (n=10)
DG
=
n
∑︁
i =1
hi
2i − n − 1
n
= 0.324
33 / 42
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei klassierten Daten
34 / 42
I
Bei Verwendung von Individualdaten liegt der
Gini-Koeffizient üblicherweise über dem Gini-Koeffizienten
für (dieselben) klassierten Daten
I
Woher kommt der Unterschied?
I
Bei klassierten Daten liegt keine Information über Verteilung
innerhalb der Klassen vor
I
Die Verbindung der punktuellen Maße an den
Klassengrenzen impliziert identische Werte innerhalb der
Klassen (keinerlei Disparität!)
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei klassierten Daten
35 / 42
I
Tatsächlich liegt auch innerhalb der Klassen Disparität vor
I
Graphisch betrachtet: Zwischen den Punkten ist die
„tatsächliche“ Kurve konvex (linksgekrümmt, d.h. sie „hängt
durch“)
I
Die Fläche zwischen Diagonale und Lorenzkurve wird also
bei klassierten Daten unterschätzt
I
Damit wird auch der Gini-Koeffizient „zu klein“
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei Individualdaten
Lorenzkurve, Individualdaten
1.0
●
0.8
●
0.6
L(i/n)
●
●
0.4
●
●
0.2
●
●
●
●
0.0
0.0
0.2
0.4
0.6
i/n
36 / 42
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei klassierten Daten
Lorenzkurve, klassierte Daten
1.0
●
0.8
0.6
L(j)
●
0.4
●
0.2
0.0
●
0.0
0.2
0.4
0.6
F(j)
37 / 42
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Gini-Koeffizient bei indiv./klassierten Daten
Lorenzkurve, indiv./klassiert
1.0
klass.
indiv.
0.8
L(j)
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
F(j)
38 / 42
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
PSID: Lohnverteilung
0.010
0.000
0.005
Dichte
0.015
0.020
Histogramm der Lohnverteilung 2005
0
1000
2000
3000
4000
Jahreslohn in 1000 US−Dollar
39 / 42
5000
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
Lorenzkurve mit Individualdaten
1.0
Lohnkonzentration, USA, 2005
0.0
0.2
0.4
L(i/n)
0.6
0.8
Gini=0.49
0.0
0.2
0.4
0.6
i/n
40 / 42
0.8
1.0
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
PSID: Grobe Klassierung
Tabelle: PSID: 6 Klassen
(0,20]
(20,50]
(50,100]
(100,250]
(250,1e+03]
(1e+03,5.5e+03]
41 / 42
n
3604
4376
1637
442
63
7
mean
10.27
33.40
68.52
141.04
388.17
2311.13
f
0.36
0.43
0.16
0.04
0.01
0.00
F
0.36
0.79
0.95
0.99
1.00
1.00
h
0.09
0.37
0.28
0.16
0.06
0.04
L
0.09
0.46
0.74
0.90
0.96
1.00
Statistik I Konzentrations- und Disparitätsmessung
Disparitätsmessung
Gini-Koeffizient
PSID: Gini-Koeffizient bei indiv./klassierten Daten
1.0
Lohnkonzentration, USA, 2005
0.8
Gini=0.49
0.6
Gini=0.45
0.0
0.2
0.4
L(i/n)
klass.
indiv.
0.0
0.2
0.4
0.6
i/n
42 / 42
0.8
1.0
Statistik I Preis- und Mengenindizes
Statistik I
Preis- und Mengenindizes
Prof. Dr. Andreas Behr
1 / 28
Statistik I Preis- und Mengenindizes
Inhaltsverzeichnis
Messzahlen
Messzahlen mit fester Basiszeit
Messzahlen mit variabler Basiszeit
Indexzahlen
Notation und Begriffe
Layspeyres-, Paasche- und Fisher-Indizes
Beispiel
2 / 28
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen
I
Der Quotient von zwei sachlich aufeinander bezogenen
Maßzahlen heißt Messzahl
I
Messzahlen des sachlichen, räumlichen oder zeitlichen
Vergleichs
I
Beispiel: Sachlicher Vergleich
WiWi-Studierende im SS 2004
WiWi-Professoren im SS 2004
I
Beispiel: Räumlicher Vergleich
Einwohner in Deutschland
Einwohner in Frankreich
3 / 28
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen des zeitlichen Vergleichs
I
Besonders wichtig: Messzahlen des zeitlichen Vergleichs
I
Zeitreihe: zeitlich geordnete Folge von Werten x0, x1 , . . . , xT
I
Feste Basiszeit: Messzahl für Berichtszeit t zur Basiszeit 0
m0,t =
I
4 / 28
xt
x0
Variable Basiszeit: Messzahl für Berichtszeit t zur Basiszeit
t −1
x
mt−1,t = t
xt−1
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit fester Basiszeit
Feste Basiszeit
I
Zirkularität von Messzahlen
m0,t
I
= m0,s · ms,t
x
xs xt
= t
=
x0 xs
x0
Umbasierung: von Basiszeit 0 zu Basiszeit s
ms,t
x
= t =
xs
xt
x0
xs
x0
=
m0,t
m0,s
Beispiel: alte Basis: 2000, neue Basis: 2003
Jahr:
alt:
neu:
5 / 28
2000
100.0
2001
110.0
2002
130.0
2003
150.0
100.0
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit fester Basiszeit
Umbasierung: Beispiel
Jahr:
2000
2001
2002
2003
alt: p00 = 100.0
00
neu:
(immer: ·100)
p01
p00 = 110.0
p02
p00 = 130.0
p03
p00 = 150.0
p03
p03 = 100.0
p
Jahr:
2000
2001
2002
2003
alt:
100.0
110.0
p02
p00 = 130.0
p
1
= 130 150 = 86.67 = p02
03
p03
p00 = 150.0
p03
p03 = 100.0
neu:
(immer: ·100)
6 / 28
p02 p00
p00 p03
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit fester Basiszeit
Verkettung
I
Mache aus zwei Folgen von Messzahlen
m0,t für t
= 0, 1, 2, . . . , s
ms,t für t
= s, s + 1, s + 2, . . .
eine durchgehende Folge zur Basis 0
{︃
für t = 0, 1, . . . , s
m0,t = xxt
0
m0,t =
m0,s · ms,t = xxs xxt = xxt
für t = s, s + 1, . . .
0
oder zur Basis s
⎧
⎪
⎪
⎪
⎨ m0,t /m0,s =
ms,t = ⎪
⎪
⎪
⎩ m = xt
s,t
7 / 28
xs
xt
x0
xs
x0
s
=
0
xt
xs
für t = 0, 1, . . . , s
für t = s, s + 1, . . .
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit fester Basiszeit
Verkettung: Beispiel
Jahr:
Reihe1, Basis ’97:
Reihe2, Basis ’00:
8 / 28
1997
100
1998
105
1999
80
90
2000
2001
100
120
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit fester Basiszeit
Verkettung: Beispiel
Jahr:
Reihe1:
Reihe2:
Basis ’97:
1997
100
100
2000 :
2001 :
9 / 28
1998
105
105
x99
x97
x99
x00
x99
x01 x97
x00 xx99
00
x00
x00
1999
80
90
2000
2001
100
120
80
100· 80
90 =88. 89
120· 80
90 =106. 67
= 100 ·
80 x00
=
= 88. 89
90 x97
= 120 ·
80 x01
=
= 106. 67
90 x97
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit fester Basiszeit
Verkettung: Beispiel
Jahr:
Reihe1:
Reihe2:
1997
100
1998
105
Basis ’00:
100· 90
80 =112.5
90
=118.13
105· 80
1998 :
1997 :
10 / 28
x99
x00
x99
x97
x99
x97 x00
x97 xx99
97
x98
x97
1999
80
90
2000
2001
100
120
90
100
120
= 105 ·
90 x98
=
= 118. 13
80 x00
= 100 ·
90 x97
=
= 112. 5
80 x00
Statistik I Preis- und Mengenindizes
Messzahlen
Messzahlen mit variabler Basiszeit
Variable Basiszeit
I
Die Messzahlen
mt−1,t =
xt
xt−1
heißen auch Wachstumsfaktoren oder
Vervielfachungskoeffizienten (Zuwachsfaktoren)
I
Zugehörige Wachstumsrate (oder Zuwachsrate)
wt−1,t =
11 / 28
xt − xt−1
= mt−1,t − 1
xt−1
I
Problem: Wie berechnet man die durchschnittliche
Wachstumsrate?
I
Geometrische Mittelung der Vervielfachungskoeffizienten
Statistik I Preis- und Mengenindizes
Indexzahlen
Notation und Begriffe
Fragestellungen
Zeitliche Vergleiche
I
Wie hat sich „das Preisniveau“ verändert?
I
Wie haben sich „die Aktienkurse“ entwickelt?
I
Wie hoch ist „die Kaufkraft“ eines Euro in Japan?
I
Wie stark ist „die Exportmenge“ gestiegen (oder gefallen)?
I
Wie sieht die Umsatzentwicklung aus?
Räumliche Vergleiche
I
12 / 28
Wie hoch ist „die Kaufkraft“ eines Euro in Japan?
Statistik I Preis- und Mengenindizes
Indexzahlen
Notation und Begriffe
Indexzahlen
13 / 28
I
Bisher nur Veränderung eines Gutes betrachtet
I
Wie haben sich mehrere Preise (Mengen, Werte) „insgesamt“
verändert?
I
Offenkundig: Preis-, Mengen- oder Wertmeßzahlen müssen
gemittelt werden
I
Problem: Wie sollen die Meßzahlen gewichtet werden?
Statistik I Preis- und Mengenindizes
Indexzahlen
Notation und Begriffe
Notation und Begriffe
14 / 28
I
pt (i ) = Preis eines Gutes i zur Zeit t
I
qt (i ) = (gekaufte oder verkaufte) Menge des Gutes i zur
Zeit t
I
vt (i ) = Wert des Gutes i zur Zeit t
I
Es gilt: vt (i ) = pt (i ) · qt (i )
I
Basiszeit ist 0; Berichtszeit ist t
Statistik I Preis- und Mengenindizes
Indexzahlen
Notation und Begriffe
Notation und Begriffe
I
Messzahlen
pt (i )
p0 (i )
qt (i )
q0 (i )
vt (i )
v0 (i )
I
Preismesszahl für das Gut i
Mengenmesszahl für das Gut i
Wertmesszahl für das Gut i
Zusammenhang zwischen Preis-, Mengen- und
Wertmesszahl
vt (i )
p (i ) · qt (i )
p (i ) qt (i )
= t
= t
·
v0 (i ) p0 (i ) · q0 (i ) p0 (i ) q0 (i )
15 / 28
Statistik I Preis- und Mengenindizes
Indexzahlen
Notation und Begriffe
Notation und Begriffe
Beispiel: Tomatenkauf eines Haushalts (pro Monat)
p2001 (Tomaten) = 1.40 EUR/kg
p2002 (Tomaten) = 2.00 EUR/kg
q2001 (Tomaten) = 2.5 kg
q2002 (Tomaten) = 1.5 kg
v2001 (Tomaten) = 3.50 EUR
v2002 (Tomaten) = 3.00 EUR
Messzahlen:
Preismesszahl = 2.00/1.40 = 1.4286
Mengenmesszahl = 1.5/2.5 = 0.6
Wertmesszahl = 1.4286 · 0.6 = 0.8571
16 / 28
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Preisindizes
17 / 28
I
Fragestellung im Folgenden: Wie aggregiert man
Preismesszahlen?
I
Ausgangspunkt: Inflationsrate eines Gutes ist leicht messbar
(nämlich durch seine Preismesszahl)
I
ABER: Preisentwicklung „insgesamt“ ist nicht leicht messbar,
denn nicht alle Preise bewegen sich auf die gleiche Weise
oder auch nur in die gleiche Richtung
I
Übliches Vorgehen: Es wird die Preisentwicklung eines
Warenkorbs betrachtet
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Preisindex von Laspeyres
I
Mittelwertform:
p
ILa ;0,t =
n
∑︁
pt (i )
·g
p0 (i ) i
i =1
18 / 28
p
I
ILa ;0,t ist ein gewichtetes arithmetisches Mittel der
Preismesszahlen
I
Gewichte (Wägungsschema) sind die Ausgabenanteile zur
Basiszeit 0
p (i )q0 (i )
gi = ∑︀n 0
i =1 p0 (i )q0 (i )
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Preisindex von Laspeyres
I
Umformen ergibt die Aggregatform:
p
ILa ;0,t
n
∑︁
pt (i )
p (i )q0 (i )
=
· ∑︀n 0
p0 (i )
i =1 p0 (i )q0 (i )
i =1
n
∑︀
=
i =1
n
∑︀
pt (i )q0 (i )
p0 (i )q0 (i )
i =1
I
Bedeutung der Aggregatform
p
ILa ;0,t =
19 / 28
Kosten des alten Warenkorbs zur Zeit t
Kosten des alten Warenkorbs zur Zeit 0
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Preisindex von Paasche
I
Mittelwertform:
p
IPa ; 0,t
⎞−1
⎛ n (︃
)︃
⎟⎟
⎜⎜∑︁ pt (i ) −1
⎜
= ⎜⎜⎝
· gi ⎟⎟⎟⎠
p0 (i )
i =1
p
I
IPa ; 0,t ist ein gewichtetes harmonisches Mittel der
Preismesszahlen
I
Gewichte sind die Ausgabenanteile in t
p (i )qt (i )
gi = ∑︀n t
j =1 pt (j )qt (j )
20 / 28
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Preisindex von Paasche
I
Umformen ergibt die Aggregatform:
p
IPa ;0,t
⎞−1
⎛ n (︃
)︃
⎜⎜∑︁ pt (i ) −1
pt (i )qt (i ) ⎟⎟⎟
⎜
⎟⎟
· ∑︀n
= ⎜⎜⎝
p0 (i )
pt (j )qt (j ) ⎠
i =1
j =1
n
∑︀
⎞−1
⎛ n
pt (i )qt (i )
⎜⎜∑︁ p0 (i )qt (i ) ⎟⎟
i =1
⎟
⎜
⎟
⎜
∑︀
= ⎜⎝
⎟⎠ = ∑︀
n
n
j =1 pt (j )qt (j )
i =1
p0 (i )qt (i )
i =1
I
Bedeutung der Aggregatform
p
IPa ;0,t =
21 / 28
Kosten des neuen Warenkorbs zur Zeit t
Kosten des neuen Warenkorbs zur Zeit 0
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Mengenindizes
I
I
I
22 / 28
Analog zu den Preisindizes
Laspeyres-Mengenindex
n
∑︁
qt (i )
p (i ) q0 (i )
q
· ∑︀n 0
ILa ; 0,t =
q0 (i )
j =1 p0 (j ) q0 (j )
i =1
∑︀n
qt (i ) p0 (i )
= ∑︀ni =1
i =1 q0 (i ) p0 (i )
Paasche-Mengenindex
⎞−1
⎛ n (︃
)︃
⎜⎜∑︁ qt (i ) −1
pt (i )qt (i ) ⎟⎟⎟
q
⎜
⎟⎟
IPa ;0,t = ⎜⎜⎝
· ∑︀n
q0 (i )
pt (j )qt (j ) ⎠
j
=
1
i =1
∑︀n
qt (i )pt (i )
= ∑︀ni =1
i =1 q0 (i )pt (i )
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Wertindex
I
Kein Aggregationsproblem (da alles in EUR)
I
Wertindex:
v
I0,t
23 / 28
∑︀n
∑︀n
pt (i )qt (i )
i =1 vt (i )
∑︀
∑︀
= ni =1
= n
v
(i
)
p
i =1 0
i =1 0 (i )q0 (i )
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Zusammenhang der unterschiedlichen Indizes
I
Zusammenhang zwischen Mengen-, Preis- und Wertindizes
p
q
p
q
v
I0,t
= IPa ; 0,t · ILa ; 0,t
und
v
= ILa ; 0,t · IPa ;0,t
I0,t
I
24 / 28
Beachte: Es werden Indizes unterschiedlicher Typen
kombiniert
Statistik I Preis- und Mengenindizes
Indexzahlen
Layspeyres-, Paasche- und Fisher-Indizes
Ergänzung: Fisher-Indizes
I
Preisindex vom Typ Fisher
p
IFi ;0,t =
√︁
p
p
ILa ;0,t · IPa ;0,t
I
Mengenindex vom Typ Fisher
√︁
q
q
q
IFi ;0,t = ILa ;0,t · IPa ;0,t
I
Konsistenter Zusammenhang mit Wertindex
p
q
v
I0,t
= IFi ; 0,t · IFi ; 0,t
I
25 / 28
Beachte: Es werden Indizes vom gleichen Typ kombiniert
Statistik I Preis- und Mengenindizes
Indexzahlen
Beispiel
Indizes: Beispiel
I
Preise und Mengen eines Warenkorbs:
Gut
i
1
2
3
26 / 28
t =0
p0 (i ) q0 (i )
3
10
5
30
2
40
t =1
p1 (i ) q1 (i )
4
12
7
24
1
60
Statistik I Preis- und Mengenindizes
Indexzahlen
Beispiel
Indizes: Beispiel
I
Für die Lösung von Aufgaben empfiehlt sich eine kleine
Arbeitstabelle (für Aggregatform):
i
1
2
3
∑︀
27 / 28
p0 (i ) q0 (i )
3 · 10 = 30
5 · 30 = 150
2 · 40 = 80
260
p1 (i ) q1 (i )
4 · 12 = 48
7 · 24 = 168
1 · 60 = 60
276
p1 (i ) q0 (i )
4 · 10 = 40
7 · 30 = 210
1 · 40 = 40
290
p0 (i ) q1 (i )
3 · 12 = 36
5 · 24 = 120
2 · 60 = 120
276
Statistik I Preis- und Mengenindizes
Indexzahlen
Beispiel
Indizes: Beispiel
I
Preisindex Laspeyres
∑︀n
p1 (i )q0 (i ) 290
p
=
ILa ;0,1 = ∑︀ni =1
= 1. 115 4
260
i =1 p0 (i )q0 (i )
I
Preisindex Paasche
P
IPa
;0,1
28 / 28
∑︀n
p1 (i )q1 (i ) 276
=
=1
= ∑︀in=1
276
i =1 p0 (i )q1 (i )
I
Preisindex Fisher
√︁
√
p
p
p
IFi ;0,1 = ILa ;0,1 · IPa ;0,1 = 1. 115 4 · 1 = 1. 056 1
I
Preisindizes werden üblicherweise mit 100 multipliziert (%
des Basisjahres)
Statistik I Zeitreihen
Statistik I
Zeitreihen
Prof. Dr. Andreas Behr
1 / 39
Statistik I Zeitreihen
Inhaltsverzeichnis
Zeitreihenmodelle
Grundlagen
Komponenten von Zeitreihen
Trendermittlung
Trendfunktionen
Gleitende Durchschnitte
Saisonbereinigung
Grundlagen
Periodogrammverfahren
Saisonbereinigte Werte
2 / 39
Statistik I Zeitreihen
Zeitreihenmodelle
Grundlagen
Bruttonationaleinkommen, Vierteljahreswerte
Bruttonationaleinkommen, jeweilige Preise
650
600
Mrd. €
550
500
450
400
●
1. Quartal
2. Quartal
3. Quartal
4. Quartal
●
● ●
● ●
●
● ●●
●
● ● ●
●
●
●
●
●
● ●● ● ●● ●
●
● ●
●
●
● ●● ●
● ● ●● ●
● ●
●
●
● ●
● ● ●
● ●
●
● ●
●
●
●
●
● ●
●
● ● ●
● ● ●
● ●
●
● ●
●
●
●
Zeit
3 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Zeitreihenmodelle
Grundlagen
Quartale und Niveaverschiebungen
Bruttonationaleinkommen
650
1. Quartal
2. Quartal
3. Quartal
4. Quartal
600
Mrd. €
550
500
450
400
Zeit
4 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Zeitreihenmodelle
Grundlagen
Vierteljährliche Veränderungsraten
Veränderungsrate gegenüber Vorquartal
10
1. Quartal
5
3. Quartal
4. Quartal
●
● ●
●
%
2. Quartal
●
● ● ●
●
● ●● ● ● ●●
●●
●
●
●
●● ●●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
● ●
0
●
●
●
●
●
●
●
●
●
●
●
●
1999
●
1998
−5
●
●
●
●
●
●
●
●
Zeit
5 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1997
1996
1995
1994
1993
1992
1991
−10
Statistik I Zeitreihen
Zeitreihenmodelle
Grundlagen
Veränderungsraten gegenüber dem Vorjahr
Veränderungsrate, geg. Vorjahreswert
12
1. Quartal
2. Quartal
3. Quartal
4. Quartal
10
●
8
●
●
●
Zeit
6 / 39
●
●
●●
●
● ●
●
●
●
● ●
●
●
2008
●
2005
2003
● ●
●● ●
●
●
●
●●
● ●
●
●
●
●
●●
●
●
●
●
2002
1996
1995
1994
1993
1992
1991
1997
●
0
●●
2001
●
● ●
●
2000
●
●
●
1998
● ●
●
2
1999
●●●●●
●
4
●
●
●
●
●
2006
●
2007
6
2004
%
●
Statistik I Zeitreihen
Zeitreihenmodelle
Grundlagen
Bedeutung von Zeitreihen
7 / 39
I
Zeitreihen sind wichtige und übliche Darstellung in der VWL
und BWL
I
Zeitreihen erlauben eine intuitive Beurteilung der
Entwicklung
I
Zeitreihen sind überall anzutreffen, AL-Quote, DAX, ...
I
Zeitpunkte werden mit ti , i = 1, ..., n bezeichnet
I
Die Werte der Zeitreihe mit yi , i = 1, ..., n
I
Meistens sind die Zeitpunkte äquidistant
Statistik I Zeitreihen
Zeitreihenmodelle
Komponenten von Zeitreihen
Komponentenmodelle
I
Die Zeitreihe kann als Summe oder Produkt von
Komponenten gedacht werden
I
Additives Modell:
yi = gi + si + ui , i = 1, ..., n
I
Multiplikatives Modell:
yi = gi · si · ui , i = 1, ..., n
8 / 39
Statistik I Zeitreihen
Zeitreihenmodelle
Komponenten von Zeitreihen
Die Komponenten
I
gi glatte Komponente
I
I
I
si saisonale Komponente
I
I
I
I
I
Nicht alle, aber viele Zeitreihen weisen eine
Saisonkomponente auf
Regelmäßige unterjährige Schwankung
Ursachen: meist klimatische Bedingungen
Urlaubsreisen, Bautätigkeit, etc.
ui Restkomponente
I
I
I
9 / 39
Stellt die längerfristige Entwicklung dar: Trend und
Konjunktur
Hier werden Trend und Konjunktur zusammen betrachtet
Einflüsse, die nicht in gi oder si erfasst sind
Sondereinflüsse wie Streiks, Wettereinfluß , etc.
Annahme: ui ist „im Mittel“ 0
Statistik I Zeitreihen
Zeitreihenmodelle
Komponenten von Zeitreihen
Multiplikatives Modell: Glatte Komponente
Glatte Komponente
650
600
Mrd. €
550
500
450
400
Zeit
10 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Zeitreihenmodelle
Komponenten von Zeitreihen
Multiplikatives Modell: Konstante Saisonkomponente
Konstante Saisonkomponente
1.04
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1.02
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1.00
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1992
1993
1994
1995
1996
1997
1998
1999
●
●
●
●
●
●
●
●
●
2008
●
2007
●
2006
●
2005
●
2004
●
2003
●
2002
●
2001
●
2000
●
1991
0.98
0.96
Zeit
11 / 39
Statistik I Zeitreihen
Zeitreihenmodelle
Komponenten von Zeitreihen
Multiplikatives Modell: Restkomponente
Restkomponente
1.01
1.00
0.99
Zeit
12 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
0.98
Statistik I Zeitreihen
Trendermittlung
Glatte Komponente
13 / 39
I
globaler Ansatz: Die Werte gi werden auf Basis von allen
Beobachtungen und angenommener Funktionsform
bestimmt
I
lokaler Ansatz: Die Werte gi werden auf Basis von
benachbarten Werten bestimmt
Statistik I Zeitreihen
Trendermittlung
Trendfunktionen
Linearer Trend
I
Es wird eine Gerade für den gesamten Zeitpunkt geschätzt
I
Methode der kleinsten Quadrate (Regression)
I
Werte der Gerade an den ti werden als gi -Werte verwendet
Problem:
I
- Ein linearer Trend ist meistens zu starr
- Die glatte Komponente wird nicht adäquat wiedergegeben
I
14 / 39
Ausweg: Polynome höherer Ordnung (flexibler)
Statistik I Zeitreihen
Trendermittlung
Trendfunktionen
Parametrische Trendfunktionen
Bruttonationaleinkommen, Trendfunktionen
650
Original
Linearer Trend
Trendpolynom 3.Grades
600
Mrd. €
550
500
450
400
Zeit
15 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Gleitende Durchschnitte
I
Berechne zu jedem ti das arithmetische Mittel der
umliegenden 𝜆 Werte
I
Je höher 𝜆 gewählt wird, desto stärker ist die Glättung
I
Beachte: 𝜆 sollte Vielfaches der Zahl der Phasen sein
Bsp: Bei Quartalswerten 4 Phasen, also 𝜆 = 4 oder 8, . . .
I
1. 𝜆 ungerade, d.h. 𝜆 = 2l + 1
g̃i =
1
(y + ... + yi + ... + yi +l )
2l + 1 i −l
2. 𝜆 gerade, d.h. 𝜆 = 2l
g̃i =
16 / 39
1
(0.5yi −l + ... + yi + ... + 0.5yi +l )
2l
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Gleitende Durchschnitte
17 / 39
I
Beachte: bei ungeradem 𝜆 wird einer Beobachtung ein
Ausgleichswert zugeordnet
I
bei geradem 𝜆 würde der Ausgleichswert zwischen zwei
Beobachtungen liegen
I
zur Vermeidung werden 𝜆 − 1 ganze Werte und zwei halbe
Werte gemittelt
I
Bsp. für drittes Quartal: 0.5I + II + III + IV + 0.5I
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Gleitende Durchschnitte
I
Gleitende Durchschnitte enthalten fast nur die glatte
Komponente
g̃i
=
=
1
(0.5yi −l + ... + yi + ... + 0.5yi +l )
2l ⎛
⎞
j =∑︁
i +l −1
⎟⎟
⎜
⎜
1 ⎜⎜
⎟
yj + 0.5yi +l ⎟⎟⎟
⎜⎜0.5yi −l +
⎠
2l ⎝
j =i −l +1
=
18 / 39
⎛
⎜⎜ 0.5(gi −l + si −l + ui −l )
⎜
j =i∑︀
+l −1
1 ⎜⎜⎜
⎜⎜ +
(gj + sj + uj )
2l ⎜⎜⎜
j =i −l +1
⎝
+0.5(gi +l + si +l + ui +l )
⎞
⎟⎟
⎟⎟
⎟⎟
⎟⎟
⎟⎟
⎟⎟
⎠
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Gleitende Durchschnitte
[︃
]︃
j =i∑︀
+l −1
0.5gi −l +
gj + 0.5gi +l
=
j =i −l +1
[︃
]︃
j =i∑︀
+l −1
1
+ 2l 0.5si −l +
sj + 0.5si +l
j
=
i
−l
+
1
[︃
]︃
j =i∑︀
+l −1
1
uj + 0.5ui +l
+ 2l 0.5ui −l +
1
2l
j =i −l +1
19 / 39
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Gleitende Durchschnitte: Restliche Komponenten
I
K Phasen der Saisonkomponente
I
𝜆 so gewählt, dass Vielfaches von K
I
Die verschiedenen Saisoneinflüsse gleichen sich aus
⎞
⎛
j =∑︁
i +l −1
⎟⎟
⎜
⎜
1 ⎜⎜
⎟
sj + 0.5si +l ⎟⎟⎟ = 0
⎜⎜0.5si −l +
⎠
2l ⎝
j =i −l +1
I
Die Zufallseinflüsse ui sind „im Mittel“ ungefähr 0
⎞
⎛
j =∑︁
i +l −1
⎟⎟
1 ⎜⎜⎜⎜
⎟
uj + 0.5ui +l ⎟⎟⎟ ≈ 0
⎜⎜0.5ui −l +
⎠
2l ⎝
j =i −l +1
20 / 39
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Vor- und Nachteile
21 / 39
I
Schöne Eigenschaft: praktisch nur glatte Komponente übrig
I
Aber am Reihenanfang und Ende gehen jeweils l Werte
verloren
I
Für aktuelle Beurteilungen der Entwicklung nicht geeignet
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Bruttonationaleinkommen, gleitende Durchschnitte
Bruttonationaleinkommen, gl. 4er−Mittel
650
Original
4−er Mittel
600
Mrd. €
550
500
450
400
Zeit
22 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Bruttonationaleinkommen, gleitende Durchschnitte
Bruttonationaleinkommen, gl. 4−er u. 12er− Mittel
650
Original
4−er
12−er
600
Mrd. €
550
500
450
400
Zeit
23 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Doppelte gleitende Mittelung
I
I
I
Gleitende Mittelung kann wiederholt angewendet werden
Beispiel zweimalige gleitende Mittelung mit 𝜆 = 3
x sind die gleitenden 3er-Mittel von y, z sind die gleitenden
3er Mittel von x :
1
xi =
(y + yi + yi +1 )
3 i −1
1
(x + xi + xi +1 )
zi =
3 i −1
xi
=
xi −1 =
xi +1 =
24 / 39
1
(y + yi + yi +1 )
3 i −1
1
(y + yi −1 + yi )
3 i −2
1
(y + yi +1 + yi +2 )
3 i
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Doppelte gleitende Mittelung
I
Einsetzen in zi
zi
zi
zi
I
25 / 39
1
(x + xi + xi +1 )
3 i −1
1 1
1
=
( (yi −2 + yi −1 + yi ) + (yi −1 + yi + yi +1 )
3 3
3
1
+ (yi + yi +1 + yi +2 ))
3
1
=
(y + 2yi −1 + 3yi + 2yi +1 + yi +2 )
9 i −2
=
Die Werte der hintereinander geschalteten 3er Glättung sind
ein gewichtetes gleitendes 5er Mittel!
Statistik I Zeitreihen
Trendermittlung
Gleitende Durchschnitte
Bruttonationaleinkommen, gleitende Durchschnitte
Bruttonationaleinkommen, saisonber.
650
Original
4−er
4−er, 4−er
600
Mrd. €
550
500
450
400
Zeit
26 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Saisonbereinigung
Grundlagen
Saisonbereinigung
27 / 39
I
Üblicherweise ist man an der mittel- oder längerfristigen
Entwicklung interessiert
I
Der saisonale Einfluß wird als störend betrachtet
I
Eliminierung der Saisonkomponte (Saisonbereinigung)
I
Bsp: Arbeitslosenquote, im Winter erfolgt immer ein Anstieg
I
Bsp: Bruttonationaleinkommen, im ersten Quartal immer
geringer
I
Ob eine Verbesserung/Verschlechterung vorliegt, muss
anhand saisonbereinigter Werte beurteilt werden
Statistik I Zeitreihen
Saisonbereinigung
Grundlagen
Saisonbereinigung: Verfahren
28 / 39
I
Für alle wichtigen Zeitreihen werden saisonbereinigte
Zeitreihen ermittelt
I
Beachte: saisonbereinigte Daten sind immer das Produkt
von Rechenverfahren
I
Es gibt keine „wahren“ saisonbereinigten Werte
I
2 konkurrierende Verfahren in Deutschland
I
Bundesbank: Census-X11 (gleitende Mittelung)
I
Stat. Bundesamt: Berliner Verfahren (Funktion f. glatte
Komponente)
I
Weil nur eine „Wahrheit“ gewünscht ist, soll BV eingestellt
werden
Statistik I Zeitreihen
Saisonbereinigung
Grundlagen
Bruttonationaleinkommen, saisonbereinigt
Bruttonationaleinkommen, saisonber.
650
Original
Census−X11
Berliner Verf.
600
Mrd. €
550
500
450
400
Zeit
29 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Saisonbereinigung
Grundlagen
Saisonbereinigung
I
Doppelte Indexierung nötig yjk
I
j für Jahr, k für Phase, y99,1 erster Quartalswert 1999
I
Annahme ist eine zeitlich stabile Saisonfigur sjk = sk
I
Ermittle die Saisonkomponente sk , k = 1, ..., K aller Phasen
I
Ermittle die saisonbereinigten Werte
I
Additives Modell:
yjks = gjk + sjk + ujk − sk = gjk + ujk
I
Multiplikatives Modell:
yjks =
30 / 39
1
g · s · u = gjk · ujk
sk jk jk jk
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Periodogrammverfahren (multiplikativ)
I
3 Schritte: Ermittlung
(1) der glatten Komponente und Trendbereinigung
(2) der mittleren relativen Trendabweichungen der Phasen
(3) der Saisonkomponenten als normierte mittlere
Trendabweichungen der Phasen
(1) Trendbereinigung
djk = yjk / g̃jk = sjk · ujk
31 / 39
I
Beachte djk enthalten Saison und Restkomponente
I
Annahme: ujk im Mittel 1 (multiplikativ)
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Trendbereinigung
Trendbereinigte Werte
1.06
1. Quartal
2. Quartal
3. Quartal
●
●
1.04
●
●
●
●
●
●
●
●
d=y/g
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.96
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.98
●
●
●
●
●
●
●
1.02
1.00
4. Quartal
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Zeit
32 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
●
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Periodogrammverfahren (multiplikativ)
(2) Phasenmittel
J*
1 ∑︁
djk
d̄k = *
J
j =1
33 / 39
I
Arithmetisches Mittel der Phasen
I
Beachte: Zahl der Werte je Phase J * kann unterschiedlich
sein
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Mittlere Trendabweichungen (von gl. 4er-Mittel)
Mittlere Trendabweichungen
1.06
1. Quartal
2. Quartal
3. Quartal
●
●
1.04
●
●
●
●
●
●
●
●
d=y/g
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.96
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.98
●
●
●
●
●
●
●
1.02
1.00
4. Quartal
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Zeit
34 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
●
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Periodogrammverfahren (multiplikativ)
(3) Normierung
⎞
⎛
⎟⎟
⎜⎜
⎟⎟
⎜⎜
d̄k
d̄k
⎟
⎜
s^k = 1 ∑︀K
⎜⎜oder s^k = (︁
1 ⎟
⎟⎟
)︁
⎜
∏︀
⎠
K
⎝
d̄
K
k =1 k
K
d̄
k =1 k
35 / 39
)︁
(︁
∏︀K
s
^
=
K
bzw.dass
s
^
=
1
k
k
k =1
k =1
∑︀K
I
Jetzt gilt, dass
I
s1 = 0.971, s2 = 0.986, s3 = 1.009, s4 = 1.033
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Normierte Saisonkomponente
Multiplikative Saisonkomponente
1.04
●
Saison
1.02
●
1.00
●
0.98
●
0.96
1
2
3
Quartale
36 / 39
4
Statistik I Zeitreihen
Saisonbereinigung
Periodogrammverfahren
Saisonbereinigung
yjks =
37 / 39
1
g · s · u ≈ gjk · ujk
s^k jk jk jk
I
Beachte: anders als bei der glatten Komponente ist die
Restkomponente nicht „ausgemittelt“
I
Restkomponente erschwert Beurteilung der aktuellen
Entwicklung
Statistik I Zeitreihen
Saisonbereinigung
Saisonbereinigte Werte
Periodogramm- und Census-X11-Verfahren
Bruttonationaleinkommen, saisonber.
650
Original
Periodogrammv.
Census−X11
600
Mrd. €
550
500
450
400
Zeit
38 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
Statistik I Zeitreihen
Saisonbereinigung
Saisonbereinigte Werte
Vierteljährliche Veränderungsraten, saisonb. Werte
Veränderungsraten, saisonb. Bruttonationaleinkommen
4
Census−X11
Periodogrammv.
3
2
%
1
0
−1
−2
Zeit
39 / 39
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
−3
Statistik I Korrelationsrechnung I
Statistik I
Korrelationsrechnung I
Prof. Dr. Andreas Behr
1 / 25
Statistik I Korrelationsrechnung I
Inhaltsverzeichnis
Zusammenhangsmaße
Korrelationskoeffizient
Grundlagen
Empirische Kovarianz
Korrelationskoeffizient von Pearson
PSID: Ausbildungsjahre und Einkommen
2 / 25
Statistik I Korrelationsrechnung I
Zusammenhangsmaße
Zusammenhang zwischen Variablen
3 / 25
I
Gibt es einen Zusammenhang zwischen X und Y ?
I
Wenn ja: Welcher Art? Und wie stark?
I
Geeignete Messung des Zusammenhangs hängt vom
Skalenniveau ab
Statistik I Korrelationsrechnung I
Zusammenhangsmaße
Zusammenhangsmaße
Drei Maße werden behandelt
1. Korrelationskoeffzient (Bravais-Pearson) (metrische
Merkmale)
2. Rangkorrelationskoeffizient (Spearman) (ordinale Merkmale)
3. Kontingenzkoeffizient (nominale Merkmale)
Daten: (x1 , y1 ) , . . . , (xn , yn )
4 / 25
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Grundlagen
Korrelationskoeffizient
I
I
I
I
5 / 25
Preis
in EUR/kg (X )
4,70
X und Y sind metrische Merkmale
4,30
Daten (x1 , y1 ) , . . . , (xn , yn )
3,80
4,50
Darstellung als Tabelle oder
5,40
Streudiagramm
5,00
Beispiel: Preise und Absatz eines
4,10
Obsthändlers
4,30
3,90
4,00
Menge
in kg (Y )
70
75
80
75
50
60
70
65
75
85
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Grundlagen
Beispiel: Streudiagramm
90
Obst: Verkaufspreis und verkaufte Menge
●
●
70
●
●
●
●
60
●
●
50
Menge (Y)
80
●
●
3.5
4.0
4.5
Preis (X)
6 / 25
5.0
5.5
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Empirische Kovarianz
Empirische Kovarianz
I
Definition:
n
sXY =
1 ∑︁
(xi − x̄) (yi − ȳ)
n
i =1
I
Andere Darstellung
n
sXY
1 ∑︁
xi yi − x̄ ȳ
=
n
i =1
7 / 25
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Empirische Kovarianz
Kovarianz im Obsthändler-Beispiel
I
Zwischenergebnisse berechnen:
10
∑︁
xi
= 4.70 + . . . + 4.00 = 44
yi
= 70 + . . . + 85 = 705
i =1
10
∑︁
i =1
10
∑︁
xi yi
= 4.70 · 70 + . . . + 4.00 · 85 = 3062
i =1
I
Daraus ergibt sich die Kovarianz
sXY =
8 / 25
3062 44 705
−
·
= −4
10
10 10
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Empirische Kovarianz
Eigenschaften der Kovarianz
9 / 25
I
Kovarianz ist positiv, falls tendenziell überdurchschnittliche
x-Werte mit überdurchschnittlichen y-Werten und
unterdurchschnittliche x− Werte mit
unterdurchschnittlichen y− Werten einhergen
I
Kovarianz ist negativ, falls tendenziell überdurchschnittliche
x-Werte mit unterdurchschnittlichen y-Werten und
unterdurchschnittliche x− Werte mit überdurchschnittlichen
y− Werten einhergen
I
Ist eine Tendenz der obigen Art nicht vorhanden, so liegt sXY
nahe bei Null
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Empirische Kovarianz
Obsthändler-Beispiel
90
Obst: Verkaufspreis und verkaufte Menge
x > x, y > y
●
●
x, y
●
70
●
●
●
●
60
●
●
x < x, y < y
50
Menge (Y)
80
x < x, y > y
3.5
x > x, y < y
4.0
4.5
Preis (X)
10 / 25
5.0
●
5.5
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Empirische Kovarianz
Eigenschaften der Kovarianz
I
Es gilt: sXX = sX2
I
Symmetrie: sXY = sYX
I
Lage-Invarianz: für xi′ = xi + b und yi′ = yi + d gilt
sX ′ Y ′ = sXY
I
Abhängigkeit von der Skala: für xi′ = axi und yi′ = cyi gilt
sX ′ Y ′ = a · c · sXY
I
11 / 25
Die Kovarianz ist nicht normiert
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Empirischer Korrelationskoeffizient
I
Definition:
rXY
=
=
oder
sXY
sX sY
1
n
√︁
− x̄) (yi − ȳ)
√︁
2 1 ∑︀n
2
1 ∑︀n
i =1 (xi − x̄)
i =1 (yi − ȳ)
n
n
i =1 (xi
∑︀n
− x̄) (yi − ȳ)
√︁
2 ∑︀n
2
i =1 (xi − x̄)
i =1 (yi − ȳ)
rXY = √︁
∑︀n
12 / 25
∑︀n
i =1 (xi
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Korrelationskoeffizienten im Obsthändler-Beispiel
I
Zusätzlich zu den Zwischenergebnissen von oben benötigt
man
10
∑︁
i =1
10
∑︁
xi2 = 195.94
yi2 = 50625
i =1
I
13 / 25
Die Varianzen von X und Y sind
(︂ )︂2
195.94
44
−
= 0.234
sX2 =
10
10
(︂
)︂
50625
705 2
sY2 =
−
= 92.25
10
10
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Korrelationskoeffizienten im Obsthändler-Beispiel
I
Daher ist
rXY
=
sXY
sX sY
−4
√
0.234 92.25
= −0.8609
=
14 / 25
√
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Eigenschaften des Korrelationskoeffizienten
I
Der Korrelationskoeffizient ist dimensionslos
I
Symmetrie in X und Y ; es gilt rXY = rYX
I
Invarianz in Bezug auf lineare Transformationen: für
xi′ = axi + b
und
gilt
rX ′ Y ′ =
I
15 / 25
Normierung: |rXY | ≤ 1
yi′ = cyi + d
ac
r
|a||c| XY
bzw. −1 ≤ rXY ≤ 1
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Korrelation: Grafische Darstellung
●
●
●
●
r = 0.5
r = 0.9
●
●
● ●
●
●
●
●
●●
y
y
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
x
x
●
●
●
●
●
●
●
●
●
r = 0.08
●●
y
r = −0.7
●
●
●
●
●
●
●
●●
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
x
16 / 25
●
●
●
●
●
●
x
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Anmerkungen
17 / 25
I
Der Korrelationskoeffizient misst nur die Stärke des linearen
Zusammenhanges
I
Sind X und Y unabhängig, ist sXY = rXY = 0. Das
Umgekehrte gilt jedoch nicht!
I
Auch wenn rXY ≈ 0 ist, können andere Arten des
Zusammenhanges vorliegen
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Anmerkungen
18 / 25
I
Aus dem Wert von rXY kann nicht auf eine
Ursache-Wirkung-Beziehung geschlossen werden
I
Ein linearer Zusammmenhang von X und Y kann
verschiedene Ursachen haben
I
X und Y können beide von einer Variablen Z abhängen
(ohne dass Z explizit betrachtet wird)
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Gewichtete Form
I
Berechnung der Kovarianz aus diskreter Klassierung:
J
sXY
=
K
)︁
1 ∑︁ ∑︁ (︁
x̃j − x̄ (ỹk − ȳ) njk
n
j =1 k =1
J
=
K
1 ∑︁ ∑︁
x̃j ỹk njk − x̄ ȳ
n
j =1 k =1
19 / 25
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Gewichtete Form
I
Berechnung der Varianzen der Randverteilungen
J
sX2
=
1 ∑︁
(x̃j − x̄)2 nj ·
n
j =1
K
sY2 =
1 ∑︁
(ỹk − ȳ)2 n·k
n
k =1
I
Berechnung des Korrelationskoeffizienten gemäß
s
rXY = √︁ XY
√︁
2
sX sY2
20 / 25
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Beispiel
x̃1 = 2
x̃2 = 7
∑︀
x̄ =
ȳ =
ỹ2 = 3
3
10
13
∑︀
5
15
20
1 ∑︁
1
x̃j · nj =
(2 · 5 + 7 · 15) = 5. 75
n
20
j
1 ∑︁
1
ỹk · nk =
(1 · 7 + 3 · 13) = 2. 3
n
20
k
21 / 25
ỹ1 = 1
2
5
7
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Beispiel
J
sX ,Y
=
K
1 ∑︁ ∑︁
x̃j ỹk njk − x̄ ȳ
n
j =1 k =1
1
(2 · 1 · 2 + 2 · 3 · 3 + 7 · 1 · 5 + 7 · 3 · 10) − 5. 75 · 2. 3
20
= 0.125
J
1 ∑︁
(x̃j − x̄)2 nj ·
=
n
=
sX2
j =1
=
22 / 25
)︁
1 (︁
[2 − 5.75]2 · 5 + [7 − 5.75]2 · 15 = 4. 687 5
20
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
Korrelationskoeffizient von Pearson
Beispiel
K
sY2 =
=
1 ∑︁
(ỹk − ȳ)2 n·k
n
k =1
)︁
1 (︁
[1 − 2.3]2 · 7 + [3 − 2.3]2 · 13 = 0.91
20
s
0.125
= 0.060523
rXY = √︁ XY
√
√︁ = √
2
2
4.
687
5
0.91
sX sY
23 / 25
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
PSID: Ausbildungsjahre und Einkommen
Grafische Darstellung
1000
Ohne Ausreißer
●
●
800
●
●
r = 0.23
600
2000
Stundenlohn, US$
r = 0.12
●
400
3000
●
1000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
●
●
●
4
●
●
●
6
●
●
●
●
●
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
12
Ausbildungsjahre
24 / 25
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
●
●
●
●
●
●
●
●
●
●
●
4
●
●
●
●
●
●
●
6
●
●
●
●
●
●
●
●
●
●
●
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
12
Ausbildungsjahre
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
200
Stundenlohn, US$
4000
Alle Daten
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Statistik I Korrelationsrechnung I
Korrelationskoeffizient
PSID: Ausbildungsjahre und Einkommen
Grafische Darstellung
Nur Stundenlöhne < 600 $
Alle Daten, log
●
500
8
●
r = 0.35
6
●
●
●
●
●
●
●
●
●
100
●
●
●
●
●
0
●
●
●
●
●
●
●
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4
●
●
●
●
●
●
●
●
●
●
6
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
12
Ausbildungsjahre
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
−2
●
●
log(Stundenlohn, US$)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−4
300
●
●
●
●
●
25 / 25
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−6
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−8
●
200
Stundenlohn, US$
400
●
r = 0.28
●
●
●
●
●
2
4
6
8
12
Ausbildungsjahre
16
Statistik I Korrelationsrechnung II
Statistik I
Korrelationsrechnung II
Prof. Dr. Andreas Behr
1 / 24
Statistik I Korrelationsrechnung II
Inhaltsverzeichnis
Rangkorrelationskoeffizient
Definition
Eigenschaften
Beispiel
Chi-Quadrat und Kontingenzkoeffizient
Definition
Chi-Quadrat
Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
2 / 24
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Definition
Rangkorrelationskoeffizient
3 / 24
I
X und Y sind (mindestens) ordinal skalierte Merkmale
I
Übergang von den Daten xi und yi auf die Ränge RX (xi ) und
RY (yi )
I
RX (xi ) = r, falls alle x1 , . . . , xn verschieden sind und xi in der
aufsteigend geordneten Folge der Daten an der r-ten Stelle
steht
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Definition
Rangkorrelationskoeffizient: Beispiel
x1 = 6
x2 = 3
x3 = 4
x4 = 12
4 / 24
RX (x1 ) = 3
RX (x2 ) = 1
RX (x3 ) = 2
RX (x4 ) = 4
I
Analog für y1 , . . . , yn
I
Berechnung des Korrelationskoeffizienten für die Ränge
R
(rXY
)
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Definition
Rangkorrelationskoffizient
I
Rangkorrelationskoffizient: Korrelationskoeffzient der Ränge
)︁ (︁
)︁
∑︀n (︁
R
(x
)
−
R
R
(y
)
−
R
X
i
X
Y
i
Y
i =1
R
rXY
= √︁
√︁
∑︀n
∑︀n
2
2
i =1 (RX (xi ) − RX )
i =1 (RY (yi ) − RY )
mit
n
RX =
1 ∑︁
n +1
RX (xi ) =
n
2
i =1
5 / 24
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Eigenschaften
Eigenschaften
6 / 24
I
Dimensionslosigkeit
I
Symmetrie in X und Y
I
Invarianz in Bezug auf streng monoton wachsende
Transformationen
I
R
Normierung, −1 ≤ rXY
≤1
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Eigenschaften
Eigenschaften
7 / 24
I
Der Rangkorrelationskoeffizient misst die Stärke des
monotonen Zusammenhangs
I
Vollständiger gleichgerichteter monotoner Zusammenhang,
R
wenn rXY
= +1 ist
I
Vollständiger gegenläufiger monotoner Zusammenhang,
R
wenn rXY
= −1 ist
I
R
Bei rXY
≈ 0 gibt es keinen monotonen Zusammenhang
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Eigenschaften
Problem
I
Was passiert bei Bindungen (die gleichen Werte kommen
mehrfach vor)?
I
Übliches Vorgehen: Durchschnittsränge
I
Beispiel:
x1 = 3.7
x2 = 3.9
x3 = 3.1
x4 = 3.7
8 / 24
RX (x1 ) = 2.5
RX (x2 ) = 4
RX (x3 ) = 1
RX (x4 ) = 2.5
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Eigenschaften
Anmerkungen
I
Wenn keine Bindungen vorliegen, gilt
R
rXY
I
9 / 24
= 1−
6
∑︀n
(x ) − R (y ))2
(︁ i )︁ Y i
n n2 − 1
i =1 (RX
Aus diskreten Klassierungen wird der
Rangkorrelationskoeffizient sehr selten berechnet
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Beispiel
Beispiel
x1 = 6
x2 = 3
x3 = 4
R
rXY
RX (x1 ) = 3
RX (x2 ) = 1
RX (x3 ) = 2
= 1−
6
∑︀n
y1 = 5
y2 = 1
y3 = 7
RY (y1 ) = 2
RY (y2 ) = 1
RY (y3 ) = 3
(x ) − R (y ))2
(︁ i )︁ Y i
n n2 − 1
i =1 (RX
[︁
]︁
6 · (3 − 2)2 + (1 − 1)2 + (2 − 3)2
(︁
)︁
= 1−
3 · 32 − 1
= 1−
10 / 24
6·2
= 0.5
3·8
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Beispiel
Beispiel mit Bindungen (1)
x1 = 6
x2 = 4
x3 = 4
R
rXY
, 1−
RX (x1 ) = 3
RX (x2 ) = 1.5
RX (x3 ) = 1.5
6
∑︀n
y1 = 5
y2 = 1
y3 = 5
RY (y1 ) = 2.5
RY (y2 ) = 1
RY (y3 ) = 2.5
(x ) − R (y ))2
(︁ i )︁ Y i
n n2 − 1
i =1 (RX
[︁
]︁
6 · (3 − 2.5)2 + (1.5 − 1)2 + (1.5 − 2.5)2
(︁
)︁
= 1−
3 · 32 − 1
= 1−
11 / 24
6 · 1.5
= 0.625
3·8
Statistik I Korrelationsrechnung II
Rangkorrelationskoeffizient
Beispiel
Beispiel mit Bindungen (2)
ABER
R
rXY
= √︁
1
n
=√
12 / 24
i =1 RX (xi )RY (yi ) − R̄X (xi )R̄Y (yi )
√︁
∑︀
2 − R̄ 2 (x ) 1 n R (y )2 − R̄ 2 (y )
R
(x
)
i =1 X i
i =1 Y i
X i
Y i
n
1 ∑︀n
n
= √︁
∑︀n
1
3
· (3 · 2.5 + 1.5 · 1 + 1.5 · 2.5) − 2 · 2
√︁
1 2
1
2
2
2
2
2
2
2
3 (3 + 1.5 + 1.5 ) − 2
3 (2.5 + 1 + 2.5 ) − 2
0.25
= 0.5
√
0.5 0.5
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
Definition
Beobachtete und Häufigkeiten bei Unabhängigkeit
13 / 24
I
X und Y sind nominal skaliert; Kontingenztabelle liegt vor
I
Idee: Messe die Stärke des Zusammenhangs durch den
Abstand der Kontingenztabelle von der
Unabhängigkeitstabelle
I
Erinnerung: Deskriptive Unabhängigkeit, wenn für alle j , k
gilt njk = nj · · n·k /n
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
Definition
Kontingenz- und Unabhängigkeitstabelle
Kontingenztabelle
X ∖Y ỹ1
ỹ2 . . .
x̃1
n11 n12 . . .
x̃2
n21 n22 . . .
..
..
..
.
.
.
x̃J
X ∖Y
x̃1
x̃2
..
.
x̃J
14 / 24
nJ 1
nJ 2
...
ỹK
n1K
n2K
..
.
nJK
Unabhängigkeitstabelle
ỹ1
ỹ2
...
ỹK
n1· ·n·2
n1· ·n·1
n1· ·n·K
...
n
n
n
n2· ·n·1
n2· ·n·2
. . . n2·n·n·K
n
n
..
..
..
.
.
.
nJ · ·n·1
n
nJ · ·n·2
n
...
nJ · ·n·K
n
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
Chi-Quadrat
Chi-Quadrat
I
Maß für die Abweichung von der Unabhängigkeit:
𝜒2 =
(︁
)︁
n ·n 2
K
J ∑︁
∑︁
njk − j ·n ·k
j =1 k =1
= n
nj · ·n·k
n
(︁
)︁2
J ∑︁
K
∑︁
fjk − fj · · f·k
j =1 k =1
fj · · f·k
(sprich: Chi-Quadrat)
I
15 / 24
𝜒2 = 0 genau dann, wenn X und Y deskriptiv unabhängig
sind
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
Kontingenzkoeffizient
Kontingenzkoeffizient
16 / 24
I
Normiertes 𝜒2 heißt Kontingenzkoeffizient C
√︃
𝜒2
min{J , K }
·
C=
2
𝜒 + n min{J , K } − 1
I
Es gilt 0 ≤ C ≤ 1
I
C = 0 genau dann, wenn X und Y unabhängig sind
I
C = 1 genau dann, wenn X und Y vollständig
zusammenhängen
I
C misst nur die Stärke des Zusammenhangs, nicht die
Richtung
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Beispiel: Abhängigkeit zwischen Geschlecht und
Bildungsabschluß
I
PSID 2005, 10.129 Personen
I
3 Ausbildungskategorien, Männer und Frauen
Tabelle: Ausbildung und Geschlecht
basic
secondary
third stage
sum
17 / 24
men
574
1873
2503
4950
women
477
1890
2812
5179
sum
1051
3763
5315
10129
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Tabelleneinträge bei Unabhängigkeit
Tabelle: Häufigkeiten bei Unabhängigkeit
basic
secondary
third stage
sum
18 / 24
men
513.6193
1838.9624
2597.4183
4950.0000
women
537.3807
1924.0376
2717.5817
5179.0000
sum
1051.0000
3763.0000
5315.0000
10129.0000
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Absolute Unterschiede
Tabelle: Absolute Unterschiede
basic
secondary
third stage
sum
19 / 24
men
60.3807
34.0376
−94.4183
women
−60.3807
−34.0376
94.4183
sum
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Relative Unterschiede
Tabelle: Relative Unterschiede
basic
secondary
third stage
sum
20 / 24
men
0.1176
0.0185
−0.0364
women
−0.1124
−0.0177
0.0347
sum
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Chi-Quadrat-Beiträge
Tabelle: Chi-Quadrat-Beiträge
basic
secondary
third stage
sum
21 / 24
men
7.1008
0.6297
3.4368
women
6.7868
0.6025
3.2763
sum
21.8329
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Beispiel
I
Berechnung der 𝜒2 -Statistik
𝜒2 =
(︁
)︁
n ·n 2
K
J ∑︁
∑︁
njk − j ·n ·k
j =1 k =1
nj · ·n·k
n
(574 − 513.6193)2
(2812 − 2717.5817)2
+ ... +
513.6193
2717.5817
= 21.83
=
22 / 24
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Beispiel
23 / 24
I
Berechnung des Kontingenz-Koeffizienten
√︃
𝜒2
min{J , K }
·
C =
2
𝜒 + n min{J , K } − 1
√︂
21.83
2
·
=
21.83 + 10129 2 − 1
= 0.066
I
Es gibt einen sehr schwachen Zusammenhang zwischen
dem Geschlecht und der Höhe des Bildungsabschlußes
Statistik I Korrelationsrechnung II
Chi-Quadrat und Kontingenzkoeffizient
PSID: Ausbildung und Geschlecht
Skalenniveau und Zusammenhangsmaß
I
Wenn das Skalenniveau von X und Y verschieden ist, wird
das geringere der beiden Skalenniveaus gewählt
X ∖Y
Nominalskala
Ordinalskala
Metrische Skala
24 / 24
Nominalskala
C
C
C
Ordinalskala
C
R
rXY
R
rXY
Metrische Skala
C
R
rXY
rXY
Statistik I Regressionsrechnung
Statistik I
Regressionsrechnung
Prof. Dr. Andreas Behr
1 / 24
Statistik I Regressionsrechnung
Inhaltsverzeichnis
Grundlagen
Methode der kleinsten Quadrate
Grundlagen
Notation und Zielfunktion
Güte der linearen Regression
Ergänzungen zur linearen Regression
Zeit als erklärende Variable
Regressionen und Kausalität
PSID: Ausbildungsjahre und Einkommen
2 / 24
Statistik I Regressionsrechnung
Grundlagen
Lineare Regression
I
I
Seien X und Y metrische Merkmale
Daten (x1 , y1 ) , . . . , (xn , yn ) als Punktewolke
90
Obst: Verkaufspreis und verkaufte Menge
●
70
●
●
●
●
60
●
●
50
Menge (Y)
80
●
●
●
3.5
4.0
4.5
Preis (X)
3 / 24
5.0
5.5
Statistik I Regressionsrechnung
Grundlagen
Beschreibung der Daten
I
Beschreibung der Daten durch
yi = a + bxi + ui ,
i = 1, . . . , n
I
Die Ausgleichsgerade liefert für jeden Wert x einen
dazugehörigen Wert auf der Geraden ŷ
I
Die Gerade ist bestimmt durch
ŷi = a + bxi
4 / 24
Statistik I Regressionsrechnung
Grundlagen
Beschreibung der Daten
I
Die beobachteten y− Werte weichen um u von der
Ausgleichsgeraden ab
ui = yi − a + bxi = yi − ŷi
I
5 / 24
Fragestellung: Wie legt man eine Gerade ’optimal’ durch die
Punktewolke?
Statistik I Regressionsrechnung
Grundlagen
Lineare Regression: Grafik
90
Obst: Verkaufspreis und verkaufte Menge
●
●
70
●
●
●
●
60
●
●
50
Menge (Y)
80
●
●
3.5
4.0
4.5
Preis (X)
6 / 24
5.0
5.5
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Grundlagen
Grundlagen
7 / 24
I
Ziel: Die Residuen u1 , . . . , un sollen „möglichst klein“ sein
I
Problem: In der Summe der ui heben sich Abweichungen
nach oben (u > 0) und nach unten (u < 0) auf
I
Zur Erinnerung: Nulleigenschaft des arithmetischen Mittels!
∑︀
D.h. eine Horizontale in der Höhe ȳ führt zu i ui = 0
I
Es muß also ein anderes Kriterium gefunden werden
I
Carl Friedrich Gauß (1777-1855): Methode der kleinsten
Quadrate
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Grundlagen
Grundlagen
8 / 24
I
Wähle diejenige Gerade (also jene Parameter a und b ), für
die die Summe der quadrierten Residuen minimal ist
I
Die Regressionsanalyse ist DIE dominierende statistische
Methode in den Wirtschaftswissenschaften
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Grundlagen
Methode der kleinsten Quadrate
90
Obst: Verkaufspreis und verkaufte Menge
●
●
●
70
●
●
●
●
●
●
●
●
●
60
●
●
●
●
50
Menge (Y)
80
●
●
3.5
4.0
4.5
Preis (X)
9 / 24
5.0
5.5
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Grundlagen
Ökonometrie
10 / 24
I
Die Ökonometrie untersucht und entwickelt Methoden, um
Parameter ausgedachter funktionaler Beziehungen
zwischen ökonomischen Variablen (bzw. Variablenräumen)
zu schätzen
I
Üblicherweise, aber nicht ausschließlich, werden lineare
Beziehungen unterstellt
I
Die Schätzung der gesuchten Parameter der ausgedachten
funktionalen Beziehungen erfolgt oft, aber nicht
ausschließlich, mit der Methode der kleinsten Quadrate
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Notation und Zielfunktion
Notation
I
Wir bezeichnen in Anlehnung an Mosler/Schmid
mit 𝛼, 𝛽 die Parameter des Modells 𝛼 + 𝛽xi
und mit a, b die Aufgrund der vorliegenden Wertepaare
berechneten Parameter
I
11 / 24
an dieser Stelle ist die Unterscheidung allerdings
überflüssig (anders aber im stochastischen
Regressionsmodell)
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Notation und Zielfunktion
Zielfunktion
I
Die Zielfunktion ist also
Q (𝛼, 𝛽) =
n
∑︁
(y − (𝛼 + 𝛽xi ))2
i =1
I
Ableiten und Nullsetzen ergibt die optimalen Werte
b=
sXY
sX2
und
a = ȳ − b x̄
12 / 24
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Notation und Zielfunktion
y^ vs. y
I
Angepasste Werte (fitted values)
ŷi = a + bxi
I
Die angepassten Werte ŷi liegen genau auf der Geraden
(über oder unter den tatsächlichen Werten yi )
I
Per definitionem gilt
yi = ŷi + ui
13 / 24
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Güte der linearen Regression
Bestimmtheitsmaß
Wie gut beschreibt die Regression die Punktewolke?
I Varianzzerlegungssatz:
sY2 = sY^2 + sU2
I
Bestimmtheismaß der linearen Regression
R2 =
I
s ^2
Y
sY2
= 1−
sU2
sY2
Für das Bestimmtheitsmaß gilt immer
0 ≤ R2 ≤ 1
I
14 / 24
R 2 gilt in dieser allgemeinen Definition auch für lineare
multiple Regresssionen, d.h. Regressionen mit mehr als
einer erklärenden Variable
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Güte der linearen Regression
Bestimmtheitsmaß
15 / 24
I
Wenn R 2 = 0, besteht kein linearer Zusammenhang
(Einfachregression: a = ȳ und b = 0)
I
Wenn R 2 = 1, liegen im Falle der Einfachregression alle
Datenpunkte auf einer Geraden
I
Im Fall der linearen Einfachregression gilt R 2 = (rXY )2
I
Allgemein gilt: R 2 entspricht dem quadrierten
Korrelationskoeffizienten von beobachteten Werten und
Schätzwerten: R 2 = (rY Y^ )2
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Güte der linearen Regression
Beispiel: Obsthändler
x = {4.7, 4.3, 3.8, 4.5, 5.4, 5, 4.1, 4.3, 3.9, 4}
y = {70, 75, 80, 75, 50, 60, 70, 65, 75, 85}
sXY
= −17.09
sX2
a = ȳ − b x̄ = 145.71
b
16 / 24
=
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Güte der linearen Regression
Beispiel: Obsthändler
Bedeutung der Koeffizienten:
17 / 24
I
Achsenabschnitt a = 145.71: Wenn der Preis Null wäre,
wäre der Absatz 145.71 kg
I
Steigungskoeffizient b = −17.09: Wenn der Preis um 1
EUR/kg erhöht wird, sinkt der Absatz im Mittel um rund 17 kg
I
Achtung: Extrapolation fast immer problematisch!
I
In der Praxis liegen oftmals keine Beobachtungen in der
Nähe von x = 0 vor, so dass der Achsenabschnitt nur extrem
ungenau geschätzt werden kann (extreme Extrapolation)
Statistik I Regressionsrechnung
Methode der kleinsten Quadrate
Güte der linearen Regression
Beispiel: Obsthändler
I
Bestimmtheitsmaß
2
R 2 = rXY
=
=
I
18 / 24
2
sXY
sX2 sY2
(−4)2
= 0.7412
0.234 · 92.25
74% der Streuung des Absatzes können durch die
Preisänderungen „erklärt“ werden
Statistik I Regressionsrechnung
Ergänzungen zur linearen Regression
Zeit als erklärende Variable
Zeit als erklärende Variable
19 / 24
I
Regression auf die Zeit
I
Als „erklärendes“ Merkmal dient nun die Zeit
I
Skalierung der Zeit (Kalenderzeit)?
Statistik I Regressionsrechnung
Ergänzungen zur linearen Regression
Zeit als erklärende Variable
Zeit als erklärende Variable
I
Daten (t1 , y1 ) , . . . , (tn , yn )
I
Merkmal Y als lineare Funktion der Zeit („Merkmal T “ )
yi = a + bti + ui
I
Methode der kleinsten Quadrate
b
=
sTY
sT2
∑︀n
=
a = ȳ − b t̄
20 / 24
i =1 (ti − t̄) (yi − ȳ)
∑︀n
2
i =1 (ti − t̄)
Statistik I Regressionsrechnung
Ergänzungen zur linearen Regression
Zeit als erklärende Variable
Beispiel: Bruttonationaleinkommen
Bruttonationaleinkommen
650
●
●
550
a = 387.72
b = 3.24
●
●
●
500
●
●
●
●
●
●
●
●
●
1997
●
●
●
●
●
400
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1996
450
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2005
●
●
2004
600
Mrd. €
●
●
●
1. Quartal
2. Quartal
3. Quartal
4. Quartal
●
●
●
●
●
●
21 / 24
Zeit
2008
2007
2006
2003
2002
2001
2000
1999
1998
1995
1994
1993
1992
1991
350
Statistik I Regressionsrechnung
Ergänzungen zur linearen Regression
Regressionen und Kausalität
Achtung
22 / 24
I
Eine Regressionsgerade kann i.d.R. nicht als kausale
Beziehung (im Sinne von X ist ursächlich für Y ) interpretiert
werden
I
Es kann eine andere Form von Kausalität vorliegen (z.B. von
Y nach X , oder von Z nach X und Y )
Statistik I Regressionsrechnung
Ergänzungen zur linearen Regression
PSID: Ausbildungsjahre und Einkommen
PSID: Wirkung von Ausreißern
1000
●
●
800
●
a = −18.21
600
2000
b = 2.73
●
b = 2.84
●
400
a = −16.35
Stundenlohn, US$
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
23 / 24
●
●
●
4
6
●
●
●
●
●
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
12
Ausbildungsjahre
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
0
●
●
●
●
●
●
●
●
2
●
●
●
●
●
●
●
●
●
●
●
4
●
●
●
●
●
●
●
6
●
●
●
●
●
●
●
●
●
●
●
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
12
Ausbildungsjahre
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
200
3000
Ohne Ausreißer
●
1000
Stundenlohn, US$
4000
Alle Daten
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Statistik I Regressionsrechnung
Ergänzungen zur linearen Regression
PSID: Ausbildungsjahre und Einkommen
PSID: Wirkung von Datentransformationen
Nur Stundenlöhne < 600 $
Alle Daten, log
●
8
500
●
6
●
●
●
●
●
●
●
●
●
●
200
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4
●
●
●
●
●
●
●
●
●
6
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
12
Ausbildungsjahre
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2
300
b = 2.65
●
●
●
●
●
−4
●
−6
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
a = 1.01
●
b = 0.12
●
−8
●
●
log(Stundenlohn, US$)
400
a = −16.03
100
Stundenlohn, US$
●
24 / 24
●
●
●
●
●
2
4
6
8
12
Ausbildungsjahre
16
Herunterladen