Statistik IEinführung Statistik I Einführung Prof. Dr. Andreas Behr 1 / 40 Statistik IEinführung Inhaltsverzeichnis Einleitung Ziele Motivation Literatur und Vorlesungsplan Beispiel: PSID Das PSID Die Lohnverteilung Gruppenvergleiche 2 / 40 Statistik IEinführung Einleitung Einleitung I Deskriptive Statistik: I I I Nächstes Semester: ’Stochastische Statistik’ I I I 3 / 40 Einführung in die deskriptive (beschreibende) Datenanalyse Darstellung und Charakterisierung von Daten Einführung in die Wahrscheinlichkeitsrechnung Zufallsvorgänge Wahrscheinlichkeitsurteile Statistik IEinführung Einleitung Ziele Ziele der Vorlesung "Deskriptive Statitik" I Wissen um Methoden und Probleme der I I I I Statistischen Begriffsbildung Methoden der Datengewinnung Methoden der Datenauswertung Schwerpunkt: Datenauswertung, Datenanalyse 1. Aufbereitung und Verdichtung von Daten 2. Tabellarische und grafische Darstellung 3. Charakterisierung der Daten durch Kennzahlen 4 / 40 Statistik IEinführung Einleitung Ziele Ziele I Auswertungsmethoden I I I 5 / 40 Methoden der graphischen Darstellung Beschreibung eindimensionaler Daten mit Hilfe von Maßzahlen Beschreibung mehrdimensionaler Daten mit Hilfe von Maßzahlen Statistik IEinführung Einleitung Motivation Motivation I Funktion der Statistik in den Wirtschaftswissenschaften I I I I 6 / 40 Die Statistik ist das Sinnersorgan der Wirtschaftswissenschaften BWL: Die Umsatzentwicklung läßt sich nicht ’erfühlen’ VWL: Die Entwicklung der Arbeitslosigkeit läßt sich nicht ’erfühlen’ Es muß jeweils gezählt/gemessen, ausgewertet und dargestellt werden! Statistik IEinführung Einleitung Motivation Motivation I Beispiele aus der Tageszeitung: 1. Aktienindex−→ Kapitel Preisindizes 2. Arbeitslosenquote−→ Kapitel Zeitreihen 7 / 40 Statistik IEinführung Einleitung Literatur und Vorlesungsplan Grundlegende Literatur zur Vorlesung 8 / 40 Statistik IEinführung Einleitung Literatur und Vorlesungsplan Grundlegende Literatur zur Vorlesung 9 / 40 Statistik IEinführung Einleitung Literatur und Vorlesungsplan Grundlegende Literatur zur Vorlesung 10 / 40 Statistik IEinführung Einleitung Literatur und Vorlesungsplan Weitere Literatur 11 / 40 I Rohwer, Götz u. Ulrich Pötter, Grundzüge der sozialwissenschaftlichen Statistik, 2001, Juvenat, Weinheim. I Assenmacher, Walter, Deskriptive Statistik, 3. Aufl., 2003, Springer, Berlin. I Lippe, Peter von der, Deskriptive Statistik, 7. Aufl., 2006, Oldenbourg. I Formelsammlung: Bomsdorf, E. et al., Definitionen, Formeln und Tabellen zur Statistik, 4. Auflage, 2003, Köln. I In der Klausur wird ein ’Formelblatt’ ausgeteilt. Statistik IEinführung Einleitung Literatur und Vorlesungsplan 3 Komponenten der Veranstaltung I Vorlesung I Übung: Wiederholung wichtiger Konzepte, Beispiele Tutorien: Besprechung der Aufgabenblätter I I I 12 / 40 Beachte: nur eigenständiges Lösen der Aufgaben nützt Ihnen Nutzen der Tutorien hängt weitgehend von Ihrer individuellen Vorbereitung ab! Statistik IEinführung Einleitung Literatur und Vorlesungsplan Gliederung der Vorlesung 1. Einführung 2. Daten und Variablen 3. Grundlagen Häufigkeitsverteilung 4. Maßzahlen zu Häufigkeitsverteilung 5. Klassierte Daten 6. Vergleichsmaßzahlen 7. Konzentrationsmessung 8. Preis- und Mengenindizes 9. Zeitreihen 10. Korrelationsrechnung I 11. Korrelationsrechnung II 12. Regressionsrechnung 13 / 40 Statistik IEinführung Einleitung Literatur und Vorlesungsplan Empirische Analysen 14 / 40 I Zum Erlernen der Methoden sind Mickey Maus-Beispiele nützlich (Berechnen Sie den Durchschnitt folgender 3 Zahlen...) I Aber in der Praxis warten große Datenmengen auf Sie I Im Bereich der BWL: Kundendatenbanken, etc. I Im Bereich der VWL: Haushalts- oder Unternehmensdatensätze, etc. I Daher soll auch mit einem echten Datensatz gearbeitet werden! Statistik IEinführung Beispiel: PSID Eine Analyse der Lohneinkommen 15 / 40 I PSID: Panel Study of Income Dynamics I Querschnitt: Einheiten werden zu einem Zeitpunkt befragt I Längsschnitt (Zeitreihe): Einheit wird an mehreren Zeitpunkten beobachtet I Panelerhebung: Gleiche Einheiten werden an mehreren Zeitpunkten befragt Statistik IEinführung Beispiel: PSID Das PSID PSID 16 / 40 I Erste Welle in 1968 I Bis 1997 jährlich, seither 2-jährlich (Kosten!) I 4.800 Haushalte in 1986, mehr als 7.000 Haushalte in 2005 I Anwachsen durch Weiterverfolgung bei Haushaltssplits Statistik IEinführung Beispiel: PSID Die Lohnverteilung Urliste 21481 28130 81835 24550 15000 14321 12786 14321 35803 61376 7860 40917 1636 26902 25573 20636 15344 33245 33757 28130 30686 22095 13297 3000 8183 25573 14321 18002 26596 3000 20458 98625 38870 12275 61376 35803 ... 17 / 40 Statistik IEinführung Beispiel: PSID Die Lohnverteilung 0.010 0.000 0.005 Dichte 0.015 0.020 Histogramm der Lohnverteilung 2005 0 1000 2000 3000 4000 Jahreslohn in 1000 US−Dollar 18 / 40 5000 Statistik IEinführung Beispiel: PSID Die Lohnverteilung 40 Sektorale Durchschnittslöhne nach Geschlecht Männer 19 / 40 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0 10 20 30 Frauen Statistik IEinführung Beispiel: PSID Die Lohnverteilung 0.010 0.000 0.005 Dichte 0.015 0.020 Ungleiche Klassenbreiten 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 20 / 40 150 175 200 Statistik IEinführung Beispiel: PSID Die Lohnverteilung Maßzahlen: Lagemaße 21 / 40 I Wie läßt sich das Lohnniveau mit einer Zahl beschreiben? I Modus: Welches Einkommen kommt am häufigsten vor? I Zentralwerte: Welches Einkommen liegt in der Mitte? I Durchschnitt: Welches Einkommen, wenn alle gleiches Einkommen hätten? Statistik IEinführung Beispiel: PSID Die Lohnverteilung Lagemaße 0.010 0.000 0.005 Dichte 0.015 0.020 Z X 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 22 / 40 150 175 200 Statistik IEinführung Beispiel: PSID Die Lohnverteilung Maßzahlen: Streuungsmaße 23 / 40 I Liegen die Daten dicht bei dem Lagemaß oder streuen sie weit? I Spannweite: Wie breit ist das Intervall zwischen kleinstem und größtem Wert? I Quartilsabstand: Wie breit ist das Intervall der mittleren 50%? I Standardabweichung: Wie ist die Wurzel der mittleren quadrierten Abstände aller Einkommen vom Durchschnitt? Statistik IEinführung Beispiel: PSID Die Lohnverteilung 0.010 Intervall: 14.4 − 46.0 0.005 Dichte 0.015 0.020 Streuung: Quartilsabstand 0.000 50% 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 24 / 40 150 175 200 Statistik IEinführung Beispiel: PSID Die Lohnverteilung Maßzahlen: Schiefe 25 / 40 I Ist die Verteilung symmetrisch oder schief? I Liegt eine links- oder rechtsschiefe Verteilung vor? I überwiegen große Abweichungen nach oben oder nach unten? I Rechtsschief bedeutet linkssteil und rechtsflach Statistik IEinführung Beispiel: PSID Die Lohnverteilung 0.010 0.000 0.005 Dichte 0.015 0.020 Schiefe: rechtsschief, linkssteil und rechtsflach 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 26 / 40 150 175 200 Statistik IEinführung Beispiel: PSID Gruppenvergleiche Streuungszerlegung 27 / 40 I Betrachtung von Gruppen/Klassen I Unterscheiden sich die Verteilungen (Lage, Streuung) der Gruppen? I Welcher Teil der Gesamtstreuung läßt sich auf Gruppenzugehörigkeit zurückführen? Statistik IEinführung Beispiel: PSID Gruppenvergleiche 0.010 Mittl. Eink. Frauen: 28 Tsd. $ Mittl. Eink. Männer: 51 Tsd. $ 0.000 Dichte 0.020 Einkommensverteilungen nach Geschlecht ● 0 25 X ● 50 X 75 100 125 Jahreslohn in 1000 US−Dollar 28 / 40 150 175 200 Statistik IEinführung Beispiel: PSID Gruppenvergleiche 0.02 0.03 Mittl. Std.lohn Frauen: 16 $ Mittl. Std.lohn Männer: 24 $ 0.00 0.01 Dichte 0.04 0.05 Einkommensverteilungen nach Geschlecht ● 0 10 ● X 20 X 30 40 50 60 Stundenlohn in US−Dollar 29 / 40 70 80 90 100 Statistik IEinführung Beispiel: PSID Gruppenvergleiche Beispiel: Geschlecht 30 / 40 I Frauen verdienen weniger als Männer I Warum? Eigener Forschungszweig I Welcher Teil läßt sich durch ’Humankapitalvariablen’ erklären? I Welcher Teil ist reine Diskriminierung? Statistik IEinführung Beispiel: PSID Gruppenvergleiche Strukturvergleiche I Frauen und Männer weisen eine unterschiedliche Struktur auf, bezüglich Iher I I I 31 / 40 Tätigkeiten Branchen etc. Statistik IEinführung Beispiel: PSID Gruppenvergleiche Vergleichsmaßzahlen 32 / 40 I Mit welchen Maßzahlen läßt sich der Strukturunterschied zusammenfassend beschreiben? I Bsp: 0.5· Summe der absoluten Anteilsdifferenzen I Sagt aus, wieviel % der Frauen ihre Tätigkeit wechseln müssen, damit ihre Beschäftigungsstruktur der der Männer entspricht. 33 / 40 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0.0 0.1 0.2 0.3 0.4 0.5 Statistik IEinführung Beispiel: PSID Gruppenvergleiche Sektorale Beschäftigungsstruktur Statistik IEinführung Beispiel: PSID Gruppenvergleiche Analytische Vergleiche 34 / 40 I Woher kommt der Unterschied im Einkommensniveau? I Erhalten Frauen für gleiche Tätigkeiten/in denselben Sektoren weniger? I Oder erhalten Frauen für gleiche Tätigkeiten das Gleiche, aber üben Tätigkeiten mit geringerem Lohnniveau aus? I Wie groß wäre der Unterschied, wenn Frauen die gleiche Tätigkeitsstruktur hätten? I Wie groß wäre der Unterschied, wenn Frauen je Tätigkeit den gleichen Lohn erhielten? 35 / 40 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0.0 0.1 0.2 0.3 0.4 0.5 Statistik IEinführung Beispiel: PSID Gruppenvergleiche Sektorstruktur nach Geschlecht Männer Frauen 36 / 40 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0 5 10 15 20 $ je Stunde 25 30 35 Statistik IEinführung Beispiel: PSID Gruppenvergleiche Durchschnittslöhne in den Sektoren Statistik IEinführung Beispiel: PSID Gruppenvergleiche 40 Sektorale Durchschnittslöhne nach Geschlecht Männer 37 / 40 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0 10 20 30 Frauen Statistik IEinführung Beispiel: PSID Gruppenvergleiche Maßzahlen des Zusammenhangs 38 / 40 I Wird in Sektoren mit hohem Frauenanteil mehr oder weniger gezahlt? I Ausgangsbasis sind für die 10 Sektoren (Missing als eigener Sektor) Wertepaare mit I Frauenanteil und durchnittlichen Stundenlöhnen Statistik IEinführung Beispiel: PSID Gruppenvergleiche 30 Frauenanteil und Durchschnittslöhne ● Construction 25 20 ● Manufacturing ● Transport ● Services ● Agr./Energy/Min. ● Trade 15 Durschnittslohn ● Bank/Insurance ● Missing 0.0 0.2 0.4 0.6 Frauenanteil 39 / 40 0.8 1.0 Statistik IEinführung Beispiel: PSID Gruppenvergleiche 30 Frauenanteil und Durchschnittslöhne ● Construction 25 20 ● Manufacturing ● Transport ● Services ● Agr./Energy/Min. ● Trade 15 Durschnittslohn ● Bank/Insurance ● Missing 0.0 0.2 0.4 0.6 Frauenanteil 40 / 40 0.8 1.0 Statistik I Daten und Variablen Statistik I Daten und Variablen Prof. Dr. Andreas Behr 1 / 37 Statistik I Daten und Variablen Inhaltsverzeichnis Das Untersuchungsobjekt Grundbegriffe Die Operationalisierung Untersuchungsmerkmale Die Erhebung Der Erhebungsplan Erhebungstechniken Notation Merkmalsträger und Merkmale Datenstruktur Merkmalswerte und -ausprägungen Datenquellen Amtliche Statistik Nicht-amtliche Statistik Panel Study of Income Dynamics 2 / 37 Statistik I Daten und Variablen Internet: www.stat.wiwi.uni-due.de/studium-lehre 3 / 37 Statistik I Daten und Variablen Das Untersuchungsobjekt Grundbegriffe Grundbegriffe 4 / 37 I Erkenntnisprojekt (Was interessiert?) I Erhebungsobjekt (Wen befragen?) I Begriffsmerkmale (Wie erkennen?) I Untersuchungsmerkmale (Was fragen?) Statistik I Daten und Variablen Das Untersuchungsobjekt Grundbegriffe Beispiel: Einkommenssituation 5 / 37 I Erkenntnisprojekt: Einkommenssituation von Haushalten I Erhebungsobjekt: Haushalte I Begriffsmerkmale: Gemeinsame Wohnung, gemeinsames Wirtschaften I Untersuchungsmerkmal: Haushaltsnettoeinkommen Statistik I Daten und Variablen Das Untersuchungsobjekt Die Operationalisierung Der Idealtypus I Ausgangspunkt ist das Erkenntnisprojekt (z.B. Wohnsituation von Studierenden) I Die Idee des Forschers bezieht sich zunächst auf einen „Idealtypus“ I I 6 / 37 Der „Idealtypus“ ist eine idealisierte, möglicherweise nicht existierende Vorstellung Der Idealtypus ist nicht „objektiv eindeutig“, nicht „operational“ Statistik I Daten und Variablen Das Untersuchungsobjekt Die Operationalisierung Idealtypus und statistischer Begriff I Für eine praktische Erhebung ist der Idealtypus meist nicht direkt verwendbar I Es muss ein „statistischer Begriff“ entwickelt werden Der statistische Begriff soll I I I I 7 / 37 die Einheiten klar definieren leicht erkennbare Kriterien verwenden und evtl. eine leicht handhabbare Messvorschrift enthalten Statistik I Daten und Variablen Das Untersuchungsobjekt Die Operationalisierung Begriffs- und Untersuchungsmerkmale I Beispiele: Erhebungsobjekt und Untersuchungsmerkmal Grundgesamtheit Private Haushalte in Deutschland am 1.1.2004 Handwerksbetriebe in Münster, 1.1.2004 Studierende WiWi Beginn WS 2008 8 / 37 Merkmal Monatliches Haushaltsnettoeinkommen Anzahl der Beschäftigten Geschlecht Statistik I Daten und Variablen Das Untersuchungsobjekt Die Operationalisierung Güte der Operationalisierung 9 / 37 I Der statistische Begriff weicht vom Idealtypus ab I Die Entwicklung statistischer Begriffe wird als Operationalisierung bezeichnet I Die Güte der Operationalisierung (auch Adäquation) ist für das gesamte Erkenntnisprojekt entscheidend I Fehler in der Adäquation sind in der Auswertungsphase nicht mehr zu reparieren Statistik I Daten und Variablen Das Untersuchungsobjekt Untersuchungsmerkmale Merkmalsarten Merkmalsuntergliederungen I qualitative vs. quantitative Merkmale I I häufbare vs. nichthäufbare Merkmale I I Beispiele: Hobbys, 1. Wohnsitz diskrete vs. stetige Merkmale I 10 / 37 Beispiele: Geschlecht, Alter Beispiele: Anzahl Artzbesuche, Behandlungsdauer Statistik I Daten und Variablen Das Untersuchungsobjekt Untersuchungsmerkmale Skalierung I Nominalskala (unterscheidbar) I Ordinalskala (anordenbar) Kardinalskala (messbar) I I I 11 / 37 Intervallskala (kein abs. Nullpunkt) Verhältnisskala (abs. Nullpunkt) Statistik I Daten und Variablen Das Untersuchungsobjekt Untersuchungsmerkmale Nominalskala 12 / 37 I Ein Merkmal ist nur nominal skalierbar, wenn lediglich die Andersartigkeit festgestellt werden kann I Eine Rangfolge lässt sich nicht begründen I Für die Einheiten wird nur festgestellt, welche Ausprägung vorliegt I Oftmals werden numerische Symbole (Zahlen) zur Kennzeichnung der Ausprägungen benutzt Statistik I Daten und Variablen Das Untersuchungsobjekt Untersuchungsmerkmale Ordinalskala 13 / 37 I Ein Merkmal ist nur ordinal skalierbar, wenn die Ausprägungen in eine Rangordnung gebracht werden können I Die Abstände sind jedoch nicht sinnvoll quantifizierbar I Meist werden Zahlen zur Kennzeichnung der Ausprägungen benutzt I Die Zahlen geben jedoch nur die Rangfolge an Statistik I Daten und Variablen Das Untersuchungsobjekt Untersuchungsmerkmale Kardinalskala: Intervall- und Verhältnisskala 14 / 37 I Für intervallskalierte Merkmale lassen sich Abstände quantifizieren, Verhältnisse der Ausprägungen machen jedoch keinen Sinn I Für verhältnisskalierte Merkmale lassen sich sowohl Differenzen als auch Verhältnisse sinnvoll interpretieren I Kardinalskalierte Merkmale werden auch als metrische Merkmale bezeichnet Statistik I Daten und Variablen Die Erhebung Der Erhebungsplan Erhebungsplan I Festlegung des Verfahrens, Anweisungskatalog I Erhebungsgegenstand und die zugehörigen Messkonzepte Statistischer Begriff: zu erfassende Masse und zu erfassende Untersuchungsmerkmale I I I I 15 / 37 das Erhebungsgebiet die Berichtsperiode bzw. der Berichtszeitpunkt die anzuwendende Erhebungstechnik Statistik I Daten und Variablen Die Erhebung Der Erhebungsplan Erhebungseinheit I Oftmals ist Erhebungseinheit nicht mit der statistischen Einheit identisch I I I 16 / 37 Die Auskunftsstelle oder Auskunftsperson Die Aufbereitungs- oder Darstellungseinheit Die Auswahleinheit Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Erhebungstechniken I I Verfahrenstechniken, die in einer konkreten Erhebung kombiniert werden Beobachtung falls I I I I I 17 / 37 keine Alternative besteht (Verkehrszählung) Beobachtung leichter, verlässlicher als Befragung (z.B Saatenstandsbegutachtung) die Beobachtung Kontrollfunktionen hat (statistische Qualitätskontrolle) technische Voraussetzungen für Befragung fehlen „Beobachtung“ meint auch: die Auswertung von Dateien, Karteien etc. Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Befragung I Vorteile der Befragung von Auskunftspersonen: I I I Nachteile der Befragung: I I I Auskunft eventuell nicht wahrheitsgemäß (vorsätzlich oder irrtümlich) Schriftliche Befragung, Erhebungsbogen Güte des Fragebogens entscheidet über Güte der Ergebnisse I I 18 / 37 Wissen von Auskunftspersonen nutzen Erfragung „subjektiver“ Phänomene (Einstellungen, Erwartungen) Allgemeinverständlichkeit Klarheit und Einfachheit Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Befragung I Arten von Fragen I I I Wegen Eindeutigkeit und leichterer Eingabe/Auswertung dominieren geschlossene Fragen I Mündliche Befragung (Interview) Vorteil des Interviews I I I I 19 / 37 geschlossene Fragen: Ankreuzen offene Fragen: Formulierung der Antwort Hilfestellung bei Beantwortung Überprüfung der Antworten auf Plausibilität Nachteile: hohe Kosten, schwierige Auswertung Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Primärstatistische und sekundärstatistische Erhebung I Primärstatistisch: Erhebung von Daten eigens für Erkenntnisprojekt I I I Sekundärstatistisch: Auswertung von vorliegenden Daten I I 20 / 37 Vorteil: Fragen genau auf Erkenntnisprojekt ausgerichtet Nachteil: Teuer und zeitaufwendig Vorteil: Oft professionelles Erhebungspersonal, hohe Datenqualität Nachteil: Interessierende Merkmale nicht oder nicht in der gewünschten Weise erfasst Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Vollerhebung (Totalerhebung) und Teilerhebung Vollerhebung (Totalerhebung) 21 / 37 I Alle Einheiten der statistischen Masse werden befragt I Vorteil: Alle Details, Untersuchung der Feinstruktur I Nachteil: Teuer, zeitaufwendig, begrenztes Frageprogramm I Daher fast nur Teilerhebungen: schneller, billiger, schwierigere Fragen möglich I Problem: eventuell keine Feinstruktur, Auswahlgrundlage nötig Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Vollerhebung (Totalerhebung) und Teilerhebung Teilerhebung (Stichprobe) 22 / 37 I anstelle einer Vollerhebung: schneller und billiger I zusätzlich: Erhebung „komplizierter“ Sachverhalte I zusätzlich: Kontrolle der Vollerhebung I aus dem Erhebungsmaterial einer Totalerhebung I wenn sich eine Vollerhebung verbietet: „zerstörende Qualitätskontrolle“ (Crashtest) I wenn eine Vollerhebung unmöglich ist: „unendliche Grundgesamtheit“, z.B. laufende Produktion Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Teilerhebung I I 23 / 37 Erhebung von Teilmasse, aber Urteile über die Gesamtmasse Teilmasse soll Gesamtmasse repräsentieren, aber was heißt „repräsentativ“? I Repräsentativität bezüglich aller Merkmale? I Repräsentativität nur bezüglich ausgewählter Merkmale? Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Auswahlverfahren Zwei prinzipielle Möglichkeiten: I Echte Zufallsstichproben (Stichproben) I I I Nicht-zufällige Auswahlverfahren I I I 24 / 37 Auswahl mit Hilfe eines Zufallsgenerators Möglichkeit von Wahrscheinlichkeitsaussagen Z.B. Auswahl typischer Fälle Quotenverfahren Keine Wahrscheinlichkeitsaussagen möglich Statistik I Daten und Variablen Die Erhebung Erhebungstechniken Datenqualität I Erhobene Daten weisen in der Praxis oft gravierende Mängel auf I I I I 25 / 37 Non-Response: Antwortverweigerung Item-Non-Response: Antwortverweigerung bei bestimmten Fragen Falsche Angaben (unabsichtlich, absichtlich) Rundungen Statistik I Daten und Variablen Notation Merkmalsträger und Merkmale Einheiten und Merkmale I I I I I I Grundgesamtheit G = {e1 , . . . , en } Umfang der Grundgesamtheit n = |G | Bestandsmasse (Angabe zu Zeitpunkt) Bewegungsmasse (Angabe zu Zeitraum) Merkmalsträger (e1 , . . . , en ) Daten: beobachtete Werte eines Merkmals (oder mehrerer Merkmale) Notation bei einem Merkmal X : x1 , . . . , xn I Notation bei zwei Merkmalen X und Y : (x1 , y1 ), . . . , (xn , yn ) 26 / 37 Statistik I Daten und Variablen Notation Datenstruktur Datenmatrix 27 / 37 I Daten werden meist als Matrix gespeichert I Bei einem Eintrag xij bezeichnet i die Einheit (Zeile) und j das Merkmal (Spalte) I Werden z.B. bei n = 4 Einheiten jeweils die Ausprägungen von m = 3 Merkmalen X1 , X2 , X3 erhoben, ergibt sich folgende Datenmatrix der Dimension 4 × 3 ⎡ ⎤ ⎢⎢ x1,1 x1,2 x1,3 ⎥⎥ ⎢⎢⎢ x2,1 x2,2 x2,3 ⎥⎥⎥ ⎢⎢ ⎥⎥ ⎢⎢ x ⎥ ⎢⎢ 3,1 x3,2 x3,3 ⎥⎥⎥ ⎣ ⎦ x4,1 x4,2 x4,3 Statistik I Daten und Variablen Notation Merkmalswerte und -ausprägungen Merkmale, Werte, Ausprägungen 28 / 37 I Merkmal (X , Y etc.) I Merkmalswerte (x1 , x2 , ...) I Merkmalsausprägungen (x̃1 , x̃2 , ...) Statistik I Daten und Variablen Notation Merkmalswerte und -ausprägungen Ausprägungen und Häufigkeiten Ein Beispiel: 29 / 37 I n = 3, x1 = 1, x2 = 4, x3 = 4 I J = 2, x̃1 = 1, x̃2 = 4 I Die Verwendung von Ausprägungen x̃j und Häufigkeiten nj ist oftmals ökonomischer I Statt x1 = 1, x2 = 1, ..., x10 = 1 I Nun x̃1 = 1, n1 = 10 Statistik I Daten und Variablen Notation Merkmalswerte und -ausprägungen Klassierung I Oft werden Merkmalswerte zu Klassen (Intervallen) zusammengefasst I I 30 / 37 Klassengrenzen und Häufigkeiten [xju ; xjo [, nj Häufigkeitsverteilung gibt dann für jede Klasse die Häufigkeit an I Die Klassierung erlaubt die übersichtliche Darstellung großer Datenmengen I Mit der Klassierung geht meist ein erheblicher Informationsverlust einher Statistik I Daten und Variablen Datenquellen Amtliche Statistik Datenquellen der amtlichen Statistik: 31 / 37 I Statistisches Bundesamt I Statistische Landesämter I EUROSTAT I Deutsche Bundesbank I Bundesagentur für Arbeit I Bundesanstalt für Finanzdienstleistungsaufsicht I Kraftfahrtbundesamt I etc. Statistik I Daten und Variablen Datenquellen Nicht-amtliche Statistik Datenquellen der nicht-amtlichen Statistik: 32 / 37 I Wirtschaftswissenschaftliche Institute (IfW Kiel, DIW, HWWA, ifo, RWI, IWH) I Wirtschaftsforschungsinstitute von Interessenverbänden I halbamtliche Institutionen (Sachverständigenrat, Monopolkommission) Statistik I Daten und Variablen Datenquellen Panel Study of Income Dynamics PSID I Panel Study of Income Dynamics I Querschnitt: Einheiten werden zu einem Zeitpunkt befragt I Zeitreihe (Längsschnitt): Ein Merkmal wird an mehreren Zeitpunkten beobachtet I Panelerhebung: Gleiche Einheiten werden an mehreren Zeitpunkten befragt I Vorteil von Panelerhebungen: Verläufe werden sichtbar I Bekanntes Beispiel 2 Querschnitte in t = 0 und t = 1, Arbeitslosenquote je 10% Beachte: 2 völlig verschiedene Sachverhalte möglich! - gleiche Personen in t = 0 und t = 1 arbeitslos - komplett andere Personen in t = 0 und t = 1 arbeitslos 33 / 37 Statistik I Daten und Variablen Datenquellen Panel Study of Income Dynamics PSID 34 / 37 I Erste Welle in 1968 I Bis 1997 jährlich, seither 2-jährlich (Kosten!) I 4.800 Haushalte in 1986, 7.000 Haushalte in 2001 I Insgesamt 65.000 Personen in bis zu 37 Jahren I Insgesamt mehrere hundert Variable I Änderungen im Frageprogramm, der Codierung, etc. I PSID-Daten sind relativ schwer zu handhaben Statistik I Daten und Variablen Datenquellen Panel Study of Income Dynamics PSID-CNEF 35 / 37 I CNEF: Cross National Equivalent Files I Forschergruppe, die Daten verschiedener nationaler Erhebungen vergleichbar macht I ähnliche Panelerhebungen in anderen Ländern: I Deutschland: SOEP (Sozioökonomisches Panel) I UK: BHPS (British Household Panel Study) I Canada: SLID (Survey of Labour and Income Dynamics) Statistik I Daten und Variablen Datenquellen Panel Study of Income Dynamics PSID-CNEF 36 / 37 I Bereitstellung von harmonisierten Datensätzen I Ziel ist die Möglichkeit vergleichender Analysen I Wenige aber vereinheitlichte Variablen I CNEF-File mit PSID Daten leichter zu handhaben I Wir nutzen die PSID-CNEF-Daten 2005 (Querschnitt) I 2005 ist letzte verfügbare Welle I Wenige ausgewählte Variablen Statistik I Daten und Variablen Datenquellen Panel Study of Income Dynamics Variablen I Variablen (I) I I I I I I Variablen (II) I I I I 37 / 37 pid: Personennummer age: Alter sex: Geschlecht edu: Bildungskategorien (3) eduyears: Ausbildungsjahre wage: Jahreseinkommen hours: Jahresarbeitsstunden occupa: Tätigkeit/Beruf sector: Branche/Wirtschaftszweig Statistik I Auswertung eindimensionaler Daten Statistik I Auswertung eindimensionaler Daten Prof. Dr. Andreas Behr 1 / 33 Statistik I Auswertung eindimensionaler Daten Inhaltsverzeichnis Häufigkeiten Absolute und relative Häufigkeiten Häufigkeitstabelle Grafische Darstellung Empirische Verteilungsfunktion Definition Eigenschaften Beispiel Quantile Definition Ermittlung von Quantilen PSID 2 / 33 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Absolute und relative Häufigkeiten Eindimensionale Daten I Ausgangssituation: Grundgesamtheit G vom Umfang n I Nur ein Merkmal X wird betrachtet I Urliste: x1 , . . . , xn Zahlenbeispiel I: x = {2, 4, 5, 2, 1, 4, 3, 5, 5, 1, 2, 3, 2, 3, 2, 2, 2, 5, 3, 5} n = 20 I 3 / 33 Problem: Wie kann man die Informationen kompakt und übersichtlich darstellen? Statistik I Auswertung eindimensionaler Daten Häufigkeiten Absolute und relative Häufigkeiten Definition von Häufigkeiten I Anzahl unterschiedlicher Merkmalsausprägungen: J I Merkmalsausprägungen: x̃1 , x̃2 , . . . , x̃J I Absolute Häufigkeit von x̃j nj = Anzahl der Daten mit Merkmalsausprägung x̃j I Relative Häufigkeit von x̃j fj = 4 / 33 nj = Anteil der Daten mit Merkmalsausprägung x̃j n Statistik I Auswertung eindimensionaler Daten Häufigkeiten Absolute und relative Häufigkeiten Definition von Häufigkeiten I Es gilt J ∑︀ j =1 I nj = n und J ∑︀ fj = 1 j =1 Diskrete Klassierung (oder: Häufigkeitsverteilung) (x̃1 , n1 ), (x̃2 , n2 ), . . . , (x̃J , nJ ) bzw. (x̃1 , f1 ), (x̃2 , f2 ), . . . , (x̃J , fJ ). 5 / 33 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Häufigkeitstabelle Häufigkeitstabelle Darstellung in Form einer Häufigkeitstabelle: 6 / 33 x̃j x̃1 x̃2 .. . nj n1 n2 .. . fj = nj /n f1 f2 .. . x̃J nJ n fJ 1 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Häufigkeitstabelle Häufigkeitstabelle Unser Zahlenbeispiel I: x̃j x̃1 = 1 x̃2 = 2 x̃3 = 3 x̃4 = 4 x̃5 = 5 7 / 33 nj n1 = 2 n2 = 7 n3 = 4 n4 = 2 n5 = 5 n = 20 fj = nj /n f1 = 0.1 f2 = 0.35 f3 = 0.2 f4 = 0.1 f5 = 0.25 Σ=1 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Häufigkeitstabelle Grafische Darstellung der Häufigkeitstabelle: Häufigkeitsfunktion 4 0 1 2 3 f(x) 5 6 7 8 Häufigkeitsfunktion 0 1 2 3 x 8 / 33 4 5 6 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Häufigkeitstabelle Beispiel II: I Grundgesamtheit: 20 Beschäftigte eines Betriebs I Merkmal: Verkehrsmittel für den Arbeitsweg I Merkmalsausprägungen: x̃1 = 1 (öPNV) x̃2 = 2 (PKW) x̃3 = 3 (Motorrad) x̃4 = 4 (Fahrrad) x̃5 = 5 (zu Fuß) 9 / 33 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Häufigkeitstabelle Beispiel II: I Urliste: 1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4, 1, 1, 2, 2, 1, 2, 1 I Häufigkeitstabelle x̃j (1) öPNV (2) PKW (3) Motorrad (4) Fahrrad (5) zu Fuß 10 / 33 nj 6 9 1 2 2 20 fj 0.30 0.45 0.05 0.10 0.10 1.00 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung 6 4 0 2 Häufigkeiten nj 8 10 Stabdiagramm ÖPNV PKW Motorrad Verkehrsmittel 11 / 33 Fahrrad zu Fuß Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung Balkendiagramm zu Fuß Fahrrad Motorrad PKW ÖPNV 0 2 4 6 Häufigkeiten nj 12 / 33 8 10 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung Tortendiagramm (Pie) Schön bunt, nicht sehr informativ ... ÖPNV PKW zu Fuß Fahrrad Motorrad 13 / 33 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung Manipulation von Grafiken I Grafiken können auf viele Arten manipuliert werden I Manipulation muss nicht immer schlecht sein Typische Fälle: I I I I 14 / 33 Verzerren der Achsen Skalierung der y-Achse Irreführende Flächen Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung Beispiel: Original y-Achse Müll (kg) je Einwohner 0 100 200 300 400 500 600 700 Höhe (u. Fläche) proportional zu Verbrauch Japan EU Land 15 / 33 USA Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung Beispiel: Verzerrende y-Achse 600 500 400 300 Müll (kg) je Einwohner 700 Achsenmanipulation Japan EU Land 16 / 33 USA Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung Beispiel: Verzerrende Fläche Müll (kg) je Einwohner 0 100 200 300 400 500 600 700 Fläche überproportional zu Verbrauch Japan EU USA Land 17 / 33 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung 10 Beispiel: Orignal x-Achse ● 9 ● 8 ● 7 ● Y 6 ● 5 ● 4 ● 3 ● 1 2 ● ● 2001 2002 2003 2004 2005 2006 Jahr 18 / 33 2007 2008 2009 2010 Statistik I Auswertung eindimensionaler Daten Häufigkeiten Grafische Darstellung 10 Beispiel: Verzerren der x-Achse 9 ● 7 8 ● Y 6 ● 5 ● 4 ● 3 ● 1 2 ● ● 2001 2002 2003 2004 2005 Jahr 19 / 33 2006 2008 2010 Statistik I Auswertung eindimensionaler Daten Empirische Verteilungsfunktion Definition Empirische Verteilungsfunktion I Die Merkmale müssen mindestens ordinal skaliert sein F (x) = Anteil der Daten mit Merkmalswert ≤ x = = |{i |xi ≤ x}| n ∑︁ fr {r|x̃r ≤x} 20 / 33 I Sprungstellen: Die Werte, die vorkommen I Sprunghöhen: Relative Häufigkeiten Statistik I Auswertung eindimensionaler Daten Empirische Verteilungsfunktion Eigenschaften Eigenschaften der empirischen Verteilungsfunktion: 21 / 33 I Definitionsbereich R, Wertebereich [0; 1] I limx→−∞ F (x) = 0 und limx→∞ F (x) = 1 I Monoton steigend I Rechtsstetig, d.h. limx↓x0 F (x) = F (x0 ) Statistik I Auswertung eindimensionaler Daten Empirische Verteilungsfunktion Beispiel Nochmal Beispiel I: Häufigkeitstabelle I x = {2, 4, 5, 2, 1, 4, 3, 5, 5, 1, 2, 3, 2, 3, 2, 2, 2, 5, 3, 5} x̃j x̃1 = 1 x̃2 = 2 x̃3 = 3 x̃4 = 4 x̃5 = 5 22 / 33 nj n1 = 2 n2 = 7 n3 = 4 n4 = 2 n5 = 5 n = 20 fj = nj /n f1 = 0.1 f2 = 0.35 f3 = 0.2 f4 = 0.1 f5 = 0.25 Σ=1 Fj F1 = 0.10 F2 = 0.45 F3 = 0.65 F4 = 0.75 F5 = 1.00 Statistik I Auswertung eindimensionaler Daten Empirische Verteilungsfunktion Beispiel Darstellung der empirischen Verteilungsfunktion: 1.0 Verteilungsfunktion 0.6 F(x) ● ● ● 0.2 0.4 0.3 0.2 0.1 f(x) ● 0.8 0.4 Häufigkeitsfunktion 0.0 0.0 ● 0 1 2 3 x 23 / 33 4 5 6 0 1 2 3 x 4 5 6 Statistik I Auswertung eindimensionaler Daten Quantile Definition Quantile I Definition: x̃p = min{x|F (x) ≥ p} x∈R = kleinster Wert x ∈ R mit der Eigenschaft, dass F (x) ≥ p heißt p-Quantil (oder p · 100%-Punkt) I 24 / 33 Bestimmung aus der empirischen Verteilungsfunktion oder aus der (geordneten) Urliste Statistik I Auswertung eindimensionaler Daten Quantile Definition Spezielle Quantile: Median (Zentralwert) Quartile Quintile Dezile 25 / 33 x̃0.5 x̃0.25 , x̃0.2 , x̃0.1 , x̃0.5 , x̃0.4 , x̃0.2 , x̃0.75 x̃0.6 , ..., x̃0.8 x̃0.9 Statistik I Auswertung eindimensionaler Daten Quantile Ermittlung von Quantilen Quantile I Urliste: Mit jedem Wert steigt F (x) um 1/n Wandere so weit in der Urliste, bis F (x) ≥ p I Das p-Quantil ist {︃ xnp , falls np ganzzahlig x̃p = x[np ]+1 , sonst wobei [np] der ganzzahlige Anteil von np ist. 26 / 33 Statistik I Auswertung eindimensionaler Daten Quantile Ermittlung von Quantilen Beispiel III: Bestimmung über die Urliste I Bestimme x̃0.1 , und x̃0.72 aus der (geordneten) Urliste {1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 5, 5, 5, 5} I Ganzzahlige Werte np x̃0.1 = x0.1·20 = x2 = 1 I Nicht ganzzahliger Wert np x̃0.72 = x[0.72·20]+1 = x[14.4]+1 = x15 = 4 27 / 33 Statistik I Auswertung eindimensionaler Daten Quantile Ermittlung von Quantilen Beispiel III: Bestimmung über F(x) 1.0 Verteilungsfunktion, n=20 ● 0.6 ● 0.4 ● 0.2 F(x) 0.8 ● 0.0 ● 0 1 2 3 x 28 / 33 4 5 6 Statistik I Auswertung eindimensionaler Daten Quantile Ermittlung von Quantilen Beispiel IV: 29 / 33 I Grundgesamtheit: 20 Studentinnen, die an einer Klausur teilnehmen I Merkmal: Note (1, 2, 3, 4 oder 5) I Urliste: 4, 3, 4, 5, 3, 2, 1, 2, 3, 3, 4, 5, 4, 4, 2, 3, 1, 3, 3, 5 I Bestimme x̃0.5 , x̃0.85 und x̃0.99 . Statistik I Auswertung eindimensionaler Daten Quantile Ermittlung von Quantilen Beispiel IV: Bestimmung über die Urliste I Bestimme x̃0.5 , x̃0.85 und x̃0.99 aus der (geordneten) Urliste 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5 I Ganzzahlige Werte np x̃0.5 = x0.5·20 = x10 = 3 x̃0.85 = x0.85·20 = x17 = 4 I Nicht ganzzahliger Wert np x̃0.99 = x[0.99·20]+1 = x[19.8]+1 = x20 = 5 30 / 33 Statistik I Auswertung eindimensionaler Daten Quantile Ermittlung von Quantilen Beispiel IV: Bestimmung über F(x) 1.0 Verteilungsfunktion ● 0.6 0.8 ● 0.4 F(x) ● 0.2 ● 0.0 ● 0 1 2 3 x 31 / 33 4 5 6 Statistik I Auswertung eindimensionaler Daten Quantile PSID PSID, Häufigkeitsfunktion 250 Häufigkeitsfunktion, n=10023 150 0 50 100 f(x) 200 0.25−Quantil (14 Tsd. US $) 0.50−Quantil (28 Tsd. US $) 0.75−Quantil (45 Tsd. US $) 0 50 100 Einkommen, 1000 US$ 32 / 33 150 200 Statistik I Auswertung eindimensionaler Daten Quantile PSID PSID, Verteilungsfunktion 0.6 0.4 0.25−Quantil (14 Tsd. US $) 0.50−Quantil (28 Tsd. US $) 0.75−Quantil (45 Tsd. US $) 0.0 0.2 F(x) 0.8 1.0 Verteilungsfunktion, n=10023 0 50 100 Einkommen, 1000 US$ 33 / 33 150 200 Statistik I Maßzahlen Statistik I Maßzahlen Prof. Dr. Andreas Behr 1 / 32 Statistik I Maßzahlen Inhaltsverzeichnis Einleitung Maßzahlen Lagemaße Streuungsmaße Schiefemaße Wölbungsmaße 2 / 32 Statistik I Maßzahlen Einleitung Maßzahlen 3 / 32 I Maßzahlen zur Beschreibung von Häufigkeitsverteilungen (HV) I Ziel ist, wesentliche Charakteristika der HV mit wenigen Maßzahlen zu beschreiben I Durch Kenntnis wichtiger Maßzahlen, entsteht eine Vorstellung der HV I Nicht alle Maßzahlen sind für alle Häufigkeitsverteilungen gleichermaßen geeignet Statistik I Maßzahlen Einleitung PSID: Jahreseinkommen 2007 0.010 0.000 0.005 Dichte 0.015 0.020 Ungleiche Klassenbreiten 0 4 / 32 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 150 175 200 Statistik I Maßzahlen Einleitung Behandelte Maßzahlen 5 / 32 I Lagemaße I Streuungsmaße I Schiefemaße I Wölbungsmaße Statistik I Maßzahlen Maßzahlen Lagemaße Niveaucharakterisierende Maßzahlen 6 / 32 I Lagemaße sind Maßzahlen, die ausdrücken „wo“ die Daten sich befinden I Je nach Skalenniveau sind unterschiedliche Lagemaße sinnvoll anwendbar I Je nach Fragestellung sind unterschiedliche Lagemaße aussagekräftiger Statistik I Maßzahlen Maßzahlen Lagemaße Behandelte Lagemaße 1. Modus (häufigster Wert) 2. Median (0.5-Quantil) 3. Arithmetisches Mittel, (Durchschnitt) 4. Harmonisches Mittel 5. Geometrisches Mittel 7 / 32 Statistik I Maßzahlen Maßzahlen Lagemaße Modus I Auch bei nominalen und ordinalen Merkmalen anwendbar I Am häufigsten vorkommender Wert I 8 / 32 Bei metrischen Merkmalen oft keine Werte mehrfach, dann „Verdichtungsstelle“ I Sehr anschauliches Lagemaß I Nur bei unimodalen (eingipfligen) Verteilungen aussagekräftig I Unempfindlich gegenüber Ausreißern Statistik I Maßzahlen Maßzahlen Lagemaße Modus: Beispiel I Urliste 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5 I Häufigkeitstabelle x̃j 1 2 3 4 5 9 / 32 nj 2 3 7 5 3 Statistik I Maßzahlen Maßzahlen Lagemaße Median (Zentralwert) 10 / 32 I Das 0.5-Quantil bereits betrachtet: x̃0.5 I Sehr anschauliches Maß : 50% der Werte sind kleiner(gleich), 50% der Werte sind größer I Wert, der die Fläche einer Verteilung halbiert I Sehr robust gegenüber Ausreißern Statistik I Maßzahlen Maßzahlen Lagemaße Arithmetisches Mittel (Durchschnitt) 11 / 32 I Gebräuchlichster Mittelwert I Aber auch unanschaulichster Wert I Muss als Wert selbst gar nicht vorkommen I Sehr empfindlich gegenüber Ausreißern I Popularität ist durch die Verwendung der Normalverteilung in der Stochastik begründet I Für deskriptive Zwecke sind oft andere Lagemaße besser geeignet Statistik I Maßzahlen Maßzahlen Lagemaße Ungewichtetes/gewichtetes arithmetisches Mittel I Ungewichtetes arithmetisches Mittel n x̄ = 1 ∑︁ xi n i =1 I Gewichtetes arithmetisches Mittel: Entweder mit absoluten oder mit relativen Häufigkeiten J J j =1 j =1 ∑︁ 1 ∑︁ x̄ = x̃j nj = x̃j fj n 12 / 32 Statistik I Maßzahlen Maßzahlen Lagemaße Arithmetisches Mittel: 1. Beispiel I Grundgesamtheit: n = 5 Angestellte in einem Betrieb I Merkmal X : Bruttomonatsgehalt I Durchschnittliches Bruttomonatsgehalt: i 1 2 3 4 5 xi 2258 2343 2218 1703 3444 x̄ = (2258 + 2343 + 2218 + 1703 + 3444) /5 = 2393.20 13 / 32 Statistik I Maßzahlen Maßzahlen Lagemaße Arithmetisches Mittel: 2. Beispiel I Grundgesamtheit: n = 520 Haushalte eines Vororts I Merkmal X : Anzahl der Haushaltsmitglieder I Durchschnittliche Haushaltsgröße x̄ = 14 / 32 x̃j 1 2 3 4 5 6 nj 188 173 79 56 20 4 520 1 (1 · 188 + 2 · 173 + . . . + 6 · 4) = 2.1519 520 Statistik I Maßzahlen Maßzahlen Lagemaße Harmonisches Mittel I I I Oft als Rechenprogramm für das gewichtete arithmetische Mittel Reziprokes arithmetisches Mittel der reziproken Merkmalswerte ungewichtet ⎞−1 ⎛ n ⎟⎟ ⎜⎜ 1 ∑︁ 1 xi−1 ⎟⎟⎟⎠ = 1 ∑︀n 1 x̄H = ⎜⎜⎜⎝ n i =1 x n i =1 I i gewichtet ⎞−1 ⎛ ∑︀J ∑︀J nj ⎜⎜ j =1 x̃j−1 · nj ⎟⎟⎟ ⎜ ⎟⎟ = ∑︀ j =1 x̄H = ⎜⎝ ∑︀J ⎠ J 1 j =1 n j j =1 x̃ · nj j 15 / 32 Statistik I Maßzahlen Maßzahlen Lagemaße Harmonisches Mittel: Beispiel I I Ein Fahrzeug fährt 200 km mit 100 km/Std. und 300 km mit 150 km/Std. Mit welcher mittleren Geschwindigkeit ist es gefahren? Berechnung über arithmetisches Mittel: I I Erst Stunden als Gewichte berechnen: 2 Std. mit 100 km/Std. und 2 Std. mit 150 km/Std. dann gewichtet arithmetisch mitteln x̄ = 16 / 32 km km 2Std . · 100 Std 500 km km . + 2Std . · 150 Std . = = 125 4Std . 4 Std Std Statistik I Maßzahlen Maßzahlen Lagemaße Harmonisches Mittel: Beispiel (Forts.) I Berechnung direkt mit harmonischem Mittel: I 200 km mit 100 km/Std. und 300 km mit 150 km/Std. = x̄H = I · 200km + 1 km 150 Std . · 300km 500 km km = 125 4 Std Std Achtung: Falsch wäre x̄ , = 17 / 32 200km + 300km 1 km 100 Std . km km 200km · 100 Std . + 300km · 150 Std . 500km 650 km 2 /Std . km = 130 5 km Std Statistik I Maßzahlen Maßzahlen Lagemaße Geometrisches Mittel I Verwendung in einer „multiplikativen Welt“ I ungewichtet ⎛ n ⎞ n1 ⎜⎜∏︁ ⎟⎟ √ x̄G = ⎜⎜⎜⎝ xi ⎟⎟⎟⎠ = n x1 · x2 · . . . · xn i =1 I gewichtet ⎞1 ⎛ J ⎟ n √︁ ⎜⎜∏︁ n⎟ n n n ⎟ ⎜ x̄G = ⎜⎜⎜ x̃j j ⎟⎟⎟ = n x̃1 1 · x̃2 2 · . . . · x̃J J ⎠ ⎝ j =1 18 / 32 Statistik I Maßzahlen Maßzahlen Lagemaße Geometrisches Mittel: Beispiel I Bsp. Portfolioveränderung in 2007 10% und in 2008 −20% I Wie hoch war die mittlere Veränderung in beiden Jahren? I Ungewichtetes geometrisches Mittel I Beachte: Es muß mit Vervielfachungskoeffizienten gerechnet werden I Wachstum von 10% heißt I 1.1 ist der Vervielfachungskoeffizient I Wert2007 Wert2006 I Wert2007 Wert2006 = 1.1 − 1 = 0.1 ist die Wachstumsrate (︁ )︁ 2007 üblich Wachstumsrate in Prozent: Wert − 1 · 100 = 10% Wert 2006 19 / 32 Statistik I Maßzahlen Maßzahlen Lagemaße Geometrisches Mittel: Beispiel (Forts.) I Also: ⎛ n ⎞ n1 √ ⎜⎜∏︁ ⎟⎟ x̄G = ⎜⎜⎜⎝ xi ⎟⎟⎟⎠ = 1.1 · 0.8 = 0.938 08 i =1 20 / 32 I Mittlerer Vervielfachungskoeffizient ist also 0.938 08 I D.h. die Wachstumsrate betrug 0.938 08 − 1 = −0.061 92 bzw. −6.19 % Statistik I Maßzahlen Maßzahlen Streuungsmaße Maßzahlen der Streuung I Streuungsmaße sind Maßzahlen, die ausdrücken „wie stark“ die Daten streuen (um ein Lagemaß herum) 0.8 0.6 0.4 0.0 0.0 −3 −2 −1 0 x 21 / 32 σ = 0.5 0.2 0.4 Dichte 0.6 σ=1 0.2 Dichte 0.8 1.0 Kleine Streuung 1.0 Große Streuung 1 2 3 −3 −2 −1 0 x 1 2 3 Statistik I Maßzahlen Maßzahlen Streuungsmaße Behandelte Streuungsmaße 1. Standardabweichung, Varianz 2. Mittlere absolute Abweichung 3. Quartilsabstand 4. Spannweite 22 / 32 Statistik I Maßzahlen Maßzahlen Streuungsmaße Varianz und Standardabweichung I Varianz (Streuung) n s2 = 1 ∑︁ (xi − x̄)2 n i =1 I Standardabweichung √ s = s2 = ⎯ ⎷ n 1 ∑︁ (xi − x̄)2 n i =1 23 / 32 Statistik I Maßzahlen Maßzahlen Streuungsmaße Eigenschaften von Varianz und Standardabweichung 24 / 32 I Beide Maße sind extrem empfindlich gegenüber Ausreißern I Popularität ist durch die Verwendung der Normalverteilung in der Stochastik begründet I Für deskriptive Zwecke sind oft andere Streuungsmaße besser geeignet Statistik I Maßzahlen Maßzahlen Streuungsmaße Mittlere absolute Abweichung I Mittlere absolute Abweichung n d= 1 ∑︁ |xi − x̃0.5 | n i =1 25 / 32 I Die mittlere absolute Abweichung ist das zum Zentralwert korrespondierende Streuungsmaß I Gelegentlich wird auch die mittlere absolute Abweichung vom arithmetischen Mittel betrachtet I Die mittlere abs. Abw. ist anschaulicher als die Standardabweichung und deutlich unempfindlicher gegenüber Ausreißern Statistik I Maßzahlen Maßzahlen Streuungsmaße Quartilsabstand I Quartilabstand Q = x̃0.75 − x̃0.25 26 / 32 I Der Quartilsabstand ist sehr anschaulich und unempfindlich gegenüber Ausreißern I Er gibt die Länge des Intervalls an, in dem die mittleren 50% der Daten liegen I Die Werte im ersten und vierten Quartil bleiben völlig unberücksichtigt I Alternativ werden auch andere Quantile (z.B. 10 und 90%) betrachtet Statistik I Maßzahlen Maßzahlen Streuungsmaße Spannweite I Spannweite R = max xi − min xi i 27 / 32 i I Die Spannweite gibt die Länge des Intervalls an, indem alle Daten liegen I Die Spannweite ist ein sehr anschauliches Maß I Da sie vollständig von kleinstem und größtem Merkmalswert bestimmt wird, ist sie extrem reagibel gegenüber Ausreißern Statistik I Maßzahlen Maßzahlen Schiefemaße Schiefe: Grafische Darstellung I I Rechtsschief (=linkssteil), wenn g > 0 Linksschief (=rechtssteil), wenn g < 0 0.5 0.4 0.3 0.1 0.0 0.1 0.0 −3 −2 −1 0 x 28 / 32 g = 0.57 0.2 0.3 Dichte g = −0.64 0.2 Dichte 0.4 0.5 0.6 Rechtsschief 0.6 Linksschief 1 2 3 −3 −2 −1 0 x 1 2 3 Statistik I Maßzahlen Maßzahlen Schiefemaße Maßzahlen der Schiefe I I I Kennzahl für die Symmetrie einer Häufigkeitsverteilung Verhältnis von drittem Zentralmoment zur 3. Potenz der Standardabweichung 𝜇3 g= 3 s Allgemein: k − tes Zentralmoment n 𝜇k = 1 ∑︁ (xi − x̄)k n i =1 I Schiefe n (︂ )︂ 1 ∑︁ xi − x̄ 3 g= = n s i =1 29 / 32 1 n ∑︀n i =1 (xi s3 − x̄)3 = 𝜇3 s3 Statistik I Maßzahlen Maßzahlen Wölbungsmaße Wölbung: Grafische Darstellung I I Steiler als Normalverteilung, wenn k > 0 Flacher als Normalverteilung, wenn k < 0 1.0 0.8 Platykurtisch 1.2 Leptokurtisch k = −1.3 0.2 0.0 0.2 0.0 −3 −2 −1 0 x 30 / 32 0.4 Dichte 0.6 0.4 Dichte 0.8 0.6 k = 2.4 1 2 3 −3 −2 −1 0 x 1 2 3 Statistik I Maßzahlen Maßzahlen Wölbungsmaße Maßzahlen der Wölbung (Kurtosis) 31 / 32 I „Spitzigkeit“, Aufgewölbtheit der Verteilung I Verhältnis von viertem Zentralmoment zur 4. Potenz der Standardabweichung I Exzess: Wölbung abzüglich dem Wert 3 Wölbung der Normalverteilung ist gleich 3 (Exzess 0) I Steil aufgewölbt: Leptokurtisch I Wenig aufgewölbt: Platykurtisch Statistik I Maßzahlen Maßzahlen Wölbungsmaße Maßzahlen der Wölbung (Kurtosis) k I 32 / 32 ⎤ ⎡ n ⎢⎢ 1 ∑︁ (︂ xi − x̄ )︂4 ⎥⎥ ⎥⎥ − 3 = ⎢⎢⎢⎣ ⎥⎦ n s i =1 4 1 ∑︀n 𝜇4 i =1 (xi − x̄) n = −3 = 4 −3 4 s s Beachte: Nur bei symmetrischen Verteilungen aussagekräftig Statistik I Klassierte Daten Statistik I Klassierte Daten Prof. Dr. Andreas Behr 1 / 35 Statistik I Klassierte Daten Inhaltsverzeichnis Einführung Additionssätze Teilgesamtheit Grundgesamtheit Stetige Klassierung Grundlagen Histogramm Empirische Verteilung und Quantile Mittelwert und Varianz 2 / 35 Statistik I Klassierte Daten Einführung Klassierte Daten 3 / 35 I Daten werden in der Praxis meist in klassierter Form dargestellt I Z.B. Umsatzklassen und Anzahl der Unternehmen in einer Klasse statt Urliste I Daten können auch nach inhaltlichen Kriterien gruppiert werden (z.B. Rechtsform) Statistik I Klassierte Daten Einführung Additionssätze 4 / 35 I Fragestellung (1): Wie kann man aus Mittelwerten von Teilgesamtheiten den Mittelwert der Grundgesamtheit errechnen? −→ Additionssatz für Mittelwerte I Fragestellung (2): Wie kann man aus Varianzen von Teilgesamtheiten die Varianz der Grundgesamtheit errechnen? −→ Additionssatz für Varianzen, Streuungszerlegungssatz Statistik I Klassierte Daten Einführung Ausgangssituation: 5 / 35 I Grundgesamtheit lässt sich in J Teilgesamtheiten G1 , . . . , GJ gliedern I j ist der Index, der die Klassen kennzeichnet, j = 1, ..., J I in einer Klasse befinden sich nj Einheiten, Index k = 1, ..., nj I xjk ist k − tes Element in Klasse j I Jede der J Teilgesamtheiten kann wie bisher als eigene Gesamtheit betrachtet werden Statistik I Klassierte Daten Additionssätze Teilgesamtheit Mittelwert und Varianz der Teilgesamtheit I Mittelwert in Gruppe j x̄j = nj 1 ∑︁ xjk nj k =1 I Varianz in Gruppe j sj2 nj 1 ∑︁ (xjk − x̄j )2 = nj k =1 I Beachte: Mosler/Schmid verwenden andere Notation nj 1 ∑︁ 1 ∑︁ x̄j = xjk = xi nj nj k =1 6 / 35 i ∈Gj Statistik I Klassierte Daten Additionssätze Teilgesamtheit Beispiel I I I I I Beispiel: x1 = 1, x2 = 3, x3 = 2, x4 = 4 in Klasse j = 1 sind x11 = 1 (x1 ) und x12 = 3, (x2 ) in Klasse j = 2 sind x21 = 2 (x3 ) und x22 = 4 (x4 ) bzw. G1 = {1, 2} und G2 = {3, 4} Mit doppelter Indizierung n1 1 1 1 ∑︁ x1k = (x11 + x12 ) = (1 + 3) = 2 x̄1 = n1 2 2 k =1 I Mit Indexmenge x̄1 = 1 ∑︁ 1 1 xi = (x1 + x2 ) = (1 + 3) = 2 n1 2 2 i ∈G1 7 / 35 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Mittelwert der Grundgesamtheit I I I Mittelwerte x̄1 , . . . , x̄J und Varianzen s12 , . . . , sJ2 der Teilgesamtheiten Mittelwert x̄ und Varianz s 2 der Grundgesamtheit Umfänge der Teilgesamtheiten |Gj | = nj und der Grundgesamtheit |G | = n n= J ∑︁ nj j =1 I Additionssatz für Mittelwerte x̄ = J ∑︁ j =1 8 / 35 x̄j nj n Statistik I Klassierte Daten Additionssätze Grundgesamtheit Mittelwert der Grundgesamtheit I Warum? x̄ = J ∑︁ x̄j j =1 = = 9 / 35 1 n 1 n nj J nj ∑︁ nj 1 ∑︁ = xjk n n nj j =1 nj J ∑︁ ∑︁ j =1 k =1 n ∑︁ xi i =1 xjk k =1 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Mittelwert der Grundgesamtheit: Beispiel Männer 2797 2119 3967 3738 Frauen 2284 3570 3889 2042 3887 2977 Männer n1 = 4 x̄1 = 3155.25 10 / 35 I Merkmal X : Einkommen I 2 Teilgesamtheiten Frauen n2 = 6 x̄2 = 3108.17 Gesamt n = 10 x̄ = 3127 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Varianz der Grundgesamtheit I Additionssatz für Varianzen, Streuungszerlegungssatz s2 = J ∑︁ j =1 ⏟ J )︁2 nj nj ∑︁ (︁ + x̄j − x̄ n n j =1 ⏞ ⏟ ⏞ sj2 2 =sint I Interne Varianz und externe Varianz I Bestimmtheitsmaß B= 11 / 35 2 =sext 2 sext s2 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Varianz der Grundgesamtheit: Beispiel I I I 12 / 35 Situation I Männer Frauen Merkmal X : 1 0.5 Einkommen 2 1.5 2 Teilgesamtheiten 3 2.5 Streuungszerlegung 4 3.5 für beide Situationen 4.5 5.5 Situation II Männer Frauen 1 3.5 2 4.5 3 5.5 4 6.5 7.5 8.5 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Varianz der Grundgesamtheit: Beispiel 1 Situation I Männer Frauen 1 0.5 2 1.5 3 2.5 4 3.5 4.5 5.5 Männer n1 = 4 x̄1 = 2.5 s12 = 1.25 13 / 35 Frauen n2 = 6 x̄2 = 3 s22 = 2.91667 Gesamt n = 10 x̄ = 2.8 s 2 = 2.31 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Varianz der Grundgesamtheit: Beispiel 1 I Varianz s 2 = J ∑︁ j =1 s2 J (︁ ∑︁ )︁2 nj x̄j − x̄ + n n nj sj2 j =1 [︂ ]︂ 4 6 = 1.25 · + 2.91667 · + 10 10 [︂ ]︂ 4 6 (2.5 − 2.8)2 · + (3 − 2.8)2 · 10 10 = 2.25 + 0.06 = 2.31 ⏟ ⏞ ⏟ ⏞ int. Varianz I Bestimmtheitsmaß B= 14 / 35 ext. Varianz 2 sext 0.06 = = 0.026 2 2.31 s Statistik I Klassierte Daten Additionssätze Grundgesamtheit Varianz der Grundgesamtheit: Beispiel 2 Situation II Männer Frauen 1 3.5 2 4.5 3 5.5 4 6.5 7.5 8.5 Männer n1 = 4 x̄1 = 2.5 s12 = 1.25 15 / 35 Frauen n2 = 6 x̄2 = 6 s22 = 2.91667 Gesamt n = 10 x̄ = 4.6 s 2 = 5.19 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Varianz der Grundgesamtheit: Beispiel 2 I Varianz s 2 = J ∑︁ j =1 s2 J (︁ ∑︁ )︁2 nj x̄j − x̄ + n n nj sj2 j =1 [︂ ]︂ 4 6 = 1.25 · + 2.91667 · + 10 10 [︂ ]︂ 4 6 (2.5 − 4.6)2 · + (6 − 4.6)2 · 10 10 = 2.25 + 2.94 = 5.19 ⏟ ⏞ ⏟ ⏞ int. Varianz I Bestimmtheitsmaß B= 16 / 35 ext. Varianz 2 sext 2.94 = = 0.566 2 5.19 s Statistik I Klassierte Daten Additionssätze Grundgesamtheit Situation 1: Grafische Darstellung 0.15 0.10 0.00 0.05 Density 0.20 0.25 Situation 1 0 5 x 17 / 35 10 Statistik I Klassierte Daten Additionssätze Grundgesamtheit Situation 2: Grafische Darstellung 0.15 0.10 0.00 0.05 Density 0.20 0.25 Situation 2 0 5 x 18 / 35 10 Statistik I Klassierte Daten Stetige Klassierung Grundlagen Stetige Klassierung I I I Stetige Merkmale werden oft in Klassen (Intervalle) zusammengefasst (stetige Klassierung) Notation: Anzahl der Klassen J Klassengrenzen x1u < x1o = x2u < x2o = x3u < . . . < xJo−1 = xJu < xJo I Intervalle: K1 = [x1u , x1o ], I Kj =]xju , xjo ], j = 2, . . . , J Stetige Klassierung (K1 , n1 ), (K2 , n2 ), . . . , (KJ , nJ ) bzw. (K1 , f1 ), (K2 , f2 ), . . . , (KJ , fJ ) 19 / 35 Statistik I Klassierte Daten Stetige Klassierung Grundlagen Stetige Klassierung I Häufigkeitsverteilung in Form einer Tabelle I Beim übergang von der Urliste zur stetigen Klassierung geht viel Information verloren I I I 20 / 35 Kj K1 K2 .. . über die Verteilung innerhalb der Klassen macht die Häufigkeitsverteilung keine Angaben K J Häufig verwendete Näherung: Gleichverteilung in den Intervallen Konsequenzen für empirische Verteilungsfunktion und Quantile? nj n1 n2 .. . fj = nj /n f1 f2 .. . nJ n fJ 1 Statistik I Klassierte Daten Stetige Klassierung Histogramm Histogramm I I I I I Stetig klassierte Daten lassen sich durch Histogramme grafisch darstellen Durch Rechtecke über den Klassen werden die relativen Häufigkeiten repräsentiert Beachte: Fläche über Kj proportional zu fj Es muss also die Dichte und nicht einfach die relative Häufigkeit abgetragen werden Empirische Dichte in der Klasse Kj xjo I 21 / 35 fj − xju Nur bei konstanten Klassenbreiten kann fj verwendet werden Statistik I Klassierte Daten Stetige Klassierung Histogramm PSID: Fläche proportional zur Häufigkeit 0.010 0.000 0.005 Dichte 0.015 0.020 Ungleiche Klassenbreiten 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 22 / 35 150 175 200 Statistik I Klassierte Daten Stetige Klassierung Histogramm FALSCH: Höhe proportional zur Häufigkeit Dichte FALSCH!!! 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 23 / 35 150 175 200 Statistik I Klassierte Daten Stetige Klassierung Histogramm PSID: Grobe Klassierung Tabelle: Klassenmittel und -varianzen (0,40] (40,80] (80,120] (120,160] (160,200] 24 / 35 n 7035 2253 495 174 66 mean 19.94 55.62 96.90 137.51 182.41 variance 130.84 122.77 119.88 149.50 177.93 Statistik I Klassierte Daten Stetige Klassierung Histogramm Histogramm: PSID-Jahreslöhne (≤200Tsd. $) 5000 3000 0 1000 Abs. Häufigkeit 7000 5 Klassen gleicher Breite 0 25 50 75 100 125 Jahreslohn in 1000 US−Dollar 25 / 35 150 175 200 Statistik I Klassierte Daten Stetige Klassierung Empirische Verteilung und Quantile Empirische Verteilungsfunktion und Quantile I Annahme: Gleichverteilung innerhalb der Klassen I Nur die Werte F (xjo ) sind exakt bekannt (und F (x1u )) (︁ (︁ )︁)︁ (︁ )︁ (︁ )︁ Die Punkte x1u , F x1u , x1o , F (x1o ) , . . . , xJo , F (xJo ) werden linear interpoliert I 26 / 35 Statistik I Klassierte Daten Stetige Klassierung Empirische Verteilung und Quantile Polygonzug: PSID-Jahreslöhne (≤200Tsd. $) 1.0 Annahme der Gleichverteilung in den Klassen ● ● ● 0.8 ● 0.0 0.2 0.4 F(x) 0.6 ● ● 0 20 40 60 80 100 x 27 / 35 120 140 160 180 200 Statistik I Klassierte Daten Stetige Klassierung Empirische Verteilung und Quantile Beispiel: Gesucht ist F(50) 1.0 Approximative Ermittlung von F(x) ● ● ● 0.8 ● 0.0 0.2 0.4 F(x) 0.6 ● ● 0 20 40 60 80 100 x 28 / 35 120 140 160 180 200 Statistik I Klassierte Daten Stetige Klassierung Empirische Verteilung und Quantile Approximative empirische Verteilungsfunktion I Approximative empirische Verteilungsfunktion )︁ (︁ (︁ )︁ fj )︁ x − xju F (x) = F xju + (︁ xjo − xju I 29 / 35 Wählen wir für F (x) einen vorgegebenen Wert p, führt Auflösen nach x zu dem gesuchten approximativen Quantil x̃p (︁ )︁ )︁ p − F xju (︁ xjo − xju x̃p = xju + fj Statistik I Klassierte Daten Stetige Klassierung Empirische Verteilung und Quantile Herleitung I I I I 30 / 35 (︁ )︁ Start ist der Punkt xju ; F xju (︁ )︁ Die Gerade zum Punkt xjo ; F xjo hat die Steigung (︁ )︁ (︁ )︁ F xjo − F xju fj = o o u xj − xj xj − xju Wir laufen die Strecke x − xju mit dieser Steigung und landen bei F (x) : (︁ )︁ (︁ )︁ (︁ )︁ F xjo − F xju F (x) = F xju + (x − xju ) · xjo − xju (︁ )︁ fj = F xju + o (x − xju ) xj − xju Statistik I Klassierte Daten Stetige Klassierung Mittelwert und Varianz Mittelwert bei klassierten Daten (1) Wenn Klassenmittelwerte x̄j bekannt sind, gilt exakt x̄ = J ∑︁ x̄j j =1 nj n (Folge aus Additionssatz für Mittelwerte) (2) Wenn Klassenmittelwerte unbekannt sind, gilt approximativ x̄ ≈ J ∑︁ j =1 mit x̃j = Klassenmitte von Kj 31 / 35 x̃j nj n Statistik I Klassierte Daten Stetige Klassierung Mittelwert und Varianz Varianz bei klassierten Daten (1) Wenn x̄j und sj2 für alle Kj bekannt sind, verwende Streuuungszerlegungssatz 2 s = J ∑︁ j =1 J (︁ ∑︁ )︁2 nj + x̄j − x̄ n n nj sj2 j =1 (2) Wenn nur x̄j bekannt sind, approximiere J (︁ ∑︁ )︁2 nj s ≈ x̄j − x̄ n 2 j =1 Beachte: Es fehlt die gesamte „interne Streuung“! 32 / 35 Statistik I Klassierte Daten Stetige Klassierung Mittelwert und Varianz Varianz bei klassierten Daten (3) Wenn auch x̄j unbekannt sind, approximiere mit Klassenmitten x̃j J (︁ ∑︁ )︁2 nj s ≈ x̃j − x̄ n 2 j =1 Beachte: Es fehlt die gesamte „interne Streuung“, die „externe Streuung“ wird approximiert! 33 / 35 Statistik I Klassierte Daten Stetige Klassierung Mittelwert und Varianz Varianz bei klassierten Daten: PSID-Löhne I PSID 2005: n = 10023 Jahreslöhne (≤ 200 Tsd $) I Tatsächliche Varianz s 2 = J ∑︁ j =1 J (︁ ∑︁ )︁2 nj + x̄j − x̄ n n nj sj2 j =1 = 129.1163 + 769.5483 = 898.6647 34 / 35 Statistik I Klassierte Daten Stetige Klassierung Mittelwert und Varianz Approximation bei klassierten Daten: PSID-Löhne I Approximation mit Klassenmitteln x̄j s 2 J (︁ ∑︁ )︁2 nj x̄j − x̄ ≈ n j =1 = 769.5483 I Unterschätzung um 14.4% (769.5483/898.6647 = 0.856 32) Approximation mit Klassenmitten x̃j s2 ≈ J (︁ ∑︁ )︁2 nj x̃j − x̄ n j =1 = 837.2031 Unterschätzung um 6.8% (837.2031/898.6647 = 0.931 61) 35 / 35 Statistik I Vergleichsmaßzahlen Statistik I Vergleichsmaßzahlen Prof. Dr. Andreas Behr 1 / 29 Statistik I Vergleichsmaßzahlen Inhaltsverzeichnis Verhältniszahlen Gliederungszahlen Beziehungszahlen Strukturanalysen Grundlagen Maßzahlen des Strukturvergleichs Standardisierung und Isolierung PSID 2 / 29 Statistik I Vergleichsmaßzahlen Verhältniszahlen Arten von Verhältniszahlen I I Eine Verhältniszahl ist der Quotient von zwei statistischen Maßzahlen Drei Arten von Verhältniszahlen: 1. Gliederungszahlen (Anteile) 2. Beziehungszahlen 3. Messzahlen 3 / 29 Statistik I Vergleichsmaßzahlen Verhältniszahlen Gliederungszahlen Gliederungszahlen (Anteile) I Eine Grundgesamtheit G zerfällt in J Teilgesamtheiten G1 , . . . , GJ I U ist ein Merkmal, bei dem die Merkmalssumme einen Sinn macht I Die Werte u1 , . . . , uJ von U beziehen sich auf G1 , . . . , GJ ∑︀ Die Summe u = Jj=1 uj bezieht sich auf G I I Gliederungszahlen: gj = 4 / 29 uj uj = ∑︀J u r =1 ur Statistik I Vergleichsmaßzahlen Verhältniszahlen Beziehungszahlen Beziehungszahlen I I Eine Grundgesamtheit G zerfällt in J Teilgesamtheiten G1 , . . . , GJ Zwei Merkmale U und V mit Werten I I I I uj und vj in Gj ∑︀ ∑︀ u = Jj=1 uj und v = Jj=1 vj in G U und V sind sachlich verschieden, stehen aber in einer sinnvollen Verbindung zueinander Die Quotienten bj = I 5 / 29 uj vj und b = u v heißen Beziehungszahlen in Gj bzw. G Beispiel: Umsatzrendite (Gewinn/Umsatz) Statistik I Vergleichsmaßzahlen Strukturanalysen Grundlagen Strukturvergleich: Beispiel Beschäftigte Sektoren 1 2 3 4 Land A 300 100 400 200 Land B 200 400 600 800 Land A 0.3 0.1 0.4 0.2 Land B 0.1 0.2 0.3 0.4 Anteile Sektoren 1 2 3 4 6 / 29 Statistik I Vergleichsmaßzahlen Strukturanalysen Grundlagen Summarische Maße von Strukturunterschieden 7 / 29 I Ziel: Zusammenfassende Maßzahl des Unterschieds I Interpretationshilfe durch Normierung I Oft wird auf den Bereich [0, 1] normiert I Wert für minimalen (z.B. 0) und Wert für maximalen Unterschied (z.B. 1) Statistik I Vergleichsmaßzahlen Strukturanalysen Grundlagen Anteile und Anteilsdifferenzen I Ausgangspunkt sind Gliederungszahlen aj I Wir betrachten zwei Massen 1 und 2 I Masse 1 : a11 , a12 , a13 , ... I Masse 2 : a21 , a22 , a23 , ... Sektoren 1 2 3 4 8 / 29 Land A a11 = 0.3 a12 = 0.1 a13 = 0.4 a14 = 0.2 Land B a21 = 0.1 a22 = 0.2 a23 = 0.3 a24 = 0.4 Statistik I Vergleichsmaßzahlen Strukturanalysen Maßzahlen des Strukturvergleichs Strukturdifferenz I Strukturdifferenz SD = J ∑︁ |a1j − a2j | j =1 0 ≤ SD ≤ 2 I Beispiel: SD = J ∑︁ |a1j − a2j | j =1 = |0.3 − 0.1| + |0.1 − 0.2| + |0.4 − 0.3| + |0.2 − 0.4| = 0.2 + 0.1 + 0.1 + 0.2 = 0.6 9 / 29 Statistik I Vergleichsmaßzahlen Strukturanalysen Maßzahlen des Strukturvergleichs Normierte Strukturdifferenz I Normierte Strukturdifferenz I Vereinfachtung der Interpretation durch Normierung auf den Bereich 0 bis 1 NSD = 0.5 J ∑︁ |a1j − a2j | j =1 0 ≤ NSD ≤ 1 I 10 / 29 NSD gibt den Anteil an, der ’wandern’ muss, um eine Gleichheit der Struktur zu erreichen Statistik I Vergleichsmaßzahlen Strukturanalysen Maßzahlen des Strukturvergleichs Euklidische Norm I Euklidische Norm EN = ⎯ ⎸ ⎷ J ∑︁ (a1j − a2j )2 j =1 √ 0 ≤ EN ≤ 2 I Beispiel: EN ⎯ ⎸ ⎷ J ∑︁ (a1j − a2j )2 = j =1 √︃ = (0.3 − 0.1)2 + (0.1 − 0.2)2 +(0.4 − 0.3)2 + (0.2 − 0.4)2 = 0.316 23 11 / 29 Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Strukturanalysen 12 / 29 I Z.B. Analyse von Lohndifferenzen I Frauen verdienen weniger als Männer I Verdienen Frauen für gleiche Tätigkeiten weniger (Niveau-Effekt)? I Haben Frauen eine ungünstigere Struktur bezüglich der Tätigkeiten (Struktur-Effekt)? I Wie tragen beide Effekte zum gesamten Unterschied bei? Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Beschäftigungs- und Lohnstruktur I Wir betrachten 2 Gruppen, Männer (m) und Frauen (w) I und zwei Sektoren Hochlohnsektor (h ) und Niedriglohnsektor (l ) I Folgende Durchschnittslöhne in den Sektoren sind gegeben Hochlohnsektor (h ) Niedriglohnsektor (l ) 13 / 29 Männer (m) Lohn 7 3 Frauen (w) Lohn 5 2 Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Beispiel I Frauen verdienen in beiden Sektoren weniger als Männer, d.h. Frauen haben ein niedrigeres Lohnniveau I Der Durchschnittslohn von Männern und Frauen insgesamt hängt von der sektoralen Struktur der Beschäftigung ab A: h l 14 / 29 m 0.5 0.5 f 0.5 0.5 B: h l m 0.2 0.8 f 0.8 0.2 C: h l m 0.8 0.2 f 0.2 0.8 Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Beispiel I 15 / 29 Folgende Durchschnittslöhne resultieren: A : w̄m = 7 · 0.5 + 3 · 0.5 = 5.0 w̄f = 5 · 0.5 + 2 · 0.5 = 3.5 B : w̄m = 7 · 0.2 + 3 · 0.8 = 3.8 w̄f = 5 · 0.8 + 2 · 0.2 = 4.4 C : w̄m = 7 · 0.8 + 3 · 0.2 = 6.2 w̄f = 5 · 0.2 + 2 · 0.8 = 2. 6 I Offenkundig ist die Struktur A ’neutral’ I Struktur B ist für die Männer ungünstig, der Vorteil im Niveau wird durch die nachteilige Struktur überkompensiert I Struktur C ist für die Männer günstig, der Vorteil im Niveau wird durch die günstige Struktur verstärkt Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Komponenten von Gesamtdifferenzen I Im Folgenden betrachten wir die Struktur C (h ) (l ) 16 / 29 Männer (m) Lohn (w) 7 3 Anteil (a) 0.8 0.2 Frauen (f ) Lohn (w) 5 2 Anteil (a) 0.2 0.8 Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Komponenten von Gesamtdifferenzen I Die Durchschnittslöhne in den Länder ergeben sich als mit den sektoralen Beschäftigungsanteilen gewichtete arithmetische Mittel der sektoralen Durchschnittslöhne w̄m = J ∑︁ w̄mj · amj = 6.2 j =1 w̄f = J ∑︁ w̄fj · afj = 2.6 j =1 I Zwei Komponenten I I 17 / 29 Sektorale Durchschnittslöhne Sektorale Beschäftigungsanteile Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Standardisierung auf eine Referenzstruktur I Gesamte Lohndifferenz w̄m − w̄f = J ∑︁ j =1 18 / 29 w̄mj · amj − J ∑︁ w̄fj · afj = 3.6 j =1 I Ziel ist die Ermittlung der isolierten Beiträge der beiden Komponenten Lohnhöhe und Beschäftigungsstruktur zur Gesamtdifferenz I Standardisierung auf eine Komponente eliminiert den Effekt dieser Komponente I Der Einfluß der anderen Komponente wird isoliert Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Isolierung des Niveaueffekts I Standardisierung von w̄f bezüglich amj w̄f (am ) = J ∑︁ w̄fj · amj = 4.4 j =1 I Vergleich von bezüglich der Struktur standardisierten Mittelwerten isoliert den Lohneffekt w̄m − w̄f (am ) = J ∑︁ (w̄mj − w̄fj ) · amj = 1.8 j =1 19 / 29 Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Isolierung des Struktureffekts I Standardisierung von w̄f bezüglich w̄mj w̄f (w̄m ) = J ∑︁ w̄mj · afj = 3.8 j =1 I Vergleich von bezüglich der Löhne standardisierten Mittelwerten isoliert den Struktureffekt w̄m − w̄f (w̄m ) = J ∑︁ j =1 20 / 29 w̄mj (amj − afj ) = 2.4 Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Gesamtunterschied und isolierte Komponenten I Die Gesamtdifferenz w̄m − w̄f = J ∑︁ w̄mj · amj − j =1 I w̄fj · afj = 3.6 j =1 wird nicht vollständig in isolierte Lohn- und Struktureffekte zerlegt w̄m − w̄f , (w̄m − w̄f (am ) ) + (w̄m − w̄f (w̄m ) ) 3.6 , 1.8 + 2.4 21 / 29 J ∑︁ Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Mischeffekt I Es verbleibt ein Mischeffekt w̄m − w̄f = J ∑︁ (w̄mj − w̄fj ) · amj j =1 + J ∑︁ w̄mj (amj − afj ) j =1 J ∑︁ − (w̄mj − w̄fj )(amj − afj ) j =1 3.6 = 1.8 + 2.4 − 0.6 I 22 / 29 Der Mischeffekt beinhaltet ein Zusammenwirken von Lohnund Struktureffekt Statistik I Vergleichsmaßzahlen Strukturanalysen Standardisierung und Isolierung Vollständige Zerlegung ohne Mischeffekt I Der Mischeffekt läßt sich nicht weiter aufspalten I Je größer der Mischeffekt, desto weniger aussagekräftig ist die Zerlegung I Beachte: w̄m − w̄f = J ∑︁ w̄mj (amj − afj ) + j =1 J ∑︁ (w̄mj − w̄fj ) · afj j =1 3.6 = 2.4 + 1.2 I 23 / 29 Aber nur scheinbar vollständige Zerlegung in isolierte Effekte, weil auf Löhne der Männer und Struktur der Frauen standardisiert wurde Statistik I Vergleichsmaßzahlen PSID PSID: Lohndifferenz Männer/Frauen I Insgesamt beobachten wir folgende Differenz der Durchschnittslöhne zwischen Männern und Frauen w̄m − w̄f = 24.25 − 16.08 = 8.17 I Diese Differenz soll durch I I 24 / 29 Unterschiede in den sektoralen Durchschnittslöhnen und Unterschiede in der sektoralen Beschäftigungsstruktur ’erklärt’ werden Statistik I Vergleichsmaßzahlen PSID PSID: Datentabelle Tabelle: Sektorale Beschäftigungs- und Lohnstruktur Missing Agr./Energy/Min. Manufacturing Construction Trade Transport Bank/Insurance Services 25 / 29 a_f 0.194 0.008 0.068 0.010 0.090 0.022 0.087 0.520 a_m 0.165 0.040 0.149 0.102 0.115 0.060 0.063 0.305 w_f 11.75 14.06 16.49 22.03 13.20 16.94 20.95 17.20 w_m 13.67 20.79 25.70 30.74 21.47 22.07 38.93 25.99 Statistik I Vergleichsmaßzahlen PSID PSID: Sektorale Beschäftigungsstruktur 0.5 Sektorstruktur nach Geschlecht 26 / 29 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0.0 0.1 0.2 0.3 0.4 Frauen Männer Statistik I Vergleichsmaßzahlen PSID PSID: Sektorale Durchschnittslöhne 40 Sektorale Durchschnittslöhne nach Geschlecht Männer 27 / 29 Services Bank/Insurance Transport Trade Construction Manufacturing Agr./Energy/Min. Missing 0 10 20 30 Frauen Statistik I Vergleichsmaßzahlen PSID PSID: Niveau- und Struktureffekt I Niveaueffekt: w̄m − w̄f (am ) = J ∑︁ (w̄mj − w̄fj ) · amj = 7.92 j =1 I Struktureffekt: w̄m − w̄f (w̄m ) = J ∑︁ j =1 28 / 29 w̄mj (amj − afj ) = 0.03 Statistik I Vergleichsmaßzahlen PSID PSID: Komponentenzerlegung I Mischeffekt J ∑︁ (w̄mj − w̄fj )(amj − afj ) = −0.22 j =1 Gesamtdifferenz = Niveaueffekt + Struktureffekt - Mischeffekt 8.17 = 7.92 + 0.03 + 0.22 29 / 29 Wir betrachten 2 Gruppen, Männer (m) und Frauen (w) und zwei Sektoren Hochlohnsektor (h) und Niedriglohnsektor (n) Folgende Durchschnittslöhne in den Sektoren sind gegeben Hochlohnsektor (h) Niedriglohnsektor (l) Männer (m) Lohn 6 3 Anteil 0:8 0:2 Frauen (w) Lohn 5 2 Anteil 0:2 0:8 Frauen verdienen in beiden Sektoren weniger als Männer, d.h. Frauen haben niedrigeres Lohnniveau Der Durchschnittslohn von Männern und Frauen insgesamt hängt von der sektoralen Struktur der Beschäftigung ab A: h l m 0:5 0:5 w 0:5 B : h 0:5 l m 0:2 0:8 w 0:8 C : h 0:2 l m 0:8 0:2 w 0:2 0:8 Folgende Durchschnittslöhne resultieren: A : xm = 6 0:5 + 3 0:5 = 4:5 xw = 5 0:5 + 2 0:5 = 3:5 B : xm = 6 0:2 + 3 0:8 = 3:6 xw = 5 0:8 + 2 0:2 = 4:4 C : xm = 6 0:8 + 3 0:2 = 5:4 xw = 5 0:2 + 2 0:8 = 2: 6 O¤enkundig ist die Struktur A ’neutral’ Struktur B ist für die Männer ungünstig, der Vorteil im Niveau wird durch die nachteilige Struktur überkompensiert Struktur C ist für die Männer günstig, der Vorteil im Niveau wird durch die günstige Struktur verstärkt Im Folgenden betrachten wir die Struktur C 1 Statistik I Konzentrations- und Disparitätsmessung Statistik I Konzentrations- und Disparitätsmessung Prof. Dr. Andreas Behr 1 / 42 Statistik I Konzentrations- und Disparitätsmessung Inhaltsverzeichnis Konzentrationsmessung Absolute Konzentration Merkmalssummenverteilung Konzentrationskurve Rosenbluth-Index Herfindahl-Index Disparitätsmessung Lorenzkurve Gini-Koeffizient 2 / 42 Statistik I Konzentrations- und Disparitätsmessung Konzentrationsmessung Konzentration 3 / 42 I Es wird unterschieden in absolute und relative Konzentration I Absolute und relative Konzentrationsmessung verfolgen sachlogisch unterschiedliche Anliegen I Absolute Konzentration: „Zusammenballung“ eines hohen Anteils der gesamten Merkmalssumme auf wenige (absolute) Einheiten I Relative Konzentration: Ungleichheit der Verteilung, Disparität I Beachte: bei gleichem Sachverhalt können absolute und relative Konzentrationsmaße ein ganz unterschiedliches Ausmaß der „Konzentration“ anzeigen Statistik I Konzentrations- und Disparitätsmessung Konzentrationsmessung Konzentration Absolute Konzentration I Typisches Beispiel: Die drei größten Kfz-Hersteller erzielen X % des gesamten Umsatzes I Anliegen ist hier die Abschätzung der Gefahr schädlicher Oligopolwirkungen (Preisabsprachen, etc.) Relative Konzentration 4 / 42 I Typisches Beispiel: Die X % ärmsten Haushalte Deutschlands verfügen über lediglich Y % des gesamten Einkommens I Anliegen ist hier das Ausmaß der Verteilungsungerechtigkeit Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Merkmalssummenverteilung Merkmalssumme I Beachte: hier absteigend sortierte Merkmalswerte x1 ≥ x2 ≥ x3 ≥ ... ≥ xn ≥ 0 I I Ausgangspunkt der Konzentrationsmaße ist die Merkmalssummenverteilung Die Merkmalssumme ist n ∑︁ xi i =1 I Der Anteil der Einheit r an der Merkmalssumme ist x x hr = n r = r r = 1, . . . , n ∑︀ n x̄ xi i =1 5 / 42 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Merkmalssummenverteilung Merkmalssumme I Die Merkmalssummenverteilung kann ganz analog der Häufigkeitsverteilung dargestellt und analysiert werden I D.h. es können praktisch alle Maßzahlen direkt übertragen werden I Wir betrachten ein kleines Zahlenbeispiel x = {12, 5, 2, 1} I Für unser Zahlenbeispiel finden wir n ∑︁ i =1 6 / 42 xi = 20 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Merkmalssummenverteilung Merkmalssumme I Für jede Einheit kann die relative Häufigkeit f und die relative Merkmalssumme h ermittelt werden I In unserem Beispiel finden wir für r = 3 f3 = 1/n = 1/4 = 0.25 x h3 = n 3 = 2/20 = 0.1 ∑︀ xi i =1 7 / 42 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Merkmalssummenverteilung Merkmalssumme I Insgesamt ergibt sich r 1 2 3 4 I xr fr hr 12 5 2 1 1 4 1 4 1 4 1 4 12 20 5 20 2 20 1 20 = 0.6 = 0.25 = 0.1 = 0.05 Auch für die Merkmalsanteile gilt damit h1 ≥ h2 ≥ h3 ≥ ... ≥ hn ≥ 0 8 / 42 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Konzentrationskurve Konzentrationsraten I I I I Einfaches und sehr anschauliches Maß der absoluten Konzentration CR3 gibt an, wieviel Prozent der gesamten Merkmalssumme die größten drei Einheiten haben Die Konzentrationsrate ist somit einfach eine Summe von Merkmalsanteilen Konzentrationsrate CR3 CR3 = 3 ∑︁ hr r =1 I Allgemein CRi : CRi = i ∑︁ r =1 9 / 42 hr Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Konzentrationskurve Konzentrationsraten: Extremfälle I Eine Einheit hat die gesamte Merkmalssumme (maximale Konzentration): h1 = 1, h2 = h3 = ... = hn = 0 I Alle Einheiten haben die gleiche Merkmalssumme (minimale Konzentration): h1 = h2 = h3 = ... = hn = 1/n I Definitionsbereich i /n ≤ CRi ≤ 1 10 / 42 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Konzentrationskurve Konzentrationskurve 11 / 42 I Darstellung der Wertepaare (i ; CRi ) I Je weiter aufgewölbt die Konzentrationskurve ist, desto höher ist die Konzentration I Die Fläche über der Konzentrationskurve wird mit A bezeichnet Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Konzentrationskurve Konzentrationskurve: Grafische Darstellung Konzentrationskurve 1.0 ● ● CR(i) ● A 0.8 0.6 ● 0.4 0.2 0.0 0 1 2 i 12 / 42 3 4 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Konzentrationskurve Konzentrationskurve: Minimale und maximale Konzentration Konzentrationskurve 1.0 ● max min 0.8 CR(i) ● ● ● ● 0.6 ● 0.4 ● 0.2 0.0 0 13 / 42 1 2 3 4 Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Rosenbluth-Index Rosenbluth-Index I Konzentrationskurve enthält punktuelle Maße: CRi I Wünschenswert ist die Verdichtung aller CRi zu einer Maßzahl I Die Fläche A oberhalb der Konzentrationskurve ist ein zusammenfassendes Maß I Je kleiner die Fläche, desto höher die Konzentration I Der Rosenbluth-Index ist definiert als KR = 14 / 42 1 2A Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Rosenbluth-Index Rosenbluth-Index I Der Index kann direkt berechnet werden als KR = 1 1 )︃ = (︃ n 2A ∑︀ 2 i · hi − 1 i =1 I Der Rosenbluth-Index hat folgenden Definitionsbereich 1 ≤ KR ≤ 1 n 15 / 42 1 n I KR = I KR = 1 bei maximaler Konzentration bei minimaler Konzentration Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Rosenbluth-Index Rosenbluth-Index I In unserem Beispiel KR 1 = 2 n ∑︀ i · hi − 1 i =1 1 2(1 · 0.6 + 2 · 0.25 + 3 · 0.1 + 4 · 0.05) − 1 = 0.454 55 = Beachte: 16 / 42 I absteigende Sortierung muß beachtet werden I Die kleinsten Einheiten (kleine hr ) erhalten die größten Gewichte (große i ) Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Herfindahl-Index Herfindahl-Index I Der Herfindahl-Index ist definiert als Summe der quadrierten Merkmalsanteile n ∑︁ KH = hi2 i =1 I KH ist ein einfaches und sehr oft verwendets Maß der absoluten Konzentration I Der Herfindahl-Index hat folgenden Definitionsbereich 1 ≤ KH ≤ 1 n 17 / 42 1 n I KH = I KH = 1 bei maximaler Konzentration bei minimaler Konzentration Statistik I Konzentrations- und Disparitätsmessung Absolute Konzentration Herfindahl-Index Herfindahl-Index I KH In unserem Beispiel n ∑︁ = r hi2 i =1 = 0.62 + 0.252 + 0.12 + 0.052 I = 0.435 Beachte: I I I 18 / 42 1 2 3 4 xr fr hr 12 5 2 1 1 4 1 4 1 4 1 4 12 20 5 20 2 20 1 20 = 0.6 = 0.25 = 0.1 = 0.05 Hier ist die Sortierung unerheblich Die kleinen Einheiten (kleine hr ) erhalten besonders kleine Gewichte (kleine hr ) In der Praxis werden oft die kleinsten Einheiten nicht erhoben. In diesen Fällen ist der Herfindahl-Index sehr viel besser als der Rosenbluth-Index geeignet Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve I Die Lorenzkurve dient der Beurteilung der relativen Konzentration I Die Lorenzkurve stellt die Disparität (Ungleichheit) dar I Wie die Konzentrationskurve stellt die Lorenzkurve die Verknüpfung punktueller Konzentrationsmaße dar I Beachte: hier aufsteigend sortierte Merkmalswerte x1 ≤ x2 ≤ x3 ≤ ... ≤ xn I Auch für die Merkmalsanteile gilt damit h1 ≤ h2 ≤ h3 ≤ ... ≤ hn 19 / 42 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve I Ein punktuelles Maß ist der Vergleich von kumulierter relativer Häufigkeit und kumulierter relativer Merkmalssumme i ∑︁ r =1 fr = i ∑︁ 1 r =1 n = i n i (︂ )︂ ∑︁ i L = hr n r =1 I I 20 / 42 Für i = 5 gibt 5/n den Anteil der 5 kleinsten Einheiten an allen n Einheiten an L (5/n) gibt den Anteil der fünf kleinsten Einheiten an der gesamten Merkmalssumme an Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve: Beispiel I Einkommensdisparität in einer Kleinstadt mit n = 1000 I Punktuelle Aussage für i = 100 I i = 100 = 0.10 n 1000 I L ( i ) = L (0.1) = 0.02 n I D.h. die ärmsten 10% der Einwohner haben lediglich 2% der Einkommenssumme 21 / 42 I Die Lorenzkurve stellt alle punktuellen Maße (i /n; L (i /n)) dar I Die punktuellen Maße werden mit Geraden verbunden Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve: Beispiel I Beachte: Für i = n gilt i /n = n/n = 1 und L (i /n) = L (n/n) = L (1) = 1 I In unserem Beispiel findet sich i 1 2 3 4 22 / 42 xi fi i /n hi 1 2 5 12 1 4 1 4 1 4 1 4 1 4 2 4 3 4 1 20 2 20 5 20 12 20 1 L (i /n) = 0.05 = 0.1 = 0.25 = 0.6 0.05 0.05 + 0.1 = 0.15 0.15 + 0.25 = 0.4 0.4 + 0.6 = 1 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve: Grafische Darstellung Lorenzkurve 1.0 ● 0.8 L(i/n) 0.6 0.4 ● 0.2 ● ● 0.0 0.0 0.2 0.4 0.6 i/n 23 / 42 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve: Extremfälle 24 / 42 I Maximale Disparität L ( n1 ) = L ( n2 ) = ... = L ( n−1 n ) = 0 und L ( nn ) = 1 I D.h. eine Einheit hat die gesamte Merkmalssumme I Minimale Disparität h1 = h2 = ... = hn = 1/n und L ( ni ) = I D.h. alle Einheiten haben die gleiche Merkmalsausprägung i n Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Lorenzkurve Lorenzkurve: Minimale und maximale Disparität Lorenzkurve 1.0 ● max min 0.8 ● L(i/n) 0.6 ● 0.4 ● 0.2 0.0 ● 0.0 ● 0.2 ● 0.4 0.6 i 25 / 42 ● 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient I Die in der Lorenzkurve enthaltene Information soll wieder zu einer einzelnen Maßzahl verdichtet werden I Je weiter die Lorenzkurve ’durchhängt’, desto höher ist die relative Konzentration I Die Fläche A zwischen der Diagonalen und der Lorenzkurve misst damit die Konzentration I Der Gini-Index ist definiert DG = 2A n ∑︁ 2i − n − 1 = hi n i =1 I 26 / 42 Beachte: Die Daten müssen aufsteigend sortiert sein Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Lorenzkurve: Konzentrationsfläche Lorenzkurve 1.0 ● 0.8 L(i/n) 0.6 A 0.4 ● 0.2 ● ● 0.0 0.0 0.2 0.4 0.6 i/n 27 / 42 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient: Definitionsbereich I Der Gini-Index hat folgenden Definitionsbereich 0 ≤ DG ≤ 1 − 28 / 42 1 n I DG = 0 bedeutet minimale Konzentration I DG = 1 − 1/n bedeutet maximale Konzentration Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient 29 / 42 I In unserem Beispiel I Mit einer kleinen Hilfstabelle i xi fi i /n hi 1 1 0.05 2 0.1 0.15 3 5 1 4 2 4 3 4 0.05 2 0.25 0.4 4 ∑︀ 12 1 4 1 4 1 4 1 4 1 0.6 20 1 1 L (i /n) 1 2i −n−1 n 2·1−4−1 4 2·2−4−1 4 2·3−4−1 4 2·4−4−1 4 0 hi 2i −n−1 n = −0.75 0.05 · (−0.75) = −0.037 5 = −0.25 0.1 · (−0.25) = −0.025 = 0.25 0.25 · 0.25 = 0.062 5 = 0.75 0.6 · 0.75 = 0.45 DG = 0.45 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient I Oder durch direktes Einsetzen DG = n ∑︁ hi i =1 2i − n − 1 n 2·1−4−1 2·2−4−1 2·3−4−1 + 0.1 + 0.25 4 4 4 2·4−4−1 +0.6 4 = 0.45 = 0.05 30 / 42 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei klassierten Daten 31 / 42 I Bisher wurde das Vorliegen von Individualdaten vorausgesetzt I Oftmals werden amtliche Daten nur klassiert bereitgestellt I In diesem Falle geht die Information über die Verteilung innherhalb der Klassen verloren I Betrachten wir ein anderes kleines Beispiel I x = (1, 2, 3, 4, 4, 4, 6, 6, 8, 12) I Es liegen die Daten nur klassiert nach 3 Klassen vor, n = 10 sei bekannt I k1 = [0, 4], k2 = ]4, 7] , k3 = ]7, 14] I f1 = 0.6, f2 = 0.2, f3 = 0.2 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei klassierten Daten 32 / 42 I Es ist zu unterscheiden, ob Klassenmittel x̄j geliefert werden, oder diese über die Klassenmitten x̃j geschätzt werden müssen I Wir nehmen an, die Klassenmittel sind bekannt I Damit kann die tatsächliche Merkmalssumme berechnet werden j kj fj x̄j nj x̄j hj Lj 1 [0, 4] 0.6 3 18 0.36 0.36 2 ]4, 7] 0.2 6 12 0.24 0.60 3 ]7, 14] 0.2 10 20 0.4 1 1 50 1 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei klassierten Daten DG = 1 − J ∑︁ fj (Lj −1 + Lj ) j =1 I In unserem Beispiel mit klassierten Daten DG = 1 − (0.6 · 0.36 + 0.2 · 0.96 + 0.2 · 1.6) = 0.272 I In unserem Beispiel mit Individualdaten (n=10) DG = n ∑︁ i =1 hi 2i − n − 1 n = 0.324 33 / 42 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei klassierten Daten 34 / 42 I Bei Verwendung von Individualdaten liegt der Gini-Koeffizient üblicherweise über dem Gini-Koeffizienten für (dieselben) klassierten Daten I Woher kommt der Unterschied? I Bei klassierten Daten liegt keine Information über Verteilung innerhalb der Klassen vor I Die Verbindung der punktuellen Maße an den Klassengrenzen impliziert identische Werte innerhalb der Klassen (keinerlei Disparität!) Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei klassierten Daten 35 / 42 I Tatsächlich liegt auch innerhalb der Klassen Disparität vor I Graphisch betrachtet: Zwischen den Punkten ist die „tatsächliche“ Kurve konvex (linksgekrümmt, d.h. sie „hängt durch“) I Die Fläche zwischen Diagonale und Lorenzkurve wird also bei klassierten Daten unterschätzt I Damit wird auch der Gini-Koeffizient „zu klein“ Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei Individualdaten Lorenzkurve, Individualdaten 1.0 ● 0.8 ● 0.6 L(i/n) ● ● 0.4 ● ● 0.2 ● ● ● ● 0.0 0.0 0.2 0.4 0.6 i/n 36 / 42 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei klassierten Daten Lorenzkurve, klassierte Daten 1.0 ● 0.8 0.6 L(j) ● 0.4 ● 0.2 0.0 ● 0.0 0.2 0.4 0.6 F(j) 37 / 42 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Gini-Koeffizient bei indiv./klassierten Daten Lorenzkurve, indiv./klassiert 1.0 klass. indiv. 0.8 L(j) 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 F(j) 38 / 42 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient PSID: Lohnverteilung 0.010 0.000 0.005 Dichte 0.015 0.020 Histogramm der Lohnverteilung 2005 0 1000 2000 3000 4000 Jahreslohn in 1000 US−Dollar 39 / 42 5000 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient Lorenzkurve mit Individualdaten 1.0 Lohnkonzentration, USA, 2005 0.0 0.2 0.4 L(i/n) 0.6 0.8 Gini=0.49 0.0 0.2 0.4 0.6 i/n 40 / 42 0.8 1.0 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient PSID: Grobe Klassierung Tabelle: PSID: 6 Klassen (0,20] (20,50] (50,100] (100,250] (250,1e+03] (1e+03,5.5e+03] 41 / 42 n 3604 4376 1637 442 63 7 mean 10.27 33.40 68.52 141.04 388.17 2311.13 f 0.36 0.43 0.16 0.04 0.01 0.00 F 0.36 0.79 0.95 0.99 1.00 1.00 h 0.09 0.37 0.28 0.16 0.06 0.04 L 0.09 0.46 0.74 0.90 0.96 1.00 Statistik I Konzentrations- und Disparitätsmessung Disparitätsmessung Gini-Koeffizient PSID: Gini-Koeffizient bei indiv./klassierten Daten 1.0 Lohnkonzentration, USA, 2005 0.8 Gini=0.49 0.6 Gini=0.45 0.0 0.2 0.4 L(i/n) klass. indiv. 0.0 0.2 0.4 0.6 i/n 42 / 42 0.8 1.0 Statistik I Preis- und Mengenindizes Statistik I Preis- und Mengenindizes Prof. Dr. Andreas Behr 1 / 28 Statistik I Preis- und Mengenindizes Inhaltsverzeichnis Messzahlen Messzahlen mit fester Basiszeit Messzahlen mit variabler Basiszeit Indexzahlen Notation und Begriffe Layspeyres-, Paasche- und Fisher-Indizes Beispiel 2 / 28 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen I Der Quotient von zwei sachlich aufeinander bezogenen Maßzahlen heißt Messzahl I Messzahlen des sachlichen, räumlichen oder zeitlichen Vergleichs I Beispiel: Sachlicher Vergleich WiWi-Studierende im SS 2004 WiWi-Professoren im SS 2004 I Beispiel: Räumlicher Vergleich Einwohner in Deutschland Einwohner in Frankreich 3 / 28 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen des zeitlichen Vergleichs I Besonders wichtig: Messzahlen des zeitlichen Vergleichs I Zeitreihe: zeitlich geordnete Folge von Werten x0, x1 , . . . , xT I Feste Basiszeit: Messzahl für Berichtszeit t zur Basiszeit 0 m0,t = I 4 / 28 xt x0 Variable Basiszeit: Messzahl für Berichtszeit t zur Basiszeit t −1 x mt−1,t = t xt−1 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit fester Basiszeit Feste Basiszeit I Zirkularität von Messzahlen m0,t I = m0,s · ms,t x xs xt = t = x0 xs x0 Umbasierung: von Basiszeit 0 zu Basiszeit s ms,t x = t = xs xt x0 xs x0 = m0,t m0,s Beispiel: alte Basis: 2000, neue Basis: 2003 Jahr: alt: neu: 5 / 28 2000 100.0 2001 110.0 2002 130.0 2003 150.0 100.0 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit fester Basiszeit Umbasierung: Beispiel Jahr: 2000 2001 2002 2003 alt: p00 = 100.0 00 neu: (immer: ·100) p01 p00 = 110.0 p02 p00 = 130.0 p03 p00 = 150.0 p03 p03 = 100.0 p Jahr: 2000 2001 2002 2003 alt: 100.0 110.0 p02 p00 = 130.0 p 1 = 130 150 = 86.67 = p02 03 p03 p00 = 150.0 p03 p03 = 100.0 neu: (immer: ·100) 6 / 28 p02 p00 p00 p03 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit fester Basiszeit Verkettung I Mache aus zwei Folgen von Messzahlen m0,t für t = 0, 1, 2, . . . , s ms,t für t = s, s + 1, s + 2, . . . eine durchgehende Folge zur Basis 0 {︃ für t = 0, 1, . . . , s m0,t = xxt 0 m0,t = m0,s · ms,t = xxs xxt = xxt für t = s, s + 1, . . . 0 oder zur Basis s ⎧ ⎪ ⎪ ⎪ ⎨ m0,t /m0,s = ms,t = ⎪ ⎪ ⎪ ⎩ m = xt s,t 7 / 28 xs xt x0 xs x0 s = 0 xt xs für t = 0, 1, . . . , s für t = s, s + 1, . . . Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit fester Basiszeit Verkettung: Beispiel Jahr: Reihe1, Basis ’97: Reihe2, Basis ’00: 8 / 28 1997 100 1998 105 1999 80 90 2000 2001 100 120 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit fester Basiszeit Verkettung: Beispiel Jahr: Reihe1: Reihe2: Basis ’97: 1997 100 100 2000 : 2001 : 9 / 28 1998 105 105 x99 x97 x99 x00 x99 x01 x97 x00 xx99 00 x00 x00 1999 80 90 2000 2001 100 120 80 100· 80 90 =88. 89 120· 80 90 =106. 67 = 100 · 80 x00 = = 88. 89 90 x97 = 120 · 80 x01 = = 106. 67 90 x97 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit fester Basiszeit Verkettung: Beispiel Jahr: Reihe1: Reihe2: 1997 100 1998 105 Basis ’00: 100· 90 80 =112.5 90 =118.13 105· 80 1998 : 1997 : 10 / 28 x99 x00 x99 x97 x99 x97 x00 x97 xx99 97 x98 x97 1999 80 90 2000 2001 100 120 90 100 120 = 105 · 90 x98 = = 118. 13 80 x00 = 100 · 90 x97 = = 112. 5 80 x00 Statistik I Preis- und Mengenindizes Messzahlen Messzahlen mit variabler Basiszeit Variable Basiszeit I Die Messzahlen mt−1,t = xt xt−1 heißen auch Wachstumsfaktoren oder Vervielfachungskoeffizienten (Zuwachsfaktoren) I Zugehörige Wachstumsrate (oder Zuwachsrate) wt−1,t = 11 / 28 xt − xt−1 = mt−1,t − 1 xt−1 I Problem: Wie berechnet man die durchschnittliche Wachstumsrate? I Geometrische Mittelung der Vervielfachungskoeffizienten Statistik I Preis- und Mengenindizes Indexzahlen Notation und Begriffe Fragestellungen Zeitliche Vergleiche I Wie hat sich „das Preisniveau“ verändert? I Wie haben sich „die Aktienkurse“ entwickelt? I Wie hoch ist „die Kaufkraft“ eines Euro in Japan? I Wie stark ist „die Exportmenge“ gestiegen (oder gefallen)? I Wie sieht die Umsatzentwicklung aus? Räumliche Vergleiche I 12 / 28 Wie hoch ist „die Kaufkraft“ eines Euro in Japan? Statistik I Preis- und Mengenindizes Indexzahlen Notation und Begriffe Indexzahlen 13 / 28 I Bisher nur Veränderung eines Gutes betrachtet I Wie haben sich mehrere Preise (Mengen, Werte) „insgesamt“ verändert? I Offenkundig: Preis-, Mengen- oder Wertmeßzahlen müssen gemittelt werden I Problem: Wie sollen die Meßzahlen gewichtet werden? Statistik I Preis- und Mengenindizes Indexzahlen Notation und Begriffe Notation und Begriffe 14 / 28 I pt (i ) = Preis eines Gutes i zur Zeit t I qt (i ) = (gekaufte oder verkaufte) Menge des Gutes i zur Zeit t I vt (i ) = Wert des Gutes i zur Zeit t I Es gilt: vt (i ) = pt (i ) · qt (i ) I Basiszeit ist 0; Berichtszeit ist t Statistik I Preis- und Mengenindizes Indexzahlen Notation und Begriffe Notation und Begriffe I Messzahlen pt (i ) p0 (i ) qt (i ) q0 (i ) vt (i ) v0 (i ) I Preismesszahl für das Gut i Mengenmesszahl für das Gut i Wertmesszahl für das Gut i Zusammenhang zwischen Preis-, Mengen- und Wertmesszahl vt (i ) p (i ) · qt (i ) p (i ) qt (i ) = t = t · v0 (i ) p0 (i ) · q0 (i ) p0 (i ) q0 (i ) 15 / 28 Statistik I Preis- und Mengenindizes Indexzahlen Notation und Begriffe Notation und Begriffe Beispiel: Tomatenkauf eines Haushalts (pro Monat) p2001 (Tomaten) = 1.40 EUR/kg p2002 (Tomaten) = 2.00 EUR/kg q2001 (Tomaten) = 2.5 kg q2002 (Tomaten) = 1.5 kg v2001 (Tomaten) = 3.50 EUR v2002 (Tomaten) = 3.00 EUR Messzahlen: Preismesszahl = 2.00/1.40 = 1.4286 Mengenmesszahl = 1.5/2.5 = 0.6 Wertmesszahl = 1.4286 · 0.6 = 0.8571 16 / 28 Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Preisindizes 17 / 28 I Fragestellung im Folgenden: Wie aggregiert man Preismesszahlen? I Ausgangspunkt: Inflationsrate eines Gutes ist leicht messbar (nämlich durch seine Preismesszahl) I ABER: Preisentwicklung „insgesamt“ ist nicht leicht messbar, denn nicht alle Preise bewegen sich auf die gleiche Weise oder auch nur in die gleiche Richtung I Übliches Vorgehen: Es wird die Preisentwicklung eines Warenkorbs betrachtet Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Preisindex von Laspeyres I Mittelwertform: p ILa ;0,t = n ∑︁ pt (i ) ·g p0 (i ) i i =1 18 / 28 p I ILa ;0,t ist ein gewichtetes arithmetisches Mittel der Preismesszahlen I Gewichte (Wägungsschema) sind die Ausgabenanteile zur Basiszeit 0 p (i )q0 (i ) gi = ∑︀n 0 i =1 p0 (i )q0 (i ) Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Preisindex von Laspeyres I Umformen ergibt die Aggregatform: p ILa ;0,t n ∑︁ pt (i ) p (i )q0 (i ) = · ∑︀n 0 p0 (i ) i =1 p0 (i )q0 (i ) i =1 n ∑︀ = i =1 n ∑︀ pt (i )q0 (i ) p0 (i )q0 (i ) i =1 I Bedeutung der Aggregatform p ILa ;0,t = 19 / 28 Kosten des alten Warenkorbs zur Zeit t Kosten des alten Warenkorbs zur Zeit 0 Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Preisindex von Paasche I Mittelwertform: p IPa ; 0,t ⎞−1 ⎛ n (︃ )︃ ⎟⎟ ⎜⎜∑︁ pt (i ) −1 ⎜ = ⎜⎜⎝ · gi ⎟⎟⎟⎠ p0 (i ) i =1 p I IPa ; 0,t ist ein gewichtetes harmonisches Mittel der Preismesszahlen I Gewichte sind die Ausgabenanteile in t p (i )qt (i ) gi = ∑︀n t j =1 pt (j )qt (j ) 20 / 28 Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Preisindex von Paasche I Umformen ergibt die Aggregatform: p IPa ;0,t ⎞−1 ⎛ n (︃ )︃ ⎜⎜∑︁ pt (i ) −1 pt (i )qt (i ) ⎟⎟⎟ ⎜ ⎟⎟ · ∑︀n = ⎜⎜⎝ p0 (i ) pt (j )qt (j ) ⎠ i =1 j =1 n ∑︀ ⎞−1 ⎛ n pt (i )qt (i ) ⎜⎜∑︁ p0 (i )qt (i ) ⎟⎟ i =1 ⎟ ⎜ ⎟ ⎜ ∑︀ = ⎜⎝ ⎟⎠ = ∑︀ n n j =1 pt (j )qt (j ) i =1 p0 (i )qt (i ) i =1 I Bedeutung der Aggregatform p IPa ;0,t = 21 / 28 Kosten des neuen Warenkorbs zur Zeit t Kosten des neuen Warenkorbs zur Zeit 0 Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Mengenindizes I I I 22 / 28 Analog zu den Preisindizes Laspeyres-Mengenindex n ∑︁ qt (i ) p (i ) q0 (i ) q · ∑︀n 0 ILa ; 0,t = q0 (i ) j =1 p0 (j ) q0 (j ) i =1 ∑︀n qt (i ) p0 (i ) = ∑︀ni =1 i =1 q0 (i ) p0 (i ) Paasche-Mengenindex ⎞−1 ⎛ n (︃ )︃ ⎜⎜∑︁ qt (i ) −1 pt (i )qt (i ) ⎟⎟⎟ q ⎜ ⎟⎟ IPa ;0,t = ⎜⎜⎝ · ∑︀n q0 (i ) pt (j )qt (j ) ⎠ j = 1 i =1 ∑︀n qt (i )pt (i ) = ∑︀ni =1 i =1 q0 (i )pt (i ) Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Wertindex I Kein Aggregationsproblem (da alles in EUR) I Wertindex: v I0,t 23 / 28 ∑︀n ∑︀n pt (i )qt (i ) i =1 vt (i ) ∑︀ ∑︀ = ni =1 = n v (i ) p i =1 0 i =1 0 (i )q0 (i ) Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Zusammenhang der unterschiedlichen Indizes I Zusammenhang zwischen Mengen-, Preis- und Wertindizes p q p q v I0,t = IPa ; 0,t · ILa ; 0,t und v = ILa ; 0,t · IPa ;0,t I0,t I 24 / 28 Beachte: Es werden Indizes unterschiedlicher Typen kombiniert Statistik I Preis- und Mengenindizes Indexzahlen Layspeyres-, Paasche- und Fisher-Indizes Ergänzung: Fisher-Indizes I Preisindex vom Typ Fisher p IFi ;0,t = √︁ p p ILa ;0,t · IPa ;0,t I Mengenindex vom Typ Fisher √︁ q q q IFi ;0,t = ILa ;0,t · IPa ;0,t I Konsistenter Zusammenhang mit Wertindex p q v I0,t = IFi ; 0,t · IFi ; 0,t I 25 / 28 Beachte: Es werden Indizes vom gleichen Typ kombiniert Statistik I Preis- und Mengenindizes Indexzahlen Beispiel Indizes: Beispiel I Preise und Mengen eines Warenkorbs: Gut i 1 2 3 26 / 28 t =0 p0 (i ) q0 (i ) 3 10 5 30 2 40 t =1 p1 (i ) q1 (i ) 4 12 7 24 1 60 Statistik I Preis- und Mengenindizes Indexzahlen Beispiel Indizes: Beispiel I Für die Lösung von Aufgaben empfiehlt sich eine kleine Arbeitstabelle (für Aggregatform): i 1 2 3 ∑︀ 27 / 28 p0 (i ) q0 (i ) 3 · 10 = 30 5 · 30 = 150 2 · 40 = 80 260 p1 (i ) q1 (i ) 4 · 12 = 48 7 · 24 = 168 1 · 60 = 60 276 p1 (i ) q0 (i ) 4 · 10 = 40 7 · 30 = 210 1 · 40 = 40 290 p0 (i ) q1 (i ) 3 · 12 = 36 5 · 24 = 120 2 · 60 = 120 276 Statistik I Preis- und Mengenindizes Indexzahlen Beispiel Indizes: Beispiel I Preisindex Laspeyres ∑︀n p1 (i )q0 (i ) 290 p = ILa ;0,1 = ∑︀ni =1 = 1. 115 4 260 i =1 p0 (i )q0 (i ) I Preisindex Paasche P IPa ;0,1 28 / 28 ∑︀n p1 (i )q1 (i ) 276 = =1 = ∑︀in=1 276 i =1 p0 (i )q1 (i ) I Preisindex Fisher √︁ √ p p p IFi ;0,1 = ILa ;0,1 · IPa ;0,1 = 1. 115 4 · 1 = 1. 056 1 I Preisindizes werden üblicherweise mit 100 multipliziert (% des Basisjahres) Statistik I Zeitreihen Statistik I Zeitreihen Prof. Dr. Andreas Behr 1 / 39 Statistik I Zeitreihen Inhaltsverzeichnis Zeitreihenmodelle Grundlagen Komponenten von Zeitreihen Trendermittlung Trendfunktionen Gleitende Durchschnitte Saisonbereinigung Grundlagen Periodogrammverfahren Saisonbereinigte Werte 2 / 39 Statistik I Zeitreihen Zeitreihenmodelle Grundlagen Bruttonationaleinkommen, Vierteljahreswerte Bruttonationaleinkommen, jeweilige Preise 650 600 Mrd. € 550 500 450 400 ● 1. Quartal 2. Quartal 3. Quartal 4. Quartal ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Zeit 3 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Zeitreihenmodelle Grundlagen Quartale und Niveaverschiebungen Bruttonationaleinkommen 650 1. Quartal 2. Quartal 3. Quartal 4. Quartal 600 Mrd. € 550 500 450 400 Zeit 4 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Zeitreihenmodelle Grundlagen Vierteljährliche Veränderungsraten Veränderungsrate gegenüber Vorquartal 10 1. Quartal 5 3. Quartal 4. Quartal ● ● ● ● % 2. Quartal ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● 1999 ● 1998 −5 ● ● ● ● ● ● ● ● Zeit 5 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1997 1996 1995 1994 1993 1992 1991 −10 Statistik I Zeitreihen Zeitreihenmodelle Grundlagen Veränderungsraten gegenüber dem Vorjahr Veränderungsrate, geg. Vorjahreswert 12 1. Quartal 2. Quartal 3. Quartal 4. Quartal 10 ● 8 ● ● ● Zeit 6 / 39 ● ● ●● ● ● ● ● ● ● ● ● ● ● 2008 ● 2005 2003 ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● 2002 1996 1995 1994 1993 1992 1991 1997 ● 0 ●● 2001 ● ● ● ● 2000 ● ● ● 1998 ● ● ● 2 1999 ●●●●● ● 4 ● ● ● ● ● 2006 ● 2007 6 2004 % ● Statistik I Zeitreihen Zeitreihenmodelle Grundlagen Bedeutung von Zeitreihen 7 / 39 I Zeitreihen sind wichtige und übliche Darstellung in der VWL und BWL I Zeitreihen erlauben eine intuitive Beurteilung der Entwicklung I Zeitreihen sind überall anzutreffen, AL-Quote, DAX, ... I Zeitpunkte werden mit ti , i = 1, ..., n bezeichnet I Die Werte der Zeitreihe mit yi , i = 1, ..., n I Meistens sind die Zeitpunkte äquidistant Statistik I Zeitreihen Zeitreihenmodelle Komponenten von Zeitreihen Komponentenmodelle I Die Zeitreihe kann als Summe oder Produkt von Komponenten gedacht werden I Additives Modell: yi = gi + si + ui , i = 1, ..., n I Multiplikatives Modell: yi = gi · si · ui , i = 1, ..., n 8 / 39 Statistik I Zeitreihen Zeitreihenmodelle Komponenten von Zeitreihen Die Komponenten I gi glatte Komponente I I I si saisonale Komponente I I I I I Nicht alle, aber viele Zeitreihen weisen eine Saisonkomponente auf Regelmäßige unterjährige Schwankung Ursachen: meist klimatische Bedingungen Urlaubsreisen, Bautätigkeit, etc. ui Restkomponente I I I 9 / 39 Stellt die längerfristige Entwicklung dar: Trend und Konjunktur Hier werden Trend und Konjunktur zusammen betrachtet Einflüsse, die nicht in gi oder si erfasst sind Sondereinflüsse wie Streiks, Wettereinfluß , etc. Annahme: ui ist „im Mittel“ 0 Statistik I Zeitreihen Zeitreihenmodelle Komponenten von Zeitreihen Multiplikatives Modell: Glatte Komponente Glatte Komponente 650 600 Mrd. € 550 500 450 400 Zeit 10 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Zeitreihenmodelle Komponenten von Zeitreihen Multiplikatives Modell: Konstante Saisonkomponente Konstante Saisonkomponente 1.04 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1.02 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1.00 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1992 1993 1994 1995 1996 1997 1998 1999 ● ● ● ● ● ● ● ● ● 2008 ● 2007 ● 2006 ● 2005 ● 2004 ● 2003 ● 2002 ● 2001 ● 2000 ● 1991 0.98 0.96 Zeit 11 / 39 Statistik I Zeitreihen Zeitreihenmodelle Komponenten von Zeitreihen Multiplikatives Modell: Restkomponente Restkomponente 1.01 1.00 0.99 Zeit 12 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 0.98 Statistik I Zeitreihen Trendermittlung Glatte Komponente 13 / 39 I globaler Ansatz: Die Werte gi werden auf Basis von allen Beobachtungen und angenommener Funktionsform bestimmt I lokaler Ansatz: Die Werte gi werden auf Basis von benachbarten Werten bestimmt Statistik I Zeitreihen Trendermittlung Trendfunktionen Linearer Trend I Es wird eine Gerade für den gesamten Zeitpunkt geschätzt I Methode der kleinsten Quadrate (Regression) I Werte der Gerade an den ti werden als gi -Werte verwendet Problem: I - Ein linearer Trend ist meistens zu starr - Die glatte Komponente wird nicht adäquat wiedergegeben I 14 / 39 Ausweg: Polynome höherer Ordnung (flexibler) Statistik I Zeitreihen Trendermittlung Trendfunktionen Parametrische Trendfunktionen Bruttonationaleinkommen, Trendfunktionen 650 Original Linearer Trend Trendpolynom 3.Grades 600 Mrd. € 550 500 450 400 Zeit 15 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Gleitende Durchschnitte I Berechne zu jedem ti das arithmetische Mittel der umliegenden 𝜆 Werte I Je höher 𝜆 gewählt wird, desto stärker ist die Glättung I Beachte: 𝜆 sollte Vielfaches der Zahl der Phasen sein Bsp: Bei Quartalswerten 4 Phasen, also 𝜆 = 4 oder 8, . . . I 1. 𝜆 ungerade, d.h. 𝜆 = 2l + 1 g̃i = 1 (y + ... + yi + ... + yi +l ) 2l + 1 i −l 2. 𝜆 gerade, d.h. 𝜆 = 2l g̃i = 16 / 39 1 (0.5yi −l + ... + yi + ... + 0.5yi +l ) 2l Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Gleitende Durchschnitte 17 / 39 I Beachte: bei ungeradem 𝜆 wird einer Beobachtung ein Ausgleichswert zugeordnet I bei geradem 𝜆 würde der Ausgleichswert zwischen zwei Beobachtungen liegen I zur Vermeidung werden 𝜆 − 1 ganze Werte und zwei halbe Werte gemittelt I Bsp. für drittes Quartal: 0.5I + II + III + IV + 0.5I Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Gleitende Durchschnitte I Gleitende Durchschnitte enthalten fast nur die glatte Komponente g̃i = = 1 (0.5yi −l + ... + yi + ... + 0.5yi +l ) 2l ⎛ ⎞ j =∑︁ i +l −1 ⎟⎟ ⎜ ⎜ 1 ⎜⎜ ⎟ yj + 0.5yi +l ⎟⎟⎟ ⎜⎜0.5yi −l + ⎠ 2l ⎝ j =i −l +1 = 18 / 39 ⎛ ⎜⎜ 0.5(gi −l + si −l + ui −l ) ⎜ j =i∑︀ +l −1 1 ⎜⎜⎜ ⎜⎜ + (gj + sj + uj ) 2l ⎜⎜⎜ j =i −l +1 ⎝ +0.5(gi +l + si +l + ui +l ) ⎞ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎠ Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Gleitende Durchschnitte [︃ ]︃ j =i∑︀ +l −1 0.5gi −l + gj + 0.5gi +l = j =i −l +1 [︃ ]︃ j =i∑︀ +l −1 1 + 2l 0.5si −l + sj + 0.5si +l j = i −l + 1 [︃ ]︃ j =i∑︀ +l −1 1 uj + 0.5ui +l + 2l 0.5ui −l + 1 2l j =i −l +1 19 / 39 Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Gleitende Durchschnitte: Restliche Komponenten I K Phasen der Saisonkomponente I 𝜆 so gewählt, dass Vielfaches von K I Die verschiedenen Saisoneinflüsse gleichen sich aus ⎞ ⎛ j =∑︁ i +l −1 ⎟⎟ ⎜ ⎜ 1 ⎜⎜ ⎟ sj + 0.5si +l ⎟⎟⎟ = 0 ⎜⎜0.5si −l + ⎠ 2l ⎝ j =i −l +1 I Die Zufallseinflüsse ui sind „im Mittel“ ungefähr 0 ⎞ ⎛ j =∑︁ i +l −1 ⎟⎟ 1 ⎜⎜⎜⎜ ⎟ uj + 0.5ui +l ⎟⎟⎟ ≈ 0 ⎜⎜0.5ui −l + ⎠ 2l ⎝ j =i −l +1 20 / 39 Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Vor- und Nachteile 21 / 39 I Schöne Eigenschaft: praktisch nur glatte Komponente übrig I Aber am Reihenanfang und Ende gehen jeweils l Werte verloren I Für aktuelle Beurteilungen der Entwicklung nicht geeignet Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Bruttonationaleinkommen, gleitende Durchschnitte Bruttonationaleinkommen, gl. 4er−Mittel 650 Original 4−er Mittel 600 Mrd. € 550 500 450 400 Zeit 22 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Bruttonationaleinkommen, gleitende Durchschnitte Bruttonationaleinkommen, gl. 4−er u. 12er− Mittel 650 Original 4−er 12−er 600 Mrd. € 550 500 450 400 Zeit 23 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Doppelte gleitende Mittelung I I I Gleitende Mittelung kann wiederholt angewendet werden Beispiel zweimalige gleitende Mittelung mit 𝜆 = 3 x sind die gleitenden 3er-Mittel von y, z sind die gleitenden 3er Mittel von x : 1 xi = (y + yi + yi +1 ) 3 i −1 1 (x + xi + xi +1 ) zi = 3 i −1 xi = xi −1 = xi +1 = 24 / 39 1 (y + yi + yi +1 ) 3 i −1 1 (y + yi −1 + yi ) 3 i −2 1 (y + yi +1 + yi +2 ) 3 i Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Doppelte gleitende Mittelung I Einsetzen in zi zi zi zi I 25 / 39 1 (x + xi + xi +1 ) 3 i −1 1 1 1 = ( (yi −2 + yi −1 + yi ) + (yi −1 + yi + yi +1 ) 3 3 3 1 + (yi + yi +1 + yi +2 )) 3 1 = (y + 2yi −1 + 3yi + 2yi +1 + yi +2 ) 9 i −2 = Die Werte der hintereinander geschalteten 3er Glättung sind ein gewichtetes gleitendes 5er Mittel! Statistik I Zeitreihen Trendermittlung Gleitende Durchschnitte Bruttonationaleinkommen, gleitende Durchschnitte Bruttonationaleinkommen, saisonber. 650 Original 4−er 4−er, 4−er 600 Mrd. € 550 500 450 400 Zeit 26 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Saisonbereinigung Grundlagen Saisonbereinigung 27 / 39 I Üblicherweise ist man an der mittel- oder längerfristigen Entwicklung interessiert I Der saisonale Einfluß wird als störend betrachtet I Eliminierung der Saisonkomponte (Saisonbereinigung) I Bsp: Arbeitslosenquote, im Winter erfolgt immer ein Anstieg I Bsp: Bruttonationaleinkommen, im ersten Quartal immer geringer I Ob eine Verbesserung/Verschlechterung vorliegt, muss anhand saisonbereinigter Werte beurteilt werden Statistik I Zeitreihen Saisonbereinigung Grundlagen Saisonbereinigung: Verfahren 28 / 39 I Für alle wichtigen Zeitreihen werden saisonbereinigte Zeitreihen ermittelt I Beachte: saisonbereinigte Daten sind immer das Produkt von Rechenverfahren I Es gibt keine „wahren“ saisonbereinigten Werte I 2 konkurrierende Verfahren in Deutschland I Bundesbank: Census-X11 (gleitende Mittelung) I Stat. Bundesamt: Berliner Verfahren (Funktion f. glatte Komponente) I Weil nur eine „Wahrheit“ gewünscht ist, soll BV eingestellt werden Statistik I Zeitreihen Saisonbereinigung Grundlagen Bruttonationaleinkommen, saisonbereinigt Bruttonationaleinkommen, saisonber. 650 Original Census−X11 Berliner Verf. 600 Mrd. € 550 500 450 400 Zeit 29 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Saisonbereinigung Grundlagen Saisonbereinigung I Doppelte Indexierung nötig yjk I j für Jahr, k für Phase, y99,1 erster Quartalswert 1999 I Annahme ist eine zeitlich stabile Saisonfigur sjk = sk I Ermittle die Saisonkomponente sk , k = 1, ..., K aller Phasen I Ermittle die saisonbereinigten Werte I Additives Modell: yjks = gjk + sjk + ujk − sk = gjk + ujk I Multiplikatives Modell: yjks = 30 / 39 1 g · s · u = gjk · ujk sk jk jk jk Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Periodogrammverfahren (multiplikativ) I 3 Schritte: Ermittlung (1) der glatten Komponente und Trendbereinigung (2) der mittleren relativen Trendabweichungen der Phasen (3) der Saisonkomponenten als normierte mittlere Trendabweichungen der Phasen (1) Trendbereinigung djk = yjk / g̃jk = sjk · ujk 31 / 39 I Beachte djk enthalten Saison und Restkomponente I Annahme: ujk im Mittel 1 (multiplikativ) Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Trendbereinigung Trendbereinigte Werte 1.06 1. Quartal 2. Quartal 3. Quartal ● ● 1.04 ● ● ● ● ● ● ● ● d=y/g ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.96 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.98 ● ● ● ● ● ● ● 1.02 1.00 4. Quartal ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Zeit 32 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 ● Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Periodogrammverfahren (multiplikativ) (2) Phasenmittel J* 1 ∑︁ djk d̄k = * J j =1 33 / 39 I Arithmetisches Mittel der Phasen I Beachte: Zahl der Werte je Phase J * kann unterschiedlich sein Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Mittlere Trendabweichungen (von gl. 4er-Mittel) Mittlere Trendabweichungen 1.06 1. Quartal 2. Quartal 3. Quartal ● ● 1.04 ● ● ● ● ● ● ● ● d=y/g ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.96 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.98 ● ● ● ● ● ● ● 1.02 1.00 4. Quartal ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Zeit 34 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 ● Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Periodogrammverfahren (multiplikativ) (3) Normierung ⎞ ⎛ ⎟⎟ ⎜⎜ ⎟⎟ ⎜⎜ d̄k d̄k ⎟ ⎜ s^k = 1 ∑︀K ⎜⎜oder s^k = (︁ 1 ⎟ ⎟⎟ )︁ ⎜ ∏︀ ⎠ K ⎝ d̄ K k =1 k K d̄ k =1 k 35 / 39 )︁ (︁ ∏︀K s ^ = K bzw.dass s ^ = 1 k k k =1 k =1 ∑︀K I Jetzt gilt, dass I s1 = 0.971, s2 = 0.986, s3 = 1.009, s4 = 1.033 Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Normierte Saisonkomponente Multiplikative Saisonkomponente 1.04 ● Saison 1.02 ● 1.00 ● 0.98 ● 0.96 1 2 3 Quartale 36 / 39 4 Statistik I Zeitreihen Saisonbereinigung Periodogrammverfahren Saisonbereinigung yjks = 37 / 39 1 g · s · u ≈ gjk · ujk s^k jk jk jk I Beachte: anders als bei der glatten Komponente ist die Restkomponente nicht „ausgemittelt“ I Restkomponente erschwert Beurteilung der aktuellen Entwicklung Statistik I Zeitreihen Saisonbereinigung Saisonbereinigte Werte Periodogramm- und Census-X11-Verfahren Bruttonationaleinkommen, saisonber. 650 Original Periodogrammv. Census−X11 600 Mrd. € 550 500 450 400 Zeit 38 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 350 Statistik I Zeitreihen Saisonbereinigung Saisonbereinigte Werte Vierteljährliche Veränderungsraten, saisonb. Werte Veränderungsraten, saisonb. Bruttonationaleinkommen 4 Census−X11 Periodogrammv. 3 2 % 1 0 −1 −2 Zeit 39 / 39 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 −3 Statistik I Korrelationsrechnung I Statistik I Korrelationsrechnung I Prof. Dr. Andreas Behr 1 / 25 Statistik I Korrelationsrechnung I Inhaltsverzeichnis Zusammenhangsmaße Korrelationskoeffizient Grundlagen Empirische Kovarianz Korrelationskoeffizient von Pearson PSID: Ausbildungsjahre und Einkommen 2 / 25 Statistik I Korrelationsrechnung I Zusammenhangsmaße Zusammenhang zwischen Variablen 3 / 25 I Gibt es einen Zusammenhang zwischen X und Y ? I Wenn ja: Welcher Art? Und wie stark? I Geeignete Messung des Zusammenhangs hängt vom Skalenniveau ab Statistik I Korrelationsrechnung I Zusammenhangsmaße Zusammenhangsmaße Drei Maße werden behandelt 1. Korrelationskoeffzient (Bravais-Pearson) (metrische Merkmale) 2. Rangkorrelationskoeffizient (Spearman) (ordinale Merkmale) 3. Kontingenzkoeffizient (nominale Merkmale) Daten: (x1 , y1 ) , . . . , (xn , yn ) 4 / 25 Statistik I Korrelationsrechnung I Korrelationskoeffizient Grundlagen Korrelationskoeffizient I I I I 5 / 25 Preis in EUR/kg (X ) 4,70 X und Y sind metrische Merkmale 4,30 Daten (x1 , y1 ) , . . . , (xn , yn ) 3,80 4,50 Darstellung als Tabelle oder 5,40 Streudiagramm 5,00 Beispiel: Preise und Absatz eines 4,10 Obsthändlers 4,30 3,90 4,00 Menge in kg (Y ) 70 75 80 75 50 60 70 65 75 85 Statistik I Korrelationsrechnung I Korrelationskoeffizient Grundlagen Beispiel: Streudiagramm 90 Obst: Verkaufspreis und verkaufte Menge ● ● 70 ● ● ● ● 60 ● ● 50 Menge (Y) 80 ● ● 3.5 4.0 4.5 Preis (X) 6 / 25 5.0 5.5 Statistik I Korrelationsrechnung I Korrelationskoeffizient Empirische Kovarianz Empirische Kovarianz I Definition: n sXY = 1 ∑︁ (xi − x̄) (yi − ȳ) n i =1 I Andere Darstellung n sXY 1 ∑︁ xi yi − x̄ ȳ = n i =1 7 / 25 Statistik I Korrelationsrechnung I Korrelationskoeffizient Empirische Kovarianz Kovarianz im Obsthändler-Beispiel I Zwischenergebnisse berechnen: 10 ∑︁ xi = 4.70 + . . . + 4.00 = 44 yi = 70 + . . . + 85 = 705 i =1 10 ∑︁ i =1 10 ∑︁ xi yi = 4.70 · 70 + . . . + 4.00 · 85 = 3062 i =1 I Daraus ergibt sich die Kovarianz sXY = 8 / 25 3062 44 705 − · = −4 10 10 10 Statistik I Korrelationsrechnung I Korrelationskoeffizient Empirische Kovarianz Eigenschaften der Kovarianz 9 / 25 I Kovarianz ist positiv, falls tendenziell überdurchschnittliche x-Werte mit überdurchschnittlichen y-Werten und unterdurchschnittliche x− Werte mit unterdurchschnittlichen y− Werten einhergen I Kovarianz ist negativ, falls tendenziell überdurchschnittliche x-Werte mit unterdurchschnittlichen y-Werten und unterdurchschnittliche x− Werte mit überdurchschnittlichen y− Werten einhergen I Ist eine Tendenz der obigen Art nicht vorhanden, so liegt sXY nahe bei Null Statistik I Korrelationsrechnung I Korrelationskoeffizient Empirische Kovarianz Obsthändler-Beispiel 90 Obst: Verkaufspreis und verkaufte Menge x > x, y > y ● ● x, y ● 70 ● ● ● ● 60 ● ● x < x, y < y 50 Menge (Y) 80 x < x, y > y 3.5 x > x, y < y 4.0 4.5 Preis (X) 10 / 25 5.0 ● 5.5 Statistik I Korrelationsrechnung I Korrelationskoeffizient Empirische Kovarianz Eigenschaften der Kovarianz I Es gilt: sXX = sX2 I Symmetrie: sXY = sYX I Lage-Invarianz: für xi′ = xi + b und yi′ = yi + d gilt sX ′ Y ′ = sXY I Abhängigkeit von der Skala: für xi′ = axi und yi′ = cyi gilt sX ′ Y ′ = a · c · sXY I 11 / 25 Die Kovarianz ist nicht normiert Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Empirischer Korrelationskoeffizient I Definition: rXY = = oder sXY sX sY 1 n √︁ − x̄) (yi − ȳ) √︁ 2 1 ∑︀n 2 1 ∑︀n i =1 (xi − x̄) i =1 (yi − ȳ) n n i =1 (xi ∑︀n − x̄) (yi − ȳ) √︁ 2 ∑︀n 2 i =1 (xi − x̄) i =1 (yi − ȳ) rXY = √︁ ∑︀n 12 / 25 ∑︀n i =1 (xi Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Korrelationskoeffizienten im Obsthändler-Beispiel I Zusätzlich zu den Zwischenergebnissen von oben benötigt man 10 ∑︁ i =1 10 ∑︁ xi2 = 195.94 yi2 = 50625 i =1 I 13 / 25 Die Varianzen von X und Y sind (︂ )︂2 195.94 44 − = 0.234 sX2 = 10 10 (︂ )︂ 50625 705 2 sY2 = − = 92.25 10 10 Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Korrelationskoeffizienten im Obsthändler-Beispiel I Daher ist rXY = sXY sX sY −4 √ 0.234 92.25 = −0.8609 = 14 / 25 √ Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Eigenschaften des Korrelationskoeffizienten I Der Korrelationskoeffizient ist dimensionslos I Symmetrie in X und Y ; es gilt rXY = rYX I Invarianz in Bezug auf lineare Transformationen: für xi′ = axi + b und gilt rX ′ Y ′ = I 15 / 25 Normierung: |rXY | ≤ 1 yi′ = cyi + d ac r |a||c| XY bzw. −1 ≤ rXY ≤ 1 Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Korrelation: Grafische Darstellung ● ● ● ● r = 0.5 r = 0.9 ● ● ● ● ● ● ● ● ●● y y ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● x x ● ● ● ● ● ● ● ● ● r = 0.08 ●● y r = −0.7 ● ● ● ● ● ● ● ●● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● x 16 / 25 ● ● ● ● ● ● x Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Anmerkungen 17 / 25 I Der Korrelationskoeffizient misst nur die Stärke des linearen Zusammenhanges I Sind X und Y unabhängig, ist sXY = rXY = 0. Das Umgekehrte gilt jedoch nicht! I Auch wenn rXY ≈ 0 ist, können andere Arten des Zusammenhanges vorliegen Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Anmerkungen 18 / 25 I Aus dem Wert von rXY kann nicht auf eine Ursache-Wirkung-Beziehung geschlossen werden I Ein linearer Zusammmenhang von X und Y kann verschiedene Ursachen haben I X und Y können beide von einer Variablen Z abhängen (ohne dass Z explizit betrachtet wird) Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Gewichtete Form I Berechnung der Kovarianz aus diskreter Klassierung: J sXY = K )︁ 1 ∑︁ ∑︁ (︁ x̃j − x̄ (ỹk − ȳ) njk n j =1 k =1 J = K 1 ∑︁ ∑︁ x̃j ỹk njk − x̄ ȳ n j =1 k =1 19 / 25 Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Gewichtete Form I Berechnung der Varianzen der Randverteilungen J sX2 = 1 ∑︁ (x̃j − x̄)2 nj · n j =1 K sY2 = 1 ∑︁ (ỹk − ȳ)2 n·k n k =1 I Berechnung des Korrelationskoeffizienten gemäß s rXY = √︁ XY √︁ 2 sX sY2 20 / 25 Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Beispiel x̃1 = 2 x̃2 = 7 ∑︀ x̄ = ȳ = ỹ2 = 3 3 10 13 ∑︀ 5 15 20 1 ∑︁ 1 x̃j · nj = (2 · 5 + 7 · 15) = 5. 75 n 20 j 1 ∑︁ 1 ỹk · nk = (1 · 7 + 3 · 13) = 2. 3 n 20 k 21 / 25 ỹ1 = 1 2 5 7 Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Beispiel J sX ,Y = K 1 ∑︁ ∑︁ x̃j ỹk njk − x̄ ȳ n j =1 k =1 1 (2 · 1 · 2 + 2 · 3 · 3 + 7 · 1 · 5 + 7 · 3 · 10) − 5. 75 · 2. 3 20 = 0.125 J 1 ∑︁ (x̃j − x̄)2 nj · = n = sX2 j =1 = 22 / 25 )︁ 1 (︁ [2 − 5.75]2 · 5 + [7 − 5.75]2 · 15 = 4. 687 5 20 Statistik I Korrelationsrechnung I Korrelationskoeffizient Korrelationskoeffizient von Pearson Beispiel K sY2 = = 1 ∑︁ (ỹk − ȳ)2 n·k n k =1 )︁ 1 (︁ [1 − 2.3]2 · 7 + [3 − 2.3]2 · 13 = 0.91 20 s 0.125 = 0.060523 rXY = √︁ XY √ √︁ = √ 2 2 4. 687 5 0.91 sX sY 23 / 25 Statistik I Korrelationsrechnung I Korrelationskoeffizient PSID: Ausbildungsjahre und Einkommen Grafische Darstellung 1000 Ohne Ausreißer ● ● 800 ● ● r = 0.23 600 2000 Stundenlohn, US$ r = 0.12 ● 400 3000 ● 1000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 ● ● ● 4 ● ● ● 6 ● ● ● ● ● 8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12 Ausbildungsjahre 24 / 25 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● 4 ● ● ● ● ● ● ● 6 ● ● ● ● ● ● ● ● ● ● ● 8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12 Ausbildungsjahre ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 200 Stundenlohn, US$ 4000 Alle Daten ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Statistik I Korrelationsrechnung I Korrelationskoeffizient PSID: Ausbildungsjahre und Einkommen Grafische Darstellung Nur Stundenlöhne < 600 $ Alle Daten, log ● 500 8 ● r = 0.35 6 ● ● ● ● ● ● ● ● ● 100 ● ● ● ● ● 0 ● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4 ● ● ● ● ● ● ● ● ● ● 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12 Ausbildungsjahre ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● −2 ● ● log(Stundenlohn, US$) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −4 300 ● ● ● ● ● 25 / 25 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −8 ● 200 Stundenlohn, US$ 400 ● r = 0.28 ● ● ● ● ● 2 4 6 8 12 Ausbildungsjahre 16 Statistik I Korrelationsrechnung II Statistik I Korrelationsrechnung II Prof. Dr. Andreas Behr 1 / 24 Statistik I Korrelationsrechnung II Inhaltsverzeichnis Rangkorrelationskoeffizient Definition Eigenschaften Beispiel Chi-Quadrat und Kontingenzkoeffizient Definition Chi-Quadrat Kontingenzkoeffizient PSID: Ausbildung und Geschlecht 2 / 24 Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Definition Rangkorrelationskoeffizient 3 / 24 I X und Y sind (mindestens) ordinal skalierte Merkmale I Übergang von den Daten xi und yi auf die Ränge RX (xi ) und RY (yi ) I RX (xi ) = r, falls alle x1 , . . . , xn verschieden sind und xi in der aufsteigend geordneten Folge der Daten an der r-ten Stelle steht Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Definition Rangkorrelationskoeffizient: Beispiel x1 = 6 x2 = 3 x3 = 4 x4 = 12 4 / 24 RX (x1 ) = 3 RX (x2 ) = 1 RX (x3 ) = 2 RX (x4 ) = 4 I Analog für y1 , . . . , yn I Berechnung des Korrelationskoeffizienten für die Ränge R (rXY ) Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Definition Rangkorrelationskoffizient I Rangkorrelationskoffizient: Korrelationskoeffzient der Ränge )︁ (︁ )︁ ∑︀n (︁ R (x ) − R R (y ) − R X i X Y i Y i =1 R rXY = √︁ √︁ ∑︀n ∑︀n 2 2 i =1 (RX (xi ) − RX ) i =1 (RY (yi ) − RY ) mit n RX = 1 ∑︁ n +1 RX (xi ) = n 2 i =1 5 / 24 Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Eigenschaften Eigenschaften 6 / 24 I Dimensionslosigkeit I Symmetrie in X und Y I Invarianz in Bezug auf streng monoton wachsende Transformationen I R Normierung, −1 ≤ rXY ≤1 Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Eigenschaften Eigenschaften 7 / 24 I Der Rangkorrelationskoeffizient misst die Stärke des monotonen Zusammenhangs I Vollständiger gleichgerichteter monotoner Zusammenhang, R wenn rXY = +1 ist I Vollständiger gegenläufiger monotoner Zusammenhang, R wenn rXY = −1 ist I R Bei rXY ≈ 0 gibt es keinen monotonen Zusammenhang Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Eigenschaften Problem I Was passiert bei Bindungen (die gleichen Werte kommen mehrfach vor)? I Übliches Vorgehen: Durchschnittsränge I Beispiel: x1 = 3.7 x2 = 3.9 x3 = 3.1 x4 = 3.7 8 / 24 RX (x1 ) = 2.5 RX (x2 ) = 4 RX (x3 ) = 1 RX (x4 ) = 2.5 Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Eigenschaften Anmerkungen I Wenn keine Bindungen vorliegen, gilt R rXY I 9 / 24 = 1− 6 ∑︀n (x ) − R (y ))2 (︁ i )︁ Y i n n2 − 1 i =1 (RX Aus diskreten Klassierungen wird der Rangkorrelationskoeffizient sehr selten berechnet Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Beispiel Beispiel x1 = 6 x2 = 3 x3 = 4 R rXY RX (x1 ) = 3 RX (x2 ) = 1 RX (x3 ) = 2 = 1− 6 ∑︀n y1 = 5 y2 = 1 y3 = 7 RY (y1 ) = 2 RY (y2 ) = 1 RY (y3 ) = 3 (x ) − R (y ))2 (︁ i )︁ Y i n n2 − 1 i =1 (RX [︁ ]︁ 6 · (3 − 2)2 + (1 − 1)2 + (2 − 3)2 (︁ )︁ = 1− 3 · 32 − 1 = 1− 10 / 24 6·2 = 0.5 3·8 Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Beispiel Beispiel mit Bindungen (1) x1 = 6 x2 = 4 x3 = 4 R rXY , 1− RX (x1 ) = 3 RX (x2 ) = 1.5 RX (x3 ) = 1.5 6 ∑︀n y1 = 5 y2 = 1 y3 = 5 RY (y1 ) = 2.5 RY (y2 ) = 1 RY (y3 ) = 2.5 (x ) − R (y ))2 (︁ i )︁ Y i n n2 − 1 i =1 (RX [︁ ]︁ 6 · (3 − 2.5)2 + (1.5 − 1)2 + (1.5 − 2.5)2 (︁ )︁ = 1− 3 · 32 − 1 = 1− 11 / 24 6 · 1.5 = 0.625 3·8 Statistik I Korrelationsrechnung II Rangkorrelationskoeffizient Beispiel Beispiel mit Bindungen (2) ABER R rXY = √︁ 1 n =√ 12 / 24 i =1 RX (xi )RY (yi ) − R̄X (xi )R̄Y (yi ) √︁ ∑︀ 2 − R̄ 2 (x ) 1 n R (y )2 − R̄ 2 (y ) R (x ) i =1 X i i =1 Y i X i Y i n 1 ∑︀n n = √︁ ∑︀n 1 3 · (3 · 2.5 + 1.5 · 1 + 1.5 · 2.5) − 2 · 2 √︁ 1 2 1 2 2 2 2 2 2 2 3 (3 + 1.5 + 1.5 ) − 2 3 (2.5 + 1 + 2.5 ) − 2 0.25 = 0.5 √ 0.5 0.5 Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient Definition Beobachtete und Häufigkeiten bei Unabhängigkeit 13 / 24 I X und Y sind nominal skaliert; Kontingenztabelle liegt vor I Idee: Messe die Stärke des Zusammenhangs durch den Abstand der Kontingenztabelle von der Unabhängigkeitstabelle I Erinnerung: Deskriptive Unabhängigkeit, wenn für alle j , k gilt njk = nj · · n·k /n Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient Definition Kontingenz- und Unabhängigkeitstabelle Kontingenztabelle X ∖Y ỹ1 ỹ2 . . . x̃1 n11 n12 . . . x̃2 n21 n22 . . . .. .. .. . . . x̃J X ∖Y x̃1 x̃2 .. . x̃J 14 / 24 nJ 1 nJ 2 ... ỹK n1K n2K .. . nJK Unabhängigkeitstabelle ỹ1 ỹ2 ... ỹK n1· ·n·2 n1· ·n·1 n1· ·n·K ... n n n n2· ·n·1 n2· ·n·2 . . . n2·n·n·K n n .. .. .. . . . nJ · ·n·1 n nJ · ·n·2 n ... nJ · ·n·K n Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient Chi-Quadrat Chi-Quadrat I Maß für die Abweichung von der Unabhängigkeit: 𝜒2 = (︁ )︁ n ·n 2 K J ∑︁ ∑︁ njk − j ·n ·k j =1 k =1 = n nj · ·n·k n (︁ )︁2 J ∑︁ K ∑︁ fjk − fj · · f·k j =1 k =1 fj · · f·k (sprich: Chi-Quadrat) I 15 / 24 𝜒2 = 0 genau dann, wenn X und Y deskriptiv unabhängig sind Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient Kontingenzkoeffizient Kontingenzkoeffizient 16 / 24 I Normiertes 𝜒2 heißt Kontingenzkoeffizient C √︃ 𝜒2 min{J , K } · C= 2 𝜒 + n min{J , K } − 1 I Es gilt 0 ≤ C ≤ 1 I C = 0 genau dann, wenn X und Y unabhängig sind I C = 1 genau dann, wenn X und Y vollständig zusammenhängen I C misst nur die Stärke des Zusammenhangs, nicht die Richtung Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Beispiel: Abhängigkeit zwischen Geschlecht und Bildungsabschluß I PSID 2005, 10.129 Personen I 3 Ausbildungskategorien, Männer und Frauen Tabelle: Ausbildung und Geschlecht basic secondary third stage sum 17 / 24 men 574 1873 2503 4950 women 477 1890 2812 5179 sum 1051 3763 5315 10129 Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Tabelleneinträge bei Unabhängigkeit Tabelle: Häufigkeiten bei Unabhängigkeit basic secondary third stage sum 18 / 24 men 513.6193 1838.9624 2597.4183 4950.0000 women 537.3807 1924.0376 2717.5817 5179.0000 sum 1051.0000 3763.0000 5315.0000 10129.0000 Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Absolute Unterschiede Tabelle: Absolute Unterschiede basic secondary third stage sum 19 / 24 men 60.3807 34.0376 −94.4183 women −60.3807 −34.0376 94.4183 sum Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Relative Unterschiede Tabelle: Relative Unterschiede basic secondary third stage sum 20 / 24 men 0.1176 0.0185 −0.0364 women −0.1124 −0.0177 0.0347 sum Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Chi-Quadrat-Beiträge Tabelle: Chi-Quadrat-Beiträge basic secondary third stage sum 21 / 24 men 7.1008 0.6297 3.4368 women 6.7868 0.6025 3.2763 sum 21.8329 Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Beispiel I Berechnung der 𝜒2 -Statistik 𝜒2 = (︁ )︁ n ·n 2 K J ∑︁ ∑︁ njk − j ·n ·k j =1 k =1 nj · ·n·k n (574 − 513.6193)2 (2812 − 2717.5817)2 + ... + 513.6193 2717.5817 = 21.83 = 22 / 24 Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Beispiel 23 / 24 I Berechnung des Kontingenz-Koeffizienten √︃ 𝜒2 min{J , K } · C = 2 𝜒 + n min{J , K } − 1 √︂ 21.83 2 · = 21.83 + 10129 2 − 1 = 0.066 I Es gibt einen sehr schwachen Zusammenhang zwischen dem Geschlecht und der Höhe des Bildungsabschlußes Statistik I Korrelationsrechnung II Chi-Quadrat und Kontingenzkoeffizient PSID: Ausbildung und Geschlecht Skalenniveau und Zusammenhangsmaß I Wenn das Skalenniveau von X und Y verschieden ist, wird das geringere der beiden Skalenniveaus gewählt X ∖Y Nominalskala Ordinalskala Metrische Skala 24 / 24 Nominalskala C C C Ordinalskala C R rXY R rXY Metrische Skala C R rXY rXY Statistik I Regressionsrechnung Statistik I Regressionsrechnung Prof. Dr. Andreas Behr 1 / 24 Statistik I Regressionsrechnung Inhaltsverzeichnis Grundlagen Methode der kleinsten Quadrate Grundlagen Notation und Zielfunktion Güte der linearen Regression Ergänzungen zur linearen Regression Zeit als erklärende Variable Regressionen und Kausalität PSID: Ausbildungsjahre und Einkommen 2 / 24 Statistik I Regressionsrechnung Grundlagen Lineare Regression I I Seien X und Y metrische Merkmale Daten (x1 , y1 ) , . . . , (xn , yn ) als Punktewolke 90 Obst: Verkaufspreis und verkaufte Menge ● 70 ● ● ● ● 60 ● ● 50 Menge (Y) 80 ● ● ● 3.5 4.0 4.5 Preis (X) 3 / 24 5.0 5.5 Statistik I Regressionsrechnung Grundlagen Beschreibung der Daten I Beschreibung der Daten durch yi = a + bxi + ui , i = 1, . . . , n I Die Ausgleichsgerade liefert für jeden Wert x einen dazugehörigen Wert auf der Geraden ŷ I Die Gerade ist bestimmt durch ŷi = a + bxi 4 / 24 Statistik I Regressionsrechnung Grundlagen Beschreibung der Daten I Die beobachteten y− Werte weichen um u von der Ausgleichsgeraden ab ui = yi − a + bxi = yi − ŷi I 5 / 24 Fragestellung: Wie legt man eine Gerade ’optimal’ durch die Punktewolke? Statistik I Regressionsrechnung Grundlagen Lineare Regression: Grafik 90 Obst: Verkaufspreis und verkaufte Menge ● ● 70 ● ● ● ● 60 ● ● 50 Menge (Y) 80 ● ● 3.5 4.0 4.5 Preis (X) 6 / 24 5.0 5.5 Statistik I Regressionsrechnung Methode der kleinsten Quadrate Grundlagen Grundlagen 7 / 24 I Ziel: Die Residuen u1 , . . . , un sollen „möglichst klein“ sein I Problem: In der Summe der ui heben sich Abweichungen nach oben (u > 0) und nach unten (u < 0) auf I Zur Erinnerung: Nulleigenschaft des arithmetischen Mittels! ∑︀ D.h. eine Horizontale in der Höhe ȳ führt zu i ui = 0 I Es muß also ein anderes Kriterium gefunden werden I Carl Friedrich Gauß (1777-1855): Methode der kleinsten Quadrate Statistik I Regressionsrechnung Methode der kleinsten Quadrate Grundlagen Grundlagen 8 / 24 I Wähle diejenige Gerade (also jene Parameter a und b ), für die die Summe der quadrierten Residuen minimal ist I Die Regressionsanalyse ist DIE dominierende statistische Methode in den Wirtschaftswissenschaften Statistik I Regressionsrechnung Methode der kleinsten Quadrate Grundlagen Methode der kleinsten Quadrate 90 Obst: Verkaufspreis und verkaufte Menge ● ● ● 70 ● ● ● ● ● ● ● ● ● 60 ● ● ● ● 50 Menge (Y) 80 ● ● 3.5 4.0 4.5 Preis (X) 9 / 24 5.0 5.5 Statistik I Regressionsrechnung Methode der kleinsten Quadrate Grundlagen Ökonometrie 10 / 24 I Die Ökonometrie untersucht und entwickelt Methoden, um Parameter ausgedachter funktionaler Beziehungen zwischen ökonomischen Variablen (bzw. Variablenräumen) zu schätzen I Üblicherweise, aber nicht ausschließlich, werden lineare Beziehungen unterstellt I Die Schätzung der gesuchten Parameter der ausgedachten funktionalen Beziehungen erfolgt oft, aber nicht ausschließlich, mit der Methode der kleinsten Quadrate Statistik I Regressionsrechnung Methode der kleinsten Quadrate Notation und Zielfunktion Notation I Wir bezeichnen in Anlehnung an Mosler/Schmid mit 𝛼, 𝛽 die Parameter des Modells 𝛼 + 𝛽xi und mit a, b die Aufgrund der vorliegenden Wertepaare berechneten Parameter I 11 / 24 an dieser Stelle ist die Unterscheidung allerdings überflüssig (anders aber im stochastischen Regressionsmodell) Statistik I Regressionsrechnung Methode der kleinsten Quadrate Notation und Zielfunktion Zielfunktion I Die Zielfunktion ist also Q (𝛼, 𝛽) = n ∑︁ (y − (𝛼 + 𝛽xi ))2 i =1 I Ableiten und Nullsetzen ergibt die optimalen Werte b= sXY sX2 und a = ȳ − b x̄ 12 / 24 Statistik I Regressionsrechnung Methode der kleinsten Quadrate Notation und Zielfunktion y^ vs. y I Angepasste Werte (fitted values) ŷi = a + bxi I Die angepassten Werte ŷi liegen genau auf der Geraden (über oder unter den tatsächlichen Werten yi ) I Per definitionem gilt yi = ŷi + ui 13 / 24 Statistik I Regressionsrechnung Methode der kleinsten Quadrate Güte der linearen Regression Bestimmtheitsmaß Wie gut beschreibt die Regression die Punktewolke? I Varianzzerlegungssatz: sY2 = sY^2 + sU2 I Bestimmtheismaß der linearen Regression R2 = I s ^2 Y sY2 = 1− sU2 sY2 Für das Bestimmtheitsmaß gilt immer 0 ≤ R2 ≤ 1 I 14 / 24 R 2 gilt in dieser allgemeinen Definition auch für lineare multiple Regresssionen, d.h. Regressionen mit mehr als einer erklärenden Variable Statistik I Regressionsrechnung Methode der kleinsten Quadrate Güte der linearen Regression Bestimmtheitsmaß 15 / 24 I Wenn R 2 = 0, besteht kein linearer Zusammenhang (Einfachregression: a = ȳ und b = 0) I Wenn R 2 = 1, liegen im Falle der Einfachregression alle Datenpunkte auf einer Geraden I Im Fall der linearen Einfachregression gilt R 2 = (rXY )2 I Allgemein gilt: R 2 entspricht dem quadrierten Korrelationskoeffizienten von beobachteten Werten und Schätzwerten: R 2 = (rY Y^ )2 Statistik I Regressionsrechnung Methode der kleinsten Quadrate Güte der linearen Regression Beispiel: Obsthändler x = {4.7, 4.3, 3.8, 4.5, 5.4, 5, 4.1, 4.3, 3.9, 4} y = {70, 75, 80, 75, 50, 60, 70, 65, 75, 85} sXY = −17.09 sX2 a = ȳ − b x̄ = 145.71 b 16 / 24 = Statistik I Regressionsrechnung Methode der kleinsten Quadrate Güte der linearen Regression Beispiel: Obsthändler Bedeutung der Koeffizienten: 17 / 24 I Achsenabschnitt a = 145.71: Wenn der Preis Null wäre, wäre der Absatz 145.71 kg I Steigungskoeffizient b = −17.09: Wenn der Preis um 1 EUR/kg erhöht wird, sinkt der Absatz im Mittel um rund 17 kg I Achtung: Extrapolation fast immer problematisch! I In der Praxis liegen oftmals keine Beobachtungen in der Nähe von x = 0 vor, so dass der Achsenabschnitt nur extrem ungenau geschätzt werden kann (extreme Extrapolation) Statistik I Regressionsrechnung Methode der kleinsten Quadrate Güte der linearen Regression Beispiel: Obsthändler I Bestimmtheitsmaß 2 R 2 = rXY = = I 18 / 24 2 sXY sX2 sY2 (−4)2 = 0.7412 0.234 · 92.25 74% der Streuung des Absatzes können durch die Preisänderungen „erklärt“ werden Statistik I Regressionsrechnung Ergänzungen zur linearen Regression Zeit als erklärende Variable Zeit als erklärende Variable 19 / 24 I Regression auf die Zeit I Als „erklärendes“ Merkmal dient nun die Zeit I Skalierung der Zeit (Kalenderzeit)? Statistik I Regressionsrechnung Ergänzungen zur linearen Regression Zeit als erklärende Variable Zeit als erklärende Variable I Daten (t1 , y1 ) , . . . , (tn , yn ) I Merkmal Y als lineare Funktion der Zeit („Merkmal T “ ) yi = a + bti + ui I Methode der kleinsten Quadrate b = sTY sT2 ∑︀n = a = ȳ − b t̄ 20 / 24 i =1 (ti − t̄) (yi − ȳ) ∑︀n 2 i =1 (ti − t̄) Statistik I Regressionsrechnung Ergänzungen zur linearen Regression Zeit als erklärende Variable Beispiel: Bruttonationaleinkommen Bruttonationaleinkommen 650 ● ● 550 a = 387.72 b = 3.24 ● ● ● 500 ● ● ● ● ● ● ● ● ● 1997 ● ● ● ● ● 400 ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1996 450 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2005 ● ● 2004 600 Mrd. € ● ● ● 1. Quartal 2. Quartal 3. Quartal 4. Quartal ● ● ● ● ● ● 21 / 24 Zeit 2008 2007 2006 2003 2002 2001 2000 1999 1998 1995 1994 1993 1992 1991 350 Statistik I Regressionsrechnung Ergänzungen zur linearen Regression Regressionen und Kausalität Achtung 22 / 24 I Eine Regressionsgerade kann i.d.R. nicht als kausale Beziehung (im Sinne von X ist ursächlich für Y ) interpretiert werden I Es kann eine andere Form von Kausalität vorliegen (z.B. von Y nach X , oder von Z nach X und Y ) Statistik I Regressionsrechnung Ergänzungen zur linearen Regression PSID: Ausbildungsjahre und Einkommen PSID: Wirkung von Ausreißern 1000 ● ● 800 ● a = −18.21 600 2000 b = 2.73 ● b = 2.84 ● 400 a = −16.35 Stundenlohn, US$ ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 23 / 24 ● ● ● 4 6 ● ● ● ● ● 8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12 Ausbildungsjahre ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 0 ● ● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● 4 ● ● ● ● ● ● ● 6 ● ● ● ● ● ● ● ● ● ● ● 8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12 Ausbildungsjahre ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 200 3000 Ohne Ausreißer ● 1000 Stundenlohn, US$ 4000 Alle Daten ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Statistik I Regressionsrechnung Ergänzungen zur linearen Regression PSID: Ausbildungsjahre und Einkommen PSID: Wirkung von Datentransformationen Nur Stundenlöhne < 600 $ Alle Daten, log ● 8 500 ● 6 ● ● ● ● ● ● ● ● ● ● 200 ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4 ● ● ● ● ● ● ● ● ● 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 8 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12 Ausbildungsjahre ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 300 b = 2.65 ● ● ● ● ● −4 ● −6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● a = 1.01 ● b = 0.12 ● −8 ● ● log(Stundenlohn, US$) 400 a = −16.03 100 Stundenlohn, US$ ● 24 / 24 ● ● ● ● ● 2 4 6 8 12 Ausbildungsjahre 16