Folien zur Vorlesung Statistik I (Deskriptive Statistik) Wintersemester 2013/2014 Montag, 14.00 - 15.30 Uhr Hörsaal: H1 / H3 Prof. Dr. Bernd Wilfling Westfälische Wilhelms-Universität Münster Inhalt 1 1.1 1.2 1.3 Einleitung Was ist Statistik und warum ist Statistik wichtig? Beispiele für statistische Fragestellungen in der Ökonomik Deskriptive und schließende Statistik 2 2.1 2.2 Mathematische Grundlagen Endliche Summen und Produkte Exponentialfunktion und Logarithmus 3 3.1 3.2 3.3 3.4 Merkmale und Daten Grundgesamtheiten Merkmale Daten und ihre Erhebung Amtliche und nichtamtliche Statistik 4 4.1 4.2 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 Auswertung eindimensionaler Daten Beliebig skalierte Daten Mindestens ordinal skalierte Daten Metrisch skalierte Daten Lagemessung Weitere Mittelwerte Streuungsmaße Additionssätze für arithmetische Mittel und Varianzen Stetig klassierte Daten Schiefemessung 5 5.1 5.2 5.2.1 5.2.2 5.2.3 5.3 5.3.1 5.3.2 Verhältniszahlen, Messzahlen und Indexzahlen Verhältniszahlen Messzahlen des zeitlichen Vergleichs Umbasierung und Verkettung von Messzahlen Zuwachsraten und Zuwachsfaktoren Logarithmische Zuwachsraten Indexzahlen Preisindizes Mengenindizes i 5.3.3 5.3.4 5.3.5 Wertindizes Umbasierung und Verkettung von Indizes Formale Indexkriterien (Fisher-Proben) 6 6.1 6.1.1 6.1.2 6.1.3 6.1.4 6.2 Auswertung mehrdimensionaler Daten Grundbegriffe Kontingenztafel und Häufigkeiten Bedingte Verteilungen Deskriptive Unabhängigkeit Arithmetische Mittel und Varianzen Zusammenhangsmaße 6.2.1 6.2.2 6.2.3 6.3 6.3.1 6.3.2 6.4 Metrische Daten: Korrelationskoeffizient Ordinale Daten: Rangkorrelationskoeffizient Nominale Daten: Kontingenzkoeffizient Deskriptive Regression Regression 1. Art Regression 2. Art: Die lineare Einfachregression Lineare Mehrfachregression 7 7.1 7.2 7.2.1 7.2.2 7.3 7.3.1 7.3.2 Konzentrations- und Disparitätsmessung Disparität und Konzentration Konzentrationsmessung Konzentrationsraten und Konzentrationskurve Konzentrationsindizes Disparitätsmessung Lorenzkurve Der Gini-Koeffizient ii Literatur EViews: EViews 7 User Guide (2009). Estimation, Forecasting, Statistical Analysis, Graphs, Data Management, Simulation. QMS Quantitative Micro Software, Irvine, California. Statistik: Hartung, J. (2005). Statistik – Lehr- und Handbuch der angewandten Statistik (14. Auflage). Oldenbourg Verlag, München. Mosler, K. und F. Schmid (2009). Beschreibende Statistik und Wirtschaftsstatistik (4. Auflage). Springer Verlag, Heidelberg. iii 1. Einleitung Ziel der Vorlesung: • Einführung in deskriptive Statistik + Wirtschaftsstatistik Internet-Seite der Vorlesung: • http://www1.wiwi.uni-muenster.de/oeew/ −→ Studium −→ Veranstaltungen im Wintersemester 2013/2014 −→ Bachelor −→ Statistik I 1 Vorlesungsstil: • Freier Vortrag anhand von Projektor-Folien • Folien stehen als PDF-Dateien auf Internetseite zur Verfügung (Beschaffung der Folien wird unbedingt empfohlen) Literatur: • K. Mosler und F. Schmid (2009). Beschreibende Statistik und Wirtschaftsstatistik (4. Auflage), Springer-Verlag • Formelsammlung ”Definitionen, Formeln und Tabellen zur Statistik” (6. Auflage) von Bomsdorf/Gröhn/Mosler/Schmid (notwendiges Hilfsmittel, in der Klausur zugelassen) 2 Klausurvorbereitung: • Stoff der Vorlesung • Aufgaben des Tutoriums Ansprechpartner: Herr Fabian Gößling • Klausurtraining durch Ferienarbeitsgruppen 3 Zugelassene Hilfsmittel in der Klausur: • Taschenrechner (nicht programmierbar) • Formelsammlung ”Definitionen, Formeln und Tabellen zur Statistik” von Bomsdorf/Gröhn/Mosler/Schmid, 7. (aktuelle und frühere) Auflage(n) Akzeptierte äußere Form für die Klausur: – Zulässig sind nur Unter- bzw. Überstreichungen, Verweise auf Seiten bzw. Nummern – Nicht zulässig sind somit z.B. verbale Erläuterungen, mathematische Umformungen, grafische Darstellungen u.ä., die als Lösungshilfen für Klausuraufgaben angesehen werden können 4 Ansprechpartner: • Herr Fabian Gößling (Koordinator der Tutorien) • Tutorinnen und Tutoren (Adressen und Nummern: siehe Tutorien) 5 1.1 Was ist Statistik und warum ist Statistik wichtig? Typischer Lexikon-Eintrag für den Begriff ’Statistik’: • Methode zur Untersuchung von Massenerscheinungen • Versuch, den Umfang, die Gliederung oder Struktur einer Masse, die zeitliche Entwicklung einer oder das Verhältnis mehrerer Massenerscheinungen zueinander zu erkennen • Aufgabe der Statistik besteht in der Darstellung, Analyse und Deutung von Daten 6 Anwendungsbereiche für statistische Methoden: • heutzutage in allen Wissenschaftsbereichen, z.B. in der Biologie / Medizin (Biometrie) den Ingenieurswissenschaften (Technometrie) den Verhaltenswissenschaften (Psychometrie) Besonders wichtig für WiWis: • Empirische Wirtschaftsforschung • Ökonometrie 7 Ziele der Statistik: [I] • Aufdeckung von Zusammenhängen, z.B. Zusammenhang Arbeitslosigkeit ←→ Inflation Zusammenhang Arbeitslosigkeit ←→ Wachstum Auswirkungen von Geldpolitik auf wirtschaftliche Aktivität • Überwachung ökonomischer Aktivität, z.B. Arbeitslosenquote Wachstumsraten (BIP, Konsum) Aktienkurse, Wechselkurse, Zinssätze, Rohstoff- und Immobilienpreise 8 Ziele der Statistik: [II] • Überprüfung von WiWi-Theorien anhand von Daten, z.B. Zusammenhang zwischen verfügbarem Einkommen und Konsumausgaben Einfluss demokratischer Strukturen auf wirtschaftliche Aktivität Bedeutung des Währungssystems für den wirtschaftlichen Erfolg 9 1.2 Beispiele für statistische Fragestellungen in der Ökonomik (a) Preis eines Gutes: • Preis einer Feinunze Gold auf verschiedenen Märkten Kurse (in US-$) vom 10.09.2013 Marktplatz Frankfurt Luxemburg London Zürich Paris Kurs 1386.30 1385.95 1386.65 1386.38 1385.89 10 Aufgaben der Statistik: • Charakterisierung der Datenreihe durch Kennzahlen • Grafische Darstellung der Daten • Eventuell Bereinigung der Daten (Ausreißer etc.) 11 (b) Kursverläufe von Aktien, Währungen, Immobilien: • Wechselkurs der griechischen Drachme zum Euro Greek Drachme (GRD / EURO) ERM parity (100): 340.75 102 24/09/2000 25/09/2000 1.0 Greek Drachme (daily changes in %) 24/09/2000 25/09/2000 0.5 100 0.0 98 -0.5 96 -1.0 94 15/12/98 3/07/99 19/01/00 6/08/00 -1.5 15/12/98 3/07/99 19/01/00 6/08/00 Aufgabe der Statistik: • Messung der unterschiedlichen Schwankungen 12 (c) Anstieg des ’allgemeinen Preisniveaus’ Wichtige Frage für die Wirtschaftspolitik: • Um wieviel Prozent ist das Preisniveau in der BRD im Monat Oktober 2010 gegenüber dem Vorjahresmonat gestiegen? Aufgaben der Statistik: • Welche Preise sind gemeint? • Bestimmung eines geeigneten Preisindexes 13 (d) Entwicklung der Arbeitslosigkeit Wichtige Frage für die Wirtschaftspolitik: • Ist die Arbeitslosenquote innerhalb des letzten Monats gesunken? Aufgaben der Statistik: • Beschäftigungssituation ist jahreszeitlichen Fluktuationen ausgesetzt • Bestimmung der ’Saisonfigur’ • Bereinigung der AL-Quote um die ’Saisonfigur’ 14 1.3 Deskriptive und schließende Statistik Unterteilung der Statistik in 2 Säulen: • Deskriptive Statistik (Statistik I) (Wie bringe ich die Daten zum Sprechen?) • Wahrscheinlichkeitsrechnung und induktive Statistik (Was können mir die Daten wirklich sagen?) Weitere gebräuchliche Ausdrücke für ’induktive Statistik’: • schließende Statistik • statistische Inferenz 15 Ziele der induktiven Statistik: • Datenanalyse auf der Basis von Wahrscheinlichkeitsmodellen • Verifikation theoretischer Modelle anhand von Daten Methoden der induktiven Statistik: • Schätzen von unbekannten Parametern • Testen von Hypothesen über unbekannte Parameter 16 Beispiel: • Die Wirkung von Werbemaßnahmen auf den Absatz von Unternehmen Stichprobe: • 84 Unternehmen eines bestimmten Sektors in den USA im Jahre 1990 17 Stichprobenergebnisse der 84 Unternehmen Schätzung: Absatz = 502.92 + 0.218 * Werbeausgaben Absatz in Mill. US-$ 560 540 520 500 480 0 20 40 60 80 100 Werbeausgaben in Mill. US-$ 18 Offensichtlich: • ’Höhere Werbeausgaben’ bewirken ’höhere Absätze’ (möglicherweise auch umgekehrte Beziehung) • Zusammenhang ist nicht exakt (vgl. eingezeichnete Regressionslinie) Theoretisches Modell: mit Y = β0 + β1 · X + Fehler • Y = Absatz, X = Ausgaben für Werbung • β0, β1 unbekannte Parameter 19 Aufgaben der induktiven Statistik: • ’Gute’ Schätzungen für die Parameter β0 und β1 • Testen der Hypothese β1 = 0 gegen β1 6= 0 (Variable X hat keinerlei Einfluss auf Y gegen X hat einen signifikanten Einfluss auf Y ) 20 2. Mathematische Grundlagen Erforderliche mathematische Hilfsmittel: • Summen und Produkte • Exponential- und Logarithmusfunktionen 21 2.1 Endliche Summen und Produkte Betrachte n reelle Zahlen a1, a2, . . . , an ∈ R. Zahlen notiert man wie folgt: a1 + a2 + . . . + an = n X i=1 ai = X Die Summe der ai i∈I Bezeichnungen: • i heißt Summationsindex • I = {1, . . . , n} heißt Indexmenge 22 Bemerkungen: • Die Indexmenge I darf eine beliebige Menge ganzer Zahlen sein (I ⊂ Z), z.B. I = {−4, −3, −2, −1, 0, 1, 2, 3}. Für die Summe gilt dann: X i∈I ai = 3 X i=−4 ai = a−4 + a−3 + a−2 + a−1 + a0 + a1 + a2 + a3 • Die Indexmenge I kann auch leer sein, d.h. I = {}. Für die Summe definiert man dann X ai = 0. i∈I 23 Fragen: • Warum ist das Summenzeichen wichtig? • Wie kann man formal mit Summen rechnen? Antworten: • Das Summenzeichen vereinfacht die Schreibweise in der gesamten Statistik • Es gibt Rechenregeln für Summen, die allesamt formal bewiesen werden müssen (Aufgabe der Mathematik) 24 Rechenregeln für endliche Summen: [I] Dazu seien a1, . . . , an sowie b1, . . . , bn reelle Zahlen • Mit den beliebigen reellen Zahlen α, β gilt: n X i=1 (α · ai + β · bi) = n X i=1 = α· α · ai + n X i=1 n X β · bi i=1 n X ai + β · bi i=1 • Falls a1 = a2 = . . . = an ≡ a, so folgt: n X i=1 ai = n X i=1 a=n·a 25 Rechenregeln für endliche Summen: [II] • Für jedes (ganzzahlige) m mit 0 ≤ m ≤ n gilt: n X ai = i=1 m X ai + i=1 n X ai i=m+1 • Für jedes ganzzahlige m gilt: n X i=1 ai = n+m X ai−m i=1+m 26 Spezielle endliche Summen: [I] • • • n X i = 1 + ... + n = i=1 n · (n + 1) 2 n X n · (n + 1) · (2n + 1) 2 i = n X n2 · (n + 1)2 3 i = 6 i=1 i=1 4 27 Spezielle endliche Summen: [II] • Es seien a1, b ∈ R, ai = a1 + (i − 1) · b für i = 2, . . . , n. Dann heißt a1, a2, . . . , an endliche arithmetische Folge 1. Ordnung und es gilt: n X n ai = · (2a1 + (n − 1) · b) 2 i=1 • Es seien a1, q ∈ R, ai = a1 · q i−1 für i = 2, . . . , n. Dann heißt a1, a2, . . . , an endliche geometrische Folge und es gilt für q 6= 1: n X qn − 1 ai = a1 · q−1 i=1 28 Doppelsummen: [I] • Es sei a11 a12 · · · a1m a21 a22 · · · a2m ... ... ... ... an1 an2 · · · anm eine Matrix (Tabelle) reeller Zahlen 29 Doppelsummen: [II] • Die Summe über alle diese Zahlen notiert man als Doppelsumme: m n X X aij = a11 + a12 + . . . + a1m i=1 j=1 + a21 + a22 + . . . + a2m ... + an1 + an2 + . . . + anm • Es gilt: n X m X i=1 j=1 aij = m X n X aij j=1 i=1 30 Weiteres Beispiel für eine Doppelsumme: n n X X aij = a11 + . . . + ... + . . . + a1n + a22 + . . . + . . . + a2n i=1 j=i + a33 + . . . + a3n ... + ann (Der Laufbereich des 2. Index hängt vom 1. Index ab) 31 Endliche Produkte Betrachte n reelle Zahlen a1, a2, . . . , an ∈ R. Mit der Indexmenge I = {1, 2, . . . , n} notiert man das Produkt der Zahlen wie folgt: a1 · a2 · . . . · an = n Y i=1 ai = Y ai i∈I Bemerkung: • Die Indexmenge I kann wiederum leer sein, d.h. I = {}. Für P das Produkt definiert man dann i∈I ai = 1 32 Rechenregeln für endliche Produkte: Es seien a1, . . . , an sowie b1, . . . , bn reelle Zahlen • Mit den beliebigen reellen Zahlen α, β gilt: n Y i=1 α · ai · β · bi = αn · β n · n Y i=1 ai · n Y bi i=1 • Falls a1 = a2 = . . . = an ≡ a, so folgt: n Y i=1 ai = n Y a = an i=1 33 2.2 Exponentialfunktion und Logarithmus Zwei wichtige mathematische Funktionen: • Natürliche Exponentialfunktion • Natürlicher Logarithmus Hier: • Mathematische Definition und Eigenschaften 34 Anwendung in der gesamten Wirtschaftstheorie, z.B. • in der Wachstumstheorie (VWL) • in Mikro- und Makromodellen (VWL) • im gesamten Finance-Bereich (BWL) • im Operations-Research (BWL) • in der Statistik / Ökonometrie 35 Definition der Exponentialfunktion: [I] • Betrachte die unendliche Reihe ∞ X xk x3 x4 x2 =1+x+ + + + ··· k! 2 6 24 k=0 (k! bezeichnet das Produkt der ersten k ganzen Zahlen, also k! = 1 · 2 · . . . · k) • Man kann zeigen, dass die Summe für jedes x ∈ R gegen eine endliche Zahl konvergiert 36 Definition der Exponentialfunktion: [II] • Für jedes x ∈ R definiert man exp(x) = ∞ X xk k=0 k! • Die Funktion exp : R → R heißt natürliche Exponentialfunktion 37 Graph der natürlichen Exponentialfunktion 25 20 exp(x) 15 10 5 0 -2 -1 0 1 2 3 x 38 Eigenschaften der Exponentialfunktion: [I] • Es gilt: exp(0) = 1 exp(1) = e ≈ 2.71828 (Eulersche Zahl) • Für alle x ∈ R gilt: exp(x) > 0 • Für alle x ∈ R gilt: d exp(x) = exp(x) dx (Ableitung ist gleich der Funktion selbst) exp0(x) ≡ 39 Eigenschaften der Exponentialfunktion: [II] • Die Funktion exp ist streng monoton wachsend • Für beliebige x, y ∈ R gilt die Beziehung: exp(x + y) = exp(x) · exp(y) (Funktionalgleichung) • Für alle x ∈ R gilt x n exp(x) = lim 1 + n→∞ n (Äquivalente Darstellung zur Summendefinition) 40 Jetzt: • Die exp-Funktion besitzt eine eindeutig bestimmte Umkehrfunktion • Diese Umkehrfunktion ist definiert auf (0, ∞) Definition des natürlichen Logarithmus Die Umkehrfunktion der natürlichen Exponentialfunktion exp : R → (0, ∞) heißt natürlicher Logarithmus und wird bezeichnet mit ln : (0, ∞) → R 41 Graph des natürlichen Logarithmus 4 2 ln(x) 0 -2 -4 -6 0 2 4 6 8 10 x 42 Eigenschaften des natürlichen Logarithmus: • Die Funktion ln ist streng monoton wachsend • Für x > 0 gilt: ln0(x) = 1 d ln(x) = dx x • Für beliebige x, y > 0 gilt die Beziehung ln(x · y) = ln(x) + ln(y) (Funktionalgleichung) 43 Weitere Definitionen und Eigenschaften: [I] • Die allgemeine Potenz ist für alle x > 0, y ∈ R definiert durch xy = exp(y · ln(x)) Insbesondere ist für x ∈ R ex = exp(x) • Es sei a > 0 und a = 6 1. Der allgemeine Logarithmus von x > 0 zur Basis a ist definiert durch y = loga(x) ⇐⇒ x = ay 44 Weitere Definitionen und Eigenschaften: [II] • Es gelten die folgenden Beziehungen: ln(x) = loge(x) ln(x) = loga(x) · ln(a) ln(x) loga(x) = ln(a) • Es sei f : R → (0, ∞) eine differenzierbare Funktion. jedes x ∈ R heißt die Ableitung Für d ln(f (x)) f 0(x) 0 (ln(f (x)) = = dx f (x) die logarithmische Ableitung von f an der Stelle x (auch: stetige Wachstumsrate) 45 3. Merkmale und Daten Ziel dieses Kapitels: • Vermittlung des statistischen Grundvokabulars Zu klärende Begriffe: • Grundgesamtheit • Merkmale (Skalenniveau etc.) • Stichprobe 46 3.1 Grundgesamtheiten Definition 3.1: (Grundgesamtheit, Merkmalsträger) Die Grundgesamtheit ist die Gesamtheit aller Einheiten, die statistisch untersucht werden sollen. Die Grundgesamtheit ist eine Menge und wird mit G bezeichnet. Ihre Elemente heißen Untersuchungseinheiten oder Merkmalsträger. Wir schreiben G = {e1, e2, . . . , en}. Die Anzahl n der Elemente von G bezeichnet den Umfang der Grundgesamtheit. Wir notieren die Anzahl der Elemente von G mit |G| = n. 47 Weitere Begriffe: • Bestandsmasse: GG, die durch einen Zeitpunkt abgegrenzt wird • Bewegungsmasse: GG, die durch einen Zeitraum abgegrenzt wird Beispiele für Bestandsmassen: • Lagerbestand eines Unternehmens am 31.12.2013 • Handwerksbetriebe im Münsterland am 01.01.2014 48 Beispiele für Bewegungsmassen: • Neugegründete Betriebe in Münster im Jahr 2013 • Studierende an der Uni Münster im WS 2013/2014 Offensichtlich: • Bestands- und Bewegungsmassen hängen zusammen, und zwar über die sogenannte Bestandsveränderung 49 3.2 Merkmale Definition 3.2: (Merkmal, Merkmalsausprägung) Unter einem Merkmal versteht man eine Eigenschaft der Merkmalsträger, die statistisch untersucht werden soll. Ein Merkmal hat gewöhnlich verschiedene Merkmalsausprägungen. Merkmale notieren wir meist mit Großbuchstaben (X, Y etc.). Merkmalsausprägungen notieren wir meist mit indizierten griechischen Buchstaben (z.B. ξ1, ξ2 etc.). 50 Bisherige Notationszusammenfassung: • Merkmalsträger: e1, e2, . . . , en • Grundgesamtheit: G = {e1, . . . , en} • Merkmal (interessierende Eigenschaft): X, Y etc. • Merkmalsausprägungen (Merkmalswerte): ξ1, ξ2, . . . 51 Beispiele: Grundgesamtheit Merkmal Ausprägungen Haushalte in der BRD am 1.1.2013 verfügbares Monatseinkommen [0, ∞) Euro Studierende der WWU am 1.10.2013 Geschlecht weibl., männl. 52 Typisierungen von Merkmalen: [I] • Diskrete vs. stetige Merkmale Ein Merkmal heißt diskret, falls es nur eine ’abzählbare’ Menge von Ausprägungen annehmen kann (Vorsicht: ’abzählbar’ bedeutet nicht endlich!) Beispiele: – Typischerweise Zählmerkmale wie Anzahl von Kindern, Anzahl von Fachsemestern etc. Ein Merkmal heißt stetig, falls es theoretisch alle reellen Zahlen (eines Intervalls) annehmen kann Beispiele: – Gewichte, Temperaturen, Preise, Einkommen 53 Typisierungen von Merkmalen: [II] • Qualitative vs. quantitative Merkmale Ein Merkmal heißt qualitativ, wenn seine Ausprägungen durch verbale Ausdrücke gegeben sind Beispiele: – Beruf, Geschlecht, Farbe, Status Ein Merkmal heißt quantitativ, wenn seine Ausprägungen Zahlen sind Beispiele: – Alter, Einkommen, Noten (falls Note durch Zahl ausgedrückt wird) 54 Wichtige Frage für den Statistiker: • Welche Rechenoperationen sind mit den erhobenen Werten möglich? Antwort über Skalenniveaus der Daten: [I] • Nominalskala Merkmalswerte haben nur Bezeichnungsfunktion (Codes) Rechenoperationen (Addition, Multiplikation etc.) sinnlos sind Beispiele: Geschlecht, Religionszugehörigkeit 55 Skalenniveaus: [II] • Ordinalskala Es existiert eine natürliche Ordnung der Merkmalswerte Größe der Abstände zwischen den Merkmalswerten ist irrelevant −→ Rechenoperationen sind sinnlos Beispiele: Klausurnoten, Windstärken • Intervallskala Differenzen von je zwei Merkmalswerten können sinnvoll verglichen werden Frei wählbarer Maßstab Beispiel: Temperaturen (in Grad Celsius oder Fahrenheit) 56 Skalenniveaus: [III] • Verhältnisskala Besitzt natürlichen Nullpunkt, aber keine natürliche Messeinheit Beispiele: Einkommen, Geldmenge (wenn keine Messeinheit vorgegeben ist) • Absolute Skala Ist eindeutig bestimmt (natürlicher Nullpunkt und natürliche Messeinheit) Beipiele: Einkommen in Euro, Alter in Jahren etc. Ausdrucksweise: • Intervall-, Verhältnis- und absolute Skala werden auch metrische Skalen genannt 57 3.3 Daten und ihre Erhebung Begriffserklärung: • Unter dem Begriff Daten versteht man die beobachteten Werte eines oder mehrerer Merkmale Schreibweisen für Daten: • Bei einem Merkmal X: x 1 , . . . , xn • Bei 2 Merkmalen X und Y : (x1, y1), . . . , (xn, yn) 58 Weitere Begriffe: [I] • Urliste: Die Gesamtheit aller erhobenen Daten nennt man Urliste • Häufigkeitsverteilung: Die Häufigkeitsverteilung gibt für jeden Merkmalswert die Häufigkeit an, mit der dieser in den erhobenen Daten vorkommt Häufigkeitsverteilung (inklusive grafischer Darstellung) ausführlich in Kapitel 4 59 Weitere Begriffe: [II] • Vollerhebung / Teilerhebung Vollerhebung: Ermittlung der Merkmalswerte aller Untersuchungseinheiten der Grundgesamtheit (z.B. Volkszählung) Teilerhebung: Auswertung nur eines Teils der Grundgesamtheit Mögliche Gründe: – GG ist zu groß (Vollerhebung zu teuer) – Beobachtung des Merkmals zerstört den Merkmalsträger (Qualitätskontrolle) 60 Weitere Begriffe: [III] • Querschnitte / Zeitreihen / Panels Querschnitt: Erhebung der Werte eines Merkmals zur selben Zeit an verschiedenen Untersuchungseinheiten (z.B. Umsätze von Unternehmen im Jahr 2013) Zeitreihen: Erhebung der Werte eines Merkmals an derselben Untersuchungseinheit zu verschiedenen Zeitpunkten (z.B. BSP eines Landes über verschiedene Jahre) Panel: Kombination von Querschnitten und Zeitreihen (z.B. Jährliche Befragung von Haushalten nach ihrem Einkommen) 61 3.4 Amtliche und nichtamtliche Statistik Träger der Wirtschafts- und Sozialstatistik in der BRD: • Amtliche Statistik • Nichtamtliche Statistik Institutionen der amtlichen Statistik: • Statistisches Bundesamt • Bundesministerien • Deutsche Bundesbank • Bundesanstalten 62 Träger der nichtamtlichen Statistik: • Unabhängige Wirtschaftswissenschaftliche Institute IFO (Institut für Wirtschaftsforschung, München) DIW (Deutsches Institut für Wirtschaftsforschung, Berlin) IfW (Institut für Weltwirtschaft, Kiel) RWI (Rheinisch-Westfälisches Institut für Wirtschaftsforschung, Essen) • Wirtschaftsforschungsinstitute von Interessenverbänden • Unabhängige, quasi ’halbamtliche’ Institutionen (z.B. Sachverständigenrat, Monopolkommission) • Markt-, Meinungs- und Umfrageinstitute 63 4. Auswertung eindimensionaler Daten Ziel dieses Kapitels: • Präsentation von Methoden zur statistischen Auswertung eines einzelnen Merkmals 64 Bezeichnungen (Wiederholung): • Merkmalsträger: e1, . . . , en • Grundgesamtheit: G = {e1, . . . , en} • Zu untersuchendes Merkmal: X • Mögliche Merkmalswerte: ξ1, . . . , ξJ • Daten in Urliste: x1, . . . , xn 65 Fragestellungen: • Formale und grafische Darstellung der Daten • Berechnung aussagekräftiger Kenngrößen der Daten Vorgehensweise: • Vorstellung der statistischen Methoden anhand des Skalenniveaus des Merkmals X 66 4.1 Beliebig skalierte Daten Skalenniveau des zu untersuchenden Merkmals X: • Nominalskala (oder höher) Häufigkeiten des Merkmals X mit Ausprägungen ξ1, . . . , ξJ : • Absolute Häufigkeit der Ausprägung ξj (j = 1, . . . J): nj = Anzahl von Daten mit Merkmalswert ξj • Relative Häufigkeit der Ausprägung ξj (j = 1, . . . J): nj fj = = Anteil von Daten mit Merkmalswert ξj n 67 Offensichtlich gilt: PJ • 0 ≤ nj ≤ n sowie j=1 nj = n (warum?) • 0 ≤ fj ≤ 1 sowie PJ j=1 fj = 1 (warum?) Jetzt: • Mit den Begriffen der absoluten und relativen Häufigkeiten gelangt man zur 1. Darstellungsform des Merkmals X, nämlich zur Häufigkeitstabelle 68 Definition 4.1: (Häufigkeitstabelle) Unter der Häufigkeitstabelle des Merkmals X versteht man die folgende tabellarische Darstellung: j ξj 1 ξ1 2 ξ2 ... ... J ξJ Summe: nj n1 n2 ... nJ n fj = nj /n f1 f2 ... fJ 1 69 Beispiel (Verkehrsmittelbenutzung): • Grundgesamtheit bestehe aus 20 Beschäftigten eines Betriebes, d.h. G = {e1, . . . , e20} • Zu untersuchendes Merkmal X: Benutztes Verkehrsmittel zum Arbeitsplatz • Merkmalsausprägungen: ξ1 ξ2 ξ3 ξ4 ξ5 = = = = = Bus PKW Motorrad Fahrrad zu Fuß 70 Erhobene Urliste: 1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4, 1, 1, 2, 2, 1, 2, 1 Häufigkeitstabelle: j 1 2 3 4 5 ξj Bus PKW Motorrad Fahrrad zu Fuß Summe: nj 6 9 1 2 2 20 fj = nj /n 6/20 = 0.30 9/20 = 0.45 1/20 = 0.05 2/20 = 0.10 2/20 = 0.10 1.00 71 Man beachte den folgenden ’Trade-Off’: • Übergang von Urliste zur Häufigkeitstabelle erhöht die Übersichtlichkeit führt zu einem Informationsverlust Grafische Darstellungen von Häufigkeitstabellen durch • Säulendiagramme • Balkendiagramme 72 Balken- oder Stabdiagramm (absolute Häufigkeiten) 10 8 6 4 2 0 Bus PKW Motorrad Fahrrad Kuchen- oder Kreisdiagramm (relative Häufigkeiten) Motorrad 5% PKW 45% Fahrrad 10% zu Fuß 10% Bus 30% zu Fuß Vorsicht bei der Interpretation von Grafiken: • Grafiken können auf viele Weisen manipuliert werden • Manipulation muss nicht immer schlecht sein • Verzerren der Achsen Bestimmte Bereiche werden hervorgehoben Bestimmte Bereiche werden unterdrückt • Skalierungen der Y -Achsen Bestimmte Entwicklungen werden dramatisiert Bestimmte Entwicklungen werden verschwiegen 74 Wichtige Kennzahl einer Datenreihe ist der Modus: Definition 4.2: (Modus) Ein Merkmalswert ξj heißt Modus, wenn seine (absolute oder relative) Häufigkeit mindestens so groß ist wie die aller anderen Merkmalswerte, d.h. wenn nj ≥ nk für alle k ∈ {1, . . . , J} gilt. Offensichtlich: • Eine Datenreihe kann mehrere Modi aufweisen 75 4.2 Mindestens ordinal skalierte Daten Jetzt: • Daten seien mindestens ordinal skaliert, d.h. erhobene Daten können sinnvoll geordnet werden Wichtige Darstellungsform der Daten: • Empirische Verteilungsfunktion 76 Definition 4.3: (Empirische Verteilungsfunktion) Gegeben seien die Daten x1, . . . , xn einer Urliste. Für jede reelle Zahl x ∈ R definiert man die empirische Verteilungsfunktion an der Stelle x (in Zeichen: F (x)) als den Anteil der Daten x1, . . . , xn, die kleiner oder gleich x sind: F (x) = Anzahl aller xi ≤ x . n Bemerkung: • Es gibt alternative Möglichkeiten, die empirische Verteilungsfunktion auszudrücken. Z.B. kann man alle Merkmalsausprägungen ξj (j = 1, . . . , J) betrachten, die kleiner oder gleich x sind und deren relative Häufigkeiten fj = nj /n aufsummieren: F (x) = X fj ξj ≤x 77 Beispiel (Klausurnoten): [I] • 16 Studierende erzielten in einer Klausur die folgenden ganzzahligen Noten: 3, 4, 2, 1, 2, 4, 5, 5, 2, 1, 4, 5, 3, 3, 2, 4 • Zur Berechnung der emp. VF sortieren wir die Urliste von der kleinsten zur größten Beobachtung 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5 78 Beispiel (Klausurnoten): [II] • Die emp. VF ergibt sich wie folgt: F (x) = 0 = 0.0000 16 für x < 1 2 = 0.1250 16 für 1 ≤ x < 2 6 = 0.3750 16 für 2 ≤ x < 3 9 = 0.5625 16 für 3 ≤ x < 4 13 = 0.8125 16 für 4 ≤ x < 5 16 = 1.0000 16 für x ≥ 5 79 1 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 6 Bemerkung: • Wir notieren die vom kleinsten Datenwert (Minimum) zum größten Datenwert (Maximum) geordnete Urliste als x(1) ≤ x(2) ≤ . . . ≤ x(n). (x(1) = Minimum der Urliste, x(n) = Maximum) 80 Eigenschaften der empirischen Verteilungsfunktion: [I] • F (x) = 0 für alle x < x(1) • F (x) = 1 für alle x ≥ x(n) • F (x) ist eine Treppenfunktion. Sprünge erfolgen an den Stellen, die als Daten in der Urliste vorkommen. Die Sprunghöhe an der Stelle x = ξj beträgt fj = nj /n. • F (x) ist rechtsseitig stetig • Ist die Urliste sehr lang (d.h. n sehr groß), so wird F (x) immer ’glatter’ 81 Eigenschaften der empirischen Verteilungsfunktion: [II] • Aus F (x) lassen sich die beobachteten Merkmalswerte und deren relativen Häufigkeiten rekonstruieren. Kennt man zusätzlich noch n, so folgen aus F (x) auch die absoluten Häufigkeiten Wichtige Kennzahlen einer Datenreihe: • Quantile • Definition der Quantile über emp. Verteilungsfkt. F (x) 82 Definition 4.4: (p-Quantil) Gegeben seien die Daten x1, . . . , xn einer Urliste. Man betrachte eine beliebige reelle Zahl p mit 0 < p < 1. Das p-Quantil (oder der p · 100%-Punkt) der Daten (in Zeichen: x̃p) ist definiert als x̃p = min {x ∈ R | F (x) ≥ p} = kleinstes x ∈ R für das gilt F (x) ≥ p. Bemerkung: • Das p-Quantil x̃p ist also der kleinste Wert x ∈ R mit der Eigenschaft, dass mindestens p · 100% der Daten kleiner oder gleich x̃p sind 83 Bisher: • Bestimmung von Quantilen über emp. Verteilungsfunktion F (x) Jetzt: • Technische Vorschrift (Algorithmus) zur Bestimmung von Quantilen aus der Urliste x1, . . . xn (ohne Berechnung der emp. VF F (x)) Betrachte dazu: • Geordnete Urliste der Daten x(1) ≤ x(2) ≤ . . . x(n) 84 Das p-Quantil ist dann gegeben durch: x̃p = ( x(n·p), x(bn·pc+1) falls n · p ganzzahlig ist sonst (bn · pc bezeichnet den ganzzahligen Anteil von n · p) Definition 4.5: (Spezielle Quantile) Einige p-Quantile haben besondere Namen: • Median (p = 0.5): x̃0.5 • Quartile (p = 0.25, 0.5, 0.75): x̃0.25, x̃0.5, x̃0.75 • Quintile (p = 0.2, 0.4, 0.6, 0.8): x̃0.2, x̃0.4, x̃0.6, x̃0.8 85 Beispiel (Klausurnoten): [I] • Urliste (ungeordnet) x1 x2 x3 x4 x5 x6 x7 x8 3 4 2 1 2 4 5 5 x9 x10 x11 x12 x13 x14 x15 x16 2 1 4 5 3 3 2 4 • Geordnete Urliste x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) 1 1 2 2 2 2 3 3 x(9) x(10) x(11) x(12) x(13) x(14) x(15) x(16) 3 4 4 4 4 5 5 5 86 Beispiel (Klausurnoten): [II] • Berechnung des 0.25-Quantils: n = 16, p = 0.25 ⇒ n · p = 16 · 0.25 = 4 (ganzzahlig) x̃0.25 = x(n·p) = x(4) = 2 ⇒ • Berechnung des Medians: n = 16, p = 0.5 ⇒ n · p = 16 · 0.5 = 8 (ganzzahlig) x̃0.5 = x(n·p) = x(8) = 3 ⇒ • Berechnung des 0.8-Quantils: n = 16, p = 0.8 ⇒ ⇒ n·p = 16·0.8 = 12.8 (nicht ganzzahlig) x̃0.8 = x(bn·pc+1) = x(b12.8c+1) = x(12+1) = x(13) = 4 87 4.3 Metrisch skalierte Daten Jetzt: • Metrisch skaliertes Merkmal X (vgl. Folie 29) • Rechenoperationen mit Daten x1, . . . , xn sinnvoll Unter dieser Voraussetzung: • Einführung von Kennzahlen zur Beschreibung der Lage (Abschnitte 4.3.1, 4.3.2) der Streuung (Abschnitt 4.3.3) der Symmetrie (Abschnitt 4.3.6) der metrisch skalierten Daten x1, . . . , xn 88 4.3.1 Lagemessung Wichtige Frage der deskriptiven Statistik: • Beschreibung des ’Lagezentrums’ der erhobenen Daten x1, . . . , xn durch geeignete Kennzahlen (Lagekennziffern, Lagemaße) Man beachte: • Je nach Skalenniveau der Daten kommen unterschiedliche Lagemaße in Betracht 89 Beispiele: • Für ordinal skalierte Daten kennen wir bereits den Modus (häufigster Wert einer Datenreihe) den Median (0.5-Quantil, 50%-Wert) Wichtigstes Lagemaß für metrisch skalierte Daten: Definition 4.6: (Arithmetisches Mittel) Für die metrisch skalierten Daten x1, . . . , xn ist das arithmetische Mittel (auch: Mittelwert oder Durchschnitt) definiert durch n 1 1 X xi . x = · (x1 + x2 + . . . + xn) = n n i=1 90 Eigenschaften des arithmetischen Mittels: [I] • Arithm. Mittel und Merkmalssumme n X xi = n · x = x | +x+ {z. . . + x} i=1 n mal • x liegt zwischen Minimum und Maximum: x(1) = min{x1, . . . , xn} ≤ x ≤ max{x1, . . . , xn} = x(n) • Schwerpunkteigenschaft: n X i=1 (xi − x) = n X i=1 xi − n · x = n · x − n · x = 0 91 Eigenschaften des arithmetischen Mittels: [II] • Minimumeigenschaft: Für x gilt: n X i=1 (xi − x)2 = min n X c∈R i=1 (x i − c )2 Weitere Berechnungsmöglichkeiten für x: • Anhand von relativen bzw. absoluten Häufigkeiten (vgl. Folie 67) J n J X 1 X 1 X ξj · fj x= xi = ξj · nj = n i=1 n j=1 j=1 92 Beispiel: • Grundgesamtheit: n = 520 Haushalte eines Vorortes • Merkmal: Anzahl der Haushaltsmitglieder ξj 1 2 3 4 5 6 Summe: nj 188 173 79 56 20 4 520 • Durchschnittliche Haushaltsgröße: x= 1 · (1 · 188 + 2 · 173 + . . . + 6 · 4) = 2.1519 520 93 Verallgemeinerung des arithmetischen Mittels: • Das gewogene arithmetische Mittel: xw = n X i=1 wi · xi mit den Gewichten w1, . . . , wn, wobei 0 ≤ wi ≤ 1 n X wi = 1 i=1 94 Bemerkungen: • Mit w1 = w2 = . . . = wn = 1/n ergibt sich das arithmetische Mittel als Spezialfall • Das gewogene Mittel ist zu verwenden, falls das relative Gewicht einzelner Untersuchungseinheiten an der Grundgesamtheit von Bedeutung ist. Soll z.B. der durchschnittliche Strukturwandel in der BRD statistisch erfasst werden, so sind bei der Durchschnittsbildung über die einzelnen Bundesländer deren wirtschaftliche Kapazitäten zu berücksichtigen. Z.B. erhält in der Strukturberichterstattung der gemessene Strukturwandel in NRW ein höheres Gewicht als der des Saarlandes. 95 Arithmetisches Mittel vs. Median Wiederholung (vgl. Folie 85): • Median ist 0.5-Quantil x̃0.5 = ( x(n/2), x(bn/2c+1), falls n gerade falls n ungerade Man beachte: • Sowohl das arithmetische Mittel x als auch der Median x̃0.5 sind populäre Lagemaße 96 Vergleich Mittelwert / Median: • In die Berechnung von x fließen alle Beobacht. ein Vorteil: Es wird keinerlei Information verschenkt Nachteil: x reagiert empfindlich auf extreme Ausreißer in den Daten • x̃0.5 wird durch Ermittlung der mittleren Position der geordneten Urliste bestimmt Vorteil: x̃0.5 ist robust gegenüber extremen Datenausreißern Nachteil: Es wird Information verschenkt, da nur die Position der Beobachtungen eine Rolle spielt 97 4.3.2 Weitere Mittelwerte Neben dem (gewogenen) arithmetischen Mittel gibt es eine Reihe weiterer Mittelwerte: Definition 4.7: (Harmonisches, geometrisches Mittel) Es seien x1, . . . , xn metrisch skalierte Daten mit xi > 0 für i = 1, . . . , n. Das harmonische Mittel xH sowie das geometrische Mittel xG sind definiert als xH = 1 n 1 X = n 1 X 1 n i=1 n i=1 xi −1 x−1 i 98 bzw. xG = √ n x1 · x2 · . . . · xn = n Y i=1 1 n xi . Spezielle Anwendungsgebiete: • Harmonisches Mittel: Indizes vom Typ Paasche (Kapitel 5) • Geometrisches Mittel: Wachstumsfaktoren und Wachstumsraten (Kapitel 5) 99 4.3.3 Streuungsmaße Weitere Frage der dekriptiven Statistik: • Wie stark streuen die Daten x1, . . . , xn um ein geeignet definiertes Zentrum? (Kennzahlen: Streuungs- oder Dispersionsmaße) Man beachte: • Mit alternativen Lagemaßen für das Zentrum ergeben sich unterschiedliche Streuungsmaße Wichtigste Streuungsmaße für metrische Daten: • Varianz und Standardabweichung 100 Definition 4.8: (Varianz, Standardabweichung) Für die metrisch skalierten Daten x1, . . . , xn ist die Varianz (in Zeichen: s2) definiert durch n X 1 s2 = · (x i − x ) 2 . n i=1 Die Standardabweichung (in Zeichen: Wurzel aus der Varianz, d.h. s= s) ist definiert als die v u n u1 X 2 s =t · (xi − x)2. n i=1 q Bemerkung: • Meist wird bei der Berechnung von s2 bzw. s nicht durch n, sondern durch n − 1 dividiert (Begründung: in Statistik II) 101 Eigenschaften von s2 und s: [I] • s2 hat quadratische Dimension, s hat gleiche Dimension wie die Daten x1, . . . , xn • Es gilt stets: s2 ≥ 0 und s ≥ 0 • Ferner: s = 0 ⇐⇒ s2 = 0 ⇐⇒ x1 = x2 = . . . = xn, d.h. Varianz und Std.Abwch. sind genau dann gleich 0, wenn alle Daten gleich sind (keine Streuung) 102 Eigenschaften von s2 und s: [II] • Alternative Darstellungen: n X 1 xi2 − x2 s2 = n i=1 s2 = (Proseminar) n n X 2 1 X xi − xj 2n2 i=1 j=1 103 Zwei weitere zentrale Eigenschaften: [I] • Es seien a, b ∈ R und x1, . . . , xn erhobene Daten eines Merkmals X. Das Merkmal Y sei eine lineare Transformation von X, d.h. Y = a · X + b, so dass für die Daten des Merkmals Y gilt yi = a · xi + b für alle i = 1, . . . , n. Dann folgt für die Varianz s2 Y bzw. die Standardabweichung sY des Merkmals Y : 2 2 s2 Y = a · sX bzw. sY = |a| · sX 104 Zwei weitere zentrale Eigenschaften: [II] • Für jede reelle Zahl c ∈ R gilt der Verschiebungssatz: n 1 X (xi − c)2 = s2 + (x − c)2 n i=1 Hieraus folgt die Minimumeigenschaft des arithmetischen Mittels (vgl. Folie 92): ”Die durchschnittliche quadratische Abweichung der Daten von einem Bezugspunkt c wird minimal, wenn man c = x wählt” 105 Alternative Streuungsmaße: [I] • Mittlere absolute Abweichung vom Median: n 1 X d= |xi − x̃0.5| n i=1 Es gilt die Minimierungseigenschaft: d = min n 1 X c∈R n i=1 |xi − c| • Quartilsabstand Q Q = x̃0.75 − x̃0.25 (Länge des Bereichs mit mittleren 50% der Daten) 106 Alternative Streuungsmaße: [II] • Spannweite R R = max {xi} − min {xi} = x(n) − x(1) i=1,...,n i=1,...,n (Länge des gesamten Datenbereichs) Jetzt: • Berechnung von Streuungsmaßen anhand von Häufigkeiten Zur Erinnerung (vgl. Folie 67): • Merkmal X hat die J Ausprägungen ξ1, . . . , ξJ mit den jeweiligen absoluten Häufigkeiten n1, . . . , nJ 107 Damit folgende Formeln für die Streuungsmaße: J 2 X 1 2 ξj − x · nj s = n j=1 v u J u 2 u1 X s = t ξj − x · nj n j=1 J 1 X d = ξj − x̃0.5 · nj n j=1 R = max {ξj |nj > 0} − j=1,...,J min {ξj |nj > 0} j=1,...,J 108 4.3.4 Additionssätze für arithmetische Mittel und Varianzen Ausgangssituation: • Grundgesamtheit G gliedert sich in K Teilgesamtheiten G1 , . . . , GK • Mittelwerte bzw. Varianzen in den K Teilgesamtheiten sind 2 , . . . , s2 x1, . . . , xK bzw. s1 K • Umfänge der Teilgesamtheiten seien n1, . . . , nK Damit ist der Umfang der Grundgesamtheit n= K X nk k=1 109 Frage: • Zusammenhänge zwischen dem Mittelwert x bzw. der Varianz s2 der Grundgesamtheit und den Mittelwerten bzw. Varianzen der Teilgesamtheiten? Additionssatz für Mittelwerte: K X nk x= xk · n k=1 (Mittelwert der Grundgesamtheit ist gewichtetes Mittel der Mittelwerte der Teilgesamtheiten) 110 Additionssatz für Varianzen: s2 = K X K X nk n 2 sk · + (xk − x)2 · k n n k=1 k=1 {z } {z } | | 2 2 =sint =sext 2 Bedeutung der internen bzw. externen Varianzen s2 int, sext: • Interne Varianz ist gewichtetes Mittel aus den Varianzen der Teilgesamtheiten • Externe Varianz ist gewichtete quadratische Abweichung der Mittelwerte xk der K Teilgesamtheiten vom Mittelwert x der Grundgesamtheit 111 Offensichtlich: • Gesamtvarianz lässt sich exakt in Summe aus interner und externer Varianz zerlegen: 2 s2 = s2 int + sext Beispiel: • 100 (Wieder-)Erwerbstätige wurden nach der Dauer X der früheren Arbeitslosigkeit befragt (in Monaten) Anzahl Mittlere Arbeitslosigkeitsdauer Std.-Abwchg. der Arbeitslosigkeitsdauer Frauen 60 9.2 4.1 Männer 40 7.4 3.2 112 Berechnungen: x = 9.2 · 40 60 + 7.4 · = 8.48 100 100 60 40 2 2 2 sint = 4.1 · + 3.2 · = 14.182 100 2 s2 ext = (9.2 − 8.48) · 100 60 40 + (7.4 − 8.48)2 · = 0.7776 100 100 2 + s2 = 14.182 + 0.7776 = 14.9596 s2 = sint ext s = √ 14.9596 ≈ 3.9 113 4.3.5 Stetig klassierte Daten Häufiges praktisches Problem: • Daten liegen nicht als Urliste x1, . . . , xn vor (Einzeldaten), sondern zusammengefasst nach Klassen (stetig klassierte oder Gruppendaten) Beispiel: • Verfügbares Monatseinkommen (in Euro) von 5000 Studierenden 114 j EK-Klasse Kj 1 2 3 4 5 0 bis 250 mehr als 250 bis 500 mehr als 500 bis 750 mehr als 750 bis 1000 mehr als 1000 Summe: Studierende nj fj 300 1000 2000 1000 700 5000 0.06 0.20 0.40 0.20 0.14 1.00 fj xoj −xu j 0.00024 0.00080 0.00160 0.00080 Grund für stetige Klassierung: • Bei sehr langen Datenreihen ist die Angabe von Häufigkeiten jedes einzelnen Datenpunktes oft sinnlos 115 Notationen zur Auswertung stetig klassierter Daten: • Betrachte die J Klassen (Intervalle) o ], K = (xu, xo], , x K1 = [xu j 1 1 j j j = 2, . . . , J, wobei für die Intervallgrenzen gelten soll u o o u o o u o xu 1 < x1 = x2 < x2 = x3 < x3 < . . . < xJ−1 = xJ < xJ Bemerkungen: u der 1. Klasse kann −∞ sein Die untere Grenze x1 Die obere Grenze xoJ der J. Klasse kann ∞ sein • nj ist die Anzahl der Daten in Klasse Kj n • fj = nj ist der Anteil der Daten in Klasse Kj 116 Damit: • Die Häufigkeitsverteilung der stetig klassierten Daten ist gegeben durch (K1, n1), (K2, n2), . . . , (KJ , nJ ) bzw. durch (K1, f1), (K2, f2), . . . , (KJ , fJ ) Bemerkung: • Es wird nichts über die Datenverteilung innerhalb der Klassen ausgesagt −→ Informationsverlust 117 Probleme bei der stetigen Klassierung: • Wieviele Klassen J soll man wählen? Faustregel: Wähle bei n Daten J ≈ 10 · log10 n • Soll man die J Klassen alle gleich breit wählen? • Ist es möglich, die oberste Klasse durch eine endliche Obergrenze sinnvoll abzuschließen? 118 Definition 4.9: (Empirische Dichte, Histogramm) Den Quotienten nj fj = o n · (xoj − xu ) xj − xu j j bezeichnet man als empirische Dichte der Daten in der Klasse Kj , j = 1, 2, . . . , J. Trägt man die empirischen Dichten als waagerechte Linien über den Klassen ab und zeichnet an den Klassengrenzen senkrechte Linien in Höhe der jeweiligen emprischen Dichten ein, so entsteht ein Histogramm der Daten. 119 Empirische Dichten und Histogramm zum Beispiel ’Studierende’ 0,002 0,0016 0,0012 0,0008 0,0004 0 0 250 500 750 1000 1250 1500 120 Bemerkungen zum Histogramm: • Das Rechteck über der Klasse j hat die Fläche (xoj − xu j) · fj = fj xjo − xu j • Die Gesamtfläche unter dem Histogramm beträgt 1, denn Gesamtfläche = Summe der Rechteckflächen J X = fj (xjo − xju) · o u − x x j j j=1 = J X fj = 1 j=1 121 Jetzt: • Berechnung statistischer Kenngrößen bei stetig klassierten Daten Zunächst: • Empirische Verteilungsfunktion und Quantile Erinnerung: (vgl. Folie 77, Definition 4.3) • Der Wert der emp. Verteilungsfunktion F (x) ist definiert als Anteil der Daten, die kleiner oder gleich x sind 122 Problem bei stetiger Klassierung: • Verteilung der Daten in Klasse Kj ist unbekannt −→ Für ein x ∈ Kj (x nicht auf der Ober- oder Untergrenze) ist der Anteil nicht bestimmbar Vorgehensweise: • Betrachte zunächst die x ∈ R, für die die emp. Verteilungsfunktion F (x) exakt berechenbar ist 123 Zunächst gilt: F (x) = 0 1 für x < xu 1 für x ≥ xoJ Weiterhin gilt an den Obergrenzen aller Klassen: F (xoj) = j X fr für alle j = 1, 2, . . . , J r=1 Übrig bleibt: • Berechnung von F (x) für x ∈ (xju, xoj] 124 Vorgehensweise: o • Lineare Interpolation von F (x) für x ∈ (xu j , xj ]: fj u) (x − F (x) ≈ F (xu ) + x j j xoj − xu j fj u) = F (xoj−1) + o (x − x j xj − xu j j−1 X fj u) = fr + o (x − x j xj − xu j r=1 125 Beispiel: (vgl. Folien 114, 115) [I] • Monatseinkommen von 5000 Studierenden • Obergrenze der letzten Klasse wurde willkürlich auf 1500 Euro gesetzt j 1 2 3 4 5 EK-Klasse Kj 0 bis 250 mehr als 250 bis 500 mehr als 500 bis 750 mehr als 750 bis 1000 mehr als 1000 bis 1500 fj 0.06 0.20 0.40 0.20 0.14 F (xoj) 0.06 0.26 0.66 0.86 1.00 126 Beispiel: [I] • Zwischen Klassengrenzen wird linear interpoliert, z.B. f3 u) F (650) ≈ f1 + f2 + o − (x x 3 x3 − xu 3 = 0.26 + 0.4 (650 − 500) = 0.5 750 − 500 Empirische Verteilungsfunktion zum Beispiel ’Studierende’ 1 1 0,86 F(x) 0,8 0,66 0,6 0,4 0,26 0,2 0,06 0 0 500 1000 x 1500 127 Jetzt: • Berechnung von Quantilen bei stetiger Klassierung über empirische Verteilungsfunktion F (x) (vgl. Folie 83, Definition 4.4) Zusatzannahme: • Keine der Klassen Kj besitzt die Häufigkeit 0 =⇒ Emp. VF F (x) ist streng monoton wachsend =⇒ Für jedes p ∈ (0, 1) hat die Gleichung F (x) = p eine eindeutige Lösung, nämlich das p-Quantil x̃p 128 Explizite Berechnung von x̃p: [I] 1. Bestimme die Klasse Kj in der x̃p liegt, o) d.h. bestimme das j für das gilt F (xu ≤ (x ) < p F j j 2. Löse die Gleichung p = F (xu j) + fj u) (x − x j xoj − xu j nach x auf. Die Lösung approximiert das Quantil x̃p. 129 Explizite Berechnung von x̃p: [II] p = F (xju) + ⇐⇒ x − xu j = fj u) − (x x j xoj − xu j p − F (xu j) fj ⇐⇒ x = xu j + (xoj − xu j) p − F (xu j) fj (xoj − xu j) p − F (xju) o − xu ) ⇐⇒ x = xu + (x j j F (xo) − F (xu) j | j {z ≈ x̃p j } 130 Beispiel: (vgl. Folie 126, ’Einkommen Studierende’) • Gesucht: unteres Quartil x̃0.25 Berechnung von x̃0.25: u ) < 0.25 ≤ 0.26 = F (xo ), 1. 0.06 = F (x2 2 d.h. x̃0.25 ∈ K2 = (250, 500] 2. Damit folgt: x̃0.25 ≈ 250 + 0.25 − 0.06 (500 − 250) = 487.5 0.26 − 0.06 131 Es verbleibt: • Berechnung weiterer statistischer Kennzahlen, z.B. Arithmetisches Mittel Varianz bzw. Standardabweichung (Nicht in der VL) 132 4.3.6 Schiefemessung Situation: • Betrachte Urliste x1, . . . , xn (keine stetige Klassierung) Wichtige praktische Feststellung: • In der empirischen Wirtschaftsforschung werden Kennzahlen wie arithmetisches Mittel, Varianz, Standardabweichung etc. in der Praxis nicht per Hand ausgerechnet, sondern mit spezieller Auswertungssoftware (z.B. EViews) 133 Beispiel: (vgl. Folie 12) • Tägliche Wechselkursveränderungsraten der griechischen Drachme zum Euro Stabdiagramm und statistische Kennzahlen für GRD-Veränderungsraten 500 Series: GRD_RET Sample 16/12/1998 1/01/2001 Observations 748 400 300 200 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 0.005082 0.000000 0.817738 -1.295992 0.114130 -1.693633 38.21140 Jarque-Bera Probability 38999.36 0.000000 100 0 -1.0 -0.5 0.0 0.5 134 Symmetris c he Verteilung 600 Series: SYMMETRIE Sample 1 5000 Obs erv ations 5000 500 400 Mean Median Max imum Minimum Std. Dev . Skewnes s Kurtosis 300 200 100 -0.007964 0.004551 3.433310 -3.982642 0.994190 -0.019422 2.939408 J arque-Bera 1.079224 Probability 0.582974 0 -4 -3 -2 -1 0 1 2 3 Rec hts sc hiefe Verteilung 600 Series: RECHTS Sample 1 5000 Obs erv ations 5000 500 400 Mean Median Max imum Minimum Std. Dev . Skewnes s Kurtosis 300 200 100 0.168041 0.150735 0.661654 0.002084 0.102757 0.865684 3.650617 J arque-Bera 712.6960 Probability 0.000000 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Link s sc hiefe Verteilung 600 Series: LINKS Sample 1 5000 Obs erv ations 5000 500 400 Mean Median Max imum Minimum Std. Dev . Skewnes s Kurtosis 300 200 100 0.830835 0.851905 0.996949 0.280793 0.104683 -0.896282 3.619218 J arque-Bera 749.3160 Probability 0.000000 0 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Fazit: • Datenreihen zeigen unterschiedliches Symmetrieverhalten Jetzt: • Kennzahl für Symmetrieverhalten 136 Definition 4.10: (Schiefe) Die Schiefe einer Urliste x1, . . . , xn ist definiert durch n 1 X xi − x 3 g= , n i=1 s wobei wie üblich n 1 X x= xi n i=1 und v u n u1 X s=t (xi − x)2 n i=1 das arithmetische Mittel sowie die Standardabweichung der Daten bezeichnen. 137 Bemerkungen: Pn • Der zentrale Term in Definition 4.10 ist i=1(xi − x)3 • Liegen ’viele’ Daten xi rechts von x, so ist g tendenziell positiv • Liegen ’viele’ Daten xi links von x, so ist g tendenziell negativ • Insgesamt gelten die folgenden Relationen: g<0 g≈0 g>0 =⇒ Verteilung ist linksschief =⇒ Verteilung ist symmetrisch =⇒ Verteilung ist rechtsschief 138 5. Verhältniszahlen, Messzahlen und Indexzahlen Ziel dieses Kapitels: • Grundlegende Maßzahlen der praktischen Wirtschaftsstatistik 5.1 Verhältniszahlen Definition 5.1: (Verhältniszahl) Eine Verhältniszahl ist allgemein der Quotient zweier statistischer Größen. Die den beiden Größen zugrunde liegenden Grundgesamtheiten können identisch oder verschieden sein. Als spezielle Verhältniszahlen unterscheidet man Gliederungszahlen, Beziehungszahlen und Messzahlen. 139 Gliederungszahl: • Aussage über die Struktur der Grundgesamtheit G eines (metrisch skalierten) Merkmals U • Annahme: G zerfällt in J Teilgesamtheiten, d.h. G = G 1 ∪ G2 ∪ . . . ∪ GJ • Es bezeichne uj die Merkmalssumme von U in der Teilgesamtheit Gj (j = 1, . . . , J), so dass gilt u= J X ur = Merkmalssumme von U auf ganz G r=1 • Definiere nun für j = 1, . . . , J die Gliederungszahlen uj gj = u 140 Bemerkungen: • Die Gliederungszahlen gj sind Anteile, d.h. es gilt gj ≥ 0 PJ r=1 gr = 1 Beispiele: • Anteile der Studierenden der unterschiedlichen Disziplinen am Fachbereich WiWi der WWU (Betriebs-, Volkswirte, Wirtschaftsinformatiker) • Anteile von Bund, Ländern und Kommunen an der Gesamtverschuldung der BRD 141 Beziehungszahl: [I] • Aussage über die Struktur der Grundgesamtheit G in Bezug auf 2 (metrisch skalierte) Merkmale U und V • Annahme: G zerfällt in J Teilgesamtheiten, d.h. G = G1 ∪ G2 ∪ . . . ∪ GJ • Es bezeichnen uj und vj die Merkmalssummen von U und V in der Teilgesamtheit Gj (j = 1, . . . , J), so dass gilt u = J X ur = Merkmalssumme von U auf ganz G J X vr = Merkmalssumme von V auf ganz G r=1 v = r=1 142 Beziehungszahl: [II] • Definiere nun die Beziehungszahlen u b= v bzw. für j = 1, . . . , J uj bj = vj Beispiel: (Bundesländerstatistik) • Amtliche Statistik der BRD 143 Bundesland Baden-Württemberg Bayern Berlin Brandenburg Bremen Hamburg Hessen Meck.-Vorpommern Niedersachsen NRW Rheinland-Pfalz Saarland Sachsen Sachsen-Anhalt Schleswig-Holstein Thringen Summe Einw. in 1000 10397 12066 3426 2573 674 1705 6032 1808 7845 17975 4018 1081 4522 2702 2757 2478 82059 BIP (Mrd. DM) 520.36 614.97 154.81 75.72 40.34 141.25 340.91 47.91 315.75 799.51 156.04 43.92 124.08 69.71 113.79 64.93 3624.00 144 Gliederungszahlen: (vgl. Folie 146) • Bevölkerungsanteil • Anteil am BIP Beziehungszahlen: (vgl. Folie 147) • BIP pro Kopf 145 Bundesland Baden-Württemberg Bayern Berlin Brandenburg Bremen Hamburg Hessen Meck.-Vorpommern Niedersachsen NRW Rheinland-Pfalz Saarland Sachsen Sachsen-Anhalt Schleswig-Holstein Thringen Summe Bev.-Anteil 0.1267 0.1470 0.0418 0.0314 0.0082 0.0208 0.0735 0.0220 0.0956 0.2190 0.0490 0.0132 0.0551 0.0329 0.0336 0.0302 1 Anteil am BIP 0.1436 0.1697 0.0427 0.0209 0.0111 0.0390 0.0941 0.0132 0.0871 0.2206 0.0431 0.0121 0.0342 0.0192 0.0314 0.0179 1 146 Bundesland Baden-Württemberg Bayern Berlin Brandenburg Bremen Hamburg Hessen Meck.-Vorpommern Niedersachsen NRW Rheinland-Pfalz Saarland Sachsen Sachsen-Anhalt Schleswig-Holstein Thringen Deutschland insgesamt BIP pro Kopf in DM 50049.05 50967.18 45186.81 29428.68 59851.63 82844.57 56516.91 26498.89 40248.57 44479.00 38835.24 40629.05 27439.19 25799.41 41273.12 26202.58 44163.35 147 Einige Zusammenhänge: [I] • Es gilt: J u J X 1 X u j uj = b = = v v j=1 j=1 v J v X j uj = · v vj j=1 = J X j=1 hj · uj vj −→ Beziehungszahl b = uv ist gewogenes arithmetisches Mittel v u der Beziehungszahlen v j mit den Gewichten hj = vj j 148 Einige Zusammenhänge: [II] • Ferner gilt: b = −1 v = u = J X j=1 gj P −1 J vj j=1 u = J u X j −1 vj · j=1 u uj !−1−1 uj 1 = PJ 1 vj · g j j=1 bj u −→ b = uv ist gewogenes harmonisches Mittel der bj = v j mit den j uj Gewichten gj = u 149 Messzahl: • Quotient zweier sachlich aufeinander bezogener Maßzahlen für zwei statistische Massen Beispiele: [I] • Geschlechterverhältnis Männer in der BRD am 1.1.2013 Frauen in der BRD am 1.1.2013 (Messzahl des sachlichen Vergleichs) Geschl.-Verhältn. = 150 Beispiele: [II] • Einwohnerrelation zwischen 2 Ländern Einwohner der BRD am 1.1.2013 Einwohnerel. = Einwohner Frankreichs am 1.1.2013 (Messzahl des räumlichen Vergleichs) • Einwohnerrelation eines Landes an 2 Zeitpunkten Einwohner der BRD am 1.1.2013 Einwohner der BRD am 1.1.2008 (Messzahl des zeitlichen Vergleichs) Einwohnerel. = 151 5.2 Messzahlen des zeitlichen Vergleichs Ausgangssituation und Begriffe: [I] • Betrachte eine zeitlich geordnete Folge von Zeitpunkten t0 ≤ t1 ≤ . . . ≤ tT sowie die Ausprägungen eines (metrischen) Merkmals X zu diesen Zeitpunkten: xt0 , xt1 , . . . , xtT (alternative Schreibweise: xt, t = t0, . . . , tT ) • Der Index t steht für die Zeit (time). Deshalb nennt man die obige Urliste xt0 , . . . , xtT eine Zeitreihe 152 Ausgangssituation und Begriffe: [II] • Sind die Abstände zwischen den Zeitpunkten t0, t1, . . . , tT immer gleich, d.h. t1 − t0 = t2 − t1 = . . . = tT − tT −1, so spricht man von äquidistanten Zeitpunkten. In diesem Fall benennt man die Zeitpunkte t0, t1, . . . , tT der Einfachheit halber um in 0, 1, . . . , T und notiert die obige Zeitreihe als x0, x1, . . . , xT Beispiele für Zeitreihen: • Monatliche Arbeitslosenquoten • Tägliche Wechselkurse zwischen Euro und US-$ 153 Häufiges Vorgehen in der Empirischen Wirtschaftsforschung: • Wähle aus der Menge aller möglichen Zeitpunkte einen Basiszeitpunkt s ∈ {t0, . . . , tT } und setze die gesamte Zeitreihe xt, t = t0, . . . , tT , ins Verhältnis zur Beobachtung xs des Basiszeitpunktes. Für einen beliebigen Berichtszeitpunkt t betrachtet man also den Quotienten xt für t = t0, . . . , tT ms,t = xs • Begründung: Man interessiert sich für die Entwicklung der Zeitreihe relativ zur Ausprägung des Basiszeitpunktes s (in praxi wird oft s = t0 gewählt) 154 Definition 5.2: (Messzahl mit fester Basiszeit) Für einen konkreten Basiszeitpunkt s ∈ {t0, . . . , tT } nennt man den Quotienten xt ms,t = xs die Messzahl für die Berichtszeit t. Man beachte: • Aus Definition 5.2 folgt unmittelbar: mt,t = 1 1 xt 1 ms,t = = = xs xs/xt mt,s 155 Beispiel: • Wechselkurszeitreihe ’Griechische Drachme zum Euro’ (Tagesdaten) Offensichtlich: • Qualitativer Verlauf gleich • Untere Grafik betont Kursverlauf relativ zum Startwert 156 Originale Zeitreihe 345 340 335 330 325 320 15/12/98 3/07/99 19/01/00 6/08/00 Zeitreihe zum Basiszeitpunkt s=0 (Basiswert: 328.388) 1.04 1.02 1.00 0.98 0.96 15/12/98 3/07/99 19/01/00 6/08/00 5.2.1 Umbasierung und Verkettung von Messzahlen Definition 5.3: (Umbasierung) Unter der Umbasierung einer Messzahl zum Basiszeitpunkt s versteht man den Übergang zu einer Messzahl mit anderer Basiszeit r ∈ {t0, . . . , tT }. Rechenregel für Umbasierung: [I] • Offensichtlich gilt für jedes t ∈ {t0, . . . , tT } ms,t xt/xs xt mr,t = = = xr xr /xs ms,r 158 Rechenregel für Umbasierung: [II] −→ Zirkularität von Messzahlen: ms,t = ms,r · mr,t Verkettung von Messzahlen: • Betrachtete äquidistante Zeitreihe x0, x1, . . . , xT und Folgen von Messzahlen zu den Basiszeiten 0 bzw. s m0,t für t = 0, 1, . . . , s ms,t für t = s, s + 1, . . . , T • Gesucht: durchgehende (vollständige) Folgen von Messzahlen zu den Basiszeiten 0 bzw. s 159 Lösung: • Messzahlenfolge für die Basiszeit 0: m0,t = ( m0,t m0,s · ms,t für t = 0, 1, . . . , s für t = s + 1, s + 2, . . . , T • Messzahlenfolge für die Basiszeit s: m0,t für t = 0, 1, . . . , s − 1 m 0,s ms,t = m für t = s, s + 1, . . . , T s,t Zahlenbeispiel: • In den Tutorien 160 5.2.2 Zuwachsraten und Zuwachsfaktoren Betrachte: • Äquidistante Zeitreihe xt, t = 0, 1, . . . , T • Messzahl mit fester Basiszeit ms,t = xt xs (vgl. Definition 5.2, Folie 155) 161 Definition 5.4: (Zuwachsfaktor, Zuwachsrate) Die Messzahl ms,t bzeichnet man auch als Zuwachsfaktor bzw. als Wachstumsfaktor. Die absolute Änderung xt − xs bezogen auf den Wert zur Zeit s xt − xs ws,t = = ms,t − 1 xs bezeichnet man als Zuwachsrate bzw. Wachstumsrate. Bemerkungen: • Zuwachsfaktoren und -raten werden oft in Prozent angegeben • Es gilt xt = ms,t · xs bzw. xt − xs = ws,t · xs 162 Beispiel: • Bargeldumlauf in der BRD Jahr 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Umlauf (in Mio. DM) 227285 238641 250907 263510 275744 276242 270981 289972 278143 162205 Zuwachsfaktor Zuwachsrate (in Prozent) 1.04996 1.05140 1.05023 1.04643 1.00181 0.98096 1.07008 0.95921 0.58317 4.996 5.140 5.023 4.643 0.181 −1.904 7.008 −4.079 −41.683 163 Definition 5.5: (Durchschnittlicher Zuwachsfaktor) Als durchschnittlichen Zuwachsfaktor zwischen Anfangs- und Endzeitpunkt bezeichnet man das geometrische Mittel (vgl. Definition 4.7, Folie 98) der 1-periodigen Zuwachsfaktoren: p mG = T m0,1 · m1,2 · . . . · mT −1,T . Bemerkungen: [I] • Es gilt: mG = = p T s T m0,1 · m1,2 · . . . · mT −1,T xT −1 x1 x2 x3 xT · · · ... · · = x0 x1 x2 xT −2 xT −1 s T xT x0 (Durchschnittl. Zuwachsfaktor hängt nur von x0 und xT ab) 164 Bemerkungen: [II] • Wenn x0 jede Periode um den durchschnittlichen Zuwachsfaktor steigt, ergibt sich nach T Perioden xT : t=0: x0 t=1: x0 · mG t=2: ... x0 · mG · mG = x0 · m2 G ... t=T : x0 · mT G = x0 · s T xT x0 !T = xT 165 Definition 5.6: (Durchschnittliche Zuwachsrate) Als durchschnittliche Zuwachsrate bezeichnet man den um 1 verminderten durchschnittlichen Zuwachsfaktor: w = mG − 1 = s T xT − 1. x0 166 5.2.3 Logarithmische Zuwachsraten Definition 5.7: (Logarithmische Zuwachsrate) Unter der logarithmischen Zuwachsrate (auch stetige Zuwachsrate) zwischen den Zeitpunkten s, t versteht man die Größe xt rs,t = ln xs = ln(xt) − ln(xs). Bemerkungen: [I] • Es gilt: xt = xs · ers,t 167 Bemerkungen: [II] • Zwischen der log. Wachstumsrate rs,t und der Zuwachsrate ws,t aus Definition 5.4 gilt in ’guter’ Näherung: xt − xs rs,t = ln(xt) − ln(xs) ≈ = ws,t xs Vorteile der logarithmischen Wachtumsrate: [I] • Addierbarkeit: r0,T = ln(xT ) − ln(x0) = T X t=1 ln(xt) − ln(xt−1) = T X rt−1,t t=1 (Wachstumsrate r0,T ist Summe der 1-periodigen Wachstumsraten rt−1,t) 168 Vorteile der logarithmischen Wachtumsrate: [II] −→ Durchschnittliche logarithmische Zuwachsrate r zwischen den Zeitpunkten 0 und T ist arithmetisches Mittel der 1-periodigen logarithmischen Wachstumsraten T 1 1 X rt−1,t = · r0,T r= · T t=1 T • ’Symmetrie’: Verändert sich der Wert xt in der Folgeperiode t + 1 auf xt+1 und fällt dann in t + 2 auf xt zurück (also xt+2 = xt), so sind die log. Wachstumsraten rt,t+1 und rt+1,t+2 vom Betrage her gleich (mit entgegengesetzen Vorzeichen) 169 Beispiel: Symmetrische Aktienkursbewegung Periode t t+1 t+2 Kurs 100 110 100 Summe: rt,t+1 wt,t+1 0.0953 −0.0953 0 0.1 −0.0909 0.0091 Anwendungsgebiete der log. Zuwachsrate: • Finanzmathematik (stetige Verzinsung) • Finanzmärkte (Aktien- und Wechselkursänderungen) • Modelle der Wachstums- und Konjunkturtheorie 170 5.3 Indexzahlen Bisher: • Zeitliche Entwicklung einer ökonomischen Größe über Messzahlen Jetzt: • Zeitliche Entwicklung mehrerer Größen gleichzeitig 171 Beispiele: • Preisentwicklung für Güter des privaten Konsums Problem: Preise einiger Güter steigen, Preise anderer Güter fallen −→ Aggregation aller Messzahlen zu einer Indexzahl (Index) • Aktienindizes (DAX, Dow Jones, Euro Stoxx) Aggregation von Kursen verschiedener Aktien zu einem Aktienkorb Ziel: Darstellung der Entwicklung des Gesamtmarktes 172 Voraussetzungen und Notationen: • Betrachte einen Warenkorb (Kollektion von Gütern) • Jedes Gut des Korbes hat einen Preis und eine Menge • n: Anzahl der Güter im Warenkorb • pt(i): Preis des Gutes i zur Zeit t • qt(i): Menge des Gutes i zur Zeit t • vt(i) = pt(i) · qt(i): Wert des Gutes i zur Zeit t 173 Benennungen: Geldeinheiten (z.B. 1 Euro / Liter) • Preise: Mengeneinheit • Mengen: Mengeneinheiten • Wert: Geldeinheiten Betrachtung zweier Zeitpunkte: • Berichtszeit (notiert mit t) • Basiszeit (Setzung auf 0) 174 Generelles Ziel: • Beschreibung der Veränderungen von Preisen, Mengen und Werten des gesamten Warenkorbes zwischen der Berichtszeit t und dem Basiszeitpunkt 0 Zunächst für einzelnes Gut i (i = 1, . . . , n): • pt(i) : Preismesszahl für das Gut i p0(i) • qt(i) : Mengenmesszahl für das Gut i q0(i) • vt(i) : Wertmesszahl für das Gut i v0(i) 175 Offensichtlich: pt(i) qt(i) vt(i) pt(i) · qt(i) = = · v0(i) p0(i) · q0(i) p0(i) q0(i) (Wertmesszahl = Preismesszahl × Mengenmesszahl) Bisher: • Änderungen des Warenkorbes durch 3 · n Messzahlen Jetzt: • Aggregation einzelner Messzahlen zu Indexzahlen 176 5.3.1 Preisindizes Ziel: • Indexzahlen zur Messung der Preisentwicklung Definition 5.8: (Laspeyres-Preisindex) Die Mittelwertform des Preisindexes vom Typ Laspeyres ist definiert durch n X p (i) · q0(i) pt(i) p · Pn 0 . ILa;0,t = j=1 p0(j) · q0(j) i=1 p0 (i) 177 Bemerkungen: [I] p • In seiner Mittelwertform ist der Preisindex ILa;0,t ein gewogenes arithmetisches Mittel der Preismesszahlen pt(i) , p0(i) • Die Gewichte i = 1, . . . , n. p0(i) · q0(i) Pn j=1 p0 (j) · q0 (j) sind die Ausgabenanteile für jedes einzelne Gut i zum Basiszeitpunkt 0 178 Bemerkungen: [II] • Durch Kürzen von p0(i) ergibt sich die Aggregatform des Laspeyres-Indexes: Pn pt(i) · q0(i) p ILa;0,t = Pni=1 i=1 p0(i) · q0(i) Definition 5.9: (Paasche-Preisindex) Die Mittelwertform des Preisindexes vom Typ Paasche ist definiert durch 1 p . IP a;0,t = n X 1 pt(i) · qt(i) · Pn pt (i) j=1 pt (j) · qt (j) i=1 p0 (i) 179 Bemerkungen: [I] p • In seiner Mittelwertform ist der Preisindex IP a;0,t ein gewogenes harmonisches Mittel der Preismesszahlen pt(i) , p0(i) • Die Gewichte i = 1, . . . , n. pt(i) · qt(i) Pn j=1 pt (j) · qt (j) sind die Ausgabenanteile für jedes einzelne Gut i zum Berichtszeitpunkt t 180 Bemerkungen: [II] • Durch Umformung des Doppelbruchs ergibt sich die Aggregatform des Paasche-Indexes: Pn pt(i) · qt(i) p i=1 IP a;0,t = Pn i=1 p0(i) · qt(i) Beispiel: [I] • Warenkorb mit n = 3 Gütern Gut i 1 2 3 Basiszeit t = 0 q0(i) p0(i) 14.30 2.20 1.19 8.00 0.94 18.00 Berichtszeit t = 1 p1(i) q1(i) 14.70 1.80 1.05 18.00 0.99 14.00 181 Beispiel: [II] • Arbeitstabelle zur Indexberechnung in Aggregatform i 1 2 3 P p1(i) · q0(i) 32.34 8.40 17.82 58.56 p0(i) · q0(i) 31.46 9.52 16.92 57.90 • Berechnung der Indizes: 58.56 p ILa,0,t = = 1.0114, 57.90 p1(i) · q1(i) 26.46 18.90 13.86 59.22 p0(i) · q1(i) 25.74 21.42 13.16 60.32 59.22 p IP a,0,t = = 0.9818 60.32 182 Offensichtliches Dilemma: • Laspeyres-Index zeigt Preiserhöhung an, Paasche-Index dagegen Preissenkung Frage: • Wie hängen die beiden Indizes zusammen? 183 Mathematisches Resultat: • Es gilt p p IP a,0,t < ILa,0,t genau dann, wenn die beiden Folgen der Preis- und Mengenmesszahlen (für i = 1, . . . , n) qt(i) pt(i) und p0(i) q0(i) ’negativ korreliert’ sind (Zum Begriff der Korrelation, vgl. Kapitel 6) Jetzt: • Ein letzter Preis-Index-Typ 184 Definition 5.10: (Fisher-Preisindex) Der Preisindex vom Typ Fisher ist definiert durch p IF i;0,t = r p p ILa;0,t · IP a;0,t. Bemerkungen: • Fisher-Index ist geometrisches Mittel aus Laspeyres- und Paasche-Index • Es gilt: n p p min ILa;0,t, IP a;0,t o n o p p p ≤ IF i;0,t ≤ max ILa;0,t, IP a;0,t • Für das obige Warenkorbbeispiel gilt: √ p IF i;0,t = 1.0114 · 0.9818 = 0.9965 (Preisreduktion des Warenkorbes um 0.35%) 185 5.3.2 Mengenindizes Jetzt: • Übertragung des Konzeptes der Preisindizes auf Mengenindizes durch einfache Vertauschung der Rollen von Preisen und Mengen 186 Definition 5.11: (Mengenindizes) Die Mittelwert- bzw. Aggregatformen des (a) Mengenindexes nach Laspeyres sind definiert durch P n X qt(i) n qt(i) · p0(i) p0(i) · q0(i) q i=1 · Pn = Pn , ILa;0,t = (j) (i) q (i) p · q (j) q · p (i) 0 0 j=1 0 i=1 0 i=1 0 (b) Mengenindexes nach Paasche sind definiert durch P n qt(i) · pt(i) 1 q i=1 . = Pn IP a;0,t = n X 1 pt(i) · qt(i) i=1 q0 (i) · pt (i) · Pn qt (i) j=1 pt (j) · qt (j) i=1 q0(i) (c) Der Mengenindex nach Fisher ist definiert durch q IF i;0,t = r q q ILa;0,t · IP a;0,t. 187 5.3.3 Wertindizes (Kanonische) Definition eines Wertindexes: • Man beachte hierbei, dass die Werte des Warenkorbes zu den Zeitpunkten 0 bzw. t gegeben sind durch n X i=1 v0(i) = n X i=1 p0(i) · q0(i) bzw. n X vt(i) = i=1 n X i=1 pt(i) · qt(i) Definition 5.12: (Wertindex) Ein geeigneter Wertindex ist in natürlicher Weise definiert durch Pn Pn v (i) v = i=1 t i=1 pt (i) · qt(i) . I0,t = Pn Pn v (i) i=1 0 i=1 p0 (i) · q0 (i) 188 Bemerkungen: • Strukturell analog zu den Preis- und Mengenindizes könnte man Wertindizes vom Typ Laspeyeres, Paasche bzw. Fisher definieren als v = ILa;0,t IPv a;0,t = IFv i;0,t = n X vt(i) v0(i) · Pn (i) v j=1 v0 (j) i=1 0 1 n X vt(i) · Pn vt (i) j=1 vt(j) i=1 v (i) 0 1 q v · IPv a;0,t ILa;0,t • Man überprüft leicht, dass gilt: v v ILa;0,t = IPv a;0,t = IFv i;0,t = I0,t 189 5.3.4 Umbasierung und Verkettung von Indizes Jetzt: • Umbasierung und Verkettung beliebiger Indizes (Preis, Menge, Wert) in Analogie zur Umbasierung und Verkettung von Messzahlen (vgl. Folien 158, 159) 190 Definition 5.13: (Umbasierung von Indizes) Gegeben sei eine Folge von Indizes zur Basiszeit s: ∗ , Is,t t = t0 , t 1 , . . . , t T . Eine Folge von Indizes Ir,t zu einer alternativen Basiszeit r ∈ {t0, t1, . . . , tT }, r 6= s, erhält man durch ∗ Is,t Ir,t = ∗ , Is,r t = t 0 , t1 , . . . , tT . 191 Definition 5.14: (Verkettung von Indizes) Gegeben seien zwei Folgen von Indizes zu äquidistanten Zeiten: ∗ I0,t für t = 0, 1, . . . , s, ∗∗ Is,t für t = s, s + 1, . . . , T. Als verkettete Folge zur Basiszeit 0 verwendet man I0,t = ( ∗ I0,t ∗ · I ∗∗ I0,s s,t für t = 0, 1, . . . , s . für t = s + 1, . . . , T ∗ erhält man die verkettete Durch Umbasierung der Indizes I0,t Folge zur Basiszeit s: ∗ I0,t ∗ I0,s Is,t = ∗∗ Is,t für t = 0, 1, . . . , s − 1 . für t = s, s + 1, . . . , T 192 Problem: • Umbasierung und Verkettung von Indizes ist im allgemeinen nicht typerhaltend Beispiel: [I] p • Umbasierung des Laspeyres-Preisindexes ILa;91,t vom Basiszeitpunkt 91 auf Basiszeitpunkt 95 193 Beispiel: [II] • Für den Berichtszeitpunkt t = 96 ergibt sich: p I95,96 = ILa;91,96 p ILa;91,95 Pn i=1 p96 (i) · q91 (i) Pn p91(i) · q91(i) i=1 P = n i=1 p95(i) · q91 (i) Pn i=1 p91(i) · q91 (i) Pn i=1 p96 (i) · q91 (i) = Pn i=1 p95 (i) · q91 (i) Pn p96(i) · q95(i) p i=1 6= Pn = ILa;95,96 i=1 p95 (i) · q95 (i) 194 5.3.5 Formale Indexkriterien (Fisher-Proben) Offensichtlich: • Es gibt mehrere Indizes für ein Messproblem Frage: • Welcher Index ist der ’beste’ ? Lösungsmöglichkeit: • Postuliere ’sinnvolle’ Kriterien, die ein Index erfüllen sollte 195 Vorschlag von I. Fisher (1922): [I] • Ein Index Is,t (zur Basiszeit s und Berichtszeit t) sollte die folgenden 7 Kriterien erfüllen: (1) Identitätsprobe It,t = 1 (2) Zeitumkehrprobe It,0 = 1 I0,t (3) Rundprobe (für die Zeitpunkte t1, t2, . . . , tT ) It1,tT = It1,t2 · It2,t3 · . . . · ItT −1,tT 196 Vorschlag von I. Fisher (1922): [II] (4) Faktorumkehrprobe p q v =I I0,t 0,t · I0,t (5) Proportionalitätsprobe p I0,t = 1 + α, wenn alle Preise um α · 100% steigen (6) Dimensionswechselsprobe Der Wert der Indizes hängt nicht davon ab, in welchen Einheiten Preise und Mengen gemessen werden (7) Bestimmtheitsprobe Der Index soll auch dann bestimmt sein, wenn einzelne Preise oder Mengen gleich 0 sind 197 Frage: • Welche Kriterien (Fisherproben) erfüllen die alternativen Indizes vom Typ Laspeyres, Paasche, Fisher? Fisherprobe Identitätsprobe Zeitumkehrprobe Rundprobe Faktorumkehrprobe Proportionalitätsprobe Dimensionswechselprobe Bestimmtheitsprobe Laspeyres + − − − + + + Paasche + − − − + + + Fisher + + − + + + + Fazit: • Der Fisher-Index erfüllt die meisten, aber auch nicht alle Kriterien (6 von 7) 198 6. Auswertung mehrdimensionaler Daten Bisher: • Auswertungsmethoden für Daten eines einzelnen Merkmals, z.B. Diskrete Klassierung Grafische Darstellungen (Verteilungsfunktion) Lagemaße Streungsmaße Schiefemaße 199 Jetzt: • Methoden zur Auswertung von Daten über mehrere Merkmale gleichzeitig (mehrdimensionale oder multivariate Daten) Ziele: • Simultane Beschreibung durch Tabellen und Grafiken • Mehrdimensionale Messung von Lage und Streuung • Aufdecken von Beziehungen zwischen den Merkmalen (Korrelationen) 200 6.1 Grundbegriffe Ausgangssituation: [I] • n Merkmalsträger e1, e2, . . . , en • Grundgesamtheit: G = {e1, e2, . . . , en} • 2 Merkmale X und Y , die jeweils am Merkmalsträger ei, i = 1, . . . , n, beobachtet werden können 201 Ausgangssituation: [II] • Urliste lautet dann: (x1, y1), (x2, y2), . . . , (xn, yn) oder in Matrix-Schreibweise (n × 2 Matrix) x1 y1 x2 y2 ... ... x n yn 202 Beispiel: [I] • Ausgaben für Werbung und Absätze von 84 Unternehmen in den USA im Jahr 1990 • Merkmale X: Ausgaben für Werbung (in Mill. US-$) Y : Absatz (in Mill. US-$) 203 Beispiel: [II] • Datensatz: i 1 2 3 ... 82 83 84 Werbeausgaben (X) 11.22487 31.08904 70.32822 ... 31.50510 55.39850 48.43819 Absätze (Y) 508.8302 517.0425 524.7197 ... 502.0378 515.2976 501.1283 • Falls X und Y metrisch skaliert sind (wie hier), kann man die n Datenpunkte (x1, y1), . . . , (xn, yn) in einem Streudiagramm darstellen 204 Streudiagramm ’Werbeausgaben gegen Absatzzahlen’ Absatz in Mill. US-$ (Y) 560 540 520 500 480 0 20 40 60 80 100 Werbeausgaben in Mill. US-$ (X) 205 Jetzt: • Betrachte p ≥ 2 Merkmale X1, . . . , Xp mit Beobachtungen (xi1, xi2, . . . , xip) für die Untersuchungseinheit ei −→ Urliste bzw. n × p Datenmatrix: (x11, x12, . . . , x1p), (x21, x22, . . . , x2p), . . . , (xn1, xn2, . . . , xnp) x11 x12 x21 x22 ... ... xn1 xn2 . . . x1p . . . x2p . . . ... . . . xnp 206 6.1.1 Kontingenztafel und Häufigkeiten Gegeben: • 2 Merkmale X und Y • n × 2 Datenmatrix x1 y1 x 2 y2 ... ... xn yn bzw. Urliste mit n Zahlenpaaren (xi, yi), i = 1, . . . , n, 207 Ziel: • Beschreibung von absoluten und relativen Häufigkeiten Notation: • ξ1, . . . , ξJ seien die J möglichen Werte von X • η1, . . . , ηK seien die K möglichen Werte von Y 208 Definition 6.1: (Gemeinsame und Randhäufigkeiten) [I] Für jedes j = 1, . . . , J und k = 1, . . . , K versteht man 1. unter der gemeinsamen absoluten Häufigkeit die Anzahl njk aller Datenpaare (xi, yi) für die gilt xi = ξj und yi = ηk . 2. unter den absoluten Randhäufigkeiten der X-Ausprägung ξj bzw. der Y -Ausprägung ηk die Summen nj· = K X k=1 njk bzw. n·k = J X njk . j=1 209 Definition 6.1: (Gemeinsame und Randhäufigkeiten) [II] 3. Die gemeinsamen absoluten Häufigkeiten zusammen mit den absoluten Randhäufigkeiten stellt man übersichtlich in der folgenden Häufigkeitstabelle dar, die man Kontingenztafel oder Kontingenztabelle nennt: ξ1 ξ2 X = ... ξJ−1 ξJ P η1 n11 n21 ... η2 n12 n22 ... n(J−1)1 nJ1 n(J−1)2 nJ2 n·1 n·2 ..Y . = ηK−1 ... n1(K−1) ... n2(K−1) ... . . . n(J−1)(K−1) ... nJ(K−1) ... n·(K−1) P ηK n1K n2K ... n1· n2· ... n(J−1)K nJK n(J−1)· nJ· n·K n 210 Beispiel: [I] • Erhebung folgender Merkmale bei n = 1000 Personen: Berufszugehörigkeit X Ausmaß sportlicher Betätigung Y 211 Beispiel: [II] • Kontingenztabelle: X (Berufsgruppe) Arbeiter Angestellte Beamte Landwirte sonstige P Y (sportliche Betätigung) nie gelegentlich regelmäßig 240 120 70 160 90 90 30 30 30 37 7 6 40 32 18 507 279 214 P 430 340 90 50 90 1000 • Offensichtlich: Aus gemeinsamen Häufigkeiten lassen sich Randhäufigkeiten eindeutig bestimmen (Umkehrung gilt nicht!) 212 Definition 6.2: (Relative Häufigkeiten, Randverteilung) Für jedes j = 1, . . . , J und k = 1, . . . , K heißen njk 1. fjk = n die gemeinsame relative Häufigkeit von ξj und ηk , PK PJ 2. fj· = k=1 fjk bzw. f·k = j=1 fjk die relative Randhäufigkeit von ξj bzw. ηk . 3. Die relativen Randhäufigkeiten f1·, f2·, . . . , fJ· der Werte von X nennt man die Randverteilung des Merkmals X. Entsprechend bilden die relativen Randhäufigkeiten f·1, f·2, . . . , f·K die Randverteilung des Merkmals Y . 213 Kontingenztafel mit relativen Häufigkeiten: ξ1 ξ2 X = ... ξJ−1 ξJ P η1 f11 f21 ... η2 f12 f22 ... f(J−1)1 fJ1 f(J−1)2 fJ2 f·1 f·2 ..Y . = ηK−1 ... f1(K−1) ... f2(K−1) ... . . . f(J−1)(K−1) ... fJ(K−1) ... f·(K−1) P ηK f1K f2K ... f1· f2· ... f(J−1)K fJK f(J−1)· fJ· f·K 1 214 Bemerkung: • Offensichtlich gilt: K J X X j=1 k=1 fjk = J X j=1 fj· = K X k=1 f·k = 1 (Die Summe über den relativen Randhäufigkeiten eines jeden Merkmals ist 1) 215 Kontingenztabelle mit relativen Häufigkeiten für das obige Beispiel: X (Berufsgruppe) Arbeiter Angestellte Beamte Landwirte sonstige P Y (sportliche Betätigung) nie gelegentlich regelmäßig 0.070 0.240 0.120 0.160 0.090 0.090 0.030 0.030 0.030 0.037 0.007 0.006 0.032 0.018 0.040 0.507 0.214 0.279 P 0.430 0.340 0.090 0.050 0.090 1.000 216 6.1.2 Bedingte Verteilungen Jetzt: • Weiteres wichtiges Konzept der mehrdimensionalen Datenanalyse Definition 6.3: (Bedingte relative Häufigkeiten) Für ein festes k ∈ {1, . . . , K} sowie für jedes j = 1, . . . , J nennt man die Größe fjk fj|Y =ηk = f·k die bedingte relative Häufigkeit von ξj unter der Bedingung Y = ηk . 217 Bemerkung: • Die bedingte relative Häufigkeit fj|Y =ηk ist die relative Häufigkeit der X-Ausprägung ξj in der Teilgesamtheit aller derjenigen Einheiten, welche die Y -Ausprägung ηk aufweisen, denn njk fjk njk n fj|Y =ηk = = n = ·k f·k n·k n Definition 6.4: (Bedingte Verteilung) Gemäß Definition 6.3 kann man insgesamt J bedingte relative Häufigkeiten betrachten: f1|Y =ηk , f2|Y =ηk , . . . , fJ|Y =ηk . Die Gesamtheit dieser J Werte heißt die bedingte Verteilung von X unter (der Bedingung) Y = ηk . 218 Bemerkungen: [I] • Analog zu Definition 6.3 definiere für ein festes j ∈ {1, . . . , J} sowie für beliebige k = 1, . . . , K fk|X=ξj = fjk fj· . Diese Größe heißt bedingte relative Häufigkeit von ηk unter (der Bedingung) X = ξj . • Analog zu Definition 6.4 heißt f1|X=ξj , f2|X=ξj , . . . , fK|X=ξj die bedingte Verteilung von Y unter X = ξj 219 Bemerkungen: [II] • Offensichtlich gilt: J X j=1 K X k=1 fj|Y =ηk = fk|X=ξj = J n X jk j=1 n·k K n X jk k=1 nj· =1 für jedes k = 1, . . . , K =1 für jedes j = 1, . . . , J 220 Beispiel: (Berufsgruppe ←→ Sport, vgl. Folien 211 ff.) Gesucht: [I] • Verteilung der sportlichen Aktivität bei Arbeitern oder statistisch ausgedrückt: Die bedingte Verteilung von Y unter X = ξ1 f1|X=ξ1 f2|X=ξ1 f3|X=ξ1 n11 240 = = 0.558 = n1· 430 n12 120 = = = 0.279 n1· 430 70 n13 = = = 0.163 n1· 430 (nie) (gelegentlich) (regelmäßig) 221 Gesucht: [II] • Verteilung der Berufsgruppen bei regelmäßig Aktiven oder statistisch ausgedrückt: Die bedingte Verteilung von X unter Y = η3 f1|Y =η3 = f2|Y =η3 = f3|Y =η3 = f4|Y =η3 = f5|Y =η3 = 70 214 90 214 30 214 6 214 18 214 = 0.327 (Arbeiter) = 0.421 (Angestellte) = 0.140 (Beamte) = 0.028 (Landwirte) = 0.084 (sonstige) 222 6.1.3 Deskriptive Unabhängigkeit Jetzt: • Frage nach dem Zusammenhang zwischen X und Y Definition 6.5: (Deskriptive Unabhängigkeit) Die Merkmale X und Y heißen deskriptiv unabhängig, falls sich für alle j = 1, . . . , J und für alle k = 1, . . . , K die gemeinsamen relativen Häufigkeiten als Produkt der relativen Randhäufigkeiten ergeben, d.h. falls gilt fjk = fj· · f·k . 223 Beispiel: (Geschlecht (X) ←→ gewählte Partei (Y )) Kontingenztafel mit absoluten Häufigkeiten: X (Geschlecht) männlich weiblich P A 200 300 500 Y (Partei) B C 120 80 180 120 300 200 P 400 600 1000 224 Kontingenztafel mit relativen Häufigkeiten: X (Geschlecht) männlich weiblich P f11 f12 f13 f21 f22 f23 = = = = = = Y (Partei) A B C 0.20 0.12 0.08 0.30 0.18 0.12 0.50 0.30 0.20 P 0.40 0.60 1.00 0.20 = 0.40 · 0.50 = f1· · f·1 0.12 = 0.40 · 0.30 = f1· · f·2 0.08 = 0.40 · 0.20 = f1· · f·3 0.30 = 0.60 · 0.50 = f2· · f·1 0.18 = 0.60 · 0.30 = f2· · f·2 0.12 = 0.60 · 0.20 = f2· · f·3 Fazit: X und Y sind deskriptiv unabhängig 225 Betrachte nun: • Bedingte Verteilungen von X unter Y = η1, Y = η2, Y = η3 • Bedingte Verteilungen von Y unter X = ξ1, X = ξ2 Bedingte Verteilungen von X: [I] • unter Y = η1: f11 0.20 = = 0.40 f·1 0.50 f21 0.30 = = = 0.60 f·1 0.50 f1|Y =η1 = f2|Y =η1 226 Bedingte Verteilungen von X: [II] • unter Y = η2: f12 0.12 = 0.40 = f·2 0.30 0.18 f = 0.60 = 22 = f·2 0.30 f1|Y =η2 = f2|Y =η2 • unter Y = η3: f13 0.08 = = 0.40 f·3 0.20 f 0.12 = 23 = = 0.60 f·3 0.20 f1|Y =η3 = f2|Y =η3 227 Offensichtlich: • Bedingte Verteilungen von X unter Y = η1, Y = η2, Y = η3 sind alle gleich • Man überprüft leicht, dass die bedingten Verteilungen von Y unter X = ξ1, X = ξ2 ebenfalls beide gleich sind 228 Allgemein gilt: X und Y sind genau dann deskriptiv unabhängig, sobald eine der folgenden äquivalenten Bedingungen erfüllt ist: • Für alle j = 1, . . . , J und alle k = 1, . . . , K gilt: fjk = fj· · f·k (= Definition 6.5) • Für alle j = 1, . . . , J und alle k = 1, . . . , K gilt: nj· · n·k njk = n • Für alle j = 1, . . . , J gilt: fj|Y =η1 = fj|Y =η2 = . . . = fj|Y =ηK = fj· • Für alle k = 1, . . . , K gilt: fk|X=ξ1 = fk|X=ξ2 = . . . = fk|X=ξJ = f·k 229 6.1.4 Arithmetische Mittel und Varianzen Annahmen: • X und Y sind metrisch skaliert (sinnvolle Arithmetik) • Daten liegen in Kontingenztafeln vor (absolute oder relative Häufigkeiten) 230 Jetzt: • Übertragung von Mittelwert und Varianz auf mehrdimensionale Daten −→ Mittelwert- und Varianzbildung über Rand- bzw. bedingte Verteilungen Definition 6.6: (Arithmetische Mittel) Die arithmetischen Mittel von X und Y sind definiert als die arithmetischen Mittel der jeweiligen Randverteilung: J J X 1 X x = ξj · nj· = ξj · fj·, n j=1 j=1 K K X 1 X y = ηk · n·k = ηk · f·k . n k=1 k=1 231 Bemerkung: • In mehrdimensionalen Datensätzen sind die arithmetischen Mittel einzelner Merkmale einfach die Mittelwerte der einzelnen Datenreihen Definition 6.7: (Bedingte arithmetische Mittel) Das bedingte arithmetische Mittel von X unter Y = ηk (k fest) sowie das bedingte arithmetische Mittel von Y unter X = ξj (j fest) sind jeweils definiert als die arithmetischen Mittel der entsprechenden bedingten Verteilungen von X und Y : J J X 1 X ξj · njk = xk = ξj · fj|Y =ηk , n·k j=1 j=1 K K X 1 X yj = ηk · njk = ηk · fk|X=ξj . nj· k=1 k=1 232 Bemerkungen: • Sind X und Y deskriptiv unabhängig, so stimmen sämtliche bedingte Verteilungen von X mit der Randverteilung von X überein (vgl. Folie 229). Da das bedingte arithmetische Mittel von X unter Y = ηk der Mittelwert der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhängigkeit für jedes k der bedingte Mittelwert xk mit dem gewöhnlichen Mittelwert überein: x1 = x2 = . . . = xK = x • Analog gilt im Fall der deskriptiven Unabhängigkeit für die bedingten Mittelwerte von Y : y1 = y2 = . . . = yJ = y 233 Jetzt: • Definition von Varianzen und bedingten Varianzen von X und Y Definition 6.8: (Varianz) Die Varianzen von X und Y sind definiert als die Varianzen der jeweiligen Randverteilungen, d.h. 2 sX J J 2 1 X 1 X = ξj − x · nj· = ξj2 · nj· − x2, n j=1 n j=1 s2 Y K K X 1 1 X ηk2 · n·k − y 2. = (ηk − y )2 · n·k = n k=1 n k=1 234 Bemerkung: • In mehrdimensionalen Datensätzen sind die Varianzen der einzelnen Merkmale einfach die Varianzen der einzelnen Datenreihen Definition 6.9: (Bedingte Varianz) Die bedingte Varianz von X unter Y = ηk (k fest) sowie die bedingte Varianz von Y unter X = ξj (j fest) sind definiert als die Varianzen der entsprechenden bedingten Verteilungen von X und Y : s2 X|Y =ηk 2 sY |X=ξj = J X 2 n jk J X K X 2 n jk K X j=1 = k=1 ξj − xk ηk − y j njk 2 · ξj · = − x2 k, n·k n·k j=1 njk 2 · = ηk · − y2 j. nj· n j· k=1 235 Bemerkungen: • Sind X und Y deskriptiv unabhängig, so stimmen sämtliche bedingte Verteilungen von X mit der Randverteilung von X überein (vgl. Folie 229). Da die bedingte Varianz von X unter Y = ηk die Varianz der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhängigkeit für jedes k die bedingte Varianz s2 X|Y =ηk mit der gewöhnlichen Varianz überein: 2 2 2 s = = . . . = s = s2 s X X|Y =ηK X|Y =η2 X|Y =η1 • Analog gilt im Fall der deskriptiven Unabhängigkeit für die bedingten Varianzen von Y : 2 2 2 2 sY |X=ξ1 = sY |X=ξ2 = . . . = sY |X=ξJ = sY 236 Beispiel: (Wohnraum) • Betrachte n = 1000 Wohnungen • Merkmale: X: Anzahl der Wohnräume pro Wohnung Y : Anzahl der Personen pro Wohnung 237 X X X X X =1 =2 =3 =4 =5 P Y =1 200 200 80 20 0 500 Y =2 40 100 40 15 5 200 Y =3 0 30 100 10 10 150 Y =4 0 10 60 20 10 100 Y =5 0 0 10 20 20 50 P 240 340 290 85 45 1000 Berechnung von (bedingten) Mittelwerten und Varianzen • Im Proseminar 238 6.2 Zusammenhangsmaße Gegeben: • Zwei Merkmale X und Y mit Urliste der Länge n Gesucht: • Maßzahl für den Zusammenhang zwischen X und Y 239 Beispiele: • Zusammenhang zwischen Körpergröße (X) und Körpergewicht (Y ) • Zusammenhang zwischen Inflationsrate (X) und Arbeitslosenquote (Y ) (Phillips-Kurve) • Zusammenhang zwischen Arbeitslosigkeit (X) und Wirtschaftswachstum (Y ) (Okunsches Gesetz) 240 Wichtiges Charakteristikum: • Datenniveau von X und Y Metrische Skalierung Ordinale Skalierung Nominale Skalierung 241 6.2.1 Metrische Daten: Korrelationskoeffizient Situation: • X und Y sind metrisch skaliert • Urliste: (x1, y1), . . . , (xn, yn) Frage: • Wie hängen X und Y zusammen? 242 Zunächst: • Betrachte für ein festes i ∈ {1, . . . , n} die Größe T1 = (xi − x) · (yi − y ) Offensichtlich gilt: • T1 > 0 =⇒ xi und yi sind beide jeweils größer oder beide jeweils kleiner als ihre Mittelwerte • T1 < 0 =⇒ xi und yi verhalten sich jeweils umgekehrt bzgl. ihrer Lage zum jeweiligen Mittelwert 243 Jetzt: • Summenbildung über alle Daten T2 = n X i=1 (x i − x ) · (y i − y ) • T2 0: =⇒ Die positiven Summanden in T2 überwiegen die negativen erheblich. Zu ’hohen’ bzw. ’niedrigen’ xi gehören tendenziell ’hohe’ bzw. ’niedrige’ yi (positiver Zusammenhang) 244 Summenbildung über alle Daten: [II] • T2 0: =⇒ Die negativen Summanden in T2 überwiegen die positiven erheblich. Zu ’hohen’ bzw. ’niedrigen’ xi gehören tendenziell nun ’niedrige’ bzw. ’hohe’ yi (negativer Zusammenhang) • T2 ≈ 0: =⇒ Positive und negative Summanden in T2 heben sich tendenziell auf. Zu ’hohen’ (’niedrigen’) xi gehören nun sowohl ’niedrige’ als auch ’hohe’ yi (kein Zusammenhang) 245 Definition 6.10: (Kovarianz) Die Kovarianz zwischen X und Y ist definiert durch n n 1 X 1 X sXY = xi · yi − x · y. (xi − x) · (yi − y ) = n i=1 n i=1 Bemerkungen: [I] • Die Kovarianz sXY ist ’symmetrisch’, d.h. sXY = sY X 246 Bemerkungen: [II] • Die Kovarianz eines Merkmals mit sich selbst ist gleich der Varianz des Merkmals: n 1 X sXX = (xi − x)2 = s2 X n i=1 • Liegt die Datenurliste in Form einer Häufigkeitstabelle vor, so ist die Kovarianz gegeben durch sXY J X K 1 X = ξj − x · (ηk − y ) · njk n j=1 k=1 K J X 1 X = ξj · ηk · njk − x · y n j=1 k=1 247 Jetzt: • Normierung der Kovarianz sXY durch Division durch das Produkt der Standardabweichungen von X und Y 248 Definition 6.11: (Korrelationskoeffizient von Bravais-Pearson) Der Korrelationskoeffizient zwischen X und Y ist definiert durch rXY sXY = q s2 X· = v u n X (xi − x) · (yi − y) i=1 s2 Y =v u n X xi · yi − n · x · y q i=1 n uX t (xi − x)2 i=1 n uX 2 t x2 i −n·x i=1 v u n uX (yi − y)2 ·t i=1 v . u n uX 2 yi − n · y 2 ·t i=1 249 Bemerkungen: [I] • Der Korrelationskoeffizient rXY ist ’symmetrisch’: rXY = rY X • Der Korrelationskoeffizient ist normiert, d.h. es gilt immer −1 ≤ rXY ≤ 1 • Wenn rXY = 0 ist, so sagt man: ’Die Merkmale X und Y sind unkorreliert’ 250 Bemerkungen: [II] • Sind X und Y deskriptiv unabhängig, so gilt: rXY = 0 (Deskrip. Unabhängigkeit impliziert Unkorreliertheit) • Vorsicht: Die Umkehrung gilt im allgemeinen nicht (Unkorreliertheit (rXY = 0) impliziert nicht die deskriptive Unabhängigkeit von X und Y ) • Ist rXY = 1 oder rXY = −1, so sagt man: ’Die Merkmale X und Y sind perfekt korreliert’ 251 Zentrales Resultat: • Es gilt rXY = 1 genau dann, wenn es Zahlen a > 0, b ∈ R gibt, so dass yi = a · xi + b für alle i = 1, . . . , n gilt (Alle Daten liegen auf einer Geraden mit positiver Steigung) • Es gilt rXY = −1 genau dann, wenn es Zahlen a < 0, b ∈ R gibt, so dass yi = a · xi + b für alle i = 1, . . . , n gilt (Alle Daten liegen auf einer Geraden mit negativer Steigung) 252 Offensichtlich: • Der Korrelationskoefizient rXY ist ein Maß für den linearen Zusammenhang zwischen X und Y Vorsicht: • rXY = 0 (bzw. rXY ≈ 0) bedeutet nur, dass kein (bzw. nur ein schwacher) linearer Zusammenhang zwischen X und Y besteht. Es können aber trotzdem starke andere (nichtlineare) Zusammenhänge zwischen X und Y bestehen 253 Korrelation zwischen X und Y : -0.008 Korrelation zwischen X und Y 2: -0.7054 6 6 4 4 2 2 0 Y Y2 0 -2 -2 -4 -4 -6 -4 -2 0 2 4 -4 -2 X 0 2 4 X Korrelation zwischen X und Y 1: 0.7020 Korrelation zwischen X und Y 3: 0.0225 6 20 4 15 2 0 10 Y1 Y3 -2 5 -4 -6 0 -4 -2 0 X 2 4 -4 -2 0 X 2 4 Weitere Aspekte zur Korrelation: [I] • Korrelation und Kausalität • Scheinkorrelation: Die zu untersuchenden Merkmale X und Y hängen beide von einem 3. Merkmal Z ab, das nicht Gegenstand der Untersuchung ist. Ein hoher Wert für rXY kann daher zustandekommen, weil sowohl X als auch Y von Z abhängen (indirekter Zusammenhang) Beispiel: X: Wortschatz eines Kindes Y : Körpergröße eines Kindes Z: Alter eines Kindes 255 Weitere Aspekte zur Korrelation: [II] • Nonsens-Korrelation: Hohe Korrelation zwischen völlig sachfremden Merkmalen X und Y Beispiel: Hohe Korrelation zwischen (menschlicher) Geburtenrate (X) einer Region und deren Population von Klapperstörchen (Y ) 256 6.2.2 Ordinale Daten: Rangkorrelationskoeffizient Jetzt: • X und Y sind ordinal skaliert =⇒ Berechnung von arithmetischem Mittel Varianz und Kovarianz nicht sinnvoll Gesucht: • Sinnvolles Korrelationsmaß für ordinale Daten 257 Zunächst Zusatzannahme: • Alle Daten eines Merkmals sind verschieden, d.h. xi = 6 xj und yi 6= yj für alle i 6= j Damit: • Einfache Definition der Rangzahl einer Merkmalsausprägung xi bzw. yi 258 Definition 6.12: (Rangzahl eines Datenpunktes) Gegeben seien die ungeordnete Urliste x1, . . . , xn sowie die geordnete Urliste x(1) < x(2) < . . . < x(n) eines Merkmals X. Unter der Rangzahl (kurz: Rang) eines Datenwertes xi, in Zeichen RX (xi), versteht man die Position, die xi in der geordneten Urliste einnimmt, d.h. RX (xi) = r, falls xi = x(r). 259 Zahlenbeispiel: • Ungeordnete Urliste x1 x2 x3 x4 x5 x6 1 4 7 3 6 8 • Geordnete Urliste x(1) x(2) x(3) x(4) x(5) x(6) (= x1) (= x4) (= x2) (= x5) (= x3) (= x6) 1 3 4 6 7 8 • Damit ergeben sich folgende Rangzahlen: RX (x1) = 1, RX (x2) = 3, RX (x3) = 5, RX (x4) = 2, RX (x5) = 4, RX (x6) = 6 260 Sinnvolles Korrelationsmaß für ordinale Daten: • Korrelationskoeffizient aus Definition 6.11 angewendet auf die Ränge RX (xi) und RY (yi) Definition 6.13: (Rangkorrelationskoeff. von Spearman) Es bezeichnen RX und RY die arithmetischen Mittel der Rangzahlen der Merkmale X und Y . Der Rangkorrelationskoeffizient zwischen X und Y ist definiert durch n X RX (xi) − RX · RY (yi) − RY i=1 R = v v rXY . u u n n uX 2 uX 2 t RX (xi) − RX · t RY (yi) − RY i=1 i=1 261 Man beachte: • Für die arithmetischen Mittel RX und RY gilt: n 1 n · (n + 1) n+1 1 X i= · R X = RY = = n i=1 n 2 2 (vgl. Folie 27) Hieraus folgt: n X n+1 n+1 RX (xi) − · RY (yi) − 2 2 i=1 v R = v rXY u n uX 2 u X 2 u n n + 1 n + 1 t RX (xi) − RY (yi) − ·t 2 2 i=1 i=1 262 Bemerkungen: R , z.B. • Es gibt weitere, äquivalente Formeln für rXY n X n · (n + 1)2 RX (xi) · RY (yi) − 4 i=1 R = v rXY u n uX v n 2 u 2 uX · + 1) · + 1) n (n n (n 2 2 t RX (xi) − ·t RY (yi) − 4 4 i=1 i=1 • Sind alle xi und yi verschieden (wie hier zunächst angenommen), so ergibt sich die vereinfachte Formel 6 R,OB rXY =1− n X i=1 [RX (xi) − RY (yi)]2 n · (n2 − 1) 263 Beispiel: (Schulnoten) • 6 Schüler haben folgende Punktzahlen auf einer von 1 bis 10 reichenden Ordinalskala für Klausuren in Mathematik (X) und Physik (Y ) erreicht: x1 x2 x3 x4 x5 x6 y1 y2 y3 y4 y5 y6 1 4 7 3 6 8 1 2 9 4 10 5 Es gilt: R,OB R =r rXY XY =1− 6 · 10 = 0.714 2 6 · (6 − 1) 264 R : [I] Wichtige Eigenschaften von rXY R ist symmetrisch, d.h. r R = r R • rXY XY YX R • rXY ist invariant gegenüber streng monoton wachsenden Transformationen: Sind f und g streng monoton wachsende Funktionen und überführt man die Ursprungsdaten (xi, yi) in xi0 = f (xi) und yi0 = g(yi) für alle i = 1, . . . , n so gilt für alle i: RX 0 (x0i) = RX (xi) RY 0 (yi0 ) = RY (yi) und damit R = rR rXY X 0Y 0 265 R : [II] Wichtige Eigenschaften von rXY R ist normiert: • rXY R ≤1 −1 ≤ rXY • Extremfälle: R = 1 ⇐⇒ R (x ) = R (y ) für alle i = 1, . . . , n rXY Y i X i (völlig gleich gerichteter monoton wachsender Zusammenhang) R = −1 ⇐⇒ R (x ) = n − R (y ) + 1 für alle i = 1, . . . , n rXY X i Y i (völlig gegenläufiger monoton fallender Zusammenhang) 266 Jetzt: • Berücksichtigung von Bindungen durch Anwendung der Methode der Durchschnittsränge Zahlenbeispiel: [I] • Ungeordnete Urliste x1 x2 x3 x4 3.7 3.9 3.1 3.7 267 Zahlenbeispiel: [II] • Geordnete Urliste x x x x x3) (=(2) x1) (=(3) x4) (=(4) x2) (=(1) 3.1 3.7 3.7 3.9 • Vergabe von Rängen RX (x3) = 1, R (x ) = 2,{zRX (x4) = 3} , RX (x2) = 4 | X 1 (wegen x1 = x4 = 3.7) RX (x1) = 2.5, RX (x4) = 2.5 268 Bei Auftreten von Bindungen: • Vergabe von Durchschnittsrängen sowohl für die xi als auch die yi R,OB • Die vereinfachte Formel rXY zulässig (vgl. Folie 263) nicht mehr Stattdessen: R Anwendung der äquivalenten Formeln für rXY auf den Folien 262, 263 269 6.2.3 Nominale Daten: Kontingenzkoeffizient Jetzt: • X und Y sind nominal skaliert • Daten in Kontingenztafel (absolute Häufigkeiten) Geeignetes Zusammenhangsmaß: • Der Kontingenzkoeffizient 270 Vorüberlegung: • X und Y sind deskriptiv unabhängig, wenn nj· · n·k njk = n für alle j = 1, . . . , J und k = 1, . . . , K (vgl. Folie 229) Abweichungsmaß von der deskriptiven Unabhängigkeit: nj· · n·k 2 2 n − J J K K jk njk X X X X 2 n − 1 =n· χ = nj· · n·k j=1 k=1 j=1 k=1 nj· · n·k n 271 Bemerkung: • Damit χ2 definiert ist, muss gelten: nj· > 0 und n·k > 0 für alle j und alle k. Ist einer der beiden Ausdrücke für irgendein j oder k gleich 0, so können die zugehörigen Merkmalswerte ξj bzw. ηk aus der Kontingenztafel gestrichen werden Jetzt: • Normierung von χ2 liefert Kontingenzkoeffizient 272 Definition 6.14: (Kontingenzkoeffizient) Als Zusammenhangsmaß zwischen den nominal skalierten Merkmalen X und Y verwendet man den Kontingenzkoeffizienten, der definiert ist als v u u χ2 min{J, K} CXY = t 2 · . χ + n min{J, K} − 1 Bemerkung: • Der Kontingenzkoeffizient CXY ist streng monoton wachsend in χ2 und normiert, d.h. 0 ≤ CXY ≤ 1 273 Zentrales Ergebnis: • Der Kontingenzkoeffizient CXY wird genau dann gleich 0, wenn χ2 = 0 gilt, d.h. genau dann, wenn X und Y deskriptiv unabhängig sind Weitere Bemerkungen: • Gilt CXY = 1, so spricht man von einem vollständigen Zusammenhang zwischen X und Y • CXY misst nur die Stärke des Zusammenhangs zwischen X und Y , nicht jedoch die Richtung • Jedoch misst CXY beliebige Zusammenhänge, also nicht nur R lineare (wie rXY ) oder monotone wie rXY 274 R ,C Zur praktischen Anwendung von rXY , rXY XY : • Unterschiedliche Datenniveaus von X und Y : Wähle Zusammenhangsmaß für das ’schwächste’ Datenniveau der Variablen X und Y (vgl. Folie 276) • Ermittlung des allgemeinen Zusammenhangs von X und Y : Verwende CXY 275 Behandlung unterschiedlicher Datenniveaus: Nominal Ordinal Metrisch X Nominal CXY CXY CXY Ordinal CXY R rXY R rXY Metrisch CXY R rXY rXY Y 276 6.3 Deskriptive Regression Bedeutung des Begriffes ’Regression’: • Untersuchung des Zusammenhangs zwischen einer abhängigen Variablen (auch Regressand oder endogene Variable) und einer oder mehrerer unabhängiger Variablen (auch Regressoren oder exogene Variablen) Allgemeines mathematisches Modell: ~ +u Y = f (X1, X2, . . . , Xk ; β) 277 Bezeichnungen: • Y : abhängige Variable, Regressand • X: unabhängige Variablen, Regressoren • f (·): funktionaler Zusammenhang ~ unbekannter Parametervektor • β: • u: Fehler 278 Ziel der Regressionsrechnung: • Möglichst ’genaue’ Aussagen über den Zusammenhang zwischen Regressand und Regressor(en) Beispiele: [I] • Keynesianische Konsumfunktion Y =a+b·X +u Y = privater Konsum a = autonomer Konsum b = marginale Konsumquote X = verfügbares Einkommen 279 Beispiele: [II] • Zusammenhang zwischen Inflation und Geldmengenwachstum (Quantitätstheorie) Y =a+b·X +u Y = Inflationsrate X = Wachstumsrate der Geldmenge (M2) • Zusammenhang zwischen Inflation und Arbeitslosigkeit (Phillipskurve) 1 Y =a+b· +u X Y = Inflationsrate X = Arbeitslosenquote (Vorsicht: f ist eine Hyperbel, nicht-linear) 280 Hier: • Nur lineare Funktionen, d.h. Y =a+b·X +u (vgl. Abschnitt 6.3.2) 281 6.3.1 Regression 1. Art Zunächst: Y wird zurückgeführt (regressiert) auf verschiedene Ausprägungen von X (ohne funktionalen Zusammenhang) Voraussetzungen: • Y ist metrisch skaliert (mindestens intervallskaliert) • X ist beliebig skaliert mit möglichen Ausprägungen ξ1, . . . , ξJ 282 Jetzt: • Bilde die bedingten Mittelwerte y j unter der Bedingung X = ξj für j = 1, . . . , J (vgl. Definition 6.7, Folie 232) Definition 6.15: (Deskriptive Regression 1. Art) Die J Paare (ξj , y j ), j = 1, . . . , J, nennt man deskriptive Regression 1. Art von Y auf X. 283 Beispiel: (Haushaltseinkommen) [I] • Y : verfügbares Haushalts-Nettoeinkommen (Durchschnitte) • X: Haushaltstyp 284 Beispiel: (Haushaltseinkommen) [II] • Daten: j 1 2 3 4 5 6 Haushaltstyp X Selbständige Beamte Angestellte Arbeiter Arbeitslose Nichterwerbstätige Einkommen Y (in DM) 8470 7977 6150 4967 2892 3756 Summe: Anz. Haushalte (in (1000) 2248 1734 10452 7240 1983 13124 36781 285 Hier: • Regressionsergebnis dargestellt als Balkendiagramm 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 j=1 j=2 j=3 j=4 j=5 j=6 286 Offensichtlich: • Durch die J Ausprägungen von X kann die Grundgesamtheit in J Teilgesamtheiten zerlegt werden • Die J Teilgesamtheiten haben die Umfänge n1·, n2·, . . . , nJ· =⇒ Anwendung der Additionssätze für arithmetische Mittel und Varianzen des Merkmals Y (vgl. Abschnitt 4.3.4) 287 Es gilt: J 1 X y= y j · nj· n j=1 J J 2 1 X 1 X 2 2 s · nj· + y j − y · nj· sY = n j=1 Y |X=ξj n j=1 | {z } {z } | 2 2 =sint =sext Hieraus: • Maßzahl für den Erklärungswert der unabhängigen Variablen X für die abhängige Variable Y 288 Definition 6.16: (Bestimmtheitsmaß) Die Größe s2 B = ext s2 Y heißt Bestimmtheitsmaß der deskriptiven Regression 1. Art. Bemerkungen: [I] • Es gilt stets: 0≤B≤1 289 Bemerkungen: [II] • Es gilt B = 0 genau dann, wenn s2 ext = 0 , d.h. wenn y1 = y2 = . . . = yJ = y =⇒ Alle bedingten Mittel y j sind gleich =⇒ X hat keinen Erklärungswert für Y 2 2 • Es gilt B = 1 genau dann, wenn s2 Y = sext und sint = 0 2 =⇒ Für alle bedingten Varianzen gilt sY |X=ξj = 0 =⇒ X hat höchsten Erklärungswert für Y 290 Bemerkungen: [III] • B gibt den Anteil der durch die Regression 1. Art erklärten Varianz an der Gesamtvarianz von Y an 291 6.3.2 Regression 2. Art: Die lineare Einfachregression Jetzt: • X und Y sind beide metrisch skaliert Ziel: • Erklärung der Abhängigkeit zwischen X und Y durch eine Gerade 292 Ausgangssituation: • Urliste (x1, y1), . . . , (xn, yn) • Regressionsgleichung yi = a + b · xi + ui (i = 1, . . . , n) • a, b sind aus den Daten zu bestimmende Parameter • ui ist die Abweichung (auch Fehler oder Residuum) 293 Problemstellung: • Bestimme die Parameter a und b aus den Daten derart, dass ein ’geeignet definiertes Abweichungsmaß’ für die Residuen minimal wird Definition 6.17: (Lineare Einfachregression) Das Regressionsproblem von Folie 293 nennt man lineare Einfachregression von Y auf X. Beispiel: • Zusammenhang zwischen Ausgaben für Werbung (X) und den Absätzen (Y ) gemessen an 84 Unternehmen in den USA im Jahr 1990 294 Lineare Einfachregression Absatz = 502.92 + 0.218 * Werbeausgaben + Fehler Absatz in Mill. US-$ 560 540 520 500 480 0 20 40 60 80 100 Werbeausgaben in Mill. US-$ 295 Jetzt: • ’Sinnvolle Ermittlung’ der Parameter a und b aus den Daten (x1, y1), . . . , (xn, yn) Dafür zunächst: • Geeignetes Abweichungsmaß für die Residuen ui = yi − (a + b · xi) (vertikaler Abstand des Datenpunktes (xi, yi) von der Regressionsgeraden) 296 Sinnvolles Abstandsmaß ist: Q(α, β) = n X i=1 [yi − (α + β · xi)]2 Bemerkungen: • Die Größen α, β ∈ R sind ’formaler Ersatz’ für die unbekannten Parameter a, b • Die unbekannten Parameter a, b der Regressionsgeraden werden gleich durch spezielle Wahlen von α bzw. β ermittelt 297 Jetzt: • Ermittle a und b durch Minimierung des Abstandsmaßes Q(α, β) bezüglich α und β Bemerkungen: • a und b werden also derart gewählt, dass die Summe der quadrierten Abstände zwischen den Datenpunkten (xi, yi) und der Regressionsgeraden minimal wird • Die Regressionsgerade yi = a + b · xi beschreibt dann die (xi, yi)-Punktwolke im Sinne des gewählten Abstandsmaßes optimal 298 Jetzt: • Mathematische Bestimmung der Parameter a und b Formaler Ablauf: [I] • Bilde die (partiellen) Ableitungen von Q(α, β) n X ∂ Q(α, β) = 2 [yi − (α + β · xi)] · (−1) ∂α i=1 n X ∂ Q(α, β) = 2 [yi − (α + β · xi)] · (−xi) ∂β i=1 299 Formaler Ablauf: [II] • Die jeweiligen Nullstellen der partiellen Ableitungen (bezeichnet mit a und b) liefern das potenzielle Minimum (d.h. die gesuchten Parameterwerte) (notwendige Bedingung) • Es bleibt zu überprüfen, ob die Nullstellen tatsächlich ein Minimum darstellen (hinreichende Bedingung) 300 Endergebnisse: • Die gesuchten Nullstellen ergeben sich als b = n X xi · yi − n · x · y i=1 n X i=1 2 x2 i −n·x sY sXY = 2 = rXY · , sX sX a = y−b·x Definition 6.18: (Kleinste-Quadrate-Methode) Die obige Vorgehensweise zur Bestimmung der Regressionskoeffizienten a und b nennt man die Methode der Kleinsten Quadrate. 301 Offensichtlich: • Zur Berechnung der Kleinste-Quadrate-Koeffizienten benötigt man nur die 4 Größen x, y, s2 X und sXY 302 Bemerkungen: • Für die Regressionsgerade gilt also: y(x) = a + b · x sXY sXY = y − 2 · x + 2 ·x sX sX | {z } | {z } =a =b Für die Regresssionsgerade gilt somit: y(x) = y =⇒ Die Regressionsgerade verläuft durch den Punkt (x, y) • Interpretation der Regressionsgeraden nicht für alle x-Werte sinnvoll 303 Beispiel: • X = Werbeausgaben, Y = Absätze, n = 84 • Es gilt: x = 50.7276, y = 513.9912, s2 X = 297.5332, sXY = 64.9557 Damit ergibt sich: b = 64.9557 = 0.2183 297.5332 a = 513.9912 − 0.2183 · 50.7276 = 502.9174 304 Erinnerung: • Bestimmtheitsmaß B bei Regression 1. Art beschreibt Anteil an der Varianz s2 Y , der durch die Regression erklärt wird Jetzt: • Übetragung dieses Konzeptes auf Regression 2. Art Betrachte dazu: • Werte der Regressionsgerade (ŷi) an den Stellen xi: ŷi = a + b · xi, i = 1, . . . , n 305 Offensichtlich gilt für die y-Daten: yi = a + b · xi + ui = ŷi + ui Bedeutung: • Datenwert yi ist Summe aus Wert auf Regressionsgeraden plus Fehler Nun gilt folgende Varianzzerlegung: 2 2 s2 Y = sŶ + sU 306 Fazit: • Varianz der Y -Werte lässt sich in 2 Teile zerlegen s2 : Varianz der exakt auf der Regressionsgeraden liegenŶ den Werte ŷi (den durch die Regression erklärten Teil der Varianz der 2) Y -Werte sY s2 U : Varianz der Residuen ui (Residualvarianz oder den durch die Regression nicht erklärten Teil der Varianz der Y -Werte s2 Y) 307 Definition 6.19: (Bestimmtheitsmaß) Das Bestimmtheitsmaß der deskriptiven Regression 2. Art definiert man als 2 sŶ 2 s U. R2 = 2 = 1 − 2 sY sY Bemerkungen: [I] • Das R2 ist der Anteil an der Varianz der y-Werte, der durch die Regression erklärt wird • Es gilt: 0 ≤ R2 ≤ 1 308 Bemerkungen: [II] • R2 = 0: 2 , d.h. die Residualvarianz entspricht exakt Es ist dann s2 = s U Y der Varianz der y-Werte. Die Regression selbst liefert keinen Erklärungsbeitrag für die y-Werte • R2 = 1: 2 . Die Regression erklärt die Varianz der = sY Es ist dann s2 Ŷ y-Werte vollständig (Alle Punkte (xi, yi) liegen auf der Regressionsgeraden) 309 Bemerkungen: [III] • Praktische Berechnungsmöglichkeit: 2 sXY 2 q q = (rXY )2 R = 2 · s2 sX Y (R2 entspricht dem Quadrat des Korrelationskoeffizienten von Bravais-Pearson) 310 Beispiel: • Im Beispiel Werbeausgaben ←→ Absatz gilt: sXY 2 q q R = 2 · s2 sX Y = 0.0890 2 = √ 64.9557 √ 297.5332 · 159.309 !2 311 6.4 Lineare Mehrfachregression Jetzt: • Übertragung des Konzeptes auf k Regressoren X1, . . . , Xk (alle metrisch) Regressionsmodell: yi = a + b1 · x1i + . . . + bk · xki + ui, i = 1, . . . , n 312 Analog zu Abschnitt 6.3.2: • Kleinste-Quadrate-Methode: min α,β1,...,βk Q(α, β1, . . . , βk ) mit Q(α, β1, . . . , βk ) = n X i=1 [yi − (α + β1 · x1i + . . . + βk · xki)]2 • Definition des R2: R2 = s2 Ŷ s2 U = 1 − 2 sY s2 Y 313 7. Konzentrations- und Disparitätsmessung Betrachte: • Merkmal X, bei dem alle Daten xi ≥ 0 sind und die MerkPn malssumme i=1 xi eine sinnvolle Interpretation besitzt (extensives Merkmal) 314 Beispiel: • X: Haushaltseinkommen =⇒ Alle xi sind größer oder gleich Null Pn i=1 xi ist Gesamteinkommen der Population Fragestellung: Pn • Wie ist die Merkmalssumme i=1 xi auf die einzelnen Merk- malsträger verteilt? (Konzentration, Ungleichheit) 315 7.1 Disparität und Konzentration Jetzt: • Klärung der Begriffe Ungleichheit (= Disparität) Konzentration 316 Messung von Disparität: • Welcher Anteil der Merkmalssumme fällt auf einen bestimmten Anteil der Merkmalsträger? • Beispiel: Welchen Anteil am Gesamteinkommen einer Bevölkerung vereinigen die 10% Reichsten auf sich? (Anteil des Gesamt-EK ←→ Anteil der Bevölkerung) 317 Messung von Konzentration: • Welcher Anteil der Merkmalssumme fällt auf eine bestimmte Anzahl von Merkmalsträgern? • Beispiel: Welchen Anteil am Gesamtumsatz eines Industriesektors haben die 5 größten Unternehmen? (Anteil des Gesamtumsatzes ←→ Anzahl von Unternehmen) 318 7.2 Konzentrationsmessung Wichtige Grundvoraussetzung: • Die Daten x1, . . . , xn sind absteigend geordnet: x1 ≥ x2 ≥ . . . ≥ xn ≥ 0 Bemerkungen und Bezeichnungen: [I] • An dieser Stelle verzichten wir auf die Schreibweise der geordneten Urliste x(n) ≥ x(n−1) ≥ . . . ≥ x(1) ≥ 0 319 Bemerkungen und Bezeichnungen: [II] • Stattdessen ordnen wir (nötigenfalls) unsere Urliste einfach so um, dass gilt x1 ≥ x2 ≥ . . . ≥ xn ≥ 0 • Es bezeichne xr xr hr = n , = X n·x xi r = 1, . . . , n i=1 den Merkmalsanteil des r-ten Merkmalsträgers an der Merkmalssumme • Wegen x1 ≥ x2 ≥ . . . ≥ xn ≥ 0 gilt für die Merkmalsanteile: h1 ≥ h2 ≥ . . . ≥ hn ≥ 0 320 7.2.1 Konzentrationsraten und Konzentrationskurve Definition 7.1: (Konzentrationsrate i-ter Ordnung) Die Summe der i größten Merkmalsanteile, CR(i) = i X r=1 i X hr = r=1 n X xr xr r=1 heißt Konzentrationsrate der Ordnung i. CR(i) ist der Merkmalsanteil, der auf die i größten Merkmalsträger entfällt. Für i = 0 wird CR(0) = 0 gesetzt. 321 Definition 7.2: (Konzentrationskurve) Zeichnet man für i = 0, . . . , n die Punkte (i, CR(i)) in ein Koordinatensystem und verbindet man die Punkte durch einen linearen Streckenzug, so erhält man die Konzentrationskurve. Bemerkung: • Per Definition beginnt die Konzentrationskurve im Punkt (0, CR(0)) = (0, 0) und endet im Punkt (n, CR(n)) = (n, 1). 322 Beispiel: [I] • Fünf Unternehmen eines Marktes weisen die folgenden Umsätze auf (in Mill. Euro) x1 = 330, x2 = 120, x3 = 90, x4 = 30, x5 = 30 Man beachte: Die Daten sind bereits absteigend geordnet 323 Beispiel: [II] • Arbeitstabelle: i 0 1 2 3 4 5 P xi hi 330 120 90 30 30 600 0.55 0.20 0.15 0.05 0.05 1.00 CR(i) 0 0.55 0.75 0.90 0.95 1.00 324 Beispiel: [III] • Verbinden der Punkte (i, CR(i)) ergibt die Konzentrationskurve: 1 CR(i) 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 i 325 Eigenschaften der Konzentrationskurve: [I] • Die Konzentrationskurve ist der Graph einer Funktion, die das Intervall [0, n] auf das Intervall [0, 1] abbildet. Die Funktion ist stückweise linear und streng monoton wachsend vom Anfangspunkt (0, 0) bis zum Endpunkt (n, 1) • Die Steigung des r-ten Segmentes (r = 1, . . . , n) beträgt CR(r) − CR(r − 1) = hr . 1 Die Steigungen hr nehmen mit wachsendem r ab. Somit ist die Konzentrationskurve konkav 326 Eigenschaften der Konzentrationskurve: [II] • Der Fall maximaler Konzentration: Ein Merkmalsträger vereinigt die gesamte Merkmalssumme auf sich: h1 = 1, h2 = h3 = . . . = hn = 0 Es folgt: CR(0) = 0, CR(1) = CR(2) = . . . = CR(n) = 1 327 Eigenschaften der Konzentrationskurve: [III] • Der Fall minimaler Konzentration (egalitäre Verteilung): Jeder Merkmalsträger hat denselben Anteil 1/n an der Merkmalssumme. Es gilt: h1 = h2 = . . . = hn = 1 n Es folgt: i CR(i) = , n i = 0, . . . , n 328 Offensichtlich gilt: • Jede Konzentrationskurve liegt zwischen den Extremen der maximalen Konzentration und der minimalen Konzentration 1 CR(i) 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 i 329 Naheliegende Vorgehensweise: • Benutze die Konzentrationskurven zweier Grundgesamtheiten (Märkte) zum Vergleich des Ausmaßes der Konzentration in beiden Grundgesamtheiten (Märkten), z.B. zum Vergleich der Konzentration eines Merkmals auf ein und demselben Markt zu verschiedenen Zeitpunkten (zeitlicher Vergleich der Konzentration) der Konzentration eines Merkmals auf zwei unterschiedlichen Märkten zum gleichen Zeitpunkt (räumlicher Vergleich der Konzentration) 330 Beispiel: [I] • Umsätze auf 2 Märkten: Markt I: 38, 12, 106, 34, 10 Markt II: 25, 20, 39, 7, 9 • Man beachte: Daten müssen zunächst geordnet werden 331 Beispiel: [II] • Arbeitstabelle: i 0 1 2 3 4 5 P xi hi 106 38 34 12 10 200 0.53 0.19 0.17 0.06 0.05 1.00 CRI (i) 0 0.53 0.72 0.89 0.95 1.00 xi hi 39 25 20 9 7 100 0.39 0.25 0.20 0.09 0.07 1.00 CRII (i) 0 0.39 0.64 0.84 0.93 1.00 332 Beispiel: [III] • Konzentrationskurven CRI und CRII : 1 CR(i) 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 i 333 Offensichtlich: • Markt I weist gleichmäßig höhere Konzentration als Markt II auf Häufiges praktisches Problem: • Konzentrationskurven CRI und CRII schneiden sich −→ Kein eindeutiger Konzentrationsvergleich möglich 334 Ausweg: • Beschreibe Konzentrationsausmaß in einer Grundgesamtheit durch geeignete Zahlen (Indizes) −→ Eindeutiger Konzentrationsvergleich durch Vergleich von Zahlen ist immer möglich 335 7.2.2 Konzentrationsindizes Hier nur zwei Indizes: • Herfindahl- und Rosenbluth-Index Definition 7.3: (Herfindahl-Index) Die Summe der quadrierten Merkmalsanteile KH = n X h2 i i=1 bezeichnet man als Herfindahl-Index. 336 Bemerkungen: • Der Herfindahl-Index ist normiert. Es gilt 1 ≤ KH ≤ 1 n • Es gilt KH = 1/n genau dann, wenn minimale Konzentration vorliegt • Es gilt KH = 1 genau dann, wenn maximale Konzentration vorliegt 337 Jetzt: • Index, der die ’Biegung’ der Konzentrationskurve ausnutzt Erinnerung: • Bei maximaler Konzentration ist die Konzentrationskurve ’maximal gebogen’ • Bei egalitärer Verteilung ist die Konzentrationskurve gar nicht gebogen (sondern eine Gerade) 338 Dehalb: • Fläche A innerhalb des Rechtecks [0, n] × [0, 1], die oberhalb der Konzentrationskurve liegt, ist sinnvolle Maßzahl für die Konzentration des Merkmals ’Kleines’ A −→ ’hohe Konzentration’ ’Großes’ A −→ ’geringe Konzentration’ Jetzt: • Formale Berechnung des Flächeninhaltes A 339 Zur Berechnung des Rosenbluth-Index 1 CR(i) 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 i 340 Zunächst: • Berechnung der Flächeninhalte A1, . . . , A5 A1 = 2·1−1 h1 = h1 · 2 2 1 3 2·2−1 A2 = h2 · 2 − · h2 = · h2 = h2 · 2 2 2 A3 = h3 · 3 − 1 5 2·3−1 · h3 = · h3 = h3 · 2 2 2 7 2·4−1 1 A4 = h4 · 4 − · h4 = · h4 = h4 · 2 2 2 A5 = h5 · 5 − 2·5−1 1 9 · h5 = · h5 = h5 · 2 2 2 341 Allgemein gilt für alle i = 1, . . . , n: 2i − 1 Ai = hi · 2 Somit folgt für den gesuchten Flächeninhalt A: n X n X 2i − 1 1 hi · A = = Ai = hi · (i − ) 2 2 i=1 i=1 i=1 n X n 1 X hi · i − hi = 2 i=1 i=1 n X = n X i=1 hi · i − 1 2 342 Jetzt: • Definition eines Konzentrationsindexes basierend auf dem Flächeninhalt A Definition 7.4: (Rosenbluth-Index) Der Rosenbluth-Index ist definiert als 1 1 KR = . = n 2A X 2 i · hi − 1 i=1 343 Bemerkungen: • Der Rosenbluth-Index ist normiert. Es gilt 1 ≤ KR ≤ 1 n • Es gilt KR = 1/n genau dann, wenn minimale Konzentration vorliegt • Es gilt KR = 1 genau dann, wenn maximale Konzentration vorliegt 344 7.3 Disparitätsmessung Wichtige Grundvoraussetzung: • Die Daten x1, . . . , xn sind aufsteigend geordnet: 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn (vgl. Folie 319) 345 Weitere Bezeichnungen: • Wie bei der Konzentrationsmessung bezeichne xr hr = n X xi i=1 den Anteil des r-ten Merkmalsträgers an der Merkmalssumme • Wegen 0 ≤ x1 ≤ . . . ≤ xn gilt für die Merkmalsanteile: 0 ≤ h1 ≤ h2 ≤ . . . ≤ hn Frage: • Welchen Anteil an der Merkmalssumme vereinigen bestimmte Anteile der Population auf sich? 346 7.3.1 Lorenzkurve Definition 7.5: (Lorenzkurve) Für i = 1, . . . , n bezeichne i X i X xr i hr = r=1 L = n X n r=1 xr r=1 den Anteil der i kleinsten Merkmalsträger an der Merkmalssumme. Zeichnet man nun die Punkte 2 n−1 1 1 2 n−1 ,L , ,L ,..., ,L , (1, 1) (0, 0), n n n n n n in ein Koordinatensystem und verbindet man diese durch einen linearen Streckenzug, so erhält man die Lorenzkurve der Daten x1 , . . . , x n . 347 Bemerkung: • Die Lorenzkurve ordnet dem Anteil i/n der i kleinsten Merkmalsträger der Population den dazugehörigen Merkmalsanteil L(i/n) an der Grundgesamtheit zu. Die Lorenzkurve trägt somit zwei Anteile gegeneinander ab Beispiel: [I] (vgl. Folie 323) • Fünf Unternehmen eines Marktes weisen die folgenden Umsätze auf (in Mill. Euro) x1 = 330, x2 = 120, x3 = 90, x4 = 30, x5 = 30 348 Beispiel: [II] • Umordnung (vom kleinsten zum größten) ergibt folgende Arbeitstabelle: i 1 2 3 4 5 P xi 30 30 90 120 330 600 hi 0.05 0.05 0.15 0.20 0.55 1.00 P L( 5i ) = ir=1 hr 0.05 0.10 0.25 0.45 1.00 349 Lorenzkurve: 1 L(i/n) 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 i/n 350 Eigenschaften der Lorenzkurve: [I] • Der Graph der Lorenzkurve befindet sich im Einheitsquadrat. Es gilt L(0) = 0 und L(1) = 1. Die Lorenzkurve ist stückweise linear, streng monoton wachsend und konvex. • Der Fall minimaler Disparität (absolute Gleichheit): Gilt x1 = x2 = . . . = xn, so folgt h1 = h2 = . . . = hn Dies impliziert L(i/n) = i/n, i = 0, . . . , n (Lorenzkurve ist die Diagonale im Einheitsquadrat) 351 Eigenschaften der Lorenzkurve: [II] • Der Fall maximaler Disparität (absolute Ungleichheit): Die gesamte Merkmalssumme entfällt auf einen (den größten) Merkmalsträger: x1 = x2 = . . . = xn−1 = 0, xn = n X xi i=1 Es folgt h1 = h2 = . . . = hn−1 = 0, hn = 1 Dies impliziert 2 n−1 1 =L = ... = L = 0, L n n n (Lorenzkurve ist ’maximal’ gebogen) L(1) = 1 352 Lorenzkurven minimaler und maximaler Disparität: L(i/n) 1 0 0 1 i/n 353 Es gilt: • Jede Lorenzkurve liegt zwischen den Extremen der minimalen Disparität (absolute Gleichheit) und der maximalen Disparität (absolute Ungleichheit) • Wenn sich zwei Lorenzkurven nicht schneiden, weist die höhere Lorenzkurve eindeutig weniger Disparität auf als die niedrigere Lorenzkurve 354 Praktisches Problem: • Lorenzkurven schneiden sich in vielen Fällen −→ Kein eindeutiger Disparitätsvergleich möglich Ausweg: • Beschreibe Ausmaß der Disparität durch einen Index −→ Disparitätsvergleich anhand von Zahlen 355 7.3.2 Der Gini-Koeffizient Bekanntester Disparitätsindex: • Der Gini-Koeffizient Intuition: • Gini-Koeffizient nutzt ’Biegung’ der Lorenzkurve aus 356 Definition 7.6: (Gini-Koeffizient) Der Gini-Koeffizient (in Zeichen: DG) ist definiert als das Zweifache der Fläche zwischen der Lorenzkurve und der Diagonalen im Einheitsquadrat. Formale Darstellung: [I] • Es bezeichne B die Fläche unterhalb der Lorenzkurve im Einheitsquadrat. Dann gilt: 1 − B = 1 − 2B DG = 2 · 2 357 Zur Berechnung des Gini-Koeffizienten L(i/n) 1 0 0 1 i/n 358 Formale Darstellung: [II] • Man kann zeigen, dass gilt: B= n X Bi = i=1 • Damit folgt DG = 1 − 2B = 1 − n X n X i=1 n X i=1 hi · hi · 2n − 2i + 1 2n 2n − 2i + 1 n n X 2n − 2i + 1 2n − 2i + 1 = = hi · 1 − hi − hi · n n i=1 i=1 i=1 = n X i=1 n X hi · 2i − n − 1 n 359 Bemerkungen: • Der Gini-Koeffizient ist normiert. Es gilt 0 ≤ DG ≤ 1 − 1 n • Es gilt DG = 0 genau dann, wenn minimale Disparität (absolute Gleichheit) vorliegt • Es gilt DG = 1 − 1/n genau dann, wenn maximale Disparität (absolute Ungleichheit) vorliegt 360 Beispiel: (vgl. Folie 348) • Gini-Koeffizient für die 5 Unternehmen eines Marktes Arbeitstabelle: i xi hi 1 2 3 4 5 30 30 90 120 330 600 0.05 0.05 0.15 0.20 0.55 1.00 P L( 5i ) = Pi r=1 hr 0.05 0.10 0.25 0.45 1.00 2i−5−1 5 2i−5−1 h i 5 −0.8 −0.4 0.00 0.4 0.8 0 −0.04 −0.02 0.00 0.08 0.44 0.46 = DG 361