Gliederung Sommersemester 2003 Deskriptive Statistik PD Dr. Thomas Beißinger 1. Einführung 1.1. Vorbemerkungen 1.2. Begriff und Aufgaben der Statistik 2.3.1. Lorenzkurve und Gini-Koeffizient 2.3. Konzentrationsmaße 2.3.2. Alternative Konzentrationsmaße 2.4.1. Dichtekurven 2.4. Dichtekurven und Normalverteilung 2.4.2. Normalverteilungen 2.4.3. Approximation von Dichtekurven 3. Multivariate Deskription und Exploration von Daten 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle 3.1. Diskrete und gruppierte Merkmale 3.1.2. Bedingte Häufigkeiten 3.2.1. Chancen und relative Chancen 3.2. Zusammenhanganalyse in Kontingenztabellen 1.3.1. Statistische Einheit, Grundgesamtheit und Stichprobe 1.3. Statistische Grundbegriffe 3.2.2. Kontingenz und F 2 -Koeffizient 3.3.2. Zweidimensionale Histogramme und Dichten 3.3.1. Streudiagramm 3.3. Graphische Darstellungen quantitativer Merkmale 1.3.2. Statistische Merkmale 1.3.3. Skalentypen 3.3.3. Mehrdimensionale Darstellungen 1.4. Datenerhebung 1.4.1. Formen der Datenerhebung 3.6.4. Nichtlineare Regression 3.6.3. Bestimmtheitsmaß und Residualanalyse 3.6.2. Die Berechnung der Ausgleichsgeraden 3.6.1. Das lineare Regressionsmodell 3.6. Regression 3.5. Korrelation und Kausalität 3.4.3. Invarianzeigenschaften 3.4.2. Spearmans Korrelationskoeffizient 3.4.1. Korrelationskoeffizient nach Bravais-Pearson 3.4. Zusammenhangmaße bei metrischen Merkmalen 1.4.2. Datenquellen 2. Univariate Deskription und Exploration von Daten 2.1. Häufigkeitsverteilungen und ihre Darstellungen 2.1.1. Häufigkeiten 2.1.2. Tabellarische Darstellungen 2.1.3. Graphische Darstellungen 2.1.4. Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion 2.2.1. Lagemaße 2.2. Beschreibung von Verteilungen 2.2.2. Quantile und Box-Plot 2.2.3. Standardabweichung, Varianz und Varianzkoeffizient 2.2.4. Maßzahlen für Schiefe und Wölbung 4. Zeitreihenanalyse 4.1. Grundlagen 4.1.1. Gegenstand 4.1.2. Graphische Darstellung 4.1.3. Komponenten von Zeitreihen und ihre Verknüpfung 4.1.4. Empirische Autokorrelation 4.2. Komponentenmodelle 4.2.1. Bestimmung der glatten Komponente bzw. des Trends PD Dr. Thomas Beißinger Universität Kaiserslautern Sommersemester 2003 4.2.2. Bestimmung der Saisonkomponenten 4.2.3. Weitere Verfahren 5. Indexzahlen 5.1. Grundlagen 5.2. Preisindizes 5.2.1. Grundgedanke 5.2.2. Preisindex nach Laspeyres 5.2.3. Preisindex nach Paasche 5.2.4. Vergleich der Preisindizes 5.3. Mengenindizes 5.4. Wertindizes 5.5. Indexzahlprobleme 5.5.1. Probleme der Indexkonstruktion 5.5.2. Indexumrechnungen 5.6.1. Indizes aus dem Bereich der Produktion 5.6. Beispiele für Indexzahlen 5.6.2. Indizes aus dem Bereich des Verbrauchs 5.6.3. Indizes aus dem Bereich der Außenwirtschaft Deskriptive Statistik A basic literacy in statistics will one day be as necessary for efficient citizenship as the ability to read and write (H. G. Wells) Man hat behauptet, die Welt werde durch Zahlen regiert: das aber weiß ich, dass die Zahlen uns belehren, ob sie gut oder schlecht regiert werde. (Goethe, Gespräche mit Eckermann) Hinweise zur Veranstaltung Unterlagen zur Vorlesung finden sich im Internet unter: http//www.wiwi.uni-regensburg.de/beissinger/courses Email: [email protected] Sprechstunde: Do, 14-15 Uhr Telefon Sekretariat: 0631/205-2798 Übung von Dipl.-Kauffrau Karola Schmitt am Fr, 15.30-17.00 PD Dr. Thomas Beißinger 3 Literatur Bourier, G., Beschreibende Statistik, Praxisorientierte Einführung, 4. Auflage, Wiesbaden: Gabler, 2001. Fahrmeir, L., Künstler, R., Pigeot, I. und Tutz, G., Statistik, Der Weg zur Datenanalyse, 4. Auflage, Berlin, Heidelberg: Springer, 2003. Pinnekamp, H.-J. und Siegman, F., Deskriptive Statistik, 4. Auflage, München, Wien: Oldenbourg, 2001. Schulze, P.M., Beschreibende Statistik, 4. Auflage, München, Wien: Oldenbourg, 2000. Schwarze, J., Grundlagen der Statistik I, Beschreibende Verfahren, 9. Auflage, Herne/Berlin: Verlag Neue Wirtschafts-Briefe, 2001 PD Dr. Thomas Beißinger 4 1. Einführung 1.1 Vorbemerkungen: Missbrauch der Statistik „Es gibt die Notlüge, es gibt die gemeine Lüge und es gibt die Statistik“ „Wir benutzen die Statistik nur zu oft wie ein Betrunkener einen Laternenpfahl: vor allem zur Stütze unseres Standpunkts und weniger zum Beleuchten eines Sachverhalts“ „Ich glaube keiner Statistik außer der, die ich selbst gefälscht habe“ Methoden der Statistik werden – bewusst oder unbewusst – oft falsch angewendet. PD Dr. Thomas Beißinger 5 1.1 Vorbemerkungen Beispiel für mögliche Fehlerquelle: Scheinkorrelation: Fehlinterpretation einer Korrelation (Missachtung einer dritten Einflussgröße) Beispiel: „Je mehr Feuerwehrleute einen Brand bekämpfen, desto größer wird der Brandschaden“ Anzahl Feuerwehrleute Scheinkorrelation + + Brandschaden + Größe des Brandes PD Dr. Thomas Beißinger 6 1.1 Vorbemerkungen Weiteres Beispiel für Scheinkorrelation: Es lässt sich für einige Länder Korrelation zw. Zahl der Störche und Geburtenrate nachweisen: # Störche # Geburten PD Dr. Thomas Beißinger 7 1.1 Vorbemerkungen Weiteres Beispiel für Scheinkorrelation: Es gibt eine hohe positive Korrelation zwischen der Anzahl der Kirchen und der Anzahl der Verbrechen in einem Ort Schließung der Kirchen als Mittel zur Verbrechensbekämpfung? Beide Variablen werden durch eine weitere Variable, nämlich die Größe der Stadt, beeinflusst. PD Dr. Thomas Beißinger 8 1.1 Vorbemerkungen Die Interpretation von Ergebnissen wird oft durch die Wahl des Bezugsmaßes beeinflusst. Beispiel: Ist das Flugzeug das sicherste Verkehrsmittel? Ja: Bahn: 9 Todesopfer pro 10 Milliarden Passagierkilometer Flugzeug: 3 Todesopfer pro 10 Milliarden Passagierkilometer Aber: Falls die Zeit im Verkehrsmittel zugrundegelegt wird: Bahn: 7 Todesopfer pro 10 Millionen Passagierstunden Flugzeug: 24 Todesopfer pro 10 Millionen Passagierstunden PD Dr. Thomas Beißinger 9 1.1 Vorbemerkungen Selektionseffekte: „Schüler aus öffentlichen Schulen schneiden in Prüfungen im Mittel schlechter ab als Schüler aus Privatschulen“ Folgerung: Öffentliche Schulen sind schlechter Aber: - Gute Schüler werden eher in Privatschulen geschickt - Eltern von Privatschülern haben ein größeres Interesse an den Schulleistungen ihrer Kinder Fazit: „Data-analysis is an aid to thought, not a substitute“ (Green und Hall, 1984, S. 52) PD Dr. Thomas Beißinger 10 1.2 Begriff und Aufgaben der Statistik 2 Bedeutungen des Begriffs Statistik: a) Zusammenstellung von Zahlen oder Daten z.B. Umsatzstatistik einer Unternehmung Bevölkerungsstatistik der BRD Zulassungsstatistik von Kraftfahrzeugen b) Entwicklung und Anwendung von Methoden zur Erhebung, Aufbereitung, Analyse und Interpretation von Daten z.B. Datenmaterial aus einer Volkszählung wird mittels statistischer Verfahren komprimiert und analysiert. Ziel sind z.B. Aussagen über die Bevölkerungsstruktur PD Dr. Thomas Beißinger 11 1.2 Begriff und Aufgaben der Statistik Teilgebiete der Statistik a) Deskriptive (oder beschreibende) Statistik Statistische Methoden zur Beschreibung und Zusammenfassung von Daten in Form von Graphiken, Tabellen oder einzelnen Kenngrößen (statistische Maßzahlen). Die Ergebnisse beziehen sich ausschließlich auf die untersuchten Objekte. b) Induktive (oder schließende) Statistik Schätzung von Parametern und Überprüfung von Hypothesen. Von den Verhältnissen in der untersuchten Teilmenge wird mittels wahrscheinlichkeitstheoretischer Methoden auf die Verhältnisse in der Grundgesamtheit geschlossen. PD Dr. Thomas Beißinger 12 1.2 Begriff und Aufgaben der Statistik Ablauf einer statistischen Untersuchung Planung Erhebung Aufbereitung Auswertung Interpretation Untersuchungszweck; Abgrenzung der Untersuchung organisatorische Vorbereitung; Auswahl statistischer Verfahren Gewinnung des statistischen Zahlenmaterials Ordnung und Verdichtung des Datenmaterials; Untersuchung auf Datenfehler; Zusammenfassung in Tabellen und/oder graphischen Darstellungen Weitere Analyse des aufbereiteten Datenmaterials durch Anwendung statistischer Methoden, z.B. Konzentrationsmessung, Regressions- und Korrelationsanalyse etc. Zusammenfassung der Ergebnisse; Schlussfolgerungen PD Dr. Thomas Beißinger 13 1.3 Statistische Grundbegriffe 1.3.1 Statistische Einheit, Grundgesamtheit und Stichprobe Statistische Einheit (Merkmalsträger) Einzelobjekt einer statistischen Untersuchung; Träger der Information(en), für die man sich bei der Untersuchung interessiert. Beispiele für statistische Einheiten: • Unternehmen beim IFO-Konjunkturtest • Bäume bei Waldschadenserhebung • Bankkunden bei Kreditwürdigkeitsüberprüfung • Wohnungen im Mietspiegel PD Dr. Thomas Beißinger 14 1.3 Statistische Grundbegriffe Grundgesamtheit (statistische Masse) Menge aller statistischen Einheiten mit übereinstimmenden Identifikationskriterien. Die sachlichen, räumlichen und zeitlichen Identifikationskriterien ergeben sich aus der Zielsetzung der statistischen Untersuchung Die richtige Abgrenzung der Grundgesamtheit ist für den Erfolg der Untersuchung entscheidend und in vielen Fällen alles andere als trivial. PD Dr. Thomas Beißinger 15 1.3 Statistische Grundbegriffe Beispiel: Arbeitslose in der Bundesrepublik Deutschland Zeitliche Abgrenzung: z.B. am 31.12.2002 Räumliche Abgrenzung: Bundesgebiet Sachliche Abgrenzung: ist keineswegs eindeutig Abgrenzung in der amtlichen Statistik: Arbeitslos ist, wer • bei Arbeitsamt als arbeitssuchend registriert ist • mehr als 18 Stunden in der Woche für einen Zeitraum von mehr als 3 Monaten arbeiten will • älter als 15 und jünger als 65 Jahre ist • dem Arbeitsmarkt sofort zur Verfügung steht Somit sind z.B. nicht als arbeitslos erfasst: • Personen, die nicht registriert sind • Personen in ABM-Maßnahmen oder in Umschulungsmaßnahmen • Personen, die weniger als 18 Stunden arbeiten wollen usw. In anderen Ländern: andere Abgrenzung ⇒ internationale Vergleich schwierig PD Dr. Thomas Beißinger 16 1.3 Statistische Grundbegriffe Bei der zeitlichen Abgrenzung einer statistischen Masse unterscheidet man: Bestandsmassen: beziehen sich auf einen Zeitpunkt Beispiele: - Wohnbevölkerung eines Landes zum Stichtag einer Volkszählung - Bilanzierungsgrößen einer Unternehmung zum 31.12. eines Jahres - Flaschenbiervorrat von Peter am 31.12. Bewegungsmassen (Ereignismassen): beziehen sich auf einen Zeitraum Beispiele: - Sterbefälle in der BRD in einem bestimmten Jahr - Höhe der privaten Investitionen in der BRD innerhalb eines Jahres PD Dr. Thomas Beißinger 17 1.3 Statistische Grundbegriffe Korrespondierende Massen: eine Bestandsmasse und die Bewegungsmassen, die die Veränderungen der Bestandsmasse beschreiben Fortschreibung: die fortlaufende Ergänzung der Bestandsmasse durch ihre korrespondierenden Bewegungsmassen Beispiel für Fortschreibung: Bestandsmasse: Lagerbestand des Produkts A im Unternehmen Y am 31.12.2001, 24.00 h (Anfangsbestand) korrespondierende ­ Lagerzugänge des Prod. A im Unt. Y im Jahr 2002 ® Bewegungsmassen:¯ Lagerabgänge des Prod. A im Unt. Y im Jahr 2002 Bestandsmasse: Lagerbestand des Produkts A um Unternehmen Y am 31.12.2002, 24.00 h (Endbestand) PD Dr. Thomas Beißinger 18 1.3 Statistische Grundbegriffe Wird bei einer statistischen Untersuchung nur ein Teil der interessierenden Masse erfasst, dann heißt dieser Teil Stichprobe. Achtung: Die Ergebnisse, die in der Deskriptiven Statistik gewonnen werden, beziehen sich immer nur auf die tatsächlich untersuchte Masse (Stichprobe oder Grundgesamtheit). Eine Verallgemeinerung oder Übertragung auf eine übergeordnete Masse ist unzulässig. PD Dr. Thomas Beißinger 19 1.3 Statistische Grundbegriffe Deskriptive Statistik Grundgesamtheit Induktive Induktive Statistik Statistik best. Auswahlverfahren Stichprobe Deskriptive Statistik PD Dr. Thomas Beißinger 20 1.3 Statistische Grundbegriffe 1.3.2 Statistische Merkmale Eine bei einer statistischen Untersuchung interessierende Eigenschaft einer statistischen Einheit heißt Merkmal. Die möglichen Werte (Kategorien), die ein Merkmal annehmen kann, heißen Merkmalsausprägungen. Die an einer bestimmten statistischen Einheit hinsichtlich eines bestimmten Merkmals festgestellte Merkmalsausprägung heißt Beobachtungswert oder Merkmalswert. PD Dr. Thomas Beißinger 21 1.3 Statistische Grundbegriffe Statistische Einheit Merkmale Merkmalsausprägungen Geschlecht weiblich, männlich Alter 10J., 14J., 88J., ... Haarfarbe blond, schwarz, weiß,... Bildungsabschluss Abitur, Realschule,... Körpergröße 137cm, 156cm, .... Beobachtungswerte für eine statistische Einheit: (Frau Maier, weiblich, 90 Jahre, Abitur, ....) PD Dr. Thomas Beißinger 22 1.3 Statistische Grundbegriffe Die statistische Einheit i (i = 1,...,n) wird im Datensatz repräsentiert durch • Skalar xi : Beobachtungswert für statistische Einheit i, d.h. die am Merkmalsträger i erhobene Ausprägung des Merkmals X (univariat bzw. eindimensional) • m-Tupel xi ( xi1 , xi 2 ,...xim ) : Ausprägungen, die bei statistischer Einheit i hinsichtlich der Merkmale X 1 , X 2 ,..., X m realisiert wurden (multivariat bzw. mehrdimensional) PD Dr. Thomas Beißinger 23 1.3 Statistische Grundbegriffe Der gesamte Datenbestand ist dann in folgender Matrix zusammengefasst: § x11 ! x1 j ! x1m · ¨ # # # ¸ ¨ ¸ ¨ xi1 ! xij ! xim ¸ ¨ ¸ # # # ¨ ¸ ¨x ! x ! x ¸ nj nm ¹ © n1 Merkmalsträger i Merkmal j PD Dr. Thomas Beißinger 24 1.3 Statistische Grundbegriffe Merkmalarten „Numerische Qualität“ Qualitative (kategoriale) Merkmale Quantitative (metrische) Merkmale „Anzahl“ artmäßige Merkmale intensitätsmäßige Merkmale „feststellen“ „vergleichen“ Beruf, Geschlecht Schulnote, Weingüte diskrete Merkmale stetige Merkmale „zählen“ „messen“ Kinderzahl, Kfz-Bestand Körpergröße, Geschwindigkeit In Literatur auch: intensitätsmäßige Merkmale als eigene Gruppe zwischen qualitativen und quantitativen Merkmalen. PD Dr. Thomas Beißinger 25 1.3 Statistische Grundbegriffe Zwischenformen bei quantitativen Merkmalen: • Quasi-stetiges Merkmal: kann im Prinzip nur diskret gemessen werden; wird aber aufgrund sehr feiner Abstufung wie stetiges Merkmal behandelt Beispiel: monetäre Größen wie Einkommen, Umsatz etc. • Ein stetiges Merkmal kann durch Klassierung (Gruppierung) als diskretes Merkmal behandelt werden, d.h. durch Zusammenfassung der Merkmalsausprägungen zu Klassen (Gruppen) Beispiel: Körpergröße von mindestens 120 cm und unter 140 cm, mindestens 140 cm und unter 160 cm usw. Eine Klassierung kann auch bei quasi-stetigen und diskreten Merkmalen vorgenommen werden. PD Dr. Thomas Beißinger 26 1.3 Statistische Grundbegriffe Häufbares Merkmal: Ein Merkmal heißt häufbar, wenn an derselben statistischen Einheit mehrere Ausprägungen des betreffenden Merkmals vorkommen können Bei einem häufbaren Merkmal muß man bei der Datenerhebung „Mehrfachnennungen“ zulassen Beispiele: Erlernter Beruf: Koch und Installateur Unfallursache: überhöhte Geschwindigkeit und Trunkenheit am Steuer Krankheit: Lungenentzündung und Kreislaufschwäche PD Dr. Thomas Beißinger 27 1.3 Statistische Grundbegriffe 1.3.3 Skalentypen • Je nach Art des betrachteten Merkmals können seine Ausprägungen nach bestimmten Regeln in Zahlen ausgedrückt werden. • Diese Messung geschieht anhand verschiedener Skalen. • Die Unterscheidung solcher Skalen ist deshalb von Bedeutung, weil davon die Art der anzuwendenden statistischen Verfahren abhängt. PD Dr. Thomas Beißinger 28 1.3 Statistische Grundbegriffe I. Nominalskala • Wird bei artmäßigen Merkmalen verwendet. • Merkmalsausprägungen drücken lediglich Verschiedenartigkeit aus • Nominalskalierte Merkmale (und nur diese!) sind u.U. häufbar • Die Merkmalsausprägungen können durch beliebige Symbole (numerisch und nichtnumerisch) bezeichnet werden (z.B. Autonummern, Steuerklassen, Postleitzahlen etc.) • Kodierung: Zuordnung von Zahlen zu Ausprägungen, z.B. 1=weiblich, 0=männlich • Jede Zahlenzuordnung kann durch eine eineindeutige Transformation in eine andere Zahlenzuordnung übergeführt werden, z.B. 1 = männlich, 0=weiblich • Kein Rechnen mit Zahlen möglich; keine Ordnung der Ausprägungen PD Dr. Thomas Beißinger 29 1.3 Statistische Grundbegriffe II. Ordinalskala (Rangskala) • Wird bei intensitätsmäßigen Merkmalen verwendet. • Merkmalsausprägungen drücken Verschiedenartigkeit aus und können in eine Rangfolge gebracht werden • Aber: Abstände zwischen Zahlen sind nicht interpretierbar • Die Symbole, die die Merkmalsausprägungen bezeichnen, können beliebiger Art sein, sofern nur die Rangfolge zwischen ihnen definiert ist, z.B. Lebensmittelgüteklassen, Zeugnisnoten etc. • Werden den Merkmalsausprägungen Zahlen zugewiesen, so gilt: jede streng monoton steigende Transformation führt zu einer neuen zulässigen Zahlenzuordnung PD Dr. Thomas Beißinger 30 1.3 Statistische Grundbegriffe III. Kardinalskala (metrische Skala) • Wird bei quantitativen Merkmalen verwendet. • Merkmalsausprägungen drücken Verschiedenartigkeit aus und können in eine Rangfolge gebracht werden. Zusätzlich können auf jeden Fall auch die Abstände zwischen Ausprägungen verglichen werden. • Beispiele sind alle Werte mit einer Dimension (kg, cm, kWh, °C, usw.) • Je nachdem, ob natürlicher Nullpunkt und natürliche Einheit vorliegt, unterscheidet man: • Intervallskala • Verhältnisskala • Absolutskala PD Dr. Thomas Beißinger 31 1.3 Statistische Grundbegriffe a) Intervallskala • Es handelt sich um eine metrische Skala ohne natürlichen Nullpunkt und ohne natürliche Einheit • Differenzen zwischen Ausprägungen lassen sich vergleichen; die Bildung von Quotienten (Verhältnissen) von Skalenwerten ist aber nicht zulässig • Zulässige Zahlentransformationen: Y aX b, a ! 0, b beliebig PD Dr. Thomas Beißinger 32 1.3 Statistische Grundbegriffe Beispiel: Temperatur in zwei Behältern (A, B) mit Wasser Behälter A: 60°C; Behälter B: 30°C Aussage „Behälter A ist doppelt so warm wie B“ ist falsch Grund: Nullpunkt willkürlich bei Gefrierpunkt reinen Wassers Dagegen bei Fahrenheit: Nullpunkt bei Gefrierpunkt von Salzwasser Behälter A: 140°F; Behälter B: 86°F Quotient unterscheidet sich offensichtlich von Celsiusskala Falls dritter Behälter C mit 15°C = 59°F: Temperaturintervall (A-B) ist doppelt so groß wie (B-C): (60°C-30°C) =30°C ist doppelt so groß wie (30°C-15°C)=15°C (140°F-86°F)=54°F ist doppelt so groß wie (86°F-59°F) =27°F Fazit: Abstände lassen sich vergleichen PD Dr. Thomas Beißinger 33 1.3 Statistische Grundbegriffe Weiteres Beispiel: Zeit in Jahren Zwischen 1940 und 1990 ist genauso viel Zeit vergangen wie zwischen 1840 und 1890. Die Festlegung des Jahres Null ist aber willkürlich. In anderen Kulturen: Zeit ebenfalls oft in Jahren gemessen Aber z.B. jüdischer Kalender: Jahr Null = 3761 v. Ch. Mohammedanischer Kalender: Jahr Null = 622 n. Ch. PD Dr. Thomas Beißinger 34 1.3 Statistische Grundbegriffe b) Verhältnisskala • Es handelt sich um eine metrische Skala mit natürlichen Nullpunkt, aber ohne natürliche Einheit • Zusätzlich zum Vergleich von Differenzen ist bei dieser Skala die Bildung von Quotienten (Verhältnissen) von Skalenwerten zulässig • Entfernungen, Volumina, Gewichte usw. werden auf einer Verhältnisskala gemessen • Zulässige Zahlentransformation: Y aX , a ! 0 Beispiel: Das Verhältnis der Entfernungen 6 km und 3 km ist das gleiche wie das von 28 km und 14 km, aber größer als das von 35 km und 20 km. Misst man die Entfernungen in Meilen, dann bleiben die Verhältnisse gleich. PD Dr. Thomas Beißinger 35 1.3 Statistische Grundbegriffe c) Absolutskala • Eine metrische Skala mit natürlichen Nullpunkt und natürlicher Einheit heißt Absolutskala • Beispiele: Stückzahlen, Anzahl der Kinder • Zulässige Transformation: Y X PD Dr. Thomas Beißinger 36 1.3 Statistische Grundbegriffe Skalenhierarchie Absolutskala Verhältnisskala Intervallskala Ordinalskala Nominalskala Höherskalierte Merkmale lassen sich in niedriger skalierte Merkmale überführen (Niveauregression) Beispiel: Das verhältnisskalierte Merkmal Körpergröße (165 cm, 181 cm etc.) wird ordinal-skaliert formuliert (klein, mittel, groß, sehr groß) abnehmendes Informationsniveau PD Dr. Thomas Beißinger 37 1.4 Datenerhebung 1.4.1 Formen der Datenerhebung Befragung a) schriftlich durch Fragebogen b) persönlich durch Interviewer Beobachtung a) Zählung (Verkehrszählung, Zählung der Kunden vor Kasse etc.) b) Messung (Messung des Durchmessers von Werkstücken etc.) Experiment (z.B. Registrierung des Verhaltens von Testpersonen in hypothetischen Entscheidungssituationen) automatische Erfassung Erhebung erfolgt automatisch mit Hilfe von Messgeräten (z.B. Strom- und Wasserverbrauch; Telefoneinheiten etc.) PD Dr. Thomas Beißinger 38 1.4 Datenerhebung „Wie ist Ihr Familienstand?“ - „Miserabel!“ Entnommen aus: Becker, B. (1993), Statistik, München, Wien: Oldenbourg, S. 75 PD Dr. Thomas Beißinger 39 1.4 Datenerhebung 1.4.2 Datenquellen a) Primärerhebung: Vollerhebung: Teilerhebung: Daten werden eigens für Untersuchung erhoben alle Elemente der Grundgesamtheit werden in die Erhebung miteinbezogen Nur ein Teil der Grundgesamtheit wird in Erhebung einbezogen (Stichprobe) b) Sekundärerhebung: Verwendung von Daten, die bereits für andere Zwecke erhoben wurden Vorteil von a) gegenüber b): Größere Flexibilität; Erhebung kann genau dem Untersuchungszweck angepasst werden Nachteil von a) gegenüber b): Hoher Arbeitsaufwand; hohe Kosten PD Dr. Thomas Beißinger 40 Literaturhinweise zu Kapitel 1 Als Ergänzung und Vertiefung können beispielsweise folgende Bücher hinzugezogen werden: Bourier (2001), S. 1-33. Fahrmeir et al. (2003), S. 1-25. Pinnekamp und Siegman (2001), S. 1-22. Schulze (2000), S. 1-16. Schwarze (2001), S. 11-42. PD Dr. Thomas Beißinger 41 2. Univariate Deskription und Exploration von Daten 2.1 Häufigkeitsverteilungen und ihre Darstellungen 2.1.1 Häufigkeiten An n statistischen Einheiten wird ein nicht-häufbares Merkmal X beobachtet, bzw. gemessen Urliste (Rohdaten, Primärdaten): x1,..., xn Die verschiedenen Merkmalsausprägungen in der Urliste seien a1, a2 ,...ak , k d n Es wird angenommen, dass die Werte der Größe nach geordnet sind: a1 a2 ... ak (bei Nominalskala keine inhaltliche Bedeutung!) Bei qualitativen Merkmalen ist k häufig sehr viel kleiner als n Bei quantitativen Merkmalen ist k häufig fast oder ebenso groß wie n PD Dr. Thomas Beißinger 1 2.1.1 Häufigkeiten h(a j ) hj absolute Häufigkeit der Ausprägung a j , j d.h. Anzahl der xi aus x1,..., xn mit xi f (a j ) f j pj 1,..., k, aj h j / n relative Häufigkeit von a j f j 100 relative Häufigkeit in Prozent Die tabellarische oder grafische Darstellung der geordneten Merkmalsausprägungen mit den ihnen zugeordneten absoluten oder relativen Häufigkeiten heißt absolute oder relative Häufigkeitsverteilung des Merkmals. PD Dr. Thomas Beißinger 2 2.1.1 Häufigkeiten Für nicht-häufbare Merkmale gilt: k ¦h j n mit 0 d h j d n und j 1 k ¦f j 1 mit 0 d f j d 1 j t 1 mit 0 d f j d 1 j 1 Für häufbare Merkmale gilt: k ¦h k j t n mit 0 d h j d n und j 1 ¦f j 1 Beispiel: In einem Unternehmen werden 100 Karosserien mit Lackierfehler auf die Fehlerart hin untersucht. Es gibt zwei Fehlerarten, die auch gleichzeitig an einer Karosserie auftreten können Merkmal X: Lackierfehler Statistische Masse: n=100 Läufer ( a1 ) : h(a1 ) 85 f (a1 ) 0,85 Blasen ( a2 ) : h(a2 ) 35 f (a2 ) 0,35 120 ¦f 1,2 ¦h j j PD Dr. Thomas Beißinger 3 2.1 Häufigkeiten Venn-Diagramm: Läufer 20 65 15 Blasen Man gelangt zu einem nicht-häufbaren Merkmal, indem man die Fehlerarten neu definiert: b1 "nur Läufer" b2 "nur Blasen" b3 "Läufer und Blasen" Es wird angenommen, dass eine derartige Transformation immer durchgeführt wird, d.h. im folgenden werden nur nicht-häufbare Merkmale betrachtet! PD Dr. Thomas Beißinger 4 2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung Die Häufigkeitstabelle kann horizontal oder vertikal aufgebaut sein Merkmalsausprägung absolute Häufigkeit relative Häufigkeit f (a1 ) a1 a2 h(a1 ) h(a2 ) f (a2 ) # ak # h(ak ) # f (ak ) ¦ n 1 a1 Merkmalsausprägung absolute Häufigkeit relative Häufigkeit h(a1 ) f (a1 ) a2 h(a2 ) f (a2 ) " ak ¦ " " h(ak ) f (ak ) n 1 PD Dr. Thomas Beißinger 1 2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung Häufigkeitstabelle für gruppierte Daten: Insbesondere für metrische stetige oder für quasi-stetige Merkmale ist es oft nicht möglich, die Urliste zu einer deutlich kleineren Menge a1, a2 ,..., ak zu komprimieren. Es ist dann zweckmäßig, die Daten der Urliste durch Bildung geeigneter Klassen zu gruppieren und eine Häufigkeitstabelle für die gruppierten Daten zu erstellen Vorteil: Größere Übersichtlichkeit Nachteil: Informationsverlust PD Dr. Thomas Beißinger 2 2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung Klassierung (Gruppierung) Die Beobachtungswerte x1, x2 ,..., xn werden auf M Klassen (m 1,..., M ) verteilt. am 1 : Untergrenze der Klasse m am : bm Obergrenze der Klasse m am am 1 : Klassenbreite der Klasse m hm : Absolute Klassenhäufigkeit, d.h. Anzahl der statistischen Einheiten mit Beobachtungswert xi , wobei: am 1 d xi am fm oder am 1 xi d am hm / n : Relative Klassenhäufigkeit PD Dr. Thomas Beißinger 3 2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung a) Anzahl der Klassen • Es gibt keine generell akzeptierte Vorgehensweise zur Bestimmung der Klassenzahl M. • Vorschläge in der Literatur z.B.: 5 15, 6 10, 10 20, n (zur nächsten ganzen Zahl gerundet) b) Klassenbreite • Nach Möglichkeit sollten alle Klassen gleich breit sein, d.h. bm b für alle m 1,..., M • Aber: Ungleiche Klassenbreiten sind sinnvoll, wenn sehr viele Beobachtungswerte in einem kleinen Bereich der Merkmalsausprägungen liegen und ein Rest in einem weiten Bereich. Im kleinen Bereich: fein klassiert. • Klassenmitte sollte typischer Stellvertreter für die ganze Klasse sein, z.B. sollte sich nicht die Mehrheit der Beobachtungswerte der Klasse in einem Randbereich der Klasse befinden PD Dr. Thomas Beißinger 4 2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung Beispiel für unterschiedliche Klassenbreiten: Einkommensklassen für monatliches Einkommen: von von bis unter bis unter 25.000 36.000 1 2.400 9.600 12.000 36.000 50.000 2.400 4.800 12.000 16.000 50.000 75.000 4.800 7.200 16.000 20.000 75.000 100.000 7.200 9.600 20.000 25.000 100.000 und mehr Letzte Klasse im Beispiel: offene Randklasse c) Eindeutige Zuordnung der Merkmalswerte Eine Klassengrenze (untere oder obere) der betreffenden Klasse wird mitgerechnet, während die andere Klassengrenze zur entsprechenden Nachbarklasse gehört PD Dr. Thomas Beißinger 5 2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung Diskret Stetig 1. Variante 2. Variante 0-25 0-25 0-25 25-50 26-50 25-50 50-75 51-75 50-75 Fehler 25 und 50 sind nicht eindeutig zugeordnet Wo wird z.B. 25,5 eingeordnet? 25 und 50 sind nicht eindeutig zugeordnet Richtig 0-25 0 bis unter 25 26-50 25 bis unter 50 25 d x 50 Über 25 bis 50 25 x d 50 51-75 50 bis 75 50 d x d 75 Über 50 bis 75 50 x d 75 Falsch 0 d x 25 0 bis 25 PD Dr. Thomas Beißinger 0 d x d 25 6 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung a) bei qualitativen oder diskreten, nicht-klassifizierten, Merkmalen mit wenigen unterschiedlichen Merkmalsausprägungen Stabdiagramm: Trage über a1,..., ak jeweils einen zur Abszisse senkrechten Strich (Stab) mit Höhe h1,..., hk (oder f1,..., fk ) ab. Säulendiagramm: wie Stabdiagramm, aber mit Rechtecken statt Strichen Balkendiagramm: um 90° gedrehtes Säulendiagramm Kreisdiagramm: Flächen der Kreissektoren sind proportional zu den absoluten (oder relativen) Häufigkeiten. Winkel des Kreissektors j ist: I j f j 360q Piktogramm: Darstellung der Häufigkeiten durch unterschiedlich große Bildsymbole oder durch unterschiedliche Anzahl von Symbolen PD Dr. Thomas Beißinger 1 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Beispiel: Studienanfänger/-innen in der Bundesrepublik Deutschland im Wintersemester 2001/02 nach Fächergruppen hj Fächergruppe pj f j * 100 Rechts-, Wirtschafts- und Sozialwissenschaften (RWS) 96705 33,29 Sprach- und Kulturwissenschaften (SK) 58159 20,02 Mathematik, Naturwissenschaften (MN) 55391 19,07 Ingenieurwissenschaften (Ing) 51046 17,57 8948 3,08 20281 6,98 290530 100 Humanmedizin (Med) Sonstige (Sonst) Zusammen Quelle: Statististisches Bundesamt, Statistisches Jahrbuch 2002 für die Bundesrepublik Deutschland, S. 377 und eigene Berechnungen PD Dr. Thomas Beißinger 2 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Stabdiagramm Studienanfänger/-innen im Wintersemester 2001/02 nach Fächergruppen Relative Häufigkeit (in Proz.) 35 30 25 20 15 10 5 0 RWS SK MN Ing Med Sonst PD Dr. Thomas Beißinger 3 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Säulendiagramm Relative Häufigkeit (in Proz.) Studienanfänger/-innen im Wintersemester 2001/02 nach Fächergruppen 35 33,2 30 25 20 20 19,1 17,6 15 10 7 3,1 5 0 RWS SK MN Ing PD Dr. Thomas Beißinger Med Sonst 4 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Balkendiagramm Studienanfänger/-innen im Wintersemester 2001/02 nach Fächergruppen 7 Fächergruppen Sonst 3,1 Med 17,6 Ing MN 19,1 SK 20 33,2 RWS 0 5 10 15 20 25 30 35 Relative Häufigkeit (in Prozent) PD Dr. Thomas Beißinger 5 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Kreisdiagramm Studienanfänger/-innen im Wintersemester 2001/02 nach Fächergruppen Sonst 7% Med 3% RWS 33% Ing 18% MN 19% SK 20% PD Dr. Thomas Beißinger 6 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Piktogramm entnommen aus: Krämer, W. (2003), Statistik verstehen, 3. Auflage, München: Piper Verlag, S. 116. PD Dr. Thomas Beißinger 7 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung b) Graphische Darstellung metrischer Merkmale Stamm-Blatt-Diagramm („Stem-leaf display“): Semigraphische Darstellungsform für metrische Merkmale mit mittlerem Datenumfang Schritt 1: Teile den Datenbereich in Intervalle gleicher Breite d=0.5 oder 1 mal einer Potenz von 10 ein. Trage die erste(n) Ziffer(n) der Werte im jeweiligen Intervall links von einer senkrechten Linie der Größe nach geordnet ein. Dies ergibt den Stamm. Schritt 2: Runde die beobachteten Werte auf die Stelle, die nach den Ziffern des Stamms kommt. Die resultierenden Ziffern ergeben die Blätter. Diese werden zeilenweise und der Größe nach geordnet rechts vom Stamm eingetragen PD Dr. Thomas Beißinger 8 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Beispiel: Ausschnitt aus dem Mietspiegel für München 1994 Wohnungen ohne zentrale Warmwasserversorgung und mit einer Wohnfläche von höchstens 50qm (Fahrmeir et al. (2003), S. 34, S.37 f. und S. 3 f.) Nettomieten von n=26 Wohnungen 127,06 248,86 375,74 467,88 172,00 272,06 378,40 533,11 194,10 337,74 383,05 539,28 217,30 347,94 394,97 560,21 226,74 228,74 238,04 349,57 349,85 373,81 426,91 443,40 466,84 676,74 Streichen der Stellen nach dem Komma führt zur gerundeten Urliste: 127 248 375 467 172 272 378 533 194 337 383 539 217 347 394 560 226 349 426 676 228 349 443 238 373 466 PD Dr. Thomas Beißinger 9 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung • Als Klassen werden Intervalle der Breite 100 mit den Klassengrenzen 100, 200,...,600,700 gewählt. Der Stamm enthält dann die Ziffern 1,...,6. • Um die Blätter des Stammes zu erhalten, rundet man die Beobachtungen auf die Stelle, die nach den Ziffern des Stammes folgt. Im Beispiel: 127 zu 130, 172 zu 170, 676 zu 680 Einheit 1 3 = 130 1 379 2 233457 3 455578889 4 3477 Stamm-Blatt-Diagramm der Nettomieten von 26 „kleinen“ Wohnungen ohne Warmwasserversorgung 5 346 6 8 PD Dr. Thomas Beißinger 10 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Histogramm Ist die Zahl der statistischen Einheiten groß, wird die Darstellung eines metrischen Merkmals mit dem Stamm-Blatt-Diagramm unübersichtlich. In diesem Fall ist es zweckmäßig, die Daten zu gruppieren und die resultierende Häufigkeitstabelle durch ein Histogramm zu visualisieren. Für die Gruppierung wählt man als Klassen benachbarte Intervalle: [a0* , a1* ),[a1* , a2* ),...,[aM* 1, aM* ) Anstelle rechtsoffener Intervalle kann man auch linksoffene Intervalle verwenden PD Dr. Thomas Beißinger 11 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Im Prinzip könnte man nun über den Klassen die absolute oder relative Häufigkeit in der Form eines Säulendiagramms abtragen. Dabei treten aber unerwünschte Effekte auf. Verdoppelt man beispielsweise die Breite des rechten Randintervalls durch Hinzunahme der rechts davon liegenden Werte, so bleibt die (absolute oder relative) Häufigkeit in diesem Intervall unverändert. Problem: Der optische Eindruck bei einem breiteren Randintervall suggeriert eine größere Häufigkeit, da die Fläche der über dem Intervall liegenden Säule größer ist. Das Histogramm wird deshalb so konstruiert, dass die Fläche über den Intervallen gleich oder proportional zu den absoluten bzw. relativen Häufigkeiten ist. PD Dr. Thomas Beißinger 12 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Es gilt: "Fläche=Breite x Höhe" Klassenbreite: bm am* am* 1 Dies führt zu folgendem Konstruktionsprinzip für Histogramme: Histogramm: Zeichne über den Klassen [a0* , a1* ),...,[aM* 1, aM* ) Rechtecke mit Breite: bm =am* -am* 1 Höhe: gleich (oder proportional zu) hm /bm bzw. fm / bm Fläche: gleich (oder proportional zu) hm bzw. fm Das Histogramm folgt somit dem Prinzip der Flächentreue PD Dr. Thomas Beißinger 13 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Falls möglich (und sinnvoll), sollten die Klassenbreiten bm gleich groß sein. Dann kann man als Höhe der Rechtecke auch die absoluten oder relativen Häufigkeiten wählen. Die resultierende Darstellung wird durch die Wahl der Klassenbreite und damit die Anzahl der Intervalle und den Anfangspunkt a0* bestimmt. Bei sehr kleiner Klassenbreite geht durch die Gruppierung wenig von der ursprünglichen Information verloren. Nachteil: Man erhält dann sehr unruhige Histogramme Für die optimale Klassenzahl: Faustregeln und optischer Eindruck PD Dr. Thomas Beißinger 14 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Beispiel: Histogramm der Nettomieten von 26 kleinen Wohnungen ohne Warmwasserversorgung Anteile in Prozent 40% 30% 20% 10% 0% 100,00 300,00 500,00 700,00 Nettomiete in DM PD Dr. Thomas Beißinger 15 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Histogramm der Nettomieten aller 1082 Wohnungen der Teilstichprobe des Münchner Mietspiegels 1994 Anteile in Prozent 40% 30% 20% 10% 0% 0 500 1000 1500 2000 2500 3000 Nettomiete in DM Klassenbreite = 16 Klassen (200 DM) PD Dr. Thomas Beißinger 16 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Histogramm der Nettomieten aller 1082 Wohnungen der Teilstichprobe des Münchner Mietspiegels 1994 Anteile in Prozent 15% 10% 5% 0% 0.00 800.00 1600.00 2400.00 3200.00 Nettomiete in DM Klassenbreite = 40 Klassen PD Dr. Thomas Beißinger 17 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Polygonzug (Häufigkeitspolygon) Die grafische Darstellung der Häufigkeiten eines klassierten, metrischen Merkmals durch geradlinige Verbindung der Mittelpunkte der Flächenoberkanten eines Histogramms heißt Polygonzug. Die Koordinaten des zu Klasse m gehörigen Punktes des Polygonzugs: hj f § am* am* 1 · § am* am* 1 · , oder , * j * ¸ ¨ ¸ ¨ * * 2 2 am am 1 ¹ am am 1 ¹ © © Bei gleicher Klassenbreite kann als Ordinatenwert (wie beim Histogramm) die absolute oder relative Klassenhäufigkeit gewählt werden PD Dr. Thomas Beißinger 18 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Beispiel: Jahreseinkommen von 200 Mitarbeitern einer Firma (in 1000 €) Jahreseinkommensklassen Klassenmitten hm fm PD Dr. Thomas Beißinger 19 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Histogramm und Häufigkeitspolygon der Häufigkeitsverteilung „Jahreseinkommen“ entnommen aus: Schulze, P.M., Beschreibende Statistik, 4. Auflage, S. 27 PD Dr. Thomas Beißinger 20 Exkurs: Manipulation durch graphische Darstellungen Die rechte Abbildung manipuliert auf zweifache Weise: 1. Die Säulen sind nach unten abgeschnitten 2. Die Skala zieht sich nach oben in die Länge entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 45. PD Dr. Thomas Beißinger 1 Exkurs: Manipulation durch graphische Darstellungen Ein Arbeiter verdient in Land A 7 Euro, in Land B 14 Euro. Dies lässt sich beispielsweise mit einem Piktogramm darstellen: entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 111. PD Dr. Thomas Beißinger 2 Exkurs: Manipulation durch graphische Darstellungen Mit Piktogrammen lassen sich Botschaften sehr leicht verzerren. Falls beispielsweise der Vorsprung von Land B betont werden soll: Die Ränder der Geldscheine verhalten sich zwar korrekt wie 2 zu 1, der Betrachter vergleicht jedoch automatisch die Flächen. Die Fläche von B‘s Banknote ist aber viermal so groß wie die von A. entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 112. PD Dr. Thomas Beißinger 3 Exkurs: Manipulation durch graphische Darstellungen Die Verzerrung lässt sich durch eine räumliche Darstellung noch steigern: Irreführend: Das Volumen des rechten Goldbarrens ist achtmal so groß wie das des linken entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 113. PD Dr. Thomas Beißinger 4 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Bei vielen Problemen ist nicht nur interessant, wie viele Beobachtungswerte gleich sind oder einer Klasse angehören, sondern auch, wie viele Werte eine bestimmte vorgegebene Grenze nicht überschreiten (z.B. wie viele Haushalte verdienen nicht mehr als 2000 Euro usw.). Die Fragestellung ist nur sinnvoll, wenn die Relationen „kleiner“, bzw. „kleiner/gleich“ vorliegen, d.h. wenn zumindest Ordinalskalenniveau gegeben ist. Die Antwort erfordert die Kumulierung von Einzelhäufigkeiten. (Summenhäufigkeiten: Summe aller Häufigkeiten der Merkmalsausprägungen, die einen vorgegebenen Wert nicht überschreiten) PD Dr. Thomas Beißinger 1 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion 1. X ist eine mindestens ordinalskalierte, nicht klassierte Variable Absolute Summenhäufigkeit: H (a j ) : Anzahl der Beobachtungswerte xi, die kleiner oder gleich der Merkmalsausprägung aj ist, j =1,…,k H (a j ) h(a1 ) ... h(a j ) ¦ h(ai ) i :ai da j Die tabellarische Darstellung der geordneten Merkmalsausprägungen und der zugehörigen absoluten Summenhäufigkeiten heißt absolute kumulierte Häufigkeitsverteilung. PD Dr. Thomas Beißinger 2 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Absolute Häufigkeitssummenfunktion Kann x jeden Wert der reellen Zahlen annehmen, so erhält man die absolute Häufigkeitssummenfunktion: H (x ) 0 für x a1 H (a j ) für a j d x a j 1, j n für x t ak 1,...k PD Dr. Thomas Beißinger 3 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Relative Summenhäufigkeit: F (a j ) : Anteil der Beobachtungswerte xi, der kleiner oder gleich der Merkmalsausprägung aj ist, j =1,…,k F (a j ) H (a j ) n f (a1 ) ... f (a j ) ¦ f (ai ) i :ai da j Die tabellarische Darstellung der geordneten Merkmalsausprägungen und der zugehörigen relativen Summenhäufigkeiten heißt relative kumulierte Häufigkeitsverteilung. PD Dr. Thomas Beißinger 4 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Empirische Verteilungsfunktion Kann x jeden Wert der reellen Zahlen annehmen, so erhält man die empirische Verteilungsfunktion: F (x ) 0 für x a1 F (a j ) für a j d x a j 1, j 1 für x t ak 1,...k Das Adjektiv “empirisch” verdeutlicht, dass diese Verteilungsfunktion aus konkreten Daten berechnet wird (im Unterschied zum Begriff “Verteilungsfunktion” bei Zufallsvariablen). PD Dr. Thomas Beißinger 5 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Beispiel aus Bourier (2001), S. 40 (mit angepasster Notation): Anzahl der Kinder der Beschäftigten der Firma Maier KG aj hj fj Fj Hj 0 7 0,35 7 0,35 1 6 0,30 13 0,65 2 4 0,20 17 0,85 3 2 0,10 19 0,95 4 1 0,05 20 1,00 Summe 20 1,00 H2 = 13, d.h. 13 Beschäftigte haben höchstens 1 Kind F2 = 0,65, d.h. 65% der Beschäftigten haben höchstens 1 Kind PD Dr. Thomas Beißinger 6 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Die Resthäufigkeit ist das Komplement zu der kumulierten Häufigkeit, d.h. die Resthäufigkeit gibt die Anzahl HRj bzw. den Anteil FRj der statistischen Einheiten mit einem Merkmalswert an, der größer als der Merkmalswert aj ist. HR j n H j FR j 1 Fj Im Beispiel: HR2 n H2 20 13 7, d.h. 7 Beschäftigte haben mehr als 1 Kind PD Dr. Thomas Beißinger 7 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Graphische Darstellung der kumulierten Häufigkeitsverteilung als Treppenfunktion Die absolute Häufigkeitssummenfunktion und die empirische Verteilungsfunktion sind monoton wachsende Treppenfunktionen, die an den Ausprägungen a1,…,ak um die entsprechende absolute oder relative Häufigkeit nach oben springen. Dabei ist an den Sprungstellen der obere Wert (die Treppenkante) der zugehörige Funktionswert und die Funktion somit rechtsseitig stetig. PD Dr. Thomas Beißinger 8 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Beispiel aus Schwarze (2001), S. 60: An einer Prüfung, bei der maximal 10 Punkte erreicht werden konnten, nahmen 50 Studenten teil. Es wurde folgendes Ergebnis erzielt: Punktzahl aj 0 1 2 3 4 5 6 7 8 9 10 Absolute Häufigkeit h(aj) 1 3 4 2 5 6 8 10 4 5 2 Relative Häufigkeit in Prozent [f(aj) * 100] 2 6 8 4 10 12 16 20 8 10 4 Absolute Summenhäufigk. H(aj) 1 4 8 10 15 21 29 39 43 48 50 Relative Summenhäufigk. in Prozent [F(aj) * 100] 2 8 16 20 30 42 58 78 86 96 100 PD Dr. Thomas Beißinger 9 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion PD Dr. Thomas Beißinger 10 2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung Weiteres Beispiel (bereits für Stamm-Blatt-Diagramm verwendet): Ausschnitt aus dem Mietspiegel für München 1994 Wohnungen ohne zentrale Warmwasserversorgung und mit einer Wohnfläche von höchstens 50qm (Fahrmeir et al. (2003), S. 34 und S. 51) Nettomieten von n=26 Wohnungen 127,06 248,86 375,74 467,88 172,00 272,06 378,40 533,11 194,10 337,74 383,05 539,28 217,30 347,94 394,97 560,21 226,74 228,74 238,04 349,57 349,85 373,81 426,91 443,40 466,84 676,74 PD Dr. Thomas Beißinger 11 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Empirische Verteilungsfunktion der Nettomieten von 26 „kleinen“ Wohnungen ohne Warmwasserversorgung PD Dr. Thomas Beißinger 12 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Empirische Verteilungsfunktion der Nettomieten aller 1082 Wohnungen PD Dr. Thomas Beißinger 13 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion 2. X ist eine metrische, klassierte Variable • Bei klassierten Daten werden Klassenhäufigkeiten addiert. • Kumulierte Häufigkeiten existieren eigentlich nur für die Klassenobergrenzen (deshalb ist eine rechtsgeschlossene Klassenbildung sinnvoll). • Um H(x), bzw. F(x) auch für Werte innerhalb der Klassen exakt berechnen zu können, muss die Urliste herangezogen werden. • Führt man jedoch die Annahme ein, dass die Beobachtungen innerhalb der Klassen gleichverteilt sind, lassen sich auch ohne Rückgriff auf die Urliste kumulierte Häufigkeiten für Werte innerhalb der Klassen approximativ angeben. PD Dr. Thomas Beißinger 14 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Graphische Darstellung der kumulierten Häufigkeitsverteilung für klassierte Daten als Summenpolygon Konstruktion: Auf der Abszisse eines rechtwinkligen Koordinatensystems werden die Klassenobergrenzen und für die erste Klasse auch die Klassenuntergrenze abgetragen, auf der Ordinate die zugehörigen kumulierten Häufigkeiten Hm und/oder Fm. Anschließend werden benachbarte Punkte linear verbunden. Mit der linearen Verbindung (bzw. dem gleichmäßigen Anstieg) wird eine Gleichverteilung in jeder Klasse unterstellt. PD Dr. Thomas Beißinger 15 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Beispiel aus Bourier (2001), S. 63: Forderungsbestand einer Firma zum 31.12. eines Jahres PD Dr. Thomas Beißinger 16 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Summenpolygon: PD Dr. Thomas Beißinger 17 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Aus der Abbildung kann – unter Annahme der Gleichverteilung – die Zuordnung von Merkmalsausprägungen und kumulierten Häufigkeiten näherungsweise abgelesen werden. z.B. für den Wert 550 kann in etwa die Häufigkeit 0,88 abgelesen werden, d.h. auf einen Forderungswert von unter 550 entfallen ca. 88% der Forderungen. Für die Häufigkeit 0,5 kann in etwa der Wert 270 abgelesen werden, d.h. 50% der Forderungen haben einen Wert von weniger als zirka 270 DM. PD Dr. Thomas Beißinger 18 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Ausschnitt aus Summenpolygon: * F (am ) * f (am ) F (x ) * F (am 1 ) bm * am 1 * am x * Es ist : F ( x ) # F (am 1 ) * f (am ) * ( x am 1 ) bm PD Dr. Thomas Beißinger 19 2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion Absolute Häufigkeitssummenfunktion bei klassierten Daten: für x d a1 0 H (x ) * H (am 1 ) * h(am ) * ( x-am1) bm * * für am 1 x d am , m 1,...M * für x ! aM n Empirische Verteilungsfunktion bei klassierten Daten: 0 F (x ) * F (am 1 ) 1 für x d a1 * f (am ) * ( x-am1) bm * * für am 1 x d am , m 1,...M * für x ! aM PD Dr. Thomas Beißinger 20 Literaturhinweise zu Abschnitt 2.1 Als Ergänzung und Vertiefung können beispielsweise folgende Bücher hinzugezogen werden: Bourier (2001), S. 33-66. Fahrmeir et al. (2003), S. 31-52. Schulze (2000), S. 17-31. Schwarze (2001), S. 43-63. PD Dr. Thomas Beißinger 21 2.2. Beschreibung von Verteilungen • In einer ersten Phase der Informationsverdichtung werden empirische Datensätze mittels tabellarischer und graphischer Darstellungen der Häufigkeitsverteilung zusammenfassend aufbereitet. • In einer zweiten Phase der Informationsverdichtung charakterisieren statistische Maßzahlen (= Kennwerte, Parameter) den empirischen Datenbestand komprimiert in einer einzigen Zahl. • Hierdurch wird beispielsweise die vergleichende Analyse der Verteilung eines Merkmals X in zwei oder mehreren statistischen Massen ermöglicht. PD Dr Thomas Beißinger 1 2.2.1 Lagemaße • Maßzahlen zur Lage beschreiben das Zentrum einer Verteilung durch einen numerischen Wert. • Welches Lagemaß in einer bestimmten Fragestellung sinnvoll ist, hängt ab vom Kontext von der Datensituation vom Skalenniveau des Merkmals PD Dr Thomas Beißinger 2 2.2.1 Lagemaße 1. Modus (Modalwert; häufigster Wert; dichtester Wert) Modus xMod : Merkmalsausprägung mit größter Häufigkeit Der Modus ist eindeutig, falls die Häufigkeitsverteilung ein eindeutiges Maximum besitzt. Da für die Bestimmung des Modus allein die Häufigkeiten der Merkmalsausprägungen maßgebend sind, werden an die Skalierung der Merkmale keine Voraussetzungen gestellt, d.h. der Modus ist bereits auf Nominalskalenniveau sinnvoll (für nominalskalierte Merkmale ist xMod das einzigste Lagemaß). PD Dr Thomas Beißinger 3 2.2.1 Lagemaße Beurteilung: • Der in der Verteilung vorherrschende Wert wird als Mitte und damit als Repräsentant für die Lage der Häufigkeitsverteilung angesehen. Der Modus ist also ein typischer, ein normaler Wert. • Der Modus ist ein geeigneter Mittelwert, wenn seine Häufigkeit die anderen Häufigkeiten dominiert, d.h. die Verteilung muss sich auf ihn zuspitzen, sie muss einen deutlichen Gipfel besitzen. PD Dr Thomas Beißinger 4 2.2.1 Lagemaße Beispiel aus Bourier (2001), S. 69: Verteilung der Überstunden in der Maier KG Verteilung der Überstunden in der Schulte GmbH Überstunde xi hi Überstunde xi hi 0 3 0 3 1 5 1 10 2 4 2 4 3 4 3 3 4 4 4 2 12 1 Der Modus beträgt bei beiden Firmen 1 Überstunde. Aber für die Maier KG ist die Berechnung des Modus nicht besonders sinnvoll, da sich die größte Häufigkeit nicht deutlich genug von den anderen Häufigkeiten abhebt. PD Dr Thomas Beißinger 5 2.2.1 Lagemaße • Als Lagemaß ist xMod bei eingipfligen (unimodalen) Verteilungen sinnvoll. Im Falle mehrgipfliger Verteilungen gehen die Ansichten über die Eignung auseinander. Manche halten eine Bestimmung für unzulässig, andere befürworten die Bestimmung der Modi für alle Gipfel, selbst wenn die Häufigkeiten (Spitzen) nicht gleichauf liegen (relative Modalwerte). Beispiel: Studien über Schuh- und Konfektionsgrößen • Vorteil des Modalwertes: es handelt sich um einen von Ausreißern unbeeinflussten Mittelwert (siehe im vorhergehenden Beispiel: xMod bei der Schulte GmbH wird nicht durch die aus dem Rahmen fallende Überstundenzahl 12 beeinflusst). PD Dr Thomas Beißinger 6 2.2.1 Lagemaße • Bei klassifizierten Häufigkeitsverteilungen kann der Modus nicht mehr abgelesen werden. • Der Modalwert wird in diesem Fall in der Klasse vermutet, die die höchste Klassenhäufigkeit aufweist. Der Modalwert wird näherungsweise als Klassenmitte der Klasse mit der größten Häufigkeit festgelegt PD Dr Thomas Beißinger 7 2.2.1 Lagemaße 2. Median Der Median ist der Wert, der in einer der Größe nach geordneten Reihe x i genau in der Mitte liegt, d.h. 50 Prozent der Merkmalswerte sind kleiner (oder gleich) bzw. größer (oder gleich) xMed Ausgangspunkt ist die geordnete Urliste x1 d ... d x i d ... d x n Für ungerades n ist xMed die mittlere Beobachtung der geordneten Urliste und für gerades n ist xMed das arithmetische Mittel der beiden in der Mitte liegenden Beobachtungen, d.h. x( n 1) / 2 xMed für n ungerade 1 ( x n / 2 x( n 1) / 2 ) für n gerade 2 PD Dr Thomas Beißinger 8 2.2.1 Lagemaße Beachte: Der Median kann nur bestimmt werden, wenn das Merkmal mindestens ordinalskaliert ist. Beispiel aus Bourier (2001), S. 73-74: n ist ungerade: Für die 23 Beschäftigten der Schulte GmbH wurden die Fehlzeiten (in Tagen) für das letzte Halbjahr festgestellt Fehltage 0 3 4 7 8 9 12 12 59 hi 3 1 2 3 5 4 2 2 1 Hi 3 4 6 9 14 18 20 22 23 Der Beschäftigte, der die Mittelposition in der Rangordnung einnimmt, hat die Positionsziffer (23+1)/2 = 12. Mit der kumulierten Häufigkeit H sieht man sofort, dass der Beschäftigte mit der Positionsziffer 12 genau 8 Tage gefehlt hat. 50 % haben 8 oder weniger Tage und 50 % haben 8 oder mehr Tage gefehlt. PD Dr Thomas Beißinger 9 2.2.1 Lagemaße n ist gerade: Für die 20 Beschäftigten der Maier KG wurden die Fehlzeiten (in Tagen) für das letzte Halbjahr festgestellt Fehltage 0 2 5 6 7 11 12 14 hi 4 2 2 2 4 3 2 1 Hi 4 6 8 10 14 17 19 20 1 1 1 ( x n / 2 x( n 1) / 2 ) ( x10 x11 ) (6 7) 6,5 Tage 2 2 2 50% der Beschäftigten haben weniger, 50% haben mehr als 6,5 Tage gefehlt Wäre das Merkmal ordinalskaliert gewesen, hätte der Median nicht festgestellt werden können, da zwischen unterschiedlichen Merkmalswerte die Mitte nicht bestimmt werden kann. xMed PD Dr Thomas Beißinger 10 2.2.1 Lagemaße Beurteilung: • Der Median ist unbeeinflusst von Ausreißern, da er allein von der Anzahl der Merkmalwerte abhängig ist. (im Beispiel der Schulte GmbH wird der Median nicht durch die aus dem Rahmen fallende Fehlzeit von 59 Tagen beeinflusst) • Der Median ist ein geeigneter Mittelwert für schiefe Verteilungen. Bei schiefen Verteilungen konzentrieren sich die Merkmalträger im unteren oder oberen Merkmalsbereich. Bei einer Durchschnittsbildung würden die relativ wenigen statistischen Einheiten mit hohen (niedrigen) Merkmalswerten den Durchschnitt nach oben (unten) verzerren. Die Zerlegung der Gesamtheit in zwei Hälften vermittelt hier einen besseren Einblick in die Mitte. • Der Median ist wichtigster Lageparameter für ordinalskalierte Merkmale; aber wegen obiger Begründung auch für metrische Merkmale sinnvoll. PD Dr Thomas Beißinger 11 2.2.1 Lagemaße aus: Krämer, W. (2003), So lügt man mit Statistik, S. 65. PD Dr Thomas Beißinger 12 2.2.1 Lagemaße Median bei klassierten Daten Bei klassierten Daten kann der Median nicht mehr exakt abgelesen werden Er lässt sich nur näherungsweise bestimmen. Vorgehensweise: 1. Bestimmung der Medianklasse Die Medianklasse ist die Klasse, in der der Merkmalsträger mit der Positionsziffer (n+1)/2 oder vereinfacht n/2 liegt. Die m-te Klasse ist die Medianklasse, falls * * H (am 1 ) 0,5 n und H (am ) t 0,5 n bzw. * * F (am 1 ) 0,5 und F (am ) t 0,5 PD Dr Thomas Beißinger 13 2.2.1 Lagemaße 2. Lokalisierung des Medians in der Medianklasse Es wird angenommen, dass in der Medianklasse eine Gleichverteilung vorliegt. Zur Untergrenze der Medianklasse ist die Strecke x zu addieren, wobei x wie folgt durch Anwendung des Strahlensatzes ermittelt werden kann: * H (am ) n/2 * H (am 1 ) xMed * am 1 * h(am ) * am x PD Dr Thomas Beißinger 14 2.2.1 Lagemaße x * * am am 1 x * (n / 2) H (am 1 ) * * H (am ) H (am 1 ) * (n / 2) H (am * * 1 ) (am am 1 ) * h(am ) Damit ergibt sich als Berechnungsformel für den Median: xMed * am 1 * (n / 2) H (am * * 1 ) (am am 1 ) * h(am ) PD Dr Thomas Beißinger 15 2.2.1 Lagemaße Beispiel aus Bourier (2001), S. 76: Forderungsbestand einer Firma zum 31.12. eines Jahres Medianklasse m = 3 PD Dr Thomas Beißinger 16 2.2.1 Lagemaße Schritt 1: Medianklasse ist die Klasse 3, da die Positionsziffer 245/2=122,5 in die dritte Klasse fällt Schritt 2: xMed 122,5 65 (300 200 ) 80 200 0,719 100 200 271,90 50 % der Forderungen haben einen Wert von weniger, 50 % von mehr als 271,90 DM. Auf die Angabe „oder gleich 271,90 DM“ wird verzichtet, da das Auftreten dieses Wertes unwahrscheinlich ist. PD Dr Thomas Beißinger 17 2.2.1 Lagemaße Bestimmung des Medians aus der Empirischen Verteilungsfunktion Falls F(x) = 0,5 auf einer Treppenstufe liegt, ist der mittlere x-Wert dieser Stufe der Median. PD Dr Thomas Beißinger 18 2.2.1 Lagemaße Falls F(x) den Wert 0,5 nicht annimmt, ist der Median gleich dem kleinsten x-Wert, bei dem F(x) größer als 0,5 ist. PD Dr Thomas Beißinger 19 2.2.1 Lagemaße Eigenschaften des Medians 1. Minimumeigenschaft Durch den Median wird jener Datenwert bestimmt, von dem aus die Summe der Entfernungen (absolut genommen) zu den anderen Werten der Häufigkeitsverteilung ein Minimum ergibt, d.h. n ¦ x i xMed min i 1 2. Lineartransformation Für Transformationen der Form y i a bx i gilt: y Med a bxMed mit i 1,..., n; a, b PD Dr Thomas Beißinger 20 2.2.1 Lagemaße Exkurs: Quantile Ausgangspu nkt : Geordnete Urliste Jeder Wert x p , mit 0 p 1, für den mindestens ein Anteil p der Daten kleiner/gleich x p und mindestens ein Anteil 1 p größer/gleich x p ist, heisst p Quantil. Es muss also gelten : Anzahl ( x - Werte d x p ) n tp und Anzahl ( x - Werte t x p ) n t 1 p. Damit gilt für das p Quantil : x p x([ np ]1) , wenn np nicht ganzzahlig x p x( np ) , wenn np ganzzahlig. Dabei ist [np ] die zu np nächste kleinere ganze Zahl PD Dr Thomas Beißinger 1 2.2.1 Lagemaße Beispiel: Gegeben ist die geordnete Urliste: 1 1 2 2 3 5 6 6 Gesucht: 33%-Perzentil n 8 p 0,33 n p 0,33 8 [np ] 1 3 x3 2 2,64 Mindestens 33% der beobachteten Werte sind kleiner oder gleich 2. Hinweis: Für die Berechnung der Quantile ist mindestens Ordinalskalenniveau notwendig. PD Dr Thomas Beißinger 2 2.2.1 Lagemaße Der Median ist das 50%-Quantil; er zerlegt die Gesamtheit in zwei Hälften Die Quartile zerlegen die Gesamtheit in vier Viertel, die Dezile in zehn Zehntel, die Perzentile in 100 Hundertstel etc. Unteres Quartil (1. Quartil) 25% - Quantil x0.25 Oberes Quartil (3. Quartil) 75% - Quantil x0.75 Bei den Dezilen und Perzentilen interessieren i.d.R. nur die am Rand liegenden Werte wie z.B. das 5. Perzentil, das die Gesamtheit in die Teile 5% : 95% zerlegt. Auf diese Weise werden weitere Informationen über die Lage und Struktur der Verteilung gewonnen. Die Ermittlung der Quantile erfolgt analog zu den Berechnungen für den Median; Details siehe beispielsweise in Assenmacher (1998), Deskriptive Statistik, 2. Auflage, S. 56-61. PD Dr Thomas Beißinger 3 2.2.1 Lagemaße Quantile lassen sich auch graphisch aus der empirischen Verteilungsfunktion bestimmen Fahrmeir (2003), S. 65: Nettomieten von n=26 „kleinen“ Wohnungen PD Dr Thomas Beißinger 4 2.2.1 Lagemaße 3. Arithmetisches Mittel Das arithmetische Mittel charakterisiert den mittleren (=durchschnittlichen) Wert einer Reihe von Beobachtungswerten. Das arithmetische Mittel ist für metrische Merkmale sinnvoll definiert. Liegen die Daten als Urliste (alle n Beobachtungswerte) vor, berechnet man das einfache arithmetische Mittel: x 1 ( x1 ... x n ) n 1 n ¦ xi ni 1 PD Dr Thomas Beißinger 5 2.2.1 Lagemaße Liegen die Daten in Form einer Häufigkeitstabelle vor, berechnet man das gewogene arithmetische Mittel: x 1 k ¦ a j h(a j ) nj 1 k ¦ a j f (a j ) j 1 Klassiertes arithmetisches Mittel Liegen die Daten nur als klassierte (gruppierte) Daten vor, kann das arithmetische Mittel nicht mehr exakt bestimmt werden; in diesem Fall werden die Klassenmitten mit den relativen Klassenhäufigkeiten gewichtet und aufaddiert. Dadurch erhält man einen Näherungswert für den tatsächlichen Mittelwert. PD Dr Thomas Beißinger 6 2.2.1 Lagemaße Eigenschaften des arithmetischen Mittels 1. Berechnung der Merkmalssumme X nx n ¦ xi , i 1 wobei X die Merkmalssumme (Summe der Beobachtungswerte) bezeichnet 2. Schwerpunkteigenschaft n ¦ ( xi x ) i 1 0 bzw. k ¦ (a j x )f (a j ) 0 j 1 d.h. die Summe der Abweichungen zw. x i und x verschwindet. Würde man an die Stelle jeder Beobachtung eine Münze oder ein Einheitsgewicht legen, so wäre die Zahlengerade genau am Punkt x , dem Schwerpunkt, im Gleichgewicht. PD Dr Thomas Beißinger 7 2.2.1 Lagemaße Das arithmetische Mittel von 5, 5 und 20 ist 10: die Stelle, die den Balken balanciert. aus: Krämer, W. (2003), Statistik verstehen, S. 27 PD Dr Thomas Beißinger 8 2.2.1 Lagemaße 3. Minimumeigenschaft n n i 1 i 1 2 2 ¦ ( xi M ) ! ¦ ( xi x ) für alle M z x d.h. das arithmetische Mittel minimiert die Summe der quadrierten Abweichungen. 4. Lineartransformation Für Transformationen der Form y i gilt: y a bx i mit i 1,..., n; a, b a bx PD Dr Thomas Beißinger 9 2.2.1 Lagemaße 5. Gesamt- und Teilmittel Vereinigt man mehrere verschiedene Messreihen mit den Umfängen n1, n2 ,..., nr und den arithmetis chen Teilmittel n x1, x 2 ,..., x r zu einer gemeinsame n Messreihe, die den Umfang n r ¦ ni hat, i 1 erhält man als arithmetisches Gesamtmittel: 1 r x ges ¦ ni x i ni 1 Das arithmetische Mittel einer Gesamtreihe ist gleich dem gewogenen Mittel der arithmetischen Teilmittel x i der r Teilreihen; als Gewicht ni fungiert die Anzahl der statistischen Einheiten in den Teilreihen. Nur wenn alle Teilreihen den gleichen Umfang haben (n1 ... nr ), ist x ges gleich dem arithmetischen Mittel der einzelnen Mittelwerte. PD Dr Thomas Beißinger 10 2.2.1 Lagemaße Das getrimmte arithmetische Mittel Das arithmetische Mittel reagiert empfindlich auf Ausreißer oder Extremwerte. Ein resistenteres Lagemaß ist das getrimmte arithmetische Mittel, bei dem ein Teil der Randdaten, z.B. 10%, weggelassen und dann das arithmetischen Mittel aus den restlichen Daten berechnet wird. PD Dr Thomas Beißinger 11 2.2.1 Lagemaße 4. Geometrisches Mittel Relevant bei Wachstums- oder Aufzinsungsfaktoren Zeitreihe von Bestandsdaten für die Perioden 0,1,…,n: B0 , B1,..., Bn i-ter Wachstumsfaktor: B0 : Anfangsbes tand Bi Bi 1 xi i-te Wachstumsrate: Bi Bi 1 Bi 1 ri Es gilt: Bn B0 x1 ... x n xi 1 bzw. Bn / B0 x1 ... x n PD Dr Thomas Beißinger 12 2.2.1 Lagemaße Der durchschnittliche Wachstumsfaktor ist derjenige Faktor x geom , der über alle Perioden konstant bleibt und B0 auf Bn anwachsen lässt. Es ist: Bn x geom n B0 ( x geom )n ( x1 ... x n Bn / B0 1 n ) Fazit: Das geometrische Mittel zu den Faktoren x1,..., x n ist x geom n 1 ·n § ¨ xi ¸ . ©i 1 ¹ Die durchschnittliche Wachstumsrate ist dann x geom 1. PD Dr Thomas Beißinger 13 2.2.1 Lagemaße Beispiel aus Assenmacher (1998), S.77: Im Zeitraum 1950 bis 1965 entwickelte sich das reale Bruttosozialprodukt der Bundesrepublik Deutschland (in Preisen von 1980) mit den folgenden Wachstumsraten in Prozent: 9,5 8,9 8,2 7,4 12,0 7,3 5,7 3,7 7,3 9,2 4,4 4,7 2,8 6,6 5,4 Um die durchschnittliche Wachstumsrate zu ermitteln, müssen die Wachstumsraten in Wachstumsfaktoren umgewandelt werden, z.B. x1 = 1,095 etc. Als durchschnittlichen Wachstumsfaktor erhält man x geom 1,0685. Die durchschnittliche Wachstumsrate beträgt somit 6,85%. PD Dr Thomas Beißinger 14 Literaturhinweise zu Abschnitt 2.2.1 Als Ergänzung und Vertiefung können beispielsweise folgende Bücher hinzugezogen werden: Bourier (2001), S. 67-88. Fahrmeir et al. (2003), S. 52-65. Schulze (2000), S. 31-59. Schwarze (2001), S. 63 - 83. PD Dr Thomas Beißinger 15 2.2.2 Streuungsmaße Ein Mensch, der von Statistik hört, denkt dabei nur an Mittelwert. Er glaubt nicht dran und ist dagegen, ein Beispiel soll es gleich belegen Ein Jäger auf der Entenjagd hat einen ersten Schuss gewagt. Der Schuss, zu hastig aus dem Rohr, lag eine gute Handbreit vor. Der zweite Schuss mit lautem Krach lag eine gute Handbreit nach. Der Jäger spricht ganz unbeschwert: statistisch ist die Ente tot. Doch wär´ er klug und nähme Schrot – dies sei gesagt, ihn zu bekehren – er würde seine Chance mehren: Der Schuss geht ab, die Ente stürzt, weil Streuung ihr das Leben kürzt PD Dr Thomas Beißinger (P. H. List) 1 2.2.2 Streuungsmaße Die Streuung der Merkmalswerte ist (nach der Lage) die zweite wesentliche Eigenschaft einer Häufigkeitsverteilung. Man möchte wissen, ob die Merkmalswerte nahe am Mittelwert (Zentrum) liegen oder nicht. Beispiel: Häufigkeitsverteilungen mit gleichem arithmetischen Mittel, aber unterschiedlicher Streuung; aus: Schwarze (2001), S. 84. PD Dr Thomas Beißinger 2 2.2.2 Streuungsmaße • Streuungsmaße (Streuungsparameter, Variabilitätsmaße, Variationsmaße, Dispersionsmaße) haben die Aufgabe, die Streuung der Häufigkeitsverteilung in Form eines einzigen Wertes zu beschreiben • 2 wichtige Konzepte • Maß für die Streuung ist die Entfernung zwischen zwei ausgewählten Merkmalswerten (z.B. Spannweite, Interquartilsabstand) • Maß für die Streuung sind die Entfernungen der Merkmalwerte zu ihrem Mittelwert (z.B. mittlere absolute Abweichung, Varianz Standardabweichung) PD Dr Thomas Beißinger 3 2.2.2 Streuungsmaße 1. Spannweite (Variationsbreite, range) Gegeben seien n Beobachtungswerte xi (i=1,…,n) eines metrisch messbaren Merkmals X. Die Differenz zwischen größtem und kleinstem Beobachtungswert heißt Spannweite r der Verteilung des Merkmals: r max x i min x i i i Oftmals wird bereits die Ordinalskala als ausreichend angesehen. Dies ist dann zulässig, wenn die Spannweite durch die Nennung der beiden Eckwerte angegeben wird (z.B. die Klausurnoten streuen zwischen gut und mangelhaft). PD Dr Thomas Beißinger 4 2.2.2 Streuungsmaße Spannweite bei klassierten Daten: * Gegeben seien die Klassengrenzen am (m 0,1,..., M ) der Häufigkeit sverteilun g eines metrisch messbaren Merkmals X . * Die Differenz zwischen größter Klassengrenze (aM ) und kleinster Klassengrenze (a0* ) heisst Spannweite r der Verteilung : r * aM a0* PD Dr Thomas Beißinger 5 2.2.2 Streuungsmaße Beurteilung der Spannweite: • Einfaches, aber wenig aussagekräftiges Streuungsmaß • Über die Streuung der dazwischen liegenden Werte wird nichts ausgesagt. • Spannweite reagiert empfindlich auf Ausreißer. • In der Praxis: Verwendung vor allem dort, wo die Angabe der Extremwerte von Interesse ist. Meistens direkte Angabe der Extremwerte (statt der Differenz), z.B. Börsenkurse (höchst/tiefst) oder Temperaturangaben (min/max). PD Dr Thomas Beißinger 6 2.2.2 Streuungsmaße Verteilungen mit gleicher Spannweite, aber verschiedener Streuung: aus: Schwarze (2001), Grundlagen der Statistik I, S. 85. PD Dr Thomas Beißinger 7 2.2.2 Streuungsmaße 2. Interquartilsabstand (zentraler Quartilsabstand) Die Distanz dQ x0.75 x0.25 heisst Interquart ilsabstand (IQR : interquartile range) Der Interquartilsabstand gibt die Größe des Bereichs an, in dem (in etwa) die mittleren 50 Prozent aller Merkmalswerte liegen. Berechnung des Abstandes erfordert mindestens Intervallskalenniveau. Aber: Beschränkt man sich auf die Angabe der beiden Quartilswerte anstelle der Differenz, dann genügt bereits die Ordinalskala (z.B. die mittleren 50% der Noten streuen zwischen 2 und 3). PD Dr Thomas Beißinger 8 2.2.2 Streuungsmaße Graphische Darstellung des Interquartilsabstandes mit Hilfe des Summenpolygons x0.25 x0.50 x0.75 aus: Bourier (2001), Beschreibende Statistik, S. 91 PD Dr Thomas Beißinger 9 2.2.2 Streuungsmaße Beurteilung des Interquartilsabstands: • Wie bei der Spannweite wird über den Streubereich informiert, nicht aber darüber, wie die Beobachtungswerte in diesem Bereich streuen. • Im Unterschied zur Spannweite tritt das Ausreißer-Problem nicht auf, da die unteren und oberen 25% der Häufigkeitsverteilung abgeschnitten werden. • Der Interquartilsabstand ist als Streuungsmaß geeignet, wenn der Kernbereich (hier 50%) einer Häufigkeitsverteilung interessiert. PD Dr Thomas Beißinger 10 2.2.2 Streuungsmaße Faustregel zur Identifikation von potentiellen Ausreißern: • Bilde den inneren „Zaun“ mit Untergrenze : zu x0.25 1.5dQ Obergrenze : zo x0.75 1.5dQ • Daten kleiner als zu und größer als zo sind dann Ausreißerkandidaten, die genauer zu inspizieren sind. Fünf-Punkte-Zusammenfassung Die Fünf-Punkte-Zusammenfassung einer Verteilung besteht aus xmin , x0.25 , x med , x0.75 , xmax PD Dr Thomas Beißinger 11 2.2.2 Streuungsmaße Die Fünf-Punkte-Zusammenfassung führt zur komprimierten Visualisierung einer Verteilung durch den Box-Plot (Schachteldiagramm) Konstruktion 1. x0.25 = Anfang der Schachtel („box“) x0.75 = Ende der Schachtel dQ = Länge der Schachtel 2. Der Median wird durch einen Punkt oder vertikale Linie in der Box markiert. 2. Zwei Linien („whiskers“) außerhalb der Box gehen bis zu xmin und xmax. PD Dr Thomas Beißinger 12 2.2.2 Streuungsmaße Box-Plot Median xMin x0.25 x0.50 x0.75 xMax Interquartilsabstand Spannweite PD Dr Thomas Beißinger 13 2.2.2 Streuungsmaße Modifizierter Box-Plot Die Linien außerhalb der Box werden nur bis zu xmin bzw. xmax gezogen, falls xmin und xmax innerhalb des Bereichs [zu, zo] der „Zäune“ liegen. Ansonsten gehen die Linien nur bis zum kleinsten bzw. größten Wert innerhalb der Zäune, und die außerhalb liegenden Werte werden individuell eingezeichnet. PD Dr Thomas Beißinger 14 2.2.2 Streuungsmaße Modifizierte Box-Plots der Nettomieten von 1082 Wohnungen geschichtet nach Wohnungsgröße aus: Fahrmeir (2003), S. 68 PD Dr Thomas Beißinger 15 2.2.2 Streuungsmaße • Box-Plots sind vor allem dann sinnvoll, wenn schnell ein Überblick über die Verteilung der Daten gewonnen werden soll und keine exakten Details der Verteilung benötigt werden. • Beim Vergleich mehrerer Verteilungen sind nebeneinander gestellte Box-Plots eine gute Möglichkeit, schnell über die Verschiedenartigkeit der Verteilungen einen Eindruck zu bekommen. PD Dr Thomas Beißinger 16 2.2.2 Streuungsmaße 3. Mittlere absolute Abweichung Gegeben seien n Beobachtungswerte xi (i=1,…,n) eines metrisch messbaren Merkmals X. Das arithmetische Mittel aus den absoluten Abweichungen der Beobachtungswerte xi vom arithmetischen Mittel x heißt mittlere absolute Abweichung d: 1 n d ¦ | xi x | ni 1 • Die mittlere absolute Abweichung beschreibt, wie weit die Beobachtungswerte durchschnittlich vom Mittelwert entfernt sind. • Als Mittelwert wird neben dem arithmetischen Mittel auch der Median verwendet. PD Dr Thomas Beißinger 17 2.2.2 Streuungsmaße Liegen die Daten als Häufigkeitsverteilung vor, gilt: Gegeben seien k Merkmalsausprägungen aj (j =1,…,k) eines metrisch messbaren Merkmals X und die zugehörigen absoluten oder relativen Häufigkeiten. Die mittlere absolute Abweichung ist in diesem Fall k 1 k d ¦ |a j x | h(a j ) ¦ |a j x | f (a j ) nj 1 j 1 Liegen die Daten als Häufigkeitsverteilung gruppierter Daten vor, so müssen die obigen aj – Werte durch die jeweiligen Klassenmitten in den m Klassen ersetzt werden. Hierdurch lässt sich die mittlere Abweichung näherungsweise bestimmen (Annahme der Gleichverteilung in den Klassen PD Dr Thomas Beißinger 18 2.2.2 Streuungsmaße Beurteilung: • Die mittlere absolute Abweichung ist ein verständliches Maß für die Streuung, das alle Merkmalswerte berücksichtigt. • Da auch die Abweichungen von Ausreißern erfasst werden, besteht die Gefahr einer durch Ausreißer verzerrten Beschreibung. PD Dr Thomas Beißinger 19 2.2.2 Streuungsmaße 4. Varianz und Standardabweichung Gegeben seien n Beobachtungswerte xi (i=1,…,n) eines metrisch messbaren Merkmals X. Das arithmetische Mittel der quadrierten Abweichungen der Beobachtungswerte xi vom arithmetischen Mittel x heißt (empirische) Varianz s2: 1 n 2 s2 ¦ ( xi x ) ni 1 PD Dr Thomas Beißinger 20 2.2.2 Streuungsmaße Liegen die Daten als Häufigkeitsverteilung vor, gilt: Gegeben seien k Merkmalsausprägungen aj (j =1,…,k) eines metrisch messbaren Merkmals X und die zugehörigen absoluten oder relativen Häufigkeiten. Die Varianz ist in diesem Fall k 1 k 2 2 s2 ¦ (a j x ) h(a j ) ¦ (a j x ) f (a j ) nj 1 j 1 Liegen die Daten als Häufigkeitsverteilung gruppierter Daten vor, so müssen die obigen aj – Werte durch die jeweiligen Klassenmitten in den m Klassen ersetzt werden. Hierdurch lässt sich die Varianz näherungsweise bestimmen (Annahme der Gleichverteilung in den Klassen PD Dr Thomas Beißinger 21 2.2.2 Streuungsmaße Die positive Quadratwurzel aus der Varianz heißt Standardabweichung s s s2 1 n 2 ¦ ( xi x ) ni 1 1 k 2 ¦ (a j x ) h(a j ) nj 1 k 2 ¦ (a j x ) f (a j ) j 1 • Die Standardabweichung hat dieselbe Dimension wie das Merkmal, für das sie berechnet wurde. Die Varianz hat als Dimension das Quadrat der Dimension des Merkmals. • Da extreme Abweichungen vom arithmetischen Mittel sehr stark in die Summe eingehen, reagieren Varianz und Standardabweichung empfindlich auf Ausreißer. PD Dr Thomas Beißinger 22 2.2.2 Streuungsmaße Beachte: Die mittlere absolute Abweichung und die Standardabweichung unterscheiden sich, d.h. d zs bzw. 1 n 1 n 2 ¦ | xi x | z ¦ ( xi x ) ni 1 ni 1 d ist eigentlich das anschaulichere Konzept zur Messung der Streuung; s wird allerdings aufgrund der großen Bedeutung in der induktiven Statistik auch häufig in der deskriptiven Statistik als Maß für die Streuung herangezogen. PD Dr Thomas Beißinger 23 2.2.2 Streuungsmaße Verschiebungssatz s2 s2 1 n 2 2 ¦ xi x ni 1 1 k 2 2 ¦ a j h(a j ) x nj 1 k (1) 2 ¦ a j f (a j ) x 2 (2) j 1 Diese Formeln erlauben eine schnellere Berechnung der Varianz PD Dr Thomas Beißinger 24 2.2.2 Streuungsmaße Beweis von Gl. (1) 1 n 2 ¦ ( xi x ) ni 1 s2 1n 2 2 ¦ ( xi 2xi x x ) ni 1 n 1 n 2 1 1 n 2 ¦ xi 2 x ¦ xi ¦ x ni 1 n i 1 ni 1 1 n 2 1 n 1 2 ¦ x i 2 x ¦ x i nx ni 1 ni 1 n 1 n 2 2 ¦ xi 2x x x ni 1 1 n 2 2 ¦ xi x ni 1 PD Dr Thomas Beißinger 25 2.2.2 Streuungsmaße Transformationsregel Für y i s y2 ax i b ist a 2s x2 bzw. sy | a | s x Beweis: s y2 1 n 2 ¦ (y i y ) ni 1 1n 2 ¦ (ax i b ax b ) ni 1 a2 PD Dr Thomas Beißinger 1 n 2 ¦ ( xi x ) ni 1 a 2s x2 26 2.2.2 Streuungsmaße Streuungszerlegung Gegeben seien R Gruppen von Beobachtungswerten eines metrisch messbaren Merkmals X. Von jeder Gruppe sei die Anzahl der Beobachtungswerte nr, das arithmetische Mittel x r und die Varianz sr2 bekannt (r =1,…,R). Die Varianz aller Beobachtungswerte erhält man aus der folgenden Formel für die Streuungszerlegung: s2 wobei x 1R 1R 2 2 ¦ nr s r ¦ n r ( x r x ) nr 1 nr 1 R 1R ¦ nr x r und ¦ nr nr 1 r 1 n. PD Dr Thomas Beißinger 27 2.2.2 Streuungsmaße Interpretation der Streuungszerlegung s2 1R 1R 2 2 ¦ nr s r ¦ n r ( x r x ) nr 1 nr 1 misst die Streuung innerhalb der Gruppen (Schichten) durch ein gewichtetes Mittel der Varianzen s12 , s22,..., sR2 misst die Streuung zwischen den Gruppen (Schichten) durch ein gewichtetes Mittel der quadrierten Abweichungen der Mittelwerte x r vom Gesamtmittel x Die Streuungszerlegung lässt sich somit beschreiben als: Gesamte Varianz = Varianz innerhalb der Gruppen + Varianz zwischen den Gruppen PD Dr Thomas Beißinger 28 2.2.2 Streuungsmaße 5. Variationskoeffizient • Die bisherigen Streuungsmaße haben die Streuung gemessen, ohne die Lage der Häufigkeitsverteilung zu berücksichtigen. Beispiel: x i 45 x 50 ( x i - x) 5 xi 9995 x 10000 ( x i - x) 5 Die absolute Abweichung (= 5) ist in beiden Fällen identisch. Betrachtet man aber die Abweichung im Verhältnis zur Lage der Verteilung, so ist die Abweichung im zweiten Fall geringer. • Die relative Streuung wird durch den Variationskoeffizienten gemessen. PD Dr Thomas Beißinger 29 2.2.2 Streuungsmaße Gegeben sei ein verhältnisskaliertes Merkmal X mit dem arithmetischen Mittel x und der Standardabweichung s. Das relative Streuungsmaß s v ( 100 ) x heißt Variationskoeffizient. • Ist das arithmetische Mittel negativ, so ist sein Absolutbetrag einzusetzen • Der Variationskoeffizient ist eine dimensionslose Größe. • Der Variationskoeffizient ist als relative Größe zum Vergleich der Streuun von Häufigkeitsverteilungen mit unterschiedlichem Mittelwert geeignet. PD Dr Thomas Beißinger 30 2.2.2 Streuungsmaße In manchen Fällen verwendet man als Variationskoeffizient auch den Quotienten aus mittlerer absoluter Abweichung und arithmetischen Mittel, oder mittlerer absoluter Abweichung und Median: v d x oder v d xMed In diesem Fall ist v einfacher interpretierbar. PD Dr Thomas Beißinger 31 Literaturhinweise zu Abschnitt 2.2.2 Als Ergänzung und Vertiefung können beispielsweise folgende Bücher hinzugezogen werden: Bourier (2001), S. 88-104. Fahrmeir et al. (2003), S. 66-73. Schulze (2000), S. 60-77. Schwarze (2001), S. 83 - 97. PD Dr Thomas Beißinger 32 2.2.3 Maßzahlen für Schiefe und Wölbung • Neben Lageparametern und Streuungsmaßen lässt sich eine Häufigkeitsverteilung auch noch durch Parameter charakterisieren, die etwas über die Form der Verteilung aussagen. Hierzu dienen Schiefe- und Wölbungsmaße. • Schiefe- und Wölbungsmaße sind deshalb nützlich, weil Häufigkeitsverteilungen mit gleichem arithmetischen Mittel und gleicher empirischer Standardabweichung eine sehr unterschiedliche Form aufweisen können. PD Dr Thomas Beißinger 1 2.2.3 Maßzahlen für Schiefe und Wölbung Beispiel: Die folgenden Häufigkeitsverteilungen haben übereinstimmende arithmetische Mittel x 10 und Varianzen s 2 6,4 . Dennoch haben die Verteilungen unterschiedliche Formen. Anmerkung: Es wurden jeweils nur die Klassenmitten angegeben. Die Klassengrenzen sind 3, 5, 7, usw. aus: Schwarze (2001), Grundlagen der Statistik I, S. 98. PD Dr Thomas Beißinger 2 2.2.3 Maßzahlen für Schiefe und Wölbung Histogramme zum vorhergehenden Beispiel: Verteilungen mit übereinstimmendem arithmetischen Mittel und gleicher Varianz: 0,1 a) und b): symmetrische Verteilungen; Unterschied: bei a) sind die Häufigkeiten an den Rändern kleiner und in der Mitte liegt eine ausgeprägte Spitze. Unterschied zw. a) und b) wird durch ein Maß für die Wölbung erfasst. Die Verteilung c) ist deutlich asymmetrisch (schief). Unterschiede in der Symmetrie bzw. Asymmetrie werden durch ein Maß für die Schiefe erfasst. PD Dr Thomas Beißinger 3 2.2.3 Maßzahlen für Schiefe und Wölbung I. Schiefe (skewness) Eine Verteilung heißt symmetrisch, wenn es eine Symmetrieachse gibt, so dass die rechte und linke Hälfte der Verteilung zueinander spiegelbildlich sind. Definition: Symmetrische und schiefe Verteilung Die Häufigkeitsverteilung des kardinalskalierten Merkmals X heißt symmetrisch bezüglich xMed , falls für alle Werte einer reellen Konstante c gilt: h( xMed c ) h( xMed c ) Gilt diese Beziehung nicht, ist die Häufigkeitsverteilung schief bzw. asymmetrisch. PD Dr Thomas Beißinger 4 2.2.3 Maßzahlen für Schiefe und Wölbung Bei empirischen Verteilungen ist exakte Symmetrie selten! Für eine symmetrische Verteilung gilt: x xMed Falls nur ein häufigster Wert existiert, gilt bei symmetrischer Verteilung: x xMed xMod Beachte: Aus x xMed kann nicht auf eine symmetrische Verteilung geschlossen werden. Beispiel: Beobachtungswerte: 2, 3, 5, 6, 9 Arithmetisches Mittel: x 5 xMed 5 Median: Trotz x xMed ist die Verteilung asymmetrisch! PD Dr Thomas Beißinger 5 2.2.3 Maßzahlen für Schiefe und Wölbung • Eine Verteilung ist rechtsschief (bzw. linkssteil), wenn der überwiegende Anteil von Daten linksseitig konzentriert ist. • Eine Verteilung ist linksschief (bzw. rechtssteil), wenn der überwiegende Anteil von Daten rechtsseitig konzentriert ist. Linkssteile Verteilung (rechtsschief) Symmetrische Verteilung Rechtssteile Verteilung (linksschief) aus: Fahrmeir et al. (2002), Statistik, S. 48. PD Dr Thomas Beißinger 6 2.2.3 Maßzahlen für Schiefe und Wölbung Alternative Definition von Symmetrie und Schiefe: Eine Verteilung ist symmetrisch, wenn für alle c gilt: f ( x d xMed c ) f ( x t xMed c ) bzw. F ( xMed c ) 1 F ( xMed c ) Eine Verteilung ist linkssteil (rechtsschief), wenn: F ( xMed c ) ! 1 F ( xMed c ) Eine Verteilung ist rechtssteil (linksschief), wenn: F ( xMed c ) 1 F ( xMed c ) PD Dr Thomas Beißinger 7 2.2.3 Maßzahlen für Schiefe und Wölbung Erste Anhaltspunkte über die Schiefe einer eingipfligen Häufigkeitsverteilung erhält man durch die Fechnersche Lageregel: Es gilt (meistens): 1. Symmetrische Verteilung: xMod xMed x 2. Rechtschiefe (linkssteile) Verteilung: xMod xMed x 3. Linksschiefe (rechtssteile) Verteilung: xMod ! xMed ! x Diese Regel liefert Anhaltspunkte für den Typ der Verteilung; sie gibt aber keinen Aufschluss über die Stärke der Asymmetrie in Form einer Maßzahl. PD Dr Thomas Beißinger 8 2.2.3 Maßzahlen für Schiefe und Wölbung Beispiel: Geglättete Häufigkeitspolygone eingipfliger Verteilungen und Lage der Mittelwerte in Abhängigkeit von der Form der Verteilung xMod xMed x symmetrisch xi xMod xMed x xi rechtsschief x xMed xMod xi linksschief aus: Schulze (2000), Beschreibende Statistik, S.78. PD Dr Thomas Beißinger 9 2.2.3 Maßzahlen für Schiefe und Wölbung Mit der Fechnerschen Lageregel lässt sich Schiefe auch mit Bezug auf die Abweichungen ( xi x ) definieren. Ist eine Verteilung rechtsschief (linkssteil), sind im Datensatz mehr als die Hälfte der Abweichungen ( xi x ) negativ, da gilt: x ! xMed . Ist die Verteilung linksschief (rechtssteil), müssen wegen x xMed mehr als 50% der Abweichungen positiv sein. Diese Zusammenhänge lassen sich bei der Konstruktion von Schiefemaßen nutzbar machen. Bei linkssteiler Verteilung haben zwar mehr als die Hälfte der Abweichungen ein negatives Vorzeichen; sie sind aber vom Betrag her viel kleiner als die positiven Abweichungen. Der Schiefeparameter soll in diesem Fall positiv sein usw. PD Dr Thomas Beißinger 10 2.2.3 Maßzahlen für Schiefe und Wölbung Schiefemaße Nachfolgend vorgestellte Schiefemaße sind wie folgt definiert: • bei rechtsschiefer Verteilung wird die Maßzahl positiv • bei symmetrischer Verteilung wird die Maßzahl Null • bei linksschiefer Verteilung wird die Maßzahl negativ Absoluter Schiefeparameter (drittes Zentralmoment) m3 m3 1 n 3 ¦ ( xi x ) ni 1 f m3 f 2 Bei diesem Parameter wird jede Abweichung ( xi x ) mit ( x i x ) gewichtet. Große Abweichungen erhalten daher ein großes Gewicht. m3 erhält das gewünschte Vorzeichen für die Schiefe und ist bei Symmetrie Null. Nachteil: es lässt sich kein Wertebereich angeben. PD Dr Thomas Beißinger 11 2.2.3 Maßzahlen für Schiefe und Wölbung Der absolute Schiefeparameter ist umso größer, je größer die Streuung der Verteilung. Um die Schiefe verschiedener Verteilungen zu vergleichen, empfiehlt sich folgende Normierung: Relativer Schiefeparameter (drittes Standardmoment) m3 m3S s3 m3S ist eine dimensionslose Größe. Nachteil: kein fester Wertebereich. Quantilskoeffizient der Schiefe qS ( x1 p xMed ) ( xMed x p ) Falls p=0,25: Quartilskoeffizient x1 p x p Bei linkssteilen (bzw. rechtssteilen) Verteilungen liegt das untere Quantil näher (bzw. weiter entfernt vom) Median. Somit ergeben sich obige Vorzeichen für qS . Durch Nenner erfolgt Normierung: 1 d qS d 1. PD Dr Thomas Beißinger 12 2.2.3 Maßzahlen für Schiefe und Wölbung Weitere Schiefemaße: Schiefemaß nach Pearson: x xMod s SMP 1 Nachteil: es lässt sich kein Wertebereich angegeben Schiefemaß nach Yule-Pearson: SMP 2 3( x xMed ) s SMP 2 liegt immer zwischen r 3, da ( x -xMed )/s d 1. Werte größer r 1 sind bei Anwendung en allerdings selten. PD Dr Thomas Beißinger 13 2.2.3 Maßzahlen für Schiefe und Wölbung II. Wölbung (Exzess, Kurtosis) • Maßzahlen für die Wölbung sollen charakterisieren, wie stark oder schwach der zentrale Bereich und die Randbereiche der Daten besetzt sind. • Verteilungen mit gleicher Streuung können unterschiedliche Wölbungen in der Mitte bzw. unterschiedliche linke und rechte Enden in den Randbereichen besitzen. PD Dr Thomas Beißinger 14 2.2.3 Maßzahlen für Schiefe und Wölbung Im ersten Beispiel hatten die Verteilungen a) und b) übereinstimmende Mittelwerte und gleiche Varianzen. Die beiden Verteilungen weisen allerdings eine unterschiedliche Wölbung auf: PD Dr Thomas Beißinger 15 2.2.3 Maßzahlen für Schiefe und Wölbung Als Vergleichsmaßstab für das Maß an Wölbung wird üblicherweise die Normalverteilung herangezogen. Eine gängige Maßzahl, die gerade so definiert ist, dass sie bei Vorliegen der Normalverteilung Null wird, ist das Wölbungsmaß von Fisher: J m4 3 s4 mit m4 1 n 4 ¦ ( xi x ) ni 1 J 0 bei Normalvert eilung J ! 0 bei spitzeren Verteilungen J 0 bei flacheren Verteilungen PD Dr Thomas Beißinger 16 2.2.3 Maßzahlen für Schiefe und Wölbung Für die Verteilungen a) und b) aus dem ersten Beispiel ergibt sich: a) m4 160 und J 160 3 2,53 4 0,91 b) m4 83,2 und J 83,2 3 2,53 4 0,97 Mitunter wird die Wölbung von Verteilungen folgendermaßen bezeichnet: J ! 0 : leptokurti sche Verteilung J 0 : mesokurtis che Verteilung J 0 : platykurtische Verteilung PD Dr Thomas Beißinger 17 Literaturhinweise zu Abschnitt 2.2.3 Relativ ausführlich werden Schiefe und Wölbung diskutiert bei Assenmacher, W. (1998), Deskriptive Statistik, Springer, S. 109-122. oder bei Schulze (2000), Beschreibende Statistik, Oldenbourg, S. 77-88. Zusätzlich können beispielsweise auch folgende Bücher herangezogen werden: Bourier (2001), S. 104-106. Fahrmeir et al. (2003), S. 74-76. Schwarze (2001), S. 97-102. PD Dr Thomas Beißinger 18 2.2.4 Konzentrationsmaße a) Der Konzentrationsbegriff Fragestellung: Wie viele oder wie viel Prozent der Merkmalsträger vereinigen einen bestimmten Prozentsatz der gesamten Merkmalssumme auf sich? (Konzentration von Merkmalsanteilen) Unterschied zur empirischen Verteilungsfunktion F(x): F(x) liefert den Anteil der Merkmalsträger, die einen Merkmalswert von höchstens x besitzen ĺ Verteilung der Merkmalsträger auf die Merkmalswerte. Dagegen bei der Konzentrationsmessung: Verteilung der Merkmalssumme auf die Merkmalsträger. PD Dr Thomas Beißinger 1 2.2.4 Konzentrationsmaße Definition: Merkmalssumme Gegeben sei ein Merkmal mit den Beobachtun gswerten x1,...x n bzw. den Merkmalsau sprägungen a1,..., ak und den absoluten [oder relativen] Häufigkeit en h(a j )[oder f (a j )], j 1,..., k . Die Merkmalssu mme ist definiert als : G nx n ¦ xi i 1 k ¦ a j h(a j ) j 1 k n ¦ a j f (a j ). j 1 PD Dr Thomas Beißinger 2 2.2.4 Konzentrationsmaße Anforderungen an Merkmale Da die Merkmalssumme berechnet wird, muss gelten: • Das Merkmal ist mindestens intervallskaliert. • Die Merkmalswerte sind nicht negativ. • Die Merkmalssumme muss im Konzentrationszusammenhang eine sinnvoll interpretierbare Größe sein, z.B. Summe der Unternehmensumsätze auf einem Produktmarkt oder Summe der Haushaltseinkommen. PD Dr Thomas Beißinger 3 2.2.4 Konzentrationsmaße Zwei Aspekte von Konzentration Relevant sind: • Größenunterschiede der auf die Merkmalsträger entfallenden Anteile der Merkmalssumme • Anzahl der Merkmalsträger Beispiele: • Einen Markt mit 100 Anbietern, von denen die beiden größten einen Marktanteil von 90 Prozent besitzen, würde man als konzentriert bezeichnen. • Einen Markt mit nur 2 Anbietern und gleich großen Marktanteilen würde man aber ebenfalls als konzentriert bezeichnen. PD Dr Thomas Beißinger 4 2.2.4 Konzentrationsmaße Zwei Arten statistischer Konzentration: Absolute Konzentration Anteile an der Merkmalssumme werden auf die Anzahl der Merkmalsträger bezogen ĺ Beide Aspekte von Konzentration berücksichtigt. Eine hohe Konzentration liegt vor, falls auf eine kleine Anzahl von Merkmalsträgern ein großer Anteil der Merkmalssumme entfällt. Relative Konzentration (Disparität) Anteile an der Merkmalssumme werden zu dem jeweiligen Anteil der Merkmalsträger in Beziehung gesetzt ĺ Anzahlaspekt der Konzentration vernachlässigt. Eine hohe Konzentration liegt vor, falls auf einen kleinen Anteil der Merkmalsträger ein großer Anteil der Merkmalssumme entfällt. PD Dr Thomas Beißinger 5 2.2.4 Konzentrationsmaße Konzentration und Streuung Das Konzept der Konzentration steht in einer gewissen Beziehung zum Konzept der Streuung. Extremfälle der Konzentration: Egalitäre Verteilung: die Merkmalswerte aller n Merkmalsträger stimmen überein. • In diesem Fall verteilt sich die Merkmalssumme gleichmäßig auf die Merkmalsträger. • Die Häufigkeitsverteilung besteht nur aus einer Ausprägung und alle Streuungsmaße sind gleich Null. • Die relative Konzentration (=Disparität) ist gleich Null. • Die absolute Konzentration kann aber umso größer sein, je kleiner n ist. PD Dr Thomas Beißinger 6 2.2.4 Konzentrationsmaße Relative Häufigkeitsverteilung bei egalitärer Verteilung: f (a j ) 1 Keine Disparität 0 aj a1 Anmerkung: Bei einer Disparität von Null wird missverständlich auch von Gleichverteilung gesprochen. Aber: Bei einer egalitären Verteilung liegt eine Einpunktverteilung vor, d.h. alle Merkmalsträger haben die gleiche und damit einzige Merkmalsausprägung. Gleichverteilung bedeutet dagegen, dass jede Merkmalsausprägung (von mehreren) gleich häufig vorkommt (z.B. Verteilung der Augenzahl beim Würfeln). PD Dr Thomas Beißinger 7 2.2.4 Konzentrationsmaße Vollkommene Ungleichheit (maximale Konzentration) liegt vor, wenn ein Merkmalsträger die gesamte Merkmalssumme auf sich vereinigt; d.h. sein Anteil an der Merkmalssumme ist 1 und die Anteile der übrigen n-1 Merkmalsträger sind alle jeweils Null. f (a j ) (n 1) / n Zweipunktverteilung 1/ n aj 0 a1 a2 PD Dr Thomas Beißinger 8 2.2.4 Konzentrationsmaße Extreme Ungleichheit: Die Merkmalsausprägungen für n-1 Merkmalsträger sind identisch, aber nicht notwendigerweise Null; ein Merkmalsträger hat eine andere Merkmalsausprägung. f (a j ) (n 1) / n Zweipunktverteilung 1/ n 0 a1 aj a2 PD Dr Thomas Beißinger 9 2.2.4 Konzentrationsmaße Überblick zur Konzentrationsmessung: Absolute Konzentration Relative Konzentration Graphische Darstellung Konzentrationskurve Lorenzkurve Maßzahlen Konzentrationskoeffizienten Herfindahlindex Gini-Koeffizient PD Dr Thomas Beißinger 10 2.2.4 Konzentrationsmaße b) Absolute Konzentration Man interessiert sich für den Anteil an der Merkmalssumme, den die g Merkmalsträger mit den größten Merkmalsausprägungen haben. Die Merkmalswerte sind in fallender Folge angeordnet: x1 t x 2 t ... t x n t 0 Konzentrationskoeffizient (Konzentrationsrate, concentration ratio) g ¦ xi CRg i 1 n , g 1,..., n ¦ xi i 1 Es gilt: CRn 1 Maximale Konzentration liegt vor, falls CR1 1. PD Dr Thomas Beißinger 11 2.2.4 Konzentrationsmaße Anwendung: Die Monopolkommission begutachtet gemäß GWB regelmäßig Stand und Entwicklung der Unternehmenskonzentration in Bezug auf Umsätze, Marktanteile usw. Dabei ist die Wahl von g willkürlich. In der BRD ist g=3 (in den USA g=4) der kleinste g-Wert, der aus Datenschutzgründen verwendet werden darf. 2 1 und CR5 ! als kritische 3 2 Konzentration für eine so genannte Marktbeherrschungsvermutung. Nach §22 III GWB gelten CR3 ! PD Dr Thomas Beißinger 12 2.2.4 Konzentrationsmaße Konzentrationskurve Trägt man die Zahlenpaare (g, CRg), g=1,…,n, als Punkte in ein kartesisches Koordinatensystem und verbindet man aufeinander folgende Punkte, beginnend mit dem Ursprung, so heißt der resultierende Polygonzug Konzentrationskurve. Die Konzentrationskurve ist konkav. Begründung: Es sei cg der Anteil des g - ten Merkmalstr ägers an der Merkmalsum me, d.h. cg n x g / ¦ x i . Da x g t x g 1, gilt : cg t cg 1. i 1 Ausserdem ist CRg 1 CRg cg 1, und somit CR1 d ... d CRn ( 1). Die Steigung zwischen den Punkten (g,CRg ) und (g 1,CRg 1 ) ist cg 1. Somit kann die Steigung bei einer Zunahme von g nicht zunehmen. PD Dr Thomas Beißinger 13 2.2.4 Konzentrationsmaße Beispiel: Die Umsätze xi von 5 Unternehmen, die sich einen Markt teilen, sind (in Mio. €): i xi ci CRi 1 40 0,4 0,4 2 20 0,2 0,6 3 20 0,2 0,8 4 15 0,15 0,95 5 5 100 0,05 1,0 nx Beispielsweise entfallen auf die 3 Unternehmen mit dem größten Umsatz 80% (C3=0,8) der Merkmalssumme. PD Dr Thomas Beißinger 14 2.2.4 Konzentrationsmaße CRi CR2 CR1 Merkmalsträger i Bei egalitärer Verteilung entspricht die Konzentrationskurve der Diagonalen. Das Beispiel ist aus Assenmacher (1998), S. 126-127. PD Dr Thomas Beißinger 15 2.2.4 Konzentrationsmaße Herfindahl-Index ist das bekannteste absolute Konzentrationsmaß. n CH n 2 ¦ ci i 1 n 2 ¦ xi 2 ¦ xi i 1 i 1 §n · ¨ ¦ xi ¸ ©i 1 ¹ 2 ( nx ) 2 mit 1 d CH d 1. n ci ist (wie zuvor) der Anteil eines Merkmalsträger an der Merkmalssumme, d.h. ci n xi / ¦ x j . j 1 Maximale Konzentration: CH 1, da c1 1 und alle anderen ci n n 1 n 1 . CH 1/ n, da ¦ ci2 ¦ 2 Egalitäre Verteilung: n2 n i 1 i 1n Für n o f : CH 0 bei egalitärer Verteilung. Bei kleinem n auch bei egalitärer Verteilung positives CH . ( Anzahlaspekt der Konzentration) PD Dr Thomas Beißinger 0. 16 2.2.4 Konzentrationsmaße Zusammenhang zw. Herfindahl-Index und Variationskoeffizient Es gilt: CH v2 1 , n wobei v den Variationskoeffizienten bezeichnet, d.h. v s . x Diese Formel ist für das praktische Arbeiten vorteilhaft. Da für die meisten Datensätze arithmetisches Mittel und Varianz berechnet werden, erhält man auf einfache Weise auch Informationen über die absolute Konzentration der Daten. PD Dr Thomas Beißinger 17 2.2.4 Konzentrationsmaße Beweis der Formel: n CH n 2 ¦ ci i 1 n §x · ¦¨ i ¸ i 1© nx ¹ 2 2 ¦ xi i 1 ( nx )2 Nun gilt aufgrund des Verschiebungssatzes: s2 n 1 n 2 2 2 ¦ xi x ¦ xi ni 1 i 1 n( s 2 x 2 ) Setzt man dies in die Formel für CH, so erhält man: s2 1 v2 1 n( s 2 x 2 ) s 2 x 2 x 2 CH n n n2x 2 nx 2 q.e.d. PD Dr Thomas Beißinger 18 2.2.4 Konzentrationsmaße c) Relative Konzentration Man interessiert sich dafür, welchen Anteil an der Merkmalssumme ein gegebener Anteil an Merkmalsträgern auf sich vereinigt. Lorenzkurve Die Merkmalswerte seien nun ansteigend angeordnet 0 d x1 d x 2 d ... d x n Es sei definiert: k ¦ ci vk i 1 k k ¦ xi ¦ xi i 1 n i 1 ¦ xi nx i 1 vk bezeichnet den kumulierten Anteil der k Merkmalsträger mit den kleinsten Merkmalssummenanteilen (im Gegensatz zum Konzentrationskoeffizienten CR). PD Dr Thomas Beißinger 19 2.2.4 Konzentrationsmaße Der Anteil dieser k Merkmalsträger an der Gesamtzahl der Merkmalsträger ist k uk . n Somit erhält man Zahlenpaare (u1,v1 ), (u2 ,v 2 ),..., (un 1,v n 1) Trägt man diese Zahlenpaare als Punkte in ein kartesisches Koordinatensystem und verbindet man aufeinander folgende Punkte, beginnend mit dem Ursprung, so heißt der resultierende Polygonzug Lorenzkurve. Die Koordinaten können auch als Prozentzahlen eingetragen werden. PD Dr Thomas Beißinger 20 2.2.4 Konzentrationsmaße Beispiel: Marktkonzentration in 3 Städten In den Städten G, M, V sei der monatliche Umsatz (in 1000€) der Möbelbranche bestimmt durch die folgende Tabelle Einrichtungshäuser Stadt G M V 1 40 180 60 2 40 5 50 3 40 5 40 4 40 5 30 5 40 5 20 Summe 200 200 200 aus: Fahrmeir et al (2003), S. 77. PD Dr Thomas Beißinger 21 2.2.4 Konzentrationsmaße aus: Fahrmeir et al. (2003), S. 78 PD Dr Thomas Beißinger 22 2.2.4 Konzentrationsmaße aus: Fahrmeir et al. (2003), S. 79 Die Lorenzkurve wächst monoton und ist konvex. Bei egalitärer Verteilung fällt die Lorenzkurve mit der Winkelhalbierenden zusammen (Steigung = 1) PD Dr Thomas Beißinger 23 2.2.4 Konzentrationsmaße Gini-Koeffizient • Die Stärke der Konzentration drückt sich in der Lorenzkurve durch die Entfernung von der Diagonalen aus. • Ein nahe liegendes Maß für die Konzentration betrachtet die Fläche zwischen der Diagonalen und der Lorenzkurve und setzt diese ins Verhältnis zur Gesamtfläche zwischen u-Achse und Diagonale (innerhalb des Quadrats mit der Seitenlänge 1). Das daraus resultierende Konzentrationsmaß heißt Gini-Koeffizient. G Fläche zwischen Diagonale und Lorenzkurv e Fläche zwischen Diagonale und u - Achse ( 0.5) 2 Fläche zwischen Diagonale und Lorenzkurv e PD Dr Thomas Beißinger 24 2.2.4 Konzentrationsmaße Für eine geordnete Urliste x1 d ... d x n gilt: n 2 ¦ i xi G i 1 n n ¦ xi n 1 n i 1 Für Häufigkeitsdaten mit a1 d ... d ak gilt: k ¦ (ui 1 ui )h(ai )ai G i 1 1, k ¦ hi ai i 1 i wobei ui ¦ h j / n; v i j 1 i k j 1 j 1 ¦ hjaj / ¦ hjaj . PD Dr Thomas Beißinger 25 2.2.4 Konzentrationsmaße Die extremen Ausprägungen des Gini-Koeffizienten sind von der Form: Gmin 0 bei Nullkonzentration, x1 Gmax n 1 bei maximaler Konzentration, x1 n ... xn ... x n 1 0, x n ! 0 Die maximale Ausprägung des Koeffizenten hängt damit von der Anzahl der Merkmalsträger ab. Um diesen Effekt zu vermeiden, betrachtet man meist den normierten Gini-Koeffizienten: G* G Gmax n G n 1 mit dem Wertebere ich G * [0,1]. PD Dr Thomas Beißinger 26 2.2.4 Konzentrationsmaße Anmerkungen: 1. Der Gini-Koeffizient als Konzentrationsmaß sollte immer im Zusammenhang mit der Lorenzkurve interpretiert werden. Beispiel: 2 Länder mit unterschiedlichen Lorenzkurven (für den Grundbesitz), aber identischen Gini-Koeffizienten: PD Dr Thomas Beißinger 27 2.2.4 Konzentrationsmaße 2. Es ist zu beachten, dass Lorenzkurve und Gini-Koeffizient auf die relative Konzentration abzielen. Teilen sich 2 Anbieter einen Markt, so dass jeder einen 50%igen Anteil beliefert, ist G=0. Dennoch würde man in diesem Fall von Konzentration sprechen. Absolute Konzentrationsmaße sind in derartigen Situationen informativer. PD Dr Thomas Beißinger 28 Literaturhinweise zu Abschnitt 2.2.4 Ausführliche Darstellungen der Konzentrationsmaße finden sich in Assenmacher, W. (1998), Deskriptive Statistik, Springer, S. 123-146. Schulze (2000), Beschreibende Statistik, Oldenbourg, S. 88-106. PD Dr Thomas Beißinger 29 3. Multivariate Deskription und Exploration von Daten Ziel: Zusammenhänge zwischen verschiedenen Merkmalen aufdecken. Beispiel: Hängt die Dauer der Arbeitslosigkeit vom Ausbildungsniveau oder Geschlecht ab? Zur Beantwortung: Merkmale „Dauer der Arbeitslosigkeit“ (X), „Ausbildungsniveau“ (Y) und „Geschlecht“ (Z) müssen gemeinsam erhoben werden, d.h. zu einem Merkmalsträger i werden mehrere Werte (xi, yi, zi, …), so genannte mehrdimensionale Daten erhoben. Im folgenden: Konzentration auf den zweidimensionalen Fall PD Dr Thomas Beißinger 1 3.1 Diskrete und gruppierte Merkmale 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle In diesem Abschnitt: Methoden zur Darstellung der gemeinsamen Verteilung von zwei diskreten Merkmalen mit relativ wenigen Ausprägungen: • Qualitative (kategoriale) Merkmale • Metrische diskrete Merkmale • Metrische stetige Merkmale, die durch Gruppierung kategorial werden Für alle Arten von Merkmalen gilt: In diesem Abschnitt wird nur das Nominalskalenniveau der Merkmale benutzt, auch wenn die Merkmale ein höheres Messniveau besitzen. PD Dr Thomas Beißinger 2 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Beispiel: Habilitationsdichte Anzahl der Habilitationen im Jahre 1993 aufgeschlüsselt nach Geschlecht und Fach RechtsSprach- Wirtsch.Kultur- Sozialwiss. wiss. Naturwiss. Kunst Medizin Frauen 51 20 30 4 44 149 Männer 216 92 316 10 433 1067 267 112 346 14 477 1216 Besteht zwischen den Merkmalen Geschlecht und Habilitationsfach ein Zusammenhang? aus: Fahrmeir et al. (2003), S. 109. PD Dr Thomas Beißinger 3 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Beispiel: Dauer der Arbeitslosigkeit Kurzzeitarbeitslosigkeit mittelfristige LangzeitArbeitslosig- arbeitslosigkeit keit Keine Ausbildung 86 19 18 123 Lehre 170 43 20 233 Fachspez. Ausbildung 40 11 5 56 Hochschulabschluss 28 4 3 35 324 77 46 447 Datenquelle: Teilstichprobe des Sozioökonomischen Panels. 447 männliche Arbeitslose. Dauer der Arbeitslosigkeit ist ein kategorisiertes Merkmal, mit Kurzzeitarbeitslosigkeit ( 6 Monate), mittelfr. Arbeitslosigk. (7-12 Monate), Langzeitarbeitslosigk. (> 12 Monate) Besteht ein Zusammenhang zwischen dem Ausbildungsniveau und der Dauer der Arbeitslosigkeit? aus: Fahrmeir et al. (2003), S. 109. PD Dr Thomas Beißinger 4 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Verallgemeinerung der Beispiele: Ausgangspunkt sind zwei Merkmale X und Y. Urliste: ( x1, y1 ),..., ( xn , y n ) Die möglichen Ausprägungen sind: Absolute Häufigkeiten: hij h(ai , b j ) a1,..., ak für X b1,..., bm für Y i 1,..., k , j 1,..., m ĺ Gemeinsame Verteilung der Merkmale X und Y in absoluten Häufigkeiten. PD Dr Thomas Beißinger 5 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Die sich daraus ergebende Häufigkeitstabelle heißt Kontingenztabelle (oder Kontingenztafel): a1 a2 b1 ... bm h11 ... h1m h21 ... h2m ak hk 1 ... hkm (k x m)-Kontingenztabelle PD Dr Thomas Beißinger 6 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Kontingenztabellen werden üblicherweise durch die Zeilen- und Spaltensummen ergänzt. Die Zeilensummen ergeben die Randhäufigkeiten des Merkmals X: hi x hi 1 ... him , i 1,..., k Die sich ergebenden Randhäufigkeiten h1x , h2x ,..., hk x sind die einfachen Häufigkeiten, mit der das Merkmal X die Werte a1, a2 ,..., ak annimmt, wenn das Merkmal Y nicht berücksichtigt wird. ĺ Randverteilung von X in absoluten Häufigkeiten Analog für Y: hx j h1 j ... hkj , j 1,..., m PD Dr Thomas Beißinger 7 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle (k x m) - Kontingenztabelle der absoluten Häufigkeiten: a1 a2 b1 ... bm h11 ... h1m h21 ... h2m ak hk 1 ... hkm hx1 ... hxm h1x h2x hk x n Diese Kontingenztabelle gibt die gemeinsame Verteilung der Merkmale X und Y in absoluten Häufigkeiten wieder. PD Dr Thomas Beißinger 8 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle (k x m) - Kontingenztabelle der relativen Häufigkeiten: b1 ... bm f11 ... f1m f1x a2 f21 ... f2m f2x ak fk 1 ... fkm fk x fx1 ... fxm 1 a1 fij hij / n fi x ¦ fij hi x / n ¦ fij hx j / n, fx j m j 1 k i 1 i 1,..., k j 1,..., m PD Dr Thomas Beißinger 9 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Beispiel: Habilitationsdichte (5 x 2) – Kontingenztabelle der relativen Häufigkeiten für Geschlecht und Habilitationsfach RechtsSprach- Wirtsch.Kultur- Sozialwiss. wiss. Naturwiss. Kunst Medizin Frauen 0,042 0,016 0,025 0,003 0,036 0,122 Männer 0,178 0,076 0,260 0,008 0,356 0,878 0,220 0,092 0,285 0,011 0,392 1 z.B. waren 12,2 Prozent der Habilitierten weiblich und 87,8 Prozent männlich. Von den Habilitationen entfielen 22 Prozent auf die Sprach- und Kulturwissenschaften. 2,5 Prozent der Habilitationen insgesamt wurden von Frauen in den Naturwissenschaften geschrieben. PD Dr Thomas Beißinger 10 3.1.1. Zweidimensionale Daten: Die Kontingenztabelle Graphische Darstellungsform für gemeinsame Häufigkeiten: Zweidimensionales Säulendiagramm Ausbildung 1 = keine Ausbildung 2 = Lehre 3 = fachspezifische Ausbildung 4 = Hochschulabschluss Dauer der Arbeitslosigkeit 1: 6 Monate 2: 7 – 12 Monate 3: > 12 Monate aus: Fahrmeir et al. (2003), S. 113. PD Dr Thomas Beißinger 11 3.1.2. Bedingte Häufigkeiten Aus den gemeinsamen absoluten (oder relativen) Häufigkeiten lässt sich nicht unmittelbar auf den Zusammenhang zwischen den Merkmalen schließen. Beispiel: Habilitationsdichte RechtsSprach- Wirtsch.Kultur- Sozialwiss. wiss. Naturwiss. Kunst Medizin Frauen 51 20 30 4 44 149 Männer 216 92 316 10 433 1067 267 112 346 14 477 1216 Ob die Frauenquote bei naturwissenschaftlichen Habilitationen niedrig ist, lässt sich nur beantworten, wenn man sie auf die Teilgesamtheit der naturwissenschaftlichen Habilitationen bezieht. Dies erfolgt mit den bedingten relativen Häufigkeiten. PD Dr Thomas Beißinger 1 3.1.2. Bedingte Häufigkeiten Die bedingte relative Häufigkeitsverteilung von Y unter der Bedingung X = ai (abgekürzt Y|X = ai) ist bestimmt durch fY (b1 | ai ) hi 1 , ..., fY (bm | ai ) hi x him hi x Die bedingte relative Häufigkeitsverteilung von X unter der Bedingung Y = bj (abgekürzt X|Y = bj) ist bestimmt durch f X (a1 | b j ) h1 j hx j , ..., f X (ak | b j ) hkj hx j PD Dr Thomas Beißinger 2 3.1.2. Bedingte Häufigkeiten Beispiel: Sonntagsfrage „Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären?“; Befragungszeitraum: 11.1. – 24.1.1995 CDU/ CSU SPD FDP Grüne Rest Männer 33 35 4 6 22 100 Frauen 40 29 6 10 15 100 insges. 37 32 5 8 18 100 Es handelt sich um die in Prozent angegebene bedingte Verteilung der Parteipräferenz gegeben das Geschlecht. aus: Fahrmeir et al. (2003), S. 108. PD Dr Thomas Beißinger 3 3.1.2. Bedingte Häufigkeiten Beispiel: Dauer der Arbeitslosigkeit Für festgehaltenes Ausbildungsniveau (X = ai) erhält man folgende bedingte relative Häufigkeitsverteilung Kurzzeitarbeitslosigkeit mittelfristige LangzeitArbeitslosig- arbeitslosigkeit keit Keine Ausbildung 0,699 0,154 0,147 1 Lehre 0,730 0,184 0,086 1 Fachspez. Ausbildung 0,714 0,197 0,089 1 Hochschulabschluss 0,114 0,086 1 0,800 Es ist nun ein Vergleich der Verteilungen für die Subpopulationen möglich; z.B. ist die relative Häufigkeit für Kurzzeitarbeitslosigkeit in der Subpopulation „Hochschulabschluss“ mit 0,8 am größten. aus: Fahrmeir et al. (2003), S. 115. PD Dr Thomas Beißinger 4 3.1.2. Bedingte Häufigkeiten Beispiel: Habilitationsdichte Für festgehaltenes Fach (Y = bj) erhält man folgende bedingte relative Häufigkeitsverteilung: RechtsSprach- Wirtsch.- Natur- Kunst Medizin Kultur- Sozialwiss. wiss. wiss. Frauen 0,191 0,179 0,087 0,286 0,092 Männer 0,809 0,821 0,913 0,714 0,908 1 1 1 1 1 Der Frauenanteil in den Naturwissenschaften liegt mit 8,7 % deutlich unter dem Frauenanteil in den Sprach- und Kulturwissenschaften mit 19,1 %. ĺ Es könnte ein Zusammenhang zwischen Geschlecht und Fachgebiet aus: Fahrmeir et al. (2003), S. 115 bestehen. PD Dr Thomas Beißinger 5 3.1.2. Bedingte Häufigkeiten Bedingtes Säulendiagramm Beispiel: Bedingte Verteilungen der Dauer der Arbeitslosigkeit bezogen auf das Ausbildungsniveau Die bedingten Verteilungen unterscheiden sich nicht sehr stark, obwohl tendenziell die Dauer für Arbeitslose ohne Ausbildung insbesondere im Vergleich mit Hochschulabsolventen etwas verlängert ist. aus: Fahrmeir et al. (2003), S. 116. PD Dr Thomas Beißinger 6 3.2 Zusammenhanganalyse in Kontingenztabellen 3.2.1. Chancen und relative Chancen Beispiel: (2 x 2) - Kontingenztabelle Y 1 X 2 1 h11 h12 h1x 2 h21 h22 h2x hx1 hx2 n Unter einer C hance („odds“) versteht man das Verhältnis zwischen dem Auftreten von Y = 1 und Y = 2 in einer Teilpopulation X = ai. Die (bedingte) Chance für festes X = ai ist bestimmt durch J (1, 2 | X ai ) hi 1 . hi 2 PD Dr Thomas Beißinger 1 3.2.1 Chancen und relative Chancen Ein sehr einfaches Zusammenhangmaß ist die empirische relative C hance (K reuzproduk tverhältnis ,O dds R atio ). Für die Kontingenztabelle h11 h12 h21 h22 ist die relative Chance bestimmt durch J J 0: J ! 1: J 1: J (1, 2 | X J (1, 2 | X 1) 2) h11 / h12 h21 / h22 h11h22 h21h12 Chancen in beiden Teilpopulationen sind gleich Chancen in Population X=1 besser als in Population X = 2 Chancen in Population X=1 schlechter als in Population X = 2 PD Dr Thomas Beißinger 2 3.2.1 Chancen und relative Chancen Beispiel: a Duer der rAe bitslosigk eit Beschränkt man sich auf 2 Kategorien, erhält man die Tabelle: Kurzzeitarbeitslosigkeit Mittel- und langfristige Arbeitslosigkeit Fachspezifische Ausbildung 40 16 Hochschulabschluss 28 7 PD Dr Thomas Beißinger 3 3.2.1 Chancen und relative Chancen Für Personen mit fachspezifischer Ausbildung ist die „Chance“, kurzzeitig arbeitslos zu sein, im Verhältnis dazu, längerfristig arbeitslos zu sein: J (1, 2 | fachspezifisch) 40 16 2,5 Für Arbeitslose mit Hochschulabschluss erhält man: J (1, 2 | Hochschulabschluss) 28 7 4 Bei fachspezifischer Ausbildung stehen die „Chancen“ somit 5:2, für Arbeitslose mit Hochschulabschluss mit 4:1 erheblich besser. Die relative Chance ist: J 2,5 4 0,625 PD Dr Thomas Beißinger 4 3.2.1 Chancen und relative Chancen Das Verfahren lässt sich auf mehr als zwei Ausprägungen verallgemeinern, indem man sich auf jeweils zwei Zeilen X = ai und X = aj und zwei Spalten Y = br und Y = bs und die zugehörigen vier Zellen einer (k x m) –Kontingenztabelle beschränkt. Die relative Chance ist in diesem Fall: J hir / his h jr / h js hir h js h jr his PD Dr Thomas Beißinger 5 3.2.1 Chancen und relative Chancen Beispiel: a Duer der rAe bitslosigk eit Man erhält für die Teilpopulationen „keine Ausbildung“ und „Lehre“ in Bezug auf die Chance für mittelfristige gegenüber langfristiger Arbeitslosigkeit die Subtabelle: Mittelfristige Arbeitslosigkeit Langfristige Arbeitslosigkeit Keine Ausbildung 19 18 Lehre 43 20 J 19 / 18 43 / 20 1,06 2,15 0,493 Die Chance für mittelfristige gegenüber langfristiger Arbeitslosigkeit ist in der Population der Arbeitslosen ohne Ausbildung nur halb so groß wie in der Population der Arbeitslosen mit Lehre. PD Dr Thomas Beißinger 6 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Ausgangspunkt ist die Überlegung: Wie sollten die Häufigkeiten verteilt sein, wenn die beiden Merkmale keinerlei Zusammenhang aufweisen? b1 ... bm a1 a2 ak h1x ? hx1 ... hxm h2x hk x n PD Dr Thomas Beißinger 1 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Läge kein Zusammenhang zwischen den Merkmalen vor, sollte es ohne Einfluss sein, in welcher Zeile (d.h. Subpopulation X = ai) die bedingte Verteilung von Y gegeben X = ai betrachtet wird. In jeder Zeile würde man dieselbe Verteilung erwarten und zwar die Verteilung von Y ohne Berücksichtigung von X. ~ Bezeichnet hij die Häufigkeit, die man erwarten würde, wenn kein Zusammenhang vorliegt, führt diese Überlegung in der i-ten Zeile Uab hängigk eit: zu dem folgenden Postulat der empirischen n ~ hij hx j hi x n beobachtete relative Häufigkeit von Y zu erwartende bedingte relative Häufigkeit PD Dr Thomas Beißinger 2 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Das Postulat der empirischen Unabhängigkeit führt somit zu den zu erwartenden Häufigkeiten ~ hij hi x hx j n . Wenn die Merkmale X und Y keinen Zusammenhang aufweisen, d.h. unabhängig sind, sollten die tatsächlich beobachteten Häufigkeiten von den zu erwartenden Häufigkeiten kaum abweichen. Zur Konstruktion eines Zusammenhangmaßes benutzt man die Diskrepanz zwischen diesen Werten. PD Dr Thomas Beißinger 3 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Ȥ2 - K oeffizient Der Ȥ2 - Koeffizient ist bestimmt durch F2 ~ 2 k m (h h ) ij ij ¦¦ ~ i 1j 1 hij hi xhx j 2 h ( ) ij k m n , ¦¦ hi xhx j i 1j 1 n F 2 [0, f ) Der Nenner dient nur der Normierung. Ȥ2 ist groß (starke Diskrepanz): X und Y hängen voneinander ab. Ȥ2 ist klein (kleine Diskrepanz): X und Y hängen nicht voneinander ab. Beachte: Auch wenn X und Y tatsächlich keinen Zusammenhang aufweisen, ist nicht davon auszugehen, dass das Postulat der empirischen Unabhängigkeit exakt gilt, d.h. Ȥ2 = 0 resultiert. PD Dr Thomas Beißinger 4 3.2.2. Kontingenz- und Ȥ2 - Koeffizient A nmerk ungen: • h~ij wurde mittels der Zeilenunabhängigkeit der Verteilung Y|X = ai bestimmt. Das Postulat der empirischen Unabhängigkeit lässt sich auch auf der Spaltenunabhängigkeit der Verteilung X|Y = bj aufbauen: ~ hij hx j hi x , n d.h. die bedingte Verteilung X|Y = bj entspricht der Randverteilung ~ von X. Dies führt zu derselben Formel für h ij . • Die bei Unabhängigkeit zu erwartenden Häufigkeiten sind nicht mehr ganzzahlig. • Die Randsummen der zu erwartenden Häufigkeiten stimmen mit den tatsächlich beobachteten Randsummen überein. PD Dr Thomas Beißinger 5 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Nachteil: Der Ȥ2-Koeffizient hängt (linear) vom Beobachtungsumfang n ab. Beweis: F 2 hi xhx j 2 h ( ) ij k m n ¦¦ hi xhx j i 1j 1 n (nfij nfi xfx j )2 ¦¦ nfi xfx j i 1j 1 k m (fij fi xfx j )2 n¦ ¦ fi xfx j i 1j 1 k m Je nach Anzahl der Beobachtungen erhält man deshalb für eine Kontingenztabelle gegebener Größe bei gleicher Art der Abhängigkeit (d.h. bei übereinstimmenden relativen Häufigkeiten) unterschiedlich große Werte für den Ȥ2-Koeffizienten. PD Dr Thomas Beißinger 6 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Es lässt sich somit nicht ohne zusätzliche Überlegungen feststellen, wie groß Ȥ2 sein muss, um auf einen Zusammenhang hinzuweisen. K ontingenzk oeffizient (nach Pearson) Der Kontingenzkoeffizient ist bestimmt durch K F2 n F2 ª und besitzt den Wertebereich K «0, ¬ M 1º , wobei M M »¼ min^k , m`. Der Wertebereich des Kontingenzkoeffizienten hängt somit noch von der Dimension der Kontingenztafel ab. PD Dr Thomas Beißinger 7 3.2.2. Kontingenz- und Ȥ2 - Koeffizient orrigierter K K ontingenzk oeffizient Der korrigierte Kontingenzkoeffizient ist bestimmt durch K* K/ M 1 M und besitzt den Wertebereich K * [0,1]. Beachte: • Mit Ȥ2, K und K* wird nur die Stärke des Zusammenhangs gemessen. Eine Richtung der Wirkungsweise wird nicht erfasst in dem Sinne, dass wachsendes X mit wachsendem (oder fallendem) Y einhergeht. • Sämtliche Maße benutzen nur das Nominalskalenniveau von X und Y. PD Dr Thomas Beißinger 8 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Beispiel: Habilitationsdichte RechtsSprach- Wirtsch.Kultur- Sozialwiss. wiss. Naturwiss. Kunst Medizin Frauen 32,72 (51) 13,72 (20) 42,4 (30) 1,72 (4) 58,45 (44) 149 Männer 234,28 (216) 98,27 (92) 303,6 (316) 12,28 (10) 418,55 (433) 1067 267 112 346 14 477 1216 Zu erwartende Häufigkeiten h~ij und tatsächliche Häufigkeiten hij (in Klammern) Man erhält : F 2 26,584, K 0,146, K * 0,205 Der Zusammenhang ist nicht zu stark. PD Dr Thomas Beißinger 9 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Für den Spezialfall einer (2 x 2) – Kontingenztabelle lässt sich der Ȥ2-Wert und damit der Kontingenzkoeffizient auf sehr einfache Art berechnen. Die Kontingenztabelle sei a b ab c d c d ac bd Dann ist F 2 n(ad bc )2 . (a b )(a c )(b d )(c d ) Im Nenner befindet sich das Produkt über sämtliche Randhäufigkeiten. PD Dr Thomas Beißinger 10 3.2.2. Kontingenz- und Ȥ2 - Koeffizient Beispiel: Dauer der Arbeitslosigkeit Mittelfristige Arbeitslosigkeit Langfristige Arbeitslosigkeit Keine Ausbildung 19 18 37 Lehre 43 20 63 62 38 100 Man erhält: F2 100(19 20 18 43 )2 37 63 62 38 K 0,165, K * 2.826 0,234 PD Dr Thomas Beißinger 11 3.3 Graphische Darstellungen quantitativer Merkmale • Im Folgenden werden metrisch skalierte Merkmale mit vielen Ausprägungen betrachtet (also insbesondere stetige Merkmale). • Es wird explizit ein metrisches Skalenniveau vorausgesetzt. • Für die Darstellung quantitativer Merkmale mit vielen Ausprägungen empfehlen sich andere Methoden als für qualitative Merkmale. PD Dr Thomas Beißinger 1 3.3.1 Streudiagramm Die einfachste Darstellung der gemeinsamen Messwerte (x1,y1),…(xn,yn) zweier stetiger Merkmale ist das Streudiagramm, in dem die Messwerte in einem (x-y) - Koordinatensystem als Punkte, Kreuze oder sonstige Symbole dargestellt werden. Beispiel: Prognose des Sachverständigenrates Jahr 75 76 77 78 79 80 81 82 83 84 X 2,0 4,5 4,5 3,5 3,75 2,75 0,5 0,5 1,0 2,5 Y -3,6 5,6 2,4 3,4 4,4 1,8 -0,3 -1,2 1,2 2,6 Jahr 85 86 87 88 89 90 91 92 93 94 X 3,0 3,0 2,0 1,5 2,5 3,0 3,5 2,5 0,0 0,0 Y 2,5 2,5 1,7 3,4 4,0 4,6 3,4 1,5 -1,9 2,3 X: Prognose des Sachverständigenrates; Y: tatsächliches Wirtschaftswachstum in % Zahlen entnommen aus Fahrmeir et al. (2003), S. 126 PD Dr Thomas Beißinger 2 Tatsächliches Wachstum (Bruttoinlandsprodukt) 3.3.1 Streudiagramm Prognostiziertes Wachstum (Bruttoinlandsprodukt) PD Dr Thomas Beißinger 3 3.3.1 Streudiagramm Nettomiete Beispiel: Nettomiete und Wohnfläche aus: Fahrmeir et al. (2003), S. 128. Wohnfläche PD Dr Thomas Beißinger 4 3.3.2 Zweidimensionale Histogramme Bei einer sehr hohen Zahl von Messwerten, oder wenn gleiche Messwerte öfter auftreten, werden Streudiagramme unübersichtlich. In diesen Fällen sind zweidimensionale Histogramme zweckmäßiger. Bilde hierzu Intervalle [c0 , c1 ),..., [ck 1, ck ) für Merkmal X Intervalle [e0 , e1 ),..., [em 1, em ) für Merkmal Y hij bezeichne die absolute Häufigkeit, mit der Beobachtungswerte in das i-te Intervall von X und das j-te Intervall von Y, d.h. in [ci 1, ci ) u [e j 1, e j ) fallen. Die relative Häufigkeit wird wieder mit fij = hij/n bezeichnet. PD Dr Thomas Beißinger 5 3.3.2 Zweidimensionale Histogramme Das Volumen über dem Rechteck [ci 1, ci ) u [e j 1, e j ) soll den absoluten bzw. relativen Häufigkeiten entsprechen. „Volumen = Grundfläche x Höhe“ . Deshalb: Zeichne über den Rechtecksklassen [ci 1, ci ) u [e j 1, e j ), i 1,..., k , 1,..., m j Blöcke mit Grundkante [ci 1, ci ) in der x-Koordinate Grundkante [e j 1, e j ) in der y-Koordinate und Höhe hij (ci ci 1 )(e j e j 1 ) bzw. hij / n (ci ci 1 )(e j e j 1 ) PD Dr Thomas Beißinger . 6 3.3.2 Zweidimensionale Histogramme Das Volumen über dem Rechteck [ci 1, ci ) u [e j 1, e j ) soll den absoluten bzw. relativen Häufigkeiten entsprechen. „Volumen = Grundfläche x Höhe“ . Deshalb: Zeichne über den Rechtecksklassen [ci 1, ci ) u [e j 1, e j ), i 1,..., k , j 1,..., m Blöcke mit Grundkante [ci 1, ci ) in der x-Koordinate Grundkante [e j 1, e j ) in der y-Koordinate und Höhe hij (ci ci 1 )(e j e j 1 ) bzw. hij / n (ci ci 1 )(e j e j 1 ) PD Dr Thomas Beißinger . 7 3.3.2 Zweidimensionale Histogramme Beispiel: Nettomiete und Wohnfläche aus: Fahrmeir et al. (2003), S. 130. PD Dr Thomas Beißinger 8 3.3.3 Mehrdimensionale Darstellungen Bei mehrdimensionalem Datenmaterial kann beispielsweise für jeweils zwei Merkmale ein Streudiagramm gebildet werden. Man erhält damit eine Matrix von paarweisen Streudiagrammen, eine so genannte Scatterplot-Matrix. Dadurch wird zumindest der Zusammenhang jeweils zweier Merkmale verdeutlicht. Beispiel: Mietspiegel Matrix der Streudiagramme zu den Merkmalen „Nettomiete“, „Wohnfläche“, „Zimmeranzahl“ und „Nettomiete/qm“. PD Dr Thomas Beißinger 9 3.3.3 Mehrdimensionale Darstellungen aus: Fahrmeir et al., (2003), S. 132. PD Dr Thomas Beißinger 10 3.4 Zusammenhangmaße bei metrischen Merkmalen 3.4.1 Empirischer Korrelationskoeffizient nach Bravais-Pearson Ausgangspunkt: Streudiagramm Starker positiver linearer Zusammenhang Schwacher negativer linearer Zusammenhang Im Folgenden wird eine Maßzahl zur Messung der Stärke des linearen Zusammenhangs entwickelt. PD Dr Thomas Beißinger 1 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient Zunächst: Empirische Kovarianz Idee: aus: Fahrmeir et al. (2003), S. 134. PD Dr Thomas Beißinger 2 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient Empirische Kovarianz: 1 n ¦ ( x i x )( y i y ) ni 1 s XY PD Dr Thomas Beißinger 3 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient Zur Normierung: Standardabweichung von X: sX 1n 2 ¦ ( xi x ) ni 1 Standardabweichung von Y: sY 1n 2 ¦ (yi y ) ni 1 PD Dr Thomas Beißinger 4 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient Der Bravais-Pearson-Korrelationskoeffizient ergibt sich aus den Daten (xi, yi), i=1,…n durch n r r XY ¦ ( xi x )( y i y ) s XY s X sY i 1 n n i 1 i 1 2 2 ¦ ( xi x ) ¦ ( y i y ) Wertebereich: 1 d r d 1 r > 0: positive Korrelation, gleichsinniger linearer Zusammenhang Tendenz: Werte (xi,y i) um eine Gerade positiver Steigung liegend r < 0: negative Korrelation, gegensinniger linearer Zusammenhang Tendenz: Werte (xi, yi) um eine Gerade negativer Steigung liegend r = 0: keine Korrelation, unkorreliert, kein linearer Zusammenhang PD Dr Thomas Beißinger 5 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient aus: Fahrmeir et al. (2003), S. 136. PD Dr Thomas Beißinger 6 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient Eine rechengünstigere Formel für den Bravais-Pearson-Korrelationskoeffizienten ist n ¦ x i y i nx y r i 1 n n § ¦ x 2 nx 2 ·§ ¦ y i2 ny 2 ·¸ ¨ ¸ ¨ i ©i 1 ¹© i 1 ¹ PD Dr Thomas Beißinger 7 3.4.1rBavais-Pearso n ro Krelatio nsk e offizient Beispiel: Mietspiegel Die paarweisen Korrelationskoeffizienten zwischen den Variablen „Nettomiete“, „Wohnfläche“, „Zimmerzahl“ und „Nettomiete/qm“ ergeben eine Korrelationsmatrix: „Mittlere positive Korrelation“ zwischen Wohnfläche und Nettomiete. „Starke positive Korrelation“ zwischen Zimmerzahl und Wohnfläche. „Schwache negative Korrelation“ zwischen Wohnfläche und Nettomiete/qm. aus: Fahrmeir et al. (2003), S. 137. PD Dr Thomas Beißinger 8 3.4.2 Korrelationskoeffizient nach Spearman Einen alternativen Korrelationskoeffizienten erhält man, wenn man von den ursprünglichen x- und y-Werten zu ihren Rängen übergeht. Man ordnet jedem x-Wert aus x1,…xn als Rang die Platzzahl zu, die der Wert bei größenmäßiger Anordnung aller Werte erhält. Beispiel: xi 2,17 8,00 1,09 2,01 rg(x i) 3 4 1 2 Dieselbe Vergabe von Rangplätzen wird (unabhängig von den x-Werten) für die y-Messwerte y1,…,yn durchgeführt. PD Dr Thomas Beißinger 1 3.4.2o rKrelatio nsk e offizient nach Sp earm an Aus den ursprünglichen Messpaaren (xi, yi), i = 1,…,n, ergeben sich somit die neuen Rangdaten (rg (xi), rg (yi)), i = 1,…,n. Innerhalb der x-Werte als auch innerhalb der y-Werte können identische Werte (= Bindungen, Ties) auftreten. Die Rangvergabe ist dann nicht eindeutig. In diesem Fall: Bildung von Durchschnittsrängen: Jedem der identischen Messwerte wird als Rang das arithmetische Mittel der in Frage kommenden Ränge zugewiesen. Beispiel: xi 1,09 2,17 2,17 2,17 3,02 4,5 rg(x i) 1 3 3 3 5 6 rg = (2 + 3 + 4) / 3 = 3 PD Dr Thomas Beißinger 2 3.4.2o rKrelatio nsk e offizient nach Sp earm an Spearmans Korrelationskoeffizient: ist der Bravais-Pearson-Korrelationskoeffizient, angewandt auf die Rangpaare (rg (xi), rg (yi)), i = 1,…,n: n ¦ (rg ( xi ) rg X )(rg ( y i ) rg Y ) i 1 rSP n 2 n , 2 ¦ (rg ( xi ) rg X ) ¦ ( rg ( y i ) rg Y ) i 1 wobei rg X rg Y n Hierbei verwendet: ¦ i i 1 1n 1n ¦ rg ( xi ) ¦ i (n 1) / 2 ni 1 ni 1 1n 1n rg ( y ) ¦ ¦ i (n 1) / 2. i ni 1 ni 1 n(n 1) / 2 i 1 PD Dr Thomas Beißinger 3 3.4.2o rKrelatio nsk e offizient nach Sp earm an Wertebereich: 1 d rSP d 1 rSP > 0: gleichsinniger monotoner Zusammenhang, Tendenz: x groß y groß, x klein y klein rSP < 0: gegensinniger monotoner Zusammenhang, Tendenz: x groß y klein, x klein y groß rSP | 0 : kein monotoner Zusammenhang PD Dr Thomas Beißinger 4 3.4.2o rKrelatio nsk e offizient nach Sp earm an Extremfälle für Spearmans Korrelationskoeffizienten, rSP = 1 (oben) und rSP = -1 (unten) aus: Fahrmeir et al. (2003), S. 141. PD Dr Thomas Beißinger 5 3.4.2o rKrelatio nsk e offizient nach Sp earm an Beachte: Der Korrelationskoeffizient nach Spearman eignet sich auch für ordinalskalierte Merkmale, da der Koeffizient nur die Ordnungsrelation benutzt. Rechentechnisch günstigere Formel: Daten : ( x i , y i ) i 1,..., n, Rangdifferenzen : d i x i z x j , y i z y j für alle i , j rg ( x i ) rg ( y i ) n 6 ¦ d i2 rSP 1 i 1 2 (n 1)n Voraussetzung: Keine Bindungen PD Dr Thomas Beißinger 6 3.4.2o rKrelatio nsk e offizient nach Sp earm an Beispiel: Mietspiegel Korrelationskoeffizient nach Spearman Nettomiete 0,478 0,375 0,620 0,511 Wohnfläche 0,869 -0,321 0,396 0,859 Zimmerzahl -0,341 0,580 -0,316 -0,331 Nettomiete/qm Bravais-Pearson-Korrelationskoeffizient r und rSP liegen sehr nahe beieinander, was dafür spricht, dass die Form des monotonen Zusammenhangs weitgehend linear ist. Größter Unterschied zwischen beiden Korrelationskoeffizienten besteht bei Nettomiete und Nettomiete/qm, so dass für diese beiden Merkmale der Zusammenhang am wenigsten linear zu sein scheint. aus: Fahrmeir et al. (2003), S. 142. PD Dr Thomas Beißinger 7 3.4.3 Invarianzeigenschaften Betrachtet man anstatt der ursprünglichen Merkmale X und Y die linear transformierten Merkmale ~ X a X X b X , a X z 0, ~ Y aY Y bY , aY z 0, ~ ~ erhält man für die Bravais-Pearson-Korrelation zwischen X und Y : r X~Y~ ¦ [a X x i b X (a X x b X )][aY y i bY (aY y bY )] 2 2 ¦ [a X x i b X (a X x bx )] ¦ [aY y i bY (aY y bY )] a X aY ¦ ( x i x )( y i y ) [a 2X ¦ ( x i x )2 ][aY2 ¦ ( y i y )2 ] a X aY r XY . | a X || aY | PD Dr Thomas Beißinger 1 3.4.3 Invarianzeigenschaften Daraus folgt die Eigenschaft | r X~Y~ | | r XY |, die als Maßstabsunabhängigkeit des Bravais-Pearson-Korrelationskoeffizienten bezeichnet wird. Wegen r X~Y~ gilt: a X aY r XY | a X || aY | r X~Y~ r XY , wenn a X , aY ! 0 bzw. a X , aY 0 r X~Y~ r XY , wenn a X ! 0, aY 0 bzw. a X 0, aY ! 0 Für Spearmans Korrelationskoeffizienten gilt nach Konstruktion dieselbe Eigenschaft. PD Dr Thomas Beißinger 2 3.4.3 Invarianzeigenschaften Der Korrelationskoeffizient nach Spearman ist darüber hinaus invariant gegenüber streng monotonen Transformationen. Betrachtet man anstatt der ursprünglichen Merkmale X und Y die transformierten Merkmale ~ X g ( X ), wobei g streng monoton (wachsend oder fallend) ist ~ Y h(Y ), wobei h streng monton (wachsend oder fallend) ist, so gilt: ~ ~ rSP ( X ,Y ) rSP ( X ,Y ) wenn g und h monoton wachsend, bzw. g und h monoton fallend sind ~ ~ rSP ( X ,Y ) rSP ( X ,Y ) wenn g monoton wachsend und h monoton fallend bzw. g monoton fallend und h monoton wachsend sind. PD Dr Thomas Beißinger 3 3.4.3 Invarianzeigenschaften Die Korrelationskoeffizienten sind invariant gegenüber der Vertauschung der Rolle von X und Y. Es gilt r XY rYX bzw. rSP ( X ,Y ) rSP (Y , X ). Die Merkmale stehen gleichberechtigt nebeneinander. Deshalb: Korrelation ist ein Maß für die Stärke des Zusammenhangs zwischen X und Y. Die Richtung der Wirkung, sofern vorhanden, wird durch Korrelationskoeffizienten nicht erfasst. PD Dr Thomas Beißinger 4 3.5 Korrelation und Kausalität • Ein betragsmäßig hoher Korrelationskoeffizient wird häufig auch kausal interpretiert. • Kausalzusammenhänge können aber niemals allein durch große Werte eines entsprechenden Zusammenhangmaßes oder allgemeiner durch eine statistische Analyse begründet werden. • Hierzu sind stets sachlogische Überlegungen der jeweiligen Substanzwissenschaft heranzuziehen. • Es sollte auch stets überprüft werden, ob weitere wesentliche Merkmale übersehen wurden. Dies kann zu Scheinkorrelationen, aber auch zu verdeckten Korrelationen führen. PD Dr Thomas Beißinger 1 3.5 Korrelation und Kausalität Bei einer Scheinkorrelation wird eine hohe Korrelation zwischen zwei Merkmalen beobachtet, die inhaltlich nicht gerechtfertigt ist. Solche scheinbaren Zusammenhänge können dadurch bewirkt werden, dass ein mit beiden beobachteten Merkmalen hoch korreliertes drittes Merkmal übersehen wird und somit unberücksichtigt bleibt. Beispiel: Wortschatz von Kindern gemessen über die Anzahl der verschiedenen Wörter in einem Aufsatz. Wortschatz (X) xi 37 30 20 28 35 Körpergröße (Y) yi 130 112 108 114 136 PD Dr Thomas Beißinger 2 PD Dr Thomas Beißinger 3 3.5 Korrelation und Kausalität aus: Fahrmeir et al. (2003), S. 147. 3.5 Korrelation und Kausalität Da beide Merkmale metrisch sind, lässt sich der Bravais-PearsonKorrelationskoeffizient berechnen: 5 ¦ xi y i 5 xy i 1 r XY 5 5 i 1 i 1 ( ¦ x i2 5 x 2 )( ¦ y i2 5 y 2 ) x 30, y 5 5 120, ¦ x i2 5 4678, ¦ y i2 i 1 72600, ¦ x i y i i 1 18282 i 1 Somit erhält man: r XY 0,863, was auf einen starken, linearen, positiven Zusammenhang hinzuweisen scheint. PD Dr Thomas Beißinger 4 3.5 Korrelation und Kausalität Sachlogisch lässt sich nicht erklären, dass ein Zusammenhang zwischen Wortschatz und Körpergröße bestehen soll. Hier bewirkt eine andere wesentliche Variable den Zusammenhang: Mit dem Alter nehmen sowohl Wortschatz als auch Körpergröße zu. Wortschatz (X) xi 37 30 20 28 35 Körpergröße (Y) yi 130 112 108 114 136 Alter (Z) zi 12 7 6 7 13 rYZ 0,996 und r XZ 0,868 PD Dr Thomas Beißinger 5 3.5 Korrelation und Kausalität Beachte: Oft lässt sich für eine beobachtete Korrelation eine Erklärung finden, die einsichtig erscheint, und dennoch die entscheidenden Zusammenhänge übersieht. Beispiel: Hohe Korrelation zwischen Kriminalitätsrate und Ausländeranteil lässt sich soziologisch erklären. Nimmt man aber als drittes Merkmal die Stadtgröße hinzu, so wird deutlich, dass mit der Größe der Stadt sowohl die Kriminalitätsrate als auch der Ausländeranteil zunehmen. Dieser Aspekt darf bei der Untersuchung nicht vernachlässigt werden! PD Dr Thomas Beißinger 6 3.5 Korrelation und Kausalität Verdeckte Korrelation Beispiel: Zigarettenkonsum In einer Untersuchung wird festgestellt, dass der Zigarettenkonsum seit 1950 annähernd konstant geblieben ist. Betrachtet man allerdings die Korrelation von Zigarettenkonsum und Zeit für die Geschlechter getrennt, stellt man fest, dass eine ganz markante Entwicklung stattgefunden hat: Der Zigarettenkonsum hat in der weiblichen Bevölkerung seit 1950 ständig zugenommen, in der männlichen Bevölkerung ständig abgenommen. Fazit: Hätte man das Geschlecht als mögliche Einflussgröße vergessen, so wäre die Korrelation zwischen Zigarettenkonsum und Zeit verdeckt worden, da sie in beiden Populationen vorhanden, aber gegenläufig gewesen ist. PD Dr Thomas Beißinger 7 3.5 Korrelation und Kausalität Beispiel: Therapieerfolg und Dosierung Mit wachsender Dosierung steigt meist Heilungserfolg, aber Grenzen: mögliche toxische Effekte bei zu hoher Dosierung und steigende Gefahr von Nebenwirkungen. Verblüffend: In einer Studie wird trotz Beachtung der toxischen Grenze und möglicher Nebenwirkungen eine negative Korrelation zwischen Dosierung und Therapieerfolg gefunden. Grund: Die Gesamtpopulation der Kranken zerfällt in zwei Teilpopulationen. In jeder Teilpopulation nimmt mit der Dosierung der Therapieerfolg zu, aber über die Populationen hinweg sieht man einen gegenläufigen Effekt. PD Dr Thomas Beißinger 8 PD Dr Thomas Beißinger 9 3.5 Korrelation und Kausalität aus: Fahrmeir et al. (2003), S. 149. 3.6 Regression 3.6.1 Das lineare Regressionsmodell Sachlogische Überlegungen legen häufig eine Richtung der Beeinflussung zwischen Merkmalen nahe. Jetzt: Betrachtung von 2 Merkmalen. Ein Merkmal, z.B. Y, lässt sich als abhängig von dem anderen Merkmal, z.B. X, ansehen. Beide Merkmale sind metrisch skaliert. Der funktionale Zusammenhang lässt sich allgemein schreiben als: Y f(X) (1) Derartige funktionale Zusammenhänge gelten jedoch immer nur näherungsweise, d.h. die Beobachtungen streuen um die durch f(X) definierte Kurve. PD Dr Thomas Beißinger 1 3.6.1 Das lineare Regressionsmodell Aus diesem Grunde lässt man noch einen zufälligen Fehlerterm H zu. Y f(X) H (2) Das Ziel ist es, eine Funktion f zur Beschreibung des Zusammenhangs zwischen Y und X zu finden, die einen möglichst großen Anteil der Variabilität von Y durch Änderungen von X erklärt; es soll also ein möglichst geringer Teil der Variabilität von Y auf den Fehler H zurückgeführt werden. Beziehungen wie in Gl. (2) nennt man Regressionen oder Regressionsmodelle. PD Dr Thomas Beißinger 2 3.6.1 Das lineare Regressionsmodell Bei der Suche nach einer geeigneten Funktion f beginnt man oft mit einer linearen Funktion. Man versucht, durch die Punktewolke eine Ausgleichsgerade zu legen, also eine Gerade, die möglichst nahe an den tatsächlichen Beobachtungen liegt. Die Funktion f ist somit von der Gestalt: f(X) D E X (3) PD Dr Thomas Beißinger 3 3.6.1 Das lineare Regressionsmodell Für die Datenpaare (xi, yi), i = 1,…,n gilt dann die lineare empirische Beziehung yi D E xi H i , i 1,..., n (4) wobei H i den durch die Geradenanpassung bedingten Fehler wiedergibt. Gl. (4) beschreibt das Modell der linearen Einfachregression. Y: Regressand; abhängige Variable X: Regressor; unabhängige Variable Ziel: Wähle D und E, d.h. den Achsenabschnitt und die Steigung, in der Weise, dass die einzelnen Datenpunkte möglichst wenig von der Geraden entfernt liegen. PD Dr Thomas Beißinger 4 3.6.2. Die Berechnung der Ausgleichsgeraden Die aufgrund der Geradengleichung prognostizierten bzw. gefitteten y-Werte werden mit ŷ i bezeichnet, i=1,…,n. Zur Ermittlung von Achsenabschnitt und Steigung der Ausgleichsgeraden wird die Summe der quadrierten Abweichungen zwischen tatsächlichen und gefitteten y-Werten durch Wahl von D und E minimiert. Methode der Kleinsten Quadrate: min Q(D , E ) D ,E 1 n 2 ¦ ( y i yˆ i ) ni 1 1 n 2 ¦ [ y i (D E x i )] ni 1 Die Werte von D und E , für die Q(D , E ) ihr Minimum annimmt, nennt man Kleinste-Quadrate-Schätzer. PD Dr Thomas Beißinger 5 3.6.2. Die Berechnung der Ausgleichsgeraden Die partiellen Ableitungen von Q sind: wQ(D , E ) wD wQ(D , E ) wE 2 n ¦ [ y i (D E x i )] ni 1 2 n ¦ [ y i (D E x i )]x i ni 1 Nullsetzen der Gleichungen und Auflösen führt zu den Normalgleichungen: 1 n 1n ¦ y i Dˆ Eˆ ¦ x i ni 1 ni 1 (1) 0 1 n 1 n 1 n 2 ¦ y i x i Dˆ ¦ x i Eˆ ¦ x i ni 1 n i 1 n i 1 PD Dr Thomas Beißinger 0 (2) 6 3.6.2. Die Berechnung der Ausgleichsgeraden Aus Gleichung (1) folgt: Dˆ y Eˆ x Setzt man dies in die zweite Gleichung ein, ergibt sich: n 1 n 1 n 1 1 n 2 ¦ y i x i y ¦ x i Eˆ x ¦ x i Eˆ ¦ x i ni 1 n i 1 n i 1 n i 1 0 Dies führt zu: 1 n ¦ y i x i y x ni 1 1 ˆ§ n 2 E ¨ ¦ xi nx 2 ·¸. n ©i 1 ¹ PD Dr Thomas Beißinger 7 3.6.2. Die Berechnung der Ausgleichsgeraden Die Lösung für Eˆ ist daher: n Eˆ ¦ y i x i ny x i 1 n n ¦ ( x i x )( y i y ) i 1 n 2 2 ¦ x i nx 2 ¦ ( xi x ) i 1 sYX . s 2X i 1 Die Gleichung für die Ausgleichsgerade lautet: yˆ Dˆ Eˆ x PD Dr Thomas Beißinger 8 3.6.2. Die Berechnung der Ausgleichsgeraden Beispiel: Fernsehen und Schlafverhalten Ein Kinderpsychologe vermut, dass sich häufiges Fernsehen negativ auf das Schlafverhalten von Kindern auswirkt. Untersuchung: Kind i 1 Fernsehzeit xi 0,3 Dauer Tiefschlaf yi 5,8 2 3 4 5 6 7 8 9 2,2 0,5 0,7 1,0 1,8 3,0 0,2 2,33 4,4 6,5 5,8 5,6 5,0 4,8 6,0 6,1 aus: Fahrmeir et al. (2003), S. 153. PD Dr Thomas Beißinger 9 3.6.2. Die Berechnung der Ausgleichsgeraden Streudiagramm und Ausgleichsgerade: PD Dr Thomas Beißinger 10 3.6.2. Die Berechnung der Ausgleichsgeraden Hilfsgrößen: 9 ¦ xi 12, x 9 1,3 3, ¦ yi i 1 50, y 5,5 5 i 1 9 ¦ y i xi 9 62,96, 2 ¦ xi i 1 24,24 i 1 9 Eˆ ¦ y i xi 9y x i 1 9 2 ¦ xi i 1 9x 62,96 9 5,5 5 1,3 3 24,24 9 1,3 3 2 Dˆ 5,5 5 0,45 1,3 3 3,7067 8,24 0,45 6,16 Ausgleichsgerade: Dˆ Eˆ x yˆ 6,16 0,45 x PD Dr Thomas Beißinger 11 3.6.2. Die Berechnung der Ausgleichsgeraden Einige Eigenschaften der durch die KQ-Methode bestimmten Regressionsgeraden 1. „Die Regressionsgerade geht mitten durch die Punktewolke“ Die Residuen aus der Regression sind: Hˆi y i yˆ i , i 1,..., n Wegen der ersten Normalgleichung gilt: n ¦ ( y i Dˆ Eˆ xi ) 0 i 1 bzw. n n ¦ ( y i yˆ i ) ¦ Hˆi i 1 i 1 0 PD Dr Thomas Beißinger 12 3.6.2. Die Berechnung der Ausgleichsgeraden 2. Die Regressionsgerade geht durch den Schwerpunkt der Punktewolke Es gilt: y Eˆ x Dˆ Somit ist: y Dˆ Eˆ x 3. Der Mittelwert y aus den yi-Werten entspricht dem Mittelwert ŷ gefitteten Werte n ¦ ( y i yˆ i ) 0 folgt ¦ y i n n ¦ yˆ i . Division durch n führt zu i 1 i 1 i 1 Da ¦ Hˆi i 1 n der n n ¦ yi ¦ yˆ i i 1 i 1 n n y yˆ . PD Dr Thomas Beißinger 13 3.6.3 Bestimmtheitsmaß und Residualanalyse Streuungszerlegung: Welcher Anteil der Streuung der y-Werte lässt sich durch die Regression von Y und X erklären? „Gesamte Streuung von Y“: SQT n 2 ¦ (yi y ) i 1 SQT = „Sum of Squares Total“ PD Dr Thomas Beißinger 14 3.6.3 Bestimmtheitsmaß und Residualanalyse Y yi yˆ y i yˆ i Dˆ Eˆ x Hˆi yi y ŷ i yˆ i y y X xi PD Dr Thomas Beißinger 15 3.6.3 Bestimmtheitsmaß und Residualanalyse n 2 ¦ (y i y ) i 1 n n i 1 i 1 2 2 ¦ ( yˆ i y ) ¦ ( y i yˆ i ) SQT = SQE + SQR Sum of Squares Total = Sum of Squares Explained + Sum of Squares Residuals Gesamte Streuung = Erklärte Streuung + Residualstreuung Je größer die Residualstreuung ist, desto schlechter beschreibt das Modell die Daten. PD Dr Thomas Beißinger 16 3.6.3 Bestimmtheitsmaß und Residualanalyse Bestimmtheitsmaß R2 ist eine Maßzahl für die Güte der Modellanpassung, die auf der Streuungszerlegung aufbaut. R2 gibt den Anteil an der Gesamtstreuung der yi an, der durch die Regression von Y auf X erklärt wird: n R2 2 ¦ ( yˆ i y ) SQE SQT i 1 n n n 2 2 ¦ ( y i y ) ¦ ( y i yˆ i ) i 1 i 1 n 2 ¦ (y i y ) 2 ¦ (y i y ) i 1 i 1 n 2 ¦ ( y i yˆ i ) 1 i n1 2 ¦ (y i y ) i 1 0 d R2 d 1 PD Dr Thomas Beißinger 17 3.6.3 Bestimmtheitsmaß und Residualanalyse R2 n 0 ¦ ( yˆ i y )2 0, d.h. die erklärte Streuung ist gleich Null i 1 Das Modell ist extrem schlecht. R2 n 1 ¦ ( y i yˆ i )2 i 1 n 0, d.h. ¦ Hˆi2 0 i 1 Das Modell ist eine perfekte Anpassung an die Daten. Weitere Eigenschaft von R2: R2 2 r XY , d.h. das Bestimmtheitsmaß entspricht dem quadrierten Bravais-Pearson-Korrelationskoeffizienten. PD Dr Thomas Beißinger 18 3.6.3 Bestimmtheitsmaß und Residualanalyse Beweis: Bereits gezeigt: Der Mittelwert der ŷ i stimmt mit Mittelwert der yi überein. Daraus folgt: n 2 ¦ ( yˆ i y ) i 1 n 2 ¦ ( yˆ i yˆ ) i 1 n n R 2 i 1 n ¦ (y i y ) 2 i 1 Wegen Eˆ sYX ist Eˆ 2 2 sX Einsetzen führt zu : R 2 Eˆ 2 ¦ ( xi x )2 i 1 2 ¦ ( yˆ i y ) Somit gilt: n 2 ¦ (Dˆ Eˆ x i Dˆ Eˆ x ) i 1 n Eˆ 2 ¦ ( xi x )2 i 1 n ¦ (y i y ) Eˆ 2s 2X sY2 2 . i 1 2 sYX . (s 2X )2 2 sYX s 2X (s 2X )2 sY2 § sYX ¨¨ © s X sY · ¸¸ ¹ 2 2 r XY . q.e.d PD Dr Thomas Beißinger 19 3.6.3 Bestimmtheitsmaß und Residualanalyse Somit ergibt sich eine neue Interpretation für den Korrelationskoeffizienten: Der quadrierte Korrelationskoeffizient entspricht dem Anteil der erklärten Streuung an der Gesamtstreuung. Beispiel: Zusammenhang zwischen Reaktionszeit (Y) und Alter (X): rXY = 0,8. Die in der Stichprobe variierende Reaktionszeit lässt sich daher 2 bei Annahme eines linearen Zusammenhangs zu 64% ( r XY 0,64 ) darauf zurückführen, dass auch X variiert, sich also Personen unterschiedlichen Alters in der Stichprobe befinden. PD Dr Thomas Beißinger 20 3.6.3 Bestimmtheitsmaß und Residualanalyse Die Güte des Models lässt sich auch mit Residualplots überprüfen. (a) (b) (c) aus: Fahrmeir et al. (2003), S. 159. PD Dr Thomas Beißinger 21 3.6.3 Bestimmtheitsmaß und Residualanalyse Abbildung a): ideales Verhalten der Residuen: sie schwanken unsystematisch um die horizontale Achse und sind nahe bei Null. Abbildung b): Vermutung, dass eine nichtlineare Abhängigkeit zwischen den Merkmalen besteht, die nicht durch das Modell erfasst wird. Abbildung c): Auch dieses Modell nicht optimal, da sich die Variabilität der Residuen mit den Werten der Einflussgröße X ändert. PD Dr Thomas Beißinger 22 3.6.3 Bestimmtheitsmaß und Residualanalyse Beispiel: Fernsehen und Schlafverhalten i 1 2 3 4 5 6 7 8 9 yi 5,8 4,4 6,5 5,8 5,6 5,0 4,8 6,0 6,1 ŷ i 6,02 5,17 5,93 5,84 5,71 5,35 4,81 6,07 5,12 Hˆi -0,22 -0,77 0,57 -0,04 -0,11 -0,35 -0,01 -0,07 0,98 9 R2 2 ¦ ( y i yˆ i ) 1 i 91 2 ¦ (y i y ) 0,45. i 1 Damit beträgt der Anteil der durch das Regressionsmodell erklärten Varianz nur 45%. Beispiel aus Fahrmeir et al. (2003), S. 160. PD Dr Thomas Beißinger 23 3.6.4 Nichtlineare Regression Oftmals sieht man bereits am Streudiagramm, dass der Zusammenhang zwischen X und Y nichtlinear ist, z.B. bei Wachstumsprozessen oder Sättigungskurven. In diesem Fall: nichtlineare Regressionsmodelle. Die Nichtlinearität bezieht sich nicht auf die x-Werte, sondern auf die Modellparameter. Im allgemeinen Fall sind numerische Verfahren (Iterationsverfahren) zur Bestimmung der Schätzer erforderlich. In manchen Fällen besteht jedoch die Möglichkeit, durch geschickte Transformation ein nichtlineares Regressionsmodell auf ein lineares Modell zurückzuführen. PD Dr Thomas Beißinger 24 3.6.4 Nichtlineare Regression Beispiel: y i | D e ( E xi ) , > ln y i | ln D e E xi @ i 1,..., n lnD E x i G E xi , i 1,..., n Man erhält dann Gˆ und Eˆ. Dˆ ˆ eG PD Dr Thomas Beißinger 25 3.6.5 Mehrfachregression Die multiple Regressionsanalyse ist für die empirische Wirtschaftsforschung von zentraler Bedeutung. Es wird untersucht, wie der Regressand Y von mehreren unabhängigen Variablen (Regressoren) beeinflusst wird: yi E1xi 1 E 2 xi 2 ... E k xik H i , i xi 1 1, y § y1 · ¨ ¸ ¨ y2 ¸ ¨ ¸ ¨¨ ¸¸ © yn ¹ i 1,..., n 1,..., n : Scheinregressor ȕ § E1 · ¨ ¸ ¨ E2 ¸ ¨ ¸ ¨¨ ¸¸ © Ek ¹ İ PD Dr Thomas Beißinger § H1 · ¨ ¸ ¨ H2 ¸ ¨ ¸ ¨¨ ¸¸ ©Hn ¹ 26 3.6.5 Mehrfachregression X x13 x1k · ¸ x23 x2k ¸ ¸ ¸ xn 3 xnk ¸¹ §1 x12 ¨ ¨1 x22 ¨ ¨¨ ©1 xn 2 Somit lässt sich das multiple Regressionsmodell in Matrixform schreiben als: y Xȕ İ Der Parametervektor ȕ wird wieder durch die Minimierung der Residuenquadratsumme bestimmt: min ( y Xȕ )c( y Xȕ ) PD Dr Thomas Beißinger 27 3.6.5 Mehrfachregression Normalgleichungen: XcXȕˆ Xcy Dies führt zu: ȕˆ Zur Berechnung von ( XcX )1 Xcy ȕ̂ wird entsprechende Software benutzt. PD Dr Thomas Beißinger 28 Literaturhinweise zu Kapitel 3 Alle Abschnitte aus Kapitel 3: „Multivariate Deskription und Exploration von Daten“ orientieren sich in wesentlichen Teilen an: Fahrmeir, L., Künstler, R., Pigeot, I. und Tutz, G., Statistik. Der Weg zur Datenanalyse, Berlin u.a.: Springer, 2003, S. 107-169. PD Dr Thomas Beißinger 29 4. Zeitreihenanalyse 4.1 Grundlagen 4.1.1 Gegenstand der Zeitreihenanalyse Zeitreihe: zeitlich geordnete Folge von Werten yt, t = 1,…,T mit unveränderter sachlicher und räumlicher Abgrenzung Zeitreihen liegen meist in äquidistanter Form vor, d.h. der zeitliche Abstand zwischen zwei aufeinander folgenden y-Werten ist konstant. Jetzt: Univariate Zeitreihenanalyse Spezielles Ziel: Zerlegung der Zeitreihe in verschiedene Komponenten. PD Dr Thomas Beißinger 1 4.1.2 Graphische Darstellung Zeitreihe des monatlichen Stromverbrauchs einer Stadt: Die Zeitreihe weist einen Trend und ein Saisonmuster auf. aus: Schwarze (2001), Grundlagen der Statistik I, 9. Auflage, S. 195. PD Dr Thomas Beißinger 2 4.1.2 Graphische Darstellung Ausschnitt aus vorhergehender Abbildung: Man erkennt das ausgeprägte Saisonmuster. In den Wintermonaten ist der Stromverbrauch höher als in den Sommermonaten. aus: Schwarze (2001), Grundlagen der Statistik I, 9. Auflage, S. 195. PD Dr Thomas Beißinger 3 4.1.3 Komponenten von Zeitreihen und ihre Verknüpfung Eine Zeitreihe wird zurückgeführt auf folgende Komponenten: Trendkomponente Tt Glatte Komponente Gt Zyklische Komponente Zt Saisonkomponente St Irreguläre Komponente İt (Restkomponente, Zufallskomponente) yt f (Tt , Zt , St , H t ) , Gt PD Dr Thomas Beißinger 4 4.1.3 Komponenten von Zeitreihen und ihre Verknüpfung Additives Modell: yt Tt Zt St H t , t 1,...,T Multiplikatives Modell: yt Tt Zt St H t , t 1,...,T Jetzt: Bestimmung der glatten Komponente und der Saisonkomponente PD Dr Thomas Beißinger 5 4.1.3 Komponenten von Zeitreihen und ihre Verknüpfung Additive Verknüpfung Multiplikative Verknüpfung aus: Schulze (2000), Beschreibende Statistik, 4. Auflage, S. 237. PD Dr Thomas Beißinger 6 4.2 Komponentenmodelle 4.2.1 Bestimmung der glatten Komponente bzw. des Trends Gleitende Durchschnitte Idee: Man ersetzt den Zeitreihenwert einer Periode durch das arithmetische Mittel der Werte dieser, sowie vorangehender und nachfolgender Perioden. Bei ungerader Zahl: y t* 1 ( y t k y t k 1 ... y t ... y t k 1 y t k ), 2k 1 mit k = 1,2,3,… Für k=1 wird z.B. ein gleitender 3er Durchschnitt berechnet Für k=2 wird ein gleitender 5er Durchschnitt berechnet usw. PD Dr Thomas Beißinger 1 4.2.1 Bestimmung der glatten Komponente bzw. des Trends Wird eine gerade Zahl von Werten in die Berechnung einbezogen, so besteht das Problem, einen berechneten gleitenden Durchschnittswert genau einer Periode zuzuordnen. Lösung: Einbeziehung von jeweils zwei halben Werten am Anfang und Ende der Zeitreihe: y t* 1 1 1 ( y t k y t k 1 ... y t ... y t k 1 y t k ), 2k 2 2 mit k=1,2,3,… PD Dr Thomas Beißinger 2 4.2.1 Bestimmung der glatten Komponente bzw. des Trends Beachte: • Zeigen die Zeitreihenwerte eine periodische Schwankung – es kann sich sowohl um Z als auch um S handeln-, dann eliminiert ein gleitender Durchschnitt mit gleicher Periodenlänge die Schwankungen vollkommen. Zurück bleibt der Trend. • Ein gleitender Durchschnitt von im Vergleich zur Originalzeitreihe unterschiedlicher Periodenlänge kann die periodischen Schwankungen nicht vollkommen glätten. • Je größer die Zahl der Werte, die zur Durchschnittsbildung herangezogen wird, umso „geglätteter“ ist die resultierende Reihe. Allerdings ist dann auch der Informationsverlust am Beginn und Ende der aktuellen Zeitreihe größer. PD Dr Thomas Beißinger 3 4.2.1 Bestimmung der glatten Komponente bzw. des Trends Monatlicher Stromverbrauch mit gleitenden Durchschnitten 12. Ordnung aus: Schwarze (2001), Grundlagen der Statistik I, 9. Auflage, S. 201. PD Dr Thomas Beißinger 4 4.2.1 Bestimmung der glatten Komponente bzw. des Trends Trendfunktionen Man legt den Funktionstyp für den Trend fest und ermittelt die Parameter der Trendfunktion mittels einer Regressionsschätzung, d.h. durch die Minimierung der Quadratsumme der Abweichungen der yi - Werte von der Trendfunktion. 1. Linearer Trend: yˆ t a bt Bestimme die Parameter a und b durch T min ¦ ( y t yˆ t )2 t 1 T 2 ¦ ( y t a bt ) t 1 PD Dr Thomas Beißinger 5 4.2.1 Bestimmung der glatten Komponente bzw. des Trends 2. Quadratischer Trend: a b1t b2t 2 yˆ t Bestimme die Parameter a, b1 und b2 durch T T min ¦ ( y t yˆ t )2 2 2 ¦ ( y t a b1t b2t ) t 1 t 1 Trotz des quadratischen Terms handelt es sich um ein lineares Regressionsmodell, da das Modell linear in den Parametern ist (t2 ist einfach ein weiterer Regressor). PD Dr Thomas Beißinger 6 4.2.1 Bestimmung der glatten Komponente bzw. des Trends 3. Exponentialtrend: yˆ t lg yˆ t ab t lg a t lg b Bestimme die Parameter lga und lgb durch T min ¦ (lg y t lg yˆ t )2 t 1 T 2 ¦ (lg y t lg a lg b t ) t 1 Entlogarithmieren führt zu aˆ und bˆ. PD Dr Thomas Beißinger 7 4.2.1 Bestimmung der glatten Komponente bzw. des Trends 4. Logistische Funktion: yˆ t c 1 10a bt c ! 0, a ! 0, b 0 relevant bei „Sättigungsprozessen“. c stellt die Obergrenze („Sättigungsgrenze“) dar, a und b bestimmen den Verlauf der Kurve. Die Kurve ist symmetrisch, in der Zeit aufsteigend, mit einem Wendepunkt in der Mitte bei c/2. Die Untergrenze ist die Abszisse. 5. Gompertz-Kurve: yˆ t ca b t 0 b 1,0 a 1, c ! 0 Die Kurve zeigt einen ähnlichen Verlauf wie die logistische Funktion, sie ist jedoch nicht symmetrisch bezüglich des Wendepunktes. PD Dr Thomas Beißinger 8 4.2.1 Bestimmung der glatten Komponente bzw. des Trends WP: Wendepunkt aus: Schulze (2000), Beschreibende Statistik, 4. Auflage, S. 253. PD Dr Thomas Beißinger 9 4.2.1 Bestimmung der glatten Komponente bzw. des Trends Die logistische Funktion und die Gompertz-Kurve sind nichtlinear in den Parametern. Es sind deshalb numerische Verfahren zur Bestimmung der Parameter notwendig. Ausnahme: Ist der Parameter c bereits vorab bekannt, können a und b durch eine Modelltransformation mit einer Kleinstquadrateschätzung ermittelt werden. c yˆ t c 1 10a bt yˆ t Beispiel: Logistische Funktion: 1 10a bt 10a bt c 1 yˆ t §c · lg¨¨ 1¸¸ ¹ © yˆ t a bt PD Dr Thomas Beißinger 10 4.2.1 Bestimmung der glatten Komponente bzw. des Trends §c · lg¨¨ 1¸¸ ¹ © yˆ t a bt Man transformiert daher die yt - Werte in y t* c 1 yt Anschließend werden a und b bestimmt durch T min ¦ ( y t* t 1 2 a bt ) Zur Modelltransformation für die Gompertz-Kurve siehe: Schulze (2000), S. 269f. PD Dr Thomas Beißinger 11 4.2.2 Bestimmung der Saisonkomponente Bei der Bestimmung von Saisonschwankungen ist zu unterscheiden: • konstante Saisonfigur (bei additiver Verknüpfung) • variable Saisonfigur (bei multiplikativer Verknüpfung) Im Folgenden wird ein einfaches Verfahren zur Saisonbereinigung vorgestellt: das Phasendurchschnittsverfahren. PD Dr Thomas Beißinger 1 4.2.2 Bestimmung der Saisonkomponente Saisonbereinigung bei konstanter Saisonfigur Vorgehensweise: 1) Berechnung eines gleitenden Durchschnitts der Ordnung l (= Anzahl der unterjährigen Perioden), mit dem die Saisonkomponente und irreguläre Komponente [St H t ] entfernt werden. y t* entspricht näherungsweise der glatten Komponente Gt. 2) Anordnung der Zeitreihenwerte, bei der die Werte, die sich auf die gleiche unterjährige Periode verschiedener Jahre beziehen, jeweils in einer Spalte stehen. Gesamte Zeitreihe: y1, y2, …, yT y11 y12 ... y1l m Jahre und l unterjährige Perioden: ml T y 21 y 22 ... y 2l y m1 y m 2 ... y ml PD Dr Thomas Beißinger 2 4.2.2 Bestimmung der Saisonkomponente Entsprechend sind auch y ij* , Sij , H ij zu interpretieren. Da eine konstante Saisonfigur unterstellt wird, gilt: Sij S j , d.h. der jeweilige Saisoneffekt ist vom betrachteten Jahr unabhängig. 3) Für jede unterjährige Periode j bildet man das arithmetische Mittel der Differenzen y ij y ij* und erhält die rohe Saisonkomponente: Sj 1 m * ¦ ( y ij y ij ) mi 1 Sj ist damit nichts anderes als das arithmetische Mittel der um die glatte Komponente bereinigten Zeitreihe für alle gleichnamigen unterjährigen Perioden. PD Dr Thomas Beißinger 3 4.2.2 Bestimmung der Saisonkomponente Theoretisch muss die Summe der Sj über ein Jahr Null ergeben, da die Saisonabweichungen sich innerhalb eines Jahres definitionsgemäß ausgleichen. Dies wird jedoch normalerweise nicht exakt erreicht (z.B. aufgrund des Einflusses der irregulären Komponente). Man normiert deshalb die Sj-Werte auf Null dadurch, dass man von l jedem Sj-Wert den Korrekturfaktor (1/ l ) ¦ S j subtrahiert. j 1 Man erhält die korrigierte Saisonkomponente: S j ( korr ) 1 l Sj ¦Sj lj 1 PD Dr Thomas Beißinger 4 4.2.2 Bestimmung der Saisonkomponente Die saisonbereinigten Zeitreihenwerte ergeben sich als Differenz: y ij S j ( korr ) Diese Werte repräsentieren die Summe aus glatter und irregulärer Komponente. Damit lässt sich die Entwicklung der von Saisonschwankungen unbeeinflussten Zeitreihe verfolgen. PD Dr Thomas Beißinger 5 4.2.2 Bestimmung der Saisonkomponente Saisonbereinigung bei variabler Saisonfigur Annahme: Saisonkomponente für die unterjährige Periode j ist jeweils ein Vielfaches aj der glatten Komponente, d.h. Sij a j Gij „Teilmultiplikatives Modell“: y ij Gij a j Gij H ij y ij Gij (1 a j ) H ij bzw. (1+aj) lässt sich als Saisonabweichung interpretieren. PD Dr Thomas Beißinger 6 4.2.2 Bestimmung der Saisonkomponente Vorgehensweise: 1) Berechnung eines gleitenden Durchschnitts der Ordnung l, mit dem die Saisonkomponente und irreguläre Komponente * entfernt werden. y ij entspricht näherungsweise der glatten Komponente Gij. 2) Division der Originalzeitreihe durch die gleitenden Durchschnitte führt zur Saisonkomponente, die noch mit den Zufallsschwankungen behaftet ist: y ij y ij* | Gij (1 a j ) H ij Gij (1 a j ) H ij Gij . PD Dr Thomas Beißinger 7 4.2.2 Bestimmung der Saisonkomponente 3) Man bildet das arithmetische Mittel: Sj 1 m y ij ¦ m i 1y ij* (1 a j ), wobei unterstellt wurde, dass die Summe über die irreguläre Komponente (annähernd) Null ist. Die Saisonbereinigung erfolgt dann durch folgende Quotientenbildung: y ij Sj PD Dr Thomas Beißinger 8 Literaturhinweise zu Kapitel 4 Kapitel 4: „Zeitreihenanalyse“ orientiert sich in wesentlichen Teilen an: Schulze, Peter M. (2000), Beschreibende Statistik, 4. Auflage, Oldenbourg: München, S. 229-238 und S. 245-293. PD Dr Thomas Beißinger 9 5. Indexzahlen 5.1 Grundlagen Einfache Indexzahlen (Messzahlen) • Zwei inhaltlich gleiche Größen zu verschiedenen Zeitpunkten bzw. Zeitperioden werden aufeinander bezogen. • Liegt eine Zeitreihe des Merkmals X mit den Beobachtungswerten x0, x1, …, xt vor, so bezeichnet man das Verhältnis xt/x0 als Messzahl oder einfachen Index von X auf der Basis 0. • Indexzahlen werden üblicherweise als Prozentzahlen ausgedrückt. Deshalb beginnt eine Indexreihe in der Basisperiode mit dem Wert 100. • Änderungen von Indexzahlen werden durch Prozentpunkte angezeigt. Die Erhöhung einer Indexzahl von 150 auf 165 bedeutet einen Anstieg um 15 Prozentpunkte, obwohl die Indexzahl nur um 10 Prozent gestiegen ist. PD Dr Thomas Beißinger 1 5.2 Preisindizes Ziel: Ermittlung der Preisentwicklung für eine Gruppe von Gütern (Warenkorb) 5.2.1 Preisindex nach Laspeyres Fragestellung: Was kostet der Warenkorb der Basisperiode zu Preisen der Berichtsperiode im Vergleich zur Basisperiode? Die Preise der Güter aus dem Warenkorb werden mit den Gütermengen der Basisperiode gewichtet. Der Warenkorb wird (mindestens) bis zur Berichtsperiode konstant gehalten. PD Dr Thomas Beißinger 2 5.2 Preisindizes Preisindex nach Laspeyres m P0(tL ) ¦ pti q0 i i 1 m 100 ¦ p0 i q0 i i 1 q0i: Gütermengen in der Periode 0, i = 1,…,m p0i: Güterpreise in Periode 0, i = 1,…,m pti: Güterpreise in Periode t, i = 1,…,m PD Dr Thomas Beißinger 3 5.2.1 Preisindex nach Laspeyres Vorteile: • Plausible ökonomische Aussagekraft • Relativ geringer Erhebungs- und Rechenaufwand Nachteil: Warenkorb veraltet im Zeitablauf aufgrund • Änderungen der Verbrauchsstruktur • Aufkommen neuer Güter • Änderungen der Produktqualität. Der Warenkorb muss deshalb in regelmäßigen Abständen auf eine neue Basis gestellt werden. PD Dr Thomas Beißinger 4 5.2.2 Preisindex nach Paasche Es werden die Mengen der Berichtsperiode konstant gehalten. Fragestellung: Um wie viel Prozent ist der Warenkorb der Berichtsperiode teurer bzw. billiger als er in der Basisperiode gewesen wäre? Preisindex nach Paasche: m P0(tP ) ¦ pti qti i 1 m 100 ¦ p0 i qti i 1 PD Dr Thomas Beißinger 5 5.2.2 Preisindex nach Paasche Vorteil: Es werden stets die aktuellen Warenkörbe der Berichtsperiode benutzt. Nachteile: • Der Erhebungs- und Berechnungsaufwand ist – z.B. im Vergleich zum Laspeyres-Index – erheblich größer, da in jeder Periode Preise und Mengen bestimmt werden müssen. • Der Indexwert einer Berichtsperiode ist nur mit dem Wert der Basisperiode direkt vergleichbar. Werte verschiedener Berichtsperioden sind nicht vergleichbar. • Bei weit zurückliegenden Basisperioden können einzelne Güter noch nicht vorhanden gewesen sein. PD Dr Thomas Beißinger 6 5.2.3 Vergleich der Preisindizes Bei „normaler“ Nachfragereaktion wird die nachgefragte Menge eines Gutes sinken, falls der Preis dieses Gutes steigt (Substitutionseffekt). Derartige strukturelle Änderungen werden durch den LaspeyresPreisindex nicht erfasst, da die Mengen der Basisperiode zugrunde gelegt werden. Der Laspeyres-Preisindex weist daher bei Normalreaktion der Güternachfrage einen höheren Preisanstieg aus als der Paasche-Preisindex. PD Dr Thomas Beißinger 7 5.3 Mengenindizes Es wird die durchschnittliche mengenmäßige Änderung von Warenkörben bei konstanten Preisen (Basis- oder Berichtsperiode) gemessen. Mengenindex nach Laspeyres Die Mengen werden mit den Preisen der Basisperiode gewichtet: m Q0( Lt ) ¦ qti p0 i i 1 m 100 ¦ q0i p0 i i 1 Mengenindex nach Paasche Die Mengen werden mit den Preisen der Berichtsperiode gewichtet: m Q0( Pt ) ¦ qti pti i 1 m 100 ¦ q0i pti i 1 PD Dr Thomas Beißinger 8 5.4 Wertindizes Bei einem Wertindex (Umsatzindex, Ausgabenindex) werden die tatsächlichen Umsätze der Berichtsperiode zu den tatsächlichen Umsätzen der Basisperiode in Beziehung gesetzt. m ¦ pti qti U 0t i 1 m 100 ¦ p0i q0i i 1 Umsatzindizes können eventuell unterschiedliche Warenkörbe in der Basis- und Berichtsperiode zugrunde liegen. PD Dr Thomas Beißinger 9 5.5 Indexzahlprobleme 5.5.1 Probleme der Indexkonstruktion Bei der Darstellung von Sachverhalten mit Hilfe von Indexzahlen sind verschiedene Entscheidungen zu treffen. Unter anderem: a) Wahl des Indextyps In der amtlichen und nichtamtlichen Statistik wird überwiegend das Indexschema von Laspeyres benutzt. b) Wahl der Basisperiode Üblicherweise werden Basisjahre benutzt. Ein Basisjahr sollte als „normal“ oder „typisch“ angesehen werden können. c) Wahl der Art und Zahl der Güter im Warenkorb Im allgemeinen ist es nicht möglich, bei Indexrechnungen alle Güter und Dienste des zu indizierenden Sachverhalts zu berücksichtigen. Damit stellt sich das Problem der Repräsentativität des Warenkorbs. PD Dr Thomas Beißinger 10 5.5.2 Indexumrechnungen a) Umbasierung Für verschiedene Berichtsperioden 1,2,…,k,…T liegen die Werte eines (Laspeyres-) Index auf der Basis 0 vor: I01, I02 ,..., I0 k ,..., I0T Es soll eine Umrechnung auf die neue Basis k vorgenommen werden (z.B. um internationale Vergleichbarkeit der Zeitreihen herzustellen). Hierzu: Dividiere jeden Wert der Indexreihe durch I0k . Bei einer Angabe in Prozent gilt also: Ikt I0 t 100, t I0 k 1,...,T PD Dr Thomas Beißinger 11 5.5.2 Indexumrechnungen Beispiel: Preisindex nach Laspeyres für die Periode 4, der von der Basisperiode 0 auf die Periode k=2 als neue Basis umbasiert werden soll. ¦ p4q0 (L ) P24 (L ) P04 (L ) P02 100 ¦ p0q0 100 ¦ p2q0 ¦ p4q0 ¦ p2q0 100. ¦ p0q0 Hieran erkennt man, dass aus der Umbasierung kein Preisindex nach Laspeyres zur neuen Basisperiode 2 resultiert, sondern ein „Mischindex“ mit Preisen der Periode 2, jedoch mit Mengen der alten Basis 0. Dieser Sachverhalt ist bei der Interpretation umbasierter Indexzahlen zu berücksichtigen. Eine von Periode 0 zur Periode k umbasierte Indexzahl ist nämlich kein Index mit einer in Periode k festgestellten Gewichtung, sondern mit einer solchen aus Periode 0. PD Dr Thomas Beißinger 12 5.5.2 Indexumrechnungen b) Verknüpfung Wegen der von Zeit zu Zeit erforderlichen Aktualisierung des Warenkorbs entstehen „Brüche“ zwischen den einzelnen Indexwerten mit unterschiedlichen Basisperioden. Will man die Entwicklung der Indexreihe über eine große Zeitspanne verfolgen (z.B. Preisindex für die Lebenshaltung in der BRD seit 1949), so verknüpft man die verschiedenen Indexreihen miteinander. Dabei kann man die alten Reihen auf das Niveau der aktuellen Reihe umrechnen oder umgekehrt. Die Werte des fortgeführten bzw. zurückgerechneten Indexes werden im folgenden mit * bezeichnet. PD Dr Thomas Beißinger 13 5.5.2 Indexumrechnungen ..., It(A2), It(A1), It( A ) Alte Indexreihe: (B ) (B ) (B ) Neue Indexreihe: It , It 1 , It 2 ,... Nun soll der auf der neuen Basis zurückgerechnete Indexwert für (t-1) ermittelt werden. Hierzu wird angenommen, dass alter und neuer Indexwert zueinander proportional sind: Dies führt zu: It(B1)* It( B ) It(A1) It( A ) It(B1)* Entsprechend gilt: It(B2)* (B ) ( A ) It It 1 ( A ) It (B ) ( A ) It It 2 ( A ) , usw. It PD Dr Thomas Beißinger 14 5.5.2 Indexumrechnungen Analog lässt sich der auf der alten Basis fortgerechnete Indexwert für t+1 berechnen als It(A1)* Somit ist: It(A2)* ( A) ( B ) It It 1 ( B ) . It ( A) ( B ) It It 2 ( B ) , usw. It Wie man erkennen kann, wird die Umrechnung aufgrund des Indexverhältnisses in der Periode t vorgenommen. Dies kann problematisch sein, denn damit wird aufgrund der Indexwerte in t für den gesamten Umrechnungszeitraum die dort festgestellte Proportionalität zwischen der alten und der neuen Reihe unterstellt. PD Dr Thomas Beißinger 15 Literaturhinweise zu Kapitel 5 Kapitel 5: „Indexzahlen“ orientiert sich in wesentlichen Teilen an: Schulze, Peter M. (2000), Beschreibende Statistik, 4. Auflage, Oldenbourg: München, S. 295-318. PD Dr Thomas Beißinger 16