Statistik A Beschreibende Methoden und Wirtschaftsstatistik Prof. Dr. Alois Kneip Universität Bonn Wirtschaftswissenschaftlicher Fachbereich Statistische Abteilung Adenauerallee 24-26 53113 Bonn http://www.statistik.uni-bonn.de unter der Mitarbeit von Dr. Jens-Uwe Scheer, Dr. Jürgen Arns, Oualid Bada [email protected] 01 Inhalt 1. Grundlagen • Einführung • Wirtschaftsstatistik: Ziele, Arbeitsweise und Institutionen • Grundbegrie der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription und Exploration von Daten • Verteilungen und ihre Darstellungen • Lagemaÿe • Streuungsmaÿe • Quantile und Boxplot • Maÿe für Schiefe und Wölbung • Lorenzkurven und Konzentrationsmaÿe 3. Bivariate Deskription und Exploration von Daten [email protected] 02 • Kontingenztabellen • Zusammenhangsanalyse in Kontingenztabellen • Grasche Darstellung quantitativer Merkmale • Zusammenhangsmaÿe bei metrischen Merkmalen • Lineare Einfachregression • Erweiterungen der Einfachregression 4. Zeitreihen • Grundlagen: grasche Darstellung, Komponentenmodelle • Schätzung von Trendkomponenten • Schätzung von Saisonkomponenten • Autoregression 5. Indexzahlen • Grundlagen • Preisindizes, Mengenindizes, Wertindizes • Indexprobleme, Indexkriterien und Indexumrechnungen • Beispiele für Indexzahlen in der Wirtschaftsstatistik [email protected] 03 6. Einführung in die Wahrscheinlichkeitstheorie Literatur: • Fahrmeier, Künstler, Pigeot, Tutz: Statistik, Springer Verlag [email protected] 04 Einige Institutionen der Wirtschaftsstatistik Amtliche Statistik: Statistisches Bundesamt www.destatis.de Statisches Amt der EU - EUROSTAT epp.eurostat.ec.europa.eu/ Wirtschaftsforschungsinstitute: Ifo-Institut (München) www.ifo.de Deutsches Institut f. Wi.-Forschung (Berlin) www.diw-berlin.de HWWA (Hamburg) www.hwwa.de Institut für Weltwirtschaft (Kiel) www.uni-kiel.de/ifw RWI (Essen) www.rwi-essen.de Institut für Wirtschaftsforschung (Halle) www.iwh.uni-halle.de [email protected] 05 1 Grundlagen 1.1 Einführung Was ist Statistik? Ziel: Informationsgewinnung aus Daten Voraussetzung: Vorliegen einer gröÿeren Grundgesamtheit Wenn ein Mensch stirbt, ist es ein Unglück, bei 100 Toten ist es eine Katastrophe, bei 1000 Toten eine Statistik (G. Calot) Der Begri Statistik besitzt mehrere Bedeutungen: • Ergebnis eines Zähl- oder Messprozesses; Resultate einer Erhebung (Statistische Jahrbücher, Arbeitslosenstatistik, Bevölkerungsstatistik) • Gesamtheit des methodischen Instrumen- tariums der statistischen Analyse und Inferenz ⇒ eigener Wissenschaftszweig [email protected] 11 Erkenntnisziele der Statistik Statistische Deskription und Exploration Die deskriptive Statistik dient zur beschreibenden und graschen Aufbereitung und Komprimierung von Daten. Die explorative Statistik befasst sich mit dem Aunden von Strukturen und Zusammenhängen innerhalb des Datenmaterials ⇒ Vorlesung Statistik I Statistische Inferenz Die induktive (oder schlieÿende) Statistik versucht, über die erhobenen Daten hinaus allgemeinere Schlussfolgerungen für umfassendere Grundgesamtheiten zu ziehen. Wichtige Werkzeuge sind die Wahrscheinlichkeitstheorie und stochastische Modelle. ⇒ Vorlesung Statistik II [email protected] 12 Beispiel: Einkommensdaten • Quelle: U.K. Family Expenditure Survey • Ungefähr 7000 britische Haushalte pro Jahr • Für jeden Haushalt: Einkommen aus verschiedenen Quellen, Ausgaben für verschiedene Güter, Alter, Familiengröÿe, Berufe, etc. Verfügbares Einkommen im Jahr 1976 (76 von 7202 Haushalten; Einheit: Pfund pro Woche): 66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21 [email protected] 13 Statistische Deskription: Für die gegebene Stichprobe von 7202 Haushalten • Durchschnittseinkommen (arithmetisches Mittel): 58, 75 • Einkommensverteilung (Histogramm) 0.012 0.008 0.004 0.000 0 40 80 120 160 200 240 280 Einkommen Induktive Statistik: Durchschnittseinkommen aller Haushalte in GB? ⇒ Konstruktion eines 95% Kondenzintervalls: Durchschnittseinkommen in GB = 58, 75 ± 0, 84 [email protected] 14 Wozu braucht man Statistik? • Politische Umfragen und Wahlprognosen z.B. Sonntagsfrage, Politbarometer • Klinische und epidemologische Studien z.B. Extraktion von Risikofaktoren für bestimmte Krankheiten, Studien zur Überprüfung der Wirksamkeit eines Medikaments Statistik im volks- und betriebswirtschaftlichen Bereich (Beispiele): • Kreditwürdigkeitsprüfung und Insolvenzprognose z.B. Extraktion von relevanten Merkmalen, die es erlauben, die Kreditwürdigkeit eines Kunden einzustufen • Marktforschungsstudien z.B. Exploration von Konsumgewohnheiten zur optimalen Positionierung eines neuen Produkts auf dem Markt • Analyse von Aktienkursen zur Steuerung von Aktienportfolios • Einkommensstatistik, Bevölkerungsstatistik [email protected] 15 1.2 Grundbegrie der Statistik Statistische Einheit (Merkmalsträger): Einzelobjekt einer statistischen Untersuchung, an dem interessierende Gröÿen erfasst werden Grundgesamtheit (Statistische Masse): Menge aller für die Fragestellung relevanten statistischen Einheiten Teilgesamtheit: Teilmenge der Grundgesamtheit Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit [email protected] 16 Statistisches Merkmal (Variable): interessierende Gröÿe, deren Ausprägungen an den einzelnen statistischen Einheiten beobachtet werden Merkmalsausprägung: konkreter Wert des Merkmals für eine bestimmte statistische Einheit Merkmal Merkmalsausprägungen X x1 , x2 , . . . , xn [email protected] 17 Beispiel statistische Einheit: jeder Bürger von Bonn per 31.12.1995 Grundgesamtheit: Bevölkerung von Bonn am 31.12.1995 Erfassungsmerkmale: X1 - Alter X2 - Geschlecht X3 - Familienstand X4 - monatliches Einkommen ... mögliche Merkmalsausprägungen: X1 : 1, 13, 84, . . . X2 : männlich, weiblich X3 : ledig, verheiratet, geschieden, . . . X4 : 800, . . ., 2555.56, . . . [email protected] 18 1.2.1 Merkmalstypen Eine grundlegende Unterscheidung erfolgt anhand des Skalenniveaus, auf dem ein Merkmal gemessen wird. Nominalskala Ein Merkmal ist nominalskaliert, wenn die Ausprägungen Namen oder Kategorien sind, die den Einheiten zugeordnet werden Beispiele: Geschlecht, Familienstand, erlernter Beruf Spezialfall: Ein Merkmal heiÿt dichotom (oder binär), falls es nur zwei sich gegenseitig ausschlieÿende Ausprägungen aufweist. Man beachte: Aus technischen Gründen wird oft eine Kodierung durchgeführt, d.h. den Ausprägungen werden Zahlen zugewiesen; diese Zahlen haben dann eine reine Bezeichnungsfunktion (Rechenoperationen nicht sinnvoll!); Nominalskalierung bleibt erhalten Beispiele: Geschlecht: männlich=1, weiblich=2 PKW-Farbtöne: grün=117, blau=440, . . . [email protected] 19 Ordinalskala Eine Ordinalskala liegt vor, wenn Merkmalsausprägungen nicht nur eine Verschiedenartigkeit, sondern auch eine natürliche Rangfolge zum Ausdruck bringen; Abstände zwischen den Ausprägungen sind jedoch nicht interpretierbar Beispiele: Schulnoten militärischer Dienstgrad Wind- und Erdbebenstärken Güteklassen für Produkte sozialer Status [email protected] 110 Kardinalskala oder metrische Skala: Eine Kardinalskala oder metrische Skala liegt vor, wenn Merkmalsausprägungen durch zugeordnete Zahlen sowohl Verschiedenartigkeit und Rangfolge, als auch mess- und quantizierbare Unterschiede zum Ausdruck bringen Metrisch skalierte Merkmale lassen sich zusätzlich in intervallskalierte und verhältnisskalierte Merkmale unterteilen. Intervallskala: Eine Intervallskala liegt vor, wenn Abstände (Dierenzen) zwischen Merkmalsausprägungen messbar und plausibel interpretierbar sind • kein natürlicher Nullpunkt • Quotienten nicht interpretierbar Beispiele: ◦ Temperatur in C, Kalenderzeitrechnung, Breiten- und Längengrade der Erde [email protected] 111 Verhältnisskala: Eine Verhältnisskala liegt vor, wenn Quotienten von Merkmalswerten berechenbar und plausibel interpretierbar sind • natürlicher Nullpunkt • Quotientenbildung sinnvoll Beispiele: Wertvolumen eines Warenkorbes, Längenmaÿe, Gewichtsmaÿe, Alter, Einkommen Sinnvolle Berechnungen: Skala auszählen ordnen Dierenzen Quotienten nominal ja nein nein nein ordinal ja ja nein nein intervall ja ja ja nein verhältn. ja ja ja ja [email protected] 112 Eine zusätzliche, eher grobe, Einteilung besteht in der Unterscheidung zwischen qualitativen und quantitativen Merkmalen. Hierbei existiert ein enger Bezug zum Skalenniveau. Qualitative (kategoriale) Merkmale: Unter qualitativen Merkmalen versteht man Gröÿen, deren Ausprägungen eine Qualität und nicht ein Ausmaÿ widerspiegeln; qualitative Merkmale sind entweder nominal- oder ordinalskaliert Quantitative Merkmale: Die Ausprägungen eines quantitativen Merkmals geben eine Intensität bzw. ein Ausmaÿ wieder, in dem die interessierende Gröÿe realisiert ist; metrisch skalierte Merkmale sind immer quantitativ Achtung: Zwitterstellung mancher ordinalskalierter Merkmale (z.B. Schulnoten) [email protected] 113 Eine weitere, praktisch relevante Unterscheidung von Merkmalen basiert auf der Anzahl von Ausprägungen. Diskretes Merkmal: Ein Merkmal heiÿt diskret, falls es nur endlich oder abzählbar unendlich viele Ausprägungen annehmen kann. Beispiele: Geschlecht, Rasse, Anzahl der Autounfälle in Bonn innerhalb eines Monats Nominal- oder ordinalskalierte Merkmale sind immer diskret Stetiges Merkmal: Ein (metrisch skaliertes) Merkmal heiÿt stetig, wenn alle Werte eines Intervalls mögliche Ausprägungen sind. Beispiele: Körpergröÿe, Menge des verkauften Benzins an einer Tankstelle pro Tag [email protected] 114 In der Praxis oft: Quasi-stetige Merkmale Manche metrisch skalierten Merkmale sind zwar im Prinzip diskret, die Anzahl aller möglichen Ausprägungen ist jedoch so groÿ, dass es auch bei sehr groÿen Grundgesamtheiten äuÿerst unwahrscheinlich ist, dass zwei verschiedene statistische Einheiten die gleiche Ausprägung (Zahlenwert) besitzen. Solche quasi-stetigen Merkmale werden in der Praxis wie stetige Merkmale behandelt. Beispiel: Monatliches Nettoeinkommen Mögliche Ausprägungen: x1 = 645, 53 Euro x2 = 3215, 60 Euro x3 = 1450, 35 Euro .. . [email protected] 115 1.3 Datenmaterial in der statistischen Praxis In der Praxis können die für eine statistische Analyse verwendeten Daten aus unterschiedlichen Quellen stammen. Neben eigenen Erhebungen kann auch Datenmaterial verwendet werden, das dem Statistiker von amtlichen oder nichtamtlichen Institutionen zur Verfügung gestellt wurde. • Primärstatistische Untersuchung: Die Erhebung wurde speziell im Hinblick auf die zu untersuchende Fragestellung durchgeführt • Sekundärstatistische Untersuchung: Zur statistischen Analyse werden bereits vorhandene Originaldaten benutzt (z.B. aus statistischen Jahrbüchern) • Tertiärstatistische Untersuchung: Es werden bereits transformierte oder komprimierte Daten (etwa in Form von Mittelwerten) zur Analyse herangezogen Auf den verschiedenen Ebenen kann das Datenmaterial in unterschiedlicher Form vorliegen. [email protected] 116 1.3.1 Urliste, Häugkeitdaten und gruppierte Daten Die nachfolgende Unterscheidung hinsichtlich der Form der durch die Daten gegebenen Informationen über ein interessierendes Merkmal ist von groÿer Bedeutung für praktische Berechnungen. Erhebung ⇒ Stichprobe des Umfangs n 1) Urliste (Rohdaten, Primärdaten): Es sind die Ausprägungen x1 , . . . , xn eines interessierenden Merkmals X für alle in der Stichprobe bendlichen statistischen Einheiten gegeben. Beispiel: Grundgesamtheit: Alle im WS 2009/2010 eingeschriebenen Studierenden der Universität Bonn Statistische Einheit: Ein im WS 2009/2010 eingeschriebener Student oder eine eingeschriebene Studentin der Universität Bonn Stichprobe: n = 5 zufällig ausgewählte Studierende Merkmal: Geschlecht (männlich= 0, weiblich= 1) Urliste: x1 = 0, x2 = 1, x3 = 1, x4 = 0, x5 = 1 Merkmal: Alter Urliste: x1 = 22, x2 = 20, x3 = 27, x4 = 25, x5 = 31 [email protected] 117 2) Häugkeitsdaten: Es sind nur die relativen oder absoluten Häugkeiten der einzelnen Ausprägungen eines diskreten Merkmals gegeben. Beispiel: Grundgesamtheit: Alle im WS 2009/2010 eingeschriebenen Studierenden der Universität Bonn Statistische Einheit: Ein im WS 2009/2010 eingeschriebener Student oder eine eingeschriebene Studentin der Universität Bonn Stichprobe: n = 5 zufällig ausgewählte Studierende Merkmal: Geschlecht beobachtete absolute Häugkeiten in der Stichprobe: 2 männliche Studierende, 3 weibliche Studierende beobachtete relative Häugkeiten in der Stichprobe: 40% männlich, 60% weiblich [email protected] 118 3) Gruppierte Daten: Insbesondere bei sekundär- und tertiärstatistischen Untersuchungen liegen ursprünglich metrisch skalierte Merkmale oft in gruppierter Form vor. Gruppierung: Einteilung eines metrisch skalierten Merkmals in k Klassen Klassen: benachbarte Intervalle (c0 , c1 ], (c1 , c2 )], . . . , (ck−1 , ck ] Gruppierte Daten: Gegeben sind nur die Häugkeiten der Originalbeobachtungen innerhalb der einzelnen Klassen • c0 , c1 , c2 , . . . , ck heiÿen Klassengrenzen • Klassenbreiten: δj = cj − cj−1 • Klassenmitten: c̄j = [email protected] cj + cj−1 2 119 Beispiel: Einkommensverteilung 1986 nach der Lohn- und Einkommenssteuerstatistik Gesamtbetrag Steuerpichtige der Einkünfte DM Gesamtbetrag der Einkünfte (1000) (Mill. DM) - 4000 1445.2 2611.3 4000 - 8000 1455.5 8889.2 8000 - 12000 1240.5 12310.9 12000 - 16000 1110.7 15492.7 16000 - 25000 2762.9 57218.5 25000 - 30000 1915.1 52755.4 30000 - 50000 6923.7 270182.7 50000 - 75000 3876.9 234493.1 75000 -100000 1239.7 105452.9 100000-250000 791.6 108065.7 250000-500000 93.7 31433.8 500000- 1 Mill 26.6 17893.3 1 Mill - 2 Mill 8.3 11769.9 2 Mill - 5 Mill 3.7 10950.8 5 Mill -10 Mill 0.9 6041.8 10 Mill- mehr 0.5 10749.8 1 [email protected] 120 1.3.2 Klassizierung nach Datenarten Im Rahmen von sekundär- und tertiärstatistischen Untersuchungen werden zu analysierende Merkmale in der Wirtschaftsstatistik oft im Hinblick auf die Art und Weise ihres Zustandekommens klassiziert. Mikrodaten (individuelle Daten): Statistische Einheiten sind einzelne Haushalte, Firmen, etc. Gemessene Merkmale geben Charakteristika dieser Einheiten wieder. Aggregierte Daten: Interessierende Merkmale sind Maÿzahlen, die durch geeignete Zusammenfassung von Mikrodaten entstanden sind Beispiel: Mittlerer Konsum aller Haushalte in Deutschland [email protected] 121 Formen der Aggregation 1. Sachliche Aggregation 2. Räumliche Aggregation 3. Zeitliche Aggregation Wichtige Maÿzahlen: Indexzahlen, die die zeitliche Entwicklung einer Gesamtheit von Objekten wiedergeben. Sie enstehen durch sinnvolle Aggregation von Einzelwerten. Beispiele: Deutscher Aktienindex (Dax), Preisindizes, etc. [email protected] 122 Eine weitere Klassizierung erfolgt im Hinblick darauf, ob sich die Daten auf einen einzelnen, festgelegten Zeitpunkt beziehen, oder ob sie Informationen über die Veränderungen eines Merkmals über einen längeren Zeitraum enthalten. Querschnittsstudie: Für eine Stichprobe von statistischen Einheiten werden ein oder mehrere Merkmale zu einem festgelegten Zeitpunkt erfaÿt. Beispiel: Unternehmensbefragung über aktuelle Auftragslage Zeitreihe: Ein Objekt wird hinsichtlich eines Merkmals über einen längeren Zeitraum hinweg beobachtet, d.h. die Ausprägung des Merkmals wird in verschiedenen Zeitperioden erfaÿt. Beispiel: Monatlicher Gesamtkonsum aller deutschen Haushalte von 1991-2001 [email protected] 123 Panel (Längsschnittstudie): Für eine Stichprobe von statistischen Einheiten wird die Entwicklung von interessierenden Merkmal(en) über einen gewissen Zeitraum hinweg verfolgt Beispiel: Sozio-ökonomisches Panel: 1984 vom DIW gestartete jährliche Wiederholungsbefragung von mehreren tausenden Haushalten (mehrere hundert Variablen, z.B. Erwerbsstatus, Einkommen,...) [email protected] 124 1.4 Datengewinnung und Erhebungsarten Datenerhebung ist Grundlage jeder Statistik Anforderungen an statistisches Datenmaterial: Methodische Solidität Vergleichbarkeit über längere Zeit Vollständigkeit und Genauigkeit Aktualität Datenquellen: Amtliche Daten Nichtamtliche Daten Eigene Datenerhebung [email protected] 125 Datenerhebung: Sorgfältige Planung notwendig! 1. Genaue Formulierung der Fragestellung 2. Sorgfältige Abgrenzung der zu analysierenden Merkmale und der interessierenden statistischen Einheiten und Masse 3. Festlegung der adäquaten Erhebungsart Beispiele: • schriftliche Befragung (Fragebogen) • mündliche oder telefonische Befragung • Beobachtung, Experiment • automatische Erfassung 4. Festlegung der zur Auswertung geeigneten statistischen Methodik 5. Maÿnahmen zum Datenschutz Ziel von 3. und 4.: Repräsentativität der Ergebnisse und Vermeidung von Fehlinterpretationen durch weitestgehenden Ausschluss von Fehlerquellen [email protected] 126 Vollerhebung: Die Merkmale jeder einzelnen statistischen Einheit in der Grundgesamtheit werden erhoben • Beispiel: Volkszählung • Probleme der Vollerhebung: oft zeitraubend, und kostspielig; in vielen Fällen praktisch nicht durchführbar [email protected] 127 Teilerhebung: Ziehung einer Stichprobe aus der interessierenden Grundgesamtheit • wichtig: Umfang n der Stichprobe • Problem: Zufallsschwankungen ⇒ statistisch kontrollierbar (z.B. Signikanztests) Fehlerquellen: • Fehlende Repräsentativität der Stichprobe durch systematische Verzerrungen (ungeeignete Erhebungsart) • Fehlende oder falsche Daten • Einuss von Störvariablen [email protected] 128 Wichtige Stichprobenverfahren: Einfache Zufallsstichprobe: Aus der interessierenden statistischen Masse werden n Einheiten nach einem reinen Zufallskriterium ausgewählt Geschichtete Zufallsstichprobe: Die Grundgesamtheit wird zunächst in sich nicht überlappende Schichten zerlegt; aus jeder Schicht wird eine einfache Zufallsauswahl getroen • Beispiel: Schichtung nach Geschlecht, sozialem Status oder Berufsgruppen • Schichten: in sich homogen; untereinander heterogen [email protected] 129 Klumpenstichprobe: Die Grundgesamtheit zerfällt in untereinander ähnliche Teilgesamtheiten (Klumpen); Klumpen werden zufällig ausgewählt und innerhalb jedes Klumpens wird eine Vollerhebung durchgeführt • Beispiel: Studie des Weinkonsums in Rheinhessen; mögliche Klumpen: verschiedene Gemeinden • Klumpen: in sich heterogen; untereinander homogen (verkleinerte Abbilder der Grundgesamtheit) Mehrstuge Auswahlverfahren: einfachste Form: wie Klumpenstichprobe, aber innerhalb eines ausgewählten Klumpens wird eine Zufallsstichprobe gezogen [email protected] 130 Bewuÿte Auswahlverfahren (insbesondere in der Meinungsforschung) Quotenauswahl: In vielen Fällen sind die Quoten bekannt, mit denen gewisse Teilgesamtheiten (Frauen, Männer, Studierende, Rentner,..) in der Grundgesamtheit vertreten sind. Die Stichprobe wird so ausgewählt, daÿ die entsprechenden Quoten erhalten bleiben. • Idee der Quotenauswahl: Erhöhung der Repräsentativität [email protected] 131 2 Univariate Deskription und Exploration von Daten 2.1 Verteilungen und ihre Darstellungen Erhebung vom Umfang n: beobachtete Ausprägungen x1 , . . . , xn eines Merkmals X x1 , . . . , xn werden als Urliste, Rohoder Primärdaten bezeichnet Häugkeit: Besetzungszahl einer Ausprägung oder einer Klasse von Ausprägungen des Merkmals [email protected] 21 2.1.1 Diskrete Merkmale Mögliche Ausprägungen von X : a1 , a2 , . . . , ak Absolute und relative Häugkeiten: absolute Häugkeit der Aus- h(aj ) = hj prägung aj , d.h. Anzahl der xi aus x1 , . . . , xn mit xi = aj f (aj ) = fj = hj n relative Häugkeit von aj h1 , . . . , h k absolute Häugkeitsverteilung f 1 , . . . , fk relative Häugkeitsverteilung ⇒ Erstellung einer Häugkeitstabelle auf der Basis der resultierenden Häugkeitsdaten (a1 , . . . , ak zusammen mit f1 , . . . , fk bzw. h1 , . . . , hk ) Anmerkung: Bei gegebener Urliste erfolgt die praktische Berechnung der hj durch einfache Auszählung. Falls die Informationen über das interessierende Merkmal schon in Form von Häugkeitsdaten gegeben sind, so entfällt natürlich die Berechnung von hj bzw. fj . [email protected] 22 Beispiel Untersuchung der Erwerbstätigen in der Bundesrepublik Deutschland im April 1991 statistische Einheit: Ein Erwerbstätiger bzw. eine Erwerbstätige in der Bundesrepublik Deutschland im April 1991 Merkmal: Stellung im Beruf (nominalskaliert); mögliche Ausprägungen: Arbeiter(in), Angestellte(r), Beamte(r), mithelfende(r) Familienangehörige(r) Stellung Erwerbstätige relative im Beruf in 1000 Häugkeit aj hj fj Arbeiter 14568 0.389 Angestellte 16808 0.449 Beamte 2511 0.067 Selbstständige 3037 0.081 Mithelf. Fam.-ang. 522 0.014 Summe 37466 1.000 [email protected] 23 Grasche Darstellungen: Stabdiagramm, Säulendiagramm, Balkendiagramm: Stabdiagramm Trage über a1 , . . . , ak jeweils einen zur x-Achse senkrechten Strich (Stab) mit Höhe h1 , . . . , hk ( f1 , . . . , fk ) ab. Säulendiagramm wie Stabdiagramm, aber mit Rechtecken statt Strichen. Balkendiagramm wie Säulendiagramm, aber mit vertikal gelegter x-Achse Kreisdiagramm: Flächen der Kreissektoren proportional zu den Häugkeiten. Winkel des j -ten Kreissektors = fj · 360◦ [email protected] 24 [email protected] 25 Beispiel Haushaltsgröÿen im früheren Bundesgebiet statistische Einheit: Haushalte statistisches Merkmal: Haushaltsgröÿe kardinalskaliert, diskret Häugkeiten: Haushaltsgröÿe prozentual relativ 1900 1925 1950 1990 1 7.1 6.8 19.5 35.0 2 14.7 17.7 25.3 30.2 3 17.0 22.5 23.0 16.7 4 16.8 19.7 16.2 12.8 5 und mehr 44.4 33.3 16.1 5.3 Summe 100 100 100 100 xj [email protected] 26 [email protected] 27 2.1.2 Stetige oder quasi-stetige Merkmale Eine einfache Repäsentation stetiger Merkmale erfolgt mit Hilfe eines Histogramms. Sie basiert auf einer Gruppierung der Daten und einer Darstellung der resultierenden Häugkeitsverteilung. Wenn das Datenmaterial nicht schon in gruppierter Form vorliegt, ist zur Konstruktion eines Histogramms eine geeignetete Klasseneinteilung von dem Statistiker selbst durchzuführen. Die zugehörigen Häugkeiten sind dann durch Auszählen aus der Urliste zu bestimmen. Gruppierung anhand von Klassen benachbarter Intervalle (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ] Klassenbreite: δj = cj − cj−1 üblicherweise: δ := δ1 = · · · = δk ⇒ absolute und relative Häugkeiten h1 , . . . , hk und f1 , . . . , f k [email protected] 28 Histogramm Zeichne über (c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit Breite: δj = cj − cj−1 Höhe: fj /δj ⇒ Fläche: fj • Prinzip der Flächentreue: Die im Histogramm dargestellten Flächen sind gleich den relativen Häugkeiten • Das Histogramm liefert eine Darstellung der empirischen Verteilung der interessierenden Variable • Bei der Konstruktion eines Histogramms aus einer gegebenen Urliste benutzt man in aller Regel eine feste Klassenbreite δ ; es gilt dann cj = cj−1 + δ Anmerkung: In der Praxis werden zahlreiche weitere Versionen des Histogramms benutzt, z.B. Histogramme mit Höhe hj /δj statt fj /δj . Der Unterschied besteht in diesem Fall einzig in einer veränderten Skalierung der vertikalen Achse. [email protected] 29 • Probleme bei der Konstruktion eines Histogramms (aus der Urliste): Wahl der Klassenbreite δ (und damit der Anzahl k von Klassen) Wahl des Anfangspunkts c0 √ √ • Vorgeschlagene Faustregeln: k = [ n], k = 2[ n] oder k = 10[log10 n] Beispiel: Statistische Einheit: 1986 befragte, in Privathaushalten lebende deutsche Staatsangehörige im Alter von mindestens 18 Jahren. Statistisches Merkmal: monatliches persönliches Nettoeinkommen (in DM) Umfang der Stichprobe: n = 716 [email protected] 210 Klassenbreite: 800 DM Klassenbreite: 500 DM Klassenbreite: 250 DM Klassenbreite: 100 DM [email protected] 211 nach Geschlecht, Klassenbreite: 500 DM M annlich Weiblich [email protected] 212 2.1.3 Eigenschaften von Häugkeitsverteilungen Unimodale Verteilung Die Verteilung besitzt einen Gipfel, von dem aus die Häugkeiten acher oder steiler zu den Randbereichen hin verlaufen, ohne daÿ ein zweiter deutlich ausgeprägter Gipfel hervortritt Unimodale Verteilung (symmetrisch) 10 8 h2 6 4 2 0 1 2 3 4 5 6 7 8 9 a [email protected] 213 Bimodale bzw. multimodale Verteilung Die Verteilung besitzt zwei bzw. mehrere deutlich ausgeprägte Gipfel Bimodale Verteilung 8 h4 6 4 2 0 1 2 3 4 5 6 7 8 9 a [email protected] 214 Symmetrische Verteilung Es existiert eine Symmetrieachse, so daÿ die rechte und die linke Hälfte der Verteilung annähernd zueinander spiegelbildlich sind Linkssteile Verteilung Die Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab Rechtssteile Verteilung Die Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab [email protected] 215 Linkssteile Verteilung 10 8 h1 6 4 2 0 1 2 3 4 5 6 7 8 9 7 8 9 a Rechtssteile Verteilung 10 8 h3 6 4 2 0 1 2 3 4 5 6 a [email protected] 216 2.1.4 Die empirische Verteilungsfunktion Ein wichtiges Werkzeug zur Analyse von quantitativen Merkmalen ist die sogenannte empirische Verteilungsfunktion. Absolute kumulierte Häugkeitsverteilung: H(x) = Anzahl der Werte xi mit xi ≤ x Empirische Verteilungsfunktion: F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x Eigenschaften: • 0 ≤ F (x) ≤ 1 • F (x) = 0, falls x < x(1) , wobei x(1) - kleinster beobachteter Wert • F (x) = 1, falls x ≥ x(n) , wobei x(n) - gröÿter beobachteter Wert • F monoton wachsende Treppenfunktion [email protected] 217 Beispiel: Preise (in Euro) für eine Pizza mit Salami und Pilzen in acht zufällig ausgewählten Pizzerien in Bonn x1 x2 x3 x4 x5 x6 x7 x8 5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 4.0 4.5 [email protected] 5.0 5.5 6.0 6.5 218 Konstruktion von F (x) anhand der Urliste x1 , . . . , xn : • Ordnen der Daten ⇒ geordnete Urliste: x(1) ≤ x(2) ≤ · · · ≤ x(n) • F (x) = 0, falls x < x(1) • F (x(i) ) = F (x(i−1) ) + n1 F (x) = F (x(i) ), falls x ∈ [x(i) , x(i+1) ) Achtung: Falls alle xi voneinander verschieden sind, wächst F (x) an jedem Beobachtungswert genau um den Betrag n1 ; sind zwei Beobachtungen gleich, so wächst F (x) an dem entsprechenden Zahlenwert um den Be- trag 2 , n bei drei gleichen Beobachtungen um 3 , n etc. • F (x) = 1, falls x ≥ x(n) Konstruktion von F (x) bei Häugkeitsdaten: X diskret mit Ausprägungen a1 < a2 < · · · < ak F (x) = f (a1 ) + · · · + f (aj ) falls aj ≤ x und aj+1 > x [email protected] 219 Beispiel: Haushaltsgröÿen 1990 (siehe 2-6) aj 1 2 3 4 5 fj 0, 35 0, 302 0, 167 0, 128 0, 053 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 [email protected] 3 4 5 220 Konstruktion einer empirischen Verteilungsfunktion bei gruppierten Daten: k Klassen: (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ] zugehörige rel. Häugkeiten: f1 , . . . , fk • F(x)=0 für x < c0 , F (x) = 1 für x > ck • Für alle i = 0, 1, . . . , k F (ci ) = Anteil der Originaldaten ≤ ci = i X fj j=1 • lineare Interpolation zwischen den Klassengrenzen ⇒ keine Treppenfunktion! Anmerkung: Gruppierte Daten geben die Häugkeiten der Orginalbeobachtungen innerhalb der einzelnen Klassen wieder. An den Klassengrenzen ci entspricht F (ci ) daher dem Wert der wahren empirischen Verteilungsfunktion der ursprünglichen Beobachtungen. Innerhalb der Klassen existieren keine Informationen, es ist jedoch oensichtlich, dass die wahre emp. Verteilungsfunktion innerhalb jeder Klasse eine monoton wachsende, nicht konstante Funktion ist. Die vorgeschlagene lineare Interpolation basiert auf der Idee einer relativ gleichmäÿigen Verteilung der Originalbeobachtungen innerhalb der einzelnen Klassen. [email protected] 221 Beispiel: Mietpreise in München Mietpreise (in DM) von Wohnungen ohne zentrale Warmwasserversorgung und mit einer Wohnäche von höchstens 50 qm (basierend auf einer Erhebung von n = 26 Wohnungen im Jahr 1994) Klasse rel. Häugkeit 100 - 200 0, 115 200 - 300 0, 230 300 - 400 0, 346 400 - 500 0, 154 500 - 600 0, 116 600 - 700 0, 039 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 200 [email protected] 400 600 222 2.2 Beschreibung von Verteilungen 2.2.1 Lagemaÿe Lagemaÿe Maÿzahlen zur Lage beschreiben das Zentrum der Verteilung eines Merkmals Einfachstes Lagemaÿ bei quantitativen Merkmalen: Arithmetisches Mittel Arithmetisches Mittel x̄ Bei gegebener Urliste x1 , . . . , xn : x̄ = 1 (x1 n + · · · + xn ) = 1 n Pn i=1 xi Berechnung aus Häugkeitsdaten: Pk x̄ = a1 f1 + · · · + ak fk = i=1 ai fi Approximation aus gruppierten Daten : Pk x̄ = i=1 c̄i fi [email protected] 223 Eigenschaften des arithmetischen Mittels: • Null- oder Schwerpunktseigenschaft n X (xi − x̄) = 0 i=1 • Quadratische Minimierungseigenschaft n X (xi − x̄)2 < i=1 n X (xi − z)2 i=1 für alle z 6= x̄ • Lineare Transformation yi = a + bxi : ȳ = a + bx̄ • Addition zi = xi + yi : z̄ = x̄ + ȳ • Schichtenbildung: Eine Erhebungsgesamtheit vom Umfang n sei in r Schichten (Teilgesamtheiten) mit jeweiligen Umfängen n1 , . . . , nr und arithmetischen Mitteln x̄1 , . . . , x̄r zerlegt: r 1X x̄ = nj x̄j n j=1 [email protected] 224 Geordnete Urliste (für quantitative Merkmale): x1 , . . . , xn werden der Gröÿe nach geordnet ⇒ x(1) ≤ x(2) ≤ · · · ≤ x(n) Median (Zentralwert) xmed xmed = x( n+1 ) 2 für n ungerade xmed = 12 [x( n2 ) + x( n2 +1) ] für n gerade Eigenschaften: • Mindestens 50% der Daten sind ≤ xmed • Mindestens 50% der Daten sind ≥ xmed • Robustheit: Im Gegensatz zum arithm. Mittel wird der Wert des Medians nur wenig durch Ausreiÿer , d.h. extreme Beobachtungen, beeinusst. [email protected] 225 Berechnung des Medians für Häugkeitsdaten: X diskret mit Ausprägungen a1 < a2 < · · · < ak xmed = ai , wobei ai diejenige Ausprägung ist, für die die Folge Fi zum ersten Mal 0.5 überschreitet. Fi−1 = i−1 X fj < 0.5 < Fi = j=1 i X fj j=1 (in seltenen Fällen: Fi = 0, 5 ⇒ xmed = (ai + ai+1 )/2) Berechnung des Medians für gruppierte Daten: • Bestimme die Einfallsklasse des Medians als die Klasse [(ci−1 , ci ], für die die Folge Fi zum ersten Mal 0.5 überschreitet. Fi−1 = i−1 X j=1 fj ≤ 0.5 < Fi = i X fj j=1 • Setze xmed δi · (0.5 − Fi−1 ) = ci−1 + fi [email protected] 226 Beispiel: Haushaltsgröÿen 1990 aj 1 2 3 4 5 fj 0, 35 0, 302 0, 167 0, 128 0, 053 ⇒ xmed = 2 Grasche Bestimmung mit der empirischen Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 xmed [email protected] 3 4 5 227 Beispiel: Mietpreise in München • Einfallsklasse des Medians (300, 400] ⇒ xmed = 344, 80 Grasche Bestimmung mit der empirischen Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 200 [email protected] 400 xmed 600 228 Modus xmod Als Modus wird die Ausprägung mit der gröÿten Häugkeit bezeichnet • Der Modus ist im Gegensatz zu x̄ und xmed auch für nominalskalierte Merkmale ein sinnvolles Lagemaÿ • Der Modus ist eindeutig, falls die Häugkeitsverteilung ein eindeutiges globales Maximum besitzt. Bei stetigen Merkmalen: Approximative Bestimmung eines Modus nach geeigneter Gruppierung Berechnung des Modus für gruppierte Daten: • Bestimme die Modalklasse (cj−1 , cj ] (Klasse mit der gröÿten Häugkeit) • Setze xmod = c̄j Anwendung: Haushaltsgröÿen 1990 : xmod = 1 [email protected] 229 Lageregeln: Symmetrische Verteilungen x̄ ≈ xmed ≈ xmod Linkssteile Verteilungen x̄ > xmed > xmod Rechtssteile Verteilungen x̄ < xmed < xmod Stichprobe 1 Stichprobe 2 Stichprobe 3 aj h(aj ) h(aj ) h(aj ) 1 8 1 1 2 10 2 2 3 8 4 2 4 6 8 4 5 5 10 5 6 4 8 6 7 2 4 8 8 2 2 10 9 1 1 8 x̄ 3,57 5 6,43 xmed 3 5 7 xmod 2 5 8 [email protected] 230 Geometrisches Mittel x̄geo x̄geo = (x1 · x2 · . . . · xn )1/n • Voraussetzung: Verhältnisskalierte Merkmale mit positiven Ausprägungen Pn 1 • ln x̄geo = n i=1 ln xi Anwendung: Mittlerer Wachstumsfaktor Anfangsbestand B0 ; B0 , B1 , . . . , Bn Zeitreihe von Bestandsdaten • Wachstumsfaktor in Periode i xi = Bi /Bi−1 • Wachstumsrate in Periode i Bi − Bi−1 = xi − 1 ri = Bi−1 [email protected] 231 • Bn = B0 · (x̄geo )n Beispiel: Bruttosozialprodukt (BSP) der Bundesrepublik Deutschland in Preisen von 1985 (Mrd. DM) Jahr BSP t Bt xt 1980 0 1733,8 - 1981 1 1735,7 1,0011 1982 2 1716,5 0,9889 1983 3 1748,4 1,0186 1984 4 1802,0 1,0307 1985 5 1834,5 1,0180 1986 6 1874,4 1,0217 1987 7 1902,3 1,0149 1988 8 1971,8 1,0365 • x̄geo = (1971, 8/1733, 8)1/8 = 1, 0162 • mittlere Wachstumsrate: x̄geo − 1 = 1, 62% [email protected] 232 Harmonisches Mittel x̄har x̄har = 1 n Pn1 1 i=1 xi Anwendung: Mittlere Geschwindigkeit x1 , . . . , xn Geschwindigkeit mit der Bauteile eine Produktionslinie der Länge l durchlaufen • Gesamtzeit: l x1 + ··· + l xn • Mittlere Geschwindigkeit: x̄har = l + ··· + l l l + · · · + x1 xn Verallgemeinerung für unterschiedliche Streckenlängen li x̄har l1 + · · · + ln = l1 ln + · · · + x1 xn [email protected] 233 2.3 Streuungsmaÿe Empirische Varianz und Standardabweichung Die Varianz der Werte x1 , . . . , xn ist 2 s̃ = 1 n Pn 2 (x − x̄) i=1 i Standardabweichung von x1 , . . . , xn : s̃ = √ s̃2 Modizierte Denition (in der schlieÿenden Statistik bevorzugt): Stichprobenvarianz 2 s = 1 n−1 [email protected] Pn 2 (x − x̄) i i=1 234 Streuungsparameter Beispiel: Monatliche Aufwendungen fur Freizeitguter und Urlaub (DM) Zweipersonenhaushalte: 210, 250, 340, 360, 400, 430, 440, 450, 530, 630 Æ Æ ÆÆ Æ ÆÆÆ Æ Æ Vierpersonenhaushalte: 340, 350, 360, 380, 390, 410, 420, 440, 460, 490 x = 404 DM [email protected] 235 Berechnung von s̃2 aus der Urliste: Vereinfachte Formel à 2 s̃ = 1 n n X ! x2i − x̄2 i=1 Berechnung von s̃2 aus Häugkeitsdaten: k k X X s̃2 = (aj − x̄)2 fj = a2j fj − x̄2 j=1 j=1 Berechnung auf der Grundlage von gruppierten Daten: s̃2 = k X (c̄j − x̄)2 fj = j=1 k X c̄2j fj − x̄2 j=1 Sheppard-Korrektur bei konstanter Klassenbreite δ = cj − cj−1 : k X δ2 s̃ = (c̄j − x̄) fj − 12 j=1 2 [email protected] 2 236 Rechenregeln: • Transformationsregel: Für yi = a + bxi ist s̃2y = b2 s̃2x bzw. s̃y = |b|s̃x • Standardisierung: xi − x̄ zi = s̃x ⇒ z̄ = 0, s̃2z = 1 Tendenziell: s̃2 groÿ ⇔ groÿe Streuung; s̃2 klein ⇔ kleine Streuung; (Extremfall: s̃2 = 0 ⇒ alle Beobachtung sind gleich) Aber: In einer gegebenen Anwendung ist der Wert von s̃2 nur in Abhängigkeit von dem zugrundeliegenden Maÿstab interpretierbar! Maÿstabsunabhängiges Streuungsmaÿ (für verhältnisskalierte Merkmale mit positiven Ausprägungen): Variationskoezient Variationskoezient v = s̃/x̄ [email protected] 237 Geschichteter (gepoolter) Datensatz: Zerlegung der Erhebungsgesamtheit in r Schichten x̄1 , . . . , x̄r s̃21 , . . . , s̃2r n1 , . . . , nr mit n = n1 + · · · + nr Streuungszerlegung 2 s̃ = 1 n Pr 2 n s̃ j j j=1 + 1 n Pr 2 n (x̄ − x̄) j j j=1 Gesamte Varianz = Varianz innerhalb der Schichten + Varianz zwischen den Schichten [email protected] 238 Beispiel: Quadratmeterpreise für Mietwohnungen Erhebung von 1082 Mietwohnungen in München im Jahr 1994 Merkmal: Mietpreis pro Quadratmeter (in DM) Unterteilung (Schichtung) in kleine Wohnungen (bis 50 qm), mittlere Wohnungen (51 bis 80 qm) und groÿe Wohnungen (ab 81 qm) Kleine Wohnungen: n1 = 270, x̄1 = 15, 30, s̃1 = 5, 61 Mittlere Wohnungen: n2 = 513, x̄2 = 12, 20, s̃2 = 4, 78 Groÿe Wohnungen: n3 = 299, x̄3 = 11, 02, s̃3 = 4, 78 Hieraus ergibt sich: x̄ = 12, 65, s̃2 = 27, 6 [email protected] 239 2.4 Quantile und Boxplot Quantile liefern wichtige Informationen über die Streuung und andere wichtige Charakteristika einer empirischen Verteilung. Geordnete Urliste: x(1) ≤ x(2) ≤ . . . x(n) p-Quantil: Wert xp mit 0 < p < 1, so daÿ Anzahl xi ≤xp n ≥ p und Anzahl xi ≥xp n ≥1−p xp = x([np]+1) , wenn np nicht ganzzahlig xp = (x(np) + x(np+1) )/2, wenn np ganzzahlig [np] ist die zu np nächste kleinere ganze Zahl. [email protected] 240 • Median: xmed = x0,5 • Unteres Quartil = 25%-Quantil = x0,25 • Oberes Quartil = 75%-Quantil = x0,75 . • Dezile: p = 10%, 20%, . . . , 90% p-Quantil für gruppierte Daten: Analog zum Median wird ein p-Quantil deniert durch p − Fi−1 xp = ci−1 + δi fi wobei i so bestimmt ist, daÿ Fi−1 = i−1 X j=1 [email protected] fj ≤ p < F i = i X fj j=1 241 Grasche Bestimmung von Quantilen mit Hilfe der empirischen Verteilungsfunktion Urliste oder Häugkeitsdaten: 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0.0 4.0 4.5 5.0 5.5 x0,25 x0,75 6.0 6.5 0 1 x0,25 2 3 x0,75 4 5 Gruppierte Daten: 1.0 0.8 0.6 0.4 0.2 0.0 0 200 x0,25 [email protected] 400 x0,75 600 242 Interquartilsabstand QA = x0,75 − x0,25 • Der Interquartilsabstand ist ein häug verwendetes Streuungsmaÿ, dessen Wert nur wenig von Ausreiÿern beeinusst wird. Ein groÿer/kleiner Wert von QA signalisiert groÿe/kleine Streuung der Daten. Fünf-Punkte-Zusammenfassung: Zusammenfassung einer Verteilung durch xmin , x0,25 , xmed , x0,75 , xmax Spannweite: R = xmax − xmin Spannweite für gruppierte Daten: R = ck − c0 [email protected] 243 Graphische Darstellung einiger Mazahlen der Lage und der Variation Boxplot (Box{Whisker{Plot, Schachtelzeichnung) x0;75 + 3QA x0;75 + 1; 5QA (upper fence) ? Æ x0;75 x0;5 Æ ? QA x0;25 x0;25 1; 5QA (lower fence) x0;25 3QA [email protected] 244 Boxplot: • x0,25 - Anfang der Schachtel (Box) x0,75 - Ende der Schachtel (Box) ⇒ QA - Länge der Schachtel (Box) • xmed wird durch Strich in der Box markiert (manchmal wird auch x̄ durch eine gestrichelte Linie markiert) • Man bestimmt die Zäune zl = x0,25 − 1, 5 · QA und zu = x0,75 + 1, 5 · QA • Zwei Linien (Whiskers) gehen zum kleinsten und gröÿten Beobachtungswert innerhalb des Bereichs [zl , zu ] der Zäune • Beobachtungen auÿerhalb der Zäune zl , zu werden einzeln eingezeichnet Boxplots liefern Informationen über wichtige Charakteristika einer Verteilung: • Lage und Streuung • Struktur (symmetrisch, rechtssteil, linkssteil) • Existenz von Ausreiÿern [email protected] 245 Beispiel: Geordnete Urliste (n=10): 0,1 0,1 0,2 0,4 0,5 0,7 0.5 1.0 1.5 0,9 1,2 1,4 1,9 Histogramm: 0.8 0.6 0.4 0.2 0.0 0.0 2.0 x Boxplot: 0.0 0.5 1.0 1.5 2.0 x [email protected] 246 Beispiel Stundenlohn in US$ Gesamt Mann Frau xmin =1 xmin =1 xmin =1.74997 xmax =44.5005 xmax =26.2903 xmax =44.5005 R=43.5005 R=25.2903 R=42.7505 x0.25 =5.24985 x0.25 =6.00024 x0.25 =4.74979 x0.5 =7.77801 x0.5 =8.92985 x0.5 =6.79985 x0.75 =11.2504 x0.75 =12.9994 x0.75 =10.0001 QA=6.00065 QA=9.99916 QA=5.25031 x̄=9.02395 x̄=9.99479 x̄=7.87874 s2 =26.408 s2 =27.9377 s2 =22.2774 s=5.13887 s=5.28562 s=4.7199 v=0.57 v=0.53 v=0.6 [email protected] 247 40 30 20 0 10 Stundenlohn Gesamt [email protected] 248 40 30 20 0 10 Stundenlohn Frauen [email protected] Maenner 249 2.5 Maÿzahlen für Schiefe Schiefe (Skewness) Schiefemaÿe beschreiben Abweichungen einer Verteilung von der Symmetrie Qantilskoezient der Schiefe gp = (x1−p −xmed )−(xmed −xp ) x1−p −xp p = 0, 25: Quartilskoezient Werte des Quantilskoezienten: • gp = 0 für symmetrische Verteilungen • gp > 0 für linkssteile Verteilungen • gp < 0 für rechtsssteile Verteilungen [email protected] 250 Momentenkoezient der Schiefe 3 gm = m3 /s̃ mit m3 = 1 n Pn 3 (x − x̄) i i=1 Werte des Momentenkoezienten: Qualitativ analog zu gp Anmerkung: Momente einer empirischen Verteilung • Für r = 1, 2, 3, . . . ist allgemein n 1X r Mr = xi n i=1 das r − te Moment der Verteilung • Das r − te durch zentrale Moment ist gegeben n 1X mr = (xi − x̄)r n i=1 [email protected] 251 2.6 Konzentrationsmaÿe 2.6.1 Lorenzkurve und Gini-Koezient Eine in den Wirtschaftswissenschaften relevante Fragestellung gilt der Konzentration von Merkmalsausprägungen auf Merkmalsträger Marktkonzentration: • starke Konzentration - wenige Anbieter erzielen den gröÿten Teil des Gesamtumsatzes • schwache Konzentration - Umsätze sind relativ gleichmäÿig auf eine groÿe Zahl von Marktteilnehmern verteilt Analog: Einkommenskonzentration, genskonzentration Vermö- Ziel: Wiedergabe der Stärke der Konzentration in einem Kennwert bzw. einer Graphik [email protected] 252 • Man betrachtet metrische Merkmale mit nichtnegativen Ausprägungen • Zur Vereinfachung: Meÿwerte x1 , . . . , xn bereits geordnet, d.h. x1 ≤ x2 ≤ · · · ≤ xn Pn • Gesamtmerkmalssumme: i=1 xi > 0 Lorenzkurve Für die geordnete Urliste x1 ≤ x2 ≤ · · · ≤ xn ergibt sich die Lorenzkurve als Streckenzug durch die Punkte (0, 0), (u1 , v1 ), . . . , (un , vn ) = (1, 1) mit uj = j n vj = Pj xi Pi=1 n i=1 xi Anteil der Merkmalsträger, kumulierte relative Merkmalssumme [email protected] 253 Beispiel: Marktkonzentration Monatlicher Umsatz (in 1000 DM) der Möbelbranche in den Städten A, B und C: Möbelhaus Stadt A B C 1 40 180 60 2 40 5 50 3 40 5 40 4 40 5 30 5 40 5 20 1.0 Stadt A 0.8 o 0.6 o 0.4 v o 0.0 0.2 o o o 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 254 1.0 Stadt B 0.2 0.4 v 0.6 0.8 o o o 0.0 o o o 0.0 0.2 0.4 0.6 0.8 1.0 u 1.0 Stadt C 0.8 o v 0.6 o 0.4 o 0.2 o 0.0 o o 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 255 Interpretation der Lorenzkurve: • Für jeden Punkt (uj , vj ): Auf uj · 100% der kleinsten Merkmalsträger entfallen vj · 100% der Gesamtmerkmalssumme • Nullkonzentration: Alle statistischen Einheiten besitzen die gleiche Merkmalsausprägung. ⇒ uj = vj für all j = 1, . . . , n ⇒ Die Lorenkurve ist eine Gerade durch den Nullpunkt mit Steigung 45◦ (Diagonale) • Maximale Konzentration: Die gesamte Merkmalssumme entfällt auf eine einzige statistische Einheit, die restlichen n − 1 Einheiten besitzen die Merkmalsausprägung 0 ⇒ vj = 0 für j = 1, . . . , n − 1 • Allgemein: Die Konzentration ist umso stärker, je mehr die berechnete Lorenzkurve von der Diagonale abweicht (d.h. je gröÿer die Fläche zwischen Diagonale und Lorenzkurve) Eigenschaften: • Die Lorenzkurve ist stückweise linear (maximal n−1 Knicke) und monoton wachsend (Monotonie) • Die Lorenzkurve besitzt eine nach unten gerichtete Wölbung (Konvexität) [email protected] 256 Lorenzkurve bei Nullkonzentration 1.0 Stadt A 0.8 o 0.6 o 0.4 v o 0.0 0.2 o o o 0.0 0.2 0.4 0.6 0.8 1.0 u Lorenzkurve bei maximaler Konzentration (n = 5) 1.0 0.8 v 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 257 Berechnung der Lorenzkurve aus Häugkeitsdaten (a1 ≤ a2 ≤ · · · ≤ ak ): uj = j X hi /n = i=1 j X fi i=1 Pj h a i=1 fi ai i=1 i i = Pk vj = Pk i=1 hi ai i=1 fi ai Pj Berechnung der Lorenzkurve für gruppierte Daten: uj = j X fi i=1 Pj vj = Pi=1 k i=1 [email protected] fi c̄i fi c̄i 258 Beispiel: Monatliche Haushaltsnettoeinkommen 1988, Bundesrepublik Deutschland (bis unter 25000 DM) MHNE in DM Anteil der Haushalte fj 0 800 0,044 800 1400 0,166 1400 3000 0,471 3000 5000 0,243 5000 25000 0,076 Lorenzkurve: 1.0 0.8 v 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 259 Grundidee zur Denition eines (relativen) Konzentrationsmaÿes: Stärke der Konzentration entspricht der Fläche zwischen Diagonale und Lorenzkurve Gini-Koezient Fläche zwischen Diagonale und Lorenzkurve Fläche zwischen Diagonale und u-Achse = 2· Fläche zwischen Diagonale und Lorenzkurve G= • Berechnung anhand der geordneten Urliste x1 ≤ x2 ≤ · · · ≤ xn : Pn n 2 i=1 ixi n+1 1X n+1 G = Pn = −2· − vj n n n j=1 n i=1 xi • Berechnung aus Häugkeitsdaten: Pk G= mit v̄j = k X (u + u )f a i−1 i i i i=1P =1−2· fj v̄j n i=1 fi ai j=1 vj−1 +vj 2 [email protected] 260 • Berechnung aus gruppierten Daten: Pk G= k X (u + u )f c̄ i i i i=1Pi−1 −1=1−2· fj v̄j n i=1 fi c̄i j=1 mit v̄j = vj−1 +vj 2 Extreme Ausprägungen des Gini-Koezienten: • Gmin = 0 bei Nullkonzentration, x1 = x2 = · · · = xn • Gmax = n−1 n bei maximaler Konzentration, x1 = x2 = · · · = xn−1 = 0, xn > 0 Normierter Gini-Koezient (Lorenz-Münzner-Koezient) G∗ = G Gmax = n n−1 G Wertebereich: G∗ ∈ [0, 1] [email protected] 261 Beispiel: Marktkonzentration G G∗ Stadt A 0 0 Stadt B 0.7 0.875 Stadt C 0.2 0.25 Achtung! Unterschiedliche Lorenzkurven können auf 1.0 1.0 den gleichen Gini-Koezienten führen: 0.8 o 0.6 0.6 0.8 o 0.4 0.2 v 0.4 0.2 v o 0.0 0.0 o o 0.0 0.2 0.4 0.6 0.8 u [email protected] 1.0 o 0.0 0.2 0.4 0.6 0.8 1.0 u 262 2.6.2 Absolute Konzentrationsmaÿe • Relative Konzentrationsmaÿe (Gini-Koezient): Wieviel Prozent der Merkmalsträger teilen sich wieviel Prozent der Merkmalssumme? • Absolute Konzentrationsmaÿe: Wieviele Merkmalsträger teilen sich wieviel Prozent der Merkmalssumme? Die Konzentrationsrate gibt an, welcher Anteil von den g gröÿten Merkmalsträgern gehalten wird: Konzentrationsrate CRg CRg = Pn i=n−g+1 pi , wobei pi = Pnxi j=1 xj den Merkmalsanteil der i-ten Einheit bezeichnet [email protected] 263 Herndahl-Index H= Pn 2 p i=1 i , wobei pi = Pnxi j=1 xj den Merkmalsanteil der i-ten Einheit bezeichnet • Hmin = xn 1 n bei Nullkonzentration, x1 = x2 = · · · = • Hmax = 1 bei maximaler Konzentration, x1 = x2 = · · · = xn−1 = 0, xn > 0 • Wertebereich von H : 1 n ≤H≤1 Beispiel: Marktkonzentration H Stadt A 0.2 Stadt B 0.8125 Stadt C 0.225 [email protected] 264