Statistik A Beschreibende Methoden und Wirtschaftsstatistik Prof. Dr. Alois Kneip Universität Bonn Wirtschaftswissenschaftlicher Fachbereich Statistische Abteilung Adenauerallee 24-26 53113 Bonn http://statistik.uni-bonn.de unter der Mitarbeit von Oualid Bada [email protected] 0–1 Inhalt 1. Grundlagen • Grundbegriffe der Statistik • Datenmaterial in der statistischen Praxis • Datengewinnung und Erhebungsarten 2. Univariate Deskription und Exploration von Daten • Verteilungen und ihre Darstellungen • Lagemaße • Streuungsmaße • Quantile und Boxplot • Maße für Schiefe und Wölbung • Lorenzkurven und Konzentrationsmaße 3. Bivariate Deskription und Exploration von Daten • Kontingenztabellen • Zusammenhangsanalyse in Kontingenztabellen • Grafische Darstellung quantitativer Merkmale [email protected] 0–2 • Zusammenhangsmaße bei metrischen Merkmalen • Lineare Einfachregression • Erweiterungen der Einfachregression 4. Zeitreihen • Grundlagen: grafische Darstellung, Komponentenmodelle • Schätzung von Trendkomponenten • Schätzung von Saisonkomponenten 5. Indexzahlen • Grundlagen • Preisindizes, Mengenindizes, Wertindizes • Indexprobleme, Indexkriterien und Indexumrechnungen 6. Einführung in die Wahrscheinlichkeitstheorie Literatur: • Fahrmeier, Künstler, Pigeot, Tutz: Statistik, Springer Verlag [email protected] 0–3 Einige Institutionen der Wirtschaftsstatistik Amtliche Statistik: Statistisches Bundesamt www.destatis.de Statisches Amt der EU - EUROSTAT epp.eurostat.ec.europa.eu/ Wirtschaftsforschungsinstitute: Ifo-Institut (München) www.ifo.de Deutsches Institut f. Wi.-Forschung (Berlin) www.diw-berlin.de HWWA (Hamburg) www.hwwa.de Institut für Weltwirtschaft (Kiel) www.uni-kiel.de/ifw RWI (Essen) www.rwi-essen.de Institut für Wirtschaftsforschung (Halle) www.iwh.uni-halle.de [email protected] 0–4 1 Grundlagen 1.1 Einführung Was ist Statistik? Ziel: Informationsgewinnung aus Daten Voraussetzung: Vorliegen einer größeren Grundgesamtheit ”Wenn ein Mensch stirbt, ist es ein Unglück, bei 100 Toten ist es eine Katastrophe, bei 1000 Toten eine Statistik” (G. Calot) Der Begriff ”Statistik” besitzt mehrere Bedeutungen: • Ergebnis eines Zähl- oder Messprozesses; Resultate einer Erhebung (Statistische Jahrbücher, Arbeitslosenstatistik, Bevölkerungsstatistik) • Gesamtheit des methodischen Instrumentariums der statistischen Analyse und Inferenz ⇒ eigener Wissenschaftszweig [email protected] 1–1 Erkenntnisziele der Statistik Statistische Deskription und Exploration Die deskriptive Statistik dient zur beschreibenden und grafischen Aufbereitung und Komprimierung von Daten. Die explorative Statistik befasst sich mit dem Auffinden von Strukturen und Zusammenhängen innerhalb des Datenmaterials ⇒ Vorlesung Statistik I Statistische Inferenz Die induktive (oder schließende) Statistik versucht, über die erhobenen Daten hinaus allgemeinere Schlussfolgerungen für umfassendere Grundgesamtheiten zu ziehen. Wichtige Werkzeuge sind die Wahrscheinlichkeitstheorie und stochastische Modelle. ⇒ Vorlesung Statistik II [email protected] 1–2 Beispiel: Einkommensdaten • Quelle: U.K. Family Expenditure Survey • Ungefähr 7000 britische Haushalte pro Jahr • Für jeden Haushalt: Einkommen aus verschiedenen Quellen, Ausgaben für verschiedene Güter, Alter, Familiengröße, Berufe, etc. Verfügbares Einkommen im Jahr 1976 (76 von 7202 Haushalten; Einheit: Pfund pro Woche): 66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21 [email protected] 1–3 Statistische Deskription: Für die gegebene Stichprobe von 7202 Haushalten • Durchschnittseinkommen (arithmetisches Mittel): 58, 75 • Einkommensverteilung (Histogramm) 0.012 0.008 0.004 0.000 0 40 80 120 160 200 240 280 Einkommen Induktive Statistik: Durchschnittseinkommen aller Haushalte in GB? ⇒ Konstruktion eines 95% Konfidenzintervalls: Durchschnittseinkommen in GB = 58, 75 ± 0, 84 [email protected] 1–4 Wozu braucht man Statistik? • Politische Umfragen und Wahlprognosen z.B. Sonntagsfrage, Politbarometer • Klinische und epidemologische Studien z.B. Extraktion von Risikofaktoren für bestimmte Krankheiten, Studien zur Überprüfung der Wirksamkeit eines Medikaments Statistik im volks- und betriebswirtschaftlichen Bereich (Beispiele): • Kreditwürdigkeitsprüfung und Insolvenzprognose z.B. Extraktion von relevanten Merkmalen, die es erlauben, die Kreditwürdigkeit eines Kunden einzustufen • Marktforschungsstudien z.B. Exploration von Konsumgewohnheiten zur optimalen Positionierung eines neuen Produkts auf dem Markt • Analyse von Aktienkursen zur Steuerung von Aktienportfolios • Einkommensstatistik, Bevölkerungsstatistik [email protected] 1–5 1.2 Grundbegriffe der Statistik Statistische Einheit (Merkmalsträger): Einzelobjekt einer statistischen Untersuchung, an dem interessierende Größen erfasst werden Grundgesamtheit (Statistische Masse): Menge aller für die Fragestellung relevanten statistischen Einheiten Teilgesamtheit: Teilmenge der Grundgesamtheit Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit [email protected] 1–6 Statistisches Merkmal (Variable): interessierende Größe, deren Ausprägungen an den einzelnen statistischen Einheiten beobachtet werden Merkmalsausprägung: konkreter Wert des Merkmals für eine bestimmte statistische Einheit Merkmal Merkmalsausprägungen X x1 , x2 , . . . , xn [email protected] 1–7 Beispiel statistische Einheit: jeder Bürger von Bonn per 31.12.1995 Grundgesamtheit: Bevölkerung von Bonn am 31.12.1995 Erfassungsmerkmale: X1 - Alter X2 - Geschlecht X3 - Familienstand X4 - monatliches Einkommen ... mögliche Merkmalsausprägungen: X1 : 1, 13, 84, . . . X2 : männlich, weiblich X3 : ledig, verheiratet, geschieden, . . . X4 : 800, . . ., 2555.56, . . . [email protected] 1–8 1.2.1 Merkmalstypen Eine grundlegende Unterscheidung erfolgt anhand des Skalenniveaus, auf dem ein Merkmal gemessen wird. Nominalskala Ein Merkmal ist nominalskaliert, wenn die Ausprägungen Namen oder Kategorien sind, die den Einheiten zugeordnet werden Beispiele: Geschlecht, Familienstand, erlernter Beruf Spezialfall: Ein Merkmal heißt dichotom (oder binär), falls es nur zwei sich gegenseitig ausschließende Ausprägungen aufweist. Man beachte: Aus technischen Gründen wird oft eine Kodierung durchgeführt, d.h. den Ausprägungen werden Zahlen zugewiesen; diese Zahlen haben dann eine reine Bezeichnungsfunktion (Rechenoperationen nicht sinnvoll!); Nominalskalierung bleibt erhalten Beispiele: Geschlecht: männlich=1, weiblich=2 PKW-Farbtöne: grün=117, blau=440, . . . [email protected] 1–9 Ordinalskala Eine Ordinalskala liegt vor, wenn Merkmalsausprägungen nicht nur eine Verschiedenartigkeit, sondern auch eine natürliche Rangfolge zum Ausdruck bringen; Abstände zwischen den Ausprägungen sind jedoch nicht interpretierbar Beispiele: Schulnoten militärischer Dienstgrad Wind- und Erdbebenstärken Güteklassen für Produkte sozialer Status [email protected] 1–10 Kardinalskala oder metrische Skala: Eine Kardinalskala oder metrische Skala liegt vor, wenn Merkmalsausprägungen durch zugeordnete Zahlen sowohl Verschiedenartigkeit und Rangfolge, als auch mess- und quantifizierbare Unterschiede zum Ausdruck bringen Metrisch skalierte Merkmale lassen sich zusätzlich in intervallskalierte und verhältnisskalierte Merkmale unterteilen. Intervallskala: Eine Intervallskala liegt vor, wenn Abstände (Differenzen) zwischen Merkmalsausprägungen messbar und plausibel interpretierbar sind • kein natürlicher Nullpunkt • Quotienten nicht interpretierbar Beispiele: ◦ Temperatur in C, Kalenderzeitrechnung, Breiten- und Längengrade der Erde [email protected] 1–11 Verhältnisskala: Eine Verhältnisskala liegt vor, wenn Quotienten von Merkmalswerten berechenbar und plausibel interpretierbar sind • natürlicher Nullpunkt • Quotientenbildung sinnvoll Beispiele: Wertvolumen eines Warenkorbes, Längenmaße, Gewichtsmaße, Alter, Einkommen Sinnvolle Berechnungen: Skala auszählen ordnen Differenzen Quotienten nominal ja nein nein nein ordinal ja ja nein nein intervall ja ja ja nein verhältn. ja ja ja ja [email protected] 1–12 Eine zusätzliche, eher grobe, Einteilung besteht in der Unterscheidung zwischen qualitativen und quantitativen Merkmalen. Hierbei existiert ein enger Bezug zum Skalenniveau. Qualitative (kategoriale) Merkmale: Unter qualitativen Merkmalen versteht man Größen, deren Ausprägungen eine Qualität und nicht ein Ausmaß widerspiegeln; qualitative Merkmale sind entweder nominal- oder ordinalskaliert Quantitative Merkmale: Die Ausprägungen eines quantitativen Merkmals geben eine Intensität bzw. ein Ausmaß wieder, in dem die interessierende Größe realisiert ist; metrisch skalierte Merkmale sind immer quantitativ Achtung: Zwitterstellung mancher ordinalskalierter Merkmale (z.B. Schulnoten) [email protected] 1–13 Eine weitere, praktisch relevante Unterscheidung von Merkmalen basiert auf der Anzahl von Ausprägungen. Diskretes Merkmal: Ein Merkmal heißt diskret, falls es nur endlich oder abzählbar unendlich viele Ausprägungen annehmen kann. Beispiele: Geschlecht, Rasse, Anzahl der Autounfälle in Bonn innerhalb eines Monats Nominal- oder ordinalskalierte Merkmale sind immer diskret Stetiges Merkmal: Ein (metrisch skaliertes) Merkmal heißt stetig, wenn alle Werte eines Intervalls mögliche Ausprägungen sind. Beispiele: Körpergröße, Menge des verkauften Benzins an einer Tankstelle pro Tag [email protected] 1–14 In der Praxis oft: Quasi-stetige Merkmale Manche metrisch skalierten Merkmale sind zwar im Prinzip diskret, die Anzahl aller möglichen Ausprägungen ist jedoch so groß, dass es auch bei sehr großen Grundgesamtheiten äußerst unwahrscheinlich ist, dass zwei verschiedene statistische Einheiten die gleiche Ausprägung (Zahlenwert) besitzen. Solche quasi-stetigen Merkmale werden in der Praxis wie stetige Merkmale behandelt. Beispiel: Monatliches Nettoeinkommen Mögliche Ausprägungen: x1 = 645, 53 Euro x2 = 3215, 60 Euro x3 = 1450, 35 Euro .. . [email protected] 1–15 1.3 Datenmaterial in der statistischen Praxis In der Praxis können die für eine statistische Analyse verwendeten Daten aus unterschiedlichen Quellen stammen. Neben eigenen Erhebungen kann auch Datenmaterial verwendet werden, das dem Statistiker von amtlichen oder nichtamtlichen Institutionen zur Verfügung gestellt wurde. • Primärstatistische Untersuchung: Die Erhebung wurde speziell im Hinblick auf die zu untersuchende Fragestellung durchgeführt • Sekundärstatistische Untersuchung: Zur statistischen Analyse werden bereits vorhandene Originaldaten benutzt (z.B. aus statistischen Jahrbüchern) • Tertiärstatistische Untersuchung: Es werden bereits transformierte oder komprimierte Daten (etwa in Form von Mittelwerten) zur Analyse herangezogen Auf den verschiedenen Ebenen kann das Datenmaterial in unterschiedlicher Form vorliegen. [email protected] 1–16 1.3.1 Urliste, Häufigkeitdaten und gruppierte Daten Die nachfolgende Unterscheidung hinsichtlich der Form der durch die Daten gegebenen Informationen über ein interessierendes Merkmal ist von großer Bedeutung für praktische Berechnungen. Erhebung ⇒ Stichprobe des Umfangs n 1) Urliste (Rohdaten, Primärdaten): Es sind die Ausprägungen x1 , . . . , xn eines interessierenden Merkmals X für alle in der Stichprobe befindlichen statistischen Einheiten gegeben. Beispiel: Grundgesamtheit: Alle im WS 2009/2010 eingeschriebenen Studierenden der Universität Bonn Statistische Einheit: Ein im WS 2009/2010 eingeschriebener Student oder eine eingeschriebene Studentin der Universität Bonn Stichprobe: n = 5 zufällig ausgewählte Studierende Merkmal: Geschlecht (männlich= 0, weiblich= 1) Urliste: x1 = 0, x2 = 1, x3 = 1, x4 = 0, x5 = 1 Merkmal: Alter Urliste: x1 = 22, x2 = 20, x3 = 27, x4 = 25, x5 = 31 [email protected] 1–17 2) Häufigkeitsdaten: Es sind nur die relativen oder absoluten Häufigkeiten der einzelnen Ausprägungen eines diskreten Merkmals gegeben. Beispiel: Grundgesamtheit: Alle im WS 2009/2010 eingeschriebenen Studierenden der Universität Bonn Statistische Einheit: Ein im WS 2009/2010 eingeschriebener Student oder eine eingeschriebene Studentin der Universität Bonn Stichprobe: n = 5 zufällig ausgewählte Studierende Merkmal: Geschlecht beobachtete absolute Häufigkeiten in der Stichprobe: 2 männliche Studierende, 3 weibliche Studierende beobachtete relative Häufigkeiten in der Stichprobe: 40% männlich, 60% weiblich [email protected] 1–18 3) Gruppierte Daten: Insbesondere bei sekundärund tertiärstatistischen Untersuchungen liegen ursprünglich metrisch skalierte Merkmale oft in gruppierter Form vor. Gruppierung: Einteilung eines metrisch skalierten Merkmals in k Klassen Klassen: benachbarte Intervalle (c0 , c1 ], (c1 , c2 )], . . . , (ck−1 , ck ] Gruppierte Daten: Gegeben sind nur die Häufigkeiten der Originalbeobachtungen innerhalb der einzelnen Klassen • c0 , c1 , c2 , . . . , ck heißen Klassengrenzen • Klassenbreiten: δj = cj − cj−1 • Klassenmitten: c̄j = [email protected] cj + cj−1 2 1–19 Beispiel: Einkommensverteilung 1986 nach der Lohn- und Einkommenssteuerstatistik Gesamtbetrag Steuerpflichtige der Einkünfte DM Gesamtbetrag der Einkünfte (1000) (Mill. DM) - 4000 1445.2 2611.3 4000 - 8000 1455.5 8889.2 8000 - 12000 1240.5 12310.9 12000 - 16000 1110.7 15492.7 16000 - 25000 2762.9 57218.5 25000 - 30000 1915.1 52755.4 30000 - 50000 6923.7 270182.7 50000 - 75000 3876.9 234493.1 75000 -100000 1239.7 105452.9 100000-250000 791.6 108065.7 250000-500000 93.7 31433.8 500000- 1 Mill 26.6 17893.3 1 Mill - 2 Mill 8.3 11769.9 2 Mill - 5 Mill 3.7 10950.8 5 Mill -10 Mill 0.9 6041.8 10 Mill- mehr 0.5 10749.8 1 [email protected] 1–20 1.3.2 Klassifizierung nach Datenarten Im Rahmen von sekundär- und tertiärstatistischen Untersuchungen werden zu analysierende Merkmale in der Wirtschaftsstatistik oft im Hinblick auf die Art und Weise ihres Zustandekommens klassifiziert. Mikrodaten (individuelle Daten): Statistische Einheiten sind einzelne Haushalte, Firmen, etc. Gemessene Merkmale geben Charakteristika dieser Einheiten wieder. Aggregierte Daten: Interessierende Merkmale sind Maßzahlen, die durch geeignete Zusammenfassung von Mikrodaten entstanden sind Beispiel: Mittlerer Konsum aller Haushalte in Deutschland [email protected] 1–21 Formen der Aggregation 1. Sachliche Aggregation 2. Räumliche Aggregation 3. Zeitliche Aggregation Wichtige Maßzahlen: Indexzahlen, die die zeitliche Entwicklung einer Gesamtheit von Objekten wiedergeben. Sie enstehen durch sinnvolle Aggregation von Einzelwerten. Beispiele: Deutscher Aktienindex (Dax), Preisindizes, etc. [email protected] 1–22 Eine weitere Klassifizierung erfolgt im Hinblick darauf, ob sich die Daten auf einen einzelnen, festgelegten Zeitpunkt beziehen, oder ob sie Informationen über die Veränderungen eines Merkmals über einen längeren Zeitraum enthalten. Querschnittsstudie: Für eine Stichprobe von statistischen Einheiten werden ein oder mehrere Merkmale zu einem festgelegten Zeitpunkt erfaßt. Beispiel: Unternehmensbefragung über aktuelle Auftragslage Zeitreihe: Ein Objekt wird hinsichtlich eines Merkmals über einen längeren Zeitraum hinweg beobachtet, d.h. die Ausprägung des Merkmals wird in verschiedenen Zeitperioden erfaßt. Beispiel: Monatlicher Gesamtkonsum aller deutschen Haushalte von 1991-2001 [email protected] 1–23 Panel (Längsschnittstudie): Für eine Stichprobe von statistischen Einheiten wird die Entwicklung von interessierenden Merkmal(en) über einen gewissen Zeitraum hinweg verfolgt Beispiel: Sozio-ökonomisches Panel: 1984 vom DIW gestartete jährliche Wiederholungsbefragung von mehreren tausenden Haushalten (mehrere hundert Variablen, z.B. Erwerbsstatus, Einkommen,...) [email protected] 1–24 1.4 Datengewinnung und Erhebungsarten Datenerhebung ist Grundlage jeder Statistik Anforderungen an statistisches Datenmaterial: Methodische Solidität Vergleichbarkeit über längere Zeit Vollständigkeit und Genauigkeit Aktualität Datenquellen: Amtliche Daten Nichtamtliche Daten Eigene Datenerhebung [email protected] 1–25 Datenerhebung: Sorgfältige Planung notwendig! 1. Genaue Formulierung der Fragestellung 2. Sorgfältige Abgrenzung der zu analysierenden Merkmale und der interessierenden statistischen Einheiten und Masse 3. Festlegung der adäquaten Erhebungsart Beispiele: • schriftliche Befragung (Fragebogen) • mündliche oder telefonische Befragung • Beobachtung, Experiment • automatische Erfassung 4. Festlegung der zur Auswertung geeigneten statistischen Methodik 5. Maßnahmen zum Datenschutz Ziel von 3. und 4.: Repräsentativität der Ergebnisse und Vermeidung von Fehlinterpretationen durch weitestgehenden Ausschluss von Fehlerquellen [email protected] 1–26 Vollerhebung: Die Merkmale jeder einzelnen statistischen Einheit in der Grundgesamtheit werden erhoben • Beispiel: Volkszählung • Probleme der Vollerhebung: oft zeitraubend, und kostspielig; in vielen Fällen praktisch nicht durchführbar [email protected] 1–27 Teilerhebung: Ziehung einer Stichprobe aus der interessierenden Grundgesamtheit • wichtig: Umfang n der Stichprobe • Problem: Zufallsschwankungen ⇒ statistisch kontrollierbar (z.B. „Signifikanztests“) Fehlerquellen: • Fehlende Repräsentativität der Stichprobe durch systematische Verzerrungen (ungeeignete Erhebungsart) • Fehlende oder falsche Daten • Einfluss von Störvariablen [email protected] 1–28 Wichtige Stichprobenverfahren: Einfache Zufallsstichprobe: Aus der interessierenden statistischen Masse werden n Einheiten nach einem reinen Zufallskriterium ausgewählt Geschichtete Zufallsstichprobe: Die Grundgesamtheit wird zunächst in sich nicht überlappende Schichten zerlegt; aus jeder Schicht wird eine einfache Zufallsauswahl getroffen • Beispiel: Schichtung nach Geschlecht, sozialem Status oder Berufsgruppen • Schichten: in sich homogen; untereinander heterogen [email protected] 1–29 Klumpenstichprobe: Die Grundgesamtheit zerfällt in untereinander ähnliche Teilgesamtheiten (Klumpen); Klumpen werden zufällig ausgewählt und innerhalb jedes Klumpens wird eine Vollerhebung durchgeführt • Beispiel: Studie des Weinkonsums in Rheinhessen; mögliche Klumpen: verschiedene Gemeinden • Klumpen: in sich heterogen; untereinander homogen (verkleinerte Abbilder der Grundgesamtheit) Mehrstufige Auswahlverfahren: einfachste Form: wie Klumpenstichprobe, aber innerhalb eines ausgewählten Klumpens wird eine Zufallsstichprobe gezogen [email protected] 1–30 Bewußte Auswahlverfahren (insbesondere in der Meinungsforschung) Quotenauswahl: In vielen Fällen sind die Quoten bekannt, mit denen gewisse Teilgesamtheiten (Frauen, Männer, Studierende, Rentner,..) in der Grundgesamtheit vertreten sind. Die Stichprobe wird so ausgewählt, daß die entsprechenden Quoten erhalten bleiben. • Idee der Quotenauswahl: Erhöhung der Repräsentativität [email protected] 1–31 2 2.1 Univariate Deskription und Exploration von Daten Verteilungen und ihre Darstellungen Erhebung vom Umfang n: beobachtete Ausprägungen x1 , . . . , xn eines Merkmals X x1 , . . . , xn werden als Urliste, Rohoder Primärdaten bezeichnet Häufigkeit: Besetzungszahl einer Ausprägung oder einer Klasse von Ausprägungen des Merkmals [email protected] 2–1 2.1.1 Diskrete Merkmale Mögliche Ausprägungen von X: a1 , a2 , . . . , ak Absolute und relative Häufigkeiten: absolute Häufigkeit der Aus- h(aj ) = hj prägung aj , d.h. Anzahl der xi aus x1 , . . . , xn mit xi = aj f (aj ) = fj = hj n relative Häufigkeit von aj h1 , . . . , hk absolute Häufigkeitsverteilung f1 , . . . , fk relative Häufigkeitsverteilung ⇒ Erstellung einer Häufigkeitstabelle auf der Basis der resultierenden Häufigkeitsdaten (a1 , . . . , ak zusammen mit f1 , . . . , fk bzw. h1 , . . . , hk ) Anmerkung: Bei gegebener Urliste erfolgt die praktische Berechnung der hj durch einfache Auszählung. Falls die Informationen über das interessierende Merkmal schon in Form von Häufigkeitsdaten gegeben sind, so entfällt natürlich die Berechnung von hj bzw. fj . [email protected] 2–2 Beispiel Untersuchung der Erwerbstätigen in der Bundesrepublik Deutschland im April 1991 statistische Einheit: Ein Erwerbstätiger bzw. eine Erwerbstätige in der Bundesrepublik Deutschland im April 1991 Merkmal: Stellung im Beruf (nominalskaliert); mögliche Ausprägungen: Arbeiter(in), Angestellte(r), Beamte(r), mithelfende(r) Familienangehörige(r) Stellung Erwerbstätige relative im Beruf in 1000 Häufigkeit aj hj fj Arbeiter 14568 0.389 Angestellte 16808 0.449 Beamte 2511 0.067 Selbstständige 3037 0.081 Mithelf. Fam.-ang. 522 0.014 Summe 37466 1.000 [email protected] 2–3 Grafische Darstellungen: Stabdiagramm, Säulendiagramm, Balkendiagramm: Stabdiagramm Trage über a1 , . . . , ak jeweils einen zur x-Achse senkrechten Strich (Stab) mit Höhe h1 , . . . , hk ( f1 , . . . , fk ) ab. Säulendiagramm wie Stabdiagramm, aber mit Rechtecken statt Strichen. Balkendiagramm wie Säulendiagramm, aber mit vertikal gelegter x-Achse Kreisdiagramm: Flächen der Kreissektoren proportional zu den Häufigkeiten. Winkel des j-ten Kreissektors = fj · 360◦ [email protected] 2–4 [email protected] 2–5 Beispiel Haushaltsgrößen im früheren Bundesgebiet statistische Einheit: Haushalte statistisches Merkmal: Haushaltsgröße kardinalskaliert, diskret Häufigkeiten: Haushaltsgröße prozentual relativ 1900 1925 1950 1990 1 7.1 6.8 19.5 35.0 2 14.7 17.7 25.3 30.2 3 17.0 22.5 23.0 16.7 4 16.8 19.7 16.2 12.8 5 und mehr 44.4 33.3 16.1 5.3 Summe 100 100 100 100 xj [email protected] 2–6 [email protected] 2–7 2.1.2 Stetige oder quasi-stetige Merkmale Eine einfache Repäsentation stetiger Merkmale erfolgt mit Hilfe eines Histogramms. Sie basiert auf einer Gruppierung der Daten und einer Darstellung der resultierenden Häufigkeitsverteilung. Wenn das Datenmaterial nicht schon in gruppierter Form vorliegt, ist zur Konstruktion eines Histogramms eine geeignetete Klasseneinteilung von dem Statistiker selbst durchzuführen. Die zugehörigen Häufigkeiten sind dann durch Auszählen aus der Urliste zu bestimmen. Gruppierung anhand von Klassen benachbarter Intervalle (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ] Klassenbreite: δj = cj − cj−1 üblicherweise: δ := δ1 = · · · = δk ⇒ absolute und relative Häufigkeiten h1 , . . . , hk und f1 , . . . , fk [email protected] 2–8 Histogramm Zeichne über (c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit Breite: δj = cj − cj−1 Höhe: fj /δj ⇒ Fläche: fj • Prinzip der Flächentreue: Die im Histogramm dargestellten Flächen sind gleich den relativen Häufigkeiten • Das Histogramm liefert eine Darstellung der empirischen Verteilung der interessierenden Variable • Bei der Konstruktion eines Histogramms aus einer gegebenen Urliste benutzt man in aller Regel eine feste Klassenbreite δ; es gilt dann cj = cj−1 + δ Anmerkung: In der Praxis werden zahlreiche weitere Versionen des Histogramms benutzt, z.B. Histogramme mit Höhe hj /δj statt fj /δj . Der Unterschied besteht in diesem Fall einzig in einer veränderten Skalierung der vertikalen Achse. [email protected] 2–9 • Probleme bei der Konstruktion eines Histogramms (aus der Urliste): – Wahl der Klassenbreite δ (und damit der Anzahl k von Klassen) – Wahl des Anfangspunkts c0 √ √ • Vorgeschlagene Faustregeln: k = [ n], k = 2[ n] oder k = 10[log10 n] Beispiel: Statistische Einheit: 1986 befragte, in Privathaushalten lebende deutsche Staatsangehörige im Alter von mindestens 18 Jahren. Statistisches Merkmal: monatliches persönliches Nettoeinkommen (in DM) Umfang der Stichprobe: n = 716 [email protected] 2–10 Klassenbreite: 800 DM Klassenbreite: 500 DM Klassenbreite: 250 DM Klassenbreite: 100 DM [email protected] 2–11 nach Geschlecht, Klassenbreite: 500 DM M annlich Weiblich [email protected] 2–12 2.1.3 Eigenschaften von Häufigkeitsverteilungen Unimodale Verteilung Die Verteilung besitzt einen Gipfel, von dem aus die Häufigkeiten flacher oder steiler zu den Randbereichen hin verlaufen, ohne daß ein zweiter deutlich ausgeprägter Gipfel hervortritt Unimodale Verteilung (symmetrisch) 10 8 h2 6 4 2 0 1 2 3 4 5 6 7 8 9 a [email protected] 2–13 Bimodale bzw. multimodale Verteilung Die Verteilung besitzt zwei bzw. mehrere deutlich ausgeprägte Gipfel Bimodale Verteilung 8 h4 6 4 2 0 1 2 3 4 5 6 7 8 9 a [email protected] 2–14 Symmetrische Verteilung Es existiert eine Symmetrieachse, so daß die rechte und die linke Hälfte der Verteilung annähernd zueinander spiegelbildlich sind Linkssteile Verteilung Die Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab Rechtssteile Verteilung Die Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab [email protected] 2–15 Linkssteile Verteilung 10 8 h1 6 4 2 0 1 2 3 4 5 6 7 8 9 7 8 9 a Rechtssteile Verteilung 10 8 h3 6 4 2 0 1 2 3 4 5 6 a [email protected] 2–16 2.1.4 Die empirische Verteilungsfunktion Ein wichtiges Werkzeug zur Analyse von quantitativen Merkmalen ist die sogenannte empirische Verteilungsfunktion. Absolute kumulierte Häufigkeitsverteilung: H(x) = Anzahl der Werte xi mit xi ≤ x Empirische Verteilungsfunktion: F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x Eigenschaften: • 0 ≤ F (x) ≤ 1 • F (x) = 0, falls x < x(1) , wobei x(1) - kleinster beobachteter Wert • F (x) = 1, falls x ≥ x(n) , wobei x(n) - größter beobachteter Wert • F monoton wachsende Treppenfunktion [email protected] 2–17 Beispiel: Preise (in Euro) für eine Pizza mit Salami und Pilzen in acht zufällig ausgewählten Pizzerien in Bonn x1 x2 x3 x4 x5 x6 x7 x8 5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 4.0 4.5 [email protected] 5.0 5.5 6.0 6.5 2–18 Konstruktion von F (x) anhand der Urliste x1 , . . . , xn : • Ordnen der Daten ⇒ geordnete Urliste: x(1) ≤ x(2) ≤ · · · ≤ x(n) • F (x) = 0, falls x < x(1) • F (x(i) ) = F (x(i−1) ) + n1 F (x) = F (x(i) ), falls x ∈ [x(i) , x(i+1) ) Achtung: Falls alle xi voneinander verschieden sind, wächst F (x) an jedem Beobachtungswert genau um den Betrag 1 ; n sind zwei Beobachtungen gleich, so wächst F (x) an dem entsprechenden Zahlenwert um den Betrag 2 , n bei drei gleichen Beobachtungen um 3 , n etc. • F (x) = 1, falls x ≥ x(n) Konstruktion von F (x) bei Häufigkeitsdaten: X diskret mit Ausprägungen a1 < a2 < · · · < ak F (x) = f (a1 ) + · · · + f (aj ) falls aj ≤ x und aj+1 > x [email protected] 2–19 Beispiel: Haushaltsgrößen 1990 (siehe 2-6) aj 1 2 3 4 5 fj 0, 35 0, 302 0, 167 0, 128 0, 053 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 [email protected] 3 4 5 2–20 Konstruktion einer empirischen Verteilungsfunktion bei gruppierten Daten: k Klassen: (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ] zugehörige rel. Häufigkeiten: f1 , . . . , fk • F(x)=0 für x < c0 , F (x) = 1 für x > ck • Für alle i = 0, 1, . . . , k F (ci ) = Anteil der Originaldaten ≤ ci = i ∑ fj j=1 • lineare Interpolation zwischen den Klassengrenzen ⇒ keine Treppenfunktion! Anmerkung: Gruppierte Daten geben die Häufigkeiten der Orginalbeobachtungen innerhalb der einzelnen Klassen wieder. An den Klassengrenzen ci entspricht F (ci ) daher dem Wert der ”wahren” empirischen Verteilungsfunktion der ursprünglichen Beobachtungen. Innerhalb der Klassen existieren keine Informationen, es ist jedoch offensichtlich, dass die wahre emp. Verteilungsfunktion innerhalb jeder Klasse eine monoton wachsende, nicht konstante Funktion ist. Die vorgeschlagene lineare Interpolation basiert auf der Idee einer relativ gleichmäßigen Verteilung der Originalbeobachtungen innerhalb der einzelnen Klassen. [email protected] 2–21 Beispiel: Mietpreise in München Mietpreise (in DM) von Wohnungen ohne zentrale Warmwasserversorgung und mit einer Wohnfläche von höchstens 50 qm (basierend auf einer Erhebung von n = 26 Wohnungen im Jahr 1994) Klasse rel. Häufigkeit 100 - 200 0, 115 200 - 300 0, 230 300 - 400 0, 346 400 - 500 0, 154 500 - 600 0, 116 600 - 700 0, 039 Empirische Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 200 [email protected] 400 600 2–22 2.2 Beschreibung von Verteilungen 2.2.1 Lagemaße Lagemaße Maßzahlen zur Lage beschreiben das Zentrum der Verteilung eines Merkmals Einfachstes Lagemaß bei quantitativen Merkmalen: Arithmetisches Mittel Arithmetisches Mittel x̄ Bei gegebener Urliste x1 , . . . , xn : x̄ = 1 (x1 n + · · · + xn ) = 1 n ∑n i=1 xi Berechnung aus Häufigkeitsdaten: ∑k x̄ = a1 f1 + · · · + ak fk = i=1 ai fi Approximation aus gruppierten Daten : ∑k x̄ = i=1 c̄i fi [email protected] 2–23 Eigenschaften des arithmetischen Mittels: • Null- oder Schwerpunktseigenschaft n ∑ (xi − x̄) = 0 i=1 • Quadratische Minimierungseigenschaft n ∑ (xi − x̄)2 < i=1 n ∑ (xi − z)2 i=1 für alle z ̸= x̄ • Lineare Transformation yi = a + bxi : ȳ = a + bx̄ • Addition zi = xi + yi : z̄ = x̄ + ȳ • Schichtenbildung: Eine Erhebungsgesamtheit vom Umfang n sei in r Schichten (Teilgesamtheiten) mit jeweiligen Umfängen n1 , . . . , nr und arithmetischen Mitteln x̄1 , . . . , x̄r zerlegt: 1∑ nj x̄j x̄ = n j=1 r [email protected] 2–24 Geordnete Urliste (für quantitative Merkmale): x1 , . . . , xn werden der Größe nach geordnet ⇒ x(1) ≤ x(2) ≤ · · · ≤ x(n) Median (Zentralwert) xmed xmed = x( n+1 ) für n ungerade 2 xmed = 12 [x( n2 ) + x( n2 +1) ] für n gerade Eigenschaften: • Mindestens 50% der Daten sind ≤ xmed • Mindestens 50% der Daten sind ≥ xmed • Robustheit: Im Gegensatz zum arithm. Mittel wird der Wert des Medians nur wenig durch ”Ausreißer”, d.h. extreme Beobachtungen, beeinflusst. [email protected] 2–25 Berechnung des Medians für Häufigkeitsdaten: X diskret mit Ausprägungen a1 < a2 < · · · < ak xmed = ai , wobei ai diejenige Ausprägung ist, für die die Folge Fi zum ersten Mal 0.5 überschreitet. Fi−1 = i−1 ∑ fj < 0.5 < Fi = j=1 i ∑ fj j=1 (in seltenen Fällen: Fi = 0, 5 ⇒ xmed = (ai + ai+1 )/2) Berechnung des Medians für gruppierte Daten: • Bestimme die Einfallsklasse des Medians als die Klasse [(ci−1 , ci ], für die die Folge Fi zum ersten Mal 0.5 überschreitet. Fi−1 = i−1 ∑ j=1 fj ≤ 0.5 < Fi = i ∑ fj j=1 • Setze xmed δi · (0.5 − Fi−1 ) = ci−1 + fi [email protected] 2–26 Beispiel: Haushaltsgrößen 1990 aj 1 2 3 4 5 fj 0, 35 0, 302 0, 167 0, 128 0, 053 ⇒ xmed = 2 Grafische Bestimmung mit der empirischen Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 xmed [email protected] 3 4 5 2–27 Beispiel: Mietpreise in München • Einfallsklasse des Medians (300, 400] ⇒ xmed = 344, 80 Grafische Bestimmung mit der empirischen Verteilungsfunktion: 1.0 0.8 0.6 0.4 0.2 0.0 0 200 [email protected] 400 xmed 600 2–28 Modus xmod Als Modus wird die Ausprägung mit der größten Häufigkeit bezeichnet • Der Modus ist im Gegensatz zu x̄ und xmed auch für nominalskalierte Merkmale ein sinnvolles Lagemaß • Der Modus ist eindeutig, falls die Häufigkeitsverteilung ein eindeutiges globales Maximum besitzt. Bei stetigen Merkmalen: Approximative Bestimmung eines Modus nach geeigneter Gruppierung Berechnung des Modus für gruppierte Daten: • Bestimme die Modalklasse (cj−1 , cj ] (Klasse mit der größten Häufigkeit) • Setze xmod = c̄j Anwendung: Haushaltsgrößen 1990 : xmod = 1 [email protected] 2–29 Lageregeln: Symmetrische Verteilungen x̄ ≈ xmed ≈ xmod Linkssteile Verteilungen x̄ > xmed > xmod Rechtssteile Verteilungen x̄ < xmed < xmod Stichprobe 1 Stichprobe 2 Stichprobe 3 aj h(aj ) h(aj ) h(aj ) 1 8 1 1 2 10 2 2 3 8 4 2 4 6 8 4 5 5 10 5 6 4 8 6 7 2 4 8 8 2 2 10 9 1 1 8 x̄ 3,57 5 6,43 xmed 3 5 7 xmod 2 5 8 [email protected] 2–30 Geometrisches Mittel x̄geo x̄geo = (x1 · x2 · . . . · xn )1/n • Voraussetzung: Verhältnisskalierte Merkmale mit positiven Ausprägungen ∑n 1 • ln x̄geo = n i=1 ln xi Anwendung: Mittlerer Wachstumsfaktor Anfangsbestand B0 ; B0 , B1 , . . . , Bn Zeitreihe von Bestandsdaten • Wachstumsfaktor in Periode i xi = Bi /Bi−1 • Wachstumsrate in Periode i Bi − Bi−1 ri = = xi − 1 Bi−1 [email protected] 2–31 • Bn = B0 · (x̄geo )n Beispiel: Bruttosozialprodukt (BSP) der Bundesrepublik Deutschland in Preisen von 1985 (Mrd. DM) Jahr BSP t Bt xt 1980 0 1733,8 - 1981 1 1735,7 1,0011 1982 2 1716,5 0,9889 1983 3 1748,4 1,0186 1984 4 1802,0 1,0307 1985 5 1834,5 1,0180 1986 6 1874,4 1,0217 1987 7 1902,3 1,0149 1988 8 1971,8 1,0365 • x̄geo = (1971, 8/1733, 8)1/8 = 1, 0162 • mittlere Wachstumsrate: x̄geo − 1 = 1, 62% [email protected] 2–32 Harmonisches Mittel x̄har x̄har = 1 n ∑n1 1 i=1 xi Anwendung: Mittlere Geschwindigkeit x1 , . . . , xn Geschwindigkeit mit der Bauteile eine Produktionslinie der Länge l durchlaufen • Gesamtzeit: l x1 + ··· + l xn • Mittlere Geschwindigkeit: x̄har = l + ··· + l l l + · · · + x1 xn Verallgemeinerung für unterschiedliche Streckenlängen li l1 + · · · + ln x̄har = l1 ln + · · · + x1 xn [email protected] 2–33 2.3 Streuungsmaße Empirische Varianz und Standardabweichung Die Varianz der Werte x1 , . . . , xn ist 2 s̃ = 1 n ∑n 2 (x − x̄) i i=1 Standardabweichung von x1 , . . . , xn : s̃ = √ s̃2 Modifizierte Definition (in der schließenden Statistik bevorzugt): Stichprobenvarianz 2 s = 1 n−1 [email protected] ∑n 2 (x − x̄) i i=1 2–34 Streuungsparameter Beispiel: Monatliche Aufwendungen fur Freizeitguter und Urlaub (DM) Zweipersonenhaushalte: 210, 250, 340, 360, 400, 430, 440, 450, 530, 630 Æ Æ ÆÆ Æ ÆÆÆ Æ Æ Vierpersonenhaushalte: 340, 350, 360, 380, 390, 410, 420, 440, 460, 490 x = 404 DM [email protected] 2–35 Berechnung von s̃2 aus der Urliste: Vereinfachte Formel ( 2 s̃ = 1 n n ∑ ) x2i − x̄2 i=1 Berechnung von s̃2 aus Häufigkeitsdaten: s̃2 = k ∑ (aj − x̄)2 fj = j=1 k ∑ a2j fj − x̄2 j=1 Berechnung auf der Grundlage von gruppierten Daten: s̃2 = k ∑ (c̄j − x̄)2 fj = j=1 k ∑ c̄2j fj − x̄2 j=1 Sheppard-Korrektur bei konstanter Klassenbreite δ = cj − cj−1 : k ∑ δ2 s̃ = (c̄j − x̄) fj − 12 j=1 2 [email protected] 2 2–36 Rechenregeln: • Transformationsregel: Für yi = a + bxi ist s̃2y = b2 s̃2x bzw. s̃y = |b|s̃x • Standardisierung: xi − x̄ zi = s̃x ⇒ z̄ = 0, s̃2z = 1 Tendenziell: s̃2 groß ⇔ große Streuung; s̃2 klein ⇔ kleine Streuung; (Extremfall: s̃2 = 0 ⇒ alle Beobachtung sind gleich) Aber: In einer gegebenen Anwendung ist der Wert von s̃2 nur in Abhängigkeit von dem zugrundeliegenden Maßstab interpretierbar! Maßstabsunabhängiges Streuungsmaß (für verhältnisskalierte Merkmale mit positiven Ausprägungen): Variationskoeffizient Variationskoeffizient v = s̃/x̄ [email protected] 2–37 Geschichteter (gepoolter) Datensatz: Zerlegung der Erhebungsgesamtheit in r Schichten x̄1 , . . . , x̄r s̃21 , . . . , s̃2r n1 , . . . , nr mit n = n1 + · · · + nr Streuungszerlegung 2 s̃ = 1 n ∑r 2 n s̃ j j j=1 + 1 n ∑r 2 n (x̄ − x̄) j j j=1 Gesamte Varianz = Varianz innerhalb der Schichten + Varianz zwischen den Schichten [email protected] 2–38 Beispiel: Quadratmeterpreise für Mietwohnungen Erhebung von 1082 Mietwohnungen in München im Jahr 1994 Merkmal: Mietpreis pro Quadratmeter (in DM) Unterteilung (Schichtung) in kleine Wohnungen (bis 50 qm), mittlere Wohnungen (51 bis 80 qm) und große Wohnungen (ab 81 qm) Kleine Wohnungen: n1 = 270, x̄1 = 15, 30, s̃1 = 5, 61 Mittlere Wohnungen: n2 = 513, x̄2 = 12, 20, s̃2 = 4, 78 Große Wohnungen: n3 = 299, x̄3 = 11, 02, s̃3 = 4, 78 Hieraus ergibt sich: x̄ = 12, 65, s̃2 = 27, 6 [email protected] 2–39 2.4 Quantile und Boxplot Quantile liefern wichtige Informationen über die Streuung und andere wichtige Charakteristika einer empirischen Verteilung. Geordnete Urliste: x(1) ≤ x(2) ≤ . . . x(n) p-Quantil: Wert xp mit 0 < p < 1, so daß Anzahl xi ≤xp n ≥ p und Anzahl xi ≥xp n ≥1−p xp = x([np]+1) , wenn np nicht ganzzahlig xp = (x(np) + x(np+1) )/2, wenn np ganzzahlig [np] ist die zu np nächste kleinere ganze Zahl. [email protected] 2–40 • Median: xmed = x0,5 • Unteres Quartil = 25%-Quantil = x0,25 • Oberes Quartil = 75%-Quantil = x0,75 . • Dezile: p = 10%, 20%, . . . , 90% p-Quantil für gruppierte Daten: Analog zum Median wird ein p-Quantil definiert durch p − Fi−1 xp = ci−1 + δi fi wobei i so bestimmt ist, daß Fi−1 = i−1 ∑ j=1 [email protected] fj ≤ p < Fi = i ∑ fj j=1 2–41 Grafische Bestimmung von Quantilen mit Hilfe der empirischen Verteilungsfunktion Urliste oder Häufigkeitsdaten: 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0.0 4.0 4.5 5.0 5.5 x0,25 x0,75 6.0 6.5 0 1 x0,25 2 3 x0,75 4 5 Gruppierte Daten: 1.0 0.8 0.6 0.4 0.2 0.0 0 200 x0,25 [email protected] 400 x0,75 600 2–42 Interquartilsabstand QA = x0,75 − x0,25 • Der Interquartilsabstand ist ein häufig verwendetes Streuungsmaß, dessen Wert nur wenig von Ausreißern beeinflusst wird. Ein großer/kleiner Wert von QA signalisiert große/kleine Streuung der Daten. Fünf-Punkte-Zusammenfassung: Zusammenfassung einer Verteilung durch xmin , x0,25 , xmed , x0,75 , xmax Spannweite: R = xmax − xmin Spannweite für gruppierte Daten: R = ck − c0 [email protected] 2–43 Graphische Darstellung einiger Mazahlen der Lage und der Variation Boxplot (Box{Whisker{Plot, Schachtelzeichnung) x0;75 + 3QA x0;75 + 1; 5QA (upper fence) ? Æ x0;75 x0;5 Æ ? QA x0;25 x0;25 1; 5QA (lower fence) x0;25 3QA [email protected] 2–44 Boxplot: • x0,25 - Anfang der Schachtel (”Box”) x0,75 - Ende der Schachtel (”Box”) ⇒ QA - Länge der Schachtel (”Box”) • xmed wird durch Strich in der Box markiert (manchmal wird auch x̄ durch eine gestrichelte Linie markiert) • Man bestimmt die ”Zäune” zl = x0,25 − 1, 5 · QA und zu = x0,75 + 1, 5 · QA • Zwei Linien (”Whiskers”) gehen zum kleinsten und größten Beobachtungswert innerhalb des Bereichs [zl , zu ] der Zäune • Beobachtungen außerhalb der ”Zäune” zl , zu werden einzeln eingezeichnet Boxplots liefern Informationen über wichtige Charakteristika einer Verteilung: • Lage und Streuung • Struktur (symmetrisch, rechtssteil, linkssteil) • Existenz von Ausreißern [email protected] 2–45 Beispiel: Geordnete Urliste (n=10): 0,1 0,1 0,2 0,4 0,5 0,7 0.5 1.0 1.5 0,9 1,2 1,4 1,9 Histogramm: 0.8 0.6 0.4 0.2 0.0 0.0 2.0 x Boxplot: 0.0 0.5 1.0 1.5 2.0 x [email protected] 2–46 Beispiel Stundenlohn in US$ Gesamt Mann Frau xmin =1 xmin =1 xmin =1.74997 xmax =44.5005 xmax =26.2903 xmax =44.5005 R=43.5005 R=25.2903 R=42.7505 x0.25 =5.24985 x0.25 =6.00024 x0.25 =4.74979 x0.5 =7.77801 x0.5 =8.92985 x0.5 =6.79985 x0.75 =11.2504 x0.75 =12.9994 x0.75 =10.0001 QA=6.00065 QA=9.99916 QA=5.25031 x̄=9.02395 x̄=9.99479 x̄=7.87874 s2 =26.408 s2 =27.9377 s2 =22.2774 s=5.13887 s=5.28562 s=4.7199 v=0.57 v=0.53 v=0.6 [email protected] 2–47 40 30 20 0 10 Stundenlohn Gesamt [email protected] 2–48 40 30 20 0 10 Stundenlohn Frauen [email protected] Maenner 2–49 2.5 Maßzahlen für Schiefe Schiefe (”Skewness”) Schiefemaße beschreiben Abweichungen einer Verteilung von der Symmetrie Qantilskoeffizient der Schiefe gp = (x1−p −xmed )−(xmed −xp ) x1−p −xp p = 0, 25: Quartilskoeffizient Werte des Quantilskoeffizienten: • gp = 0 für symmetrische Verteilungen • gp > 0 für linkssteile Verteilungen • gp < 0 für rechtsssteile Verteilungen [email protected] 2–50 Momentenkoeffizient der Schiefe 3 gm = m3 /s̃ mit m3 = 1 n ∑n 3 (x − x̄) i i=1 Werte des Momentenkoeffizienten: Qualitativ analog zu gp Anmerkung: Momente einer empirischen Verteilung • Für r = 1, 2, 3, . . . ist allgemein 1∑ r Mr = xi n i=1 n das r − te Moment der Verteilung • Das r − te zentrale Moment ist gegeben durch n 1∑ mr = (xi − x̄)r n i=1 [email protected] 2–51 2.6 Konzentrationsmaße 2.6.1 Lorenzkurve und Gini-Koeffizient Eine in den Wirtschaftswissenschaften relevante Fragestellung gilt der Konzentration von Merkmalsausprägungen auf Merkmalsträger Marktkonzentration: • starke Konzentration - wenige Anbieter erzielen den größten Teil des Gesamtumsatzes • schwache Konzentration - Umsätze sind relativ gleichmäßig auf eine große Zahl von Marktteilnehmern verteilt Analog: Einkommenskonzentration, Vermö- genskonzentration Ziel: Wiedergabe der Stärke der Konzentration in einem Kennwert bzw. einer Graphik [email protected] 2–52 • Man betrachtet metrische Merkmale mit nichtnegativen Ausprägungen • Zur Vereinfachung: Meßwerte x1 , . . . , xn bereits geordnet, d.h. x1 ≤ x2 ≤ · · · ≤ xn ∑n • Gesamtmerkmalssumme: i=1 xi > 0 Lorenzkurve Für die geordnete Urliste x1 ≤ x2 ≤ · · · ≤ xn ergibt sich die Lorenzkurve als Streckenzug durch die Punkte (0, 0), (u1 , v1 ), . . . , (un , vn ) = (1, 1) mit uj = j n vj = ∑j xi ∑i=1 n i=1 xi Anteil der Merkmalsträger, kumulierte relative Merkmalssumme [email protected] 2–53 Beispiel: Marktkonzentration Monatlicher Umsatz (in 1000 DM) der Möbelbranche in den Städten A, B und C: Möbelhaus Stadt A B C 1 40 180 60 2 40 5 50 3 40 5 40 4 40 5 30 5 40 5 20 1.0 Stadt A 0.8 o 0.6 o 0.4 v o 0.0 0.2 o o o 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 2–54 1.0 Stadt B 0.2 0.4 v 0.6 0.8 o o o 0.0 o o o 0.0 0.2 0.4 0.6 0.8 1.0 u 1.0 Stadt C 0.8 o v 0.6 o 0.4 o 0.2 o 0.0 o o 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 2–55 Interpretation der Lorenzkurve: • Für jeden Punkt (uj , vj ): Auf uj · 100% der kleinsten Merkmalsträger entfallen vj · 100% der Gesamtmerkmalssumme • Nullkonzentration: Alle statistischen Einheiten besitzen die gleiche Merkmalsausprägung. ⇒ uj = vj für all j = 1, . . . , n ⇒ Die Lorenkurve ist eine Gerade durch den Nullpunkt mit Steigung 45◦ (Diagonale) • Maximale Konzentration: Die gesamte Merkmalssumme entfällt auf eine einzige statistische Einheit, die restlichen n − 1 Einheiten besitzen die Merkmalsausprägung 0 ⇒ vj = 0 für j = 1, . . . , n − 1 • Allgemein: Die Konzentration ist umso stärker, je mehr die berechnete Lorenzkurve von der Diagonale abweicht (d.h. je größer die Fläche zwischen Diagonale und Lorenzkurve) Eigenschaften: • Die Lorenzkurve ist stückweise linear (maximal n−1 Knicke) und monoton wachsend (Monotonie) • Die Lorenzkurve besitzt eine nach unten gerichtete Wölbung (Konvexität) [email protected] 2–56 Lorenzkurve bei Nullkonzentration 1.0 Stadt A 0.8 o 0.6 o 0.4 v o 0.0 0.2 o o o 0.0 0.2 0.4 0.6 0.8 1.0 u Lorenzkurve bei maximaler Konzentration (n = 5) 1.0 0.8 v 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 2–57 Berechnung der Lorenzkurve aus Häufigkeitsdaten (a1 ≤ a2 ≤ · · · ≤ ak ): uj = j ∑ hi /n = i=1 j ∑ fi i=1 ∑j ∑j h a i=1 i i i=1 fi ai vj = ∑k = ∑k i=1 hi ai i=1 fi ai Berechnung der Lorenzkurve für gruppierte Daten: uj = j ∑ fi i=1 ∑j vj = ∑i=1 k i=1 [email protected] fi c̄i fi c̄i 2–58 Beispiel: Monatliche Haushaltsnettoeinkommen 1988, Bundesrepublik Deutschland (bis unter 25000 DM) MHNE in DM Anteil der Haushalte fj 0 – 800 0,044 800 – 1400 0,166 1400 – 3000 0,471 3000 – 5000 0,243 5000 – 25000 0,076 Lorenzkurve: 1.0 0.8 v 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 u [email protected] 2–59 Grundidee zur Definition eines (relativen) Konzentrationsmaßes: Stärke der Konzentration entspricht der Fläche zwischen Diagonale und Lorenzkurve Gini-Koeffizient Fläche zwischen Diagonale und Lorenzkurve Fläche zwischen Diagonale und u-Achse = 2· Fläche zwischen Diagonale und Lorenzkurve G= • Berechnung anhand der geordneten Urliste x1 ≤ x2 ≤ · · · ≤ xn : ∑n n 2 i=1 ixi n+1 n+1 1∑ G = ∑n − = −2· vj n n n j=1 n i=1 xi • Berechnung aus Häufigkeitsdaten: ∑k G= mit v̄j = k ∑ (u + u )f a i i i i=1∑i−1 =1−2· fj v̄j n i=1 fi ai j=1 vj−1 +vj 2 [email protected] 2–60 • Berechnung aus gruppierten Daten: ∑k G= k ∑ (u + u )f c̄ i i i i=1∑i−1 −1=1−2· fj v̄j n f c̄ i=1 i i j=1 mit v̄j = vj−1 +vj 2 Extreme Ausprägungen des Gini-Koeffizienten: • Gmin = 0 bei Nullkonzentration, x1 = x2 = · · · = xn • Gmax = n−1 n bei maximaler Konzentration, x1 = x2 = · · · = xn−1 = 0, xn > 0 Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient) G∗ = G Gmax = n n−1 G Wertebereich: G∗ ∈ [0, 1] [email protected] 2–61 Beispiel: Marktkonzentration G G∗ Stadt A 0 0 Stadt B 0.7 0.875 Stadt C 0.2 0.25 1.0 1.0 Achtung! Unterschiedliche Lorenzkurven können auf den gleichen Gini-Koeffizienten führen: 0.8 o 0.6 0.6 0.8 o v 0.4 0.2 0.2 0.4 v o 0.0 0.0 o o 0.0 0.2 0.4 0.6 0.8 u [email protected] 1.0 o 0.0 0.2 0.4 0.6 0.8 1.0 u 2–62 2.6.2 Absolute Konzentrationsmaße • Relative Konzentrationsmaße (Gini-Koeffizient): ”Wieviel Prozent der Merkmalsträger teilen sich wieviel Prozent der Merkmalssumme?” • Absolute Konzentrationsmaße: ”Wieviele Merkmalsträger teilen sich wieviel Prozent der Merkmalssumme?” Die Konzentrationsrate gibt an, welcher Anteil von den g größten Merkmalsträgern gehalten wird: Konzentrationsrate CRg CRg = ∑n i=n−g+1 pi , wobei pi = ∑nxi j=1 xj den Merkmalsanteil der i-ten Einheit bezeichnet [email protected] 2–63 Herfindahl-Index H= ∑n 2 p i=1 i , wobei pi = ∑nxi j=1 xj den Merkmalsanteil der i-ten Einheit bezeichnet • Hmin = xn 1 n bei Nullkonzentration, x1 = x2 = · · · = • Hmax = 1 bei maximaler Konzentration, x1 = x2 = · · · = xn−1 = 0, xn > 0 • Wertebereich von H: 1 n ≤H≤1 Beispiel: Marktkonzentration H Stadt A 0.2 Stadt B 0.8125 Stadt C 0.225 [email protected] 2–64