Skript zur Vorlesung Statistik Dietrich Baumgarten «9. April 2009 Inhaltsverzeichnis 1 Grundlagen 1.1 Die zwei Begriffe der Statistik . . . . . . . . . . . . . 1.2 Gliederung einer statistischen Erhebung . . . . . . . 1.3 Fragebögen . . . . . . . . . . . . . . . . . . . . . . . 1.4 Statistische Einheit, Grundgesamtheit und Merkmale 1.5 Messen und Skalenniveaus . . . . . . . . . . . . . . . 1.6 Mehrfachfragen . . . . . . . . . . . . . . . . . . . . . 1.7 Die Datenmatrix . . . . . . . . . . . . . . . . . . . . 1.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 8 8 9 11 11 12 2 Univariate Analyse 2.1 Darstellung univariater Datensätze . . . . 2.2 Darstellung eines qualitativen Merkmals . 2.2.1 Häufigkeitstabellen . . . . . . . . . 2.2.2 Grafische Darstellung . . . . . . . . 2.3 Darstellung ordinaler Merkmale . . . . . . 2.4 Darstellung quantitativer Merkmale . . . . 2.4.1 Diskrete Merkmale . . . . . . . . . 2.4.2 Empirische Verteilungsfunktion . . 2.4.3 Grafische Darstellung . . . . . . . . 2.5 Stetige Merkmale . . . . . . . . . . . . . . 2.5.1 Histogramme . . . . . . . . . . . . 2.5.2 Verteilungsfunktion . . . . . . . . . 2.6 Die Lorenz-Kurve . . . . . . . . . . . . . . 2.6.1 Der Gini-Koeffizient . . . . . . . . 2.6.2 Der normierte Gini-Koeffizient . . . 2.6.3 Lorenz-Kurve bei klassierten Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 16 16 17 18 19 20 21 21 22 23 24 25 26 27 3 Maßzahlen einer Verteilung 3.1 Modus . . . . . . . . . . . . . . . . . . . . 3.2 Median . . . . . . . . . . . . . . . . . . . . 3.2.1 Median aus Häufigkeitstabelle . . . 3.2.2 Median bei klassierten Daten . . . 3.2.3 Eigenschaften des Medians . . . . . 3.3 Das arithmetische Mittel . . . . . . . . . . 3.4 arithmetisches Mittel bei klassierten Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 30 31 31 32 33 33 34 3 Inhaltsverzeichnis 3.5 3.6 Eigenschaften des arithmetischen Mittels . . Quantile . . . . . . . . . . . . . . . . . . . . 3.6.1 Quantile bei klassierten Daten . . . . 3.7 Maßzahlen für die Variabilität . . . . . . . . 3.7.1 Mittlere absolute Abstände . . . . . 3.7.2 Die Varianz . . . . . . . . . . . . . . 3.7.3 Stichprobenvarianz . . . . . . . . . . 3.7.4 Die Standardabweichung . . . . . . . 3.7.5 Andere Berechnungsformeln . . . . . 3.7.6 Klassizierte Daten . . . . . . . . . . 3.8 Transformationseigenschaften der Maßzahlen 3.9 Der Variationskoeffizient . . . . . . . . . . . 3.10 Aufgaben . . . . . . . . . . . . . . . . . . . 3.11 Probe-Klausur . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 34 36 37 37 38 38 39 39 39 40 41 42 46 Abbildungsverzeichnis 2.1 2.2 2.3 2.4 2.5 Torten- und Säulendiagramm . . . . . Stabdiagramm und Verteilungsfunktion Histogramm . . . . . . . . . . . . . . . Lorenz-Kurve . . . . . . . . . . . . . . Arbeitsblatt für Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 22 24 25 28 3.1 3.2 3.3 3.4 Häufigkeitstabelle des Zigarettenkonsums . . . . . . . . . . . . . Stabdiagramm und Verteilungsfunktion des Zigarettenkonsums. Häufigkeitstabelle und Histogramm sowie Verteilungsfunktion. . Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 49 50 5 Tabellenverzeichnis 6 1.1 1.2 1.3 Merkmale von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . Eine Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelleüber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 12 12 2.1 2.2 2.3 2.4 2.5 2.6 2.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gewer. . . . . . . . . . 16 17 18 19 20 23 2.8 Häufigkeitstabellen qualitativer Merkmale . . . . . . . . . . . . Wahlverhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beispiel einer Häufigkeitstabelle . . . . . . . . . . . . . . . . . . Häufigkeitstabelle des Merkmals »Anzahl der Geschwister« . . . Häufigkeitstabelle eines stetigen Merkmals . . . . . . . . . . . . Verteilung der Beschäftigten auf Arbeitsstätten im Produzierten be. BRD 1970 . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 Notenverteilung Damen . . . . . . . . . . . . . Notenverteilung Herren . . . . . . . . . . . . . Häufigkeitstabelle eines stetigen Merkmals . . Häufigkeitstabelle eines stetigen Merkmals . . Häufigkeitstabelle eines stetigen Merkmals . . Zinsen und Preisanstiegsraten in der EU 1991 Notenverteilung der Teilnehmer . . . . . . . . Gewaltfilme . . . . . . . . . . . . . . . . . . . Studiendauer von 75 Studenten in Semester . Größe von Haushalten, BRD 1970 . . . . . . . Fiktive Einkommen . . . . . . . . . . . . . . . Fiktive Einkommen . . . . . . . . . . . . . . . Einkommensverteilung BRD 1970 bis 1993 . . Fiktive Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 32 32 36 40 42 43 43 44 44 45 45 46 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 1 Grundlagen Blah. 1.1 Die zwei Begriffe der Statistik In der Umgangssprache hat das Wort »Statistik« seinen Platz an zweierlei Orten gefunden: Zunächst kann damit eine Zusammenstellung von Zahlen oder Daten gemeint sein, wie z.B. die: • Bevölkerungsstatistik • Personalstatistik • Sozialversicherungsstatistik Des weiteren umfasst der Begriff »Statistik« die Gesamtheit aller Methoden zur Untersuchung von Massenerscheinungen. Es können z.B. untersucht werden: • Veränderungen des Heiratsmarktes • Regionale Variation der Scheidungsraten • Veränderungen der Haushaltsstruktur 1.2 Gliederung einer statistischen Erhebung Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.B. die Wahlberechtigten zur Bundestagswahl 2009, bilden die so genannte Grundgesamtheit. Bei einer Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine so genannte Stichprobe. Die richtige Auswahl der Stichprobe hat große Bedeutung für die Übertragung der gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel der Bundestagswahl muss eine Teilerhebung alle gesellschaftlichen Strömungen der wahlberechtigten Bevölkerung widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten Kriterien aus aussuchen, oder aber die Auswahl dem Zufall überlassen. Eine hinreichend große Zufallsstichprobe wird in der Regel durchaus repräsentativ für die Grundgesamtheit sein. Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der Datenerhebung. Man kann Daten durch Beobachtung und durch Befragung gewinnen. 7 1 Grundlagen Daten können durch schriftliche oder mündliche Befragung erhoben werden, wobei die mündliche Befragung persönlich oder über Telefon erfolgen kann. Die Auswahl sollte sich danach richten, was am besten für das Ziel der Untersuchung geeignet ist. Die erfassten Daten werden in der Regel in einer Datenbank erfasst und von geeigneten Programmen wie SAS oder SPSS ausgewertet und geeignet dargestellt, etwa in Form von Tabellen oder Diagrammen. In vielen Fällen reicht für die Erfassung, Auswertung und Darstellung schon EXCEL. Bei der Auswertung unterscheidet man zwischen schließender und beschreibender (deskriptiver) Statistik. Die schließende Statistik ist stark mathematisch orientiert und beschäftigt sich damit, welche Schlüsse von einer Stichprobe auf die Grundgesamtheit möglich sind. Im Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die Stimmanteile der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe erfolgt meist in der Form von so genannten Konfidenzintervallen in der Form: mit eine Wahrscheinlichkeit von 99% wird die CDU einen Stimmanteil zwischen 33% und 36% haben. Die beschreibende Statistik stellt die erhobenen Daten in geeigneter Form dar und liefert Informationsverdichtung durch spezielle Kennzahlen wie Median und Mittelwert sowie Standardabweichung. 1.3 Fragebögen Die Erhebung basiert in der Regel Fragen, die dem Umtersuchungsziel angepasst sind. Die einzelnen Fragen werden zu einem Fragebogen zusammengefasst. Ein Dozent befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Größe, Gewicht, Anzahl der Geschwister und Schulbildung, sowie nach dem Rauchverhalten und den Hobbies, wobei hier die vier Mehrfachantworten »Sport«, »Sprachen«, »Reisen« und »andere Hobbies« zugelassen sind. Außerdem soll jeder Teilnehmer die Mensa bewerten. Man unterscheidet offene und geschlossene Fragen. Bei geschlossenen Fragen muss eine Antwort aus einer Liste ausgewählt werden, das trifft auf die Fragen nach Geschlecht, Alter, Gewicht und Größe zu. Die Bewertung der Mensa ist eine offene Frage, die sicherlich zu sehr unterschiedlichen Antworten führt und deshalb statistisch kaum auszuwerten ist. Die Befragung nach dem Hobby ist eine Mehrfachfrage, da jede Antwortmöglichkeit angekreuzt werden kann. Jede Antwortmöglichkeit einer Mehrfachfrage wird als Frage für sich behandelt. 1.4 Statistische Einheit, Grundgesamtheit und Merkmale Zur Beschreibung statistischer Erhebungen werden folgende Begriffe benutzt: • Statistische Einheit oder Merkmalsträger: Dieser Begriff beinhaltet Personen oder Gegenstände, aber auch Ereignisse wie Geburten oder Sterbefälle. 8 1.5 Messen und Skalenniveaus • Grundgesamtheit. So wird die Menge aller der statistischen Einheiten genannt. • Bestandsmasse: Besitzen die statistischen Einheiten der Grundgesamtheit eine längeren Bestand, so spricht man von einer Bestandsmasse. Die Erfassung erfolgt zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer Stadt sind typische Bestandsmassen, eine Befragung erfasst den Zustand in einem bestimmten Augenblick. • Bewegungsmasse oder Ereignismasse: Die statistische Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum hinweg erfasst. • Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter oder Haarfarbe bei Personen, werden Merkmale genannt. • Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die beiden Ausprägungen weiblich und männlich und das Alter ist eine natürliche Zahl. Je nach Fragestellung können Personen, Länder, Wertpapiere oder Krankheiten statistische Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die statistischen Einheiten oft auch als Merkmalsträger bezeichnet werden. Weitere Beispiele für Merkmale sind die Konfession mit den Ausprägungen wie »RK (römisch katholisch)«, »EKD (evangelische Kirche Deutschlands)« oder »andere«. Bei einer Wohnung gibt es Merkmale wie Anzahl der Zimmer, Größe im qm, Balkon usw. mit Ausprägungen wie »4«, »80 qm« und »keiner«. Merkmale werden mit großen lateinischen Buchstaben wie etwa X bezeichnet, die zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index verwendet wird, also x1 , x2 , x3 , . . ., xn . 1.5 Messen und Skalenniveaus Merkmale unterscheiden sich in zwei große Kategorien, qualitatativ und quantitativ. Qualitative Merkmale können nur benannt werden, die Zuordnung eines Zahlenwerts ist nicht sinnvoll. Dies trifft auf Merkmale wie Geschlecht mit den Ausprägungen »w« und »m« und auf Konfession mit den erwähnten Ausprägungen »RK«, »EKD« und »andere« zu. Bei der Erfassung werden qualitative Merkmalsausprägungen meistens durch Zahlwerte kodiert, etwa 0 für »w« und 1 für »m«, das ändert aber nichts an der prinzipiell zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur benennen kann, werden diese Art der qualitativen Merkmale nominal genannt. Man spricht auch von einem nominalskalierten Merkmal. 9 1 Grundlagen Es gibt aber noch eine zweite Sorte von qualitativen Merkmalen, die so genannten ordinalen. Auch hier sind Zahlenwerte nicht sinnvoll, aber die Ausprägungen lassen sich nach einer Skala ordnen. Das trifft z.B. auf Abschlussnoten zu, sehr gut ist besser als gut, gut besser als befriedigend, usw. Man spricht von einem ordinalskalierten oder kurz ordinalem Merkmal. Die Ausprägungen von quantitativen Merkmalen sind Zahlenwerte, etwa das Merkmal Alter oder das Merkmal Anzahl der Geschwister einer Person. Sind bei einem Merkmal die Ausprägungen Zahlen, bei denen Abstände und Verhältnisse sinnvoll interpretiert werden können, so spricht man von einem metrischen Merkmal. Auch die Größe und Gewicht sind metrische Merkmale, unterscheiden sich aber vom Alter oder der Anzahl der Geschwister in einer wesentlichen Eigenschaft. Während das Alter nur endlich viele diskrete Werte annehmen kann, liegen die Werte der Körpergröße stetig über ein ganzes Intervall verteilt. Die eine Sorte metrischer Merkmale heißt daher diskret, die andere stetig. Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen, danach entscheiden ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es ordinal genannt, sonst nominal. Bei einem quantitativen Merkmal ist zu untersuchen ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal als kategoriell bezeichnet. Wir unterscheiden also metrische Merkmale zwischen diskret und stetig und qualitative Merkmale zwischen nominal und ordinal. Die folgenden Merkmale sind diskret und metrisch: Zahl der Geschwister einer Person, Einwohnerzahl von Köln, Anzahl von Studenten einer Hochschule. Die bei der Bundestagswahl antretenen Parteien bilden ein nominales Merkmal, die von den einzelnen Parteien erzielten Abgeordnetensitze dagegen ein diskretes metrisches Merkmal. Körpergröße und Gewicht Alter einer Person sind stetige metrische Merkmale, deren mögliche Werte z.B. 1,80 m und 78 kg sein können. Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantifiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während bei ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit der Berechnung von Mittelwerten, aber auch anderer statistischer Maßzahlen. Mittelwerte sowie andere statistische Maßzahlen und deren Anwendbarkeit bei den drei Merkmalskategorien werden noch ausführlich behandelt. Die folgende Tabelle fasst die diskutierten Kategorien von Merkmalen zusammen, wobei bei metrischen Merkmalen nicht zwischen stetig und diskret unterschieden wird. 10 1.6 Mehrfachfragen Tabelle 1.1: Merkmale von Merkmalen MerkmalsKategorie Eigenschaften der Ausprägungen Beispiele zulässige Lageparameter Nominale Merkmale Ordinale Merkmale Metrische Merkmale keine Rangfolge natürliche Rangfolge reelle Zahlenwerte Wohnort Noten Temperatur Modus Modus und Median alle Mittelwerte 1.6 Mehrfachfragen Bei der Befragung nach dem Hobby kann mehr als eine der vorgegebenen Antwortmöglichkeiten angekreuzt werden. Man spricht von Mehrfachantworten. In diesem Fall wird jeder möglichen Antwort ein eigenes Merkmal zugeordnet. Die einzelnen Fragen sind dann so zu stellen, dass man immer eine Antwort wie etwa ja und nein erhält: Bei der Mehrfachfrage nach dem Hobby werden etwa folgende Antworten vorgegeben : Sport J/N [ ] Reisen J/N [ ] Andere J/N [ ] Dann gibt es die Merkmale »Sport«, »Reisen« und »Andere« mit den Merkmalsausprägungen »ja« und »nein«. 1.7 Die Datenmatrix In den Spalten stehen die Merkmale, die sich auf die jeweiligen Personen bzw. statistischen Einheiten beziehen, die in den Zeilen (unter der Spalte ID) ihren Platz gefunden haben. Es ist im allgemeinen so, dass die Rohdaten aus einer Befragung codiert werden, d.h. anstatt für Person unter Sex »weiblich« zu notieren wird eine 0 geschrieben, für »männlich« entsprechend eine 1, weil dies für die EDV leichter zu erfassen ist. In der folgenden Datenmatrix gibt es das nominale Merkmal U für das Geschlecht, das ordinale Merkmal Z für den Schulabschluss und das metrische Merkmal V für das Alter. Die nominalen Merkmale der Hobbies werden mit Y1 , Y2 und Y3 bezeichnet, wobei der gemeinsame Buchstabe »Y« darauf hinweist, dass es sich um Merkmale einer Mehrfachfrage handelt. Ich habe hier die dritte Antwort der Mehrfachfrage weggelassen. 11 1 Grundlagen Tabelle 1.2: Eine Datenmatrix ID X (Sex) 1 2 3 4 5 V (Alter) 1 männlich 27 0 weiblich 54 1 34 0 16 0 15 Y1 (Sport) Y2 (Reisen) Z (Schulabschluss) 1 Ja 1 1 0 Nein 0 1 Ja 1 0 Nein 1 1 3 3 4 2 1 Mittlere Reife Abitur Hauptschule nichts 1.8 Aufgaben Aufgabe 1. (Script hd) Piefkes in Austria. Aus der Statistik des Landes Tirol ergibt sich, dass sich jedes Jahr viele Piefkes - Fachbegriff für den typischen deutschen Austria-Urlauber - beiderlei Geschlechts und jeglicher Bundesländer in den österreichischen Alpen verirren oder in Bergnot geraten und von Bergwachten gerettet werden müssen. Man trage die Begriffe Grundgesamtheit, statistische Einheit, Merkmal, Merkmalsausprägung, Merkmalswert korrekt in die folgende Tabelle ein: Tabelle 1.3: Tabelleüber Bayer Piefkes Geschlecht verirrter Piefke weiblich Zahl verirrter Piefkes Aufgabe 2. ((HH-Script) Zur Verbesserung der Personalplanung wird ein Mitarbeiter beauftragt, Daten über alle Beschäftigten zusammenzutragen, die sich unter anderem auf das Alter, das Geschlecht, die Stellung im Unternehmen, die Dauer der Unternehmenszugehörigkeit und das Gehalt beziehen sollen. a) Was ist die statistische Einheit der Untersuchung? b) Was ist die statistische Gesamtheit (Masse, Population)? c) Welcher Art sind die oben erwähnten Merkmale? d) Welches sind mögliche Ausprägungen dieser Merkmale? Aufgabe 3. (HH-Script) Um die Auswirkungen der kommenden Tarifabschlüsse auf die eigenen Lohn- und Gehaltszahlungen abschätzen zu können, führt die Firma Nagel, Holz & Co. bei 100 ihrer 500 Beschäftigten eine Erhebung durch, bei der Alter, Tarifklasse, außertarifliche Zahlungen und Geschlecht festgestellt werden. a) Geben Sie die Grundgesamtheit der Erhebung an. b) Welcher Art sind die angeführten Merkmale? 12 1.8 Aufgaben c) Geben Sie mögliche Merkmalsausprägungen dieser Merkmale an. Aufgabe 5. (HH-Script) Bei einer im Jahre 1800 weltweit durchgeführten Erhebung erhielt man u.a. folgende Angaben (vergl. Schlittgen) Carl Friedrich Gauß, *1777, ledig, Stipendiat Johann Wolfgang von Goethe, *1749, ledig, Theaterdirektor Pierre Simon Laplace, *1749, verheiratet, Senator Immanuel Kant, *1724 , ledig, Professor Napoleon Bonaparte, *1769, verheiratet, Soldat a) Geben Sie die Merkmale an, die bei dieser Erhebung untersucht worden sind. b) Welcher Art sind diese Merkmale? 13 2 Univariate Analyse Statistik beschäftigt sich mit Populationen. In der beschreibenden Statistik betrachten wir alle Merkmalsträger einer Population und stellen die Verteilung eines oder mehrerer Merkmale dar. Die Verteilung eines Merkmals zeigt, wie sich die Merkmalsträger auf die einzelnen Merkmalsausprägungen verteilen. Man zählt also, wie oft die Merkmalsausprägungen in der Population vorkommen. Die Statistik wird deshalb auch die Lehre von den Verteilungen genannt. In diesem Kapitel werden wir jeweils nur ein Merkmal betrachten. Man spricht auch von univariater Datenanalyse. 2.1 Darstellung univariater Datensätze Bei jeder Datenanalyse will man den Datensatz übersichtlich darstellen. Besteht dieser aus wenig Beobachtungen, so reicht es aus, diese aufzuzählen. Bei vielen oder sehr vielen Beobachtungen liefert die Aufzählung keinen Überblick über die Struktur des Datensatzes. Hier sollte man eine Tabelle oder eine Grafik erstellen. Wir werden auf den folgenden Seiten lernen, wie man dabei vorzugehen hat. 2.2 Darstellung eines qualitativen Merkmals Qualitative Merkmale zeichnen sich dadurch aus, dass die Merkmalsausprägungen Kategorien sind. Dabei sind die Kategorien bei einem nominalskalierten Merkmal ungeordnet und bei einem ordinalskalierten Merkmal geordnet. Nominal- und ordinalskalierte Merkmale werden bis auf einen Ausnahme auf die gleiche Art und Weise dargestellt. Bei ordinalskalierten Merkmalen erlaubt die Ordnungsstruktur eine weitere Darstellung. Wir betrachten ein qualitatives Merkmal mit n Merkmalsausprägungen, die wir mit x1 , x2 , . . ., xn bezeichnen. Bei der Datenanalyse interessiert uns, wie viele Merkmalsträger die einzelnen Merkmalsausprägungen aufweisen. Wir sprechen von der absoluten Häufigkeit n(xi ) der Merkmalsausprägung xi , i = 1, . . . , n. Für n(xi ) schreiben wir kurz ni . Ob der Wert einer absoluten Häufigkeit klein oder groß ist, hängt von der Anzahl n der Merkmalsträger ab. Sind 8 Personen von 10 Personen weiblich, so ist das viel; sind hingegen 8 Personen von 100 Personen weiblich, so ist dies wenig. Wir beziehen die absolute Häufigkeit einer Merkmalsausprägung auf die Anzahl der Merkmalsträger und erhalten die relative Häufigkeit dieser Merkmalsausprägung. relative Häufigkeit = 14 absolute Häufigkeit Anzahl Merkmalsträger 2.2 Darstellung eines qualitativen Merkmals Wir bezeichnen die relative Häufigkeit der i-ten Merkmalsausprägung mit f (xi ). Hierfür schreiben wir kurz fi . Es gilt also ni fi = n Die relative Häufigkeit einer Merkmalsausprägung ist genau dann gleich 0, wenn sie kein Merkmalsträger aufweist; sie ist hingegen genau dann gleich 1, wenn sie alle Merkmalsträger besitzen. Da dies die beiden Extremfälle sind, gilt für i = 1, . . . , k: 0 ≤ fi ≤ 1. Ausderdem gilt f1 + f2 + · · · + fk = n X fi = 1 i=1 Multiplizieren wir die relativen Häufigkeiten mit 100, so erhalten wir Prozentangaben. Die Summe aller Prozentangaben ergibt den Wert 100. Beispiel: Das Merkmal X nimmt die Ausprägung »j« an, wenn eine Person den Satz Zu Risiken und Nebenwirkungen richtig fortsetzen kann. Ansonsten nimmt es die Ausprägung »n« an. Bei 25 Personen ergab sich folgende so genannte Urliste nnjnnjnnjnjnjjnnnnnnjjnjj In dieser Form können wir die Struktur nicht erkennen. Wir bestimmen deshalb die relativen Häufigkeiten. Hierzu erstellen wir eine Strichliste: j: ||||| ||||| n: ||||| ||||| ||||| Es gilt also n1 = 10 und n2 = 15. Die relative Häufigkeit der Merkmalsausprägungen sind »j« ist f1 = 10/25 = 0, 4 und die relative Häufigkeit der Merkmalsausprägung »n« gleich f2 = 15/25 = 0, 6. Wir haben im letzten Beispiel ein qualitatives Merkmal mit zwei Merkmalsausprägungen betrachtet. Man spricht auch von einem binären oder dichotomen Merkmal. Bei einem binären Merkmal muss man nur die relative Häufigkeit einer der beiden Merkmalsausprägungen angeben, da sich die zweite dadurch ergibt, dass die Summe beider relativer Häufigkeiten gleich 1 ist. Bei einem binären Merkmal ist es also nicht nötig, eine Tabelle oder Grafik zu erstellen. Hier reicht es völlig aus, die relative Häufigkeit in Form einer Prozentangabe in den Fließtext zu integrieren. Man würde das Ergebnis der Befragung also folgendermaßen zusammenfassen: 15 2 Univariate Analyse Nur 40 Prozent der Teilnehmer konnten den Satz richtig vollenden. Oft werden die Häufigkeiten von Merkmalen mit mehr als zwei Merkmalsausprägungen in Satzform angegeben, etwa so: Bei der Bundestagswahl 2002 erhielt die CDU/CSU 38.5, die SPD 38.5, die FDP 7.4 und die GRÜNEN 8.5 Prozent der Zweitstimmen. 2.2.1 Häufigkeitstabellen In der Regel wird man die Tabelle nicht in den Text integrieren. Man wird eine Häufigkeitstabelle erstellen. Der allgemeine Aufbau einer Häufigkeitstabelle ist in Tabelle 2.1 zu finden. Tabelle 2.1: Häufigkeitstabellen qualitativer Merkmale Merkmalsausprägungen absolute Häufigkeit relative Häufigkeit x1 x2 .. . xi .. . xn n1 n2 f1 f2 ni fi nn fk Da es schwierig ist, Nachkommastellen zu vergleichen, sollte man für relative Häufigkeiten Prozentangaben verwenden. Beispiel: Im Wintersemester 1996/1997 wurden die Erstsemester gefragt, welche Partei sie wählen würden, wenn am nächsten Sonntag Bundestagswahl wäre. Tabelle 2.2 enthält die Häufigkeitsverteilung des Wahlverhaltens der Studentinnen. Um eine einheitliche Darstellung zu erhalten, wurde auch bei Zahlen mit zwei Dezimalstellen vor dem Dezimalpunkt eine Stelle nach dem Dezimalpunkt angegeben. 2.2.2 Grafische Darstellung Da ein Bild mehr als 1000 Worte oder Zahlen sagt, stellt man die in einer Häufigkeitstabelle enthaltene Information grafisch dar. Dabei ordnet man den Häufigkeiten Längen von Strecken oder Flächeninhalte zu, die proportional zu ihnen sind. Hierfür gibt es eine Reihe von Möglichkeiten. Aus Zeitungen und Zeitschriften kennt man das Kreisdiagramm, das auch Tortendiagramm genannt wird. Bei diesem werden die absoluten 16 2.3 Darstellung ordinaler Merkmale Tabelle 2.2: Wahlverhalten Wahl absolute Häufigkeit relative Häufigkeit (in Prozent) CDU SPD FDP 13 10 3 20 15,4 4,6 GRÜNE keine weiss nicht 11 5 23 16,9 7,7 35,4 oder relativen Häufigkeiten durch Flächen von Kreissegmenten dargestellt. Dabei ist die einer Merkmalsausprägung zugeordnete Fläche proportional zur relativen Häufigkeit. Bei einem Stabdiagramm und einem Säulendiagramm stehen in einem kartesischen Koordinatensystem auf der Abszisse die Merkmalsausprägungen und auf der Ordinate die relativen oder auch absoluten Häufigkeiten. Wird über jeder Merkmalsausprägung eine senkrechte Linie abgetragen, deren Länge der absoluten oder relativen Häufigkeit der Merkmalsausprägung entspricht, so spricht man von einem Stabdiagramm. Zeichnet man anstatt der Linie eine Säule, so spricht man vom Säulendiagramm. Bei Stab- und Säulendiagrammen kann man die Häufigkeiten sehr gut vergleichen. Außerdem kann man sie ablesen. Wir verwenden im Folgenden Säulen- und Stabdiagramme, fast nie Tortendiagramme. Warum zeigt die Abbildung 2.1, wo im direkten Vergleich die Überlegenheit der Säulendiagramme offensichtlich wird. Abbildung 2.1: Torten- und Säulendiagramm 2.3 Darstellung ordinaler Merkmale Schauen wir uns ordinalskalierte Merkmale an. Bei diesen lassen sich die Merkmalsausprägungen x1 , x2 , . . . , xn der Größe nach ordnen. Deshalb können wir die absoluten 17 2 Univariate Analyse und relativen Häufigkeiten kumulieren. Das heißt, dass wir die Summe der ersten beiden absoluten beziehungsweise relativen Häufigkeiten bilden, dann die Summe der ersten drei und so weiter. Wir erhalten die kumulierten absoluten Häufigkeiten und kumulierten relativen Häufigkeiten. Sind x1 , x2 , . . . , xk die geordneten Merkmalsausprägungen, so bestimmen wir die i-te kumulierte absolute Häufigkeit durch Ni = n1 + n2 + · · · + ni und die i-te kumulierte relative Häufigkeit durch Fi = f1 + f2 + · · · + fi Wir ergänzen die Häufigkeitstabelle eines ordinalen Merkmals um eine Spalte, die die kumulierten relativen Häufigkeiten enthält. Der allgemeine Aufbau einer Häufigkeitstabelle eines ordinalskalierten Merkmals ist in Tabelle 2.3 zu finden. Tabelle 2.3: Merkmalsaus- Absolute H. prägungen Kumulierte absolute H. Relative H. Kumulierte relative H. x1 x2 usw xi usw xn n1 n2 N1 N2 f1 f2 F1 F2 ni Ni fi Fi nn Nn fn Fn Beispiel: Die Teilnehmer einer Weiterbildungsveranstaltung wurden gefragt, wie ihnen der Film Titanic gefallen hat. Da »sehr gut« besser als »gut« und »gut« besser als »mittelmäßig« ist, sind die Merkmalsausprägungen geordnet. Die Häufigkeitstabelle des Merkmals Bewertung steht in Tabelle 2.4. Den kumulierten relativen Häufigkeiten können wir unter anderem entnehmen, dass 88 Prozent der Teilnehmer den Film mindestens gut finden. Grafisch lassen sich ordinale Merkmale am besten durch ein Balkendiagramm darstellen, wobei die Merkmalsausprägungen geordnet auf der Abszisse aufgetragen werden und die Höhen der Säulen den relativen Häufigkeiten entsprechen. 2.4 Darstellung quantitativer Merkmale Die Merkmalsausprägungen quantitativer Merkmale sind Zahlen, mit denen man rechnen darf. Im Verhältnis zu qualitativen Merkmalen gibt es deshalb viel mehr Möglichkeiten, 18 2.4 Darstellung quantitativer Merkmale Tabelle 2.4: Beispiel einer Häufigkeitstabelle Bewertung Absolute H. Kumulierte absolute H. Relative H. Kumulierte relative H. sehr gut gut mittelmäßig 6 9 2 6 15 17 0, 35 0,53 0,12 0,35 0,88 1 die Verteilung quantitativer Merkmale darzustellen und zu beschreiben. Ausgangspunkt der Analyse quantitativer Merkmale ist die Urliste x1 , x2 , . . ., xn , wobei xi die Merkmalsausprägung des i-ten Merkmalsträgers ist.. Auch bei quantitativen Merkmalen bestimmen wir absolute Häufigkeiten. Bei diskreten Merkmalen gehen wir genauso vor wie bei ordinalskalierten Merkmalen, während die Natur stetiger Merkmale eine andere Vorgehensweise fordert. 2.4.1 Diskrete Merkmale Die Anzahl Ausprägungsmöglichkeiten diskreter Merkmale ist endlich oder abzählbar unendlich. In der Praxis fassen wir Merkmale als diskret auf, die wenig Merkmalsausprägungen besitzen. So ist etwa das Merkmal »Anzahl Geschwister« ein quantitatives Merkmal mit wenigen Merkmalsausprägungen, also ein diskretes Merkmal. Weitere Beispiele sind die merkmale Zimmer einer Wohnung oder Geschosse eines Gebäudes. Da die Urliste unübersichtlich ist, ordnen wir den Datensatz der Größe nach und ermitteln durch Auszählen die absoluten Häufigkeiten. Die geordneten Werte und ihre Häufigkeiten werden wie bei ordinalen Merkmalen beschrieben in einer Häufigkeitstabelle erfasst. Beispiel: Wir betrachten das Merkmal »Anzahl Geschwister«. Die Urliste sieht folgendermaßen aus: 1 2 1 3 0 2 2 1 1 1 1 1 1 2 1 1 0 1 2 1 Sie ist sehr unübersichtlich. Deshalb bilden wir den geordneten Datensatz. Dieser lautet: 0 0 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 An diesem können wir sofort den kleinsten Wert 0 und den größten Wert 3 erkennen. Daraus stellen wir in der Häufigkeitstabelle zusammen, bei der wir noch die kumulierten relativen Häufigkeiten berücksichtigen. Hier können wir schon sehen, dass mehr als die Hälfte der Studierenden ein Geschwister hat. 19 2 Univariate Analyse Tabelle 2.5: Häufigkeitstabelle des Merkmals »Anzahl der Geschwister« Anzahl Ge- Absolute schwister Häufigkeit Kumulierte absolute Häufigkeit Relative Häufigkeit Kumulierte relative Häufigkeit 0 1 2 3 2 14 19 20 0,1 0,6 0,25 0,05 0,1 0,7 0,95 1 2 12 5 1 2.4.2 Empirische Verteilungsfunktion Quelle: Die empirische Verteilungsfunktion beantwortet die Frage, welcher Anteil der Daten ist kleiner oder gleich einem vorgegebenen Wert x. Vorausgesetzt wird, dass die Werte xi der Größe nach angeordnet sind, wir benötigen also mindestens ordinalskalierte Daten. Dann wird die empirische Verteilungsfunktion (kumulierte relative Häufigkeitsverteilung) eines Merkmals X wie folgt definiert: Bestimme für jede reelle Zahl x den Anteil der Datenwerte, die kleiner oder gleich x sind. Also ist die Funktion F (x) = Anteil der Werte xi mit xi ≤ x die empirische Verteilungsfunktion oder kumulierte relative Häufigkeitsverteilung des Merkmals X mit den beobachteten Merkmalsausprägungen xi . Sie hat folgende Eigenschaften: • F ist eine monoton wachsende Treppenfunktion, die an den Stellen xi um die entsprechende relative Häufigkeit fi nach oben springt. • F (x) = 0 für alle x < x1 und F (x) = 1 für alle x ≥ xn Mit der empirischen Verteilungsfunktion kann man relative Häufigkeiten für Intervalle bestimmen. So erhält man den Anteil f (X > x) der Merkmalsträger, deren Merkmalsausprägung größer als der Wert x ist, durch: f (X > x) = 1 − F (x) Den Anteil f (a < X ≤ b) der Merkmalsträger, deren Merkmalsausprägung im Intervall (a, b] liegt, bestimmt man durch f (a < X ≤ b) = F (b) − F (a) 20 2.5 Stetige Merkmale Ist das Merkmal X diskret und metrisch, so ergibt sich die empirische Verteilungsfunktion sofort aus der Häufigkeitstabelle des Merkmals. 0, wenn x < x1 ; F (x) = Fi , wenn xi ≤ x < xi+1 ; 1, wenn x ≥ xk . Vorausgesetzt wir dabei die Anordnung der Werte der Größe nach, d.h. x1 < x2 < . . . < xi < . . . < xk . Die empirische Verteilungsfunktion bei diskreten kardinalen Merkmalen hat also die Form einer Treppenfunktion, wobei die Sprünge immer an den Ausprägungen xi erfolgen, vgl. dazu die Abbildung 2.2. Die Höhe der Sprünge an den Sprungstellen ist gleich den relativen Häufigkeiten der jeweiligen Merkmalsausprägungen. Wir schauen uns die Häufigkeitstabelle des Merkmals »Anzahl Geschwister« in Tabelle 2.5 an. Die empirische Verteilungsfunktion des Merkmals Anzahl Geschwister sieht folgendermaßen aus: 0, wenn x < 0; 0, 1, wenn 0 ≤ x < 1; F (x) = 0, 7, wenn 1 ≤ x < 2; 0, 95, wenn 2 ≤ x < 3; 1, wenn x ≥ 3. Der Anteil der Studierenden mit mehr als zwei Geschwistern ist also f (X > 2) = 1 − F (2) = 1 − 0, 95 = 0, 05 2.4.3 Grafische Darstellung Diskrete kardinale Merkmale lassen sich ebenfalls durch eine Säulendiagramm darstellen. Da die Merkmalswerte xi Zahlen sind, ist ein Stabdiagramm sinnvoller. Bei jedem Wert xi trägt man parallel zur Ordinatenachse eine Strecke ab, deren Länge der relativen Häufigkeite ni entspricht. Bei n Merkmalsausprägungen sind also die n Strecken (xi , 0)(xi , fi ) aufzutragen. Für die empirische Verteilungsfunktion F (x) müssen dagegen die waagrechte Strecken (xi , Fi )(xi+1 , Fi+1 eingezeichnet werden. Vor dem kleinsten Wert x1 ist die Funktion konstant 0, nach dem größten Wert xn konstant 1. In der Abbildung 2.2 ist links das Stabdiagramm zur Häufigkeitstabelle 2.4 abgebildet, rechts daneben die empirische Verteilungsfunktion. 2.5 Stetige Merkmale Stetige Merkmale können theoretisch alle Werte aus einem Intervall annehmen. In der Praxis behandelt man quantitative Merkmale als stetig, die sehr viele Merkmalsausprägungen besitzen. Wie bei bei einem diskreten Merkmal bildet die Urliste x1 , . . . , xn bei 21 2 Univariate Analyse Abbildung 2.2: Stabdiagramm und Verteilungsfunktion einem stetigen Merkmal den Ausgangspunkt der Analyse. Die folgende Urliste gibt Auskunft über die Verteilung der Körpergröße von 20 Studentinnen und Studenten: 1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83 1,74, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83 Ein stetiges Merkmal wie die Körpergröße besitzt sehr viele Merkmalsausprägungen. Eine Häufigkeitstabelle wie im Fall eines diskreten Merkmals wäre sehr unübersichtlich. Aus diesem Grunde bildet man so genannte Klassen. Man fasst also mehrere Werte zusammen. Wir bezeichnen die Untergrenze der i-ten Klasse mit xi−1 und die Obergrenze mit xi . Bis auf die erste Klasse gehört die Obergrenze zur Klasse, die Untergrenze hingegen nicht. Die erste Klasse ist also [x0 , x1 ], während die i-te Klasse für i > 1 von der Form (xi−1 , xi ] ist. Man spricht von einer links offenen und rechts abgeschlossenen Klasse. Manchmal werden links abgeschlossene und rechts offene Klassen verwendet. Wir werden in der Regel aber links offene und rechts abgeschlossene Klassen betrachten. Wir bestimmen wie üblich für i = 1, 2, . . . , k die absolute Häufigkeit ni und die relative Häufigkeit fi sowie die kumulierte Häufigkeit der i-ten Klasse. Diese Werte stellen wir in der Häufigkeitstabelle zusammen. Der allgemeine Aufbau der Häufigkeitstabelle ist beispielhaft in Tabelle 2.6 zu finden. Ich werde die Anzahl aller Daten immer mit n und die Anzahl aller Klassen mit k bezeichnen. In Beispiel der Körpergrößen ist somit n = 20 und k = 5. Ich habe zu jeder Klasse die Breite angegeben, sie ergibt sich als Differenz von Obergrenze (OG) und Untergrenze (OG). Die individuellen Werte des Merkmals Körpergröße werden in k = 5 Größenklassen eingeteilt. Die Breiten der einzelnen Klassen sind unterschiedlich. 2.5.1 Histogramme Graphisch stellen wir die relativen Häufigkeiten mit einem Histogramm dar. Dabei tragen wir in einem rechtwinkligen Koordiantensystem über jeder Klasse ein Rechteck ab, dessen Fläche gleich der relativen Häufigkeit der Klasse ist. Um dies zu erreichen, 22 2.5 Stetige Merkmale Tabelle 2.6: Häufigkeitstabelle eines stetigen Merkmals Klasse UG OG ∆i ni fi fˆi Fi 1 2 3 4 5 1,50 1,65 1,75 1,85 1,95 1,65 1,75 1,85 1,95 2,10 0,15 0,10 0,10 0,10 0,15 2 6 7 4 1 0,10 0,30 0,35 0,20 0,05 0,67 3,00 3,50 2,00 0,34 0,10 0,40 0,75 0,95 1,00 wählen wir als Höhe des Rechtecks den Quotienten fˆi = aus relativer Häufigkeit fi und Klassenbreite ∆i : Die zugehörige Funktion heißt empirische Dichtefunktion. fˆ : R → R mit ( fi , für xi−1 ≤ x < xi ∆i ˆ f (x) = 0, sonst. Im Beispiel der Körpergrößen hat die dritte Klasse die Breite von 0,1 und die relative Häufigkeit f3 = 7/20, somit ist fˆi = 7/(20·0, 1) = 3, 5. Genauso ergeben sich die anderen Werte der Spalte fˆi . Die empirische Dichtefunktion lautet somit: 0, 667, für 1, 50 ≤ x < 1, 65 3, 0, für 1, 65 ≤ x < 1, 75 3, 5, für 1, 75 ≤ x < 1, 85 fˆ(x) = 2, 0, für 1, 85 ≤ x < 1, 95 0, 334, für 1, 95 ≤ x < 2, 10 0, sonst. Die Abbildung 2.3 zeigt das zugehörige Histogramm. 2.5.2 Verteilungsfunktion In der Abbildung 2.3 befindet sich noch eine zweite Funktion, und zwar die zugehörige Verteilungsfunktion, deren Werte sich auf die rechte Ordinate beziehen. Bei einem diskreten Merkmal gibt die empirische Verteilungsfunktion F (x) den Anteil der Merkmalsträger an, deren Merkmalsausprägung höchstens x beträgt. Wir wollen diese nun für ein stetiges Merkmal bestimmen. Wir nennen sie in Anlehnung an Burkschat, Cramer und Kamps (2004) approximierende empirische Verteilungsfunktion F̂ (x). Den Wert der approximierenden empirischen Verteilungsfunktion an den Obergrenzen der Klassen erhält man durch Summation der relativen Häufigkeiten, also gilt ( Fi , für i = 1, 2, . . . , k F̂ (xi ) = 0, für i = 0. 23 2 Univariate Analyse Abbildung 2.3: Histogramm wobei die xi die Klassengrenzen sind. Diese Werte sind in der Abbildung 2.3 markiert. Die Werte innerhalb der Klassen wird die empirische Verteilungsfunktion linear interpoliert, sie besteht also aus lauter zusammenhängenden Geradenstücken, einem so genannten Polygonzug. Somit gilt für x ≤ x0 . 0, Fi −Fi−1 F̂ (x) = Fi−1 + xi −xi−1 (x − xi−1 ) , für i = 1, 2, . . . , k 1, für x ≥ xk . Wegen fˆ(x) = F̂ 0 (x) = fˆ(x). fi ∆i = Fi −Fi−1 xi −xi−1 für xi−1 ≤ x < xi gilt außer an den Klassengrenzen 2.6 Die Lorenz-Kurve Die Lorenz-Kurve wurde 1905 von dem amerikanischen Statistiker Max Otto Lorenz zur grafischen Darstellung von statistischen Verteilungen und der Veranschaulichung des Ausmaßes an Konzentration bzw. Ungleichheit eingeführt. Sie wird insbesondere zur Analyse der Einkommensverteilung verwendet. Dabei werden die Einkommensbezieher nach der Höhe ihres Einkommens geordnet und die kumulierten Anteile der Einkommensempfänger auf der Abszisse und darüber auf der Ordinate die kumulierten Anteile am Gesamteinkommen abgetragen. Bei einer vollkommenen Gleichverteilung der Einkommen wäre die Lorenz-Kurve Winkelhalbierende. Je ungleicher Einkommen bzw. Vermögen in der Bevölkerung verteilt sind, desto stärker hängt die Lorenz-Kurve nach rechts unten durch. Betrachten wir ein fiktives Land, wo die ärmsten 30 Prozent der Bevölkerung über 10 Prozent des Gesamteinkommens verfügen und die nächsten 20 Prozent der Bevölkerung 24 2.6 Die Lorenz-Kurve auf weitere 15 Prozent des Gesamteinkommens kommen. Die nächsten 25 Prozent der Bevölkerung haben am Gesamteinkommen einen Anteil von 30 Prozent und die letzten 25 Prozent teilen sich die restlichen 45 Prozent. Werden die kumulierten Anteile der Bevölkerung mit Fi und die kumulierten Anteile am Einkommen mit Qi bezeichnet, so ergibt sich die Lorenz-Kurve als streckenweise Verbindung der Punkte (0, 0), (F1 , Q1 ), . . . , (Fn−1 , Qn−1 ), (1, 1). In unserem Fall sind also die Punkte (0, 0), (0, 3, 0, 1), (0, 5, 0, 25), (0, 75, 0, 55) und (1, 1) durch Strecken zu verbinden. Zur Veranschaulichung der Konzentration wird auch immer noch die Winkelhalbierende eingezeichnet. Je ungleicher Einkommen bzw. Vermögen in der Bevölkerung verteilt sind, desto stärker hängt die Lorenz-Kurve nach rechts unten durch. In der Abbil- Abbildung 2.4: Lorenz-Kurve dung 2.4 ist links die Lorenz-Kurve des Beispiels zu sehen, rechts daneben befindet sich der Extremfall der Ungleichverteilung, wo von k Einheiten die ersten k − 1 leer ausgehen und das gesamte Einkommen auf die letzte Einheit fällt. Stärker kann die Lorenz-Kurve bei k Einheiten nicht von der Winkelhalbierenden entfernt sein. 2.6.1 Der Gini-Koeffizient Bei vollständiger Gleichverteilung der Einkommen wäre die Winkelhalbierende die LorenzKurve. Der Inhalt der Fläche des Dreiecks, das von der Winkelhalbierenden, der Abszisse und der Geraden y = 1 gebildet wird, beträgt 1/2, denn Grundseite und Höhe sind jeweils 1. Die Fläche zwischen der Winkelhalbierenden und der Lorenz-Kurve ist ein Maß für die Abweichung von der Gleichheit. Diese Flächen sind in der Abbildung 2.4 grau hervorgehoben. Der Gini-Koeffizient ist das Verhältnis des Inhalts dieser Fläche zum Inhalt der Gesamtfläche des Dreiecks. Damit ist der Gini-Koeefizient ein Wert zwischen 0 und 1, wobei der Wert 0 vollständige Gleichverteilung und der Wert 1 vollständige Konzentration anzeigt. In Deutschland beträgt der Gini-Koeffizietnfür etwa 0,33. 25 2 Univariate Analyse Da die Gesamtfläche I des Dreiecks den Inhalt 1/2 hat, beträgt der Flächeninhalt der Fläche zwischen der Lorenz-Kurve und der Winkelhalbierenden X I = 1/2 − Inhalt der Trapeze, da die Lorenz-Kurve sich aus lauter Trapezen zusammensetzt. Betrachten wir in der Abbildung 2.4 in der linken Lorenz-Kurve das Trapez mit den Eckpunkten (F2 , 0), (F2 , Q2 ), (F3 , Q3 ) sowie (0, Q3 ). Die Breite ist f3 = F3 − F2 und die durchschnittliche Höhe 0.5 (Q2 + Q3 ) und somit ist der Inhalt dieses Trapezes f3 · 0.5 (Q2 + Q3 ). Somit hat die fragliche Fläche den Inhalt I = 1/2 − k X fi · 0.5 (Qi−1 + Qi ) , i=1 mit Q0 = 0. Teilt man diesen Wert jetzt noch durch 1/2, ergibt sich die Formel für den Gini-Koeffizient k X G=1− fi (Qi−1 + Qi ) , mit Q0 = 0 (2.1) i=1 Im Eingangsbeispiel sind f1 = 0.3, f2 = 0.2, f3 = 0.25, f4 = 0.25 sowie Q0 = 0, Q1 = 0.1, Q2 = 0.25, Q3 = 0.55, Q4 = 1. Also ergibt sich für den Gini-Koeffizient: G = 1 − 0.3 (0.1 + 0) + 0.2 (0.25 + 0.1) + 0.25 (0.55 + 0.25) + 0.25 (1 + 0.55) = 0.3125 Dies kommt der realen Situation in Deutschland schon sehr nahe. 2.6.2 Der normierte Gini-Koeffizient Der Gini-Koeffizient kann bei einer Einteilung in k Klassen niemals 1 werden, denn selbst vollständige Ungleichverteilung des Einkommens auf k Einheiten bedeutet, dass k − 1 Einheiten nichts und die letzte Einheit alles besitzt. Die Lorenz-Kurve verläuft dann von 0 bis 1/(k − 1) auf der Abszisse und steigt dann als Strecke zum Punkt (1, 1). Die Fläche zwischen Lorenz-Kurve und Winkelhalbierender ist ein Dreieck mit Grundseite 1 − 1/(k − 1) und Höhe 1 mit Flächeninhalt 1 1k−1 1 1− = I= 2 k−1 2 k Teilt man diesen Wert durch 1/2 ergibt sich für den Gini-Koeffizient der Maximalwert von k−1 Gmax = k Man definiert daher bei k Klassen den so genannten normierten Gini-Koeffizient wie folgt: k Gnorm = G (2.2) k−1 Im Eingangsbeispiel lagen vier Klassen vor, der normierte Gini-Koeffizient ist somit 4 Gnorm = 0.3125 = 0.4166 3 26 2.6 Die Lorenz-Kurve 2.6.3 Lorenz-Kurve bei klassierten Daten Tabelle 2.7: Verteilung der Beschäftigten auf Arbeitsstätten im Produzierten Gewerbe. BRD 1970 Arbeitsstätten Anzahl in 100 Beschäftigte fi in 1000 Fi qi Qi 1-4 5-9 10-19 20-49 50-99 100-199 200-499 500 und mehr Summe 3493 1231 636 442 176 98 62 32 6170 735 800 854 1350 1226 1353 1884 4658 12860 56,6% 76,6% 86,9% 94,0% 96,9% 98,5% 99,5% 100,0% 5,7% 6,2% 6,6% 10,5% 9,5% 10,5% 14,7% 36,2% 5,7% 11,9% 18,6% 29,1% 38,6% 49,1% 63,8% 100,0% 56,6% 20,0% 10,3% 7,2% 2,9% 1,6% 1,0% 0,5% Das Paar (F4 , Q4 ) = (94, 29.1) ergibt sich aus Q4 = (735 + 800 + 854 + 1350)/12860 F4 = (3493 + 1231 + 636 + 442)/6170 Oft sind nur die Klassen (xi−1 , xi] und die Häufigkeiten hi angegeben, dann kann die absolute Häufigkeit gi des Merkmals nur durch gi = hi xi−1 + xi 2 (2.3) approximiert werden. Hier war das nicht nötig, denn die gi wurden mit angegeben. Im folgenden Beispiel (von Uebe) ist dies aber notwendig. In einem Betrieb wurden folgende Daten über die monatlichen Einkommen in 100 Euro der beschäftigten Frauen erhoben: Am besten lässt man Excel die ganze Rechnerei Tabelle 2.8: Einkommen Einkommen Anzahl der Frauen (6, 12] (12, 16] (16, 20] (20, 24] 10 15 10 5 erledigen, wie in der Abbildung 2.5 zu sehen ist. Ausgangspunkt sind die Klassen und 27 2 Univariate Analyse Abbildung 2.5: Arbeitsblatt für Lorenz-Kurve die entsprechenden Häufigkeiten, also die drei ersten Spalten. Dann wird die Spalte mit den gi erstellt. Das erfolgt in Excel nach der Formel D3 = 0, 5 ∗ (A3 + B3) ∗ C3 Diese Formel lässt sich am Ausfüllkästchen bequem nach unten ziehen. Danach werden die Summen der Spalten C und D berechnet. Dazu wird zunächst in der Zelle E7 die Formel = Summe(C3 : C6) eingetragen, wobei auf das Gleichheitszeichen zu achten ist. Diese Formel lässt sich am Ausziehkästchen nach rechts ziehen und ergibt dann die Summe der Werte der Spalte D. Für die fi müssen die in der dritten Spalte stehenden Häufigkeiten durch die Spaltensume dieser Spalte geteilt werden. Dazu trägt man in der Zelle E3 die Formel = C3/C$7 Das Dollarzeichen vor der 7 verhindert, dass sich beim Ziehen am Ziehpunkt die Zelle C7 mit nach unten zieht. Das ganze müssen Sie für die Spalte F wiederholen, wobei die Spalte C durch D ersetzt wird. Die kumulierten Werte der Population sind in Spalte G. Sie müssen zunächst in der Zelle G3 die Formel = G2 + E3 eintragen, da die Formel Fi = Fi−1 + fi gilt mit F0 = 0 Dies ist der Grund für die beiden Nullen in der zweiten Zeile. Diese Formel können Sie am Ausfüllkästchen nach unten ziehen. Das führen Sie dann sinngemäß für die nächste Spalte durch, also zunächst in Zelle H3 = H2 + F 3 28 2.6 Die Lorenz-Kurve eintragen und dann nach unten ziehen. Für den Gini-Koeefizient habe ich die letzte Spalte eingerichtet. Es werden die Produkte fi · (Qi + Qi−1 ) benötigt. Somit steht in Zelle H3 zunächst die Formel = C3 ∗ (H2 + H3). Das wird nach unten gezogen. In der Zelle H7 trage ich dann noch die Formel = 1 − Summe(G3 : G6) ein und erhalte damit den Gini-Koeefizient. 29 3 Maßzahlen einer Verteilung Die Verteilungen von Merkmalen lassen sich durch Tabellen und Diagramme ohne Informationsverlust darstellen. Durch einige treffende Maßzahlen will man die Information bewusst verdichten, um spezifische Eigenschaften zu betonen. Dies erleichtert die Vergleichbarkeit von Verteilungen. Man unterscheidet bei statistischen Maßzahlen zwischen Lagemaßen, Streuungsmaßen und Schiefemaßen. Lagemaße geben an, wo sich die Zentren der Verteilung befinden, Streuungsmaße sind Indikatoren dafür, wie gedrängt oder verstreut sich die Beobachtungen um die Lagemaße verteilen. Schiefemaße zeigen Abweichungen von der Symmetrie und derso genannten Normalverteilung an. Diese werden hier nicht behandelt. 3.1 Modus Die Merkmalsausprägung, die am häufigsten vorkommt, wird Modus genannt, und kann für jedes Messniveau bestimmt werden. Der Modus ist nicht immer eindeutig, da zwei oder mehr Beobachtungen gleich oft auftreten können. Betrachten wir die Noten einer Klausur, aufgeteilt nach Geschlecht und beginnen Ladies first- mit den Damen. Es nahmen sieben teil, mit folgenden Ergebnissen: gut, gut, gut, befriedigend, befriedigend, ausreichend, ausreichend (3.1) Das Merkmal Note ist ordinal, der häufigste Wert ist hier gut. Liegt die Verteilung bereits in Form einer Häufigkeitstabelle vor, so ist der Modus in der Zeile mit dem größten fi zu finden. Die Häufigkeitstabelle der Noten ist in der Tabelle 3.1 dargestellt. Tabelle 3.1: Notenverteilung Damen hi fi Fi sehr gut 0 0 0 gut 3 3/7 3/7 befriedigend 2 2/7 5/7 ausreichend 2 2/7 1 Note Hier ist die Zeile mit dem größten Wert von fi die zweite, also ist der Modus »gut«. Liegen die Daten nur in Form einer klassierten Häufigkeitstabelle vor, so ist der Modus eine ganze Klasse, nämlich wieder diejenige mit dem größten Wert von fi . Betrachten 30 3.2 Median Sie dazu bitte die Tabelle 2.6 der Körpergrößen. Hier ist der Modus die ganze Klasse mit den Grenzen (1, 75, 1, 85]. Man könnte sich für die Klassenmitte entscheiden und als Modus »1,80« nehmen. 3.2 Median Der Median x0.5 ist derjenige Merkmalswert eines mindestens ordinalen Merkmals X, den mindestens 50 Prozent aller Merkmalswerte einer Stichprobe vom Umfang n unterschreiten oder höchstenfalls erreichen und den mindestens 50 Prozent aller Merkmalswerte überschreiten oder zumindest erreichen. Ordinale Daten lassen sich der Größe nach ordnen, so wie die Noten der Studentinnen. Ist die Anzahl n der Beobachtungen ungerade, so ist der Wert x(n+1)/2 der Median x0.5 . Bei den sieben Testnoten der Studentinnen von 3.1 ist somit der vierte Wert der Median, also ist x0.5 = befriedigend. Schwieriger wird der Fall, wenn n gerade ist, wie bei den Ergebnissen der Studenten: sehr gut, sehr gut, sehr gut, gut, befriedigend, ausreichend (3.2) Hier ist der Median nicht mehr eindeutig, denn sowohl die dritte als auch die vierte Note erfüllen die Bedingungen größer oder gleich als mindestens 50 Prozent und auch kleiner oder höchstens gleich als 50 Prozent aller Werte zu sein. Bei rein qualitativen Merkmalen ist es auch nicht sinnvoll die Mitte zwischen den beiden Kandidaten als Median zu nehmen, das sich qualitative Merkmale nun mal nicht mitteln lassen. Halten wir als Ergebnis fest, dass bei ordinalen und geordnet vorliegenden Werten der Median wie folgt zu finden ist: ( x(n+1)/2 , für n ungerade; x0.5 = (3.3) xn/2 sowie x1+n/2 , für n gerade Ist das Merkmal metrisch, wird aber für n gerade tatsächlich zwischen xn/2 und x1+n/2 gemittelt. es ergibt sich dann: ( x(n+1)/2 , für n ungerade; (3.4) x0.5 = xn/2 +x1+n/2 , für n gerade 2 3.2.1 Median aus Häufigkeitstabelle Liegen die Beoabachtungen bereits in Form einer Häufigkeitstabelle vor und gibt es eine Zeile i mit Fi > 0.5 sowie Fi−1 < 0.5, so ist der zugehörige Wert xi der Median. Bei den Daten der Studentinnen von Tabelle 3.1 trifft dies auf die dritte Zeile zu, also ist x0.5 = x3 = befriedigend. Bei der Häufigkeitstabelle 3.2 der Studenten gibt es dagegen eine Zeile i mit Fi = 0.5. In diesem Fall sind bei qualitativen Merkmalen sowohl die Beobachtung xi als auch die Beobachtung xi+1 Median, hier also sowohl die Note »sehr gut« als auch »gut«. Bei metrischen Merkmalen wird das Mittel (xi + xi+1 )/2 von xi und xi+1 als Median genommen. 31 3 Maßzahlen einer Verteilung Tabelle 3.2: Notenverteilung Herren hi fi Fi sehr gut 3 3/6 3/6 gut 1 1/6 4/6 befriedigend 1 1/6 5/6 ausreichend 1 1/6 1 Note 3.2.2 Median bei klassierten Daten Liegen die Daten eines stetigen Merkmals noch als geordnete Liste vor, wird der Median wie beschrieben ermittelt. Steht aber nur noch die Häufigkeitstabelle der klassierten Daten zur Verfügung, so ist der Median näherungsweise der Schnitt der Geraden y = 0.5 mit dem Graphen der approximierenden empirischen Verteilungsfunktion F̂ , d.h. der Median ist die Lösung der Gleichung (3.5) 0.5 = F̂ (x0.5 ) Gibt es eine Klasse (xi−1 , xi ] mit Fi = 0.5, so ist x0.5 = xi . Sonst wählt man die Klasse, wo zum ersten Mal Fi > 0.5 gilt. Wegen F̂ (x) = Fi−1 + Fi − Fi−1 (x − xi−1 ) xi − xi−1 folgt aus der Bedingung 3.5 x0.5 = xi−1 + (0.5 − Fi−1 ) (xi − xi−1 ) Fi − Fi−1 Betrachten wir dazu noch einmal die Tabelle der Körpergrößen mit klassierten Daten Hier ist i = 3, Fi = 0.75 sowie Fi−1 = 0.40. Weiter sind xi = 1.85 und xi−1 = 1.75 und Tabelle 3.3: Häufigkeitstabelle eines stetigen Merkmals Klasse UG OG ∆i ni fi fˆi Fi 1 2 3 4 5 1,50 1,65 1,75 1,85 1,95 1,65 1,75 1,85 1,95 2,10 0,15 0,10 0,10 0,10 0,15 2 6 7 4 1 0,10 0,30 0,35 0,20 0,05 0,67 3,00 3,50 2,00 0,34 0,10 0,40 0,75 0,95 1,00 damit folgt x0.5 = 1.75 + 32 (0.5 − 0.4) (1.85 − 1.75) = 1.78 0.75 − 0.4 3.3 Das arithmetische Mittel 3.2.3 Eigenschaften des Medians Der Median hat eine Reihe von bemerkenswerten Eigenschaften, u.a. ist der Median der Wert, der die Summe der Beträge der Abstände zu den Messwerten (x1 , x2 , . . . , xn ) minimiert, d.h der Median erfüllt die Bedingung x0.5 = min g(x) = min x∈R x∈R n X (3.6) |x − xi | i=1 Hier werden natürlich metrische Merkmale vorausgesetzt. Diese Eigenschaft ist nicht durch Differentiation zu lösen, da die zu minimierende Funktion g(x) wegen der Betragsstriche nicht differenzierbar ist. Eine weitere Eigenschaft des Medians ist seine Robustheit gegen extreme Werte, so genannte Ausreißer. Einige vereinzelte Langzeitstudenten ändern nichts am Median der Studiendauer, können aber das arithmetische Mittel empfindlich nach oben drücken. 3.3 Das arithmetische Mittel Das arithmetischen Mittel, auch als Mittelwert bezeichnet, mittelt über alle Beobachtungen. Daher muss das Merkmal metrisch sein. Es gilt dann n 1X x1 + x2 + · · · + xn = xi x̄ = n n i=1 (3.7) Liegt bereits eine Häufigkeitstabelle vor, so gilt k x̄ = 1X h1 · x1 + h2 · x2 + · · · + hk · xk = hi · xi n n i=1 (3.8) Wegen fi = hi /n gilt auch x̄ = f1 · x1 + f2 · x2 + · · · + fk · xk = k X f i · xi (3.9) i=1 Betrachten wir eine Altersverteilung eines Kurses mit den Werten 18, 18, 18, 19, 19, 19, 20, 21, 21, 21, 22, 22, 22 so gilt 1 260 (18 + 18 + 18 + 19 + 19 + 19 + 20 + 21 + 21 + 21 + 22 + 22 + 22) = = 20 13 13 Natürlich gilt auch x̄ = x̄ = und x̄ = 1 260 (3 · 18 + 3 · 19 + 20 + 3 · 21 + 3 · 22) = = 20 13 13 3 3 1 3 3 260 · 18 + · 19 + · 20 + · 21 + · 22 = = 20 13 13 13 13 13 13 33 3 Maßzahlen einer Verteilung 3.4 arithmetisches Mittel bei klassierten Daten Bei klassiertem Datenmaterial fehlen die Einzelwerte, daher kann das arithmetische Mittel nur näherungsweise bestimmt werden, indem von jeder Klasse die Klassenmitten mit den relativen Häufigkeiten multipliziert werden. Somit gilt x̄ ≈ f1 · x1,m + f2 · x2,m + · · · + fk · xk,m = k X fi · xi,m , (3.10) i=1 wobei mit xi,m die Mitte der i-ten Klasse gemeint ist. Der genäherte Mittelwert kann sowohl über die fi als auch über die hi berechnet werden: x̄ ≈ 0.10 · 1.575 + 0.30 · 1.70 + 0.35 · 1.80 + 0.20 · 1.90 + 0.05 · 2.025 = 1.78 bzw. x̄ ≈ 1 (2 · 1.575 + 6 · 1.70 + 7 · 1.80 + 4 · 1.90 + 1 · 2.025) = 1.78 20 3.5 Eigenschaften des arithmetischen Mittels Da das arithmetische Mittel über alle Einzelwerte mittelt, ist die Summe der Abweichungen gleich 0, also n X (xi − x̄) = 0 (3.11) i=1 Gibt es umgekehrt eine Zahl z, die diese Bedingung erfüllt, so ist z = x̄. Man kann an der Datenreihe der Altersverteilung damit sofort raten, dass 20 das arithmetische Mittel ist, denn zu jeder Abweichung nach oben gibt es eine genau so große Abweichung nach unten. Auch das arithmetisches Mittel erfüllt eine Minimumseigenschaft, es minimiert nämlich die quadrierten Abstände zu den Beobachtungen, genauer es gilt x̄ = min f (x) = min x∈R x∈R n X (x − xi )2 (3.12) i=1 Diese Eigenschaft ist sehr einfach mit Mitteln der Differentialrechnung zu beweisen, denn die zu minimierende Funktion f (x) ist differenzierbar. 3.6 Quantile Der Median x0.5 teilt die Beobachtungen in zwei gleich große Teile. Man kann die Werte nach demselben Prinzip für jede beliebige Zahl 0 < p < 1 durch einen Quantil genannten Wert xp aufteilen. Dabei sollen mindestens 100 · p Prozent der Beobachtungen kleiner oder gleich dem Quantil xp und mindestens 100 · (1 − p) Prozent der Beobachtungen 34 3.6 Quantile größer oder gleich dem Quantil xp sein. Da n Werte vorliegen, ist xn·p der natürliche Kandidat für xp . Ist n · p ganzzahlig, so sind xn·p und x1+n·p gleichwertig, daher wird in diesem Fall wieder der Mittelwert von beiden genommen. Ist n · p nicht ganzzahlig, so nimmt man x1+[n·p] für xp . Das ergibt folgende Formel: ( x1+[n·p] , für n · p nicht ganzzahlig; xp = 0.5 (xn·p + x1+n·p ) , für n · p ganzzahlig; (3.13) Dabei stellen die eckigen Klammern die so genannten Gauß-Klammern dar, die die größte ganze Zahl liefern, die kleiner oder gleich dem Ausdruck innerhalb der Klammern ist. Es gilt also z.B. [7.2] = 7. Die Quantile x0.25 und x0.75 heißen unteres bzw. oberes Quartil. Beispiel: Wir betrachten die Größen von 20 Studenten und wollen Median sowie das untere und das obere Quartil bestimmen. Die Urliste war: 1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83 1,74, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83 Der geordnete Datensatz ist : 1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,74, 1,76, 1,76 1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93, 2,05 Hier sind sowohl 10 = 20 · 0.5 als auch 5 = 20 · 0.25 sowie 15 = 20 · 0.75 ganzzahlig. Deshalb gibt es folgende Kennzahlen: x0.25 = 0.5(x5 + x6 ) = 0.5(1.71 + 1.71) = 1.71 x0.5 = 0.5(x10 + x11 ) = 0.5(1.76 + 1.78) = 1.77 x0.75 = 0.5(x15 + x16 ) = 0.5(1.83 + 1.86) = 1.845 Beispiel: Die Messung der Längen von 15 Blättern der Gartenerdbeere [cm] ergab folgende geordnete Messreihe: 6.1 6.6 6.9 7.1 7.2 7.2 7.4 7.7 7.9 8.2 8.4 9.1 10.3 10.5 11.4 35 3 Maßzahlen einer Verteilung Hier sind sowohl 7.5 = 15 · 0.5 als auch 3.25 = 15 · 0.25 sowie 11.25 = 15 · 0.75 nicht ganzzahlig. Deshalb gibt es folgende Kennzahlen: Kennzahlen: 1 x̄ = (6.1 + 6.6 + · · · + 11.4) = 8.133 15 x0.5 = x8 = 7.7 x0.25 = x[15/4]+1 = x4 = 7.1 x0.75 = x[3·15/4]+1 = x12 = 9.1 3.6.1 Quantile bei klassierten Daten Liegen die Daten eines stetigen Merkmals noch als geordnete Liste vor, wird der Median wie beschrieben ermittelt. Steht aber nur noch die Häufigkeitstabelle der klassierten Daten zur Verfügung, so ist der Median näherungsweise der Schnitt der Geraden y = p mit dem Graphen der approximierenden empirischen Verteilungsfunktion F̂ , d.h. das quantil ist die Lösung der Gleichung (3.14) p = F̂ (xp ) Gibt es eine Klasse (xi−1 , xi ] mit Fi = p, so ist xp = xi . Sonst wählt man die Klasse, wo zum ersten Mal Fi > p gilt. Wegen Fi − Fi−1 F̂ (x) = Fi−1 + (x − xi−1 ) xi − xi−1 folgt aus der Bedingung 3.14 xp = xi−1 + (p − Fi−1 ) (xi − xi−1 ) Fi − Fi−1 Betrachten wir dazu noch einmal die Tabelle der Körpergrößen mit klassierten Daten Zur Bestimmung des ersten Quartil x0.25 muss die zweite Klasse betrachtet werden. Hier Tabelle 3.4: Häufigkeitstabelle eines stetigen Merkmals Klasse UG OG ∆i ni fi fˆi Fi 1 2 3 4 5 1,50 1,65 1,75 1,85 1,95 1,65 1,75 1,85 1,95 2,10 0,15 0,10 0,10 0,10 0,15 2 6 7 4 1 0,10 0,30 0,35 0,20 0,05 0,67 3,00 3,50 2,00 0,34 0,10 0,40 0,75 0,95 1,00 ist F2 = 0.40 sowie F2−1 = 0.10. Weiter sind x2 = 1.75 und x1 = 1.65 und damit folgt (0.25 − 0.10) (1.75 − 1.65) = 1.70 0.40 − 0.10 Das stimmt sehr gut mit dem exakten Wert von 1.71 überein. x0.25 = 1.65 + 36 3.7 Maßzahlen für die Variabilität 3.7 Maßzahlen für die Variabilität Neben der Lage einer Verteilung ist noch von Interesse, wie weit die Beobachtungen um die Lagemaße wie Modus, Median oder Mittelwert verstreut liegen. 3.7.1 Mittlere absolute Abstände Man kann als Maß die gemittelten absoluten Abstände vom Median oder vom arithmetischen Mittel nehmen. Da der Median diese Größe minimiert, wird meistens der Median bevorzugt. Es ergibt sich n 1X dx0.5 = |xi − x0.5 | (3.15) k i=1 Treten dabei nur die Werte (x1 , x2 , . . . , xk ), k < n mit der absoluten Häufigkeit hi bzw. mit der relativen Häufigkeit fi auf, so gilt: k dx0.5 1X hi |xi − x0.5 | = n i=1 (3.16) bzw. dx0.5 = k X fi |xi − x0.5 | . (3.17) i=1 Beispiel: Im Sekretariat eines großen Unternehmens verdienen je zwei Mitarbeiter 2000 Euro bzw. 3000 EURO und die Chefsekretärin 6000 Euro im Monat. Bei einem kleineren Betrieb wurden die Bezüge 2000, 2600 und zweimal 3000 EURO genannt. Hier ist in der ersten Gruppe der Median der dritte Wert, also 3000 Euro. Im zweiten Sekretariat gibt es vier Mitarbeiter, somit muss zwischen dem zweiten und drittem Wert gemittelt werden, der Median ist also 2800 Euro. Somit folgen die Werte dx0.5 = 2 · |2000 − 3000| + 2 · |3000 − 3000| + |6000 − 3000| = 1000 5 und dx0.5 = |2000 − 2800| + |2600 − 2800| + 2 · |3000 − 2800| = 350 4 Die Werte der ersten Gruppe sind stärker verstreut als in der zweiten Gruppe. 37 3 Maßzahlen einer Verteilung 3.7.2 Die Varianz Ausdrücke mit Betragsstrichen sind nicht differenzierbar, daher verwendet man meistens die mittlere quadratische Abweichung, diesmal aber vom Mittelwert: n σ2 = 1X (xi − x̄)2 n i=1 (3.18) Treten dabei nur die Werte (x1 , x2 , . . . , xk ), k < n mit der absoluten Häufigkeit hi bzw. mit der relativen Häufigkeit fi auf, so gilt: k 1X σ = hi (xi − x̄)2 n i=1 2 bzw. σ2 = k X fi (xi − x̄)2 . (3.19) (3.20) i=1 Beispiel: Im ersten Sekretariat hatten wir die Monatseinkommen von je zweimal 2000 Euro bzw. 3000 EURO und einmal 6000 Euro. Der Mittelwert ist 3200 Euro. Somit gilt: 2 · (2000 − 3200)2 + 2 · (3000 − 3200)2 + (6000 − 3200)2 = 2160000 σ = 5 2 Die mittlere quadratische Abweichung wird als Varianz bezeichnet. Die Varianz ist nur dann sinnvoll, wenn die Werte (x1 , x2 , . . . , xn ) als eine Grundgesamtheit angesehen werden können, was aber selten der Fall ist. Im Beispiel der Sekretariate ist diese Annahme vertretbar, da jedes Sekretariat einmalig ist und die Werte vollständig sind. 3.7.3 Stichprobenvarianz In der Regel stellen die Datenwerte nur eine Stichprobe dar. In diesem Fall dividiert man die Summe der quadrierten Abweichungen nicht durch n, sondern durch n − 1 und spricht von der Stichprobenvarianz oder der empirischen Varianz s2 : n 1 X s = (xi − x̄)2 n − 1 i=1 2 (3.21) Die anderen Formeln lassen sich sinngemäß übertragen. Zwischen beiden Werten besteht der einfache Zusammenhang n s2 = σ2 (3.22) n−1 38 3.7 Maßzahlen für die Variabilität 3.7.4 Die Standardabweichung Varianz und empirische Varianz haben nicht die Maßeinheiten der Beobachtungen selbst. Daher wird die Quadratwurzel aus der Varianz bzw. der empirische Varianz gezogen. Die somit erhaltenen Werte werden Standardabweichung σ bzw. empirische Standardabweichung s genannt. Im Beispiel des ersten Sekretariats ergibt sich σ = 1469.69 Euro. Die Standardabweichung weist wieder die Maßeinheit der Datenwerte auf. Die Varianz und empirische sind nur dann gleich Null, wenn jede einzelne quadratische Differenz verschwindet, also alle Datenwerte mit dem Mittelwert übereinstimmen. Dann existiert aber keine Streuung unter den Daten, alle haben denselben Wert. Normalerweise ist das nicht der Fall, dann sind (empirische) Varianz und (empirische) Standardabweichung größer als Null. 3.7.5 Andere Berechnungsformeln Die Varianz σ 2 lässt sich numerisch auf folgende Weise einfacher berechnen: n 1X 2 x − x̄2 . σ = n i=1 i 2 (3.23) P Das sieht man sofort über die binomische Formel unter Ausnutzung von x̄ = n1 ni=1 xi . Betrachten wir dazu die Monatseinkünfte von zweimal 2000 und zweimal 3000 sowie einmal 6000: σ2 = 1 2 · 20002 + 2 · 30002 + 60002 − 32002 = 2160000. 5 Wegen 3.22 folgt aus 3.23 sofort n n 1 X 2 s = xi − x̄2 . n − 1 i=1 n−1 2 (3.24) Im obigen Beispiel ergibt dies s2 = 5 1 2 · 20002 + 2 · 30002 + 60002 − 32002 = 2700000. 4 4 Natürlich hätte man gleich s2 = 45 σ 2 = 5 4 · 2160000 verwenden können. 3.7.6 Klassizierte Daten Liegen bei einem stetigen Merkmal die n Werte (x1 , x2 , . . . , xn ) nur noch als klassierten Daten vor, so wird für jede der k Klassen die Mitte mi = 0.5 (xi−1 + xi ) berechnet. Für den Mittelwert gilt annähernd k X x̄ ≈ fi · mi i=1 39 3 Maßzahlen einer Verteilung und für die Varianz σ2 ≈ k X fi · m2i − x̄2 i=1 sowie für die empirische Varianz 2 s ≈ k X fi · m2i − i=1 m x̄2 m−1 Bitte beachten Sie, dass n die Anzahl der Daten und k die Anzahl der Klassen ist. Betrachten wir dazu noch einmal die Tabelle der Körpergrößen mit klassierten Daten Hier sind Tabelle 3.5: Häufigkeitstabelle eines stetigen Merkmals x̄ ≈ Klasse UG OG ∆i ni fi fˆi Fi 1 2 3 4 5 1,50 1,65 1,75 1,85 1,95 1,65 1,75 1,85 1,95 2,10 0,15 0,10 0,10 0,10 0,15 2 6 7 4 1 0,10 0,30 0,35 0,20 0,05 0,67 3,00 3,50 2,00 0,34 0,10 0,40 0,75 0,95 1,00 1 (2 · 1, 575 + 6 · 1, 70 + 7 · 1, 80 + 4 · 1, 90 + 1 · 2, 025) = 1, 78 20 und σ2 ≈ 1 2 · 1, 5752 + 6 · 1, 702 + 7 · 1, 802 + 4 · 1, 902 + 1 · 2, 0252 − 1, 782 = 0, 0077. 20 Da die Daten wohl eher als Stichprobe anzusehen sind, ist die empirische Varianz sinnvoller: 20 2 20 σ ≈ 0, 0077 = 0, 0081. s2 = 19 19 3.8 Transformationseigenschaften der Maßzahlen Oft werden die ursprünglichen Daten (x1 , x2 , . . . , xn ) einer linearen Transformation unterworfen, d.h. yi = a xi + b. 40 3.9 Der Variationskoeffizient Durch diese Transformation ändern sich auch die Maßzahlen und zwar gelten folgende Beziehungen: ȳ = a x̄ + b y0.5 = a x0.5 + b σy2 = a2 σx2 σy = |a| σx (3.25) (3.26) (3.27) (3.28) Nehmen wir wieder das Sekretariat mit den Ausgangswerten von je zweimal 2000 Euro bzw. 3000 EURO und einmal 6000 Euro als Beispiel. Der dankbare Chef erhöhe die Gehälter um den Sockelbetrag von 200 Euro und um zusätzliche 5 Prozent. Dann gilt also: yi = 1.05 xi + 200. Ohne Berechnung der Einzelwerte können wir somit folgende neue Lagemaße angeben: ȳ = a x̄ + b = 1.05 · 3200 + 200 = 3560 y0.5 = a x0.5 + b = 1.05 · 3000 + 200 = 3350 σy2 = a2 σx2 = 1, 052 · 2160000 = 2381400 σy = a σx2 = 1, 05 · 1469.690 = 1543.18 3.9 Der Variationskoeffizient Die empirische Standardabweichung ist, ebenso wie die Spannweite und die mittleren absoluten Abweichungen vom arithmetischen Mittel oder vom Median, ein Maß für die absolute Streuung. Diese sind im Allgemeinen dimensionsbehaftete Maße, die von der Einheit abhüngen, in der ein Merkmal gemessen wird. Relative Streuungsmaße sind dagegen dimensionslos. Ein Beispiel eines solchen relativen Maßes ist der so genannte Variationskoeffizient. Für ein metrisches Merkmal X mit arithmetischem Mittel x̄ und empirischer Standardabweichung s ist der Variationskoeffizient v definiert durch v= s x̄ (3.29) Der Variationskoeffizient ist ein relatives Streuungsmaß, denn das absolute Streuungsmaß s wird ins Verhältnis gesetzt zum arithmetische Mittel des Merkmals. Der Variationskoeffizient ist als Quotient zweier Größen gleicher Dimension und Einheiten dimensions - und einheitenlos. Betrachten wir die Längen der Blätter der 15 Erdbeerpflanzen mit der in [cm] angegebenen Messreihe: 6.1 6.6 6.9 7.1 7.2 7.2 7.4 7.7 7.9 8.2 8.4 9.1 10.3 10.5 11.4 41 3 Maßzahlen einer Verteilung Hier ergibt sich: 1 (6.1 + 6.6 + · · · + 11.4) = 8.13 15 1 σ 2 = (6.12 + 6.62 + · · · + 11.42 ) − 8.132 = 2.24 15 15 2 s2 = σ = 2.40 14 √ s = 2.40 = 1.55 s v = = 0.19 x̄ x̄ = 3.10 Aufgaben Aufgabe 1. (Uebe) Betrachten Sie die beiden wichtigen makro-ökonomischen Variablen durchschnittlicher Zinsfuß p.a. und durchschnittlicher Anstieg des Konsumentenpreisniveaus p.a. in der Europäischen Gemeinschaft 1991. Finden Sie eine geeignete graphische Darstellung für die in der Tabelle 3.6 aufgeführten Zahlen, die sich auf einen Ausschnitt aus »Makroökonomische Variablen in der Europäischen Gemeinschaft 1991« beziehen. (Quelle: European Community, No. 50, EC Commission, December, 1991): Tabelle 3.6: Zinsen und Preisanstiegsraten in der EU 1991 Land Jährlicher Zinsfuß in % Anstieg des Konsumentenpreisniveaus in % Belgien 9.3 3.2 Dänemark 9.3 2.4 Frankreich 9.0 3.0 Deutschland 8.4 3.5 Griechenland 22.5 18.3 Irland 9.4 3.0 Italien 11.3 6.4 Luxemburg 9.3 3.4 Niederlande 8.8 3.2 Portugal 14.6 11.7 Spanien 12.5 5.8 Großbritannien 10.3 6.5 Aufgabe 2. An einem Kochkurs nahmen neun Männer und elf Frauen teil. Erstellen Sie 42 3.10 Aufgaben die Häufigkeitstabelle und stellen dann die Daten als Stab-, Balken- und Kreisdiagramme dar. Aufgabe 3. In der Tabelle 3.7 sind die Noten der Teilnehmer eines Kurses aufgeführt. Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stab- und Balkendiagramme dar. Tabelle 3.7: Notenverteilung der Teilnehmer Note sehr gut gut befriedigend ausreichend mangelhaft 6 5 5 3 1 ni Aufgabe 4 (Lageparameter BSP 2 Uebe) Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, dass er die Anzahl X der Stockwerke der von seinem Standort aus sichtbaren Gebäude zählt. Er erhält folgende Werte: 3 2 4 3 2 5 4 2 4 3 1 2 5 2 4 3 1 5 2 3 a) Charakterisieren Sie das betrachtete Merkmal X, erstellen Sie die Häufigkeitstabelle und geben Sie eine geeignete graphische Darstellung der Beobachtungen. b) Berechnen Sie den Modalwert (Modus), den Median, das arithmetische Mittel (den Durchschnitt, den Mittelwert), die Standardabweichung und den Variationskoeffizienten des Merkmals X. Aufgabe 5 (Lageparameter, Uebe) Im Sendebereich der Firma Rupert-TV wurde an 100 Tagen die Anzahl Z von Fernsehfilmen (pro Tag) mit brutalen Gewaltszenen ermittelt. Filme dieser Kategorie sind besonders werbeeinnahmefreundlich und im Erlös so gut wie nicht ersetzbar. Die Daten entnehmen Sie der Tabelle 3.8: Tabelle 3.8: Gewaltfilme Anzahl der Gewaltfilme nj 4 5 6 8 9 10 11 12 13 14 15 9 8 11 8 8 11 8 9 13 a) Erstellen Sie die Häufigkeitstabelle und stellen dann die Häufigkeit grafisch dar. b) Beschreiben Sie die Daten durch die üblichen Lageparameter. c) Auf wieviel Prozent der Filme (und damit der zugehörigen Werbeinnahmen) müßte verzichtet werden, wenn höchstens 10 bzw. 6 Filme dieser Kategorie pro Tag zulässig wären? Aufgabe 6. (scripthd). In der folgenden Urliste ist das Lebensalter von Studenten eines Kurses aufgeführt. 43 3 Maßzahlen einer Verteilung 19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20 a) Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stabdiagramm dar und zeichnen die Verteilungsfunktion. b) Beschreiben Sie die Daten durch die üblichen Lage- und Streuungsparameter. c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie x0.9 an. d) Der Wert 52 ist ein Zahlendreher und wäre korrekt 25. Wie ändern sich die Ergebnisse von b) dadurch? e) Ein anderer Auswerter dieser Daten unterdrückt den Ausreißer von 52 ganz, geht also nur noch von 20 statt 21 Werten aus. Wie ändern sich dadurch die Ergebnisse von c)? Aufgabe 5.(tudresden). In der Tabelle 3.9 ist die Studiendauer in Semester von n = 75 Studenten aufgeführt. Tabelle 3.9: Studiendauer von 75 Studenten in Semester xj 7 8 9 10 11 12 13 nj 1 2 7 11 21 15 13 14 15 4 1 a) Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stabdiagramm dar und zeichnen die Verteilungsfunktion. b) Beschreiben Sie die Daten durch die üblichen Lage- und Streuungsparameter. c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie x0.9 an. Aufgabe 6.(Anderson). In der Tabelle 3.10 ist die Zahl der Personen in Privathaushalten in der BRD 1970 aufgeführt. Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stabdiagramm dar und zeichnen die Verteilungsfunktion. Tabelle 3.10: Größe von Haushalten, BRD 1970 Haushaltsgröße Zahl der Haushalte in 1000 1 2 3 4 5527 5959 4314 3351 Beantworten Sie dann noch, was die Grundgesamtheit ist, ob es sich dabei um eine Bestands- oder Bewegungsmasse handelt und welche Merkmale bzw. Merkmalsausprägungen vorhanden sind. Aufgabe 7. In einem Betrieb wurden folgende Daten über die monatlichen Einkommen (in 100 e) der beschäftigten Frauen erhoben: 44 3.10 Aufgaben Tabelle 3.11: Fiktive Einkommen Einkommen (6, 12] (12, 16] (16, 20] (20, 24] (24, 30] 10 15 10 5 4 Anzahl der Frauen a) Stellen Sie die durch die Tabelle 3.11 gegebene Einkommensverteilung als Histogramm dar und erstellen Sie dann den Graphen der approximierenden Verteilungsfunktion. b) Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, Median, Mittelwert sowie Varianz und empirische Varianz und Standardabweichung und empirische Standardabweichung. c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie x0.9 an. d) Erstellen Sie die Lorenz-Kurve. Aufgabe 8. In einem anderen Betrieb wurden die Daten der Tabelle 3.12 über die monatlichen Einkommen erhoben: Tabelle 3.12: Fiktive Einkommen Einkommen [500, 600] (600 650] (650, 700] (700, 750] (750, 900] (900, 1200] 6 8 12 13 8 3 Anzahl a) Stellen Sie die durch die Tabelle 3.12gegebene Einkommensverteilung als Histogramm dar und erstellen Sie dann den Graphen der approximierenden Verteilungsfunktion. b) Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, Median, Mittelwert sowie Varianz und empirische Varianz und Standardabweichung und empirische Standardabweichung. c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie x0.9 an. d) Erstellen Sie die Lorenz-Kurve. Aufgabe 9. Die Einkommens- und Verbrauchsstichprobe (EVS) wird alle 5 Jahre vom Statistischen Bundesamt erhoben, zuletzt 1998. Ca. 40.000 bis 50.000 Haushalte geben im Rahmen dieser Erhebung freiwillig und entgeltlos Auskunft über ihre monatlichen Einkünfte und Konsumgewohnheiten. Weil gerade die Bezieher niedriger und höherer Einkommen ungern über ihr Einkommen berichten, gibt die folgende Tabelle die Schichtung der Haushalte[in Prozent] nach ihrem monatlichen Haushaltnettoeinkommen in DM (Früheres Bundesgebiet) wohl nicht repräsentativ wider. Dennoch lassen sich über die Zeit hinweg sinnvoll Vergleiche anstellen, wenn der Anteil der nicht vertretenen Haushalten niedrigen und hohen Einkommens über die Zeit relativ konstant geblieben ist. Man skizziere für jedes Jahr die zugehörigen Histogramme, um die Veränderung der Einkommenssituation in den alten Bundesländern über die Zeit zu veranschaulichen. 45 3 Maßzahlen einer Verteilung Tabelle 3.13: Einkommensverteilung BRD 1970 bis 1993 von...bis unter...DM 1973 1978 1983 1988 1993 unter 2.500 72,9 50,4 40,5 36,8 22,7 2.500-5.000 24,7 41,7 42,3 41,2 39,5 5.000-10.000 2,3 7,3 16,0 20,1 31,7 10.000-15.000 0,2 0,4 0,9 1,6 4,9 15.000 und mehr 0,0 0,1 0,3 0,4 1,2 Die Abschneidegrenze für Bezieher höherer Einkommen betrug 35.000 DM. Zeichnen Sie dann die entsprechenden Lorenz-Kurven. 3.11 Probe-Klausur Aufgabe 1. Man betrachtet die Anzahl X der Zigaretten, die pro Person innerhalb einer Stunde in einem Raum mit 27 Personen geraucht wurden, und erhält folgendes Ergebnis: 1, 0, 2, 3, 5, 1, 4, 2, 0, 6, 1, 2, 0, 2, 0, 4, 1, 0, 5, 1, 6, 1, 0, 1, 2 ,0, 1 a) Bestimmen Sie direkt Median und die 25 und 75 % Quartile. Die geordnete Urliste lautet: 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 4, 4, 5, 5, 6, 6 Es ist 27 · 0.25 = 27/4 = 6, 75 und somit x0.25 = x7 = 0. Es ist 27 · 0.5 = 27/2 = 13, 5 und somit x0.5 = x14 = 1. Es ist 27 · 0.75 = 3 · 27/4 = 20, 25 und somit x0.75 = x21 = 3. b) Bestimmen Sie Mittelwert, empirische Standardabweichung und Variationskoeffizient. Der Mittelwert berechnet sich wie folgt: x̄ = 7∗0+8∗1+5∗2+1∗3+2∗4+2∗5+2∗6 = 1, 88888889, 27 denn der Wert 0 tritt 7-mal, der Wert 1 entsprechend 8-mal auf, usw. Für die empirische Varianz ergibt sich 7 (0 − x̄)2 + 8 (1 − x̄)2 + 5 (2 − x̄)2 + 1 (3 − x̄)2 + 2 (4 − x̄)2 + 2 (5 − x̄)2 + 2 (6 − x̄)2 s = 26 s2 = 3, 641 s = 1, 908 1, 908 v= = 1, 010. 3, 641 2 46 3.11 Probe-Klausur c) Stellen Sie die Daten als Häufigkeitstabelle dar. Berechnen Sie die Parameter von a) erneut. Die Häufigkeitstabelle habe ich mit Excel erstellt. Sie steht in Abbildung 3.1. Das untere Quartil ist in der Zeile i zu finden, worin zum ersten Mal Fi > 0, 25 gilt, das ist die erste Zeile, somit ist x.25 = 0. Der Median ist in der Zeile i zu finden, worin zum ersten Mal Fi > 0, 5 gilt, das ist die zweite Zeile, somit ist x.5 = 1. Das obere Quartil ist in der Zeile i zu finden, worin zum ersten Mal Fi > 0, 75 gilt, das ist die vierte Zeile, somit ist x.75 = 3. Abbildung 3.1: Häufigkeitstabelle des Zigarettenkonsums d) Stellen Sie die Daten als Stabdiagramm dar und zeichnen Sie die Verteilungsfunktion. Die beiden Grafiken sehen Sie in der Abbildung 3.2. Abbildung 3.2: Stabdiagramm und Verteilungsfunktion des Zigarettenkonsums. Aufgabe 2. Das Einkommen von 360 Beschäftigten einer Firma sei durch folgende Tabelle beschrieben: Tabelle 3.14: Fiktive Einkommen Bruttolohn [400, 1000] (1000 1400] (1400, 1600] (1600, 2000] (2000, 3000] 45 90 90 90 45 Anzahl 47 3 Maßzahlen einer Verteilung a) Bestimmen Sie näherungsweise Mittelwert, Standardabweichung und Variationskoeffizient. Mittelwert und Standardabweichung sind wegen der Klassenbildung nur noch näherungsweise zu berechnen. Es werden nur die Klassenmitten berücksichtigt. Das ergibt zunächst für den Mittelwert: x̄ ≈ 45 ∗ 700 + 90 ∗ 1200 + 90 ∗ 1500 + 90 ∗ 1800 + 45 ∗ 2500 = 1525. 360 Für die Varianz ergibt sich 45 ∗ (700 − x̄)2 + 90 ∗ (1200 − x̄)2 + 90 ∗ (1500 − x̄)2 + 90 ∗ (1800 − x̄)2 + 45 ∗ (2500 − x̄)2 360 2 σ ≈ 249375 σ ≈ 499, 37 499, 37 v≈ = 0, 327. 1525 σ2 ≈ b) Stellen Sie die Verteilung des Lohnes als Häufigkeitstabelle dar und zeichnen damit das Histogramm dar und die approximierte empirische Verteilungsfunktion. Beide Lösungen finden Sie im folgenden Excel-Tabellenblatt: Abbildung 3.3: Häufigkeitstabelle und Histogramm sowie Verteilungsfunktion. 48 3.11 Probe-Klausur c) Bestimmen Sie näherungsweise Median und die 25 und 75 % Quartile. Zwischen 1000 und 1400 wächst der Anteil von 12,50 % auf 37,50 %. Die Verteilungsfunktion hat somit die Geradengleichung y = 12, 50 + 37, 50 − 12, 50 (x − 1000) 1400 − 1000 Das untere Quartil x0.25 ist der Schnittpunkt dieser Geraden mit der Geraden y = 25. Aus 37, 50 − 12, 50 y = 12, 50 + (x0.25 − 1000) = 25 1400 − 1000 folgt 1400 − 1000 x0.25 = 1000 + (25 − 12, 50) = 1200 37, 50 − 12, 50 Das lässt sich auch aus der Zeichnung der Verteilungsfunktion ablesen. Zwischen 1400 und 1600 wächst der Anteil von 37,50 % auf 62,50 %. Die Verteilungsfunktion hat somit die Geradengleichung y = 37, 50 + 62, 50 − 37, 50 (x − 1400) 1600 − 1400 Der Median x0.5 ist der Schnittpunkt dieser Geraden mit der Geraden y = 50. Aus y = 37, 50 + 62, 50 − 37, 50 (x0.5 − 1400) = 50 1600 − 1400 folgt 1600 − 1400 = 1500 62, 50 − 37, 50 Das lässt sich auch aus der Zeichnung der Verteilungsfunktion ablesen. Zwischen 1600 und 2000 wächst der Anteil von 62,50 % auf 87,50 %. Die Verteilungsfunktion hat somit die Geradengleichung x0.5 = 1400 + (50 − 37, 50) y = 62, 50 + 87, 50 − 62, 50 (x − 1600) 2000 − 1600 Das obere Quartil x0.75 ist der Schnittpunkt dieser Geraden mit der Geraden y = 75. Aus 87, 50 − 62, 50 (x0.75 − 1600) = 75 y = 62, 50 + 2000 − 1600 folgt 2000 − 1600 x0.75 = 1600 + (75 − 62, 50) = 1800 87, 50 − 62, 50 Das lässt sich auch aus der Zeichnung der Verteilungsfunktion ablesen. d) Bestimmen Sie die Lorenzkurve und berechenen Sie den Gini-Koeffizient. Beide Lösungen befinden sich in der Abbildung 3.4. Der Gini-Koeffizient ist mit 0,178 ziemlich klein, die Streuung der Einkommen also eher gering. 49 3 Maßzahlen einer Verteilung Abbildung 3.4: Lorenzkurve 50 Index arithmetischen Mittel, 33 Bestandsmasse, 9 Bewegungsmasse, 9 Datenmatrix, 11 empirische Dichtefunktion, 23 Ereignismasse, 9 Fragebogen, 8 Fragebogen:geschlossene Fragen, 8 Fragebogen:Mehrfachfrage, 8 Fragebogen:offene Fragen, 8 Gini-Koeffizient, 25 Gini-Koeffizient:normiert, 26 Grundgesamtheit, 7, 9 Häufigkeitstabelle, 16 Histogramm, 23 Klassen, 22 Kreisdiagramm, 17 Lagemaßen, 30 Lorenz-Kurve, 24 Median, 31 Mehrfachantworten, 11 Merkmal:binär, 15 Merkmal:dichotom, 15 Merkmal:diskretes metrisches, 10 Merkmal:diskretes stetiges, 10 Merkmal:metrisches, 10 Merkmal:nominal, 9 Merkmal:ordinales, 10 Merkmal:qualitatativ, 9 Merkmal:quantitativ, 9 Merkmal:quantitatives, 10 Merkmale, 9 Merkmalsausprägungen, 9 Merkmalsträger, 8, 9 Mittelwert, 33 Modus, 30 Quantil, 34 Quartil:oberes, 35 Quartil:unteres, 35 Säulendiagramm, 17 Schiefemaßen, 30 Stabdiagramm, 17 Standardabweichung, 38 Standardabweichung:empirische, 38 Statistische Einheit, 8 Stichprobe, 7 Stichprobenvarianz, 38 Streuungsmaßen, 30 Tortendiagramm, 17 Urliste, 15 Varianz, 38 Varianz:empirische, 38 Variationskoeffizient, 41 Verteilungsfunktion:approximierende empirische, 24 Vollerhebung, 7 51