Skript zur Vorlesung Statistik

Werbung
Skript zur Vorlesung Statistik
Dietrich Baumgarten
«9. April 2009
Inhaltsverzeichnis
1 Grundlagen
1.1 Die zwei Begriffe der Statistik . . . . . . . . . . . . .
1.2 Gliederung einer statistischen Erhebung . . . . . . .
1.3 Fragebögen . . . . . . . . . . . . . . . . . . . . . . .
1.4 Statistische Einheit, Grundgesamtheit und Merkmale
1.5 Messen und Skalenniveaus . . . . . . . . . . . . . . .
1.6 Mehrfachfragen . . . . . . . . . . . . . . . . . . . . .
1.7 Die Datenmatrix . . . . . . . . . . . . . . . . . . . .
1.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
8
8
9
11
11
12
2 Univariate Analyse
2.1 Darstellung univariater Datensätze . . . .
2.2 Darstellung eines qualitativen Merkmals .
2.2.1 Häufigkeitstabellen . . . . . . . . .
2.2.2 Grafische Darstellung . . . . . . . .
2.3 Darstellung ordinaler Merkmale . . . . . .
2.4 Darstellung quantitativer Merkmale . . . .
2.4.1 Diskrete Merkmale . . . . . . . . .
2.4.2 Empirische Verteilungsfunktion . .
2.4.3 Grafische Darstellung . . . . . . . .
2.5 Stetige Merkmale . . . . . . . . . . . . . .
2.5.1 Histogramme . . . . . . . . . . . .
2.5.2 Verteilungsfunktion . . . . . . . . .
2.6 Die Lorenz-Kurve . . . . . . . . . . . . . .
2.6.1 Der Gini-Koeffizient . . . . . . . .
2.6.2 Der normierte Gini-Koeffizient . . .
2.6.3 Lorenz-Kurve bei klassierten Daten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
16
16
17
18
19
20
21
21
22
23
24
25
26
27
3 Maßzahlen einer Verteilung
3.1 Modus . . . . . . . . . . . . . . . . . . . .
3.2 Median . . . . . . . . . . . . . . . . . . . .
3.2.1 Median aus Häufigkeitstabelle . . .
3.2.2 Median bei klassierten Daten . . .
3.2.3 Eigenschaften des Medians . . . . .
3.3 Das arithmetische Mittel . . . . . . . . . .
3.4 arithmetisches Mittel bei klassierten Daten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
30
31
31
32
33
33
34
3
Inhaltsverzeichnis
3.5
3.6
Eigenschaften des arithmetischen Mittels . .
Quantile . . . . . . . . . . . . . . . . . . . .
3.6.1 Quantile bei klassierten Daten . . . .
3.7 Maßzahlen für die Variabilität . . . . . . . .
3.7.1 Mittlere absolute Abstände . . . . .
3.7.2 Die Varianz . . . . . . . . . . . . . .
3.7.3 Stichprobenvarianz . . . . . . . . . .
3.7.4 Die Standardabweichung . . . . . . .
3.7.5 Andere Berechnungsformeln . . . . .
3.7.6 Klassizierte Daten . . . . . . . . . .
3.8 Transformationseigenschaften der Maßzahlen
3.9 Der Variationskoeffizient . . . . . . . . . . .
3.10 Aufgaben . . . . . . . . . . . . . . . . . . .
3.11 Probe-Klausur . . . . . . . . . . . . . . . . .
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
34
36
37
37
38
38
39
39
39
40
41
42
46
Abbildungsverzeichnis
2.1
2.2
2.3
2.4
2.5
Torten- und Säulendiagramm . . . . .
Stabdiagramm und Verteilungsfunktion
Histogramm . . . . . . . . . . . . . . .
Lorenz-Kurve . . . . . . . . . . . . . .
Arbeitsblatt für Lorenz-Kurve . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
22
24
25
28
3.1
3.2
3.3
3.4
Häufigkeitstabelle des Zigarettenkonsums . . . . . . . . . . . . .
Stabdiagramm und Verteilungsfunktion des Zigarettenkonsums.
Häufigkeitstabelle und Histogramm sowie Verteilungsfunktion. .
Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
49
50
5
Tabellenverzeichnis
6
1.1
1.2
1.3
Merkmale von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . .
Eine Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabelleüber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
12
12
2.1
2.2
2.3
2.4
2.5
2.6
2.7
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Gewer. . . . .
. . . . .
16
17
18
19
20
23
2.8
Häufigkeitstabellen qualitativer Merkmale . . . . . . . . . . . .
Wahlverhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Beispiel einer Häufigkeitstabelle . . . . . . . . . . . . . . . . . .
Häufigkeitstabelle des Merkmals »Anzahl der Geschwister« . . .
Häufigkeitstabelle eines stetigen Merkmals . . . . . . . . . . . .
Verteilung der Beschäftigten auf Arbeitsstätten im Produzierten
be. BRD 1970 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
Notenverteilung Damen . . . . . . . . . . . . .
Notenverteilung Herren . . . . . . . . . . . . .
Häufigkeitstabelle eines stetigen Merkmals . .
Häufigkeitstabelle eines stetigen Merkmals . .
Häufigkeitstabelle eines stetigen Merkmals . .
Zinsen und Preisanstiegsraten in der EU 1991
Notenverteilung der Teilnehmer . . . . . . . .
Gewaltfilme . . . . . . . . . . . . . . . . . . .
Studiendauer von 75 Studenten in Semester .
Größe von Haushalten, BRD 1970 . . . . . . .
Fiktive Einkommen . . . . . . . . . . . . . . .
Fiktive Einkommen . . . . . . . . . . . . . . .
Einkommensverteilung BRD 1970 bis 1993 . .
Fiktive Einkommen . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
32
32
36
40
42
43
43
44
44
45
45
46
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
1 Grundlagen
Blah.
1.1 Die zwei Begriffe der Statistik
In der Umgangssprache hat das Wort »Statistik« seinen Platz an zweierlei Orten gefunden: Zunächst kann damit eine Zusammenstellung von Zahlen oder Daten gemeint sein,
wie z.B. die:
• Bevölkerungsstatistik
• Personalstatistik
• Sozialversicherungsstatistik
Des weiteren umfasst der Begriff »Statistik« die Gesamtheit aller Methoden zur Untersuchung von Massenerscheinungen. Es können z.B. untersucht werden:
• Veränderungen des Heiratsmarktes
• Regionale Variation der Scheidungsraten
• Veränderungen der Haushaltsstruktur
1.2 Gliederung einer statistischen Erhebung
Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.B.
die Wahlberechtigten zur Bundestagswahl 2009, bilden die so genannte Grundgesamtheit. Bei einer Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei
Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine so genannte Stichprobe. Die richtige Auswahl der Stichprobe hat große Bedeutung für die Übertragung der
gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel der Bundestagswahl muss
eine Teilerhebung alle gesellschaftlichen Strömungen der wahlberechtigten Bevölkerung
widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten Kriterien aus
aussuchen, oder aber die Auswahl dem Zufall überlassen. Eine hinreichend große Zufallsstichprobe wird in der Regel durchaus repräsentativ für die Grundgesamtheit sein.
Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der Datenerhebung. Man kann Daten durch Beobachtung und durch Befragung gewinnen.
7
1 Grundlagen
Daten können durch schriftliche oder mündliche Befragung erhoben werden, wobei die
mündliche Befragung persönlich oder über Telefon erfolgen kann. Die Auswahl sollte sich
danach richten, was am besten für das Ziel der Untersuchung geeignet ist. Die erfassten
Daten werden in der Regel in einer Datenbank erfasst und von geeigneten Programmen
wie SAS oder SPSS ausgewertet und geeignet dargestellt, etwa in Form von Tabellen
oder Diagrammen. In vielen Fällen reicht für die Erfassung, Auswertung und Darstellung
schon EXCEL.
Bei der Auswertung unterscheidet man zwischen schließender und beschreibender
(deskriptiver) Statistik. Die schließende Statistik ist stark mathematisch orientiert und
beschäftigt sich damit, welche Schlüsse von einer Stichprobe auf die Grundgesamtheit
möglich sind. Im Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die
Stimmanteile der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe
erfolgt meist in der Form von so genannten Konfidenzintervallen in der Form: mit eine
Wahrscheinlichkeit von 99% wird die CDU einen Stimmanteil zwischen 33% und 36%
haben.
Die beschreibende Statistik stellt die erhobenen Daten in geeigneter Form dar und
liefert Informationsverdichtung durch spezielle Kennzahlen wie Median und Mittelwert
sowie Standardabweichung.
1.3 Fragebögen
Die Erhebung basiert in der Regel Fragen, die dem Umtersuchungsziel angepasst sind.
Die einzelnen Fragen werden zu einem Fragebogen zusammengefasst. Ein Dozent befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Größe, Gewicht, Anzahl der Geschwister und Schulbildung, sowie nach dem Rauchverhalten und
den Hobbies, wobei hier die vier Mehrfachantworten »Sport«, »Sprachen«, »Reisen« und
»andere Hobbies« zugelassen sind. Außerdem soll jeder Teilnehmer die Mensa bewerten.
Man unterscheidet offene und geschlossene Fragen. Bei geschlossenen Fragen muss
eine Antwort aus einer Liste ausgewählt werden, das trifft auf die Fragen nach Geschlecht, Alter, Gewicht und Größe zu. Die Bewertung der Mensa ist eine offene Frage,
die sicherlich zu sehr unterschiedlichen Antworten führt und deshalb statistisch kaum
auszuwerten ist.
Die Befragung nach dem Hobby ist eine Mehrfachfrage, da jede Antwortmöglichkeit
angekreuzt werden kann. Jede Antwortmöglichkeit einer Mehrfachfrage wird als Frage
für sich behandelt.
1.4 Statistische Einheit, Grundgesamtheit und
Merkmale
Zur Beschreibung statistischer Erhebungen werden folgende Begriffe benutzt:
• Statistische Einheit oder Merkmalsträger: Dieser Begriff beinhaltet Personen
oder Gegenstände, aber auch Ereignisse wie Geburten oder Sterbefälle.
8
1.5 Messen und Skalenniveaus
• Grundgesamtheit. So wird die Menge aller der statistischen Einheiten genannt.
• Bestandsmasse: Besitzen die statistischen Einheiten der Grundgesamtheit eine
längeren Bestand, so spricht man von einer Bestandsmasse. Die Erfassung erfolgt
zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer
Stadt sind typische Bestandsmassen, eine Befragung erfasst den Zustand in einem
bestimmten Augenblick.
• Bewegungsmasse oder Ereignismasse: Die statistische Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder
Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum
hinweg erfasst.
• Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter
oder Haarfarbe bei Personen, werden Merkmale genannt.
• Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die
beiden Ausprägungen weiblich und männlich und das Alter ist eine natürliche Zahl.
Je nach Fragestellung können Personen, Länder, Wertpapiere oder Krankheiten statistische Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene
Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die statistischen Einheiten oft auch als Merkmalsträger bezeichnet werden.
Weitere Beispiele für Merkmale sind die Konfession mit den Ausprägungen wie »RK
(römisch katholisch)«, »EKD (evangelische Kirche Deutschlands)« oder »andere«. Bei
einer Wohnung gibt es Merkmale wie Anzahl der Zimmer, Größe im qm, Balkon usw.
mit Ausprägungen wie »4«, »80 qm« und »keiner«.
Merkmale werden mit großen lateinischen Buchstaben wie etwa X bezeichnet, die
zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index
verwendet wird, also x1 , x2 , x3 , . . ., xn .
1.5 Messen und Skalenniveaus
Merkmale unterscheiden sich in zwei große Kategorien, qualitatativ und quantitativ.
Qualitative Merkmale können nur benannt werden, die Zuordnung eines Zahlenwerts ist
nicht sinnvoll. Dies trifft auf Merkmale wie Geschlecht mit den Ausprägungen »w« und
»m« und auf Konfession mit den erwähnten Ausprägungen »RK«, »EKD« und »andere«
zu. Bei der Erfassung werden qualitative Merkmalsausprägungen meistens durch Zahlwerte kodiert, etwa 0 für »w« und 1 für »m«, das ändert aber nichts an der prinzipiell
zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur benennen kann,
werden diese Art der qualitativen Merkmale nominal genannt. Man spricht auch von
einem nominalskalierten Merkmal.
9
1 Grundlagen
Es gibt aber noch eine zweite Sorte von qualitativen Merkmalen, die so genannten
ordinalen. Auch hier sind Zahlenwerte nicht sinnvoll, aber die Ausprägungen lassen
sich nach einer Skala ordnen. Das trifft z.B. auf Abschlussnoten zu, sehr gut ist besser
als gut, gut besser als befriedigend, usw. Man spricht von einem ordinalskalierten oder
kurz ordinalem Merkmal.
Die Ausprägungen von quantitativen Merkmalen sind Zahlenwerte, etwa das Merkmal Alter oder das Merkmal Anzahl der Geschwister einer Person. Sind bei einem Merkmal die Ausprägungen Zahlen, bei denen Abstände und Verhältnisse sinnvoll interpretiert werden können, so spricht man von einem metrischen Merkmal. Auch die Größe
und Gewicht sind metrische Merkmale, unterscheiden sich aber vom Alter oder der Anzahl der Geschwister in einer wesentlichen Eigenschaft. Während das Alter nur endlich
viele diskrete Werte annehmen kann, liegen die Werte der Körpergröße stetig über ein
ganzes Intervall verteilt. Die eine Sorte metrischer Merkmale heißt daher diskret, die
andere stetig.
Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen, danach
entscheiden ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es
ordinal genannt, sonst nominal. Bei einem quantitativen Merkmal ist zu untersuchen
ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von
einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall
verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal
als kategoriell bezeichnet.
Wir unterscheiden also metrische Merkmale zwischen diskret und stetig und qualitative Merkmale zwischen nominal und ordinal. Die folgenden Merkmale sind diskret
und metrisch: Zahl der Geschwister einer Person, Einwohnerzahl von Köln, Anzahl von
Studenten einer Hochschule. Die bei der Bundestagswahl antretenen Parteien bilden ein
nominales Merkmal, die von den einzelnen Parteien erzielten Abgeordnetensitze dagegen ein diskretes metrisches Merkmal. Körpergröße und Gewicht Alter einer Person sind
stetige metrische Merkmale, deren mögliche Werte z.B. 1,80 m und 78 kg sein können.
Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und
deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantifiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während
bei ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit der Berechnung von Mittelwerten, aber auch anderer statistischer Maßzahlen.
Mittelwerte sowie andere statistische Maßzahlen und deren Anwendbarkeit bei den drei
Merkmalskategorien werden noch ausführlich behandelt.
Die folgende Tabelle fasst die diskutierten Kategorien von Merkmalen zusammen,
wobei bei metrischen Merkmalen nicht zwischen stetig und diskret unterschieden wird.
10
1.6 Mehrfachfragen
Tabelle 1.1: Merkmale von Merkmalen
MerkmalsKategorie
Eigenschaften
der Ausprägungen
Beispiele
zulässige Lageparameter
Nominale Merkmale
Ordinale Merkmale
Metrische Merkmale
keine Rangfolge
natürliche Rangfolge
reelle Zahlenwerte
Wohnort
Noten
Temperatur
Modus
Modus und Median
alle Mittelwerte
1.6 Mehrfachfragen
Bei der Befragung nach dem Hobby kann mehr als eine der vorgegebenen Antwortmöglichkeiten angekreuzt werden. Man spricht von Mehrfachantworten. In diesem Fall
wird jeder möglichen Antwort ein eigenes Merkmal zugeordnet. Die einzelnen Fragen
sind dann so zu stellen, dass man immer eine Antwort wie etwa ja und nein erhält:
Bei der Mehrfachfrage nach dem Hobby werden etwa folgende Antworten vorgegeben :
Sport J/N [ ]
Reisen J/N [ ]
Andere J/N [ ]
Dann gibt es die Merkmale »Sport«, »Reisen« und »Andere« mit den Merkmalsausprägungen »ja« und »nein«.
1.7 Die Datenmatrix
In den Spalten stehen die Merkmale, die sich auf die jeweiligen Personen bzw. statistischen Einheiten beziehen, die in den Zeilen (unter der Spalte ID) ihren Platz gefunden
haben. Es ist im allgemeinen so, dass die Rohdaten aus einer Befragung codiert werden,
d.h. anstatt für Person unter Sex »weiblich« zu notieren wird eine 0 geschrieben, für
»männlich« entsprechend eine 1, weil dies für die EDV leichter zu erfassen ist.
In der folgenden Datenmatrix gibt es das nominale Merkmal U für das Geschlecht,
das ordinale Merkmal Z für den Schulabschluss und das metrische Merkmal V für das
Alter. Die nominalen Merkmale der Hobbies werden mit Y1 , Y2 und Y3 bezeichnet, wobei der gemeinsame Buchstabe »Y« darauf hinweist, dass es sich um Merkmale einer
Mehrfachfrage handelt.
Ich habe hier die dritte Antwort der Mehrfachfrage weggelassen.
11
1 Grundlagen
Tabelle 1.2: Eine Datenmatrix
ID X (Sex)
1
2
3
4
5
V (Alter)
1 männlich 27
0 weiblich 54
1
34
0
16
0
15
Y1 (Sport)
Y2 (Reisen)
Z (Schulabschluss)
1 Ja
1
1
0 Nein
0
1 Ja
1
0 Nein
1
1
3
3
4
2
1
Mittlere Reife
Abitur
Hauptschule
nichts
1.8 Aufgaben
Aufgabe 1. (Script hd) Piefkes in Austria. Aus der Statistik des Landes Tirol ergibt sich, dass sich jedes Jahr viele Piefkes - Fachbegriff für den typischen deutschen
Austria-Urlauber - beiderlei Geschlechts und jeglicher Bundesländer in den österreichischen Alpen verirren oder in Bergnot geraten und von Bergwachten gerettet werden
müssen. Man trage die Begriffe Grundgesamtheit, statistische Einheit, Merkmal, Merkmalsausprägung, Merkmalswert korrekt in die folgende Tabelle ein:
Tabelle 1.3: Tabelleüber
Bayer
Piefkes
Geschlecht verirrter
Piefke
weiblich
Zahl verirrter
Piefkes
Aufgabe 2. ((HH-Script) Zur Verbesserung der Personalplanung wird ein Mitarbeiter
beauftragt, Daten über alle Beschäftigten zusammenzutragen, die sich unter anderem
auf das Alter, das Geschlecht, die Stellung im Unternehmen, die Dauer der Unternehmenszugehörigkeit und das Gehalt beziehen sollen.
a) Was ist die statistische Einheit der Untersuchung?
b) Was ist die statistische Gesamtheit (Masse, Population)?
c) Welcher Art sind die oben erwähnten Merkmale?
d) Welches sind mögliche Ausprägungen dieser Merkmale?
Aufgabe 3. (HH-Script) Um die Auswirkungen der kommenden Tarifabschlüsse auf
die eigenen Lohn- und Gehaltszahlungen abschätzen zu können, führt die Firma Nagel,
Holz & Co. bei 100 ihrer 500 Beschäftigten eine Erhebung durch, bei der Alter, Tarifklasse, außertarifliche Zahlungen und Geschlecht festgestellt werden.
a) Geben Sie die Grundgesamtheit der Erhebung an.
b) Welcher Art sind die angeführten Merkmale?
12
1.8 Aufgaben
c) Geben Sie mögliche Merkmalsausprägungen dieser Merkmale an.
Aufgabe 5. (HH-Script) Bei einer im Jahre 1800 weltweit durchgeführten Erhebung
erhielt man u.a. folgende Angaben (vergl. Schlittgen)
Carl Friedrich Gauß, *1777, ledig, Stipendiat
Johann Wolfgang von Goethe, *1749, ledig, Theaterdirektor
Pierre Simon Laplace, *1749, verheiratet, Senator
Immanuel Kant, *1724 , ledig, Professor
Napoleon Bonaparte, *1769, verheiratet, Soldat
a) Geben Sie die Merkmale an, die bei dieser Erhebung untersucht worden sind.
b) Welcher Art sind diese Merkmale?
13
2 Univariate Analyse
Statistik beschäftigt sich mit Populationen. In der beschreibenden Statistik betrachten
wir alle Merkmalsträger einer Population und stellen die Verteilung eines oder mehrerer
Merkmale dar. Die Verteilung eines Merkmals zeigt, wie sich die Merkmalsträger auf
die einzelnen Merkmalsausprägungen verteilen. Man zählt also, wie oft die Merkmalsausprägungen in der Population vorkommen. Die Statistik wird deshalb auch die Lehre
von den Verteilungen genannt. In diesem Kapitel werden wir jeweils nur ein Merkmal
betrachten. Man spricht auch von univariater Datenanalyse.
2.1 Darstellung univariater Datensätze
Bei jeder Datenanalyse will man den Datensatz übersichtlich darstellen. Besteht dieser
aus wenig Beobachtungen, so reicht es aus, diese aufzuzählen. Bei vielen oder sehr vielen
Beobachtungen liefert die Aufzählung keinen Überblick über die Struktur des Datensatzes. Hier sollte man eine Tabelle oder eine Grafik erstellen. Wir werden auf den folgenden
Seiten lernen, wie man dabei vorzugehen hat.
2.2 Darstellung eines qualitativen Merkmals
Qualitative Merkmale zeichnen sich dadurch aus, dass die Merkmalsausprägungen Kategorien sind. Dabei sind die Kategorien bei einem nominalskalierten Merkmal ungeordnet
und bei einem ordinalskalierten Merkmal geordnet. Nominal- und ordinalskalierte Merkmale werden bis auf einen Ausnahme auf die gleiche Art und Weise dargestellt. Bei
ordinalskalierten Merkmalen erlaubt die Ordnungsstruktur eine weitere Darstellung.
Wir betrachten ein qualitatives Merkmal mit n Merkmalsausprägungen, die wir mit
x1 , x2 , . . ., xn bezeichnen.
Bei der Datenanalyse interessiert uns, wie viele Merkmalsträger die einzelnen Merkmalsausprägungen aufweisen. Wir sprechen von der absoluten Häufigkeit n(xi ) der Merkmalsausprägung xi , i = 1, . . . , n. Für n(xi ) schreiben wir kurz ni . Ob der Wert einer
absoluten Häufigkeit klein oder groß ist, hängt von der Anzahl n der Merkmalsträger
ab. Sind 8 Personen von 10 Personen weiblich, so ist das viel; sind hingegen 8 Personen
von 100 Personen weiblich, so ist dies wenig. Wir beziehen die absolute Häufigkeit einer Merkmalsausprägung auf die Anzahl der Merkmalsträger und erhalten die relative
Häufigkeit dieser Merkmalsausprägung.
relative Häufigkeit =
14
absolute Häufigkeit
Anzahl Merkmalsträger
2.2 Darstellung eines qualitativen Merkmals
Wir bezeichnen die relative Häufigkeit der i-ten Merkmalsausprägung mit f (xi ). Hierfür
schreiben wir kurz fi . Es gilt also
ni
fi =
n
Die relative Häufigkeit einer Merkmalsausprägung ist genau dann gleich 0, wenn sie kein
Merkmalsträger aufweist; sie ist hingegen genau dann gleich 1, wenn sie alle Merkmalsträger besitzen. Da dies die beiden Extremfälle sind, gilt für i = 1, . . . , k:
0 ≤ fi ≤ 1.
Ausderdem gilt
f1 + f2 + · · · + fk =
n
X
fi = 1
i=1
Multiplizieren wir die relativen Häufigkeiten mit 100, so erhalten wir Prozentangaben.
Die Summe aller Prozentangaben ergibt den Wert 100.
Beispiel:
Das Merkmal X nimmt die Ausprägung »j« an, wenn eine Person den Satz
Zu Risiken und Nebenwirkungen
richtig fortsetzen kann. Ansonsten nimmt es die Ausprägung »n« an. Bei 25 Personen ergab sich folgende so genannte Urliste
nnjnnjnnjnjnjjnnnnnnjjnjj
In dieser Form können wir die Struktur nicht erkennen. Wir bestimmen deshalb die
relativen Häufigkeiten. Hierzu erstellen wir eine Strichliste:
j: ||||| |||||
n: ||||| ||||| |||||
Es gilt also n1 = 10 und n2 = 15. Die relative Häufigkeit der Merkmalsausprägungen sind »j« ist f1 = 10/25 = 0, 4 und die relative Häufigkeit der Merkmalsausprägung
»n« gleich f2 = 15/25 = 0, 6.
Wir haben im letzten Beispiel ein qualitatives Merkmal mit zwei Merkmalsausprägungen betrachtet. Man spricht auch von einem binären oder dichotomen Merkmal. Bei
einem binären Merkmal muss man nur die relative Häufigkeit einer der beiden Merkmalsausprägungen angeben, da sich die zweite dadurch ergibt, dass die Summe beider
relativer Häufigkeiten gleich 1 ist. Bei einem binären Merkmal ist es also nicht nötig,
eine Tabelle oder Grafik zu erstellen. Hier reicht es völlig aus, die relative Häufigkeit in
Form einer Prozentangabe in den Fließtext zu integrieren. Man würde das Ergebnis der
Befragung also folgendermaßen zusammenfassen:
15
2 Univariate Analyse
Nur 40 Prozent der Teilnehmer konnten den Satz richtig vollenden.
Oft werden die Häufigkeiten von Merkmalen mit mehr als zwei Merkmalsausprägungen
in Satzform angegeben, etwa so:
Bei der Bundestagswahl 2002 erhielt die CDU/CSU 38.5, die SPD 38.5, die FDP 7.4
und die GRÜNEN 8.5 Prozent der Zweitstimmen.
2.2.1 Häufigkeitstabellen
In der Regel wird man die Tabelle nicht in den Text integrieren. Man wird eine Häufigkeitstabelle erstellen. Der allgemeine Aufbau einer Häufigkeitstabelle ist in Tabelle
2.1 zu finden.
Tabelle 2.1: Häufigkeitstabellen qualitativer Merkmale
Merkmalsausprägungen
absolute Häufigkeit
relative Häufigkeit
x1
x2
..
.
xi
..
.
xn
n1
n2
f1
f2
ni
fi
nn
fk
Da es schwierig ist, Nachkommastellen zu vergleichen, sollte man für relative Häufigkeiten Prozentangaben verwenden.
Beispiel:
Im Wintersemester 1996/1997 wurden die Erstsemester gefragt, welche Partei sie wählen würden, wenn am nächsten Sonntag Bundestagswahl wäre. Tabelle 2.2 enthält die
Häufigkeitsverteilung des Wahlverhaltens der Studentinnen.
Um eine einheitliche Darstellung zu erhalten, wurde auch bei Zahlen mit zwei Dezimalstellen vor dem Dezimalpunkt eine Stelle nach dem Dezimalpunkt angegeben.
2.2.2 Grafische Darstellung
Da ein Bild mehr als 1000 Worte oder Zahlen sagt, stellt man die in einer Häufigkeitstabelle enthaltene Information grafisch dar. Dabei ordnet man den Häufigkeiten Längen
von Strecken oder Flächeninhalte zu, die proportional zu ihnen sind. Hierfür gibt es eine
Reihe von Möglichkeiten. Aus Zeitungen und Zeitschriften kennt man das Kreisdiagramm, das auch Tortendiagramm genannt wird. Bei diesem werden die absoluten
16
2.3 Darstellung ordinaler Merkmale
Tabelle 2.2: Wahlverhalten
Wahl
absolute Häufigkeit
relative Häufigkeit (in Prozent)
CDU
SPD
FDP
13
10
3
20
15,4
4,6
GRÜNE
keine
weiss nicht
11
5
23
16,9
7,7
35,4
oder relativen Häufigkeiten durch Flächen von Kreissegmenten dargestellt. Dabei ist die
einer Merkmalsausprägung zugeordnete Fläche proportional zur relativen Häufigkeit.
Bei einem Stabdiagramm und einem Säulendiagramm stehen in einem kartesischen Koordinatensystem auf der Abszisse die Merkmalsausprägungen und auf der Ordinate die relativen oder auch absoluten Häufigkeiten. Wird über jeder Merkmalsausprägung eine senkrechte Linie abgetragen, deren Länge der absoluten oder relativen Häufigkeit der Merkmalsausprägung entspricht, so spricht man von einem Stabdiagramm.
Zeichnet man anstatt der Linie eine Säule, so spricht man vom Säulendiagramm. Bei
Stab- und Säulendiagrammen kann man die Häufigkeiten sehr gut vergleichen. Außerdem kann man sie ablesen. Wir verwenden im Folgenden Säulen- und Stabdiagramme,
fast nie Tortendiagramme. Warum zeigt die Abbildung 2.1, wo im direkten Vergleich die
Überlegenheit der Säulendiagramme offensichtlich wird.
Abbildung 2.1: Torten- und Säulendiagramm
2.3 Darstellung ordinaler Merkmale
Schauen wir uns ordinalskalierte Merkmale an. Bei diesen lassen sich die Merkmalsausprägungen x1 , x2 , . . . , xn der Größe nach ordnen. Deshalb können wir die absoluten
17
2 Univariate Analyse
und relativen Häufigkeiten kumulieren. Das heißt, dass wir die Summe der ersten beiden absoluten beziehungsweise relativen Häufigkeiten bilden, dann die Summe der ersten drei und so weiter. Wir erhalten die kumulierten absoluten Häufigkeiten und
kumulierten relativen Häufigkeiten. Sind x1 , x2 , . . . , xk die geordneten Merkmalsausprägungen, so bestimmen wir die i-te kumulierte absolute Häufigkeit durch
Ni = n1 + n2 + · · · + ni
und die i-te kumulierte relative Häufigkeit durch
Fi = f1 + f2 + · · · + fi
Wir ergänzen die Häufigkeitstabelle eines ordinalen Merkmals um eine Spalte, die die
kumulierten relativen Häufigkeiten enthält. Der allgemeine Aufbau einer Häufigkeitstabelle eines ordinalskalierten Merkmals ist in Tabelle 2.3 zu finden.
Tabelle 2.3:
Merkmalsaus- Absolute H.
prägungen
Kumulierte
absolute H.
Relative H.
Kumulierte
relative H.
x1
x2
usw
xi
usw
xn
n1
n2
N1
N2
f1
f2
F1
F2
ni
Ni
fi
Fi
nn
Nn
fn
Fn
Beispiel:
Die Teilnehmer einer Weiterbildungsveranstaltung wurden gefragt, wie ihnen der Film
Titanic gefallen hat. Da »sehr gut« besser als »gut« und »gut« besser als »mittelmäßig«
ist, sind die Merkmalsausprägungen geordnet. Die Häufigkeitstabelle des Merkmals Bewertung steht in Tabelle 2.4. Den kumulierten relativen Häufigkeiten können wir unter
anderem entnehmen, dass 88 Prozent der Teilnehmer den Film mindestens gut finden.
Grafisch lassen sich ordinale Merkmale am besten durch ein Balkendiagramm darstellen, wobei die Merkmalsausprägungen geordnet auf der Abszisse aufgetragen werden
und die Höhen der Säulen den relativen Häufigkeiten entsprechen.
2.4 Darstellung quantitativer Merkmale
Die Merkmalsausprägungen quantitativer Merkmale sind Zahlen, mit denen man rechnen
darf. Im Verhältnis zu qualitativen Merkmalen gibt es deshalb viel mehr Möglichkeiten,
18
2.4 Darstellung quantitativer Merkmale
Tabelle 2.4: Beispiel einer Häufigkeitstabelle
Bewertung
Absolute H.
Kumulierte
absolute H.
Relative H.
Kumulierte
relative H.
sehr gut
gut
mittelmäßig
6
9
2
6
15
17
0, 35
0,53
0,12
0,35
0,88
1
die Verteilung quantitativer Merkmale darzustellen und zu beschreiben. Ausgangspunkt
der Analyse quantitativer Merkmale ist die Urliste x1 , x2 , . . ., xn , wobei xi die Merkmalsausprägung des i-ten Merkmalsträgers ist.. Auch bei quantitativen Merkmalen bestimmen wir absolute Häufigkeiten. Bei diskreten Merkmalen gehen wir genauso vor
wie bei ordinalskalierten Merkmalen, während die Natur stetiger Merkmale eine andere
Vorgehensweise fordert.
2.4.1 Diskrete Merkmale
Die Anzahl Ausprägungsmöglichkeiten diskreter Merkmale ist endlich oder abzählbar
unendlich. In der Praxis fassen wir Merkmale als diskret auf, die wenig Merkmalsausprägungen besitzen. So ist etwa das Merkmal »Anzahl Geschwister« ein quantitatives Merkmal mit wenigen Merkmalsausprägungen, also ein diskretes Merkmal. Weitere Beispiele
sind die merkmale Zimmer einer Wohnung oder Geschosse eines Gebäudes.
Da die Urliste unübersichtlich ist, ordnen wir den Datensatz der Größe nach und
ermitteln durch Auszählen die absoluten Häufigkeiten. Die geordneten Werte und ihre
Häufigkeiten werden wie bei ordinalen Merkmalen beschrieben in einer Häufigkeitstabelle
erfasst.
Beispiel:
Wir betrachten das Merkmal »Anzahl Geschwister«. Die Urliste sieht folgendermaßen
aus:
1 2 1 3 0 2 2 1 1 1 1 1 1 2 1 1 0 1 2 1
Sie ist sehr unübersichtlich. Deshalb bilden wir den geordneten Datensatz. Dieser lautet:
0 0 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3
An diesem können wir sofort den kleinsten Wert 0 und den größten Wert 3 erkennen.
Daraus stellen wir in der Häufigkeitstabelle zusammen, bei der wir noch die kumulierten
relativen Häufigkeiten berücksichtigen.
Hier können wir schon sehen, dass mehr als die Hälfte der Studierenden ein Geschwister
hat.
19
2 Univariate Analyse
Tabelle 2.5: Häufigkeitstabelle des Merkmals »Anzahl der Geschwister«
Anzahl Ge- Absolute
schwister
Häufigkeit
Kumulierte
absolute
Häufigkeit
Relative
Häufigkeit
Kumulierte
relative
Häufigkeit
0
1
2
3
2
14
19
20
0,1
0,6
0,25
0,05
0,1
0,7
0,95
1
2
12
5
1
2.4.2 Empirische Verteilungsfunktion
Quelle:
Die empirische Verteilungsfunktion beantwortet die Frage, welcher Anteil der
Daten ist kleiner oder gleich einem vorgegebenen Wert x. Vorausgesetzt wird, dass die
Werte xi der Größe nach angeordnet sind, wir benötigen also mindestens ordinalskalierte
Daten. Dann wird die empirische Verteilungsfunktion (kumulierte relative Häufigkeitsverteilung) eines Merkmals X wie folgt definiert: Bestimme für jede reelle Zahl x den
Anteil der Datenwerte, die kleiner oder gleich x sind. Also ist die Funktion
F (x) = Anteil der Werte xi mit xi ≤ x
die empirische Verteilungsfunktion oder kumulierte relative Häufigkeitsverteilung des
Merkmals X mit den beobachteten Merkmalsausprägungen xi . Sie hat folgende Eigenschaften:
• F ist eine monoton wachsende Treppenfunktion, die an den Stellen xi um die
entsprechende relative Häufigkeit fi nach oben springt.
• F (x) = 0 für alle x < x1 und F (x) = 1 für alle x ≥ xn
Mit der empirischen Verteilungsfunktion kann man relative Häufigkeiten für Intervalle
bestimmen. So erhält man den Anteil f (X > x) der Merkmalsträger, deren Merkmalsausprägung größer als der Wert x ist, durch:
f (X > x) = 1 − F (x)
Den Anteil f (a < X ≤ b) der Merkmalsträger, deren Merkmalsausprägung im Intervall
(a, b] liegt, bestimmt man durch
f (a < X ≤ b) = F (b) − F (a)
20
2.5 Stetige Merkmale
Ist das Merkmal X diskret und metrisch, so ergibt sich die empirische Verteilungsfunktion sofort aus der Häufigkeitstabelle des Merkmals.


0, wenn x < x1 ;
F (x) = Fi , wenn xi ≤ x < xi+1 ;


1, wenn x ≥ xk .
Vorausgesetzt wir dabei die Anordnung der Werte der Größe nach, d.h.
x1 < x2 < . . . < xi < . . . < xk .
Die empirische Verteilungsfunktion bei diskreten kardinalen Merkmalen hat also die
Form einer Treppenfunktion, wobei die Sprünge immer an den Ausprägungen xi erfolgen,
vgl. dazu die Abbildung 2.2. Die Höhe der Sprünge an den Sprungstellen ist gleich den
relativen Häufigkeiten der jeweiligen Merkmalsausprägungen.
Wir schauen uns die Häufigkeitstabelle des Merkmals »Anzahl Geschwister« in Tabelle 2.5 an. Die empirische Verteilungsfunktion des Merkmals Anzahl Geschwister sieht
folgendermaßen aus:


0,
wenn x < 0;




0, 1, wenn 0 ≤ x < 1;

F (x) = 0, 7, wenn 1 ≤ x < 2;



0, 95, wenn 2 ≤ x < 3;



1,
wenn x ≥ 3.
Der Anteil der Studierenden mit mehr als zwei Geschwistern ist also
f (X > 2) = 1 − F (2) = 1 − 0, 95 = 0, 05
2.4.3 Grafische Darstellung
Diskrete kardinale Merkmale lassen sich ebenfalls durch eine Säulendiagramm darstellen. Da die Merkmalswerte xi Zahlen sind, ist ein Stabdiagramm sinnvoller. Bei jedem
Wert xi trägt man parallel zur Ordinatenachse eine Strecke ab, deren Länge der relativen Häufigkeite ni entspricht. Bei n Merkmalsausprägungen sind also die n Strecken
(xi , 0)(xi , fi ) aufzutragen.
Für die empirische Verteilungsfunktion F (x) müssen dagegen die waagrechte Strecken
(xi , Fi )(xi+1 , Fi+1 eingezeichnet werden. Vor dem kleinsten Wert x1 ist die Funktion
konstant 0, nach dem größten Wert xn konstant 1.
In der Abbildung 2.2 ist links das Stabdiagramm zur Häufigkeitstabelle 2.4 abgebildet,
rechts daneben die empirische Verteilungsfunktion.
2.5 Stetige Merkmale
Stetige Merkmale können theoretisch alle Werte aus einem Intervall annehmen. In der
Praxis behandelt man quantitative Merkmale als stetig, die sehr viele Merkmalsausprägungen besitzen. Wie bei bei einem diskreten Merkmal bildet die Urliste x1 , . . . , xn bei
21
2 Univariate Analyse
Abbildung 2.2: Stabdiagramm und Verteilungsfunktion
einem stetigen Merkmal den Ausgangspunkt der Analyse. Die folgende Urliste gibt Auskunft über die Verteilung der Körpergröße von 20 Studentinnen und Studenten:
1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83
1,74, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83
Ein stetiges Merkmal wie die Körpergröße besitzt sehr viele Merkmalsausprägungen.
Eine Häufigkeitstabelle wie im Fall eines diskreten Merkmals wäre sehr unübersichtlich.
Aus diesem Grunde bildet man so genannte Klassen. Man fasst also mehrere Werte
zusammen. Wir bezeichnen die Untergrenze der i-ten Klasse mit xi−1 und die Obergrenze mit xi . Bis auf die erste Klasse gehört die Obergrenze zur Klasse, die Untergrenze
hingegen nicht. Die erste Klasse ist also [x0 , x1 ], während die i-te Klasse für i > 1 von
der Form (xi−1 , xi ] ist. Man spricht von einer links offenen und rechts abgeschlossenen
Klasse. Manchmal werden links abgeschlossene und rechts offene Klassen verwendet.
Wir werden in der Regel aber links offene und rechts abgeschlossene Klassen betrachten.
Wir bestimmen wie üblich für i = 1, 2, . . . , k die absolute Häufigkeit ni und die relative
Häufigkeit fi sowie die kumulierte Häufigkeit der i-ten Klasse. Diese Werte stellen wir
in der Häufigkeitstabelle zusammen. Der allgemeine Aufbau der Häufigkeitstabelle ist
beispielhaft in Tabelle 2.6 zu finden.
Ich werde die Anzahl aller Daten immer mit n und die Anzahl aller Klassen mit k
bezeichnen. In Beispiel der Körpergrößen ist somit n = 20 und k = 5.
Ich habe zu jeder Klasse die Breite angegeben, sie ergibt sich als Differenz von Obergrenze (OG) und Untergrenze (OG). Die individuellen Werte des Merkmals Körpergröße
werden in k = 5 Größenklassen eingeteilt. Die Breiten der einzelnen Klassen sind unterschiedlich.
2.5.1 Histogramme
Graphisch stellen wir die relativen Häufigkeiten mit einem Histogramm dar. Dabei
tragen wir in einem rechtwinkligen Koordiantensystem über jeder Klasse ein Rechteck
ab, dessen Fläche gleich der relativen Häufigkeit der Klasse ist. Um dies zu erreichen,
22
2.5 Stetige Merkmale
Tabelle 2.6: Häufigkeitstabelle eines stetigen Merkmals
Klasse
UG
OG
∆i
ni
fi
fˆi
Fi
1
2
3
4
5
1,50
1,65
1,75
1,85
1,95
1,65
1,75
1,85
1,95
2,10
0,15
0,10
0,10
0,10
0,15
2
6
7
4
1
0,10
0,30
0,35
0,20
0,05
0,67
3,00
3,50
2,00
0,34
0,10
0,40
0,75
0,95
1,00
wählen wir als Höhe des Rechtecks den Quotienten fˆi = aus relativer Häufigkeit fi und
Klassenbreite ∆i :
Die zugehörige Funktion heißt empirische Dichtefunktion. fˆ : R → R mit
(
fi
, für xi−1 ≤ x < xi
∆i
ˆ
f (x) =
0,
sonst.
Im Beispiel der Körpergrößen hat die dritte Klasse die Breite von 0,1 und die relative
Häufigkeit f3 = 7/20, somit ist fˆi = 7/(20·0, 1) = 3, 5. Genauso ergeben sich die anderen
Werte der Spalte fˆi . Die empirische Dichtefunktion lautet somit:

0, 667, für 1, 50 ≤ x < 1, 65





3, 0,
für 1, 65 ≤ x < 1, 75



3, 5,
für 1, 75 ≤ x < 1, 85
fˆ(x) =

2, 0,
für 1, 85 ≤ x < 1, 95





0, 334, für 1, 95 ≤ x < 2, 10



0,
sonst.
Die Abbildung 2.3 zeigt das zugehörige Histogramm.
2.5.2 Verteilungsfunktion
In der Abbildung 2.3 befindet sich noch eine zweite Funktion, und zwar die zugehörige
Verteilungsfunktion, deren Werte sich auf die rechte Ordinate beziehen.
Bei einem diskreten Merkmal gibt die empirische Verteilungsfunktion F (x) den Anteil der Merkmalsträger an, deren Merkmalsausprägung höchstens x beträgt. Wir wollen diese nun für ein stetiges Merkmal bestimmen. Wir nennen sie in Anlehnung an
Burkschat, Cramer und Kamps (2004) approximierende empirische Verteilungsfunktion F̂ (x). Den Wert der approximierenden empirischen Verteilungsfunktion an
den Obergrenzen der Klassen erhält man durch Summation der relativen Häufigkeiten,
also gilt
(
Fi , für i = 1, 2, . . . , k
F̂ (xi ) =
0, für i = 0.
23
2 Univariate Analyse
Abbildung 2.3: Histogramm
wobei die xi die Klassengrenzen sind. Diese Werte sind in der Abbildung 2.3 markiert. Die
Werte innerhalb der Klassen wird die empirische Verteilungsfunktion linear interpoliert,
sie besteht also aus lauter zusammenhängenden Geradenstücken, einem so genannten
Polygonzug. Somit gilt

für x ≤ x0 .

0,
Fi −Fi−1
F̂ (x) = Fi−1 + xi −xi−1 (x − xi−1 ) , für i = 1, 2, . . . , k


1,
für x ≥ xk .
Wegen fˆ(x) =
F̂ 0 (x) = fˆ(x).
fi
∆i
=
Fi −Fi−1
xi −xi−1
für xi−1 ≤ x < xi gilt außer an den Klassengrenzen
2.6 Die Lorenz-Kurve
Die Lorenz-Kurve wurde 1905 von dem amerikanischen Statistiker Max Otto Lorenz
zur grafischen Darstellung von statistischen Verteilungen und der Veranschaulichung
des Ausmaßes an Konzentration bzw. Ungleichheit eingeführt. Sie wird insbesondere zur
Analyse der Einkommensverteilung verwendet. Dabei werden die Einkommensbezieher
nach der Höhe ihres Einkommens geordnet und die kumulierten Anteile der Einkommensempfänger auf der Abszisse und darüber auf der Ordinate die kumulierten Anteile
am Gesamteinkommen abgetragen.
Bei einer vollkommenen Gleichverteilung der Einkommen wäre die Lorenz-Kurve Winkelhalbierende. Je ungleicher Einkommen bzw. Vermögen in der Bevölkerung verteilt
sind, desto stärker hängt die Lorenz-Kurve nach rechts unten durch.
Betrachten wir ein fiktives Land, wo die ärmsten 30 Prozent der Bevölkerung über 10
Prozent des Gesamteinkommens verfügen und die nächsten 20 Prozent der Bevölkerung
24
2.6 Die Lorenz-Kurve
auf weitere 15 Prozent des Gesamteinkommens kommen. Die nächsten 25 Prozent der
Bevölkerung haben am Gesamteinkommen einen Anteil von 30 Prozent und die letzten
25 Prozent teilen sich die restlichen 45 Prozent.
Werden die kumulierten Anteile der Bevölkerung mit Fi und die kumulierten Anteile
am Einkommen mit Qi bezeichnet, so ergibt sich die Lorenz-Kurve als streckenweise
Verbindung der Punkte (0, 0), (F1 , Q1 ), . . . , (Fn−1 , Qn−1 ), (1, 1). In unserem Fall sind
also die Punkte (0, 0), (0, 3, 0, 1), (0, 5, 0, 25), (0, 75, 0, 55) und (1, 1) durch Strecken zu
verbinden. Zur Veranschaulichung der Konzentration wird auch immer noch die Winkelhalbierende eingezeichnet. Je ungleicher Einkommen bzw. Vermögen in der Bevölkerung
verteilt sind, desto stärker hängt die Lorenz-Kurve nach rechts unten durch. In der Abbil-
Abbildung 2.4: Lorenz-Kurve
dung 2.4 ist links die Lorenz-Kurve des Beispiels zu sehen, rechts daneben befindet sich
der Extremfall der Ungleichverteilung, wo von k Einheiten die ersten k − 1 leer ausgehen
und das gesamte Einkommen auf die letzte Einheit fällt. Stärker kann die Lorenz-Kurve
bei k Einheiten nicht von der Winkelhalbierenden entfernt sein.
2.6.1 Der Gini-Koeffizient
Bei vollständiger Gleichverteilung der Einkommen wäre die Winkelhalbierende die LorenzKurve. Der Inhalt der Fläche des Dreiecks, das von der Winkelhalbierenden, der Abszisse
und der Geraden y = 1 gebildet wird, beträgt 1/2, denn Grundseite und Höhe sind jeweils 1. Die Fläche zwischen der Winkelhalbierenden und der Lorenz-Kurve ist ein Maß
für die Abweichung von der Gleichheit. Diese Flächen sind in der Abbildung 2.4 grau
hervorgehoben. Der Gini-Koeffizient ist das Verhältnis des Inhalts dieser Fläche zum
Inhalt der Gesamtfläche des Dreiecks. Damit ist der Gini-Koeefizient ein Wert zwischen
0 und 1, wobei der Wert 0 vollständige Gleichverteilung und der Wert 1 vollständige
Konzentration anzeigt. In Deutschland beträgt der Gini-Koeffizietnfür etwa 0,33.
25
2 Univariate Analyse
Da die Gesamtfläche I des Dreiecks den Inhalt 1/2 hat, beträgt der Flächeninhalt der
Fläche zwischen der Lorenz-Kurve und der Winkelhalbierenden
X
I = 1/2 −
Inhalt der Trapeze,
da die Lorenz-Kurve sich aus lauter Trapezen zusammensetzt. Betrachten wir in der Abbildung 2.4 in der linken Lorenz-Kurve das Trapez mit den Eckpunkten (F2 , 0), (F2 , Q2 ),
(F3 , Q3 ) sowie (0, Q3 ). Die Breite ist f3 = F3 − F2 und die durchschnittliche Höhe
0.5 (Q2 + Q3 ) und somit ist der Inhalt dieses Trapezes f3 · 0.5 (Q2 + Q3 ). Somit hat die
fragliche Fläche den Inhalt
I = 1/2 −
k
X
fi · 0.5 (Qi−1 + Qi ) ,
i=1
mit Q0 = 0. Teilt man diesen Wert jetzt noch durch 1/2, ergibt sich die Formel für den
Gini-Koeffizient
k
X
G=1−
fi (Qi−1 + Qi ) ,
mit Q0 = 0
(2.1)
i=1
Im Eingangsbeispiel sind f1 = 0.3, f2 = 0.2, f3 = 0.25, f4 = 0.25 sowie Q0 = 0,
Q1 = 0.1, Q2 = 0.25, Q3 = 0.55, Q4 = 1. Also ergibt sich für den Gini-Koeffizient:
G = 1 − 0.3 (0.1 + 0) + 0.2 (0.25 + 0.1) + 0.25 (0.55 + 0.25) + 0.25 (1 + 0.55) = 0.3125
Dies kommt der realen Situation in Deutschland schon sehr nahe.
2.6.2 Der normierte Gini-Koeffizient
Der Gini-Koeffizient kann bei einer Einteilung in k Klassen niemals 1 werden, denn selbst
vollständige Ungleichverteilung des Einkommens auf k Einheiten bedeutet, dass k − 1
Einheiten nichts und die letzte Einheit alles besitzt. Die Lorenz-Kurve verläuft dann
von 0 bis 1/(k − 1) auf der Abszisse und steigt dann als Strecke zum Punkt (1, 1). Die
Fläche zwischen Lorenz-Kurve und Winkelhalbierender ist ein Dreieck mit Grundseite
1 − 1/(k − 1) und Höhe 1 mit Flächeninhalt
1
1k−1
1
1−
=
I=
2
k−1
2 k
Teilt man diesen Wert durch 1/2 ergibt sich für den Gini-Koeffizient der Maximalwert
von
k−1
Gmax =
k
Man definiert daher bei k Klassen den so genannten normierten Gini-Koeffizient wie
folgt:
k
Gnorm =
G
(2.2)
k−1
Im Eingangsbeispiel lagen vier Klassen vor, der normierte Gini-Koeffizient ist somit
4
Gnorm = 0.3125 = 0.4166
3
26
2.6 Die Lorenz-Kurve
2.6.3 Lorenz-Kurve bei klassierten Daten
Tabelle 2.7: Verteilung der Beschäftigten auf Arbeitsstätten im Produzierten Gewerbe.
BRD 1970
Arbeitsstätten
Anzahl
in 100
Beschäftigte fi
in 1000
Fi
qi
Qi
1-4
5-9
10-19
20-49
50-99
100-199
200-499
500 und mehr
Summe
3493
1231
636
442
176
98
62
32
6170
735
800
854
1350
1226
1353
1884
4658
12860
56,6%
76,6%
86,9%
94,0%
96,9%
98,5%
99,5%
100,0%
5,7%
6,2%
6,6%
10,5%
9,5%
10,5%
14,7%
36,2%
5,7%
11,9%
18,6%
29,1%
38,6%
49,1%
63,8%
100,0%
56,6%
20,0%
10,3%
7,2%
2,9%
1,6%
1,0%
0,5%
Das Paar (F4 , Q4 ) = (94, 29.1) ergibt sich aus
Q4 = (735 + 800 + 854 + 1350)/12860
F4 = (3493 + 1231 + 636 + 442)/6170
Oft sind nur die Klassen (xi−1 , xi] und die Häufigkeiten hi angegeben, dann kann die
absolute Häufigkeit gi des Merkmals nur durch
gi = hi
xi−1 + xi
2
(2.3)
approximiert werden. Hier war das nicht nötig, denn die gi wurden mit angegeben. Im
folgenden Beispiel (von Uebe) ist dies aber notwendig.
In einem Betrieb wurden folgende Daten über die monatlichen Einkommen in 100
Euro der beschäftigten Frauen erhoben: Am besten lässt man Excel die ganze Rechnerei
Tabelle 2.8: Einkommen
Einkommen
Anzahl der Frauen
(6, 12]
(12, 16]
(16, 20]
(20, 24]
10
15
10
5
erledigen, wie in der Abbildung 2.5 zu sehen ist. Ausgangspunkt sind die Klassen und
27
2 Univariate Analyse
Abbildung 2.5: Arbeitsblatt für Lorenz-Kurve
die entsprechenden Häufigkeiten, also die drei ersten Spalten. Dann wird die Spalte mit
den gi erstellt. Das erfolgt in Excel nach der Formel
D3 = 0, 5 ∗ (A3 + B3) ∗ C3
Diese Formel lässt sich am Ausfüllkästchen bequem nach unten ziehen.
Danach werden die Summen der Spalten C und D berechnet. Dazu wird zunächst in
der Zelle E7 die Formel
= Summe(C3 : C6)
eingetragen, wobei auf das Gleichheitszeichen zu achten ist. Diese Formel lässt sich am
Ausziehkästchen nach rechts ziehen und ergibt dann die Summe der Werte der Spalte D.
Für die fi müssen die in der dritten Spalte stehenden Häufigkeiten durch die Spaltensume
dieser Spalte geteilt werden. Dazu trägt man in der Zelle E3 die Formel
= C3/C$7
Das Dollarzeichen vor der 7 verhindert, dass sich beim Ziehen am Ziehpunkt die Zelle
C7 mit nach unten zieht. Das ganze müssen Sie für die Spalte F wiederholen, wobei die
Spalte C durch D ersetzt wird.
Die kumulierten Werte der Population sind in Spalte G. Sie müssen zunächst in der
Zelle G3 die Formel
= G2 + E3
eintragen, da die Formel Fi = Fi−1 + fi gilt mit F0 = 0 Dies ist der Grund für die beiden
Nullen in der zweiten Zeile. Diese Formel können Sie am Ausfüllkästchen nach unten
ziehen.
Das führen Sie dann sinngemäß für die nächste Spalte durch, also zunächst in Zelle
H3
= H2 + F 3
28
2.6 Die Lorenz-Kurve
eintragen und dann nach unten ziehen.
Für den Gini-Koeefizient habe ich die letzte Spalte eingerichtet. Es werden die Produkte fi · (Qi + Qi−1 ) benötigt. Somit steht in Zelle H3 zunächst die Formel
= C3 ∗ (H2 + H3).
Das wird nach unten gezogen. In der Zelle H7 trage ich dann noch die Formel
= 1 − Summe(G3 : G6)
ein und erhalte damit den Gini-Koeefizient.
29
3 Maßzahlen einer Verteilung
Die Verteilungen von Merkmalen lassen sich durch Tabellen und Diagramme ohne Informationsverlust darstellen. Durch einige treffende Maßzahlen will man die Information
bewusst verdichten, um spezifische Eigenschaften zu betonen. Dies erleichtert die Vergleichbarkeit von Verteilungen. Man unterscheidet bei statistischen Maßzahlen zwischen
Lagemaßen, Streuungsmaßen und Schiefemaßen. Lagemaße geben an, wo sich die
Zentren der Verteilung befinden, Streuungsmaße sind Indikatoren dafür, wie gedrängt
oder verstreut sich die Beobachtungen um die Lagemaße verteilen. Schiefemaße zeigen
Abweichungen von der Symmetrie und derso genannten Normalverteilung an. Diese werden hier nicht behandelt.
3.1 Modus
Die Merkmalsausprägung, die am häufigsten vorkommt, wird Modus genannt, und kann
für jedes Messniveau bestimmt werden. Der Modus ist nicht immer eindeutig, da zwei
oder mehr Beobachtungen gleich oft auftreten können.
Betrachten wir die Noten einer Klausur, aufgeteilt nach Geschlecht und beginnen Ladies first- mit den Damen. Es nahmen sieben teil, mit folgenden Ergebnissen:
gut, gut, gut, befriedigend, befriedigend, ausreichend, ausreichend
(3.1)
Das Merkmal Note ist ordinal, der häufigste Wert ist hier gut. Liegt die Verteilung bereits
in Form einer Häufigkeitstabelle vor, so ist der Modus in der Zeile mit dem größten fi
zu finden. Die Häufigkeitstabelle der Noten ist in der Tabelle 3.1 dargestellt.
Tabelle 3.1: Notenverteilung Damen
hi
fi
Fi
sehr gut
0
0
0
gut
3
3/7
3/7
befriedigend
2
2/7
5/7
ausreichend
2
2/7
1
Note
Hier ist die Zeile mit dem größten Wert von fi die zweite, also ist der Modus »gut«.
Liegen die Daten nur in Form einer klassierten Häufigkeitstabelle vor, so ist der Modus
eine ganze Klasse, nämlich wieder diejenige mit dem größten Wert von fi . Betrachten
30
3.2 Median
Sie dazu bitte die Tabelle 2.6 der Körpergrößen. Hier ist der Modus die ganze Klasse
mit den Grenzen (1, 75, 1, 85]. Man könnte sich für die Klassenmitte entscheiden und als
Modus »1,80« nehmen.
3.2 Median
Der Median x0.5 ist derjenige Merkmalswert eines mindestens ordinalen Merkmals X,
den mindestens 50 Prozent aller Merkmalswerte einer Stichprobe vom Umfang n unterschreiten oder höchstenfalls erreichen und den mindestens 50 Prozent aller Merkmalswerte überschreiten oder zumindest erreichen.
Ordinale Daten lassen sich der Größe nach ordnen, so wie die Noten der Studentinnen.
Ist die Anzahl n der Beobachtungen ungerade, so ist der Wert x(n+1)/2 der Median x0.5 .
Bei den sieben Testnoten der Studentinnen von 3.1 ist somit der vierte Wert der Median,
also ist x0.5 = befriedigend.
Schwieriger wird der Fall, wenn n gerade ist, wie bei den Ergebnissen der Studenten:
sehr gut, sehr gut, sehr gut, gut, befriedigend, ausreichend
(3.2)
Hier ist der Median nicht mehr eindeutig, denn sowohl die dritte als auch die vierte
Note erfüllen die Bedingungen größer oder gleich als mindestens 50 Prozent und auch
kleiner oder höchstens gleich als 50 Prozent aller Werte zu sein. Bei rein qualitativen
Merkmalen ist es auch nicht sinnvoll die Mitte zwischen den beiden Kandidaten als
Median zu nehmen, das sich qualitative Merkmale nun mal nicht mitteln lassen.
Halten wir als Ergebnis fest, dass bei ordinalen und geordnet vorliegenden Werten der
Median wie folgt zu finden ist:
(
x(n+1)/2 ,
für n ungerade;
x0.5 =
(3.3)
xn/2
sowie
x1+n/2 , für n gerade
Ist das Merkmal metrisch, wird aber für n gerade tatsächlich zwischen xn/2 und x1+n/2
gemittelt. es ergibt sich dann:
(
x(n+1)/2 ,
für n ungerade;
(3.4)
x0.5 = xn/2 +x1+n/2
, für n gerade
2
3.2.1 Median aus Häufigkeitstabelle
Liegen die Beoabachtungen bereits in Form einer Häufigkeitstabelle vor und gibt es eine
Zeile i mit Fi > 0.5 sowie Fi−1 < 0.5, so ist der zugehörige Wert xi der Median. Bei
den Daten der Studentinnen von Tabelle 3.1 trifft dies auf die dritte Zeile zu, also ist
x0.5 = x3 = befriedigend. Bei der Häufigkeitstabelle 3.2 der Studenten gibt es dagegen
eine Zeile i mit Fi = 0.5. In diesem Fall sind bei qualitativen Merkmalen sowohl die
Beobachtung xi als auch die Beobachtung xi+1 Median, hier also sowohl die Note »sehr
gut« als auch »gut«. Bei metrischen Merkmalen wird das Mittel (xi + xi+1 )/2 von xi
und xi+1 als Median genommen.
31
3 Maßzahlen einer Verteilung
Tabelle 3.2: Notenverteilung Herren
hi
fi
Fi
sehr gut
3
3/6
3/6
gut
1
1/6
4/6
befriedigend
1
1/6
5/6
ausreichend
1
1/6
1
Note
3.2.2 Median bei klassierten Daten
Liegen die Daten eines stetigen Merkmals noch als geordnete Liste vor, wird der Median
wie beschrieben ermittelt. Steht aber nur noch die Häufigkeitstabelle der klassierten
Daten zur Verfügung, so ist der Median näherungsweise der Schnitt der Geraden y = 0.5
mit dem Graphen der approximierenden empirischen Verteilungsfunktion F̂ , d.h. der
Median ist die Lösung der Gleichung
(3.5)
0.5 = F̂ (x0.5 )
Gibt es eine Klasse (xi−1 , xi ] mit Fi = 0.5, so ist x0.5 = xi . Sonst wählt man die Klasse,
wo zum ersten Mal Fi > 0.5 gilt. Wegen
F̂ (x) = Fi−1 +
Fi − Fi−1
(x − xi−1 )
xi − xi−1
folgt aus der Bedingung 3.5
x0.5 = xi−1 +
(0.5 − Fi−1 ) (xi − xi−1 )
Fi − Fi−1
Betrachten wir dazu noch einmal die Tabelle der Körpergrößen mit klassierten Daten
Hier ist i = 3, Fi = 0.75 sowie Fi−1 = 0.40. Weiter sind xi = 1.85 und xi−1 = 1.75 und
Tabelle 3.3: Häufigkeitstabelle eines stetigen Merkmals
Klasse
UG
OG
∆i
ni
fi
fˆi
Fi
1
2
3
4
5
1,50
1,65
1,75
1,85
1,95
1,65
1,75
1,85
1,95
2,10
0,15
0,10
0,10
0,10
0,15
2
6
7
4
1
0,10
0,30
0,35
0,20
0,05
0,67
3,00
3,50
2,00
0,34
0,10
0,40
0,75
0,95
1,00
damit folgt
x0.5 = 1.75 +
32
(0.5 − 0.4) (1.85 − 1.75)
= 1.78
0.75 − 0.4
3.3 Das arithmetische Mittel
3.2.3 Eigenschaften des Medians
Der Median hat eine Reihe von bemerkenswerten Eigenschaften, u.a. ist der Median
der Wert, der die Summe der Beträge der Abstände zu den Messwerten (x1 , x2 , . . . , xn )
minimiert, d.h der Median erfüllt die Bedingung
x0.5 = min g(x) = min
x∈R
x∈R
n
X
(3.6)
|x − xi |
i=1
Hier werden natürlich metrische Merkmale vorausgesetzt. Diese Eigenschaft ist nicht
durch Differentiation zu lösen, da die zu minimierende Funktion g(x) wegen der Betragsstriche nicht differenzierbar ist.
Eine weitere Eigenschaft des Medians ist seine Robustheit gegen extreme Werte, so
genannte Ausreißer. Einige vereinzelte Langzeitstudenten ändern nichts am Median der
Studiendauer, können aber das arithmetische Mittel empfindlich nach oben drücken.
3.3 Das arithmetische Mittel
Das arithmetischen Mittel, auch als Mittelwert bezeichnet, mittelt über alle Beobachtungen. Daher muss das Merkmal metrisch sein. Es gilt dann
n
1X
x1 + x2 + · · · + xn
=
xi
x̄ =
n
n i=1
(3.7)
Liegt bereits eine Häufigkeitstabelle vor, so gilt
k
x̄ =
1X
h1 · x1 + h2 · x2 + · · · + hk · xk
=
hi · xi
n
n i=1
(3.8)
Wegen fi = hi /n gilt auch
x̄ = f1 · x1 + f2 · x2 + · · · + fk · xk =
k
X
f i · xi
(3.9)
i=1
Betrachten wir eine Altersverteilung eines Kurses mit den Werten
18, 18, 18, 19, 19, 19, 20, 21, 21, 21, 22, 22, 22
so gilt
1
260
(18 + 18 + 18 + 19 + 19 + 19 + 20 + 21 + 21 + 21 + 22 + 22 + 22) =
= 20
13
13
Natürlich gilt auch
x̄ =
x̄ =
und
x̄ =
1
260
(3 · 18 + 3 · 19 + 20 + 3 · 21 + 3 · 22) =
= 20
13
13
3
3
1
3
3
260
· 18 +
· 19 +
· 20 +
· 21 +
· 22 =
= 20
13
13
13
13
13
13
33
3 Maßzahlen einer Verteilung
3.4 arithmetisches Mittel bei klassierten Daten
Bei klassiertem Datenmaterial fehlen die Einzelwerte, daher kann das arithmetische Mittel nur näherungsweise bestimmt werden, indem von jeder Klasse die Klassenmitten mit
den relativen Häufigkeiten multipliziert werden. Somit gilt
x̄ ≈ f1 · x1,m + f2 · x2,m + · · · + fk · xk,m =
k
X
fi · xi,m ,
(3.10)
i=1
wobei mit xi,m die Mitte der i-ten Klasse gemeint ist.
Der genäherte Mittelwert kann sowohl über die fi als auch über die hi berechnet
werden:
x̄ ≈ 0.10 · 1.575 + 0.30 · 1.70 + 0.35 · 1.80 + 0.20 · 1.90 + 0.05 · 2.025 = 1.78
bzw.
x̄ ≈
1
(2 · 1.575 + 6 · 1.70 + 7 · 1.80 + 4 · 1.90 + 1 · 2.025) = 1.78
20
3.5 Eigenschaften des arithmetischen Mittels
Da das arithmetische Mittel über alle Einzelwerte mittelt, ist die Summe der Abweichungen gleich 0, also
n
X
(xi − x̄) = 0
(3.11)
i=1
Gibt es umgekehrt eine Zahl z, die diese Bedingung erfüllt, so ist z = x̄. Man kann an
der Datenreihe der Altersverteilung damit sofort raten, dass 20 das arithmetische Mittel
ist, denn zu jeder Abweichung nach oben gibt es eine genau so große Abweichung nach
unten.
Auch das arithmetisches Mittel erfüllt eine Minimumseigenschaft, es minimiert nämlich die quadrierten Abstände zu den Beobachtungen, genauer es gilt
x̄ = min f (x) = min
x∈R
x∈R
n
X
(x − xi )2
(3.12)
i=1
Diese Eigenschaft ist sehr einfach mit Mitteln der Differentialrechnung zu beweisen, denn
die zu minimierende Funktion f (x) ist differenzierbar.
3.6 Quantile
Der Median x0.5 teilt die Beobachtungen in zwei gleich große Teile. Man kann die Werte
nach demselben Prinzip für jede beliebige Zahl 0 < p < 1 durch einen Quantil genannten
Wert xp aufteilen. Dabei sollen mindestens 100 · p Prozent der Beobachtungen kleiner
oder gleich dem Quantil xp und mindestens 100 · (1 − p) Prozent der Beobachtungen
34
3.6 Quantile
größer oder gleich dem Quantil xp sein. Da n Werte vorliegen, ist xn·p der natürliche
Kandidat für xp . Ist n · p ganzzahlig, so sind xn·p und x1+n·p gleichwertig, daher wird in
diesem Fall wieder der Mittelwert von beiden genommen. Ist n · p nicht ganzzahlig, so
nimmt man x1+[n·p] für xp .
Das ergibt folgende Formel:
(
x1+[n·p] ,
für n · p nicht ganzzahlig;
xp =
0.5 (xn·p + x1+n·p ) , für n · p ganzzahlig;
(3.13)
Dabei stellen die eckigen Klammern die so genannten Gauß-Klammern dar, die die größte
ganze Zahl liefern, die kleiner oder gleich dem Ausdruck innerhalb der Klammern ist.
Es gilt also z.B. [7.2] = 7.
Die Quantile x0.25 und x0.75 heißen unteres bzw. oberes Quartil.
Beispiel:
Wir betrachten die Größen von 20 Studenten und wollen Median sowie das untere und
das obere Quartil bestimmen. Die Urliste war:
1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83
1,74, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83
Der geordnete Datensatz ist :
1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,74, 1,76, 1,76
1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93, 2,05
Hier sind sowohl 10 = 20 · 0.5 als auch 5 = 20 · 0.25 sowie 15 = 20 · 0.75 ganzzahlig. Deshalb gibt es folgende Kennzahlen:
x0.25 = 0.5(x5 + x6 ) = 0.5(1.71 + 1.71) = 1.71
x0.5 = 0.5(x10 + x11 ) = 0.5(1.76 + 1.78) = 1.77
x0.75 = 0.5(x15 + x16 ) = 0.5(1.83 + 1.86) = 1.845
Beispiel:
Die Messung der Längen von 15 Blättern der Gartenerdbeere [cm] ergab folgende geordnete Messreihe:
6.1 6.6 6.9 7.1 7.2 7.2 7.4 7.7 7.9 8.2 8.4 9.1 10.3 10.5 11.4
35
3 Maßzahlen einer Verteilung
Hier sind sowohl 7.5 = 15 · 0.5 als auch 3.25 = 15 · 0.25 sowie 11.25 = 15 · 0.75 nicht
ganzzahlig. Deshalb gibt es folgende Kennzahlen: Kennzahlen:
1
x̄ = (6.1 + 6.6 + · · · + 11.4) = 8.133
15
x0.5 = x8 = 7.7
x0.25 = x[15/4]+1 = x4 = 7.1
x0.75 = x[3·15/4]+1 = x12 = 9.1
3.6.1 Quantile bei klassierten Daten
Liegen die Daten eines stetigen Merkmals noch als geordnete Liste vor, wird der Median
wie beschrieben ermittelt. Steht aber nur noch die Häufigkeitstabelle der klassierten
Daten zur Verfügung, so ist der Median näherungsweise der Schnitt der Geraden y = p
mit dem Graphen der approximierenden empirischen Verteilungsfunktion F̂ , d.h. das
quantil ist die Lösung der Gleichung
(3.14)
p = F̂ (xp )
Gibt es eine Klasse (xi−1 , xi ] mit Fi = p, so ist xp = xi . Sonst wählt man die Klasse, wo
zum ersten Mal Fi > p gilt. Wegen
Fi − Fi−1
F̂ (x) = Fi−1 +
(x − xi−1 )
xi − xi−1
folgt aus der Bedingung 3.14
xp = xi−1 +
(p − Fi−1 ) (xi − xi−1 )
Fi − Fi−1
Betrachten wir dazu noch einmal die Tabelle der Körpergrößen mit klassierten Daten
Zur Bestimmung des ersten Quartil x0.25 muss die zweite Klasse betrachtet werden. Hier
Tabelle 3.4: Häufigkeitstabelle eines stetigen Merkmals
Klasse
UG
OG
∆i
ni
fi
fˆi
Fi
1
2
3
4
5
1,50
1,65
1,75
1,85
1,95
1,65
1,75
1,85
1,95
2,10
0,15
0,10
0,10
0,10
0,15
2
6
7
4
1
0,10
0,30
0,35
0,20
0,05
0,67
3,00
3,50
2,00
0,34
0,10
0,40
0,75
0,95
1,00
ist F2 = 0.40 sowie F2−1 = 0.10. Weiter sind x2 = 1.75 und x1 = 1.65 und damit folgt
(0.25 − 0.10) (1.75 − 1.65)
= 1.70
0.40 − 0.10
Das stimmt sehr gut mit dem exakten Wert von 1.71 überein.
x0.25 = 1.65 +
36
3.7 Maßzahlen für die Variabilität
3.7 Maßzahlen für die Variabilität
Neben der Lage einer Verteilung ist noch von Interesse, wie weit die Beobachtungen um
die Lagemaße wie Modus, Median oder Mittelwert verstreut liegen.
3.7.1 Mittlere absolute Abstände
Man kann als Maß die gemittelten absoluten Abstände vom Median oder vom arithmetischen Mittel nehmen. Da der Median diese Größe minimiert, wird meistens der Median
bevorzugt. Es ergibt sich
n
1X
dx0.5 =
|xi − x0.5 |
(3.15)
k i=1
Treten dabei nur die Werte (x1 , x2 , . . . , xk ), k < n mit der absoluten Häufigkeit hi
bzw. mit der relativen Häufigkeit fi auf, so gilt:
k
dx0.5
1X
hi |xi − x0.5 |
=
n i=1
(3.16)
bzw.
dx0.5 =
k
X
fi |xi − x0.5 | .
(3.17)
i=1
Beispiel:
Im Sekretariat eines großen Unternehmens verdienen je zwei Mitarbeiter 2000 Euro bzw.
3000 EURO und die Chefsekretärin 6000 Euro im Monat. Bei einem kleineren Betrieb
wurden die Bezüge 2000, 2600 und zweimal 3000 EURO genannt.
Hier ist in der ersten Gruppe der Median der dritte Wert, also 3000 Euro. Im zweiten
Sekretariat gibt es vier Mitarbeiter, somit muss zwischen dem zweiten und drittem Wert
gemittelt werden, der Median ist also 2800 Euro.
Somit folgen die Werte
dx0.5 =
2 · |2000 − 3000| + 2 · |3000 − 3000| + |6000 − 3000|
= 1000
5
und
dx0.5 =
|2000 − 2800| + |2600 − 2800| + 2 · |3000 − 2800|
= 350
4
Die Werte der ersten Gruppe sind stärker verstreut als in der zweiten Gruppe.
37
3 Maßzahlen einer Verteilung
3.7.2 Die Varianz
Ausdrücke mit Betragsstrichen sind nicht differenzierbar, daher verwendet man meistens
die mittlere quadratische Abweichung, diesmal aber vom Mittelwert:
n
σ2 =
1X
(xi − x̄)2
n i=1
(3.18)
Treten dabei nur die Werte (x1 , x2 , . . . , xk ), k < n mit der absoluten Häufigkeit hi bzw.
mit der relativen Häufigkeit fi auf, so gilt:
k
1X
σ =
hi (xi − x̄)2
n i=1
2
bzw.
σ2 =
k
X
fi (xi − x̄)2 .
(3.19)
(3.20)
i=1
Beispiel:
Im ersten Sekretariat hatten wir die Monatseinkommen von je zweimal 2000 Euro bzw.
3000 EURO und einmal 6000 Euro. Der Mittelwert ist 3200 Euro. Somit gilt:
2 · (2000 − 3200)2 + 2 · (3000 − 3200)2 + (6000 − 3200)2
= 2160000
σ =
5
2
Die mittlere quadratische Abweichung wird als Varianz bezeichnet. Die Varianz ist nur
dann sinnvoll, wenn die Werte (x1 , x2 , . . . , xn ) als eine Grundgesamtheit angesehen werden können, was aber selten der Fall ist. Im Beispiel der Sekretariate ist diese Annahme
vertretbar, da jedes Sekretariat einmalig ist und die Werte vollständig sind.
3.7.3 Stichprobenvarianz
In der Regel stellen die Datenwerte nur eine Stichprobe dar. In diesem Fall dividiert
man die Summe der quadrierten Abweichungen nicht durch n, sondern durch n − 1 und
spricht von der Stichprobenvarianz oder der empirischen Varianz s2 :
n
1 X
s =
(xi − x̄)2
n − 1 i=1
2
(3.21)
Die anderen Formeln lassen sich sinngemäß übertragen. Zwischen beiden Werten besteht
der einfache Zusammenhang
n
s2 =
σ2
(3.22)
n−1
38
3.7 Maßzahlen für die Variabilität
3.7.4 Die Standardabweichung
Varianz und empirische Varianz haben nicht die Maßeinheiten der Beobachtungen selbst.
Daher wird die Quadratwurzel aus der Varianz bzw. der empirische Varianz gezogen. Die
somit erhaltenen Werte werden Standardabweichung σ bzw. empirische Standardabweichung s genannt. Im Beispiel des ersten Sekretariats ergibt sich σ = 1469.69
Euro. Die Standardabweichung weist wieder die Maßeinheit der Datenwerte auf.
Die Varianz und empirische sind nur dann gleich Null, wenn jede einzelne quadratische
Differenz verschwindet, also alle Datenwerte mit dem Mittelwert übereinstimmen. Dann
existiert aber keine Streuung unter den Daten, alle haben denselben Wert. Normalerweise
ist das nicht der Fall, dann sind (empirische) Varianz und (empirische) Standardabweichung größer als Null.
3.7.5 Andere Berechnungsformeln
Die Varianz σ 2 lässt sich numerisch auf folgende Weise einfacher berechnen:
n
1X 2
x − x̄2 .
σ =
n i=1 i
2
(3.23)
P
Das sieht man sofort über die binomische Formel unter Ausnutzung von x̄ = n1 ni=1 xi .
Betrachten wir dazu die Monatseinkünfte von zweimal 2000 und zweimal 3000 sowie
einmal 6000:
σ2 =
1
2 · 20002 + 2 · 30002 + 60002 − 32002 = 2160000.
5
Wegen 3.22 folgt aus 3.23 sofort
n
n
1 X 2
s =
xi −
x̄2 .
n − 1 i=1
n−1
2
(3.24)
Im obigen Beispiel ergibt dies
s2 =
5
1
2 · 20002 + 2 · 30002 + 60002 − 32002 = 2700000.
4
4
Natürlich hätte man gleich s2 = 45 σ 2 =
5
4
· 2160000 verwenden können.
3.7.6 Klassizierte Daten
Liegen bei einem stetigen Merkmal die n Werte (x1 , x2 , . . . , xn ) nur noch als klassierten
Daten vor, so wird für jede der k Klassen die Mitte mi = 0.5 (xi−1 + xi ) berechnet. Für
den Mittelwert gilt annähernd
k
X
x̄ ≈
fi · mi
i=1
39
3 Maßzahlen einer Verteilung
und für die Varianz
σ2 ≈
k
X
fi · m2i − x̄2
i=1
sowie für die empirische Varianz
2
s ≈
k
X
fi · m2i −
i=1
m
x̄2
m−1
Bitte beachten Sie, dass n die Anzahl der Daten und k die Anzahl der Klassen ist.
Betrachten wir dazu noch einmal die Tabelle der Körpergrößen mit klassierten Daten
Hier sind
Tabelle 3.5: Häufigkeitstabelle eines stetigen Merkmals
x̄ ≈
Klasse
UG
OG
∆i
ni
fi
fˆi
Fi
1
2
3
4
5
1,50
1,65
1,75
1,85
1,95
1,65
1,75
1,85
1,95
2,10
0,15
0,10
0,10
0,10
0,15
2
6
7
4
1
0,10
0,30
0,35
0,20
0,05
0,67
3,00
3,50
2,00
0,34
0,10
0,40
0,75
0,95
1,00
1
(2 · 1, 575 + 6 · 1, 70 + 7 · 1, 80 + 4 · 1, 90 + 1 · 2, 025) = 1, 78
20
und
σ2 ≈
1
2 · 1, 5752 + 6 · 1, 702 + 7 · 1, 802 + 4 · 1, 902 + 1 · 2, 0252 − 1, 782 = 0, 0077.
20
Da die Daten wohl eher als Stichprobe anzusehen sind, ist die empirische Varianz sinnvoller:
20 2 20
σ ≈
0, 0077 = 0, 0081.
s2 =
19
19
3.8 Transformationseigenschaften der Maßzahlen
Oft werden die ursprünglichen Daten (x1 , x2 , . . . , xn ) einer linearen Transformation unterworfen, d.h.
yi = a xi + b.
40
3.9 Der Variationskoeffizient
Durch diese Transformation ändern sich auch die Maßzahlen und zwar gelten folgende
Beziehungen:
ȳ = a x̄ + b
y0.5 = a x0.5 + b
σy2 = a2 σx2
σy = |a| σx
(3.25)
(3.26)
(3.27)
(3.28)
Nehmen wir wieder das Sekretariat mit den Ausgangswerten von je zweimal 2000 Euro
bzw. 3000 EURO und einmal 6000 Euro als Beispiel. Der dankbare Chef erhöhe die
Gehälter um den Sockelbetrag von 200 Euro und um zusätzliche 5 Prozent. Dann gilt
also:
yi = 1.05 xi + 200.
Ohne Berechnung der Einzelwerte können wir somit folgende neue Lagemaße angeben:
ȳ = a x̄ + b = 1.05 · 3200 + 200 = 3560
y0.5 = a x0.5 + b = 1.05 · 3000 + 200 = 3350
σy2 = a2 σx2 = 1, 052 · 2160000 = 2381400
σy = a σx2 = 1, 05 · 1469.690 = 1543.18
3.9 Der Variationskoeffizient
Die empirische Standardabweichung ist, ebenso wie die Spannweite und die mittleren
absoluten Abweichungen vom arithmetischen Mittel oder vom Median, ein Maß für die
absolute Streuung. Diese sind im Allgemeinen dimensionsbehaftete Maße, die von der
Einheit abhüngen, in der ein Merkmal gemessen wird. Relative Streuungsmaße sind
dagegen dimensionslos. Ein Beispiel eines solchen relativen Maßes ist der so genannte
Variationskoeffizient. Für ein metrisches Merkmal X mit arithmetischem Mittel x̄
und empirischer Standardabweichung s ist der Variationskoeffizient v definiert durch
v=
s
x̄
(3.29)
Der Variationskoeffizient ist ein relatives Streuungsmaß, denn das absolute Streuungsmaß s wird ins Verhältnis gesetzt zum arithmetische Mittel des Merkmals. Der
Variationskoeffizient ist als Quotient zweier Größen gleicher Dimension und Einheiten
dimensions - und einheitenlos.
Betrachten wir die Längen der Blätter der 15 Erdbeerpflanzen mit der in [cm] angegebenen Messreihe:
6.1 6.6 6.9 7.1 7.2 7.2 7.4 7.7 7.9 8.2 8.4 9.1 10.3 10.5 11.4
41
3 Maßzahlen einer Verteilung
Hier ergibt sich:
1
(6.1 + 6.6 + · · · + 11.4) = 8.13
15
1
σ 2 = (6.12 + 6.62 + · · · + 11.42 ) − 8.132 = 2.24
15
15 2
s2 =
σ = 2.40
14
√
s = 2.40 = 1.55
s
v = = 0.19
x̄
x̄ =
3.10 Aufgaben
Aufgabe 1. (Uebe) Betrachten Sie die beiden wichtigen makro-ökonomischen Variablen
durchschnittlicher Zinsfuß p.a. und durchschnittlicher Anstieg des Konsumentenpreisniveaus p.a. in der Europäischen Gemeinschaft 1991. Finden Sie eine geeignete graphische
Darstellung für die in der Tabelle 3.6 aufgeführten Zahlen, die sich auf einen Ausschnitt
aus »Makroökonomische Variablen in der Europäischen Gemeinschaft 1991« beziehen.
(Quelle: European Community, No. 50, EC Commission, December, 1991):
Tabelle 3.6: Zinsen und Preisanstiegsraten in der EU 1991
Land
Jährlicher Zinsfuß in %
Anstieg des Konsumentenpreisniveaus in %
Belgien
9.3
3.2
Dänemark
9.3
2.4
Frankreich
9.0
3.0
Deutschland
8.4
3.5
Griechenland
22.5
18.3
Irland
9.4
3.0
Italien
11.3
6.4
Luxemburg
9.3
3.4
Niederlande
8.8
3.2
Portugal
14.6
11.7
Spanien
12.5
5.8
Großbritannien
10.3
6.5
Aufgabe 2. An einem Kochkurs nahmen neun Männer und elf Frauen teil. Erstellen Sie
42
3.10 Aufgaben
die Häufigkeitstabelle und stellen dann die Daten als Stab-, Balken- und Kreisdiagramme dar.
Aufgabe 3. In der Tabelle 3.7 sind die Noten der Teilnehmer eines Kurses aufgeführt.
Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stab- und Balkendiagramme dar.
Tabelle 3.7: Notenverteilung der Teilnehmer
Note
sehr gut
gut
befriedigend
ausreichend
mangelhaft
6
5
5
3
1
ni
Aufgabe 4 (Lageparameter BSP 2 Uebe) Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, dass er die Anzahl X der
Stockwerke der von seinem Standort aus sichtbaren Gebäude zählt. Er erhält folgende
Werte:
3
2
4
3
2
5
4
2
4
3
1
2
5
2
4
3
1
5
2
3
a) Charakterisieren Sie das betrachtete Merkmal X, erstellen Sie die Häufigkeitstabelle
und geben Sie eine geeignete graphische Darstellung der Beobachtungen.
b) Berechnen Sie den Modalwert (Modus), den Median, das arithmetische Mittel (den
Durchschnitt, den Mittelwert), die Standardabweichung und den Variationskoeffizienten
des Merkmals X.
Aufgabe 5 (Lageparameter, Uebe) Im Sendebereich der Firma Rupert-TV wurde an 100
Tagen die Anzahl Z von Fernsehfilmen (pro Tag) mit brutalen Gewaltszenen ermittelt.
Filme dieser Kategorie sind besonders werbeeinnahmefreundlich und im Erlös so gut wie
nicht ersetzbar. Die Daten entnehmen Sie der Tabelle 3.8:
Tabelle 3.8: Gewaltfilme
Anzahl der Gewaltfilme
nj
4
5
6
8
9
10
11
12
13
14
15
9
8
11
8
8
11
8
9
13
a) Erstellen Sie die Häufigkeitstabelle und stellen dann die Häufigkeit grafisch dar.
b) Beschreiben Sie die Daten durch die üblichen Lageparameter.
c) Auf wieviel Prozent der Filme (und damit der zugehörigen Werbeinnahmen) müßte
verzichtet werden, wenn höchstens 10 bzw. 6 Filme dieser Kategorie pro Tag zulässig
wären?
Aufgabe 6. (scripthd). In der folgenden Urliste ist das Lebensalter von Studenten eines
Kurses aufgeführt.
43
3 Maßzahlen einer Verteilung
19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20
a) Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stabdiagramm dar
und zeichnen die Verteilungsfunktion.
b) Beschreiben Sie die Daten durch die üblichen Lage- und Streuungsparameter.
c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie
x0.9 an.
d) Der Wert 52 ist ein Zahlendreher und wäre korrekt 25. Wie ändern sich die Ergebnisse
von b) dadurch?
e) Ein anderer Auswerter dieser Daten unterdrückt den Ausreißer von 52 ganz, geht also
nur noch von 20 statt 21 Werten aus. Wie ändern sich dadurch die Ergebnisse von c)?
Aufgabe 5.(tudresden). In der Tabelle 3.9 ist die Studiendauer in Semester von n = 75
Studenten aufgeführt.
Tabelle 3.9: Studiendauer von 75 Studenten in Semester
xj
7
8
9
10
11
12
13
nj
1
2
7
11
21
15
13
14 15
4
1
a) Erstellen Sie die Häufigkeitstabelle und stellen dann die Daten als Stabdiagramm dar
und zeichnen die Verteilungsfunktion.
b) Beschreiben Sie die Daten durch die üblichen Lage- und Streuungsparameter.
c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie
x0.9 an.
Aufgabe 6.(Anderson). In der Tabelle 3.10 ist die Zahl der Personen in Privathaushalten
in der BRD 1970 aufgeführt. Erstellen Sie die Häufigkeitstabelle und stellen dann die
Daten als Stabdiagramm dar und zeichnen die Verteilungsfunktion.
Tabelle 3.10: Größe von Haushalten, BRD 1970
Haushaltsgröße
Zahl der Haushalte in 1000
1
2
3
4
5527
5959
4314
3351
Beantworten Sie dann noch, was die Grundgesamtheit ist, ob es sich dabei um eine
Bestands- oder Bewegungsmasse handelt und welche Merkmale bzw. Merkmalsausprägungen vorhanden sind.
Aufgabe 7. In einem Betrieb wurden folgende Daten über die monatlichen Einkommen
(in 100 e) der beschäftigten Frauen erhoben:
44
3.10 Aufgaben
Tabelle 3.11: Fiktive Einkommen
Einkommen
(6, 12]
(12, 16]
(16, 20]
(20, 24]
(24, 30]
10
15
10
5
4
Anzahl der Frauen
a) Stellen Sie die durch die Tabelle 3.11 gegebene Einkommensverteilung als Histogramm
dar und erstellen Sie dann den Graphen der approximierenden Verteilungsfunktion.
b) Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, Median, Mittelwert sowie Varianz und empirische Varianz und Standardabweichung und empirische
Standardabweichung.
c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie
x0.9 an.
d) Erstellen Sie die Lorenz-Kurve.
Aufgabe 8. In einem anderen Betrieb wurden die Daten der Tabelle 3.12 über die
monatlichen Einkommen erhoben:
Tabelle 3.12: Fiktive Einkommen
Einkommen [500, 600]
(600 650]
(650, 700]
(700, 750]
(750, 900]
(900, 1200]
6
8
12
13
8
3
Anzahl
a) Stellen Sie die durch die Tabelle 3.12gegebene Einkommensverteilung als Histogramm
dar und erstellen Sie dann den Graphen der approximierenden Verteilungsfunktion.
b) Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, Median, Mittelwert sowie Varianz und empirische Varianz und Standardabweichung und empirische
Standardabweichung.
c) Geben Sie oberes und unteres Quartil an und berechnen Sie die Quantile x0.1 sowie
x0.9 an.
d) Erstellen Sie die Lorenz-Kurve.
Aufgabe 9. Die Einkommens- und Verbrauchsstichprobe (EVS) wird alle 5 Jahre vom
Statistischen Bundesamt erhoben, zuletzt 1998. Ca. 40.000 bis 50.000 Haushalte geben
im Rahmen dieser Erhebung freiwillig und entgeltlos Auskunft über ihre monatlichen
Einkünfte und Konsumgewohnheiten. Weil gerade die Bezieher niedriger und höherer
Einkommen ungern über ihr Einkommen berichten, gibt die folgende Tabelle die Schichtung der Haushalte[in Prozent] nach ihrem monatlichen Haushaltnettoeinkommen in DM
(Früheres Bundesgebiet) wohl nicht repräsentativ wider. Dennoch lassen sich über die
Zeit hinweg sinnvoll Vergleiche anstellen, wenn der Anteil der nicht vertretenen Haushalten niedrigen und hohen Einkommens über die Zeit relativ konstant geblieben ist.
Man skizziere für jedes Jahr die zugehörigen Histogramme, um die Veränderung der
Einkommenssituation in den alten Bundesländern über die Zeit zu veranschaulichen.
45
3 Maßzahlen einer Verteilung
Tabelle 3.13: Einkommensverteilung BRD 1970 bis 1993
von...bis unter...DM
1973
1978
1983
1988
1993
unter 2.500
72,9
50,4
40,5
36,8
22,7
2.500-5.000
24,7
41,7
42,3
41,2
39,5
5.000-10.000
2,3
7,3
16,0
20,1
31,7
10.000-15.000
0,2
0,4
0,9
1,6
4,9
15.000 und mehr
0,0
0,1
0,3
0,4
1,2
Die Abschneidegrenze für Bezieher höherer Einkommen betrug 35.000 DM. Zeichnen Sie
dann die entsprechenden Lorenz-Kurven.
3.11 Probe-Klausur
Aufgabe 1. Man betrachtet die Anzahl X der Zigaretten, die pro Person innerhalb
einer Stunde in einem Raum mit 27 Personen geraucht wurden, und erhält folgendes
Ergebnis:
1, 0, 2, 3, 5, 1, 4, 2, 0, 6, 1, 2, 0, 2, 0, 4, 1, 0, 5, 1, 6, 1, 0, 1, 2 ,0, 1
a) Bestimmen Sie direkt Median und die 25 und 75 % Quartile.
Die geordnete Urliste lautet:
0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 4, 4, 5, 5, 6, 6
Es ist 27 · 0.25 = 27/4 = 6, 75 und somit x0.25 = x7 = 0.
Es ist 27 · 0.5 = 27/2 = 13, 5 und somit x0.5 = x14 = 1.
Es ist 27 · 0.75 = 3 · 27/4 = 20, 25 und somit x0.75 = x21 = 3.
b) Bestimmen Sie Mittelwert, empirische Standardabweichung und Variationskoeffizient.
Der Mittelwert berechnet sich wie folgt:
x̄ =
7∗0+8∗1+5∗2+1∗3+2∗4+2∗5+2∗6
= 1, 88888889,
27
denn der Wert 0 tritt 7-mal, der Wert 1 entsprechend 8-mal auf, usw. Für die empirische
Varianz ergibt sich
7 (0 − x̄)2 + 8 (1 − x̄)2 + 5 (2 − x̄)2 + 1 (3 − x̄)2 + 2 (4 − x̄)2 + 2 (5 − x̄)2 + 2 (6 − x̄)2
s =
26
s2 = 3, 641
s = 1, 908
1, 908
v=
= 1, 010.
3, 641
2
46
3.11 Probe-Klausur
c) Stellen Sie die Daten als Häufigkeitstabelle dar. Berechnen Sie die Parameter von a)
erneut.
Die Häufigkeitstabelle habe ich mit Excel erstellt. Sie steht in Abbildung 3.1. Das untere
Quartil ist in der Zeile i zu finden, worin zum ersten Mal Fi > 0, 25 gilt, das ist die erste
Zeile, somit ist x.25 = 0. Der Median ist in der Zeile i zu finden, worin zum ersten Mal
Fi > 0, 5 gilt, das ist die zweite Zeile, somit ist x.5 = 1. Das obere Quartil ist in der
Zeile i zu finden, worin zum ersten Mal Fi > 0, 75 gilt, das ist die vierte Zeile, somit ist
x.75 = 3.
Abbildung 3.1: Häufigkeitstabelle des Zigarettenkonsums
d) Stellen Sie die Daten als Stabdiagramm dar und zeichnen Sie die Verteilungsfunktion.
Die beiden Grafiken sehen Sie in der Abbildung 3.2.
Abbildung 3.2: Stabdiagramm und Verteilungsfunktion des Zigarettenkonsums.
Aufgabe 2. Das Einkommen von 360 Beschäftigten einer Firma sei durch folgende
Tabelle beschrieben:
Tabelle 3.14: Fiktive Einkommen
Bruttolohn [400, 1000]
(1000 1400]
(1400, 1600]
(1600, 2000]
(2000, 3000]
45
90
90
90
45
Anzahl
47
3 Maßzahlen einer Verteilung
a) Bestimmen Sie näherungsweise Mittelwert, Standardabweichung und Variationskoeffizient.
Mittelwert und Standardabweichung sind wegen der Klassenbildung nur noch näherungsweise zu berechnen. Es werden nur die Klassenmitten berücksichtigt. Das ergibt zunächst
für den Mittelwert:
x̄ ≈
45 ∗ 700 + 90 ∗ 1200 + 90 ∗ 1500 + 90 ∗ 1800 + 45 ∗ 2500
= 1525.
360
Für die Varianz ergibt sich
45 ∗ (700 − x̄)2 + 90 ∗ (1200 − x̄)2 + 90 ∗ (1500 − x̄)2 + 90 ∗ (1800 − x̄)2 + 45 ∗ (2500 − x̄)2
360
2
σ ≈ 249375
σ ≈ 499, 37
499, 37
v≈
= 0, 327.
1525
σ2 ≈
b) Stellen Sie die Verteilung des Lohnes als Häufigkeitstabelle dar und zeichnen damit
das Histogramm dar und die approximierte empirische Verteilungsfunktion.
Beide Lösungen finden Sie im folgenden Excel-Tabellenblatt:
Abbildung 3.3: Häufigkeitstabelle und Histogramm sowie Verteilungsfunktion.
48
3.11 Probe-Klausur
c) Bestimmen Sie näherungsweise Median und die 25 und 75 % Quartile.
Zwischen 1000 und 1400 wächst der Anteil von 12,50 % auf 37,50 %. Die Verteilungsfunktion hat somit die Geradengleichung
y = 12, 50 +
37, 50 − 12, 50
(x − 1000)
1400 − 1000
Das untere Quartil x0.25 ist der Schnittpunkt dieser Geraden mit der Geraden y = 25.
Aus
37, 50 − 12, 50
y = 12, 50 +
(x0.25 − 1000) = 25
1400 − 1000
folgt
1400 − 1000
x0.25 = 1000 + (25 − 12, 50)
= 1200
37, 50 − 12, 50
Das lässt sich auch aus der Zeichnung der Verteilungsfunktion ablesen.
Zwischen 1400 und 1600 wächst der Anteil von 37,50 % auf 62,50 %. Die Verteilungsfunktion hat somit die Geradengleichung
y = 37, 50 +
62, 50 − 37, 50
(x − 1400)
1600 − 1400
Der Median x0.5 ist der Schnittpunkt dieser Geraden mit der Geraden y = 50. Aus
y = 37, 50 +
62, 50 − 37, 50
(x0.5 − 1400) = 50
1600 − 1400
folgt
1600 − 1400
= 1500
62, 50 − 37, 50
Das lässt sich auch aus der Zeichnung der Verteilungsfunktion ablesen.
Zwischen 1600 und 2000 wächst der Anteil von 62,50 % auf 87,50 %. Die Verteilungsfunktion hat somit die Geradengleichung
x0.5 = 1400 + (50 − 37, 50)
y = 62, 50 +
87, 50 − 62, 50
(x − 1600)
2000 − 1600
Das obere Quartil x0.75 ist der Schnittpunkt dieser Geraden mit der Geraden y = 75.
Aus
87, 50 − 62, 50
(x0.75 − 1600) = 75
y = 62, 50 +
2000 − 1600
folgt
2000 − 1600
x0.75 = 1600 + (75 − 62, 50)
= 1800
87, 50 − 62, 50
Das lässt sich auch aus der Zeichnung der Verteilungsfunktion ablesen.
d) Bestimmen Sie die Lorenzkurve und berechenen Sie den Gini-Koeffizient.
Beide Lösungen befinden sich in der Abbildung 3.4. Der Gini-Koeffizient ist mit 0,178
ziemlich klein, die Streuung der Einkommen also eher gering.
49
3 Maßzahlen einer Verteilung
Abbildung 3.4: Lorenzkurve
50
Index
arithmetischen Mittel, 33
Bestandsmasse, 9
Bewegungsmasse, 9
Datenmatrix, 11
empirische Dichtefunktion, 23
Ereignismasse, 9
Fragebogen, 8
Fragebogen:geschlossene Fragen, 8
Fragebogen:Mehrfachfrage, 8
Fragebogen:offene Fragen, 8
Gini-Koeffizient, 25
Gini-Koeffizient:normiert, 26
Grundgesamtheit, 7, 9
Häufigkeitstabelle, 16
Histogramm, 23
Klassen, 22
Kreisdiagramm, 17
Lagemaßen, 30
Lorenz-Kurve, 24
Median, 31
Mehrfachantworten, 11
Merkmal:binär, 15
Merkmal:dichotom, 15
Merkmal:diskretes metrisches, 10
Merkmal:diskretes stetiges, 10
Merkmal:metrisches, 10
Merkmal:nominal, 9
Merkmal:ordinales, 10
Merkmal:qualitatativ, 9
Merkmal:quantitativ, 9
Merkmal:quantitatives, 10
Merkmale, 9
Merkmalsausprägungen, 9
Merkmalsträger, 8, 9
Mittelwert, 33
Modus, 30
Quantil, 34
Quartil:oberes, 35
Quartil:unteres, 35
Säulendiagramm, 17
Schiefemaßen, 30
Stabdiagramm, 17
Standardabweichung, 38
Standardabweichung:empirische, 38
Statistische Einheit, 8
Stichprobe, 7
Stichprobenvarianz, 38
Streuungsmaßen, 30
Tortendiagramm, 17
Urliste, 15
Varianz, 38
Varianz:empirische, 38
Variationskoeffizient, 41
Verteilungsfunktion:approximierende empirische, 24
Vollerhebung, 7
51
Herunterladen