Document

Werbung
Gliederung
Sommersemester 2003
Deskriptive Statistik
PD Dr. Thomas Beißinger
1. Einführung
1.1. Vorbemerkungen
1.2. Begriff und Aufgaben der Statistik
2.3.1. Lorenzkurve und Gini-Koeffizient
2.3. Konzentrationsmaße
2.3.2. Alternative Konzentrationsmaße
2.4.1. Dichtekurven
2.4. Dichtekurven und Normalverteilung
2.4.2. Normalverteilungen
2.4.3. Approximation von Dichtekurven
3. Multivariate Deskription und Exploration von Daten
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
3.1. Diskrete und gruppierte Merkmale
3.1.2. Bedingte Häufigkeiten
3.2.1. Chancen und relative Chancen
3.2. Zusammenhanganalyse in Kontingenztabellen
1.3.1. Statistische Einheit, Grundgesamtheit und Stichprobe
1.3. Statistische Grundbegriffe
3.2.2. Kontingenz und F 2 -Koeffizient
3.3.2. Zweidimensionale Histogramme und Dichten
3.3.1. Streudiagramm
3.3. Graphische Darstellungen quantitativer Merkmale
1.3.2. Statistische Merkmale
1.3.3. Skalentypen
3.3.3. Mehrdimensionale Darstellungen
1.4. Datenerhebung
1.4.1. Formen der Datenerhebung
3.6.4. Nichtlineare Regression
3.6.3. Bestimmtheitsmaß und Residualanalyse
3.6.2. Die Berechnung der Ausgleichsgeraden
3.6.1. Das lineare Regressionsmodell
3.6. Regression
3.5. Korrelation und Kausalität
3.4.3. Invarianzeigenschaften
3.4.2. Spearmans Korrelationskoeffizient
3.4.1. Korrelationskoeffizient nach Bravais-Pearson
3.4. Zusammenhangmaße bei metrischen Merkmalen
1.4.2. Datenquellen
2. Univariate Deskription und Exploration von Daten
2.1. Häufigkeitsverteilungen und ihre Darstellungen
2.1.1. Häufigkeiten
2.1.2. Tabellarische Darstellungen
2.1.3. Graphische Darstellungen
2.1.4. Kumulierte Häufigkeitsverteilung und empirische
Verteilungsfunktion
2.2.1. Lagemaße
2.2. Beschreibung von Verteilungen
2.2.2. Quantile und Box-Plot
2.2.3. Standardabweichung, Varianz und Varianzkoeffizient
2.2.4. Maßzahlen für Schiefe und Wölbung
4. Zeitreihenanalyse
4.1. Grundlagen
4.1.1. Gegenstand
4.1.2. Graphische Darstellung
4.1.3. Komponenten von Zeitreihen und ihre Verknüpfung
4.1.4. Empirische Autokorrelation
4.2. Komponentenmodelle
4.2.1. Bestimmung der glatten Komponente bzw. des Trends
PD Dr. Thomas Beißinger
Universität Kaiserslautern
Sommersemester 2003
4.2.2. Bestimmung der Saisonkomponenten
4.2.3. Weitere Verfahren
5. Indexzahlen
5.1. Grundlagen
5.2. Preisindizes
5.2.1. Grundgedanke
5.2.2. Preisindex nach Laspeyres
5.2.3. Preisindex nach Paasche
5.2.4. Vergleich der Preisindizes
5.3. Mengenindizes
5.4. Wertindizes
5.5. Indexzahlprobleme
5.5.1. Probleme der Indexkonstruktion
5.5.2. Indexumrechnungen
5.6.1. Indizes aus dem Bereich der Produktion
5.6. Beispiele für Indexzahlen
5.6.2. Indizes aus dem Bereich des Verbrauchs
5.6.3. Indizes aus dem Bereich der Außenwirtschaft
Deskriptive Statistik
A basic literacy in statistics will one day be as necessary
for efficient citizenship as the ability to read and write
(H. G. Wells)
Man hat behauptet, die Welt werde durch Zahlen regiert:
das aber weiß ich, dass die Zahlen uns belehren,
ob sie gut oder schlecht regiert werde.
(Goethe, Gespräche mit Eckermann)
Hinweise zur Veranstaltung
„ Unterlagen zur Vorlesung finden sich im Internet unter:
http//www.wiwi.uni-regensburg.de/beissinger/courses
„ Email: [email protected]
„ Sprechstunde: Do, 14-15 Uhr
„ Telefon Sekretariat: 0631/205-2798
„ Übung von Dipl.-Kauffrau Karola Schmitt am Fr, 15.30-17.00
PD Dr. Thomas Beißinger
3
Literatur
„ Bourier, G., Beschreibende Statistik, Praxisorientierte Einführung,
4. Auflage, Wiesbaden: Gabler, 2001.
„ Fahrmeir, L., Künstler, R., Pigeot, I. und Tutz, G., Statistik,
Der Weg zur Datenanalyse, 4. Auflage, Berlin, Heidelberg: Springer,
2003.
„ Pinnekamp, H.-J. und Siegman, F., Deskriptive Statistik, 4. Auflage,
München, Wien: Oldenbourg, 2001.
„ Schulze, P.M., Beschreibende Statistik, 4. Auflage, München, Wien:
Oldenbourg, 2000.
„ Schwarze, J., Grundlagen der Statistik I, Beschreibende Verfahren,
9. Auflage, Herne/Berlin: Verlag Neue Wirtschafts-Briefe, 2001
PD Dr. Thomas Beißinger
4
1. Einführung
1.1 Vorbemerkungen: Missbrauch der Statistik
„ „Es gibt die Notlüge, es gibt die gemeine Lüge und es gibt die
Statistik“
„ „Wir benutzen die Statistik nur zu oft wie ein Betrunkener
einen Laternenpfahl: vor allem zur Stütze unseres Standpunkts und weniger zum Beleuchten eines Sachverhalts“
„ „Ich glaube keiner Statistik außer der, die ich selbst gefälscht
habe“
Methoden der Statistik werden – bewusst oder unbewusst –
oft falsch angewendet.
PD Dr. Thomas Beißinger
5
1.1 Vorbemerkungen
Beispiel für mögliche Fehlerquelle:
Scheinkorrelation: Fehlinterpretation einer Korrelation
(Missachtung einer dritten Einflussgröße)
Beispiel: „Je mehr Feuerwehrleute einen Brand bekämpfen,
desto größer wird der Brandschaden“
Anzahl Feuerwehrleute
Scheinkorrelation
+
+
Brandschaden
+
Größe des
Brandes
PD Dr. Thomas Beißinger
6
1.1 Vorbemerkungen
Weiteres Beispiel für Scheinkorrelation:
Es lässt sich für einige Länder Korrelation zw. Zahl der Störche
und Geburtenrate nachweisen:
# Störche
# Geburten
PD Dr. Thomas Beißinger
7
1.1 Vorbemerkungen
Weiteres Beispiel für Scheinkorrelation:
Es gibt eine hohe positive Korrelation zwischen der Anzahl der
Kirchen und der Anzahl der Verbrechen in einem Ort
Schließung der Kirchen als Mittel
zur Verbrechensbekämpfung?
Beide Variablen werden durch eine weitere Variable,
nämlich die Größe der Stadt, beeinflusst.
PD Dr. Thomas Beißinger
8
1.1 Vorbemerkungen
Die Interpretation von Ergebnissen wird oft durch die Wahl des
Bezugsmaßes beeinflusst.
Beispiel: Ist das Flugzeug das sicherste Verkehrsmittel?
Ja: Bahn: 9 Todesopfer pro 10 Milliarden Passagierkilometer
Flugzeug: 3 Todesopfer pro 10 Milliarden Passagierkilometer
Aber: Falls die Zeit im Verkehrsmittel zugrundegelegt wird:
Bahn: 7 Todesopfer pro 10 Millionen Passagierstunden
Flugzeug: 24 Todesopfer pro 10 Millionen Passagierstunden
PD Dr. Thomas Beißinger
9
1.1 Vorbemerkungen
Selektionseffekte:
„Schüler aus öffentlichen Schulen schneiden in Prüfungen im
Mittel schlechter ab als Schüler aus Privatschulen“
Folgerung: Öffentliche Schulen sind schlechter
Aber:
- Gute Schüler werden eher in Privatschulen geschickt
- Eltern von Privatschülern haben ein größeres Interesse an
den Schulleistungen ihrer Kinder
Fazit:
„Data-analysis is an aid to thought, not a substitute“
(Green und Hall, 1984, S. 52)
PD Dr. Thomas Beißinger
10
1.2 Begriff und Aufgaben der Statistik
2 Bedeutungen des Begriffs Statistik:
a) Zusammenstellung von Zahlen oder Daten
z.B. Umsatzstatistik einer Unternehmung
Bevölkerungsstatistik der BRD
Zulassungsstatistik von Kraftfahrzeugen
b) Entwicklung und Anwendung von Methoden zur Erhebung,
Aufbereitung, Analyse und Interpretation von Daten
z.B. Datenmaterial aus einer Volkszählung wird mittels
statistischer Verfahren komprimiert und analysiert.
Ziel sind z.B. Aussagen über die Bevölkerungsstruktur
PD Dr. Thomas Beißinger
11
1.2 Begriff und Aufgaben der Statistik
Teilgebiete der Statistik
a) Deskriptive (oder beschreibende) Statistik
Statistische Methoden zur Beschreibung und Zusammenfassung
von Daten in Form von Graphiken, Tabellen oder einzelnen
Kenngrößen (statistische Maßzahlen).
Die Ergebnisse beziehen sich ausschließlich auf die untersuchten
Objekte.
b) Induktive (oder schließende) Statistik
Schätzung von Parametern und Überprüfung von Hypothesen.
Von den Verhältnissen in der untersuchten Teilmenge wird mittels
wahrscheinlichkeitstheoretischer Methoden auf die Verhältnisse in
der Grundgesamtheit geschlossen.
PD Dr. Thomas Beißinger
12
1.2 Begriff und Aufgaben der Statistik
Ablauf einer statistischen Untersuchung
Planung
Erhebung
Aufbereitung
Auswertung
Interpretation
Untersuchungszweck; Abgrenzung der Untersuchung
organisatorische Vorbereitung; Auswahl statistischer
Verfahren
Gewinnung des statistischen Zahlenmaterials
Ordnung und Verdichtung des Datenmaterials;
Untersuchung auf Datenfehler; Zusammenfassung in
Tabellen und/oder graphischen Darstellungen
Weitere Analyse des aufbereiteten Datenmaterials durch
Anwendung statistischer Methoden, z.B. Konzentrationsmessung, Regressions- und Korrelationsanalyse etc.
Zusammenfassung der Ergebnisse; Schlussfolgerungen
PD Dr. Thomas Beißinger
13
1.3 Statistische Grundbegriffe
1.3.1 Statistische Einheit, Grundgesamtheit und Stichprobe
Statistische Einheit (Merkmalsträger)
Einzelobjekt einer statistischen Untersuchung; Träger der
Information(en), für die man sich bei der Untersuchung interessiert.
Beispiele für statistische Einheiten:
• Unternehmen beim IFO-Konjunkturtest
• Bäume bei Waldschadenserhebung
• Bankkunden bei Kreditwürdigkeitsüberprüfung
• Wohnungen im Mietspiegel
PD Dr. Thomas Beißinger
14
1.3 Statistische Grundbegriffe
Grundgesamtheit (statistische Masse)
Menge aller statistischen Einheiten mit übereinstimmenden
Identifikationskriterien. Die sachlichen, räumlichen und zeitlichen
Identifikationskriterien ergeben sich aus der Zielsetzung der
statistischen Untersuchung
Die richtige Abgrenzung der Grundgesamtheit ist für den Erfolg
der Untersuchung entscheidend und in vielen Fällen alles
andere als trivial.
PD Dr. Thomas Beißinger
15
1.3 Statistische Grundbegriffe
Beispiel: Arbeitslose in der Bundesrepublik Deutschland
Zeitliche Abgrenzung: z.B. am 31.12.2002
Räumliche Abgrenzung: Bundesgebiet
Sachliche Abgrenzung: ist keineswegs eindeutig
Abgrenzung in der amtlichen Statistik: Arbeitslos ist, wer
• bei Arbeitsamt als arbeitssuchend registriert ist
• mehr als 18 Stunden in der Woche für einen Zeitraum von mehr als
3 Monaten arbeiten will
• älter als 15 und jünger als 65 Jahre ist
• dem Arbeitsmarkt sofort zur Verfügung steht
Somit sind z.B. nicht als arbeitslos erfasst:
• Personen, die nicht registriert sind
• Personen in ABM-Maßnahmen oder in Umschulungsmaßnahmen
• Personen, die weniger als 18 Stunden arbeiten wollen usw.
In anderen Ländern: andere Abgrenzung ⇒ internationale Vergleich schwierig
PD Dr. Thomas Beißinger
16
1.3 Statistische Grundbegriffe
Bei der zeitlichen Abgrenzung einer statistischen Masse
unterscheidet man:
Bestandsmassen: beziehen sich auf einen Zeitpunkt
Beispiele:
- Wohnbevölkerung eines Landes zum Stichtag einer Volkszählung
- Bilanzierungsgrößen einer Unternehmung zum 31.12. eines Jahres
- Flaschenbiervorrat von Peter am 31.12.
Bewegungsmassen (Ereignismassen):
beziehen sich auf einen Zeitraum
Beispiele:
- Sterbefälle in der BRD in einem bestimmten Jahr
- Höhe der privaten Investitionen in der BRD innerhalb eines Jahres
PD Dr. Thomas Beißinger
17
1.3 Statistische Grundbegriffe
Korrespondierende Massen: eine Bestandsmasse und die Bewegungsmassen, die die Veränderungen der Bestandsmasse beschreiben
Fortschreibung: die fortlaufende Ergänzung der Bestandsmasse durch
ihre korrespondierenden Bewegungsmassen
Beispiel für Fortschreibung:
Bestandsmasse:
Lagerbestand des Produkts A im Unternehmen Y
am 31.12.2001, 24.00 h (Anfangsbestand)
korrespondierende ­ Lagerzugänge des Prod. A im Unt. Y im Jahr 2002
®
Bewegungsmassen:¯ Lagerabgänge des Prod. A im Unt. Y im Jahr 2002
Bestandsmasse:
Lagerbestand des Produkts A um Unternehmen Y
am 31.12.2002, 24.00 h (Endbestand)
PD Dr. Thomas Beißinger
18
1.3 Statistische Grundbegriffe
Wird bei einer statistischen Untersuchung nur ein Teil der
interessierenden Masse erfasst, dann heißt dieser Teil
Stichprobe.
Achtung:
Die Ergebnisse, die in der Deskriptiven Statistik gewonnen werden,
beziehen sich immer nur auf die tatsächlich untersuchte Masse
(Stichprobe oder Grundgesamtheit). Eine Verallgemeinerung oder
Übertragung auf eine übergeordnete Masse ist unzulässig.
PD Dr. Thomas Beißinger
19
1.3 Statistische Grundbegriffe
Deskriptive Statistik
Grundgesamtheit
Induktive
Induktive Statistik
Statistik
best. Auswahlverfahren
Stichprobe
Deskriptive Statistik
PD Dr. Thomas Beißinger
20
1.3 Statistische Grundbegriffe
1.3.2 Statistische Merkmale
Eine bei einer statistischen Untersuchung interessierende
Eigenschaft einer statistischen Einheit heißt Merkmal.
Die möglichen Werte (Kategorien), die ein Merkmal
annehmen kann, heißen Merkmalsausprägungen.
Die an einer bestimmten statistischen Einheit hinsichtlich
eines bestimmten Merkmals festgestellte Merkmalsausprägung
heißt Beobachtungswert oder Merkmalswert.
PD Dr. Thomas Beißinger
21
1.3 Statistische Grundbegriffe
Statistische Einheit
Merkmale
Merkmalsausprägungen
Geschlecht
weiblich, männlich
Alter
10J., 14J., 88J., ...
Haarfarbe
blond, schwarz, weiß,...
Bildungsabschluss
Abitur, Realschule,...
Körpergröße
137cm, 156cm, ....
Beobachtungswerte für eine statistische Einheit:
(Frau Maier, weiblich, 90 Jahre, Abitur, ....)
PD Dr. Thomas Beißinger
22
1.3 Statistische Grundbegriffe
Die statistische Einheit i (i = 1,...,n) wird im Datensatz
repräsentiert durch
• Skalar xi : Beobachtungswert für statistische Einheit i,
d.h. die am Merkmalsträger i erhobene
Ausprägung des Merkmals X
(univariat bzw. eindimensional)
• m-Tupel xi
( xi1 , xi 2 ,...xim ) :
Ausprägungen, die bei statistischer Einheit i
hinsichtlich der Merkmale X 1 , X 2 ,..., X m
realisiert wurden
(multivariat bzw. mehrdimensional)
PD Dr. Thomas Beißinger
23
1.3 Statistische Grundbegriffe
Der gesamte Datenbestand ist dann in folgender
Matrix zusammengefasst:
§ x11 ! x1 j ! x1m ·
¨ #
#
# ¸
¨
¸
¨ xi1 ! xij ! xim ¸
¨
¸
#
#
#
¨
¸
¨x ! x ! x ¸
nj
nm ¹
© n1
Merkmalsträger i
Merkmal j
PD Dr. Thomas Beißinger
24
1.3 Statistische Grundbegriffe
Merkmalarten
„Numerische Qualität“
Qualitative (kategoriale) Merkmale
Quantitative (metrische) Merkmale
„Anzahl“
artmäßige
Merkmale
intensitätsmäßige
Merkmale
„feststellen“
„vergleichen“
Beruf,
Geschlecht
Schulnote,
Weingüte
diskrete
Merkmale
stetige
Merkmale
„zählen“
„messen“
Kinderzahl,
Kfz-Bestand
Körpergröße,
Geschwindigkeit
In Literatur auch: intensitätsmäßige Merkmale als eigene Gruppe zwischen
qualitativen und quantitativen Merkmalen.
PD Dr. Thomas Beißinger
25
1.3 Statistische Grundbegriffe
Zwischenformen bei quantitativen Merkmalen:
• Quasi-stetiges Merkmal: kann im Prinzip nur diskret gemessen werden;
wird aber aufgrund sehr feiner Abstufung wie stetiges Merkmal behandelt
Beispiel: monetäre Größen wie Einkommen, Umsatz etc.
• Ein stetiges Merkmal kann durch Klassierung (Gruppierung)
als diskretes Merkmal behandelt werden, d.h. durch Zusammenfassung
der Merkmalsausprägungen zu Klassen (Gruppen)
Beispiel: Körpergröße von mindestens 120 cm und unter 140 cm,
mindestens 140 cm und unter 160 cm usw.
Eine Klassierung kann auch bei quasi-stetigen und diskreten Merkmalen
vorgenommen werden.
PD Dr. Thomas Beißinger
26
1.3 Statistische Grundbegriffe
Häufbares Merkmal:
Ein Merkmal heißt häufbar, wenn an derselben statistischen Einheit
mehrere Ausprägungen des betreffenden Merkmals vorkommen
können
Bei einem häufbaren Merkmal muß man bei der Datenerhebung
„Mehrfachnennungen“ zulassen
Beispiele:
Erlernter Beruf: Koch und Installateur
Unfallursache: überhöhte Geschwindigkeit und Trunkenheit am Steuer
Krankheit: Lungenentzündung und Kreislaufschwäche
PD Dr. Thomas Beißinger
27
1.3 Statistische Grundbegriffe
1.3.3 Skalentypen
• Je nach Art des betrachteten Merkmals können seine Ausprägungen
nach bestimmten Regeln in Zahlen ausgedrückt werden.
• Diese Messung geschieht anhand verschiedener Skalen.
• Die Unterscheidung solcher Skalen ist deshalb von Bedeutung, weil
davon die Art der anzuwendenden statistischen Verfahren abhängt.
PD Dr. Thomas Beißinger
28
1.3 Statistische Grundbegriffe
I. Nominalskala
• Wird bei artmäßigen Merkmalen verwendet.
• Merkmalsausprägungen drücken lediglich Verschiedenartigkeit aus
• Nominalskalierte Merkmale (und nur diese!) sind u.U. häufbar
• Die Merkmalsausprägungen können durch beliebige Symbole
(numerisch und nichtnumerisch) bezeichnet werden (z.B.
Autonummern, Steuerklassen, Postleitzahlen etc.)
• Kodierung: Zuordnung von Zahlen zu Ausprägungen, z.B.
1=weiblich, 0=männlich
• Jede Zahlenzuordnung kann durch eine eineindeutige Transformation
in eine andere Zahlenzuordnung übergeführt werden, z.B.
1 = männlich, 0=weiblich
• Kein Rechnen mit Zahlen möglich; keine Ordnung der Ausprägungen
PD Dr. Thomas Beißinger
29
1.3 Statistische Grundbegriffe
II. Ordinalskala (Rangskala)
• Wird bei intensitätsmäßigen Merkmalen verwendet.
• Merkmalsausprägungen drücken Verschiedenartigkeit aus und
können in eine Rangfolge gebracht werden
• Aber: Abstände zwischen Zahlen sind nicht interpretierbar
• Die Symbole, die die Merkmalsausprägungen bezeichnen, können
beliebiger Art sein, sofern nur die Rangfolge zwischen ihnen definiert
ist, z.B. Lebensmittelgüteklassen, Zeugnisnoten etc.
• Werden den Merkmalsausprägungen Zahlen zugewiesen, so gilt:
jede streng monoton steigende Transformation führt zu einer neuen
zulässigen Zahlenzuordnung
PD Dr. Thomas Beißinger
30
1.3 Statistische Grundbegriffe
III. Kardinalskala (metrische Skala)
• Wird bei quantitativen Merkmalen verwendet.
• Merkmalsausprägungen drücken Verschiedenartigkeit aus und
können in eine Rangfolge gebracht werden. Zusätzlich können auf
jeden Fall auch die Abstände zwischen Ausprägungen verglichen
werden.
• Beispiele sind alle Werte mit einer Dimension (kg, cm, kWh, °C, usw.)
• Je nachdem, ob natürlicher Nullpunkt und natürliche Einheit vorliegt,
unterscheidet man:
• Intervallskala
• Verhältnisskala
• Absolutskala
PD Dr. Thomas Beißinger
31
1.3 Statistische Grundbegriffe
a) Intervallskala
• Es handelt sich um eine metrische Skala ohne natürlichen Nullpunkt
und ohne natürliche Einheit
• Differenzen zwischen Ausprägungen lassen sich vergleichen;
die Bildung von Quotienten (Verhältnissen) von Skalenwerten
ist aber nicht zulässig
• Zulässige Zahlentransformationen:
Y aX b, a ! 0, b beliebig
PD Dr. Thomas Beißinger
32
1.3 Statistische Grundbegriffe
Beispiel:
Temperatur in zwei Behältern (A, B) mit Wasser
Behälter A: 60°C; Behälter B: 30°C
Aussage „Behälter A ist doppelt so warm wie B“ ist falsch
Grund: Nullpunkt willkürlich bei Gefrierpunkt reinen Wassers
Dagegen bei Fahrenheit: Nullpunkt bei Gefrierpunkt von Salzwasser
Behälter A: 140°F; Behälter B: 86°F
Quotient unterscheidet sich offensichtlich von Celsiusskala
Falls dritter Behälter C mit 15°C = 59°F:
Temperaturintervall (A-B) ist doppelt so groß wie (B-C):
(60°C-30°C) =30°C ist doppelt so groß wie (30°C-15°C)=15°C
(140°F-86°F)=54°F ist doppelt so groß wie (86°F-59°F) =27°F
Fazit: Abstände lassen sich vergleichen
PD Dr. Thomas Beißinger
33
1.3 Statistische Grundbegriffe
Weiteres Beispiel: Zeit in Jahren
Zwischen 1940 und 1990 ist genauso viel Zeit vergangen wie
zwischen 1840 und 1890.
Die Festlegung des Jahres Null ist aber willkürlich.
In anderen Kulturen: Zeit ebenfalls oft in Jahren gemessen
Aber z.B. jüdischer Kalender: Jahr Null = 3761 v. Ch.
Mohammedanischer Kalender: Jahr Null = 622 n. Ch.
PD Dr. Thomas Beißinger
34
1.3 Statistische Grundbegriffe
b) Verhältnisskala
• Es handelt sich um eine metrische Skala mit natürlichen Nullpunkt,
aber ohne natürliche Einheit
• Zusätzlich zum Vergleich von Differenzen ist bei dieser Skala
die Bildung von Quotienten (Verhältnissen) von Skalenwerten
zulässig
• Entfernungen, Volumina, Gewichte usw. werden auf
einer Verhältnisskala gemessen
• Zulässige Zahlentransformation: Y aX , a ! 0
Beispiel: Das Verhältnis der Entfernungen 6 km und 3 km ist das
gleiche wie das von 28 km und 14 km, aber größer als das von 35 km
und 20 km. Misst man die Entfernungen in Meilen, dann bleiben die
Verhältnisse gleich.
PD Dr. Thomas Beißinger
35
1.3 Statistische Grundbegriffe
c) Absolutskala
• Eine metrische Skala mit natürlichen Nullpunkt und natürlicher Einheit
heißt Absolutskala
• Beispiele: Stückzahlen, Anzahl der Kinder
• Zulässige Transformation: Y
X
PD Dr. Thomas Beißinger
36
1.3 Statistische Grundbegriffe
Skalenhierarchie
Absolutskala
Verhältnisskala
Intervallskala
Ordinalskala
Nominalskala
Höherskalierte Merkmale lassen sich in
niedriger skalierte Merkmale überführen
(Niveauregression)
Beispiel: Das verhältnisskalierte Merkmal
Körpergröße (165 cm, 181 cm etc.) wird
ordinal-skaliert formuliert (klein, mittel, groß,
sehr groß)
abnehmendes
Informationsniveau
PD Dr. Thomas Beißinger
37
1.4 Datenerhebung
1.4.1 Formen der Datenerhebung
„ Befragung
a) schriftlich durch Fragebogen
b) persönlich durch Interviewer
„ Beobachtung
a) Zählung (Verkehrszählung, Zählung der Kunden vor Kasse etc.)
b) Messung (Messung des Durchmessers von Werkstücken etc.)
„ Experiment
(z.B. Registrierung des Verhaltens von Testpersonen in
hypothetischen Entscheidungssituationen)
„ automatische Erfassung
Erhebung erfolgt automatisch mit Hilfe von Messgeräten
(z.B. Strom- und Wasserverbrauch; Telefoneinheiten etc.)
PD Dr. Thomas Beißinger
38
1.4 Datenerhebung
„Wie ist Ihr Familienstand?“ - „Miserabel!“
Entnommen aus: Becker, B. (1993), Statistik, München, Wien: Oldenbourg, S. 75
PD Dr. Thomas Beißinger
39
1.4 Datenerhebung
1.4.2 Datenquellen
a) Primärerhebung:
Vollerhebung:
Teilerhebung:
Daten werden eigens für Untersuchung erhoben
alle Elemente der Grundgesamtheit werden in
die Erhebung miteinbezogen
Nur ein Teil der Grundgesamtheit wird in
Erhebung einbezogen (Stichprobe)
b) Sekundärerhebung: Verwendung von Daten, die bereits für andere
Zwecke erhoben wurden
Vorteil von a) gegenüber b): Größere Flexibilität; Erhebung kann genau
dem Untersuchungszweck angepasst werden
Nachteil von a) gegenüber b): Hoher Arbeitsaufwand; hohe Kosten
PD Dr. Thomas Beißinger
40
Literaturhinweise zu Kapitel 1
Als Ergänzung und Vertiefung können beispielsweise folgende
Bücher hinzugezogen werden:
„ Bourier (2001), S. 1-33.
„ Fahrmeir et al. (2003), S. 1-25.
„ Pinnekamp und Siegman (2001), S. 1-22.
„ Schulze (2000), S. 1-16.
„ Schwarze (2001), S. 11-42.
PD Dr. Thomas Beißinger
41
2. Univariate Deskription und Exploration von Daten
2.1 Häufigkeitsverteilungen und ihre Darstellungen
2.1.1 Häufigkeiten
An n statistischen Einheiten wird ein nicht-häufbares Merkmal X
beobachtet, bzw. gemessen
Urliste (Rohdaten, Primärdaten):
x1,..., xn
Die verschiedenen Merkmalsausprägungen in der Urliste seien
a1, a2 ,...ak , k d n
Es wird angenommen, dass die Werte der Größe nach geordnet sind:
a1 a2 ... ak
(bei Nominalskala keine inhaltliche Bedeutung!)
Bei qualitativen Merkmalen ist k häufig sehr viel kleiner als n
Bei quantitativen Merkmalen ist k häufig fast oder ebenso groß wie n
PD Dr. Thomas Beißinger
1
2.1.1 Häufigkeiten
h(a j )
hj
absolute Häufigkeit der Ausprägung a j , j
d.h. Anzahl der xi aus x1,..., xn mit xi
f (a j ) f j
pj
1,..., k,
aj
h j / n relative Häufigkeit von a j
f j ˜ 100
relative Häufigkeit in Prozent
Die tabellarische oder grafische Darstellung der geordneten
Merkmalsausprägungen mit den ihnen zugeordneten absoluten
oder relativen Häufigkeiten heißt
absolute oder relative Häufigkeitsverteilung des Merkmals.
PD Dr. Thomas Beißinger
2
2.1.1 Häufigkeiten
Für nicht-häufbare Merkmale gilt:
k
¦h
j
n mit 0 d h j d n
und
j 1
k
¦f
j
1 mit 0 d f j d 1
j
t 1 mit 0 d f j d 1
j 1
Für häufbare Merkmale gilt:
k
¦h
k
j
t n mit 0 d h j d n
und
j 1
¦f
j 1
Beispiel: In einem Unternehmen werden 100 Karosserien mit
Lackierfehler auf die Fehlerart hin untersucht. Es gibt
zwei Fehlerarten, die auch gleichzeitig an einer Karosserie
auftreten können
Merkmal X: Lackierfehler Statistische Masse: n=100
Läufer ( a1 ) :
h(a1 )
85
f (a1 )
0,85
Blasen ( a2 ) : h(a2 )
35
f (a2 )
0,35
120
¦f
1,2
¦h
j
j
PD Dr. Thomas Beißinger
3
2.1 Häufigkeiten
Venn-Diagramm:
Läufer
20
65
15
Blasen
Man gelangt zu einem nicht-häufbaren Merkmal, indem man die
Fehlerarten neu definiert: b1 "nur Läufer"
b2
"nur Blasen"
b3
"Läufer und Blasen"
Es wird angenommen, dass eine derartige Transformation
immer durchgeführt wird, d.h.
im folgenden werden nur nicht-häufbare Merkmale betrachtet!
PD Dr. Thomas Beißinger
4
2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung
Die Häufigkeitstabelle kann horizontal oder vertikal aufgebaut sein
Merkmalsausprägung
absolute Häufigkeit
relative Häufigkeit
f (a1 )
a1
a2
h(a1 )
h(a2 )
f (a2 )
#
ak
#
h(ak )
#
f (ak )
¦
n
1
a1
Merkmalsausprägung
absolute Häufigkeit
relative Häufigkeit
h(a1 )
f (a1 )
a2
h(a2 )
f (a2 )
"
ak
¦
"
"
h(ak )
f (ak )
n
1
PD Dr. Thomas Beißinger
1
2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung
Häufigkeitstabelle für gruppierte Daten:
Insbesondere für metrische stetige oder für quasi-stetige Merkmale
ist es oft nicht möglich, die Urliste zu einer deutlich kleineren Menge
a1, a2 ,..., ak zu komprimieren.
Es ist dann zweckmäßig, die Daten der Urliste durch Bildung geeigneter
Klassen zu gruppieren und eine Häufigkeitstabelle für die gruppierten
Daten zu erstellen
Vorteil: Größere Übersichtlichkeit
Nachteil: Informationsverlust
PD Dr. Thomas Beißinger
2
2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung
Klassierung (Gruppierung)
Die Beobachtungswerte x1, x2 ,..., xn werden auf M Klassen
(m 1,..., M ) verteilt.
am 1 : Untergrenze der Klasse m
am :
bm
Obergrenze der Klasse m
am am 1 : Klassenbreite der Klasse m
hm : Absolute Klassenhäufigkeit, d.h. Anzahl der statistischen
Einheiten mit Beobachtungswert xi , wobei:
am 1 d xi am
fm
oder
am 1 xi d am
hm / n : Relative Klassenhäufigkeit
PD Dr. Thomas Beißinger
3
2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung
a) Anzahl der Klassen
• Es gibt keine generell akzeptierte Vorgehensweise zur Bestimmung der
Klassenzahl M.
• Vorschläge in der Literatur z.B.: 5 15, 6 10, 10 20,
n (zur nächsten ganzen Zahl gerundet)
b) Klassenbreite
• Nach Möglichkeit sollten alle Klassen gleich breit sein, d.h.
bm b für alle m 1,..., M
• Aber: Ungleiche Klassenbreiten sind sinnvoll, wenn sehr viele Beobachtungswerte in einem kleinen Bereich der Merkmalsausprägungen liegen und ein
Rest in einem weiten Bereich. Im kleinen Bereich: fein klassiert.
• Klassenmitte sollte typischer Stellvertreter für die ganze Klasse sein, z.B.
sollte sich nicht die Mehrheit der Beobachtungswerte der Klasse in einem
Randbereich der Klasse befinden
PD Dr. Thomas Beißinger
4
2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung
Beispiel für unterschiedliche Klassenbreiten:
Einkommensklassen für monatliches Einkommen:
von
von
bis unter
bis unter
25.000
36.000
1
2.400
9.600
12.000
36.000
50.000
2.400
4.800
12.000
16.000
50.000
75.000
4.800
7.200
16.000
20.000
75.000
100.000
7.200
9.600
20.000
25.000
100.000
und mehr
Letzte Klasse im Beispiel: offene Randklasse
c) Eindeutige Zuordnung der Merkmalswerte
Eine Klassengrenze (untere oder obere) der betreffenden Klasse wird
mitgerechnet, während die andere Klassengrenze zur entsprechenden
Nachbarklasse gehört
PD Dr. Thomas Beißinger
5
2.1.2 Tabellarische Darstellungen einer Häufigkeitsverteilung
Diskret
Stetig
1. Variante
2. Variante
0-25
0-25
0-25
25-50
26-50
25-50
50-75
51-75
50-75
Fehler
25 und 50
sind nicht
eindeutig
zugeordnet
Wo wird z.B. 25,5 eingeordnet?
25 und 50 sind nicht eindeutig
zugeordnet
Richtig
0-25
0 bis unter 25
26-50
25 bis unter 50
25 d x 50 Über 25 bis 50
25 x d 50
51-75
50 bis 75
50 d x d 75 Über 50 bis 75
50 x d 75
Falsch
0 d x 25 0 bis 25
PD Dr. Thomas Beißinger
0 d x d 25
6
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
a) bei qualitativen oder diskreten, nicht-klassifizierten, Merkmalen
mit wenigen unterschiedlichen Merkmalsausprägungen
Stabdiagramm:
Trage über a1,..., ak jeweils einen zur Abszisse
senkrechten Strich (Stab) mit Höhe h1,..., hk
(oder f1,..., fk ) ab.
Säulendiagramm: wie Stabdiagramm, aber mit Rechtecken statt Strichen
Balkendiagramm: um 90° gedrehtes Säulendiagramm
Kreisdiagramm:
Flächen der Kreissektoren sind proportional zu den
absoluten (oder relativen) Häufigkeiten. Winkel des
Kreissektors j ist: I j f j ˜ 360q
Piktogramm:
Darstellung der Häufigkeiten durch unterschiedlich
große Bildsymbole oder durch unterschiedliche Anzahl
von Symbolen
PD Dr. Thomas Beißinger
1
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Beispiel: Studienanfänger/-innen in der Bundesrepublik Deutschland
im Wintersemester 2001/02 nach Fächergruppen
hj
Fächergruppe
pj
f j * 100
Rechts-, Wirtschafts- und Sozialwissenschaften (RWS)
96705
33,29
Sprach- und Kulturwissenschaften (SK)
58159
20,02
Mathematik, Naturwissenschaften (MN)
55391
19,07
Ingenieurwissenschaften (Ing)
51046
17,57
8948
3,08
20281
6,98
290530
100
Humanmedizin (Med)
Sonstige (Sonst)
Zusammen
Quelle: Statististisches Bundesamt, Statistisches Jahrbuch 2002 für die
Bundesrepublik Deutschland, S. 377 und eigene Berechnungen
PD Dr. Thomas Beißinger
2
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Stabdiagramm
Studienanfänger/-innen im Wintersemester 2001/02
nach Fächergruppen
Relative Häufigkeit (in Proz.)
35
30
25
20
15
10
5
0
RWS
SK
MN
Ing
Med
Sonst
PD Dr. Thomas Beißinger
3
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Säulendiagramm
Relative Häufigkeit (in Proz.)
Studienanfänger/-innen im Wintersemester 2001/02
nach Fächergruppen
35
33,2
30
25
20
20
19,1
17,6
15
10
7
3,1
5
0
RWS
SK
MN
Ing
PD Dr. Thomas Beißinger
Med
Sonst
4
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Balkendiagramm
Studienanfänger/-innen im Wintersemester 2001/02
nach Fächergruppen
7
Fächergruppen
Sonst
3,1
Med
17,6
Ing
MN
19,1
SK
20
33,2
RWS
0
5
10
15
20
25
30
35
Relative Häufigkeit (in Prozent)
PD Dr. Thomas Beißinger
5
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Kreisdiagramm
Studienanfänger/-innen im Wintersemester 2001/02
nach Fächergruppen
Sonst
7%
Med
3%
RWS
33%
Ing
18%
MN
19%
SK
20%
PD Dr. Thomas Beißinger
6
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Piktogramm
entnommen aus: Krämer, W. (2003), Statistik verstehen, 3. Auflage, München: Piper Verlag, S. 116.
PD Dr. Thomas Beißinger
7
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
b) Graphische Darstellung metrischer Merkmale
Stamm-Blatt-Diagramm („Stem-leaf display“): Semigraphische
Darstellungsform für metrische Merkmale mit mittlerem Datenumfang
Schritt 1:
Teile den Datenbereich in Intervalle gleicher Breite d=0.5 oder
1 mal einer Potenz von 10 ein. Trage die erste(n) Ziffer(n) der
Werte im jeweiligen Intervall links von einer senkrechten Linie
der Größe nach geordnet ein. Dies ergibt den Stamm.
Schritt 2:
Runde die beobachteten Werte auf die Stelle, die nach den Ziffern
des Stamms kommt. Die resultierenden Ziffern ergeben die Blätter.
Diese werden zeilenweise und der Größe nach geordnet rechts
vom Stamm eingetragen
PD Dr. Thomas Beißinger
8
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Beispiel: Ausschnitt aus dem Mietspiegel für München 1994
Wohnungen ohne zentrale Warmwasserversorgung und mit einer
Wohnfläche von höchstens 50qm
(Fahrmeir et al. (2003), S. 34, S.37 f. und S. 3 f.)
Nettomieten von n=26 Wohnungen
127,06
248,86
375,74
467,88
172,00
272,06
378,40
533,11
194,10
337,74
383,05
539,28
217,30
347,94
394,97
560,21
226,74 228,74 238,04
349,57 349,85 373,81
426,91 443,40 466,84
676,74
Streichen der Stellen nach dem Komma führt zur gerundeten Urliste:
127
248
375
467
172
272
378
533
194
337
383
539
217
347
394
560
226
349
426
676
228
349
443
238
373
466
PD Dr. Thomas Beißinger
9
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
• Als Klassen werden Intervalle der Breite 100 mit den Klassengrenzen
100, 200,...,600,700 gewählt. Der Stamm enthält dann die Ziffern 1,...,6.
• Um die Blätter des Stammes zu erhalten, rundet man die Beobachtungen
auf die Stelle, die nach den Ziffern des Stammes folgt.
Im Beispiel: 127 zu 130, 172 zu 170, 676 zu 680
Einheit 1
3 = 130
1 379
2 233457
3 455578889
4 3477
Stamm-Blatt-Diagramm der Nettomieten
von 26 „kleinen“ Wohnungen ohne
Warmwasserversorgung
5 346
6 8
PD Dr. Thomas Beißinger
10
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Histogramm
Ist die Zahl der statistischen Einheiten groß, wird die Darstellung
eines metrischen Merkmals mit dem Stamm-Blatt-Diagramm
unübersichtlich.
In diesem Fall ist es zweckmäßig, die Daten zu gruppieren und die
resultierende Häufigkeitstabelle durch ein Histogramm zu visualisieren.
Für die Gruppierung wählt man als Klassen benachbarte Intervalle:
[a0* , a1* ),[a1* , a2* ),...,[aM* 1, aM* )
Anstelle rechtsoffener Intervalle kann man auch linksoffene Intervalle
verwenden
PD Dr. Thomas Beißinger
11
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Im Prinzip könnte man nun über den Klassen die absolute oder relative
Häufigkeit in der Form eines Säulendiagramms abtragen. Dabei treten
aber unerwünschte Effekte auf. Verdoppelt man beispielsweise die Breite
des rechten Randintervalls durch Hinzunahme der rechts davon liegenden
Werte, so bleibt die (absolute oder relative) Häufigkeit in diesem Intervall
unverändert.
Problem: Der optische Eindruck bei einem breiteren Randintervall suggeriert
eine größere Häufigkeit, da die Fläche der über dem Intervall liegenden
Säule größer ist.
Das Histogramm wird deshalb so konstruiert, dass die Fläche über den
Intervallen gleich oder proportional zu den absoluten bzw. relativen
Häufigkeiten ist.
PD Dr. Thomas Beißinger
12
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Es gilt: "Fläche=Breite x Höhe"
Klassenbreite: bm
am* am* 1
Dies führt zu folgendem Konstruktionsprinzip für Histogramme:
Histogramm:
Zeichne über den Klassen [a0* , a1* ),...,[aM* 1, aM* ) Rechtecke mit
Breite: bm =am* -am* 1
Höhe: gleich (oder proportional zu) hm /bm bzw. fm / bm
Fläche: gleich (oder proportional zu) hm bzw. fm
Das Histogramm folgt somit dem Prinzip der Flächentreue
PD Dr. Thomas Beißinger
13
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Falls möglich (und sinnvoll), sollten die Klassenbreiten bm
gleich groß sein. Dann kann man als Höhe der Rechtecke
auch die absoluten oder relativen Häufigkeiten wählen.
Die resultierende Darstellung wird durch die Wahl der Klassenbreite und
damit die Anzahl der Intervalle und den Anfangspunkt a0* bestimmt.
Bei sehr kleiner Klassenbreite geht durch die Gruppierung wenig von
der ursprünglichen Information verloren.
Nachteil: Man erhält dann sehr unruhige Histogramme
Für die optimale Klassenzahl: Faustregeln und optischer Eindruck
PD Dr. Thomas Beißinger
14
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Beispiel: Histogramm der Nettomieten von 26 kleinen Wohnungen
ohne Warmwasserversorgung
Anteile in Prozent
40%
30%
20%
10%
0%
100,00
300,00
500,00
700,00
Nettomiete in DM
PD Dr. Thomas Beißinger
15
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Histogramm der Nettomieten aller 1082 Wohnungen
der Teilstichprobe des Münchner Mietspiegels 1994
Anteile in Prozent
40%
30%
20%
10%
0%
0
500
1000
1500
2000
2500
3000
Nettomiete in DM
Klassenbreite = 16 Klassen (200 DM)
PD Dr. Thomas Beißinger
16
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Histogramm der Nettomieten aller 1082 Wohnungen
der Teilstichprobe des Münchner Mietspiegels 1994
Anteile in Prozent
15%
10%
5%
0%
0.00
800.00
1600.00
2400.00
3200.00
Nettomiete in DM
Klassenbreite = 40 Klassen
PD Dr. Thomas Beißinger
17
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Polygonzug (Häufigkeitspolygon)
Die grafische Darstellung der Häufigkeiten eines klassierten, metrischen
Merkmals durch geradlinige Verbindung der Mittelpunkte der Flächenoberkanten eines Histogramms heißt Polygonzug.
Die Koordinaten des zu Klasse m gehörigen Punktes des Polygonzugs:
hj
f
§ am* am* 1
·
§ am* am* 1
·
,
oder
, * j * ¸
¨
¸
¨
*
*
2
2
am am 1 ¹
am am 1 ¹
©
©
Bei gleicher Klassenbreite kann als Ordinatenwert (wie beim Histogramm)
die absolute oder relative Klassenhäufigkeit gewählt werden
PD Dr. Thomas Beißinger
18
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Beispiel: Jahreseinkommen von 200 Mitarbeitern einer Firma (in 1000 €)
Jahreseinkommensklassen
Klassenmitten
hm
fm
PD Dr. Thomas Beißinger
19
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Histogramm und Häufigkeitspolygon
der Häufigkeitsverteilung „Jahreseinkommen“
entnommen aus: Schulze, P.M., Beschreibende Statistik, 4. Auflage, S. 27
PD Dr. Thomas Beißinger
20
Exkurs: Manipulation durch graphische Darstellungen
Die rechte Abbildung manipuliert auf zweifache Weise: 1. Die Säulen sind nach
unten abgeschnitten 2. Die Skala zieht sich nach oben in die Länge
entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 45.
PD Dr. Thomas Beißinger
1
Exkurs: Manipulation durch graphische Darstellungen
Ein Arbeiter verdient in Land A 7 Euro, in Land B 14 Euro.
Dies lässt sich beispielsweise mit einem Piktogramm darstellen:
entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 111.
PD Dr. Thomas Beißinger
2
Exkurs: Manipulation durch graphische Darstellungen
Mit Piktogrammen lassen sich Botschaften sehr leicht verzerren.
Falls beispielsweise der Vorsprung von Land B betont werden soll:
Die Ränder der Geldscheine verhalten sich zwar korrekt wie 2 zu 1,
der Betrachter vergleicht jedoch automatisch die Flächen. Die Fläche
von B‘s Banknote ist aber viermal so groß wie die von A.
entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 112.
PD Dr. Thomas Beißinger
3
Exkurs: Manipulation durch graphische Darstellungen
Die Verzerrung lässt sich durch eine räumliche Darstellung noch steigern:
Irreführend: Das Volumen des rechten Goldbarrens ist achtmal so groß
wie das des linken
entnommen aus: Krämer, W., Wie lügt man mit Statistik, 4. Auflage, 2003, S. 113.
PD Dr. Thomas Beißinger
4
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Bei vielen Problemen ist nicht nur interessant, wie viele Beobachtungswerte gleich sind oder einer Klasse angehören, sondern auch, wie viele
Werte eine bestimmte vorgegebene Grenze nicht überschreiten
(z.B. wie viele Haushalte verdienen nicht mehr als 2000 Euro usw.).
Die Fragestellung ist nur sinnvoll, wenn die Relationen „kleiner“,
bzw. „kleiner/gleich“ vorliegen, d.h. wenn zumindest
Ordinalskalenniveau gegeben ist.
Die Antwort erfordert die Kumulierung von Einzelhäufigkeiten.
(Summenhäufigkeiten: Summe aller Häufigkeiten der
Merkmalsausprägungen, die einen vorgegebenen Wert nicht überschreiten)
PD Dr. Thomas Beißinger
1
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
1. X ist eine mindestens ordinalskalierte, nicht klassierte Variable
Absolute Summenhäufigkeit:
H (a j ) :
Anzahl der Beobachtungswerte xi, die kleiner oder gleich der
Merkmalsausprägung aj ist, j =1,…,k
H (a j )
h(a1 ) ... h(a j )
¦ h(ai )
i :ai da j
Die tabellarische Darstellung der geordneten Merkmalsausprägungen
und der zugehörigen absoluten Summenhäufigkeiten heißt
absolute kumulierte Häufigkeitsverteilung.
PD Dr. Thomas Beißinger
2
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Absolute Häufigkeitssummenfunktion
Kann x jeden Wert der reellen Zahlen annehmen, so erhält man
die absolute Häufigkeitssummenfunktion:
H (x )
0
für x a1
H (a j )
für a j d x a j 1, j
n
für x t ak
1,...k
PD Dr. Thomas Beißinger
3
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Relative Summenhäufigkeit:
F (a j ) :
Anteil der Beobachtungswerte xi, der kleiner oder gleich der
Merkmalsausprägung aj ist, j =1,…,k
F (a j )
H (a j )
n
f (a1 ) ... f (a j )
¦ f (ai )
i :ai da j
Die tabellarische Darstellung der geordneten Merkmalsausprägungen
und der zugehörigen relativen Summenhäufigkeiten heißt
relative kumulierte Häufigkeitsverteilung.
PD Dr. Thomas Beißinger
4
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Empirische Verteilungsfunktion
Kann x jeden Wert der reellen Zahlen annehmen, so erhält man
die empirische Verteilungsfunktion:
F (x )
0
für x a1
F (a j )
für a j d x a j 1, j
1
für x t ak
1,...k
Das Adjektiv “empirisch” verdeutlicht, dass diese Verteilungsfunktion
aus konkreten Daten berechnet wird (im Unterschied zum Begriff
“Verteilungsfunktion” bei Zufallsvariablen).
PD Dr. Thomas Beißinger
5
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Beispiel aus Bourier (2001), S. 40 (mit angepasster Notation):
Anzahl der Kinder der Beschäftigten der Firma Maier KG
aj
hj
fj
Fj
Hj
0
7
0,35
7
0,35
1
6
0,30
13
0,65
2
4
0,20
17
0,85
3
2
0,10
19
0,95
4
1
0,05
20
1,00
Summe
20
1,00
H2 = 13, d.h. 13 Beschäftigte haben höchstens 1 Kind
F2 = 0,65, d.h. 65% der Beschäftigten haben höchstens 1 Kind
PD Dr. Thomas Beißinger
6
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Die Resthäufigkeit ist das Komplement zu der kumulierten Häufigkeit,
d.h. die Resthäufigkeit gibt die Anzahl HRj bzw. den Anteil FRj
der statistischen Einheiten mit einem Merkmalswert an,
der größer als der Merkmalswert aj ist.
HR j n H j
FR j
1 Fj
Im Beispiel:
HR2
n H2
20 13
7, d.h. 7 Beschäftigte haben mehr als 1 Kind
PD Dr. Thomas Beißinger
7
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Graphische Darstellung der kumulierten Häufigkeitsverteilung
als Treppenfunktion
Die absolute Häufigkeitssummenfunktion und die empirische
Verteilungsfunktion sind monoton wachsende Treppenfunktionen,
die an den Ausprägungen a1,…,ak um die entsprechende absolute
oder relative Häufigkeit nach oben springen. Dabei ist an den
Sprungstellen der obere Wert (die Treppenkante) der zugehörige
Funktionswert und die Funktion somit rechtsseitig stetig.
PD Dr. Thomas Beißinger
8
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Beispiel aus Schwarze (2001), S. 60:
An einer Prüfung, bei der maximal 10 Punkte erreicht werden konnten, nahmen
50 Studenten teil. Es wurde folgendes Ergebnis erzielt:
Punktzahl aj
0
1
2
3
4
5
6
7
8
9
10
Absolute Häufigkeit h(aj)
1
3
4
2
5
6
8 10
4
5
2
Relative Häufigkeit in
Prozent [f(aj) * 100]
2
6
8
4 10 12 16 20
8 10
4
Absolute Summenhäufigk.
H(aj)
1
4
8 10 15 21 29 39 43 48
50
Relative Summenhäufigk.
in Prozent [F(aj) * 100]
2
8 16 20 30 42 58 78 86 96 100
PD Dr. Thomas Beißinger
9
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
PD Dr. Thomas Beißinger
10
2.1.3 Graphische Darstellungen einer Häufigkeitsverteilung
Weiteres Beispiel (bereits für Stamm-Blatt-Diagramm verwendet):
Ausschnitt aus dem Mietspiegel für München 1994
Wohnungen ohne zentrale Warmwasserversorgung und mit einer
Wohnfläche von höchstens 50qm
(Fahrmeir et al. (2003), S. 34 und S. 51)
Nettomieten von n=26 Wohnungen
127,06
248,86
375,74
467,88
172,00
272,06
378,40
533,11
194,10
337,74
383,05
539,28
217,30
347,94
394,97
560,21
226,74 228,74 238,04
349,57 349,85 373,81
426,91 443,40 466,84
676,74
PD Dr. Thomas Beißinger
11
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Empirische Verteilungsfunktion der Nettomieten von 26 „kleinen“ Wohnungen
ohne Warmwasserversorgung
PD Dr. Thomas Beißinger
12
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Empirische Verteilungsfunktion der Nettomieten aller 1082 Wohnungen
PD Dr. Thomas Beißinger
13
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
2. X ist eine metrische, klassierte Variable
• Bei klassierten Daten werden Klassenhäufigkeiten addiert.
• Kumulierte Häufigkeiten existieren eigentlich nur für die Klassenobergrenzen (deshalb ist eine rechtsgeschlossene Klassenbildung sinnvoll).
• Um H(x), bzw. F(x) auch für Werte innerhalb der Klassen exakt berechnen
zu können, muss die Urliste herangezogen werden.
• Führt man jedoch die Annahme ein, dass die Beobachtungen innerhalb
der Klassen gleichverteilt sind, lassen sich auch ohne Rückgriff auf die
Urliste kumulierte Häufigkeiten für Werte innerhalb der Klassen
approximativ angeben.
PD Dr. Thomas Beißinger
14
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Graphische Darstellung der kumulierten Häufigkeitsverteilung
für klassierte Daten als Summenpolygon
Konstruktion:
Auf der Abszisse eines rechtwinkligen Koordinatensystems werden die
Klassenobergrenzen und für die erste Klasse auch die Klassenuntergrenze
abgetragen, auf der Ordinate die zugehörigen kumulierten
Häufigkeiten Hm und/oder Fm.
Anschließend werden benachbarte Punkte linear verbunden.
Mit der linearen Verbindung (bzw. dem gleichmäßigen Anstieg) wird
eine Gleichverteilung in jeder Klasse unterstellt.
PD Dr. Thomas Beißinger
15
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Beispiel aus Bourier (2001), S. 63:
Forderungsbestand einer Firma zum 31.12. eines Jahres
PD Dr. Thomas Beißinger
16
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Summenpolygon:
PD Dr. Thomas Beißinger
17
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Aus der Abbildung kann – unter Annahme der Gleichverteilung –
die Zuordnung von Merkmalsausprägungen und kumulierten
Häufigkeiten näherungsweise abgelesen werden.
z.B. für den Wert 550 kann in etwa die Häufigkeit 0,88 abgelesen werden,
d.h. auf einen Forderungswert von unter 550 entfallen ca. 88% der
Forderungen.
Für die Häufigkeit 0,5 kann in etwa der Wert 270 abgelesen werden, d.h.
50% der Forderungen haben einen Wert von weniger als zirka 270 DM.
PD Dr. Thomas Beißinger
18
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Ausschnitt aus Summenpolygon:
*
F (am
)
*
f (am
)
F (x )
*
F (am
1 )
bm
*
am
1
*
am
x
*
Es ist : F ( x ) # F (am
1 ) *
f (am
)
*
˜ ( x am
1 )
bm
PD Dr. Thomas Beißinger
19
2.1.4 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion
Absolute Häufigkeitssummenfunktion bei klassierten Daten:
für x d a1
0
H (x )
*
H (am
1 ) *
h(am
)
*
( x-am1)
bm
*
*
für am
1 x d am , m
1,...M
*
für x ! aM
n
Empirische Verteilungsfunktion bei klassierten Daten:
0
F (x )
*
F (am
1 )
1
für x d a1
*
f (am
)
*
( x-am1)
bm
*
*
für am
1 x d am , m
1,...M
*
für x ! aM
PD Dr. Thomas Beißinger
20
Literaturhinweise zu Abschnitt 2.1
Als Ergänzung und Vertiefung können beispielsweise folgende
Bücher hinzugezogen werden:
„
Bourier (2001), S. 33-66.
„
Fahrmeir et al. (2003), S. 31-52.
„
Schulze (2000), S. 17-31.
„
Schwarze (2001), S. 43-63.
PD Dr. Thomas Beißinger
21
2.2. Beschreibung von Verteilungen
• In einer ersten Phase der Informationsverdichtung werden empirische
Datensätze mittels tabellarischer und graphischer Darstellungen der
Häufigkeitsverteilung zusammenfassend aufbereitet.
• In einer zweiten Phase der Informationsverdichtung charakterisieren
statistische Maßzahlen (= Kennwerte, Parameter) den empirischen
Datenbestand komprimiert in einer einzigen Zahl.
• Hierdurch wird beispielsweise die vergleichende Analyse der Verteilung
eines Merkmals X in zwei oder mehreren statistischen Massen
ermöglicht.
PD Dr Thomas Beißinger
1
2.2.1 Lagemaße
• Maßzahlen zur Lage beschreiben das Zentrum einer Verteilung
durch einen numerischen Wert.
• Welches Lagemaß in einer bestimmten Fragestellung sinnvoll ist,
hängt ab
ƒ vom Kontext
ƒ von der Datensituation
ƒ vom Skalenniveau des Merkmals
PD Dr Thomas Beißinger
2
2.2.1 Lagemaße
1. Modus (Modalwert; häufigster Wert; dichtester Wert)
Modus xMod : Merkmalsausprägung mit größter Häufigkeit
Der Modus ist eindeutig, falls die Häufigkeitsverteilung ein eindeutiges
Maximum besitzt.
Da für die Bestimmung des Modus allein die Häufigkeiten der
Merkmalsausprägungen maßgebend sind, werden an die Skalierung der
Merkmale keine Voraussetzungen gestellt, d.h. der Modus ist bereits
auf Nominalskalenniveau sinnvoll (für nominalskalierte Merkmale ist xMod
das einzigste Lagemaß).
PD Dr Thomas Beißinger
3
2.2.1 Lagemaße
Beurteilung:
• Der in der Verteilung vorherrschende Wert wird als Mitte und damit
als Repräsentant für die Lage der Häufigkeitsverteilung angesehen.
Der Modus ist also ein typischer, ein normaler Wert.
• Der Modus ist ein geeigneter Mittelwert, wenn seine Häufigkeit die
anderen Häufigkeiten dominiert, d.h. die Verteilung muss sich auf ihn
zuspitzen, sie muss einen deutlichen Gipfel besitzen.
PD Dr Thomas Beißinger
4
2.2.1 Lagemaße
Beispiel aus Bourier (2001), S. 69:
Verteilung der Überstunden
in der Maier KG
Verteilung der Überstunden
in der Schulte GmbH
Überstunde xi
hi
Überstunde xi
hi
0
3
0
3
1
5
1
10
2
4
2
4
3
4
3
3
4
4
4
2
12
1
Der Modus beträgt bei beiden Firmen 1 Überstunde. Aber für die
Maier KG ist die Berechnung des Modus nicht besonders sinnvoll, da sich
die größte Häufigkeit nicht deutlich genug von den anderen
Häufigkeiten abhebt.
PD Dr Thomas Beißinger
5
2.2.1 Lagemaße
• Als Lagemaß ist xMod bei eingipfligen (unimodalen) Verteilungen
sinnvoll. Im Falle mehrgipfliger Verteilungen gehen die Ansichten
über die Eignung auseinander. Manche halten eine Bestimmung für
unzulässig, andere befürworten die Bestimmung der Modi für alle
Gipfel, selbst wenn die Häufigkeiten (Spitzen) nicht gleichauf liegen
(relative Modalwerte).
Beispiel: Studien über Schuh- und Konfektionsgrößen
• Vorteil des Modalwertes: es handelt sich um einen von Ausreißern
unbeeinflussten Mittelwert
(siehe im vorhergehenden Beispiel: xMod bei der Schulte GmbH wird
nicht durch die aus dem Rahmen fallende Überstundenzahl 12
beeinflusst).
PD Dr Thomas Beißinger
6
2.2.1 Lagemaße
• Bei klassifizierten Häufigkeitsverteilungen kann der Modus nicht mehr
abgelesen werden.
• Der Modalwert wird in diesem Fall in der Klasse vermutet, die die
höchste Klassenhäufigkeit aufweist. Der Modalwert wird
näherungsweise als Klassenmitte der Klasse mit der größten
Häufigkeit festgelegt
PD Dr Thomas Beißinger
7
2.2.1 Lagemaße
2. Median
Der Median ist der Wert, der in einer der Größe nach geordneten Reihe x i
genau in der Mitte liegt, d.h. 50 Prozent der Merkmalswerte sind kleiner
(oder gleich) bzw. größer (oder gleich) xMed
Ausgangspunkt ist die geordnete Urliste x1 d ... d x i d ... d x n
Für ungerades n ist xMed die mittlere Beobachtung der geordneten Urliste
und für gerades n ist xMed das arithmetische Mittel der beiden in der Mitte
liegenden Beobachtungen, d.h.
x( n 1) / 2
xMed
für n ungerade
1
( x n / 2 x( n 1) / 2 ) für n gerade
2
PD Dr Thomas Beißinger
8
2.2.1 Lagemaße
Beachte: Der Median kann nur bestimmt werden, wenn das Merkmal
mindestens ordinalskaliert ist.
Beispiel aus Bourier (2001), S. 73-74:
n ist ungerade:
Für die 23 Beschäftigten der Schulte GmbH wurden die Fehlzeiten
(in Tagen) für das letzte Halbjahr festgestellt
Fehltage
0
3
4
7
8
9
12
12
59
hi
3
1
2
3
5
4
2
2
1
Hi
3
4
6
9
14
18
20
22
23
Der Beschäftigte, der die Mittelposition in der Rangordnung einnimmt,
hat die Positionsziffer (23+1)/2 = 12. Mit der kumulierten Häufigkeit H
sieht man sofort, dass der Beschäftigte mit der Positionsziffer 12 genau
8 Tage gefehlt hat. 50 % haben 8 oder weniger Tage und 50 %
haben 8 oder mehr Tage gefehlt.
PD Dr Thomas Beißinger
9
2.2.1 Lagemaße
n ist gerade:
Für die 20 Beschäftigten der Maier KG wurden die Fehlzeiten
(in Tagen) für das letzte Halbjahr festgestellt
Fehltage
0
2
5
6
7
11
12
14
hi
4
2
2
2
4
3
2
1
Hi
4
6
8
10
14
17
19
20
1
1
1
( x n / 2 x( n 1) / 2 )
( x10 x11 )
(6 7) 6,5 Tage
2
2
2
50% der Beschäftigten haben weniger, 50% haben mehr als 6,5 Tage
gefehlt
Wäre das Merkmal ordinalskaliert gewesen, hätte der Median nicht
festgestellt werden können, da zwischen unterschiedlichen Merkmalswerte
die Mitte nicht bestimmt werden kann.
xMed
PD Dr Thomas Beißinger
10
2.2.1 Lagemaße
Beurteilung:
• Der Median ist unbeeinflusst von Ausreißern, da er allein von der Anzahl
der Merkmalwerte abhängig ist.
(im Beispiel der Schulte GmbH wird der Median nicht durch die aus dem
Rahmen fallende Fehlzeit von 59 Tagen beeinflusst)
• Der Median ist ein geeigneter Mittelwert für schiefe Verteilungen. Bei
schiefen Verteilungen konzentrieren sich die Merkmalträger im unteren
oder oberen Merkmalsbereich. Bei einer Durchschnittsbildung würden
die relativ wenigen statistischen Einheiten mit hohen (niedrigen)
Merkmalswerten den Durchschnitt nach oben (unten) verzerren. Die
Zerlegung der Gesamtheit in zwei Hälften vermittelt hier einen besseren
Einblick in die Mitte.
• Der Median ist wichtigster Lageparameter für ordinalskalierte Merkmale;
aber wegen obiger Begründung auch für metrische Merkmale sinnvoll.
PD Dr Thomas Beißinger
11
2.2.1 Lagemaße
aus: Krämer, W. (2003), So lügt man mit Statistik, S. 65.
PD Dr Thomas Beißinger
12
2.2.1 Lagemaße
Median bei klassierten Daten
Bei klassierten Daten kann der Median nicht mehr exakt abgelesen werden
Er lässt sich nur näherungsweise bestimmen.
Vorgehensweise:
1. Bestimmung der Medianklasse
Die Medianklasse ist die Klasse, in der der Merkmalsträger mit der
Positionsziffer (n+1)/2 oder vereinfacht n/2 liegt. Die m-te Klasse
ist die Medianklasse, falls
*
*
H (am
1 ) 0,5 ˜ n und H (am ) t 0,5 ˜ n
bzw.
*
*
F (am
1 ) 0,5 und F (am ) t 0,5
PD Dr Thomas Beißinger
13
2.2.1 Lagemaße
2. Lokalisierung des Medians in der Medianklasse
Es wird angenommen, dass in der Medianklasse eine Gleichverteilung
vorliegt. Zur Untergrenze der Medianklasse ist die Strecke x zu addieren,
wobei x wie folgt durch Anwendung des Strahlensatzes ermittelt werden
kann:
*
H (am
)
n/2
*
H (am
1 )
xMed
*
am
1
*
h(am
)
*
am
x
PD Dr Thomas Beißinger
14
2.2.1 Lagemaße
x
*
*
am am
1
x
*
(n / 2) H (am
1 )
*
*
H (am ) H (am 1 )
*
(n / 2) H (am
*
*
1 )
(am
am
1 )
*
h(am )
Damit ergibt sich als Berechnungsformel für den Median:
xMed
*
am
1
*
(n / 2) H (am
*
*
1 )
(am
am
1 )
*
h(am )
PD Dr Thomas Beißinger
15
2.2.1 Lagemaße
Beispiel aus Bourier (2001), S. 76:
Forderungsbestand einer Firma zum 31.12. eines Jahres
Medianklasse m = 3
PD Dr Thomas Beißinger
16
2.2.1 Lagemaße
Schritt 1:
Medianklasse ist die Klasse 3, da die Positionsziffer 245/2=122,5
in die dritte Klasse fällt
Schritt 2:
xMed
122,5 65
(300 200 )
80
200 0,719 ˜ 100
200 271,90
50 % der Forderungen haben einen Wert von weniger, 50 % von mehr
als 271,90 DM. Auf die Angabe „oder gleich 271,90 DM“ wird verzichtet,
da das Auftreten dieses Wertes unwahrscheinlich ist.
PD Dr Thomas Beißinger
17
2.2.1 Lagemaße
Bestimmung des Medians aus der Empirischen Verteilungsfunktion
Falls F(x) = 0,5 auf einer Treppenstufe liegt, ist der mittlere x-Wert dieser Stufe der Median.
PD Dr Thomas Beißinger
18
2.2.1 Lagemaße
Falls F(x) den Wert 0,5 nicht annimmt, ist der Median gleich dem kleinsten
x-Wert, bei dem F(x) größer als 0,5 ist.
PD Dr Thomas Beißinger
19
2.2.1 Lagemaße
Eigenschaften des Medians
1. Minimumeigenschaft
Durch den Median wird jener Datenwert bestimmt, von dem aus die
Summe der Entfernungen (absolut genommen) zu den anderen Werten
der Häufigkeitsverteilung ein Minimum ergibt, d.h.
n
¦ x i xMed
min
i 1
2. Lineartransformation
Für Transformationen der Form y i a bx i
gilt:
y Med a bxMed
mit
i
1,..., n; a, b  ƒ
PD Dr Thomas Beißinger
20
2.2.1 Lagemaße
Exkurs: Quantile
Ausgangspu nkt : Geordnete Urliste
Jeder Wert x p , mit 0 p 1, für den mindestens ein Anteil p der Daten
kleiner/gleich x p und mindestens ein Anteil 1 p größer/gleich x p ist,
heisst p Quantil. Es muss also gelten :
Anzahl ( x - Werte d x p )
n
tp
und
Anzahl ( x - Werte t x p )
n
t 1 p.
Damit gilt für das p Quantil :
x p x([ np ]1) , wenn np nicht ganzzahlig
x p x( np ) , wenn np ganzzahlig.
Dabei ist [np ] die zu np nächste kleinere ganze Zahl
PD Dr Thomas Beißinger
1
2.2.1 Lagemaße
Beispiel:
Gegeben ist die geordnete Urliste: 1 1 2 2 3 5 6 6
Gesucht: 33%-Perzentil
n 8
p 0,33
n ˜ p 0,33 ˜ 8
[np ] 1 3
x3 2
2,64
Mindestens 33% der beobachteten Werte sind kleiner oder gleich 2.
Hinweis: Für die Berechnung der Quantile ist mindestens
Ordinalskalenniveau notwendig.
PD Dr Thomas Beißinger
2
2.2.1 Lagemaße
Der Median ist das 50%-Quantil; er zerlegt die Gesamtheit in zwei Hälften
Die Quartile zerlegen die Gesamtheit in vier Viertel, die Dezile in
zehn Zehntel, die Perzentile in 100 Hundertstel etc.
Unteres Quartil (1. Quartil) 25% - Quantil x0.25
Oberes Quartil (3. Quartil) 75% - Quantil x0.75
Bei den Dezilen und Perzentilen interessieren i.d.R. nur die am Rand
liegenden Werte wie z.B. das 5. Perzentil, das die Gesamtheit in die Teile
5% : 95% zerlegt. Auf diese Weise werden weitere Informationen über die
Lage und Struktur der Verteilung gewonnen.
Die Ermittlung der Quantile erfolgt analog zu den Berechnungen für
den Median; Details siehe beispielsweise in Assenmacher (1998),
Deskriptive Statistik, 2. Auflage, S. 56-61.
PD Dr Thomas Beißinger
3
2.2.1 Lagemaße
Quantile lassen sich auch graphisch aus der empirischen Verteilungsfunktion
bestimmen
Fahrmeir (2003), S. 65: Nettomieten von n=26 „kleinen“ Wohnungen
PD Dr Thomas Beißinger
4
2.2.1 Lagemaße
3. Arithmetisches Mittel
Das arithmetische Mittel charakterisiert den mittleren (=durchschnittlichen)
Wert einer Reihe von Beobachtungswerten.
Das arithmetische Mittel ist für metrische Merkmale sinnvoll definiert.
Liegen die Daten als Urliste (alle n Beobachtungswerte) vor, berechnet
man das einfache arithmetische Mittel:
x
1
( x1 ... x n )
n
1 n
¦ xi
ni 1
PD Dr Thomas Beißinger
5
2.2.1 Lagemaße
Liegen die Daten in Form einer Häufigkeitstabelle vor, berechnet
man das gewogene arithmetische Mittel:
x
1 k
¦ a j h(a j )
nj 1
k
¦ a j f (a j )
j 1
Klassiertes arithmetisches Mittel
Liegen die Daten nur als klassierte (gruppierte) Daten vor, kann das
arithmetische Mittel nicht mehr exakt bestimmt werden; in diesem Fall
werden die Klassenmitten mit den relativen Klassenhäufigkeiten gewichtet
und aufaddiert. Dadurch erhält man einen Näherungswert für den
tatsächlichen Mittelwert.
PD Dr Thomas Beißinger
6
2.2.1 Lagemaße
Eigenschaften des arithmetischen Mittels
1. Berechnung der Merkmalssumme
X
nx
n
¦ xi ,
i 1
wobei X die Merkmalssumme (Summe der Beobachtungswerte)
bezeichnet
2. Schwerpunkteigenschaft
n
¦ ( xi x )
i 1
0
bzw.
k
¦ (a j x )f (a j )
0
j 1
d.h. die Summe der Abweichungen zw. x i und x verschwindet.
Würde man an die Stelle jeder Beobachtung eine Münze oder ein
Einheitsgewicht legen, so wäre die Zahlengerade genau am Punkt x ,
dem Schwerpunkt, im Gleichgewicht.
PD Dr Thomas Beißinger
7
2.2.1 Lagemaße
Das arithmetische Mittel von 5, 5 und 20 ist 10: die Stelle, die den
Balken balanciert.
aus: Krämer, W. (2003), Statistik verstehen, S. 27
PD Dr Thomas Beißinger
8
2.2.1 Lagemaße
3. Minimumeigenschaft
n
n
i 1
i 1
2
2
¦ ( xi M ) ! ¦ ( xi x )
für alle M z x
d.h. das arithmetische Mittel minimiert die Summe der quadrierten
Abweichungen.
4. Lineartransformation
Für Transformationen der Form y i
gilt:
y
a bx i
mit
i
1,..., n; a, b  ƒ
a bx
PD Dr Thomas Beißinger
9
2.2.1 Lagemaße
5. Gesamt- und Teilmittel
Vereinigt man mehrere verschiedene Messreihen mit den Umfängen
n1, n2 ,..., nr und den arithmetis chen Teilmittel n x1, x 2 ,..., x r zu einer
gemeinsame n Messreihe, die den Umfang n
r
¦ ni hat,
i 1
erhält man als arithmetisches Gesamtmittel:
1 r
x ges
¦ ni x i
ni 1
Das arithmetische Mittel einer Gesamtreihe ist gleich dem gewogenen
Mittel der arithmetischen Teilmittel x i der r Teilreihen; als Gewicht ni
fungiert die Anzahl der statistischen Einheiten in den Teilreihen.
Nur wenn alle Teilreihen den gleichen Umfang haben (n1 ... nr ),
ist x ges gleich dem arithmetischen Mittel der einzelnen Mittelwerte.
PD Dr Thomas Beißinger
10
2.2.1 Lagemaße
Das getrimmte arithmetische Mittel
Das arithmetische Mittel reagiert empfindlich auf Ausreißer oder
Extremwerte.
Ein resistenteres Lagemaß ist das getrimmte arithmetische Mittel, bei
dem ein Teil der Randdaten, z.B. 10%, weggelassen und dann das
arithmetischen Mittel aus den restlichen Daten berechnet wird.
PD Dr Thomas Beißinger
11
2.2.1 Lagemaße
4. Geometrisches Mittel
Relevant bei Wachstums- oder Aufzinsungsfaktoren
Zeitreihe von Bestandsdaten für die Perioden 0,1,…,n:
B0 , B1,..., Bn
i-ter Wachstumsfaktor:
B0 : Anfangsbes tand
Bi
Bi 1
xi
i-te Wachstumsrate:
Bi Bi 1
Bi 1
ri
Es gilt:
Bn
B0 x1 ˜ ... ˜ x n
xi 1
bzw. Bn / B0
x1 ˜ ... ˜ x n
PD Dr Thomas Beißinger
12
2.2.1 Lagemaße
Der durchschnittliche Wachstumsfaktor ist derjenige Faktor x geom ,
der über alle Perioden konstant bleibt und B0 auf Bn anwachsen lässt.
Es ist:
Bn
x geom
n
B0 ( x geom )n
( x1 ˜ ... ˜ x n
Bn / B0
1
n
)
Fazit: Das geometrische Mittel zu den Faktoren x1,..., x n ist
x geom
n
1
·n
§
¨ – xi ¸ .
©i 1 ¹
Die durchschnittliche Wachstumsrate ist dann x geom 1.
PD Dr Thomas Beißinger
13
2.2.1 Lagemaße
Beispiel aus Assenmacher (1998), S.77:
Im Zeitraum 1950 bis 1965 entwickelte sich das reale Bruttosozialprodukt
der Bundesrepublik Deutschland (in Preisen von 1980) mit den folgenden
Wachstumsraten in Prozent:
9,5 8,9 8,2 7,4 12,0 7,3 5,7 3,7 7,3 9,2 4,4 4,7 2,8 6,6 5,4
Um die durchschnittliche Wachstumsrate zu ermitteln, müssen die
Wachstumsraten in Wachstumsfaktoren umgewandelt werden, z.B.
x1 = 1,095 etc.
Als durchschnittlichen Wachstumsfaktor erhält man x geom
1,0685.
Die durchschnittliche Wachstumsrate beträgt somit 6,85%.
PD Dr Thomas Beißinger
14
Literaturhinweise zu Abschnitt 2.2.1
Als Ergänzung und Vertiefung können beispielsweise folgende
Bücher hinzugezogen werden:
„
Bourier (2001), S. 67-88.
„
Fahrmeir et al. (2003), S. 52-65.
„
Schulze (2000), S. 31-59.
„
Schwarze (2001), S. 63 - 83.
PD Dr Thomas Beißinger
15
2.2.2 Streuungsmaße
Ein Mensch, der von Statistik hört,
denkt dabei nur an Mittelwert.
Er glaubt nicht dran und ist dagegen,
ein Beispiel soll es gleich belegen
Ein Jäger auf der Entenjagd
hat einen ersten Schuss gewagt.
Der Schuss, zu hastig aus dem Rohr,
lag eine gute Handbreit vor.
Der zweite Schuss mit lautem Krach
lag eine gute Handbreit nach.
Der Jäger spricht ganz unbeschwert:
statistisch ist die Ente tot.
Doch wär´ er klug und nähme Schrot
– dies sei gesagt, ihn zu bekehren –
er würde seine Chance mehren:
Der Schuss geht ab, die Ente stürzt,
weil Streuung ihr das Leben kürzt
PD Dr Thomas Beißinger
(P. H. List)
1
2.2.2 Streuungsmaße
Die Streuung der Merkmalswerte ist (nach der Lage) die zweite
wesentliche Eigenschaft einer Häufigkeitsverteilung. Man möchte wissen,
ob die Merkmalswerte nahe am Mittelwert (Zentrum) liegen oder nicht.
Beispiel: Häufigkeitsverteilungen mit gleichem arithmetischen Mittel, aber
unterschiedlicher Streuung; aus: Schwarze (2001), S. 84.
PD Dr Thomas Beißinger
2
2.2.2 Streuungsmaße
• Streuungsmaße (Streuungsparameter, Variabilitätsmaße,
Variationsmaße, Dispersionsmaße) haben die Aufgabe,
die Streuung der Häufigkeitsverteilung in Form eines einzigen
Wertes zu beschreiben
• 2 wichtige Konzepte
• Maß für die Streuung ist die Entfernung zwischen zwei ausgewählten
Merkmalswerten (z.B. Spannweite, Interquartilsabstand)
• Maß für die Streuung sind die Entfernungen der Merkmalwerte
zu ihrem Mittelwert (z.B. mittlere absolute Abweichung, Varianz
Standardabweichung)
PD Dr Thomas Beißinger
3
2.2.2 Streuungsmaße
1. Spannweite (Variationsbreite, range)
Gegeben seien n Beobachtungswerte xi (i=1,…,n) eines metrisch
messbaren Merkmals X. Die Differenz zwischen größtem und
kleinstem Beobachtungswert heißt Spannweite r der Verteilung
des Merkmals:
r max x i min x i
i
i
Oftmals wird bereits die Ordinalskala als ausreichend angesehen.
Dies ist dann zulässig, wenn die Spannweite durch die Nennung der
beiden Eckwerte angegeben wird (z.B. die Klausurnoten streuen
zwischen gut und mangelhaft).
PD Dr Thomas Beißinger
4
2.2.2 Streuungsmaße
Spannweite bei klassierten Daten:
*
Gegeben seien die Klassengrenzen am
(m
0,1,..., M ) der
Häufigkeit sverteilun g eines metrisch messbaren Merkmals X .
*
Die Differenz zwischen größter Klassengrenze (aM
) und kleinster
Klassengrenze (a0* ) heisst Spannweite r der Verteilung :
r
*
aM
a0*
PD Dr Thomas Beißinger
5
2.2.2 Streuungsmaße
Beurteilung der Spannweite:
• Einfaches, aber wenig aussagekräftiges Streuungsmaß
• Über die Streuung der dazwischen liegenden Werte wird nichts
ausgesagt.
• Spannweite reagiert empfindlich auf Ausreißer.
• In der Praxis: Verwendung vor allem dort, wo die Angabe der
Extremwerte von Interesse ist. Meistens direkte Angabe der Extremwerte (statt der Differenz), z.B. Börsenkurse (höchst/tiefst)
oder Temperaturangaben (min/max).
PD Dr Thomas Beißinger
6
2.2.2 Streuungsmaße
Verteilungen mit gleicher Spannweite, aber verschiedener Streuung:
aus: Schwarze (2001), Grundlagen der Statistik I, S. 85.
PD Dr Thomas Beißinger
7
2.2.2 Streuungsmaße
2. Interquartilsabstand (zentraler Quartilsabstand)
Die Distanz
dQ
x0.75 x0.25
heisst Interquart ilsabstand (IQR : interquartile range)
Der Interquartilsabstand gibt die Größe des Bereichs an, in dem
(in etwa) die mittleren 50 Prozent aller Merkmalswerte liegen.
Berechnung des Abstandes erfordert mindestens Intervallskalenniveau.
Aber: Beschränkt man sich auf die Angabe der beiden Quartilswerte
anstelle der Differenz, dann genügt bereits die Ordinalskala
(z.B. die mittleren 50% der Noten streuen zwischen 2 und 3).
PD Dr Thomas Beißinger
8
2.2.2 Streuungsmaße
Graphische Darstellung des Interquartilsabstandes mit Hilfe des
Summenpolygons
x0.25 x0.50
x0.75
aus: Bourier (2001), Beschreibende Statistik, S. 91
PD Dr Thomas Beißinger
9
2.2.2 Streuungsmaße
Beurteilung des Interquartilsabstands:
• Wie bei der Spannweite wird über den Streubereich informiert, nicht
aber darüber, wie die Beobachtungswerte in diesem Bereich streuen.
• Im Unterschied zur Spannweite tritt das Ausreißer-Problem nicht auf,
da die unteren und oberen 25% der Häufigkeitsverteilung abgeschnitten
werden.
• Der Interquartilsabstand ist als Streuungsmaß geeignet, wenn der
Kernbereich (hier 50%) einer Häufigkeitsverteilung interessiert.
PD Dr Thomas Beißinger
10
2.2.2 Streuungsmaße
Faustregel zur Identifikation von potentiellen Ausreißern:
• Bilde den inneren „Zaun“ mit
Untergrenze : zu
x0.25 1.5dQ
Obergrenze : zo
x0.75 1.5dQ
• Daten kleiner als zu und größer als zo sind dann Ausreißerkandidaten,
die genauer zu inspizieren sind.
Fünf-Punkte-Zusammenfassung
Die Fünf-Punkte-Zusammenfassung einer Verteilung besteht aus
xmin , x0.25 , x med , x0.75 , xmax
PD Dr Thomas Beißinger
11
2.2.2 Streuungsmaße
Die Fünf-Punkte-Zusammenfassung führt zur komprimierten
Visualisierung einer Verteilung durch den
Box-Plot (Schachteldiagramm)
Konstruktion
1. x0.25 = Anfang der Schachtel („box“)
x0.75 = Ende der Schachtel
dQ = Länge der Schachtel
2. Der Median wird durch einen Punkt oder vertikale Linie
in der Box markiert.
2. Zwei Linien („whiskers“) außerhalb der Box gehen bis zu
xmin und xmax.
PD Dr Thomas Beißinger
12
2.2.2 Streuungsmaße
Box-Plot
Median
xMin
x0.25
x0.50
x0.75
xMax
Interquartilsabstand
Spannweite
PD Dr Thomas Beißinger
13
2.2.2 Streuungsmaße
Modifizierter Box-Plot
Die Linien außerhalb der Box werden nur bis zu xmin bzw. xmax
gezogen, falls xmin und xmax innerhalb des Bereichs [zu, zo] der
„Zäune“ liegen. Ansonsten gehen die Linien nur bis zum kleinsten bzw.
größten Wert innerhalb der Zäune, und die außerhalb liegenden Werte
werden individuell eingezeichnet.
PD Dr Thomas Beißinger
14
2.2.2 Streuungsmaße
Modifizierte Box-Plots
der Nettomieten von
1082 Wohnungen
geschichtet nach
Wohnungsgröße
aus: Fahrmeir (2003),
S. 68
PD Dr Thomas Beißinger
15
2.2.2 Streuungsmaße
• Box-Plots sind vor allem dann sinnvoll, wenn schnell ein Überblick über
die Verteilung der Daten gewonnen werden soll und keine exakten
Details der Verteilung benötigt werden.
• Beim Vergleich mehrerer Verteilungen sind nebeneinander gestellte
Box-Plots eine gute Möglichkeit, schnell über die Verschiedenartigkeit
der Verteilungen einen Eindruck zu bekommen.
PD Dr Thomas Beißinger
16
2.2.2 Streuungsmaße
3. Mittlere absolute Abweichung
Gegeben seien n Beobachtungswerte xi (i=1,…,n) eines metrisch
messbaren Merkmals X. Das arithmetische Mittel aus den absoluten
Abweichungen der Beobachtungswerte xi vom arithmetischen Mittel x
heißt mittlere absolute Abweichung d:
1 n
d
¦ | xi x |
ni 1
• Die mittlere absolute Abweichung beschreibt, wie weit die Beobachtungswerte durchschnittlich vom Mittelwert entfernt sind.
• Als Mittelwert wird neben dem arithmetischen Mittel auch der Median
verwendet.
PD Dr Thomas Beißinger
17
2.2.2 Streuungsmaße
Liegen die Daten als Häufigkeitsverteilung vor, gilt:
Gegeben seien k Merkmalsausprägungen aj (j =1,…,k) eines metrisch
messbaren Merkmals X und die zugehörigen absoluten oder relativen
Häufigkeiten. Die mittlere absolute Abweichung ist in diesem Fall
k
1 k
d
¦ |a j x | h(a j ) ¦ |a j x | f (a j )
nj 1
j 1
Liegen die Daten als Häufigkeitsverteilung gruppierter Daten vor, so
müssen die obigen aj – Werte durch die jeweiligen Klassenmitten in den
m Klassen ersetzt werden. Hierdurch lässt sich die mittlere Abweichung
näherungsweise bestimmen (Annahme der Gleichverteilung in den Klassen
PD Dr Thomas Beißinger
18
2.2.2 Streuungsmaße
Beurteilung:
• Die mittlere absolute Abweichung ist ein verständliches Maß für die
Streuung, das alle Merkmalswerte berücksichtigt.
• Da auch die Abweichungen von Ausreißern erfasst werden, besteht
die Gefahr einer durch Ausreißer verzerrten Beschreibung.
PD Dr Thomas Beißinger
19
2.2.2 Streuungsmaße
4. Varianz und Standardabweichung
Gegeben seien n Beobachtungswerte xi (i=1,…,n) eines metrisch
messbaren Merkmals X. Das arithmetische Mittel der quadrierten
Abweichungen der Beobachtungswerte xi vom arithmetischen Mittel x
heißt (empirische) Varianz s2:
1 n
2
s2
¦ ( xi x )
ni 1
PD Dr Thomas Beißinger
20
2.2.2 Streuungsmaße
Liegen die Daten als Häufigkeitsverteilung vor, gilt:
Gegeben seien k Merkmalsausprägungen aj (j =1,…,k) eines metrisch
messbaren Merkmals X und die zugehörigen absoluten oder relativen
Häufigkeiten. Die Varianz ist in diesem Fall
k
1 k
2
2
s2
¦ (a j x ) h(a j ) ¦ (a j x ) f (a j )
nj 1
j 1
Liegen die Daten als Häufigkeitsverteilung gruppierter Daten vor, so
müssen die obigen aj – Werte durch die jeweiligen Klassenmitten in den
m Klassen ersetzt werden. Hierdurch lässt sich die Varianz
näherungsweise bestimmen (Annahme der Gleichverteilung in den Klassen
PD Dr Thomas Beißinger
21
2.2.2 Streuungsmaße
Die positive Quadratwurzel aus der Varianz heißt Standardabweichung s
s
s2
1 n
2
¦ ( xi x )
ni 1
1 k
2
¦ (a j x ) h(a j )
nj 1
k
2
¦ (a j x ) f (a j )
j 1
• Die Standardabweichung hat dieselbe Dimension wie das Merkmal,
für das sie berechnet wurde. Die Varianz hat als Dimension das Quadrat
der Dimension des Merkmals.
• Da extreme Abweichungen vom arithmetischen Mittel sehr stark in
die Summe eingehen, reagieren Varianz und Standardabweichung
empfindlich auf Ausreißer.
PD Dr Thomas Beißinger
22
2.2.2 Streuungsmaße
Beachte: Die mittlere absolute Abweichung und die Standardabweichung
unterscheiden sich, d.h.
d zs
bzw.
1 n
1 n
2
¦ | xi x | z
¦ ( xi x )
ni 1
ni 1
d ist eigentlich das anschaulichere Konzept zur Messung der Streuung;
s wird allerdings aufgrund der großen Bedeutung in der induktiven
Statistik auch häufig in der deskriptiven Statistik als Maß für die
Streuung herangezogen.
PD Dr Thomas Beißinger
23
2.2.2 Streuungsmaße
Verschiebungssatz
s2
s2
1 n 2
2
¦ xi x
ni 1
1 k 2
2
¦ a j h(a j ) x
nj 1
k
(1)
2
¦ a j f (a j ) x
2
(2)
j 1
Diese Formeln erlauben eine schnellere Berechnung der Varianz
PD Dr Thomas Beißinger
24
2.2.2 Streuungsmaße
Beweis von Gl. (1)
1 n
2
¦ ( xi x )
ni 1
s2
1n 2
2
¦ ( xi 2xi x x )
ni 1
n
1 n 2 1
1 n 2
¦ xi 2 x ¦ xi ¦ x
ni 1
n i 1
ni 1
1 n 2
1 n
1 2
¦ x i 2 x ¦ x i nx
ni 1
ni 1
n
1 n 2
2
¦ xi 2x x x
ni 1
1 n 2
2
¦ xi x
ni 1
PD Dr Thomas Beißinger
25
2.2.2 Streuungsmaße
Transformationsregel
Für y i
s y2
ax i b ist
a 2s x2
bzw.
sy | a | s x
Beweis:
s y2
1 n
2
¦ (y i y )
ni 1
1n
2
¦ (ax i b ax b )
ni 1
a2
PD Dr Thomas Beißinger
1 n
2
¦ ( xi x )
ni 1
a 2s x2
26
2.2.2 Streuungsmaße
Streuungszerlegung
Gegeben seien R Gruppen von Beobachtungswerten eines metrisch
messbaren Merkmals X. Von jeder Gruppe sei die Anzahl der
Beobachtungswerte nr, das arithmetische Mittel x r und die
Varianz sr2 bekannt (r =1,…,R). Die Varianz aller Beobachtungswerte
erhält man aus der folgenden Formel für die Streuungszerlegung:
s2
wobei x
1R
1R
2
2
¦ nr s r ¦ n r ( x r x )
nr 1
nr 1
R
1R
¦ nr x r und ¦ nr
nr 1
r 1
n.
PD Dr Thomas Beißinger
27
2.2.2 Streuungsmaße
Interpretation der Streuungszerlegung
s2
1R
1R
2
2
¦ nr s r ¦ n r ( x r x )
nr 1
nr 1
misst die Streuung innerhalb der
Gruppen (Schichten) durch ein
gewichtetes Mittel der Varianzen
s12 , s22,..., sR2
misst die Streuung zwischen den
Gruppen (Schichten) durch ein
gewichtetes Mittel der quadrierten
Abweichungen der Mittelwerte x r
vom Gesamtmittel x
Die Streuungszerlegung lässt sich somit beschreiben als:
Gesamte Varianz = Varianz innerhalb der Gruppen + Varianz zwischen
den Gruppen
PD Dr Thomas Beißinger
28
2.2.2 Streuungsmaße
5. Variationskoeffizient
• Die bisherigen Streuungsmaße haben die Streuung gemessen, ohne die
Lage der Häufigkeitsverteilung zu berücksichtigen.
Beispiel:
x i 45
x 50
( x i - x) 5
xi
9995
x
10000
( x i - x)
5
Die absolute Abweichung (= 5) ist in beiden Fällen identisch. Betrachtet
man aber die Abweichung im Verhältnis zur Lage der Verteilung, so ist
die Abweichung im zweiten Fall geringer.
• Die relative Streuung wird durch den Variationskoeffizienten gemessen.
PD Dr Thomas Beißinger
29
2.2.2 Streuungsmaße
Gegeben sei ein verhältnisskaliertes Merkmal X mit dem arithmetischen
Mittel x und der Standardabweichung s. Das relative Streuungsmaß
s
v
(˜ 100 )
x
heißt Variationskoeffizient.
• Ist das arithmetische Mittel negativ, so ist sein Absolutbetrag einzusetzen
• Der Variationskoeffizient ist eine dimensionslose Größe.
• Der Variationskoeffizient ist als relative Größe zum Vergleich der Streuun
von Häufigkeitsverteilungen mit unterschiedlichem Mittelwert geeignet.
PD Dr Thomas Beißinger
30
2.2.2 Streuungsmaße
In manchen Fällen verwendet man als Variationskoeffizient auch den
Quotienten aus mittlerer absoluter Abweichung und arithmetischen Mittel,
oder mittlerer absoluter Abweichung und Median:
v
d
x
oder
v
d
xMed
In diesem Fall ist v einfacher interpretierbar.
PD Dr Thomas Beißinger
31
Literaturhinweise zu Abschnitt 2.2.2
Als Ergänzung und Vertiefung können beispielsweise folgende
Bücher hinzugezogen werden:
„
Bourier (2001), S. 88-104.
„
Fahrmeir et al. (2003), S. 66-73.
„
Schulze (2000), S. 60-77.
„
Schwarze (2001), S. 83 - 97.
PD Dr Thomas Beißinger
32
2.2.3 Maßzahlen für Schiefe und Wölbung
• Neben Lageparametern und Streuungsmaßen lässt sich eine
Häufigkeitsverteilung auch noch durch Parameter charakterisieren,
die etwas über die Form der Verteilung aussagen.
Hierzu dienen Schiefe- und Wölbungsmaße.
• Schiefe- und Wölbungsmaße sind deshalb nützlich, weil Häufigkeitsverteilungen mit gleichem arithmetischen Mittel und gleicher empirischer
Standardabweichung eine sehr unterschiedliche Form aufweisen
können.
PD Dr Thomas Beißinger
1
2.2.3 Maßzahlen für Schiefe und Wölbung
Beispiel: Die folgenden Häufigkeitsverteilungen haben übereinstimmende
arithmetische Mittel x 10 und Varianzen s 2 6,4 . Dennoch haben die
Verteilungen unterschiedliche Formen.
Anmerkung: Es wurden jeweils nur die Klassenmitten angegeben.
Die Klassengrenzen sind 3, 5, 7, usw.
aus: Schwarze (2001), Grundlagen der Statistik I, S. 98.
PD Dr Thomas Beißinger
2
2.2.3 Maßzahlen für Schiefe und Wölbung
Histogramme zum vorhergehenden Beispiel:
Verteilungen mit übereinstimmendem arithmetischen Mittel und
gleicher Varianz:
0,1
a) und b): symmetrische Verteilungen; Unterschied: bei a) sind die
Häufigkeiten an den Rändern kleiner und in der Mitte liegt eine
ausgeprägte Spitze. Unterschied zw. a) und b) wird durch ein Maß für die
Wölbung erfasst.
Die Verteilung c) ist deutlich asymmetrisch (schief). Unterschiede in der
Symmetrie bzw. Asymmetrie werden durch ein Maß für die Schiefe erfasst.
PD Dr Thomas Beißinger
3
2.2.3 Maßzahlen für Schiefe und Wölbung
I. Schiefe (skewness)
Eine Verteilung heißt symmetrisch, wenn es eine Symmetrieachse gibt,
so dass die rechte und linke Hälfte der Verteilung zueinander spiegelbildlich sind.
Definition: Symmetrische und schiefe Verteilung
Die Häufigkeitsverteilung des kardinalskalierten Merkmals X heißt
symmetrisch bezüglich xMed , falls für alle Werte einer reellen
Konstante c gilt:
h( xMed c ) h( xMed c )
Gilt diese Beziehung nicht, ist die Häufigkeitsverteilung schief bzw.
asymmetrisch.
PD Dr Thomas Beißinger
4
2.2.3 Maßzahlen für Schiefe und Wölbung
Bei empirischen Verteilungen ist exakte Symmetrie selten!
Für eine symmetrische Verteilung gilt:
x
xMed
Falls nur ein häufigster Wert existiert,
gilt bei symmetrischer Verteilung:
x
xMed
xMod
Beachte: Aus x xMed kann nicht auf eine symmetrische Verteilung
geschlossen werden.
Beispiel:
Beobachtungswerte: 2, 3, 5, 6, 9
Arithmetisches Mittel: x 5
xMed 5
Median:
Trotz x xMed ist die Verteilung asymmetrisch!
PD Dr Thomas Beißinger
5
2.2.3 Maßzahlen für Schiefe und Wölbung
• Eine Verteilung ist rechtsschief (bzw. linkssteil), wenn der überwiegende
Anteil von Daten linksseitig konzentriert ist.
• Eine Verteilung ist linksschief (bzw. rechtssteil), wenn der überwiegende
Anteil von Daten rechtsseitig konzentriert ist.
Linkssteile Verteilung
(rechtsschief)
Symmetrische Verteilung
Rechtssteile Verteilung
(linksschief)
aus: Fahrmeir et al. (2002), Statistik, S. 48.
PD Dr Thomas Beißinger
6
2.2.3 Maßzahlen für Schiefe und Wölbung
Alternative Definition von Symmetrie und Schiefe:
Eine Verteilung ist symmetrisch, wenn für alle c gilt:
f ( x d xMed c ) f ( x t xMed c )
bzw.
F ( xMed c ) 1 F ( xMed c )
Eine Verteilung ist linkssteil (rechtsschief), wenn:
F ( xMed c ) ! 1 F ( xMed c )
Eine Verteilung ist rechtssteil (linksschief), wenn:
F ( xMed c ) 1 F ( xMed c )
PD Dr Thomas Beißinger
7
2.2.3 Maßzahlen für Schiefe und Wölbung
Erste Anhaltspunkte über die Schiefe einer eingipfligen Häufigkeitsverteilung erhält man durch die Fechnersche Lageregel:
Es gilt (meistens):
1. Symmetrische Verteilung:
xMod
xMed
x
2. Rechtschiefe (linkssteile) Verteilung:
xMod xMed x
3. Linksschiefe (rechtssteile) Verteilung: xMod ! xMed ! x
Diese Regel liefert Anhaltspunkte für den Typ der Verteilung; sie gibt
aber keinen Aufschluss über die Stärke der Asymmetrie in Form einer
Maßzahl.
PD Dr Thomas Beißinger
8
2.2.3 Maßzahlen für Schiefe und Wölbung
Beispiel: Geglättete Häufigkeitspolygone eingipfliger Verteilungen
und Lage der Mittelwerte in Abhängigkeit von der Form
der Verteilung
xMod
xMed
x
symmetrisch
xi
xMod xMed x
xi
rechtsschief
x xMed xMod xi
linksschief
aus: Schulze (2000), Beschreibende Statistik, S.78.
PD Dr Thomas Beißinger
9
2.2.3 Maßzahlen für Schiefe und Wölbung
Mit der Fechnerschen Lageregel lässt sich Schiefe auch mit Bezug
auf die Abweichungen ( xi x ) definieren.
Ist eine Verteilung rechtsschief (linkssteil), sind im Datensatz mehr als
die Hälfte der Abweichungen ( xi x ) negativ, da gilt: x ! xMed .
Ist die Verteilung linksschief (rechtssteil), müssen wegen x xMed
mehr als 50% der Abweichungen positiv sein.
Diese Zusammenhänge lassen sich bei der Konstruktion von
Schiefemaßen nutzbar machen.
Bei linkssteiler Verteilung haben zwar mehr als die Hälfte der
Abweichungen ein negatives Vorzeichen; sie sind aber vom Betrag her
viel kleiner als die positiven Abweichungen. Der Schiefeparameter soll
in diesem Fall positiv sein usw.
PD Dr Thomas Beißinger
10
2.2.3 Maßzahlen für Schiefe und Wölbung
Schiefemaße
Nachfolgend vorgestellte Schiefemaße sind wie folgt definiert:
• bei rechtsschiefer Verteilung wird die Maßzahl positiv
• bei symmetrischer Verteilung wird die Maßzahl Null
• bei linksschiefer Verteilung wird die Maßzahl negativ
Absoluter Schiefeparameter (drittes Zentralmoment) m3
m3
1 n
3
¦ ( xi x )
ni 1
f m3 f
2
Bei diesem Parameter wird jede Abweichung ( xi x ) mit ( x i x )
gewichtet. Große Abweichungen erhalten daher ein großes Gewicht.
m3 erhält das gewünschte Vorzeichen für die Schiefe und ist bei
Symmetrie Null. Nachteil: es lässt sich kein Wertebereich angeben.
PD Dr Thomas Beißinger
11
2.2.3 Maßzahlen für Schiefe und Wölbung
Der absolute Schiefeparameter ist umso größer, je größer die Streuung
der Verteilung. Um die Schiefe verschiedener Verteilungen zu vergleichen,
empfiehlt sich folgende Normierung:
Relativer Schiefeparameter (drittes Standardmoment)
m3
m3S
s3
m3S ist eine dimensionslose Größe. Nachteil: kein fester Wertebereich.
Quantilskoeffizient der Schiefe
qS
( x1 p xMed ) ( xMed x p )
Falls p=0,25: Quartilskoeffizient
x1 p x p
Bei linkssteilen (bzw. rechtssteilen) Verteilungen liegt das untere Quantil
näher (bzw. weiter entfernt vom) Median. Somit ergeben sich obige
Vorzeichen für qS . Durch Nenner erfolgt Normierung: 1 d qS d 1.
PD Dr Thomas Beißinger
12
2.2.3 Maßzahlen für Schiefe und Wölbung
Weitere Schiefemaße:
Schiefemaß nach Pearson:
x xMod
s
SMP 1
Nachteil: es lässt sich kein Wertebereich angegeben
Schiefemaß nach Yule-Pearson:
SMP 2
3( x xMed )
s
SMP 2 liegt immer zwischen r 3, da ( x -xMed )/s d 1. Werte größer r 1 sind
bei Anwendung en allerdings selten.
PD Dr Thomas Beißinger
13
2.2.3 Maßzahlen für Schiefe und Wölbung
II. Wölbung (Exzess, Kurtosis)
• Maßzahlen für die Wölbung sollen charakterisieren, wie stark oder
schwach der zentrale Bereich und die Randbereiche der Daten
besetzt sind.
• Verteilungen mit gleicher Streuung können unterschiedliche
Wölbungen in der Mitte bzw. unterschiedliche linke und rechte Enden
in den Randbereichen besitzen.
PD Dr Thomas Beißinger
14
2.2.3 Maßzahlen für Schiefe und Wölbung
Im ersten Beispiel hatten die Verteilungen a) und b) übereinstimmende
Mittelwerte und gleiche Varianzen. Die beiden Verteilungen weisen
allerdings eine unterschiedliche Wölbung auf:
PD Dr Thomas Beißinger
15
2.2.3 Maßzahlen für Schiefe und Wölbung
Als Vergleichsmaßstab für das Maß an Wölbung wird üblicherweise
die Normalverteilung herangezogen.
Eine gängige Maßzahl, die gerade so definiert ist, dass sie bei Vorliegen
der Normalverteilung Null wird, ist das
Wölbungsmaß von Fisher:
J
m4
3
s4
mit
m4
1 n
4
¦ ( xi x )
ni 1
J 0 bei Normalvert eilung
J ! 0 bei spitzeren Verteilungen
J 0 bei flacheren Verteilungen
PD Dr Thomas Beißinger
16
2.2.3 Maßzahlen für Schiefe und Wölbung
Für die Verteilungen a) und b) aus dem ersten Beispiel ergibt sich:
a)
m4
160
und J
160
3
2,53 4
0,91
b)
m4
83,2
und J
83,2
3
2,53 4
0,97
Mitunter wird die Wölbung von Verteilungen folgendermaßen bezeichnet:
J ! 0 : leptokurti sche Verteilung
J 0 : mesokurtis che Verteilung
J 0 : platykurtische Verteilung
PD Dr Thomas Beißinger
17
Literaturhinweise zu Abschnitt 2.2.3
Relativ ausführlich werden Schiefe und Wölbung diskutiert bei
„
Assenmacher, W. (1998), Deskriptive Statistik, Springer,
S. 109-122.
oder bei
„
Schulze (2000), Beschreibende Statistik, Oldenbourg, S. 77-88.
Zusätzlich können beispielsweise auch folgende Bücher herangezogen
werden:
„
Bourier (2001), S. 104-106.
„
Fahrmeir et al. (2003), S. 74-76.
„
Schwarze (2001), S. 97-102.
PD Dr Thomas Beißinger
18
2.2.4 Konzentrationsmaße
a) Der Konzentrationsbegriff
Fragestellung: Wie viele oder wie viel Prozent der Merkmalsträger
vereinigen einen bestimmten Prozentsatz der gesamten
Merkmalssumme auf sich?
(Konzentration von Merkmalsanteilen)
Unterschied zur empirischen Verteilungsfunktion F(x):
F(x) liefert den Anteil der Merkmalsträger, die einen Merkmalswert von
höchstens x besitzen ĺ Verteilung der Merkmalsträger auf die
Merkmalswerte.
Dagegen bei der Konzentrationsmessung: Verteilung der Merkmalssumme
auf die Merkmalsträger.
PD Dr Thomas Beißinger
1
2.2.4 Konzentrationsmaße
Definition: Merkmalssumme
Gegeben sei ein Merkmal mit den Beobachtun gswerten x1,...x n
bzw. den Merkmalsau sprägungen a1,..., ak und den absoluten
[oder relativen] Häufigkeit en h(a j )[oder f (a j )], j
1,..., k .
Die Merkmalssu mme ist definiert als :
G
nx
n
¦ xi
i 1
k
¦ a j h(a j )
j 1
k
n ¦ a j f (a j ).
j 1
PD Dr Thomas Beißinger
2
2.2.4 Konzentrationsmaße
Anforderungen an Merkmale
Da die Merkmalssumme berechnet wird, muss gelten:
• Das Merkmal ist mindestens intervallskaliert.
• Die Merkmalswerte sind nicht negativ.
• Die Merkmalssumme muss im Konzentrationszusammenhang eine
sinnvoll interpretierbare Größe sein, z.B. Summe der Unternehmensumsätze auf einem Produktmarkt oder Summe der Haushaltseinkommen.
PD Dr Thomas Beißinger
3
2.2.4 Konzentrationsmaße
Zwei Aspekte von Konzentration
Relevant sind:
• Größenunterschiede der auf die Merkmalsträger entfallenden Anteile
der Merkmalssumme
• Anzahl der Merkmalsträger
Beispiele:
• Einen Markt mit 100 Anbietern, von denen die beiden größten einen
Marktanteil von 90 Prozent besitzen, würde man als konzentriert
bezeichnen.
• Einen Markt mit nur 2 Anbietern und gleich großen Marktanteilen
würde man aber ebenfalls als konzentriert bezeichnen.
PD Dr Thomas Beißinger
4
2.2.4 Konzentrationsmaße
Zwei Arten statistischer Konzentration:
Absolute Konzentration
Anteile an der Merkmalssumme werden auf die Anzahl der
Merkmalsträger bezogen ĺ Beide Aspekte von Konzentration
berücksichtigt.
Eine hohe Konzentration liegt vor, falls auf eine kleine Anzahl von
Merkmalsträgern ein großer Anteil der Merkmalssumme entfällt.
Relative Konzentration (Disparität)
Anteile an der Merkmalssumme werden zu dem jeweiligen Anteil
der Merkmalsträger in Beziehung gesetzt ĺ Anzahlaspekt der
Konzentration vernachlässigt.
Eine hohe Konzentration liegt vor, falls auf einen kleinen Anteil
der Merkmalsträger ein großer Anteil der Merkmalssumme entfällt.
PD Dr Thomas Beißinger
5
2.2.4 Konzentrationsmaße
Konzentration und Streuung
Das Konzept der Konzentration steht in einer gewissen Beziehung
zum Konzept der Streuung.
Extremfälle der Konzentration:
Egalitäre Verteilung: die Merkmalswerte aller n Merkmalsträger
stimmen überein.
• In diesem Fall verteilt sich die Merkmalssumme gleichmäßig auf die
Merkmalsträger.
• Die Häufigkeitsverteilung besteht nur aus einer Ausprägung und
alle Streuungsmaße sind gleich Null.
• Die relative Konzentration (=Disparität) ist gleich Null.
• Die absolute Konzentration kann aber umso größer sein, je kleiner n ist.
PD Dr Thomas Beißinger
6
2.2.4 Konzentrationsmaße
Relative Häufigkeitsverteilung bei egalitärer Verteilung:
f (a j )
1
Keine Disparität
0
aj
a1
Anmerkung: Bei einer Disparität von Null wird missverständlich auch von
Gleichverteilung gesprochen. Aber: Bei einer egalitären Verteilung liegt eine
Einpunktverteilung vor, d.h. alle Merkmalsträger haben die gleiche und damit
einzige Merkmalsausprägung. Gleichverteilung bedeutet dagegen, dass jede
Merkmalsausprägung (von mehreren) gleich häufig vorkommt (z.B. Verteilung
der Augenzahl beim Würfeln).
PD Dr Thomas Beißinger
7
2.2.4 Konzentrationsmaße
Vollkommene Ungleichheit (maximale Konzentration)
liegt vor, wenn ein Merkmalsträger die gesamte Merkmalssumme auf
sich vereinigt; d.h. sein Anteil an der Merkmalssumme ist 1 und die
Anteile der übrigen n-1 Merkmalsträger sind alle jeweils Null.
f (a j )
(n 1) / n
Zweipunktverteilung
1/ n
aj
0
a1
a2
PD Dr Thomas Beißinger
8
2.2.4 Konzentrationsmaße
Extreme Ungleichheit:
Die Merkmalsausprägungen für n-1 Merkmalsträger sind identisch, aber
nicht notwendigerweise Null; ein Merkmalsträger hat eine andere
Merkmalsausprägung.
f (a j )
(n 1) / n
Zweipunktverteilung
1/ n
0
a1
aj
a2
PD Dr Thomas Beißinger
9
2.2.4 Konzentrationsmaße
Überblick zur Konzentrationsmessung:
Absolute
Konzentration
Relative
Konzentration
Graphische
Darstellung
Konzentrationskurve
Lorenzkurve
Maßzahlen
Konzentrationskoeffizienten
Herfindahlindex
Gini-Koeffizient
PD Dr Thomas Beißinger
10
2.2.4 Konzentrationsmaße
b) Absolute Konzentration
Man interessiert sich für den Anteil an der Merkmalssumme, den
die g Merkmalsträger mit den größten Merkmalsausprägungen haben.
Die Merkmalswerte sind in fallender Folge angeordnet:
x1 t x 2 t ... t x n t 0
Konzentrationskoeffizient (Konzentrationsrate, concentration ratio)
g
¦ xi
CRg
i 1
n
,
g
1,..., n
¦ xi
i 1
Es gilt: CRn 1
Maximale Konzentration liegt vor, falls CR1 1.
PD Dr Thomas Beißinger
11
2.2.4 Konzentrationsmaße
Anwendung:
Die Monopolkommission begutachtet gemäß GWB regelmäßig Stand
und Entwicklung der Unternehmenskonzentration in Bezug auf Umsätze,
Marktanteile usw. Dabei ist die Wahl von g willkürlich.
In der BRD ist g=3 (in den USA g=4) der kleinste g-Wert, der aus
Datenschutzgründen verwendet werden darf.
2
1
und CR5 !
als kritische
3
2
Konzentration für eine so genannte Marktbeherrschungsvermutung.
Nach §22 III GWB gelten CR3 !
PD Dr Thomas Beißinger
12
2.2.4 Konzentrationsmaße
Konzentrationskurve
Trägt man die Zahlenpaare (g, CRg), g=1,…,n, als Punkte in ein
kartesisches Koordinatensystem und verbindet man aufeinander
folgende Punkte, beginnend mit dem Ursprung, so heißt der
resultierende Polygonzug Konzentrationskurve.
Die Konzentrationskurve ist konkav.
Begründung:
Es sei cg der Anteil des g - ten Merkmalstr ägers an der Merkmalsum me,
d.h. cg
n
x g / ¦ x i . Da x g t x g 1, gilt : cg t cg 1.
i 1
Ausserdem ist CRg 1 CRg cg 1, und somit CR1 d ... d CRn ( 1).
Die Steigung zwischen den Punkten (g,CRg ) und (g 1,CRg 1 ) ist cg 1.
Somit kann die Steigung bei einer Zunahme von g nicht zunehmen.
PD Dr Thomas Beißinger
13
2.2.4 Konzentrationsmaße
Beispiel: Die Umsätze xi von 5 Unternehmen, die sich einen Markt teilen,
sind (in Mio. €):
i
xi
ci
CRi
1
40
0,4
0,4
2
20
0,2
0,6
3
20
0,2
0,8
4
15
0,15
0,95
5
5
100
0,05
1,0
nx
Beispielsweise entfallen auf die 3 Unternehmen mit dem größten Umsatz
80% (C3=0,8) der Merkmalssumme.
PD Dr Thomas Beißinger
14
2.2.4 Konzentrationsmaße
CRi
CR2
CR1
Merkmalsträger i
Bei egalitärer Verteilung entspricht die Konzentrationskurve der Diagonalen.
Das Beispiel ist aus Assenmacher (1998), S. 126-127.
PD Dr Thomas Beißinger
15
2.2.4 Konzentrationsmaße
Herfindahl-Index
ist das bekannteste absolute Konzentrationsmaß.
n
CH
n
2
¦ ci
i 1
n
2
¦ xi
2
¦ xi
i 1
i 1
§n ·
¨ ¦ xi ¸
©i 1 ¹
2
( nx )
2
mit
1
d CH d 1.
n
ci ist (wie zuvor) der Anteil eines Merkmalsträger an der Merkmalssumme,
d.h. ci
n
xi / ¦ x j .
j 1
Maximale Konzentration: CH
1, da c1 1 und alle anderen ci
n
n 1
n
1
.
CH 1/ n, da ¦ ci2 ¦ 2
Egalitäre Verteilung:
n2 n
i 1
i 1n
Für n o f : CH 0 bei egalitärer Verteilung.
Bei kleinem n auch bei egalitärer Verteilung positives CH .
( Anzahlaspekt der Konzentration)
PD Dr Thomas Beißinger
0.
16
2.2.4 Konzentrationsmaße
Zusammenhang zw. Herfindahl-Index und Variationskoeffizient
Es gilt:
CH
v2 1
,
n
wobei v den Variationskoeffizienten bezeichnet, d.h. v
s
.
x
Diese Formel ist für das praktische Arbeiten vorteilhaft.
Da für die meisten Datensätze arithmetisches Mittel und Varianz
berechnet werden, erhält man auf einfache Weise auch Informationen
über die absolute Konzentration der Daten.
PD Dr Thomas Beißinger
17
2.2.4 Konzentrationsmaße
Beweis der Formel:
n
CH
n
2
¦ ci
i 1
n
§x ·
¦¨ i ¸
i 1© nx ¹
2
2
¦ xi
i 1
( nx )2
Nun gilt aufgrund des Verschiebungssatzes:
s2
n
1 n 2
2
2
¦ xi x Ÿ ¦ xi
ni 1
i 1
n( s 2 x 2 )
Setzt man dies in die Formel für CH, so erhält man:
s2
1
v2 1
n( s 2 x 2 ) s 2 x 2 x 2
CH
n
n
n2x 2
nx 2
q.e.d.
PD Dr Thomas Beißinger
18
2.2.4 Konzentrationsmaße
c) Relative Konzentration
Man interessiert sich dafür, welchen Anteil an der Merkmalssumme ein
gegebener Anteil an Merkmalsträgern auf sich vereinigt.
Lorenzkurve
Die Merkmalswerte seien nun ansteigend angeordnet
0 d x1 d x 2 d ... d x n
Es sei definiert:
k
¦ ci
vk
i 1
k
k
¦ xi
¦ xi
i 1
n
i 1
¦ xi
nx
i 1
vk bezeichnet den kumulierten Anteil der k Merkmalsträger mit den
kleinsten Merkmalssummenanteilen (im Gegensatz zum Konzentrationskoeffizienten CR).
PD Dr Thomas Beißinger
19
2.2.4 Konzentrationsmaße
Der Anteil dieser k Merkmalsträger an der Gesamtzahl der Merkmalsträger ist
k
uk
.
n
Somit erhält man Zahlenpaare
(u1,v1 ), (u2 ,v 2 ),..., (un
1,v n
1)
Trägt man diese Zahlenpaare als Punkte in ein kartesisches
Koordinatensystem und verbindet man aufeinander
folgende Punkte, beginnend mit dem Ursprung, so heißt der
resultierende Polygonzug Lorenzkurve.
Die Koordinaten können auch als Prozentzahlen eingetragen werden.
PD Dr Thomas Beißinger
20
2.2.4 Konzentrationsmaße
Beispiel: Marktkonzentration in 3 Städten
In den Städten G, M, V sei der monatliche Umsatz (in 1000€) der
Möbelbranche bestimmt durch die folgende Tabelle
Einrichtungshäuser
Stadt
G
M
V
1
40
180
60
2
40
5
50
3
40
5
40
4
40
5
30
5
40
5
20
Summe
200
200
200
aus: Fahrmeir et al (2003), S. 77.
PD Dr Thomas Beißinger
21
2.2.4 Konzentrationsmaße
aus: Fahrmeir et al. (2003), S. 78
PD Dr Thomas Beißinger
22
2.2.4 Konzentrationsmaße
aus: Fahrmeir et al. (2003), S. 79
Die Lorenzkurve wächst monoton und ist konvex. Bei egalitärer Verteilung
fällt die Lorenzkurve mit der Winkelhalbierenden zusammen (Steigung = 1)
PD Dr Thomas Beißinger
23
2.2.4 Konzentrationsmaße
Gini-Koeffizient
• Die Stärke der Konzentration drückt sich in der Lorenzkurve durch die
Entfernung von der Diagonalen aus.
• Ein nahe liegendes Maß für die Konzentration betrachtet die Fläche
zwischen der Diagonalen und der Lorenzkurve und setzt diese ins
Verhältnis zur Gesamtfläche zwischen u-Achse und Diagonale
(innerhalb des Quadrats mit der Seitenlänge 1).
Das daraus resultierende Konzentrationsmaß heißt Gini-Koeffizient.
G
Fläche zwischen Diagonale und Lorenzkurv e
Fläche zwischen Diagonale und u - Achse ( 0.5)
2 ˜ Fläche zwischen Diagonale und Lorenzkurv e
PD Dr Thomas Beißinger
24
2.2.4 Konzentrationsmaße
Für eine geordnete Urliste x1 d ... d x n gilt:
n
2 ¦ i xi
G
i 1
n
n ¦ xi
n 1
n
i 1
Für Häufigkeitsdaten mit a1 d ... d ak gilt:
k
¦ (ui 1 ui )h(ai )ai
G
i 1
1,
k
¦ hi ai
i 1
i
wobei ui
¦ h j / n; v i
j 1
i
k
j 1
j 1
¦ hjaj / ¦ hjaj .
PD Dr Thomas Beißinger
25
2.2.4 Konzentrationsmaße
Die extremen Ausprägungen des Gini-Koeffizienten sind von der Form:
Gmin
0
bei Nullkonzentration, x1
Gmax
n 1
bei maximaler Konzentration, x1
n
...
xn
...
x n 1
0, x n ! 0
Die maximale Ausprägung des Koeffizenten hängt damit von der Anzahl
der Merkmalsträger ab. Um diesen Effekt zu vermeiden, betrachtet man
meist den normierten Gini-Koeffizienten:
G*
G
Gmax
n
G
n 1
mit dem Wertebere ich G *  [0,1].
PD Dr Thomas Beißinger
26
2.2.4 Konzentrationsmaße
Anmerkungen:
1. Der Gini-Koeffizient als Konzentrationsmaß sollte immer im Zusammenhang mit der Lorenzkurve interpretiert werden.
Beispiel: 2 Länder mit unterschiedlichen Lorenzkurven (für den Grundbesitz), aber identischen Gini-Koeffizienten:
PD Dr Thomas Beißinger
27
2.2.4 Konzentrationsmaße
2. Es ist zu beachten, dass Lorenzkurve und Gini-Koeffizient auf
die relative Konzentration abzielen. Teilen sich 2 Anbieter einen Markt,
so dass jeder einen 50%igen Anteil beliefert, ist G=0. Dennoch würde
man in diesem Fall von Konzentration sprechen.
Absolute Konzentrationsmaße sind in derartigen Situationen
informativer.
PD Dr Thomas Beißinger
28
Literaturhinweise zu Abschnitt 2.2.4
Ausführliche Darstellungen der Konzentrationsmaße finden sich in
„
Assenmacher, W. (1998), Deskriptive Statistik, Springer,
S. 123-146.
„
Schulze (2000), Beschreibende Statistik, Oldenbourg, S. 88-106.
PD Dr Thomas Beißinger
29
3. Multivariate Deskription und Exploration von Daten
Ziel: Zusammenhänge zwischen verschiedenen Merkmalen aufdecken.
Beispiel: Hängt die Dauer der Arbeitslosigkeit vom Ausbildungsniveau
oder Geschlecht ab?
Zur Beantwortung:
Merkmale „Dauer der Arbeitslosigkeit“ (X), „Ausbildungsniveau“ (Y)
und „Geschlecht“ (Z) müssen gemeinsam erhoben werden,
d.h. zu einem Merkmalsträger i werden mehrere Werte
(xi, yi, zi, …), so genannte mehrdimensionale Daten erhoben.
Im folgenden: Konzentration auf den zweidimensionalen Fall
PD Dr Thomas Beißinger
1
3.1 Diskrete und gruppierte Merkmale
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
In diesem Abschnitt:
Methoden zur Darstellung der gemeinsamen Verteilung von zwei
diskreten Merkmalen mit relativ wenigen Ausprägungen:
• Qualitative (kategoriale) Merkmale
• Metrische diskrete Merkmale
• Metrische stetige Merkmale, die durch Gruppierung kategorial werden
Für alle Arten von Merkmalen gilt: In diesem Abschnitt wird nur das
Nominalskalenniveau der Merkmale benutzt, auch wenn die Merkmale
ein höheres Messniveau besitzen.
PD Dr Thomas Beißinger
2
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Beispiel: Habilitationsdichte
Anzahl der Habilitationen im Jahre 1993 aufgeschlüsselt nach
Geschlecht und Fach
RechtsSprach- Wirtsch.Kultur- Sozialwiss.
wiss.
Naturwiss.
Kunst
Medizin
Frauen
51
20
30
4
44
149
Männer
216
92
316
10
433
1067
267
112
346
14
477
1216
Besteht zwischen den Merkmalen Geschlecht und Habilitationsfach
ein Zusammenhang?
aus: Fahrmeir et al. (2003), S. 109.
PD Dr Thomas Beißinger
3
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Beispiel: Dauer der Arbeitslosigkeit
Kurzzeitarbeitslosigkeit
mittelfristige LangzeitArbeitslosig- arbeitslosigkeit
keit
Keine Ausbildung
86
19
18
123
Lehre
170
43
20
233
Fachspez. Ausbildung 40
11
5
56
Hochschulabschluss
28
4
3
35
324
77
46
447
Datenquelle: Teilstichprobe des Sozioökonomischen Panels. 447 männliche Arbeitslose.
Dauer der Arbeitslosigkeit ist ein kategorisiertes Merkmal, mit Kurzzeitarbeitslosigkeit
(” 6 Monate), mittelfr. Arbeitslosigk. (7-12 Monate), Langzeitarbeitslosigk. (> 12 Monate)
Besteht ein Zusammenhang zwischen dem Ausbildungsniveau und der
Dauer der Arbeitslosigkeit?
aus: Fahrmeir et al. (2003), S. 109.
PD Dr Thomas Beißinger
4
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Verallgemeinerung der Beispiele:
Ausgangspunkt sind zwei Merkmale X und Y.
Urliste: ( x1, y1 ),..., ( xn , y n )
Die möglichen Ausprägungen sind:
Absolute Häufigkeiten: hij
h(ai , b j )
a1,..., ak
für X
b1,..., bm
für Y
i
1,..., k ,
j
1,..., m
ĺ Gemeinsame Verteilung der Merkmale X und Y in absoluten
Häufigkeiten.
PD Dr Thomas Beißinger
5
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Die sich daraus ergebende Häufigkeitstabelle heißt
Kontingenztabelle (oder Kontingenztafel):
a1
a2
b1 ... bm
h11 ... h1m
h21 ... h2m
ak
hk 1 ... hkm
(k x m)-Kontingenztabelle
PD Dr Thomas Beißinger
6
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Kontingenztabellen werden üblicherweise durch die Zeilen- und
Spaltensummen ergänzt.
Die Zeilensummen ergeben die
Randhäufigkeiten des Merkmals X:
hi x
hi 1 ... him ,
i
1,..., k
Die sich ergebenden Randhäufigkeiten h1x , h2x ,..., hk x
sind die einfachen Häufigkeiten, mit der das Merkmal X die Werte
a1, a2 ,..., ak annimmt, wenn das Merkmal Y nicht berücksichtigt wird.
ĺ Randverteilung von X in absoluten Häufigkeiten
Analog für Y:
hx j
h1 j ... hkj ,
j
1,..., m
PD Dr Thomas Beißinger
7
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
(k x m) - Kontingenztabelle der absoluten Häufigkeiten:
a1
a2
b1 ... bm
h11 ... h1m
h21 ... h2m
ak
hk 1 ... hkm
hx1 ... hxm
h1x
h2x
hk x
n
Diese Kontingenztabelle gibt die gemeinsame Verteilung der Merkmale
X und Y in absoluten Häufigkeiten wieder.
PD Dr Thomas Beißinger
8
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
(k x m) - Kontingenztabelle der relativen Häufigkeiten:
b1 ... bm
f11 ... f1m
f1x
a2 f21 ... f2m
f2x
ak
fk 1 ... fkm
fk x
fx1 ... fxm
1
a1
fij
hij / n
fi x
¦ fij
hi x / n
¦ fij
hx j / n,
fx j
m
j 1
k
i 1
i
1,..., k
j
1,..., m
PD Dr Thomas Beißinger
9
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Beispiel: Habilitationsdichte
(5 x 2) – Kontingenztabelle der relativen Häufigkeiten für Geschlecht
und Habilitationsfach
RechtsSprach- Wirtsch.Kultur- Sozialwiss.
wiss.
Naturwiss.
Kunst
Medizin
Frauen
0,042
0,016
0,025
0,003
0,036
0,122
Männer
0,178
0,076
0,260
0,008
0,356
0,878
0,220
0,092
0,285
0,011
0,392
1
z.B. waren 12,2 Prozent der Habilitierten weiblich und 87,8 Prozent männlich.
Von den Habilitationen entfielen 22 Prozent auf die Sprach- und Kulturwissenschaften. 2,5 Prozent der Habilitationen insgesamt wurden von Frauen in den
Naturwissenschaften geschrieben.
PD Dr Thomas Beißinger
10
3.1.1. Zweidimensionale Daten: Die Kontingenztabelle
Graphische Darstellungsform für gemeinsame Häufigkeiten:
Zweidimensionales Säulendiagramm
Ausbildung
1 = keine Ausbildung
2 = Lehre
3 = fachspezifische Ausbildung
4 = Hochschulabschluss
Dauer der Arbeitslosigkeit
1: ” 6 Monate
2: 7 – 12 Monate
3: > 12 Monate
aus: Fahrmeir et al. (2003), S. 113.
PD Dr Thomas Beißinger
11
3.1.2. Bedingte Häufigkeiten
Aus den gemeinsamen absoluten (oder relativen) Häufigkeiten lässt sich nicht
unmittelbar auf den Zusammenhang zwischen den Merkmalen schließen.
Beispiel: Habilitationsdichte
RechtsSprach- Wirtsch.Kultur- Sozialwiss.
wiss.
Naturwiss.
Kunst
Medizin
Frauen
51
20
30
4
44
149
Männer
216
92
316
10
433
1067
267
112
346
14
477
1216
Ob die Frauenquote bei naturwissenschaftlichen Habilitationen niedrig ist,
lässt sich nur beantworten, wenn man sie auf die Teilgesamtheit der naturwissenschaftlichen Habilitationen bezieht. Dies erfolgt mit den
bedingten relativen Häufigkeiten.
PD Dr Thomas Beißinger
1
3.1.2. Bedingte Häufigkeiten
Die bedingte relative Häufigkeitsverteilung von Y unter der
Bedingung X = ai (abgekürzt Y|X = ai) ist bestimmt durch
fY (b1 | ai )
hi 1
, ..., fY (bm | ai )
hi x
him
hi x
Die bedingte relative Häufigkeitsverteilung von X unter der
Bedingung Y = bj (abgekürzt X|Y = bj) ist bestimmt durch
f X (a1 | b j )
h1 j
hx j
, ..., f X (ak | b j )
hkj
hx j
PD Dr Thomas Beißinger
2
3.1.2. Bedingte Häufigkeiten
Beispiel: Sonntagsfrage
„Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären?“; Befragungszeitraum: 11.1. – 24.1.1995
CDU/
CSU
SPD
FDP
Grüne
Rest
Männer
33
35
4
6
22
100
Frauen
40
29
6
10
15
100
insges.
37
32
5
8
18
100
Es handelt sich um die in Prozent angegebene bedingte Verteilung der Parteipräferenz gegeben das Geschlecht.
aus: Fahrmeir et al. (2003), S. 108.
PD Dr Thomas Beißinger
3
3.1.2. Bedingte Häufigkeiten
Beispiel: Dauer der Arbeitslosigkeit
Für festgehaltenes Ausbildungsniveau (X = ai) erhält man folgende
bedingte relative Häufigkeitsverteilung
Kurzzeitarbeitslosigkeit
mittelfristige LangzeitArbeitslosig- arbeitslosigkeit
keit
Keine Ausbildung
0,699
0,154
0,147
1
Lehre
0,730
0,184
0,086
1
Fachspez. Ausbildung 0,714
0,197
0,089
1
Hochschulabschluss
0,114
0,086
1
0,800
Es ist nun ein Vergleich der Verteilungen für die Subpopulationen möglich;
z.B. ist die relative Häufigkeit für Kurzzeitarbeitslosigkeit in der Subpopulation
„Hochschulabschluss“ mit 0,8 am größten.
aus: Fahrmeir et al. (2003), S. 115.
PD Dr Thomas Beißinger
4
3.1.2. Bedingte Häufigkeiten
Beispiel: Habilitationsdichte
Für festgehaltenes Fach (Y = bj) erhält man folgende bedingte relative
Häufigkeitsverteilung:
RechtsSprach- Wirtsch.- Natur- Kunst Medizin
Kultur- Sozialwiss.
wiss.
wiss.
Frauen
0,191
0,179
0,087
0,286
0,092
Männer
0,809
0,821
0,913
0,714
0,908
1
1
1
1
1
Der Frauenanteil in den Naturwissenschaften liegt mit 8,7 % deutlich unter
dem Frauenanteil in den Sprach- und Kulturwissenschaften mit 19,1 %.
ĺ Es könnte ein Zusammenhang zwischen Geschlecht und Fachgebiet
aus: Fahrmeir et al. (2003), S. 115
bestehen.
PD Dr Thomas Beißinger
5
3.1.2. Bedingte Häufigkeiten
Bedingtes Säulendiagramm
Beispiel: Bedingte Verteilungen der Dauer der Arbeitslosigkeit bezogen
auf das Ausbildungsniveau
Die bedingten Verteilungen
unterscheiden sich nicht sehr
stark, obwohl tendenziell die Dauer
für Arbeitslose ohne Ausbildung
insbesondere im Vergleich mit
Hochschulabsolventen etwas
verlängert ist.
aus: Fahrmeir et al. (2003), S. 116.
PD Dr Thomas Beißinger
6
3.2 Zusammenhanganalyse in Kontingenztabellen
3.2.1. Chancen und relative Chancen
Beispiel: (2 x 2) - Kontingenztabelle
Y
1
X
2
1 h11 h12
h1x
2 h21 h22
h2x
hx1
hx2
n
Unter einer C
hance („odds“) versteht man das Verhältnis zwischen
dem Auftreten von Y = 1 und Y = 2 in einer Teilpopulation X = ai.
Die (bedingte) Chance für festes X = ai ist bestimmt durch
J (1, 2 | X
ai )
hi 1
.
hi 2
PD Dr Thomas Beißinger
1
3.2.1 Chancen und relative Chancen
Ein sehr einfaches Zusammenhangmaß ist die empirische
relative C
hance (K
reuzproduk
tverhältnis
,O
dds R
atio ).
Für die Kontingenztabelle
h11 h12
h21 h22
ist die relative Chance bestimmt durch
J
J 0:
J ! 1:
J 1:
J (1, 2 | X
J (1, 2 | X
1)
2)
h11 / h12
h21 / h22
h11h22
h21h12
Chancen in beiden Teilpopulationen sind gleich
Chancen in Population X=1 besser als in Population X = 2
Chancen in Population X=1 schlechter als in Population X = 2
PD Dr Thomas Beißinger
2
3.2.1 Chancen und relative Chancen
Beispiel: a
Duer der rAe
bitslosigk
eit
Beschränkt man sich auf 2 Kategorien, erhält man die Tabelle:
Kurzzeitarbeitslosigkeit
Mittel- und langfristige
Arbeitslosigkeit
Fachspezifische Ausbildung
40
16
Hochschulabschluss
28
7
PD Dr Thomas Beißinger
3
3.2.1 Chancen und relative Chancen
Für Personen mit fachspezifischer Ausbildung ist die „Chance“, kurzzeitig
arbeitslos zu sein, im Verhältnis dazu, längerfristig arbeitslos zu sein:
J (1, 2 | fachspezifisch)
40
16
2,5
Für Arbeitslose mit Hochschulabschluss erhält man:
J (1, 2 | Hochschulabschluss)
28
7
4
Bei fachspezifischer Ausbildung stehen die „Chancen“ somit 5:2, für
Arbeitslose mit Hochschulabschluss mit 4:1 erheblich besser.
Die relative Chance ist:
J
2,5
4
0,625
PD Dr Thomas Beißinger
4
3.2.1 Chancen und relative Chancen
Das Verfahren lässt sich auf mehr als zwei Ausprägungen verallgemeinern,
indem man sich auf jeweils zwei Zeilen X = ai und X = aj und zwei Spalten
Y = br und Y = bs und die zugehörigen vier Zellen einer
(k x m) –Kontingenztabelle beschränkt.
Die relative Chance ist in diesem Fall:
J
hir / his
h jr / h js
hir h js
h jr his
PD Dr Thomas Beißinger
5
3.2.1 Chancen und relative Chancen
Beispiel: a
Duer der rAe
bitslosigk
eit
Man erhält für die Teilpopulationen „keine Ausbildung“ und „Lehre“ in
Bezug auf die Chance für mittelfristige gegenüber langfristiger
Arbeitslosigkeit die Subtabelle:
Mittelfristige
Arbeitslosigkeit
Langfristige
Arbeitslosigkeit
Keine Ausbildung
19
18
Lehre
43
20
J
19 / 18
43 / 20
1,06
2,15
0,493
Die Chance für mittelfristige gegenüber langfristiger Arbeitslosigkeit
ist in der Population der Arbeitslosen ohne Ausbildung nur halb so groß
wie in der Population der Arbeitslosen mit Lehre.
PD Dr Thomas Beißinger
6
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Ausgangspunkt ist die Überlegung: Wie sollten die Häufigkeiten
verteilt sein, wenn die beiden Merkmale keinerlei Zusammenhang
aufweisen?
b1 ... bm
a1
a2
ak
h1x
?
hx1 ... hxm
h2x
hk x
n
PD Dr Thomas Beißinger
1
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Läge kein Zusammenhang zwischen den Merkmalen vor, sollte es
ohne Einfluss sein, in welcher Zeile (d.h. Subpopulation X = ai) die
bedingte Verteilung von Y gegeben X = ai betrachtet wird.
In jeder Zeile würde man dieselbe Verteilung erwarten und zwar
die Verteilung von Y ohne Berücksichtigung von X.
~
Bezeichnet hij die Häufigkeit, die man erwarten würde, wenn kein
Zusammenhang vorliegt, führt diese Überlegung in der i-ten Zeile
Uab
hängigk
eit:
zu dem folgenden Postulat der empirischen n
~
hij hx j
hi x
n
beobachtete relative Häufigkeit
von Y
zu erwartende bedingte
relative Häufigkeit
PD Dr Thomas Beißinger
2
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Das Postulat der empirischen Unabhängigkeit führt somit zu den
zu erwartenden Häufigkeiten
~
hij
hi x ˜ hx j
n
.
Wenn die Merkmale X und Y keinen Zusammenhang aufweisen, d.h.
unabhängig sind, sollten die tatsächlich beobachteten Häufigkeiten
von den zu erwartenden Häufigkeiten kaum abweichen.
Zur Konstruktion eines Zusammenhangmaßes benutzt man die
Diskrepanz zwischen diesen Werten.
PD Dr Thomas Beißinger
3
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Ȥ2 - K
oeffizient
Der Ȥ2 - Koeffizient ist bestimmt durch
F2
~ 2
k m (h h )
ij
ij
¦¦
~
i 1j 1
hij
hi xhx j 2
h
(
)
ij
k m
n
,
¦¦
hi xhx j
i 1j 1
n
F 2  [0, f )
Der Nenner dient nur der Normierung.
Ȥ2 ist groß (starke Diskrepanz): X und Y hängen voneinander ab.
Ȥ2 ist klein (kleine Diskrepanz): X und Y hängen nicht voneinander ab.
Beachte: Auch wenn X und Y tatsächlich keinen Zusammenhang aufweisen, ist nicht davon auszugehen, dass das Postulat der empirischen
Unabhängigkeit exakt gilt, d.h. Ȥ2 = 0 resultiert.
PD Dr Thomas Beißinger
4
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
A
nmerk
ungen:
• h~ij wurde mittels der Zeilenunabhängigkeit der Verteilung Y|X = ai
bestimmt. Das Postulat der empirischen Unabhängigkeit lässt sich
auch auf der Spaltenunabhängigkeit der Verteilung X|Y = bj aufbauen:
~
hij
hx j
hi x
,
n
d.h. die bedingte Verteilung X|Y = bj entspricht der Randverteilung
~
von X. Dies führt zu derselben Formel für h
ij .
• Die bei Unabhängigkeit zu erwartenden Häufigkeiten sind nicht mehr
ganzzahlig.
• Die Randsummen der zu erwartenden Häufigkeiten stimmen mit den
tatsächlich beobachteten Randsummen überein.
PD Dr Thomas Beißinger
5
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Nachteil:
Der Ȥ2-Koeffizient hängt (linear) vom Beobachtungsumfang n ab.
Beweis:
F
2
hi xhx j 2
h
(
)
ij
k m
n
¦¦
hi xhx j
i 1j 1
n
(nfij nfi xfx j )2
¦¦
nfi xfx j
i 1j 1
k m
(fij fi xfx j )2
n¦ ¦
fi xfx j
i 1j 1
k m
Je nach Anzahl der Beobachtungen erhält man deshalb für eine
Kontingenztabelle gegebener Größe bei gleicher Art der Abhängigkeit
(d.h. bei übereinstimmenden relativen Häufigkeiten) unterschiedlich
große Werte für den Ȥ2-Koeffizienten.
PD Dr Thomas Beißinger
6
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Es lässt sich somit nicht ohne zusätzliche Überlegungen feststellen,
wie groß Ȥ2 sein muss, um auf einen Zusammenhang hinzuweisen.
K
ontingenzk
oeffizient (nach Pearson)
Der Kontingenzkoeffizient ist bestimmt durch
K
F2
n F2
ª
und besitzt den Wertebereich K  «0,
¬
M 1º
, wobei M
M »¼
min^k , m`.
Der Wertebereich des Kontingenzkoeffizienten hängt somit noch
von der Dimension der Kontingenztafel ab.
PD Dr Thomas Beißinger
7
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
orrigierter K
K
ontingenzk
oeffizient
Der korrigierte Kontingenzkoeffizient ist bestimmt durch
K*
K/
M 1
M
und besitzt den Wertebereich K *  [0,1].
Beachte:
• Mit Ȥ2, K und K* wird nur die Stärke des Zusammenhangs
gemessen. Eine Richtung der Wirkungsweise wird nicht erfasst in dem
Sinne, dass wachsendes X mit wachsendem (oder fallendem) Y
einhergeht.
• Sämtliche Maße benutzen nur das Nominalskalenniveau von X und Y.
PD Dr Thomas Beißinger
8
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Beispiel: Habilitationsdichte
RechtsSprach- Wirtsch.Kultur- Sozialwiss.
wiss.
Naturwiss.
Kunst
Medizin
Frauen
32,72
(51)
13,72
(20)
42,4
(30)
1,72
(4)
58,45
(44)
149
Männer
234,28
(216)
98,27
(92)
303,6
(316)
12,28
(10)
418,55
(433)
1067
267
112
346
14
477
1216
Zu erwartende Häufigkeiten h~ij und tatsächliche Häufigkeiten hij (in Klammern)
Man erhält : F 2
26,584, K
0,146, K *
0,205
Der Zusammenhang ist nicht zu stark.
PD Dr Thomas Beißinger
9
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Für den Spezialfall einer (2 x 2) – Kontingenztabelle lässt sich der
Ȥ2-Wert und damit der Kontingenzkoeffizient auf sehr einfache Art
berechnen. Die Kontingenztabelle sei
a
b
ab
c
d
c d
ac bd
Dann ist
F
2
n(ad bc )2
.
(a b )(a c )(b d )(c d )
Im Nenner befindet sich das Produkt über sämtliche Randhäufigkeiten.
PD Dr Thomas Beißinger
10
3.2.2. Kontingenz- und Ȥ2 - Koeffizient
Beispiel: Dauer der Arbeitslosigkeit
Mittelfristige
Arbeitslosigkeit
Langfristige
Arbeitslosigkeit
Keine Ausbildung
19
18
37
Lehre
43
20
63
62
38
100
Man erhält:
F2
100(19 ˜ 20 18 ˜ 43 )2
37 ˜ 63 ˜ 62 ˜ 38
K
0,165, K *
2.826
0,234
PD Dr Thomas Beißinger
11
3.3 Graphische Darstellungen quantitativer Merkmale
• Im Folgenden werden metrisch skalierte Merkmale mit vielen
Ausprägungen betrachtet (also insbesondere stetige Merkmale).
• Es wird explizit ein metrisches Skalenniveau vorausgesetzt.
• Für die Darstellung quantitativer Merkmale mit vielen Ausprägungen
empfehlen sich andere Methoden als für qualitative Merkmale.
PD Dr Thomas Beißinger
1
3.3.1 Streudiagramm
Die einfachste Darstellung der gemeinsamen Messwerte
(x1,y1),…(xn,yn) zweier stetiger Merkmale ist das Streudiagramm,
in dem die Messwerte in einem (x-y) - Koordinatensystem als
Punkte, Kreuze oder sonstige Symbole dargestellt werden.
Beispiel: Prognose des Sachverständigenrates
Jahr
75
76
77
78
79
80
81
82
83
84
X
2,0
4,5
4,5
3,5
3,75
2,75
0,5
0,5
1,0
2,5
Y
-3,6
5,6
2,4
3,4
4,4
1,8
-0,3
-1,2
1,2
2,6
Jahr
85
86
87
88
89
90
91
92
93
94
X
3,0
3,0
2,0
1,5
2,5
3,0
3,5
2,5
0,0
0,0
Y
2,5
2,5
1,7
3,4
4,0
4,6
3,4
1,5
-1,9
2,3
X: Prognose des Sachverständigenrates; Y: tatsächliches Wirtschaftswachstum in %
Zahlen entnommen aus Fahrmeir et al. (2003), S. 126
PD Dr Thomas Beißinger
2
Tatsächliches Wachstum (Bruttoinlandsprodukt)
3.3.1 Streudiagramm
Prognostiziertes Wachstum (Bruttoinlandsprodukt)
PD Dr Thomas Beißinger
3
3.3.1 Streudiagramm
Nettomiete
Beispiel: Nettomiete und Wohnfläche
aus: Fahrmeir et al. (2003), S. 128.
Wohnfläche
PD Dr Thomas Beißinger
4
3.3.2 Zweidimensionale Histogramme
Bei einer sehr hohen Zahl von Messwerten, oder wenn gleiche
Messwerte öfter auftreten, werden Streudiagramme unübersichtlich.
In diesen Fällen sind zweidimensionale Histogramme zweckmäßiger.
Bilde hierzu
Intervalle [c0 , c1 ),..., [ck 1, ck ) für Merkmal X
Intervalle [e0 , e1 ),..., [em 1, em ) für Merkmal Y
hij bezeichne die absolute Häufigkeit, mit der Beobachtungswerte in
das i-te Intervall von X und das j-te Intervall von Y, d.h. in
[ci 1, ci ) u [e j 1, e j ) fallen. Die relative Häufigkeit wird wieder mit
fij = hij/n bezeichnet.
PD Dr Thomas Beißinger
5
3.3.2 Zweidimensionale Histogramme
Das Volumen über dem Rechteck [ci 1, ci ) u [e j 1, e j ) soll den
absoluten bzw. relativen Häufigkeiten entsprechen.
„Volumen = Grundfläche x Höhe“ . Deshalb:
Zeichne über den Rechtecksklassen
[ci 1, ci ) u [e j 1, e j ), i
1,..., k ,
1,..., m
j
Blöcke mit
Grundkante [ci 1, ci ) in der x-Koordinate
Grundkante [e j 1, e j ) in der y-Koordinate
und Höhe
hij
(ci ci 1 )(e j e j 1 )
bzw.
hij / n
(ci ci 1 )(e j e j 1 )
PD Dr Thomas Beißinger
.
6
3.3.2 Zweidimensionale Histogramme
Das Volumen über dem Rechteck [ci 1, ci ) u [e j 1, e j ) soll den
absoluten bzw. relativen Häufigkeiten entsprechen.
„Volumen = Grundfläche x Höhe“ . Deshalb:
Zeichne über den Rechtecksklassen
[ci 1, ci ) u [e j 1, e j ), i
1,..., k ,
j
1,..., m
Blöcke mit
Grundkante [ci 1, ci ) in der x-Koordinate
Grundkante [e j 1, e j ) in der y-Koordinate
und Höhe
hij
(ci ci 1 )(e j e j 1 )
bzw.
hij / n
(ci ci 1 )(e j e j 1 )
PD Dr Thomas Beißinger
.
7
3.3.2 Zweidimensionale Histogramme
Beispiel: Nettomiete und Wohnfläche
aus: Fahrmeir et al. (2003), S. 130.
PD Dr Thomas Beißinger
8
3.3.3 Mehrdimensionale Darstellungen
Bei mehrdimensionalem Datenmaterial kann beispielsweise für
jeweils zwei Merkmale ein Streudiagramm gebildet werden.
Man erhält damit eine Matrix von paarweisen Streudiagrammen, eine
so genannte Scatterplot-Matrix.
Dadurch wird zumindest der Zusammenhang jeweils zweier Merkmale
verdeutlicht.
Beispiel: Mietspiegel
Matrix der Streudiagramme zu den Merkmalen „Nettomiete“,
„Wohnfläche“, „Zimmeranzahl“ und „Nettomiete/qm“.
PD Dr Thomas Beißinger
9
3.3.3 Mehrdimensionale Darstellungen
aus:
Fahrmeir et al.,
(2003), S. 132.
PD Dr Thomas Beißinger
10
3.4 Zusammenhangmaße bei metrischen Merkmalen
3.4.1 Empirischer Korrelationskoeffizient nach
Bravais-Pearson
Ausgangspunkt: Streudiagramm
Starker positiver linearer
Zusammenhang
Schwacher negativer linearer
Zusammenhang
Im Folgenden wird eine Maßzahl zur Messung der Stärke des
linearen Zusammenhangs entwickelt.
PD Dr Thomas Beißinger
1
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
Zunächst: Empirische Kovarianz
Idee:
aus: Fahrmeir et al. (2003), S. 134.
PD Dr Thomas Beißinger
2
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
Empirische Kovarianz:
1 n
¦ ( x i x )( y i y )
ni 1
s XY
PD Dr Thomas Beißinger
3
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
Zur Normierung:
Standardabweichung von X:
sX
1n
2
¦ ( xi x )
ni 1
Standardabweichung von Y:
sY
1n
2
¦ (yi y )
ni 1
PD Dr Thomas Beißinger
4
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
Der Bravais-Pearson-Korrelationskoeffizient ergibt sich aus den
Daten (xi, yi), i=1,…n durch
n
r
r XY
¦ ( xi x )( y i y )
s XY
s X sY
i 1
n
n
i 1
i 1
2
2
¦ ( xi x ) ¦ ( y i y )
Wertebereich: 1 d r d 1
r > 0:
positive Korrelation, gleichsinniger linearer Zusammenhang
Tendenz: Werte (xi,y i) um eine Gerade positiver Steigung liegend
r < 0:
negative Korrelation, gegensinniger linearer Zusammenhang
Tendenz: Werte (xi, yi) um eine Gerade negativer Steigung liegend
r = 0:
keine Korrelation, unkorreliert, kein linearer Zusammenhang
PD Dr Thomas Beißinger
5
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
aus: Fahrmeir et al. (2003), S. 136.
PD Dr Thomas Beißinger
6
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
Eine rechengünstigere Formel für den Bravais-Pearson-Korrelationskoeffizienten ist
n
¦ x i y i nx y
r
i 1
n
n
§ ¦ x 2 nx 2 ·§ ¦
y i2 ny 2 ·¸
¨
¸
¨
i
©i 1
¹© i 1
¹
PD Dr Thomas Beißinger
7
3.4.1rBavais-Pearso
n ro
Krelatio
nsk
e
offizient
Beispiel: Mietspiegel
Die paarweisen Korrelationskoeffizienten zwischen den Variablen
„Nettomiete“, „Wohnfläche“, „Zimmerzahl“ und „Nettomiete/qm“
ergeben eine Korrelationsmatrix:
„Mittlere positive Korrelation“ zwischen Wohnfläche und Nettomiete.
„Starke positive Korrelation“ zwischen Zimmerzahl und Wohnfläche.
„Schwache negative Korrelation“ zwischen Wohnfläche und Nettomiete/qm.
aus: Fahrmeir et al. (2003), S. 137.
PD Dr Thomas Beißinger
8
3.4.2 Korrelationskoeffizient nach Spearman
Einen alternativen Korrelationskoeffizienten erhält man, wenn man
von den ursprünglichen x- und y-Werten zu ihren Rängen übergeht.
Man ordnet jedem x-Wert aus x1,…xn als Rang die Platzzahl zu, die der
Wert bei größenmäßiger Anordnung aller Werte erhält.
Beispiel:
xi
2,17
8,00
1,09
2,01
rg(x i)
3
4
1
2
Dieselbe Vergabe von Rangplätzen wird (unabhängig von den x-Werten)
für die y-Messwerte y1,…,yn durchgeführt.
PD Dr Thomas Beißinger
1
3.4.2o
rKrelatio
nsk
e
offizient nach Sp
earm
an
Aus den ursprünglichen Messpaaren (xi, yi), i = 1,…,n, ergeben sich
somit die neuen Rangdaten (rg (xi), rg (yi)), i = 1,…,n.
Innerhalb der x-Werte als auch innerhalb der y-Werte können
identische Werte (= Bindungen, Ties) auftreten.
Die Rangvergabe ist dann nicht eindeutig.
In diesem Fall: Bildung von Durchschnittsrängen:
Jedem der identischen Messwerte wird als Rang das arithmetische
Mittel der in Frage kommenden Ränge zugewiesen.
Beispiel:
xi
1,09
2,17
2,17
2,17
3,02
4,5
rg(x i)
1
3
3
3
5
6
rg = (2 + 3 + 4) / 3 = 3
PD Dr Thomas Beißinger
2
3.4.2o
rKrelatio
nsk
e
offizient nach Sp
earm
an
Spearmans Korrelationskoeffizient:
ist der Bravais-Pearson-Korrelationskoeffizient, angewandt auf die
Rangpaare (rg (xi), rg (yi)), i = 1,…,n:
n
¦ (rg ( xi ) rg X )(rg ( y i ) rg Y )
i 1
rSP
n
2
n
,
2
¦ (rg ( xi ) rg X ) ¦ ( rg ( y i ) rg Y )
i 1
wobei
rg X
rg Y
n
Hierbei verwendet: ¦ i
i 1
1n
1n
¦ rg ( xi )
¦ i (n 1) / 2
ni 1
ni 1
1n
1n
rg
(
y
)
¦
¦ i (n 1) / 2.
i
ni 1
ni 1
n(n 1) / 2
i 1
PD Dr Thomas Beißinger
3
3.4.2o
rKrelatio
nsk
e
offizient nach Sp
earm
an
Wertebereich: 1 d rSP d 1
rSP > 0: gleichsinniger monotoner Zusammenhang,
Tendenz: x groß œ y groß, x klein œ y klein
rSP < 0: gegensinniger monotoner Zusammenhang,
Tendenz: x groß œ y klein, x klein œ y groß
rSP | 0 : kein monotoner Zusammenhang
PD Dr Thomas Beißinger
4
3.4.2o
rKrelatio
nsk
e
offizient nach Sp
earm
an
Extremfälle für Spearmans Korrelationskoeffizienten,
rSP = 1 (oben) und rSP = -1 (unten)
aus: Fahrmeir et al. (2003), S. 141.
PD Dr Thomas Beißinger
5
3.4.2o
rKrelatio
nsk
e
offizient nach Sp
earm
an
Beachte: Der Korrelationskoeffizient nach Spearman eignet sich
auch für ordinalskalierte Merkmale, da der Koeffizient nur die
Ordnungsrelation benutzt.
Rechentechnisch günstigere Formel:
Daten : ( x i , y i )
i
1,..., n,
Rangdifferenzen : d i
x i z x j , y i z y j für alle i , j
rg ( x i ) rg ( y i )
n
6 ¦ d i2
rSP
1
i 1
2
(n 1)n
Voraussetzung: Keine Bindungen
PD Dr Thomas Beißinger
6
3.4.2o
rKrelatio
nsk
e
offizient nach Sp
earm
an
Beispiel: Mietspiegel
Korrelationskoeffizient nach Spearman
Nettomiete
0,478
0,375
0,620
0,511
Wohnfläche
0,869
-0,321
0,396
0,859
Zimmerzahl
-0,341
0,580
-0,316
-0,331
Nettomiete/qm
Bravais-Pearson-Korrelationskoeffizient
r und rSP liegen sehr nahe beieinander, was dafür spricht, dass die Form des monotonen
Zusammenhangs weitgehend linear ist. Größter Unterschied zwischen beiden Korrelationskoeffizienten
besteht bei Nettomiete und Nettomiete/qm, so dass für diese beiden Merkmale der Zusammenhang am
wenigsten linear zu sein scheint.
aus: Fahrmeir et al. (2003), S. 142.
PD Dr Thomas Beißinger
7
3.4.3 Invarianzeigenschaften
Betrachtet man anstatt der ursprünglichen Merkmale X und Y die
linear transformierten Merkmale
~
X a X X b X , a X z 0,
~
Y aY Y bY , aY z 0,
~
~
erhält man für die Bravais-Pearson-Korrelation zwischen X und Y :
r X~Y~
¦ [a X x i b X (a X x b X )][aY y i bY (aY y bY )]
2
2
¦ [a X x i b X (a X x bx )] ¦ [aY y i bY (aY y bY )]
a X aY ¦ ( x i x )( y i y )
[a 2X ¦ ( x i x )2 ][aY2 ¦ ( y i y )2 ]
a X aY
r XY .
| a X || aY |
PD Dr Thomas Beißinger
1
3.4.3 Invarianzeigenschaften
Daraus folgt die Eigenschaft
| r X~Y~ | | r XY |,
die als Maßstabsunabhängigkeit des Bravais-Pearson-Korrelationskoeffizienten bezeichnet wird. Wegen
r X~Y~
gilt:
a X aY
r XY
| a X || aY |
r X~Y~
r XY , wenn a X , aY ! 0 bzw. a X , aY 0
r X~Y~
r XY , wenn a X ! 0, aY 0 bzw. a X 0, aY ! 0
Für Spearmans Korrelationskoeffizienten gilt nach Konstruktion
dieselbe Eigenschaft.
PD Dr Thomas Beißinger
2
3.4.3 Invarianzeigenschaften
Der Korrelationskoeffizient nach Spearman ist darüber hinaus
invariant gegenüber streng monotonen Transformationen.
Betrachtet man anstatt der ursprünglichen Merkmale X und Y die
transformierten Merkmale
~
X g ( X ), wobei g streng monoton (wachsend oder fallend) ist
~
Y h(Y ), wobei h streng monton (wachsend oder fallend) ist,
so gilt:
~ ~
rSP ( X ,Y )
rSP ( X ,Y )
wenn g und h monoton wachsend, bzw.
g und h monoton fallend sind
~ ~
rSP ( X ,Y )
rSP ( X ,Y )
wenn g monoton wachsend und h monoton
fallend bzw. g monoton fallend und h monoton
wachsend sind.
PD Dr Thomas Beißinger
3
3.4.3 Invarianzeigenschaften
Die Korrelationskoeffizienten sind invariant gegenüber der Vertauschung
der Rolle von X und Y. Es gilt
r XY
rYX bzw. rSP ( X ,Y )
rSP (Y , X ).
Die Merkmale stehen gleichberechtigt nebeneinander. Deshalb:
Korrelation ist ein Maß für die Stärke des Zusammenhangs zwischen
X und Y. Die Richtung der Wirkung, sofern vorhanden, wird durch
Korrelationskoeffizienten nicht erfasst.
PD Dr Thomas Beißinger
4
3.5 Korrelation und Kausalität
• Ein betragsmäßig hoher Korrelationskoeffizient wird häufig auch
kausal interpretiert.
• Kausalzusammenhänge können aber niemals allein durch große
Werte eines entsprechenden Zusammenhangmaßes oder
allgemeiner durch eine statistische Analyse begründet werden.
• Hierzu sind stets sachlogische Überlegungen der jeweiligen
Substanzwissenschaft heranzuziehen.
• Es sollte auch stets überprüft werden, ob weitere wesentliche
Merkmale übersehen wurden. Dies kann zu Scheinkorrelationen,
aber auch zu verdeckten Korrelationen führen.
PD Dr Thomas Beißinger
1
3.5 Korrelation und Kausalität
Bei einer Scheinkorrelation wird eine hohe Korrelation zwischen zwei
Merkmalen beobachtet, die inhaltlich nicht gerechtfertigt ist.
Solche scheinbaren Zusammenhänge können dadurch bewirkt werden,
dass ein mit beiden beobachteten Merkmalen hoch korreliertes drittes
Merkmal übersehen wird und somit unberücksichtigt bleibt.
Beispiel: Wortschatz von Kindern
gemessen über die Anzahl der verschiedenen Wörter in einem Aufsatz.
Wortschatz (X)
xi
37
30
20
28
35
Körpergröße (Y)
yi
130
112
108
114
136
PD Dr Thomas Beißinger
2
PD Dr Thomas Beißinger
3
3.5 Korrelation und Kausalität
aus: Fahrmeir et al. (2003), S. 147.
3.5 Korrelation und Kausalität
Da beide Merkmale metrisch sind, lässt sich der Bravais-PearsonKorrelationskoeffizient berechnen:
5
¦ xi y i 5 xy
i 1
r XY
5
5
i 1
i 1
( ¦ x i2 5 x 2 )( ¦ y i2 5 y 2 )
x
30, y
5
5
120, ¦ x i2
5
4678, ¦ y i2
i 1
72600, ¦ x i y i
i 1
18282
i 1
Somit erhält man:
r XY
0,863,
was auf einen starken, linearen, positiven Zusammenhang hinzuweisen
scheint.
PD Dr Thomas Beißinger
4
3.5 Korrelation und Kausalität
Sachlogisch lässt sich nicht erklären, dass ein Zusammenhang zwischen
Wortschatz und Körpergröße bestehen soll. Hier bewirkt eine andere
wesentliche Variable den Zusammenhang:
Mit dem Alter nehmen sowohl Wortschatz als auch Körpergröße zu.
Wortschatz (X)
xi
37
30
20
28
35
Körpergröße (Y)
yi
130
112
108
114
136
Alter (Z)
zi
12
7
6
7
13
rYZ
0,996 und r XZ
0,868
PD Dr Thomas Beißinger
5
3.5 Korrelation und Kausalität
Beachte: Oft lässt sich für eine beobachtete Korrelation eine Erklärung
finden, die einsichtig erscheint, und dennoch die entscheidenden
Zusammenhänge übersieht.
Beispiel: Hohe Korrelation zwischen Kriminalitätsrate und Ausländeranteil lässt sich soziologisch erklären.
Nimmt man aber als drittes Merkmal die Stadtgröße hinzu, so wird
deutlich, dass mit der Größe der Stadt sowohl die Kriminalitätsrate
als auch der Ausländeranteil zunehmen. Dieser Aspekt darf bei der
Untersuchung nicht vernachlässigt werden!
PD Dr Thomas Beißinger
6
3.5 Korrelation und Kausalität
Verdeckte Korrelation
Beispiel: Zigarettenkonsum
In einer Untersuchung wird festgestellt, dass der Zigarettenkonsum seit
1950 annähernd konstant geblieben ist.
Betrachtet man allerdings die Korrelation von Zigarettenkonsum und
Zeit für die Geschlechter getrennt, stellt man fest, dass eine ganz
markante Entwicklung stattgefunden hat:
Der Zigarettenkonsum hat in der weiblichen Bevölkerung seit 1950 ständig
zugenommen, in der männlichen Bevölkerung ständig abgenommen.
Fazit: Hätte man das Geschlecht als mögliche Einflussgröße vergessen,
so wäre die Korrelation zwischen Zigarettenkonsum und Zeit verdeckt
worden, da sie in beiden Populationen vorhanden, aber gegenläufig
gewesen ist.
PD Dr Thomas Beißinger
7
3.5 Korrelation und Kausalität
Beispiel: Therapieerfolg und Dosierung
Mit wachsender Dosierung steigt meist Heilungserfolg, aber Grenzen:
mögliche toxische Effekte bei zu hoher Dosierung und steigende
Gefahr von Nebenwirkungen.
Verblüffend: In einer Studie wird trotz Beachtung der toxischen Grenze
und möglicher Nebenwirkungen eine negative Korrelation zwischen
Dosierung und Therapieerfolg gefunden.
Grund: Die Gesamtpopulation der Kranken zerfällt in zwei Teilpopulationen. In jeder Teilpopulation nimmt mit der Dosierung der
Therapieerfolg zu, aber über die Populationen hinweg sieht man
einen gegenläufigen Effekt.
PD Dr Thomas Beißinger
8
PD Dr Thomas Beißinger
9
3.5 Korrelation und Kausalität
aus: Fahrmeir et al. (2003), S. 149.
3.6 Regression
3.6.1 Das lineare Regressionsmodell
Sachlogische Überlegungen legen häufig eine Richtung der
Beeinflussung zwischen Merkmalen nahe.
Jetzt: Betrachtung von 2 Merkmalen.
Ein Merkmal, z.B. Y, lässt sich als abhängig von dem anderen
Merkmal, z.B. X, ansehen. Beide Merkmale sind metrisch skaliert.
Der funktionale Zusammenhang lässt sich allgemein schreiben als:
Y
f(X)
(1)
Derartige funktionale Zusammenhänge gelten jedoch immer nur
näherungsweise, d.h. die Beobachtungen streuen um die
durch f(X) definierte Kurve.
PD Dr Thomas Beißinger
1
3.6.1 Das lineare Regressionsmodell
Aus diesem Grunde lässt man noch einen zufälligen Fehlerterm H zu.
Y
f(X) H
(2)
Das Ziel ist es, eine Funktion f zur Beschreibung des Zusammenhangs
zwischen Y und X zu finden, die einen möglichst großen Anteil der
Variabilität von Y durch Änderungen von X erklärt; es soll also ein
möglichst geringer Teil der Variabilität von Y auf den Fehler H
zurückgeführt werden.
Beziehungen wie in Gl. (2) nennt man Regressionen oder
Regressionsmodelle.
PD Dr Thomas Beißinger
2
3.6.1 Das lineare Regressionsmodell
Bei der Suche nach einer geeigneten Funktion f beginnt man oft
mit einer linearen Funktion.
Man versucht, durch die Punktewolke eine Ausgleichsgerade zu
legen, also eine Gerade, die möglichst nahe an den tatsächlichen
Beobachtungen liegt.
Die Funktion f ist somit von der Gestalt:
f(X) D E X
(3)
PD Dr Thomas Beißinger
3
3.6.1 Das lineare Regressionsmodell
Für die Datenpaare (xi, yi), i = 1,…,n gilt dann die lineare empirische
Beziehung
yi
D E xi H i , i
1,..., n
(4)
wobei H i den durch die Geradenanpassung bedingten Fehler wiedergibt.
Gl. (4) beschreibt das Modell der linearen Einfachregression.
Y: Regressand; abhängige Variable
X: Regressor; unabhängige Variable
Ziel: Wähle D und E, d.h. den Achsenabschnitt und die Steigung,
in der Weise, dass die einzelnen Datenpunkte möglichst wenig von
der Geraden entfernt liegen.
PD Dr Thomas Beißinger
4
3.6.2. Die Berechnung der Ausgleichsgeraden
Die aufgrund der Geradengleichung prognostizierten bzw.
gefitteten y-Werte werden mit ŷ i bezeichnet, i=1,…,n.
Zur Ermittlung von Achsenabschnitt und Steigung der Ausgleichsgeraden
wird die Summe der quadrierten Abweichungen zwischen tatsächlichen
und gefitteten y-Werten durch Wahl von D und E minimiert.
Methode der Kleinsten Quadrate:
min Q(D , E )
D ,E
1 n
2
¦ ( y i yˆ i )
ni 1
1 n
2
¦ [ y i (D E x i )]
ni 1
Die Werte von D und E , für die Q(D , E ) ihr Minimum annimmt, nennt
man Kleinste-Quadrate-Schätzer.
PD Dr Thomas Beißinger
5
3.6.2. Die Berechnung der Ausgleichsgeraden
Die partiellen Ableitungen von Q sind:
wQ(D , E )
wD
wQ(D , E )
wE
2 n
¦ [ y i (D E x i )]
ni 1
2 n
¦ [ y i (D E x i )]x i
ni 1
Nullsetzen der Gleichungen und Auflösen führt zu den
Normalgleichungen:
1 n
1n
¦ y i Dˆ Eˆ ¦ x i
ni 1
ni 1
(1)
0
1 n
1 n
1 n 2
¦ y i x i Dˆ ¦ x i Eˆ ¦ x i
ni 1
n i 1
n i 1
PD Dr Thomas Beißinger
0
(2)
6
3.6.2. Die Berechnung der Ausgleichsgeraden
Aus Gleichung (1) folgt:
Dˆ
y Eˆ x
Setzt man dies in die zweite Gleichung ein, ergibt sich:
n
1 n
1 n
1
1 n 2
¦ y i x i y ¦ x i Eˆ x ¦ x i Eˆ ¦ x i
ni 1
n i 1
n i 1
n i 1
0
Dies führt zu:
1 n
¦ y i x i y x
ni 1
1 ˆ§ n 2
E ¨ ¦ xi nx 2 ·¸.
n ©i 1
¹
PD Dr Thomas Beißinger
7
3.6.2. Die Berechnung der Ausgleichsgeraden
Die Lösung für Eˆ ist daher:
n
Eˆ
¦ y i x i ny x
i 1
n
n
¦ ( x i x )( y i y )
i 1
n
2
2
¦ x i nx
2
¦ ( xi x )
i 1
sYX
.
s 2X
i 1
Die Gleichung für die Ausgleichsgerade lautet:
yˆ
Dˆ Eˆ x
PD Dr Thomas Beißinger
8
3.6.2. Die Berechnung der Ausgleichsgeraden
Beispiel: Fernsehen und Schlafverhalten
Ein Kinderpsychologe vermut, dass sich häufiges Fernsehen negativ auf
das Schlafverhalten von Kindern auswirkt.
Untersuchung:
Kind i
1
Fernsehzeit xi
0,3
Dauer Tiefschlaf yi
5,8
2
3
4
5
6
7
8
9
2,2 0,5
0,7
1,0
1,8
3,0
0,2
2,33
4,4 6,5
5,8
5,6
5,0
4,8
6,0
6,1
aus: Fahrmeir et al. (2003), S. 153.
PD Dr Thomas Beißinger
9
3.6.2. Die Berechnung der Ausgleichsgeraden
Streudiagramm und Ausgleichsgerade:
PD Dr Thomas Beißinger
10
3.6.2. Die Berechnung der Ausgleichsgeraden
Hilfsgrößen:
9
¦ xi
12,
x
9
1,3 3,
¦ yi
i 1
50,
y
5,5 5
i 1
9
¦ y i xi
9
62,96,
2
¦ xi
i 1
24,24
i 1
9
Eˆ
¦ y i xi 9y x
i 1
9
2
¦ xi
i 1
9x
62,96 9 ˜ 5,5 5 ˜ 1,3 3
24,24 9 ˜ 1,3 3
2
Dˆ
5,5 5 0,45 ˜ 1,3 3
3,7067
8,24
0,45
6,16
Ausgleichsgerade:
Dˆ Eˆ x
yˆ
6,16 0,45 x
PD Dr Thomas Beißinger
11
3.6.2. Die Berechnung der Ausgleichsgeraden
Einige Eigenschaften der durch die KQ-Methode bestimmten
Regressionsgeraden
1. „Die Regressionsgerade geht mitten durch die Punktewolke“
Die Residuen aus der Regression sind:
Hˆi
y i yˆ i ,
i
1,..., n
Wegen der ersten Normalgleichung gilt:
n
¦ ( y i Dˆ Eˆ xi ) 0
i 1
bzw.
n
n
¦ ( y i yˆ i )
¦ Hˆi
i 1
i 1
0
PD Dr Thomas Beißinger
12
3.6.2. Die Berechnung der Ausgleichsgeraden
2. Die Regressionsgerade geht durch den Schwerpunkt der Punktewolke
Es gilt:
y Eˆ x
Dˆ
Somit ist:
y
Dˆ Eˆ x
3. Der Mittelwert y aus den yi-Werten entspricht dem Mittelwert ŷ
gefitteten Werte
n
¦ ( y i yˆ i ) 0 folgt ¦ y i
n
n
¦ yˆ i . Division durch n führt zu
i 1
i 1
i 1
Da ¦ Hˆi
i 1
n
der
n
n
¦ yi
¦ yˆ i
i 1
i 1
n
n
Ÿy
yˆ .
PD Dr Thomas Beißinger
13
3.6.3 Bestimmtheitsmaß und Residualanalyse
Streuungszerlegung:
Welcher Anteil der Streuung der y-Werte lässt sich durch die
Regression von Y und X erklären?
„Gesamte Streuung von Y“:
SQT
n
2
¦ (yi y )
i 1
SQT = „Sum of Squares Total“
PD Dr Thomas Beißinger
14
3.6.3 Bestimmtheitsmaß und Residualanalyse
Y
yi
yˆ
y i yˆ i
Dˆ Eˆ x
Hˆi
yi y
ŷ i
yˆ i y
y
X
xi
PD Dr Thomas Beißinger
15
3.6.3 Bestimmtheitsmaß und Residualanalyse
n
2
¦ (y i y )
i 1
n
n
i 1
i 1
2
2
¦ ( yˆ i y ) ¦ ( y i yˆ i )
SQT = SQE + SQR
Sum of Squares Total = Sum of Squares Explained +
Sum of Squares Residuals
Gesamte Streuung = Erklärte Streuung + Residualstreuung
Je größer die Residualstreuung ist, desto schlechter beschreibt
das Modell die Daten.
PD Dr Thomas Beißinger
16
3.6.3 Bestimmtheitsmaß und Residualanalyse
Bestimmtheitsmaß R2
ist eine Maßzahl für die Güte der Modellanpassung, die auf der
Streuungszerlegung aufbaut.
R2 gibt den Anteil an der Gesamtstreuung der yi an, der durch die
Regression von Y auf X erklärt wird:
n
R2
2
¦ ( yˆ i y )
SQE
SQT
i 1
n
n
n
2
2
¦ ( y i y ) ¦ ( y i yˆ i )
i 1
i 1
n
2
¦ (y i y )
2
¦ (y i y )
i 1
i 1
n
2
¦ ( y i yˆ i )
1 i n1
2
¦ (y i y )
i 1
0 d R2 d 1
PD Dr Thomas Beißinger
17
3.6.3 Bestimmtheitsmaß und Residualanalyse
R2
n
0 Ÿ ¦ ( yˆ i y )2
0, d.h. die erklärte Streuung ist gleich Null
i 1
Ÿ Das Modell ist extrem schlecht.
R2
n
1 Ÿ ¦ ( y i yˆ i )2
i 1
n
0, d.h. ¦ Hˆi2
0
i 1
Ÿ Das Modell ist eine perfekte Anpassung an die Daten.
Weitere Eigenschaft von R2:
R2
2
r XY
,
d.h. das Bestimmtheitsmaß entspricht dem quadrierten
Bravais-Pearson-Korrelationskoeffizienten.
PD Dr Thomas Beißinger
18
3.6.3 Bestimmtheitsmaß und Residualanalyse
Beweis: Bereits gezeigt: Der Mittelwert der ŷ i stimmt mit Mittelwert
der yi überein.
Daraus folgt:
n
2
¦ ( yˆ i y )
i 1
n
2
¦ ( yˆ i yˆ )
i 1
n
n
R
2
i 1
n
¦ (y i y )
2
i 1
Wegen Eˆ
sYX
ist Eˆ 2
2
sX
Einsetzen führt zu : R
2
Eˆ 2 ¦ ( xi x )2
i 1
2
¦ ( yˆ i y )
Somit gilt:
n
2
¦ (Dˆ Eˆ x i Dˆ Eˆ x )
i 1
n
Eˆ 2 ¦ ( xi x )2
i 1
n
¦ (y i y )
Eˆ 2s 2X
sY2
2
.
i 1
2
sYX
.
(s 2X )2
2
sYX
˜ s 2X
(s 2X )2 ˜ sY2
§ sYX
¨¨
© s X sY
·
¸¸
¹
2
2
r XY
.
q.e.d
PD Dr Thomas Beißinger
19
3.6.3 Bestimmtheitsmaß und Residualanalyse
Somit ergibt sich eine neue Interpretation für den Korrelationskoeffizienten:
Der quadrierte Korrelationskoeffizient entspricht dem Anteil der erklärten
Streuung an der Gesamtstreuung.
Beispiel: Zusammenhang zwischen Reaktionszeit (Y) und Alter (X):
rXY = 0,8.
Die in der Stichprobe variierende Reaktionszeit lässt sich daher
2
bei Annahme eines linearen Zusammenhangs zu 64% ( r XY
0,64 )
darauf zurückführen, dass auch X variiert, sich also Personen
unterschiedlichen Alters in der Stichprobe befinden.
PD Dr Thomas Beißinger
20
3.6.3 Bestimmtheitsmaß und Residualanalyse
Die Güte des Models lässt sich auch mit Residualplots überprüfen.
(a)
(b)
(c)
aus: Fahrmeir et al. (2003), S. 159.
PD Dr Thomas Beißinger
21
3.6.3 Bestimmtheitsmaß und Residualanalyse
Abbildung a): ideales Verhalten der Residuen: sie schwanken
unsystematisch um die horizontale Achse und sind nahe bei Null.
Abbildung b): Vermutung, dass eine nichtlineare Abhängigkeit zwischen
den Merkmalen besteht, die nicht durch das Modell erfasst wird.
Abbildung c): Auch dieses Modell nicht optimal, da sich die Variabilität
der Residuen mit den Werten der Einflussgröße X ändert.
PD Dr Thomas Beißinger
22
3.6.3 Bestimmtheitsmaß und Residualanalyse
Beispiel: Fernsehen und Schlafverhalten
i
1
2
3
4
5
6
7
8
9
yi
5,8
4,4
6,5
5,8
5,6
5,0
4,8
6,0
6,1
ŷ i
6,02
5,17
5,93
5,84
5,71
5,35
4,81
6,07
5,12
Hˆi
-0,22
-0,77 0,57
-0,04
-0,11 -0,35 -0,01 -0,07
0,98
9
R2
2
¦ ( y i yˆ i )
1 i 91
2
¦ (y i y )
0,45.
i 1
Damit beträgt der Anteil der durch das Regressionsmodell
erklärten Varianz nur 45%.
Beispiel aus Fahrmeir et al. (2003), S. 160.
PD Dr Thomas Beißinger
23
3.6.4 Nichtlineare Regression
Oftmals sieht man bereits am Streudiagramm, dass der Zusammenhang zwischen X und Y nichtlinear ist, z.B. bei Wachstumsprozessen
oder Sättigungskurven.
In diesem Fall: nichtlineare Regressionsmodelle.
Die Nichtlinearität bezieht sich nicht auf die x-Werte, sondern auf
die Modellparameter. Im allgemeinen Fall sind numerische Verfahren
(Iterationsverfahren) zur Bestimmung der Schätzer erforderlich.
In manchen Fällen besteht jedoch die Möglichkeit, durch geschickte
Transformation ein nichtlineares Regressionsmodell auf ein lineares
Modell zurückzuführen.
PD Dr Thomas Beißinger
24
3.6.4 Nichtlineare Regression
Beispiel:
y i | D e ( E xi ) ,
>
ln y i | ln D e E xi
@
i
1,..., n
lnD E x i
G E xi , i
1,..., n
Man erhält dann Gˆ und Eˆ.
Ÿ Dˆ
ˆ
eG
PD Dr Thomas Beißinger
25
3.6.5 Mehrfachregression
Die multiple Regressionsanalyse ist für die empirische
Wirtschaftsforschung von zentraler Bedeutung. Es wird untersucht,
wie der Regressand Y von mehreren unabhängigen Variablen
(Regressoren) beeinflusst wird:
yi
E1xi 1 E 2 xi 2 ... E k xik H i , i
xi 1 1,
y
§ y1 ·
¨ ¸
¨ y2 ¸
¨ ¸
¨¨ ¸¸
© yn ¹
i
1,..., n
1,..., n : Scheinregressor
ȕ
§ E1 ·
¨ ¸
¨ E2 ¸
¨ ¸
¨¨ ¸¸
© Ek ¹
İ
PD Dr Thomas Beißinger
§ H1 ·
¨ ¸
¨ H2 ¸
¨ ¸
¨¨ ¸¸
©Hn ¹
26
3.6.5 Mehrfachregression
X
x13 x1k ·
¸
x23 x2k ¸
¸
¸
xn 3 xnk ¸¹
§1 x12
¨
¨1 x22
¨ ¨¨
©1 xn 2
Somit lässt sich das multiple Regressionsmodell in Matrixform schreiben als:
y
Xȕ İ
Der Parametervektor ȕ wird wieder durch die Minimierung der Residuenquadratsumme bestimmt:
min ( y Xȕ )c( y Xȕ )
PD Dr Thomas Beißinger
27
3.6.5 Mehrfachregression
Normalgleichungen:
XcXȕˆ
Xcy
Dies führt zu:
ȕˆ
Zur Berechnung von
( XcX )1 Xcy
ȕ̂ wird entsprechende Software benutzt.
PD Dr Thomas Beißinger
28
Literaturhinweise zu Kapitel 3
Alle Abschnitte aus Kapitel 3: „Multivariate Deskription und Exploration
von Daten“ orientieren sich in wesentlichen Teilen an:
Fahrmeir, L., Künstler, R., Pigeot, I. und Tutz, G., Statistik. Der Weg
zur Datenanalyse, Berlin u.a.: Springer, 2003, S. 107-169.
PD Dr Thomas Beißinger
29
4. Zeitreihenanalyse
4.1 Grundlagen
4.1.1 Gegenstand der Zeitreihenanalyse
Zeitreihe: zeitlich geordnete Folge von Werten yt, t = 1,…,T mit
unveränderter sachlicher und räumlicher Abgrenzung
Zeitreihen liegen meist in äquidistanter Form vor, d.h. der zeitliche
Abstand zwischen zwei aufeinander folgenden y-Werten ist konstant.
Jetzt: Univariate Zeitreihenanalyse
Spezielles Ziel: Zerlegung der Zeitreihe in verschiedene Komponenten.
PD Dr Thomas Beißinger
1
4.1.2 Graphische Darstellung
Zeitreihe des monatlichen Stromverbrauchs einer Stadt:
Die Zeitreihe
weist einen
Trend und
ein Saisonmuster auf.
aus: Schwarze (2001), Grundlagen der Statistik I, 9. Auflage, S. 195.
PD Dr Thomas Beißinger
2
4.1.2 Graphische Darstellung
Ausschnitt aus vorhergehender Abbildung:
Man erkennt
das ausgeprägte Saisonmuster. In den
Wintermonaten
ist der Stromverbrauch höher
als in den Sommermonaten.
aus: Schwarze (2001), Grundlagen der Statistik I, 9. Auflage, S. 195.
PD Dr Thomas Beißinger
3
4.1.3 Komponenten von Zeitreihen und ihre Verknüpfung
Eine Zeitreihe wird zurückgeführt auf folgende Komponenten:
Trendkomponente Tt
Glatte Komponente Gt
Zyklische Komponente Zt
Saisonkomponente St
Irreguläre Komponente İt
(Restkomponente, Zufallskomponente)
yt
f (Tt , Zt , St , H t )
,
Gt
PD Dr Thomas Beißinger
4
4.1.3 Komponenten von Zeitreihen und ihre Verknüpfung
Additives Modell:
yt
Tt Zt St H t , t
1,...,T
Multiplikatives Modell:
yt
Tt ˜ Zt ˜ St ˜ H t , t
1,...,T
Jetzt: Bestimmung der glatten Komponente und der Saisonkomponente
PD Dr Thomas Beißinger
5
4.1.3 Komponenten von Zeitreihen und ihre Verknüpfung
Additive Verknüpfung
Multiplikative Verknüpfung
aus: Schulze (2000), Beschreibende Statistik, 4. Auflage, S. 237.
PD Dr Thomas Beißinger
6
4.2 Komponentenmodelle
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
Gleitende Durchschnitte
Idee: Man ersetzt den Zeitreihenwert einer Periode durch das
arithmetische Mittel der Werte dieser, sowie vorangehender und
nachfolgender Perioden.
Bei ungerader Zahl:
y t*
1
( y t k y t k 1 ... y t ... y t k 1 y t k ),
2k 1
mit k = 1,2,3,… Für k=1 wird z.B. ein gleitender 3er Durchschnitt berechnet
Für k=2 wird ein gleitender 5er Durchschnitt berechnet usw.
PD Dr Thomas Beißinger
1
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
Wird eine gerade Zahl von Werten in die Berechnung einbezogen,
so besteht das Problem, einen berechneten gleitenden Durchschnittswert genau einer Periode zuzuordnen.
Lösung: Einbeziehung von jeweils zwei halben Werten am Anfang und
Ende der Zeitreihe:
y t*
1 1
1
( y t k y t k 1 ... y t ... y t k 1 y t k ),
2k 2
2
mit k=1,2,3,…
PD Dr Thomas Beißinger
2
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
Beachte:
• Zeigen die Zeitreihenwerte eine periodische Schwankung – es
kann sich sowohl um Z als auch um S handeln-, dann eliminiert
ein gleitender Durchschnitt mit gleicher Periodenlänge die
Schwankungen vollkommen. Zurück bleibt der Trend.
• Ein gleitender Durchschnitt von im Vergleich zur Originalzeitreihe
unterschiedlicher Periodenlänge kann die periodischen Schwankungen
nicht vollkommen glätten.
• Je größer die Zahl der Werte, die zur Durchschnittsbildung herangezogen wird, umso „geglätteter“ ist die resultierende Reihe.
Allerdings ist dann auch der Informationsverlust am Beginn und Ende
der aktuellen Zeitreihe größer.
PD Dr Thomas Beißinger
3
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
Monatlicher Stromverbrauch mit gleitenden Durchschnitten 12. Ordnung
aus: Schwarze (2001), Grundlagen der Statistik I, 9. Auflage, S. 201.
PD Dr Thomas Beißinger
4
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
Trendfunktionen
Man legt den Funktionstyp für den Trend fest und ermittelt die
Parameter der Trendfunktion mittels einer Regressionsschätzung,
d.h. durch die Minimierung der Quadratsumme der Abweichungen
der yi - Werte von der Trendfunktion.
1. Linearer Trend:
yˆ t
a bt
Bestimme die Parameter a und b durch
T
min ¦ ( y t yˆ t )2
t 1
T
2
¦ ( y t a bt )
t 1
PD Dr Thomas Beißinger
5
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
2. Quadratischer Trend:
a b1t b2t 2
yˆ t
Bestimme die Parameter a, b1 und b2 durch
T
T
min ¦ ( y t yˆ t )2
2 2
¦ ( y t a b1t b2t )
t 1
t 1
Trotz des quadratischen Terms handelt es sich um ein lineares
Regressionsmodell, da das Modell linear in den Parametern ist
(t2 ist einfach ein weiterer Regressor).
PD Dr Thomas Beißinger
6
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
3. Exponentialtrend:
yˆ t
Ÿ lg yˆ t
ab t
lg a t lg b
Bestimme die Parameter lga und lgb durch
T
min ¦ (lg y t lg yˆ t )2
t 1
T
2
¦ (lg y t lg a lg b ˜ t )
t 1
Entlogarithmieren führt zu aˆ und bˆ.
PD Dr Thomas Beißinger
7
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
4. Logistische Funktion:
yˆ t
c
1 10a bt
c ! 0, a ! 0, b 0
relevant bei „Sättigungsprozessen“. c stellt die Obergrenze
(„Sättigungsgrenze“) dar, a und b bestimmen den Verlauf der Kurve.
Die Kurve ist symmetrisch, in der Zeit aufsteigend, mit einem Wendepunkt
in der Mitte bei c/2. Die Untergrenze ist die Abszisse.
5. Gompertz-Kurve:
yˆ t
ca b
t
0 b 1,0 a 1, c ! 0
Die Kurve zeigt einen ähnlichen Verlauf wie die logistische Funktion,
sie ist jedoch nicht symmetrisch bezüglich des Wendepunktes.
PD Dr Thomas Beißinger
8
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
WP: Wendepunkt
aus: Schulze (2000), Beschreibende Statistik, 4. Auflage, S. 253.
PD Dr Thomas Beißinger
9
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
Die logistische Funktion und die Gompertz-Kurve sind nichtlinear in
den Parametern. Es sind deshalb numerische Verfahren zur Bestimmung
der Parameter notwendig.
Ausnahme: Ist der Parameter c bereits vorab bekannt, können a und b
durch eine Modelltransformation mit einer Kleinstquadrateschätzung
ermittelt werden.
Ÿ
c
yˆ t
c
1 10a bt
yˆ t
Beispiel: Logistische Funktion:
1 10a bt Ÿ 10a bt
c
1
yˆ t
§c
·
lg¨¨ 1¸¸
¹
© yˆ t
a bt
PD Dr Thomas Beißinger
10
4.2.1 Bestimmung der glatten Komponente bzw. des Trends
§c
·
lg¨¨ 1¸¸
¹
© yˆ t
a bt
Man transformiert daher die yt - Werte in
y t*
c
1
yt
Anschließend werden a und b bestimmt durch
T
min ¦ ( y t*
t 1
2
a bt )
Zur Modelltransformation für die Gompertz-Kurve siehe:
Schulze (2000), S. 269f.
PD Dr Thomas Beißinger
11
4.2.2 Bestimmung der Saisonkomponente
Bei der Bestimmung von Saisonschwankungen ist zu unterscheiden:
• konstante Saisonfigur (bei additiver Verknüpfung)
• variable Saisonfigur (bei multiplikativer Verknüpfung)
Im Folgenden wird ein einfaches Verfahren zur Saisonbereinigung
vorgestellt: das Phasendurchschnittsverfahren.
PD Dr Thomas Beißinger
1
4.2.2 Bestimmung der Saisonkomponente
Saisonbereinigung bei konstanter Saisonfigur
Vorgehensweise:
1) Berechnung eines gleitenden Durchschnitts der Ordnung l
(= Anzahl der unterjährigen Perioden), mit dem die
Saisonkomponente und irreguläre Komponente [St H t ]
entfernt werden. y t* entspricht näherungsweise der glatten
Komponente Gt.
2) Anordnung der Zeitreihenwerte, bei der die Werte, die sich auf
die gleiche unterjährige Periode verschiedener Jahre beziehen,
jeweils in einer Spalte stehen. Gesamte Zeitreihe: y1, y2, …, yT
y11 y12 ... y1l
m Jahre und l unterjährige Perioden:
m˜l
T
y 21
y 22
...
y 2l
y m1 y m 2 ... y ml
PD Dr Thomas Beißinger
2
4.2.2 Bestimmung der Saisonkomponente
Entsprechend sind auch y ij* , Sij , H ij zu interpretieren.
Da eine konstante Saisonfigur unterstellt wird, gilt: Sij S j ,
d.h. der jeweilige Saisoneffekt ist vom betrachteten Jahr unabhängig.
3) Für jede unterjährige Periode j bildet man das arithmetische Mittel
der Differenzen y ij y ij* und erhält die rohe Saisonkomponente:
Sj
1 m
*
¦ ( y ij y ij )
mi 1
Sj ist damit nichts anderes als das arithmetische Mittel der um die
glatte Komponente bereinigten Zeitreihe für alle gleichnamigen
unterjährigen Perioden.
PD Dr Thomas Beißinger
3
4.2.2 Bestimmung der Saisonkomponente
Theoretisch muss die Summe der Sj über ein Jahr Null ergeben, da
die Saisonabweichungen sich innerhalb eines Jahres definitionsgemäß
ausgleichen. Dies wird jedoch normalerweise nicht exakt erreicht
(z.B. aufgrund des Einflusses der irregulären Komponente).
Man normiert deshalb die Sj-Werte auf Null dadurch, dass man von
l
jedem Sj-Wert den Korrekturfaktor (1/ l ) ¦ S j subtrahiert.
j 1
Man erhält die korrigierte Saisonkomponente:
S j ( korr )
1 l
Sj ¦Sj
lj 1
PD Dr Thomas Beißinger
4
4.2.2 Bestimmung der Saisonkomponente
Die saisonbereinigten Zeitreihenwerte ergeben sich als Differenz:
y ij S j ( korr )
Diese Werte repräsentieren die Summe aus glatter und irregulärer
Komponente. Damit lässt sich die Entwicklung der von Saisonschwankungen unbeeinflussten Zeitreihe verfolgen.
PD Dr Thomas Beißinger
5
4.2.2 Bestimmung der Saisonkomponente
Saisonbereinigung bei variabler Saisonfigur
Annahme: Saisonkomponente für die unterjährige Periode j ist jeweils
ein Vielfaches aj der glatten Komponente, d.h.
Sij
a j Gij
„Teilmultiplikatives Modell“:
y ij
Gij a j Gij H ij
y ij
Gij (1 a j ) H ij
bzw.
(1+aj) lässt sich als Saisonabweichung interpretieren.
PD Dr Thomas Beißinger
6
4.2.2 Bestimmung der Saisonkomponente
Vorgehensweise:
1) Berechnung eines gleitenden Durchschnitts der Ordnung l,
mit dem die Saisonkomponente und irreguläre Komponente
*
entfernt werden. y ij entspricht näherungsweise der glatten
Komponente Gij.
2) Division der Originalzeitreihe durch die gleitenden Durchschnitte
führt zur Saisonkomponente, die noch mit den Zufallsschwankungen
behaftet ist:
y ij
y ij*
|
Gij (1 a j ) H ij
Gij
(1 a j ) H ij
Gij
.
PD Dr Thomas Beißinger
7
4.2.2 Bestimmung der Saisonkomponente
3) Man bildet das arithmetische Mittel:
Sj
1 m y ij
¦
m i 1y ij*
(1 a j ),
wobei unterstellt wurde, dass die Summe über die irreguläre
Komponente (annähernd) Null ist.
Die Saisonbereinigung erfolgt dann durch folgende Quotientenbildung:
y ij
Sj
PD Dr Thomas Beißinger
8
Literaturhinweise zu Kapitel 4
Kapitel 4: „Zeitreihenanalyse“ orientiert sich in wesentlichen Teilen an:
Schulze, Peter M. (2000), Beschreibende Statistik, 4. Auflage,
Oldenbourg: München, S. 229-238 und S. 245-293.
PD Dr Thomas Beißinger
9
5. Indexzahlen
5.1 Grundlagen
Einfache Indexzahlen (Messzahlen)
• Zwei inhaltlich gleiche Größen zu verschiedenen Zeitpunkten bzw.
Zeitperioden werden aufeinander bezogen.
• Liegt eine Zeitreihe des Merkmals X mit den Beobachtungswerten
x0, x1, …, xt vor, so bezeichnet man das Verhältnis xt/x0 als
Messzahl oder einfachen Index von X auf der Basis 0.
• Indexzahlen werden üblicherweise als Prozentzahlen ausgedrückt.
Deshalb beginnt eine Indexreihe in der Basisperiode mit dem Wert 100.
• Änderungen von Indexzahlen werden durch Prozentpunkte angezeigt.
Die Erhöhung einer Indexzahl von 150 auf 165 bedeutet einen Anstieg
um 15 Prozentpunkte, obwohl die Indexzahl nur um 10 Prozent
gestiegen ist.
PD Dr Thomas Beißinger
1
5.2 Preisindizes
Ziel: Ermittlung der Preisentwicklung für eine Gruppe von Gütern
(Warenkorb)
5.2.1 Preisindex nach Laspeyres
Fragestellung: Was kostet der Warenkorb der Basisperiode zu
Preisen der Berichtsperiode im Vergleich zur
Basisperiode?
Die Preise der Güter aus dem Warenkorb werden mit den
Gütermengen der Basisperiode gewichtet. Der Warenkorb wird
(mindestens) bis zur Berichtsperiode konstant gehalten.
PD Dr Thomas Beißinger
2
5.2 Preisindizes
Preisindex nach Laspeyres
m
P0(tL )
¦ pti q0 i
i 1
m
˜ 100
¦ p0 i q0 i
i 1
q0i: Gütermengen in der Periode 0, i = 1,…,m
p0i: Güterpreise in Periode 0, i = 1,…,m
pti: Güterpreise in Periode t, i = 1,…,m
PD Dr Thomas Beißinger
3
5.2.1 Preisindex nach Laspeyres
Vorteile:
• Plausible ökonomische Aussagekraft
• Relativ geringer Erhebungs- und Rechenaufwand
Nachteil:
Warenkorb veraltet im Zeitablauf aufgrund
• Änderungen der Verbrauchsstruktur
• Aufkommen neuer Güter
• Änderungen der Produktqualität.
Der Warenkorb muss deshalb in regelmäßigen Abständen auf eine
neue Basis gestellt werden.
PD Dr Thomas Beißinger
4
5.2.2 Preisindex nach Paasche
Es werden die Mengen der Berichtsperiode konstant gehalten.
Fragestellung:
Um wie viel Prozent ist der Warenkorb der Berichtsperiode
teurer bzw. billiger als er in der Basisperiode gewesen wäre?
Preisindex nach Paasche:
m
P0(tP )
¦ pti qti
i 1
m
˜ 100
¦ p0 i qti
i 1
PD Dr Thomas Beißinger
5
5.2.2 Preisindex nach Paasche
Vorteil:
Es werden stets die aktuellen Warenkörbe der Berichtsperiode
benutzt.
Nachteile:
• Der Erhebungs- und Berechnungsaufwand ist – z.B. im Vergleich
zum Laspeyres-Index – erheblich größer, da in jeder Periode Preise
und Mengen bestimmt werden müssen.
• Der Indexwert einer Berichtsperiode ist nur mit dem Wert der
Basisperiode direkt vergleichbar.
Werte verschiedener Berichtsperioden sind nicht vergleichbar.
• Bei weit zurückliegenden Basisperioden können einzelne Güter
noch nicht vorhanden gewesen sein.
PD Dr Thomas Beißinger
6
5.2.3 Vergleich der Preisindizes
Bei „normaler“ Nachfragereaktion wird die nachgefragte Menge
eines Gutes sinken, falls der Preis dieses Gutes steigt
(Substitutionseffekt).
Derartige strukturelle Änderungen werden durch den LaspeyresPreisindex nicht erfasst, da die Mengen der Basisperiode
zugrunde gelegt werden.
Der Laspeyres-Preisindex weist daher bei Normalreaktion der
Güternachfrage einen höheren Preisanstieg aus als der
Paasche-Preisindex.
PD Dr Thomas Beißinger
7
5.3 Mengenindizes
Es wird die durchschnittliche mengenmäßige Änderung von Warenkörben
bei konstanten Preisen (Basis- oder Berichtsperiode) gemessen.
Mengenindex nach Laspeyres
Die Mengen werden mit den Preisen der Basisperiode gewichtet:
m
Q0( Lt )
¦ qti p0 i
i 1
m
˜ 100
¦ q0i p0 i
i 1
Mengenindex nach Paasche
Die Mengen werden mit den Preisen der Berichtsperiode gewichtet:
m
Q0( Pt )
¦ qti pti
i 1
m
˜ 100
¦ q0i pti
i 1
PD Dr Thomas Beißinger
8
5.4 Wertindizes
Bei einem Wertindex (Umsatzindex, Ausgabenindex) werden
die tatsächlichen Umsätze der Berichtsperiode zu den
tatsächlichen Umsätzen der Basisperiode in Beziehung gesetzt.
m
¦ pti qti
U 0t
i 1
m
˜ 100
¦ p0i q0i
i 1
Umsatzindizes können eventuell unterschiedliche Warenkörbe
in der Basis- und Berichtsperiode zugrunde liegen.
PD Dr Thomas Beißinger
9
5.5 Indexzahlprobleme
5.5.1 Probleme der Indexkonstruktion
Bei der Darstellung von Sachverhalten mit Hilfe von Indexzahlen sind
verschiedene Entscheidungen zu treffen. Unter anderem:
a) Wahl des Indextyps
In der amtlichen und nichtamtlichen Statistik wird überwiegend das
Indexschema von Laspeyres benutzt.
b) Wahl der Basisperiode
Üblicherweise werden Basisjahre benutzt. Ein Basisjahr sollte als
„normal“ oder „typisch“ angesehen werden können.
c) Wahl der Art und Zahl der Güter im Warenkorb
Im allgemeinen ist es nicht möglich, bei Indexrechnungen alle Güter und
Dienste des zu indizierenden Sachverhalts zu berücksichtigen. Damit
stellt sich das Problem der Repräsentativität des Warenkorbs.
PD Dr Thomas Beißinger
10
5.5.2 Indexumrechnungen
a) Umbasierung
Für verschiedene Berichtsperioden 1,2,…,k,…T liegen die Werte
eines (Laspeyres-) Index auf der Basis 0 vor:
I01, I02 ,..., I0 k ,..., I0T
Es soll eine Umrechnung auf die neue Basis k vorgenommen werden
(z.B. um internationale Vergleichbarkeit der Zeitreihen herzustellen).
Hierzu: Dividiere jeden Wert der Indexreihe durch I0k . Bei einer
Angabe in Prozent gilt also:
Ikt
I0 t
˜ 100, t
I0 k
1,...,T
PD Dr Thomas Beißinger
11
5.5.2 Indexumrechnungen
Beispiel: Preisindex nach Laspeyres für die Periode 4, der von der
Basisperiode 0 auf die Periode k=2 als neue Basis umbasiert werden soll.
¦ p4q0
(L )
P24
(L )
P04
(L )
P02
˜ 100
¦ p0q0
˜ 100
¦ p2q0
¦ p4q0
¦ p2q0
˜ 100.
¦ p0q0
Hieran erkennt man, dass aus der Umbasierung kein Preisindex nach
Laspeyres zur neuen Basisperiode 2 resultiert, sondern ein „Mischindex“ mit
Preisen der Periode 2, jedoch mit Mengen der alten Basis 0. Dieser
Sachverhalt ist bei der Interpretation umbasierter Indexzahlen zu
berücksichtigen.
Eine von Periode 0 zur Periode k umbasierte Indexzahl ist nämlich kein Index
mit einer in Periode k festgestellten Gewichtung, sondern mit einer solchen
aus Periode 0.
PD Dr Thomas Beißinger
12
5.5.2 Indexumrechnungen
b) Verknüpfung
Wegen der von Zeit zu Zeit erforderlichen Aktualisierung des
Warenkorbs entstehen „Brüche“ zwischen den einzelnen Indexwerten
mit unterschiedlichen Basisperioden.
Will man die Entwicklung der Indexreihe über eine große Zeitspanne
verfolgen (z.B. Preisindex für die Lebenshaltung in der BRD seit 1949),
so verknüpft man die verschiedenen Indexreihen miteinander.
Dabei kann man die alten Reihen auf das Niveau der aktuellen Reihe
umrechnen oder umgekehrt.
Die Werte des fortgeführten bzw. zurückgerechneten Indexes werden
im folgenden mit * bezeichnet.
PD Dr Thomas Beißinger
13
5.5.2 Indexumrechnungen
..., It(A2), It(A1), It( A )
Alte Indexreihe:
(B ) (B ) (B )
Neue Indexreihe: It , It 1 , It 2 ,...
Nun soll der auf der neuen Basis zurückgerechnete Indexwert
für (t-1) ermittelt werden. Hierzu wird angenommen, dass alter
und neuer Indexwert zueinander proportional sind:
Dies führt zu:
It(B1)*
It( B )
It(A1)
It( A )
It(B1)*
Entsprechend gilt:
It(B2)*
(B )
( A ) It
It 1 ( A )
It
(B )
( A ) It
It 2 ( A ) , usw.
It
PD Dr Thomas Beißinger
14
5.5.2 Indexumrechnungen
Analog lässt sich der auf der alten Basis fortgerechnete Indexwert
für t+1 berechnen als
It(A1)*
Somit ist:
It(A2)*
( A)
( B ) It
It 1 ( B ) .
It
( A)
( B ) It
It 2 ( B ) , usw.
It
Wie man erkennen kann, wird die Umrechnung aufgrund des
Indexverhältnisses in der Periode t vorgenommen. Dies kann
problematisch sein, denn damit wird aufgrund der Indexwerte in t
für den gesamten Umrechnungszeitraum die dort festgestellte
Proportionalität zwischen der alten und der neuen Reihe unterstellt.
PD Dr Thomas Beißinger
15
Literaturhinweise zu Kapitel 5
Kapitel 5: „Indexzahlen“ orientiert sich in wesentlichen Teilen an:
Schulze, Peter M. (2000), Beschreibende Statistik, 4. Auflage,
Oldenbourg: München, S. 295-318.
PD Dr Thomas Beißinger
16
Herunterladen