Skript Deskriptiv SS08

Werbung
Skript
Deskriptive Statistik
SS 2008
Prof. Dr. Waike Moos
FB Wirtschaft
Hochschule Bochum
Bismarck: „Statistik ist die größte Lüge!“
Churchill: „Ich glaube keiner Statistik, außer der, die ich selbst gefälscht habe!“
1
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Symbolverzeichnis ..........................................................................................................................4
0 Vorbemerkungen und Grundbegriffe ...........................................................................................7
0.1 Vorbemerkungen ...................................................................................................................7
0.2 Grundbegriffe der Statistik....................................................................................................7
1 Merkmalstypen und -skalen .......................................................................................................10
2 Aufbereitung des erhobenen Datenmaterials .............................................................................13
2.1 Absolute und relative Häufigkeiten.....................................................................................13
2.2 Klassierte Häufigkeiten .......................................................................................................18
2.2.1 Konstante Klassenbreiten .............................................................................................19
2.2.2 Ungleiche Klassenbreiten.............................................................................................21
2.3 Mehrdimensionale Häufigkeiten, Kreuztabellen.................................................................22
3 Parameter von Häufigkeitsverteilungen .....................................................................................24
3.1 Lageparameter.....................................................................................................................24
3.1.1 Der Modus....................................................................................................................26
3.1.2 Der Median...................................................................................................................28
3.1.3 p%-Quantile .................................................................................................................33
3.1.4 Arithmetisches Mittel...................................................................................................34
3.1.5 Harmonisches Mittel ....................................................................................................38
3.1.6 Geometrisches Mittel ...................................................................................................39
3.2 Streuungsparameter.............................................................................................................40
3.2.1 Spannweite ...................................................................................................................41
3.2.2 Quartilsabstand.............................................................................................................41
3.2.3 Mittlere absolute Abweichung .....................................................................................43
3.2.4 Varianz und Standardabweichung................................................................................43
3.2.5 Variationskoeffizient....................................................................................................46
3.2.6 Zusammenfassung Maße und Skalen ...........................................................................48
4 Weitere Verteilungsmaße...........................................................................................................48
4.1 Box-Plots.............................................................................................................................48
4.2 Schiefe, Wölbung ................................................................................................................50
4.3 Konzentrationsmaße............................................................................................................52
4.3.1 Absolute Konzentration................................................................................................53
4.3.2 Konzentrationsindex von Herfindahl ...........................................................................54
4.3.3 Relative Konzentration: Lorenz-Kurve und Gini-Koeffizient .....................................55
5 Zweidimensionale deskriptive Statistik .....................................................................................58
5.1 Kovarianz ............................................................................................................................58
2
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
5.2 Korrelationskoeffizient von Bravais-Pearson .....................................................................59
5.3 Lineare Regressionsanalyse ................................................................................................61
5.4 Chi-Quadrat-Mehrfelder-Test, Kontingenzkoeffizient, Cramers V ....................................68
6 Verhältniszahlen.........................................................................................................................72
6.1 Gliederungszahlen ...............................................................................................................72
6.2 Beziehungszahlen................................................................................................................73
6.3 Messzahlen ..........................................................................................................................74
7 Indexzahlen (Indizes) .................................................................................................................76
7.1 Preisindizes..........................................................................................................................76
7.1.1 Preisindex nach Laspeyres ...........................................................................................77
7.1.2 Preisindex nach Paasche...............................................................................................79
7.2 Mengenindizes ....................................................................................................................80
7.3 Umsatzindizes .....................................................................................................................80
7.4 Umbasierung .......................................................................................................................81
7.5 Verknüpfung........................................................................................................................82
7.6 Preisbereinigung..................................................................................................................83
7.7 Preisindizes für die Lebenshaltung (Verbrauchspreisindizes) ............................................85
7.8 Kaufkraftparität ...................................................................................................................85
8 Zeitreihenanalyse .......................................................................................................................86
8.1 Aufgabe und Ziele...............................................................................................................86
8.2 Komponenten der Zeitreihe.................................................................................................86
8.2 Methoden der Trendermittlung ...........................................................................................88
Weiterführende Literatur zur Vertiefung ......................................................................................94
3
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Symbolverzeichnis
X
xi
n
m
xj
fj
hj
Variable, Merkmal
Merkmalsausprägung, Beobachtungswert des i-ten Merkmalsträgers oder statistischen Elements, i=1,...,n
Stichprobenumfang
Anzahl der verschiedenen Merkmalsausprägungen
Jeder Merkmalsträger kann m verschiedene Merkmalsausprägungen haben,
j=1,...m. xj ist die j-te Merkmalsausprägung, Abzissenwert einer Häufigkeitsverteilung
absolute Häufigkeit der Merkmalsausprägung xj, auch absolute Klassenhäufigkeit,
Ordinatenwert einer Häufigkeitsverteilung,
relative Häufigkeit der Merkmalsausprägungen=
fj
n
, auch relative Klassenhäufig-
keit
fj
hj %
relative prozentuale Häufigkeit der Merkmalsausprägungen=
Fj
Hj
Hj %
kumulierte absolute Häufigkeit der Merkmalsausprägungen= f 1 + f 2 + ... + f j
kumulierte relative Häufigkeit der Merkmalsausprägungen= h1 + h2 + ... + h j
kumulierte relative prozentuale Häufigkeit = ( h1 + h2 + ... + h j ) ⋅ 100
B
konstante Klassenbreite B =
x
arithmetisches Mittel (AM) in einer Stichprobe, x =
HM
harmonisches Mittel, HM =
GM
x ME
x Mo
geometrisches Mittel, GM = n x1 ⋅ x 2 ⋅ ... x n
Median, Merkmalsausprägung des mittleren Merkmalsträgers
Modus, häufigster Wert
σ2
σ
Varianz in der Grundgesamtheit
Standardabweichung in der Grundgesamtheit
s2
Varianz in einer Stichprobe s 2 =
s
Standardabweichung in einer Stichprobe
sM =
s
VK
Variationskoeffizient =
n
n
⋅ 100
Max − Min
m
1 m
∑ xj f j
n j =1
f 1 + f 2 + ... f m
f
f1 f 2
+
+ ... + m
x1 x 2
xm
1 m
1 m 2
( xi − x ) 2 f i oder s 2 =
xi f i − x 2
∑
∑
n − 1 i =1
n − 1 i =1
Standardfehler des Mittelwertes
s
100
|x|
4
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Gini-Koeffizient, GK = 1 − ∑ h j ⋅ (Y j −1 + Y j ) mit Y j =kumulierter Anteil der Merkm
GK
j =1
malsausprägungen und h j der relative Anteil der j-ten Merkmalsträger
1 n
∑ ( xi − x ) ⋅ ( y i − y )
n − 1 i =1
s xy
Kovarianz zweier Merkmale in einer Stichprobe, s xy =
sx
Wurzel aus der Varianz des Merkmals X einer Stichprobe, s x =
1 n
( xi − x ) 2
∑
n − 1 i =1
sy
Wurzel aus der Varianz des Merkmals Y einer Stichprobe, s y =
1 n
∑ ( yi − y ) 2
n − 1 i =1
n
Korrelationskoeffizient von Bravais-Pearson,
r
∑(x
r=
i =1
n
∑(x
i =1
r=
b
i
i
− x )( y i − y )
− x)
2
oder
n
∑( y
i =1
i
− y)
2
s xy
sx sy
Regressionskoeffizient (Steigung) bei der linearen Regression
n
b=
∑(x
i =1
i
− x )( y i − y )
oder
n
∑(x
i =1
i
b=
− x)2
s xy
s xx
Ordinatenabschnitt bei der linearen Regression a =
a
R-squared
ŷ
ŷ i
 s

n
n
i =1
i =1
∑ y i − b∑ xi
n
2
Bestimmtheitsmaß, r 2 =  xy 
 sx s y 
= a + bx geschätzte Regressionsgerade (Kurzform)
= a + bxi geschätzte Regressionsgerade
Preisindex für Berichtsjahr i gegenüber Basisjahr 0.
p = Preis des Gutes j in der Basiszeit 0.
p1j = Preis des Gutes j in der Berichtszeit 1.
P0i
j
0
q0j = Menge des Gutes j in der Basiszeit 0.
q1j = Menge des Gutes j in der Basiszeit 1.
5
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
n
∑pq
i
j =1
P0iLaspeyres =
0
100 =
n
∑p q
0
j =1
Summe aktueller Preis ⋅ alte Menge
100 , Preisindex von Laspeyres
Summe alter Preis ⋅ alte Menge
0
n
∑pq
P0iPaasche =
j =1
i
i
100 =
n
∑p q
j =1
0
Summe aktueller Preis ⋅ aktuelle Menge
100 , Preisindex von Paasche
Summe alter Preis ⋅ aktuelle Menge
i
n
∑q p
U 0i =
j =1
i
i
100 =
n
∑q
j =1
0
p0
Summe aktuelle Umsätze
100 , Umsatzindex
Summe alte Umsätze
6
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
0 Vorbemerkungen und Grundbegriffe
0.1 Vorbemerkungen
Statistik:
Datensammlung zu bestimmten Themen (Bevölkerungsstatistik, Arbeitslosenstatistik, Preisstatistik usw.)
Wissenschaft zur Erhebung und Analyse von Daten bzw. ein Vorlesungsfach:
-
-
Deskriptive Statistik: Daten werden mittels Kenngrößen beschrieben
und grafisch dargestellt.
Wahrscheinlichkeitsrechung:
analytische bzw. deduktive/induktive Statistik: allgemeingültige
Schlüsse
Quellen statistischer Daten:
Amtliche Statistik
-
Eurostat
-
Statistisches Bundesamt
-
Statistische Landesämter
-
Europäische Zentralbank +Bundesbank
Nichtamtliche Statistik
-
-
Wirtschaftsforschungsinstitute (z.B. ifo, IWH, DIW,
RWI, Kieler Institut für Weltwirtschaft, HWWI)
Markt- und Meinungsforschungsinstitute (z.B. GfK, Infas ...)
-
Verbände und Unternehmen
-
...
0.2 Grundbegriffe der Statistik
Grundgesamtheit/Statistische Gesamtheit/Masse =Menge aller Merkmalsträger (Elemente, Einheiten, Units). Ein Merkmalsträger gehört dann zur Grundgesamtheit, wenn er sämtliche Abgrenzungsmerkmale (Identifikationsmerkmale) besitzt. Die Merkmalsträger stimmen hinsichtlich der Abgrenzungsmerkmale überein. Die Abgrenzung ist in
sachlicher, räumlicher und zeitlicher
7
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Hinsicht vorzunehmen, indem für alle Elemente bestimmte Eigenschaften
als identisch vorgegeben werden.
Beispiel:
Erstsemester im FB Wirtschaft an der BO (sachliches Abgrenzungsmerkmal: Eingeschriebene(r) Student(in) für Wirtschaft an der BO (räumliches
Abgrenzungsmerkmal im SS 2008 (zeitliches Abgrenzungsmerkmal).
Arbeitslose im Mai 2008 in Deutschland
Teilgesamtheit/Stichprobe/sample: wenn aus einer statistischen Gesamtheit nicht alle
Elemente in die Untersuchung eingehen. Wichtige Frage, ob die gewonnen
Ergebnisse nur für die Teilgesamtheit gelten oder auch für die Grundgesamtheit
Beispiel:
alle Anwesenden im Hörsaal
Merkmalsträger/Statistisches Element/Einheit/Fall: Das einzelne Element der Grundgesamtheit oder Stichprobe. Der Merkmalsträger ist der Träger der statistischen Information
Beispiel:
Der Student Klaus Ur.
Merkmal/Variable:Eigenschaft des statistischen Elements oder Merkmalsträgers (Achtung: Merkmal nicht mit Identifikationsmerkmal verwechseln, die Merkmalsträger können hinsichtlich ersterem unterschiedliche Ausprägungen
haben, müssen jedoch identische Identifikationsmerkmale haben, um zur
Grundgesamtheit zu gehören.
Beispiel:
Einkommen (unterschiedliches Einkommen bei den Studierenden).
Merkmalsausprägung/Merkmalswert/Beobachtungswert/Messwert: Der Wert, der bei
der Beobachtung bei der einzelnen statistischen Einheit bzw. dem Merkmalsträger festgestellt wurde.
Beispiel: blond (Der Student Klaus Ur ist blond).
Erhebung: Feststellung der Merkmalsausprägung von Merkmalen bei den Merkmalsträgern
Grundgesamtheit
Merkmalsträger
Merkmal
Merkmalsausprägung
Wohnbevölkerung
in D im Jahr 2010
Einwohner
Einkommen
35.000€
8
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Studierende an der
BO
Studierende
Studiendauer
6. Semester
Belegschaft bei
Nokia
Angestellte
Alter
32 Jahre
Produktion von
Glühbirnen
Glühbirne
Funktionsfähigkeit kaputt
Statistik am Computer mit Excel oder NSDStat oder SPSS:
Tabelle = Grundgesamtheit oder Teilgesamtheit/Stichprobe
Spalte = Merkmal, Variable
Zeile = Merkmalsträger, Element, Fall
Zelle = Merkmalsausprägung, Wert
Beispiel einer Excel-Tabelle:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
A
20
19
23
24
21
23
25
23
24
22
21
20
21
23
10
24
B
m
w
w
m
m
w
m
w
m
w
w
m
m
w
m
w
C
1,3
1,7
3
3,3
3,7
5
4
2,3
1,7
2
2,7
3,3
2
1
3,3
2,3
D
MG
KR
KR
VIE
MG
MG
KR
VIE
NE
D
D
NE
VIE
MG
MG
Variable A: Alter
Variable B: Geschlecht
Variable C: Klausurnote
Variable D: Kfz-Kennzeichen
9
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Grundgesamtheit: Studierende im Fachbereich Wirtschaft
Merkmalsträger: Student Nr. 10
Merkmal: Alter
Merkmalsausprägung: 22
Grundgesamtheit: Studierende im Fachbereich Wirtschaft
Merkmalsträger: Student Nr. 3
Merkmal: Kfz-Kennzeichen
Merkmalsausprägung: BO
1 Merkmalstypen und -skalen
Variablen1 haben bestimmte Arten von Werten/Merkmalsausprägungen.
Variablen werden an Skalen „gemessen“.
Skala:
Vorschrift, nach der jedem Merkmalsträger einer Gesamtheit genau eine
Merkmalsausprägung zugeordnet werden kann.
Variablentyp:
Qualitative Variable
Skala
Nominalskala (Nomen = Name): Wenn die Merkmalsausprägungen Namen oder Bezeichnungen sind, die ausschließlich
der Kennzeichnung dienen.
Keine Reihenfolge bestimmbar.
Jedem Merkmalsträger der Gesamtheit wird ein Name
zugeordnet.
Rangvariable
Ordinalskala (Ordnung, Rangfolge): Wenn die Merkmalsausprägung zusätzlich eine Rangfolge zum Ausdruck bringt.
Jedem Merkmalsträger der Gesamtheit wird eine Rangnummer
oder Rangbezeichnung zugeordnet
1
oder Merkmale
10
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Quantitative Variable
Metrische Skala (messen): Wenn darüber hinaus noch Differenzen und Verhältnisse von Merkmalsausprägungen sinnvoll
sind.
Jedem Merkmalsträger der Gesamtheit wird eine reelle Zahl
zugeordnet.
Die metrische Skala2 bei den quantitativen Variablen ist entweder eine Intervallskala, wenn aussagefähige Differenzen der
Ausprägungen gebildet werden können, z.B. heute ist es bei 10
Grad Temperatur 5 Grad wärmer als gestern, jedoch nicht doppelt so warm (die Angelsachsen mit einer Grad-FahrenheitSkala würden diesen Anstieg nicht als Verdopplung ansehen!).
oder eine Verhältnisskala, wenn aussagefähige Quotienten
der Ausprägungen gebildet werden können (Müllers haben genau doppelt so viele Kinder wie Meiers). Bei Verhältnisskalen
gibt es einen natürlichen Nullpunkt.
Quantitative Variable oder Merkmale heißen:
diskret, wenn die Ausprägungen nur isolierte Zahlenwerte annehmen können. (Ausprägungen werden durch einen Zählvorgang ermittelt.)
stetig, wenn sie alle Zahlenwerte eines Intervalls annehmen
können. (Ausprägungen werden durch einen Messvorgang ermittelt.)
Beispiele für diskrete quantitative Merkmale:
Kinderzahl
Einwohnerzahl
Klausuranmeldungen
Beispiele für stetige quantitative Merkmale:
Körpergröße
Gewicht
Alter
2
Die Unterscheidung in Nominal-, Ordinal- oder metrische Skala ist für die Anwendbarkeit von statistischen Verfahren sehr wichtig. Nicht ganz so wichtig ist die Unterscheidung innerhalb der metrischen Skala in Intervall- oder
Verhältnisskala.
11
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Nicht alle Variablen lassen sich eindeutig den obigen Kategorien zuordnen, denn
das Messniveau und die Art der Messung beeinflusst den Variablentyp!
Beispiele:
Da jede Messung mit Messungenauigkeit behaftet ist, nimmt z.B. die Körpergröße nicht alle Zahlenwerte eines Intervalls (halbe Millimeter kann
man nicht messen!) an, sondern nur durch Runden entstandene Werte. In
der Praxis ist die Variable Körpergröße also eigentlich diskret, d.h. quasidiskret. Theoretisch ist es jedoch zweckmäßig, alle Zahlenwerte eines Intervalls als zulässig anzunehmen, d.h. die Körpergröße als stetiges Merkmal anzusehen, obwohl nur quasi-diskret gemessen wird.
Das Lebensalter wird in Umfragen meist in ganzen Zahlen als vollendete
Lebensjahre angegeben. Die theoretisch stetige Variable „Alter“ wird dann
diskret!
Für viele Fragestellungen wird die theoretisch stetige Variable „Einkommen“ nach Einkommensklassen angegeben: „bis 1000€, 1001-2000€, ...“.
Diese Reduktion des Messniveaus (gröbere Skala) führt zu Informationsverlust. Man gibt nur noch an, in welche Einkommensklasse jemand fällt.
Der exakte Zeitpunkt der Messung kann die Ausprägung einer Variable
beeinflussen z.B. der Blutalkoholgehalt hängt davon ab, wie viel Zeit zwischen Messung und letztem Getränk liegt.
Fließende Übergänge zwischen Rangvariablen und quantitativen Variablen:
Beispiel:
Punkteschema der Oberstufe ist Rangvariable mit verfeinerter Ordinalskala:
1+
1
1-
2+
2
2-
3+
3
3-
4+
4
4-
5+
5
5-
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Merke:
Man kann Messergebnisse einer quantitativen Variable stets in eine Rangvariable oder eine qualitative Variable überführen. Dabei kommt es jedoch
zu einem Informationsverlust.
Beispiel:
Brenndauer von Glühbirnen ist eine quantitative stetige Variable, deren
Ausprägungen an einer metrischen (Verhältnis-)Skala gemessen werden.
Eine Messung ist an der Ordinalskala möglich, wenn die Glühbirnen nach
ihrer Brenndauer geordnet werden und Rangzahlen vergeben werden. Dann
ist es allerdings nicht mehr möglich zu sagen, um wie viel länger eine Lam12
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
pe als eine andere brennt. Eine Messung an der Nominalskala ist möglich,
wenn die Birnen in „gute Lampen-schlechte Lampen“ unterteilt werden.
Beispiele zu Variablen und Skalen:
Variablentyp
Skala
qualitativ
qualitativ
Nominal
Nominal
qualitativ
Nominal
Rang
Rang
Ordinal
Ordinal
Rang
Ordinal
quantitativ
quantitativ
quantitativ
quantitativ
Variable oder Merkmal
Parteizugehörigkeit
Wahrheitswert einer
Aussage
Spielausgang beim
Toto
Schulnoten
Hausnummer
Dienstgrade bei der
Bundeswehr
Metrisch, Intervallska- Uhrzeit
la, stetig bzw. quasidiskret
Metrisch, Intervallska- Temperatur in Grad
la, stetig bzw. quasiCelsius
diskret
Metrisch, Verhältnis- Entfernung zwischen
skala, stetig bzw. qua- Wohn- und Arbeitssi-diskret
stätte
Metrisch, Verhältnis- Alkoholgehalt im Blut
skala, stetig bzw. quasi-diskret
Merkmalsausprägung
oder Wert
CDU, SPD, Grüne,...
Wahr, falsch
0,1,2
1,2,3,4,5,6
...,12,14,16
,...
Gefreiter, ..., General
2:00, 4:00
...,12,13,14,...
1 km, 1,5 km, ...
0, 0,1, ...0,8,...
2 Aufbereitung des erhobenen Datenmaterials
2.1 Absolute und relative Häufigkeiten
Erhebung der Kinderzahl bei 30 Familien,
Stichprobenumfang n=30
Merkmal Kinderzahl X={xi} i=1,...,n quantitative, diskrete Variable mit metrischer Verhältnisskala.
13
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Die Variable X kann die einzelnen Werte oder Merkmalsausprägungen xi annehmen.
i=Laufindex der Urliste, i=1,...,n
Urliste: 0, 4, 4, 1, 0, 3, 0, 1, 1, 1, 3, 6, 2, 1, 0, 2, 1, 0, 0, 1, 1, 3, 1, 3, 2, 2, 1, 0, 1, 2
Arbeitsschritte:
1) Sortierte Urliste: 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3,
4,4,6
Wie viele verschiedene Merkmalsausprägungen bzw. Kinderzahlen gibt es?
2) Gruppieren
Es gibt m=6 Merkmalsausprägungen:
Kein Kind, ein Kind, zwei Kinder , drei Kinder, vier Kinder, sechs Kinder
Bezeichne die m=6 verschiedenen Merkmalsausprägungen mit x1, x2, x3, x4,x5,x6 bzw. allgemeiner mit xj, j=1,...,m
j=Laufindex der unterschiedlichen Merkmalsausprägungen
3) Ermittlung der absoluten Häufigkeiten:
Strichliste:
Keine Kinder
(x1=0):

Ein Kind:
(x2=1)

Zwei Kinder:
(x3=2)

Drei Kinder:
(x4=3)

Vier Kinder:
(x5=4)

Sechs Kinder:
(x6=6)

Bezeichne mit fj, j=1,...,m, hier: j=1,...,6 die absolute Häufigkeit der Merkmalsausprägung xj, d.h. die Anzahl der Elemente, welche die Merkmalsausprägung xj besitzen.
Keine Kinder
(x1=0):
f1=7
Ein Kind:
(x2=1)
f2=11
Zwei Kinder:
(x3=2)
f3=5
Drei Kinder:
(x4=3)
f4=4
Vier Kinder:
(x5=4)
f5=2
Sechs Kinder:
(x6=6)
f6=1
Das m-Tupel der Paare (xj,fj), j=1,...,m
14
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
((x1,f1), (x2,f2), (x3,f3), (x4,f4), (x5,f5), (x6,f6))
((0,7), (1,11), (2,5), (3,4), (4,2), (6,1))
heißt Häufigkeitsverteilung.
Es gilt stets:
m
∑f
j =1
j
= n , d.h. die Summe aller absoluten Häufigkeiten ist gleich der Anzahl
der Elemente in der Gesamtheit.
Probe: f1+f2+ f3+f4+ f5+f6=7+11+5+4+2+1=30=n
Darüber hinaus gilt: 0≤fj≤n, j=1,...,m. Es können maximal n Elemente die Merkmalsausprägung xj haben.
Beispiel:
Wenn man nur kinderlose Paare betrachtet, ist f1=30, f2, ...,f6=0
4) und 5) Ermittlung der relativen und prozentualen relativen Häufigkeiten
Bezeichne die Zahlen
hj =
1
fj
n
als relative Häufigkeiten und die Zahlen
h%
j = h j ⋅ 100
als relative prozentuale Häufigkeiten.
m
Es gilt stets ∑ h j = 1 und
j =1
m
∑h
j =1
%
j
= 100
Darüber hinaus gilt: 0≤hj≤1, j=1,...,m und 0≤ h %j ≤100
6) Darstellung der Häufigkeitsverteilung als Tabelle oder Grafik
xj
fj
hj
h%
j
x1 = 0
x2 = 1
x3 = 2
x4 = 3
x5 = 4
x6 = 6
Summe
7
11
5
4
2
1
30
0,23333
0,36666
0,16666
0,13333
0,06666
0,03333
1
23,333
36,666
16,666
13,333
6,666
3,333
100
15
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Bei der grafischen Darstellung der Häufigkeitsverteilung kann man bei einem diskreten
Merkmal ein höhenproportionales Balkendiagramm verwenden. Die Häufigkeiten
werden durch Strecken, d.h. durch die Höhe der Balken beschrieben.
Balkendiagramm
Kinderzahl
12
11.0
10
8
7.0
6
5.0
4.0
4
2.0
2
1.0
0
0 Kinder
1 Kind
2 Kinder
3 Kinder
4 Kinder
6 Kinder
Balkendiagramm
Kinderzahl
40 %
36.7
35 %
30 %
25 %
23.3
20 %
16.7
15 %
13.3
10 %
6.7
5%
3.3
0%
0 Kinder
1 Kind
2 Kinder
3 Kinder
4 Kinder
6 Kinder
16
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Kuchendiagramm
Kinderzahl
23.3
36.7
6 Kinder
4 Kinder
3 Kinder
3.3
2 Kinder
6.7
1 Kind
0 Kinder
16.7
13.3
7) Ermittlung von kumulierten Häufigkeiten
Es wird im folgenden angenommen, dass bei quantitativen Variablen die Merkmalsausprägungen der Größe nach nummeriert und geordnet sind:
x1<x2< x3<x4< x5<…<xm
Die Anzahl der Elemente/Merkmalsträger einer statistischen Masse/Gesamtheit, bei denen die Ausprägungen des Merkmals höchstens gleich xj ist heißen kumulierte absolute
Häufigkeiten. Fj:
Fj=f1+f2+...+fj j=1,…,m, ... =
j
∑f
k =1
Es gilt:
Beispiel:
k
F j − F j −1 = f j
Die Anzahl der Familien mit höchstens 3 Kindern (Kein Kind, ein Kind,
zwei Kinder, drei Kinder) ist f1+f2+f3+f4=7+11+5+4=27.
Analog lassen sich auch die kumulierten relativen Häufigkeiten Hj berechnen:
Hj=h1+h2+...+hj j=1,…,m, ... =
j
∑h
k =1
Es gilt:
Beispiel:
k
oder
Hj =
Fj
n
H j − H j −1 = h j
Der relative Anteil der Familien mit maximal 3 Kindern (Kein Kind, ein
Kind, zwei Kinder, drei Kinder) ist
h1+h2+h3+h4=0,2333+0,3666+0,1666+0,1333=0,8999
17
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Nr.
kumulierte
kumulierte kumulierte prozentuale
prozentuale
absolute
absolute
relative
relative
Häufigkeit relative Häu- relative Häu- Häufigkeit
Häufigkeit
Häufigkeit
der Familien figkeit der
figkeit der der Familien der Familien der Familien
Anzahl der mit xj Kin- Familien mit Familien mit mit maximal mit maximal mit maximal
dern
xj Kindern
xj Kindern
Kinder
xj Kindern
xj Kindern
xj Kindern
%
%
j
xj
fj
hj
hj
Fj
Hj
Hj
1
0
7
0,2333
23,3333
7
0,2333
23,333
2
1
11
0,3667
36,6667
18
0,6000
60
3
2
5
0,1667
16,6667
23
0,7667
76,667
4
3
4
0,1333
13,3333
27
0,9000
90
5
4
2
0,0667
6,6667
29
0,9667
96,667
6
6
1
0,0333
3,3333
30
1,0000
100
Summe
-
30
1
100
-
-
-
v1 Kinderzahl
Wertelabels Codes
Anzahl% insgesamt% von gültigen
--------------------------------------------------0 Kinder
0
7
23.3
23.3
1 Kind
1
11
36.7
36.7
2 Kinder
2
5
16.7
16.7
3 Kinder
3
4
13.3
13.3
4 Kinder
4
2
6.7
6.7
6 Kinder
5
1
3.3
3.3
--------------------------------------------------Summe
30
100.0
100.0
---------------------------------------------------
Eingeschlossen sind 30 von insgesamt 30 Fällen
2.2 Klassierte Häufigkeiten
Klasseneinteilungen, wenn die Ermittlung genauer Angaben zu umständlich oder nicht
möglich ist, z.B. bei diskretem Merkmal mit sehr vielen unterschiedlichen Merkmalsausprägungen oder bei stetigem Merkmal.
Beispiel:
Will man eine Häufigkeitsverteilung des Einkommens in Deutschland aufstellen, wäre es unübersichtlich, die Anzahl von Beziehern von Einkommen
in allen (in Cent) unterschiedlichen Einkommenshöhen anzugeben.
Als repräsentativen Merkmalswert der Klasse j wählt man die Klassenmitte mj
18
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Ziel der Klasseneinteilung:
Struktur der Gesamtheit möglichst deutlich herauszuarbeiten.
Notwendige Anzahl der Klassen hängt vom Untersuchungsgegenstand und Datenmaterial ab.
Zu wenige Klassen: Informationsverlust!
Zu viele Klassen: Unübersichtlichkeit, da einige Klassen dann nur schwach besetzt
sind.
Bestrebung, konstante Klassenbreiten zu wählen!
Problem, wenn Merkmalswert genau auf Klassengrenze fällt: er wird z.B. in niedrigere oder in höhere oder je zur Hälfte in beide Klassen aufgenommen.
Soll die oberste Klasse eine Obergrenze haben? Wenn nicht, dann kommt es zu
unterschiedlich breiten Klassen.
2.2.1 Konstante Klassenbreiten
Berechnung der Klassengrenzen bei konstanten Klassenbreiten:
1) Bestimmung des Wertebereichs [MIN, …, MAX]
2) Bestimmung der Anzahl m der Klassen
3) Berechnung der Klassenbreiten B =
Max − Min
m
4) Berechnung der Klassenuntergrenzen und der Klassenobergrenzen
Beispiel: Min = 500, Max=3500, wähle m=6 Klassen, B =
3500 − 500
= 500 , bestimme
6
die Klassengrenzen:
Die m Klassen sind m Intervalle [mj-1/2⋅B;mj+1/2⋅B) (hier: links geschlossen,
rechts offen), mit mj die jeweilige Klassenmitte.
[500;1000)
[1000;1500)
[1500;2000)
[2000;2500)
[2500;3000)
[3000;3500]
Die Anzahl der Elemente, deren Merkmalswert in die Klasse j, j=1,...,m fällt, bezeichnet
man als absolute Klassenhäufigkeit fj.
Die relative Klassenhäufigkeit hj ergibt sich bei m Klassen als
19
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
hj =
fj
n
m
mit n = ∑ f j
j =1
Beispiel: Kfz-Händler
Einkommensverteilung der Beschäftigten
Anzahl
Anteil
Klasse Bruttomonatsverdienst Klassenbreite Klassenmitte Beschäf- BeschäfNr.
in €
in €
in €
tigte
tigte
j
Bj=const.= B
mj
fj
hj
1
500 bis unter 1000
500
750
6
0,075
2
1000 bis unter 1500
500
1250
13
0,1625
3
1500 bis unter 2000
500
1750
16
0,2
4
2000 bis unter 2500
500
2250
28
0,35
5
2500 bis unter 3000
500
2750
10
0,125
6
3000 bis unter 3500
500
3250
7
0,0875
80
1
Summe
Bei der grafischen Darstellung der Häufigkeitsverteilung kann bei konstanter Klassenbreite ein Histogramm3 verwendet werden mit den Klassenhäufigkeiten als Säulenhöhen
Klassierte Daten lassen sich in einem Histogramm oder auch als Häufigkeitspolygon
darstellen. Beim Häufigkeitspolygon werden die Klassenmitten an den oberen Säulenseiten miteinander verbunden.
3
Ein Histogramm ist ein Balkendiagramm, bei dem keine Zwischenräume zwischen den Balken liegen.
20
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Histogramm
mit mit
Klassen
konstanter
Breite,
Anteil
Histogramm
Klassen
konstanter
Breite,
hjfj Anzahl Beschäftigte
Beschäftigte
mit Häufigkeitspolygon
0,4
30
0,35
25
0,3
20
0,25
0,2
15
0,15
10
0,1
5
0,05
00
750
750
1250
1250
1750
1750
2250
2250
2750
2750
3250
3250
Einkommeninin€€
Einkommen
2.2.2 Ungleiche Klassenbreiten
Verwendet man unterschiedliche Klassenbreiten Bj, dann dürfen nicht mehr die Balkenhöhen den Klassenhäufigkeiten proportional sein, sondern die Flächen. Dazu
muss man die Klassenhäufigkeiten in „neue Balkenhöhen“ umrechnen. In einfachen Statistikprogrammen wird die Option unterschiedlicher Klassenbreiten meistens gar nicht
angeboten, sondern die unterschiedlichen Berechnungsvorschriften für gleiche oder ungleiche Berechnungsvorschriften vernachlässigt.
Zu den Berechnungsvorschriften für die „neuen Balkenhöhen“ bei ungleichen Klassenbreiten vgl. Literatur.
Beispiel: Mietwohnungen
21
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Balkendiagramm
Wohnungsgröße in Quadratmeter
70
62.0
60
50
40
36.0
30
21.0
20
10
8.0
0
15 - 52
53 - 90
91 - 128
129 - 170
2.3 Mehrdimensionale Häufigkeiten, Kreuztabellen
Mehrdimensionale Häufigkeitsverteilung, wenn die Merkmalsträger hinsichtlich mehrerer Merkmale untersucht werden.
Zweidimensionale Urliste: Erhebe zwei Merkmale pro Merkmalsträger (z.B. Merkmal Y:
Wohnungsgröße und Merkmal X Kaltmiete.)
Beispiel: Mietwohnungen
v3 Kaltmiete in Euro
v2 Wohnungsgröße in Quadratmeter
Abs. Häufigkeit
120 - 389 390 - 659 660 - 929 930 - 1200 Summe
----------------------------------------------------------------15 - 52
34
2
0
0
36
53 - 90
27
32
3
0
62
91 - 128 0
16
5
0
21
129 - 170 0
3
4
1
8
----------------------------------------------- -----------------Summe
61
53
12
1
----------------------------------------------------------------Eingeschlossen sind 127 von insgesamt 127 Fällen
22
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
v3 Kaltmiete in Euro
v2 Wohnungsgröße in Quadratmeter
Spaltenprozente
120 - 389 390 - 659 660 - 929 930 - 1200 Summe
----------------------------------------------------------------15 - 52
55.7
3.8
0.0
0.0
28.3
53 - 90
44.3
60.4
25.0
0.0
48.8
91 - 128 0.0
30.2
41.7
0.0
16.5
129 – 170 0.0
5.7
33.3
100.0
6.3
----------------------------------------------------------------Summe
100.0
100.0
100.0
100.0
100.0
N=
61
53
12
1
127
----------------------------------------------------------------Eingeschlossen sind 127 von insgesamt 127 Fällen
v3 Kaltmiete in Euro
v2 Wohnungsgröße in Quadratmeter
Zeilenprozente
120 - 389 390 - 659 660 - 929 930 - 1200 Summe
N=
--------------------------------------------------------------------15 - 52
94.4
5.6
0.0
0.0
100.0
36
53 - 90
43.5
51.6
4.8
0.0
100.0
62
91 - 128 0.0
76.2
23.8
0.0
100.0
21
129 - 170 0.0
37.5
50.0
12.5
100.0
8
--------------------------------------------------------------------Summe
48.0
41.7
9.4
0.8
100.0
127
--------------------------------------------------------------------Eingeschlossen sind 127 von insgesamt 127 Fällen
23
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Streudiagramm
V2 Wohnungsgröße in Quadratmeter
V3 Kaltmiete in Euro
1200
900
V3
600
300
0
0
50
100
150
200
V2
3 Parameter von Häufigkeitsverteilungen
Ziel: Verdichten von vielen Einzelinformationen aus den Häufigkeitsverteilungen mit
Hilfe von bestimmten Kenngrößen, Parametern oder Maßzahlen.
3.1 Lageparameter
Die Lage einer Häufigkeitsverteilung auf der Merkmalswertachse stellt eine wesentliche
Eigenschaft einer Häufigkeitsverteilung dar.
24
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel: Wohnungsgrößen von 1 bis 4 Zimmerwohnungen
Balkendiagramm
Wohnungsgröße in Quadratmeter
60
53.0
50
40
36.0
30
25.0
20
10
3.0
0
15 - 50
51 - 86
87 - 122
123 - 160
Beispiel: Wohnungsgrößen von 5 bis 7 Zimmerwohnungen
Balkendiagramm
Wohnungsgröße in Quadratmeter
5
5.0
4
3
2
2.0
2.0
1.0
1
0
60 - 86
87 - 113
114 - 140
141 - 170
25
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Idee: Beschreibung der Lage der Häufigkeitsverteilung mit der „Mitte“ bzw. dem „Zentrum“ der Verteilung.
Es kann dann der relative Abstand der einzelnen Werte von der „Mitte“ bestimmt
werden.
3.1.1 Der Modus
Auch Modalwert, häufigster Wert, höchste Säule
Definition:
Modus ist derjenige Wert, der am häufigsten beobachtet wird.
Voraussetzung:
Mindestens Nominal-Skalierung der Merkmale.
Beispiel: Mietwohnungen nach Anzahl Zimmer
Balkendiagramm
Anzahl der Zimmer
50
40.0
40
42.0
30
20
21.0
14.0
10
6.0
2.0
2.0
6
7
0
1
2
3
4
5
Eignung:
Modus ist prinzipiell für jede Verteilung bestimmbar. Bildung des Modus ist nicht
immer sinnvoll, z.B. wenn keine herausragende Häufigkeit zu beobachten ist.
Einziger möglicher Mittelwert für nominalskalierte Merkmale
Beurteilung:
Schnelle und einfache Ermittlung.
26
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Von Ausreißern unbeeinflusst.
Ist geeignet, wenn sich Verteilung auf den Modus hin „zuspitzt“, sollte „herausragender“ Wert sein.
Klassierte Daten mit gleichen Klassenbreiten:
-
Bestimmung der Modusklasse als die Klasse mit der größten Klassenhäufigkeit.
Bestimmung der Klassenmitte der Modusklasse als Näherungswert für den Modus.
Beispiel: Mietwohnungen nach Kaltmiete
Balkendiagramm
Kaltmiete in Euro
40
40.0
30
24.0
21.0
20
16.0
10
8.0
5.0
6.0
3.0
3.0
1.0
0
120 - 209
300 - 389
480 - 569
660 - 749
840 - 929
210 - 299
390 - 479
570 - 659
750 - 839
1110 - 1200
Klassierte Daten mit ungleicher Klassenbreite:
Die Berechnung ist etwas komplizierter und wird hier vernachlässigt.
Schwierigkeiten der Bestimmung des Modus bei Verteilung mit mehreren Modi oder
Gleichverteilung
27
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
hj, fj
xj
hj, fj
xj
3.1.2 Der Median
Auch Zentralwert, zentraler Wert
Definition: Median heißt der Merkmalswert, dessen Merkmalsträger in der Rangordnung aller Merkmalsträger genau die mittlere Position einnimmt. Unterhalb
und oberhalb des Medians liegen jeweils die Hälfte aller Merkmalsausprägungen oder Merkmalswerte.
Voraussetzungen: Wegen der benötigten „Rangordnung“ müssen die Merkmale mindestens ordinalskaliert sein.
Berechnung: Mittlere Position =
n +1
2
Beispiel: Schuhgrößen
Fall: n ungerade. Die Medianposition ist hier Position
n +1 9 +1
=
= 5.
2
2
28
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Der fünfte Schuh in der Reihe ist der „Medianschuh“. Seine Größe ist der Median.
Beispiel:
Überstunden
Fall: n ungerade: Bestimmung des Merkmals xi, das an der mittleren Position
n +1
steht.
2
Erfassung der geleisteten Überstunden:
absolute
kumulierte
Anzahl
Anzahl
xj
fj
Fj
0
10
10
1
15
25
2
6
31
3
4
35
4
3
38
5
3
41
Summe
41
Die mittlere Position ist
41 + 1
= 21 . xME=1.
2
Der Beschäftigte mit der Positionsnummer 21 hat genau 1 Überstunde geleistet (Die ersten 10 Beschäftigten haben keine, der 11. bis 25. Beschäftigte hat eine Überstunde geleistet.). 50% der Beschäftigten haben 1 oder weniger Überstunden geleistet, 50% haben 1
oder mehr Überstunden geleistet.
Beispiel: Fehltage
Fall: n gerade: Die mittlere Positionsziffer ist keine ganze Zahl (hier: 10,5).
29
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Fehltage
absolute
Anzahl
fj
4
2
2
2
4
3
2
1
20
xj
0
2
5
6
7
11
12
14
Summe
1
2
xME= ( x  n  + x  n  ) =
2
 
 2 +1


kumulierte
Anzahl
Fj
4
6
8
10
14
17
19
20
1
(6 + 7 )
2
Der Median ist hier der Durchschnitt der Merkmalsausprägungen der beiden zentral gelegenen Merkmalsträger (hier: Merkmalsträger mit Position
10 hat 6 Fehltage und Merkmalsträger mit Position 11 hat 7 Fehltage).
50% der Beschäftigten haben 6,5 und weniger Tage und 50% der Beschäftigten haben 6,5 und mehr Tage gefehlt.
Beurteilung:
unbeeinflusst von Ausreißern, da nur von Anzahl der Merkmalswerte abhängig,
schnelle, einfache Ermittlung,
Der Median kann u.U. selber als Merkmalswert nicht vorkommen (6,5 Fehltage
gibt es nicht)!
Bei ordinalskalierten Merkmalen und gerader Anzahl ist eine Durchschnittsbildung zwischen den zwei zentralen Merkmalen, wenn sie unterschiedliche Merkmalsausprägungen aufweisen, nicht möglich („50% aller Angehöriger der Bundeswehr haben den Dienstrang Leutnant oder einen tieferen Rang, 50% haben den
Dienstrang Leutnant oder einen höheren Rang.“ Gemittelte Ränge gibt es jedoch
nicht.).
Geeignet für schiefe Verteilungen, Zerlegung der Gesamtheit in 2 Hälften gibt
besseren Einblick in die Mitte.
Bestimmung des Medians aus der kumulierten Häufigkeitsverteilung:
30
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel: Mietwohnungen nach Kaltmiete
v3 Kaltmiete in Euro
Codes
Anzahl% insgesamt% von gültigen% kumuliert
-------------------------------------------------------------120 120
2
1.6
1.6
1.6
185 185
1
0.8
0.8
2.4
195 195
1
0.8
0.8
3.1
205 205
1
0.8
0.8
3.9
225 225
1
0.8
0.8
4.7
230 230
1
0.8
0.8
5.5
245 245
1
0.8
0.8
6.3
250 250
2
1.6
1.6
7.9
255 255
1
0.8
0.8
8.7
260 260
1
0.8
0.8
9.4
270 270
1
0.8
0.8
10.2
275 275
1
0.8
0.8
11.0
285 285
1
0.8
0.8
11.8
290 290
2
1.6
1.6
13.4
295 295
4
3.1
3.1
16.5
300 300
1
0.8
0.8
17.3
305 305
1
0.8
0.8
18.1
310 310
5
3.9
3.9
22.0
313 313
1
0.8
0.8
22.8
315 315
1
0.8
0.8
23.6
320 320
2
1.6
1.6
25.2
329 329
1
0.8
0.8
26.0
330 330
6
4.7
4.7
30.7
335 335
1
0.8
0.8
31.5
340 340
2
1.6
1.6
33.1
345 345
1
0.8
0.8
33.9
350 350
4
3.1
3.1
37.0
355 355
1
0.8
0.8
37.8
360 360
6
4.7
4.7
42.5
370 370
3
2.4
2.4
44.9
380 380
3
2.4
2.4
47.2
385 385
1
0.8
0.8
48.0
395 395
1
0.8
0.8
48.8
400 400
3
2.4
2.4
51.2
410
415
420
426
430
440
445
450
460
470
485
490
500
530
545
550
4
1
1
1
3
2
1
3
2
2
1
1
1
1
1
3
3.1
0.8
0.8
0.8
2.4
1.6
0.8
2.4
1.6
1.6
0.8
0.8
0.8
0.8
0.8
2.4
3.1
0.8
0.8
0.8
2.4
1.6
0.8
2.4
1.6
1.6
0.8
0.8
0.8
0.8
0.8
2.4
54.3
55.1
55.9
56.7
59.1
60.6
61.4
63.8
65.4
66.9
67.7
68.5
69.3
70.1
70.9
73.2
410
415
420
426
430
440
445
450
460
470
485
490
500
530
545
550
31
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
570 570
1
0.8
0.8
74.0
590 590
1
0.8
0.8
74.8
600 600
5
3.9
3.9
78.7
614 614
1
0.8
0.8
79.5
620 620
2
1.6
1.6
81.1
630 630
1
0.8
0.8
81.9
650 650
10
7.9
7.9
89.8
660 660
1
0.8
0.8
90.6
665 665
1
0.8
0.8
91.3
685 685
1
0.8
0.8
92.1
690 690
2
1.6
1.6
93.7
720 720
1
0.8
0.8
94.5
750 750
2
1.6
1.6
96.1
795 795
1
0.8
0.8
96.9
850 850
1
0.8
0.8
97.6
890 890
1
0.8
0.8
98.4
895 895
1
0.8
0.8
99.2
1200 1200
1
0.8
0.8
100.0
-------------------------------------------------------------Summe
127
100.0
100.0
-------------------------------------------------------------Median = 400
Median (interpoliert) = 400.00
Mode = 650
Berechnung des Medians bei klassierten Daten:
Median muss aus der Angabe der Klassierung geschätzt werden.
Die Einfall- oder Medianklasse m ist die Klasse, in der der Merkmalsträger mit
der Positionsziffer
n
oder 0,5 ⋅ n liegt4.
2
Zur Untergrenze der Medianklasse am ist eine Strecke d zu addieren, die sich aus
dem Strahlensatz bzw. einer linearen Interpolation ergibt:
xME=am+
0,5 ⋅ n − Fm−1
(bm − am ) .
fm
Zur genauen Berechnung des Medians bei klassierten Daten vgl. z.B. Bourier S
75-76.
Vereinfachend kann die Klassenmitte der Medianklasse als Näherung für den Median errechnet werden.
4
Es wird hier nicht mehr nach geradem oder ungeradem Stichprobenumfang unterschieden.
32
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
3.1.3 p%-Quantile
Definition: Unterhalb des p%-Quartils liegen p % der Realisationen oder Werte.
Neben dem allgemeinen Begriff der p%-Quantile sind auch bestimmte Spezialbegriffe
gebräuchlich, z.B.
die Quartile (teilen die Gesamtmasse in 4 Teile),
die Quintile, (teilen die Gesamtmasse in 5 Teile),
die Perzentile (teilen die Gesamtmasse in 100 Teile),
Definition: Quartil: Unterhalb des 1. Quartils liegen 25% der Realisationen oder Werte.
Unterhalb des 3. Quartils liegen 75% der Werte. Der Median entspricht dem
2. Quartil, unter dem 50% der Werte liegen.
Für unklassierte Daten:
Beispiel: Mietwohnungen nach Kaltmiete
Das 1. Quartil beträgt ca. 320 €.
Das 3. Quartil beträgt ca. 590 €.
Die Werte können aus den kumulierten relativen prozentualen Häufigkeiten des Computer-Ausdrucks weiter vorne abgelesen werden.
Für klassierte Daten:
Die Berechnung der Quartile bzw. p%-Quantile erfolgt analog zur Berechnung des Medians.
Die Quartilsklasse ist die Klasse, in der der Merkmalsträger mit der Positionsziffer
0,25⋅n bzw.0,75⋅n liegt5.
Zur Untergrenze der Quartilsklasse am ist eine Strecke d zu addieren, die sich aus
dem Strahlensatz bzw. einer linearen Interpolation ergibt:
Q1 = am +
0,25 ⋅ n − Fm−1
0,75 ⋅ n − Fm−1
(bm − am ) bzw. Q 2 = am +
(bm − am )
fm
fm
Allgemein wird das p%-Quantil berechnet als:
5
Es wird hier nicht mehr nach geradem oder ungeradem Stichprobenumfang unterschieden.
33
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
p%
p%-Quantil= am +
⋅ n − Fm−1
100
(bm − am )
fm
3.1.4 Arithmetisches Mittel
Auch Mittelwert, Durchschnitt, mean
Definition: Das arithmetische Mittel x von n Werten xi ist die Summe dieser Werte,
geteilt durch ihre Anzahl. Der Mittelwert x betrachtet die einfachen Entfernungen der Werte voneinander.
x=
1 n
∑ xi
n i =1
Voraussetzung: Es muss mindestens Intervallskalierung6 vorliegen; die Merkmale
müssen messbar – nicht zählbar – sein!
Achtung: Durchschnittsnoten über x eigentlich nicht zulässig!
Von nominalskalierten Merkmalen kann man überhaupt kein x bilden!
Beispiel:
Gewicht von 5 Personen in kg
55 75 60 66 71
1
x = (55 + 75 + 60 + 66 + 71) = 65,4 kg
5
Eigenschaften:
Die Summe der Differenzen aller Werte vom Mittelwert ist 0!
(55 − 65,4) + (75 − 65,4) + (60 − 65,4) + (66 − 65,4) + (71 − 65,4) =
( −10,4) + 9,6 + ( −5,4) + 0,6 + 5,6 = 0
Die Summe der Quadrate der Differenzen aller Werte vom Mittelwert ist kleiner als die Summe der Quadrate der Differenzen aller
Werte von irgendeinem anderen Wert (Minimumeigenschaft der
arithmetischen Mittels)
(55 − 65,4) 2 + (75 − 65,4) 2 + (60 − 65,4) 2 + (66 − 65,4) 2 + (71 − 65,4) 2 = 261,2
6
Man muss also Differenzen bilden können. Einen Nullpunkt braucht man indes nicht.
34
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Würde man bspw. die Differenzen zu 65 rechnen, wäre die Summe
größer.
(55 − 65) 2 + (75 − 65) 2 + (60 − 65) 2 + (66 − 65) 2 + (71 − 65) 2 = 262
Wenn ein einzelner Beobachtungswert mehrfach auftritt:
Definition: Das gewogene arithmetische Mittel berechnet sich, indem die einzelnen
Merkmalswerte mit ihrer Häufigkeit fj gewogen werden.
x=
1 m
∑ xj f j
n j =1
Beispiel: Semesterzahl für ein gewogenes arithmetisches Mittel:
Semesterzahl
8
9
10
11
12 Summe
fj
10
29
45
10
6
x=
100
1
(8 ⋅ 10 + 9 ⋅ 29 + 10 ⋅ 45 + 11 ⋅ 10 + 12 ⋅ 6 ) = 9,7
100
Der Mittelwert sollte nicht mit übertriebener Genauigkeit der Nachkommastellen angegeben werden, also besser 9,7 statt 9,73.
Beurteilung:
-
Wird bei kleinen Gesamtheiten von Ausreißern stark beeinflusst.
z.B. x =
1
(15 + 4 + 12 + 16) = 11,75 . x wird nach unten gezogen.
4
-
Ungeeignet bei schiefen Verteilungen, geeignet bei unimodalen Verteilungen.
-
Wenn Merkmale als Quotienten definiert sind, ist x unzulässig:
Beispiel:
-
Den Weg zur 2 km entfernten Hochschule legt S. Tudent mit
5 km/h zurück, den Heimweg mit 10 km/h. Die Durchschnittsgeschwindigkeit beträgt NICHT 7,5 km/h! Durchschnittsgeschwindigkeiten werden mit dem harmonischen
Mittel berechnet!
Die Mittelwerte zweier Verteilungen können zu einem gemeinsamen Mittelwert
aggregiert werden:
Beispiel: Semesterzahl
Semesterzahl 8
in Bochum: fj 10
in Essen: fj
12
9
29
16
10
45
25
11
10
30
12 Summe
6
100
5
88
35
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
xBo =
1
(8 ⋅ 10 + 9 ⋅ 29 + 10 ⋅ 45 + 11 ⋅ 10 + 12 ⋅ 6) = 9,73
100
xE =
1
(8 ⋅ 12 + 9 ⋅ 16 + 10 ⋅ 25 + 11 ⋅ 30 + 12 ⋅ 5) = 10
88
xBo+ E =
1
(9,73 ⋅100 + 10 ⋅ 88) = 9,856
188
Für klassierte Häufigkeitsverteilungen:
-
x kann nur näherungsweise berechnet werden.
-
Es werden die Klassenmitten als Merkmalsausprägungen verwendet.
Beispiel: Nebeneinkünfte
Die durchschnittlichen Nebeneinkünfte betragen
von
50
100
200
300
400
600
Summe
x=
Nebeneinkünfte in €
bis unter
mj
100
75
200
150
300
250
400
350
600
500
1000
800
fj
15
50
80
40
40
20
245
1
(75 ⋅ 15 + 150 ⋅ 50 + 250 ⋅ 80 + 350 ⋅ 40 + 500 ⋅ 40 + 800 ⋅ 20) = 320,92
245
Damit ist x deutlich größer als der Median xME = 271,90.
Beispiel: Mietwohnungen nach Größe
V2 Wohnungsgröße in Quadratmeter
36
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Mittelwert
71.46
Summe
9076.00
Minimum 15.00
Maximum 170.00
N
127
1. Quartil
47.25
Median 70.00
3. Quartil
89.95
Eingeschlossen sind 127 von insgesamt 127 Fällen
Der Median liegt bei 70 und das arithmetische Mittel bei 71,46.
Häufigkeitspolygon
V2 Wohnungsgröße in Quadratmeter
-50
Es gilt:
0
50
100
150
200
x MO < x ME < x bei rechtsschiefen bzw. linkssteilen unimodalen Vertei-
lungen (rechtsschief heißt: rechts zu flach).
x < x ME < x MO bei linksschiefen bzw. rechtssteilen unimodalen Vertei-
lungen (linkssschief heißt: links zu flach).
37
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
3.1.5 Harmonisches Mittel
Definition: Vom HM liegen die vor ihm in der Häufigkeitsverteilung liegenden Merkmalswerte in der Summe gesehen relativ gleich weit entfernt wie die nach
ihm liegenden Merkmalswerte. Das harmonische Mittel7 betrachtet also die
relativen Entfernungen der Merkmalswerte voneinander. (erinnere: Das
AM betrachtete die einfachen Entfernungen.).
HM =
f 1 + f 2 + ... f m
f
f1 f 2
+
+ ... + m
x1 x 2
xm
Voraussetzungen:
-
Für relative Entfernungen braucht man Quotienten. HM ist einzige Möglichkeit,
Durchschnittswerte von Quoten zu bestimmen. Der Zähler der Quote und die
Häufigkeit muss auf dieselbe Größe bezogen sein.
-
Das Merkmal muss verhältnisskaliert8 sein.
-
Die Merkmalswerte müssen alle positiv oder alle negativ sein.
Beispiel:
Den Weg zur 2 km entfernten Hochschule legt S. Tudent mit 5 km/h zurück, den Heimweg mit 10 km/h. (Zähler der Quote: „km“, Häufigkeit
(Hier: Entfernung) ebenfalls in „km“.)
x1=5km/h, f1=2km
x2=10km/h, f2=2km
Gesamtstrecke: f1+f2=4km
Hinweg:
2[km]
2[km]
= 0,4[h ] , Rückweg:
= 0,2[h ] , Gesamtzeit: 0,6[h].
5[km / h ]
10[km / h ]
Durchschnittsgeschwindigkeit=
Gesamtstrecke 4[km]
=
= 6,67[km / h ]
Gesamtzeit
0,6[h ]
Alternative Berechnung nach der „Formel“:
7
Das harmonische Mittel lässt sich auch mit Hilfe der Harmonielehre der Musik erklären: Wenn die Schallwellen
doppelt so schnell schwingen [in MHz bzw. Anzahl Schwingungen/Sekunde] wie beim Kammerton a, ist ein Ton
doppelt so hoch.
8
Man muss also aussagefähige Quotienten mit den Merkmalen bilden können: doppelt so groß, halb so schnell...
38
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
2[km] + 2[km]
4[km]
4[km]
=
=
= 6,67[km / h]
2[km] 2[km]
2
2
3
+
[ h ] + [ h]
[ h]
km
km
10
5
5[ ] 10[ ] 5
h
h
Klassierte Daten: Nehme Klassenmitten für die xj.
3.1.6 Geometrisches Mittel
Definition: Das geometrische Mittel ist der Wert, der mehrere aufeinander folgende
Vervielfachungen einer Größe als Mittelwert berechnet.
GM = n x1 ⋅ x 2 ⋅ ... x n
Voraussetzungen:
-
Merkmalswerte müssen verhältnisskaliert9 sein.
-
Merkmalswerte müssen größer als Null sein
Beurteilung: Einzige Möglichkeit, um aus Wachstumsraten bzw. aus den zugehörigen
Wachstumsfaktoren ein Durchschnittswachstum zu berechnen.
Beispiel:
Gewinn
Wachstumsrate in %
Wachstumsfaktor
Es gilt:
2000
5000
Gewinnentwicklung
2001
5200
4,00
1,04
2002
5000
-3,8
0,962
2003
5400
8,0
1,080
2004
5600
3,7
1,037
Wachstumsrate [in %]=(Wachstumsfaktor-1)⋅100
2% = (1,02-1)⋅100
Der Wachstumsfaktor sagt aus, das wieviel-fache der neue Wert des alten
Wertes ist. Der Wert des Jahres 2003 ist das 1,08-fache des Wertes des Jahres 2002.
GM= 4 1,04 ⋅ 0,962 ⋅ 1,08 ⋅ 1,037 = 1,0289
Das Durchschnittswachstum beträgt 2,89%.
9
Aus den Merkmalen muss man aussagefähige Quotienten bilden können: z.B. doppelt so schnell.
39
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Es gilt:
Ist der Anfangswert und der Endwert der Entwicklung einer wirtschaftlichen Größe bekannt, so kann die Gesamtvervielfachung aus diesen beiden
Größen berechnet werden.
5200 5000 5400 5600 5600
⋅
⋅
⋅
=
5000 5200 5000 5400 5000
Daraus folgt:
GM= n
GM = 4
Endwert
Anfangswert
5600
= 1,0289
5000
Klassierte Daten: Beim geometrischen Mittel nicht möglich.
3.2 Streuungsparameter
Ein Mensch, der von Statistik hört,
denkt dabei nur an Mittelwert.
Er glaubt nicht dran und ist dagegen,
ein Beispiel soll es gleich belegen:
Ein Jäger auf der Entenjagd
hat einen ersten Schuss gewagt.
Der Schuss zu hastig aus dem Rohr,
lag eine gute Handbreit vor.
Der zweite Schuss mit lautem Krach
lag eine gute Handbreit nach.
Der Jäger spricht ganz unbeschwert
voll Glauben an den Mittelwert:
Statistisch ist die Ente tot.
Doch wär’ er klug und nähme Schrot
- dies sei gesagt, ihn zu bekehren er würde seine Chancen mehren:
Der Schuss geht ab, die Ente stürzt,
weil Streuung ihr das Leben kürzt.
P.H. List, Marburg 1977
Beschreiben die Streuung der Merkmalswerte um einen mittleren Wert
Maß für Streuung kann auch Entfernung zwischen zwei ausgewählten Merkmalsträgern sein
40
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
3.2.1 Spannweite
Auch Variationsbreite, range
Definition:
Maß für die Entfernung zwischen kleinstem und größtem beobachteten Merkmalswert, gibt Länge des Bereichs an, über den sich die
Merkmalswerte verteilen.
Voraussetzung:
Berechnung von Differenzen erfordert mindestens Intervallskalierung. In Praxis häufig auch Ordinalskalierung als ausreichend angesehen („Die Noten streuen zwischen 1 und 5.“).
Beurteilung:
-
Erste Abschätzung für die Streuung, sofern keine Ausreißer vorliegen.
-
Reagiert sehr empfindlich auf Ausreißer.
-
Anschauliches und leicht verständliches Maß für die Breite der Streuung.
-
Gibt keine Information über die Art der Streuung der Merkmalswerte.
-
In Praxis häufig nicht als absolutes Maß sondern als Wertepaar „höchst/tiefst“
(z.B. bei Temperaturen, Börsenkursen, Tidenhub) angegeben.
Beispiel: Semesterzahl
Semesterzahl
fj
8
10
9
29
10
45
11
10
12
6
Summe
100
Die benötigte Semesterzahl bis zum Diplom streut zwischen 8 und 12 Semestern.
Klassierte Daten: Nehme als kleinsten Wert die Untergrenze der tiefsten Klasse und als
größten Wert die Obergrenze der höchsten Klasse.
Beispiel:
Im Beispiel der Nebeneinkünfte streut die Höhe der Einkünfte zwischen
50€ und 1000€.
3.2.2 Quartilsabstand
Definition:
Der zentrale Quartilsabstand
ZQA = Q3 − Q1
ist die Entfernung zwischen den beiden Merkmalswerten, die die
zentral gelegenen 50% der Merkmalsträger eingrenzen.
41
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Definition:
Der halbe Quartilsabstand
Q3 − Q1
2
wird als Streuungsmaß sinnvollerweise genau dann eingesetzt, wenn
als Lageparameter der Median verwendet wird.
Voraussetzung:
Merkmale müssen mindestens intervallskaliert sein, da zur Berechnung des Abstandes die Differenz gebildet werden muss.
Wenn statt des Abstandes nur die Werte der beiden Quartile Q1 und
Q3 angegeben werden, reicht die Ordinalskala („50% der Noten
streuen zwischen 2 und 3“).
Grafische Darstellung des zentralen Quartilsabstand mit Hilfe des Summenpolygons
Hj
1
0,75
50%
0,5
0,25
0
1
2
Q1
3
Zentraler Quartilsabstand
4
Q3
xj
5
Beurteilung:
Ausreißer unproblematisch, da untere und obere 25% der Häufigkeitsverteilung
abgeschnitten werden.
Wie bei Spannweite wird über Streubereich informiert, aber nicht wie die Merkmalswerte in diesem Bereich streuen.
Insbesondere geeignet für Verteilung des Einkommens und des Vermögens („50%
der Einkommen liegen zwischen 1500 und 2300 €“)
Klassierte Daten:
Berechnung der Quartile wie weiter vorne beschrieben.
42
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
3.2.3 Mittlere absolute Abweichung
Mean absolute deviation
MADx =
1 m
∑ | x j − x | f j oder
n j =1
MADxME =
1 m
∑ | x j − xME | f j
n j =1
ist das arithmetische Mittel der absoluten Abweichungen der einzelnen Merk-
malswerte vom arithmetischen Mittel oder vom Median,
man braucht mindestens intervallskalierte Merkmale,
allgemein lässt sich zeigen, dass die mittlere absolute Abweichung bezogen auf irgendeinen Wert nie kleiner werden kann als die mittlere absolute Abweichung bezogen auf den
Median (Minimumeigenschaft des Medians).
Die mittlere absolute Abweichung lässt sich inhaltlich interpretieren und ist einfach zu
berechnen:
z.B. im Durchschnitt weichen die Überstunden aus dem Überstundenbeispiel um 1,23
Stunden vom arithmetischen Mittel bzw. um 1,1 Stunden vom Median ab.
3.2.4 Varianz und Standardabweichung
Variance, standard deviation
Definition: Die Varianz ist ein Streuungsmaß, das als Summe der quadrierten Abweichungen der Merkmalswerte vom Mittelwert, dividiert durch die Anzahl der
Elemente, berechnet wird. Die Standardabweichung ist die Wurzel aus der
Varianz.
Die Symbole σ 2 und σ stehen für die „theoretische“ Größe der Varianz
bzw. Standardabweichung in der Grundgesamtheit. In der Praxis interessieren immer konkrete Varianzen und Standardabweichung in einer konkreten Stichprobe. Zur Unterscheidung von den „theoretischen“ Größen
σ 2 und σ aus der Grundgesamtheit, die in der Regel unbekannt sind und
nur abgeschätzt werden können, werden die Symbole s 2 und s verwendet.
Die Varianz in einer Stichprobe ist:
s2 =
1 m
( x j − x )2 f j
∑
n − 1 j =1
Die Formel für die Varianz in der Grundgesamtheit10 ist
10
Im Gegensatz zur Formel für
s 2 für die Stichprobenvarianz wird hier statt durch
1
1
durch
geteilt. Wenn
n −1
n
man durch etwas größeres teilt, kommt etwas kleineres heraus. Die theoretische Varianz der Grundgesamtheit
fällt also immer etwas kleiner aus als die Stichprobenvarianz
σ2
s 2 . Damit überschätzt die Stichprobenvarianz die
43
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
σ2 =
1 m
( x j − x )2 f j
∑
n j =1
Voraussetzungen: Wegen der Abstandsmessung müssen die Merkmale mindestens
intervallskaliert sein.
Beispiel: Überstunden
Überstunden
xj
fj
xj −x
(xj −x)2
(xj −x)2 f j
0
1
2
3
4
5
10
15
6
4
3
3
41
-1,61
-0,61
0,39
1,39
2,39
3,39
2,59
0,37
0,15
1,93
5,71
11,49
25,92
5,58
0,91
7,73
17,14
34,48
91,76
1) x = 1,61 =
66
41
2) Berechnung der quadrierten Abweichungen ( x j − x ) 2 f j und Summenbildung ergibt 91,76.
3) s 2 =
91,76
= 2,29 [Überstunden zum Quadrat]!!!
41 − 1
4) s = 2,29 =1,51 [ Überstunden 2 ]!!!
theoretische Varianz der Grundgesamtheit etwas. Man liegt also bei der Abschätzung auf der pessimistischen, aber
sicheren Seite der Streuungsmessung. Obige Formel für die Varianz lässt sich auch in der etwas bequemeren Variante
σ2 =
1 m 2
∑ x j f j − x 2 darstellen (Verschiebungssatz).
n j =1
44
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Achtung: Die Interpretation „Im Durchschnitt streuen die Merkmalswerte um 1,5 Stunden um den Mittelwert“ ist nicht zulässig! Richtig heißt es: „Die Streuung beträgt 1,5 Überstunden 2 !“
Beurteilung:
Die Merkmale müssen mindestens intervallskaliert sein, da Differenzen berechnet werden.
Die Varianz (und die Standardabweichung) kann nicht inhaltlich interpretiert werden, denn die resultierenden quadrierten Dimensionen sind inhaltlich nicht interpretierbar.
Quadratur der Abweichungen führt zu positiven Abweichungswerten, die um so
größer ausfallen, je weiter der Merkmalswert vom Mittelwert weg ist (Stärkere
Gewichtung der Ausreißer!)
Sinnvoll nur beim Vergleich zweier Verteilungen; es kann die mit der geringeren
Varianz bzw. Streuung identifiziert werden.
Ein Vergleich zweier Varianzen oder Standardabweichungen ist nur bei ähnlichem
Mittelwert sinnvoll.
Je größer die Varianz ist, desto größer ist die Standardabweichung.
Klassierte Daten:
Nur näherungsweise Berechnung der Varianz und Standardabweichung möglich
Ersetze die Merkmalswerte durch die Klassenmitten (d.h. Annahme, dass alle
Merkmalswerte auf die Klassenmitte fallen.).
Beispiel: Nebeneinkünfte
45
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Nebeneinkünfte in €
von
bis zu
50
100
200
300
400
600
100
200
300
400
600
1000
Klassenmitte mj
75
150
250
350
500
800
1. x =
fj
15
50
80
40
40
20
245
m
j
f
2
(m j − x ) ( m j − x )
j
1125
7500
20000
14000
20000
16000
78625
(m j − x )2 ⋅ f j
-245,92 60.476,65
907.149,70
-170,92 29.213,65 1.460.682,32
-70,92
5.029,65
402.371,71
29,08
845,65
33.825,86
179,08 32.069,65 1.282.785,86
479,08 229.517,65 4.590.352,93
8.677.168,37
78.625
= 320,92€
245
2. Berechnung der quadrierten Abweichungen der Klassenmitten mj vom Mittelwert und Addition
3. s 2 =
8.677.168,37
= 35.562,17€ 2
245 − 1
4. s = 188,58 € 2
Inhaltliche Interpretation der Ergebnisse nicht möglich, nur Größenvergleich!
In einigen Veröffentlichungen wird statt der Standardabweichung der Standardfehler s.e.
(standard error) angegeben.
s .e. =
s
s
oder der Standardfehler des Mittelwertes s M =
n
n
3.2.5 Variationskoeffizient
Definition: Der Variationskoeffizient ist ein Maß zum Vergleich der Streuung zweier
Verteilungen mit sehr unterschiedlichen Mittelwerten.
VK=
Beispiel:
s
100
|x|
Nebeneinkünfte
188,58
100 = 58,8%
320
,
92
VK=
Die Standardabweichung beträgt 58,8% des arithmetischen Mittelwertes.
Eine weitergehende Interpretation ist nicht zulässig.
46
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beurteilung:
Wegen Verwendung der Standardabweichung nicht interpretierbar.
Ist dimensionslose Größe und damit unabhängig vom Niveau der Ausgangswerte
Eignet sich zum Vergleich von Streuungen von Häufigkeitsverteilungen mit unterschiedlichem Mittelwert.
Beispiel: Mietwohnungen
V2 Wohnungsgröße in Quadratmeter
Mittelwert
Summe
Minimum
Maximum
N
Standardabweichung
Variationskoeffizient=
71.46
9076.00
15.00
170.00
127
31.45
31,45
⋅ 100 = 44%
71,46
V3 Kaltmiete in Euro
Mittelwert
Summe
Minimum
Maximum
N
Standardabweichung
Variationskoeffizient=
446.28
56677.00
120.00
1200.00
127
176.49
176,49
⋅ 100 = 40%
446,28
Die Wohnungsgröße streut stärker als die Kaltmiete.
47
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
3.2.6 Zusammenfassung Maße und Skalen
Nominal
Maß
Modus
Median
arithmet. Mittel
geometr. Mittel, harmonisch
Ordinal
Skala
Intervall
Verhältnis
(mit
natürlichem
Nullpunkt)
Lagemaße
X
Spannweite
Quartilsabstand
mittlere absolute Abweichung
Varianz, Standardabweichung
Variationskoeffizient
X
X
X
X
X
Streuungsmaße
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
nach: Bleymüller, Gehlert, Gülicher (2002), S. 24
4 Weitere Verteilungsmaße
4.1 Box-Plots
Auch: Box-Whisker-Plot (whisker=Barthaar)
Ein Box-Plot veranschaulicht vereinfacht die Lage und Streuung von Verteilungen grafisch. Es zeigt
-
1. und 3. Quartil
-
Median
-
Extreme Werte
-
Ausreißer.
Die mittleren 50% der Beobachtungen werden durch einen Kasten (Box) dargestellt, der
durch das 1. und 3. Quartil begrenzt wird.
In der Box wird der Median als Linie angezeigt.
Es werden „Zäune“ festgelegt. Innerhalb der Zäune aber außerhalb der Box liegen die extremen Werte. Die Zäune liegen in einer Entfernung des 1-fachen Quartilsabstands d.h. das
1-fache der Boxlänge vom 1. bzw. 3. Quartil weg (adjacent values). Die Zäune können
auch kürzer ausfallen, falls das Minimum oder das Maximum um weniger als einen
Quartilsabstand von Q1 bzw. Q3 entfernt liegen.
Außerhalb der Zäune liegen die Ausreißer.
48
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel:
Beim Alter der Beschäftigten eines Unternehmens liege der Median bei 46
Jahren, das 1. Quartil bei 40, das 3. Quartil bei 50 Jahren. Der Praktikant ist
19 und die Hausmeisterin 55 Jahre. Wer von beiden ist Ausreißer?
Die Zäune liegen bei 40-1⋅10=30 und 50+1⋅10=60.
Das Alter der Hausmeisterin ist kein Ausreißer, es liegt diesseits des Zauns.
1,2
ZQA=Q3-Q1
1 • ZQA
*
Q1
xME
Q3
0
Box-Plots können gut zum Vergleich verschiedener Verteilungen eingesetzt werden.
Beispiel: Mietwohnungen
Box-Plot einer linkssteilen Verteilung:
V3 Kaltmiete in Euro
Mittelwert
Summe
Minimum
Maximum
N
Standardabweichung
1. Quartil
Median
3. Quartil
Schiefe
Kurtosis
446.28
56677.00
120.00
1200.00
127
176.49
320.38
400.00
599.55
1.03
1.58
Eingeschlossen sind 127 von insgesamt 127 Fällen
49
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Häufigkeitspolygon
V3 Kaltmiete in Euro
-500
0
500
1000
1500
4.2 Schiefe, Wölbung
Neben Lage und Streuung sind Schiefe und Wölbung weitere wichtige Eigenschaften
einer Häufigkeitsverteilung.
Schiefe:
Schiefe >0: linkssteil bzw. rechtsschief!
Schiefe = 0: symmetrische Verteilung
Schiefe <0 rechtssteil bzw. linksschief
50
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
rechtssteil bzw . linksschief
linkssteil bzw . rechtsschief
6
10
9
5
8
7
4
6
3
5
4
2
3
2
1
1
0
0
1
2
3
4
5
6
7
8
Schiefe/Skewness >0
9
10
1
2
3
4
5
6
7
8
9
10
Schiefe/Skewness <0
Es ist nur sinnvoll, die Wölbung symmetrischer Verteilungen zu berechnen!
Wölbung/Kurtosis:
Wölbung < 0: flacher gewölbt (als eine Normalverteilung mit denselben Parametern)11
Wölbung = 0 identische Wölbung (wie eine Normalverteilung mit denselben Parametern)
Wölbung > 0: steiler gewölbt (als eine Normalverteilung mit denselben Parametern)
Die Wölbung kann nur schlecht per Augenmaß identifiziert werden, weil sie immer mit
der korrespondierenden Normalverteilung verglichen werden muss! Darüber hinaus reagiert das Wölbungsmaß sehr empfindlich auf unsymmetrische Verteilungen, so dass nur
bei symmetrischen Verteilungen die Wölbung berechnet werden sollte.
11
Die Normalverteilung wird erst in der induktiven Statistik eingeführt. Die Gestalt der Normalverteilung mit den
Parametern Erwartungswert 0 und Streuung 1 (auch als Gauß-Kurve bezeichnet) war auf dem alten 10 DM-Schein
abgebildet.
51
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
steile Wölbung
flache Wölbung
12
12
10
10
8
8
6
6
4
4
2
2
0
0
1
2
3
4
5
6
7
Wölbung > 0
8
9
10
1
2
3
4
5
6
7
8
9
10
Wölbung < 0
4.3 Konzentrationsmaße
Wie ist die Merkmalswertsumme (kumulierte Merkmalsausprägungen) auf die Merkmalsträger verteilt?
Ist sie gleichmäßig auf die Merkmalsträger verteilt oder konzentriert sie sich auf wenige
Merkmalsträger?
Beispiel:
Verteilung des Einkommens (Merkmalswertsumme, kumulierte Merkmalswerte) auf die Haushalte (Merkmalsträger): Hat jeder denselben Einkommensanteil oder erhalten wenige einen großen Einkommensanteil?
Verteilung der Marktanteile (Merkmalswertsumme, kumulierte Merkmalswerte) auf die Unternehmen (Merkmalsträger): Haben alle Unternehmen
denselben Marktanteil oder gibt es einen Marktführer?
52
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
4.3.1 Absolute Konzentration
Definition: Absolute Konzentration der ersten k Merkmalsträger
k
Ck =
∑x
i
∑x
i
i =1
n
i =1
k
= ∑ ai mit 0≤Ck≤1 mit
i =1
xi=Merkmalsausprägung (hier: Umsatz) des Merkmalsträgers i (hier: Unternehmen) und
ai=Anteil der Merkmalsausprägung des i-ten Merkmalsträgers an der Summe aller
Merkmalsausprägungen,
Ck=Anteil der Summe der Merkmalsausprägungen der ersten k Merkmalsträger an der
Summe aller Merkmalsausprägungen
Beispiel: Umsätze
Umsatzkonzentration
Unternehmen,
nach Umsatz
sortiert
Meier GmbH
Müller GbR
Schmitt GmbH
Schneider OHG
Franz GmbH
Meyer GmbH
Vogt OHG
Summe
Umsatz
ai in Mio. €
Umsatzanteil
ai in %
kumulierter
Umsatzanteil
ai in %
für
Herfindahl
ai²
250
105
50
40
30
20
5
500
50%
21%
10%
8%
6%
4%
1%
50%
71%
81%
89%
95%
99%
100%
62.500
11.025
2.500
1.600
900
400
25
78.950
53
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Umsatzkonzentration
1%
4%
Meier GmbH
6%
Müller GbR
Schmitt GmbH
8%
Schneider OhG
Franz GmbH
10%
50%
Meyer GmbH
Vogt OhG
21%
Hier: x1=Umsatz des 1. Unternehmens, a1=Umsatzanteil des 1. Unternehmens am Gesamtumsatz alle Unternehmen, C1=Umsatzanteil des 1. Unternehmens am Gesamtumsatz,
C2 Umsatzanteil der ersten beiden Unternehmen am Gesamtumsatz usw...
C1 =
250
= 0,5
500
C2 =
250 + 105
= 0,71
500
Auf das umsatzstärkste Unternehmen entfällt 50% des Umsatzes.
Auf die beiden umsatzstärksten Unternehmen entfallen 71% des Umsatzes.
Willkürliche Festlegung von k, also wie viel Merkmalsträger betrachtet
werden.
Nachteil:
4.3.2 Konzentrationsindex von Herfindahl
Definition:
n
C Herfindahl =
∑x
i =1
2
i
 n 
 ∑ xi 
 i =1 
2
mit
1
≤ C Herfindahl ≤ 1
n
Je größer der Konzentrationsindex, desto größer ist die Konzentration
Bei einer Gleichverteilung ergibt sich für den Herfindal-Index der minimale
Wert von
Beispiel:
1
.
n
Umsätze
54
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
C Herfindahl =
78950
= 0,3158 .
500 2
Da sich der Umsatz schwerpunktmäßig auf zwei Unternehmen verteilt, ist
die Konzentration nicht so hoch. Wenn die Meier GmbH und die Müller
GbR fusionieren würden, ergäbe sich für den Herfindahl-Index
C Herfindahl =
(250 + 105)2 + 50 2 + 40 2 + 30 2 + 20 2 + 5 2
500
2
=
131.450
= 0,5168 .
250.000
4.3.3 Relative Konzentration: Lorenz-Kurve und Gini-Koeffizient
Wie viel Prozent der Summe der Merkmalsausprägungen entfallen auf wie viel Prozent
der Merkmalsträger?
Klassen
Einkommensverteilung
Merkmalsträger
Einkommen
Klassenmitte
von bis unter
mj
0
500
250
500
1.000
750
1.000
2.000
1.500
2.000
3.000
2.500
3.000
6.000
4.500
Summe
Klassen
Einkommen
Klassenmitte
von bis unter
mj
0
500
250
500
1.000
750
1.000
2.000
1.500
2.000
3.000
2.500
3.000
6.000
4.500
Summe
Anzahl
Personen
fj
50
120
160
100
20
450
Anteil
Personen
hj
0,11
0,27
0,36
0,22
0,04
1,00
kumulierter
Anteil: Anteil in
Personen
%
Hj
Hj´
0,11 11,11
0,38 37,78
0,73 73,33
0,96 95,56
1,00 100,00
Merkmalswerte/Merkmalsausprägungen
Einkommen:
kumulierter
Klassenmitte
Anteil
Anteil: Anteil in
mal Anzahl Einkommen Einkommen
%
Yj´
mj fj
yj
Yj
12500
0,02
0,02
1,83
90000
0,13
0,15 15,02
240000
0,35
0,50 50,18
250000
0,37
0,87 86,81
90000
0,13
1,00 100,00
682500
1,00
Durch die Gegenüberstellung der beiden relativen kumulierten Häufigkeiten Hj´ und Yj´
können Konzentrationsaussagen getroffen werden.
Beispiel: Einkommensverteilung
73,33% der Personen haben Einkünfte bis unter 2000€.
55
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
50,18% der Einkünfte werden von Personen der Einkommensklassen
bis 2000 € erzielt.
73,33% der ärmsten Personen erzielen nur 50,18% der Einkünfte (es
muss also ein paar „Reiche“ geben).
Der Anteil der Personen mit dem höchsten Einkommen zwischen
3000 und 6000€ beträgt nur 4%, diese erzielen aber 13,2% des gesamten Einkommens.
Der Anteil der Personen bis 500€ Einkommen (z.B. die Studierenden) beträgt 11%. Diese erzielen jedoch nicht 11% des gesamten
Einkommens, sondern nur 1,83%.
Auf 11% der ärmsten Personen entfällt 1,8% des Einkommens, auf
38% der ärmsten Personen entfällt 15% des Einkommens usw.
kumulierter Anteil der
Merkmalssumme (Einkommen)
100
Lorenzkurve
B
90
80
70
60
50
40
F
30
20
F'
10
C
0
A 0
10 20 30 40 50 60 70 80 90 100
kumulierter Anteil der Merkmalsträger (Personen)
Bei Gleichverteilung entspricht die Lorenz-Kurve der Winkelhalbierenden: Auf
10% der Personen entfällt 10% des Einkommens usw..
Bei sehr hoher Konzentration wird die Lorenz-Kurve immer „eckiger“ und entfernt sich immer weiter von der Winkelhalbierenden.
56
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Je näher die Lorenzkurve an der Winkelhalbierenden liegt, desto geringer ist die
Konzentration, je weiter sie von der Winkelhalbierenden weg liegt, desto größer
ist die Konzentration.
Gini-Koeffizient: Konzentrationsmaß, das die Konzentration in einem Wert ausdrückt.
GK =
Fläche F
Fläche ∆ABC
m
(
GK = 1 − ∑ h j ⋅ Y j −1 + Y j
0≤GK≤
n −1
n
) mit Y0=0.
j =1
Je näher der GK bei 0, desto geringer ist die relative Konzentration (eher Gleichverteilung).
Je näher der GK bei
n −1
,(das ist fast 1), desto größer ist die relative Konzentratin
on (eher Ungleichverteilung).
Die auf genau 1 normierte Variante des Gini-Koeffizienten heißt LorenzMünzner-Koeffizient und errechnet sich als LM = GK
Beispiel:
n
n −1
Einkommensverteilung
GK= 1-[0,11⋅(0+0,02) + 0,27⋅(0,02+0,15)+ 0,36⋅(0,15+0,50)
+0,22⋅(0,50+0,87)+0,04⋅(0,87+1)]
= 1-0,66=0,34
Der Gini-Koeffizient liegt unter der Mitte des Wertebereiches
0≤GK≤1⇒hier: schwache bis mittlere Konzentration.
Beispiel:
12
Errechnete Konzentrationsmaße12 von Marktanteilen deutscher Fernsehsender (m=15 Sender) bzw. Netto-Einkommen in Deutschland (m=10 Klassen), Marktanteile von Unternehmen, die Unix-Server anbieten (m=4).
aus: Zöfel, Peter: Statistik für Wirtschaftswissenschaftler, Pearson Verlag, 2003, S. 231.
57
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Beispiel
m
Gini
Herfindahl
TV-Sender
15
0,426
0,105
Einkommen
10
0,326
0,130
Unix-Server
4
0,190
0,281
Gini-Koeffizient und Herfindahl-Index unterscheiden sich um so stärker voneinander, je größer die Anzahl der Merkmalsträger ist.
5 Zweidimensionale deskriptive Statistik
Frage nach Zusammenhang zwischen Variablen: Wird eine Variable von einer anderen beeinflusst?
Frage nach Gleichläufigkeit (Berufserfahrung in Jahren und Einkommen) oder
Gegenläufigkeit (Einkommen und Freizeit in Stunden)
Frage nach Ausprägung des Zusammenhangs (stark oder schwach)
Frage nach einzelnen „Ausreißern“, die ein atypisches Verhalten aufweisen (Personen mit sehr langer Berufserfahrung können trotzdem ein niedriges Einkommen
haben).
5.1 Kovarianz
Definition: Die Kovarianz misst die gleichzeitige Abweichung zweier Variablen.
s xy =
1 n
∑ ( xi − x ) ⋅ ( y i − y )
n − 1 i =1
Einfachste Möglichkeit zur Messung eines Zusammenhanges
Die Kovarianz13 kann Werte zwischen − ∞ und ∞ annehmen.
Bei einer negative Kovarianz liegt ein gegenläufiger Zusammenhang
vor.
Bei einer positiven Kovarianz liegt ein gleichläufiger Zusammenhang
vor.
Bei einer Kovarianz von nahezu Null liegt kein Zusammenhang vor.
13
Achtung: In einigen Lehrbüchern wird in der Formel für die Kovarianz durch n statt durch (n-1) geteilt.
58
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
5.2 Korrelationskoeffizient von Bravais-Pearson
Definition:
Der Korrelationskoeffizient misst die Stärke des Zusammenhanges zweier
quantitativer Variablen mit Intervall- oder Verhältnisskala14.
Richtung der Kausalität spielt keine Rolle.
Errechnet sich aus der normierten Kovarianz
n
r=
∑(x
i =1
i
− x )( y i − y )
n
n
i =1
i =1
∑ ( xi − x ) 2 ∑ ( y i − y ) 2
oder in Kurzschreibweise
r=
mit s xy =
1 n
∑ ( xi − x ) ⋅ ( yi − y ) und s x =
n − 1 i =1
s xy
sx sy
1 n
( xi − x ) 2 und s y =
∑
n − 1 i =1
1 n
( yi − y ) 2
∑
n − 1 i =1
Der Korrelationskoeffizient liegt zwischen –1 (bei vollständig gegenläufigem Zusammenhang) und +1 (bei vollständig gleichläufigen Zusammenhang).
Der Korrelationskoeffizient misst die Stärke des Zusammenhangs zwischen den
Messwerten
Der Korrelationskoeffizient ist 0 bei fehlendem Zusammenhang.
14
Für qualitative Variablen gibt es den Rangkorrelationskoeffizient von Spearman (vgl. z.B. Bourier S 217-222)
59
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel: Prüfungsergebnisse in Mathematik und Statistik
Ergebnis
Teilnehmer Mathematik Statistik
i
xi
yi
1
2
3
4
5
Summe
Mittelwert
r=
23
33
29
10
19
114
22,8
404,8
320,8 ⋅ 558,8
25
40
26
7
21
119
23,8
Hilfsspalten
xi yi
575
1320
754
70
399
3118
xi −x
yi −y
(xi − x)(yi − y)
0,2
10,2
6,2
-12,8
-3,8
0
1,2
16,2
2,2
-16,8
-2,8
0
0,24
165,24
13,64
215,04
10,64
404,8
2
(xi −x)2 ( yi − y)
0,04
104,04
38,44
163,84
14,44
320,8
1,44
262,44
4,84
282,24
7,84
558,8
= 0,956
Es liegt ein stark positiver Zusammenhang zwischen der Mathematik- und StatistikPunktzahl vor.
60
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
V1 Mathe-Punkte
V2 Statistik-Punkte
40
35
30
25
V2
20
15
10
5
10
15
20
25
30
35
V1
V1 Mathe-Punkte
V2 Statistik-Punkte
V1
V1
V2
+: p<0.05
V2
0.9561 +
0.9561 +
*: p<0.01
!: p<0.001
-:Signif. nicht verfügbar.
Fehlende Werte ausschließen: Fallweise
Eingeschlossen sind 5 von insgesamt 5 Fällen
5.3 Lineare Regressionsanalyse
Die Korrelationsanalyse bestimmte die Stärke des Zusammenhanges zwischen
zwei Variablen.
Mit der Regressionsanalyse soll der Zusammenhang in einer linearen Funktion beschrieben werden: y=a+b⋅x
y soll die abhängige Variable sein
x soll die unabhängige Variable sein
61
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Die Steigung b und der Ordinatenabschnitt a werden nach der Methode der
kleinsten Quadrate (ordinary least squares (OLS)) bestimmt.
Eine Gerade wird so durch die Punktwolke aller xi und yi gelegt, dass die Summe
der quadrierten senkrechten Abstände der y-Koordinaten zur Regressionsgerade
minimal wird. Die Methode der kleinsten Quadrate liefert die Regressionsgerade,
die die Punktwolke bestmöglich repräsentiert.
y
(x2,y2)
3
2
(x3,y3)
1
(x1,y1)
0
0
1
2
x
3
Die Summe der (quadrierten) senkrechten Abstände zwischen den Punkten und
der Regressionsgerade ist die kleinstmögliche.
62
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
y
(x2,y2)
3
2
(x3,y3)
1
(x1,y1)
0
0
1
y
2
x
3
(x2,y2)
3
(x2,ŷ2)
2
(x1,ŷ1)
(x3,y3)
1
(x1,y1)
0
0
1
2
x
3
63
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Wie errechnet man die Steigung b der Regressionsgerade?
n
b=
Es gilt:
∑ ( x − x )( y
i
i =1
i
n
∑ (x − x)
− y)
2
i
i =1
oder
b=
mit s xy =
s xy
s xx
1 n
1 n
( xi − x ) ⋅ ( yi − y ) und s xx =
( xi − x ) 2
∑
∑
n − 1 i=1
n − 1 i =1
Der Ordinatenabschnitt a errechnet sich als:
n
n
i =1
i =1
∑ y i − b∑ xi
a=
n
= y −b⋅x
Beispiel: Prüfungsergebnisse in Mathematik und Statistik
Abhängige:
V2
B
V1
1.262
Statistik-Punkte
Vorhersagevariable
Mathe-Punkte
Achsenschnittpunkt
Multiples R
Multiples R²
Angepasstes R²
F-Wert
F-Sign.
Gültige Fälle
-4.970
0.96
0.91
0.89
31.92
0.0110
5
Fehlende Werte ausschließen: Fallweise
Variablenauswahl: Alle einschließen
64
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Eingeschlossen sind 5 von insgesamt 5 Fällen
Die Regressionsgerade lautet: ŷi =-4,97+1,262⋅xi. Es wird jetzt das Symbol ŷ als geschätzter y-Wert genommen, da mit der Regressionsgeraden nicht exakt die Punkte yi der
Punktwolke getroffen werden.
Man kann jetzt die Vorhersage treffen, dass jemand, der 30 Punkte in Mathematik erzielt,
vermutlich ŷi =-4,97+1,2618⋅30=32,88 Punkte in Statistik erzielt.
Beispiel: Vier „komische“ Punkte
3
2
1
0
0
1
2
3
65
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Zu-Fuß-Methode:
Zeichnen Sie die Regressionsgerade so in die Punktwolke ein, dass die Summe der quadrierten
senkrechten Abstände möglichst klein wird!
3
3
2,8
2,8
2,6
2,6
2,4
2,4
2,2
2,2
2
2
1,8
1,8
1,6
1,6
1,4
1,4
1,2
1,2
1
1
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0
0
1
2
3
Summe = 0 2 + 12 + 0 2 + 12 = 2
0
1
2
3
Summe = 0,42 + (−0,6) 2 + (−1,5) 2 + (−0,5) 2 = 3,02
3
3
2,8
2,8
2,6
2,6
2,4
2,4
2,2
2,2
2
2
1,8
1,8
1,6
1,6
1,4
1,4
1,2
1,2
1
1
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0
0
1
2
Summe = (−1) 2 + 0 2 + 12 + 0 2 = 2
3
0
1
2
3
Summe = (−1) 2 + 0 2 + (−1) 2 + 02 = 2
66
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
OLS-Methode:
i
xi
yi
( xi − x )
1
2
3
4
Summe
Mittelwert
1
2
1
2
6
1,5
1
1
2
2
6
1,5
-0,5
0,5
-0,5
0,5
0
n
b=
∑ (x
i
i =1
− x )( yi − y )
n
∑ (x − x)
( xi − x )( yi − y )
( xi − x ) 2
( yi − y ) 2
0,25
-0,25
-0,25
0,25
0
0,25
0,25
0,25
0,25
1
0,25
0,25
0,25
0,25
1
-0,5
-0,5
0,5
0,5
0
0
=0,
1
i
i =1
a=
2
=
( yi − y )
n
n
i =1
i =1
∑ yi − b∑ xi
n
=
6 − 0⋅6
= 1,5 oder a = y − b ⋅ x = 1,5 − 0 ⋅ 1,5 = 1,5
4
Summe der quadrierten senkrechten Abstände zur Regressionsgerade:
0,5 2 + (−0,5) 2 + 0,52 + (−0,5) 2 = 1
Kleiner kann diese Summe nicht werden!
Wie gut repräsentiert die Regressionsgerade die Punktwolke?
Das Bestimmtheitsmaß15 (Multiples R2) (R-squared) ist ein Maß für die Güte
der Regression.
Das Bestimmtheitsmaß errechnet sich als das Quadrat des Korrelationskoeffizienten von Bravais-Pearson.
 s xy
R − squared = r = 
s s
 x y
2




2
15
In vielen statistischen oder ökonometrischen Programmen wird das Bestimmtheitsmaß mit R2 oder R-squared
bezeichnet.
67
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel: Prüfungsergebnisse in Mathematik und Statistik
r=
404,8
320,8 ⋅ 558,8
= 0,956 . Daraus folgt R − squared = 0,956 2 = 0,914
Interpretation:
Das Bestimmtheitsmaß gibt den Anteil der durch die Regression erklärten Varianz
an der Gesamtvarianz an.
Das Bestimmtheitsmaß kann zwischen 0 und 1 liegen.
Bei einem Bestimmtheitsmaß von 1 liegen alle Punkte der Punktwolke exakt auf
der Regressionsgeraden.
Beispiel: Vier „komische“ Punkte, Bestimtheitsmaß
r2 = (
0
)2 = 0
1⋅ 1
5.4 Chi-Quadrat-Mehrfelder-Test, Kontingenzkoeffizient, Cramers V
Bei qualitativen Variablen kann man einen Zusammenhang nur über die aufgetretenen
Häufigkeiten bestimmter Beobachtungswerte bestimmen.
Beispiel:
Studiengangwahl
Studieren Frauen andere Fächer als Männer? Gibt es einen Zusammenhang
zwischen Geschlecht und Studiengangwahl?
Gegeben:
zwei-dimensionale Kreuztabelle: Befragung von 200 Männern und 200
Frauen nach ihrem Studienfach.
Studienfach, beobachtete Häufigkeiten
Geschlecht
BWL
Mathematik
Biologie
Summe
68
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Frauen
127
29
44
200
In % vom Geschlecht
63,5
14,5
22,0
100,0
Männer
90
74
36
200
In % vom Geschlecht
45,0
37,0
18,0
100,0
Summe
217
103
80
400
In % vom Geschlecht
54,3
25,8
20,0
100,0
Wenn das Geschlecht bei der Studiengangwahl keine Rolle spielt, würde man erwarten,
dass sich die Verteilung der Frauen und Männer auf die Fächer genau wie in der Summenzeile ergibt, d.h. 54,3% der Frauen und 54,3% der Männer studieren BWL. 25,8%
der Frauen und 25,8% der Männer studieren Mathematik usw.
Studienfach, erwartete Häufigkeiten
Geschlecht
BWL
Mathematik
Biologie
Summe
Frauen
108,5
51,5
40
200
In % vom Geschlecht
54,3
25,8
20,0
100,0
Männer
108,5
51,5
40
200
In % vom Geschlecht
54,3
25,8
20,0
100,0
Summe
217
103
80
400
In % vom Geschlecht
54,3
25,8
20,0
100,0
In folgender Tabelle werden die beobachteten Häufigkeiten minus der erwarteten Häufigkeiten errechnet.
Geschlecht
Frauen
Männer
Summe
Studienfach, beobachtete-erwartete Häufigkeiten
BWL
Mathematik
Biologie
Summe
18,5
-22,5
4
0
-18,5
22,5
-4
0
0
0
0
0
69
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Hier werden die Felder aus der Tabelle quadriert.
Studienfach, (beobachtete-erwartete Häufigkeiten)2
Geschlecht
BWL
Mathematik
Biologie
Frauen
342,25
506,25
16
Männer
342,25
16
506,25
Hier werden die quadrierten Differenzen zwischen beobachteten und erwarteten Häufigkeiten durch die erwarteten Häufigkeiten geteilt.
Studienfach, Chi-Quadrat= ∑
Geschlecht
( beobachtet e − erwartete ) 2
erwartete
BWL
Mathematik
Biologie
Frauen
3,15
9,83
0,4
Männer
3,15
9,83
0,4
Der Chi-Quadratwert ist 3,15+3,15+9,83+9,83+0,4+0,4=26,77. Also liegt ein Zusammenhang zwischen Studiengangwahl und Geschlecht vor.
Nur wenn der Chi-Quadratwert nahe bei Null liegt, ist das ein Hinweis auf Unabhängigkeit.
Der Chi-Quadratwert kann beliebig groß werden, auch in Abhängigkeit von der Größe
der Kreuztabelle.
Ein weiteres qualitatives Zusammenhangmaß ist der Kontingenzkoeffizient von Pearson16:
P=
χ2
χ 2 + n mit 0 ≤ P < 1
16
Für nominalskalierte Variablen kann man bekanntlich keinen Korrelationskoeffizienten berechnen. Mit dem Kontingenzkoeffizient hat man dennoch ein Maß für die Verbundenheit von Variablen.
70
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Der Kontingenzkoeffizient kann die 1 nie erreichen, sondern nur einen Maximalwert unter 1 in Abhängigkeit der Anzahl der Zeilen und Spalten.
Er beträgt hier:
26,77
= 0,25
26,77 + 400
Das deutet ebenfalls auf einen Zusammenhang hin.
Bei einem Kontingenzkoeffizienten von 0 liegt Unabhängigkeit vor.
Noch ein Zusammenhangmaß ist Cramers V:
V=
χ2
n ⋅ ( k − 1)
mit 0 ≤ V ≤ 1
mit k die kleinere Zahl von Zeilen und Spalten.
Beispiel:
Ist die Wohnungsgröße unabhängig davon, in welchem Stadtteil die Wohnung liegt?
v1 Anzahl der Zimmer
v4 Angabe, wo sich die Wohnung befindet (1=Kernstadt,
2=westliche Stadtteile, 3=östliche Stadtteile, 4=Ostkreis,
5=Südkreis, 6=Nordkreis)
Abs. Häufigkeit
1
2
3
4
5
6
7 Summe
-------------------------------------------------1
14
16
9
8
0
1
0
48
2
5
13
11
2
3
0
0
34
3
1
6
4
0
1
0
0
12
4
0
1
4
1
2
1
1
10
5
0
3
6
0
0
0
0
9
6
1
1
8
3
0
0
1
14
-------------------------------------------------Summe
21
40
42
14
6
2
2
127
-------------------------------------------------Chi-Quadrat = 53.982
Signifikanz = 0.0046
Freiheitsgrade = 30
Cramérs V = 0.292
Kontingenzkoeff. = 0.546
71
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
6 Verhältniszahlen
Definition: Eine Verhältniszahl ist der Quotient zweier Zahlen, die in einem sachlogischen Verhältnis stehen.
Verhältniszahlen werden in Gliederungszahlen, Beziehungszahlen und
Messzahlen unterteilt.
Verhältniszahlen
Gliederungszahlen=
Teilmasse/Gesamtmasse*100
Beziehungszahlen
Vergleich verschiedener
Gesamtheiten
Messzahlen
Wert der Bezugsgröße/Wert der
Basisgröße *100
6.1 Gliederungszahlen
Definition:
Gliederungszahl =
Teilmasse
⋅ 100
Gesamtmasse
Geben wie relative Häufigkeiten einen Anteil bzw. eine Quote an
Geben Informationen über die innere Struktur einer Masse bzw. Grundgesamtheit
an.
Eigenschaft der „Quote“ spiegelt sich häufig in Namen der Gliederungszahl wieder, z.B. Arbeitslosenquote, Durchfallquote, Ausschussquote, Trefferquote
Beispiele:
Die Arbeitslosenquote =
Arbeitslose
beträgt 11%.
Erwerbspersonen
Die Kapitalstruktur der Meier GmbH sei,
Eigenkapital
Fremdkapital
Gesamtkapital
30 Mio €
50 Mio €
80 Mio €
37,5%
62,5%
100%
Die Eigenkapitalquote beträgt 37,5%, die Fremdkapitalquote 62,5%.
Mittelwerte von Gliederungszahlen:
können nicht analog zum arithmetischen Mittel berechnet werden,
sondern als gewichtetes arithmetisches Mittel oder
als harmonisches Mittel
Beispiel:
Unternehmensfusion mit unterschiedlichen Eigenkapitalquoten
72
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Eigenkapital
Gesamtkapital
Eigenkapitalquote
Müller GmbH
40
150
0,267
Meier GmbH
60
250
0,240
Fusion
100
400
0,250
Die durchschnittliche Eigenkapital-Quote ist nicht (26,7%+24%)/2=25,4%!
Die Eigenkapitalquote des fusionierten Unternehmens ist 25% (siehe Tabelle). Dieser Wert lässt sich auch errechnen als mit der Unternehmensgröße
gewichtetes arithmetisches Mittel:
1
(0,267 ⋅ 150 + 0,24 ⋅ 250) = 0,25
400
d.h. 150 „Einheiten“ des fusionierten Unternehmens hat eine EK-Quote von
26,7% und 250 „Einheiten“ des fusionierten Unternehmens hat eine EKQuote von 24%, ergibt im Mittel eine EK-Quote von 25%.
Alternativ lässt sich die durchschnittliche Eigenkapitalquote auch über das
harmonische Mittel berechnen mit f1 und f2 die Eigenkapitalmenge in jedem der beiden Unternehmen.
HM =
f1 + f 2 + ... f m
40 + 60
=
= 0,25
f1 f 2
f
40
60
+ + ... + m
+
x1 x2
xm 0,267 0,24
6.2 Beziehungszahlen
Definition: Eine Beziehungszahl ist ein Quotient von zwei verschiedenartigen Größen, die in einem sachlogischen Zusammenhang stehen.
Beziehungszahlen ermöglichen Vergleich von verschiedenen Gesamtheiten.
Beziehungszahlen stellen oft eine Merkmalswertsumme (Alkoholkonsum) der zugehörigen Anzahl der Merkmalsträger (Zahl der Einwohner) gegenüber, so dass
die Beziehungszahl „Alkohol pro Kopf“ einen Durchschnittswert der Trinkgewohnheiten angibt und dem arithmetischen Mittel entspricht.
Aussage von Beziehungszahlen in Form von Pro-Kopf-Messungen häufig fragwürdig, wenn kein enger sachlogischer Zusammenhang zwischen den beiden betrachteten Größen besteht (Kinder, die i.d.R. keinen Alkohol konsumieren, gehören trotzdem zu den Einwohnern.).
73
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiele:
Verschuldungsgrad =
Fremdkapital
⋅ 100
Eigenkapital
Eigenkapitalrendite =
Gewinn
⋅ 100
Eigenkapital
Zahl der Einwohner
⋅ 100
Fläche in km 2
Einwohnerdichte =
6.3 Messzahlen
Definition: Eine Messzahl ist ein Quotient aus zwei sachlich gleichen, jedoch zeitlich
unterschiedlichen Größen.
Messzahl =
Wert Berichtszeit
⋅ 100
Wert Basiszeit
Messzahlen dienen alleine Vergleichszwecken.
Messzahlen sind wichtig zur Beschreibung der zeitlichen Entwicklung
von Preisen, Mengen, Umsätzen usw.
Manchmal wird der Faktor „100“ weggelassen.
Beispiel:
Benzinpreis pro Liter im Januar (Basiszeit): 0,86 €.
Benzinpreis pro Liter im April (Bezugszeit): 0,98 €.
Messzahl=
0,98
100 = 113,95 . Der neue Preis beträgt das 1,14-fache bzw.
0,86
114% des alten Preises.
Beispiel:
Wein-Preis-Entwicklung
Jahr
2000
2001
2002
2003
2004
Preis Burgunder
5,20
5,80
6,20
5,90
6,50
11,5
6,9
-4,8
10,2
111,5
119,2
113,5
125,0
11,5
6,9
-4,8
10,2
Preisänderung zum Vorjahr in %
Preis-Messzahl Burgunder
Preis-Messzahländerung zum
Vorjahr in %
100,0
74
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Wachstumsfaktor zum Vorjahr
1,115
1,069
0,952
1,102
Basisperiode ist das Jahr 2000.
Achtung: Die Wahl des Basisjahres beeinflusst die Messzahlen!
Veränderung in Prozent zum Vorjahr:
 Messzahl Jahr − MesszahlVorjahr


MesszahlVorjahr




 ⋅100 =  Messzahl Jahr − 1100 = Veränderung in Prozent

 Messzahl

Vorjahr



 119,2 
− 1100 = 6,9%

 111,5 
Beispiel:
Differenz der Messzahlen:
gibt die Änderung in Prozentpunkten an.
Beispiel: 119,2-111,5=7,7 Prozent-Punkte. Der Burgunderpreis ist von 2001 zu
2002 um 7,7 Prozent-Punkte gestiegen. (beachte: er ist jedoch um 6,9 Prozent (=
6,20 − 5,80
100 ) gestiegen.
5,80
Achtung:
Häufig werden die Prozent-Punkte als Differenz von zwei
Messzahlen bereits als die Änderung in Prozent angesehen (Beispiel: Die
Arbeitslosenquote ist von 9,8% auf 9,3% gesunken heißt nicht, dass sie um
0,5% gesunken ist, sondern um 0,5 Prozent-Punkte!)
Umrechnung Prozentpunkt in Prozent:
Messzahl Jahr − MesszahlVorjahr
MesszahlVorjahr
Beispiel:
100 =
Prozent − Punkt
100
MesszahlVorjahr
7 ,7
100 = 6,9%
111,5
Wachstumsfaktor zum Vorjahr:
Wachstumsfaktor =
Beispiel:
Wert Jahr
Messzahl Jahr
=
WertVorjahr MesszahlVorjahr
6,20 119,2
=
= 1,069
5,80 111,5
75
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Mittelwert von Messzahlen:
Geometrisches Mittel der Wachstumsfaktoren-1
GM = n x1 ⋅ x2 ⋅ ...xn = 4 1,115 ⋅1,069 ⋅ 0,952 ⋅1,102 = 4 1,25 = 1,057 . Jährliches Durchschnittswachstum 5,7%
oder
n
Endwert
6,50
−1 = 4
− 1 = 1,057 − 1 . Jährliches Durchschnittswachstum 5,7%.
Startwert
5,20
7 Indexzahlen (Indizes)
Messzahlen beschreiben die relative Veränderung einer Größe
Indexzahlen sind die Zusammenfassung mehrerer Messzahlen (z.B. Lebenshaltungskosten als Kosten für einen bestimmten Warenkorb)
Definition: Eine Indexzahl beschreibt die durchschnittliche relative Veränderung mehrerer Messzahlen durch eine einzige Zahl. Die Messzahlen werden mit einem Gewicht versehen und zusammengefasst. Indexzahlen dienen der Beschreibung zeitlicher Entwicklungen.
7.1 Preisindizes
Beschreiben, um wie viel Prozent sich die Preise mehrerer Güter in dem Berichtsjahr gegenüber dem Basisjahr verändert haben
Symbol P0i =Preisindex für Berichtsjahr i gegenüber Basisjahr 0.
Auswahlentscheid, welche Güter in Index aufgenommen werden sollen.
Entscheidung über Gewichtung der Güter anhand der relativen Bedeutung der Güter.
Konstanz der Gewichtung bzw. der Bedeutung der Güter im Zeitablauf?
Berechnung: Preismesszahl des Gutes j
p ij
w j mit wj das Gewicht des Gutes j.
p 0j
Multiplikation mit 100, damit man eine Prozentzahl erhält.
n
∑
Preisindex P0i =
j =1
pi j
wj
p0j
n
∑w
j =1
100
j
j=Laufindex der Güter, i Jahreszahl des Berichtsjahres, 0=Basisjahr
76
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
p 0j = Preis des Gutes j in der Basiszeit 0.
p1j = Preis des Gutes j in der Berichtszeit 1.
q0j = Menge des Gutes j in der Basiszeit 0.
q1j = Menge des Gutes j in der Basiszeit 1.
7.1.1 Preisindex nach Laspeyres
Laspeyres (1834-1913)
Wird in der Praxis fast durchgehend verwendet.
Laspeyres gewichtet die Preise mit dem Warenkorb des Basisjahres w j = p0j q0j in
den verschiedenen Berichtsjahren.´
P0iLaspeyres = 112 bedeutet, dass der Warenkorb des Basisjahres im Berichtsjahr 12
% mehr kostet als im Basisjahr.
P0iLaspeyres =Preisindex nach Laspeyres aus dem Berichtsjahr i mit dem Basisjahr 0
n
∑p
Formel:
P0iLaspeyres =
j =1
n
∑p
j =1
j
i
q0
j
100 =
j
0
q0
j
Summe aktueller Preis ⋅ alte Menge
100
Summe alter Preis ⋅ alte Menge
Zur besseren Übersichtlichkeit werden im weiteren die hochgestellten Laufindizes j für alle Güter weggelassen.
Beispiel:
Konsumgewohnheiten von Studierenden.
Januar
p1
Februar
q1
März
p2
q2
p3
q3
Bücher 20[€/Stück] 1[Stück]
22
2
23
1
Brot
2[€/kg]
5[kg]
2,5
6
2,6
5
Bier
1[€/L]
30[L]
1,1
25
1,5
40
77
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Preisindex nach Laspeyres für die Berichtsmonate Februar und März zum Basismonat
Januar
PJan , Feb , Laspeyres =
=
Kosten des Warenkorbes Jan. im Monat Feb.
100 =
Kosten des Warenkorbes Jan. im Monat Jan.
∑p
∑p
Feb
q Jan
Jan
q Jan
100
22 ⋅ 1 + 2,5 ⋅ 5 + 1,1 ⋅ 30
67,5
100 =
100 = 112,5
20 ⋅ 1 + 2 ⋅ 5 + 1 ⋅ 30
20 + 10 + 30
Die Preise im Februar sind gegenüber Januar um durchschnittlich 12,5% gestiegen.
P1,3 Laspeyres =
=
Kosten des Warenkorbes Jan. im Monat März
100 =
Kosten des Warenkorbes Jan. im Monat Jan.
∑p q
∑pq
3 1
100
1 1
23 ⋅ 1 + 2,6 ⋅ 5 + 1,5 ⋅ 30
81
100 =
100 = 135
20 ⋅ 1 + 2 ⋅ 5 + 1 ⋅ 30
20 + 10 + 30
Die Preise im März sind gegenüber Januar um durchschnittlich 35% gestiegen.
Differenz der Indexzahlen:
Prozent-Punkte
gibt die relative Preisveränderung in Prozentpunkten an:
P13 Laspeyres − P12 Laspeyres = 135-112,5=22,5 Prozent-Punkte. Die Preise im März sind
gegenüber dem Februar um 22,5 Prozent-Punkte gestiegen.
Umrechnung von Prozentpunkten in Prozent, indem Prozent-Punkte durch IndexzahlALT geteilt werden:
22,5
100 = 20%.
112,5
Quotient der Indexzahlen:
gibt relative Preisveränderung direkt als Prozentzahl an:
135
100 = 120 , d.h. die
112,5
Preise sind von Februar auf März sind um 20% gestiegen.
Beurteilung:
Warenkorb des Basisjahres hat Vorteil, dass Gewichte nicht mit jedem Jahr neu
berechnet werden müssen!
Ermöglicht Vergleich von Indizes aus unterschiedlichen Berichtsjahren, ohne dass
der Preisvergleich durch Mengenveränderungen verzerrt wird.
Unterstellt Konstanz der Verbrauchsstruktur!
Substitutionseffekte zwischen den Gütern werden nicht berücksichtigt, so dass bei
großer Preiselastizität der Nachfrage (Konsumenten wechseln von einem Gut sehr
schnell zu einem billigeren, wenn ersteres zu teuer wird) der Lasypeyeres-Index
die Preisentwicklung überzeichnet und eine zu starke Inflation vorhersagt.
78
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Neues Basisjahr, wenn sich Verbrauchsstruktur stark verändert hat, führt zu Ende
einer Indexzahlenreihe (allerdings: siehe 6.5 Verknüpfung von Indexzahlen möglich).
7.1.2 Preisindex nach Paasche
Paasche (1851-1925)
Paasche gewichtet die Preise mit dem Warenkorb des Berichtsjahres
w j = p0j qij in den verschiedenen Berichtsjahren.
P0iPaasche = 112 bedeutet, dass sich die Ausgaben für den Warenkorb im Berichtsjahr zwischen Basisjahr und Berichtsjahr um 12 % erhöht haben.
n
∑pq
P0iPaasche =
j =1
n
i
∑pq
j =1
Beispiel:
i
100 =
Summe aktueller Preis ⋅ aktuelle Menge
100
Summe alter Preis ⋅ aktuelle Menge
0 i
Konsumgewohnheiten von Studierenden.
Januar
p1
P1,3 Paasche =
=
Februar
q1
März
p2
q2
p3
q3
Bücher 20[€/Stück] 1[Stück]
22
2
23
1
Brot
2[€/kg]
5[kg]
2,5
6
2,6
5
Bier
1[€/L]
30[L]
1,1
25
1,5
40
Kosten des Warenkorbes März im Monat März
100 =
Kosten des Warenkorbes März im Monat Jan.
∑p q
∑pq
3
3
100
1 3
23 ⋅ 1 + 2,6 ⋅ 5 + 1,5 ⋅ 40
23 + 13 + 60
100 =
100 = 137,14
20 ⋅ 1 + 2 ⋅ 5 + 1 ⋅ 40
70
79
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Die Preise im März sind gegenüber Januar um 37% gestiegen17.
P2,3 Paasche =
=
Kosten des Warenkorbes März im Monat März
100 =
Kosten des Warenkorbes März im Monat Feb.
∑p q
∑p q
3
3
2
3
100
23 ⋅ 1 + 2,6 ⋅ 5 + 1,5 ⋅ 40
23 + 13 + 60
100 =
100 = 122,29
22 ⋅ 1 + 2,5 ⋅ 5 + 1,1 ⋅ 40
78,5
Die Preise im März sind gegenüber Februar um 22% gestiegen.
Beurteilung:
Wegen Warenkorb des Berichtsjahres werden Veränderungen der Verbrauchsgewohnheiten sofort erfasst, d.h. Substitutionseffekte von teuren zu preiswerten Gütern werden sofort erfasst. Ein starker Preisanstieg eines Gutes wird im Index dann
nur abgeschwächt erfasst, wenn die Konsumenten dieses verteuerte Gut nicht
mehr so stark nachfragen, sondern stattdessen das teurere durch ein billigeres ersetzten.
Sehr aufwendig, ständig einen aktuellen Warenkorb zu erfassen.
Es können durchgehende Indexzahlenreihen erstellt werden, da keine Aktualisierung eines nicht mehr aktuellen Basisjahres nötig ist.
Ein Vergleich von Indexzahlen aus verschiedenen Berichtsjahren ist wegen der
unterschiedlichen Gewichtung nicht zulässig!
7.2 Mengenindizes
Beschreiben durchschnittliche relative Mengenentwicklung mehrerer Güter in der
Berichtszeit gegenüber der Basiszeit
Beispiele sind Index des tariflichen Wochenlohns, Index der Einfuhr von Investitionsgütern
Ausgangsformeln für Mengenindizes analog zu denen der Preisindizes.
Wie bei den Preisindizes gibt es Mengenindizes nach Laspeyres und nach Paasche
(vgl. z.B. Bourier S 136-138, Zöfel S. 236).
7.3 Umsatzindizes
Definition: Der Umsatzindex beschreibt, um wie viel Prozent sich die Umsätze im Berichtsjahr gegenüber dem Basisjahr verändert haben.
17
Beim Laspeyres-Index ergab sich eine Preiserhöhung um 35%.
80
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Es interessieren jetzt Veränderungen von Preis und Menge gleichzeitig.
Der Umsatzindex wird aus gewichteten Umsatz-Messzahlen berechnet.
n
∑q p
U 0i =
i
100 =
n
∑q
j =1
Beispiel:
i
j =1
0
p0
Summe aktuelle Umsätze
100
Summe alte Umsätze
Konsumgewohnheiten von Studierenden.
Januar
p1 q1
Februar
Umsatz 1
p2 q2
Umsatz 2
März
p3 q3 Umsatz 3
Bücher 20 1
20
22
2
44
23 1
23
Brot
2
5
10
2,5 6
15
2,6 5
13
Bier
1 30
30
1,1 25
27,5
1,5 40
60
U 12 =
44 + 15 + 27,5
86,5
100 =
100 = 144,16
20 + 10 + 30
60
Der Umsatz von Januar auf Februar ist um 44,16% gestiegen.
U 13 =
23 + 13 + 60
96
100 = 100 = 160
20 + 10 + 30
60
Der Umsatz von Januar auf März ist um 60% gestiegen. Die Preise sind zwar nur um
35% bzw. 37% gestiegen, aber die Biermenge hat um 10 L zugenommen!
7.4 Umbasierung
Definition: Umrechnung einer Indexzahlenreihe von einem alten Basisjahr zu einem
neuen Basisjahr.
IndexNeueBasis;i =
IndexAlteBasis;i
IndexAlteBasis;NeueBasis
100
81
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Wird verwendet, um mehrere Indexzahlenreihen mit unterschiedlichen
Basisjahren aneinander anzuschließen.
Umbasieren ist nur rechentechnischer Vorgang (Dreisatz), für die umbasierten Preisindizes gilt nach wie vor das Mengengerüst aus dem alten
Basisjahr.
Beispiel:
Preisentwicklung in Deutschland
1995
Preisindex
Westdeutschland
(1995=100)
Deutschland (2000=100)
Veränderungen gegen
Vorjahr in %
Westdeutschland
Deutschland
Umbasierung
Westdeutschland
(2000=100)
Probe: Veränderungen
gegen Vorjahr in %
Westdeutschland
1996
1997
1998
1999
2000
2001
2002
2003
2004
100,00 102,30 103,40 104,00 105,20
106,00
107,10
108,50
109,80
111,00
-
-
-
-
-
100,00
103,00
104,50
105,20
106,00
-
2,300
-
1,075
-
0,580
-
1,154
-
0,760
-
1,038
3,000
1,307
1,456
1,198
0,670
1,093
0,760
94,340 96,509 97,547 98,113 99,245 100,000 101,038 102,358 103,585 104,717
Index 2000;2002 =
Index 2000;2004 =
2,300
1,075
Index1995;2002
Index1995;2000
Index1995;2004
Index1995;2000
0,580
1,154
0,760
100 =
108,5
100 = 102,4
106
100 =
111
100 = 104,7
106
1,038
1,307
1,198
1,093
7.5 Verknüpfung
-
-
-
Aktualisierung des Gewichtungsschemas bei zu alten Basisjahren nötig.
Grund: Technischer Fortschritt, Preisveränderungen, Änderungen der Konsumentenpräferenzen führen zu Veränderungen des Kaufverhaltens.
Aktualisierung der Gewichte führt zu Bruch in der Reihe der Indexzahlen.
Bei der Verknüpfung von zwei Indexzahlenreihen mit unterschiedlichen Basisjahren entsteht eine einzige neue Reihe.
Überlappung an mindestens einem Zeitpunkt nötig.
82
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
-
-
Fortführung der alten Reihe: Annahme, dass Warenkorb aus altem Basisjahr noch
immer gilt.
Rückrechnung der neuen Reihe: Annahme, dass aktualisierter Warenkorb auch in
den Jahren vor dem Basisjahr gilt.
Beispiel:
1995=100
2000=100
1995=100
2000=100
1995
100
93,5
Preisindex für die Lebenshaltung privater Haushalte
1996 1997 1998 1999 2000 2001 2002 2003 2004
101,3 103,2 104,1 104,8 106,9 109,14 110,21 110,96 111,82
94,8
96,5
97,4
98,0
100 102,1 103,1 103,8 104,6
Veränderung gegenüber dem Vorjahr in Prozent
1,30
1,88
0,87
0,67
2,00
2,10
1,30
1,88
0,87
0,67
2,00
2,10
0,98
0,98
0,68
0,68
0,77
0,77
Fortführung der alten Indexreihe:
Index AlteBasis ;i =
Beispiel:
Index1995;2002 =
Index AlteBasis ; NeueBasis
100
Index1995;2000
100
Index 2000;2002 =
Index NeueBasis ;i
106,9
103,1 = 110,21
100
Rückrechnung der neuen Indexreihe:
Index NeueBasis;i =
Beispiel:
Index 2000;1996 =
100
Index AlteBasis ; NeueBasis
Index AlteBasis ;i
100
100
Index1995;1996 =
101,3 = 94,76
Index1995;2000
106,9
7.6 Preisbereinigung
Nominelle Wertgrößezum Zeitpunkt t = Mengezum Zeitpunkt t ⋅ Preiszum Zeitpunkt t
83
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiele: Umsatz, Bruttoinlandsprodukt, Einkommen
Reale Wertgrößezum Zeitpunkt t =⋅ Mengezum Zeitpunkt t ⋅ Preiszu einem anderen vergangenen Zeitpunkt
Beispiele: realer Umsatz, reales BIP, reales Einkommen
-
Aus der nominellen Wertgröße wird der Teil herausgerechnet, der auf Preisveränderungen zurück zu führen ist.
-
Bei zwischenzeitlichen Preiserhöhungen: Deflationierung
-
Bei zwischenzeitlichen Preissenkungen: Inflationierung
Realer Wert =
Beispiel:
nomineller Wert
100
Preisindex
Umsatzentwicklung eines Einzelhändlers
Umsatzentwicklung eines Einzelhändlers
2000
Umsatz
2001
2002
2003
2004
20.000 24.000 25.000 24.500 25.500
Umsatzindex
100,0 120,0 125,0 122,5 127,5
PLaspeyres;2000;i (Quelle: Stat. Bundesamt)
100,0 102,2 103,5 104,1 105,5
Realer Umsatz 2003=
nomineller Umsatz
24.500
100 =
100 = 23.535,06
PLaspeyres2000;2003
104,1
Der reale Umsatz (mengenmäßiger Mehrabsatz) seit 2000 ist um 3.535,06€ gestiegen (+17,68%).
Der nominelle Umsatz ist um 4.500€ gestiegen.
Die Preissteigerung betrug seit 2000 4,1%. Diese erhöhte den Umsatz um
4.500-3.535,06=964,94€.
84
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Realer Umsatzindex 2003=
nomineller Umsatzindex
122,5
100 =
100 = 117,68
PLaspeyres2000;2003
104,1
Der reale Umsatz (mengenmäßiger Mehrabsatz) ist (wie bereits berechnet) um
17,68% gestiegen.
7.7 Preisindizes für die Lebenshaltung (Verbrauchspreisindizes)
geben an, wie stark sich die Lebenshaltungskosten der Haushalte verteuert haben
(zur Zeit 11 verschiedene Preisindizes für Lebenshaltung, seit 1997 harmonisierter
Verbraucherpreisindex zum interregionalen Vergleich innerhalb der EU-Länder.
Laspeyres-Index (konstantes Basisjahr): Annahme der konstanten Verbrauchsgewohnheiten
Haushaltsbefragungen zur Erstellung eines Warenkorbes, in dem die Waren konstante Gewichte haben.
Gewicht einer Ware gibt an, welchen Anteil die Ausgaben für diese Ware an den
Ausgaben für alle Waren haben (z.B. Nahrungsmittel und alkoholfreie Getränke:
13,13%, Wohnung und Nebenkosten (27,48%), Freizeit und Kultur (10,36%)
Preise der Waren werden zur Monatsmitte in 190 Berichtsgemeinden in Deutschland erhoben.
7.8 Kaufkraftparität
-
Zum interregionalen Vergleich von Preisniveauunterschieden.
-
Laspeyres-Index
-
Kaufkraftmessung, indem die Kosten eines Warenkorbes in der Berichtsregion
(Ausland) denen der Basisregion (Inland) gegenübergestellt werden.
Formel:
PIn, Aus =
∑p
∑p
Aus
In
q In
q In
85
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel: Austauschstudent Klaus Ur in Dublin
Ware
Bücher [Stück]
Brot [Kg]
Bier [L]
Wein [L]
Menge
5
10
15
6
Preis in BO
20
3
1,1
5
Preis in Dublin
18
2,5
1,8
3
Formel:
PBO , Dublin =
Kosten Warenkorb BO in Dublin 18 ⋅ 5 + 2,5 ⋅ 10 + 1,8 ⋅ 15 + 3 ⋅ 6 160
=
=
= 0,9065
Kosten Warenkorb BO in BO
20 ⋅ 5 + 3 ⋅ 10 + 1,1 ⋅ 15 + 5 ⋅ 6 176,5
Interpretation:
-
-
-
Ausgaben für Güter in Höhe von 1 € in Bochum entsprechen Ausgaben in Höhe von 0,91 € in Dublin (weil der Wein dort so billig ist!)
Derselbe Warenkorb kostet in Dublin 160 €, während er in Bochum 176,5 €
kostet.
Die Kaufkraft eines € in Dublin beträgt 1,10 €(=176,5/160). Der Kaufkraftgewinn des Austauschstudenten Klaus Ur beträgt 10%.
8 Zeitreihenanalyse
8.1 Aufgabe und Ziele
Definition Zeitreihe: Eine Zeitreihe ist eine geordnete Folge von Merkmalswerten
Struktur und Gesetzmäßigkeiten einer Zeitreihe identifizieren
Einflussgrößen, die auf Zeitreihe einwirken, identifizieren
Kenntnis davon hilft, eine Zeitreihe richtig fortzuschreiben
8.2 Komponenten der Zeitreihe
Trend:
beschreibt die langfristige Grundrichtung der Zeitreihe
dauerhaft wirksame Einflüsse verantwortlich
86
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
ändert sich nur sehr langsam
periodische Schwankungen:
regelmäßig wiederkehrende Schwankungen um den Trend
Witterungseinflüsse oder institutionelle Einflüsse
Mehrjährige Schwankungen schlecht von Trend unterscheidbar
Glatte Komponente = Trend + Periode
Restkomponente:
Unbekannte Einflussgrößen, die wiederholt aber unregelmäßig auf die Zeitreihe einwirken
Meist von untergeordneter Bedeutung
130
120
110
100
Umsatz
90
Trend
Periode
80
Rest
70
60
50
40
1
2
3
4
5
6
7
8
9
10
11
12
87
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Verknüpfung der Komponenten:
Additive Verknüpfung, wenn Komponenten unabhängig voneinander wirken:
yi=Ti+Si+Ri
Bei additiver Verknüpfung z.B. zu jedem Trendwert einen konstanten Betrag dazu
addieren.
Multiplikative Verknüpfung, wenn sich die Komponenten gegenseitig beeinflussen, z.B. verstärken oder abschwächen.
yi=Ti*Si*Ri
Bei multiplikativer Verknüpfung´z.B. zu jedem Trendwert eine bestimmten Prozentsatz hinzufügen.
8.2 Methoden der Trendermittlung
Ziel: Schwankungen, die den Trend überlagern, eliminieren.
Methode der gleitenden Durchschnitte:
Glättung der Zeitreihe, indem auf dem Weg der Durchschnittsbildung besonders
hohe und besonders niedrige Werte abgesenkt oder angehoben werden.
Bestimmung der Anzahl k, aus der die Durchschnitte berechnet werden, schwierig.
Ungerades vs. gerades k?
Großes oder kleines k?
1
2
3
4
5
6
7
8
9
10
11
12
Umsatz
100
110
115
80
70
60
70
90
100
110
120
110
k=3
108,33
101,67
88,33
70,00
66,67
73,33
86,67
100,00
110,00
113,33
k=4
k=5
95,00
87,00
79,00
74,00
78,00
86,00
98,00
106,00
88
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
130
120
110
100
Umsatz
k=3
90
k=5
80
70
60
50
0
2
4
6
8
10
12
14
Methode der kleinsten Quadrate:
1. Schritt:
Bestimmung des Funktionstyps (z.B. linear, Exponentialfunktion, Potenzfunktion)
2. Schritt:
Schätzung der Parameter derart, dass die Streuung der Zeitreihenwerte um
die Trendlinie möglichst klein ausfällt.
Linearer Trendverlauf: yˆ = a + b ⋅ x
mit
n
b=
∑ ( x − x )( y
i
i =1
i
n
∑ (x − x)
i =1
mit s xy =
i
− y)
oder b =
2
s xy
s xx
1 n
1 n
( xi − x ) ⋅ ( yi − y ) und s xx =
( xi − x ) 2
∑
∑
n − 1 i=1
n − 1 i =1
89
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
n
Der Ordinatenabschnitt a errechnet sich als: a =
Mittelwert
t
Umsatz
x-xquer
1
100
-5,5
2
110
-4,5
3
115
-3,5
4
80
-2,5
5
70
-1,5
6
60
-0,5
7
70
0,5
8
90
1,5
9
100
2,5
10
110
3,5
11
120
4,5
12
110
5,5
6,5
94,58
Steigung b Achsenabschnitt a
1,17
86,97
∑y
i =1
n
i
− b∑ xi
i =1
n
y-yquer
5,42
15,42
20,42
-14,58
-24,58
-34,58
-24,58
-4,58
5,42
15,42
25,42
15,42
= y −b⋅x
(x-xquer)^2 (x-xquer)*(y-yquer) Trend-Umsatz
30,25
-29,79
88,14
20,25
-69,38
89,31
12,25
-71,46
90,48
6,25
36,46
91,66
2,25
36,88
92,83
0,25
17,29
94,00
0,25
-12,29
95,17
2,25
-6,87
96,34
6,25
13,54
97,51
12,25
53,96
98,68
20,25
114,38
99,85
30,25
84,79
101,03
143
167,5
130
120
110
100
Umsatz
90
Trend-Umsatz
80
70
60
50
0
2
4
6
8
10
12
14
Nichtlinearer Trendverlauf
Exponentialfunktion yˆ = a + b x
Nach Logarithmieren: ln yˆ = ln a + x ⋅ ln b
90
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
Beispiel: Arbeitsunfälle
Jahr xi
1
2
3
4
5
6
Unfälle yi
980
650
380
260
145
90
ln(a)
7,406
ln(b)
-0,481
a=exp(ln(a))
1645,08
b=exp(ln(b))
0,62
ln(yi)
6,89
6,48
5,94
5,56
4,98
4,50
Geschätzte Funktion
1017,40
629,21
389,13
yi=1645,08*0,62^xi
240,66
148,84
92,05
yˆ = 1645,08 + 0,62 x
91
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
1000
900
800
700
600
Unfälle yi
Geschätzte Funktion
500
400
300
200
100
0
1
2
3
4
5
6
7
Potenzfunktion yˆ = a ⋅ x b
Nach Logarithmieren: ln yˆ = ln a + b ⋅ ln x
Beispiel: Beschäftigungsentwicklung
92
Deskriptive Statistik
Prof. Dr. Waike Moos
FB Wirtschaft
xi
1
2
3
4
5
6
yi
205
230
245
252
270
285
ln(xi)
0,00
0,69
1,10
1,39
1,61
1,79
ln(a)
5,32
b
0,175
ln(yi)
5,32
5,44
5,50
5,53
5,60
5,65
Geschätzte Funktion
203,42
229,65 yi=203,42*xi^0,175
246,53
259,25
269,57
278,31
a=exp(ln(a))
203,42
yˆ = 203,42 ⋅ x 0,175
300
280
260
yi
Geschätzte Funktion
240
220
200
0
1
2
3
4
5
6
7
93
Prof. Dr. Waike Moos
FB Wirtschaft
Deskriptive Statistik
Weiterführende Literatur zur Vertiefung
Ein thematisch ausführliches, jedoch im Text eher knapp gehaltenes Buch:
Bleymüller, Josef; Gehlert, Günther und Herbert Gülicher: Statistik für Wirtschaftswissenschaftler, WiSt Studienkurs, Verlag Vahlen, 13. Auflage 2002
Ein ausführliches und leicht zu lesendes Buch mit vielen Beispielen:
Bourier, Günther: Beschreibende Statistik, Gabler Verlag, 4. Auflage 2001
Beleuchtet auf unterhaltsame Weise die Gefahren, die aus der falschen Verwendung von Statistiken resultieren:
Krämer, Wolfgang: So lügt man mit Statistik, Verlag Piper.
Ein leicht verständliches, übersichtlich gehaltenes Buch:
Zöfel, Peter: Statistik, Statistik für Wirtschaftswissenschaftler, Pearson Studium, 2003.
Ein umfangreiches und leicht verständliches Buch:
Zwerenz, Karlheinz: Statistik, Datenanalyse mit EXCEL und SPSS, Oldenbourg Verlag, 2. Auflage 2001.
94
Herunterladen