Statistik I für Betriebswirte Vorlesung 9

Werbung
Statistik I für Betriebswirte
Vorlesung 9
Dr. Andreas Wünsche
TU Bergakademie Freiberg
Institut für Stochastik
Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001)
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
1
2.2 Eindimensionale Merkmale
2.2.1 Häufigkeitsverteilungen
I
Eine Stichprobe vom Umfang n sei erhoben und die Variable X (das
Merkmal X ) sei beobachtet worden.
I
Urliste (Rohdaten, beobachtete Stichprobe): Liste, in der die
erhobenen Beobachtungswerte von X nacheinander aufgeschrieben
werden; Bezeichnung: x1 , ..., xn .
I
a1 , ..., ak : Merkmalsausprägungen, die in der Urliste vorkommen;
k ≤ n.
I
Absolute Häufigkeit der Ausprägung ai : Hi = H(ai ) beschreibt, wie
oft die Ausprägung ai bei den n Beobachtungen vorkommt.
I
Relative Häufigkeit der Ausprägung ai : hi = h(ai ) = Hni entspricht
dem Anteil der Ausprägung ai bezogen auf die n Beobachtungen.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
2
Beispiel 2.1 Prüfungsnoten – Urliste
Person
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Note
4
3
3
1
5
4
5
3
1
5
5
2
3
5
3
Dr. Andreas Wünsche
Person
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Note
3
2
5
3
4
4
5
4
5
5
5
3
4
5
4
Person
31
32
33
34
35
36
37
38
39
40
51
42
43
44
45
Note
4
1
4
2
3
5
5
4
3
4
4
4
3
3
5
Statistik I für Betriebswirte Vorlesung 9
Person
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Version: 6. Juni 2017
Note
1
2
4
5
3
5
4
5
2
2
3
5
4
4
3
Fortsetzung Beispiel 2.1
Note (ai )
abs H. (Hi )
rel. H. (hi )
Dr. Andreas Wünsche
1
4
0.068
2
6
0.102
3
14
0.237
4
17
0.288
Statistik I für Betriebswirte Vorlesung 9
5
18
0.305
Version: 6. Juni 2017
4
Beispiel 2.2 Mieten
Merkmal: Mieten (2013) für zufällig ausgewählte Einraumwohnungen in
Berlin Mitte in Euro Quelle: Eckstein, Statistik für Wirtschaftswissenschaftler, 5. Auflage 2016, Springer
Urliste für n = 45 Wohnungen:
219
275
163 299
272
243
310 324
334.1 150
321 322
385
292.2 360 341
402.1 351
408 501.4
Dr. Andreas Wünsche
268
280
307
418
509.5
282
285
300
340.3
670
Statistik I für Betriebswirte Vorlesung 9
283.1
329
238
275
926.1
195.4
227
322.5
286
910
Version: 6. Juni 2017
327.7
265.6
332.3
365
1087
5
Klassenbildung
I
Bei Erstellung einer Häufigkeitsverteilung ist es oft sinnvoll oder
sogar nötig, die Informationen aus der Urliste zu straffen, falls
I
I
I
I
die Anzahl der Merkmalsausprägungen k zu groß ist,
und/oder ein stetiges Merkmal vorliegt.
Ausweg: Klassenbildung:
Benachbarte Merkmalsausprägungen werden zu einer Klasse oder
Gruppe zusammen gefasst. In der gruppierten Häufigkeitsverteilung
erscheinen nur noch die Gruppen mit der Häufigkeit aller
Ausprägungen in der Gruppe.
Bei der Klassenbildung ist zu beachten:
I
I
I
Merkmalsausprägungen möglichst gleichmäßig auf die Klassen
verteilen (möglichst gleiche Klassenbreite);
keine Überschneidungen der Klassen;
Klassen müssen vollständig sein.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
6
Häufigkeitstabelle für gruppierte (klassierte) Daten
Beispiel 2.2 Mieten
Häufigkeitstabellen für Miete
Untere
Obere
Klasse Grenze
Grenze
Mittelpunkt
Häufigkeit
bei oder
unterhalb
0
0
1
0
100,0
50,0
0
2
100
200,0
150,0
3
3
200
300,0
250,0
17
4
300
400,0
350,0
16
5
400
500,0
450,0
3
6
500
600,0
550,0
2
7
600
700,0
650,0
1
8
700
800,0
750,0
0
9
800
900,0
850,0
0
10
900
1000,0
950,0
2
11
1000
1100,0
1050,0
1
oberhalb
1100
0
Mittelwert = 362,273 Standardabweichungen = 188,907
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Relative
Häufigkeit
0,0000
0,0000
0,0667
0,3778
0,3556
0,0667
0,0444
0,0222
0,0000
0,0000
0,0444
0,0222
0,0000
Kumulative Kum. Rel.
Häufigkeit Häufigkeit
0
0
3
20
36
39
41
42
42
42
44
45
45
Version: 6. Juni 2017
0,0000
0,0000
0,0667
0,4444
0,8000
0,8667
0,9111
0,9333
0,9333
0,9333
0,9778
1,0000
1,0000
7
2.2.2 Grafiken für univariate stetige Daten
(a) Histogramm
I
Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.
I
Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, in
eine endliche Anzahl disjunkter Teilintervalle, die sogenannten
Klassen oder Gruppen zerlegt. Jede Klasse ist dann eindeutig durch
die Klassenmitte und die Klassenbreite bzw. durch die untere und
obere Klassengrenze bestimmt.
I
Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.
I
Die Klassenbreiten sollten übereinstimmen (ggf. mit Ausnahme der
Randklassen).
I
Nach Festlegung einer Klasseneinteilung werden die absoluten
Klassenhäufigkeiten (Anzahl der Werte in der Klasse) bestimmt.
I
Dann werden in einem Koordinatensystem aneinanderstoßende
Rechtecke mit Flächeninhalten proportional zur
Klassenhäufigkeit und Klassenintervallen als Basis gezeichnet.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
8
Histogramm im Beispiel 2.2
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
9
Bemerkungen zu Histogrammen
I
Die Gestalt eines Histogramms hängt stark von der gewählten
Klasseneinteilung (und auch des gewählten Gesamtintervalls) ab,
deshalb sollte man ggf. etwas experimentieren, um ein möglichst
aussagekräftiges Histogramm zu erzeugen.
I
Durch die Klasseneinteilung geht Information verloren.
I
Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.
I
Man kann eventuell Verteilungseigenschaften, wie Symmetrie oder
Schiefe, erkennen (oder erahnen).
I
Bei übereinstimmenden Klassenbreiten sind die Höhen der Rechtecke
proportional zu den Häufigkeiten.
I
Statt der absoluten Häufigkeiten können die Höhen der Rechtecke
auch so normiert werden, dass der Gesamtflächeninhalt unter allen
Rechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer)
Vergleich mit einer Verteilungsdichte möglich.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
10
(b) Box-Plot
Aussagekräftige graphische Darstellung der Fünfer-Charakteristik,
bestehend aus Median x̃, den empirischen Quartilen (Viertelwerten)
Vu , Vo und den Ausreißergrenzen Au , Ao .
Box-Plot im Beispiel 2.2:
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
11
2.2.3 Grafiken für univariate diskrete Daten
(a) Balkendiagramm
I
Bei Balkendiagrammen werden die Anzahlen der Beobachtungswerte
in den einzelnen Kategorien (Klassen) durch gleich breite Balken
flächen- und auch höhenproportional dargestellt.
I
Im Unterschied zum Histogramm für stetige Daten haben die Balken
beim Balkendiagramm einen Abstand, um den diskreten Charakter
der Daten zu unterstreichen.
I
Sowohl beim Histogramm als auch beim Balkendiagramm werden
aber Häufigkeiten oder Anteile flächenproportional dargestellt.
I
Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balken
der natürlichen Ordnung der Merkmalsausprägungen entsprechen.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
12
Balkendiagramm im Beispiel 2.1
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
13
(b) Kreisdiagramm
Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnen
Kategorien (Klassen) können ggf. auch durch ein Kreisdiagramm
(Tortendiagramm, Kuchendiagramm) flächenproportional (hier auch
winkelproportional) dargestellt werden.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
14
2.2.4 Statistische Kenngrößen
I
Lagemaße
(Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachteten
Merkmalswerte?)
I
Streumaße
(Über welchen Bereich erstrecken sich die Beobachtungen, wie stark
schwanken sie?)
I
Weitere statistische Kenngrößen
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
15
Lagemaße
i) Mittelwerte
(für quantitative Merkmale)
a) Arithmetisches Mittel:
n
1X
1
x=
xi = (x1 + x2 + . . . + xn ) .
n
n
i=1
I
I
219 + . . . + 1087
= 362.273 .
45
Auf Basis relativer Häufigkeiten:
Im Beispiel 2.2 Mieten:
x=
m
X
x=
hj aj = h1 a1 + h2 a2 + . . . + hm am
j=1
bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj .
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
16
Klassierte (gruppierte) Daten
Die Formel
x
=
=
m
X
hj aj = h1 a1 + h2 a2 + . . . + hm am
j=1
m
X
1
n
j=1
H j aj =
1
(H1 a1 + H2 a2 + . . . + Hm am )
n
kann auch für klassierte Daten verwendet werden zur näherungsweisen
Berechnung des arithmetischen Mittels mit aj , Klassenmitten.
Z.B. in Beispiel 2.2 gilt
x ≈ 363.333 =
3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050
.
45
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
17
Zusammenfassung von Mittelwerten
I
Für Mittelwerte aus Teilgesamtheiten gilt:
Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor und
kennt man die Stichprobenumfänge nj sowie die arithmetischen
Mittel x j pro Schicht, so lässt sich daraus das Gesamtmittel x
berechnen als
r
1X
x=
nj · x j .
n
j=1
I
Beispiel 2.3 (Quelle: Bleymüller et al, Statistik für Wirtschaftswissenschaftler, 14. Auflage)
Unternehmen mit Betrieben A und B
A: 400 Beschäftige mit Bruttodurchschnittsverdienst 1920.84 e
B: 300 Beschäftige mit Bruttodurchschnittsverdienst 2012.17 e
⇒ durchschnittlicher Bruttomonatsverdienst sämtlicher 700
Beschäftigten von A und B zusammen:
x=
Dr. Andreas Wünsche
400 · 1920.84 e + 300 · 2012.17 e
= 1959.98 e
700
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
18
b) Geometrisches Mittel
Definition:
xG =
√
n
x1 · x2 · . . . · xn
I
Voraussetzung:
xi > 0, i = 1, 2, . . . , n .
I
Berechnung über Häufigkeiten:
hm
x G = a1h1 · a2h2 · . . . · am
bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj .
I
Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren.
I
Zahlenbeispiel
Zeitpunkt
Kapital
Wachstumsfaktor
0
100
1
81
x1 = 0.81
2
100
x2 = 1.234
⇒ x G = 1.000
aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals).
I
Es gilt immer x G ≤ x .
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
19
ii) Empirische Quantile
I
Ordnen der Datenreihe x1 , x2 , . . . , xn ergibt geordnete Datenreihe
(geordnete Stichprobe, Variationsreihe)
xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .
I
Empirisches α-Quantil (0 < α < 1): Zahlenwert xα , so dass
α · 100% der Werte in der Variationsreihe links davon liegen:

falls nα keine ganze Zahl ist, k ist

 x(k)
dann die auf nα folgende ganze Zahl
xα =

 1
falls nα =: k eine ganze Zahl ist
2 x(k) + x(k+1)
(für quantitative Merkmale).
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
20
Empirischer Median, empirische Quartile
I
Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert der
geordneten Stichprobe)

 x( n+1 ) ,
falls n ungerade;
2
x̃ = xmed := x0.5 =
 1 x n +x n
2
(2)
( 2 +1) , falls n gerade.
I
Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 .
I
Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 .
I
Bemerkung: Der arithmetische Mittelwert x ist empfindlich
gegenüber Ausreißern, der Median x̃ weniger.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
21
iii) Empirischer Modalwert, Modus
I
xmod Wert mit der größten Häufigkeit in der Stichprobe.
I
Hängt bei klassierten Daten stark von der gewählten
Klasseneinteilung ab ⇒ Modalklasse.
I
Im Allgemeinen gilt
I
Auch verwendbar bei qualitativen Merkmalen.
I
Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl.
Dr. Andreas Wünsche
x 6= x̃ 6= xmod .
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
22
Streumaße (für metrisch skalierte Daten)
∆ = xmax − xmin .
I
Spannweite:
I
Quartilsabstand (Viertelweite):
I
Empirische Varianz (Stichprobenstreuung):
dQ = Vo − Vu .
n
1 X
1
s2 =
(xi − x)2 =
n−1
n−1
i=1
√
I
I
Empirische Standardabweichung:
s=
n
X
!
xi2 − nx 2
.
i=1
s2 .
s
· 100% (falls x > 0),
x
besitzt keine phys. Einheit, er ist für kleine Werte x nicht sehr
aussagekräftig.
Empirischer Variationskoeffizient:
Dr. Andreas Wünsche
v=
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
23
Weitere Kengrößen (für metrisch skalierte Daten)
I
Ausreißergrenzen:
Au = Vu − 1.5dQ
Ao = Vo + 1.5dQ .
(sogenannte innere Zäune; äußere Zäune bei ±3dQ ).
I
Empirische Schiefe:
n
1X
vs =
n
i=1
I
xi − x
s
3
xi − x
s
4
.
Empirische Wölbung:
n
1X
w=
n
i=1
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
.
Version: 6. Juni 2017
24
Statistische Kenngrößen im Beispiel 2.2 Mieten
Summenstatistiken für Miete
Anzahl
45
Arithm. Mittelwert
362,273
Median
321,0
Modalwert
275,0
Geom. Mittelwert
331,436
Varianz
35685,9
Standardabweichungen 188,907
Variationskoeffizient
52,1449%
Dr. Andreas Wünsche
Minimum
Maximum
Spannweite
Unteres Quartil
Oberes Quartil
Quartilsabstand
Schiefe
Wölbung
Statistik I für Betriebswirte Vorlesung 9
150,0
1087,0
937,0
275,0
360,0
85,0
2,54232
6,66333
Version: 6. Juni 2017
25
Box-Plot II
I
Aussagekräftige graphische Darstellung der Fünfer-Charakteristik,
bestehend aus
I
I
Median x̃ = xmed = x0.5 ,
den empirischen Quartilen (Viertelwerten)
Vu = x0.25
I
I
Vo = x0.75
und
Ao = Vo + 1.5dQ .
und den Ausreißergrenzen
Au = Vu − 1.5dQ
I
und
Die untere Begrenzungslinie wird dabei bestimmt durch den
kleinsten Wert, der ≥ Au ist, (= xmin falls xmin ≥ Au ) während die
obere Begrenzungslinie durch den größten Wert, der ≤ Ao ist,
definiert wird (= xmax falls xmax ≤ Ao ).
Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werden
extra durch Punkte angegeben.
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
26
Box-Plot III Beispiel 2.2 Mieten
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
27
Beispiel 2.4
I
Geordnete Stichprobe: (n = 11)
k
1 2 3
4
5
6
x(k) 1 7 13 14 14 15
11 · 0.5 = 5.5
⇒
7
17
8
19
9
19
10
21
11
23
x̃ = x(6) = 15 .
I
Median:
I
Unteres Quartil:
11 · 0.25 = 2.75
⇒
Vu = x(3) = 13 .
I
Oberes Quartil:
11 · 0.75 = 8.25
⇒
Vo = x(9) = 19 .
I
Quartilsabstand (Viertelweite):
I
Ausreißergrenzen:
Au = Vu − 1.5dQ = 13 − 9 = 4 > x(1) = 1 =⇒
x(1) ist ein Ausreißer nach unten ,
Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 .
Dr. Andreas Wünsche
dQ = Vo − Vu = 19 − 13 = 6 .
Statistik I für Betriebswirte Vorlesung 9
Version: 8. Juni 2017
28
Boxplot IV für Beispiel 2.4
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
29
Box-Plot V
Beispiel: Körpergröße nach Geschlecht (SoSe 2017)
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
30
Box-Plot VI
Beispiel: Körpergröße nach Studienfach (SoSe 2017)
Dr. Andreas Wünsche
Statistik I für Betriebswirte Vorlesung 9
Version: 6. Juni 2017
31
Herunterladen