Statistik I für Betriebswirte Vorlesung 9

Werbung
Statistik I für Betriebswirte
Vorlesung 9
Prof. Dr. Hans-Jörg Starkloff
TU Bergakademie Freiberg
Institut für Stochastik
06. Juni 2016
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
1
2.2 Eindimensionale Merkmale
2.2.1 Häufigkeitsverteilungen
I
Eine Stichprobe vom Umfang n sei erhoben und die Variable X (das
Merkmal X ) sei beobachtet worden.
I
Urliste (Rohdaten): Liste, in der die erhobenen Beobachtungswerte
von X nacheinander aufgeschrieben werden; Bezeichnung: x1 , ..., xn .
I
a1 , ..., ak : Merkmalsausprägungen, die in der Urliste vorkommen;
k ≤ n.
I
Absolute Häufigkeit der Ausprägung ai : Hi = H(ai ) beschreibt, wie
oft die Ausprägung ai bei den n Beobachtungen vorkommt.
I
Relative Häufigkeit der Ausprägung ai : hi = h(ai ) = Hni entspricht
dem Anteil der Ausprägung ai bezogen auf die n Beobachtungen.
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
2
Beispiel 2.4 Prüfungsnoten – Urliste
Person
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Note
4
3
3
1
5
4
5
3
1
5
5
2
3
5
3
Prof. Dr. Hans-Jörg Starkloff
Person
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Note
3
2
5
3
4
4
5
4
5
5
5
3
4
5
4
Person
31
32
33
34
35
36
37
38
39
40
51
42
43
44
45
Note
4
1
4
2
3
5
5
4
3
4
4
4
3
3
5
Statistik I für Betriebswirte Vorlesung 9
Person
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Note
1
2
4
5
3
5
4
5
2
2
3
5
4
4
Version: 13. Juni 2016
3
Fortsetzung Beispiel 2.4
Note (ai )
abs H. (Hi )
rel. H. (hi )
1
4
0.068
Prof. Dr. Hans-Jörg Starkloff
2
6
0.102
3
14
0.237
4
17
0.288
5
18
0.305
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
4
Klassenbildung
I
Bei Erstellung einer Häufigkeitsverteilung ist es oft sinnvoll oder
sogar nötig, die Informationen aus der Urliste zu straffen, falls
I
I
I
I
die Anzahl der Merkmalsausprägungen k zu groß ist,
und/oder ein stetiges Merkmal vorliegt.
Ausweg: Klassenbildung:
Benachbarte Merkmalsausprägungen werden zu einer Klasse oder
Gruppe zusammen gefasst. In der gruppierten Häufigkeitsverteilung
erscheinen nur noch die Gruppen mit der Häufigkeit aller
Ausprägungen in der Gruppe.
Bei der Klassenbildung ist zu beachten:
I
I
I
Merkmalsausprägungen möglichst gleichmäßig auf die Klassen
verteilen (möglichst gleiche Klassenbreite);
keine Überschneidungen der Klassen;
Klassen müssen vollständig sein.
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
5
Beispiel 2.5 Mieten
Merkmal: Mieten (2013) für zufällig ausgewählte Einraumwohnungen in
Berlin Mitte in Euro Quelle: Eckstein, Statistik für Wirtschaftswissenschaftler, 5. Auflage 2016, Springer
Urliste für n = 45 Wohnungen:
219
275
163 299
272
243
310 324
334.1 150
321 322
385
292.2 360 341
402.1 351
408 501.4
Prof. Dr. Hans-Jörg Starkloff
268
280
307
418
509.5
282
285
300
340.3
670
283.1
329
238
275
926.1
Statistik I für Betriebswirte Vorlesung 9
195.4
227
322.5
286
910
327.7
265.6
332.3
365
1087
Version: 13. Juni 2016
6
Häufigkeitstabelle für gruppierte (klassierte) Daten
Beispiel 2.5 Mieten
Häufigkeitstabellen für Miete
Untere
Obere
Klasse
Grenze
Grenze
Mittelpunkt
bei oder unterhalb
100
1
100
200,0
150,0
2
200
300,0
250,0
3
300
400,0
350,0
4
400
500,0
450,0
5
500
600,0
550,0
6
600
700,0
650,0
7
700
800,0
750,0
8
800
900,0
850,0
9
900
1000,0
950,0
10
1000
1100,0
1050,0
oberhalb
1100
Mittelwert = 362,273 Standardabweichungen = 188,907
Häufigkeit
0
3
17
16
3
2
1
0
0
2
1
0
Relative
Häufigkeit
0,0000
0,0667
0,3778
0,3556
0,0667
0,0444
0,0222
0,0000
0,0000
0,0444
0,0222
0,0000
Kumulative
Häufigkeit
0
3
20
36
39
41
42
42
42
44
45
45
Kum. Rel.
Häufigkeit
0,0000
0,0667
0,4444
0,8000
0,8667
0,9111
0,9333
0,9333
0,9333
0,9778
1,0000
1,0000
Der StatAdvisor
Hier wird eine Häufigkeitstabelle erzeugt, indem der Wertebereich von Miete in gleichbreite Intervalle aufgeteilt und die Anzahl von
Datenwerten in jedem Intervall gezählt wird. Die (absoluten) Häufigkeiten sind die Anzahl von Datenwerten in jedem Intervall, während die
relativen Häufigkeiten den Anteil der Daten in jedem Intervall (bezogen auf die Gesamtanzahl) zeigen. Sie können die Einstellungen für die
Intervalle ändern, indem Sie die rechte Maustaste drücken und die Ergebnisfenster-Optionen auswählen. Sie können sich die Häufigkeiten in
einer Grafik anschauen, wenn Sie das Häufigkeitsdiagramm von der Liste der Grafiken auswählen.
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
7
Histogramm für gruppierte Daten
Bemerkung: Regel für Säulenhöhen: Höhe= Besetzungszahl/Breite , bei
abweichenden Klassenbreiten wird die Skalierung der senkrechten Achse
meistens weggelassen.
Histogramm Beispiel 2.5 Mieten
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
8
2.2.2 Statistische Kenngrößen
I
Lagemaße
(Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachteten
Merkmalswerte?)
I
Streumaße
(Über welchen Bereich erstrecken sich die Beobachtungen, wie stark
schwanken sie?)
I
Konzentrationsmaße
(Wie sind die Merkmalsausprägungen auf die Merkmalsträger
verteilt?)
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
9
Lagemaße
i) Mittelwerte
(für quantitative Merkmale)
a) Arithmetisches Mittel:
n
1X
1
x=
xi = (x1 + x2 + . . . + xn ) .
n
n
i=1
I
Auf Basis relativer Häufigkeiten:
x=
m
X
hj aj = h1 a1 + h2 a2 + . . . + hm am
j=1
I
bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj .
219 + . . . + 1087
Im Beispiel 2.5 Mieten: x =
= 362.273 .
45
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
10
Klassierte (gruppierte) Daten
Die Formel
x=
m
X
hj aj = h1 a1 + h2 a2 + . . . + hm am
j=1
kann auch für klassierte Daten verwendet werden zur näherungsweisen
Berechnung des arithmetischen Mittels mit aj , Klassenmitten.
Z.B. in Beispiel 2.5 gilt
x ≈ 363.333 =
3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050
.
45
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
11
Zusammenfassung von Mittelwerten
I
Beispiel 2.6 (Quelle: Bleymüller et al, Statistik für Wirtschaftswissenschaftler, 14. Auflage)
Unternehmen mit Betrieben A und B
A: 400 Beschäftige mit Bruttodurchschnittsverdienst 1920.84 e
B: 300 Beschäftige mit Bruttodurchschnittsverdienst 2012.17 e
⇒ durchschnittlicher Bruttomonatsverdienst sämtlicher 700
Beschäftigten von A und B zusammen:
x=
I
400 · 1920.84 e + 300 · 2012.17 e
= 1959.98 e
700
Für Mittelwerte aus Teilgesamtheiten gilt:
Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor und
kennt man die Stichprobenumfänge nj sowie die arithmetischen
Mittel x j pro Schicht, so lässt sich daraus das Gesamtmittel x
berechnen als
r
1X
x=
nj · x j .
n
j=1
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
12
b) Geometrisches Mittel
Definition:
xG =
√
n
x1 · x2 · . . . · xn
I
Voraussetzung:
xi > 0, i = 1, 2, . . . , n .
I
Berechnung über Häufigkeiten:
hm
x G = a1h1 · a2h2 · . . . · am
bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj .
I
Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren.
I
Zahlenbeispiel
Zeitpunkt
Kapital
Wachstumsfaktor
0
100
1
81
x1 = 0.81
2
100
x2 = 1.234
⇒ x G = 1.000
aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals).
I
Es gilt immer x G ≤ x .
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
13
ii) Empirische Quantile
I
Ordnen der Datenreihe x1 , x2 , . . . , xn ergibt geordnete Datenreihe
(geordnete Stichprobe, Variationsreihe)
xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .
I
Empirisches α-Quantil (0 < α < 1): Zahlenwert xα , so dass
α · 100% der Werte in der Variationsreihe links davon liegen:

falls nα keine ganze Zahl ist, k ist

 x(k)
dann die auf nα folgende ganze Zahl
xα =

 1
falls nα =: k eine ganze Zahl ist
2 x(k) + x(k+1)
(für quantitative Merkmale).
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
14
Empirischer Median, empirische Quartile
I
Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert der
geordneten Stichprobe)

 x( n+1 ) ,
falls n ungerade;
2
x̃ = xmed := x0.5 =
 1 x n +x n
2
(2)
( 2 +1) , falls n gerade.
I
Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 .
I
Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 .
I
Bemerkung: Der arithmetische Mittelwert x ist empfindlich
gegenüber Ausreißern, der Median x̃ weniger.
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
15
iii) Empirischer Modalwert, Modus
I
xmod Wert mit der größten Häufigkeit in der Stichprobe.
I
Hängt bei klassierten Daten stark von der gewählten
Klasseneinteilung ab ⇒ Modalklasse.
I
Im Allgemeinen gilt
I
Auch verwendbar bei qualitativen Merkmalen.
I
Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl.
Prof. Dr. Hans-Jörg Starkloff
x 6= x̃ 6= xmod .
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
16
Streumaße (für metrisch skalierte Daten)
∆ = xmax − xmin .
I
Spannweite:
I
Quartilsabstand (Viertelweite):
I
Empirische Varianz (Stichprobenstreuung):
dQ = Vo − Vu .
n
n
X
1 X
1
(xi − x)2 =
s =
n−1
n−1
2
i=1
I
I
Empirische Standardabweichung:
s=
− nx
2
.
i=1
√
I
!
xi2
s2 .
s
· 100% (falls x > 0),
x
besitzt keine phys. Einheit, er ist für kleine Werte x nicht sehr
aussagekräftig.
Empirischer Variationskoeffizient:
Ausreißergrenzen:
v=
Au = Vu − 1.5dQ
Ao = Vo + 1.5dQ .
(sogenannte innere Zäune; äußere Zäune bei ±3dQ ).
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
17
Beispieldaten
I
Geordnete Stichprobe: (n = 11)
k
1 2 3
4
5
6
x(k) 1 4 13 14 14 15
11 · 0.5 = 5.5
⇒
7
17
8
19
9
19
10
21
11
23
I
Median:
I
Unteres Quartil:
11 · 0.25 = 2.75
⇒
Vu = x(3) = 13 .
I
Oberes Quartil:
11 · 0.75 = 8.25
⇒
Vo = x(9) = 19 .
I
Quartilsabstand (Viertelweite):
I
Ausreißergrenzen:
Au = Vu − 1.5dQ = 13 − 9 = 4 = x(2) ,
Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 .
Prof. Dr. Hans-Jörg Starkloff
x̃ = x(6) = 15 .
dQ = Vo − Vu = 19 − 13 = 6 .
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
18
Statgraphics für Beispieldatensatz
k
x(k)
1
1
2
4
3
13
Summenstatistiken für Col_1
Anzahl
Arithm. Mittelwert
Standardabweichungen
Variationskoeffizient
Minimum
Maximum
Spannweite
Stand. Schiefe
Stand. Wölbung
4
14
5
14
6
15
7
17
8
19
9
19
11
14,5455
6,75816
46,4624%
1,0
23,0
22,0
-1,39246
0,374684
10
21
11
23
Box-Whisker-Plot
Der StatAdvisor
Perzentile
Diese
Tabelle für
zeigtCol_1
Summenstatistiken für Col_1. Sie enthält Maßzahlen für die zentrale Lage, die Variabilität und die Gestalt der
Perzentile
Von speziellem
Interesse sind hier die standardisierte Schiefe und die standardisierte Wölbung, die man verwenden kann, um herau
ob1,0%
die Daten normalverteilt
sind. Falls die Werte dieser Statistiken außerhalb des Bereiches von –2 bis +2 liegen, bedeutet das eine
1,0
signifikante
von der Normalverteilung, wodurch ein statistischer Test (bei dem Normalverteilung unterstellt wird) (z.B
5,0% Abweichung
1,0
Bezug zur Standardabweichung problematisch ist. In diesem Fall liegt der Wert für die standardisierte Schiefe innerhalb des Bereic
10,0%
4,0
man
für normalverteilte
Daten erwarten würde. Der Wert für die standardisierte Wölbung liegt innerhalb des Bereiches, den man fü
25,0%
13,0
normalverteilte
Daten erwarten würde.
50,0%
75,0%
90,0%
95,0%
99,0%
15,0
19,0
21,0
23,0
23,0
Der StatAdvisor
Prof. Dr. Hans-Jörg Starkloff
0
4
8
12
16
20
24
Col_1
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
19
Box-Plot I
I
Aussagekräftige graphische Darstellung der Fünfer-Charakteristik,
bestehend aus Median x̃, den empirischen Quartilen (Viertelwerten)
Vu , Vo und den Ausreißergrenzen Au , Ao .
I
Die untere Begrenzungslinie wird dabei bestimmt durch den
kleinsten Wert, der ≥ Au ist, (= xmin falls xmin ≥ Au ) während die
obere Begrenzungslinie durch den größten Wert, der ≤ Ao ist,
definiert wird (= xmax falls xmax ≤ Ao ).
I
Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werden
extra durch Punkte angegeben.
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
20
Box-Plot II Beispiel 2.5 Mieten
Box-Whisker-Plot
0
200
400
600
800
1000
1200
Miete
Prof. Dr. Hans-Jörg Starkloff
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
21
Box-Plot III Beispiel zum Vergleich
Box-and-Whisker Plot
40
Punkte
30
20
10
0
1
2
3
4
5
6
7
Fach
1: Bilanzierung
2: Wirtschaftsinformatik
3: Organisation
4: Marketing
Prof. Dr. Hans-Jörg Starkloff
5: Produktion und Beschaffung
6: Investition und Finanzierung
7: Anlagenwirtschaft
Statistik I für Betriebswirte Vorlesung 9
Version: 13. Juni 2016
22
Herunterladen