Statistik I für Betriebswirte Vorlesung 9 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 06. Juni 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 1 2.2 Eindimensionale Merkmale 2.2.1 Häufigkeitsverteilungen I Eine Stichprobe vom Umfang n sei erhoben und die Variable X (das Merkmal X ) sei beobachtet worden. I Urliste (Rohdaten): Liste, in der die erhobenen Beobachtungswerte von X nacheinander aufgeschrieben werden; Bezeichnung: x1 , ..., xn . I a1 , ..., ak : Merkmalsausprägungen, die in der Urliste vorkommen; k ≤ n. I Absolute Häufigkeit der Ausprägung ai : Hi = H(ai ) beschreibt, wie oft die Ausprägung ai bei den n Beobachtungen vorkommt. I Relative Häufigkeit der Ausprägung ai : hi = h(ai ) = Hni entspricht dem Anteil der Ausprägung ai bezogen auf die n Beobachtungen. Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 2 Beispiel 2.4 Prüfungsnoten – Urliste Person 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Note 4 3 3 1 5 4 5 3 1 5 5 2 3 5 3 Prof. Dr. Hans-Jörg Starkloff Person 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Note 3 2 5 3 4 4 5 4 5 5 5 3 4 5 4 Person 31 32 33 34 35 36 37 38 39 40 51 42 43 44 45 Note 4 1 4 2 3 5 5 4 3 4 4 4 3 3 5 Statistik I für Betriebswirte Vorlesung 9 Person 46 47 48 49 50 51 52 53 54 55 56 57 58 59 Note 1 2 4 5 3 5 4 5 2 2 3 5 4 4 Version: 13. Juni 2016 3 Fortsetzung Beispiel 2.4 Note (ai ) abs H. (Hi ) rel. H. (hi ) 1 4 0.068 Prof. Dr. Hans-Jörg Starkloff 2 6 0.102 3 14 0.237 4 17 0.288 5 18 0.305 Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 4 Klassenbildung I Bei Erstellung einer Häufigkeitsverteilung ist es oft sinnvoll oder sogar nötig, die Informationen aus der Urliste zu straffen, falls I I I I die Anzahl der Merkmalsausprägungen k zu groß ist, und/oder ein stetiges Merkmal vorliegt. Ausweg: Klassenbildung: Benachbarte Merkmalsausprägungen werden zu einer Klasse oder Gruppe zusammen gefasst. In der gruppierten Häufigkeitsverteilung erscheinen nur noch die Gruppen mit der Häufigkeit aller Ausprägungen in der Gruppe. Bei der Klassenbildung ist zu beachten: I I I Merkmalsausprägungen möglichst gleichmäßig auf die Klassen verteilen (möglichst gleiche Klassenbreite); keine Überschneidungen der Klassen; Klassen müssen vollständig sein. Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 5 Beispiel 2.5 Mieten Merkmal: Mieten (2013) für zufällig ausgewählte Einraumwohnungen in Berlin Mitte in Euro Quelle: Eckstein, Statistik für Wirtschaftswissenschaftler, 5. Auflage 2016, Springer Urliste für n = 45 Wohnungen: 219 275 163 299 272 243 310 324 334.1 150 321 322 385 292.2 360 341 402.1 351 408 501.4 Prof. Dr. Hans-Jörg Starkloff 268 280 307 418 509.5 282 285 300 340.3 670 283.1 329 238 275 926.1 Statistik I für Betriebswirte Vorlesung 9 195.4 227 322.5 286 910 327.7 265.6 332.3 365 1087 Version: 13. Juni 2016 6 Häufigkeitstabelle für gruppierte (klassierte) Daten Beispiel 2.5 Mieten Häufigkeitstabellen für Miete Untere Obere Klasse Grenze Grenze Mittelpunkt bei oder unterhalb 100 1 100 200,0 150,0 2 200 300,0 250,0 3 300 400,0 350,0 4 400 500,0 450,0 5 500 600,0 550,0 6 600 700,0 650,0 7 700 800,0 750,0 8 800 900,0 850,0 9 900 1000,0 950,0 10 1000 1100,0 1050,0 oberhalb 1100 Mittelwert = 362,273 Standardabweichungen = 188,907 Häufigkeit 0 3 17 16 3 2 1 0 0 2 1 0 Relative Häufigkeit 0,0000 0,0667 0,3778 0,3556 0,0667 0,0444 0,0222 0,0000 0,0000 0,0444 0,0222 0,0000 Kumulative Häufigkeit 0 3 20 36 39 41 42 42 42 44 45 45 Kum. Rel. Häufigkeit 0,0000 0,0667 0,4444 0,8000 0,8667 0,9111 0,9333 0,9333 0,9333 0,9778 1,0000 1,0000 Der StatAdvisor Hier wird eine Häufigkeitstabelle erzeugt, indem der Wertebereich von Miete in gleichbreite Intervalle aufgeteilt und die Anzahl von Datenwerten in jedem Intervall gezählt wird. Die (absoluten) Häufigkeiten sind die Anzahl von Datenwerten in jedem Intervall, während die relativen Häufigkeiten den Anteil der Daten in jedem Intervall (bezogen auf die Gesamtanzahl) zeigen. Sie können die Einstellungen für die Intervalle ändern, indem Sie die rechte Maustaste drücken und die Ergebnisfenster-Optionen auswählen. Sie können sich die Häufigkeiten in einer Grafik anschauen, wenn Sie das Häufigkeitsdiagramm von der Liste der Grafiken auswählen. Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 7 Histogramm für gruppierte Daten Bemerkung: Regel für Säulenhöhen: Höhe= Besetzungszahl/Breite , bei abweichenden Klassenbreiten wird die Skalierung der senkrechten Achse meistens weggelassen. Histogramm Beispiel 2.5 Mieten Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 8 2.2.2 Statistische Kenngrößen I Lagemaße (Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachteten Merkmalswerte?) I Streumaße (Über welchen Bereich erstrecken sich die Beobachtungen, wie stark schwanken sie?) I Konzentrationsmaße (Wie sind die Merkmalsausprägungen auf die Merkmalsträger verteilt?) Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 9 Lagemaße i) Mittelwerte (für quantitative Merkmale) a) Arithmetisches Mittel: n 1X 1 x= xi = (x1 + x2 + . . . + xn ) . n n i=1 I Auf Basis relativer Häufigkeiten: x= m X hj aj = h1 a1 + h2 a2 + . . . + hm am j=1 I bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj . 219 + . . . + 1087 Im Beispiel 2.5 Mieten: x = = 362.273 . 45 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 10 Klassierte (gruppierte) Daten Die Formel x= m X hj aj = h1 a1 + h2 a2 + . . . + hm am j=1 kann auch für klassierte Daten verwendet werden zur näherungsweisen Berechnung des arithmetischen Mittels mit aj , Klassenmitten. Z.B. in Beispiel 2.5 gilt x ≈ 363.333 = 3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050 . 45 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 11 Zusammenfassung von Mittelwerten I Beispiel 2.6 (Quelle: Bleymüller et al, Statistik für Wirtschaftswissenschaftler, 14. Auflage) Unternehmen mit Betrieben A und B A: 400 Beschäftige mit Bruttodurchschnittsverdienst 1920.84 e B: 300 Beschäftige mit Bruttodurchschnittsverdienst 2012.17 e ⇒ durchschnittlicher Bruttomonatsverdienst sämtlicher 700 Beschäftigten von A und B zusammen: x= I 400 · 1920.84 e + 300 · 2012.17 e = 1959.98 e 700 Für Mittelwerte aus Teilgesamtheiten gilt: Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor und kennt man die Stichprobenumfänge nj sowie die arithmetischen Mittel x j pro Schicht, so lässt sich daraus das Gesamtmittel x berechnen als r 1X x= nj · x j . n j=1 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 12 b) Geometrisches Mittel Definition: xG = √ n x1 · x2 · . . . · xn I Voraussetzung: xi > 0, i = 1, 2, . . . , n . I Berechnung über Häufigkeiten: hm x G = a1h1 · a2h2 · . . . · am bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj . I Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren. I Zahlenbeispiel Zeitpunkt Kapital Wachstumsfaktor 0 100 1 81 x1 = 0.81 2 100 x2 = 1.234 ⇒ x G = 1.000 aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals). I Es gilt immer x G ≤ x . Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 13 ii) Empirische Quantile I Ordnen der Datenreihe x1 , x2 , . . . , xn ergibt geordnete Datenreihe (geordnete Stichprobe, Variationsreihe) xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax . I Empirisches α-Quantil (0 < α < 1): Zahlenwert xα , so dass α · 100% der Werte in der Variationsreihe links davon liegen: falls nα keine ganze Zahl ist, k ist x(k) dann die auf nα folgende ganze Zahl xα = 1 falls nα =: k eine ganze Zahl ist 2 x(k) + x(k+1) (für quantitative Merkmale). Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 14 Empirischer Median, empirische Quartile I Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert der geordneten Stichprobe) x( n+1 ) , falls n ungerade; 2 x̃ = xmed := x0.5 = 1 x n +x n 2 (2) ( 2 +1) , falls n gerade. I Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 . I Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 . I Bemerkung: Der arithmetische Mittelwert x ist empfindlich gegenüber Ausreißern, der Median x̃ weniger. Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 15 iii) Empirischer Modalwert, Modus I xmod Wert mit der größten Häufigkeit in der Stichprobe. I Hängt bei klassierten Daten stark von der gewählten Klasseneinteilung ab ⇒ Modalklasse. I Im Allgemeinen gilt I Auch verwendbar bei qualitativen Merkmalen. I Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl. Prof. Dr. Hans-Jörg Starkloff x 6= x̃ 6= xmod . Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 16 Streumaße (für metrisch skalierte Daten) ∆ = xmax − xmin . I Spannweite: I Quartilsabstand (Viertelweite): I Empirische Varianz (Stichprobenstreuung): dQ = Vo − Vu . n n X 1 X 1 (xi − x)2 = s = n−1 n−1 2 i=1 I I Empirische Standardabweichung: s= − nx 2 . i=1 √ I ! xi2 s2 . s · 100% (falls x > 0), x besitzt keine phys. Einheit, er ist für kleine Werte x nicht sehr aussagekräftig. Empirischer Variationskoeffizient: Ausreißergrenzen: v= Au = Vu − 1.5dQ Ao = Vo + 1.5dQ . (sogenannte innere Zäune; äußere Zäune bei ±3dQ ). Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 17 Beispieldaten I Geordnete Stichprobe: (n = 11) k 1 2 3 4 5 6 x(k) 1 4 13 14 14 15 11 · 0.5 = 5.5 ⇒ 7 17 8 19 9 19 10 21 11 23 I Median: I Unteres Quartil: 11 · 0.25 = 2.75 ⇒ Vu = x(3) = 13 . I Oberes Quartil: 11 · 0.75 = 8.25 ⇒ Vo = x(9) = 19 . I Quartilsabstand (Viertelweite): I Ausreißergrenzen: Au = Vu − 1.5dQ = 13 − 9 = 4 = x(2) , Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 . Prof. Dr. Hans-Jörg Starkloff x̃ = x(6) = 15 . dQ = Vo − Vu = 19 − 13 = 6 . Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 18 Statgraphics für Beispieldatensatz k x(k) 1 1 2 4 3 13 Summenstatistiken für Col_1 Anzahl Arithm. Mittelwert Standardabweichungen Variationskoeffizient Minimum Maximum Spannweite Stand. Schiefe Stand. Wölbung 4 14 5 14 6 15 7 17 8 19 9 19 11 14,5455 6,75816 46,4624% 1,0 23,0 22,0 -1,39246 0,374684 10 21 11 23 Box-Whisker-Plot Der StatAdvisor Perzentile Diese Tabelle für zeigtCol_1 Summenstatistiken für Col_1. Sie enthält Maßzahlen für die zentrale Lage, die Variabilität und die Gestalt der Perzentile Von speziellem Interesse sind hier die standardisierte Schiefe und die standardisierte Wölbung, die man verwenden kann, um herau ob1,0% die Daten normalverteilt sind. Falls die Werte dieser Statistiken außerhalb des Bereiches von –2 bis +2 liegen, bedeutet das eine 1,0 signifikante von der Normalverteilung, wodurch ein statistischer Test (bei dem Normalverteilung unterstellt wird) (z.B 5,0% Abweichung 1,0 Bezug zur Standardabweichung problematisch ist. In diesem Fall liegt der Wert für die standardisierte Schiefe innerhalb des Bereic 10,0% 4,0 man für normalverteilte Daten erwarten würde. Der Wert für die standardisierte Wölbung liegt innerhalb des Bereiches, den man fü 25,0% 13,0 normalverteilte Daten erwarten würde. 50,0% 75,0% 90,0% 95,0% 99,0% 15,0 19,0 21,0 23,0 23,0 Der StatAdvisor Prof. Dr. Hans-Jörg Starkloff 0 4 8 12 16 20 24 Col_1 Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 19 Box-Plot I I Aussagekräftige graphische Darstellung der Fünfer-Charakteristik, bestehend aus Median x̃, den empirischen Quartilen (Viertelwerten) Vu , Vo und den Ausreißergrenzen Au , Ao . I Die untere Begrenzungslinie wird dabei bestimmt durch den kleinsten Wert, der ≥ Au ist, (= xmin falls xmin ≥ Au ) während die obere Begrenzungslinie durch den größten Wert, der ≤ Ao ist, definiert wird (= xmax falls xmax ≤ Ao ). I Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werden extra durch Punkte angegeben. Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 20 Box-Plot II Beispiel 2.5 Mieten Box-Whisker-Plot 0 200 400 600 800 1000 1200 Miete Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 21 Box-Plot III Beispiel zum Vergleich Box-and-Whisker Plot 40 Punkte 30 20 10 0 1 2 3 4 5 6 7 Fach 1: Bilanzierung 2: Wirtschaftsinformatik 3: Organisation 4: Marketing Prof. Dr. Hans-Jörg Starkloff 5: Produktion und Beschaffung 6: Investition und Finanzierung 7: Anlagenwirtschaft Statistik I für Betriebswirte Vorlesung 9 Version: 13. Juni 2016 22