Statistik I für Betriebswirte Vorlesung 9 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001) Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 1 2.2 Eindimensionale Merkmale 2.2.1 Häufigkeitsverteilungen I Eine Stichprobe vom Umfang n sei erhoben und die Variable X (das Merkmal X ) sei beobachtet worden. I Urliste (Rohdaten, beobachtete Stichprobe): Liste, in der die erhobenen Beobachtungswerte von X nacheinander aufgeschrieben werden; Bezeichnung: x1 , ..., xn . I a1 , ..., ak : Merkmalsausprägungen, die in der Urliste vorkommen; k ≤ n. I Absolute Häufigkeit der Ausprägung ai : Hi = H(ai ) beschreibt, wie oft die Ausprägung ai bei den n Beobachtungen vorkommt. I Relative Häufigkeit der Ausprägung ai : hi = h(ai ) = Hni entspricht dem Anteil der Ausprägung ai bezogen auf die n Beobachtungen. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 2 Beispiel 2.1 Prüfungsnoten – Urliste Person 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Note 4 3 3 1 5 4 5 3 1 5 5 2 3 5 3 Dr. Andreas Wünsche Person 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Note 3 2 5 3 4 4 5 4 5 5 5 3 4 5 4 Person 31 32 33 34 35 36 37 38 39 40 51 42 43 44 45 Note 4 1 4 2 3 5 5 4 3 4 4 4 3 3 5 Statistik I für Betriebswirte Vorlesung 9 Person 46 47 48 49 50 51 52 53 54 55 56 57 58 59 Version: 6. Juni 2017 Note 1 2 4 5 3 5 4 5 2 2 3 5 4 4 3 Fortsetzung Beispiel 2.1 Note (ai ) abs H. (Hi ) rel. H. (hi ) Dr. Andreas Wünsche 1 4 0.068 2 6 0.102 3 14 0.237 4 17 0.288 Statistik I für Betriebswirte Vorlesung 9 5 18 0.305 Version: 6. Juni 2017 4 Beispiel 2.2 Mieten Merkmal: Mieten (2013) für zufällig ausgewählte Einraumwohnungen in Berlin Mitte in Euro Quelle: Eckstein, Statistik für Wirtschaftswissenschaftler, 5. Auflage 2016, Springer Urliste für n = 45 Wohnungen: 219 275 163 299 272 243 310 324 334.1 150 321 322 385 292.2 360 341 402.1 351 408 501.4 Dr. Andreas Wünsche 268 280 307 418 509.5 282 285 300 340.3 670 Statistik I für Betriebswirte Vorlesung 9 283.1 329 238 275 926.1 195.4 227 322.5 286 910 Version: 6. Juni 2017 327.7 265.6 332.3 365 1087 5 Klassenbildung I Bei Erstellung einer Häufigkeitsverteilung ist es oft sinnvoll oder sogar nötig, die Informationen aus der Urliste zu straffen, falls I I I I die Anzahl der Merkmalsausprägungen k zu groß ist, und/oder ein stetiges Merkmal vorliegt. Ausweg: Klassenbildung: Benachbarte Merkmalsausprägungen werden zu einer Klasse oder Gruppe zusammen gefasst. In der gruppierten Häufigkeitsverteilung erscheinen nur noch die Gruppen mit der Häufigkeit aller Ausprägungen in der Gruppe. Bei der Klassenbildung ist zu beachten: I I I Merkmalsausprägungen möglichst gleichmäßig auf die Klassen verteilen (möglichst gleiche Klassenbreite); keine Überschneidungen der Klassen; Klassen müssen vollständig sein. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 6 Häufigkeitstabelle für gruppierte (klassierte) Daten Beispiel 2.2 Mieten Häufigkeitstabellen für Miete Untere Obere Klasse Grenze Grenze Mittelpunkt Häufigkeit bei oder unterhalb 0 0 1 0 100,0 50,0 0 2 100 200,0 150,0 3 3 200 300,0 250,0 17 4 300 400,0 350,0 16 5 400 500,0 450,0 3 6 500 600,0 550,0 2 7 600 700,0 650,0 1 8 700 800,0 750,0 0 9 800 900,0 850,0 0 10 900 1000,0 950,0 2 11 1000 1100,0 1050,0 1 oberhalb 1100 0 Mittelwert = 362,273 Standardabweichungen = 188,907 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Relative Häufigkeit 0,0000 0,0000 0,0667 0,3778 0,3556 0,0667 0,0444 0,0222 0,0000 0,0000 0,0444 0,0222 0,0000 Kumulative Kum. Rel. Häufigkeit Häufigkeit 0 0 3 20 36 39 41 42 42 42 44 45 45 Version: 6. Juni 2017 0,0000 0,0000 0,0667 0,4444 0,8000 0,8667 0,9111 0,9333 0,9333 0,9333 0,9778 1,0000 1,0000 7 2.2.2 Grafiken für univariate stetige Daten (a) Histogramm I Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte. I Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, in eine endliche Anzahl disjunkter Teilintervalle, die sogenannten Klassen oder Gruppen zerlegt. Jede Klasse ist dann eindeutig durch die Klassenmitte und die Klassenbreite bzw. durch die untere und obere Klassengrenze bestimmt. I Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein. I Die Klassenbreiten sollten übereinstimmen (ggf. mit Ausnahme der Randklassen). I Nach Festlegung einer Klasseneinteilung werden die absoluten Klassenhäufigkeiten (Anzahl der Werte in der Klasse) bestimmt. I Dann werden in einem Koordinatensystem aneinanderstoßende Rechtecke mit Flächeninhalten proportional zur Klassenhäufigkeit und Klassenintervallen als Basis gezeichnet. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 8 Histogramm im Beispiel 2.2 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 9 Bemerkungen zu Histogrammen I Die Gestalt eines Histogramms hängt stark von der gewählten Klasseneinteilung (und auch des gewählten Gesamtintervalls) ab, deshalb sollte man ggf. etwas experimentieren, um ein möglichst aussagekräftiges Histogramm zu erzeugen. I Durch die Klasseneinteilung geht Information verloren. I Man kann ggf. Ausreißer am linken oder rechten Rand erkennen. I Man kann eventuell Verteilungseigenschaften, wie Symmetrie oder Schiefe, erkennen (oder erahnen). I Bei übereinstimmenden Klassenbreiten sind die Höhen der Rechtecke proportional zu den Häufigkeiten. I Statt der absoluten Häufigkeiten können die Höhen der Rechtecke auch so normiert werden, dass der Gesamtflächeninhalt unter allen Rechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer) Vergleich mit einer Verteilungsdichte möglich. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 10 (b) Box-Plot Aussagekräftige graphische Darstellung der Fünfer-Charakteristik, bestehend aus Median x̃, den empirischen Quartilen (Viertelwerten) Vu , Vo und den Ausreißergrenzen Au , Ao . Box-Plot im Beispiel 2.2: Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 11 2.2.3 Grafiken für univariate diskrete Daten (a) Balkendiagramm I Bei Balkendiagrammen werden die Anzahlen der Beobachtungswerte in den einzelnen Kategorien (Klassen) durch gleich breite Balken flächen- und auch höhenproportional dargestellt. I Im Unterschied zum Histogramm für stetige Daten haben die Balken beim Balkendiagramm einen Abstand, um den diskreten Charakter der Daten zu unterstreichen. I Sowohl beim Histogramm als auch beim Balkendiagramm werden aber Häufigkeiten oder Anteile flächenproportional dargestellt. I Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balken der natürlichen Ordnung der Merkmalsausprägungen entsprechen. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 12 Balkendiagramm im Beispiel 2.1 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 13 (b) Kreisdiagramm Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnen Kategorien (Klassen) können ggf. auch durch ein Kreisdiagramm (Tortendiagramm, Kuchendiagramm) flächenproportional (hier auch winkelproportional) dargestellt werden. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 14 2.2.4 Statistische Kenngrößen I Lagemaße (Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachteten Merkmalswerte?) I Streumaße (Über welchen Bereich erstrecken sich die Beobachtungen, wie stark schwanken sie?) I Weitere statistische Kenngrößen Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 15 Lagemaße i) Mittelwerte (für quantitative Merkmale) a) Arithmetisches Mittel: n 1X 1 x= xi = (x1 + x2 + . . . + xn ) . n n i=1 I I 219 + . . . + 1087 = 362.273 . 45 Auf Basis relativer Häufigkeiten: Im Beispiel 2.2 Mieten: x= m X x= hj aj = h1 a1 + h2 a2 + . . . + hm am j=1 bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj . Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 16 Klassierte (gruppierte) Daten Die Formel x = = m X hj aj = h1 a1 + h2 a2 + . . . + hm am j=1 m X 1 n j=1 H j aj = 1 (H1 a1 + H2 a2 + . . . + Hm am ) n kann auch für klassierte Daten verwendet werden zur näherungsweisen Berechnung des arithmetischen Mittels mit aj , Klassenmitten. Z.B. in Beispiel 2.2 gilt x ≈ 363.333 = 3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050 . 45 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 17 Zusammenfassung von Mittelwerten I Für Mittelwerte aus Teilgesamtheiten gilt: Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor und kennt man die Stichprobenumfänge nj sowie die arithmetischen Mittel x j pro Schicht, so lässt sich daraus das Gesamtmittel x berechnen als r 1X x= nj · x j . n j=1 I Beispiel 2.3 (Quelle: Bleymüller et al, Statistik für Wirtschaftswissenschaftler, 14. Auflage) Unternehmen mit Betrieben A und B A: 400 Beschäftige mit Bruttodurchschnittsverdienst 1920.84 e B: 300 Beschäftige mit Bruttodurchschnittsverdienst 2012.17 e ⇒ durchschnittlicher Bruttomonatsverdienst sämtlicher 700 Beschäftigten von A und B zusammen: x= Dr. Andreas Wünsche 400 · 1920.84 e + 300 · 2012.17 e = 1959.98 e 700 Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 18 b) Geometrisches Mittel Definition: xG = √ n x1 · x2 · . . . · xn I Voraussetzung: xi > 0, i = 1, 2, . . . , n . I Berechnung über Häufigkeiten: hm x G = a1h1 · a2h2 · . . . · am bei m Merkmalsausprägungen aj und relativen Häufigkeiten hj . I Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren. I Zahlenbeispiel Zeitpunkt Kapital Wachstumsfaktor 0 100 1 81 x1 = 0.81 2 100 x2 = 1.234 ⇒ x G = 1.000 aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals). I Es gilt immer x G ≤ x . Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 19 ii) Empirische Quantile I Ordnen der Datenreihe x1 , x2 , . . . , xn ergibt geordnete Datenreihe (geordnete Stichprobe, Variationsreihe) xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax . I Empirisches α-Quantil (0 < α < 1): Zahlenwert xα , so dass α · 100% der Werte in der Variationsreihe links davon liegen: falls nα keine ganze Zahl ist, k ist x(k) dann die auf nα folgende ganze Zahl xα = 1 falls nα =: k eine ganze Zahl ist 2 x(k) + x(k+1) (für quantitative Merkmale). Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 20 Empirischer Median, empirische Quartile I Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert der geordneten Stichprobe) x( n+1 ) , falls n ungerade; 2 x̃ = xmed := x0.5 = 1 x n +x n 2 (2) ( 2 +1) , falls n gerade. I Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 . I Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 . I Bemerkung: Der arithmetische Mittelwert x ist empfindlich gegenüber Ausreißern, der Median x̃ weniger. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 21 iii) Empirischer Modalwert, Modus I xmod Wert mit der größten Häufigkeit in der Stichprobe. I Hängt bei klassierten Daten stark von der gewählten Klasseneinteilung ab ⇒ Modalklasse. I Im Allgemeinen gilt I Auch verwendbar bei qualitativen Merkmalen. I Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl. Dr. Andreas Wünsche x 6= x̃ 6= xmod . Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 22 Streumaße (für metrisch skalierte Daten) ∆ = xmax − xmin . I Spannweite: I Quartilsabstand (Viertelweite): I Empirische Varianz (Stichprobenstreuung): dQ = Vo − Vu . n 1 X 1 s2 = (xi − x)2 = n−1 n−1 i=1 √ I I Empirische Standardabweichung: s= n X ! xi2 − nx 2 . i=1 s2 . s · 100% (falls x > 0), x besitzt keine phys. Einheit, er ist für kleine Werte x nicht sehr aussagekräftig. Empirischer Variationskoeffizient: Dr. Andreas Wünsche v= Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 23 Weitere Kengrößen (für metrisch skalierte Daten) I Ausreißergrenzen: Au = Vu − 1.5dQ Ao = Vo + 1.5dQ . (sogenannte innere Zäune; äußere Zäune bei ±3dQ ). I Empirische Schiefe: n 1X vs = n i=1 I xi − x s 3 xi − x s 4 . Empirische Wölbung: n 1X w= n i=1 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 . Version: 6. Juni 2017 24 Statistische Kenngrößen im Beispiel 2.2 Mieten Summenstatistiken für Miete Anzahl 45 Arithm. Mittelwert 362,273 Median 321,0 Modalwert 275,0 Geom. Mittelwert 331,436 Varianz 35685,9 Standardabweichungen 188,907 Variationskoeffizient 52,1449% Dr. Andreas Wünsche Minimum Maximum Spannweite Unteres Quartil Oberes Quartil Quartilsabstand Schiefe Wölbung Statistik I für Betriebswirte Vorlesung 9 150,0 1087,0 937,0 275,0 360,0 85,0 2,54232 6,66333 Version: 6. Juni 2017 25 Box-Plot II I Aussagekräftige graphische Darstellung der Fünfer-Charakteristik, bestehend aus I I Median x̃ = xmed = x0.5 , den empirischen Quartilen (Viertelwerten) Vu = x0.25 I I Vo = x0.75 und Ao = Vo + 1.5dQ . und den Ausreißergrenzen Au = Vu − 1.5dQ I und Die untere Begrenzungslinie wird dabei bestimmt durch den kleinsten Wert, der ≥ Au ist, (= xmin falls xmin ≥ Au ) während die obere Begrenzungslinie durch den größten Wert, der ≤ Ao ist, definiert wird (= xmax falls xmax ≤ Ao ). Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werden extra durch Punkte angegeben. Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 26 Box-Plot III Beispiel 2.2 Mieten Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 27 Beispiel 2.4 I Geordnete Stichprobe: (n = 11) k 1 2 3 4 5 6 x(k) 1 7 13 14 14 15 11 · 0.5 = 5.5 ⇒ 7 17 8 19 9 19 10 21 11 23 x̃ = x(6) = 15 . I Median: I Unteres Quartil: 11 · 0.25 = 2.75 ⇒ Vu = x(3) = 13 . I Oberes Quartil: 11 · 0.75 = 8.25 ⇒ Vo = x(9) = 19 . I Quartilsabstand (Viertelweite): I Ausreißergrenzen: Au = Vu − 1.5dQ = 13 − 9 = 4 > x(1) = 1 =⇒ x(1) ist ein Ausreißer nach unten , Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 . Dr. Andreas Wünsche dQ = Vo − Vu = 19 − 13 = 6 . Statistik I für Betriebswirte Vorlesung 9 Version: 8. Juni 2017 28 Boxplot IV für Beispiel 2.4 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 29 Box-Plot V Beispiel: Körpergröße nach Geschlecht (SoSe 2017) Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 30 Box-Plot VI Beispiel: Körpergröße nach Studienfach (SoSe 2017) Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 9 Version: 6. Juni 2017 31