1 Lageparameter (Verdichtung der Daten) Akademische Disziplin der Statistik/academic field of statistics/ la discipline statistique/estadística/disciplina academica della statistica deskriptive Statistik/descriptive statistics/statistique descriptive Letzter Stand 16. März 2005, 18 Seiten Literaturbezug Dieses Kapitel (einschließlich der Aufgaben, Blätter, Übersichten, etc) bezieht sich auf den Stoff der Abschnitte des Buches G. Uebe, M. Schäfer, Einführung in die Statistik für Wirtschaftswissenschaftler, Verlag Oldenbourg, München 1991, 3.1 Lageparameter 3.2 Streuungsparameter, 3.3 Streuungszerlegung 3.4 Konzentrationmaße (in Gestalt von Quantilen) 3.8 Aufgaben dazu Lernziele sind 1. Die gängigen Lage- und Streuungsparameter: Spannweite, Modalwert Durchschnittsbildung (Mittelwerte) und Streuung (Varianz), mittlere quadratische Abweichung, Variationskoeffizient, 2. Vergleich von (zwei und mehr) Stichproben, Mittelwert und Varianz; Streuungszerlegung, 3. Median, Quartil, Dezil, Perzentil, Fraktil, Quantil generell, u. ä. Maße, 4 einige zugehörige graphische Darstellungen (Box Whisker plots, stem and leaf) 5. Vertiefte Charakterisierung von Verteilungen. Internet-Verweis Auf der Bildseite siehe man die Stichworte: (Æ Streudiagramm (scatter diagram)) (Æ Lageparameter einschließlich Beispiele) (Æ Erwartungswert-Modelle einschließlich Beispiele) (Æ Varianz-Modelle einschließlich Beispiele) Literatur Günther Bourier, Beschreibende Statistik, 5. Auflage, Gabler, Gütersloh 2003 Burkschat, E., Cramer, U.Kamps, Beschreibende Statistik: Grundlegende Methoden, Springer, Berlin u.a. 2004 [siehe hierzu auch die Lehrprogramme im Internet] Karl Mosler, Friedrich Schmid, Beschreibende Statistik und Wirtschaftsstatistik, Springer, Berlin u.a. 2003 [siehe hierzu auch die Ergänzungen im Internet] P. Pflaumer, B. Heine, J. Hartung, Statistik für Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik, Oldenbourg, München 2001 Peter M. Schulze, Beschreibende Statistik, Oldenbourg, München Wien 1990 H. Toutenburg, A. Fieger, C. Kastner, Deskriptive Statistik, Prentice Hall, 1998 Howard Wainer, Visual revelations, Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Pero, Copernicus, New York, 1997 2 1. Der Wert größter Häufigkeit Um die Charakteristiken eines vorliegenden Datenmaterials überblicken zu können, verdichtet man die Daten mit Hilfe von Maßzahlen. Oft gelingt dies nur für ordinale und kardinale Merkmale. Im übrigen ist es sehr strittig für ordinale Beobachtungen, s.u. Beispiel. Definition (Modus) Die Ausprägung, die am häufigsten beobachtet wurde, für die also gilt xmod := xi mit f(xi) = max {f(xk) | k = 1, 2, ..., K} heißt Modus oder Modalwert. 2. Mittelwert Definition (Mittelwert für ein diskretes Merkmal) Ist X ein diskretes Merkmal, dann ist (1) x = 1 n n ∑ i=1 K bi = ∑ xk f ( xk ) k=1 das arithmetische Mittel oder der Mittelwert von X, der Durchschnitt von X in Kurzschreibweise x oder X . Anmerkung zur Bezeichnung Die Querschreibweise, d.h. ein überstrichener Buchstabe soll im folgenden stets heißen, daß es sich um einen Durchschnitt handelt. M.a.W. z ist das arithmetische Mittel von Werten z1, z2 … zn. Illustration 1 (Aufgabe zum Mittelwert) Man betrachtet die Anzahl X der Zigaretten, die pro Person innerhalb einer Stunde in einem Raum mit 50 Personen geraucht wurden, und erhält folgendes Ergebnis: Anzahl der Zigaretten: 0 1 2 3 Anzahl der Personen: 10 5 10 25 Berechnen Sie die durchschnittliche Anzahl X von Zigaretten pro Person im Raum. Lösung: 1 X = (b + b2 + b3 + … b50) = 50 1 1 = ((0 + 0 + … + 0) + (1 + 1 + … + 1) + (2 + 2 + … + 2) + (3 +3 + … + 3) 50 1 1 = [10 . (0) + 5 . (1) + 10 . (2) + 25 . (3)] = [0 + 5 + 20 + 75] = 2 50 50 10 5 10 25 = 0. +1. +2. +3. =2 50 50 50 50 3 Definition (Mittelwert für ein stetiges Merkmal) Ist X ein stetiges Merkmal und bezeichnet x*k die Klassenmitte der k-ten Klasse, dann ist K nk x = ∑ x *k n (1)' k=1 das arithmetische Mittel oder der Mittelwert von X. Illustration 2 (Aufgabe zum Mittelwert) In einem Betrieb wurden folgende Daten über die monatlichen Einkommen (in 100 DM) der beschäftigten Frauen erhoben: Einkommen Anzahl der Frauen 6 bis 12 10 über 12 bis 16 über 16 bis 20 15 10 über 20 bis 24 5 Berechnen Sie das Durchschnittseinkommen der Frauen. Lösung: 9 14 18 22 x* k nk/n 0.25 0.375 0.25 0.125 n=40 9 . 0.25 14 . 0.375 18 . 0.25 22 . 0.125 2.25 5.25 4.5 2.75 x = 14.75 Der Durchschnitt ist im Regelfall ein ganz unzureichendes Vergleichsinstrument, wie das Beispiel der sog. Pisa-Noten (des weltweiten Bildungsvergleichs) zeigen. Deutschlandliegt ‘weit abgeschlagen’ auf Platz 21. Die Länderdurchschnittsnoten sind z.B. Japan 2.68; Korea 2.69; Finnland 2.70; Schweiz 2.98; …; Deutschland 3.14 Der Abstand (die Spanne) von der ersten bis zur 21. Position beträgt nur 0.46. Derartig ‘nahe´ Durchchnitte sind nicht sehr aussagestark. 4 3. Streuungsparameter Definition (Spannweite) Die Differenz zwischen der größten und der kleinsten beobachteten Ausprägung wird als Spannweite bezeichnet. Eine typische IIllustration ist die Darstellung von Temperaturen in der Zeitung, z.B. 30 20 17 18 19 20 6 5 6 7 10 0 Fr. Sa. So. Mo. bzw. in einer Zeitung der Tageshöchst-Kursstand im Vergleich zum Tagestief-Kursstand Die Kursspannen an den fünf Börsen-Tagen einer Woche Eng verwandt mit diesem Begriff ist das Streudiagramm (s.u.), eine punktweise graphische Darstellung zweier Merkmale. 5 Definition (mittlere quadratische Abweichung des diskreten Merkmals) Ist X ein diskretes Merkmal, dann ist s2 = (2) 1 n n ∑ (b i i=1 K x)2 = ∑ (xk - x)2 f (xk) k=1 die mittlere quadratische Abweichung oder die empirische Varianz des Merkmals X. Illustration 1’ (Fortsetzung Aufgabe zur mittleren quadratischen Abweichung) Bestimmen Sie die empirische Varianz zu den Zahlen der Illustration 1 0 1 2 3 2 (=Mittelwert) 10 5 10 25 /50 (=Anteil) s2 = (0-2)2 0.2 + (1-2)2 0.1 +(2-2)2 0.2 +(3-2)2 0.5 = = 0.8 + 0.1 + 0 + 0.5 = 1.4, s ≈ 1.18322 6 Definition (mittlere quadratische Abweichung des stetigen Merkmals) Ist X ein stetiges Merkmal und bezeichnet x*k die Klassenmitte der k-ten Klasse, dann ist K s2 = (2)' 2 ∑ (x k* - x) k=1 nk n die mittlere quadratische Abweichung oder die empirische Varianz des Merkmals X. Illustration 2’ (Fortsetzung Aufgabe zur mittleren quadratischen Abweichung) Bestimmen Sie die empirische Varianz zu den Zahlen der Illustration 2 x*k 9 14 18 22 nk/n 0.25 0.375 0.25 0.125 n=40 (9-14.75)2 (14-14.75)2 (18-14.75)2 (22-14.75)2 5.752=33.0 625 0.752=0.562 5 3.252=10.5 625 7.252=52.56 25 x = 14.75 s2 = 33.0625 . 0.25 + 0.5625 . 0.375 + 10.5625 . 0.25 + 52.5625 . 0.125 = = 8.265625 + 0.2109375 + 2.640625 + 6.5703125 = 17.6875, s ≈ 4.20565096 Definition (Standardabweichung) Die positive Wurzel von s2 wird in beiden Varianten, d.h. s = Standardabweichung (oder auch als Streuung) bezeichnet. s2 , als (empirische) Die Bezeichnung ‘Streuung’ wird teilweise für Varianz und Standardabweichung benutzt. Man achte daher auf den Zusammenhang, was sie genau bedeutet. Aus später deutlich werdendem Grund wird auch die folgende Modifikation von empirischer Varianz und Standardabweichung benutzt: n n s*2= s 2 und s* = s2 n-1 n-1 d.h. anstatt durch n wird durch (n-1) in (2) bzw. (2)' geteilt. Illustration 1’’ und 2’’ (Fortsetzung Aufgabe zur Streuung) Für die beiden Illustrationen folgen die Streuungen: aus s2 = 1.4, s ≈ 1.18322 s*2 = 1.428571, s* ≈ 1.19523 (n=50) aus s2 = 17.6875, s ≈ 4.20565096 s*2 = 18.14103, s* = 4.25923 (n=40) 7 Definition (Variationskoeffizient) Falls der Mittelwert ungleich null ist (formal: X≠0 bzw. x ≠0 je nach Bezeichnung), dann heißt Streuung s das Verhältnis der Variationskoeffizient: v= . Mittelwert x Der Variationskoeffizient mißt die Variation im Vergleich zum Mittelwert. Illustration 1’’’ und 2’’’ (Fortsetzung Aufgabe zum Varianzkoeffizienten) Für die beiden Illustrationen folgen die Varianzkoeffizienten: s 1.18322 s 4.20565096 v= = ≈ 0.592, bzw. v = = ≈ 0.285 2 14.75 x x Die Streuungszerlegung Häufig setzen sich Stichproben aus gesondert erhobenen Teilstichproben zusammen, beispielsweise für die gesamte BRD aus den einzelnen Bundesländern, für die gesamte Bevölkerung aus Jahrgängen. In solchen Fällen ist der folgende sog. Streuungszerlegungssatz von Bedeutung. 8 Satz (Streuungszerlegung) Sei eine Stichprobe von n Beobachtungen in I Teilstichproben jeweils vom Umfang ni (i=1, 2, ..., I) gegeben, d.h. I {x1, ..., xn} = {x11, x12, ...,x1n1; x21,x22,...,x2n2; ... ; xI1 ,xI2 , ..., xInI }; n = ∑ ni , i=1 I dann gilt für die Mittelwerte x = ni ∑ n i=1 I s2 = und für die empirischen Varianzen xi ni 2 s + n i ∑ i=1 I ∑ i=1 ni n (x - x i) 2 Beweis: Für den Gesamt-Mittelwert ergibt sich: ni I n n i ni x ij x =∑ ∑ = ∑ = ∑ ni x i n n ∑ ni i=1 j=1 i=1 j=1 i=1 I I x ij Für die Gesamt-Varianz sei der Fall I = 2 betrachtet. Die Verallgemeinerung auf I ≥ 2 ist offensichtlich: n1 n2 j=1 j=1 1 s 2 = ( ∑ (x1j -x) 2 + ( ∑ (x2j - x)2 ) = n n1 n2 j=1 j=1 1 = ( ∑ ([x 1j -x 1]– [ x - x1 ])2 + ( ∑ ([x2j - x2] – [x - x2])2) = n 1 2 = ∑ n ni 2 ∑ 2 ([x ij - x i] + [x - x i] - 2[x ij - x i][x - x i]) = i=1 j=1 2 ∑ i=1 ni 1 ( n ni ni ∑ j=1 1 (xij - xi)2 + n ni 2 ∑ (x -x i) 2) - n j=1 2 ni i=1 j=1 ∑ (x -x i)( ∑ (x ij - x i)) . ni Wegen ∑ (x ij - x i) = 0 ergibt sich daraus j=1 2 s = n1 n 2 s1 + n2 n 2 s2 + n1 n 2 (x - x 1) + n2 n (x - x 2) 2 w.z.b.w. 9 lllustration 1 (Zusammenfassung einer Erhebung, Streuungszerlegung) Bei Schulkindern werden regelmäßig vom Schulzahnarzt die Zähne auf Karies untersucht. Bei jedem Kind wird die Zahl kariöser Zähne vermerkt. Bei einer Untersuchung seien bei drei Klassen eines Jahrgangs folgende Ergebnisse: Klasse Klasse Klasse a b c Klassenstärke 25 25 30 durchschnittliche Zahl kariöser Zähne 1.4 1.6 1.4 Quadrate-Summe der Zahl kariöser 105 124 128 Zähne Berechnen Sie das arihmetische Mittel und die empirische Standardabweichung der Zahl kariöser Zähne für diese drei Klassen insgesamt. Lösung 25 25 30 7 1 21 117 . 1.40 + . 1.60 + . 1.40 = a) Gesamt-Mittelwert: x = + + = = 1.4625 80 80 80 16 2 40 80 b) Gesamt-Varianz: Die Daten für die Varianzen benutzen die Beziehung 1 s2 = ni ni ∑ ni x j2 - x2i , für die die Quadrate-Summe ∑ xj2 sowie der Durchschnitt xi j=1 j =1 bekannt ist (s.o. 3. Zeile bzw. 2. Zeile). Damit folgt für s2 s2 = 2 25 2 30 2 25 2 25 2 30 . 2 25 sa + sb+ sc + x - xa + x - xb + x - xc 80 80 80 80 80 80 25 1 ( = 80 n a na nb nc 25 1 30 1 ∑ x 2ia - x2a) + 80 ( n ∑ x ib2 - x2b) + 80 ( n ∑ xic2 - x 2c) b i=1 c i=1 i=1 25 25 30 + ( x - xa )2 + (x - xb )2 + ( x - xc )2 80 80 80 25 1 25 1 30 1 = ( . 105 - (1.4)2) + ( . 124 -(1.6) 2) + ( . 128 - (1.4)2) 80 25 80 25 80 30 25 117 25 117 30 117 + ( - 1.4)2 + ( - 1.6)2 + ( -1.4) 2 80 80 80 80 80 80 = 0.7 + 0.75 + 0.865 + 0.012 + 0.0059 + 0.0015 = 2.3236 fi s = 1.5243 10 lllustration 2 (Zusammenfassung einer Erhebung mit Datenergänzung, Streuungszerlegung) Ein mittelständischer Schlachtbetrieb kauft Rinder in den drei Ortschaften A, B und C. Aufgrund verschiedener Zuchtmethoden gibt es Unterschiede bei den Gewichten der Rinder aus den verschiedenen Ortschaften. Folgende Daten wurden erhoben: xA = 700 kg xB = 640 kg xC = ??? kg nA = 10 nB = 5 nC = 25 2 s A = 200 2 s B = 160 2 s C = 112 Das Durchschnittsgewicht aller geschlachteten Rinder ist x = 705 kg. a) Berechnen Sie das unbekannte xC (durch ??? markiert) b) Berechnen Sie die mittlere quadratische Abweichung (empirische Varianz) der Rindergewichte. Lösung a) Schließen der Datenlücke aus dem Gesamt-Mittelwert: 1 1 5 x = xA + xB + xC 4 8 8 8 1 1 8 8450 fi xC = (x - xA - xB ) = (705 - 175 - 80) = = 720 5 4 8 5 5 1 2 1 2 5 2 1 1 5 b) s2 = s A + s B + s C + (xA - x)2 + (xB - x)2 + (xC - x)2 4 8 8 4 8 8 2 25 65 225 . 5 = 50 + 20 + 70 + + + = 815 4 8 8 11 lllustration 3 (Zusammenfassung einer Erhebung mit Datenergänzung, Streuungszerlegung) In den 4 Grundschulen G1, G2, G3 und G4 eines Ortes A wurden für die Schulanfänger folgende Daten ermittelt: G1 G2 G3 G4 Durchschnittsalter (in G i ) 6.5 6.6 7.5 6.8 Standardabweichung des Alters (in Gi ) ??? 0.4 0.5 0.6 Anzahl der Kinder (in Gi ) 20 25 30 25 a) Berechnen Sie das Durchschnittsalter der Schulanfänger in A. b) Berechnen Sie die empirische Varianz (mittlere quadratische Abweichung) des Alters der Schulanfänger in G1, die versäumt worden ist, anzugeben. Die empirische Varianz aller Schulanfänger in A ist 0.4. Lösung: 1 a) Gesamt-Mittelwert: x = (20 . 6.5 + 25 . 6.6 + 30 .7.5 + 25 . 6.8) = 6.9 100 b) Schließen der Datenlücke aus der Gesamt-Varianz 1 1 s2 = ( 20s 21 + 25s 22 + 30s23 + 25s24 ) + ( 20(x1 - x)2 + 25(x2 -x) 2 + 30(x 3 - x) 2 + 25(x 4 - x)2 ) 100 100 1 1 3 1 1 1 3 1 ¤ 0.4 = s 21 + 0.16 + 0.25 + 0.36 + (6.5–6.9) 2 + (6.6-6.9)2 + (7.5-6.9) 2 + (6.8-6.9)2 5 4 10 4 5 4 10 4 1 ¤ s 21 = 0.4- 0.37 =0.03 fi s 21 = 0.15 fi s1 = 0.3873 5 12 4. Der Box-Whisker-Plot Definition (Der Box-Whisker-Plot, diagramme des quartiles) Der Box-Whisker-Plot ist eine geordnete Darstellung der Beobachtungen, so daß sie nach ihren vier Quartilen graphisch gruppiert werden. Die beiden mittleren Quartile, die der Größe nach mittleren Beobachtungen, werden in einem Kasten eingerahmt. Der Anfang und das Ende der Beobachtungen werden durch einen kleinen senkrechten Strich angezeigt. Die Entfernung zwischen Minimum und Maximum ist die Spannweite der Beobachtungen. Quartil 2 Median Minimum Maximum Quartil 3 Quartil 1 Illustration 1 (Aufgabe) Stellen Sie die folgenden Stichproben monatlicher Durchschnittstemperaturen in 1.: Braunlage (D): { 0, 1, 5, 9, 14, 18, 19, 19, 16, 10, 4, 1} 2.: Athen(GR): {14, 14, 15, 19, 23, 27, 28, 29, 26, 22, 19, 15} 3.: Jönköping (S) {-1, 0, 4, 10, 16, 20, 22, 21, 16, 10, 5, 2} im Box-Whisker -Plot dar. Lösung: Braunlage 0 4 19 16 Athen 14 26 15 Jönköping -1 4 22 16 min 0 14 -1 max 19 29 22 Spannweite 19 15 23 Median 10 22 10 29 13 Illustration 2 Der Box-Whisker- Plot (die Darstellung als Katzenschnäuzchen) Schritt 1: Die Stichprobe wird sortiert und in die vier Quartile eingeteilt Schritt 2: Quartil 2 und 3 werden eingerahmt (box = Schnäuzchen) Schritt 3: Quartil 1 bzw 4 werden mit einem Strich (whisker = Katzen-Barthaar) mit der Box verbunden. 1 1 1 2 {1,2,3,4} 3 4 4 {1,4,6,9} 5 {1,5,6,20} 6 6 9 Drei Box-Whisker-Plots, ("Katzenschnäuzchen") 20 In dieser Illustration sind die Beobachtungen jeweils in {} aufgeführt. 14 Illustration 3 : Die Temperaturen im spanischen Bundesland Galicien Die Temperaturen in Galicien für die Jahre 1931 bis 1980 in 0.1 C Monat Minimum Quartil 1 Median Quartil 3 Maximum Spannweite Januar 60 70 80 90 100 40 Februar 59 75 86 97 107 48 März 80 95 105 115 130 50 April 95 110 119 128 140 45 Mai 110 130 142 154 165 55 Juni 152 160 171 182 190 38 Juli 170 181 191 202 210 40 August 175 182 194 206 215 40 September 150 165 177 189 195 45 Oktober 125 140 146 152 170 45 November 87 100 107 114 120 33 Dezember 68 78 85 92 100 32 15 Galicien-Temperatur in 0.1 C 250 150 100 Minimum Quartil 1 Median Quartil 3 Maximum Monat 15 10 5 50 0 Minimum 200 16 5. Die lange Strichliste Definition (Die lange Strichliste ‘stem leaf diagram’) Die lange Strichliste, das sog. ‘stem leaf diagram’, ist eine geordnete Darstellung quantitativer Beobachtungen, so daß eine mehrziffrige Zahl mit ihrer führenden Ziffer nur einmal aufgeführt wird und die Folge-Ziffern hinter der führenden Ziffer nacheinander hingeschrieben werden, so daß ein um 90 o gedrehtes Stabdiagramm entsteht. Illustration 4 Aus den Zahlen {14, 14, 15, 19, 23, 27, 28, 29, 26, 22, 19, 15} (s.o. Illustration 1) folgt mit der Klasseneinteilung [10,19], [20,29] die lange Strichliste: 1: 4 4 5 5 9 9 2: 2 3 6 7 8 9 bzw. mit der Klasseneinteilung [10,14], [15,19] [20,24], [25,29] 1: 4 4 1: 5 5 9 9 2: 2 3 2: 6 7 8 9 bzw. mit der Klasseneinteilung [10,11], [12,13], [14,15], [16,19] [20,24], [25,29] 1: 1: 1: 4 4 5 5 1: 9 9 2: 2 3 2: 6 7 8 9 17 6. Streudiagramm (scatter diagram) Definition (Streudiagramm) Es seien jeweils n Beobachtungen für zwei kardinale bzw. numerisch kodierte nominale oder ordinale Merkmale betrachtet. Die Werte des einen werden als x-Koordinaten und die Werte des anderen als y-Koordinate verwandt. Dann können die Beobachtungen als Punktwolke, Streudiagramm, dargestellt werden, wie die folgende Illustration zeigt. Streudigramme sind außerordentlich beliebt und verbreitet. Illustration Es seien die folgenden 7 Paare von Beobachtungen vorgelegt: Beobachtungen Beobachtungs Nr. Merkmal 1 Merkmal 2 Beobachtung 1 1 2 Beobachtung 2 2 -2 Beobachtung 3 -1 3 Beobachtung 4 1 5 Beobachtung 5 -5 -1 Beobachtung 6 4 -4 Beobachtung 7 8 -8 Das Streudiagramm der Zahlen (x = 1. Spalte; y = 2. Spalte) ist dann: 18 7. Relative Differenz (Verteilungsdifferenz) (percentage deviation of median M(X) versus the mean E(X) Wenn mit M(X) der Median und mit E(X) der Mittelwert bezeichnet wird, dann ist M(X) – E(X) ⋅ 100 E(X) die sog. relative Differenz. Sie mißt wieweit die mittlere Beobachtung, der Median, vom Durchschnitt, dem Mittelwert, entfernt ist (how many percentage points is the median below the mean?). Dieses Maß ist besonders beliebt für Verteilungsfragen, z. B. zur Beurteilung der Armut in einem Land. In dieser Anwendung sind die Beobachtungen die individuellen Einkommen. (DISTRIBUTION). Beispiele Beispiel 1 (Die Berechnung der Lageparameter Mittelwert und Varianz nach ‘Rezept’) Beispiel 2 (Einige Aufgaben zu Lageparametern) Beispiel 3 (Die Streuungszerlegung, einige Aufgaben) Beispiel 4 (Einige weitere Aufgaben)