Kapitel IV Streuungs-, Schiefe und Wölbungsmaße B. 4. 1. Lagemaße von Häufigkeitsverteilungen geben allein wenig Auskunft über eine Häufigkeitsverteilung. Sie beschreiben zwar ein Zentrum dieser Verteilung, geben aber keinen Anhaltspunkt dafür, wie weit ein konkreter Merkmalswert von einem solchen Zentrum abweichen kann. Maße, die die Abweichung von einem Zentrum einer Häufigkeitsverteilung beschreiben, nennt man Streuungsmaße oder Dispersionsmaße. D. 4. 1. (Spannweite) Als Spannweite (bei einem nichtgruppierten Datenmaterial) bezeichnet man R := xmax − xmin B. 4. 2. Bei einem gruppierten Datenmaterial ist R ≈ G p − g1 BS. 4. 1. (Siehe BS. 3. 1.) 1. Nichtgruppiert R = 18.30 − 14.00 = 4.30 €. 2. Gruppiert R ≈ 18.40 − 14.00 = 4.40 €. B. 4. 3. Die Spannweite ist geeignet, falls - man sich für den gesamten Streubereich interessiert. - die beiden Randwerte eine bedeutende Rolle spielen. Die Spannweite ist nicht geeignet - bei großen Stichprobenumfängen. - beim Auftreten von Ausreißern. - um die Streuung der Grundgesamtheit zu schätzen. 1 D. 4. 2. (Quartilsabstand) Als Quartilsabstand bezeichnet man ~ ~ QA := x 0.75 − x 0.25 . BS. 3. 1. (Fortsetzung) 1. Nichtgruppiert QA = 17.05 − 15.60 = 1.45 €. 2. Gruppiert QA = 17.35 − 15.50 = 1.85 €. D. 4. 3. (Mittlerer Quartilsabstand) _ Q := ~ 1~ x x − 0.75 0.25 2 BS. 3. 1. (Fortsetzung) 1. Nichtgruppiert _ Q= 1 (17.05 − 15.60 ) = 0.725 €. 2 2. Gruppiert _ X = 1 (17.35 − 15.50 ) = 0.925 €. 2 B. 4. 4. Im Vergleich zur Spannweite haben der Quartilsabstand und der mittlere Quartilsabstand den Vorteil, von den Extremwerten der Verteilung nicht beeinflusst zu werden. D. 4. 4. (Mittlere absolute Abweichungen) 1. Als mittlere absolute (bzw. lineare) Abweichung vom Median bezeichnet man d ~ := x 0.5 ~ 1 n | xi − x 0.5 | . ∑ n i =1 2. Als mittlere absolute (bzw. lineare) Abweichung vom arithmetischen Mittel bezeichnet man d _ := x _ 1 n | xi − x | . ∑ n i =1 2 BS. 3. 1. (Fortsetzung) 1. 1 30 1 d ~ = ∑ | xi − 16.20 | = ⋅ 27.8 ≈ 0.93 . x 0.5 30 i =1 30 2. 1 30 1 d _ = ∑ | xi − 16.30 | = ⋅ 28.2 ≈ 0.94 . x 30 i =1 30 B. 4. 5. (Minimaleigenschaft des Medianes) Es gilt: n n ~ ∑ | xi − x 0.5 | ≤ ∑ | xi − Z |, i =1 Z ∈ R1 : beliebig . i =1 B. 4. 6. (Mittlere absolute Abweichungen bei einem gruppierten Datenmaterial) Es gilt: 1 p _ ~ d ~ :≈ ∑ | x i − x 0.5 | ⋅ H i , x 0.5 n i =1 1 p _ _ d _ :≈ ∑ | x i − x | ⋅ H i . x n i =1 _ Falls die Klassenmittel x i nicht vorhanden sind, werden sie durch die Klassenmitten mi ersetzt. BS. 3. 1. (Fortsetzung) Es ist ~ x 0.5 = 16.29, _ x = 16.40 . Ki Hi 2 mi 14.50 | mi − 16.29 | ⋅H i 3.58 | mi − 16.40 | ⋅H i 3.80 K 2 = [15.00, 16.00[ 11 15.50 8.69 9.90 7 16.50 1.47 0.70 10 17.70 K1 = [14.00, 15.00[ K 3 = [16.00, 17.00[ K 4 = [17.00, 18.40[ 30 d~ ≈ x 0.5 27.84 ≈ 0.93, 30 14.1 27.84 d_ ≈ x 3 27.4 ≈ 0.91 . 30 13.00 27.40 D. 4. 5. (Mittlere quadratische Abweichungen) 1. Als mittlere quadratische Abweichung vom Median bezeichnet man d ~2 := x0.5 ~ 1 n ( xi − x 0.5 )2 . ∑ n i =1 2. Als mittlere Abweichung vom arithmetischen Mittel (bzw. Varianz) bezeichnet man a) bei einer Grundgesamtheit σ 2 := 1 N N ∑ (x − µ) i =1 1 = N 2 i N ∑x i =1 2 i − µ2 . b) bei einer Stichprobe s 2 := _ 1 n ( xi − x) 2 ∑ n − 1 i =1 2 n ∑ xi n 2 xi − i =1 ∑ n = i =1 . n −1 3. Als Standardabweichung bezeichnet man die positive Wurzel der Varianz. BS. 3. 1. (Fortsetzung) 1. 1 30 37.79 d ~2 = ∑ ( xi − 16.20)2 = ≈ 1.26 . x 0.5 30 i =1 30 2. 1 30 37.49 s2 = ( xi − 16.30) 2 = ≈ 1.29 . ∑ 29 i =1 29 3.. s ≈ 1.14 . B. 4. 7. 1. Es gilt: 2 _ 2 1 ∑ xi − x ≤ ∑ ( xi − Z ) , Z ∈ R , beliebig. i =1 i =1 n n (Minimaleigenschaft des arithmetischen Mittels) 4 2. Sei _ d _2 ( Z ) := s 2 + ( x − Z ) 2 , Z ∈ R1 : beliebig. x Hieraus folgt: d _2 ( Z ) ≥ s 2 (Verschiebungssatz) x B. 4. 8. (Mittlere quadratische Abweichungen bei einem gruppierten Datenmaterial) Es gilt: d _2 :≈ x σ 2 :≈ s 2 :≈ 1 p _ ~ 2 ∑ ( xi − x 0.5 ) ⋅ H i , n i =1 1 N p _ ∑ ( xi − µ ) 2 ⋅ H i , (bei einer Grundgesamtheit) i =1 1 p _ _ 2 ∑ ( xi − x) ⋅ H i , n − 1 i =1 (bei einer Stichprobe) _ Falls die Klassenmittel x i nicht vorhanden sind, werden sie durch die Klassenmitten mi ersetzt. BS. 3. 1. (Fortsetzung) Es ist ~ x 0.5 = 16.29, Ki K1 = [14.00, 15.00[ K 2 = [15.00, 16.00[ K 3 = [16.00, 17.00[ K 4 = [17.00, 18.40[ _ x = 16.40 . 14.50 ( mi − 16.29) 2 ⋅ H i 6.4082 ( mi − 16.40)2 ⋅ H i 7.22 11 15.50 6.8651 8.91 7 16.50 0.3087 0.07 10 17.70 19.8810 16.90 Hi mi 2 30 d ~2 ≈ x 33.4630 ≈ 1.12, 30 33.4630 s2 ≈ 33.10 ≈ 1.14, 29 33.10 s ≈ 1.07 . B. 4. 7. (Sigma-Regeln) _ _ Im Intervall x − σ x + σ liegt stets die Mehrheit, also mindestens 50 % aller Merkmalswerte Für den Fall, dass die Merkmalswerte hinreichend genau normalverteilt sind, gilt die Folgende Sigma-Regel. 5 _ _ Im Intervall x − k ⋅ σ , x + k ⋅ σ liegen für k = 1 rund 68%, für k = 2 rund 95% und für k = 3 rund 99% aller Merkmalswerte. D. 4. 6. (Variationskoeffizient) Das Merkmal X möge nur positive Werte annehmen. Als Variationskoeffizient bezeichnet man v := v := σ , µ > 0 (bei einer Grundgesamtheit), µ s _ _ , x > 0 (bei einer Stichprobe). x B. 4. 8. Der Variationskoeffizient ist ein relatives Streuungsmaß, das keine Maßeinheit besitzt und in der Praxis meist in Prozent angegeben wird. Er ist vor allem in zweierlei Hinsicht von praktischer Bedeutung: 1. Der Variationskoeffizient wird als eine Maßzahl benutzt, um einschätzen zu können, wie gut das arithmetische Mittel alle Einzelwerte repräsentiert. Dabei verwendet man die folgende Faustregel: Ein Variationskoeffizient größer als 0.5 bzw. 50% ist ein Indiz dafür, dass der Durchschnitt wegen einer zu großen Streuung kein geeigneter statistischer Repräsentant der Einzelwerte ist. 2. Der Variationskoeffizient ist eine geeignete Maßzahl für den Streuungsvergleich von gleich und/oder unterschiedlich dimensionierten Merkmals. BS. 3. 1. (Fortsetzung) 1. Nichtgruppiert v= 1.14 ≈ 0.07 . 16.30 v= 1.07 ≈ 0.07 16.40 2. Gruppiert 6 BS. 4. 1. Ein Fachgeschäft für Schrauben weist an einem bestimmten Wochentag folgende Verkaufszahlen in den Abteilungen A1 und A2 : Abteilung A1 Verkaufsbetrag Anzahl der [€] Verkäufe 16.00 8 30.00 20 40.00 16 50.00 12 60.00 4 Abteilung A2 Verkaufsbetrag Anzahl der [€] Verkäufe 4 [1.50, 2.50[ [2.50, 3.50[ [3.50, 4.50[ [4.50, 5.50[ [5.50, 6.50[ [6.50, 7.50[ 8 20 4 2 2 1. Nennen und charakterisieren Sie das statistische Merkmal. 2. Berechnen Sie für jede Abteilung den durchschnittlichen Verkaufsbetrag. 3. Überprüfen Sie die Richtigkeit folgender Aussage mithilfe der entsprechenden Variationskoeffizienten: „Die Verkaufsbeträge in der Abteilung A1 streuen stärker als in der Abteilung A2 .“ Lösung: 1. Das Merkmal hießt: verkaufte Beträge. Es handelt sich (praktisch) um ein diskretes Merkmal. 2. und 3. Abteilung A1 : Arbeitstabelle _ x= aj H (a j ) a j ⋅ H (a j ) (a j − 36.80)2 ⋅ H (a j ) 16 30 40 50 60 8 20 16 12 4 60 128 600 640 600 240 2208 3461.12 924.80 163.84 2090.88 2152.96 8793.60 2208 = 36.80 €, 60 s2 = 8793.60 = 149.04, 59 7 s ≈ 12.21, v ≈ 0.33. . Abteilung A2 : Arbeitstabelle (mi − 3.95)2 ⋅ H i 2 mi ⋅ H i 8 8 3 24 7.220 20 4 80 0.050 4 5 20 4.410 2 6 12 8.405 2 7 14 18.605 158 53.900 Ki Hi mi [1.50, 2.50[ [2.50, 3.50[ [3.50, 4.50[ [4.50, 5.50[ [5.50, 6.50[ [6.50, 7.50[ 4 40 _ x= 158 = 3.95 €, 40 s2 = 53.9 = 1.38, 39 s ≈ 1.18, 15.210 v ≈ 0.30. . Wegen vA1 = 0.33 > 0.30 = v A2 ist die Aussage „Die Verkaufsbeträge in der Abteilung A1 streuen stärker als in der Abteilung A2 “ wahr. D. 4. 7. (k-tes Zentralmoment) Das k − te Zentralmoment von n kardinalskalierten Merkmalswerten ist gegeben durch: _ 1 n M k := ∑ ( xi − x) n i =1 k (für ein nichtgruppiertes Datenmaterial) k M k := _ 1 p ( m − x ∑ i ) ⋅ Hi n i =1 (für ein gruppiertes Datenmaterial) B. 4. 9. Die Varianz ist gleich M 2 . D. 4. 8. (Schiefe) Die Schiefe der Verteilung eines kardinalskalierten Merkmals X sei gegeben durch: S := M3 s3 B. 4. 10. Die Schiefe gibt an, ob die Werte der Verteilung vom Modus aus links ( S > 0 ) oder rechts ( S < 0 ) schneller abfallen; das „lange Ende“ der Verteilung ist jeweils auf der anderen Seite. Im ersten Falle ist die Verteilung linkssteil bzw. rechtsschief; im zweiten Falle rechtssteil bzw. linksschief. 8 BS. 3. 1. (Fortsetzung) 1. Nichtgruppiert 6.32775 S = 30 3 ≈ 0.14 . 1.14 2. Gruppiert Hi mi (mi − 16.40)3 ⋅ H i 2 11 7 10 30 14.5 15.5 16.5 17.7 -13.718 -8.019 0.007 21.970 0.240 0.240 S = 30 3 ≈ 0.007 . 1.07 B. 4. 11. (Weitere Schiefemaße) Es gibt weitere Schiefemaße, u. a. 1. Das Schiefemaß aus den Quartilen: ~ S ~ := ~ ~ x 0.75 + x 0.25 − 2 x 0.50 ~ ~ x 0.75 − x 0.25 xα ( − 1 ≤ S ~ ≤ +1) . xα 2. Das Schiefemaß nach Pearson: _ x− M S P := s ( − 1 ≤ S P1 ≤ +1) . 3. Das Schiefemaß nach Yule-Pearson: _ 3 x − Me SY − P := s ( − 3 ≤ S P 2 ≤ +3) . BS. 3. 1. (Fortsetzung) 1. Nichtgruppiert: S~ = xα 17.05 + 15.60 − 2 ⋅16.20 ≈ 0.17, 17.05 − 15.60 9 SP = 16.30 − 15.60 = 0.61, 1.14 SY − P = 3 (16.30 − 16.20 ) 1.14 ≈ 0.26 . 2. Gruppiert S~ ≈ xα SP ≈ 17.35 + 15.50 − 2 ⋅16.29 ≈ 0.15, 17.35 − 15.50 16.40 − 15.69 ≈ 0.66, 1.05 SY − P ≈ 3 (16.40 − 16.29 ) 1.14 ≈ 0.29 . D. 4. 8. (Exzess, Wölbung, „Kurtosis“) Der Exzess der Verteilung eines kardinalskalierten Merkmals X sei gegeben durch: K := M4 −3 s4 (für eine Stichprobe), n ( n + 1) 3 ( n − 1) M K := ⋅ 44 − ( n − 1)( n − 2 )( n − 3) d ( n − 2 )( n − 3) 2 (für eine Grundgesamtheit). B. 4. 12. Der Exzess ist ein Maß für die relative „Flachheit“ einer Verteilung (im Vergleich zur Normalverteilung, die einen Exzess von null aufweist.). Ein positiver Exzess zeigt eine spitz zulaufende Verteilung (eine sog. Leptokurtische Verteilung), wohingegen ein negativer Exzess eine flache Verteilung (platykurtische Verteilung) anzeigt. Hier zwei Beispiele von Verteilungen mit unterschiedlichem Exzess: 10 BS. 3. 1. (Fortsetzung) 1. Nichtgruppiert: 101.01425 30 K= − 3 ≈ −1.01 1.144 2. Gruppiert: Hi mi (mi − 16.40)4 ⋅ H i 2 11 7 10 30 14.5 15.5 16.5 17.7 26.0642 7.2171 0.0007 28.561 61.843 61.843 K ≈ 30 4 − 3 ≈ −1.43 1.07 11 (Letzte Aktualisierung: 20.04.09) 12