Auswertung univariater Datenmengen - deskriptiv Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 1 Lage- und Streuungsparameter IV Bibliografie ¾ Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.2 ¾ Bleymüller/Gehlert/Gülicher; Statistik für Wirtschaftswissenschaftler Verlag Vahlen ¾ Bleymüller/Gehlert; Formeln, Tabellen und Programme Verlag Vahlen Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 2 Lage- und Streuungsparameter IV 1 Varianz - Beispiel Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von 65 kg die empirische Varianz wie folgt: Name Nr. i xi (x i - µ) 2 Lisa 1 44 Anna 2 46 Antje 3 50 Marie 4 54 Dörte 5 56 Sven 6 69 Uwe 7 72 Kai 8 78 Jan 9 80 Nils 10 101 441 361 225 121 81 16 49 169 225 1296 Summe=2.984 kg² σ2 = 1 ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ² 10 Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit wie das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 3 Lage- und Streuungsparameter IV Standardabweichung Die (empirische) Standardabweichung ist die positive Wurzel aus der (empirischen) Varianz. Es gilt: σ = σ² Die Standardabweichung besitzt die gleiche Dimension wie die Merkmalsausprägungen und deren Mittelwert, sie ist zur Interpretation daher besser geeignet als die Varianz. Die Standardabweichung ist genau dann gleich Null, wenn alle Daten den gleichen Wert haben (a1 = a2 = … = aN ). Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 4 Lage- und Streuungsparameter IV 2 Standardabweichung - Beispiel Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von 65 kg die empirische Varianz wie folgt: Name Nr. i xi (x i - µ) 2 Lisa 1 44 Anna 2 46 Antje 3 50 Marie 4 54 Dörte 5 56 Sven 6 69 Uwe 7 72 Kai 8 78 Jan 9 80 Nils 10 101 441 361 225 121 81 16 49 169 225 1296 Summe=2.984 kg² σ2 = σ = 1 ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ² 10 298,4 = 17,274 σ = σ2 Die Streuung des Gewichtes, gemessen mit der Standardabweichung, beträgt 17,274 kg. Zum Vergleich: die mittlere absolute Abweichung gegenüber dem arithmetischen Mittel beträgt 15 kg. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 5 Lage- und Streuungsparameter IV Varianz und Standardabweichung - Beispiel Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt) In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, … vor: Bundesland Bevölkerungs- Erwerbsanteil (%) tätige (Tsd.) Erwerbsquote (%) HB 4,8 385 53,5 HH 11,6 1.048 60,2 MV 11,8 730 41,2 NI 53,0 3.482 43,8 SH 18,8 1.230 43,6 Erwerbsquote Norddeutschland 45,8 Berechnen Sie Varianz und Standardabweichung der Erwerbsquote. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik σ² = (0,535-0,458)² 0,048 + + (0,602-0,458)² 0,116 + (0,412-0,458)² 0,118 + (0,438-0,458)² 0,530 + (0,436-0,458)² 0,188 σ² = 0,003242 σ = 0,056939 Die einzelnen Bundesländer liegen durchschnittlich 5,7 Prozentpunkte vom Wert der Erwerbsquote für Norddeutschland entfernt. Bereich EWQ 40,1% bis 51,5% 6 Lage- und Streuungsparameter IV 3 Varianz und Standardabweichung - Beispiel Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt) In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung … und Bruttoinlandsprodukt vor: Bundesland Bevölkerungsanteil (%) BruttoinlandsProdukt (Mrd. €) BIP je Einwohner (Tsd. €) HB 4,8 23,4 32,5 HH 11,6 75,5 43,4 MV 11,8 29,7 16,8 NI 53,0 180,4 22,7 SH 18,8 66,0 23,4 BIP je Einwohner Norddeutschland 25,0 Berechnen Sie die Varianz und Standardabweichung des BIP je Einwohner (in Tausend Euro). Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik σ² = (32,5-25)² 0,048 + + (43,4-25)² 0,116 + (16,8-25)² 0,118 + (22,7-25)² 0,530 + (23,4-25)² 0,188 σ² = 53,192 σ = 7,293 Die einzelnen Bundesländer liegen durchschnittlich 7.293 € vom Wert des BIP je Einwohner von 25.000 € entfernt. Bereich BIP/EW 17,7 bis 32,3 (Tausend Euro). 7 Lage- und Streuungsparameter IV Sigma-Bereiche - Beispiel In den Beispielen wird eine Interpretation der Standardabweichung vorgenommen, welche die Bereichsangabe um das arithmetische Mittel benutzt. Man benutzt diese in der beschreibenden Statistik auch als anschauliche Interpretation folgender Art: • im 2-Sigma-Bereich um das arithmetische Mittel liegen mindestens 75% der Daten, W(|X-µ|<2σ)=W(µ-2σ<X< µ+2σ)≥0,75 • im 3-Sigma-Bereich um das arithmetische Mittel liegen mindestens 89% der Daten. W(|X- µ|<3σ)=W(µ-3σ<X< µ+3σ)≥0,89 Diese Aussagen gehen auf die Tschebyscheff-Ungleichung der Wahrscheinlichkeitsrechnung zurück. Es ist allerdings Vorsicht geboten bei „kleinen Mengen“, wie beim Beispiel hochaggregierter Regionaldaten. Die Interpretation wird in diesen Beispielen sachbezogen vorgenommen, um eine Vorstellung der Differenziertheit der Bundesländer zu gewinnen. Die einzelnen Bundesländer liegen durchschnittlich 5,7 Prozentpunkte vom Wert der Erwerbsquote für Norddeutschland entfernt. Bereich (µ-σ<X<µ+σ) für EWQ 40,1% bis 51,5% Die einzelnen Bundesländer liegen durchschnittlich 7293 € vom Wert des BIP je Einwohner von 25000 € entfernt. Bereich BIP/EW 17,7 bis 32,7 (Tausend Euro). Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 8 Lage- und Streuungsparameter IV 4 Tschebyscheff-Ungleichung Sei X ein Zufallsvariable mit Erwartungswert µ und Varianz σ². Dann gilt für alle reellen Zahlen k>0: W( X − µ < k σ ) ≥ 1 − 1 k2 Die Ungleichung gibt eine untere Grenze für die Wahrscheinlichkeit an, dass ein Wert einer Zufallsvariable X mit endlicher Varianz innerhalb eines bestimmtes Bereiches um den Erwartungswert der Variable liegt. Damit ist auch eine obere Grenze für die Wahrscheinlichkeit angegeben, dass die Werte außerhalb dieses Bereiches liegen. Der Satz lässt sich auch auf Verteilungen anwenden, die nicht "glockenförmig" sind und setzt Grenzen dafür, wie viele der Daten "in der Mitte" liegen und wie viele nicht. Untere Grenze k 1-1/k² 1 0 2 0,75 3 8/9 ≈ 0,89 Nur für k>1 liefert die Ungleichung eine nützliche Information. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 9 Lage- und Streuungsparameter IV Teilgesamtheiten und Grundgesamtheit - Beispiel Beobachtungswerte können in Teilmengen (Teilgesamtheiten) vorliegen, die zu einer Gesamtmenge zusammengefasst werden können. Beispiel: Fasst man die 250 betrachteten Fahrzeuge als Gesamtmenge auf, so lässt sich diese z. B. nach der Karosserieform in Teilmengen untergliedern. Limousinen, Kombis, Stufenheck- und Großraumlimousinen lassen sich umgekehrt wieder zur Gesamtmenge zusammenführen (aggregieren). Allgemein: Teilmenge 1 : Teilmenge i : Teilmenge k Merkmalswert 1 a1 1 .. Merkmalswert j a1 j .. Merkmalswert N a1 N ai1 aij aiN ak 1 ak j akN i = 1, . . ., k Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik j = 1, . . ., Ni 10 Lage- und Streuungsparameter IV 5 Varianzzerlegung k µk N = ∑ Ni i =1 µ1 σ N2 N1 k µ=∑ i =1 Ni 0 [ k 1 k Ni (a ij − µ )2 ∑∑ N i =1 j=1 2 ] 1 σ = ∑∑ (a ij − µ i ) + (µ i − µ ) N i =1 j=1 2 Ni ⋅ µi N σ2 = Nk µ2 σ 22 2 1 σ 2k Arithmetisches Mittel der Gesamtheit Arithmetisches Mittel der Teilgesamtheit i Aus dieser Formel und mit Hilfe mathematischer Transformationen lässt sich die Varianz der Grundgesamtheit in zwei Summen zerlegen. Die erste Summe liefert die durchschnittliche Varianz innerhalb der Teilgesamtheiten und die zweite den durchschnittlichen Abstand (Varianz) zwischen den Teilgesamtheiten. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 11 Lage- und Streuungsparameter IV Varianzzerlegungssatz Für eine Grundgesamtheit, die aus k Teilgesamtheiten mit den Umfangen N1, N2, …, Nk, den arithmetischen Mitteln µ1, µ2, …, µk und den Standardabweichungen σ1, σ2, …, σk besteht, ergibt sich die Varianz: µk σ 2k Nk µ1 σ 2 1 σ2 = 1 k 1 k 2 2 N ⋅ σ + N i (µ i − µ ) ∑ ∑ i i N i =1 N i =1 σ2 = ∑ µ2 σ 22 N2 N1 oder k i =1 1. Summand: Varianz innerhalb der jeweiligen Gruppe, Schicht, Teilgesamtheit k Ni N 2 ⋅ σ i2 + ∑ i (µ i − µ ) N i =1 N 2. Summand: Varianz zwischen den Gruppen, Schichten, Teilgesamtheiten k mit N = ∑ Ni i =1 und N µ = ∑ i ⋅ µi i =1 N k Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Die Varianz der Gesamtheit ergibt sich aus der Summe der Gruppenvarianzen (Teilgesamtheiten) und der Varianz zwischen den Gruppen (Teilgesamtheiten). 12 Lage- und Streuungsparameter IV 6 Varianzzerlegung - Interpretation Bei Verwendung der relativen Häufigkeiten der Teilgesamtheiten gilt für die Varianz der Gesamtheit: k σ2 = ∑ i =1 Ni 2 k Ni (µ i − µ )² ⋅ σi + ∑ N i =1 N Anteilwerte für jeweilige Gruppenstärke (Gruppengewicht) k k σ = ∑ f i ⋅ σ + ∑ f i ⋅ (µ i − µ )² 2 2 i i =1 i =1 Gewichtetes Mittel der Abweichungen der Mittelwerte der Teilgesamtheiten vom Gesamtmittel: externe Varianz Gewichtetes Mittel aus den Varianzen der Teilgesamtheiten: interne Varianz Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 13 Lage- und Streuungsparameter IV Varianzzerlegung - Beispiel Beispiel: Die 10 Personen werden mit ihren Gewichtsangaben in zwei 5 Gruppen nach dem Geschlecht aufgeteilt : (x 1i − 50)2 ∑ Name Lisa Anna Antje Marie Dörte 2 i =1 σ1 = = 20,8 xi 44 46 50 54 56 5 Die Varianz für die erste Teilmenge beträgt 20,8 kg², der Mittelwert 50 kg. 5 Name xi Sven 69 Uwe 72 Kai 78 Jan 80 Nils 101 σ = 2 2 ∑ (x i =1 − 80) 2 2i 5 = 126 Die Varianz für die zweite Teilmenge beträgt 126 kg², der Mittelwert 80 kg. σ2 = 1 1 ⋅ ((5 ⋅ 20,8) + (5 ⋅126)) + (5 ⋅ (50 − 65)² + 5 ⋅ (80 − 65)² ) = 73,4 + 225 = 298,4 10 10 Interne Varianz: 73,4 [kg²] Externe Varianz: 225 [kg²] Die Varianz der Gesamtmenge beträgt 298,4 kg², wobei 225 kg² auf die Varianz zwischen den Teilmengen zurückzuführen sind. Verglichen mit den gruppeninternen Varianzen von 20,8 kg² und 126 kg² zeigt sich, dass die Differenzierung zwischen den Geschlechtern größer ist als innerhalb der Gruppen. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 14 Lage- und Streuungsparameter IV 7 Varianzzerlegung - Beispiel Beispiel: Die Quadratmeterpreise bei Wohnungsmieten wurden für 815 Wohnungen in Berlin untersucht. Dabei wurden entsprechend der Lage der Wohnungen zwei Gruppen gebildet (Westberlin, Ostberlin): Für die gesamte Erhebung stellt sich die Verteilung wie folgt dar: 200 SPSS-Ausdruck für Gesamtheit (Berlin) 100 Std.abw. = 5,15 Mittel = 17,8 N = 815,00 0 0 6, ,0 46 ,0 42 ,0 38 ,0 34 ,0 30 ,0 26 ,0 22 ,0 18 ,0 14 ,0 10 Preis (DM/m²) 15 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter IV Varianzzerlegung -Beispiel Für die Teilmengen (Westberlin, Ostberlin) stellt sich die Verteilung wie folgt dar: SPSS Ausdruck für Westberlin SPSS Ausdruck für Ostberlin 100 60 50 80 40 60 30 40 20 20 Std.abw. = 4,96 10 Std.abw. = 4,39 Mittel = 19,8 N = 421,00 0 N = 394,00 ,0 26 ,0 24 ,0 22 ,0 20 ,0 18 ,0 16 ,0 14 ,0 12 ,0 10 0 8, 0 6, ,0 46 ,0 42 ,0 38 ,0 34 ,0 30 ,0 26 ,0 22 ,0 18 ,0 14 ,0 10 0 6, Preis (DM/m²) Mittel = 15,6 0 Preis (DM/m²) Aus den vorliegenden Angaben lässt sich die Varianz zwischen und innerhalb der Teilmengen ermitteln. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 16 Lage- und Streuungsparameter IV 8 Varianzzerlegung – Beispiel Anzahl N Berlin 815 26,431 17,8 Ost 394 19,2721 15,6 West 421 24,6016 19,8 σ2 = Es gilt die Beziehung: Varianz Mittelwert σ2 = 1 N k ∑ i =1 N i ⋅ σ i2 + 1 N k ∑ N i =1 i (µ i − µ )2 1 1 (394 ⋅ (15,6 − 17,8)² + 421⋅ (19,8 − 17,8)² ) ⋅ (394 ⋅ 19,2721 + 421 ⋅ 24,6016) + 815 815 26,431 = 22,025 + 4,406 Die Varianz der Gesamtmenge beträgt 26,431 (DM/qm)², wobei 4,4 (DM/qm)² auf die Varianz zwischen den Teilmengen zurückzuführen ist. Verglichen mit den gruppeninternen Varianzen von 19,27 (DM/qm)² und 24,6 (DM/qm)² zeigt sich, dass die Differenzierung innerhalb der Teilmengen größer ist als zwischen den beiden Gruppen. Dieses Ergebnis kann auch dazu benutzt werden, um Gruppierungen vorzunehmen oder nicht. Der Anteil der externen Varianz liefert eine Begründung für Gruppierungen. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 17 Lage- und Streuungsparameter IV Lagetransformation der Daten Lineare Transformation der Ursprungsdaten: Fall 1: σ 2Y = σ 2X Y = a+ X yi = a+ x i Die Varianz der transformierten Werte ist gleich der Varianz der Ursprungswerte, da lediglich ein „Sockel“ eingefügt wird: Mittelwert a Mittelwert a Die Abstände zwischen Merkmalswerten und Mittelwert bleiben gleich, die Varianz verändert sich nicht. Die Varianz ist lage-invariant. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 18 Lage- und Streuungsparameter IV 9 Lineare Transformation der Daten σ 2Y = b 2 ⋅ σ 2X Fall 2: Y = a + b⋅ X y i = a + b⋅ x i Die Varianz der transformierten Werte ist um den Faktor b² größer als die Varianz der Ursprungswerte, denn neben dem Sockel (a) sind die Merkmalswerte durch die Multiplikation mit b „gespreizt“. y.b y a Die Differenz zwischen Merkmalswert und Mittelwert ist um den Faktor b größer, der Faktor b geht mit seinem Quadrat in die Varianz ein. Die Varianz ist skalen-äquivariant. 19 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Lage- und Streuungsparameter IV Lineare Transformation der Daten - Beispiel Frage: Beeinflusst die Inflation auch die Streuung der Konsumausgaben? Es liegen für zwei Betrachtungszeiträume die Konsumausgaben von privaten Haushalten (HH) vor, diese seien von 100 auf 120 Prozent gestiegen: 1990 HH 1 HH 2 HH 3 HH 4 HH 5 HH 6 HH 7 Konsumausgaben 20 TDM 22 TDM 18 TDM 25 TDM 23 TDM 18 TDM 22 TDM X 1998 = 1,2 ⋅ X 1990 σ 2 = 5,837 TDM ² und µ = 21,14 TDM 1998 HH 1 HH 2 HH 3 HH 4 HH 5 HH 6 HH 7 Konsumausgaben 24 TDM 26,4 TDM 21,6 TDM 30 TDM 27,6 TDM 21,6 TDM 26,4 TDM σ 2 = 8,405 TDM ² und µ = 25,37 TDM Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik µ 1998 = 1,2 ⋅ µ 1990 2 2 σ 1998 = 1,2 2 ⋅ σ 1990 20 Lage- und Streuungsparameter IV 10 Lineare Transformation der Daten - Beispiel Die relative Position der Haushalte zueinander hat sich nicht verändert, lediglich aufgrund der Inflation sind die einzelnen Verbrauchsausgaben um den Faktor 1,2 gestiegen (Ausgabenerhöhung um 20%). Folglich ist der Abstand zwischen Merkmalswert und Mittelwert um den Faktor 1,2 größer, woraus sich für die Varianz der Faktor 1,2² ergibt. Y = a + b⋅ X σ 2Y = b 2 ⋅ σ 2X σ 2 = 8,405 TDM ² = 1,2 2 ⋅ 5,837 TDM ² Werden Analysen über die Verteilung von Merkmalen zu verschiedenen Zeiten erstellt, so ist eine größere (kleinere) Varianz nicht zwingend ein Beleg für die Zunahme (Abnahme) der Differenziertheit der Objekte und ihrer Merkmale. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 21 Lage- und Streuungsparameter IV Beurteilung von Varianz und Standardabweichung ¾ Varianz und Standardabweichung sind die gebräuchlichsten Streuungsmaße, sie sind jedoch weniger anschaulich als die mittlere absolute Abweichung. ¾ Varianz und Standardabweichung sind bei linearer Transformation (Fall 1) der Ursprungswerte unempfindlich. ¾ Die Transformation (Fall 2) bewirkt eine um das Quadrat des Faktors veränderte Varianz. ¾ Die Varianz einer Gesamtmenge ergibt sich aus der Summe von interner (innerhalb der Gruppen) und externer (zwischen den Gruppen) Varianz. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 22 Lage- und Streuungsparameter IV 11 Variationskoeffizient Interessiert die Streuung nicht in ihrer absoluten Größe, sondern in ihrer Relation zu einem Lageparameter, ermittelt man den Variationskoeffizienten (VC): VC = σ µ Der Variationskoeffizient gibt die relative Streuung an, das Verhältnis der durchschnittlichen Abweichungen aller Einzelwerte gegenüber dem Mittelwert. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 23 Lage- und Streuungsparameter IV Variationskoeffizient - Beispiel Beispiel: Variiert bei den 250 Autos die Leistung oder der Hubraum stärker? Deskriptive Statistik N Hubraum [ccm] Leistung [PS] Gültige Werte (Listenweise) 250 250 Mittelwert 1947,28 125,37 Standardab weichung 770,599 57,418 vgl. auto_250.xls bzw. auto_250.sav 250 Ein Vergleich der beiden Varianzen/Standardabweichungen liefert keine verwertbare Aussage, da Leistung und Hubraum unterschiedlich dimensioniert sind. Die relative Streuung, der Variationskoeffizient, objektiviert den Vergleich beider Merkmale . VC Leistung = 57,478 PS = 0,458 125,37 PS VC Hubraum = 770,6 cm ³ = 0,396 1.947,28 cm ³ Interpretation: Die Leistung streut stärker als der Hubraum, die Variation der Leistung ist größer als die Variation des Hubraums der 250 Autos. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 24 Lage- und Streuungsparameter IV 12 Variationskoeffizient - Beispiel Beispiel: Im Sozioökonomischen Panel* wurden für die Jahre 1996 und 2002 u.a. das persönliche Nettoerwerbseinkommen und das persönliche Gesamteinkommen erhoben. Es beträgt: 1996 (DM) 2002 (Euro) Persönliches Nettoerwerbseinkommen (DM,€) µ=52.000 σ=8.320 µ=28.000 σ=4.480 Persönliches Gesamteinkommen (DM,€) µ=80.000 σ=25.600 µ=42.000 σ=16.800 *Das Sozioökonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung privater Haushalte in Deutschland. Sie wird im jährlichen Rhythmus seit 1984 bei denselben Personen und Familien (Längsschnittuntersuchung) in der Bundesrepublik durchgeführt. Das SOEP deckt ein weites Themenspektrum ab. Es liefert Informationen u. a. über: •Haushaltszusammensetzung, Wohnsituation; •Erwerbs- und Familienbiographien; •Erwerbsbeteiligung und berufliche Mobilität; •Einkommensverläufe; •Gesundheit; Lebenszufriedenheit und gesellschaftliche Partizipation. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 25 Lage- und Streuungsparameter IV Variationskoeffizient - Beispiel Beide erhobenen Merkmale sind zwar gleich dimensioniert, jedoch ist aufgrund der zeitlichen Abstände sowie der unterschiedlichen Merkmalsausprägungen der direkte Vergleich nur eingeschränkt möglich. 1996 (DM) 2002 (Euro) Persönliches Nettoerwerbseinkommen (DM,€) µ=52.000 σ=8.320 µ=28.000 σ=4.480 Persönliches Gesamteinkommen (DM,€) µ=80.000 σ=25.600 µ=42.000 σ=16.800 Geeigneter als die absoluten Maßzahlen ist der Variationskoeffizient: 8.320 52.000 = 0,16 4.480 28.000 = 0,16 25.600 80.000 = 0,32 VC Netto 96 = VC Netto 02 = VC Gesamt 96 = VC Netto 96 VC Netto 02 VC Gesamt 96 16.800 42.000 = 0,40 VC Gesamt 02 = VC Gesamt 02 Es zeigt sich, dass die relative Streuung beim Nettoerwerbseinkommen unverändert ist. Dagegen streut das Gesamteinkommen deutlich stärker als das Nettoerwerbseinkommen, wobei sich diese Tendenz noch fortsetzt. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 26 Lage- und Streuungsparameter IV 13 Beurteilung des Variationskoeffizienten ¾ Der Variationskoeffizient ist ein relatives Streuungsmaß. ¾ Er ist dimensionslos, da Standardabweichung und Mittelwert die selbe, sich im Bruch wegkürzende Dimension haben. ¾ Der Variationskoeffizient ist vor allem für die vergleichende Beurteilung von unterschiedlichen Merkmalen geeignet. ¾ Seine Berechnung ist strenggenommen nur für Merkmale sinnvoll, die auf einer Verhältnisskala gemessen werden können und einen absoluten Nullpunkt haben. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 27 Lage- und Streuungsparameter IV Zusammenfassung der behandelten Streuungsmaße ¾ Mittlere absolute Abweichung sowie Varianz und Standardabweichung basieren auf der mittleren Abweichung aller Einzelwerte von ihrem Mittelwert. ¾ Spannweite und Quartilsabstand basieren auf Differenzen zwischen Merkmalswerten. ¾ Streuungsmaße sind in Abhängigkeit von der Skalierung der Merkmalswerte zu verwenden. ¾ Ein sehr anschauliches Maß, vor allem bei ökonomischen Sachverhalten, ist die mittlere absolute Abweichung. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 28 Lage- und Streuungsparameter IV 14 Zusammenfassung der behandelten Streuungsmaße ¾ Varianz und Standardabweichung finden vor allem wegen ihrer mathematischen Eigenschaften breite Anwendung. ¾ Varianz und Standardabweichung haben folgende Eigenschaften: • Zerlegung/Aggregation von Streuungen für Gesamtheit/ Teilgesamtheit • Reaktion auf Datentransformation ist berechenbar • Die Summe der quadrierten Abweichungen von einem Bezugspunkt p ist minimal, wenn man p= arithmetisches Mittel wählt (Minimumeigenschaft gegenüber arithmetischem Mittel) Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 29 Lage- und Streuungsparameter IV 15