Auswertung univariater Datenmengen - deskriptiv ¾ Mittlere absolute Abweichung (Desviation) ¾ Varianz ¾ Standardabweichung ¾ Variationskoeffizient ¾ Standardisierung Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 1 Bibliografie ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen Statistik für Wirtschaftswissenschaftler ¾ Bleymüller / Gehlert Verlag Vahlen Statistische Formeln, Tabellen und Programme ¾ PowerPointPräsentationen (Prof. Kück/ Dr. Ricabal), ¾ Vorlesungsskript für Statistik I (Dr. Pu Chen), ¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat1/ Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 2 Mittlere absolute Abweichung (Desviation) ¾ Die mittlere absolute Abweichung wird meist gegenüber dem arithmetischen Mittel gebildet. ¾ Grundlage der Streuungsberechnung sind die Abweichungen aller Einzelwerte vom Mittelwert. ¾ Die mittlere absolute Abweichung ist das arithmetische Mittel aller Einzelabweichungen zum arithmetischen Mittel. 1 N MAD = ∑ a i − µ N i =1 Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 3 Beispiel: Mittlere Absolute Abweichung Für die Gewichte der 10 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von 65 kg folgende Mittlere Absolute Abweichung. Name Nr. i xi Lisa 1 44 Anna 2 46 Antje 3 50 Marie Dörte 4 5 54 56 Sven 6 69 Uwe 7 72 Kai 8 78 Jan 9 80 Nils 10 101 MAD= Nils Jan Kai Uwe Sven Dörte Marie Antje Anna Lisa 120 100 80 60 40 20 0 1 (| 44 − 65 | + | 46 − 65 | + | 50 − 65 | +...+ | 101− 65 |) = 15 10 Man erhält als mittlere absolute Abweichung 15 kg. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 4 Mittlere absolute Abweichung für gehäufte Daten Liegen die Daten gehäuft vor, dann gilt: Anzahl der verschiedenen Merkmalsausprägungen absolute Häufigkeit der jeweiligen Ausprägung relative Häufigkeit der jeweiligen Ausprägung k 1 k MAD = ∑ x i − µ ⋅ h i = ∑ x i − µ f i N i =1 i =1 gehäufte Merkmalsausprägung Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 5 Mittlere absolute Abweichung für klassierte Daten Liegen die Daten klassiert vor, dann gilt: Anzahl der Klassen MAD = absolute Häufigkeit der jeweiligen Klasse relative Häufigkeit der jeweiligen Klasse k 1 k ' x − µ ⋅ h = x i' − µ f i ∑ ∑ i i N i =1 i =1 Klassenmitte Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 6 Beispiel: mittlere absolute Abweichung für klassierte Daten Für die in Gewichtsklassen erfassten 100 Personen ergibt sich bei einem arithmetischen Mittel von (gerundet) 60 kg: Klasse von… Relative Absolute bis unter… Häufigkeit Differenz 42,5 bis 47,5 0,04 15 47,5 bis 52,5 0,18 10 52,5 bis 57,5 0,26 5 57,5 bis 62,5 0,20 0 62,5 bis 67,5 0,12 5 67,5 bis 72,5 0,09 10 72,5 bis 77,5 0,05 15 77,5 bis 82,5 0,03 20 82,5 bis 87,5 0,02 25 87,5 bis 92,5 0,01 30 Mittlere absolute Abweichung: Spalte 2* Spalte 3 0,60 1,80 1,30 0,00 0,60 0,90 0,75 0,60 0,50 0,30 7,35 Interpretation: Bei einem arithmetischen Mittel von (gerundet) 60 kg weichen die Einzelgewichte der 100 Personen durchschnittlich um 7,35 kg ab. Damit wird ein Streubereich von 52,65 kg bis unter 67,35 kg ausgewiesen. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 7 Mittlere absolute Abweichung gegenüber dem Median (MAD*) Wenn als Lageparameter der Verteilung der Median verwendet wird, dann ist die Angabe der mittleren absoluten Abweichung gegenüber dem Median aussagefähig. Median MAD* = 1 k ∑ x i − Me ⋅ h i N i =1 MAD* ist das arithmetische Mittel aller Abweichung der Einzelwerte gegenüber dem Median, d.h. es gibt gleich viele negative wie positive Abweichungen gegenüber dem Median. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 8 Median der absoluten Abweichungen gegenüber dem Median (MAD** ) Es ist auch sinnvoll, anstelle des arithmetischen Mittels den Median der Abweichungen zu bestimmen: MAD** = Me({a 1 − Me ,..., a N − Me }) Abweichung zwischen Wert 1 und Median der Verteilung MAD** gibt den Median aller Abweichung der Einzelwerte gegenüber dem Median an. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 9 Beispiel: Beide mittlere absolute Abweichungen gegenüber dem Median Für das Körpergewicht der 10 etwa gleichaltrigen Personen ergibt sich bei einem Median von 62,5 kg der Zentralwert der Abweichungen wie folgt: Nr. i 1 xi 44 |xi - Me| 18,5 2 46 16,5 3 50 12,5 4 54 8,5 5 56 6,5 6 69 6,5 7 72 9,5 8 78 15,5 9 80 17,5 10 101 38,5 Summe=150 kg ¾ Das arithmetische Mittel der Abweichungen (MAD*) beträgt 15 kg. Abweichungen absolut, der Größe nach geordnet: Abw. 6,5 6,5 8,5 9,5 12,5 15,5 16,5 17,5 18,5 38,5 ¾ Der Zentralwert der Abweichungsbeträge (MAD**) ist 14 kg. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 10 Beurteilung der mittleren absoluten Abweichung ¾ Die mittlere absolute Abweichung ist eine sehr anschauliche und plausible Maßzahl der Streuung. ¾ Allen Abweichungen wird der Betrag berechnet, damit sich die positiven und die negativen Abweichungen in der Summe nicht aufheben. ¾ Für asymmetrische Verteilungen ist es sinnvoll, die mittlere absolute Abweichung für den oberen und für den unteren Bereich getrennt zu ermitteln. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 11 Beurteilung der mittleren absoluten Abweichung f(x) Unterer Bereich Für asymmetrische Verteilungen ergeben sich für den unteren und für den oberen Bereich unterschiedliche mittlere Abstände. Oberer Bereich x Arithmetisches Mittel f(x) Für symmetrische Verteilungen sind die Abstände des unteren und des oberen Bereiches gleich bzw. annähernd gleich. x Arithmetisches Mittel Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 12 Varianz Die Varianz ist das am häufigsten verwendete Streuungsmaß. Analog zur mittleren absoluten Abweichung werden die Abweichungen der Einzelwerte vom Mittelwert gebildet, diese jedoch quadriert. Größere Abweichungen fallen dadurch stärker ins Gewicht. Es gilt für Einzeldaten: Einzelabweichungen zwischen Beobachtungswerten und arithmetischem Mittel der Verteilung 1 N σ = ∑ (a i − µ )² N i =1 2 Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 13 Beispiel: Varianz Für das Gewicht der 10 betrachteten Personen berechnet man die Varianz bei einem arithmetischen Mittel von 65 kg wie folgt: Name Lisa Anna Antje Nr. i 1 2 3 Marie Dörte Sven Uwe Kai Jan Nils 4 5 6 7 8 9 10 xi 44 46 50 54 56 69 72 78 80 101 (xi - µ)2 441 361 225 121 81 16 49 169 225 1296 Summe=2.984 kg² 1 σ 2 = ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ² 10 Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit wie das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 14 Varianz - Berechnungsformel Bei der Varianzberechnung kann eine andere äquivalente Formel vorteilhaft sein, deren Herleitung gezeigt wird: σ2 = 1 N 2 ∑ai − µ2 N i =1 σ2 = 1 N N 2 ∑ (a i − µ ) i =1 = 1 N ∑ (a N i =1 2 i − 2 a iµ + µ 2 σ2 = N 1 N ( ∑ a i ² − 2 µ ∑ a i + Nµ 2 ) N i =1 i =1 σ2 = 1 N 2 1 ( ∑ a i − 2 Nµ 2 + Nµ 2 ) = N i =1 N Prof. Kück / Dr. Ricabal N ∑a i =1 2 i ) − µ2 Lage- und Streuungsparameter III 15 Varianz für gehäufte bzw. klassierte Daten Für gehäufte bzw. klassierte Merkmalsausprägungen ergibt sich die Varianz wie folgt: Anzahl der verschiedenen Merkmalsausprägungen bzw. der Klassen Absolute Häufigkeit des gehäuften Merkmals bzw. der jeweiligen Klasse Relative Häufigkeit des gehäuften Merkmals bzw. der jeweiligen Klasse k 1 k σ = ∑ (x i − µ )² ⋅ h i = ∑ (x i − µ )² ⋅ f i N i =1 i =1 2 Einzelabweichungen zwischen gehäuften Beobachtungswerten bzw. zwischen Klassenmitten und arithmetischem Mittel der Verteilung Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 16 Varianz für gehäufte bzw. klassierte Daten -BerechnungsformelOhne Herleitung sei auch hier die andere Varianzformel für gehäufte Daten angeführt: - - mit absoluten Häufigkeiten: ⎛ k ⎜ ∑ xi ⋅ hi 1 k 2 σ = ∑ x i ² ⋅ h i − ⎜ i =1 ⎜ N i =1 N ⎜ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 2 µ² mit relativen Häufigkeiten: ⎞ ⎛ k σ = ∑ x i ² ⋅ fi − ⎜ ∑ xi ⋅ fi ⎟ i =1 ⎠ ⎝ i =1 2 Prof. Kück / Dr. Ricabal k 2 Lage- und Streuungsparameter III 17 Beispiel: Varianzberechnung bei klassierten Daten Für das klassierte Gewicht der 100 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von (gerundet) 60 kg die Varianz wie folgt: Klasse i hi xi (Mitte) (xi - µ)2 hi σ2 = 1 4 45 900 2 18 50 1.800 1 k (x i − µ )2 ⋅ h i ∑ N i =1 σ2 = 3 26 55 650 4 20 60 0 5 12 65 300 6 9 70 900 7 8 9 5 3 2 75 80 85 1.125 1.200 1.250 10 1 90 900 Summe=9.025 kg² 1 2 2 2 [(45 − 60 ) ⋅ 4 + (50 − 60 ) ⋅18 + ... + (90 − 60 ) ⋅1] = 90,25 kg 2 100 Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 18 Standardabweichung Die Standardabweichung einer Grundgesamtheit ist die positive Wurzel aus der Varianz. Es gilt: σ = σ² Die Standardabweichung besitzt die gleiche Dimension wie die Merkmalsausprägungen und deren Mittelwert, sie ist zur Interpretation daher besser geeignet als die Varianz. Die Standardabweichung ist genau dann gleich Null, wenn alle Daten den gleichen Wert haben (a1 = a2 = … = aN ). Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 19 Beispiel: Standardabweichung Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von 65 kg die empirische Varianz wie folgt: Name Nr. i xi (x i - µ) 2 Lisa 1 44 Anna 2 46 Antje 3 50 Marie 4 54 Dörte 5 56 Sven 6 69 Uwe 7 72 Kai 8 78 Jan 9 80 Nils 10 101 441 361 225 121 81 16 49 169 225 1296 Summe=2.984 kg² 1 σ = ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ² 10 2 σ = 298,4 = 17,274 Die Streuung des Gewichtes, gemessen mit der Standardabweichung, beträgt 17,274 kg. Zum Vergleich: Die mittlere absolute Abweichung gegenüber dem arithmetischen Mittel beträgt 15 kg. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 20 Beurteilung von Varianz und Standardabweichung Varianz und Standardabweichung sind die gebräuchlichsten Streuungsmaße, weil sie freundliche mathematische Eigenschaften besitzen. Sie sind jedoch weniger anschaulich als die mittlere absolute Abweichung. ¾ Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit des untersuchten Merkmals selbst. Die Interpretation ist daher nicht sinnvoll. Große Abweichungen zum Mittelwert werden stärker gewichtet. ¾ Die Standardabweichung besitzt die gleiche Dimension wie die Merkmalsausprägungen und deren Mittelwert, sie ist zur Interpretation daher besser geeignet als die Varianz. ¾ Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 21 Variationskoeffizient Interessiert die Streuung nicht in ihrer absoluten Größe, sondern in ihrer Relation zum Mittelwert, ermittelt man den Variationskoeffizienten (VC): VC = σ µ Der Variationskoeffizient gibt die relative Streuung an, das Verhältnis der durchschnittlichen Abweichungen aller Einzelwerte gegenüber dem Mittelwert. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 22 Beispiel: Variationskoeffizient Variiert bei den 250 Autos die Leistung oder der Hubraum stärker? . Datendatei auto_250.xls Deskriptive Statistik N Hubraum [ccm] Leistung [PS] Gültige Werte (Listenweise) 250 250 Mittelwert 1947,28 125,37 Standardab weichung 770,599 57,418 250 Ein Vergleich der beiden Varianzen/Standardabweichungen liefert keine verwertbare Aussage, da Leistung und Hubraum unterschiedlich dimensioniert sind. Die relative Streuung, der Variationskoeffizient, objektiviert den Vergleich beider Merkmale besser. VC Leistung = 57,478 PS = 0,458 125,37 PS VC Hubraum = 770,6 cm ³ = 0,396 1.947,28 cm ³ Interpretation: Im Verhältnis zum Mittelwert streut die Leistung stärker als der Hubraum. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 23 Beurteilung des Variationskoeffizienten ¾ ¾ ¾ ¾ Der Variationskoeffizient ist ein relatives Streuungsmaß. Er ist dimensionslos, da Standardabweichung und Mittelwert die selbe, sich im Bruch wegkürzende Dimension haben. Der Variationskoeffizient ist vor allem für die vergleichende Beurteilung von unterschiedlichen Merkmalen geeignet. Seine Berechnung ist strenggenommen nur für Merkmale sinnvoll, die auf einer Verhältnisskala gemessen werden können und einen absoluten Nullpunkt haben. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 24 Varianzzerlegung σ 2k µk 0 µ2 σ 22 µ1 σ 2 1 N2 1 σ i2 = Ni N1 Ni k Nk N = ∑ Ni i =1 Ni ∑ (a j=1 µi = − µi ) ∑a j=1 ij N1 2 ij Für eine Grundgesamtheit, die aus k Teilgesamtheiten mit den Umfängen N1, N2, … , Nk, den arithmetischen Mitteln µ1 , µ2 , . . . , µk und den 2 2 2 Varianzen σ1 , σ 2 ,. . ., σ k , besteht, ergibt sich: σ = 2 k ∑ i =1 k k Ni N 2 ⋅ σ i2 + ∑ i (µ i − µ ) N i =1 N Prof. Kück / Dr. Ricabal µ=∑ mit i =1 Ni ⋅ µi N Lage- und Streuungsparameter III 25 Mittelwertzerlegung k σ 2k µk Nk 0 µ2 σ 22 µ1 σ 12 µi = ⎛ Ni ⎞ ⎜ ∑ a ij ⎟ ∑ ⎜ ⎟ i =1 ⎝ j=1 ⎠= µ= N i =1 fi = Ni N Ni N2 N1 k N = ∑ Ni ∑a j=1 N1 ij Ni ⇒ ∑ a ij = N i ⋅ µ i j=1 k ∑ (N ⋅ µ ) i =1 i N i k ⎛N ⎞ k = ∑ ⎜ i ⋅ µ i ⎟ = ∑ (f i ⋅ µ i ) ⎠ i =1 i =1 ⎝ N Gewogenes arithmetisches Mittel mit dem Gewichten fi Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 26 Varianzzerlegung k µk N = ∑ Ni i =1 N2 Ni j=1 0 [ ij 2 ] 1 k Ni σ 2 = ∑∑ (a ij − µ i ) + (µ i − µ ) N i =1 j=1 N1 ∑a 1 k Ni 2 σ = ∑∑ (a ij − µ ) N i =1 j=1 2 Nk µ2 σ 22 µ1 σ 12 µi = σ 2k Arithmetisches Mittel der Teilgesamtheit i N1 Arithmetisches Mittel der Gesamtheit k µ=∑ i =1 Ni ⋅ µi N Aus dieser Formel und mit Hilfe mathematischer Umformungen lässt sich die Varianz der Grundgesamtheit in zwei Summen zerlegen. (Fortsetzung) Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 27 Varianzzerlegung (Fortsetzung) k µk N = ∑ Ni Nk i =1 µ1 σ 2 1 σ 2k µ2 σ 22 N2 N1 σ = 2 k ∑ i =1 1. Summand: Varianz innerhalb der jeweiligen Gruppe, Schicht, Teilgesamtheit k Ni N 2 2 ⋅ σ i + ∑ i (µ i − µ ) N i =1 N 2. Summand: Varianz zwischen den Gruppen, Schichten, Teilgesamtheiten Die erste Summe liefert die durchschnittliche Varianz innerhalb der Teilgesamtheiten und die zweite Summe den durchschnittlichen Abstand (Varianz) zwischen den Teilgesamtheiten. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 28 Varianzzerlegung - Interpretation Ni/N ist der Anteil der i-ten Teilgesamtheit an der Gesamtheit für i=1, 2, … , k. D. h. die relative Größe der Teilgesamtheit. Das wird als Gewicht genutzt. Ni 2 k Ni σ =∑ ⋅ σi + ∑ ⋅ (µ i − µ )² N N i =1 i =1 2 k Gewichtetes Mittel aus den Varianzen der Teilgesamtheiten: interne Varianz Prof. Kück / Dr. Ricabal Gewichtetes Mittel der Abweichungen der Mittelwerte der Teilgesamtheiten vom Gesamtmittel: externe Varianz Lage- und Streuungsparameter III 29 Beispiel: Varianzzerlegung Die 10 Personen werden mit ihren Gewichtsangaben in zwei Gruppen nach dem Geschlecht aufgeteilt: 5 Name xi Lisa 44 Anna 46 Antje 50 Marie 54 Dörte 56 σ = 2 1 ∑ (x i =1 1i − 50) 2 = 20,8 5 Die Varianz für die erste Teilmenge beträgt 20,8 kg², der Mittelwert 50 kg. 5 Name xi Sven 69 Uwe 72 Kai 78 Jan 80 Nils 101 σ = 2 2 ∑ (x i =1 − 80) 2 2i 5 = 126 Die Varianz für die zweite Teilmenge beträgt 126 kg², der Mittelwert 80 kg. 5 5 ⎞ ⎛5 ⎞ ⎛5 σ2 = ⎜ ⋅ 20,8 + ⋅126⎟ + ⎜ ⋅ (50 − 65)² + ⋅ (80 − 65)² ⎟ = 73,4 + 225 = 298,4 10 10 10 10 ⎠ ⎝ ⎠ ⎝ Interne Varianz: 73,4 [kg²] Externe Varianz: 225 [kg²] Die Varianz der Gesamtmenge beträgt 298,4 kg², wobei 225 kg² auf die Varianz zwischen den Teilmengen zurückzuführen ist. Verglichen mit den gruppeninternen Varianzen von 20,8 kg² und 126 kg² zeigt sich, dass die Differenzierung zwischen den Geschlechtern größer ist als innerhalb der Gruppen. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 30 Beispiel: Varianzzerlegung Die Quadratmeterpreise bei Wohnungsmieten wurden für 815 Wohnungen in Berlin untersucht. Dabei wurden entsprechend der Lage der Wohnungen zwei Gruppen gebildet (Westberlin, Ostberlin): Für die gesamte Erhebung stellt sich die Verteilung wie folgt dar: 200 SPSS-Ausdruck für Gesamtheit (Berlin) 100 Std.abw. = 5,15 Mittel = 17,8 N = 815,00 0 ,0 46 ,0 42 ,0 38 ,0 34 ,0 30 ,0 26 ,0 22 ,0 18 ,0 14 ,0 10 0 6, Preis (DM/m²) Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 31 Beispiel: Varianzzerlegung Quadratmeterpreisverteilung für West- und Ostberlin SPSS Ausdruck für Westberlin SPSS Ausdruck für Ostberlin 100 60 50 80 40 60 30 40 20 20 Std.abw. = 4,96 10 Std.abw. = 4,39 Mittel = 19,8 N = 421,00 0 N = 394,00 ,0 26 ,0 24 ,0 22 ,0 20 ,0 18 ,0 16 ,0 14 ,0 12 ,0 10 0 8, 0 6, ,0 46 ,0 42 ,0 38 ,0 34 ,0 30 ,0 26 ,0 22 ,0 18 ,0 14 ,0 10 0 6, Preis (DM/m²) Mittel = 15,6 0 Preis (DM/m²) Aus den vorliegenden Angaben lässt sich die Varianz zwischen und innerhalb der Teilmengen ermitteln. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 32 Beispiel: Varianzzerlegung Anzahl N Varianz Mittelwert Berlin 815 26,431 17,8 Ost 394 19,2721 15,6 West 421 24,6016 19,8 Es gilt die Beziehung: σ2 = 1 N k ∑ i =1 N i ⋅ σ i2 + 1 N k ∑ N i =1 i (µ i − µ )2 421 421 ⎛ 394 ⎞ ⎛ 394 ⎞ σ2 = ⎜ ⋅19,2721+ ⋅ 24,6016⎟ + ⎜ ⋅ (15,6 − 17,8)² + ⋅ (19,8 − 17,8)² ⎟ 815 815 815 815 ⎝ ⎠ ⎝ ⎠ 26,431 = 22,025 + 4,406 Die Varianz der Gesamtmenge beträgt 26,431 (DM/qm)², wobei 4,4 (DM/qm)² auf die Varianz zwischen den Teilmengen zurückzuführen ist. Verglichen mit den gruppeninternen Varianzen von 19,27 (DM/qm)² und 24,6 (DM/qm)² zeigt sich, dass die Differenzierung innerhalb der Teilmengen größer ist als zwischen den beiden Gruppen. Dieses Ergebnis kann auch dazu benutzt werden, um Gruppierungen vorzunehmen oder nicht. Der Anteil der externen Varianz liefert eine Begründung für Gruppierungen. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 33 Varianzen bei Lagetransformation der Daten Lineare Transformation der Ursprungsdaten: Fall 1: σ 2Y = σ 2X Y = a+ X yi = a+ x i Die Varianz der transformierten Werte ist gleich der Varianz der Ursprungswerte, da lediglich ein „Sockel“ eingefügt wird: Mittelwert a Mittelwert a Die Abstände zwischen Merkmalswerten und Mittelwert bleiben gleich, die Varianz verändert sich nicht. Die Varianz ist lage-invariant. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 34 Varianz bei linearer Transformation der Daten (b≠1) Fall 2: σ 2Y = b 2 ⋅ σ 2X Y = a + b⋅ X y i = a + b⋅ x i Die Varianz der transformierten Werte ist um den Faktor b² größer als die Varianz der Ursprungswerte, denn neben dem Sockel (a) sind die Merkmalswerte durch die Multiplikation mit b „gespreizt“. y.b y a Die Differenz zwischen Merkmalswert und Mittelwert ist um den Faktor b größer, der Faktor b geht mit seinem Quadrat in die Varianz ein. Die Varianz ist skalen-äquivariant. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 35 Beispiel: Lineare Transformation der Daten Frage: Beeinflusst die Inflation auch die Streuung der Konsumausgaben? Es liegen für zwei Betrachtungszeiträume die Konsumausgaben von privaten Haushalten (HH) vor, diese seien von 100 auf 120 Prozent gestiegen: 1990 Konsumausgaben in TDM HH 1 HH 2 HH 3 HH 4 HH 5 HH 6 HH 7 20 2 σ1990 = 5,837 TDM ² Konsumausgaben in TDM 2 σ1998 = 8,405 TDM ² µ1998 = 25,37 TDM Prof. Kück / Dr. Ricabal 18 25 23 18 22 X 1998 = 1,2 ⋅ X 1990 µ1990 = 21,14 TDM 1998 22 HH 1 HH 2 HH 3 HH 4 HH 5 HH 6 HH 7 24 26,4 21,6 µ 1998 = 1,2 ⋅ µ 1990 Lage- und Streuungsparameter III 30 27,6 21,6 26,4 2 2 σ 1998 = 1,2 2 ⋅ σ 1990 36 Beispiel: Lineare Transformation der Daten Die relative Position der Haushalte zueinander hat sich nicht verändert, lediglich aufgrund der Inflation sind die einzelnen Verbrauchsausgaben um den Faktor 1,2 gestiegen (Ausgabenerhöhung um 20%). Folglich ist der Abstand zwischen Merkmalswert und Mittelwert um den Faktor 1,2 größer, woraus sich für die Varianz der Faktor 1,2² ergibt. Y = a + b⋅ X σ 2Y = b 2 ⋅ σ 2X σ 2 = 8,405 TDM ² = 1,2 2 ⋅ 5,837 TDM ² Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 37 Beurteilung von Varianz und Standardabweichung ¾ Varianz und Standardabweichung sind die gebräuchlichsten Streuungsmaße, sie sind jedoch weniger anschaulich als die mittlere absolute Abweichung. ¾ Varianz und Standardabweichung sind bei Lagetransformation der Ursprungswerte unempfindlich. ¾ Bei linearer Transformation (b≠1) bewirkt eine um das Quadrat des Faktors veränderte Varianz. ¾ Die Varianz einer Gesamtmenge ergibt sich aus der Summe von interner (innerhalb der Gruppen) und externer (zwischen den Gruppen) Varianz. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 38 Zusammenfassung der behandelten Streuungsmaße ¾ Mittlere absolute Abweichung sowie Varianz und Standardabweichung basieren auf der mittleren Abweichung aller Einzelwerte von ihrem Mittelwert. ¾ Spannweite und Quartilsabstand basieren auf Differenzen zwischen Merkmalswerten. ¾ Streuungsmaße sind in Abhängigkeit von der Skalierung der Merkmalswerte zu verwenden. ¾ Ein sehr anschauliches Maß, vor allem bei ökonomischen Sachverhalten, ist die mittlere absolute Abweichung. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 39 Standardisierte Maßzahlen Will man mehrere Eigenschaften (Merkmale) der Objekte (Einheiten) miteinander vergleichen, ist es erforderlich, die unterschiedlichen Merkmalsdimensionen auszuschalten. Das geschieht mittels Standardisierung. Die hier behandelten Standardisierung ist die genannte z-Transformation Z= Prof. Kück / Dr. Ricabal X −µ σ mit zi = Lage- und Streuungsparameter III ai − µ σ 40 z-Transformation Es gilt: zi = ai − µ σ Dabei bedeuten: Abweichung gegenüber dem Mittelwert zi : neuer Wert ai : alter Wert µ : Mittelwert der alten Daten σ : Standardabweichung der alten Daten Die Differenz zwischen Merkmalswert und Mittelwert im Zähler sowie die Standardabweichung im Nenner haben die selbe Dimension, die sich wegkürzt. Durch z-Transformation erhält man dimensionslose Daten. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 41 Eigenschaften der z-Transformation ¾ ¾ das arithmetische Mittel der neuen Werte ist Null, die Varianz der neuen Werte hat den Wert Eins Gemessene Werte Standardisierte Werte Prof. Kück / Dr. Ricabal 0 ai 0 zi Lage- und Streuungsparameter III 42 Eigenschaften der z-Transformation ¾ ¾ das arithmetische Mittel der neuen Werte ist Null, die Varianz der neuen Werte hat den Wert Eins zi = ai − µ 1 1 = (a i − µ ) ⇒ µ z = (µ − µ ) = 0 σ σ σ 2 a −µ 1 ⎛1⎞ = (a i − µ ) ⇒ σ 2z = ⎜ ⎟ σ 2 = 1 zi = i σ σ ⎝σ⎠ Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 43 Beispiel: Vergleichbarkeit von Datenreihen durch die z-Transformation Was erkennt man daraus? 1 2 3 4 5 6 7 8 9 10 Mittelwert Streuung a (1) 1,8 2,1 4,7 1,6 2,5 1,3 2,8 3,2 4,4 3,6 2,8 1,1 a (2) 2314 2700 6043 2057 3214 1672 3600 4114 5657 4629 3600 1422 z (1) -0,90 -0,63 1,72 -1,09 -0,27 -1,36 0,00 0,36 1,45 0,72 0,00 1,00 z (2) -0,90 -0,63 1,72 -1,09 -0,27 -1,36 0,00 0,36 1,45 0,72 0,00 1,00 Beide Datenreihen darstellen die gleiche Verteilung Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter III 44