32 Kapitel 3 Lage- und Streuungsmaße • Grafische Darstellungen geben einen allgemeinen Eindruck der Verteilung eines Merkmals: – Lage und Zentrum der Daten, – Streuung der Daten um dieses Zentrum, – Schiefe / Symmetrie und Unimodalität / Multimodalität der Daten. • Im Folgenden: Maßzahlen zur Beschreibung von Lage und Streuung durch eine Zahl. • Lagemaße sollen die zentrale Tendenz (das Zentrum) eines Merkmals beschreiben. • Streuungsmaße beschreiben die Variabilität eines Merkmals. 3.1 Lagemaße Lagemaße beantworten Fragen über die Häufigkeitsverteilung wie: • Wo liegen die meisten Beobachtungen? • Wo liegt der Schwerpunkt“ einer Verteilung? ” • Wo liegt die Mitte“ der Beobachtungen? ” • Was ist eine typische“ Beobachtung? ” Bemerkungen: • Es gibt nicht das Lagemaß schlechthin. Die unterschiedlichen Lagemaße sind je nach Situation unterschiedlich geeignet. • Die Eignung ist insbesondere abhängig von der Datensituation und dem Skalenniveau. 33 34 3.1. Lagemaße 3.1.1 Arithmetisches Mittel Definition: Sei x1 , . . . , xn die Urliste eines (mindestens) intervallskalierten Merkmals X. Dann heißt n 1X x̄ := xi n i=1 das arithmetische Mittel der Beobachtungen x1 , . . . , xn . Bemerkungen: • Das arithmetische Mittel ist also das Lagemaß, das typischerweise als Mittelwert oder Durchschnitt bezeichnet wird. • Das arithmetische Mittel muss nicht mit einer der beobachteten Ausprägungen zusammenfallen. Beispiel: Anzahl von Statistikbüchern, die ein Student besitzt (fiktiv). Person Anzahl 1 0 2 2 3 1 4 2 5 2 6 3 7 0 8 12 9 1 10 2 1 · (0 + 2 + 1 + 2 + 2 + 3 + 0 + 12 + 1 10 1 = · 25 10 = 2.5 x̄ = Alternative Berechnung basierend auf Häufigkeiten: Hat das Merkmal X die Ausprägungen a1 , . . . , ak und die (relative) Häufigkeitsverteilung h1 , . . . , hk bzw. f1 , . . . , fk , so gilt k k X 1X x̄ = aj hj = aj fj . n j=1 j=1 Im Beispiel: Häufigkeitstabelle: 0 1 2 3 || || ||||| | 4 5 6 7 8 9 10 11 12 | bzw. a1 = 0 a2 = 1 a3 = 2 a4 = 3 a5 = 12 h1 = 2 h2 = 2 h3 = 4 h4 = 1 h5 = 1 Kapitel 3. Lage- und Streuungsmaße 35 Alte Berechnung: x̄ = 1 · (0 + 2 + 1 + 2 + 2 + 3 + 0 + 12 + 1 + 2) 10 Neue Berechnung: k 1X x̄ = a j · hj n j=1 1 · (0 · 2 + 1 · 2 + 2 · 4 + 3 · 1 + 12 · 1) 10 1 = (0 + 2 + 8 + 3 + 12) 10 = 2.5 = Beispiel: Einfacher Tabellenmietspiegel Baujahr bis 1918 1919 bis 1949 bis 1966 bis 1981 bis 1996 bis 48 65 80 95 2001 Nettomiete in Euro/qm Wohnfläche bis 50 qm 51 bis 80 qm 81 qm und mehr 9.00 (45) 7.88 (164) 7.52 (200) 6.90 (42) 6.87 (94) 6.50 (52) 9.04 (129) 7.84 (237) 7.95 (70) 10.05 (173) 7.97 (313) 7.80 (156) 10.59 (45) 9.53 (162) 9.72 (63) 10.60 (15) 10.28 (58) 9.69 (35) 9.43 (449) 8.20 (1028) 7.93 (576) 7.83 (409) 6.78 (188) 8.21 (436) 8.49 (642) 9.75 (270) 10.14 (108) 8.39 (2053) Beispiel: Augenfarbe 0: 1: 2: 3: grün grau rot blau hj 2 2 0 6 x̄ = (2 · 0 + 2 · 1 + 3 · 6) 20 = =2 10 10 Die durchschnittliche Augenfarbe ist also rot. Da es sich bei der Augenfarbe um ein nominalskaliertes Merkmal handelt, ist die Zuordnung von Zahlen zu Ausprägungen hier völlig willkürlich. Man kann auch durch geeignete Festlegung der Zahlen jede Augenfarbe zur Durchschnittsfarbe machen: 1: grün 2: blau 3: grau hj 2 6 2 x̄ = (2 · 1 + 6 · 2 + 2 · 3) 20 = =2 10 10 36 3.1. Lagemaße Bemerkungen: • Das arithmetische Mittel setzt zwingend ein intervallskaliertes Merkmal voraus. Auf einem niedrigerem Skalenniveau ist die Addition nicht erlaubt, und daher sind die entsprechenden Mittelwertsbildungen sinnlos und nicht interpretierbar (auch wenn sie ein Software-Paket selbstverständlich ausspuckt). • Einzige Ausnahme: Binäre Merkmale (mit nur zwei Ausprägungen), deren Ausprägungen als 0/1 kodiert werden. In diesem Fall kann das arithmetische Mittel als Anteil von Beobachtungen mit Ausprägung 1 interpretiert werden. a1 = 0, a2 = 1, h1 = Anzahl Nullen, h2 = Anzahl Einsen ⇒ x̄ = n1 (a1 · h1 + a2 · h2 ) = h2 n = f2 Transformationen: Die Intervallskala erlaubt lineare Transformationen der Form a+bX, die Ratioskala Transformationen der Form b · X. Wie verändert sich das arithmetische Mittel bei diesen oder allgemeineren Transformationen? X −−−−−→ ? x̄ ?? −−−−−→ Y = g(X) ? ȳ Beispiele: • Lineare Transformation Y = a · X + b: X Y a b jährliche Ausgaben von Studenten 2007 in Euro jährliche Ausgaben von Studierenden 2007 in DM ohne Studiengebühren (zum Vergleich in DM umrechen und Studiengebühren subtrahieren.) = 2 der Einfachheit halber (statt 1.95583) = -2000 • Nichtlineare Transformation: Betrachtet werden 3 quadratische Zimmer mit den Seitenlängen 7, 4 und 10m. Sei X die Seitenlänge, dann ist Y = f (X) = X 2 und es gilt x̄ = aber die Zimmerfläche, 4 + 7 + 10 = 7, 3 16 + 49 + 100 165 = = 55 6= 49 = (x̄)2 3 3 Es macht also einen wesentlichen Unterschied, ob man zuerst die Fläche und dann den Durchschnitt ausrechnet oder zuerst den Durchschnitt (der Seitenlängen) bildet und dann die Fläche berechnet. ȳ = Kapitel 3. Lage- und Streuungsmaße 37 Im Allgemeinen kann man also nicht einfach sagen: Y = f (X) ⇒ ȳ = f (x̄). Satz: Arithmetisches Mittel und lineare Transformationen. Gegeben sei die Urliste x1 , . . . , xn eines intervallskalierten Merkmals X. Betrachtet wird das (linear transformierte) Merkmal Y = a · X + b und die zugehörigen Ausprägungen y1 , . . . , yn . Dann gilt: ȳ = a · x̄ + b. Satz: beweispflichtige Folgerung aus gegebenen Annahmen. Im Gegensatz dazu: Definition = Festlegung. Eine Definition kann nicht wahr oder falsch sein; sie ist höchstens nützlich oder ungeschickt. Unterschied zu soziologischen Sätzen: Beispiel: Gesellschaftliche Anomie (Rückgang und Werten) Beweis: Von der Urliste x1 . . . xn von X übergehen zur Urliste y1 von . . . yreligiösen Y , wobei n von Normen Selbstmorde begünstigen. Prinzipiell falsifizierbar. für jedes i gilt yi = a · xi + b. n 1X ȳ = yi n i=1 n 1X = (a · xi + b) n i=1 n n 1X 1X = a · xi + b n i=1 n i=1 n X 1 1 = ·a· xi + · n · b n n i=1 n 1X xi + b = a· n i=1 = a · x̄ + b Beweis: Nachrechnen, aber nicht am Beispiel, sondern allgemein. Bemerkungen: • Vorsicht: Ist X verhältnisskaliert, so geht für a 6= 0 der natürliche Nullpunkt für Y verloren. • Der Satz gilt im Allgemeinen nur, falls die Transformation von X auf Y linear ist. Z.B. ist bei Y = X 2 im Allgemeinen ȳ 6= (x̄)2 (wie im Beispiel gezeigt). kann 38 3.1. Lagemaße Weitere Eigenschaften des arithmetischen Mittels: • x̄ ist derjenige Wert, den jede Beobachtungseinheit erhielte, würde man die Gesamtsumme der Merkmalsausprägungen gleichmäßig auf alle Einheiten verteilen. (Beispiel: gleichmäßige Verteilung des Einkommens) • x̄ ist der Schwerpunkt der x1 , . . . , xn , d.h. es gilt: n X (xi − x̄) = 0 i=1 Idee: Für jede Beobachtung i im Punkt xi Gewicht mit 1kg hinlegen. Am Beispiel nachrechnen. 0 1 • 2 63 4 5 Schwerpunkt 6 7 8 9 10 11 12 • Die Schwerpunktseigenschaft macht auch deutlich: außerordentliche Hebelwirkung extrem großer und kleiner Werte: (lässt man die Beobachtung 12 im Beispiel weg, dann gilt: x̄ = 13 = 1.44. Insbesondere ist damit das arithmetische Mittel sehr 9 ausreißeranfällig, d.h. ein falsch gemessener Wert zerstört den ganzen Mittelwert“. ” Beispiel: Einkommensverteilung • Befürchtet man Ausreißer, so weicht man gelegentlich auf das sogenannte α-getrimmte Mittel aus, bei dem man die α% größten und kleinsten Werte (z.B. α=5) weglässt. Gruppierte Daten: Häufig hat man die Daten nur in gruppierter Form vorliegen. Wie lässt sich in diesem Fall ein sinnvoller Mittelwert definieren? Typisches Beispiel: Einkommensverteilung 0 ≤ x < 750 750 ≤ x < 1250 1250 ≤ x < 1750 1750 ≤ x < 2250 2250 P ≤ x < 3250 Anzahl hl 3 8 6 2 1 20 Klassenmitten ml 375 1000 1500 2000 2750 Idee: Weniger Antwortverweigerung und weniger verfälschte Antworten. Auch: Anonymisierung Kapitel 3. Lage- und Streuungsmaße 39 Definition: Sei X ein intervallskaliertes Merkmal, das in gruppierter Form mit k Klassen [c0 , c1 ), [c1 , c2 ), . . . , [ck−1 , ck ] erhoben wurde. Mit hl , l = 1, . . . k, als absoluter Häufigkeit der l−ten Klasse, fl als zugehöriger relativer Häufigkeit und ml := cl +c2l−1 als der jeweiligen Klassenmitte definiert man als arithmetisches Mittel für gruppierte Daten k x̄grupp k X 1X := hl ml = fl ml . n l=1 l=1 Im Beispiel: k x̄grupp = 1X hl ml n l=1 1 · (3 · 375 + 8 · 1000 + 6 · 1500 + 2 · 2000 + 1 · 2750) 20 = 1243.75 = Bemerkungen: • Bei nach oben offener letzter Kategorie (Einkommen größer als 2250), wäre die Klassenmitte nicht definiert. • Im Allgemeinen gilt x̄ 6= x̄grupp , nur in Extremfällen, z.B. wenn das Merkmal in jeder Gruppe gleichmäßig verteilt ist, erhält man die Gleichheit. Informationsverlust bei Gruppierung! • x̄grupp hängt von der Gruppenmitte und damit von der gewählten Gruppierung ab: Fasst man z.B. die ersten drei Gruppen und die letzten beiden jeweils zusammen, so erhält man 0 ≤ x < 1750 1750 ≤ x < 3250 und x̄grupp = hj 17 3 mj 875 2500 1 (17 · 875 + 3 · 2500) = 1118.75. 20 • Im Allgemeinen ist x̄grupp natürlich nur eine grobe Approximation an den echten“, ” d.h. auf ungruppierten Daten beruhenden, Mittelwert. Eigentlich kann man nur mit Sicherheit folgende Abschätzung geben: Jeder in der l-ten Gruppe verdient mindestens cl−1 und höchstens cl . Damit ergibt sich als Abschätzung für das arithmetische Mittel k k 1X 1X hl cl−1 ≤ x̄ ≤ hl cl n l=1 n l=1 Diese Abschätzung ist oft relativ grob. Andererseits ist sie aber das beste, was man ohne unüberprüfbare Zusatzannahmen aus den Daten herausholen kann. • Sind die ungruppierten Daten erhältlich, so ist x̄ vorzuziehen, da jede Gruppierung Informationsverlust mit sich bringt. • Andererseits sind gruppierte Daten leichter (und oft wahrheitsgetreuer) erhebbar. 40 3.1. Lagemaße Geschichtete Daten Insbesondere bei Tertiäranalysen hat man häufig nicht die Urliste zur Verfügung, sondern nur Mittelwerte x̄l in einzelnen Schichten l = 1, . . . , z, in die die Grundgesamtheit zerlegt ist. Beispiel: x̄l x̄ Durchschnittseinkommen in den einzelnen Bundesländern (l = 1, . . . , 16) Durchschnittseinkommen in der BRD Zur Bildung des Gesamtmittels verwendet man das gewogene arithmetische Mittel z 1X x̄ = nl x̄l n l=1 wobei nl die Anzahl der Elemente in der l-ten Schicht bezeichnet. Durch die Gewichtung mit nl wird beispielsweise die unterschiedliche Bevölkerungszahl in der Bundesländern berücksichtigt (z.B. Bayern 12.38 Mio.; Bremen/Bremerhaven 0.66 Mio.). Im Gegensatz zur Gruppenbildung entsteht hier kein Informationsverlust, da ja letztlich nur die Urliste anders geordnet wird. Im Beispiel: n 1X xi x̄ = n i=1 1 (Eink. aller Bayern + Eink. aller Baden-Würtemberger + . . .) n 1 = (Anzahl der Bayern · Durchschnitt Bayern + Anzahl BW · Durchschnitt BW + . . .) n = Unterschied zwischen gruppierten Daten und geschichteten Daten: Im ersten Fall wird das Merkmal verändert, also für jede Person der Wert verändert, während im zweiten Fall die Werte nicht verändert werden, sondern die Personen nur in den Schichten zusammengefasst werden. 3.1.2 Median & Quantile • Wie lässt sich ein Mittelwert bei ordinalskalierten Merkmalen definieren? • Das arithmetische Mittel besitzt die Schwerpunkteigenschaft n X (xi − x̄) = 0. i=1 • Eine andere mögliche Schwerpunkteigenschaft: Rechts und links des Mittelwerts liegen jeweils (mindestens) 50% der Daten. Dies ergibt den Median. Kapitel 3. Lage- und Streuungsmaße 41 Definition: Gegeben sei die Urliste x1 , . . . , xn eines (mindestens) ordinalskalierten Merkmals X. Jede Zahl xmed mit |{i|xi ≤ xmed }| ≥ 0.5 und n |{i|xi ≥ xmed }| ≥ 0.5 n heißt Median. Anschauliche Interpretation: Der Median teilt den geordneten Datensatz in zwei gleich große Hälften; die Hälfte der Einheiten hat eine Ausprägung ≤ xmed , die andere ≥ xmed . Beispiel: Klausurnoten Aus 1,1,1, . . . , 1 2,2,2, . . . , 2 | {z } | {z } 65 mal 96 mal 17% 25,1% | {z } 161 mal 42% | {z 252 mal 65,8% 3,3,3, . . . , 3 | {z } 91 mal 23,8% | } |{i|xi ≤ 3}| = 65, 8% ≥ 0, 5 und n. 4,4,4, . . . , 4 | {z } 78 mal 20,4% {z 222 mal 58% 5,5,5, . . . , 5 | {z } 53 mal 13,8% } |{i|xi ≥ 3}| = 58% ≥ 0, 5 n. folgt xmed = 3. Verallgemeinerung: Quantile Gegeben sei die Urliste x1 , . . . , xn eines (mindestens) ordinalskalierten Merkmals X und eine Zahl 0 < α < 1. Jede Zahl xα mit |{i|xi ≤ xα }| ≥ α und n |{i|xi ≥ xα }| ≥1−α n heißt α · 100%-Quantil. Spezielle Quantile: • Median: x0.5 = xmed . • Quartile: x0.25 , x0.75 . • Dezile: x0.1 , x0.2 , . . . , x0.8 , x0.9 . Beispiel Klausurnoten: x0.25 = 2 x0.1 = 1 42 3.1. Lagemaße Bemerkungen: • Alternative Definition des Medians über die geordnete Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n) : ³ ´ 1 x n + x n für n gerade ( 2 +1) xmed := 2 ( 2 ) x n+1 für n ungerade ( 2 ) Ähnlich für andere Quantile möglich. • Diese Definition ist insofern inkonsequent, als sie auf die bei ordinalen Daten streng genommen nicht zulässige Addiditionen rekurriert. Bei intervallskalierten Daten hingegen spricht vieles für diese Definition. • Andererseits können in gewissen Grenzfällen Quantile im Sinne der ursprünglichen Definition nicht eindeutig sein: 8 Beobachtungen zu Schulnoten, wobei 4 Beobachtungen mit Note 2 ⇒ Jede Zahl zwischen 2 und 3 ist Median. 4 Beobachtungen mit Note 3 • Beide Definitionen sind letztlich in den praktisch relevanten Fällen miteinander verträglich. Für n ungerade fallen sie stets zusammen, für n gerade stimmen sie überein, falls x( n ) = x( n +1) 2 2 • Man kann Quantile einfach an der empirischen Verteilungsfunktion ablesen: 6 1−α • α • ¾ α 1 2 3@ I 4 xα 5 Auch Nicht-Eindeutigkeit demonstrieren. • Bei gruppierten intervallskalierten Merkmalen definiert man die Quartile analog über den Schnittpunkt mit der Verteilungsfunktion: • 6 ¡ ¡ • ¡ ¡ • ¡ ¡ ¡ α • ³¡ ³³ ¡ • ³³ xα - Kapitel 3. Lage- und Streuungsmaße 43 Transformationen: Wie ändert sich der Median bei Transformation der Daten? Beim arithmetischen Mittel gilt bei Y = g(X) im Allgemeinen ȳ = g(x̄) nur, falls g linear ist, also für Y = a · X + b. Die für ordinale Daten charakteristische Rangordnung bleibt hingegen unter beliebigen streng monoton steigenden Transformationen (z.B. Y = X 3 ) erhalten. Streng monoton steigend erklären Satz: Sei x1 , x2 , . . . , xn die Urliste eines (mindestens) ordinalskalierten Merkmals X, g eine streng monoton steigende Funktion und y1 = g(x1 ), . . . , yn = g(xn ) die Urliste des Merkmals Y = g(X). Dann gilt: ymed = g(xmed ). f streng monoton- Merkmal X ? f xmed - Merkmal Y ? ymed Beispiel: Drei quadratische Zimmer Für die Merkmale X (Seitenlänge) und Y = f (X) = X 2 (Fläche) galt ja mit den Daten und x1 = 7, x2 = 4, x3 = 10 y1 = x21 = 49 y2 = x22 = 16 y3 = x23 = 100 für die arithmetischen Mittel f (x̄) = (x̄)2 6= ȳ. Für die Mediane gilt aber mit den geordneten Werten und x(1) = 4, y(1) = 16 x(2) = 7, y(2) = 49 x(3) = 10 y(3) = 100 xmed = 7 und ymed = 49 also in der Tat f (xmed ) = (xmed )2 = ymed . Gegenbeispiel mit nicht monoton steigender Funktion: f (X) = X 2 ist streng monoton steigend für X ≥ 0. Dagegen ist g(X) = (X − 6)2 nicht monoton steigend. Für das Merkmal Z = g(X) = (X − 6)2 ergeben sich die Merkmalsausprägungen z1 = 1, z2 = 4 und z3 = 16 und damit der Median zmed = 4 Für den transformierten Median gilt aber g(xmed ) = g(7) = 1. Wegen seiner Invarianz gegenüber beliebigen streng monotonen Transformationen bietet sich der Median als Lagemaß auch in allen Situationen an, in denen es trotz Intervallskala keine natürliche Maßeinheit gibt. Beispielsweise ist bei vielen Einstellungsmessungen nicht klar, ob man auf einer linearen oder auf einer logarithmischen Skala messen soll. ⇒ Betrachtung der Rangstatistiken. 44 3.1. Lagemaße 3.1.3 Modus • Geeignetes Lagemaß bei auf Nominalskala gemessenen Daten? • Der exakte Wert der als Merkmalsausprägungen vergebenen Zahlen ist inhaltlich völlig bedeutungslos, d.h, etwas formaler: beliebige eineindeutige Transformationen verändern die inhaltliche Aussage nicht (z.B. Parteienpräferenz). • Als Lagemaß dient der häufigste Wert: genauer die Ausprägung aj mit der größten Häufigkeit hj . Definition: Sei x1 , . . . , xn die Urliste eines nominalskalierten Merkmals mit den Ausprägungen a1 , . . . , ak und der Häufigkeitsverteilung h1 , . . . , hk . aj ∗ heißt Modus xmod genau dann, wenn hj ∗ ≥ hj , für alle j = 1, . . . , k. Bemerkungen: • Existieren mehrere Ausprägungen mit der gleichen (größten) Häufigkeit, so ist der Modus nicht eindeutig. • Der Modus unter beliebigen eineindeutigen Transformationen erhalten: Betrachtet man das Merkmal X, eine eineindeutige Transformation f und das Merkmal Y = f (X), so gilt ymod = f (xmod ). Merkmal X ? Modus xmod 3.1.4 f eindeutig f - Merkmal Y ? - Modus ymod Vergleich der Lagemaße • Bei intervallskalierten Daten darf man auch den Modus oder den Median anwenden, man verschenkt (bei alleiniger Verwendung) aber eventuell Information. • Der Median geht nur auf die Ordnung der Beobachtungen und nicht auf die Abstände ein, der Modus gibt nur die am stärksten vertretende Ausprägung an. • Median und Modus sind unempfindlich gegenüber Ausreißern. Beispiel: Einkommensverteilung Wird die größte Beobachtung verhundertfacht, so ändern sich Median und Modus nicht, das arithmetische Mittel reagiert dagegen stark. Generell ist bei der Betrachtung von Einkommen das arithmetische Mittel meist deutlich größer als der Median. Unterschiedliche Verwendung bei Arbeitgebern und Gewerkschaften Kapitel 3. Lage- und Streuungsmaße 45 Beispiel: Statistikbücher. Häufigkeitsverteilung und zur graphischen Veranschaulichung ein maßstabtreues Pseudostabdiagramm“: ” Häufigkeiten a1 = 0 h1 = 2 a2 = 1 h2 = 2 a3 = 2 h3 = 4 a4 = 3 h4 = 1 a5 = 12 h5 = 1 xmod = 2 - t t t t t t t t t t 0 1 2 3 Mittelwert x̄=2.5 x0.25 =1 Median xmed =2 x0.75 =2 12 Allgemeiner gilt: Die relative Lage von x̄, xmed , xmod zueinander kann zur Charakterisierung von Verteilungen herangezogen werden: symmetrisch: linkssteil: rechtssteil: x̄ x̄ x̄ ≈ xmed > xmed < xmed ≈ xmod > xmod < xmod x̄ = 3.57 xmed = 3 xmod = 2 x̄ = 5 xmed = 5 xmod = 5 46 3.1. Lagemaße x̄ = 6.43 xmed = 7 xmod = 8 Exkurs: Lagemaße als Lösung eines Optimierungsproblems Alternative Möglichkeit, Lagemaße zu begründen, die später in der Regressionsanalyse verallgemeinert wird. Gegeben sei die Urliste x1 , . . . , xn eines intervallskalierten Merkmals X. Gesucht ist eine Zahl a, so dass Gesamtabstand zwischen a und den Daten minimal wird. Misst man den Abstand (x − a)2 |x − a| 1(x = a) quadratisch linear durch den Absolutbetrag durch die Indikatorfunktion Für alle a ∈ R gilt: n X x̄ xmed xmod . n X (xi − x̄) ≤ (xi − a)2 , 2 i=1 n X so ergibt sich so ergibt sich so ergibt sich i=1 | xi − xmed |≤ i=1 n X |xi − a|. i=1 x̄ minimiert also den quadratischen Abstand und xmed den betragsmäßigen Abstand zu den Daten. Bei quadratischem Abstand werden große Abstände sehr groß. 3.1.5 Geometrisches Mittel Es gibt Fälle, bei denen das arithmetische Mittel selbst bei intervallskalierten Merkmalen nicht angemessen ist, zum Beispiel für Wachstumsraten oder Geschwindigkeiten. Sei Ω = {0, . . . , n} eine Menge von Zeitpunkten und B(i) =: bi ein zum Zeitpunkt i erhobenes Merkmal, z.B. das Bruttosozialprodukt. 6 ¡ H ¡ ¡ ¡H ¡ ¡ @¡ ¡ 1 2 3 4 5 6 Für i = 1, . . . , n heißt xi = bi bi−1 Kapitel 3. Lage- und Streuungsmaße 47 der i-te Wachstumsfaktor und bi − bi−1 = xi − 1 bi−1 die i-te Wachstumsrate. Dann bezeichnet man à n ! n1 Y 1 x̄geom := = (x1 · x2 · . . . · xn ) n xi ri = i=1 als das geometrische Mittel der Wachstumsfaktoren x1 , . . . , xn . Beispiel: Wirtschaftwachstum gemessen zu drei Zeitpunkten. i bi 0 1000 1 1500 | xi ri {z 1.5 0.5 2 750 } | {z 0.5 -0.5 } ⇒ Wirtschaft wächst im ersten Jahr um 50% und schrumpft im nächsten Jahr um 50%. Ergib sich im Durchschnitt ein Nullwachstum (x̄ = 1, r̄ = 0)? Geometrisches Mittel der Wachstumsfaktoren: à n ! n1 Y √ √ 1 = (x1 · x2 ) 2 = 1.5 · 0.5 = 0.75 ≈ 0.8660 x̄geom = i=1 Bemerkungen: • Es gilt bn = b0 · (x̄geom )n d.h. x̄geom ist tatsächlich ein durchschnittlicher Wachstumsfaktor, also derjenige Wert, der sich aus bn und b0 ergäbe, wenn zu allen Zeitpunkten konstantes Wachstum geherrscht hätte. Im Beispiel gilt in der Tat: b2 = b0 (x̄geom )2 = 1000 · (0.866)2 = 750. • Das geometrische Mittel kann auch zur Prognose (unter Stabilitätsannahme = durchschnittliches Wachstum bleibt gleich) verwendet werden: bn+q = bn · (x̄geom )q , • Logarithmieren liefert: q ∈ N. n ln x̄geom 1X ln xi . = n i=1 Das geometrische Mittel ist also ein arithmetisches Mittel auf der logarithmierten Skala. • Man kann zeigen: x̄geom ≤ x̄ i.A. würde also die Angabe von x̄ erhöhte Wachstumsraten vortäuschen. 48 3.2. Streuungsmaße 3.1.6 Harmonisches Mittel Beispiel: Die Entfernung von A nach B sei 99 km. Herr K. humpelt von A nach B mit konstant 1 km/h und fährt zurück mit konstant 99 km/h. Wie groß ist seine Durchschnittsgeschwindigkeit? Naive Lösung: 50 km/h. Mit konstant 50 km/h würde Herr K. nur knappe 4 Stunden für den Gesamtweg brauchen (198 km / 50 km/h) brauchen. Tatsächlich braucht er aber 100 Stunden! Durchschnittsgeschwindigkeit = zurückgelegter Weg 198 km = = 1.98 km/h Zeit 100 h Berechnung über die Geschwindigkeiten: Die Entfernung von A nach B sei w. Hinweg: Geschwindigkeit v1 Rückweg: Geschwindigkeit v2 Zeit t1 = Zeit t2 = w v1 w v2 Durchschnittsgeschwindigkeit w+w 2·w = w = t1 + t2 + vw2 v1 1 v1 2 + 1 v2 = 1 2 ³ 1 1 v1 + 1 v2 ´ ( Kehrwert der durchschnittlichen Kehrwerte“). ” Allgemein: Sei x1 , . . . , xn mit xi 6= 0 für alle i die Urliste eines verhältnisskalierten Merkmals X. Dann heißt 1 x̄har := 1 Pn 1 n i=1 xi das harmonische Mittel der x1 , . . . , xn . 3.2 Streuungsmaße Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: Kapitel 3. Lage- und Streuungsmaße 49 −15 −10 −5 0 5 10 15 0.4 0.0 0.1 0.2 0.3 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 große Variabilität 0.5 mittlere Variabilität 0.5 geringe Variabilität −15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 15 Streuungsmaße beantworten Fragen wie • Wie groß ist die durchschnittliche Abweichung vom Mittelwert? • Über welchen Bereich erstrecken sich die Beobachtungen? • Wie stark schwanken die Beobachtungen? Bemerkung : Von Streuung kann man nur bei mindestens intervallskalierten Daten sprechen, da nur dort Abstände interpretierbar sind. 3.2.1 Varianz und Standardabweichung Varianz : Sei x1 , . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißen n s̃2X 1X := (xi − x̄)2 n i=1 die (empirische) Varianz oder Stichprobenvarianz und q s̃X := s̃2X die empirische Streuung, Stichprobenstreuung oder Standardabweichung von X. Bemerkungen: • Die Varianz misst die durchschnittliche quadratische Abweichung vom Mittelwert. • Durch das Quadrieren tragen negative und positive Abweichungen vom Mittelwert gleichermaßen zur Varianz bei. Zur Erinnerung: Es gilt n X (xi − x̄) = 0. i=1 • Die Varianz besitzt im Vergleich zum Merkmal X die quadrierte Einheit. Die Standardabweichung dagegen wird in der gleichen EinheitAmgemessen wie X. Beispiel quadratischer Zimmer erklären 50 3.2. Streuungsmaße • Sind die Ausprägungen a1 , . . . , ak mit (relativer) Häufigkeitsverteilung h1 , . . . , hk bzw. f1 , . . . , fk gegeben, so gilt k s̃2X 1X = hj (aj − x̄)2 = n j=1 = k X fj (aj − x̄)2 . j=1 • Ist aus dem Kontext klar ersichtlich welches Merkmal betrachtet wird, so lässt man das X in der Notation auch häufig weg, schreibt also einfach s̃2 und s̃. Beispiel: Statistikbücher Ausprägungen 0 1 2 3 12 P Berechnung der Varianz über die ursprüngliche Formel: n s̃ 1X (xi − x̄)2 = n i=1 2 hj 2 2 4 1 1 10 1 ((0 − 2.5)2 + (0 − 2.5)2 + (1 − 2.5)2 + (1 − 2.5)2 10 +(2 − 2.5)2 + (2 − 2.5)2 + (2 − 2.5)2 + (2 − 2.5)2 + (3 − 2.5)2 + (12 − 2.5)2 ) 108.5 = = 10.85 10 = Berechnung über die Häufigkeitsverteilung: n 2 s 1X = hj (aj − x̄)2 n i=1 1 (2 · (0 − 2.5)2 + 2 · (1 − 2.5)2 + 4 · (2 − 2.5)2 + (3 − 2.5)2 + (12 − 2.5)2 ) 10 = 10.85 = Standardabweichung: s̃ = √ 10.85 ≈ 3.29 (Einheit: Bücher) Varianten: 2→1 2→1 2→0 2→0 2→3 3→4 3→5 12 → 14 ⇒ Mittelwert bleibt gleich ” ” ” ⇒ Streuung verändert sich ” ” ” Kapitel 3. Lage- und Streuungsmaße 51 Transformationen : Wie ändert sich die Varianz bei (linearer) Transformation eines Merkmals? DM X ↓ s̃2X f −→ ?? −→ Euro Y ↓ s̃2Y Satz: Sei x1 , . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mit s̃X > 0 und y1 , . . . , yn die zugehörige Urliste des Merkmals Y = a · X + b. Dann gilt s̃2Y = a2 · s̃2X und s̃Y = |a| · s̃X . Bemerkungen: • Die additive Konstante b spielt keine Rolle. Diese bewirkt lediglich eine Verschiebung der Häufigkeitsverteilung, ändert aber nicht die Form. • Vorfaktoren sind bei der Varianz quadratisch herauszuziehen“. Insbesondere gilt ” für Y = −X s2Y = (−1)2 · s2X . Beispiel: Spiel von A gegen B, X=Gewinn von A, Y =Verlust von B. • Eine spezielle Transformation, die sogenannte Standardisierung, ist der Übergang zum Merkmal Z mit xi − x̄ zi := . s̃X Z besitzt arithmetisches Mittel 0 und (empirische) Varianz 1. Man erzeugt damit in gewisser Weise eine natürlich Skala. Begründung: zi lässt sich darstellen als µ ¶ xi − x̄ 1 x̄ zi = = xi + − s̃X s̃X s̃X so dass die Anwendung der Transformationsregeln mit a = 1 −x · x̄ + ( )=0 s̃X s̃X 1 = a2 · s̃2X = 2 · s̃2X = 1 s̃X z̄ = a · x̄ + b = s̃2Z 1 s̃X und b = −x̄ s̃X ergibt: 52 3.2. Streuungsmaße Verschiebungssatz: Es gilt Einfachere Berechnung der Varianz. n 1X 2 s̃2X = x − n i=1 i à n 1X xi n i=1 !2 = x2 − (x̄)2 . Achtung (sehr häufige Fehlerquelle): x2 erst quadrieren, dann Mittelwert (x̄)2 erst mitteln, dann quadrieren Der Verschiebungssatz ist sehr bequem zum Berechnen der Varianz, es können aber beim Verwenden von Taschenrechnern bei sehr großen Ausprägungen starke Rundungsfehler auftreten, die das Ergebnis eventuell verfälschen. Für Aufgaben von Klausurlänge aber den Verschiebungssatz verwenden! Beispiel: Statistikbücher. Berechne die empirische Varianz mit Hilfe des Verschiebungssatzes. Person i 1 2 3 4 5 6 7 8 9 10 Anzahl Bücher: X xi 0 2 1 2 2 3 0 12 1 2 25 x2i 0 4 1 4 4 9 0 144 1 4 171 x̄ = 2.5 x2 = 17.1 s̃2X = x2 − (x̄)2 = 17.1 − (2.5)2 = 10.85, s̃X = 3.29 Varianzzerlegung / Streuungszerlegung: Varianz bei geschichteten Daten. Zur Erinnerung: Daten liegen oft in Schichten vor (v.a. bei Sekundär- und Tertiärerhebungen). Beispiel: Daten über Einkommensverteilung geschichtet nach Bundesland. Bei der Berechnung von x̄ waren die einzelnen Besetzungszahlen sehr wichtig. Kapitel 3. Lage- und Streuungsmaße 53 Schicht 1, . . . , l, . . . , z Besetzungszahlen n1 , . . . , n l , . . . , n z ; Mittelwerte x̄1 , . . . , x̄l , . . . , x̄z Varianzen s̃21 , . . . , s̃2l , . . . , s̃2z z X nl = n l=1 Für das arithmetische Mittel gilt z x̄ = Seien nun 1X nl x̄l . n l=1 z s̃2innerhalb sowie 1X 2 nl s̃l := n l=1 z s̃2zwischen 1X nl (x̄l − x̄)2 := n l=1 • s̃2innerhalb gibt die durchschnittliche Varianz innerhalb der Schichten an. • s̃2zwischen gibt die Varianz der Durchschnittswerte zwischen den Schichten an. • s̃2zwischen = 0 gilt genau dann, wenn die Durchschnittswerte in allen Ländern gleich wären. Dann gibt s̃2innerhalb die gesamte Streuung an. • s̃2innerhalb = 0 gilt genau dann, wenn in jeder Schicht (also z.B. in jedem Bundesland) alle jeweils diesselbe Merkmalsausprägung (z.B das gleiche Einkommen) hätten. Wie setzt sich die Gesamtvarianz aus den beiden Bestandteilen zusammen? Varianzzerlegung Es gilt Gesamtvarianz = s̃2 = Varianz in. d. Schichten s̃2innerhalb + + Varianz zw. d. Schichten s̃2zwischen . Bemerkungen: • Im Detail gilt also mit den Urlisten {x1l , x2l , . . . , xnl l } in Schicht l, l = 1, . . . , z, nl nl z z z 1 XX 1X 1XX (xil − x̄l )2 + ( (xil − x̄)2 ) = nl (x̄l − x̄)2 . n l=1 i=1 n l=1 i=1 n l=1 • Diese Zerlegungsmöglichkeit gilt nur für Varianzen, nicht aber für andere Streuungsmaße. Letztendlich ist sie der Grund für die Beliebtheit der Varianz – trotz anderer Unannehmlichkeiten. Deshalb sollte man eher von der Varianzzerlegung als von der Streuungszerlegung sprechen. • Bei vielen Verfahren werden Streuungszerlegungen betrachtet; dies ist ein ganz grundlegendes Prinzip in der Statistik. 54 3.2. Streuungsmaße • Interpretation anhand des Beispiels mit den Einkommen der einzelnen Bundesländer: Ist s̃2zwischen im Vergleich zu s̃2innerhalb groß, so bedeutet dies, dass sich die einzelnen Ländermittelwerte relativ stark unterscheiden, also dass die geographische Herkunft (das Bundesland) eine große Rolle spielt. Korrigierte empirische Varianz: Neben der empirischen Varianz existiert noch eine alternative Definition der Varianz, die korrigierte empirische Varianz. Sei x1 , . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißt n s2X 1 X := (xi − x̄)2 n − 1 i=1 die korrigierte empirische Varianz oder korrigierte Stichprobenvarianz von X. Bemerkungen: • Der Sinn des Vorfaktors 1 n−1 wird erst in Statistik 2 deutlich. • Auch für die korrigierte Varianz gilt die Aussage zu linearen Transformationen, d.h. ist x1 , . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mit sX > 0 und y1 , . . . , yn die zugehörige Urliste des Merkmals Y = a · X + b. Dann gilt s2Y = a2 · s2X . 3.2.2 Weitere Streuungsmaße Variationskoeffizient: Der konkrete Wert der Varianz oder Standardabweichung (z.B. s̃X = 3.29 im Statistikbücher-Beispiel) ist schwierig zu interpretieren. Ist s̃X = 3.29 groß oder klein? Die Interpretation hängt insbesondere von der Einheit ab, in der X gemessen wird (z.B. DM, Euro, Bücher oder Regale). Gesucht ist eine dimensionslose Zahl zur Streuungsmessungen! Definition: Ist x̄ > 0, so heißt die Größe vX := s̃X x̄ Variationskoeffizient des Merkmals X. Bemerkungen: • Gemessen wird hier die Streuung relativ zum Mittelwert. Insbesondere ist vX dimensionslos. • Der Variationskoeffizient erlaubt beispielsweise auch den Vergleich der Streuung von Preisen, die in verschiedenen Währungen gemessen wurden. Kapitel 3. Lage- und Streuungsmaße 55 Inter-Quartils-Abstand: Sind x0.25 und x0.75 das obere und das untere Quartil eines Merkmals, so heißt dQX := x0.75 − x0.25 der Interquartilsabstand. Der Inter-Quartils-Abstand misst die Spannweite der zentralen 50% der Daten, die extremeren Beobachtungen (z.B. 25% Ärmste, 25% Reichste) werden dagegen nicht berücksichtigt. Da die Quartile eventuell nicht eindeutig sind, ist dQ auch manchmal nicht eindeutig. Median-Absolute-Deviation: Der Median der Werte |xi − xmed |, i = 1, . . . , n heißt Median-Absolute-Deviation von X (M ADX ). Spannweite: Die Größe RX := x(n) − x(1) heißt Spannweite von X. Bemerkungen • Alle betrachteten Streuungsmaße sind nur für (mindestens) intervallskalierte Merkmalse sinnvoll definiert, da sie auf Abständen (typischerweise dem Abstand der Beobachtungen zu einem Lagemaß) beruhen. • s̃2 , s̃, s2 , s sind die gebräuchlichsten Streuungsmaße. • s̃2 , s̃, s2 , s sind sehr empfindlich gegenüber Ausreißern! Das Gleiche gilt für die Spannweite R. M AD und dQ hingegen entstammen der sogenannten robusten Statistik, die sich um ausreißerresistente Methoden bemüht. • Gilt x1 = x2 = . . . = xn , so weisen alle Streungsmaße den Wert 0 auf. Mit Ausnahme von dQ gilt auch die Umkehrung: Sind die Steuungsmaße (außer eben dQ ) = 0, so sind alle Werte der Urliste gleich. • Häufig Ursache für Verwirrung und Missverständnisse: Der Begriff Streuung“ wird ” in der Statistik in einem doppelten Sinn gebraucht: – in einem allgemeinen Sinn: Streuung als Phänomen ( Die Daten streuen stark“). ” – in einem speziellen Sinn: als eine Maßzahl für dieses Phänomen. Beispiel: Statistikbücher 56 3.3. Box-Plot Ausprägungen 0 1 2 3 12 P hj 2 2 4 1 1 10 vX = s̃X /x̄ = 3.29/2.5 = 1.316. x0.25 = 1 x0.75 = 2 ⇒ dQX = 1. RX = 12. 3.3 Box-Plot Ziel: Grafische Zusammenfassung wichtiger Kennzahlen, die nicht ausreißeranfällig sind. • x0.25 , x0.50 , x0.75 . • Interquartilsabstand: dQX = x0.75 − x0.25 • Zäune“: zu ” zo := x0.25 − 1.5 · dQX := x0.75 + 1.5 · dQX • Ausserhalb der Zäune werden alle Punkte eingezeichnet; sie sind ausreißerverdächtig. Median © ©© ¼ Box ? w · · · · · zu · · · · · x0.25 | x0.75 {z zo } dQX HH Y H je stärker die Daten in der Mitte streuen, desto größer ist die Box Vorsicht bei der Anwendung von Software! Vor allem außerhalb der Box sind auch andere Darstellungen üblich (z.B. Zäune immer bis x(1) und x(n) ). Toutenburg (2002) beispielsweise unterscheidet zwischen Ausreißern (1.5 · dQX bis 3 · dQX von Rändern der Box entfernt) und Extremwerten (mehr als 3 · dQX vom Rand entfernt). SPSS drückt den Median durch einen dicken Strich aus. Kapitel 3. Lage- und Streuungsmaße 57 Der Box-Plot gibt einen kompakten Überblick über die Form der Verteilung (Zentrale Tendenz, Variabilität, Schiefe, extreme Werte). Box-Plots können auch zum Vergleich von Verteilungen verwendet werden: