Kapitel 3 Parameter von Häufigkeitsverteilungen 3.1 Mittelwerte Mo Der Modus (:= häufigster Wert, Abk.: Mo) ist der Merkmalswert mit der größten Häufigkeit, falls es einen solchen gibt. Er sollte nur bei eingipfligen (= unimodalen) Verteilung verwendet werden. Beispiele, bei denen das nicht der Fall ist: 6 6 - x1 Häufigkeitsverteilung ohne Modus x2 - x2 ist als Modus nicht sinnvoll Der Median (= Zentralwert, Abk.: Me) ist dadurch charakterisiert, daß er die Schar der Merkmalswerte halbiert, d.h. daß die Anzahl der i mit Merkmalswert xi < Me möglichst gleich der Anzahl der i mit Merkmalswert xi > Me ist (bis auf extreme Sonderfälle). Im Grenzfall der Häufigkeitsverteilung mit glatter Kurve ist der Median damit folgendermaßen zu veranschaulichen: 16 50% 50% Me Bei klassierten Häufigkeitstabellen ist damit der Wert, dessen kumulierte prozentuale Häufigkeit aufsteigender Kumulation näherungsweise 50% beträgt ein Näherungswert für den Median. Der in Beispiel 2.2.3 b) ermittelte Wert 5873 (DM) ist also ein Näherungswert für den Median der Häufigkeitsverteilung zu der Tabelle 2.2.2, d.h. M e ≈ 5873; denn 50% der Lohnsteuerpflichtigen verdienten näherungsweise unter 5873 DM. Bei wenigen Merkmalswerten, die in einer Rangliste geordnet sind (x1 ≤ x2 ≤ x3 . . . ≤ xn ), gilt: Me = ( x n+1 falls n ungerade ist 2 1 n 2 (x 2 + x n+2 ) falls n gerade ist 2 Beispiel 3.1.1: a) Rangliste: 3.5 3.7 3.9 M e = 3.9 ; denn: 3.5, 3.7 < 3.9 4.1, 4.6 > 3.9 4.1 4.6 b) Rangliste: 1.00 1.01 1.05 1.07 M e ist ein Wert zwischen den beiden “mittleren” Werten 1.01 und 1.05 in der Rangliste, wobei in der Regel das arithmetische Mittel dieser beiden Werte gewählt wird: Me = 1.01 + 1.05 = 1.03 2 Das arithmetische Mittel gibt einen Durchschnittswert der Merkmalswerte an: a) Berechnung aus der Urliste (x1 , x2 , x3 ,...,xn ): x := (3.1.1) 1 n n P i=1 xi = n1 (x1 + x2 + ... + xn ) b) Wenn eine einfache Häufigkeitstabelletabelle vorliegt, kann man sich das Aufsummieren vereinfachen: xi (andere Bedeutung als bei der Urliste oder der Rangliste) habe die absolute Häufigkeit fi , k X fi =: n ist die Anzahl der Beobachtungen. i=1 1 x1 + x1 + . . . + x1 + x2 + x2 + . . . + x2 + . . . + xk + xk + . . . + xk x̄ = {z } | {z } | {z } n | fi − mal f2 − mal 17 fk − mal f 1 · x1 + f 2 · x 2 + . . . + f k · x k = n = k X = i=1 fi xi = Pk j=1 fj k X i=1 hi · xi = Pk i=1 fi · xi i=1 fj Pk 1 X ′ hi · xi 100 Wir erhalten also die folgende Formel für die Berechnung des arithmetischen Mittels aus einer einfachen Häufigkeitstabelle: k P x i fi i=1 k (3.1.2) x= P = k P xi hi = i=1 fj j=1 k P xi h′i i=1 100 (fi ist die absolute, hi die relative und h′i prozentuale Häufigkeit von xi ) Beispiel 3.1.2: Berechnung des arithmetischen Mittels aus den Daten von Beispiel 2.2.1: a) Verwendung der Urliste: x̄ = 3.4 + 3.6 + 3.8 + 3.8 + . . . + 3.3 + 3.8 = 3.817 36 b) Verwendung der Häufigkeitstabelle: x̄ = 137.4 3.0 · 1 + 3.1 · 0 + 3.2 · 1 + . . . + 4.4 · 2 + 4.5 · 1 = = 3.817 1 + 0 + 1 + ... + 2 + 1 36 oder x̄ = 3.0 · 0.029 + 3.1 · 0 + 3.2 · 0.028 + . . . + 4.4 · 0.056 + 4.5 · 0.028 = 3.8811 oder 3.0 · 2.8 + 3.1 · 0 + 3.2 · 2.8 + . . . + 4.4 · 5.6 + 4.5 · 2.8 = 3.881 100 Die beobachteten Abweichungen beruhen auf Rundungsfehlern. x̄ = Da die Eingangswerte xi auf 2 Stellen gerundet waren, ist es naheliegend, auch das arithmetische Mittel auf 2 Stellen zu runden: x̄ = 3.8 Wenn man jedoch x̄ in weiteren Rechnungen verwendet, wie dies z.B. in Abschnitt 3.2 geschieht, ist es sinnvoll, eine höhere Stellenzahl zu verwenden, z.B. x̄ = 3.82 Im Übrigen muss das arithmetische Mittel auch für eine sinnvolle Interpretation nicht mit der gleichen Stellnzahl angegeben werden wie die Eingangswerte. Es ist z.B. sinnvoll zu sagen: Eine Familie hat durchschnitt 1 21 Kinder. (3.1.2) ist ein Spezialfall eines gewogenen arithmetischen Mittels: (3.1.3) k P Gi ai i=1 k a= P j=1 = Gj k P Gi gi := P k gi ai , i=1 Gj j=1 18 Dabei müssen die Gewichte Gi bei der ersten Darstellung nur die Bedingung ”Gi ≥ 0 für alle i” erfüllen. Für die Gewichte gi bei der zweiten Darstellung ergibt sich daraus: 0 ≤ gi ≤ 1 und k P gi = 1. i=1 Beispiel 3.1.3: Daten für 1969 aus dem statistischen Jahrbuch der BRD: Durchschnittliche Lohnsumme der Arbeiter: (a1 :=) 11250 (DM) Durchschnittliche Gehaltssumme der Angestellten: (a2 :=)16926 (DM) Das einfache arithmetische Mittel, also 11250+16926 = 14088(DM ) 2 ist hier nicht sinnvoll; denn man muss das unterschiedliche Gewicht der beiden Gruppen berücksichtigen: Zahl der Arbeiter: 6284000 =: G1 Zahl der Angestellten: 2024000 =: G2 (3.1.3) liefert dann das richtige, nämlich das gewogene arithmetische Mittel Gesamtdurchschnitt = Gesamtlohnsumme + Gesamtgehaltssumme Gesamtzahl = 11250 · 6284000 + 16926 · 2024000 = 12633 6284000 + 2024000 (DM) Bei klassierten Häufigkeitstabelle ist (3.1.2) als Näherungsformel mit xi als Klassenmitte zu verwenden. Beispiel 3.1.4: Wir verwenden die Daten aus Tabelle 2.2.2, wobei wir über die Klassenmitten das gewogene arithmetische Mittel bilden: exakt: 0.1721 z }| { x̄ ≈ 0.6 · 0.0916 + 1.8 · 0.0793 + . . . + 62.5 · 0.0004 + 87.5 · 0.0001 + x17 ·0.0001 |{z} =? ≈ 6.25 + x17 ·0.0001 ≈ 6.3 |{z} (in 1000 DM) ≥ 100 zum Vergleich: exaktes arithmetischen Mittel: x̄ = 129007604 Gesamtlohnsumme = = 6.241 Gesamtzahl 20669456 (in 1000 DM) Die verwendeten Größen 0.1721 und 129007604 können wir nicht aus der Tabelle 2.2.2 ermitteln, sondern sie sind weitere Angaben aus dem statistischem Jahrbuch. Das geometrische Mittel wird als Durchschnittswert von Verhältniszahlen (vgl. Abschn. 4.2 gelegentlich verwendet: √ G := n q1 · q2 · · · qn 19 3.2 Streuungsmaße Spannweite := Differenz zwischen größtem und kleinstem Merkmalswert. Die Mittelbildung über die Differenzen (xi − x) liefert kein Streuungsmaß, da z.B. im Falle der Urliste folgendes gilt: 1 n (3.2.0) n P (xi − x) = i=1 1 n Mittlere absolute Abweichung: (3.2.1) d := |xi − x| := n P i=1 xi − 1 n n P i=1 n 1 P |xi − x| n i=1 k P x=x− nx n =0 auf eine Urliste bezogen hi |xi − x| = i=1 k P fi |xi −x| i=1 = k P fj k P h′i |xi −x| i=1 100 auf eine einfache Hf - Tabelle bezogen j=1 Häufig verwendet man statt x in (3.2.1) auch den Median Me. Varianz: n 1 P (xi − x)2 n i=1 k P h′i (xi −x)2 k P h (x − x)2 = i=1 i i 100 σ 2 := (xi − x)2 := i=1 k P fi (xi −x)2 i=1 = k P fj (3.2.2) auf eine Urliste bezogen auf eine einfache Hf - Tabelle bezogen j=1 Bei klassierten Häufigkeitstabellen sind (3.2.1) u. (3.2.2) als Näherungsformeln mit xi als Klassenmittel zu verwenden. √ Standardabweichung: σ = V arianz Beispiel 3.2.1: Aus der Tabelle in Beispiel 2.2.1 hatten wir in Beispiel 3.1.2 das arithmetische Mittel berechnet. Dabei nehmen wir zunächst das, bei dem wir die gleiche Stellenzahl wie bei den Eingangswerten verwenden: x̄ = 3.8. Für die mittlere absolute Abweichung, bei der wir natürlich auch die Gewichte beachten müssen, erhalten wir dann: oder |x − x̄| d = |xi − x̄| = P16 i=1 fi |xi − P16 j=1 fj x̄| = 1 · |3.0 − 3.8| + 0 · |3.1 − 3.8| + . . . + 1 · |4.5 − 3.8| 36 10.2 = 0.283 36 Auch bei der Berechnung der Varianz müssen die Gewichte beachtet werden: 2 σ := (xi − x̄) = 2 2 oder (x − x̄) 20 = P16 i=1 fi (xi − P16 j=1 fj x̄)2 = 1 · (3.0 − 3.8)2 + 0 · (3.1 − 3.8)2 + . . . + 1 · (4.5 − 3, 8)2 36 4.56 = 0.127 = 36 √ σ = 0.127 = 0.356 Es gibt nun einfachere Brechnungsformel für die Varianz, die außerdem eine simultane Berechnung von x̄ und σ 2 zulässt: σ 2 = x2 − x 2 (3.2.3) Dabei ist x2 das arithmetische Mittel über xi 2 (statt xi ). Beweis von (3.2.3) bei Verwendung der Urliste: σ 2 := n n 1X 1X (xi − x̄)2 = x2i − 2xi x̄ + x̄2 n i=1 n i=1 n n n 1X 1X 1X 2 = x − 2xi x̄ + x̄2 n i=1 i n i=1 n i=1 = n n n 1X 1X 1X x2i −2x̄ xi + x̄2 n i=1 n i=1 n i=1 | {z } | {z } =: x2 =: x̄ = x2 − 2x̄2 + nx̄2 = x2 − x̄2 n (3.2.3) ist gegenüber Rundungsfehler und Fehler in den Daten xi wesentlich anfälliger als (3.2.2). Deshalb sollte bei der Verwendung von (3.2.3) bei x eine höhere Stellenzahl verwendet werden als es für die Interpretation von x sinnvoll ist, also u. U. sogar eine höhere Stellenzahl als bei den xi selbst. Dasselbe gilt für einige später behandelte Verfahren, in denen arithmetische Mittel verwendet werden. Beispiel 3.2.2: Erneute Berechnung der Varianz aus der Tabelle in Beispiel 2.2.1., x̄ war in Beispiel 3.1.2 berechnet worden. a) Verwendendung von x̄ = 3.8: x2 P16 fi x2i = 14.69 j=1 fj = Pi=1 16 x̄2 = 14.44 (3.2.3) =⇒ σ 2 = x2 − x̄2 = 14.69 − 14.44 = 0.25 =⇒ σ = 0.50 b) Verwendung von x̄ = 3.817 (3.2.3) x2 vergl. (a) , x̄2 = 14.57 =⇒ σ 2 = 14.69 − 14.57 = 0.12 =⇒ σ = 0.35 Vergleichen wir mit dem Ergebnis in Beispiel 3.2.1, so beobachten wir eine stärkere Übereinstimmung mit b) als mit a). Es ist also anzunehmen, dass die Rechnung in b) besser ist als die in a). Das liegt daran, dass in (3.2.3) wesentlich benutzt wurde, das x̄ der exakte Mittelwert der 21 vorliegenden Werte xi unabhängig von deren Genauigkeit ist. In b) sind wir erheblich “näher” an der Verwendung des exakten Mittelwertes als in a). Man sollte daher bei der Anwendung von (3.2.3) eine höhere Stellenzahl verwenden als vielleicht zur Interpretation sinnvoll ist und damit u.U. eine höhere Stellenzahl als bei den Eingangswerten. Allgemeine Eigenschaft: Streuungsmaß = 0 ⇐⇒ Alle Merkmalswerte sind gleich Relatives Streuungsmaß := (absolutes) Streuungsmaß |Mittelwert| Prozentuales Streuungsmaß := rel. Streuungsmaß · 100 3.3 Pearsonsches Schiefemaß Voraussetzung: Die Häufigkeitsverteilung besitzt einen Modus (3.3.1) sk := x−M o σ Rechtsteile Verteilung sk < 0 Linkssteile Verteilung sk > 0 Symmetrische Verteilung sk = 0 Aber: sk = 0 6⇒ Verteilung ist symmetrisch 3.4 Lorenz–Kurve, Gini–Koeffizient Für die Einführung der Lorenz–Kurve und des Gini–Koeffizienten gehen wir davon aus, dass die Merkmalswerte nicht-negativ sind und in einer Rangliste geordnet wurden: ! 0 ≤ x1 ≤ x 2 . . . ≤ x n 22 ! xn > 0 Beispiele: oder oder xi xi xi Einkommen von Person i Umsatz von Firma i Marktanteil von Firma i usw. Angestrebt wird der Vergleich des Anteils der k “kleinsten” (hinsichtlich z.B. des Einkommens xi ) statistischen Elemente an der Gesamtzahl n der statistischen Elemente, k =: uk n (k = 1, . . . , n), mit dem Anteil des Gesamteinkommens dieser k statistischen Elemente an dem Gesamteinkommen aller statistischen Elemente, k X i=1 n X xi =: vk , k = 1, . . . , n, xj j=1 Dieser Vergleich wird graphisch veranschaulicht durch die Lorenzkurve. Dies ist der Streckenzug, der im (u, v)–Koordinatensystem die Punkte (0, 0) =: (u0 , v0 ), (u1 , v1 ), (u2 , v2 ), . . . , (un , vn ) = (1, 1) verbindet. Wir wählen die Maßstäbe für u und v gleich, so dass die Punkte (0, 0), (1, 0), (1, 1) und (0, 1) ein Quadrat bilden. Beispiel 3.4.1: x1 := 2, x2 := 8, x3 := 10 seien die (bereits in einer Rangliste) vorgegebenen P Einkommen von drei Personen, also ist n = 3 und 3j=1 xj = 20 1 u1 = , 3 2 u2 = , 3 u3 = 3 =1 3 2+8 2 + 8 + 10 2 = 0.1, v2 = = 0.5, v3 = =1 20 20 20 Die Abszissen der Eckpunkte der Lorenzkurve sind die uk . Die Ordinaten der Eckpunkte sind die oben bestimmten vk ergänzt durch v0 = 0. v1 = v := Anteil am Gesamteinkommen 6 v=u Lorenz-Kurve - u := Anteil an der Gesamtzahl 23 Die Fläche zwischen der Lorenzkurve und der Geraden v = u zeigt uns an, wie stark etwa Einkommen in den oberen Einkommensgruppen konzentriert sind. Das Maß für die Konzentration wird Gini–Koeffizient genannt: G := = = = Fläche zwischen der Lorenz–Kurve und der Geraden v = u Fläche zwischen der u–Achse und der Geraden v = u (0 ≤ u ≤ 1) 1 1 1 1 − v1 · u1 + (v2 + v1 ) · (u2 − u1 ) + . . . + (vn + vn−1 ) · (un − un−1 ) 2 2 2 2 1 2 1 − v1 · n1 + (v2 + v1 ) · n1 + . . . + (vn + vn−1 ) · n1 n n−1 X 1 X vi + vi 1− n i=1 i=1 ! 1 =1− n vn + vi ! 0 ≤G ≤1− 1 n n−1 X vi + i=1 n−1 X i=1 n−1 X 1 =1− 1+2 vi n i=1 ! Wir erhalten also für den Gini-Koeffizienten: (3.4.1) 1+2 n−1 P i=1 G=1− n vi , Bei dem Beispiel 3.4.1 erhalten wir G=1− 1 + 2 · (0.1 + 0.5) 8 = = 0.27 3 30 Lorenz–Kurve und Gini–Koeffizient wurden hier für die Beschreibung der Konzentration der Einkommen verwendet. Will man die Konzentration der Umsätze beschreiben, so ist offensichtlich nur “Einkommen” durch “Umsatz” zu ersetzen. Für andere Größen gilt entsprechendes. Extremfälle: 1. Alle xi sind gleich, d.h. es gibt überhaupt keine Konzentration ⇐⇒ G = 0 2. G=1− 1 n ⇐⇒ v1 = v2 = . . . = vn−1 = 0 ∧ vn = 1 ⇐⇒ x1 = . . . = xn−1 = 0 , xn > 0 , d.h. es ist alles auf das statistische Element mit dem größten Einkommen (z.B.) konzentriert. Der Maximalwert des Gini–Koeffizienten ist nicht 1 sondern (1 − 1/n). Durch eine Modifikation des Gini–Koeffizienten gewinnt man ein Maß für die Konzentration, das in dem Extremfall der Konzentration auf das statistische Element mit dem größten Merkmalswert den Wert 1 annimmt. Dieses leistet der normierte Gini–Koeffizient: (3.4.2) G∗ := Bei dem Beispiel 3.4.1 erhalten wir n · G, n−1 G∗ = 0 ≤ G∗ ≤ 1 8 3 · = 0.4, 3 − 1 30 24 also eine “mittlere” Konzentration. Neben dem Gini–Koeffizienten und dem normierten Gini–Koeffizienten gibt es noch weitere Konzentrationsmaße. 25