Kapitel 3 Parameter von Häufigkeitsverteilungen 3.1 Mittelwerte Mo Der Modus (:= häufigster Wert, Abk.: Mo) ist der Merkmalswert mit der größten Häufigkeit, falls es einen solchen gibt. Er sollte nur bei eingipfligen (= unimodalen) Verteilung verwendet werden. Beispiele, bei denen das nicht der Fall ist: 6 6 - x1 Häufigkeitsverteilung ohne Modus x2 - x2 ist als Modus nicht sinnvoll Der Median (= Zentralwert, Abk.: Me) ist dadurch charakterisiert, daß er die Schar der Merkmalswerte halbiert, d.h. daß die Anzahl der i mit Merkmalswert xi < Me möglichst gleich der Anzahl der i mit Merkmalswert xi > Me ist (bis auf extreme Sonderfälle). Im Grenzfall der Häufigkeitsverteilung mit glatter Kurve ist der Median damit folgendermaßen zu veranschaulichen: 12 50% 50% Me Bei klassierten Häufigkeitstabellen ist damit der Wert, dessen kumulierte prozentuale Häufigkeit aufsteigender Kumulation näherungsweise 50% beträgt (vergl. Tab. 2.2), ein Näherungswert für den Median. Bei wenigen Merkmalswerten, die in einer Rangliste geordnet sind (x1 ≤ x2 ≤ x3 . . . ≤ xn ), gilt: ( Me = falls n ungerade ist x n+1 2 1 n 2 (x 2 + x n+2 ) falls n gerade ist 2 Das arithmetische Mittel gibt einen Durchschnittswert der Merkmalswerte an: a) Berechnung aus der Urliste (x1 , x2 , x3 ,...,xn ): x := (3.1.1) 1 n n P i=1 xi = n1 (x1 + x2 + ... + xn ) b) Berechnung aus einer einfachen Häufigkeitstabelle: (3.1.2) k P x i fi i=1 k x= P = k P xi hi = i=1 fj j=1 k P xi h′i i=1 100 (fi ist die absolute, hi die relative und h′i prozentuale Häufigkeit von xi ) Dies ist ein Spezialfall eines gewogenen arithmetischen Mittels: (3.1.3) k P Gi ai a = i=1 k P j=1 = Gj k P Gi gi := P k gi ai , i=1 Gj j=1 Dabei müssen die Gewichte Gi bei der ersten Darstellung nur die Bedingung ”Gi ≥ 0 für alle i” erfüllen. Für die Gewichte gi bei der zweiten Darstellung ergibt sich daraus: 0 ≤ gi ≤ 1 und k P gi = 1. i=1 Bei klassierten Häufigkeitstabelle ist (3.1.2) als Näherungsformel mit xi als Klassenmitte zu verwenden. Das geometrische Mittel wird als Durchschnittswert von Verhältniszahlen (vgl. Abschn. 4.2 gelegentlich verwendet: √ G := n q1 · q2 · · · qn 3.2 Streuungsmaße Spannweite := Differenz zwischen größtem und kleinstem Merkmalswert. Die Mittelbildung über die Differenzen (xi − x) liefert kein Streuungsmaß, da z.B. im Falle der 13 Urliste folgendes gilt: 1 n (3.2.0) n P (xi − x) = i=1 Mittlere absolute Abweichung: (3.2.1) 1 n n P i=1 xi − 1 n n P i=1 x=x− n 1 P |xi − x| n i=1 k P h′i |xi −x| k P h |x − x| = i=1 i i 100 d := |xi − x| := i=1 k P fi |xi −x| i=1 = k P fj nx n =0 auf eine Urliste bezogen auf eine einfache Hf - Tabelle bezogen j=1 Häufig verwendet man statt x in (3.2.1) auch den Median Me. Varianz: (3.2.2) σ 2 := (xi − x)2 := n 1 P (xi − x)2 n i=1 k 2 P hi (xi − x) = i=1 k P fi (xi −x)2 i=1 = k P fj auf eine Urliste bezogen k P h′i (xi −x)2 i=1 100 auf eine einfache Hf - Tabelle bezogen j=1 Bei klassierten Häufigkeitstabellen sind (3.2.1) u. (3.2.2) als Näherungsformeln mit xi als Klassenmittel zu verwenden. √ Standardabweichung: σ = V arianz Formel zur Vereinfachung der Berechnung der Varianz: (3.2.3) σ 2 = x2 − x 2 Dabei ist x2 das arithmetische Mittel über xi 2 (statt xi ). (3.2.3) ist gegenüber Rundungsfehler und Fehler in den Daten xi wesentlich anfälliger als (3.2.2). Deshalb sollte bei der Verwendung von (3.2.3) bei x eine höhere Stellenzahl verwendet werden als es für die Interpretation von x sinnvoll ist, also u. U. sogar eine höhere Stellenzahl als bei den xi selbst. Dasselbe gilt für einige später behandelte Verfahren, in denen arithmetische Mittel verwendet werden. Allgemeine Eigenschaft: Streuungsmaß = 0 ⇐⇒ Alle Merkmalswerte sind gleich Relatives Streuungsmaß := (absolutes) Streuungsmaß |Mittelwert| Prozentuales Streuungsmaß := rel. Streuungsmaß · 100 14 3.3 Pearsonsches Schiefemaß Voraussetzung: Die Häufigkeitsverteilung besitzt einen Modus (3.3.1) sk := x−M o σ Rechtsteile Verteilung sk < 0 Linkssteile Verteilung sk > 0 Symmetrische Verteilung sk = 0 Aber: sk = 0 6⇒ Verteilung ist symmetrisch 3.4 Lorenz–Kurve, Gini–Koeffizient Für die Einführung der Lorenz–Kurve und des Gini–Koeffizienten gehen wir davon aus, dass die Merkmalswerte nicht-negativ sind und in einer Rangliste geordnet wurden: ! 0 ≤ x1 ≤ x 2 . . . ≤ x n ! xn > 0 Beispiele: oder oder xi xi xi Einkommen von Person i Umsatz von Firma i Marktanteil von Firma i usw. Angestrebt wird der Vergleich des Anteils der k “kleinsten” (hinsichtlich z.B. des Einkommens xi ) statistischen Elemente an der Gesamtzahl n der statistischen Elemente, k =: uk n (k = 1, . . . , n), 15 mit dem Anteil des Gesamteinkommens dieser k statistischen Elemente an dem Gesamteinkommen aller statistischen Elemente, k X i=1 n X xi =: vk , k = 1, . . . , n, xj j=1 Dieser Vergleich wird graphisch veranschaulicht durch die Lorenzkurve. Dies ist der Streckenzug, der im (u, v)–Koordinatensystem die Punkte (0, 0) =: (u0 , v0 ), (u1 , v1 ), (u2 , v2 ), . . . , (un , vn ) = (1, 1) verbindet. Als Maß für die Konzentration verwendet man den Gini–Koeffizienten: G Fläche zwischen der Lorenz–Kurve und der Geraden v = u Fläche zwischen der u–Achse und der Geraden v = u (0 ≤ u ≤ 1) 1 1 1 1 − (v1 + 0) · (u1 − 0) − (v2 + v1 ) · (u2 − u1 ) − . . . − (vn + vn−1 ) · (un − un−1 ) 2 2 2 2 = 1 2 ! n 1X = 1− (vi + vi−1 ) n i=1 := 1+2 n−1 P vi 1 . n n Lorenz–Kurve und Gini–Koeffizient wurden hier für die Beschreibung der Konzentration der Einkommen verwendet. Will man die Konzentration der Umsätze beschreiben, so ist offensichtlich nur “Einkommen” durch “Umsatz” zu ersetzen. Für andere Größen gilt entsprechendes. = 1− i=1 , 0≤G≤1− Extremfälle: 1. Alle xi sind gleich, d.h. es gibt überhaupt keine Konzentration ⇐⇒ G = 0 2. G=1− 1 n ⇐⇒ v1 = v2 = . . . = vn−1 = 0 ∧ vn = 1 ⇐⇒ x1 = . . . = xn−1 = 0 , xn > 0 , d.h. es ist alles auf das statistische Element mit dem größten Einkommen (z.B.) konzentriert. Der Maximalwert des Gini–Koeffizienten ist nicht 1 sondern (1 − 1/n). Durch eine Modifikation des Gini–Koeffizienten gewinnt man ein Maß für die Konzentration, das in dem Extremfall der Konzentration auf das statistische Element mit dem größten Merkmalswert den Wert 1 annimmt. Dieses leistet der normierte Gini–Koeffizient: n ·G 0 ≤ G∗ ≤ 1 n−1 Neben dem Gini–Koeffizienten und dem normierten Gini–Koeffizienten gibt es noch weitere Konzentrationsmaße. G∗ := 16