Parameter von Häufigkeitsverteilungen

Kapitel 3
Parameter von
Häufigkeitsverteilungen
3.1
Mittelwerte
Mo
Der Modus (:= häufigster Wert, Abk.: Mo) ist der Merkmalswert mit der größten Häufigkeit,
falls es einen solchen gibt. Er sollte nur bei eingipfligen (= unimodalen) Verteilung verwendet
werden. Beispiele, bei denen das nicht der Fall ist:
6
6
-
x1
Häufigkeitsverteilung ohne Modus
x2
-
x2 ist als Modus nicht sinnvoll
Der Median (= Zentralwert, Abk.: Me) ist dadurch charakterisiert, daß er die Schar der Merkmalswerte halbiert, d.h. daß die Anzahl der i mit Merkmalswert xi < Me möglichst gleich der
Anzahl der i mit Merkmalswert xi > Me ist (bis auf extreme Sonderfälle). Im Grenzfall der Hf
- Vert. mit glatter Kurve ist der Median damit folgendermaßen zu veranschaulichen:
12
50%
50%
Me
Bei klassierten Häufigkeitstabellen ist damit der Wert, dessen kum. proz. Häufigkeit aufsteigender Kumulation näherungsweise 50% beträgt (vgl. Tab. 2.2), ein Näherungswert für den Median.
Bei wenigen Merkmalswerten, die in einer Rangliste geordnet sind (x1 ≤ x2 ≤ x3 . . . ≤ xn ), gilt:
(
Me =
x n+1
falls n ungerade ist
2
1
n
2 (x 2 + x n+2 ) falls n gerade ist
2
Das arithmetische Mittel gibt einen Durchschnittswert der Merkmalswerte an:
a) Berechnung aus der Urliste (x1 , x2 , x3 ,...,xn ):
x :=
(3.1.1)
1
n
n
P
i=1
xi = n1 (x1 + x2 + ... + xn )
b) Berechnung aus einer einfachen Häufigkeitstabelle:
(3.1.2)
k
P
x i fi
i=1
k
x= P
=
k
P
xi hi =
i=1
fj
j=1
k
P
xi h′i
i=1
100
(fi ist die absolute, hi die relative und h′i prozentuale Häufigkeit von xi )
Dies ist ein Spezialfall eines gewogenen arithmetischen Mittels:
(3.1.3)
k
P
Gi ai
a = i=1
k
P
j=1
=
Gj
k
P
Gi
gi := P
k
gi ai ,
i=1
Gj
j=1
Dabei müssen die Gewichte Gi bei der ersten Darstellung nur die Bedingung ”Gi ≥ 0 für alle
i” erfüllen. Für die Gewichte gi bei der zweiten Darstellung ergibt sich daraus:
0 ≤ gi ≤ 1 und
k
P
gi = 1.
i=1
Bei klassierten Häufigkeitstabelle ist (3.1.2) als Näherungsformel mit xi als Klassenmitte zu
verwenden.
Das geometrische Mittel wird als Durchschnittswert von Verhältniszahlen (vgl. Abschn. 4.2
gelegentlich verwendet:
√
G := n q1 · q2 · · · qn
3.2
Streuungsmaße
Spannweite := Differenz zwischen größtem und kleinstem Merkmalswert.
Die Mittelbildung über die Differenzen (xi − x) liefert kein Streuungsmaß, da z.B. im Falle der
13
Urliste folgendes gilt:
1
n
(3.2.0)
n
P
(xi − x) =
i=1
1
n
Mittlere absolute Abweichung:
(3.2.1)
d=




1
n
n
P
i=1
|xi − x|
n
P
i=1
xi −
1
n
n
P
i=1
x=x−
nx
n
=0
auf eine Urliste bezogen
k
P



hi |xi − x| auf eine einfache Hf - Tabelle bezogen
i=1
Häufig verwendet man statt x in (3.2.1) auch den Median Me.
Varianz:
(3.2.2)
σ2 =




1
n
n
P
i=1
(xi − x)2 auf eine Urliste bezogen
k
P



hi (xi − x)2
auf eine einfache Hf - Tabelle bezogen
i=1
Bei klassierten Häufigkeitstabellen sind (3.2.1) u. (3.2.2) als Näherungsformeln mit xi als Klassenmittel zu verwenden.
√
Standardabweichung:
σ = V arianz
Formel zur Vereinfachung der Berechnung der Varianz:
σ 2 = x2 − x 2
(3.2.3)
Dabei ist x2 das arithmetische Mittel über xi 2 (statt xi ).
(3.2.3) ist gegenüber Rundungsfehler und Fehler in den Daten xi wesentlich anfälliger als (3.2.2).
Deshalb sollte bei der Verwendung von (3.2.3) bei x eine höhere Stellenzahl verwendet werden
als es für die Interpretation von x sinnvoll ist, also u. U. sogar eine höhere Stellenzahl als bei
den xi selbst. Dasselbe gilt für einige später behandelte Verfahren, in denen arithmetische Mittel
verwendet werden.
Allgemeine Eigenschaft:
Streuungsmaß = 0 ⇐⇒ Alle Merkmalswerte sind gleich
Relatives Streuungsmaß :=
(absolutes) Streuungsmaß
|Mittelwert|
Prozentuales Streuungsmaß := rel. Streuungsmaß · 100
3.3
Pearsonsches Schiefemaß
Voraussetzung: Die Häufigkeitsverteilung besitzt einen Modus
(3.3.1)
sk :=
x−M o
σ
14
Rechtsteile Verteilung
sk < 0
Linkssteile Verteilung
sk > 0
Symmetrische Verteilung
sk = 0
Aber: sk = 0 6⇒ Verteilung ist symmetrisch
3.4
Lorenz–Kurve, Gini–Koeffizient
Für die Einführung der Lorenz–Kurve und des Gini–Koeffizienten gehen wir davon aus, daß die
Merkmalswerte nicht-negativ sind und in einer Rangliste geordnet wurden:
!
0 ≤ x1 ≤ x 2 . . . ≤ x n
!
xn > 0
Beispiele:
oder
oder
xi
xi
xi
Einkommen von Person i
Umsatz von Firma i
Marktanteil von Firma i usw.
Angestrebt wird der Vergleich des Anteils der k “kleinsten” (hinsichtlich z.B. des Einkommens
xi ) statistischen Elemente an der Gesamtzahl n der statistischen Elemente,
k
=: uk
n
(k = 1, . . . , n),
mit dem Anteil des Gesamteinkommens dieser k statistischen Elemente an dem Gesamteinkom-
15
men aller statistischen Elemente,
k
X
i=1
n
X
xi
=: vk ,
k = 1, . . . , n,
xj
j=1
Dieser Vergleich wird graphisch veranschaulicht durch die Lorenzkurve. Dies ist der Streckenzug, der im (u, v)–Koordinatensystem die Punkte (0, 0) =: (u0 , v0 ), (u1 , v1 ), (u2 , v2 ), . . . , (un , vn ) =
(1, 1) verbindet.
Als Maß für die Konzentration verwendet man den Gini–Koeffizienten:
G
Fläche zwischen der Lorenz–Kurve und der Geraden v = u
Fläche zwischen der u–Achse und der Geraden v = u (0 ≤ u ≤ 1)
1 1
1
1
− (v1 + 0) · (u1 − 0) − (v2 + v1 ) · (u2 − u1 ) − . . . − (vn + vn−1 ) · (un − un−1 )
2
2
= 2 2
1
2
!
n
1X
(vi + vi−1 )
= 1−
n i=1
:=
1+2
n−1
P
vi
1
.
n
n
Lorenz–Kurve und Gini–Koeffizient wurden hier für die Beschreibung der Konzentration der
Einkommen verwendet. Will man die Konzentration der Umsätze beschreiben, so ist offensichtlich nur “Einkommen” durch “Umsatz” zu ersetzen. Für andere Größen gilt entsprechendes.
=
1−
i=1
,
0≤G≤1−
Extremfälle:
1. Alle xi sind gleich, d.h. es gibt überhaupt keine Konzentration
⇐⇒ G = 0
2.
G=1−
1
n
⇐⇒ v1 = v2 = . . . = vn−1 = 0 ∧ vn = 1
⇐⇒ x1 = . . . = xn−1 = 0 , xn > 0 ,
d.h. es ist alles auf das statistische Element mit dem größten Einkommen (z.B.) konzentriert.
Der Maximalwert des Gini–Koeffizienten ist nicht 1 sondern (1 − 1/n). Durch eine Modifikation
des Gini–Koeffizienten gewinnt man ein Maß für die Konzentration, das in dem Extremfall der
Konzentration auf das statistische Element mit dem größten Merkmalswert den Wert 1 annimmt.
Dieses leistet der normierte Gini–Koeffizient:
n
·G
0 ≤ G∗ ≤ 1
n−1
Neben dem Gini–Koeffizienten und dem normierten Gini–Koeffizienten gibt es noch weitere
Konzentrationsmaße.
G∗ :=
16