Parameter von Häufigkeitsverteilungen

Werbung
Kapitel 3
Parameter von
Häufigkeitsverteilungen
3.1
Mittelwerte
Mo
Der Modus (:= häufigster Wert, Abk.: Mo) ist der Merkmalswert mit der größten Häufigkeit,
falls es einen solchen gibt. Er sollte nur bei eingipfligen (= unimodalen) Verteilung verwendet
werden. Beispiele, bei denen das nicht der Fall ist:
6
6
-
x1
Häufigkeitsverteilung ohne Modus
x2
-
x2 ist als Modus nicht sinnvoll
Der Median (= Zentralwert, Abk.: Me) ist dadurch charakterisiert, daß er die Schar der Merkmalswerte halbiert, d.h. daß die Anzahl der i mit Merkmalswert xi < Me möglichst gleich der
Anzahl der i mit Merkmalswert xi > Me ist (bis auf extreme Sonderfälle). Im Grenzfall der Hf
- Vert. mit glatter Kurve ist der Median damit folgendermaßen zu veranschaulichen:
12
50%
50%
Me
Bei klassierten Häufigkeitstabellen ist damit der Wert, dessen kum. proz. Häufigkeit aufsteigender Kumulation näherungsweise 50% beträgt (vgl. Tab. 2.2), ein Näherungswert für den Median.
Bei wenigen Merkmalswerten, die in einer Rangliste geordnet sind (x1 ≤ x2 ≤ x3 . . . ≤ xn ), gilt:
(
Me =
x n+1
falls n ungerade ist
2
1
n
2 (x 2 + x n+2 ) falls n gerade ist
2
Das arithmetische Mittel gibt einen Durchschnittswert der Merkmalswerte an:
a) Berechnung aus der Urliste (x1 , x2 , x3 ,...,xn ):
x :=
(3.1.1)
1
n
n
P
i=1
xi = n1 (x1 + x2 + ... + xn )
b) Berechnung aus einer einfachen Häufigkeitstabelle:
(3.1.2)
k
P
x i fi
i=1
k
x= P
=
k
P
xi hi =
i=1
fj
j=1
k
P
xi h′i
i=1
100
(fi ist die absolute, hi die relative und h′i prozentuale Häufigkeit von xi )
Dies ist ein Spezialfall eines gewogenen arithmetischen Mittels:
(3.1.3)
k
P
Gi ai
a = i=1
k
P
j=1
=
Gj
k
P
Gi
gi := P
k
gi ai ,
i=1
Gj
j=1
Dabei müssen die Gewichte Gi bei der ersten Darstellung nur die Bedingung ”Gi ≥ 0 für alle
i” erfüllen. Für die Gewichte gi bei der zweiten Darstellung ergibt sich daraus:
0 ≤ gi ≤ 1 und
k
P
gi = 1.
i=1
Bei klassierten Häufigkeitstabelle ist (3.1.2) als Näherungsformel mit xi als Klassenmitte zu
verwenden.
Das geometrische Mittel wird als Durchschnittswert von Verhältniszahlen (vgl. Abschn. 4.2
gelegentlich verwendet:
√
G := n q1 · q2 · · · qn
3.2
Streuungsmaße
Spannweite := Differenz zwischen größtem und kleinstem Merkmalswert.
Die Mittelbildung über die Differenzen (xi − x) liefert kein Streuungsmaß, da z.B. im Falle der
13
Urliste folgendes gilt:
1
n
(3.2.0)
n
P
(xi − x) =
i=1
1
n
Mittlere absolute Abweichung:
(3.2.1)
d=




1
n
n
P
i=1
|xi − x|
n
P
i=1
xi −
1
n
n
P
i=1
x=x−
nx
n
=0
auf eine Urliste bezogen
k
P



hi |xi − x| auf eine einfache Hf - Tabelle bezogen
i=1
Häufig verwendet man statt x in (3.2.1) auch den Median Me.
Varianz:
(3.2.2)
σ2 =




1
n
n
P
i=1
(xi − x)2 auf eine Urliste bezogen
k
P



hi (xi − x)2
auf eine einfache Hf - Tabelle bezogen
i=1
Bei klassierten Häufigkeitstabellen sind (3.2.1) u. (3.2.2) als Näherungsformeln mit xi als Klassenmittel zu verwenden.
√
Standardabweichung:
σ = V arianz
Formel zur Vereinfachung der Berechnung der Varianz:
σ 2 = x2 − x 2
(3.2.3)
Dabei ist x2 das arithmetische Mittel über xi 2 (statt xi ).
(3.2.3) ist gegenüber Rundungsfehler und Fehler in den Daten xi wesentlich anfälliger als (3.2.2).
Deshalb sollte bei der Verwendung von (3.2.3) bei x eine höhere Stellenzahl verwendet werden
als es für die Interpretation von x sinnvoll ist, also u. U. sogar eine höhere Stellenzahl als bei
den xi selbst. Dasselbe gilt für einige später behandelte Verfahren, in denen arithmetische Mittel
verwendet werden.
Allgemeine Eigenschaft:
Streuungsmaß = 0 ⇐⇒ Alle Merkmalswerte sind gleich
Relatives Streuungsmaß :=
(absolutes) Streuungsmaß
|Mittelwert|
Prozentuales Streuungsmaß := rel. Streuungsmaß · 100
3.3
Pearsonsches Schiefemaß
Voraussetzung: Die Häufigkeitsverteilung besitzt einen Modus
(3.3.1)
sk :=
x−M o
σ
14
Rechtsteile Verteilung
sk < 0
Linkssteile Verteilung
sk > 0
Symmetrische Verteilung
sk = 0
Aber: sk = 0 6⇒ Verteilung ist symmetrisch
3.4
Lorenz–Kurve, Gini–Koeffizient
Für die Einführung der Lorenz–Kurve und des Gini–Koeffizienten gehen wir davon aus, daß die
Merkmalswerte nicht-negativ sind und in einer Rangliste geordnet wurden:
!
0 ≤ x1 ≤ x 2 . . . ≤ x n
!
xn > 0
Beispiele:
oder
oder
xi
xi
xi
Einkommen von Person i
Umsatz von Firma i
Marktanteil von Firma i usw.
Angestrebt wird der Vergleich des Anteils der k “kleinsten” (hinsichtlich z.B. des Einkommens
xi ) statistischen Elemente an der Gesamtzahl n der statistischen Elemente,
k
=: uk
n
(k = 1, . . . , n),
mit dem Anteil des Gesamteinkommens dieser k statistischen Elemente an dem Gesamteinkom-
15
men aller statistischen Elemente,
k
X
i=1
n
X
xi
=: vk ,
k = 1, . . . , n,
xj
j=1
Dieser Vergleich wird graphisch veranschaulicht durch die Lorenzkurve. Dies ist der Streckenzug, der im (u, v)–Koordinatensystem die Punkte (0, 0) =: (u0 , v0 ), (u1 , v1 ), (u2 , v2 ), . . . , (un , vn ) =
(1, 1) verbindet.
Als Maß für die Konzentration verwendet man den Gini–Koeffizienten:
G
Fläche zwischen der Lorenz–Kurve und der Geraden v = u
Fläche zwischen der u–Achse und der Geraden v = u (0 ≤ u ≤ 1)
1 1
1
1
− (v1 + 0) · (u1 − 0) − (v2 + v1 ) · (u2 − u1 ) − . . . − (vn + vn−1 ) · (un − un−1 )
2
2
= 2 2
1
2
!
n
1X
(vi + vi−1 )
= 1−
n i=1
:=
1+2
n−1
P
vi
1
.
n
n
Lorenz–Kurve und Gini–Koeffizient wurden hier für die Beschreibung der Konzentration der
Einkommen verwendet. Will man die Konzentration der Umsätze beschreiben, so ist offensichtlich nur “Einkommen” durch “Umsatz” zu ersetzen. Für andere Größen gilt entsprechendes.
=
1−
i=1
,
0≤G≤1−
Extremfälle:
1. Alle xi sind gleich, d.h. es gibt überhaupt keine Konzentration
⇐⇒ G = 0
2.
G=1−
1
n
⇐⇒ v1 = v2 = . . . = vn−1 = 0 ∧ vn = 1
⇐⇒ x1 = . . . = xn−1 = 0 , xn > 0 ,
d.h. es ist alles auf das statistische Element mit dem größten Einkommen (z.B.) konzentriert.
Der Maximalwert des Gini–Koeffizienten ist nicht 1 sondern (1 − 1/n). Durch eine Modifikation
des Gini–Koeffizienten gewinnt man ein Maß für die Konzentration, das in dem Extremfall der
Konzentration auf das statistische Element mit dem größten Merkmalswert den Wert 1 annimmt.
Dieses leistet der normierte Gini–Koeffizient:
n
·G
0 ≤ G∗ ≤ 1
n−1
Neben dem Gini–Koeffizienten und dem normierten Gini–Koeffizienten gibt es noch weitere
Konzentrationsmaße.
G∗ :=
16
Herunterladen