Parameter von Häufigkeitsverteilungen

Werbung
Kapitel 3
Parameter von
Häufigkeitsverteilungen
3.1
Mittelwerte
Mo
Der Modus (:= häufigster Wert, Abk.: Mo) ist der Merkmalswert mit der größten Häufigkeit,
falls es einen solchen gibt. Er sollte nur bei eingipfligen (= unimodalen) Verteilung verwendet
werden. Beispiele, bei denen das nicht der Fall ist:
6
6
-
x1
Häufigkeitsverteilung ohne Modus
x2
-
x2 ist als Modus nicht sinnvoll
Der Median (= Zentralwert, Abk.: Me) ist dadurch charakterisiert, daß er die Schar der Merkmalswerte halbiert, d.h. daß die Anzahl der i mit Merkmalswert xi < Me möglichst gleich der
Anzahl der i mit Merkmalswert xi > Me ist (bis auf extreme Sonderfälle). Im Grenzfall der
Häufigkeitsverteilung mit glatter Kurve ist der Median damit folgendermaßen zu veranschaulichen:
16
50%
50%
Me
Bei klassierten Häufigkeitstabellen ist damit der Wert, dessen kumulierte prozentuale Häufigkeit
aufsteigender Kumulation näherungsweise 50% beträgt ein Näherungswert für den Median. Der
in Beispiel 2.2.3 b) ermittelte Wert 5873 (DM) ist also ein Näherungswert für den Median der
Häufigkeitsverteilung zu der Tabelle 2.2.2, d.h. M e ≈ 5873; denn 50% der Lohnsteuerpflichtigen
verdienten näherungsweise unter 5873 DM.
Bei wenigen Merkmalswerten, die in einer Rangliste geordnet sind (x1 ≤ x2 ≤ x3 . . . ≤ xn ), gilt:
Me =
(
x n+1
falls n ungerade ist
2
1
n
2 (x 2 + x n+2 ) falls n gerade ist
2
Beispiel 3.1.1:
a) Rangliste:
3.5
3.7
3.9
M e = 3.9 ; denn:
3.5, 3.7 < 3.9
4.1, 4.6 > 3.9
4.1
4.6
b) Rangliste:
1.00
1.01
1.05
1.07
M e ist ein Wert zwischen den beiden “mittleren” Werten 1.01 und 1.05 in der Rangliste,
wobei in der Regel das arithmetische Mittel dieser beiden Werte gewählt wird:
Me =
1.01 + 1.05
= 1.03
2
Das arithmetische Mittel gibt einen Durchschnittswert der Merkmalswerte an:
a) Berechnung aus der Urliste (x1 , x2 , x3 ,...,xn ):
x :=
(3.1.1)
1
n
n
P
i=1
xi = n1 (x1 + x2 + ... + xn )
b) Wenn eine einfache Häufigkeitstabelletabelle vorliegt, kann man sich das Aufsummieren
vereinfachen: xi (andere Bedeutung als bei der Urliste oder der Rangliste) habe die absolute
Häufigkeit fi ,
k
X
fi =: n
ist die Anzahl der Beobachtungen.
i=1
1
x1 + x1 + . . . + x1 + x2 + x2 + . . . + x2 + . . . + xk + xk + . . . + xk
x̄ =
{z
} |
{z
}
|
{z
}
n |
fi − mal
f2 − mal
17
fk − mal
f 1 · x1 + f 2 · x 2 + . . . + f k · x k
=
n
=
k
X
=
i=1
fi
xi =
Pk
j=1 fj
k
X
i=1
hi · xi =
Pk
i=1 fi
· xi
i=1 fj
Pk
1 X ′
hi · xi
100
Wir erhalten also die folgende Formel für die Berechnung des arithmetischen Mittels aus
einer einfachen Häufigkeitstabelle:
k
P
x i fi
i=1
k
(3.1.2)
x= P
=
k
P
xi hi =
i=1
fj
j=1
k
P
xi h′i
i=1
100
(fi ist die absolute, hi die relative und h′i prozentuale Häufigkeit von xi )
Beispiel 3.1.2: Berechnung des arithmetischen Mittels aus den Daten von Beispiel 2.2.1:
a) Verwendung der Urliste:
x̄ =
3.4 + 3.6 + 3.8 + 3.8 + . . . + 3.3 + 3.8
= 3.817
36
b) Verwendung der Häufigkeitstabelle:
x̄ =
137.4
3.0 · 1 + 3.1 · 0 + 3.2 · 1 + . . . + 4.4 · 2 + 4.5 · 1
=
= 3.817
1 + 0 + 1 + ... + 2 + 1
36
oder
x̄ = 3.0 · 0.029 + 3.1 · 0 + 3.2 · 0.028 + . . . + 4.4 · 0.056 + 4.5 · 0.028 = 3.8811
oder
3.0 · 2.8 + 3.1 · 0 + 3.2 · 2.8 + . . . + 4.4 · 5.6 + 4.5 · 2.8
= 3.881
100
Die beobachteten Abweichungen beruhen auf Rundungsfehlern.
x̄ =
Da die Eingangswerte xi auf 2 Stellen gerundet waren, ist es naheliegend, auch das arithmetische
Mittel auf 2 Stellen zu runden:
x̄ = 3.8
Wenn man jedoch x̄ in weiteren Rechnungen verwendet, wie dies z.B. in Abschnitt 3.2 geschieht,
ist es sinnvoll, eine höhere Stellenzahl zu verwenden, z.B. x̄ = 3.82
Im Übrigen muss das arithmetische Mittel auch für eine sinnvolle Interpretation nicht mit der
gleichen Stellnzahl angegeben werden wie die Eingangswerte. Es ist z.B. sinnvoll zu sagen: Eine
Familie hat durchschnitt 1 21 Kinder.
(3.1.2) ist ein Spezialfall eines gewogenen arithmetischen Mittels:
(3.1.3)
k
P
Gi ai
i=1
k
a= P
j=1
=
Gj
k
P
Gi
gi := P
k
gi ai ,
i=1
Gj
j=1
18
Dabei müssen die Gewichte Gi bei der ersten Darstellung nur die Bedingung ”Gi ≥ 0 für alle
i” erfüllen. Für die Gewichte gi bei der zweiten Darstellung ergibt sich daraus:
0 ≤ gi ≤ 1 und
k
P
gi = 1.
i=1
Beispiel 3.1.3:
Daten für 1969 aus dem statistischen Jahrbuch der BRD:
Durchschnittliche Lohnsumme der Arbeiter:
(a1 :=) 11250 (DM)
Durchschnittliche Gehaltssumme der Angestellten: (a2 :=)16926 (DM)
Das einfache arithmetische Mittel, also
11250+16926
= 14088(DM )
2
ist hier nicht sinnvoll; denn man muss das unterschiedliche Gewicht der beiden Gruppen berücksichtigen:
Zahl der Arbeiter:
6284000 =: G1
Zahl der Angestellten: 2024000 =: G2
(3.1.3) liefert dann das richtige, nämlich das gewogene arithmetische Mittel
Gesamtdurchschnitt = Gesamtlohnsumme + Gesamtgehaltssumme
Gesamtzahl
=
11250 · 6284000 + 16926 · 2024000
= 12633
6284000 + 2024000
(DM)
Bei klassierten Häufigkeitstabelle ist (3.1.2) als Näherungsformel mit xi als Klassenmitte zu verwenden.
Beispiel 3.1.4: Wir verwenden die Daten aus Tabelle 2.2.2, wobei wir über die Klassenmitten
das gewogene arithmetische Mittel bilden:
exakt: 0.1721
z
}|
{
x̄ ≈ 0.6 · 0.0916 + 1.8 · 0.0793 + . . . + 62.5 · 0.0004 + 87.5 · 0.0001 + x17 ·0.0001
|{z}
=?
≈ 6.25 + x17 ·0.0001 ≈ 6.3
|{z}
(in 1000 DM)
≥ 100
zum Vergleich: exaktes arithmetischen Mittel:
x̄ =
129007604
Gesamtlohnsumme
=
= 6.241
Gesamtzahl
20669456
(in 1000 DM)
Die verwendeten Größen 0.1721 und 129007604 können wir nicht aus der Tabelle 2.2.2 ermitteln,
sondern sie sind weitere Angaben aus dem statistischem Jahrbuch.
Das geometrische Mittel wird als Durchschnittswert von Verhältniszahlen (vgl. Abschn. 4.2
gelegentlich verwendet:
√
G := n q1 · q2 · · · qn
19
3.2
Streuungsmaße
Spannweite := Differenz zwischen größtem und kleinstem Merkmalswert.
Die Mittelbildung über die Differenzen (xi − x) liefert kein Streuungsmaß, da z.B. im Falle der
Urliste folgendes gilt:
1
n
(3.2.0)
n
P
(xi − x) =
i=1
1
n
Mittlere absolute Abweichung:
(3.2.1)
d := |xi − x| :=
n
P
i=1
xi −
1
n
n
P
i=1

n
1 P

|xi − x|


n

i=1







k

 P
x=x−
nx
n
=0
auf eine Urliste bezogen
hi |xi − x| =
i=1

k

P


fi |xi −x|



i=1


=

k
P



fj
k
P
h′i |xi −x|
i=1
100
auf eine einfache Hf - Tabelle bezogen
j=1
Häufig verwendet man statt x in (3.2.1) auch den Median Me.
Varianz:

n
1 P

(xi − x)2


n

i=1



k
P



h′i (xi −x)2

k

 P h (x − x)2 = i=1
i i
100
σ 2 := (xi − x)2 :=
i=1

k

P


fi (xi −x)2



i=1


=

k
P



fj
(3.2.2)
auf eine Urliste bezogen
auf eine einfache Hf - Tabelle bezogen
j=1
Bei klassierten Häufigkeitstabellen sind (3.2.1) u. (3.2.2) als Näherungsformeln mit xi als Klassenmittel zu verwenden.
√
Standardabweichung:
σ = V arianz
Beispiel 3.2.1: Aus der Tabelle in Beispiel 2.2.1 hatten wir in Beispiel 3.1.2 das arithmetische
Mittel berechnet. Dabei nehmen wir zunächst das, bei dem wir die gleiche Stellenzahl wie bei
den Eingangswerten verwenden: x̄ = 3.8.
Für die mittlere absolute Abweichung, bei der wir natürlich auch die Gewichte beachten müssen,
erhalten wir dann:
oder |x − x̄|
d = |xi − x̄|
=
P16
i=1 fi |xi −
P16
j=1 fj
x̄|
=
1 · |3.0 − 3.8| + 0 · |3.1 − 3.8| + . . . + 1 · |4.5 − 3.8|
36
10.2
= 0.283
36
Auch bei der Berechnung der Varianz müssen die Gewichte beachtet werden:
2
σ := (xi − x̄)
=
2
2
oder (x − x̄)
20
=
P16
i=1 fi (xi −
P16
j=1 fj
x̄)2
=
1 · (3.0 − 3.8)2 + 0 · (3.1 − 3.8)2 + . . . + 1 · (4.5 − 3, 8)2
36
4.56
= 0.127
=
36
√
σ = 0.127 = 0.356
Es gibt nun einfachere Brechnungsformel für die Varianz, die außerdem eine simultane Berechnung von x̄ und σ 2 zulässt:
σ 2 = x2 − x 2
(3.2.3)
Dabei ist x2 das arithmetische Mittel über xi 2 (statt xi ).
Beweis von (3.2.3) bei Verwendung der Urliste:
σ 2 :=
n
n 1X
1X
(xi − x̄)2 =
x2i − 2xi x̄ + x̄2
n i=1
n i=1
n
n
n
1X
1X
1X
2
=
x −
2xi x̄ +
x̄2
n i=1 i
n i=1
n i=1
=
n
n
n
1X
1X
1X
x2i −2x̄
xi +
x̄2
n i=1
n i=1
n i=1
|
{z
}
| {z }
=: x2
=: x̄
= x2 − 2x̄2 +
nx̄2
= x2 − x̄2
n
(3.2.3) ist gegenüber Rundungsfehler und Fehler in den Daten xi wesentlich anfälliger als (3.2.2).
Deshalb sollte bei der Verwendung von (3.2.3) bei x eine höhere Stellenzahl verwendet werden
als es für die Interpretation von x sinnvoll ist, also u. U. sogar eine höhere Stellenzahl als bei
den xi selbst. Dasselbe gilt für einige später behandelte Verfahren, in denen arithmetische Mittel
verwendet werden.
Beispiel 3.2.2: Erneute Berechnung der Varianz aus der Tabelle in Beispiel 2.2.1., x̄ war in
Beispiel 3.1.2 berechnet worden.
a) Verwendendung von x̄ = 3.8:
x2
P16
fi x2i
= 14.69
j=1 fj
= Pi=1
16
x̄2 = 14.44
(3.2.3)
=⇒ σ 2 = x2 − x̄2 = 14.69 − 14.44 = 0.25 =⇒ σ = 0.50
b) Verwendung von x̄ = 3.817
(3.2.3)
x2 vergl. (a) , x̄2 = 14.57 =⇒ σ 2 = 14.69 − 14.57 = 0.12 =⇒ σ = 0.35
Vergleichen wir mit dem Ergebnis in Beispiel 3.2.1, so beobachten wir eine stärkere Übereinstimmung mit b) als mit a). Es ist also anzunehmen, dass die Rechnung in b) besser ist als die
in a). Das liegt daran, dass in (3.2.3) wesentlich benutzt wurde, das x̄ der exakte Mittelwert der
21
vorliegenden Werte xi unabhängig von deren Genauigkeit ist. In b) sind wir erheblich “näher”
an der Verwendung des exakten Mittelwertes als in a). Man sollte daher bei der Anwendung von
(3.2.3) eine höhere Stellenzahl verwenden als vielleicht zur Interpretation sinnvoll ist und damit
u.U. eine höhere Stellenzahl als bei den Eingangswerten.
Allgemeine Eigenschaft:
Streuungsmaß = 0 ⇐⇒ Alle Merkmalswerte sind gleich
Relatives Streuungsmaß :=
(absolutes) Streuungsmaß
|Mittelwert|
Prozentuales Streuungsmaß := rel. Streuungsmaß · 100
3.3
Pearsonsches Schiefemaß
Voraussetzung: Die Häufigkeitsverteilung besitzt einen Modus
(3.3.1)
sk :=
x−M o
σ
Rechtsteile Verteilung
sk < 0
Linkssteile Verteilung
sk > 0
Symmetrische Verteilung
sk = 0
Aber: sk = 0 6⇒ Verteilung ist symmetrisch
3.4
Lorenz–Kurve, Gini–Koeffizient
Für die Einführung der Lorenz–Kurve und des Gini–Koeffizienten gehen wir davon aus, dass die
Merkmalswerte nicht-negativ sind und in einer Rangliste geordnet wurden:
!
0 ≤ x1 ≤ x 2 . . . ≤ x n
22
!
xn > 0
Beispiele:
oder
oder
xi
xi
xi
Einkommen von Person i
Umsatz von Firma i
Marktanteil von Firma i usw.
Angestrebt wird der Vergleich des Anteils der k “kleinsten” (hinsichtlich z.B. des Einkommens
xi ) statistischen Elemente an der Gesamtzahl n der statistischen Elemente,
k
=: uk
n
(k = 1, . . . , n),
mit dem Anteil des Gesamteinkommens dieser k statistischen Elemente an dem Gesamteinkommen aller statistischen Elemente,
k
X
i=1
n
X
xi
=: vk ,
k = 1, . . . , n,
xj
j=1
Dieser Vergleich wird graphisch veranschaulicht durch die Lorenzkurve. Dies ist der Streckenzug, der im (u, v)–Koordinatensystem die Punkte (0, 0) =: (u0 , v0 ), (u1 , v1 ), (u2 , v2 ), . . . , (un , vn ) =
(1, 1) verbindet. Wir wählen die Maßstäbe für u und v gleich, so dass die Punkte (0, 0), (1, 0),
(1, 1) und (0, 1) ein Quadrat bilden.
Beispiel 3.4.1: x1 := 2, x2 := 8, x3 := 10 seien die (bereits in einer Rangliste) vorgegebenen
P
Einkommen von drei Personen, also ist n = 3 und 3j=1 xj = 20
1
u1 = ,
3
2
u2 = ,
3
u3 =
3
=1
3
2+8
2 + 8 + 10
2
= 0.1, v2 =
= 0.5, v3 =
=1
20
20
20
Die Abszissen der Eckpunkte der Lorenzkurve sind die uk . Die Ordinaten der Eckpunkte sind
die oben bestimmten vk ergänzt durch v0 = 0.
v1 =
v := Anteil am Gesamteinkommen
6
v=u
Lorenz-Kurve
- u := Anteil an der Gesamtzahl
23
Die Fläche zwischen der Lorenzkurve und der Geraden v = u zeigt uns an, wie stark etwa Einkommen in den oberen Einkommensgruppen konzentriert sind. Das Maß für die Konzentration
wird Gini–Koeffizient genannt:
G :=
=
=
=
Fläche zwischen der Lorenz–Kurve und der Geraden v = u
Fläche zwischen der u–Achse und der Geraden v = u (0 ≤ u ≤ 1)
1
1
1
1
−
v1 · u1 + (v2 + v1 ) · (u2 − u1 ) + . . . + (vn + vn−1 ) · (un − un−1 )
2
2
2
2
1
2
1 − v1 · n1 + (v2 + v1 ) · n1 + . . . + (vn + vn−1 ) · n1
n
n−1
X
1 X
vi +
vi
1−
n i=1
i=1
!
1
=1−
n
vn +
vi
!
0 ≤G ≤1−
1
n
n−1
X
vi +
i=1
n−1
X
i=1
n−1
X
1
=1−
1+2
vi
n
i=1
!
Wir erhalten also für den Gini-Koeffizienten:
(3.4.1)
1+2
n−1
P
i=1
G=1−
n
vi
,
Bei dem Beispiel 3.4.1 erhalten wir
G=1−
1 + 2 · (0.1 + 0.5)
8
=
= 0.27
3
30
Lorenz–Kurve und Gini–Koeffizient wurden hier für die Beschreibung der Konzentration der
Einkommen verwendet. Will man die Konzentration der Umsätze beschreiben, so ist offensichtlich nur “Einkommen” durch “Umsatz” zu ersetzen. Für andere Größen gilt entsprechendes.
Extremfälle:
1. Alle xi sind gleich, d.h. es gibt überhaupt keine Konzentration
⇐⇒ G = 0
2.
G=1−
1
n
⇐⇒ v1 = v2 = . . . = vn−1 = 0 ∧ vn = 1
⇐⇒ x1 = . . . = xn−1 = 0 , xn > 0 ,
d.h. es ist alles auf das statistische Element mit dem größten Einkommen (z.B.) konzentriert.
Der Maximalwert des Gini–Koeffizienten ist nicht 1 sondern (1 − 1/n). Durch eine Modifikation
des Gini–Koeffizienten gewinnt man ein Maß für die Konzentration, das in dem Extremfall der
Konzentration auf das statistische Element mit dem größten Merkmalswert den Wert 1 annimmt.
Dieses leistet der normierte Gini–Koeffizient:
(3.4.2)
G∗ :=
Bei dem Beispiel 3.4.1 erhalten wir
n
· G,
n−1
G∗ =
0 ≤ G∗ ≤ 1
8
3
·
= 0.4,
3 − 1 30
24
also eine “mittlere” Konzentration.
Neben dem Gini–Koeffizienten und dem normierten Gini–Koeffizienten gibt es noch weitere
Konzentrationsmaße.
25
Herunterladen