Lage- und Streuungsmaße

Werbung
32
Kapitel 3
Lage- und Streuungsmaße
• Grafische Darstellungen geben einen allgemeinen Eindruck der Verteilung eines
Merkmals:
– Lage und Zentrum der Daten,
– Streuung der Daten um dieses Zentrum,
– Schiefe / Symmetrie und Unimodalität / Multimodalität der Daten.
• Im Folgenden: Maßzahlen zur Beschreibung von Lage und Streuung durch eine Zahl.
• Lagemaße sollen die zentrale Tendenz (das Zentrum) eines Merkmals beschreiben.
• Streuungsmaße beschreiben die Variabilität eines Merkmals.
3.1
Lagemaße
Lagemaße beantworten Fragen über die Häufigkeitsverteilung wie:
• Wo liegen die meisten Beobachtungen?
• Wo liegt der Schwerpunkt“ einer Verteilung?
”
• Wo liegt die Mitte“ der Beobachtungen?
”
• Was ist eine typische“ Beobachtung?
”
Bemerkungen:
• Es gibt nicht das Lagemaß schlechthin. Die unterschiedlichen Lagemaße sind je nach
Situation unterschiedlich geeignet.
• Die Eignung ist insbesondere abhängig von der Datensituation und dem Skalenniveau.
33
34
3.1. Lagemaße
3.1.1
Arithmetisches Mittel
Definition: Sei x1 , . . . , xn die Urliste eines (mindestens) intervallskalierten Merkmals X.
Dann heißt
n
1X
x̄ :=
xi
n i=1
das arithmetische Mittel der Beobachtungen x1 , . . . , xn .
Bemerkungen:
• Das arithmetische Mittel ist also das Lagemaß, das typischerweise als Mittelwert
oder Durchschnitt bezeichnet wird.
• Das arithmetische Mittel muss nicht mit einer der beobachteten Ausprägungen zusammenfallen.
Beispiel: Anzahl von Statistikbüchern, die ein Student besitzt (fiktiv).
Person
Anzahl
1
0
2
2
3
1
4
2
5
2
6
3
7
0
8
12
9
1
10
2
1
· (0 + 2 + 1 + 2 + 2 + 3 + 0 + 12 + 1
10
1
=
· 25
10
= 2.5
x̄ =
Alternative Berechnung basierend auf Häufigkeiten: Hat das Merkmal X die Ausprägungen a1 , . . . , ak und die (relative) Häufigkeitsverteilung h1 , . . . , hk bzw. f1 , . . . , fk ,
so gilt
k
k
X
1X
x̄ =
aj hj =
aj fj .
n j=1
j=1
Im Beispiel: Häufigkeitstabelle:
0
1
2
3
||
||
|||||
|
4
5
6
7
8
9
10
11
12
|
bzw.
a1 = 0
a2 = 1
a3 = 2
a4 = 3
a5 = 12
h1 = 2
h2 = 2
h3 = 4
h4 = 1
h5 = 1
Kapitel 3. Lage- und Streuungsmaße
35
Alte Berechnung:
x̄ =
1
· (0 + 2 + 1 + 2 + 2 + 3 + 0 + 12 + 1 + 2)
10
Neue Berechnung:
k
1X
x̄ =
a j · hj
n j=1
1
· (0 · 2 + 1 · 2 + 2 · 4 + 3 · 1 + 12 · 1)
10
1
=
(0 + 2 + 8 + 3 + 12)
10
= 2.5
=
Beispiel: Einfacher Tabellenmietspiegel
Baujahr
bis 1918
1919 bis
1949 bis
1966 bis
1981 bis
1996 bis
48
65
80
95
2001
Nettomiete in Euro/qm
Wohnfläche
bis 50 qm
51 bis 80 qm 81 qm und mehr
9.00 (45)
7.88 (164)
7.52 (200)
6.90 (42)
6.87 (94)
6.50 (52)
9.04 (129)
7.84 (237)
7.95 (70)
10.05 (173) 7.97 (313)
7.80 (156)
10.59 (45)
9.53 (162)
9.72 (63)
10.60 (15)
10.28 (58)
9.69 (35)
9.43 (449)
8.20 (1028)
7.93 (576)
7.83 (409)
6.78 (188)
8.21 (436)
8.49 (642)
9.75 (270)
10.14 (108)
8.39 (2053)
Beispiel: Augenfarbe
0:
1:
2:
3:
grün
grau
rot
blau
hj
2
2
0
6
x̄ =
(2 · 0 + 2 · 1 + 3 · 6)
20
=
=2
10
10
Die durchschnittliche Augenfarbe ist also rot.
Da es sich bei der Augenfarbe um ein nominalskaliertes Merkmal handelt, ist die Zuordnung von Zahlen zu Ausprägungen hier völlig willkürlich. Man kann auch durch geeignete
Festlegung der Zahlen jede Augenfarbe zur Durchschnittsfarbe machen:
1: grün
2: blau
3: grau
hj
2
6
2
x̄ =
(2 · 1 + 6 · 2 + 2 · 3)
20
=
=2
10
10
36
3.1. Lagemaße
Bemerkungen:
• Das arithmetische Mittel setzt zwingend ein intervallskaliertes Merkmal voraus. Auf
einem niedrigerem Skalenniveau ist die Addition nicht erlaubt, und daher sind die
entsprechenden Mittelwertsbildungen sinnlos und nicht interpretierbar (auch wenn
sie ein Software-Paket selbstverständlich ausspuckt).
• Einzige Ausnahme: Binäre Merkmale (mit nur zwei Ausprägungen), deren Ausprägungen als 0/1 kodiert werden. In diesem Fall kann das arithmetische Mittel als
Anteil von Beobachtungen mit Ausprägung 1 interpretiert werden.
a1 = 0, a2 = 1, h1 = Anzahl Nullen, h2 = Anzahl Einsen
⇒ x̄ = n1 (a1 · h1 + a2 · h2 ) =
h2
n
= f2
Transformationen: Die Intervallskala erlaubt lineare Transformationen der Form a+bX,
die Ratioskala Transformationen der Form b · X. Wie verändert sich das arithmetische
Mittel bei diesen oder allgemeineren Transformationen?
X
−−−−−→
?
x̄
??
−−−−−→
Y = g(X)
?
ȳ
Beispiele:
• Lineare Transformation Y = a · X + b:
X
Y
a
b
jährliche Ausgaben von Studenten 2007 in Euro
jährliche Ausgaben von Studierenden 2007 in DM ohne Studiengebühren
(zum Vergleich in DM umrechen und Studiengebühren subtrahieren.)
= 2 der Einfachheit halber (statt 1.95583)
= -2000
• Nichtlineare Transformation: Betrachtet werden 3 quadratische Zimmer mit den
Seitenlängen 7, 4 und 10m. Sei X die Seitenlänge, dann ist
Y = f (X) = X 2
und es gilt
x̄ =
aber
die Zimmerfläche,
4 + 7 + 10
= 7,
3
16 + 49 + 100
165
=
= 55 6= 49 = (x̄)2
3
3
Es macht also einen wesentlichen Unterschied, ob man zuerst die Fläche und dann
den Durchschnitt ausrechnet oder zuerst den Durchschnitt (der Seitenlängen) bildet
und dann die Fläche berechnet.
ȳ =
Kapitel 3. Lage- und Streuungsmaße
37
Im Allgemeinen kann man also nicht einfach sagen:
Y = f (X)
⇒
ȳ = f (x̄).
Satz: Arithmetisches Mittel und lineare Transformationen. Gegeben sei die Urliste
x1 , . . . , xn eines intervallskalierten Merkmals X. Betrachtet wird das (linear transformierte) Merkmal Y = a · X + b und die zugehörigen Ausprägungen y1 , . . . , yn .
Dann gilt:
ȳ = a · x̄ + b.
Satz: beweispflichtige Folgerung aus gegebenen Annahmen. Im Gegensatz dazu: Definition
= Festlegung.
Eine Definition kann nicht wahr oder falsch sein; sie ist höchstens
nützlich oder ungeschickt.
Unterschied zu soziologischen Sätzen: Beispiel: Gesellschaftliche
Anomie
(Rückgang
und Werten)
Beweis: Von der Urliste x1 . . . xn von X übergehen zur
Urliste
y1 von
. . . yreligiösen
Y , wobei
n von Normen
Selbstmorde begünstigen. Prinzipiell falsifizierbar.
für jedes i gilt yi = a · xi + b.
n
1X
ȳ =
yi
n i=1
n
1X
=
(a · xi + b)
n i=1
n
n
1X
1X
=
a · xi +
b
n i=1
n i=1
n
X
1
1
=
·a·
xi + · n · b
n
n
i=1
n
1X
xi + b
= a·
n i=1
= a · x̄ + b
Beweis: Nachrechnen, aber nicht am Beispiel, sondern allgemein.
Bemerkungen:
• Vorsicht: Ist X verhältnisskaliert, so geht für a 6= 0 der natürliche Nullpunkt für Y
verloren.
• Der Satz gilt im Allgemeinen nur, falls die Transformation von X auf Y linear ist.
Z.B. ist bei Y = X 2 im Allgemeinen ȳ 6= (x̄)2 (wie im Beispiel gezeigt).
kann
38
3.1. Lagemaße
Weitere Eigenschaften des arithmetischen Mittels:
• x̄ ist derjenige Wert, den jede Beobachtungseinheit erhielte, würde man die Gesamtsumme der Merkmalsausprägungen gleichmäßig auf alle Einheiten verteilen.
(Beispiel: gleichmäßige Verteilung des Einkommens)
• x̄ ist der Schwerpunkt der x1 , . . . , xn , d.h. es gilt:
n
X
(xi − x̄) = 0
i=1
Idee: Für jede Beobachtung i im Punkt xi Gewicht mit 1kg hinlegen. Am Beispiel nachrechnen.
0
1
•
2 63 4 5
Schwerpunkt
6
7
8
9
10 11 12
• Die Schwerpunktseigenschaft macht auch deutlich: außerordentliche Hebelwirkung
extrem großer und kleiner Werte: (lässt man die Beobachtung 12 im Beispiel weg,
dann gilt: x̄ = 13
= 1.44. Insbesondere ist damit das arithmetische Mittel sehr
9
ausreißeranfällig, d.h. ein falsch gemessener Wert zerstört den ganzen Mittelwert“.
”
Beispiel: Einkommensverteilung
• Befürchtet man Ausreißer, so weicht man gelegentlich auf das sogenannte α-getrimmte
Mittel aus, bei dem man die α% größten und kleinsten Werte (z.B. α=5) weglässt.
Gruppierte Daten: Häufig hat man die Daten nur in gruppierter Form vorliegen. Wie
lässt sich in diesem Fall ein sinnvoller Mittelwert definieren?
Typisches Beispiel: Einkommensverteilung
0 ≤ x < 750
750 ≤ x < 1250
1250 ≤ x < 1750
1750 ≤ x < 2250
2250
P ≤ x < 3250
Anzahl hl
3
8
6
2
1
20
Klassenmitten ml
375
1000
1500
2000
2750
Idee: Weniger Antwortverweigerung und weniger verfälschte Antworten. Auch: Anonymisierung
Kapitel 3. Lage- und Streuungsmaße
39
Definition: Sei X ein intervallskaliertes Merkmal, das in gruppierter Form mit k Klassen
[c0 , c1 ), [c1 , c2 ), . . . , [ck−1 , ck ] erhoben wurde. Mit hl , l = 1, . . . k, als absoluter Häufigkeit
der l−ten Klasse, fl als zugehöriger relativer Häufigkeit und ml := cl +c2l−1 als der jeweiligen
Klassenmitte definiert man als arithmetisches Mittel für gruppierte Daten
k
x̄grupp
k
X
1X
:=
hl ml =
fl ml .
n l=1
l=1
Im Beispiel:
k
x̄grupp =
1X
hl ml
n l=1
1
· (3 · 375 + 8 · 1000 + 6 · 1500 + 2 · 2000 + 1 · 2750)
20
= 1243.75
=
Bemerkungen:
• Bei nach oben offener letzter Kategorie (Einkommen größer als 2250), wäre die
Klassenmitte nicht definiert.
• Im Allgemeinen gilt x̄ 6= x̄grupp , nur in Extremfällen, z.B. wenn das Merkmal in jeder
Gruppe gleichmäßig verteilt ist, erhält man
die Gleichheit.
Informationsverlust bei Gruppierung!
• x̄grupp hängt von der Gruppenmitte und damit von der gewählten Gruppierung ab:
Fasst man z.B. die ersten drei Gruppen und die letzten beiden jeweils zusammen,
so erhält man
0 ≤ x < 1750
1750 ≤ x < 3250
und
x̄grupp =
hj
17
3
mj
875
2500
1
(17 · 875 + 3 · 2500) = 1118.75.
20
• Im Allgemeinen ist x̄grupp natürlich nur eine grobe Approximation an den echten“,
”
d.h. auf ungruppierten Daten beruhenden, Mittelwert. Eigentlich kann man nur mit
Sicherheit folgende Abschätzung geben: Jeder in der l-ten Gruppe verdient mindestens cl−1 und höchstens cl . Damit ergibt sich als Abschätzung für das arithmetische
Mittel
k
k
1X
1X
hl cl−1 ≤ x̄ ≤
hl cl
n l=1
n l=1
Diese Abschätzung ist oft relativ grob. Andererseits ist sie aber das beste, was man
ohne unüberprüfbare Zusatzannahmen aus den Daten herausholen kann.
• Sind die ungruppierten Daten erhältlich, so ist x̄ vorzuziehen, da jede Gruppierung
Informationsverlust mit sich bringt.
• Andererseits sind gruppierte Daten leichter (und oft wahrheitsgetreuer) erhebbar.
40
3.1. Lagemaße
Geschichtete Daten Insbesondere bei Tertiäranalysen hat man häufig nicht die Urliste
zur Verfügung, sondern nur Mittelwerte x̄l in einzelnen Schichten l = 1, . . . , z, in die die
Grundgesamtheit zerlegt ist.
Beispiel:
x̄l
x̄
Durchschnittseinkommen in den einzelnen Bundesländern (l = 1, . . . , 16)
Durchschnittseinkommen in der BRD
Zur Bildung des Gesamtmittels verwendet man das gewogene arithmetische Mittel
z
1X
x̄ =
nl x̄l
n l=1
wobei nl die Anzahl der Elemente in der l-ten Schicht bezeichnet.
Durch die Gewichtung mit nl wird beispielsweise die unterschiedliche Bevölkerungszahl
in der Bundesländern berücksichtigt (z.B. Bayern 12.38 Mio.; Bremen/Bremerhaven 0.66
Mio.).
Im Gegensatz zur Gruppenbildung entsteht hier kein Informationsverlust, da ja letztlich
nur die Urliste anders geordnet wird.
Im Beispiel:
n
1X
xi
x̄ =
n i=1
1
(Eink. aller Bayern + Eink. aller Baden-Würtemberger + . . .)
n
1
=
(Anzahl der Bayern · Durchschnitt Bayern + Anzahl BW · Durchschnitt BW + . . .)
n
=
Unterschied zwischen gruppierten Daten und geschichteten Daten: Im ersten Fall wird das
Merkmal verändert, also für jede Person der Wert verändert, während im zweiten Fall die
Werte nicht verändert werden, sondern die Personen nur in den Schichten zusammengefasst werden.
3.1.2
Median & Quantile
• Wie lässt sich ein Mittelwert bei ordinalskalierten Merkmalen definieren?
• Das arithmetische Mittel besitzt die Schwerpunkteigenschaft
n
X
(xi − x̄) = 0.
i=1
• Eine andere mögliche Schwerpunkteigenschaft: Rechts und links des Mittelwerts
liegen jeweils (mindestens) 50% der Daten. Dies ergibt den Median.
Kapitel 3. Lage- und Streuungsmaße
41
Definition: Gegeben sei die Urliste x1 , . . . , xn eines (mindestens) ordinalskalierten Merkmals X. Jede Zahl xmed mit
|{i|xi ≤ xmed }|
≥ 0.5 und
n
|{i|xi ≥ xmed }|
≥ 0.5
n
heißt Median.
Anschauliche Interpretation: Der Median teilt den geordneten Datensatz in zwei gleich
große Hälften; die Hälfte der Einheiten hat eine Ausprägung ≤ xmed , die andere ≥ xmed .
Beispiel: Klausurnoten
Aus
1,1,1, . . . , 1
2,2,2, . . . , 2
|
{z
}
|
{z
}
65 mal
96 mal
17%
25,1%
|
{z
}
161 mal
42%
|
{z
252 mal
65,8%
3,3,3, . . . , 3
|
{z
}
91 mal
23,8%
|
}
|{i|xi ≤ 3}|
= 65, 8% ≥ 0, 5 und
n.
4,4,4, . . . , 4
|
{z
}
78 mal
20,4%
{z
222 mal
58%
5,5,5, . . . , 5
|
{z
}
53 mal
13,8%
}
|{i|xi ≥ 3}|
= 58% ≥ 0, 5
n.
folgt xmed = 3.
Verallgemeinerung: Quantile Gegeben sei die Urliste x1 , . . . , xn eines (mindestens) ordinalskalierten Merkmals X und eine Zahl 0 < α < 1. Jede Zahl xα mit
|{i|xi ≤ xα }|
≥ α und
n
|{i|xi ≥ xα }|
≥1−α
n
heißt α · 100%-Quantil.
Spezielle Quantile:
• Median: x0.5 = xmed .
• Quartile: x0.25 , x0.75 .
• Dezile: x0.1 , x0.2 , . . . , x0.8 , x0.9 .
Beispiel Klausurnoten:
x0.25 = 2
x0.1 = 1
42
3.1. Lagemaße
Bemerkungen:
• Alternative Definition des Medians über die geordnete Urliste x(1) ≤ x(2) ≤ . . . ≤
x(n) :
 ³
´
1 x n + x n
für n gerade
( 2 +1)
xmed := 2 ( 2 )
x n+1
für n ungerade
( 2 )
Ähnlich für andere Quantile möglich.
• Diese Definition ist insofern inkonsequent, als sie auf die bei ordinalen Daten streng
genommen nicht zulässige Addiditionen rekurriert. Bei intervallskalierten Daten hingegen spricht vieles für diese Definition.
• Andererseits können in gewissen Grenzfällen Quantile im Sinne der ursprünglichen
Definition nicht eindeutig sein:
8 Beobachtungen zu Schulnoten, wobei
4 Beobachtungen mit Note 2
⇒ Jede Zahl zwischen 2 und 3 ist Median.
4 Beobachtungen mit Note 3
• Beide Definitionen sind letztlich in den praktisch relevanten Fällen miteinander
verträglich. Für n ungerade fallen sie stets zusammen, für n gerade stimmen sie
überein, falls x( n ) = x( n +1)
2
2
• Man kann Quantile einfach an der empirischen Verteilungsfunktion ablesen:


6
1−α

•
α
•
¾
α
1
2
3@
I
4
xα
5
Auch Nicht-Eindeutigkeit demonstrieren.
• Bei gruppierten intervallskalierten Merkmalen definiert man die Quartile analog
über den Schnittpunkt mit der Verteilungsfunktion:
•
6
¡
¡
•
¡
¡
•
¡
¡
¡
α
•
³¡
³³
¡
•
³³
xα
-
Kapitel 3. Lage- und Streuungsmaße
43
Transformationen: Wie ändert sich der Median bei Transformation der Daten?
Beim arithmetischen Mittel gilt bei Y = g(X) im Allgemeinen ȳ = g(x̄) nur, falls g linear
ist, also für Y = a · X + b. Die für ordinale Daten charakteristische Rangordnung bleibt
hingegen unter beliebigen streng monoton steigenden Transformationen (z.B. Y = X 3 )
erhalten.
Streng monoton steigend erklären
Satz: Sei x1 , x2 , . . . , xn die Urliste eines (mindestens) ordinalskalierten Merkmals X, g
eine streng monoton steigende Funktion und y1 = g(x1 ), . . . , yn = g(xn ) die Urliste des
Merkmals Y = g(X). Dann gilt:
ymed = g(xmed ).
f streng monoton-
Merkmal X
?
f
xmed
-
Merkmal Y
?
ymed
Beispiel: Drei quadratische Zimmer
Für die Merkmale X (Seitenlänge) und Y = f (X) = X 2 (Fläche) galt ja mit den Daten
und
x1 = 7,
x2 = 4,
x3 = 10
y1 = x21 = 49
y2 = x22 = 16
y3 = x23 = 100
für die arithmetischen Mittel
f (x̄) = (x̄)2 6= ȳ.
Für die Mediane gilt aber mit den geordneten Werten
und
x(1) = 4,
y(1) = 16
x(2) = 7,
y(2) = 49
x(3) = 10
y(3) = 100
xmed = 7 und ymed = 49
also in der Tat f (xmed ) = (xmed )2 = ymed .
Gegenbeispiel mit nicht monoton steigender Funktion:
f (X) = X 2 ist streng monoton steigend für X ≥ 0. Dagegen ist g(X) = (X − 6)2 nicht
monoton steigend. Für das Merkmal Z = g(X) = (X − 6)2 ergeben sich die Merkmalsausprägungen z1 = 1, z2 = 4 und z3 = 16 und damit der Median zmed = 4 Für den
transformierten Median gilt aber g(xmed ) = g(7) = 1.
Wegen seiner Invarianz gegenüber beliebigen streng monotonen Transformationen bietet
sich der Median als Lagemaß auch in allen Situationen an, in denen es trotz Intervallskala
keine natürliche Maßeinheit gibt. Beispielsweise ist bei vielen Einstellungsmessungen nicht
klar, ob man auf einer linearen oder auf einer logarithmischen Skala messen soll.
⇒ Betrachtung der Rangstatistiken.
44
3.1. Lagemaße
3.1.3
Modus
• Geeignetes Lagemaß bei auf Nominalskala gemessenen Daten?
• Der exakte Wert der als Merkmalsausprägungen vergebenen Zahlen ist inhaltlich
völlig bedeutungslos, d.h, etwas formaler: beliebige eineindeutige Transformationen
verändern die inhaltliche Aussage nicht (z.B. Parteienpräferenz).
• Als Lagemaß dient der häufigste Wert: genauer die Ausprägung aj mit der größten
Häufigkeit hj .
Definition: Sei x1 , . . . , xn die Urliste eines nominalskalierten Merkmals mit den Ausprägungen a1 , . . . , ak und der Häufigkeitsverteilung h1 , . . . , hk . aj ∗ heißt Modus xmod genau
dann, wenn hj ∗ ≥ hj , für alle j = 1, . . . , k.
Bemerkungen:
• Existieren mehrere Ausprägungen mit der gleichen (größten) Häufigkeit, so ist der
Modus nicht eindeutig.
• Der Modus unter beliebigen eineindeutigen Transformationen erhalten: Betrachtet
man das Merkmal X, eine eineindeutige Transformation f und das Merkmal Y =
f (X), so gilt
ymod = f (xmod ).
Merkmal X
?
Modus xmod
3.1.4
f eindeutig
f
-
Merkmal Y
?
-
Modus ymod
Vergleich der Lagemaße
• Bei intervallskalierten Daten darf man auch den Modus oder den Median anwenden,
man verschenkt (bei alleiniger Verwendung) aber eventuell Information.
• Der Median geht nur auf die Ordnung der Beobachtungen und nicht auf die Abstände
ein, der Modus gibt nur die am stärksten vertretende Ausprägung an.
• Median und Modus sind unempfindlich gegenüber Ausreißern.
Beispiel: Einkommensverteilung
Wird die größte Beobachtung verhundertfacht, so ändern sich Median und Modus nicht,
das arithmetische Mittel reagiert dagegen stark. Generell ist bei der Betrachtung von
Einkommen das arithmetische Mittel meist deutlich größer als der Median.
Unterschiedliche Verwendung bei Arbeitgebern und Gewerkschaften
Kapitel 3. Lage- und Streuungsmaße
45
Beispiel: Statistikbücher. Häufigkeitsverteilung und zur graphischen Veranschaulichung
ein maßstabtreues Pseudostabdiagramm“:
”
Häufigkeiten
a1 = 0
h1 = 2
a2 = 1
h2 = 2
a3 = 2
h3 = 4
a4 = 3
h4 = 1
a5 = 12
h5 = 1
xmod = 2
-
t
t
t
t
t
t
t
t
t
t
0 1 2 3
Mittelwert x̄=2.5
x0.25 =1 Median xmed =2 x0.75 =2
12
Allgemeiner gilt: Die relative Lage von x̄, xmed , xmod zueinander kann zur Charakterisierung von Verteilungen herangezogen werden:
symmetrisch:
linkssteil:
rechtssteil:
x̄
x̄
x̄
≈ xmed
> xmed
< xmed
≈ xmod
> xmod
< xmod
x̄ = 3.57
xmed = 3
xmod = 2
x̄ = 5
xmed = 5
xmod = 5
46
3.1. Lagemaße
x̄ = 6.43
xmed = 7
xmod = 8
Exkurs: Lagemaße als Lösung eines Optimierungsproblems Alternative Möglichkeit,
Lagemaße zu begründen, die später in der Regressionsanalyse verallgemeinert wird.
Gegeben sei die Urliste x1 , . . . , xn eines intervallskalierten Merkmals X. Gesucht ist eine
Zahl a, so dass Gesamtabstand zwischen a und den Daten minimal wird. Misst man den
Abstand
(x − a)2
|x − a|
1(x = a)
quadratisch
linear durch den Absolutbetrag
durch die Indikatorfunktion
Für alle a ∈ R gilt:
n
X
x̄
xmed
xmod .
n
X
(xi − x̄) ≤
(xi − a)2 ,
2
i=1
n
X
so ergibt sich
so ergibt sich
so ergibt sich
i=1
| xi − xmed |≤
i=1
n
X
|xi − a|.
i=1
x̄ minimiert also den quadratischen Abstand und xmed den betragsmäßigen Abstand
zu den Daten. Bei quadratischem Abstand werden große Abstände sehr groß.
3.1.5
Geometrisches Mittel
Es gibt Fälle, bei denen das arithmetische Mittel selbst bei intervallskalierten Merkmalen
nicht angemessen ist, zum Beispiel für Wachstumsraten oder Geschwindigkeiten.
Sei Ω = {0, . . . , n} eine Menge von Zeitpunkten und B(i) =: bi ein zum Zeitpunkt i
erhobenes Merkmal, z.B. das Bruttosozialprodukt.
6
¡
H
¡ ¡
¡H ¡
¡ @¡
¡
1 2 3 4 5 6
Für i = 1, . . . , n heißt
xi =
bi
bi−1
Kapitel 3. Lage- und Streuungsmaße
47
der i-te Wachstumsfaktor und
bi − bi−1
= xi − 1
bi−1
die i-te Wachstumsrate. Dann bezeichnet man
à n ! n1
Y
1
x̄geom :=
= (x1 · x2 · . . . · xn ) n
xi
ri =
i=1
als das geometrische Mittel der Wachstumsfaktoren x1 , . . . , xn .
Beispiel: Wirtschaftwachstum gemessen zu drei Zeitpunkten.
i
bi
0
1000
1
1500
|
xi
ri
{z
1.5
0.5
2
750
}
|
{z
0.5
-0.5
}
⇒ Wirtschaft wächst im ersten Jahr um 50% und schrumpft im nächsten Jahr um 50%.
Ergib sich im Durchschnitt ein Nullwachstum (x̄ = 1, r̄ = 0)?
Geometrisches Mittel der Wachstumsfaktoren:
à n ! n1
Y
√
√
1
= (x1 · x2 ) 2 = 1.5 · 0.5 = 0.75 ≈ 0.8660
x̄geom =
i=1
Bemerkungen:
• Es gilt
bn = b0 · (x̄geom )n
d.h. x̄geom ist tatsächlich ein durchschnittlicher Wachstumsfaktor, also derjenige
Wert, der sich aus bn und b0 ergäbe, wenn zu allen Zeitpunkten konstantes Wachstum
geherrscht hätte. Im Beispiel gilt in der Tat:
b2 = b0 (x̄geom )2 = 1000 · (0.866)2 = 750.
• Das geometrische Mittel kann auch zur Prognose (unter Stabilitätsannahme = durchschnittliches Wachstum bleibt gleich) verwendet werden:
bn+q = bn · (x̄geom )q ,
• Logarithmieren liefert:
q ∈ N.
n
ln x̄geom
1X
ln xi .
=
n i=1
Das geometrische Mittel ist also ein arithmetisches Mittel auf der logarithmierten
Skala.
• Man kann zeigen:
x̄geom ≤ x̄
i.A. würde also die Angabe von x̄ erhöhte Wachstumsraten vortäuschen.
48
3.2. Streuungsmaße
3.1.6
Harmonisches Mittel
Beispiel: Die Entfernung von A nach B sei 99 km. Herr K. humpelt von A nach B mit
konstant 1 km/h und fährt zurück mit konstant 99 km/h. Wie groß ist seine Durchschnittsgeschwindigkeit?
Naive Lösung: 50 km/h.
Mit konstant 50 km/h würde Herr K. nur knappe 4 Stunden für den Gesamtweg brauchen
(198 km / 50 km/h) brauchen. Tatsächlich braucht er aber 100 Stunden!
Durchschnittsgeschwindigkeit =
zurückgelegter Weg
198 km
=
= 1.98 km/h
Zeit
100 h
Berechnung über die Geschwindigkeiten: Die Entfernung von A nach B sei w.
Hinweg:
Geschwindigkeit v1
Rückweg: Geschwindigkeit v2
Zeit t1 =
Zeit t2 =
w
v1
w
v2
Durchschnittsgeschwindigkeit
w+w
2·w
= w
=
t1 + t2
+ vw2
v1
1
v1
2
+
1
v2
=
1
2
³
1
1
v1
+
1
v2
´
( Kehrwert der durchschnittlichen Kehrwerte“).
”
Allgemein: Sei x1 , . . . , xn mit xi 6= 0 für alle i die Urliste eines verhältnisskalierten Merkmals X. Dann heißt
1
x̄har := 1 Pn 1
n
i=1 xi
das harmonische Mittel der x1 , . . . , xn .
3.2
Streuungsmaße
Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben.
Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz:
Kapitel 3. Lage- und Streuungsmaße
49
−15
−10
−5
0
5
10
15
0.4
0.0
0.1
0.2
0.3
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
große Variabilität
0.5
mittlere Variabilität
0.5
geringe Variabilität
−15
−10
−5
0
5
10
15
−15
−10
−5
0
5
10
15
Streuungsmaße beantworten Fragen wie
• Wie groß ist die durchschnittliche Abweichung vom Mittelwert?
• Über welchen Bereich erstrecken sich die Beobachtungen?
• Wie stark schwanken die Beobachtungen?
Bemerkung : Von Streuung kann man nur bei mindestens intervallskalierten Daten sprechen, da nur dort Abstände interpretierbar sind.
3.2.1
Varianz und Standardabweichung
Varianz : Sei x1 , . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißen
n
s̃2X
1X
:=
(xi − x̄)2
n i=1
die (empirische) Varianz oder Stichprobenvarianz und
q
s̃X := s̃2X
die empirische Streuung, Stichprobenstreuung oder Standardabweichung von X.
Bemerkungen:
• Die Varianz misst die durchschnittliche quadratische Abweichung vom Mittelwert.
• Durch das Quadrieren tragen negative und positive Abweichungen vom Mittelwert
gleichermaßen zur Varianz bei.
Zur Erinnerung: Es gilt
n
X
(xi − x̄) = 0.
i=1
• Die Varianz besitzt im Vergleich zum Merkmal X die quadrierte Einheit. Die Standardabweichung dagegen wird in der gleichen EinheitAmgemessen
wie X.
Beispiel quadratischer Zimmer erklären
50
3.2. Streuungsmaße
• Sind die Ausprägungen a1 , . . . , ak mit (relativer) Häufigkeitsverteilung h1 , . . . , hk
bzw. f1 , . . . , fk gegeben, so gilt
k
s̃2X
1X
=
hj (aj − x̄)2 =
n j=1
=
k
X
fj (aj − x̄)2 .
j=1
• Ist aus dem Kontext klar ersichtlich welches Merkmal betrachtet wird, so lässt man
das X in der Notation auch häufig weg, schreibt also einfach s̃2 und s̃.
Beispiel: Statistikbücher
Ausprägungen
0
1
2
3
12
P
Berechnung der Varianz über die ursprüngliche Formel:
n
s̃
1X
(xi − x̄)2
=
n i=1
2
hj
2
2
4
1
1
10
1
((0 − 2.5)2 + (0 − 2.5)2 + (1 − 2.5)2 + (1 − 2.5)2
10
+(2 − 2.5)2 + (2 − 2.5)2 + (2 − 2.5)2 + (2 − 2.5)2 + (3 − 2.5)2 + (12 − 2.5)2 )
108.5
=
= 10.85
10
=
Berechnung über die Häufigkeitsverteilung:
n
2
s
1X
=
hj (aj − x̄)2
n i=1
1
(2 · (0 − 2.5)2 + 2 · (1 − 2.5)2 + 4 · (2 − 2.5)2 + (3 − 2.5)2 + (12 − 2.5)2 )
10
= 10.85
=
Standardabweichung:
s̃ =
√
10.85 ≈ 3.29
(Einheit: Bücher)
Varianten:
2→1
2→1
2→0
2→0
2→3
3→4
3→5
12 → 14
⇒ Mittelwert bleibt gleich
”
”
”
⇒ Streuung verändert sich
”
”
”
Kapitel 3. Lage- und Streuungsmaße
51
Transformationen : Wie ändert sich die Varianz bei (linearer) Transformation eines
Merkmals?
DM
X
↓
s̃2X
f
−→
??
−→
Euro
Y
↓
s̃2Y
Satz: Sei x1 , . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mit
s̃X > 0 und y1 , . . . , yn die zugehörige Urliste des Merkmals Y = a · X + b. Dann gilt
s̃2Y = a2 · s̃2X
und
s̃Y = |a| · s̃X .
Bemerkungen:
• Die additive Konstante b spielt keine Rolle. Diese bewirkt lediglich eine Verschiebung
der Häufigkeitsverteilung, ändert aber nicht die Form.
• Vorfaktoren sind bei der Varianz quadratisch herauszuziehen“. Insbesondere gilt
”
für Y = −X
s2Y = (−1)2 · s2X .
Beispiel: Spiel von A gegen B, X=Gewinn von A, Y =Verlust von B.
• Eine spezielle Transformation, die sogenannte Standardisierung, ist der Übergang
zum Merkmal Z mit
xi − x̄
zi :=
.
s̃X
Z besitzt arithmetisches Mittel 0 und (empirische) Varianz 1. Man erzeugt damit
in gewisser Weise eine natürlich Skala.
Begründung: zi lässt sich darstellen als
µ
¶
xi − x̄
1
x̄
zi =
=
xi + −
s̃X
s̃X
s̃X
so dass die Anwendung der Transformationsregeln mit a =
1
−x
· x̄ + (
)=0
s̃X
s̃X
1
= a2 · s̃2X = 2 · s̃2X = 1
s̃X
z̄ = a · x̄ + b =
s̃2Z
1
s̃X
und b =
−x̄
s̃X
ergibt:
52
3.2. Streuungsmaße
Verschiebungssatz: Es gilt
Einfachere Berechnung der Varianz.
n
1X 2
s̃2X =
x −
n i=1 i
Ã
n
1X
xi
n i=1
!2
= x2 − (x̄)2 .
Achtung (sehr häufige Fehlerquelle):
x2 erst quadrieren, dann Mittelwert
(x̄)2 erst mitteln, dann quadrieren
Der Verschiebungssatz ist sehr bequem zum Berechnen der Varianz, es können aber beim
Verwenden von Taschenrechnern bei sehr großen Ausprägungen starke Rundungsfehler
auftreten, die das Ergebnis eventuell verfälschen. Für Aufgaben von Klausurlänge aber
den Verschiebungssatz verwenden!
Beispiel:
Statistikbücher.
Berechne die empirische Varianz mit Hilfe des Verschiebungssatzes.
Person i
1
2
3
4
5
6
7
8
9
10
Anzahl Bücher: X
xi
0
2
1
2
2
3
0
12
1
2
25
x2i
0
4
1
4
4
9
0
144
1
4
171
x̄ = 2.5
x2 = 17.1
s̃2X = x2 − (x̄)2 = 17.1 − (2.5)2 = 10.85,
s̃X = 3.29
Varianzzerlegung / Streuungszerlegung: Varianz bei geschichteten Daten.
Zur Erinnerung: Daten liegen oft in Schichten vor (v.a. bei Sekundär- und Tertiärerhebungen). Beispiel: Daten über Einkommensverteilung geschichtet nach Bundesland. Bei
der Berechnung von x̄ waren die einzelnen Besetzungszahlen sehr wichtig.
Kapitel 3. Lage- und Streuungsmaße
53
Schicht
1, . . . , l, . . . , z
Besetzungszahlen
n1 , . . . , n l , . . . , n z ;
Mittelwerte
x̄1 , . . . , x̄l , . . . , x̄z
Varianzen
s̃21 , . . . , s̃2l , . . . , s̃2z
z
X
nl = n
l=1
Für das arithmetische Mittel gilt
z
x̄ =
Seien nun
1X
nl x̄l .
n l=1
z
s̃2innerhalb
sowie
1X 2
nl s̃l
:=
n l=1
z
s̃2zwischen
1X
nl (x̄l − x̄)2
:=
n l=1
• s̃2innerhalb
gibt die durchschnittliche Varianz innerhalb der Schichten an.
• s̃2zwischen
gibt die Varianz der Durchschnittswerte zwischen den Schichten an.
• s̃2zwischen = 0 gilt genau dann, wenn die Durchschnittswerte in allen Ländern gleich
wären. Dann gibt s̃2innerhalb die gesamte Streuung an.
• s̃2innerhalb = 0 gilt genau dann, wenn in jeder Schicht (also z.B. in jedem Bundesland)
alle jeweils diesselbe Merkmalsausprägung (z.B das gleiche Einkommen) hätten.
Wie setzt sich die Gesamtvarianz aus den beiden Bestandteilen zusammen?
Varianzzerlegung Es gilt
Gesamtvarianz =
s̃2
=
Varianz in. d. Schichten
s̃2innerhalb
+
+
Varianz zw. d. Schichten
s̃2zwischen .
Bemerkungen:
• Im Detail gilt also mit den Urlisten {x1l , x2l , . . . , xnl l } in Schicht l, l = 1, . . . , z,
nl
nl
z
z
z
1 XX
1X
1XX
(xil − x̄l )2 +
( (xil − x̄)2 ) =
nl (x̄l − x̄)2 .
n l=1 i=1
n l=1 i=1
n l=1
• Diese Zerlegungsmöglichkeit gilt nur für Varianzen, nicht aber für andere Streuungsmaße. Letztendlich ist sie der Grund für die Beliebtheit der Varianz – trotz
anderer Unannehmlichkeiten. Deshalb sollte man eher von der Varianzzerlegung als
von der Streuungszerlegung sprechen.
• Bei vielen Verfahren werden Streuungszerlegungen betrachtet; dies ist ein ganz
grundlegendes Prinzip in der Statistik.
54
3.2. Streuungsmaße
• Interpretation anhand des Beispiels mit den Einkommen der einzelnen Bundesländer:
Ist s̃2zwischen im Vergleich zu s̃2innerhalb groß, so bedeutet dies, dass sich die einzelnen
Ländermittelwerte relativ stark unterscheiden, also dass die geographische Herkunft
(das Bundesland) eine große Rolle spielt.
Korrigierte empirische Varianz: Neben der empirischen Varianz existiert noch eine
alternative Definition der Varianz, die korrigierte empirische Varianz.
Sei x1 , . . . , xn die Urliste eines intervallskalierten Merkmals X. Dann heißt
n
s2X
1 X
:=
(xi − x̄)2
n − 1 i=1
die korrigierte empirische Varianz oder korrigierte Stichprobenvarianz von X.
Bemerkungen:
• Der Sinn des Vorfaktors
1
n−1
wird erst in Statistik 2 deutlich.
• Auch für die korrigierte Varianz gilt die Aussage zu linearen Transformationen, d.h.
ist x1 , . . . , xn die Urliste eines mindestens intervallskalierten Merkmals X mit sX > 0
und y1 , . . . , yn die zugehörige Urliste des Merkmals Y = a · X + b. Dann gilt
s2Y = a2 · s2X .
3.2.2
Weitere Streuungsmaße
Variationskoeffizient: Der konkrete Wert der Varianz oder Standardabweichung (z.B.
s̃X = 3.29 im Statistikbücher-Beispiel) ist schwierig zu interpretieren. Ist s̃X = 3.29 groß
oder klein? Die Interpretation hängt insbesondere von der Einheit ab, in der X gemessen
wird (z.B. DM, Euro, Bücher oder Regale). Gesucht ist eine dimensionslose Zahl zur
Streuungsmessungen!
Definition: Ist x̄ > 0, so heißt die Größe
vX :=
s̃X
x̄
Variationskoeffizient des Merkmals X.
Bemerkungen:
• Gemessen wird hier die Streuung relativ zum Mittelwert. Insbesondere ist vX dimensionslos.
• Der Variationskoeffizient erlaubt beispielsweise auch den Vergleich der Streuung von
Preisen, die in verschiedenen Währungen gemessen wurden.
Kapitel 3. Lage- und Streuungsmaße
55
Inter-Quartils-Abstand: Sind x0.25 und x0.75 das obere und das untere Quartil eines
Merkmals, so heißt
dQX := x0.75 − x0.25
der Interquartilsabstand.
Der Inter-Quartils-Abstand misst die Spannweite der zentralen 50% der Daten, die extremeren Beobachtungen (z.B. 25% Ärmste, 25% Reichste) werden dagegen nicht berücksichtigt. Da die Quartile eventuell nicht eindeutig sind, ist dQ auch manchmal nicht eindeutig.
Median-Absolute-Deviation: Der Median der Werte |xi − xmed |, i = 1, . . . , n heißt
Median-Absolute-Deviation von X (M ADX ).
Spannweite: Die Größe
RX := x(n) − x(1)
heißt Spannweite von X.
Bemerkungen
• Alle betrachteten Streuungsmaße sind nur für (mindestens) intervallskalierte Merkmalse sinnvoll definiert, da sie auf Abständen (typischerweise dem Abstand der
Beobachtungen zu einem Lagemaß) beruhen.
• s̃2 , s̃, s2 , s sind die gebräuchlichsten Streuungsmaße.
• s̃2 , s̃, s2 , s sind sehr empfindlich gegenüber Ausreißern! Das Gleiche gilt für die
Spannweite R. M AD und dQ hingegen entstammen der sogenannten robusten Statistik, die sich um ausreißerresistente Methoden bemüht.
• Gilt x1 = x2 = . . . = xn , so weisen alle Streungsmaße den Wert 0 auf. Mit Ausnahme
von dQ gilt auch die Umkehrung: Sind die Steuungsmaße (außer eben dQ ) = 0, so
sind alle Werte der Urliste gleich.
• Häufig Ursache für Verwirrung und Missverständnisse: Der Begriff Streuung“ wird
”
in der Statistik in einem doppelten Sinn gebraucht:
– in einem allgemeinen Sinn: Streuung als Phänomen ( Die Daten streuen stark“).
”
– in einem speziellen Sinn: als eine Maßzahl für dieses Phänomen.
Beispiel: Statistikbücher
56
3.3. Box-Plot
Ausprägungen
0
1
2
3
12
P
hj
2
2
4
1
1
10
vX = s̃X /x̄ = 3.29/2.5 = 1.316.
x0.25 = 1 x0.75 = 2
⇒
dQX = 1.
RX = 12.
3.3
Box-Plot
Ziel: Grafische Zusammenfassung wichtiger Kennzahlen, die nicht ausreißeranfällig sind.
• x0.25 ,
x0.50 ,
x0.75 .
• Interquartilsabstand: dQX = x0.75 − x0.25
• Zäune“: zu
”
zo
:= x0.25 − 1.5 · dQX
:= x0.75 + 1.5 · dQX
• Ausserhalb der Zäune werden alle Punkte eingezeichnet; sie sind ausreißerverdächtig.
Median
©
©©
¼
Box
?
w
· · · · ·
zu
· · · · ·
x0.25
|
x0.75
{z
zo
}
dQX
HH
Y
H
je stärker die Daten in der Mitte streuen, desto
größer ist die Box
Vorsicht bei der Anwendung von Software! Vor allem außerhalb der Box sind auch andere
Darstellungen üblich (z.B. Zäune immer bis x(1) und x(n) ). Toutenburg (2002) beispielsweise unterscheidet zwischen Ausreißern (1.5 · dQX bis 3 · dQX von Rändern der Box entfernt)
und Extremwerten (mehr als 3 · dQX vom Rand entfernt). SPSS drückt den Median durch
einen dicken Strich aus.
Kapitel 3. Lage- und Streuungsmaße
57
Der Box-Plot gibt einen kompakten Überblick über die Form der Verteilung (Zentrale
Tendenz, Variabilität, Schiefe, extreme Werte).
Box-Plots können auch zum Vergleich von Verteilungen verwendet werden:
Herunterladen