4 Statistische Maßzahlen

Werbung
4 Statistische Maßzahlen
4.1 Maßzahlen der mittleren Lage
4.2 Weitere Maßzahlen der Lage
4.3 Maßzahlen der Streuung
4.4 Lineare Transformationen, Schiefemaße
4.5 Der Box–Plot
Ziel: Charakterisierung einer Stichprobe bzw.
einer empirischen Verteilung (Häufigkeitsverteilung) durch Kennzahlen.
StatSoz
78
Statistische Maßzahlen
– dienen der Beurteilung einzelner Beobachtungswerte innerhalb der Gesamtheit aller Beobachtungswerte,
– repräsentieren eine empirische Verteilung
durch wenige Zahlenwerte,
– ermöglichen einen einfachen und schnellen
Vergleich von Stichproben bzw. empirischen
Verteilungen.
StatSoz
79
Statistische Maßzahlen beschreiben drei Aspekte:
• Lage Wo liegen die Daten auf der verwendeten Skala? Wo liegt das Zentrum, die ,,Mitte”? Auskunft geben Maßzahlen der Lage
(Abschnitt 4.1 und 4.2).
• Streuung Wie weit streuen die Daten auf
der verwendeten Skala? Wie weit sind die
Daten vom Zentrum entfernt? Auskunft geben
Maßzahlen der Streuung (Abschnitt 4.3).
• Form Wie verhalten sich die Daten links und
rechts vom Zentrum? Wie weit weicht eine Häufigkeitsverteilung von der Symmetrie
ab? Auskunft geben Maßzahlen der Schiefe
(Abschnitt 4.4).
StatSoz
80
4.1 Maßzahlen der mittleren Lage
Maße der zentralen Tendenz, Mittelwerte
Ziel: Ein Mittelwert soll die Gesamtheit der Beobachtungen (Daten) möglichst gut repräsentieren.
• Modus (Modalwert)
Definition:
Der Modus ist die Merkmalsausprägung, die
in der Stichprobe am häufigsten vorkommt.
Als Lagemaß ist der Modus sinnvoll für
– ordinale Merkmale
– diskrete metrische Merkmale (Zähldaten)
wenn er eindeutig ist!
StatSoz
81
Bemerkung: Da der Modus allein von der
Häufigkeit abhängt, muss er nicht in der ,,Mitte”
einer Verteilung liegen.
Beispiel: Eine Stichprobe von 200 Haushalten
ergab die folgende Häufigkeitstabelle über die
Haushaltsgröße:
Anzahl der
Haushaltsmitglieder
1
2
3
4
5
absolute
Häufigkeit
35
30
42
78
15
Der Modus ist 4.
StatSoz
82
Bemerkung:
1. Bei stetigen (und somit metrisch skalierten)
Merkmalen macht der Modus im Allgemeinen
keinen Sinn (alle Daten sind i.d.R. verschieden).
2. Im klassierten Fall ist der Modus definiert als die Klassenmitte der am häufigsten besetzten Klasse. Aber Vorsicht!
Der Modus hängt von der Klassenwahl
ab! (vgl. Aufgabe 2, Blatt 2)
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
Der Modus im nichtklassierten Fall ist 21, da
dieser Wert am häufigsten auftritt (nämlich 5
mal), im klassierten Fall der Tab. 3–4 ist die
Klasse [20, 30) am dichtesten besetzt (nämlich
11 mal) und der Modus ist
20 + 30
= 25
2
StatSoz
83
• Median (Zentralwert)
Empirischer Median, Stichproben–Median
(sample median)
Voraussetzung: Merkmale müssen mindestens
ordinalskaliert sein.
Bezeichnung: med, medx
Median: Beobachtungswert, der sich in der
,,mittleren” Position der geordneten Stichprobe befindet (bei geradem Stichprobenumfang
gibt es zwei Beobachtungen in einer mittleren
Position und es wird gemittelt).
Zahlenbeispiel:
34 4 56
med = 4
StatSoz
34 4 5 67
4+5
med =
= 4.5
2
84
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
Die geordnete Stichprobe der 30 Daten lautet:
5
16
24
5
17
24
6
19
26
9
21
26
10
21
31
11
21
31
11
21
36
12
21
42
12
22
44
14
23
77
In der mittleren Position sind die 15–te und
die 16–te Ordnungsgröße, beide haben den Wert
21. Der Median ist dann das arithmetische Mittel
dieser beiden Ordnungsgrößen:
x(15) + x(16) 21 + 21
med =
=
= 21
2
2
Um allgemein den Median von Daten x1, . . . , xn
zu bestimmen, sind zunächst die Werte der
Größe nach zu sortieren. Bezeichne
x(1) ≤ x(2) ≤ . . . ≤ x(n)
wieder die geordneten Daten.
StatSoz
85
Definition:
Der empirische Median ist definiert durch
(
med =
x( n+1 ),
n ungerade
2
x( n2 ) + x( n2 +1) /2, n gerade
Hinweis: Der Median teilt die Stichprobe so,
dass mindestens 50% der Daten kleiner oder
gleich diesem Wert und mindestens 50% der
Daten größer oder gleich diesem Wert sind.
Beispiel Pendler–Daten: Von den 30 Beobachtungen sind 18 Beobachtungen kleiner oder
gleich dem Median, also 60%, 17 Beobachtungen
sind größer oder gleich dem Median, gerundet
57%.
StatSoz
86
• Arithmetisches Mittel
Mittelwert, Stichprobenmittel (sample mean)
Voraussetzung: metrisch skaliertes Merkmal oder
Merkmal ist binär und 0/1–kodiert.
Bezeichnung: x̄, x̄n
Definition:
Das arithmetische Mittel einer Stichprobe
x1, . . . , xn ist definiert durch
n
1
1X
x̄ = · (x1 + . . . + xn) =
xi
n
n i=1
Bemerkung: Selbstverständlich kommt es bei
der Aufsummierung nicht auf die Reihenfolge
an. So ändert sich der Wert des arithmetischen
StatSoz
87
Mittels nicht, wenn man z. B. die geordneten
Daten aufsummiert:
1
x̄ = · (x(1) + . . . + x(n))
n
Fortsetzung von Bsp. 3.1 (Pendler–Daten):
1
x̄30 =
· (5 + 5 + 6 + 9 + . . . + 77) = 21.93
30
aufgerundet 22 (Minuten).
Bei einem binären Merkmal, dessen Ausprägungen mit 0 und 1 kodiert sind, ist das arithmetische Mittel identisch mit der relativen Häufigkeit der Ausprägung 1:
Anzahl der Daten xi mit xi = 1
x̄ =
n
100 · x̄ gibt den prozentualen Anteil der Ausprägung 1 wieder.
StatSoz
88
Median oder arithmetisches Mittel?
Median und arithmetisches Mittel haben unterschiedliche Eigenschaften:
• Der Median wird von Ausreißern kaum oder
gar nicht beeinflusst (Ausreißer sind Beobachtungen die (augenfällig) weit entfernt von den
übrigen Daten liegen.) Man sagt: Der Median
ist robust. Das arithmetische Mittel reagiert
hingegen äußerst sensibel auf Ausreißer (und
kann daher zu sachlich verzerrten Aussagen
führen). Aber Achtung! Robustheit ist eine
Eigenschaft, kein Gütekriterium!
• Für schiefe Verteilungen ist der Median besser interpretierbar als das arithmetische Mittel.
Bei (annähernd) symmetrischen Verteilungen
ist das arithmetische Mittel dem Median vorzuziehen.
StatSoz
89
• Der Median setzt lediglich ein ordinales Skalenniveau voraus, während das arithmetische
Mittel metrisch skalierte Merkmale voraussetzt (Ausnahme: binäre, 0/1– kodierte Merkmale).
• Das arithmetische Mittel gibt einen rechnerischen Bezug zur Summe aller Beobachtungswerte, der Median gibt eher einen typischen
Wert im Zentrum der Verteilung wieder.
Fortsetzung von Bsp. 3.1 (Pendler–Daten):
Lässt man die größte Beobachtung 77 weg, so
erhält man
x̄29 = 20.03 med = x(15) = 21
Der Mittelwert hat um 1.9 abgenommen, der
Median hingegen bleibt in diesem Beispiel sogar
unverändert.
StatSoz
90
Robustifizierung des arithmetischen Mittels:
Weglassen der k kleinsten und größten Beobachtungen (k ≤ n/2). Das Ergebnis
x̄n,k
n−k
X
1
=
x(j)
n−2·k
(4.1)
j=k+1
ist das sogenannte gestutzte oder getrimmte
Mittel (trimmed mean).
Beispiel: 5%–getrimmtes Mittel (Weglassen der
5% kleinsten und 5% größten Beobachtungen)
Bemerkung: In der Darstellung (4.1) werden
alle Daten gleich gewichtet. Das Gewicht ist
1
n−2·k
Es gibt aber auch andere Festlegungen.
StatSoz
91
4.2 Weitere Maßzahlen der Lage
In diesem Abschnitt werden Maßzahlen vorgestellt, die häufig zur Beschreibung der nicht
zentralen Lage der Daten verwendet werden.
•
↑
min
•|•
• | • •
|•
•
↑
↑
Q1 Q2 = med
↑
Q3
↑
max
• Minimum: Kleinster Beobachtungswert
x(1) = min(x1, , . . . , xn)
• Maximum: Größter Beobachtungswert
x(n) = max(x1, , . . . , xn)
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
x(1) = 5, x(30) = 77
StatSoz
92
• Quartile
Die Interpretation von Quartilen ist die Folgende:
Das 1. Quartil (1st quartile) Q1 teilt die Stichprobe so, dass ungefähr 25% der Daten darunter
liegen. Das 2. Quartil (2nd quartile) Q2 teilt
die Stichprobe so, dass ungefähr 50% der Daten
darunter liegen (entspricht dem Median) und das
3. Quartil (3rd quartile) Q3 teilt die Stichprobe
so, dass etwa 75% der Daten darunter liegen.
Die Bestimmung von Quartilen geschieht wie
folgt:
1. Quartil: Division von 1·(n+1) durch 4 ergibt
n+1
= k1 + Rest
4
Der Rest kann nur die Werte 0, 0.25, 0.5 und
0.75 annehmen (den Wert 0, wenn n + 1 durch
4 teilbar ist).
StatSoz
93
Definition: 1. Quartil
Q1 = x(k1) + Rest · x(k1+1) − x(k1)
Im Fall Rest = 0 ist Q1 = x(k1).
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
Hier ist n = 30 und
n + 1 30 + 1
=
= 7.75 = 7 + 0.75
4
4
Also ist k1 = 7, Rest = 0.75 und
Q1 = x(7) + 0.75 · (x(8) − x(7))
= 11 + 0.75 · (12 − 11) = 11.75
Von den 30 Daten liegen 7 Daten unterhalb des
1. Quartils, also etwa 23%.
StatSoz
94
2. Quartil: Division von 2·(n+1) durch 4 ergibt
2 · (n + 1) n + 1
=
= k2 + Rest
4
2
Der Rest kann den Wert 0 annehmen, wenn
n + 1 durch 2 teilbar ist. In diesem Fall ist
n+1
k2 =
2
Der Rest kann den Wert 0.5 annehmen, wenn
n + 1 ungerade, also n gerade ist. In diesem Fall
ist
n
k2 =
2
StatSoz
95
Definition: 2. Quartil
Q2 = x(k2) + Rest · x(k2+1) − x(k2)
(
x( n+1 ),
n ungerade
2
=
0.5 · x( n2 ) + 0.5 · x( n2 +1), n gerade
= med
3. Quartil: Division von 3·(n+1) durch 4 ergibt
3 · (n + 1)
= k3 + Rest
4
Der Rest kann nur die Werte 0, 0.25, 0.5 und
0.75 annehmen (den Wert 0, wenn 3 · (n + 1)
durch 4 teilbar ist).
StatSoz
96
Definition: 3. Quartil
Q3 = x(k3) + Rest · x(k3+1) − x(k3)
Im Fall Rest = 0 ist Q3 = x(k3).
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
Wegen 31 · 0.75 = 23.25 ist k3 = 23, Rest =
0.25 und
Q3 = x(23) + 0.25 · (x(24) − x(23))
= 26 + 0.25 · (26 − 26) = 26
Von den 30 Daten sind 22 Daten kleiner als das
3. Quartil, also etwa 73%, 24 Daten sind kleiner
oder gleich dem 3. Quartil, also 80%.
Hinweis: Es gibt auch geringfügig andere Festlegungen
von Quartilen.
StatSoz
97
4.3 Maßzahlen der Streuung
Variabilitätsmaße, Dispersionsmaße (measures of dispersion)
Lagemaße geben i. A. wenig Auskunft darüber,
wie weit die Daten vom Zentrum entfernt liegen, wie stark also die Daten um das Zentrum
variieren (,,streuen”).
Zahlenbeispiel 4.1 (wird fortgesetzt): Für
die beiden Stichproben 0, 0, 10, 10 und
0, 0, 2, 8, 10, 10 gilt (nachrechnen!):
x̄
Minimum
Maximum
Q1
Q2 (med)
Q3
StatSoz
= 5
= 0
= 10
= 0
= 5
= 10
98
• Spannweite (range)
Voraussetzung: ordinal skalierte Merkmale
Definition:
Die Spannweite einer Stichprobe x1, . . . , xn
ist die Differenz zwischen größtem und kleinstem Beobachtungswert:
Spannweite = x(n) − x(1)
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
Spannweite = 77 − 5 = 72
Nachteile: Die Spannweite
– ist extrem ausreißerempfindlich
– berücksichtigt nicht die (Lage der) Daten, die
StatSoz
99
zwischen Minimum und Maximum liegen
– wird mit wachsendem Stichprobenumfang nie
kleiner.
• Quartilsabstand (interquartile range, IQR)
Dieses Streuungsmaß, auch Quartilsdifferenz
(quartile deviation) genannt, ist eine Robustifizierung der Spannweite.
Definition:
Der Quartilsabstand einer Stichprobe
x1, . . . , xn ist die Differenz zwischen dem
dritten und ersten Quartil:
IQR = Q3 − Q1
StatSoz
100
Bemerkung: Der Quartilsabstand hat eine sehr
anschauliche Interpretation: Er misst die Länge
des Intervalls, das etwa die Hälfte der ,,mittleren” Beobachtungen enthält. Das Intervall
[Q1, Q3]
umfasst die Beobachtungen zwischen Q1 und
Q3.
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
IQR = Q3 − Q1 = 26 − 11.75 = 14.25
Im Intervall [11.75, 26] liegen die (mittleren) Beobachtungenwerte
12 12 14 16 17 19 21 21 21
21 21 22 23 24 24 26 26
Dies sind rund 57% aller Beobachtungwerte.
StatSoz
101
• Standardabweichung (standard deviation)
Genauer: empirische Standardabweichung,
Stichproben–Standardabweichung
Bezeichnungsweisen: s, sn
Voraussetzung: metrisch skalierte Merkmale
Definition:
Die Standardabweichung von x1, . . . , xn
ist definiert durch
v
u
n
u 1 X
s = sn = t
(xi − x̄)2
n − 1 i=1
Die Standardabweichung
– betrachtet die Summe der quadratischen Abweichungen vom arithmetischen Mittel
StatSoz
102
– nimmt Bezug zum Stichprobenumfang n
– zieht die Wurzel aus der Summe der quadratischen Abweichungen, damit das Streuungsmaß die gleiche Maßeinheit besitzt wie die
Stichprobenwerte.
Beachte: Nur die Abweichungen (also ohne
Quadrat) zu nehmen, ist sinnlos. Es gilt stets
n
X
(xi − x̄n) = 0
i=1
(Aufgabe 3 (ii), Blatt 2).
Fortsetzung von Zahlenbeispiel 4.1: Die
Stichprobe 0, 0, 10, 10 (x̄ = 5) besitzt die Standardabweichung
r
1
s4 =
· 100 = 5.77
3
StatSoz
103
die Stichprobe 0, 0, 2, 8, 10, 10 (x̄ = 5) besitzt
die Standardabweichung
r
s6 =
1
· 118 = 4.86
5
Das Quadrat der (Stichproben–)Standardabweichung
n
X
1
(xi − x̄)2
s2 = s2n =
n − 1 i=1
heißt (Stichproben–)Varianz.
Fortsetzung von Bsp. 3.1: (Pendler–Daten)
Varianz (in Minuten2)
s2
1
(5 − 21.93)2 + . . . + (77 − 21.93)2
=
29
= 208.13
StatSoz
104
Standardabweichung (in Minuten)
s=
√
208.13 = 14.43
Bemerkungen:
(i) Die Maßeinheit der Varianz ist das Quadrat
der Maßeinheit der Stichprobenwerte. Die Varianz ist daher nur schwer interpretierbar.
(ii) Standardabweichung bzw. Varianz werden
von Ausreißern stark beeinflusst, sind also nicht
robust.
Beispiel: (Pendler–Daten) Würde man die extreme Beobachtung 77 weglassen, so ergäbe sich
eine Standardabweichung von 10.18 – eine deutliche Verringerung gegenüber 14.43.
StatSoz
105
(iii) Im Gegensatz zum Quartilsabstand hat die
Standardabweichung s keine anschauliche Interpretation (vgl. Bemerkung im Anschluss an Definition des Quartilsabstandes). Als Faustregel
sollte man sich aber merken, dass für annähernd
normalverteilte Stichproben das Intervall
[x̄ − s, x̄ + s]
ungefähr 2/3 aller Beobachtungen enthält; ungefähr die Hälfte liegt im Intervall
[x̄ − 0.67 · s, x̄ + 0.67 · s]
Was normalverteilt bedeutet, wird in der Wahrscheinlichkeitsrechnung erklärt.
(iv) Möchte man Standardabweichungen von
verschiedenen Stichproben vergleichen, so ist es
häufig sinnvoll, diese in Bezug zu den arithmetischen Mitteln zu setzen (vgl. Aufgabe 8, Blatt 2).
StatSoz
106
4.4 Lineare Transformationen, Schiefemaße
Wie wirkt sich eine Änderung der Maßeinheit auf
Lage– und Streuungsmaße aus? Beispiele:
Währung: USD ($) und Euro [e]
1e = 1.320$
Zeitmessung:
1 Stunde = 60 Minuten
Allgemein lässt sich der Übergang zu einer anderen Maßeinheit durch eine lineare Funktion
(man sagt auch lineare Transformation) beschreiben:
y = a + b · x,
b>0
Die x–Werte werden erst mit einem Faktor b > 0
gewichtet und dann um den Wert a verschoben.
StatSoz
107
Im Fall der Währung ist b = 1.320 und a = 0:
y = 1.320 · x
(x Euro sind 1.320 · x USD)
Im Fall der Zeitmessung ist b = 60 und a = 0:
y = 60 · x
(x Stunden sind 60 · x Minuten)
Wendet man eine lineare Transformation
y = a + b · x,
b>0
auf eine Stichprobe x1, . . . , xn an, so erhält man
die linear transformierten Daten
y1 = a + b · x1, . . . , yn = a + b · xn
Alle Lage– und Streuungsmaße (außer die Varianz) sind dadurch charakterisiert, dass sie
sich bei linearen Transformationen in einer
bestimmten Weise mitverändern:
StatSoz
108
Lagey = a + b · Lagex
Streuungy = b · Streuungx
Für die vorgestellten Lagemaße gilt also
ȳ = a + b · x̄
Q1,y = a + b · Q1,x
medy = a + b · medx
Q3,y = a + b · Q3,x
und für die vorgestellten Streuungmaße gilt
sy = b · sx
IQRy = b · IQRx
StatSoz
109
Selbst wenn Stichproben in Lage und Streuung
übereinstimmen sollten, bleiben im Allgemeinen
Unterschiede, die man unter dem Begriff Form
zusammenfasst.
Die Form der Verteilung ist das, was
sich unter linearen Transformationen nicht
ändert.
Ein anschaulicher Aspekt der Form ist die
Schiefe (skewness).
Schiefe ist die Abweichung von der Symmetrie. Ausreißer bewirken, dass Mittelwert und
Median voneinander abweichen. In diesen Fällen
ist die Verteilung schief.
StatSoz
110
Rechtsschiefe (Linkssteilheit) in den Daten liegt
vor, wenn mehr Beobachtungen unterhalb des
Mittelwertes liegen als oberhalb, also der Median
kleiner als der Mittelwert ist
medx < x̄
Die Pendler–Daten von Bsp. 3.1 sind rechtsschief (siehe Abb. 3–4).
Linksschiefe (Rechtssteilheit) in den Daten liegt
vor, wenn mehr Beobachtungen oberhalb des
Mittelwertes liegen als unterhalb, also der Median größer als der Mittelwert ist
medx > x̄
Im Fall x̄ = medx spricht man von Symmetrie.
StatSoz
111
Beachte: Unter linearen Transformationen
a + b · x,
b>0
bleibt
(i) eine rechtsschiefe Verteilung (medx < x̄)
rechtsschief:
a + b · medx < a + b · x̄
(ii) eine linksschiefe Verteilung (medx > x̄)
linksschief:
a + b · medx > a + b · x̄
(iii) eine symmetrische Verteilung (medx = x̄)
symmetrisch:
a + b · medx = a + b · x̄
StatSoz
112
• Schiefemaße
Ein Schiefemaß ist ein Maß für die Ausgeprägtheit der Schiefe einer Verteilung, für den Grad
der Asymmetrie.
Konvention:
· Bei rechtsschiefer Verteilung wird die Maßzahl positiv
· bei linksschiefer Verteilung wird die Maßzahl
negativ
· bei symmetrischer Verteilung wird die Maßzahl Null.
Schiefemaß nach Yule–Pearson:
3 · (x̄ − med)
Schiefe YP =
s
StatSoz
113
Schiefemaß 3. Moment:
Schiefe M =
3
n X
1
xi − x̄
n i=1
(4.2)
s
Fortsetzung von Bsp. 3.1 (Pendler–Daten) Mit
x̄ = 21.93, med = 21 und s = 14.43 erhält man
3 · (21.93 − 21)
= 0.19
Schiefe YP =
14.43

1  5 − 21.93
Schiefe M =
30
14.43
+... +
!3
77 − 21.93
14.43
!3
 = 1.85
Dies deutet auf eine Rechtsschiefe hin.
StatSoz
114
Da die Form einer Verteilung sich unter linearen Transformationen a + b · x, b > 0, nicht
ändert, ist es vernünftig, von einem Schiefemaß
zu fordern, dass es sich ebenfalls unter linearen
Transformationen nicht ändert (Aufgabe 2, Blatt
3).
Bemerkung: Rechtsschiefe Verteilungen sind
weit verbreitet. Logarithmus– und Wurzeltransformation
x1, , . . . , xn −→
√
√
x1 , . . . , x n
x1, , . . . , xn −→ ln(x1), . . . , ln(xn)
führen zu einer Abnahme der Rechtsschiefe. Dies
ist oft ein Grund für ihre Anwendung: Man
möchte nicht–schiefe Häufigkeitsverteilungen erhalten. Dies ist vor allem im Hinblick auf viele
Methoden der schließenden Statistik von Vorteil.
StatSoz
115
Standardisierte Stichproben
Jede Stichprobe lässt sich mittels einer linearen
Transformation a + b · x, b > 0, in eine Stichprobe überführen, deren (mittlere) Lage 0 und
Streuung 1 ist. Sei x1, . . . , xn eine Stichprobe.
Standardisierung A: Als Lagemaß sei das arithmetische Mittel x̄ und als zugehöriges Streuungsmaß die Standardabweichung sx gewählt.
Für die transformierten Beobachtungswerte
xi − x̄
1
x̄
zi =
=− +
· xi
sx
sx |{z}
sx
|{z}
=a
=b
i = 1, . . . , n, gilt dann
z̄ = 0,
sz = 1
(Aufgabe 3, Blatt 3). Der standardisierte Wert
zi wird als
StatSoz
116
z–score (z–Wert)
des ursprünglichen Wertes xi bezeichnet. Er besitzt keine Maßeinheit und kennzeichnet, um das
,,Wievielfache der Streuung” der Ursprungswert
vom Zentrum (x̄) entfernt ist. z1, . . . , zn heißt
standardisierte Stichprobe.
Standardisierung B: (Robuste Variante) Als
Lagemaß sei der Median medx und als zugehöriges Streuungsmaß der Quartilsabstand IQRx
gewählt. Für die transformierten Beobachtungswerte
xi − medx
medx
1
zi =
=−
+
· xi
IQRx
| IQR
{z x} |IQR
{z x}
=a
=b
i = 1, . . . , n, gilt dann
medz = 0,
IQRz = 1
(Aufgabe 3, Blatt 3).
StatSoz
117
4.5 Der Box–Plot
Genauer: Box– and Whiskers–Plot
Er benutzt Quartile zur graphischen Darstellung
von Lage und Streuung, gibt Hinweise auf Symmetrie oder Schiefe, und hebt potenzielle Ausreißer hervor.
Ziel: Schneller visueller Vergleich verschiedener
Stichproben.
Ausgangspunkt dieser Darstellung (bei vertikaler
Orientierung) bildet eine Box, deren untere und
obere Begrenzungslinien durch das untere und
obere Quartil festgelegt sind. Die Länge der Box
ist also der Quartilsabstand. Innerhalb der Box
wird der Median durch eine horizontale Linie
markiert.
Die Whiskers (vertikale Linienstücke) werden
unterhalb und oberhalb der Box abgetragen. Die
StatSoz
118
Linienendpunkte sind durch die größte und kleinste Beobachtung definiert. Wenn allerdings die
Beobachtungen vom oberen bzw. unteren Rand
der Box zu weit entfernt liegen, nämlich mehr als
1.5 · (Q3 − Q1), endet die Linie bei dem höchsten
bzw. niedrigsten Beobachtungswert, der gerade noch innerhalb dieses Bereiches liegt (man
spricht von der größten ,,normalen” und kleinsten ,,normalen” Beobachtung). Alle Messwerte, die extremer sind, werden einzeln, meistens
durch Sterne, gekennzeichnet. Dies sind dann
potenzielle Ausreißer. Die Zahl 1.5 ist so gewählt,
dass für ,,normale” Stichproben Folgendes gilt:
Etwa 99% der Daten liegen im Intervall
[Q1 − 1.5 · IQR, Q3 + 1.5 · IQR]
Ist der Boxplot unsymmetrisch, so zeigt dieser
eine Schiefe in den Daten.
StatSoz
119
*
*
*
größte ,,normale” Beobachtung
(≤ Q3 + 1.5 · IQR)
Q3
Q2
Q1
kleinste ,,normale” Beobachtung
(≥ Q1 − 1.5 · IQR)
extreme Beobachtung
Abbildung 4–1 Aufbau eines Box–Plots
Man beachte, dass alle im Box–Plot verwendeten
Kennzahlen relativ robust gegenüber Ausreißern
sind, denen damit praktisch die Möglichkeit genommen wird, sich hinter bereits beeinflussten
Kennzahlen zu verstecken (,,masking”).
StatSoz
120
Abbildung 4–2 Box–Plot der Pendler–Daten
StatSoz
121
Für die Pendler–Daten ergibt sich wegen
1.5 · IQR = 1.5 · 14.25 = 21.375
das Intervall
[Q1 − 1.5 · IQR, Q3 + 1.5 · IQR]
= [11.75 − 21.375, 26 + 21.375]
= [−9.625, 47.375]
Die kleinste Beobachtung 5 liegt in diesem Intervall. Der untere Whisker endet somit bei 5. Die
größte Beobachtung (Beobachtung Nummer 9)
beträgt 77 und liegt nicht in diesem Intervall.
Diese Beobachtung wird daher als potenzieller
Ausreißer gekennzeichnet. Die größte ,,normale”
Beobachtung ist dann 44, wo auch der obere
Whisker endet. Der Median von 21 liegt näher
an 5 (kleinste normale Beobachtung) als an 44.
Dies deutet auf eine Rechtsschiefe hin.
StatSoz
122
Herunterladen