Auswertung univariater Datenmengen - deskriptiv

Werbung
Auswertung univariater
Datenmengen - deskriptiv
¾ Eigenschaften des arithmetischen Mittels
¾ Einfache Streuungsmaße
¾Spannweite
¾Quartilabstand
¾ Das Diagramm eines Boxplots
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
1
Bibliografie
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen
Statistik für Wirtschaftswissenschaftler
¾ Bleymüller / Gehlert
Verlag Vahlen
Statistische Formeln, Tabellen und Programme
¾ PowerPointPräsentationen (Prof. Kück/ Dr. Ricabal),
¾ Vorlesungsskript für Statistik I (Dr. Pu Chen),
¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat1/
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
2
Eigenschaften des arithmetischen Mittels
Null-Eigenschaft: Die Summe der Abweichungen der
Beobachtungswerte vom arithmetischen Mittel ist Null.
Quadratische Minimumeigenschaft: Die Summe der
quadrierten Abweichungen zwischen Beobachtungswerten
und einem beliebigen Wert erreicht das Minimum für das
arithmetische Mittel.
Die Lineare Transformation der Beobachtungswerte
bewirkt die analoge Transformation des arithmetischen
Mittels.
Das arithmetische Mittel einer Gesamtmasse aggregiert
die arithmetischen Mittel von Teilmassen in gewogener
Form.
¾
¾
¾
¾
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
3
Null-Eigenschaft des arithmetischen Mittels
Die Summe der Abweichungen der Beobachtungswerte vom
arithmetischen Mittel ist Null.
N
N
∑ (a − µ) = 0
mit
i
i =1
µ =
∑
i =1
a
i
N
Beweis:
N
N
N
N
N
N
∑ (a − µ) = ∑ a − ∑ µ =∑ a − N⋅ µ = ∑ a −∑ a
i =1
i
Prof. Kück / Dr. Ricabal
i =1
i
i =1
i =1
i
Lage- und Streuungsparameter II
i =1
i
i =1
i
=0
4
Beispiel: Null-Eigenschaft des
arithmetischen Mittels
Beispiel: Körpergewicht in kg von 10 Personen.
Das arithmetische Mittel des Gewichtes der 10 betrachteten Personen beträgt 65 kg.
120
100
80
60
40
20
0
Nils
Jan
Kai
Uwe
Sven
Dörte
Marie
Antje
Anna
Lisa
µ
Einige Abweichungen der Einzelwerte zum arithmetischen Mittel sind positiv
die anderen negativ. Ihre Summe ist gleich Null.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
5
Quadratische Minimumeigenschaft
des arithmetischen Mittels
N
SQ(x) = ∑ (a i − x) 2 erreicht ein Minimum an der Stelle x=µ
i =1
Beweis:
N
dSQ(x)
= −2∑ (a i − x)
dx
i =1
N
− 2∑ (a i − x) = 0
erste Ableitung der Funktion SQ(x)
notwendige Bedingung
N
i =1
N
N
∑a
i
∑ (a − x) = 0
∑a
d 2 SQ(x)
= +2 > 0
dx 2
SQ(x) hat ein Minimum an der Stelle x = µ
i =1
i
Prof. Kück / Dr. Ricabal
i =1
i
− N⋅ x = 0
Lage- und Streuungsparameter II
x=
i =1
N
=µ
6
Beispiel: Quadratische Minimumeigenschaft
des arithmetischen Mittels
Vergleich der Abweichungsquadrate beim arithmetischen Mittel 65 kg und
zwei anderen Werten (75 und 55) .
(44-65)²
+ (46-65)²
+ (50-65)²
+ (54-65)²
+ (56-65)²
+ (69-65)²
+ (72-65)²
+ (78-65)²
+ (80-65)²
+ (101-65)²
= 2.984
Prof. Kück / Dr. Ricabal
(44-75)²
+ (46-75)²
+ (50-75)²
+ (54-75)²
+ (56-75)²
+ (69-75)²
+ (72-75)²
+ (78-75)²
+ (80-75)²
+ (101-75)²
= 3.984
(44-55)²
+ (46-55)²
+ (50-55)²
+ (54-55)²
+ (56-55)²
+ (69-55)²
+ (72-55)²
+ (78-55)²
+ (80-55)²
+ (101-55)²
= 3.984
Lage- und Streuungsparameter II
7
Lineare Eigenschaft des arithmetischen Mittels
Sei µ1 das arithmetische Mittel der N Beobachtungen eines Merkmals X.
Sei Y eine lineare Transformation von X, d. h.
y i = ax i + b
für alle i=1, 2, . . . , N
Dann gilt für das arithmetische Mittel µ2 von Y: µ2=aµ1+b.
Das arithmetische Mittel ist äquivariant gegenüber dieser Transformation.
Beweis:
N
µ2 =
∑ yi
i =1
N
Prof. Kück / Dr. Ricabal
N
=
∑ ax i + b
i =1
N
N
=
a ∑ x i + N⋅ b
i =1
N
Lage- und Streuungsparameter II
= aµ 1 + b
8
Beispiel: Lineare Eigenschaft des
arithmetischen Mittel
Wäre das Gewicht aller erfassten Personen in Pfund statt in Kilogramm
angegeben, würde sich das arithmetische Mittel entsprechend verdoppeln.
Mittelwert aus
transformierten Daten
Y=2X (Gewicht in Pfund)
200
175
150
125
100
75
50
25
0
µ y = 130
Kilogramm
Pfund
Mittelwert aus
ursprünglichen Daten X
(Gewicht in kg)
Li
s
Prof. Kück / Dr. Ricabal
Ka
i
Ja
n
Ni
ls
µ x = 65
a
An
na
An
dj
e
M
ar
ie
Dö
rte
Sv
en
Uw
e
Gewicht
Lineare Transformation
µy = 2⋅µx
Lage- und Streuungsparameter II
9
Aggregierbarkeit des arithmetischen Mittels
Seien T1, T2, …, Tk k Teilgesamtheiten jeweils mit N1, N2, … , Nk
Merkmalsträgern. Seien µ 1, µ 2, …, µ k die entsprechenden arithmetischen
Mittel in der Teilgesamtheiten. Für das arithmetische Mittel µ der
Grundgesamtheit G gilt:
µ
k
Nk
µ2
µ1
N2
N1
k
N1
N2
Nk
⎛N
⎞
µ=
⋅ µ1 +
⋅µ2 +L+
⋅ µk = ∑ ⎜ i ⋅ µi ⎟
N
N
N
⎠
i =1 ⎝ N
mit N = N + N + L + N
1
2
k
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
10
Aggregierbarkeit des arithmetischen Mittels
-BeweisNi
µk
Nk
µ2
µ1
µi =
Aus
∑x
j=1
k
N1
N
Ni
Ni
und
N2
N1
ij
⇒ Ni ⋅ µi = ∑ x i j
j=1
N2
Nk
j=1
j=1
∑∑ x i j = ∑ x1 j + ∑ x 2 j + L + ∑ x k j
i =1 j=1
k
N
µ = ∑ i ⋅ µi
i =i N
k
Gewogenes
Arithmetisches
Mittel
und
Prof. Kück / Dr. Ricabal
N
∑∑ x
folgen:
i =1 j=1
N
µ=
j=1
N1
ij
=
∑x
j=1
N2
1j
N
+
∑x
j=1
N
Nk
2j
+L+
∑x
j=1
kj
N
N1 ⋅ µ1 N 2 ⋅ µ 2
N ⋅µ
⎛N
⎞
+
+ L + k k = ∑ ⎜ i ⋅ µi ⎟
N
N
N
⎠
i =i ⎝ N
k
Lage- und Streuungsparameter II
11
Beispiel: Aggregierbarkeit des
arithmetischen Mittels
Für die 250 nach Karosserieform gruppierten Autos
ergeben sich folgende Mittelwerte für die Motorleistung.
Karosserieform
Mittelwert
Gruppenumfang
Großraumlimousine
108,06
16
Kombi
110,15
20
Schräghecklimousine
93,97
117
Stufenhecklimousine
169,25
97
16
20
117
97
+ 110,15 ⋅
+ 93,97 ⋅
+ 169,25 ⋅
250
250
250
250
= 125,37 PS
µ Gesamt = 108,06 ⋅
µ Gesamt
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
12
Beurteilung des arithmetischen Mittels
¾
Das arithmetische Mittel ist der in der Praxis am
häufigsten verwendete Mittelwert.
¾
Für Verteilungen, die stärker von den Eigenschaften der
Symmetrie und Eingipfeligkeit abweichen, eignet sich das
arithmetische Mittel nicht, da der berechnete Mittelwert
nicht das Zentrum der Verteilung repräsentiert.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
13
Beispiel: Beurteilung des arithmetischen Mittels
Es sei folgende empirische Häufigkeitsverteilung gegeben:
f(xi)
xi
Der numerische Wert für das arithmetische Mittel ist „richtig“.
Sachlich ist dieser Mittelwert jedoch ungeeignet, da er eine
falsche Vorstellung vom Zentrum der Verteilung vermittelt.
Denken sie an die Kuh!
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
14
Beispiel: Trügerische Mitte
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
15
Symmetrie und Lageparameter
Für metrisch skalierte Merkmale können das arithmetische Mittel, der
Median und der Modus auch dazu verwendet werden, um Symmetrie
oder Schiefe einer Verteilung beurteilen zu können. Der Vergleich der
numerischen Werte liefert Vorstellungen über die Verteilungsform.
Symmetrieregeln geben die Größenbeziehung zwischen den
Mittelwerten an.
¾ Bei symetrischer Verteilung gilt:
µ = Me = Mo
f(x)
bzw. angeschwächt:
µ ≈ Me ≈ Mo
Prof. Kück / Dr. Ricabal
µ = Me = Mo
Lage- und Streuungsparameter II
x
16
Symmetrie und Lageparameter
f(x)
¾ Bei linkssteiler (rechtsschiefer)
Verteilung gilt:
Mo > Me > µ
Mo Me
x
µ
f(x)
¾ Bei rechtssteiler (linksschiefer)
Verteilung gilt:
µ < Me < Mo
µ
Prof. Kück / Dr. Ricabal
Me
Mo x
Lage- und Streuungsparameter II
17
Zusammenfassung Mittelwerte
Die Unterschiede zwischen arithmetischem Mittel, Zentralwert und
Modalwert sind in praktischen Analysen von Bedeutung.
Welcher Mittelwert hat in der gegebenen Situation die bessere Aussage,
welcher Mittelwert „trifft“ die Mitte am besten?
Hier gibt es keine eindeutige Antwort, denn die Beantwortung wird auch
subjektiv davon beeinflusst, welches Bild der Analytiker vermitteln
möchte.
Einkommensverteilungen liefern Beispiele, die im Allgemeinen
linkssteil sind und für sehr hohe Einkommen flach nach rechts
auslaufen. Werden Modus und Median verwendet, beeinflusst man die
Argumentation zu niedrigen Einkommen, während die Verwendung des
arithmetischen Mittels ein höheres Einkommen argumentiert.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
18
Median oder arithmetisches Mittel?
...Wenn z.B. der Präsident der Bundesärztekammer vom mittleren
Einkommen der deutschen Ärzte spricht, meint er i.d.R. nicht das
arithmetische Mittel sondern den Median. Wann immer im deutschen
Ärzteblatt von Geld die Rede ist, erinnert man sich gern daran, dass es
außer dem arithmetische Mittel noch andere Mittelwerte gibt.
Auf der anderen Seite rufen Kritiker, die meinen, deutsche Ärzte
verdienen viel zu viel, gern das arithmetische Mittel in den
Zeugenstand. Dieses ist wie bei allen rechtsschiefen Verteilungen
immer größer als der von den Ärzten bevorzugte Median.
Z. B. Laborarzt:
Arithmetische Mittel: 700.000 DM p.a.
Median:
500.000 DM p.a.
Aus Krämer: So lügt man mit Statistik
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
19
Vorsicht bei Mittelwerten!
Das durchschnittliche Einkommen im Sultanat Brunei beträgt nach
dem arithmetischen Mittel berechnet 54.000 DM, für Deutschland
dagegen 46.000 DM.
Zu beachten ist jedoch, dass die Einkommensverteilung in Brunei
erheblich schiefer ist als die von Deutschland. Lässt man den Sultan,
der als reichster Mensch der Erde gilt, und seine Familie weg, sieht das
Bild schon ganz anders aus.
Solche „Ausreißer“, wie die Statistiker sagen, ziehen das arithmetische
Mittel an sich heran wie ein Magnet.
Aus Krämer: So lügt man mit Statistik
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
20
Vorsicht bei Mittelwerten!
„Sollen wir das arithmetische
Mittel als durchschnittliche
Körpergröße nehmen und den
Gegner
erschrecken, oder
wollen wir ihn einlullen und
nehmen den Median?“
Aus Krämer: So lügt man mit Statistik
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
21
Überlegen Sie selbst!
¾Berechnen Sie für die
ausgewiesenen Jahre die
durchschnittliche
Kinderzahl, die
Akademikerinnen in
West- und in
Ostdeutschland haben.
¾Wie müsste man
vorgehen, wenn aus
diesen Daten ein
„Durchschnittswert“ für
Deutschland über
Kinderlosigkeit bei
Akademikerinnen
ausgewiesen werden soll?
Quelle: http://www.spiegel.de/unispiegel/jobundberuf/0,1518,373449,00.html
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
22
Beispiel: Lage- oder Streuungsparameter?
Für Moskau und Dublin wird die gleiche Jahresdurchschnittstemperatur von 10°C
ausgewiesen.
Der Vergleich der gemessenen Einzelwerte zeigt folgendes Bild, wo man erkennen
kann, dass die Temperaturschwankungen in Moskau größer als in Dublin sind:
30
30
20
20
10
10
0
0
-10
-10
-20
-20
J
F M A M J
J
J
A S O N D
F M A M J
J
A S O N D
Die durchschnittliche Temperatur reicht nicht, um die
Temperatursituation zu charakterisieren. Hier wird ein
Streuungsmaß gebraucht, um die Schwankungen zu beschreiben.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
23
Notwendigkeit der Streuungsmaße
Lageparameter können die Verteilung nicht vollständig beschreiben.
Die drei extrem unterschiedlichen Verteilungen haben den gleichen
(arithmetischen) Mittelwert von 1000:
2000
2000
2000
1000
1000
1000
0
0
1
2
3
4
5
1
2
3
4
5
0
1
2
3
4
5
Streuungsparameter dienen der näheren Charakterisierung von
Schwankungen einer Verteilung. Sie sind ein Maß dafür, wie weit
die Daten auf der Merkmalsachse voneinander oder vom
Zentrum der Verteilung entfernt liegen.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
24
Empirische Streuungsmaße
In der beschreibenden Statistik werden folgende
Maßzahlen der Streuung verwendet:
¾ Spannweite
¾ Quartilsabstand
¾ Mittlere absolute Abweichung
¾ Varianz
¾ Standardabweichung
¾ Variationskoeffizient
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
25
Spannweite
Die Spannweite ist die einfachste Maßzahl für die
Abweichung der Daten, die den Abstand zwischen dem
kleinsten und dem größten Beobachtungswert angibt.
Spannweite (Englisch: range)
R = amax – amin
amin
Prof. Kück / Dr. Ricabal
amax
Lage- und Streuungsparameter II
26
Beispiel: Spannweite
In der Reihe der geordneten Merkmalswerte der Gewichte
für 10 untersuchte Personen ist die Spannweite die
Differenz aus dem Gewicht von Nils und Lisa:
Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan Nils
Nr. i
1
2
3
4
5
6
7
8 9 10
ai
44
46
50
54
56
69 72 78 80 101
Es ergibt sich: R = amax – amin = 101 – 44 = 57
Die Spannweite beträgt 57 kg.
Interpretation: Die Ausprägungen liegen in einem
Bereicht von 75 kg
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
27
Beurteilung der Spannweite
¾
¾
¾
Die Spannweite ist eine einfache Maßzahl für die Streuung.
Die Spannweite drückt die Variationsbreite der
Beobachtungswerte aus. Da sie nur aus den beiden
Extremwerten berechnet wird, ist sie sensibel gegenüber
Ausreißer.
Sie ist nur geeignet, wenn die Anzahl der Beobachtungen
klein ist.
Beispiel: Würde Nils nicht 101 kg sondern lediglich 81 kg
wiegen, so ergäbe sich für die Spannweite 37 kg (statt 57 kg)
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
28
Quartilsabstand
Der Quartilsabstand (Englisch: interquartil range) ist die
Differenz zwischen dem 75%igen und 25%igen Quartil der
Verteilung. Das ist die Spanne, welche die mittleren 50 %
der Daten (die mittlere Hälfte) umfasst:
a[N]
a[1]
Q3
Q1
QA = Q3 – Q1
25%
50%
25%
Dabei bezeichnen Q1 und Q3 das erste (untere) und das dritte (obere)
Quartil der Verteilung.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
29
Beispiel: Quartilsabstand klassierter Daten
Für die in Gewichtsklassen erfassten 100 Personen sind zunächst die
75%igen und 25%igen Quartilswerte zu bestimmen:
f(xi)
42,5 – 47,5
0,04 0,04
0,8
47,5 – 52,5
0,18 0,22
0,6
52,5 – 57,5
0,26 0,48
0,4
57,5 – 62,5
0,20 0,68
0,2
62,5 – 67,5
0,12 0,80
…
…
…
F(xi) 1
0
42
,5
4 7 b is 4
,5
7,
5 2 b is 5 5
,5
2,
5 7 b is 5 5
,5
7,
6 2 b is 6 5
,5
2
,
6 7 b is 6 5
,5
7
,
7 2 b is 7 5
,5
2,
7 7 b is 7 5
,5
7,
b
8 2 is 8 5
,5
2
,
8 7 b is 8 5
,5
b is 7 , 5
92
,5
Einfallsklassen für Q1
F(xi)
1,2
Gewicht
von…bis unter…
Einfallsklassen für Q3
Man bestimmt für Q1: 53,1 und für Q3: 65,4. Der Quartilsabstand beträgt 12,3 kg.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
30
Beispiel: Berechnung des ersten Quartils
Gewicht
von…bis unter…
f(xi)
F(xi)
42,5 – 47,5
0,04 0,04
0,22 < 0,25 < 0,48 ⇔ F(52,5) < F(Q1 ) < F(57,5)
47,5 – 52,5
0,18 0,22
⇒ 52,5 < Q1 < 57,5
52,5 – 57,5
0,26 0,48
57,5 – 62,5
0,20 0,68
62,5 – 67,5
0,12 0,80
…
…
…
Einfallsklassen für Q1
F(Q1)=0,25
0,25 − F( x iu ) o
Q1 = x +
( x i − x iu )
o
u
F( x i ) − F( x i )
u
i
0,25 − F(52,5)
(57,5 − 52,5)
F(57,5) − F(52,5)
0,25 − 0,22
Q1 = 52,5 +
(57,5 − 52,5) = 53,1
0,48 − 0,22
Q1 = 52,5 +
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
31
Beispiel: Berechnung des dritten Quartils
Gewicht
von…bis unter…
f(xi)
F(xi)
42,5 – 47,5
0,04 0,04
0,68 < 0,75 < 0,80 ⇔ F(62,5) < F(Q 3 ) < F(67,5)
47,5 – 52,5
0,18 0,22
⇒ 62,5 < Q 3 < 67,5
52,5 – 57,5
0,26 0,48
57,5 – 62,5
0,20 0,68
62,5 – 67,5
0,12 0,80
…
…
…
Einfallsklassen für Q3
Q 3 = x iu +
F(Q3)=0,75
0,75 − F( x iu ) o
( x i − x iu )
o
u
F( x i ) − F( x i )
0,75 − F(62,5)
(67,5 − 62,5)
F(67,5) − F(62,5)
0,75 − 0,68
Q 3 = 62,5 +
(67,5 − 62,5) = 65,4
0,80 − 0,68
Q 3 = 62,5 +
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
32
Beispiel: Quartilsabstand unterschiedlicher
Verteilungen
F(x)
1
f(x)
0,75
Gleichverteilung:
0,25
0
X
f(x)
X
F(x)
1
Normalverteilung:
0,75
0,25
0
X
X
Der Quartilsabstand ist bei Normalverteilung kleiner als bei Gleichverteilung.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
33
Beispiel: Quartile klassierter Daten
Haushaltsnettoeinkommen (HHNE) im früheren Bundesgebiet
Erwerbsstatistik 2003 ( DESTATIS)
HHNE
Früheres
von…bis unter … Euro Bundesgebiet
F(x)
Einfallsklassen
Unter 900
7,2
0,072
900 – 1300
11,7
0,189
1300 – 1500
6,6
0,255
1500 – 2000
14,7
0,402
2000 – 2600
14,7
0,549
2600 – 3600
18,1
0,730
3600 – 5000
14,6
0,876
12,2
0,998
5000 – 18000
Q p = x iu +
p − F(x )
⋅ (x io − x iu )
0
u
F(x i ) − F(x i )
Prof. Kück / Dr. Ricabal
u
i
Für Q1=Q0,25
Für Q2=Me=Q0,50
Für Q3=Q0,75
Allgemeine Formel für das p-Quantil
Lage- und Streuungsparameter II
34
Beispiel: Berechnung der Quartile
Haushaltsnettoeinkommen (HHNE) im früheren Bundesgebiet
Erwerbsstatistik 2003 ( DESTATIS)
Das erste Quartil (p=0,25)
Q1 = 1300 +
0,25 − 0,189
⋅ (1500 − 1300) = 1484,85 ∈
0,255 − 0,189
Der Median (p=0,50)
Me = 2000 +
0,5 − 0,402
⋅ (2600 − 2000) = 2400 ∈
0,549 − 0,402
Das dritte Quartil (p=0,75)
Q 3 = 3600 +
0,75 − 0,730
⋅ (5000 − 3600) = 3791,78 ∈
0,876 − 0,730
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
35
Beispiel: Interquartilsabstand
Beispiel: Haushaltsnettoeinkommen (HHNE) im früheren
Bundesgebiet. Erwerbsstatistik 2003 ( DESTATIS)
HHNE
von…bis
unter … Euro
Früheres
Bundesgebiet
F(x)
Unter 900
7,2
0,072
900 – 1300
11,7
0,189
1300 – 1500
6,6
0,255
1500 – 2000
14,7
0,402
2000 – 2600
14,7
0,549
QA=3791,78-1484,85
QA=2306,93
2600 – 3600
18,1
0,730
3600 – 5000
14,6
0,876
5000 – 18000
12,2
0,998
Q1=1484,85
Q2=Me=2400
Q3=3791,78
QA=Q3-Q1
Die mittlere Hälfte der Haushaltsnettoeinkommen hat eine
Spannung von 2306,93€.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
36
Beurteilung des Quartilsabstandes
¾
¾
Der Quartilsabstand wird nicht durch einzelne
Extremwerte beeinflusst. Er ist gegenüber Ausreißern
robuster.
Der Quartilsabstand gibt die Differenz der
Merkmalswerte an, welche die mittlere Hälfte der
Einzelwerte repräsentiert.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
37
Grafische Darstellung von fünf wichtigen
Verteilungspunkten (Boxplots)
Das Diagramm eines Boxplots ermöglicht eine komprimierte Visualisierung
einer univariaten Häufigkeitsverteilung, indem fünf wichtige Punkte einer
Verteilung zusammengefasst dargestellt werden.
Aufbau des Boxplots:
Merkmalsausprägun
g
Prof. Kück / Dr. Ricabal
• Maximum
• oberes Quartil
• Median
• unteres Quartil
• Minimum
Lage- und Streuungsparameter II
38
Boxplots bei asymmetrischer Verteilung
¾ Je nachdem, wo der Median innerhalb der Box liegt, lassen sich
Aussagen über die Symmetrie der Verteilung treffen.
Merkmalsausprägung
ÆBei einer asymmetrischen Verteilung liegt
der Median nicht mittig in der Box.
Æ Ungleich breite Abstände zwischen
Extrema und unteren bzw. oberen Quartil
(„whiskers“ ) indizieren ebenfalls
Asymmetrie.
¾ Der Streuung der Merkmalswerte wird durch die Spannweite der
Extrema und den Quartilabstand dargestellt.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
39
Boxplots bei symmetrischer Verteilung
Für eine exakt symmetrische Verteilung hat
das Boxplot folgende Gestalt:
¾ die Abstände zwischen Extrema und
unteren bzw. oberen Quartil sind gleich.
Merkmalsausprägung
¾ Der Median liegt mittig in der Box,
Jegliche Abweichungen davon bedeuten
Asymmetrie der empirischen Verteilung.
Bei empirischen Verteilungen ist exakte Symmetrie selten!
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
40
Beispiel: Aussagen des Boxplots
400
Für die 250 untersuchten Autos sei
die Leistung der
Großraumlimousinen, Kombis,
Schrägheckfahrzeuge, Stufenhecklimousinen mittels der BoxplotDarstellung vergleichend dargestellt:
250
SPSS-Diagramm
249
248
247
246
245
300
235
229
223
214
215
216
211
Leistung [PS]
200
100
29
30
0
N=
16
20
117
97
GL
K
SH
STH
Karosserieform
Die Gruppe der Großraumlimousinen ist im Vergleich am wenigsten
asymmetrisch und weist beim Merkmal Leistung den geringsten Streubereich auf.
Den größten Streubereich haben Stufenhecklimousinen.
Extreme Leistungen im oberen Leistungsbereich gibt es bei SH und STH.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
41
Boxplots - Ausreißerproblematik
400
SPSS kann optional bestimmte
Objekte aus der Erstellung des
Boxplots ausschließen.
249
248
247
246
245
300
235
229
223
214
215
216
211
200
Leistung [PS]
Als Ausreißer werden Objekte
behandelt, deren Merkmalswerte
zwischen 1,5 und 3 Boxlängen vom
oberen oder unteren Rand der Box
entfernt sind. Die Boxlänge entspricht
dem interquartilen Bereich.
250
100
29
30
0
N=
16
20
117
97
GL
K
SH
STH
Karosserieform
Als Extremwerte werden Objekte behandelt und gekennzeichnet
ausgewiesen, deren Merkmalswerte mehr als 3 Boxlängen vom oberen
oder unteren Rand der Box entfernt sind.
Prof. Kück / Dr. Ricabal
Lage- und Streuungsparameter II
42
Herunterladen