Streuungs-, Schiefe

Werbung
Kapitel IV
Streuungs-, Schiefe und Wölbungsmaße
B. 4. 1.
Lagemaße von Häufigkeitsverteilungen geben allein wenig Auskunft über eine
Häufigkeitsverteilung. Sie beschreiben zwar ein Zentrum dieser Verteilung, geben aber
keinen Anhaltspunkt dafür, wie weit ein konkreter Merkmalswert von einem solchen Zentrum
abweichen kann.
Maße, die die Abweichung von einem Zentrum einer Häufigkeitsverteilung beschreiben,
nennt man Streuungsmaße oder Dispersionsmaße.
D. 4. 1. (Spannweite)
Als Spannweite (bei einem nichtgruppierten Datenmaterial) bezeichnet man
R := xmax − xmin
B. 4. 2.
Bei einem gruppierten Datenmaterial ist
R ≈ G p − g1
BS. 4. 1. (Siehe BS. 3. 1.)
1. Nichtgruppiert
R = 18.30 − 14.00 = 4.30 €.
2. Gruppiert
R ≈ 18.40 − 14.00 = 4.40 €.
B. 4. 3.
Die Spannweite ist geeignet, falls
- man sich für den gesamten Streubereich interessiert.
- die beiden Randwerte eine bedeutende Rolle spielen.
Die Spannweite ist nicht geeignet
- bei großen Stichprobenumfängen.
- beim Auftreten von Ausreißern.
- um die Streuung der Grundgesamtheit zu schätzen.
1
D. 4. 2. (Quartilsabstand)
Als Quartilsabstand bezeichnet man
~
~
QA := x 0.75 − x 0.25 .
BS. 3. 1. (Fortsetzung)
1. Nichtgruppiert
QA = 17.05 − 15.60 = 1.45 €.
2. Gruppiert
QA = 17.35 − 15.50 = 1.85 €.
D. 4. 3. (Mittlerer Quartilsabstand)
_
Q :=
~
1~

x
x
−
0.75
0.25 

2

BS. 3. 1. (Fortsetzung)
1. Nichtgruppiert
_
Q=
1
(17.05 − 15.60 ) = 0.725 €.
2
2. Gruppiert
_
X =
1
(17.35 − 15.50 ) = 0.925 €.
2
B. 4. 4.
Im Vergleich zur Spannweite haben der Quartilsabstand und der mittlere Quartilsabstand den
Vorteil, von den Extremwerten der Verteilung nicht beeinflusst zu werden.
D. 4. 4. (Mittlere absolute Abweichungen)
1. Als mittlere absolute (bzw. lineare) Abweichung vom Median bezeichnet man
d ~ :=
x 0.5
~
1 n
| xi − x 0.5 | .
∑
n i =1
2. Als mittlere absolute (bzw. lineare) Abweichung vom arithmetischen Mittel bezeichnet
man
d _ :=
x
_
1 n
| xi − x | .
∑
n i =1
2
BS. 3. 1. (Fortsetzung)
1.
1 30
1
d ~ = ∑ | xi − 16.20 | =
⋅ 27.8 ≈ 0.93 .
x 0.5
30 i =1
30
2.
1 30
1
d _ = ∑ | xi − 16.30 | =
⋅ 28.2 ≈ 0.94 .
x
30 i =1
30
B. 4. 5. (Minimaleigenschaft des Medianes)
Es gilt:
n
n
~
∑ | xi − x 0.5 | ≤ ∑ | xi − Z |,
i =1
Z ∈ R1 : beliebig .
i =1
B. 4. 6. (Mittlere absolute Abweichungen bei einem gruppierten Datenmaterial)
Es gilt:
1 p _ ~
d ~ :≈ ∑ | x i − x 0.5 | ⋅ H i ,
x 0.5
n i =1
1 p _ _
d _ :≈ ∑ | x i − x | ⋅ H i .
x
n i =1
_
Falls die Klassenmittel x i nicht vorhanden sind, werden sie durch die Klassenmitten mi ersetzt.
BS. 3. 1. (Fortsetzung)
Es ist
~
x 0.5 = 16.29,
_
x = 16.40 .
Ki
Hi
2
mi
14.50
| mi − 16.29 | ⋅H i
3.58
| mi − 16.40 | ⋅H i
3.80
K 2 = [15.00, 16.00[
11
15.50
8.69
9.90
7
16.50
1.47
0.70
10
17.70
K1 = [14.00, 15.00[
K 3 = [16.00, 17.00[
K 4 = [17.00, 18.40[
30
d~ ≈
x 0.5
27.84
≈ 0.93,
30
14.1
27.84
d_ ≈
x
3
27.4
≈ 0.91 .
30
13.00
27.40
D. 4. 5. (Mittlere quadratische Abweichungen)
1. Als mittlere quadratische Abweichung vom Median bezeichnet man
d ~2 :=
x0.5
~
1 n
( xi − x 0.5 )2 .
∑
n i =1
2. Als mittlere Abweichung vom arithmetischen Mittel (bzw. Varianz) bezeichnet man
a) bei einer Grundgesamtheit
σ 2 :=
1
N
N
∑ (x − µ)
i =1
 1
= N

2
i
N
∑x
i =1
2
i

− µ2 .

b) bei einer Stichprobe
s 2 :=
_
1 n
( xi − x) 2
∑
n − 1 i =1
2
 n 
 ∑ xi 
n
2
xi −  i =1 
∑
n
= i =1
.
n −1
3. Als Standardabweichung bezeichnet man die positive Wurzel der Varianz.
BS. 3. 1. (Fortsetzung)
1.
1 30
37.79
d ~2 = ∑ ( xi − 16.20)2 =
≈ 1.26 .
x 0.5
30 i =1
30
2.
1 30
37.49
s2 =
( xi − 16.30) 2 =
≈ 1.29 .
∑
29 i =1
29
3..
s ≈ 1.14 .
B. 4. 7.
1.
Es gilt:
2
_
2


1
∑
 xi − x  ≤ ∑ ( xi − Z ) , Z ∈ R , beliebig.

i =1 
i =1
n
n
(Minimaleigenschaft des arithmetischen Mittels)
4
2.
Sei
_
d _2 ( Z ) := s 2 + ( x − Z ) 2 , Z ∈ R1 : beliebig.
x
Hieraus folgt:
d _2 ( Z ) ≥ s 2
(Verschiebungssatz)
x
B. 4. 8. (Mittlere quadratische Abweichungen bei einem gruppierten Datenmaterial)
Es gilt:
d _2 :≈
x
σ 2 :≈
s 2 :≈
1 p _ ~ 2
∑ ( xi − x 0.5 ) ⋅ H i ,
n i =1
1
N
p
_
∑ ( xi − µ ) 2 ⋅ H i ,
(bei einer Grundgesamtheit)
i =1
1 p _ _ 2
∑ ( xi − x) ⋅ H i ,
n − 1 i =1
(bei einer Stichprobe)
_
Falls die Klassenmittel x i nicht vorhanden sind, werden sie durch die Klassenmitten mi ersetzt.
BS. 3. 1. (Fortsetzung)
Es ist
~
x 0.5 = 16.29,
Ki
K1 = [14.00, 15.00[
K 2 = [15.00, 16.00[
K 3 = [16.00, 17.00[
K 4 = [17.00, 18.40[
_
x = 16.40 .
14.50
( mi − 16.29) 2 ⋅ H i
6.4082
( mi − 16.40)2 ⋅ H i
7.22
11
15.50
6.8651
8.91
7
16.50
0.3087
0.07
10
17.70
19.8810
16.90
Hi
mi
2
30
d ~2 ≈
x
33.4630
≈ 1.12,
30
33.4630
s2 ≈
33.10
≈ 1.14,
29
33.10
s ≈ 1.07 .
B. 4. 7. (Sigma-Regeln)
_
_

Im Intervall  x − σ x + σ  liegt stets die Mehrheit, also mindestens 50 % aller Merkmalswerte


Für den Fall, dass die Merkmalswerte hinreichend genau normalverteilt sind, gilt die
Folgende Sigma-Regel.
5
_
_

Im Intervall  x − k ⋅ σ , x + k ⋅ σ  liegen für k = 1 rund 68%, für k = 2 rund 95% und für k = 3


rund 99% aller Merkmalswerte.
D. 4. 6. (Variationskoeffizient)
Das Merkmal X möge nur positive Werte annehmen.
Als Variationskoeffizient bezeichnet man
v :=
v :=
σ
, µ > 0 (bei einer Grundgesamtheit),
µ
s
_
_
,
x > 0 (bei einer Stichprobe).
x
B. 4. 8.
Der Variationskoeffizient ist ein relatives Streuungsmaß, das keine Maßeinheit besitzt und in
der Praxis meist in Prozent angegeben wird.
Er ist vor allem in zweierlei Hinsicht von praktischer Bedeutung:
1. Der Variationskoeffizient wird als eine Maßzahl benutzt, um einschätzen zu können, wie
gut das arithmetische Mittel alle Einzelwerte repräsentiert. Dabei verwendet man die
folgende Faustregel:
Ein Variationskoeffizient größer als 0.5 bzw. 50% ist ein Indiz dafür, dass der
Durchschnitt wegen einer zu großen Streuung kein geeigneter statistischer Repräsentant
der Einzelwerte ist.
2. Der Variationskoeffizient ist eine geeignete Maßzahl für den Streuungsvergleich von gleich
und/oder unterschiedlich dimensionierten Merkmals.
BS. 3. 1. (Fortsetzung)
1. Nichtgruppiert
v=
1.14
≈ 0.07 .
16.30
v=
1.07
≈ 0.07
16.40
2. Gruppiert
6
BS. 4. 1.
Ein Fachgeschäft für Schrauben weist an einem bestimmten Wochentag folgende
Verkaufszahlen in den Abteilungen A1 und A2 :
Abteilung A1
Verkaufsbetrag
Anzahl der
[€]
Verkäufe
16.00
8
30.00
20
40.00
16
50.00
12
60.00
4
Abteilung A2
Verkaufsbetrag
Anzahl der
[€]
Verkäufe
4
[1.50, 2.50[
[2.50, 3.50[
[3.50, 4.50[
[4.50, 5.50[
[5.50, 6.50[
[6.50, 7.50[
8
20
4
2
2
1. Nennen und charakterisieren Sie das statistische Merkmal.
2. Berechnen Sie für jede Abteilung den durchschnittlichen Verkaufsbetrag.
3. Überprüfen Sie die Richtigkeit folgender Aussage mithilfe der entsprechenden
Variationskoeffizienten: „Die Verkaufsbeträge in der Abteilung A1 streuen stärker als in der
Abteilung A2 .“
Lösung:
1.
Das Merkmal hießt: verkaufte Beträge. Es handelt sich (praktisch) um ein diskretes Merkmal.
2. und 3.
Abteilung A1 :
Arbeitstabelle
_
x=
aj
H (a j )
a j ⋅ H (a j )
(a j − 36.80)2 ⋅ H (a j )
16
30
40
50
60
8
20
16
12
4
60
128
600
640
600
240
2208
3461.12
924.80
163.84
2090.88
2152.96
8793.60
2208
= 36.80 €,
60
s2 =
8793.60
= 149.04,
59
7
s ≈ 12.21,
v ≈ 0.33.
.
Abteilung A2 :
Arbeitstabelle
(mi − 3.95)2 ⋅ H i
2
mi ⋅ H i
8
8
3
24
7.220
20
4
80
0.050
4
5
20
4.410
2
6
12
8.405
2
7
14
18.605
158
53.900
Ki
Hi
mi
[1.50, 2.50[
[2.50, 3.50[
[3.50, 4.50[
[4.50, 5.50[
[5.50, 6.50[
[6.50, 7.50[
4
40
_
x=
158
= 3.95 €,
40
s2 =
53.9
= 1.38,
39
s ≈ 1.18,
15.210
v ≈ 0.30.
.
Wegen
vA1 = 0.33 > 0.30 = v A2
ist die Aussage „Die Verkaufsbeträge in der Abteilung A1 streuen stärker als in der
Abteilung A2 “ wahr.
D. 4. 7. (k-tes Zentralmoment)
Das k − te Zentralmoment von n kardinalskalierten Merkmalswerten ist gegeben durch:
_
1 n
M k := ∑ ( xi − x)
n i =1
k
(für ein nichtgruppiertes Datenmaterial)
k
M k :=
_
1 p
(
m
−
x
∑ i ) ⋅ Hi
n i =1
(für ein gruppiertes Datenmaterial)
B. 4. 9.
Die Varianz ist gleich M 2 .
D. 4. 8. (Schiefe)
Die Schiefe der Verteilung eines kardinalskalierten Merkmals X sei gegeben durch:
S :=
M3
s3
B. 4. 10.
Die Schiefe gibt an, ob die Werte der Verteilung vom Modus aus links ( S > 0 ) oder rechts
( S < 0 ) schneller abfallen; das „lange Ende“ der Verteilung ist jeweils auf der anderen Seite.
Im ersten Falle ist die Verteilung linkssteil bzw. rechtsschief; im zweiten Falle rechtssteil
bzw. linksschief.
8
BS. 3. 1. (Fortsetzung)
1. Nichtgruppiert
6.32775
S = 30 3 ≈ 0.14 .
1.14
2. Gruppiert
Hi
mi
(mi − 16.40)3 ⋅ H i
2
11
7
10
30
14.5
15.5
16.5
17.7
-13.718
-8.019
0.007
21.970
0.240
0.240
S = 30 3 ≈ 0.007 .
1.07
B. 4. 11. (Weitere Schiefemaße)
Es gibt weitere Schiefemaße, u. a.
1. Das Schiefemaß aus den Quartilen:
~
S ~ :=
~
~
x 0.75 + x 0.25 − 2 x 0.50
~
~
x 0.75 − x 0.25
xα
( − 1 ≤ S ~ ≤ +1) .
xα
2. Das Schiefemaß nach Pearson:
_
x− M
S P :=
s
( − 1 ≤ S P1 ≤ +1) .
3. Das Schiefemaß nach Yule-Pearson:
_

3  x − Me 

SY − P := 
s
( − 3 ≤ S P 2 ≤ +3) .
BS. 3. 1. (Fortsetzung)
1. Nichtgruppiert:
S~ =
xα
17.05 + 15.60 − 2 ⋅16.20
≈ 0.17,
17.05 − 15.60
9
SP =
16.30 − 15.60
= 0.61,
1.14
SY − P =
3 (16.30 − 16.20 )
1.14
≈ 0.26 .
2. Gruppiert
S~ ≈
xα
SP ≈
17.35 + 15.50 − 2 ⋅16.29
≈ 0.15,
17.35 − 15.50
16.40 − 15.69
≈ 0.66,
1.05
SY − P ≈
3 (16.40 − 16.29 )
1.14
≈ 0.29 .
D. 4. 8. (Exzess, Wölbung, „Kurtosis“)
Der Exzess der Verteilung eines kardinalskalierten Merkmals X sei gegeben durch:
K :=
M4
−3
s4
(für eine Stichprobe),
n ( n + 1)
3 ( n − 1)
M 
K :=
⋅  44  −
( n − 1)( n − 2 )( n − 3)  d  ( n − 2 )( n − 3)
2
(für eine Grundgesamtheit).
B. 4. 12.
Der Exzess ist ein Maß für die relative „Flachheit“ einer Verteilung (im Vergleich zur
Normalverteilung, die einen Exzess von null aufweist.).
Ein positiver Exzess zeigt eine spitz zulaufende Verteilung (eine sog. Leptokurtische
Verteilung), wohingegen ein negativer Exzess eine flache Verteilung (platykurtische
Verteilung) anzeigt.
Hier zwei Beispiele von Verteilungen mit unterschiedlichem Exzess:
10
BS. 3. 1. (Fortsetzung)
1. Nichtgruppiert:
101.01425
30
K=
− 3 ≈ −1.01
1.144
2. Gruppiert:
Hi
mi
(mi − 16.40)4 ⋅ H i
2
11
7
10
30
14.5
15.5
16.5
17.7
26.0642
7.2171
0.0007
28.561
61.843
61.843
K ≈ 30 4 − 3 ≈ −1.43
1.07
11
(Letzte Aktualisierung: 20.04.09)
12
Herunterladen