Streuungsmaße für metrische Variablen

Werbung
Grundlagen
sozialwissenschaftlicher
Datenanalyse
(B.MZS.11: Statistik I)
• LE 6: Streuungsmaße und weitere Kenngrößen
• LE 7: Lineartransformationen (und Zusammenfassungen
von Gruppen)
Vorlesung Statistik I
Streuungsmaße für nominalskalierte Variablen
Konfession
Häudigkeit
evang. ohne Freikirchen
1169
evang. Freikirche
89
Römisch-katholisch
1042
andere christl. Religion
76
nicht-christliche Religion
138
ohne Religionszugehör.
890
verweigert
10
keine Angabe
8
Total:
3422
Gültige Fälle 3404 Fehlende Fälle: 18
gültige
Prozent
34.3
2.6
30.6
2.2
4.1
26.2
--100.0
Prozent
34.2
2.6
30.5
2.2
4.0
26.0
0.3
0.2
100.0
-2·pk·ln(pk)
0.73404
0.18978
0.72471
0.16794
0.26192
0.70185
2.78024
K
D X  2 n k  ln  p k   9465.054
k 1
(Allbuss 2006 Ost-West-gewichtet)
Index qualitativer Variation: IQV 
-2·nk·ln(pk)
2501.718
649.639
2467.811
580.140
881.595
2384.151
9465.054
K
K 

 1   p 2k 
K  1  k 1 
K
d X  2 p k  ln  p k   2.780 
k 1
Beispiel: IQV = (1  .3432  .0262  .3062  .0222  .0412  .2622)  6/(61) = 0.861.
Bei Gleichverteilung wird Maximum von 1 erreicht.
Absolute Devianz DX bzw. relativen Devianz dX:
n
D X  2 n k  ln  k
 n
k 1
K
Vorlesung Statistik I
K

  2 n k  ln  p k 

k 1
K
d X  2 p k  ln  p k  
k 1
Dx
n
Dx
n
Devianz – Nominalskaliertes Streuungsmaß
Vorlesung Statistik I
Beispielaufgaben:
Wie berechnet sich Varianz und die relative Devianz für die Spalte der Datenmatrix ?
Y
7
5
1
4
2
6
3
4
7
1
--40
pk
0.2
0.1
0.2
0.2
0.1
0.1
0.1
---1.0
Vorlesung Statistik I
-pk ln(pk)
0.3219
0.2303
0.3219
0.3219
0.2303
0.2303
0.2303
- --1.8867
K
d Y  2   p k  ln  p k   2 1.8867  3.7734
k 1
Streuung von ordinalen Variablen
Für ordinale Variablen finden sich in der Literatur bislang keine speziellen Streuungsmaße.
Bisweilen wird der Quartilabstand verwendet. Problematisch wegen Verwendung von
Abstandsinformationen.
Da die Messnievaus hierarchisch geordnet sind, kann auf Streuungsmaß für stets auf Kennwerte
für ein niedrigeres Messniveau zurückgegriffen werden, also z.B. auf die Devianz.
Aber: u-förmige Verteilungen lassen sich dann nicht erkennen, weil keine Ranginformation
genutzt wird.
Schiefe
Empirische Dichte
rechtsschiefe Verteilung
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Vorlesung Statistik I
Hinweise auf die Schiefe (engl.: skewness)
• Für unimodale, symmetrische Verteilungen gilt
Modus = Median = Mittelwert,
bei mehrgipfligen, symmetrischen Verteilungen
gilt:Median = Mittelwert;
• bei einer eindeutig rechtsschiefen Verteilung
gilt:Modus < Median < Mittelwert;
• bei einer eindeutig linksschiefen Verteilung gilt:
Modus > Median > Mittelwert.
Lerneinheit 6: Streuungsmaße und weitere Kenngrößen
Kennzeichen von Verteilungen ist gerade, dass es unterschiedliche Realisierungen gibt.
Streuungsmaße sollen das Ausmaß der Unterschiedlichkeit einer Verteilung erfassen:
40
30
20
10
0
1
2
Wert nk
1
10
2
20
3
40
4
20
5
10

100
Vorlesung Statistik I
3
4
5
a
W
pk cpk
0.1 0.1
0.2 0.3
0.4 0.7
0.2 0.9
0.1 1.0
1.0
a
1
2
nk
20
20
20
20
20
100
3
4
X
pk
0.2
0.2
0.2
0.2
0.2
1.0
5
a
cpk
0.2
0.4
0.6
0.8
1.0
a
1
2
nk
40
10
0
10
40
100
3
4
Y
pk
0.4
0.1
0.0
0.1
0.4
1.0
5
cpk
0.4
0.5
0.5
0.6
1.0
Streuungsmaße für metrische Variablen
Wert nk
1
10
2
20
3
40
4
20
5
10

100
W
pk cpk
0.1 0.1
0.2 0.3
0.4 0.7
0.2 0.9
0.1 1.0
1.0
nk
20
20
20
20
20
100
X
pk
0.2
0.2
0.2
0.2
0.2
1.0
cpk
0.2
0.4
0.6
0.8
1.0
nk
40
10
0
10
40
100
Y
pk
0.4
0.1
0.0
0.1
0.4
1.0
cpk
0.4
0.5
0.5
0.6
1.0
Spannweite (engl. Range): Abstand (Differenz) zwischen größter und kleinster Realisierung.
R  x (n )  x (1)
RW = 5 – 1 = 4
RX = 5 – 1 = 4
RY = 5 – 1 = 4
Quartilabstand (engl. interquartil range): Differenz des dritten vom ersten Quartil:
IQR  Q0.75  Q0.25
IQRW=2
IQRX=2
IQRY=4
Q0.75  Q0.25
2
Durchschnittliche absolute Abweichung (engl. absolute deviation): Mittelwert der vorbezeichenbereinigten Differenzen aller Realisierungen vom Mittelwert:
Mittlere Quartilabstand :
1 n
AD   x i  x
n i 1
Vorlesung Statistik I
mIQR 
ADW=0.8
ADX=1.2
ADY=1.8
Metrische Streuungsmaße
Die Summe der abweichenden Realisierungen – vom Mittelwert – ergibt
immer Null!
n
(x
i 1
i
 x)  0
n
1 n
AD   x i  x
n i 1
SS X   ( xi  x ) 2
i 1
SS X 1 n
1 n 2
2
s 
  ( xi  x )   xi  x 2
n
n i 1
n i 1
2
X
sX  sX2
Vorlesung Statistik I
Durchschnittliche Abweichung
vs.
Standardabweichung
1
2
x  1,5
1  1,5  2  1,5
AD 
 0,5
2
(1  1,5) 2  (2  1,5) 2
sX 
 0,5
2
1
2
3
x 2
1 2  2  2  3 2
AD 
 0,667
3
(1  2) 2  (2  2) 2  (3  2) 2
sX 
 0,816
3
Vorlesung Statistik I
Streuungsmaße für metrische Variablen
Berechnung der durchschnittlichen absoluten Abweichung:
x 6
1 n
AD   x i  x
n i 1
3
AD 

W
nk
1 10
2 20
3 40
4 20
5 10
 100
3
4
5
6
7
8
11
3  6  3  6  4  6  5  6  7  6  7  6  8  6  11  6
9
18
2
9
pk cpk
0.1 0.1
0.2 0.3
0.4 0.7
0.2 0.9
0.1 1.0
1.0
pk·wk
3|
0.1
0.4
1.2
0.8
0.5
3.0
pk·|wk–
0.2
0.2
0.0
0.2
0.2
0.8
x 3
1 K
AD   n K  x K  x
n k 1
10  1  3  20  2  3  40  3  3  20  4  3  10  5  3
AD 
 0.8
100
Vorlesung Statistik I
7
nk·|wk–3|
20
20
0
20
20
=80
Streuungsmaße für metrische Variablen
Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares, abgekürzt: SSX):
Summe der quadrierten Abweichungen vom Mittelwert:
n
SSx    x i  x 
2
i 1
W
nk
1 10
2 20
3 40
4 20
5 10
 100
pk cpk
0.1 0.1
0.2 0.3
0.4 0.7
0.2 0.9
0.1 1.0
1.0
pk·wk
0.1
0.4
1.2
0.8
0.5
3.0
nk·(wk–3)2
40
20
0
20
40
120
Y
nk
1 40
2 10
3
0
4 10
5 40
 100
pk cpk
0.4 0.4
0.1 0.5
0.0 0.5
0.1 0.6
0.4 1.0
1.0
pk·yk
3)2
0.4
0.2
0.0
0.4
2.0
3.0
nk·(yk–
160
10
0
10
160
340
X nk
1 20
2 20
3 20
4 20
5 20
 100
pk cpk
0.2 0.2
0.2 0.4
0.2 0.6
0.2 0.8
0.2 1.0
1.0
pk·xk
3)2
0.2
0.4
0.6
0.8
1.0
3.0
nk·(xk–
80
20
0
20
80
200
Für die Berechnung werden nur Fallzahl, Summe
und Quadratsumme über alle Realisierungen
benötigt:
SSX    x i  x     x i2  x 2  2  x i  x 
n
n
2
i 1
i 1
n
n
  x  n  x  2  x   xi
i 1
2
i
2
i 1
n
n
  x  n  x  2  x   n  x    x i2  n  x 2
Vorlesung Statistik I
i 1
2
i
2
i 1
Streuungsmaße für metrische Variablen
40
30
20
10
0
1
2
3
4
5
a
a
1
SSW  120
2
3
4
SSX  200
s2W  1.2 ; s W  1.095
5
a
a
1
2
3
4
5
SSY  340
s 2X  2.0 ; s x  1.414 s 2Y  3.4 ; s Y =1.844
(Stichproben-) Varianz: die durchschnittlichen quadrierte Abweichung vom Mittelwert:
1
SS
2
s 2X    x i  x   X
n i 1
n
Standardabweichung (engl: standard deviation): positive Quadratwurzel aus der Varianz:
sX 
Vorlesung Statistik I
s
2
X

1 n
2
x

x



 i
n i 1
SSX
n
Berechnung von Variation und Standardabweichung für eine Variable der Datenmatrix
Fallnr.
IS
Alter
(X)
Alter2
(X2)
1943
65
4225
1960
48
2304
1957
51
2601
1939
69
4761
missing missing missing
1956
52
2704
1970
38
1444
1920
88
7744
1956
52
2704
1966
42
1764
Summe
505
30251
Summe
56.111 3361.222
n valid  9
Die Variation berechnet sich aus diesen Summen nach:
n
SSX    x i  x 
i 1
2
 n 
  xi 
n
n
  x i2  n  x 2   x i2   i 1 
n
i 1
i 1
2
Für die Beispieldaten ergibt sich:
2
 9 
  xi 
n
n
i 1


2
SSX   x i 
  x i2  n  x 2
n
i 1
i 1
5052
 30251 
 30251  9  56.1112  58587.111
9
SS
58587.111
s 2X  X
im Beispiel: s X 
 212.7654321
n
9
s X  s 2X
im Beispiel: s X  212.7654321  14.586
VX  sX / x
im Beispiel : VX  14.58648 / 56.11111  0.2600  26.0%
Vorlesung Statistik I
Rechenschema für Häufigkeitstabellen


n

x

k
k


K
K
k 1


2
2
2
  nk  xk  n  x   nk  xk 
n
k 1
k 1
K
n
K
SSX    x i  x    n k   x k  x 
2
i 1
k 1
2
2
2
 K

2
n

x
n

x

 k k 
k
k
1 K
SS
2
2
2
k 1
sX    n k  x k  x 
  k 1 2   X
n k 1
n
n
n
K
W
nk
1 10
2 20
3 40
4 20
5 10
 100
pk cpk
0.1 0.1
0.2 0.3
0.4 0.7
0.2 0.9
0.1 1.0
1.0
nk·(wk)2
10
80
360
320
250
1020
nk·wk
10
40
120
80
50
300
3002
SSW  1020 
 120
100
pk·wk
0.10
0.40
1.20
0 80
0.50
3.00
pk·(wk)2
0.10
0.80
3.60
3.20
2.50
10.20
Vorlesung Statistik I
SSW  100  1.2  120
1020 3002 120
s 


 1.2
2
100 100
100
2
W
 K

s   pk   x k  x    pk  x  x   pk  x    pk  x k 
k 1
k 1
k 1
 k 1

K
2
X
s2W  10.20  32  1.2
K
K
2
k
2
2
k
2
 SSX  n  sX2
Streuungsmaße für metrische Variablen
Variationskoeffizient: Quotient der Standardabweichung geteilt durch das arithmetisches Mittel:
s 2X
SSX
sx
VX  

x
x
n x
1.095
 0.365  36.5%
3
1.844
s Y  1.844 ; y  3  VY 
 0.615  61.5%
3
s W  1.095 ; w  3  VW 
s X  1.414 ; x  3  VX 
1.414
 0.471  47.1%
3
Welches Streuungsmaßes sollte verwendet werden?
- Spannweite:
empfindlich gegenüber Ausreißer und sehr wenig Informationsgehalt
- Quartilabstand: robust gegenüber Ausreißern, aber wenig Informationsgehalt
- Variation und abgeleitete Maße: empfindlich gegenüber Ausreißern aber großer Informationsgehalt
 Mit Ausnahme explorativer Statistik, wo auch der Quartilabstand genutzt wird (z.B. in BoxPlots), werden vor allem die Variation bzw. abgeleitete Kennwerte verwendet.
Für die Verwendung von Varianz bzw. Standardabweichung spricht auch die Tschebyscheffsche
Ungleichung: Für alle Verteilungen gilt, dass im Abstand von k Standardabweichungen vom
Mittelwert mindestens 11/k2 aller Realisierungen liegen:
1
p  x  k  sx  X  x  k  sx   1  2
k
Vorlesung Statistik I
Momente
Zur Kennzeichnung von Verteilungen können auch höhere Momente verwendet werden:
Das k-te (Roh-) Moment ist der Durchschnittswert über alle mit k potenzierten Realisierungen
einer Verteilung:
1 n k
/
k-tes Rohmoment m k    x i
n i 1
Werden vor der Potenzierung die Differenzen vom ersten Moment berechnet, ergeben sich die
zentralen Momente:
k
1 n
k-tes zentrales Moment m k     x i  m1/ 
n i 1
Schiefekoeffizient:
1 n
3
 xi  x 

n i 1

3
sX
Steilheit (relativ zur Normalverteilung):
Vorlesung Statistik I

m3
m2
Kurtosis 

3
1 n
4
x

x


 i
n i 1
s 
2
X
2
3
m4
 m2 
2
3
Lerneinheit 7:
Lineartransformationen und Zusammenfassungen von Gruppen
Lineartransformation: Y = a + b·X
Y = 2 –1·X
Y = 4 +0.5·X
-5
-4
-3
-2
9
8
7
6
5
4
3
2
1
0
-1 -1 0
-2
-3
Lineare Gleichungen lassen sich in einem
Koordinatensystem als Graden einzeichnen.
Die Konstante a gibt dabei den Wert von
Y an, wenn X=0. Grafisch ist das der
Schnittpunkt der Geraden mit der senkrechten Y-Achse.
Das Gewicht b gibt die Steigung der Geraden an. Immer, wenn der Wert von X
um +1 Einheit ansteigt, verändert sich der
Wert von Y um b Einheiten.
Y = 4 +1·X
Y = 2 +1·X
1
2
3
4
5
 yi = a + b·xi für i = 1,2,...,n
1 n
1 n
1 n
1 n
1
b n
 y    yi     a  b  x i     a    b  x i   n  a   x i  a  b  x
n i 1
n i 1
n i 1
n i 1
n
n i 1
n
n
n
n
SSY    yi  y      a  b  x i    a  b  x      b   x i  x     b 2   x i  x   b 2  SSX
i 1
2
2
i 1
i 1
SSY b2  SSX
s 

 b2  s 2X und s Y 
n
n
2
Y
Vorlesung Statistik I
2
2
i 1
s 2Y 
b2  s 2X  b  s X
Lineartransformationen
Y = a+b*X
• Intervallskalenniveau
• Ratioskalenniveau
=> Y = a+b*X
=> Y = b*X
Intervallskalenniveau
Beispiel a) Islamischer (Mond)Kalender
33
33
H
  C  622  
  2009  622   1430
32
32
Intervallskalenniveau
Beispiel b) Temperatur
Ist es in Rom doppelt so warm wie in Göttingen?
28C  14C  14C
F  32  1,8 C
28 in Rom
 32  1,8  28  82, 4 F
14 in Göttingen  32  1,8  14  57, 2 F
82, 4 F  57, 2 F  25, 2 F
Ratioskalenniveau
Beispiel a) Zoll in cm
1"  2,54cm
2"  5,08cm
24"  60,96cm
Y  b X
Ratioskalenniveau
Beispiel b) Währung
Hat Gabi doppelt soviel Geld wie Peter?
Gabi  1000€
Klaus  500€
1€  45,095Rub
1000€  45,095Rub  45095Rub
500€  45,095Rub  22547,5Rub
Lineartransformationen
Als Beispiel soll Mittelwert, Variation und Varianz des Alters aus den enstprechenden
Kennwerten des Geburtsjahrs berechnet werden.
y  a  bx
Geburts- Geburts2
jahr
(X)
Alter
(Y)
jahr2
(X2)
Alter
(Y2)
1943
3775249
1960
3851600
1957
3829894
1939
3759721
missing missing
1956
3825936
1970
3880900
1920
3686400
1956
3825936
1966
3865156
Summe 17567 34290747
65
4225
48
2304
51
2601
69
4761
Lineartransformation
missing missing
Y = 2008 +(–1)·X
52
2704

38
1444
88
7744
52
2704
42
1764
Summe
505
30251
Summe
1951.889 3910083
9
Summe
9
 2008   1  1951.889
 56.111
SSY  b 2  SSX
  1  SSX
2
 1914.8889
s 2Y  b 2  s 2X
  1  212.7654
2
sY  b  sX
56.111 3361.222
 1  14.586
x  17567 / 9  1951.889
y  505 / 9  56.111
SSX  34290747  175672 / 9  1914.8889
SSY  30251  5052 / 9  1914.8889
s2X  1914.8889 / 9  212.7654
s2Y  1914.8889 / 9  212.7654
sX  212.7654  14.586
s Y  212.7654  14.586
Vorlesung Statistik I
Standardisierung
Standardisierung: Mittelwert ist 0 und Varianz ist 1.
Standardisierten Realisierungen bisweilen auch als Z-Werte bezeichnet werden und die standardisierende Transformation als Z-Transformation:
x
1
x 1
Xx
Z  a  b  X mit a 
und b  : Z 
 X 
 z  0 ; SSZ  n ; s 2Z  1 ; s Z  1
sX
sX
sX sX
sX
Y  X  56.111
Alter
(X)
Alter2
(X2)
65
4225
48
2304
51
2601
69
4761
missing missing
52
2704
38
1444
88
7744
52
2704
42
1764
Summe
505
30251
Summe
9
56.111 3361.222
x  56.111 ; sX  14.586
Vorlesung Statistik I
Y  X /14.586
Y
Y2
Y
Y2
8.889
–8.111
–5.111
12.889
missing
–4.111
–18.111
31.889
–4.111
–14.111
0.001
79.012
65.790
26.123
166.123
missing
16.901
328.012
1016.901
16.901
199.123
1914.886
4.456
3.291
3.497
4.731
missing
3.565
2.605
6.033
3.565
2.879
34.622
19.859
10.830
12.226
22.378
missing
12.710
6.787
36.399
12.710
8.291
142.190
0.000
212.765
3.847
15.7998
Z   X  56.111 /14.586
Z
Z2
0.609
0.371
–0.556 0.309
–0.350 0.123
0.884
0.781
missing missing
–0.282 0.080
–1.242 1.543
2.186
4.779
–0.282 0.080
–0.967 0.935
0.000
9.001
0.000
1.000
y  0 ; SSY  1914.886 y  3.847 ; SSY  9
x  0 ; SSY  9.00
s Y  14.586
s 2Y  1 ; s Y  1
s 2Y  1 ; s Y  1
Beispielaufgaben zu Lineartransformationen
Der Mittelwert einer Verteilung beträgt 45, die Varianz 81. Wie muss die Verteilung transformiert werden, um sie zu standardisieren?
Z
X  x X  45 X  45
1


 5   X
sX
9
9
81
90% aller Realisierungen einer standardisierten symmetrischen Verteilung liegen zwischen 1.65
und +1.65. Durch eine Lineartransformation der Gleichung Y = 5 + 3X werden alle Realisierungen transformiert. In welchem Intervall liegen 90% aller Realisierungen der transformierten Verteilung?
Die beiden Ausgangsquantilwerte müssen transformiert werden:
1.653 + 5 = 0.05; 1.65 3 + 5 = 9.95.
Nach der Lineartransformation liegen 90% aller Realisierungen zwischen 0.05 und 9.95.
Welchen Wert weist der Mittelwert und die Varianz der transformierten Verteilung auf?
Die Ausgangsverteilung ist standardisisert, hat also einen Mittelwert von 0 und eine Varianz und
Standardabweichung von 1. Für die transformierte Verteilung folgt dann:
y  a  b  x  5  3  0  5 ; s2Y  b2  s 2X  32 1  9
Vorlesung Statistik I
Herunterladen