STATISIK

Werbung
STATISIK
LV Nr.: 1852
WS 2005/06
1.Dezember 2005
1
Inhalt
• Deskriptive Statistik:
• Einfache Kennzahlen
–
–
–
–
–
Lagemaße
Streuungsmaße
Konzentrationsmaße
Verhältniszahlen
Indexzahlen
2
Maßzahlen
• Parameter, Kollektivmaßzahlen
• Lageparameter (Mittelwerte)
• Streuungsparameter (Variabilitätsmaße,
Variationsmaße)
• Schiefe
• Wölbung
3
Lagemaße und Mittelwerte
• Eigenschaften:
– Liegen zwischen Minimum und Maximum der
Daten
– Wenn alle Daten derselben linearen
Transformation unterworfen werden, macht
auch das Lagemaß diese Transformation mit
4
Lagemaße und Mittelwerte
•
•
•
•
•
•
Arithmetisches Mittel
Median
Modus
Geometrisches Mittel
Harmonisches Mittel
Quantile
5
Arithmetisches Mittel
• Mittelwert, durchschnittlicher Wert.
• Für metrisch skalierte Merkmale.
• a1,...,an beobachtete Merkmalswerte eines
Merkmals X
1 n
a  ai
n i 1
k
1 k
x   xi  hi   xifi
n i 1
i 1
6
Arithmetisches Mittel
• Bsp. Merkmal X: Körpergröße in cm
• Merkmalswerte (a1,...,an, n = 5):
162, 170, 155, 187, 179
• ā = 1/5 · (162+170+155+187+179) = 170,6
7
Arithmetisches Mittel
Eigenschaften (Betrachte Einzelwerte ai, i=1,...,n):
• Summe der Abweichungen der Einzelwerte von
ihrem arithmetischen Mittel = 0
n
 (a
i 1
i
 a)  0
• Summe der quadrierten Abweichungen der
Einzelwerte von ihrem arithmetischen Mittel ist
kleiner als von einem beliebigen anderen Wert
n
n
i 1
i 1
2
2
(a

a
)

(a

M)
 i
 i
(M  a)
8
Arithmetisches Mittel
• Das arithmetische Mittel unterliegt der
gleichen linearen Transformation wie die
Einzelwerte
Lineare Transformation: a *i  α  βa i
(i  1,..., n)
a*  α  β a
• Bsp. Körpergröße: ai* = 0,01·ai
– Transformierte Werte: 1,62; 1,70; 1,55; 1,87; 1,79
– ā* = 1/5 · (1,62+1,70+1,55+1,87+1,79) = 1,706
– ā* = 0,01 · ā = 0,01 · 170,6 = 1,706
9
Arithmetisches Mittel
• Arithmetische Mittel von zwei oder mehr
Teilgesamtheiten:
1
a
n1  n 2
n2
 n1
 n 1a 1  n 2 a 2
  a 1i   a 2i  


n1  n 2
i

1


• Bsp. Körpergröße: 2 Stpr. mit n1=n2=5
– Stpr. 1: 162, 170, 155, 187, 179 mit ā1 = 170,6
– Stpr. 2: 172, 159, 193, 184, 168 mit ā2 = 175,2
– ā = 1/(5+5) · (853+876) = 172,9 =
(5·170,6+5·175,2) / (5+5) = 172,9
10
Arithmetisches Mittel
• Gewogenes (gewichtetes) arithmetische
Mittel
• Gewichte w1, ..., wn mit 0wi1 und Σiwi=1
n
a w   w ia i
i 1
• Für w1 = ... = wn = 1/n ergibt sich das
gewöhnliche arithmetische Mittel
11
Median
• Median (Zentralwert): mindestens 50% der
Beobachtungen ai nehmen eine Wert größer
oder gleich bzw. kleiner oder gleich dem
Median an.
• Sind x1... xn der Größe nach geordnet, ist
der Median x̃0,5:
x((n+1)/2)
n ungerade
x̃0,5 =
½(x(n/2)+x(n/2+1)) n gerade
12
Median
• Häufigkeitsverteilung:
Median ist diejenige Merkmalsausprägung,
bei der die Summenhäufigkeitsfunktion den
Wert 0,5 überschreitet.
• Klassifizierte Daten:
Der Median liegt in der Klasse, in der die
Summenhäufigkeitsfunktion den Wert 0,5
erreicht.
13
Median
• Bsp. Körpergröße in cm: n = 10,
– Merkmalswerte der Größe nach geordnet:
155, 159, 162, 168, 170, 172, 179, 184, 187, 193
– Median: x̃0,5 = ½(x(n/2)+x(n/2+1)) = ½(x5+x6) =
½(170+172) = 171
• Bsp. Körpergröße in cm: n = 9,
– Merkmalswerte der Größe nach geordnet:
155, 159, 162, 168, 170, 172, 179, 184, 187
– Median: x̃0,5 = x((n+1)/2) = x5 = 170
14
Quantile
• Geordnete Beobachtungsreihe x(1)...x(n)
• α-Quantil
x(k) falls n·α keine ganze Zahl (k ist die
auf n·α folgende ganze Zahl)
x̃α= 1/2 (x(k)+x(k+1)) falls n·α ganze Zahl
k=n·α
• Spezielle Quantile:
– Median = 0,5-Quantil
– Unteres Quartil = 0,25-Quantil
– Oberes Quartil = 0,75-Quantil
15
Quantile
• Bsp. Körpergröße in cm:
– Merkmalswerte der Größe nach geordnet (n=10):
155, 159, 162, 168, 170, 172, 179, 184, 187, 193
– Unteres Quartil = 0,25-Quantil, n · 0,25 = 2,5
also: x̃0,25 = x(k) = x(3) = 162
– Oberes Quartil = 0,75-Quantil, n · 0,75 = 7,5
also: x̃0,75 = x(k) = x(8) = 184
16
Modalwert
• Modalwert (Modus, häufigster Wert,
dichtester Wert): Gibt die Ausprägung an,
die die größte Häufigkeit in der
Beobachtungsreihe besitzt.
• Für nominal skalierte Daten geeignet.
• Es gilt: h(xmod)  h(xi) für alle
Merkmalsausprägungen xi,...,xk.
• Klassifizierte Daten: Modalwert ist definiert
als Klassenmitte der am dichtesten
besetzten Klasse.
17
Geometrisches Mittel
• Voraussetzung: Daten verhältnisskaliert
• n Einzelwerte a1, ..., an
• Merkmalsausprägungen relative
Änderungen (z.B. Lohnerhöhung in %)
• Geometrisches Mittel:
a g  n a 1  a 2  ...  a n
18
Geometrisches Mittel
• Bsp. Produktionssteigerung eines Betriebes
pro Jahr
• 4 Jahre mit Produktionssteigerungen von:
2%, 11%, 4%, 7%
• Durchschnittliche Steigerung:
a g  4 1,02 1,111,04 1,07  4 1,26  1,057
• Durchschnittliche Produktionssteigerung:
~6%
19
Geometrisches Mittel
• Gewogenes (gewichtetes) geometrische
Mittel
• Gewichte w1, ..., wn mit 0wi1 und Σiwi=1
a a
w
g
w1
1
 a ...  a
w2
2
wn
n
• Für w1=...= wn=1/n ergibt sich das
gewöhnliche geometrische Mittel
20
Harmonisches Mittel
• Nur positive od. negative Beobachtungswerte a1,...,an
ah 
n
n
1

i 1 a i
• Gewogenes harmonisches Mittel: Gewichte w1,...,wn
mit 0wi1 und Σiwi=1
a hw 
1
n
wi

i 1 a i
• Für w1=...= wn=1/n ergibt sich das gewöhnliche
harmonische Mittel
21
Harmonisches Mittel
• Bsp. Hat man etwa die Beziehung U = P · M und
gilt ui = xi·mi und ist ui = U und mi = M, ergibt
sich P = U / M
ui
U  ui
1

P



, mit w i  u i
M  mi  (u i x i )  (w i x i )
u
• P ist das mit wi gewogene harmonische Mittel der xi
–
–
–
–
U = Gesamtumsatz, ui = Einzelumsatz des i-ten Gutes
P = durchschnittlicher Preis pro Mengeneinheit,
xi = Einzelpreis pro Mengeneinheit des i-ten Gutes
M = Gesamtmenge, mi = umgesetzte Menge des i-ten
Gutes
22
i
Mittel
• Vergleich arithmetische- geometrischesund harmonisches Mittel:
• Bei positiven Beobachtungswerten a1,...,an
gilt stets die Beziehung
ah  ag  a
• Bei identischen Beobachtungen a1=...=an
sind die Mittel gleich.
23
Streuungsmaße
•
•
•
•
•
•
•
•
Varianz
Standardabweichung
Variationskoeffizient
Mittlere absolute Abweichung
Spannweite
Quartilsabstand
Schiefe
Wölbung
24
Varianz
• Beobachtungswerte a1,...,an (metrisch
skaliert)
• Streuungsmaß: Arithmetische Mittel der
Abweichungsquadrate der Einzelwerte ai von
ihrem arithmetischen Mittel
• Varianz (Mittlere quadratische Abweichung)
n
1
σ 2   (a i  a) 2
n i 1
25
Varianz
• Bsp. Körpergröße von 5 Personen: 162, 170,
155, 187, 179
• Arithmetisches Mittel = 170,6
• Varianz (Mittlere quadratische Abweichung)
σ² = 1/5 · [(162-170,6)² + … + (179-170,6)² ]
σ² = 131,44
26
Streuungsmaß
• Streuungsmaß: Summe der quadrierten
Abweichungen - nicht Summe der
Abweichungen von ai von ihrem arithm.
Mittel,
da gilt:
n
 (a
i 1
i
 a)  0
• Mittlere quadratische Abweichung bezogen
auf einen beliebigen Wert M
1 n
MQ(M)   (a i  M) 2
n i 1
27
Varianz
• Verschiebungssatz (Beziehung zw. MQ(M)
und Varianz):
2
2
MQ(M)  σ  (a  M)
• Das bedeutet:
– MQ(M)  Varianz
– MQ(M) = σ² wenn M = arithm. Mittel
– Minimumeigenschaft des arithm. Mittels.
n
n
2
(a

a
)

(a

M)
 i
 i
2
i 1
(M  a)
i 1
28
Varianz
• Rechenvereinfachung:
1 n
1 n 2
2
σ   (a i  a)   a i  a 2
n i 1
n i 1
2
• Liegt eine Häufigkeitsverteilung vor:
k Merkmalswerte x1,...,xk mit abs. Häufigkeiten
hi bzw. rel. Häufigkeiten fi (i=1,...,k)
• Varianz:
n
1
σ 2   (x i  x) 2 h i
n i 1
mit
n
1 n
x   xihi   xifi
n i 1
i 1
n
σ   (x i  x) 2f i
2
i 1
29
Varianz
• Varianz einer Grundgesamtheit, die aus 2
Teilgesamtheiten (n1, n2) besteht:
2
2
2
2
n
σ

n
σ
n
(
a

a
)

n
(
a

a
)
2 2
2
2
σ2  1 1
 1 1
n1  n 2
n1  n 2
mit
n 1a 1  n 2 a 2
a
n1  n 2
30
Varianz
• Klassifizierte Daten: Häufigkeitsverteilung
• Varianz näherungsweise berechnen, statt der
Merkmalswerte xi werden die
Klassenmitten xi´ verwendet:
1 n
2
σ   (x i  x) 2 h i
n i 1
mit
n
1 n
x   x i h i   x i f i
n i 1
i 1
n
1
σ 2   (x i  x) 2 f i
n i 1
31
Varianz
• Bei unimodalen Verteilungen, ist die
Varianz, die aus den klassifizierten Daten
berechnet wird, größer als die Varianz, die
aus den Einzelwerten berechnet wird.
• Bei konstanten Klasseneinteilungen (Δx):
Sheppardsche Korrektur:
σ
2
corr
(Δ x)
σ 
12
2
2
σ² ... die aus den klassifizierten Daten
näherungsweise bestimmte Varianz
32
Varianz
• Dimension: Quadrat der Dimension der
einzelnen Beobachtungen
• Eigenschaft: Varianz immer  0
• Ist Varianz = 0, liegt keine Streuung vor,
alle Beobachtungswerte sind gleich und
somit auch gleich dem arithmetischen
Mittel.
33
Standardabweichung
• Standardabweichung = Quadratwurzel der
Varianz
σ σ 
2
1 n
2
(a i  a)

n i 1
34
Varianz & Standardabweichung
Eigenschaften:
• Lineare Transformation der Einzelwerte ai:
ai* = α + βai (i=1,...,n)
• Dann: Varianz: σ*² = β²σ²
Standardabweichung: σ* = |β| σ
• Sonderfall: β=1, Transformation ai* = α + ai
σ*² = σ² und σ* = σ
35
Standardisierung
• Standardisierung:
– Spezielle lineare Transformation
– Bildet aus Einzelwerten ai standardisierte
Werte zi, indem von jedem ai das arithm. Mittel
μ abgezogen wird und durch die
Standardabweichung dividiert wird.
ai  μ
zi 
σ
• Arithm. Mittel der zi immer 0,
• Varianz der zi immer 1.
36
Variationskoeffizient
• Streuung zweier oder mehrerer Verteilungen
mit sich stark voneinander
unterscheidenden Mittelwerten vergleichen
• Relatives Streuungsmaß (für verhältnisskalierte Merkmale mit ausschließlich
positiven Merkmalswerten), bezieht die
Standardabweichung σ (absolutes
Streuungsmaß) auf das arithm. Mittel μ.
σ
VC 
μ
37
MAD Mittlere absolute Abw.
• Arithmetisches Mittel der absoluten
Abweichungen der einzelnen
Merkmalswerte vom Mittelwert (z.B.
arithm. Mittel oder Median)
1 n
MAD   | a i  M |
n i 1
• Minimumeigenschaft des Medians:
1 n
1 n
| a i  Me |   | a i  M |

n i 1
n i 1
M beliebiger Wert
38
MAD
• Häufigkeitsverteilung der Daten
• MAD bezogen auf Mittelwert μ
1 n
MAD   | x i  μ | h i
n i 1
n
MAD   | x i  μ | f i
i 1
• MAD aus Häufigkeitsverteilung von
klassifizierte Daten:
– Merkmalswerte xi durch Klassenmitten xi´
ersetzen.
39
Spannweite (Range)
• Abstand zw. dem größten und dem kleinsten Wert
• Einzelwerte der Größe nach ordnen: a[1],…,a[n]
R = a[n] - a[1]
• Häufigkeitsverteilung von k
Merkmalsausprägungen:
R = xk - x 1
• Häufigkeitsverteilung von klassifizierten Daten:
R = xko - x1u
• Spannweite ist instabil gegenüber Ausreißern
40
Quartilsabstand
• Quartile Q1, Q2 (=Median), Q3 teilen die
Gesamtheit in 4 gleich große Teile.
• α-Quantil:
a(k) falls n·α keine ganze Zahl (k die auf n·α
folgende ganze Zahl)
ãα= 1/2 (a(k)+a(k+1))
falls n·α ganze Zahl k=n·α
• Quartilsabstand (Interquartile Range) definiert als
Spannweite der 50% mittleren Werte:
QA = Q3 – Q1
• Eigenschaft: stabil gegenüber Ausreißern
41
Box-Plot
• Box-Plot: grafische Darstellung einer
Beobachtungsreihe (Verteilung und Struktur)
210
110
200
100
190
90
180
80
170
70
160
60
150
50
40
140
N=
37
9
38
GROEßE
N=
38
GEWICHT
42
Box-Plot
• Box-Plot für Vergleich von 2 Messreihen:
210
200
9
190
180
170
28
GROEßE
160
150
140
N=
SEX
20
18
w
m
43
Box-Plot
• Box-Plot
– Box: beinhaltet 50% der Daten (Grenzen: 1.
und 3. Quartil), Darstellung des Medians.
– Whiskers: maximal 1,5-mal die Länge der Box.
– Ausreißer: Werte außerhalb der Whiskers.
• Ausreißer
• Krasse Ausreißer
44
Schiefe
• Gibt Richtung (rechts- oder linksschief) und
Größenordnung der Schiefe einer unimodalen
Häufigkeitsverteilung an.
1 n

  (a i  a) 3 
n i 1


g1 
3
1 n

  (a i  a) 2 
 n i 1

< 0 linksschiefe
g1 = 0 symmetrisch
> 0 rechtsschiefe
• Kein direkter Streuungsparameter
45
Schiefe
• Schiefe einer Häufigkeitsverteilung aus
gruppierten Daten (k Klassen): Verwendung
der Klassenmittel od. der Klassenmitten
1 k

  (a i  a) 3 h i 
n

g1   i 1
3
k
1

  (a i  a) 2 h i 
 n i 1

1 k

  (m i  a) 3 h i 
n

g1   i 1
3
k
1

  (m i  a) 2 h i 
 n i 1

• Berechnung mit Klassenmittel und
Klassenmitte kann zu unterschiedlichen
Ergebnissen führen.
46
Schiefe
• Linksschiefe Verteilung: g1 < 0
Häufigkeit
Linksschiefe Verteilung
Ausprägung
47
Schiefe
• Symmetrische Verteilung: g1 = 0
Häufigkeit
Symmetrische Verteilung
Ausprägung
48
Schiefe
• Rechtschiefe Verteilung: g1 > 0
Häufigkeit
Rechtsschiefe Verteilung
Ausprägung
49
Wölbung
• Wölbung od. Kurtosis od. Exzeß: Maßzahl
für unimodale Häufigkeitsverteilungen
• Gibt an, ob (bei gleicher Varianz) das
absolute Maximum der Häufigkeitsvt.
größer als bei der Dichte der Normalvt. ist.
g2 
1 n
(a i  a) 4

n i 1
1

  (a i  a) 2 
 n i 1

n
2
3
50
Wölbung
< 0 abs. Max. kleiner als bei N-Vt.
g2 = 0 Normalverteilung
> 0 abs. Max. größer als bei N-Vt.
• Wölbung einer Häufigkeitsverteilung aus
gruppierten Daten (k Klassen): Verwendung
der Klassenmittel od. der Klassenmitten
k
g2 
1
( a i  a) 4 h i

n i 1
1 n

  ( a i  a) 2 h i 
 n i 1

2
3
g2 
1 k
4
(m

a
)
hi

i
n i 1
1

  (m i  a) 2 h i 
 n i 1

n
2
3
51
Herunterladen