statistik_03_03_05

Werbung
STATISIK
LV Nr.: 1375
SS 2005
3.März 2005
1
Streuungsmaße
•
•
•
•
•
•
•
•
Varianz
Standardabweichung
Variationskoeffizient
Mittlere absolute Abweichung
Spannweite
Quartilsabstand
Schiefe
Wölbung
2
Varianz
• Beobachtungswerte a1,...,an (metrisch
skaliert)
• Streuungsmaß: Arithmetische Mittel der
Abweichungsquadrate der Einzelwerte ai von
ihrem arithmetischen Mittel
• Varianz (Mittlere quadratische Abweichung)
n
1
σ 2   (a i  a) 2
n i 1
3
Varianz
• Nicht Summe der Abweichungen von ai von
ihrem arithm. Mittel, da gilt:
n
 (a
i 1
i
 a)  0
• Mittlere quadratische Abweichung bezogen
auf einen beliebigen Wert M
1 n
MQ(M)   (a i  M) 2
n i 1
4
Varianz
• Verschiebungssatz (Beziehung zw. MQ(M)
und Varianz):
2
2
MQ(M)  σ  (a  M)
• Das bedeutet:
– MQ(M)  Varianz
– MQ(M) = σ² wenn M = arithm. Mittel
– Minimumeigenschaft des arithm. Mittels.
n
n
2
(a

a
)

(a

M)
 i
 i
2
i 1
(M  a)
i 1
5
Varianz
• Rechenvereinfachung:
1 n
1 n 2
2
   ( ai  a )   ai  a 2
n i 1
n i 1
2
• Liegt eine Häufigkeitsverteilung vor:
k Merkmalswerte x1,...,xk mit abs. Häufigkeiten
hi bzw. rel. Häufigkeiten fi (i=1,...,k)
• Varianz:
n
1
σ 2   (x i  x) 2 h i
n i 1
1 n
σ   (x i  x) 2 f i
n i 1
mit
n
1 n
x   xihi   xifi
n i 1
i 1
2
6
Varianz
• Klassifizierte Daten: Häufigkeitsverteilung
• Varianz näherungsweise berechnen, statt der
Merkmalswerte xi werden die
Klassenmitten xi´ verwendet:
1 n
2
σ   (x i  x) 2 h i
n i 1
mit
n
1 n
x   x i h i   x i f i
n i 1
i 1
n
1
σ 2   (x i  x) 2 f i
n i 1
7
Varianz
• Bei unimodalen Verteilungen, ist die
Varianz, die aus den klassifizierten Daten
berechnet wird, größer als die Varianz, die
aus den Einzelwerten berechnet wird.
• Bei konstanten Klasseneinteilungen (Δx):
Sheppardsche Korrektur:
σ
2
corr
(Δ x)
σ 
12
2
2
σ² ... die aus den klassifizierten Daten
näherungsweise bestimmte Varianz
8
Varianz
• Dimension: Quadrat der Dimension der
einzelnen Beobachtungen
• Eigenschaft: Varianz immer  0
• Ist Varianz = 0, liegt keine Streuung vor,
alle Beobachtungswerte sind gleich und
somit auch gleich dem arithmetischen
Mittel.
9
Standardabweichung
• Quadratwurzel der Varianz
σ  σ2 
1 n
2
(a

a
)

i
n i 1
10
Varianz & Standardabweichung
Eigenschaften:
• Lineare Transformation der Einzelwerte ai:
ai*=α+βai (i=1,...,n)
• Dann: Varianz: σ *2  β 2 σ 2
*
Standardabweichung: σ | β | σ
• Sonderfall: β=1 (Transformation ai*=α+ai)
σ*² = σ² und σ* = σ
11
Varianz & Standardabweichung
• Eigenschaften:
• Varianz einer Grundgesamtheit, die aus 2
Teilgesamtheiten (n1, n2) besteht:
2
2
2
2
n
σ

n
σ
n
(
a

a
)

n
(
a

a
)
2 2
2
2
σ2  1 1
 1 1
n1  n 2
n1  n 2
mit
n 1a 1  n 2 a 2
a
n1  n 2
12
Varianz & Standardabweichung
• Standardisierung:
– Spezielle lineare Transformation
– Bildet aus Einzelwerten ai standardisierte
Werte zi, indem von jedem ai das arithm. Mittel
μ abgezogen wird und durch die
Standardabweichung dividiert wird.
ai  μ
zi 
σ
• Arithm. Mittel der zi immer 0,
• Varianz der zi immer 1.
13
Variationskoeffizient
• Streuung zweier oder mehrerer Verteilungen
mit sich stark voneinander
unterscheidenden Mittelwerten vergleichen
• Relatives Streuungsmaß (für verhältnisskalierte Merkmale mit ausschließlich
positiven Merkmalswerten), bezieht die
Standardabweichung σ (absolutes
Streuungsmaß) auf das arithm. Mittel μ.
σ
VC 
μ
14
MAD Mittlere absolute Abw.
• Arithmetisches Mittel der absoluten
Abweichungen der einzelnen
Merkmalswerte vom Mittelwert (z.B.
arithm. Mittel oder Median)
1 n
MAD   | a i  Me |
n i 1
• Minimumeigenschaft des Medians:
1 n
1 n
| ai  Me |   | ai  M |

n i 1
n i 1
M beliebiger Wert
15
MAD
• Häufigkeitsverteilung der Daten
• MAD bezogen auf Mittelwert μ
1 n
MAD   | x i  μ | h i
n i 1
n
MAD   | x i  μ | f i
i 1
• MAD aus Häufigkeitsverteilung von
klassifizierte Daten: Merkmalswerte xi
durch Klassenmitten xi´ ersetzen.
16
Spannweite (Range)
• Abstand zw. dem größten und dem kleinsten Wert.
• Einzelwerte der Größe nach ordnen: a[1],…,a[n]
R = a[n] - a[1]
• Häufigkeitsverteilung von k
Merkmalsausprägungen:
R = xk - x 1
• Häufigkeitsverteilung von klassifizierten Daten:
R = xko - x1u
• Spannweite ist instabil gegenüber Ausreißern
17
Quartilsabstand
• Quartile Q1, Q2 (=Median), Q3 teilen die
Gesamtheit in 4 gleich große Teile.
• α-Quantil:
a(k) falls n·α keine ganze Zahl (k die auf n·α
folgende ganze Zahl)
ãα= 1/2 (a(k)+a(k+1))
falls n·α ganze Zahl k=n·α
• Quartilsabstand (Interquartile Range) definiert als
Spannweite der 50% mittleren Werte:
QA = Q3 – Q1
• Eigenschaft: stabil gegenüber Ausreißern
18
Schiefe
• Gibt Richtung (rechts- oder linksschief) und
Größenordnung der Schiefe einer eingipfligen
Häufigkeitsverteilung an.
1 n

  (ai  a ) 3 
n

g1   i 1
3
1 n

  (ai  a ) 2 
 n i 1

< 0 linksschiefe
g1 = 0 symmetrisch
> 0 rechtsschiefe
• Kein direkter Streuungsparameter
19
Schiefe
• Schiefe einer Häufigkeitsverteilung aus
gruppierten Daten (k Klassen): Verwendung
der Klassenmittel od. der Klassenmitten
1 k

  ( a i  a) 3 h i 
n

g1   i 1
3
k
1

  ( a i  a) 2 h i 
 n i 1

1 k

  (m i  a) 3 h i 
n

g1   i 1
3
k
1

  (m i  a) 2 h i 
 n i 1

• Berechnung mit Klassenmittel und
Klassenmitte kann zu unterschiedlichen
Ergebnissen führen.
20
Wölbung
• Wölbung od. Kurtosis od. Exzeß: Maßzahl
für eingipflige Häufigkeitsvt.
• Gibt an, ob (bei gleicher Varianz) das
absolute Maximum der Häufigkeitsvt.
größer als bei der Dichte der Normalvt. ist.
g2 
1 n
(a i  a) 4

n i 1
1

  (a i  a) 2 
 n i 1

n
2
3
21
Wölbung
< 0 abs. Max. kleiner als bei N-Vt.
g2 = 0 Normalverteilung
> 0 abs. Max. größer als bei N-Vt.
• Wölbung einer Häufigkeitsverteilung aus
gruppierten Daten (k Klassen): Verwendung
der Klassenmittel od. der Klassenmitten
k
g2 
1
(a i  a) 4 h i

n i 1
1 n

  ( a i  a) 2 h i 
 n i 1

2
3
g2 
1 k
4
(m

a
)
hi

i
n i 1
1

  (m i  a) 2 h i 
 n i 1

n
2
3
22
Konzentrationsmaße
• Metrisch skaliertes Merkmal X mit nur
positiven Ausprägungen
• Frage: Wie teilt sich die Summe der
Merkmalswerte x1,…,xn in der
Beobachtungsreihe auf die Untersuchungseinheiten auf?
• Bsp: n landwirtschaftliche Betriebe, Größe
der Nutzflächen: x1,...,xn. Wie teilt sich die
gesamte Nutzfläche auf die einzelnen
Betriebe auf?
23
Konzentrationsmaße
• n Merkmalswerte werden durch q
Merkmalsausprägungen a1<...<aq mit
absoluten- und relativen Häufigkeiten hi
bzw. fi bestimmt.
• Gesamtbetrag der Merkmalswerte in der
Beobachtungsreihe:
n
n
 x  a h
j1
j
i 1
i
i
24
Konzentrationsmaße
• Lorenzkurve: Grafische Darstellung der
Konzentration der Merkmalswerte
• Koordinatenkreuz:
– Abszisse: es werden die nach der Größe der Merkmalsausprägung geordneten relativen Häufigkeiten
i h
i
aufsummiert
j
ki    f j
für i  1,..., q
j1 n
j1
– Ordinate: Ausprägungen werden der Größe nach
aufsummiert und auf Summe aller Ausprägungen
q
i
bezogen
li   a jh j  a jh j
für i  1,..., q
j1
j1
25
Konzentrationsmaße
• Bsp: landwirtschaftliche Betriebe
– Abszisse: Es wird der Prozentsatz der Betriebe
mit der kleinsten Fläche bestimmt, dann wird
der Prozentsatz der Betriebe mit der zweitkleinsten Fläche bestimmt und zum Prozentsatz
der Betriebe mit der kleinsten Fläche addiert,
usw.
– Ordinate: Flächenanteile der Betriebe bzgl. der
Gesamtfläche werden der Flächengröße nach
aufsummiert.
26
Konzentrationsmaße
• Verbinden der Punkte (ki,li) ergibt die
Lorenzkurve, wobei immer k0=l0=0 und
kq=lq=1 gilt.
1
li
0
ki
1
27
Konzentrationsmaße
• Interpretation: ein Punkt (ki,li) der Lorenzkurve gibt an, dass auf ki · 100% der
Untersuchungseinheiten li · 100% des
Gesamtbetrages aller Merkmalsausprägungen entfallen.
• Bsp: auf ki · 100% der landwirtschaftlichen
Betriebe entfallen li · 100% der gesamten
Nutzfläche
28
Konzentrationsmaße
Extremfälle:
• Keine Konzentration, alle Untersuchungseinheiten haben den gleichen Anteil am
Gesamtbetrag. Lorenzkurve ist Diagonale.
• Gesamtbetrag konzentriert sich (fast)
vollständig auf eine Untersuchungseinheit.
Lorenzkurve liegt (fast) auf Abszisse, ist
also (fast) senkrecht.
29
Konzentrationsmaße
• Gini-Koeffizient od. Lorenzsche
Konzentrationsmaß (LKM): Maßzahl für
die Konzentration.
• Definiert als das 2-fache der Fläche F zw.
Diagonale und Lorenzkurve.
LKM = 2F.
• Es gilt immer: 0  LKM  (n-1)/n
• Standardisierter Gini-Koeffizient:
LKMnor = n/(n-1) LKM
30
Verhältniszahlen
• Quotient zweier Maßzahlen: Verhältniszahl
• Gliederungszahlen
– Man bezieht eine Teilgröße auf eine ihr
übergeordnete Gesamtgröße
• Beziehungszahlen
– Quotient zweier sachlich sinnvoll in
Verbindung stehender Maßzahlen
• Index-Zahlen
– Quotient zweier Maßzahlen gleicher Art
31
Gliederungszahlen
• Gliederungszahlen
• Bsp: Tagesproduktion 1500 Teile, davon
300 fehlerhaft.
Dann sind 20% der Tagesproduktion
Ausschuss (300/1500·100).
Ausschussanteil ist eine Gliederungszahl
32
Beziehungszahlen
• Beziehungszahlen:
• Verursachungszahlen:
Bezieht Bewegungsmassen auf die
zugehörigen Bestandsmassen.
• Entsprechungszahlen:
Alle Beziehungszahlen, bei denen man
Ereignisse nicht auf ihren Bestand beziehen
kann.
33
Beziehungszahlen
• Bsp Verursachungszahlen: Geburtenziffer
Bestandsmasse: Einwohner einer Stadt (E)
Bewegungsmasse: Zahl der Lebendgeborenen (L)
G = (L/E)*1000
Sagt, wie viele Geburten auf 1000
Einwohner einer Stadt entfallen.
34
Beziehungszahlen
• Bsp Entsprechungszahlen:
Schüler-Lehrer-Verhältnis
(Zahl der Schüler) / (Zahl der Lehrer)
Sagt, wie viele Schüler (ungefähr) auf eine
Lehrer entfallen. Dies entspricht aber i.A.
nicht der durchschnittlichen Klassengröße.
35
Indexzahlen
• Indexzahlen: Es werden zwei Maßzahlen
der gleichen Art in Beziehung gesetzt.
• Messzahlen oder Einfache Indizes
– Die zugehörigen Maßzahlen beschreiben eine
realen Sachverhalt.
• (Zusammengesetzte) Indexzahlen
– Eine der Maßzahlen ist eine Zahl, die einen
fiktiven Zustand beschreibt.
36
Indexzahlen
• Einfache Indizes:
• Reihe von Maßzahlen, die man in
Beziehung zueinander setzen will.
x0,...,xt Maßzahlen zu Zeitpunkten t, x0
Maßzahl zum Basiszeitpunkt 0.
Dann ist
I0t = xt / x0
für t = 0, 1, 2, ...
eine Zeitreihe einfacher Indizes
37
Indexzahlen
• Messzahlen werden oftmals mit 100 multipliziert.
• Bsp: Umsatz im Jahr 5, bezogen auf Jahr 0:
I05·100 = x5/x0 · 100 = 87
D.h. dass 87% des Umsatzes im Basisjahr im Jahr
5 umgesetzt werden.
Oder: Es liegt eine Minderung des Umsatzes um
13% vor.
• Vergleich von I05·100=87 mit I06·100=90:
Der Umsatz ist um 3 Prozentpunkte gestiegen.
38
Indexzahlen
• Umbasieren:
Gegeben: Indizes I0t zur Basisperiode 0
Gesucht: Indizes Ikt zur Basisperiode k
Berechung ohne Ursprungsdaten:
xt
x t x 0 I 0t
I kt 


x k x k x 0 I 0k
• Verkettung: Wenn für xt I0t berechnet
werden soll, und x0 nicht bekannt ist.
I0t = I0k · Ikt
39
Indexzahlen
• Zusammengesetzte Indexzahlen (Indizes):
• Betrachte Warenkorb:
n Waren zu einem Zeitpunkt t
Mengen qt1,...,qtn
Preise pt1,...,ptn
Wert des Warenkorbes in Periode t:
n
p
i 1
ti
q ti
40
Indexzahlen
• Wertindex:
Vergleich Wert eines Warenkorbes zur
Berichtsperiode t mit dem zur Basisperiode 0
n
W0t 
p
i 1
n
p
i 1
ti
q ti
0i
q 0i
41
Indexzahlen
• Preisindizes:
• Aussagen über die Preisentwicklung
• Für verschiedene Perioden das gleiche
Mengenschema verwenden
42
Indexzahlen
• Preisindex nach Paasche
n
P0,Pt 
p
ti
q ti
p
0i
q ti
i 1
n
i 1
• Man vergleicht den Wert eines Warenkorbes
qt1,...,qtn zur jeweiligen Berichtsperiode t mit
dem Wert, den dieser unter der
Preissituation zur Basisperiode gehabt hätte.
43
Indexzahlen
• Preisindex nach Laspeyres
n
P0,Lt 
p
ti
q 0i
p
0i
q 0i
i 1
n
i 1
• Der Warenkorb q01,...,q0n der Basisperiode 0
wird für alle Berichtsperioden
zugrundegelegt und ihr fiktiver Wert zur
Berichtsperiode t wird mit seinem Wert zur
Basisperiode verglichen.
44
Indexzahlen
• Vergleich Preisindizes nach Paasche und
Laspeyres:
• L: Warenkorb muss nur für Basisperiode
bestimmt werden, Kosten (+) Aktualität (-)
• P: Warenkorb muss für Berichtsperioden
bestimmt werden, Kosten (-) Aktualität (+)
• Vergleich. Sind Abweichungen groß, muss
der Warenkorb neu festgelegt werden.
• Fishersche Idealindex: I F  I P  I L
45
Indexzahlen
• Mengenindizes:
• Aussagen über Mengenentwicklung
(unabhängig von der Preisentwicklung)
46
Indexzahlen
• Mengenindex nach Paasche
n
Q 0,P t 
p
ti
p
ti
i 1
n
i 1
q ti
q 0i
• Standardisierung nach den Preisen zur
Berichtsperiode
47
Indexzahlen
• Mengenindex nach Laspeyres
n
Q 0,L t 
p
0i
q ti
p
0i
q 0i
i 1
n
i 1
• Standardisierung nach den Preisen zur
Basisperiode
48
Herunterladen