Der Mittelwert (arithmetisches Mittel)

Werbung
Der Mittelwert (arithmetisches Mittel)
x̄ =
n
1X
xi
n
i=1
bekanntestes Lagemaß
instabil gegen extreme Werte
geeignet für intervallskalierte Daten
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
126 / 355
Mittelwert bei gruppierten Daten
x̄
=
n
1X
xi
n
i=1
=
=
1
(x1 + x2 + . . . + xn )
n
k
1X
hj aj
n
j=1
hj : Häufigkeit von aj
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
127 / 355
Das geometrische Mittel
v
u n
uY
x̄G = nt xi
i=1
arithmetisches Mittel auf der log-Skala
xg = exp
!
n
1X
log (xi )
n
i=1
nur geeignet für positive Werte
geeignet für intervallskalierte Daten
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
128 / 355
Das harmonische Mittel
x̄H :=
1
n
1
Pn
1
i=1 xi
Das harmonische Mittel entspricht dem Mittel durch Transformation
1
t→
t
Deskriptive Statistik WiSe 2015/2016
x̄H =
n
1X 1
n
xi
!−1
i=1
Helmut Küchenhoff (Institut für Statistik, LMU)
129 / 355
Das harmonische Mittel
x̄H :=
1
n
1
Pn
1
i=1 xi
Das harmonische Mittel entspricht dem Mittel durch Transformation
1
t→
t
x̄H =
n
1X 1
n
xi
!−1
i=1
Beispiel:
x1 , . . . , xn Geschwindigkeiten, mit denen konstante Wegstrecken L
zurückgelegt werden
Gesamt-Geschwindigkeit:
L·n
= x̄H
L
+
. . . + xln
x1
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
129 / 355
Allgemeine Transformation des Mittelwerts I
Lineare Transformation:
g (t)
= a + bt
yi
= a + bxi
⇒ ȳ = a + bx̄
d.h.
a + bx
=
a + bx̄
g (x)
=
g (x̄)
Allgemeine Transformation:
Generell ist g (x) 6= g (x̄)
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
130 / 355
Allgemeine Transformation des Mittelwerts II
Für konvexe Funktionen g gilt:
g
1
n
g (x̄) ≤
!
n
X
xi
i=1
g konvex: ⇔
≤
g (x)
n
1X
n
g (xi )
(Jensen-Ungleichung)
i=1
g (λx + (1 − λ)y ) ≤ λg (x) + (1 − λ)g (y )
∀λ ∈ [0, 1], x, y ∈ Dg
Beispiel:
x̄ 2 ≤ x 2
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
131 / 355
Vergleich I
Es gilt allgemein für positive xi
x̄H ≤ x̄G ≤ x̄
Beweis:
a) Die Funktion g : t → log (t) ist konkav,
da g 00 (t) = − t12 < 0
⇒ log (x̄) ≥ log (x)
⇒ x̄ ≥ exp log (x) = exp
=
Qn
i=1
exp (log (xi ))
Deskriptive Statistik WiSe 2015/2016
n1
1
n
Pn
i=1
log (xi )
= x̄G
Helmut Küchenhoff (Institut für Statistik, LMU)
132 / 355
Vergleich II
b)
Die Funktion g2 : t →
1
da g200 (t) = exp(t)
≥0
1
exp(t)
ist konvex,
Daten log (x1 ), . . . , log (xn )
g2
⇒
1
n
n
P
≤
log (xi )
i=1
s1
n
Q
n
≤
1
n
xi
n
P
i=1
1
n
n
P
exp(log (xi ))−1
i=1
1
xi
i=1
v
u n
uY
n
⇒t
xi ≥
1
n
i=1
| {z }
xG
1
n
P
i=1
1
xi
| {z }
xH
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
133 / 355
Getrimmtes Mittel
Um die Ausreißerempfindlichkeit von x̄ abzuschwächen definiert man
x̄α =
n−r
X
1
x(i)
n − 2r
i=r +1
x(i) : geordnete x-Werte
r ist die größte ganze Zahl mit r ≤ nα
Es wird also der Anteil α der extremsten Werte abgeschnitten.
α-getrimmtes Mittel“
”
Winsorisiertes Mittel (gestutztes Mittel)
Der Anteil α der extremsten Werte wird durch das entsprechende Quantil
ersetzt.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
134 / 355
Maße für die Streuung
Spannweite
Interquartilsabstand
Standardabweichung und Varianz
Variationskoeffizient
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
135 / 355
Die Spannweite (Range)
Definition:
q = xmax − xmin
Bereich in dem die Daten liegen“
”
Wichtig für Datenkontrolle
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
136 / 355
Der Quartilsabstand
Definition:
dQ = x0.75 − x0.25
Größe des Bereichs in dem die mittlere Hälfte der Daten liegt“
”
Bei ordinal skalierten Daten Angabe von x0.75 und x0.25
Zentraler 50%-Bereich
Robust gegen Ausreißer
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
137 / 355
Standardabweichung und Varianz
Definition
n
S2
:=
S
=
1 X
(xi − x̄)2
Varianz
n−1
i=1
√
S2
Standardabweichung
Pn
Verwende Se2 := n1 i=1 (xi − x̄)2 für Vollerhebung
Division durch n − 1 eigentlich nur bei Stichproben sinnvoll
Mittlere Abweichung vom Mittelwert“
”
Intervallskala Voraussetzung
Empfindlich gegen Ausreißer
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
138 / 355
Transformationsregel
yi = a + bxi
⇒ Sey2
Sey
= b 2 Sex2
= |b|Sex (Analog für Sx , Sy )
Varianz und Standardabweichung sind stabil
mit linearen Transformationen verträglich.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
139 / 355
Verschiebungssatz
Für jedes c ∈ R gilt:
n
n
X
X
(xi − c)2 =
(xi − x̄)2 + n(x̄ − c)2
i=1
i=1
c = 0 ⇒ Se2
=
n
1X 2
xi − x̄ 2
n
=
x2
i=1
Se2
− x̄ 2
Beachte:
Verschiebungssatz für numerische Berechnung mit Computer nicht
geeignet.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
140 / 355
Streuungszerlegung I
Seien die Daten in r Schichten aufgeteilt:
x1 , . . . , xn1 , xn1 +1 , . . . , xn1 +n2 , . . . , xnr
Schichtmittelwerte:
x̄1 =
n1
n1 +n2
1 X
1 X
xi , x̄2 =
xi , usw.
n1
n2
i=1
i=n1 +1
Schichtvarianzen:
n1
n1 +n2
1 X
1 X
Se12 =
(xi − x̄1 )2 , Se22 =
(xi − x̄2 )2 , usw.
n1
n2
i=1
Deskriptive Statistik WiSe 2015/2016
i=n1 +1
Helmut Küchenhoff (Institut für Statistik, LMU)
141 / 355
Streuungszerlegung II
Dann gilt:
x̄
=
r
1X
nj x̄j
n
=
r
r
1 X e2 1 X
nj Sj +
nj (x̄j − x̄)2
n
n
j=1
Se2
j=1
Gesamtstreuung
=
Deskriptive Statistik WiSe 2015/2016
Streuung
innerhalb
der Schicht
j=1
+
Streuung
zwischen
den Schichten
Helmut Küchenhoff (Institut für Statistik, LMU)
142 / 355
Variationskoeffizient
Das Verhältnis von Standardabweichung und Mittelwert
ist gegeben durch
v=
Se
mit x̄ > 0
x̄
Der Variationskoeffizient hat keine Einheit und ist skalenunabhängig.
Er ist eine Maßzahl für die relative Schwankung um den Mittelwert.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
143 / 355
Mittlere absolute Abweichung (MAD)
Die mittlere absolute Abweichung ist definiert als
n
MAD =
1X
|xi − x̄|
n
i=1
MedAD := median(|xi − xmed |)
Wegen der Jensen-Ungleichung gilt: MAD ≤ Se
MAD/ MedAD :
nicht so schöne“ theoretische Eigenschaften
”
klarer interpretierbar als Se
weniger Ausreißer-empfindlich
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
144 / 355
Uni- und multimodale Verteilungen
unimodal = eingipflig, multimodal = mehrgipflig
Das Histogramm der Zinssätze zeigt eine bimodale Verteilung.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
145 / 355
Symmetrie und Schiefe I
symmetrisch
⇔
Rechte und linke Häfte der Verteilung sind
annähernd zueinander spiegelbildlich
linkssteil
(rechtsschief)
⇔
Verteilung fällt nach links deutlich steiler und
nach rechts langsamer ab
rechtssteil
(linksschief)
⇔
Verteilung fällt nach rechts deutlich steiler und
nach links langsamer ab
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
146 / 355
Symmetrie und Schiefe II
Eine linkssteile (a), symmetrische (b) und rechtssteile Verteilung (c)
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
147 / 355
Lageregeln
Symmetrische und unimodale Verteilung:
x̄ ≈ xmed ≈ xmod
Linkssteile Verteilung:
x̄ > xmed > xmod
Rechtssteile Verteilung:
x̄ < xmed < xmod
Bei gruppierten Daten: Auch für Histogramme gültig
Beachte:
Form der Verteilung bleibt bei linearen Transformationen gleich.
Änderung bei nichtlinearen Transformationen.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
148 / 355
Maßzahlen für die Schiefe I
Quantilskoeffizient:
gp =
(x1−p − xmed ) − (xmed − xp )
x1−p − xp
p = 0.25 Quartilskoeffizient
Werte des Quantilskoeffizienten:
gp = 0
gp > 0
gp < 0
für symmetrische Verteilungen
für linkssteile Verteilungen
für rechtssteile Verteilungen
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
149 / 355
Maßzahlen für die Schiefe II
Momentenkoeffizient der Schiefe
n
gm =
m3
1X
mit
m
=
(xi − x̄)3
3
se3
n
i=1
Werte des Momentenkoeffizienten
gm = 0
gm > 0
gm < 0
für symmetrische Verteilungen
für linkssteile Verteilungen
für rechtssteile Verteilungen
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
150 / 355
Dichtefunktion I
Histogramm:
Anteil = Fläche unter der Kurve
Histogramm ist stückweise konstante Funktion
Probleme: Abhängigkeit von der Wahl der Klassengrenzen
Ersetze Histogramm durch glatte Funktion f
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
151 / 355
Dichtefunktion II
Dichte
Eine positive stetige Funktion heißt Dichte(-funktion), wenn
f (x) ≥ 0 und
Z∞
f (x)dx = 1
−∞
Die Flächen unter der Dichte sollen den approximativen
Häufigkeiten entsprechen, d.h.
Zb
f (x)dx ≈
1
#{xi |a < xi ≤ b}
n
a
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
152 / 355
Dichte und Verteilung
F (x0 ) =
1
#{xi |xi ≤ x0 } ≈
n
Zx0
f (x)dx
−∞
Zx0
F̂ (x0 ) =
fˆ(x)dx
−∞
Quantile
0<p<1
xp ist der Wert auf der x-Achse, für den gilt:
Zxp
f (x)dx = p
−∞
Der Median teilt die Fläche in 2 gleich große Teile.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
153 / 355
Beispiele Histogramm und Dichte
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
154 / 355
Beispiele Histogramm und Dichte
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
154 / 355
Beispiele Histogramm und Dichte
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
154 / 355
Berechnung von Dichte-Kurven
fˆ(x) =
1
n #{xi |xi
∈ [x − h, x + h)}
2h
⇒ Gleitendes Histogramm“
”
n
1X1
K
f (x) =
n
h
i=1
x − xi
h
1
2
für − 1 ≤ u < 1
0 sonst
K : Kernfunktion
mit K (u) =
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
155 / 355
Kern-Dichteschätzer
K (u) sei Kernfunktion, d.h.
R∞
K (u) ≥ 0 und
K (u)du = 1
−∞
n
1 X
x − xi
fˆ(x) =
K
nh
h
i=1
heißt Kern-Dichteschätzer
Kerne:
Epanechnikov-Kern
K (u) = 34 (1 − u 2 )
Bisquare-Kern
K (u) =
15
16 (1
Gauß-Kern
K (u) =
√1 exp
2π
Deskriptive Statistik WiSe 2015/2016
− u 2 )2
− 21 u 2
für −1 ≤ u < 1,
0 sonst.
für −1 ≤ u < 1,
0 sonst.
für u ∈ R
Helmut Küchenhoff (Institut für Statistik, LMU)
156 / 355
Bemerkungen zur Dichteschätzung
Abhängigkeit von der Bandweite h → Verfahren zur
Bestimmung von h aus den Daten
Abhängigkeit von der Wahl des Kerns eher unbedeutend
Kerndichteschätzungen sind insbesondere bei größeren
Datenmengen Histogrammen vorzuziehen
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
157 / 355
Herunterladen