Stochastik - Vorlesung 11

Werbung
Stochastik
Vorlesung 11
Rainer Schüssler
Frühjahr 2017
Merkenswertes
aus Vorlesung 10
• Histogramm fˆn (x ), emp. VF F̂n (x ), F̂n0 (x ) = fˆn (x )
• Lagemaße (x̄ , x̄α , x̄g , x̄h , xα ).
Stochastik 2017, Vorlesung 11:
2 / 15
Und sonst noch?
0.3
0.2
Density
0.0
0.1
0.2
0.1
0.0
Density
0.3
0.4
Histogramm
0.4
Histogramm
16
18
20
x1
x̄ = 20.0
?
22
24
16
18
20
22
24
x2
x̄ = 20.0
?
Stochastik 2017, Vorlesung 11:
3 / 15
Streuungsmaße
Ziel: Aussage über die Streuung der Daten um das Zentrum
(Lokalisationsmaß).
Stochastik 2017, Vorlesung 11:
4 / 15
Streuungsmaße
Ziel: Aussage über die Streuung der Daten um das Zentrum
(Lokalisationsmaß).
(i) empirische Varianz
s̃ 2 =
n
1 X
(xi − x̄ )2
n i=1
.
Stochastik 2017, Vorlesung 11:
4 / 15
Streuungsmaße
Ziel: Aussage über die Streuung der Daten um das Zentrum
(Lokalisationsmaß).
(i) empirische Varianz
s̃ 2 =
=
n
1 X
(xi − x̄ )2
n i=1
k
k
X
1X
ni (ai − x̄ )2 =
h(ai )(ai − x̄ )2 .
n i=1
i=1
Stochastik 2017, Vorlesung 11:
4 / 15
Empirische Varianz
Verschiedenes
• s̃ 2 gibt den mittleren quadratischen Abstand der
Beobachtungen vom Mittelwert an.
Stochastik 2017, Vorlesung 11:
5 / 15
Empirische Varianz
Verschiedenes
• s̃ 2 gibt den mittleren quadratischen Abstand der
Beobachtungen vom Mittelwert an.
• ns̃ 2 =
n
X
i=1
(xi − x̄ )2
≤
n
X
(xi − a)2
i=1
Stochastik 2017, Vorlesung 11:
5 / 15
Empirische Varianz
Verschiedenes
• s̃ 2 gibt den mittleren quadratischen Abstand der
Beobachtungen vom Mittelwert an.
• ns̃ 2 =
n
X
(xi − x̄ )2
i=1
≤
n
X
(xi − a)2
i=1
• „Verschiebungssatz“:
s̃ 2 =
n
1X
x2
n i=1 i
−
x̄ 2
= x 2 − x̄ 2 ,
Stochastik 2017, Vorlesung 11:
5 / 15
Empirische Varianz
Verschiedenes
• s̃ 2 gibt den mittleren quadratischen Abstand der
Beobachtungen vom Mittelwert an.
• ns̃ 2 =
n
X
(xi − x̄ )2
≤
i=1
n
X
(xi − a)2
i=1
• „Verschiebungssatz“:
s̃ 2 =
X
(xi − x̄ )2 =
n
1X
x2
n i=1 i
X
x̄ 2
−
xi2 − 2 x̄
X
= x 2 − x̄ 2 ,
xi +n x̄ 2 =
X
xi2 − n x̄ 2
| {z }
=n x̄
Stochastik 2017, Vorlesung 11:
5 / 15
Empirische Varianz
Verschiedenes
• s̃ 2 gibt den mittleren quadratischen Abstand der
Beobachtungen vom Mittelwert an.
• ns̃ 2 =
n
X
(xi − x̄ )2
≤
i=1
n
X
(xi − a)2
i=1
• „Verschiebungssatz“:
s̃ 2 =
X
(xi − x̄ )2 =
n
1X
x2
n i=1 i
X
x̄ 2
−
xi2 − 2 x̄
X
= x 2 − x̄ 2 ,
xi +n x̄ 2 =
X
xi2 − n x̄ 2
| {z }
=n x̄
• s̃ =
√
s̃ 2 — (i)0 emp. Standardabweichung
Stochastik 2017, Vorlesung 11:
5 / 15
Empirische Varianz
Bemerkung zur Normierung
Häufig auch
1
n−1
. . . statt
1
n
. . . — denn
.
Stochastik 2017, Vorlesung 11:
6 / 15
Empirische Varianz
Bemerkung zur Normierung
Häufig auch
1
n−1
. . . statt
1
n
. . . — denn
a) in induktiver Statistik (meist) nur
1
n−1
. . .,
.
Stochastik 2017, Vorlesung 11:
6 / 15
Empirische Varianz
Bemerkung zur Normierung
Häufig auch
1
n−1
. . . statt
1
n
. . . — denn
a) in induktiver Statistik (meist) nur
b)
1
n−1
1
n−1
. . .,
. . . „besser“ als n1 .
.
Stochastik 2017, Vorlesung 11:
6 / 15
Empirische Varianz
Bemerkung zur Normierung
Häufig auch
1
n−1
. . . statt
1
n
. . . — denn
a) in induktiver Statistik (meist) nur
b)
1
n−1
1
n−1
. . .,
. . . „besser“ als n1 .
Stichprobenvarianz
n
1 X
n 2
s =
(xi − x̄ )2 =
s̃ > s̃ 2 .
n − 1 i=1
n−1
2
.
Stochastik 2017, Vorlesung 11:
6 / 15
Empirische Varianz
Bemerkung zur Normierung
Häufig auch
1
n−1
. . . statt
1
n
. . . — denn
a) in induktiver Statistik (meist) nur
b)
1
n−1
1
n−1
. . .,
. . . „besser“ als n1 .
Stichprobenvarianz
n
1 X
n 2
s =
(xi − x̄ )2 =
s̃ > s̃ 2 .
n − 1 i=1
n−1
2
var(x) für s 2 und sd(x) für s; für s̃ 2 mean((x-mean(x))ˆ2).
Stochastik 2017, Vorlesung 11:
6 / 15
Empirische Varianz
Eigenschaften von s̃ 2 (analog für s 2 )
1
Ist yi = axi + b für i = 1, . . . , n, so ist
s̃y2 = a2 s̃x2 ,
s̃y = |a|s̃x ,
denn wegen ȳ = ax̄ + b ist
s̃y2 =
k
k
1X
1X
(yi − ȳ )2 =
(axi − ax̄ )2 = a2 s̃x2 .
n i=1
n i=1
Stochastik 2017, Vorlesung 11:
7 / 15
Empirische Varianz
Eigenschaften von s̃ 2 (analog für s 2 )
1
Ist yi = axi + b für i = 1, . . . , n, so ist
s̃y2 = a2 s̃x2 ,
s̃y = |a|s̃x ,
denn wegen ȳ = ax̄ + b ist
s̃y2 =
2
k
k
1X
1X
(yi − ȳ )2 =
(axi − ax̄ )2 = a2 s̃x2 .
n i=1
n i=1
Die empirische Varianz reagiert äußerst empfindlich auf
Ausreißer.
Stochastik 2017, Vorlesung 11:
7 / 15
Empirische Varianz
Eigenschaften von s̃ 2 (analog für s 2 )
1
Ist yi = axi + b für i = 1, . . . , n, so ist
s̃y2 = a2 s̃x2 ,
s̃y = |a|s̃x ,
denn wegen ȳ = ax̄ + b ist
s̃y2 =
k
k
1X
1X
(yi − ȳ )2 =
(axi − ax̄ )2 = a2 s̃x2 .
n i=1
n i=1
2
Die empirische Varianz reagiert äußerst empfindlich auf
Ausreißer.
3
Beachte: Die empirische Varianz ist nur sinnvoll bei
eingipfligen symmetrischen Daten.
Stochastik 2017, Vorlesung 11:
7 / 15
Varianz für zusammengeführte Stichproben
(Schichtenbildung)
• Gegeben seien i = 1, 2, . . . , r Teilstichproben mit jeweils ni
Beobachtungen xij .
Stochastik 2017, Vorlesung 11:
8 / 15
Varianz für zusammengeführte Stichproben
(Schichtenbildung)
• Gegeben seien i = 1, 2, . . . , r Teilstichproben mit jeweils ni
Beobachtungen xij .
• Je Teilstichprobe ergibt sich: s̃i2 =
ni
2
1 X
xij − x̄i .
ni
j=1
Stochastik 2017, Vorlesung 11:
8 / 15
Varianz für zusammengeführte Stichproben
(Schichtenbildung)
• Gegeben seien i = 1, 2, . . . , r Teilstichproben mit jeweils ni
Beobachtungen xij .
• Je Teilstichprobe ergibt sich: s̃i2 =
ni
2
1 X
xij − x̄i .
ni
j=1
• Die sogenannte gepoolte Varianz ist dann
s̃ 2 =
1
n
r
X
ni s̃i2 +
1
n
i=1
|
{z
r
X
ni x̄i − x̄
2
i=1
}
interne Varianz
|
x̄ =
1
r
X
n
ni x̄i
i=1
{z
externe Varianz
}
Stochastik 2017, Vorlesung 11:
8 / 15
Varianz für zusammengeführte Stichproben
(Schichtenbildung)
• Gegeben seien i = 1, 2, . . . , r Teilstichproben mit jeweils ni
Beobachtungen xij .
• Je Teilstichprobe ergibt sich: s̃i2 =
ni
2
1 X
xij − x̄i .
ni
j=1
• Die sogenannte gepoolte Varianz ist dann
1
n
s̃ 2 =
r
X
ni s̃i2 +
1
n
i=1
}
interne Varianz
2
s̃ =
1
ni
r
X
X
n
i=1
ni x̄i − x̄
2
x̄ =
i=1
{z
|
r
X
j=1
externe Varianz
2
(xij − x̄i ) +
1
r
X
n
ni x̄i
i=1
{z
|
1
ni
r
X
X
}
(x̄i − x̄ )
n
i=1
2
j=1
Stochastik 2017, Vorlesung 11:
8 / 15
Varianz für zusammengeführte Stichproben
(Schichtenbildung)
• Gegeben seien i = 1, 2, . . . , r Teilstichproben mit jeweils ni
Beobachtungen xij .
• Je Teilstichprobe ergibt sich: s̃i2 =
ni
2
1 X
xij − x̄i .
ni
j=1
• Die sogenannte gepoolte Varianz ist dann
1
n
s̃ 2 =
r
X
ni s̃i2 +
1
n
i=1
}
interne Varianz
2
s̃ =
1
ni
r
X
X
n
i=1
=
ni x̄i − x̄
2
x̄ =
i=1
{z
|
r
X
externe Varianz
2
(xij − x̄i ) +
j=1
1
ni
r
X
X
2
j=1
2
(xij − x̄i + x̄i − x̄ ) − 2(xij − x̄i )(x̄i − x̄ )
n
i=1
n
ni x̄i
}
(x̄i − x̄ )
n
i=1
ni
r
X
X
1
r
X
i=1
{z
|
1
j=1
Stochastik 2017, Vorlesung 11:
8 / 15
Varianz für zusammengeführte Stichproben
(Schichtenbildung)
• Gegeben seien i = 1, 2, . . . , r Teilstichproben mit jeweils ni
Beobachtungen xij .
• Je Teilstichprobe ergibt sich: s̃i2 =
ni
2
1 X
xij − x̄i .
ni
j=1
• Die sogenannte gepoolte Varianz ist dann
1
n
s̃ 2 =
r
X
ni s̃i2 +
1
n
i=1
}
interne Varianz
2
s̃ =
1
ni
r
X
X
n
i=1
=
ni x̄i − x̄
2
x̄ =
r
X
n
externe Varianz
(xij − x̄i ) +
j=1
1
ni
r
X
X
}
(x̄i − x̄ )
n
i=1
2
j=1
2
(xij − x̄i + x̄i − x̄ ) − 2(xij − x̄i )(x̄i − x̄ )
n
j=1
ni x̄i
i=1
{z
|
2
ni
r
X
X
1
i=1
1
i=1
{z
|
r
X
=
1
ni
r
X
X
(xij − x̄ )
n
i=1
j=1
Stochastik 2017, Vorlesung 11:
8 / 15
2
+ 0.
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Beispiel: Noten 2.7, 3.0, 3.0, 3.0, 3.3, 3.3, 3.3, 3.7, 4.0, 6.0
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Beispiel: Noten 2.7, 3.0, 3.0, 3.0, 3.3, 3.3, 3.3, 3.7, 4.0, 6.0
; x̄ = 3.53 , s̃ ≈ 0.926
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Beispiel: Noten 2.7, 3.0, 3.0, 3.0, 3.3, 3.3, 3.3, 3.7, 4.0, 6.0
; x̄ = 3.53 , s̃ ≈ 0.926 , x̃ = x(5) + x(6) /2 = 3.3 ,
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Beispiel: Noten 2.7, 3.0, 3.0, 3.0, 3.3, 3.3, 3.3, 3.7, 4.0, 6.0
; x̄ = 3.53 , s̃ ≈ 0.926 , x̃ = x(5) + x(6) /2 = 3.3 ,
Median von 0.0, 0.0, 0.0, 0.3, 0.3, 0.3, 0.4, 0.6, 0.7, 2.7 ist 0.3 ; MAD=0.3.
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Beispiel: Noten 2.7, 3.0, 3.0, 3.0, 3.3, 3.3, 3.3, 3.7, 4.0, 6.0
; x̄ = 3.53 , s̃ ≈ 0.926 , x̃ = x(5) + x(6) /2 = 3.3 ,
Median von 0.0, 0.0, 0.0, 0.3, 0.3, 0.3, 0.4, 0.6, 0.7, 2.7 ist 0.3 ; MAD=0.3.
MAD ist robust gegenüber Ausreißern.
Stochastik 2017, Vorlesung 11:
9 / 15
(ii) MAD
und Verwandte
Der MAD (median absolute deviation) ist definiert als der
Median von
|xi − x̃ | , i = 1, . . . , n .
verwandte, weniger robuste Varianten:
X
X
1X
|xi − x̃ |
dX =
n
1
∗
dX =
n
X
|xi − x̃ | ≤
|xi − a| für alle a ∈ R
,
|xi − x̄ | .
Beispiel: Noten 2.7, 3.0, 3.0, 3.0, 3.3, 3.3, 3.3, 3.7, 4.0, 6.0
; x̄ = 3.53 , s̃ ≈ 0.926 , x̃ = x(5) + x(6) /2 = 3.3 ,
Median von 0.0, 0.0, 0.0, 0.3, 0.3, 0.3, 0.4, 0.6, 0.7, 2.7 ist 0.3 ; MAD=0.3.
MAD ist robust gegenüber Ausreißern.
mad(x, constant=1)
Stochastik 2017, Vorlesung 11:
9 / 15
Spannweite und Quartilabstand
(iii) Spannweite: R = x(n) − x(1)
Stochastik 2017, Vorlesung 11:
10 / 15
Spannweite und Quartilabstand
(iii) Spannweite: R = x(n) − x(1)
— nicht robust
Stochastik 2017, Vorlesung 11:
10 / 15
Spannweite und Quartilabstand
(iii) Spannweite: R = x(n) − x(1)
— nicht robust
(iv) Interquartilsabstand (IQR) dQ = x0.75 − x0.25
Stochastik 2017, Vorlesung 11:
10 / 15
Spannweite und Quartilabstand
(iii) Spannweite: R = x(n) − x(1)
— nicht robust
(iv) Interquartilsabstand (IQR) dQ = x0.75 − x0.25
Bemerkungen:
1
Der Interquartilsabstand ist resistent gegenüber Ausreißern.
Stochastik 2017, Vorlesung 11:
10 / 15
Spannweite und Quartilabstand
(iii) Spannweite: R = x(n) − x(1)
— nicht robust
(iv) Interquartilsabstand (IQR) dQ = x0.75 − x0.25
Bemerkungen:
1
Der Interquartilsabstand ist resistent gegenüber Ausreißern.
2
Es liegen mindestens bn/2c aller Beobachtungen im Intervall
[x0.25 , x0.75 ].
x(bn/4c) ≤ x0.25 ≤ x(bn/4c+1) ≤ . . . ≤ x(b3/4nc) ≤ x0.75 ≤ x(b3/4nc+1)
Stochastik 2017, Vorlesung 11:
10 / 15
Spannweite und Quartilabstand
(iii) Spannweite: R = x(n) − x(1)
— nicht robust
(iv) Interquartilsabstand (IQR) dQ = x0.75 − x0.25
Bemerkungen:
1
Der Interquartilsabstand ist resistent gegenüber Ausreißern.
2
Es liegen mindestens bn/2c aller Beobachtungen im Intervall
[x0.25 , x0.75 ].
x(bn/4c) ≤ x0.25 ≤ x(bn/4c+1) ≤ . . . ≤ x(b3/4nc) ≤ x0.75 ≤ x(b3/4nc+1)
diff(range(x)) für R und IQR(x) für IQR
Stochastik 2017, Vorlesung 11:
10 / 15
Boxplot
6
●
x0.75
IQR
x0.5
1
1.5*IQR
2
x0.25
min
0
2
min
0
1
x0.5
x0.25
max
1.5*IQR
4
3
x0.75
3
4
5
max
5
6
Graphische Darstellung der drei Quartile und mehr:
Konvention 1
K. 2 –
-Standard (boxplot(x))
Stochastik 2017, Vorlesung 11:
11 / 15
Boxplot
Bsp. aus Statistik-I-Übung B/VWL — Länge Arbeitsweg [km]
17
12
1
22
21
3
4
20
15
10
5
0
0
5
10
15
20
25
7
25
13
B
F
P
R
S
A
B
H
L
Bahn
zu Fuß
PKW
Rad
Sonst.
Arbeiter
Angestellter
Hilfsarbeiter
Leitender A.
Verkehrsmittel
Beschäftigungsverhältnis
Stochastik 2017, Vorlesung 11:
12 / 15
Boxplot
●
●
−0.02
0.00
0.01
0.02
0.03
Tägliche Rendite Euro Stoxx-Schlusskurs
●
●
●
●
Stochastik 2017, Vorlesung 11:
13 / 15
Verschiedenes
•
s̃
— einheitenlos.
Variationskoeffizient (nur für x̄ > 0): v =
x̄
Stochastik 2017, Vorlesung 11:
14 / 15
Verschiedenes
•
•
s̃
— einheitenlos.
Variationskoeffizient (nur für x̄ > 0): v =
x̄
Maße (Momente) höherer Ordnung p = 1, 2, . . .
mp =
1
n
n
X
i=1
xip ,
Mp =
1
n
n
X
xi − x̄
p
(m1 = x̄ , M2 = s̃ 2 ) .
i=1
Stochastik 2017, Vorlesung 11:
14 / 15
Verschiedenes
•
•
s̃
— einheitenlos.
Variationskoeffizient (nur für x̄ > 0): v =
x̄
Maße (Momente) höherer Ordnung p = 1, 2, . . .
mp =
1
n
n
X
i=1
gm
xip ,
Mp =
1
n
n
X
xi − x̄
p
(m1 = x̄ , M2 = s̃ 2 ) .
i=1
M3
= 3 – Schiefe über Momente ,
s̃
Stochastik 2017, Vorlesung 11:
14 / 15
Verschiedenes
•
•
s̃
— einheitenlos.
Variationskoeffizient (nur für x̄ > 0): v =
x̄
Maße (Momente) höherer Ordnung p = 1, 2, . . .
mp =
1
n
n
X
i=1
gm
xip ,
Mp =
1
n
n
X
xi − x̄
p
(m1 = x̄ , M2 = s̃ 2 ) .
i=1
M3
= 3 – Schiefe über Momente ,
s̃
gq =
(x0.75 − x0.5 ) − (x0.5 − x0.25 )
— Quartilsschiefe ,
x0.75 − x0.25
Stochastik 2017, Vorlesung 11:
14 / 15
Verschiedenes
•
•
s̃
— einheitenlos.
Variationskoeffizient (nur für x̄ > 0): v =
x̄
Maße (Momente) höherer Ordnung p = 1, 2, . . .
mp =
1
n
n
X
xip ,
Mp =
i=1
gm
1
n
n
X
xi − x̄
p
(m1 = x̄ , M2 = s̃ 2 ) .
i=1
M3
= 3 – Schiefe über Momente ,
s̃
gq =
(x0.75 − x0.5 ) − (x0.5 − x0.25 )
— Quartilsschiefe ,
x0.75 − x0.25
gm/q
„Prosa“
<0
rechtssteil/linksschief
=0
symmetrisch
>0
linkssteil/rechtsschief
Boxplot
Stochastik 2017, Vorlesung 11:
14 / 15
Verschiedenes
•
•
s̃
— einheitenlos.
Variationskoeffizient (nur für x̄ > 0): v =
x̄
Maße (Momente) höherer Ordnung p = 1, 2, . . .
mp =
1
n
n
X
xip ,
Mp =
i=1
gm
1
n
n
X
xi − x̄
p
(m1 = x̄ , M2 = s̃ 2 ) .
i=1
M3
= 3 – Schiefe über Momente ,
s̃
gq =
(x0.75 − x0.5 ) − (x0.5 − x0.25 )
— Quartilsschiefe ,
x0.75 − x0.25
gm/q
„Prosa“
<0
rechtssteil/linksschief
=0
symmetrisch
>0
linkssteil/rechtsschief
γ=
Boxplot
M4
— Wölbung.
s̃ 4
Stochastik 2017, Vorlesung 11:
14 / 15
vorläufiges Ende Deskriptive Statistik,
weiter mit Schätzen.
Stochastik 2017, Vorlesung 11:
15 / 15
Herunterladen