Methoden der Statistik Kapitel 2 - Mathematik, Uni

Werbung
Univariate Merkmale
Multivariate Merkmale
Methoden der Statistik
Kapitel 2: Deskriptive Statistik
Thorsten Dickhaus
Humboldt-Universität zu Berlin
Wintersemester 2011/2012
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Übersicht
1
Abschnitt 2.1: Univariate Merkmale
2
Abschnitt 2.2: Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Übersicht
1
Abschnitt 2.1: Univariate Merkmale
2
Abschnitt 2.2: Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Univariate Daten:
Michelson’s Lichtgeschwindigkeits-Daten
1
2
3
4
5
6
7
8
9
10
..
.
..
.
850
740
900
1070
930
850
950
980
980
880
..
.
..
.
Thorsten Dickhaus
1
2
3
4
5
6
7
8
9
10
..
.
..
.
Kapitel 2
1
1
1
1
1
1
1
1
1
1
..
.
..
.
Univariate Merkmale
Multivariate Merkmale
Interpretation der Daten
1
2
3
4
..
.
..
.
Erste Spalte
Zweite Spalte
Dritte Spalte
Vierte Spalte
850
740
900
1070
..
.
..
.
1
2
3
4
..
.
..
.
1
1
1
1
..
.
..
.
: Fortlaufende Nummer der Messungen (1-100)
: (Gemessene Geschwindigkeit - 299.000) in km/s
: Fortlaufende Nummer in der Messreihe (1-20)
: Nummer der Messreihe (1-5)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Einlesen der Daten
> l <−read . t a b l e ( " l i g h t s p e e d . d a t " )
> str ( l )
’ data . frame ’ :
100 obs . o f 4 v a r i a b l e s :
$ V1 : i n t 1 2 3 4 5 6 7 8 9 10 . . .
$ V2 : i n t 850 740 900 1070 930 850 950 980 980 880 . . .
$ V3 : i n t 1 2 3 4 5 6 7 8 9 10 . . .
$ V4 : i n t 1 1 1 1 1 1 1 1 1 1 . . .
> attributes ( l )
> dim ( l )
[ 1 ] 100
4
> i s . matrix ( l )
[ 1 ] FALSE
> is . l i s t ( l )
[ 1 ] TRUE
> mode( l )
[1] " l i s t "
> speed<− l $V2
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Variablen
> names ( l )
[ 1 ] " V1 " " V2 " " V3 " " V4 "
> names ( l )<−c ( "No" , " Speed " , " ExNo " , " Ex " )
> attach ( l )
The f o l l o w i n g o b j e c t ( s ) are masked from l ( p o s i t i o n 3 ) :
Ex ExNo No Speed
> ex1<−subset ( l , Ex==1)
> s<−ex1$Speed
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Statistische Kenngrößen
(Arithmetischer) Mittelwert x̄ = n−1
Pn
i=1 xi :
> mean( s ) [ 1 ] 909
p
P
Standardabweichung (1/(n − 1)) i (xi − x̄)2 :
> sd ( s ) [ 1 ] 104.9260
Median med = x[(n+1)/2] :
> median ( s ) [ 1 ] 940
Median absoluter Abweichungen MAD = n−1
> mad( s ) [ 1 ] 88.956
Thorsten Dickhaus
Kapitel 2
P
i
|xi − med(x)|:
Univariate Merkmale
Multivariate Merkmale
Statistische Kenngrößen
Schiefe (skewness):
E (X − EX )3
v (X ) =
.
Var(X )3/2
Die Schiefe einer empirischen Verteilung:
P
n−1 i (xi − x̄)3
ve (x) =
3/2
P
n−1 i (xi − x̄)2
> skew<−function ( x ) {
+ skewness <− ( ( s q r t ( length ( x ) ) ∗
+
sum ( ( x−mean( x ) ) ^ 3 ) ) / (sum ( ( x−mean( x ) ) ^ 2 ) ) ^ ( 3 / 2 ) )
+ r e t u r n ( skewness ) }
> skew ( s )
[ 1 ] −0.890699
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Die summary–Funktion
> summary ( ex1 )
No
Min .
: 1.00
1 s t Qu . : 5.75
Median : 1 0 . 5 0
Mean
:10.50
3 r d Qu. : 1 5 . 2 5
Max .
:20.00
Speed
Min .
: 650
1 s t Qu . : 850
Median : 940
Mean
: 909
3 r d Qu . : 980
Max .
:1070
Thorsten Dickhaus
ExNo
Min .
: 1.00
1 s t Qu . : 5.75
Median : 1 0 . 5 0
Mean
:10.50
3 r d Qu. : 1 5 . 2 5
Max .
:20.00
Kapitel 2
Ex
Min .
:1
1 s t Qu . : 1
Median : 1
Mean
:1
3 r d Qu . : 1
Max .
:1
Univariate Merkmale
Multivariate Merkmale
Der Box–Whisker–Plot
>boxplot(s)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
R Code: Herausnehmen von Ausreißern
> s t r i m<−s [ which ( s >700) ]
> summary ( s t r i m )
Min.
740.0
1st Qu.
865.0
Median
950.0
Mean
922.6
Thorsten Dickhaus
3rd Qu.
980.0
Kapitel 2
Max.
1070.0
Univariate Merkmale
Multivariate Merkmale
Vergleich der Messreihen
> boxplot ( l $Speed~ l $Ex )
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Empirische Verteilungsfunktion
Seien X1 , . . . , Xn reellwertige iid. Zufallsvariablen mit X1 ∼ F
und X = (X1 , . . . , Xn )t .
n
F̂n (t) :=
#{xi |xi ≤ t, i ∈ {1, . . . , n}} X 1
=
1
(xi ) .
n
n (−∞,t]
i=1
Satz von Glivenko–Cantelli liefert fast sichere gleichmäßige
Konvergenz:
lim sup F̂n (t) − F (t) = 0 PF − f .s.
n→∞ t∈R
> ecdf ( er )
E m p i r i c a l CDF
Call : ecdf ( er )
#er : eruptions of a g eys ir
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Diskrete Merkmale, Stabdiagramme
Die empirische Verteilungsfunktion ist eine
rechtsseitig stetige, monoton wachsende Treppenfunktion, die
an den Beobachtungspunkten springt.
Ist X1 diskret verteilt, so ist L(X1 ) festgelegt durch seine
Wahrscheinlichkeitsfunktion, also durch die Angabe der Werte
PF (X1 = k ), k ∈ supp(X1 ).
Auf der beschreibenden Ebene (empirisches Maß) führt das zu
Stabdiagrammen der relativen Häufigkeiten der beobachteten
Werte.
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
# Stabdiagramm und e m p i r i s c h e V e r t e i l u n g s f u n k t i o n
simanz = 5000; werte <− rbinom ( n=simanz , s i z e =10 , prob = 0 . 1 5 )
p l o t ( e c d f ( werte ) , col= ’ b l u e ’ ,
main= ’ C o m p u t e r s i m u l a t i o n : B i n o m i a l v e r t e i l u n g ’ )
l i n e s ( s o r t ( unique ( werte ) ) , t a b l e ( werte ) / simanz ,
t y p e = ’ h ’ , col= ’ red ’ , lwd =2)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Stetiges Merkmal
Modellannahme:
X1 , . . . , Xn reellwertige iid. Zufallsvariablen, deren Verteilung
die Dichte f bezüglich des Lebesgue–Maßes besitzt.
Datenbeispiel:
272 beobachtete Ausbrüche des “Old Faithful”–Geysirs im
Yellowstone National Park mit Eruptionsdauer sowie der
Wartezeit bis zum nächsten Ausbruch
> data ( f a i t h f u l )
> e r<− f a i t h f u l $ e r u p t i o n s
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Histogramm–Schätzer
Das Histogramm ist ein stückweise konstanter Dichteschätzer.
Vorgehen: Wähle Intervalle („Klassen“, englisch: bins) Ik
Ik = (ak −1 , ak ], k ∈ {1, . . . , K }
nk := #{xi ∈ Ik , i ∈ {1, . . . , n}}
f̂hist (x) =
nk
1
1 (x)
n ak − ak −1 {Ik }
Im Falle gleicher Intervalllängen mit
ak − ak −1 ≡ h ∀k ∈ {1, . . . , K }:
f̂hist (x) =
Thorsten Dickhaus
nk
1 (x)
nh {Ik }
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
> hist(er, freq=FALSE,col="grey")
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Nachteil des Histogramm–Schätzers:
Schätzer hängt von der Wahl der Klassen–Längen und des
Startwertes a0 ab!
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Gleitendes Histogramm
Durch den gleitenden Histogramm–Schätzer
#{xi |xi ∈ (x − h, x + h]}
F̂n (x + h) − F̂n (x − h)
=
2h
2hn
n
X
1
x − xi
=
KR
mit KR (t) = (1/2)1[−1,1] (t),
nh
h
f̂GH (x) :=
i=1
bei dem jede Beobachtung Mittelpunkt eines bins ist, lässt sich
das Startwertproblem lösen.
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Kernfunktionen
Definition
Eine Funktion K : R → R heißt Kern, falls gilt:
R
1
K(x)dx = 1, K(x) ≥ 0 ∀x ∈ R, K(x) = K(−x)
Regularitätsbedingungen:
2
supx∈R K(x) = M < ∞
3
|x|K(x) → 0 für |x| → 0,
R
Thorsten Dickhaus
x 2 K(x)dx =: k2 < ∞
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Kernfunktionen: Beispiele
Beispiele für Kernfunktionen:
1
Rechteckskern
K(x) =
Dreieckskern
K(x) = (1 − |x|)1[−1,1] (x),
Gaußkern
K(x) =
Bisquarekern
K(x) =
Epanechnikovkern
K(x) =
Thorsten Dickhaus
1
2 [−1,1] (x),
√1 exp(−x 2 /2),
2π
15
2 2
16 (1 − x ) [−1,1] (x),
3
2
4 (1 − x ) [−1,1] (x).
1
1
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Grafische Darstellung verschiedener Kernfunktionen
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Univariater Kerndichteschätzer
Definition
Sei K : R → R ein Kern.
Z
n
1
t − xi
t −x
1 X
K
=
K
F̂n (dx)
f̂n (t) =
nh
h
h
h
i=1
heißt (univariater) Kerndichteschätzer mit Bandweite h und
Kern K.
Mit K̃(t) :=
Rt
Z
−∞ K(x)dx
K̃
t −x
h
lässt sich auch F (t) schätzen durch
n
F̂n (dx) =
Thorsten Dickhaus
1X
K̃
n
i=1
Kapitel 2
t − xi
h
.
Univariate Merkmale
Multivariate Merkmale
Gauß–Kernschätzer (n = 5)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Gauß–Kernschätzer (n = 9)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Gauß–Kernschätzer (n = 50)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Kernschätzung: Feinkalibrierung
Entscheidende Schwierigkeit: Wahl der Bandweite!
h zu groß −→ oversmoothing
−→ lokale Extrema werden nicht erkannt, zu glatt
h zu klein −→ undersmoothing
−→ lokale Moden, Schätzer ist „hairy“
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Bias
Satz
Wenn K : R → R ein Kern ist, der die oben genannten
Regularitätsbedingungen erfüllt, und f ∈ C2 (R), so gilt:
h2 00
Ef [f̂n (x)] − f (x) =
f (x)
2
Thorsten Dickhaus
Z
x 2 K(x)dx + O(h2 ) .
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Bias
Beweis über Taylor–Entwicklung von f :
h2 t 2 00
f (x − ht) = f (x) − htf 0 (x) +
f (x) + O(h2 t 2 )
2
Z
x −y
1
K
f (y )dy − f (x)
Ef [f̂n (x)] − f (x) =
h
h
Z
0
= −hf (x) y K(y )dy +
|
{z
}
=0
h2 f 00 (x)
2
Z
y 2 K(y )dy +O(h2 t 2 )
{z
}
|
=k2
=
h2 f 00 (x)
2
Thorsten Dickhaus
k2 + O(h2 t 2 ).
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Varianz
Satz
Wenn K : R → R ein Kern ist, der die oben genannten
Regularitätsbedingungen erfüllt, und f ∈ C(R), so gilt:
Z
1
f (x) K2 (y )dy + O n−1 h−1 .
Varf f̂n (x) =
nh
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Varianz
Beweis:
n
x − xi
1 X
Var K
h
n2 h2
i=1
Z
2
1
1
2 x −y
K
E[
f̂
(x)]
=
f
(y
)dy
−
n
h
n
nh2
Z
2
1
=
K2 (y )f (x − yh)dy − n−1 E[f̂n (x)]
nh
Z
1
=
f (x) K2 (y )dy + O n−1 h−1 .
nh
Var f̂n (x) =
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Mean Squared Error: Bias–Varianz–Zerlegung
Ef
=h
2 2
f̂n (x) − f (x)
= Bias(f̂n (x|h)) + Var(f̂n (x|h))
4
f 00 (x)
k2
2
2
+
1
f (x)
nh
Z
K2 (y )dy + O h4 + n−1 h−1
⇒ Trade–Off zwischen Bias und Varianz möglich!
Anmerkung:
Bias hängt nicht explizit vom Stichprobenumfang n ab.
Für Konsistenz muss indes h ≡ h(n) → 0 und nh → ∞
für n → ∞ gelten!
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Optimaler Kern
Minimierung des MISE bezüglich h ergibt optimale Bandweite:
1/5
K2 (y )dy
=
R
1/5 .
2
1/5 1/5
00
n k2
(f (y )) dy
R
hopt
Setzt man hopt in den MISE ein, erhält man
Z
4/5 ! Z
1/5
2
5
2/5
2
00
k2
K (y )dy
f (y ) dy
.
MISE ≈
4
Minimal für Epanechnikov–Kern:
3
x2
1−
1[−5,5] (x) .
Ke (x) = √
5
4 5
Thorsten Dickhaus
Kapitel 2
(1)
Univariate Merkmale
Multivariate Merkmale
Optimaler Kern
Setzt man hopt in den MISE ein, erhält man
1/5
4/5 ! Z
Z
2
5
2/5
2
00
.
K (y )dy
f (y ) dy
k2
MISE ≈
4
Minimal für Epanechnikov–Kern:
3
x2
Ke (x) = √
1−
1[−5,5] (x) .
5
4 5
Effizienz eff (K) für K 6= Ke und n gegeben:
Zahl eff (K) löst Gleichung MISE(n, K) = MISE(n · eff (K), Ke ).
Gauß–Kern: Effizienz von ca. 0.95,
Rechteck–Kern: Effizienz von ca. 0.93.
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Übersicht
1
Abschnitt 2.1: Univariate Merkmale
2
Abschnitt 2.2: Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Multivariate Daten:
Mietspiegel–Daten
> miete<−read . t a b l e ( f i l e = " miete03 . asc " , header=TRUE)
> s t r ( miete )
’ data . frame ’ :
2053 obs . o f 16 v a r i a b l e s :
$ GKM
: num 741 716 528 554 698 . . .
$ QMKM : num 10.9 11.01 8.38 8.52 6.98 . . .
$ QM
: i n t 68 65 63 65 100 81 55 79 52 77 . . .
$ Zi
: int 2 2 3 3 4 4 2 3 1 3 . ..
$ BJ
: num 1918 1995 1918 1983 1995 . . .
$ B
: i n t 2 2 2 16 16 16 6 6 6 6 . . .
$ L
: int 1 1 1 0 1 0 0 0 0 0 .. .
$ best : i n t 0 0 0 0 0 0 0 0 0 0 . . .
$ WW
: int 0 0 0 0 0 0 0 0 0 0 . ..
$ ZH
: int 0 0 0 0 0 0 0 0 0 0 .. .
$ BK
: int 0 0 0 0 0 0 0 0 0 0 . ..
$ BA
: int 0 0 0 1 1 0 1 0 0 0 . ..
$ KUE
: int 0 0 0 0 1 0 0 0 0 0 .. .
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Abgeleitete Variablen
Hier: Klassierung von Baujahr und Quadratmeterzahl
> miete $BJKL<−1∗ ( BJ<=1918)+2∗ ( BJ<=1948)∗ ( BJ>1919)+3∗ ( BJ<=1965)
∗ ( BJ>1948)+4∗ ( BJ<=1977)∗ ( BJ>1965)+5∗ ( BJ<=1983)
∗ ( BJ>1977)+6∗ ( BJ>1983)
> miete $QMKL<−1∗ (QM<=50)+2∗ (QM>50) ∗ (QM<=80)+3∗ (QM>80)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Zwei diskrete Merkmale: Kontingenztafeln
Mögliche Werte für Merkmal 1: a1 , a2 , . . . , ak
Mögliche Werte für Merkmal 2: b1 , b2 , . . . , b`
Beobachtung x: Matrix der absoluten Häufigkeiten aller
Kombinationen (ai , bj ), 1 ≤ i ≤ k , 1 ≤ j ≤ `
in der Stichprobe vom Umfang n
Darstellung als Kontingenztafel (auch: (k × `)-Feldertafel):
a1
a2
...
a
Pk
b1
x11
x21
...
xk 1
n.1
b2
x12
x22
...
xk 2
n.2
Thorsten Dickhaus
...
...
...
...
...
...
Kapitel 2
b`
x1`
x2`
...
xk `
n.`
P
n1.
n2.
...
nk .
n
Univariate Merkmale
Multivariate Merkmale
Randhäufigkeiten, marginale Verteilungen
Der Vektor n = (n1. , n2. , . . . , nk . , n.1 , n.2 , . . . , n.` ) ∈ Nk +` heißt
Vektor der (empirischen) Randhäufigkeiten.
Die (emprirische) diskrete Verteilung, die durch die
Randhäufigkeiten eines Merkmals gegeben ist, bezeichnet man
als Randverteilung oder auch marginale Verteilung dieses
Merkmals.
>
>
+
>
+
h<−numeric ( 6 )
for ( i in 1 : 6 ) {
h [ i ]<−length ( which ( BJKL== i ) ) }
names ( h )<−c ( " v o r 1918 " , " 1919−1948 " , " 1948−1965 " , " 1966−1977 " ,
" 1978−1983 " , " Neubau " )
> p i e ( h , col=rainbow ( 6 ) )
> b a r p l o t ( h , col=heat . colors ( 6 ) , density =100)
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Grafische Darstellung von Randverteilungen
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Grafische Darstellung bivariater diskreter Verteilungen
R Code: assocplot und mosaicplot
> par ( mfrow=c ( 1 , 2 ) )
> mosaicplot ( t a b l e ( BJKL ,QMKL) , col=TRUE)
> a s s o c p l o t ( t a b l e ( BJKL ,QMKL) )
> miete $QMKMKL<−1∗ (QMKM<=8)+2∗ (QMKM>8) ∗ (QMKM<=10)
+3∗ (QMKM>10) ∗ (QMKM<=12)+4∗ (QMKM>12)
> mosaicplot ( t a b l e (QMKMKL, L ) , col=TRUE)
> a s s o c p l o t ( t a b l e (QMKMKL, L ) )
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Baujahr ↔ Wohnungsgröße
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Miete ↔ Wohnlage
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Multivariate stetige Verteilungen
Modell: X1 , . . . , Xn ∈ Rp i. i. d. ∼ f .
Definition (p-dimensionaler Kern)
Eine Funktion K : Rp → R mit
Z
K(y)dy = 1 und
Rp
Regularitätsbedingungen:
K ist radialsymmetrische Wahrscheinlichkeitsdichte
Beschränkter Träger oder zumindest
|x|K(x) → 0 für |x| → 0
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
p-dim. Kernfunktionen, Kerndichteschätzer
Beispiele:
uniformer Kern
K(x) =
1
vp
Gaußkern
K(x) =
1
exp
p
(2π) /2
1+p/2
vp (1 −
Epanechnikovkern K(x) =
für xT x ≤ 1,
− 21 xT x ,
xT x), xT x ≤ 1.
Definition
Sei K : Rp → R ein Kern.
n
x − Xi
1 X
f̂n (x) =
K
, x ∈ Rp
nhp
h
i=1
heißt multivariater Kerndichteschätzer mit Bandweite h und
Kern K.
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Bandweitenwahl
Bias und Varianz:
Z
h2
Biash f̂n (x) =
∆f (x) y12 K(y)dy + O(h2 ) ,
2
Z
1
2
−1 −p
.
K
(y)dy
+
O n h
Varh f̂n (x) =
nhp
Minimierung des MISE:
p+4
(hopt )
R 2
Z
K (y)dy
p
2
=
(∆f (y)) dy .
2
R 2
n
y1 K(y)dy
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Darstellung zweidimensionaler Kernfunktionen
Gaußkern und Epanechnikovkern mit p = 2
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Verschiedene Bandweiten in unterschiedliche
Richtungen
Allgemeiner als in obiger Definition kann man den multivariaten
Kerndichteschätzer mit einer Bandweitenmatrix H definieren:
1
1
f̂n (x) =
K H − /2 (x − Xi ) , x ∈ Rp .
1/2
n|H|
Zuvor: H = h1p , wobei 1p die p–dimensionale Einheitsmatrix
bezeichnet
In R: Diagonalmatrix H angebbar.
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
R Code: Zweidimensionale Kerndichteschätzung
>
>
>
>
>
>
l i b r a r y (MASS)
l i b r a r y ( KernSmooth )
data ( f a i t h f u l )
x<− f a i t h f u l $ e r u p t i o n s
y<− f a i t h f u l $ w a i t i n g
par ( mfrow=c ( 2 , 2 ) , p t y = "m" )
> plot ( y , x , ylab=" eruption " ,
xlab=" waiting " ) # Scatterplot , Streubild
>
>
+
>
>
z<−kde2d ( x , y , l i m s =c ( 0 , 6 , 3 5 , 1 0 0 ) )
zz<−bkde2D ( f a i t h f u l , range . x= l i s t ( c ( 0 , 6 ) , c ( 3 5 , 1 0 0 ) ) ,
bandwidth=c ( bw . SJ ( x ) , bw . SJ ( y ) ) )
image ( z , x l a b = " e r u p t i o n " , y l a b = " w a i t i n g " )
image ( zz$ f h a t , x l a b = " e r u p t i o n " , y l a b = " w a i t i n g " ) #Heat−Maps
> persp ( z , col= " s l a t e g r e y " , t h e t a =35 , x l i m =c ( 0 , 6 ) , y l i m =c ( 3 5 , 1 0 0 ) ,
+ t i c k t y p e =" detailed " , xlab=" eruption " , ylab=" waiting " , zlab=" " )
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Zweidimensionale Kerndichteschätzung
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Kontur-Plots, 3D-Plots
> contour ( zz$x1 , zz$x2 , zz$ f h a t )
>
+
+
+
persp ( zz$x1 , zz$x2 , zz$ f h a t , col= " s l a t e g r e y " ,
t h e t a =35 , x l i m =c ( 0 , 6 ) , y l i m =c ( 3 5 , 1 0 0 ) ,
t i c k t y p e =" detailed " , xlab=" eruption " ,
ylab=" waiting " , zlab=" " )
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Zusammenhänge zwischen stetigen Variablen
>
>
>
>
p l o t (QM,GKM)
a b l i n e ( 0 ,mean(QMKM) , col= " b l u e " )
a b l i n e ( 0 ,mean(QMKM)+ sd (QMKM) , col= " red " , l t y =4)
a b l i n e ( 0 ,mean(QMKM)−sd (QMKM) , col= " red " , l t y =4)
>
>
>
>
z<−tapply (QMKM,QMKL, mean)
segments ( 0 , 0 , 5 0 , z [ 1 ] ∗ 50 , col= " green " , lwd =2 , l t y =2)
segments (50 ,50 ∗z [ 2 ] , 8 0 , z [ 2 ] ∗ 80 , col= " l i g h t g r e e n " , lwd =3 , l t y =2)
segments (80 ,80 ∗z [ 3 ] , 2 0 0 , z [ 3 ] ∗ 200 , col= " darkgreen " , lwd =2 , l t y =2)
> l i n e s (QM, f i t t e d ( lm (GKM~QM) ) , col= " y e l l o w " )
Funktion lm in R: Lineares Modell (Regressionsrechnung)!
Thorsten Dickhaus
Kapitel 2
Univariate Merkmale
Multivariate Merkmale
Thorsten Dickhaus
Kapitel 2
Herunterladen