Univariate Merkmale Multivariate Merkmale Methoden der Statistik Kapitel 2: Deskriptive Statistik Thorsten Dickhaus Humboldt-Universität zu Berlin Wintersemester 2011/2012 Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Übersicht 1 Abschnitt 2.1: Univariate Merkmale 2 Abschnitt 2.2: Multivariate Merkmale Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Übersicht 1 Abschnitt 2.1: Univariate Merkmale 2 Abschnitt 2.2: Multivariate Merkmale Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Univariate Daten: Michelson’s Lichtgeschwindigkeits-Daten 1 2 3 4 5 6 7 8 9 10 .. . .. . 850 740 900 1070 930 850 950 980 980 880 .. . .. . Thorsten Dickhaus 1 2 3 4 5 6 7 8 9 10 .. . .. . Kapitel 2 1 1 1 1 1 1 1 1 1 1 .. . .. . Univariate Merkmale Multivariate Merkmale Interpretation der Daten 1 2 3 4 .. . .. . Erste Spalte Zweite Spalte Dritte Spalte Vierte Spalte 850 740 900 1070 .. . .. . 1 2 3 4 .. . .. . 1 1 1 1 .. . .. . : Fortlaufende Nummer der Messungen (1-100) : (Gemessene Geschwindigkeit - 299.000) in km/s : Fortlaufende Nummer in der Messreihe (1-20) : Nummer der Messreihe (1-5) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Einlesen der Daten > l <−read . t a b l e ( " l i g h t s p e e d . d a t " ) > str ( l ) ’ data . frame ’ : 100 obs . o f 4 v a r i a b l e s : $ V1 : i n t 1 2 3 4 5 6 7 8 9 10 . . . $ V2 : i n t 850 740 900 1070 930 850 950 980 980 880 . . . $ V3 : i n t 1 2 3 4 5 6 7 8 9 10 . . . $ V4 : i n t 1 1 1 1 1 1 1 1 1 1 . . . > attributes ( l ) > dim ( l ) [ 1 ] 100 4 > i s . matrix ( l ) [ 1 ] FALSE > is . l i s t ( l ) [ 1 ] TRUE > mode( l ) [1] " l i s t " > speed<− l $V2 Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Variablen > names ( l ) [ 1 ] " V1 " " V2 " " V3 " " V4 " > names ( l )<−c ( "No" , " Speed " , " ExNo " , " Ex " ) > attach ( l ) The f o l l o w i n g o b j e c t ( s ) are masked from l ( p o s i t i o n 3 ) : Ex ExNo No Speed > ex1<−subset ( l , Ex==1) > s<−ex1$Speed Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Statistische Kenngrößen (Arithmetischer) Mittelwert x̄ = n−1 Pn i=1 xi : > mean( s ) [ 1 ] 909 p P Standardabweichung (1/(n − 1)) i (xi − x̄)2 : > sd ( s ) [ 1 ] 104.9260 Median med = x[(n+1)/2] : > median ( s ) [ 1 ] 940 Median absoluter Abweichungen MAD = n−1 > mad( s ) [ 1 ] 88.956 Thorsten Dickhaus Kapitel 2 P i |xi − med(x)|: Univariate Merkmale Multivariate Merkmale Statistische Kenngrößen Schiefe (skewness): E (X − EX )3 v (X ) = . Var(X )3/2 Die Schiefe einer empirischen Verteilung: P n−1 i (xi − x̄)3 ve (x) = 3/2 P n−1 i (xi − x̄)2 > skew<−function ( x ) { + skewness <− ( ( s q r t ( length ( x ) ) ∗ + sum ( ( x−mean( x ) ) ^ 3 ) ) / (sum ( ( x−mean( x ) ) ^ 2 ) ) ^ ( 3 / 2 ) ) + r e t u r n ( skewness ) } > skew ( s ) [ 1 ] −0.890699 Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Die summary–Funktion > summary ( ex1 ) No Min . : 1.00 1 s t Qu . : 5.75 Median : 1 0 . 5 0 Mean :10.50 3 r d Qu. : 1 5 . 2 5 Max . :20.00 Speed Min . : 650 1 s t Qu . : 850 Median : 940 Mean : 909 3 r d Qu . : 980 Max . :1070 Thorsten Dickhaus ExNo Min . : 1.00 1 s t Qu . : 5.75 Median : 1 0 . 5 0 Mean :10.50 3 r d Qu. : 1 5 . 2 5 Max . :20.00 Kapitel 2 Ex Min . :1 1 s t Qu . : 1 Median : 1 Mean :1 3 r d Qu . : 1 Max . :1 Univariate Merkmale Multivariate Merkmale Der Box–Whisker–Plot >boxplot(s) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale R Code: Herausnehmen von Ausreißern > s t r i m<−s [ which ( s >700) ] > summary ( s t r i m ) Min. 740.0 1st Qu. 865.0 Median 950.0 Mean 922.6 Thorsten Dickhaus 3rd Qu. 980.0 Kapitel 2 Max. 1070.0 Univariate Merkmale Multivariate Merkmale Vergleich der Messreihen > boxplot ( l $Speed~ l $Ex ) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Empirische Verteilungsfunktion Seien X1 , . . . , Xn reellwertige iid. Zufallsvariablen mit X1 ∼ F und X = (X1 , . . . , Xn )t . n F̂n (t) := #{xi |xi ≤ t, i ∈ {1, . . . , n}} X 1 = 1 (xi ) . n n (−∞,t] i=1 Satz von Glivenko–Cantelli liefert fast sichere gleichmäßige Konvergenz: lim sup F̂n (t) − F (t) = 0 PF − f .s. n→∞ t∈R > ecdf ( er ) E m p i r i c a l CDF Call : ecdf ( er ) #er : eruptions of a g eys ir Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Diskrete Merkmale, Stabdiagramme Die empirische Verteilungsfunktion ist eine rechtsseitig stetige, monoton wachsende Treppenfunktion, die an den Beobachtungspunkten springt. Ist X1 diskret verteilt, so ist L(X1 ) festgelegt durch seine Wahrscheinlichkeitsfunktion, also durch die Angabe der Werte PF (X1 = k ), k ∈ supp(X1 ). Auf der beschreibenden Ebene (empirisches Maß) führt das zu Stabdiagrammen der relativen Häufigkeiten der beobachteten Werte. Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale # Stabdiagramm und e m p i r i s c h e V e r t e i l u n g s f u n k t i o n simanz = 5000; werte <− rbinom ( n=simanz , s i z e =10 , prob = 0 . 1 5 ) p l o t ( e c d f ( werte ) , col= ’ b l u e ’ , main= ’ C o m p u t e r s i m u l a t i o n : B i n o m i a l v e r t e i l u n g ’ ) l i n e s ( s o r t ( unique ( werte ) ) , t a b l e ( werte ) / simanz , t y p e = ’ h ’ , col= ’ red ’ , lwd =2) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Stetiges Merkmal Modellannahme: X1 , . . . , Xn reellwertige iid. Zufallsvariablen, deren Verteilung die Dichte f bezüglich des Lebesgue–Maßes besitzt. Datenbeispiel: 272 beobachtete Ausbrüche des “Old Faithful”–Geysirs im Yellowstone National Park mit Eruptionsdauer sowie der Wartezeit bis zum nächsten Ausbruch > data ( f a i t h f u l ) > e r<− f a i t h f u l $ e r u p t i o n s Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Histogramm–Schätzer Das Histogramm ist ein stückweise konstanter Dichteschätzer. Vorgehen: Wähle Intervalle („Klassen“, englisch: bins) Ik Ik = (ak −1 , ak ], k ∈ {1, . . . , K } nk := #{xi ∈ Ik , i ∈ {1, . . . , n}} f̂hist (x) = nk 1 1 (x) n ak − ak −1 {Ik } Im Falle gleicher Intervalllängen mit ak − ak −1 ≡ h ∀k ∈ {1, . . . , K }: f̂hist (x) = Thorsten Dickhaus nk 1 (x) nh {Ik } Kapitel 2 Univariate Merkmale Multivariate Merkmale > hist(er, freq=FALSE,col="grey") Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Nachteil des Histogramm–Schätzers: Schätzer hängt von der Wahl der Klassen–Längen und des Startwertes a0 ab! Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Gleitendes Histogramm Durch den gleitenden Histogramm–Schätzer #{xi |xi ∈ (x − h, x + h]} F̂n (x + h) − F̂n (x − h) = 2h 2hn n X 1 x − xi = KR mit KR (t) = (1/2)1[−1,1] (t), nh h f̂GH (x) := i=1 bei dem jede Beobachtung Mittelpunkt eines bins ist, lässt sich das Startwertproblem lösen. Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Kernfunktionen Definition Eine Funktion K : R → R heißt Kern, falls gilt: R 1 K(x)dx = 1, K(x) ≥ 0 ∀x ∈ R, K(x) = K(−x) Regularitätsbedingungen: 2 supx∈R K(x) = M < ∞ 3 |x|K(x) → 0 für |x| → 0, R Thorsten Dickhaus x 2 K(x)dx =: k2 < ∞ Kapitel 2 Univariate Merkmale Multivariate Merkmale Kernfunktionen: Beispiele Beispiele für Kernfunktionen: 1 Rechteckskern K(x) = Dreieckskern K(x) = (1 − |x|)1[−1,1] (x), Gaußkern K(x) = Bisquarekern K(x) = Epanechnikovkern K(x) = Thorsten Dickhaus 1 2 [−1,1] (x), √1 exp(−x 2 /2), 2π 15 2 2 16 (1 − x ) [−1,1] (x), 3 2 4 (1 − x ) [−1,1] (x). 1 1 Kapitel 2 Univariate Merkmale Multivariate Merkmale Grafische Darstellung verschiedener Kernfunktionen Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Univariater Kerndichteschätzer Definition Sei K : R → R ein Kern. Z n 1 t − xi t −x 1 X K = K F̂n (dx) f̂n (t) = nh h h h i=1 heißt (univariater) Kerndichteschätzer mit Bandweite h und Kern K. Mit K̃(t) := Rt Z −∞ K(x)dx K̃ t −x h lässt sich auch F (t) schätzen durch n F̂n (dx) = Thorsten Dickhaus 1X K̃ n i=1 Kapitel 2 t − xi h . Univariate Merkmale Multivariate Merkmale Gauß–Kernschätzer (n = 5) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Gauß–Kernschätzer (n = 9) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Gauß–Kernschätzer (n = 50) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Kernschätzung: Feinkalibrierung Entscheidende Schwierigkeit: Wahl der Bandweite! h zu groß −→ oversmoothing −→ lokale Extrema werden nicht erkannt, zu glatt h zu klein −→ undersmoothing −→ lokale Moden, Schätzer ist „hairy“ Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Bias Satz Wenn K : R → R ein Kern ist, der die oben genannten Regularitätsbedingungen erfüllt, und f ∈ C2 (R), so gilt: h2 00 Ef [f̂n (x)] − f (x) = f (x) 2 Thorsten Dickhaus Z x 2 K(x)dx + O(h2 ) . Kapitel 2 Univariate Merkmale Multivariate Merkmale Bias Beweis über Taylor–Entwicklung von f : h2 t 2 00 f (x − ht) = f (x) − htf 0 (x) + f (x) + O(h2 t 2 ) 2 Z x −y 1 K f (y )dy − f (x) Ef [f̂n (x)] − f (x) = h h Z 0 = −hf (x) y K(y )dy + | {z } =0 h2 f 00 (x) 2 Z y 2 K(y )dy +O(h2 t 2 ) {z } | =k2 = h2 f 00 (x) 2 Thorsten Dickhaus k2 + O(h2 t 2 ). Kapitel 2 Univariate Merkmale Multivariate Merkmale Varianz Satz Wenn K : R → R ein Kern ist, der die oben genannten Regularitätsbedingungen erfüllt, und f ∈ C(R), so gilt: Z 1 f (x) K2 (y )dy + O n−1 h−1 . Varf f̂n (x) = nh Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Varianz Beweis: n x − xi 1 X Var K h n2 h2 i=1 Z 2 1 1 2 x −y K E[ f̂ (x)] = f (y )dy − n h n nh2 Z 2 1 = K2 (y )f (x − yh)dy − n−1 E[f̂n (x)] nh Z 1 = f (x) K2 (y )dy + O n−1 h−1 . nh Var f̂n (x) = Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Mean Squared Error: Bias–Varianz–Zerlegung Ef =h 2 2 f̂n (x) − f (x) = Bias(f̂n (x|h)) + Var(f̂n (x|h)) 4 f 00 (x) k2 2 2 + 1 f (x) nh Z K2 (y )dy + O h4 + n−1 h−1 ⇒ Trade–Off zwischen Bias und Varianz möglich! Anmerkung: Bias hängt nicht explizit vom Stichprobenumfang n ab. Für Konsistenz muss indes h ≡ h(n) → 0 und nh → ∞ für n → ∞ gelten! Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Optimaler Kern Minimierung des MISE bezüglich h ergibt optimale Bandweite: 1/5 K2 (y )dy = R 1/5 . 2 1/5 1/5 00 n k2 (f (y )) dy R hopt Setzt man hopt in den MISE ein, erhält man Z 4/5 ! Z 1/5 2 5 2/5 2 00 k2 K (y )dy f (y ) dy . MISE ≈ 4 Minimal für Epanechnikov–Kern: 3 x2 1− 1[−5,5] (x) . Ke (x) = √ 5 4 5 Thorsten Dickhaus Kapitel 2 (1) Univariate Merkmale Multivariate Merkmale Optimaler Kern Setzt man hopt in den MISE ein, erhält man 1/5 4/5 ! Z Z 2 5 2/5 2 00 . K (y )dy f (y ) dy k2 MISE ≈ 4 Minimal für Epanechnikov–Kern: 3 x2 Ke (x) = √ 1− 1[−5,5] (x) . 5 4 5 Effizienz eff (K) für K 6= Ke und n gegeben: Zahl eff (K) löst Gleichung MISE(n, K) = MISE(n · eff (K), Ke ). Gauß–Kern: Effizienz von ca. 0.95, Rechteck–Kern: Effizienz von ca. 0.93. Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Übersicht 1 Abschnitt 2.1: Univariate Merkmale 2 Abschnitt 2.2: Multivariate Merkmale Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Multivariate Daten: Mietspiegel–Daten > miete<−read . t a b l e ( f i l e = " miete03 . asc " , header=TRUE) > s t r ( miete ) ’ data . frame ’ : 2053 obs . o f 16 v a r i a b l e s : $ GKM : num 741 716 528 554 698 . . . $ QMKM : num 10.9 11.01 8.38 8.52 6.98 . . . $ QM : i n t 68 65 63 65 100 81 55 79 52 77 . . . $ Zi : int 2 2 3 3 4 4 2 3 1 3 . .. $ BJ : num 1918 1995 1918 1983 1995 . . . $ B : i n t 2 2 2 16 16 16 6 6 6 6 . . . $ L : int 1 1 1 0 1 0 0 0 0 0 .. . $ best : i n t 0 0 0 0 0 0 0 0 0 0 . . . $ WW : int 0 0 0 0 0 0 0 0 0 0 . .. $ ZH : int 0 0 0 0 0 0 0 0 0 0 .. . $ BK : int 0 0 0 0 0 0 0 0 0 0 . .. $ BA : int 0 0 0 1 1 0 1 0 0 0 . .. $ KUE : int 0 0 0 0 1 0 0 0 0 0 .. . Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Abgeleitete Variablen Hier: Klassierung von Baujahr und Quadratmeterzahl > miete $BJKL<−1∗ ( BJ<=1918)+2∗ ( BJ<=1948)∗ ( BJ>1919)+3∗ ( BJ<=1965) ∗ ( BJ>1948)+4∗ ( BJ<=1977)∗ ( BJ>1965)+5∗ ( BJ<=1983) ∗ ( BJ>1977)+6∗ ( BJ>1983) > miete $QMKL<−1∗ (QM<=50)+2∗ (QM>50) ∗ (QM<=80)+3∗ (QM>80) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Zwei diskrete Merkmale: Kontingenztafeln Mögliche Werte für Merkmal 1: a1 , a2 , . . . , ak Mögliche Werte für Merkmal 2: b1 , b2 , . . . , b` Beobachtung x: Matrix der absoluten Häufigkeiten aller Kombinationen (ai , bj ), 1 ≤ i ≤ k , 1 ≤ j ≤ ` in der Stichprobe vom Umfang n Darstellung als Kontingenztafel (auch: (k × `)-Feldertafel): a1 a2 ... a Pk b1 x11 x21 ... xk 1 n.1 b2 x12 x22 ... xk 2 n.2 Thorsten Dickhaus ... ... ... ... ... ... Kapitel 2 b` x1` x2` ... xk ` n.` P n1. n2. ... nk . n Univariate Merkmale Multivariate Merkmale Randhäufigkeiten, marginale Verteilungen Der Vektor n = (n1. , n2. , . . . , nk . , n.1 , n.2 , . . . , n.` ) ∈ Nk +` heißt Vektor der (empirischen) Randhäufigkeiten. Die (emprirische) diskrete Verteilung, die durch die Randhäufigkeiten eines Merkmals gegeben ist, bezeichnet man als Randverteilung oder auch marginale Verteilung dieses Merkmals. > > + > + h<−numeric ( 6 ) for ( i in 1 : 6 ) { h [ i ]<−length ( which ( BJKL== i ) ) } names ( h )<−c ( " v o r 1918 " , " 1919−1948 " , " 1948−1965 " , " 1966−1977 " , " 1978−1983 " , " Neubau " ) > p i e ( h , col=rainbow ( 6 ) ) > b a r p l o t ( h , col=heat . colors ( 6 ) , density =100) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Grafische Darstellung von Randverteilungen Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Grafische Darstellung bivariater diskreter Verteilungen R Code: assocplot und mosaicplot > par ( mfrow=c ( 1 , 2 ) ) > mosaicplot ( t a b l e ( BJKL ,QMKL) , col=TRUE) > a s s o c p l o t ( t a b l e ( BJKL ,QMKL) ) > miete $QMKMKL<−1∗ (QMKM<=8)+2∗ (QMKM>8) ∗ (QMKM<=10) +3∗ (QMKM>10) ∗ (QMKM<=12)+4∗ (QMKM>12) > mosaicplot ( t a b l e (QMKMKL, L ) , col=TRUE) > a s s o c p l o t ( t a b l e (QMKMKL, L ) ) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Baujahr ↔ Wohnungsgröße Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Miete ↔ Wohnlage Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Multivariate stetige Verteilungen Modell: X1 , . . . , Xn ∈ Rp i. i. d. ∼ f . Definition (p-dimensionaler Kern) Eine Funktion K : Rp → R mit Z K(y)dy = 1 und Rp Regularitätsbedingungen: K ist radialsymmetrische Wahrscheinlichkeitsdichte Beschränkter Träger oder zumindest |x|K(x) → 0 für |x| → 0 Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale p-dim. Kernfunktionen, Kerndichteschätzer Beispiele: uniformer Kern K(x) = 1 vp Gaußkern K(x) = 1 exp p (2π) /2 1+p/2 vp (1 − Epanechnikovkern K(x) = für xT x ≤ 1, − 21 xT x , xT x), xT x ≤ 1. Definition Sei K : Rp → R ein Kern. n x − Xi 1 X f̂n (x) = K , x ∈ Rp nhp h i=1 heißt multivariater Kerndichteschätzer mit Bandweite h und Kern K. Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Bandweitenwahl Bias und Varianz: Z h2 Biash f̂n (x) = ∆f (x) y12 K(y)dy + O(h2 ) , 2 Z 1 2 −1 −p . K (y)dy + O n h Varh f̂n (x) = nhp Minimierung des MISE: p+4 (hopt ) R 2 Z K (y)dy p 2 = (∆f (y)) dy . 2 R 2 n y1 K(y)dy Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Darstellung zweidimensionaler Kernfunktionen Gaußkern und Epanechnikovkern mit p = 2 Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Verschiedene Bandweiten in unterschiedliche Richtungen Allgemeiner als in obiger Definition kann man den multivariaten Kerndichteschätzer mit einer Bandweitenmatrix H definieren: 1 1 f̂n (x) = K H − /2 (x − Xi ) , x ∈ Rp . 1/2 n|H| Zuvor: H = h1p , wobei 1p die p–dimensionale Einheitsmatrix bezeichnet In R: Diagonalmatrix H angebbar. Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale R Code: Zweidimensionale Kerndichteschätzung > > > > > > l i b r a r y (MASS) l i b r a r y ( KernSmooth ) data ( f a i t h f u l ) x<− f a i t h f u l $ e r u p t i o n s y<− f a i t h f u l $ w a i t i n g par ( mfrow=c ( 2 , 2 ) , p t y = "m" ) > plot ( y , x , ylab=" eruption " , xlab=" waiting " ) # Scatterplot , Streubild > > + > > z<−kde2d ( x , y , l i m s =c ( 0 , 6 , 3 5 , 1 0 0 ) ) zz<−bkde2D ( f a i t h f u l , range . x= l i s t ( c ( 0 , 6 ) , c ( 3 5 , 1 0 0 ) ) , bandwidth=c ( bw . SJ ( x ) , bw . SJ ( y ) ) ) image ( z , x l a b = " e r u p t i o n " , y l a b = " w a i t i n g " ) image ( zz$ f h a t , x l a b = " e r u p t i o n " , y l a b = " w a i t i n g " ) #Heat−Maps > persp ( z , col= " s l a t e g r e y " , t h e t a =35 , x l i m =c ( 0 , 6 ) , y l i m =c ( 3 5 , 1 0 0 ) , + t i c k t y p e =" detailed " , xlab=" eruption " , ylab=" waiting " , zlab=" " ) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Zweidimensionale Kerndichteschätzung Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Kontur-Plots, 3D-Plots > contour ( zz$x1 , zz$x2 , zz$ f h a t ) > + + + persp ( zz$x1 , zz$x2 , zz$ f h a t , col= " s l a t e g r e y " , t h e t a =35 , x l i m =c ( 0 , 6 ) , y l i m =c ( 3 5 , 1 0 0 ) , t i c k t y p e =" detailed " , xlab=" eruption " , ylab=" waiting " , zlab=" " ) Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Zusammenhänge zwischen stetigen Variablen > > > > p l o t (QM,GKM) a b l i n e ( 0 ,mean(QMKM) , col= " b l u e " ) a b l i n e ( 0 ,mean(QMKM)+ sd (QMKM) , col= " red " , l t y =4) a b l i n e ( 0 ,mean(QMKM)−sd (QMKM) , col= " red " , l t y =4) > > > > z<−tapply (QMKM,QMKL, mean) segments ( 0 , 0 , 5 0 , z [ 1 ] ∗ 50 , col= " green " , lwd =2 , l t y =2) segments (50 ,50 ∗z [ 2 ] , 8 0 , z [ 2 ] ∗ 80 , col= " l i g h t g r e e n " , lwd =3 , l t y =2) segments (80 ,80 ∗z [ 3 ] , 2 0 0 , z [ 3 ] ∗ 200 , col= " darkgreen " , lwd =2 , l t y =2) > l i n e s (QM, f i t t e d ( lm (GKM~QM) ) , col= " y e l l o w " ) Funktion lm in R: Lineares Modell (Regressionsrechnung)! Thorsten Dickhaus Kapitel 2 Univariate Merkmale Multivariate Merkmale Thorsten Dickhaus Kapitel 2