Projektarbeit Computational Statistics SS12/13 D. Kurz Allgemeine Informationen Diese Angabe enthält 5 Projektaufgaben, welche Sie entweder alleine oder zusammen mit einem/einer PartnerIn lösen sollen. Jede Projektaufgabe ist einem der Kapitel 2 − 6 im Skriptum zugeordnet. Die Kenntnisse der LV-Inhalte werden für das Bearbeiten der Projektaufgaben vorausgesetzt. Die Projektaufgaben sind im R auszuarbeiten und die Ergebnisse (z.B. erzeugte Graken etc.) bzw. Antworten auf die gestellten Fragen zu dokumentieren (LaTeX oder Word). Die Projektarbeit gilt als abgegeben, falls sowohl das fertige R-Skript, als auch die fertige Dokumentation abgegeben wurden. Mit der Abgabe der Projektarbeit soll ein Nachbesprechungstermin vereinbart werden, im Zuge dessen die abgegebenen Projektaufgaben durchbesprochen bzw. grundlegende stospezische Fragen aus dem Themenbereich der jeweiligen Projektaufgabe gestellt werden (gehen Sie dafür das Skriptum durch). Die Nachbesprechung ndet einzeln statt. Die LV-Note setzt sich dann zu 3/4 aus der Note auf die Projektarbeit und 1/4 aus der Note auf die PrüfungsNachbesprechung zusammen. Für eine positive Note müssen beide Prüfungsteile positiv bewertet sein. Projektaufgaben 1. Explorative Datenanalyse und R-Graphics Analysieren Sie den Datensatz state.x77 mit Hilfe besprochener explorativer Methoden. (a) Laden Sie den Datensatz state.x77. (b) Beschreiben Sie den Datensatz (Anzahl Stichproben, Anzahl Merkmale, gemessene Daten, etc.). (c) Verschaen Sie sich einen Überblick über die Daten durch Berechnung von Fünf-Punkte-Zusammenfassungen (Funktion summary), Erzeugung von Boxplots und Berechnung von Standardabweichungen für die einzelnen Variablen. Welche Variablen streuen stark? Gibt es Ausreiÿer in den Daten? (d) Visualisieren Sie Scatter Plots für je zwei Variable mit Hilfe eines pairs-Plot. (e) Berechnen Sie die Korrelationsmatrix und stellen Sie diese graphisch dar (Funktion image). Welche Variablen sind stark positiv bzw. negativ korreliert? (f) Unter Annahme der Normalverteilung für die Variable Income, testen Sie, ob Bewohner des Staates Alaska signikant mehr verdienen als Bewohner der übrigen Bundesstaaten (Hinweis: betrachten Sie die Stichprobe der Variable Income ohne den Wert für Alaska und testen Sie dann mit Hilfe eines t-Tests). (g) Untersuchen Sie mit Hilfe einfacher linearer Regression, ob es einen signikanten Zusammenhang zwischen den Variablen Illiteracy und Murder gibt (Funktion lm). Interpretieren Sie die Ergebnisse und plotten Sie die Regressionsgerade in den entsprechenden Scatter Plot (Funktion abline). Überprüfen Sie mit Hilfe eines qqnorm-Plots, ob die Residuen annähernd normalverteilt sind. 2. Kerndichteschätzung Wählen Sie zwei beliebige Variablen aus dem state.x77-Datensatz, für welche Sie (a) Histogramme (Funktion hist) bzw. Häugkeitspolygone und (b) Kerndichteschätzungen (Funktion density) berechnen. Achten Sie dabei auf die passende Wahl der Klassen- bzw. Bandbreite und wählen Sie eine geeignete Kernfunktion. Welche Eekte haben zu kleine bzw. zu groÿe Klassen- bzw. Bandbreiten auf die Histogramm- bzw. Kerndichteschätzungen? Berechnen Sie weiters die Kerndichteschätzung für die gemeinsame Dichte der gewählten Variablen (Funktion sm.density). 1 3. Monte Carlo Methoden (a) Erzeugung von Zufallszahlen: i. Simulieren Sie sich N (2, 102 )-verteilte Zufallszahlen (n = 5000) mit Hilfe der ICDF-Methode (Hinweis: die inverse Verteilungsfunktion der Normalverteilung erhält man über den Befehl qnorm). Vergleichen Sie die Histogramm- bzw. Dichteschätzung der Simulationen mit der wahren Dichtefunktion der N (2, 102 )-Verteilung (Funktion dnorm). ii. Simulieren Sie von einer Be(10, 5)-Verteilung mit Hilfe der Acceptance-Rejection Methode (n = 5000). Als Candidate Density verwenden Sie eine U [0, 1]-Verteilung. Überprüfen Sie mit Hilfe eines Kolmogorov-Smirnov Tests (Funktion ks.test), ob die simulierten Werte tatsächlich von einer Be(10, 5)-Verteilung kommen. (b) Importance Sampling und MC Integration : Berechnen Sie Zπ/2Zπ sin(x) cos(y)dxdy (= 2) θ= 0 (c) 4. 0 mit Hilfe von Importance Sampling. Als Importance Dichten wählen Sie sowohl eine Normalverteilung für x, als auch für y (Hinweis: Für die Integration spielen nur Simulationswerte x ∈ [0, π] bzw. y ∈ [0, π/2] eine Rolle). Berechnen Sie weiters ein Kondenzintervall für die Schätzung von θ, um die Schätzgenauigkeit beurteilen zu können. ML-Schätzung und MH Sampling: Simulieren Sie sich n = 50 Daten aus einer Be(a = 10, b = 5)-Verteilung mit Hilfe der rbetaFunktion. Berechnen Sie die ML-Schätzer für a und b anhand der simulierten Daten mit Hilfe i. der Funktion maxLik oder nlm und ii. durch Anwendung eines MH-Algorithmus (Funktion MCMCmetrop1R) zur Simulation der Posterior Verteilungen für a und b bzgl. einer nicht-informativen Prior (d.h. die Posterior ist einfach die Likelihood) und anschlieÿender Bestimmung der Maximalwerte der Posterior Verteilungen. Überprüfen Sie die erzeugten Zeitreihen (Markovketten) graphisch auf Konvergenz. Hinweis: für die Aufstellung der Likelihoodfunktion verwenden Sie die Funktion dbeta. Bootstrapping (a) Schreiben Sie eine R-Funktion, mit welcher Sie die ML-Schätzungen für a und b aus Aufgabe 3c (nicht-parametrisch) bootstrappen. Der Funktion soll das, bereits in Aufgabe 3c erzeugte Sample, als auch die Anzahl der Bootstrap-Iterationen übergeben werden. Hinweis: zum Ziehen aus der Urne verwenden Sie die Funktion sample. (b) Vergleichen Sie die Bootstrap-Verteilungen der ML-Schätzer für a und b mit den, in Aufgabe 3c gewonnenen Verteilungen aus dem MH-Sampling. Berechnen Sie die Bootstrap-Kondenzintervalle und überprüfen Sie, ob die tatsächlichen Werte a = 10 und b = 5 in den jeweiligen Intervallen liegen. 5. Scatter Plot Smoothing und Kernel Regression Berechnen Sie für den Scatterplot bzgl. der Variablen Illiteracy und Murder im state.x77-Datensatz (a) (b) (c) (d) den Nadaraya-Watson Smoother mit default Bandbreite (ksmooth), den Nadaraya-Watson Smoother mit lokaler Bandbreite (lokerns), den Gasser-Müller Smoother (glkerns) und den Spline Smoother mit default Smoothing Parameter (smooth.spline). Vergleichen Sie die Ergebnisse graphisch untereinander, als auch mit der in Aufgabe Regressionsgerade. Welche Smoothing Kurve würden Sie in diesem Fall wählen? Allgemeiner Hinweis: 1g ermittelten Um weitere Informationen zu R-Funktionen zu erhalten, verwenden Sie die R-Hilfe (mittels ? oder help()). 2