Computational Statistics Allgemeine Informationen Projektaufgaben

Werbung
Projektarbeit
Computational Statistics
SS12/13
D. Kurz
Allgemeine Informationen
Diese Angabe enthält 5 Projektaufgaben, welche Sie entweder alleine oder zusammen mit einem/einer PartnerIn lösen sollen. Jede Projektaufgabe ist einem der Kapitel 2 − 6 im Skriptum zugeordnet. Die Kenntnisse
der LV-Inhalte werden für das Bearbeiten der Projektaufgaben vorausgesetzt.
Die Projektaufgaben sind im R auszuarbeiten und die Ergebnisse (z.B. erzeugte Graken etc.) bzw. Antworten
auf die gestellten Fragen zu dokumentieren (LaTeX oder Word). Die Projektarbeit gilt als abgegeben, falls
sowohl das fertige R-Skript, als auch die fertige Dokumentation abgegeben wurden.
Mit der Abgabe der Projektarbeit soll ein Nachbesprechungstermin vereinbart werden, im Zuge dessen die
abgegebenen Projektaufgaben durchbesprochen bzw. grundlegende stospezische Fragen aus dem Themenbereich der jeweiligen Projektaufgabe gestellt werden (gehen Sie dafür das Skriptum durch). Die Nachbesprechung ndet einzeln statt.
Die LV-Note setzt sich dann zu 3/4 aus der Note auf die Projektarbeit und 1/4 aus der Note auf die PrüfungsNachbesprechung zusammen. Für eine positive Note müssen beide Prüfungsteile positiv bewertet sein.
Projektaufgaben
1.
Explorative Datenanalyse und
R-Graphics
Analysieren Sie den Datensatz state.x77 mit Hilfe besprochener explorativer Methoden.
(a) Laden Sie den Datensatz state.x77.
(b) Beschreiben Sie den Datensatz (Anzahl Stichproben, Anzahl Merkmale, gemessene Daten, etc.).
(c) Verschaen Sie sich einen Überblick über die Daten durch Berechnung von Fünf-Punkte-Zusammenfassungen (Funktion summary), Erzeugung von Boxplots und Berechnung von Standardabweichungen für die einzelnen Variablen. Welche Variablen streuen stark? Gibt es Ausreiÿer in den Daten?
(d) Visualisieren Sie Scatter Plots für je zwei Variable mit Hilfe eines pairs-Plot.
(e) Berechnen Sie die Korrelationsmatrix und stellen Sie diese graphisch dar (Funktion image). Welche
Variablen sind stark positiv bzw. negativ korreliert?
(f) Unter Annahme der Normalverteilung für die Variable Income, testen Sie, ob Bewohner des Staates
Alaska signikant mehr verdienen als Bewohner der übrigen Bundesstaaten (Hinweis: betrachten
Sie die Stichprobe der Variable Income ohne den Wert für Alaska und testen Sie dann mit Hilfe
eines t-Tests).
(g) Untersuchen Sie mit Hilfe einfacher linearer Regression, ob es einen signikanten Zusammenhang
zwischen den Variablen Illiteracy und Murder gibt (Funktion lm). Interpretieren Sie die Ergebnisse und plotten Sie die Regressionsgerade in den entsprechenden Scatter Plot (Funktion abline).
Überprüfen Sie mit Hilfe eines qqnorm-Plots, ob die Residuen annähernd normalverteilt sind.
2.
Kerndichteschätzung
Wählen Sie zwei beliebige Variablen aus dem state.x77-Datensatz, für welche Sie
(a) Histogramme (Funktion hist) bzw. Häugkeitspolygone und
(b) Kerndichteschätzungen (Funktion density)
berechnen. Achten Sie dabei auf die passende Wahl der Klassen- bzw. Bandbreite und wählen Sie eine
geeignete Kernfunktion. Welche Eekte haben zu kleine bzw. zu groÿe Klassen- bzw. Bandbreiten auf
die Histogramm- bzw. Kerndichteschätzungen? Berechnen Sie weiters die Kerndichteschätzung für die
gemeinsame Dichte der gewählten Variablen (Funktion sm.density).
1
3.
Monte Carlo Methoden
(a)
Erzeugung von Zufallszahlen:
i. Simulieren Sie sich N (2, 102 )-verteilte Zufallszahlen (n = 5000) mit Hilfe der ICDF-Methode
(Hinweis: die inverse Verteilungsfunktion der Normalverteilung erhält man über den Befehl
qnorm). Vergleichen Sie die Histogramm- bzw. Dichteschätzung der Simulationen mit der
wahren Dichtefunktion der N (2, 102 )-Verteilung (Funktion dnorm).
ii. Simulieren Sie von einer Be(10, 5)-Verteilung mit Hilfe der Acceptance-Rejection Methode
(n = 5000). Als Candidate Density verwenden Sie eine U [0, 1]-Verteilung. Überprüfen Sie mit
Hilfe eines Kolmogorov-Smirnov Tests (Funktion ks.test), ob die simulierten Werte tatsächlich von einer Be(10, 5)-Verteilung kommen.
(b) Importance Sampling und MC Integration :
Berechnen Sie
Zπ/2Zπ
sin(x) cos(y)dxdy (= 2)
θ=
0
(c)
4.
0
mit Hilfe von Importance Sampling. Als Importance Dichten wählen Sie sowohl eine Normalverteilung für x, als auch für y (Hinweis: Für die Integration spielen nur Simulationswerte x ∈ [0, π]
bzw. y ∈ [0, π/2] eine Rolle). Berechnen Sie weiters ein Kondenzintervall für die Schätzung von θ,
um die Schätzgenauigkeit beurteilen zu können.
ML-Schätzung und MH Sampling:
Simulieren Sie sich n = 50 Daten aus einer Be(a = 10, b = 5)-Verteilung mit Hilfe der rbetaFunktion. Berechnen Sie die ML-Schätzer für a und b anhand der simulierten Daten mit Hilfe
i. der Funktion maxLik oder nlm und
ii. durch Anwendung eines MH-Algorithmus (Funktion MCMCmetrop1R) zur Simulation der Posterior Verteilungen für a und b bzgl. einer nicht-informativen Prior (d.h. die Posterior ist einfach
die Likelihood) und anschlieÿender Bestimmung der Maximalwerte der Posterior Verteilungen.
Überprüfen Sie die erzeugten Zeitreihen (Markovketten) graphisch auf Konvergenz.
Hinweis: für die Aufstellung der Likelihoodfunktion verwenden Sie die Funktion dbeta.
Bootstrapping
(a) Schreiben Sie eine R-Funktion, mit welcher Sie die ML-Schätzungen für a und b aus Aufgabe 3c
(nicht-parametrisch) bootstrappen. Der Funktion soll das, bereits in Aufgabe 3c erzeugte Sample,
als auch die Anzahl der Bootstrap-Iterationen übergeben werden. Hinweis: zum Ziehen aus der
Urne verwenden Sie die Funktion sample.
(b) Vergleichen Sie die Bootstrap-Verteilungen der ML-Schätzer für a und b mit den, in Aufgabe 3c
gewonnenen Verteilungen aus dem MH-Sampling. Berechnen Sie die Bootstrap-Kondenzintervalle
und überprüfen Sie, ob die tatsächlichen Werte a = 10 und b = 5 in den jeweiligen Intervallen
liegen.
5.
Scatter Plot Smoothing und Kernel Regression
Berechnen Sie für den Scatterplot bzgl. der Variablen Illiteracy und Murder im state.x77-Datensatz
(a)
(b)
(c)
(d)
den Nadaraya-Watson Smoother mit default Bandbreite (ksmooth),
den Nadaraya-Watson Smoother mit lokaler Bandbreite (lokerns),
den Gasser-Müller Smoother (glkerns) und
den Spline Smoother mit default Smoothing Parameter (smooth.spline).
Vergleichen Sie die Ergebnisse graphisch untereinander, als auch mit der in Aufgabe
Regressionsgerade. Welche Smoothing Kurve würden Sie in diesem Fall wählen?
Allgemeiner Hinweis:
1g
ermittelten
Um weitere Informationen zu R-Funktionen zu erhalten, verwenden Sie die R-Hilfe (mittels ? oder help()).
2
Herunterladen