1. ¨Ubungsblatt WS 2015/16

Werbung
Biostatistik und Versuchsplanung
1. Übungsblatt WS 2015/16
1. Explorative Analyse eines Datensatzes [R]
In dieser Aufgabe sollen drei für Sie generierte Datenreihen analysiert
werden. Diese sind als einzelner Datensatz in Form einer Textdatei von
http://genome.tugraz.at/biostatistics/y2015/ex1/hist_data.csv
herunterzuladen. Der Datensatz dokumentiert das Auftreten von drei häufigen Ereignissen,
welche über einen Zeitraum von 30 Tagen aufgezeichnet wurden. Jeder Eintrag
entspricht einem dokumentierten Ereignis.
[1P] a. Verwenden Sie den Befehl read.table um den Datensatz in R einzulesen. Verschaffen Sie sich mit str einen Überblick über die enthaltenen Daten.
[1.5P] b. Erstellen Sie jeweils ein Histogramm mit optimaler Klassenbreite für jede
Datenreihe. Die Histogramme sollen die den Daten zugrunde liegenden Verteilungen
ausreichend widerspiegeln. Zeichnen Sie die Mittelwerte als vertikale Linie ein und achten Sie auf ein korrektes Setzen der Klassengrenzen. Nennen Sie jeweils die Art der
vorliegenden Verteilung.
[2.5P] c. Erstellen Sie Box-and-Whisker-Plots für die Datenreihen und bestimmen Sie
die unterschiedlichen Lage- und Streuungsparameter (Minimum, Maximum, 1., 2. und
3. Quantil, Mittelwert, Standardabweichung, Standardfehler des Mittelwertes, Modalwert, Variationskoeffizient, Kurtosis und Schiefe). Tabellieren Sie Ihre Ergebnisse. Was
sagen diese Parameter über die Daten aus? Versuchen Sie Ihre im Punkt b. getroffene
Charakterisierung der Datenreihen anhand Ihrer Ergebnisse zu verifizieren.
2. ROC-Kurve
Ein Testverfahren zur Diagnose von Typ 1 Diabetes misst den HbA1c Wert im Blut
(Langzeit-Blutzucker). Um das Testverfahren richtig einzustellen, wurde bei einer Gruppe von Patienten ein Bluttest durchgeführt.
HbA1c (in mmol/mol)
[0; 31)
[31; 48)
[48; 51)
[51; 103)
Gesamt
krank
1
5
19
28
53
nicht krank
39
22
11
2
74
[1P] a. Der Test fällt positiv aus, falls der HbAc1 Wert größer oder gleich dem
gewählten Cutoff ist, unabhängig davon, ob tatsächlich eine Krankheit vorliegt. Wählen
Sie einen Cutoff von 31 und zwei weitere geeignete Cutoffs und berechnen Sie die SN,
SP, PPV, NPV, Prävalenz und Genauigkeit.
[1P] b. Zeichnen Sie die ROC-Kurve und bestimmen Sie anhand der Kurve, welcher
Cutoff am geeignetsten für die Diagnose von Diabetes ist. Begründen Sie Ihre Wahl!
1
Biostatistik und Versuchsplanung
3. Diagnostische Tests
Zur abschließenden Beurteilung eines neuen Schwangerschaftstests wurde eine Gruppe
von Frauen untersucht. Dabei wurden die Sensitivität SN (Wahrscheinlichkeit für ein
positives Testergebnis, gegeben dass tatsächlich eine Schwangerschaft vorliegt) und die
Spezifität SP (Wahrscheinlichkeit eines negativen Testergebnisses, gegeben dass keine
Schwangerschaft vorliegt) berechnet. Ebenso wurde die Prävalenz p (die Wahrscheinlichkeit, dass eine zufällig ausgewählte Frau schwanger ist) ermittelt.
[0.75P] a. Berechnen Sie mit den gegebenen Werten den P P V (Positive Predictive
Value), also die Wahrscheinlichkeit, dass eine Frau tatsächlich schwanger ist, gegeben
dass der Test positiv ausfällt.
SN = 0.98, SP = 0.85, p = 0.05
[1.25P] b. Wie ändert sich das Ergebnis wenn die Prävalenz p = 0, 2 beträgt? Was
lässt sich aus den Ergebnissen für den Einfluss von p auf den P P V ableiten?
Hinweis zur Abgabe:
Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines PDF-Dokuments (*.pdf )
zusammen. Speichern Sie das Dokument unter Protokoll1_Nachname1_Nachname2.pdf
ab. Geben Sie, zusätzlich zum PDF-File, Ihren verwendeten R-Code als *.R-Datei ab.
Abgabe bis spätestens 18.10.2015 23:59 an [email protected] mit
dem Betreff: Biostatistik Abgabe 1.
2
Herunterladen