Biostatistik und Versuchsplanung 1. Übungsblatt WS 2015/16 1. Explorative Analyse eines Datensatzes [R] In dieser Aufgabe sollen drei für Sie generierte Datenreihen analysiert werden. Diese sind als einzelner Datensatz in Form einer Textdatei von http://genome.tugraz.at/biostatistics/y2015/ex1/hist_data.csv herunterzuladen. Der Datensatz dokumentiert das Auftreten von drei häufigen Ereignissen, welche über einen Zeitraum von 30 Tagen aufgezeichnet wurden. Jeder Eintrag entspricht einem dokumentierten Ereignis. [1P] a. Verwenden Sie den Befehl read.table um den Datensatz in R einzulesen. Verschaffen Sie sich mit str einen Überblick über die enthaltenen Daten. [1.5P] b. Erstellen Sie jeweils ein Histogramm mit optimaler Klassenbreite für jede Datenreihe. Die Histogramme sollen die den Daten zugrunde liegenden Verteilungen ausreichend widerspiegeln. Zeichnen Sie die Mittelwerte als vertikale Linie ein und achten Sie auf ein korrektes Setzen der Klassengrenzen. Nennen Sie jeweils die Art der vorliegenden Verteilung. [2.5P] c. Erstellen Sie Box-and-Whisker-Plots für die Datenreihen und bestimmen Sie die unterschiedlichen Lage- und Streuungsparameter (Minimum, Maximum, 1., 2. und 3. Quantil, Mittelwert, Standardabweichung, Standardfehler des Mittelwertes, Modalwert, Variationskoeffizient, Kurtosis und Schiefe). Tabellieren Sie Ihre Ergebnisse. Was sagen diese Parameter über die Daten aus? Versuchen Sie Ihre im Punkt b. getroffene Charakterisierung der Datenreihen anhand Ihrer Ergebnisse zu verifizieren. 2. ROC-Kurve Ein Testverfahren zur Diagnose von Typ 1 Diabetes misst den HbA1c Wert im Blut (Langzeit-Blutzucker). Um das Testverfahren richtig einzustellen, wurde bei einer Gruppe von Patienten ein Bluttest durchgeführt. HbA1c (in mmol/mol) [0; 31) [31; 48) [48; 51) [51; 103) Gesamt krank 1 5 19 28 53 nicht krank 39 22 11 2 74 [1P] a. Der Test fällt positiv aus, falls der HbAc1 Wert größer oder gleich dem gewählten Cutoff ist, unabhängig davon, ob tatsächlich eine Krankheit vorliegt. Wählen Sie einen Cutoff von 31 und zwei weitere geeignete Cutoffs und berechnen Sie die SN, SP, PPV, NPV, Prävalenz und Genauigkeit. [1P] b. Zeichnen Sie die ROC-Kurve und bestimmen Sie anhand der Kurve, welcher Cutoff am geeignetsten für die Diagnose von Diabetes ist. Begründen Sie Ihre Wahl! 1 Biostatistik und Versuchsplanung 3. Diagnostische Tests Zur abschließenden Beurteilung eines neuen Schwangerschaftstests wurde eine Gruppe von Frauen untersucht. Dabei wurden die Sensitivität SN (Wahrscheinlichkeit für ein positives Testergebnis, gegeben dass tatsächlich eine Schwangerschaft vorliegt) und die Spezifität SP (Wahrscheinlichkeit eines negativen Testergebnisses, gegeben dass keine Schwangerschaft vorliegt) berechnet. Ebenso wurde die Prävalenz p (die Wahrscheinlichkeit, dass eine zufällig ausgewählte Frau schwanger ist) ermittelt. [0.75P] a. Berechnen Sie mit den gegebenen Werten den P P V (Positive Predictive Value), also die Wahrscheinlichkeit, dass eine Frau tatsächlich schwanger ist, gegeben dass der Test positiv ausfällt. SN = 0.98, SP = 0.85, p = 0.05 [1.25P] b. Wie ändert sich das Ergebnis wenn die Prävalenz p = 0, 2 beträgt? Was lässt sich aus den Ergebnissen für den Einfluss von p auf den P P V ableiten? Hinweis zur Abgabe: Fassen Sie Ihre Ergebnisse und Interpretationen in Form eines PDF-Dokuments (*.pdf ) zusammen. Speichern Sie das Dokument unter Protokoll1_Nachname1_Nachname2.pdf ab. Geben Sie, zusätzlich zum PDF-File, Ihren verwendeten R-Code als *.R-Datei ab. Abgabe bis spätestens 18.10.2015 23:59 an [email protected] mit dem Betreff: Biostatistik Abgabe 1. 2