Maschinelles Lernen Übungsblatt 4 Prof. Dr. Dr. Lars Schmidt-Thieme, Zeno Gantner Wirtschaftsinformatik und Maschinelles Lernen (ISMLL) Universität Hildesheim 19. November 2007 Abgabe bis 26. November Aufgabe 1: IRLS (20 Punkte) Seien folgende Daten gegeben: y x y x 0 9.5 1 11.1 0 9.6 1 11.1 0 9.7 1 11.1 0 9.8 1 11.5 0 9.9 1 11.8 0 10.5 1 11.9 0 11.0 1 12.1 0 11.2 1 12.2 0 11.5 1 12.5 0 11.7 1 12.6 0 12.1 1 12.6 a) Wenden Sie lineare Regression an und berechnen Sie β̂, ŷ, RSS. b) Wenden Sie den Algorithmus iteratively reweighted least squares an. Stoppen Sie nach der zweiten Iteration. c) Plotten Sie die geschätzten Funktionen aus (a) und (b) und die Daten. Diskutieren Sie die Ergebnisse. Aufgabe 2: Logistische Regression (20 Punkte) Nehmen wir folgendes Problem an: Ein Mediziner möchte herausfinden, ob ein bestimmtes Antibiotikum eine Auswirkung auf das Auftreten einer Infektion bei Frauen nach einem Kaiserschnitt hat. Er geht von einem einfachen linearen Regressionsmodell aus: y = β0 + β1 x + ε 1 ŷ = βˆ0 + βˆ1 x y = 1 bedeutet, dass eine Infektion in den nächsten 2 Wochen auftritt, y = 0, dass keine Infektion auftritt. x codiert die verabreichte Menge des Antibiotikums. Bei der Zielvariable handelt es sich um eine binomiale Zufallsvariable mit der folgenden diskreten Verteilung: p(y) = 1 − p wenn y = 0 p(y) = p wenn y = 1 a) Warum sollte man lineare Regression nicht auf Daten mit binärer Zielvariable anwenden? Beachten Sie hierbei den Fehler ε und die Varianz σ 2 . Welchen Wert nimmt ε für y = 1 und y = 0 an? Welchen Wert nimmt σ 2 ? b) Wir nehmen an, dass die Varianz nicht für alle x Werte gleich ist. Welche Methode kann angewandt werden, um das Problem zu lösen? c) Nehmen wir an, wir setzen logistische Regression ein. Beschreiben Sie das Verhalten der logistischen Funktion bezüglich β. 2