Maschinelles Lernen Übungsblatt 4 - ISMLL

Maschinelles Lernen
Übungsblatt 4
Prof. Dr. Dr. Lars Schmidt-Thieme, Zeno Gantner
Wirtschaftsinformatik und Maschinelles Lernen (ISMLL)
Universität Hildesheim
19. November 2007
Abgabe bis 26. November
Aufgabe 1: IRLS (20 Punkte)
Seien folgende Daten gegeben:
y
x
y
x
0 9.5
1 11.1
0 9.6
1 11.1
0 9.7
1 11.1
0 9.8
1 11.5
0 9.9
1 11.8
0 10.5 1 11.9
0 11.0 1 12.1
0 11.2 1 12.2
0 11.5 1 12.5
0 11.7 1 12.6
0 12.1 1 12.6
a)
Wenden Sie lineare Regression an und berechnen Sie β̂, ŷ, RSS.
b)
Wenden Sie den Algorithmus iteratively reweighted least squares an. Stoppen Sie nach der zweiten Iteration.
c)
Plotten Sie die geschätzten Funktionen aus (a) und (b) und die Daten. Diskutieren Sie die Ergebnisse.
Aufgabe 2: Logistische Regression (20 Punkte)
Nehmen wir folgendes Problem an: Ein Mediziner möchte herausfinden, ob ein bestimmtes Antibiotikum
eine Auswirkung auf das Auftreten einer Infektion bei Frauen nach einem Kaiserschnitt hat. Er geht von
einem einfachen linearen Regressionsmodell aus:
y = β0 + β1 x + ε
1
ŷ = βˆ0 + βˆ1 x
y = 1 bedeutet, dass eine Infektion in den nächsten 2 Wochen auftritt, y = 0, dass keine Infektion
auftritt. x codiert die verabreichte Menge des Antibiotikums.
Bei der Zielvariable handelt es sich um eine binomiale Zufallsvariable mit der folgenden diskreten
Verteilung:
p(y) = 1 − p wenn y = 0
p(y) = p wenn y = 1
a)
Warum sollte man lineare Regression nicht auf Daten mit binärer Zielvariable anwenden? Beachten Sie
hierbei den Fehler ε und die Varianz σ 2 . Welchen Wert nimmt ε für y = 1 und y = 0 an? Welchen Wert
nimmt σ 2 ?
b)
Wir nehmen an, dass die Varianz nicht für alle x Werte gleich ist. Welche Methode kann angewandt werden,
um das Problem zu lösen?
c)
Nehmen wir an, wir setzen logistische Regression ein. Beschreiben Sie das Verhalten der logistischen
Funktion bezüglich β.
2