Logistische Regression M. Gruber 20.11.2015 Beispiel 1 (Kreditanalyse) [AMMIL12], Example 3.4. Kreditanalyse f uhrt je nach Art der Fragestellung zu verschiedenen Grundaufgaben des Maschinenlernens. Fragestellung Lernmethode Lernalgorithmus Vergabe Ja/Nein? Perzeptron PLA, Pocket Kredith ohe? Lineare Regression Pseudoinverse Ausfallwahrscheinlichkeit? Logistische Regression Gradientenabstieg P P P Fehlerfunktion T 1 N 1nN [sgn w xn 6= yn ] T 2 1 N 1nN jw xn ynTj y w x 1 n n) N 1nN ln(1 + e Bei der logistischen Regression wird die bedingte Wahrscheinlichkeit P(y j x), y = 1, gelernt, die fur die Entstehung der Lernmenge D = f[x1 ; y1 ]; : : : ; [xN ; yN ]g verantwortlich ist. Der Ansatz fur die Hypothese w ist 8 >< ewT x wT x P(y j x) = 1 + e wT x >:1 e fur y = 1; fur y = 1: 1 + ewT x es Die verwendete Funktion (s) = hat zwei schone Eigenschaften. Erstens bildet sei die reellen 1 + es Zahlen auf das Intervall [0; 1] ab. Ihre Werte konnen als Wahrscheinlichkeiten interpretiert werden. Zweitens ist 1 (s) = ( s). Das erlaubt eine einfachere Darstellung von P(y j x), namlich P(y j x) = (ywT x) = eyw x fur y = 1: 1 + eywT x T Welche Hypothese w ist die beste? Diejenige, die die Lermenge am wahrscheinlichsten erscheinen lasst (Likelihood-Argument). Gesucht ist also die Hypothese w, die das Likelihood-Ma Y 1nN maximiert. Es ist Y 1nN P(yn j xn ) = (yn wT xn ) = Y Y 1nN (yn wT xn ) Y eyn w xn 1 yn wT xn = yn wT xn : 1 + e 1 + e 1nN 1nN T Q P 1 T Statt 1nN ln(1 + e yn w xn ) maximieren oder den KreuzT xn kann man 1nN y w n 1+e entropiefehler T 1 X ln(1 + e yn w xn ) N 1nN minimieren. 1 WS 2015/16 Statistical Learning Vorlesung 7 Zur Minimierung des Kreuzentropiefehlers kann man auf die Gradientenabstiegsmethode zuruckT greifen. Sei en (w) = ln(1 + e yn w xn ). Der Gradientenabstieg iteriert den Schritt wneu walt 1 N X 1nN ren (walt ) bis zur Erreichung eines (lokalen) Minimums. Dabei ist ein geeigneter Lernkoezient. Es ist ren (w) = (+yn wT xn )yn xn . Der Aufwand fur den Gradientenabstieg ist hoch, denn bei jedem Schritt muss die gesamte Lernmenge zur Berechnung von wneu herangezogen werden. Gunstiger ist der stochastische Gradientenabstieg. Bei diesem wird f ur jeden Schritt ein n 2 f1; : : : ; N g zufallig bestimmt und wneu walt ren (walt ) ausgefuhrt. In unserem Fall bedeutet dies wneu T xn )yn xn : walt + (yn walt Fur den stochastischen Gradientenabstieg sprechen drei Argumente. Erstens ist der Erwartungswert seiner Einzelschritte der Einzelschritt aus dem klassischen Gradientenabstieg. Zweitens bleibt der stochastische Gradientenabstieg nicht so leicht in einem lokalen Minimum stecken wie der klassische. Und drittens ist der Aufwand geringer. Fur den Lernkoezient ist 0:1 oft die passende Wahl (Erfahrungswert). Literatur [AMMIL12] Yaser S. Abu-Mostafa, Malik Magdon-Ismail, and Hsuan-Tien Lin. Data. AMLbook.com, rst edition, 2012. Learning From 2