Validierung M. Gruber 11.12.2015 Zusammenfassung Validierung ist eine Methode zur Schatzung des out-of-sample errors. Ein Teil der Lernmenge (z.B. 20%) wird zum Zwecke der Validierung als sog. Validierungsmenge abgezweigt. Streng genommen darf die Validierungsmenge dann nicht mehr zum Lernen herangezogen werden. Wenn man dies aber doch tut, muss man darauf achten, dass sich die damit eingehandelte \optimistische Verzerrung" (optimistic bias ) in Grenzen halt. Eine Anwendung der Validierung besteht z.B. darin, mehrere Lernmodelle zu vergleichen und sich f ur das Lernmodell mit dem geringsten Validierungsfehler zu entscheiden. Der Validierungfehler Errval (h) Die Lernmenge wird disjunkt zerlegt in eine Trainingsmenge und eine Validierungsmenge: D = Dtrain [ Dval mit jDj = N , jDval j = K und jDtrain j = N K . Fur h 2 H und den Datenpunkt [x; y ] sei e(h(x); y ) der elementare Fehler (im Klassizierungsfall: e(h(x); y )) = [h(x) 6= y ], im Regressionsfall: e(h(x); y )) = (h(x) y )2 ). Der out-of-sample error Errout (h) ist der Erwartungswert E e(h(:); :). Bezeichnen wir die zugehorige Varianz Var e(h(:); :) = E(e(h(:); P :) Errout (h))2 mit 2 . 1 Der Validierungsfehler Errval (h) := K [x;y]2Dval e(h(x); y ) ist der Mittelwert von K unabhangigen Realisierungen der Zufallsvariablen e(h(:); h). Er ist ein erwartungstreuer Schatzer fur 1 P E e(h(:); :) = 1 K Err Err out (h), denn E Errval (h) = K out (h). Seine Varianz ist Var Errval (h) = K P 1 2 2 ( K ) = 2 =K (\Varianzreduktion durch Mittelung"). Somit ist p Errout (h) Errval (h) + O 1= K : Je groer K ist, desto genauer schatzt der Errval den Errout . Andrerseits wissen wir: je kleiner der Umfang N K der Trainingsmenge ist, desto groer ist die Wahrscheinlichkeit eines groen Generalisierungsfehlers. Einfache Anwendung Die empfohlene Kompromiss f ur die Aufteilung der Lernmenge in Trainingsund Validierungsmenge ist K = N=5 (\Erfahrungswert"). Anwendung “Modellselektion” Gegeben seien M Lernmodelle mit den Hypothesenmengen H1 ; H2 ; : : : ; HM und eine gemeinsame Lernmenge D = Dtrain [ Dval . Auf Dtrain wird gelernt. Die nale Hypothese aus Hk sei gk fur k = 1; : : : ; M . Die Validierungsfehler Errval (gk ) werden berechnet. Sei k der Index mit dem kleinten Validierungfehler. Im k -ten Lernmodell wird nun auf ganz D gelernt. Ergebnis ist die nale Hypothese gk mit Errout (gk ) Errout (gk ) Errval (gk ) + O 1 p (ln M )=K : WS 2015/16 Statistical Learning Vorlesung 11 Das sogenannte K -Dilemma besteht darin, dass man fur Errout (gk ) Errout (gk ) ein moglichst kleines K braucht, aber fur Errout (gk ) Errval (gk ) ein moglichst groes. Es gibt einen Ausweg. . . Kreuzvalidierung Leave-one-out cross validation (K=1) – D = f[x1 ; y1 ]; : : : ; [xn ; yn ]g, – Dn = D n f[xn ; yn ]g ! nale Hypothese g n – Errval (gn ) = e(gn (xn ); yn ) =: en , – cross validation error: Errcv = 1 N P , e . gewinnt. 1nN – Das Lernmodell mit dem kleinsten Errcv n – Hoher Rechenaufwand! 10-fold cross validation Man bildet Blocke der Groe K = N=10 und lasst beim Training jeweils einen Block aus. Auf diesem wird der Validierungsfehler bestimmt. Das arithmetische Mittel aller Validierungsfehler ist der Kreuzvalidierungsfehler. Dieser wird als Kriterium fur die Wahl des SiegerLernmodells herangezogen. 2