2 2 2 F

Werbung
Validierung
M. Gruber
11.12.2015
Zusammenfassung
Validierung ist eine Methode zur Schatzung des out-of-sample errors. Ein Teil der Lernmenge (z.B. 20%) wird zum Zwecke der Validierung als sog. Validierungsmenge abgezweigt.
Streng genommen darf die Validierungsmenge dann nicht mehr zum Lernen herangezogen werden. Wenn man dies aber doch tut, muss man darauf achten, dass sich die damit eingehandelte
\optimistische Verzerrung" (optimistic bias ) in Grenzen halt. Eine Anwendung der Validierung besteht z.B. darin, mehrere Lernmodelle zu vergleichen und sich f
ur das Lernmodell mit
dem geringsten Validierungsfehler zu entscheiden.
Der Validierungfehler Errval (h)
Die Lernmenge wird disjunkt zerlegt in eine Trainingsmenge
und eine Validierungsmenge: D = Dtrain [ Dval mit jDj = N , jDval j = K und jDtrain j = N K .
Fur h 2 H und den Datenpunkt [x; y ] sei e(h(x); y ) der elementare Fehler (im Klassizierungsfall:
e(h(x); y )) = [h(x) 6= y ], im Regressionsfall: e(h(x); y )) = (h(x) y )2 ).
Der out-of-sample error Errout (h) ist der Erwartungswert E e(h(:); :). Bezeichnen wir die
zugehorige Varianz Var e(h(:); :) = E(e(h(:); P
:) Errout (h))2 mit 2 .
1
Der Validierungsfehler Errval (h) := K [x;y]2Dval e(h(x); y ) ist der Mittelwert von K unabhangigen Realisierungen der Zufallsvariablen
e(h(:); h). Er ist ein erwartungstreuer Schatzer fur
1 P E e(h(:); :) = 1 K Err
Err
out (h), denn E Errval (h) = K
out (h). Seine Varianz ist Var Errval (h) =
K
P 1 2 2
( K ) = 2 =K (\Varianzreduktion durch Mittelung"). Somit ist
p
Errout (h) Errval (h) + O 1= K :
Je groer K ist, desto genauer schatzt der Errval den Errout . Andrerseits wissen wir: je kleiner
der Umfang N K der Trainingsmenge ist, desto groer ist die Wahrscheinlichkeit eines groen
Generalisierungsfehlers.
Einfache Anwendung Die empfohlene Kompromiss f
ur die Aufteilung der Lernmenge in Trainingsund Validierungsmenge ist K = N=5 (\Erfahrungswert").
Anwendung “Modellselektion” Gegeben seien M Lernmodelle mit den Hypothesenmengen
H1 ; H2 ; : : : ; HM und eine gemeinsame Lernmenge D = Dtrain [ Dval . Auf Dtrain wird gelernt.
Die nale Hypothese aus Hk sei gk fur k = 1; : : : ; M . Die Validierungsfehler Errval (gk ) werden
berechnet. Sei k der Index mit dem kleinten Validierungfehler. Im k -ten Lernmodell wird nun
auf ganz D gelernt. Ergebnis ist die nale Hypothese gk mit
Errout (gk ) Errout (gk ) Errval (gk ) + O
1
p
(ln M )=K :
WS 2015/16
Statistical Learning
Vorlesung 11
Das sogenannte K -Dilemma besteht darin, dass man fur Errout (gk ) Errout (gk ) ein moglichst
kleines K braucht, aber fur Errout (gk ) Errval (gk ) ein moglichst groes.
Es gibt einen Ausweg. . .
Kreuzvalidierung
Leave-one-out cross validation
(K=1)
– D = f[x1 ; y1 ]; : : : ; [xn ; yn ]g,
– Dn = D n f[xn ; yn ]g
! nale Hypothese g
n
– Errval (gn ) = e(gn (xn ); yn ) =: en ,
–
cross validation error:
Errcv =
1
N
P
,
e .
gewinnt.
1nN
– Das Lernmodell mit dem kleinsten Errcv
n
– Hoher Rechenaufwand!
10-fold
cross validation
Man bildet Blocke der Groe K = N=10 und lasst beim Training jeweils einen Block aus. Auf
diesem wird der Validierungsfehler bestimmt. Das arithmetische Mittel aller Validierungsfehler ist der Kreuzvalidierungsfehler. Dieser wird als Kriterium fur die Wahl des SiegerLernmodells herangezogen.
2
Herunterladen