Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Hypothesenbewertung
Christoph Sawade/Niels Landwehr
Paul Prasse
Tobias Scheffer
Überblick
Hypothesenbewertung, Risikoschätzung
Anwendungen/Beispiele
Konfidenzintervalle
ROC-Analyse
2
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Überblick
Hypothesenbewertung, Risikoschätzung
Anwendungen/Beispiele
Konfidenzintervalle
ROC-Analyse
3
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Lernen und Vorhersage
Klassifikation Regression: Lernproblem
Klassifikation,
Eingabe: Trainingsdaten L (x1 , y1 ),..., (x m , ym )
Ausgabe: Hypothese (Modell) f : X Y
f ( x) ? Y
x X
Testbeispiel
Ziel des Lernens: genaue Vorhersagen treffen
Verschiedene Verfahren kennengelernt
Bayesian model averaging,
averaging MAP
MAP-Hypothesen
Hypothesen,…
Lineare Modelle, Entscheidungsbäume, Naive
Bayes…
4
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Hypothesenbewertung
Nachdem wir Verfahren implementiert
implementiert, Hypothese
trainiert haben etc.: wie gut sind die Vorhersagen?
Was g
genau heißt „g
„gut“?
Wie berechnet / misst / schätzt man es?
„Gut“ heißt vor allem: gut in der Zukunft, wenn die
gelernte Hypothese eingesetzt wird
„Hypothesenbewertung“:
y
g Abschätzung
g der
Genauigkeit von Vorhersagen
5
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Hypothesenbewertung
Zentrale Annahme: dem Lernproblem liegt eine
(unbekannte) Verteilung p(x,y) zugrunde
Verteilung über
Instanzen
Verteilung für Label
gegeben Instanz
p ( x, y ) p ( x ) p ( y | x )
Beispiel Spam-Filterung
Spam Filterung
p(x) Wahrscheinlichkeit dass wir Email x sehen
p(y|x) Wahrscheinlichkeit dass Mensch Email x als
y { אSpam/Ok} klassifiziert
6
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Hypothesenbewertung
„i.i.d.“-Annahme: Beispiele sind „independent and
identically distributed“.
Trainingsdaten werden unabhängig aus der
Verteilung p(x,y) gezogen:
(xi , yi ) ~ p (x, y )
Testdaten ebenfalls i.i.d. aus dieser Verteilung
gezogen
(x, y ) ~ p(x, y )
Trainingsbeispiele
Immer realistisch?
Testbeispiel
(Anwendung des Modells)
7
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Verlustfunktionen
Wir haben Annahmen darüber gemacht
gemacht, welche
Instanzen (x,y) auftauchen werden
Instanz (x,y), Hypothese sagt f(x).
Verlustfunktion definiert, wie schlecht das ist.
Verlust der Vorhersage f(x) auf Instanz (x,y)
Nicht-negativ: y, y ' : ( y, y ') 0
Problem-spezifisch,
p
g
gegeben.
g
( y, f (x))
Verlustfunktionen für Klassifikation
Zero-one loss: ( y, y ') 0, wenn y y '; 1, sonst
Klassenabhängige Kostenmatrix: ( y, y ') c yy '
Verlustfunktionen für Regression
Squared error:
( y, y ') ( y y ') 2
8
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Hypothesenbewertung
Beispiel Verlustfunktion Spam-Filterung:
c10 : y " spam ", f ( x) " ok "
( y, f (x)) c01 : y " okk "", f ( x) " spam "
0 : sonst
c10 Falsch-negativ Kosten (Spam als legitim vorhergesagt)
c01 Falsch-positive
p
Kosten ((legitim
g
als Spam
p
vorhergesagt)
g
g)
c10 c01
9
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Hypothesenbewertung: Risiko
Risiko einer Hypothese: erwarteter Verlust für eine neue
Instanz
(x, y ) ~ p (x, y )
Testbeispiel x mit Label y (Zufallsvariable)
( y, f (x))
Verlust auf Testbeispiel (Zufallsvariable)
R( f ) E[] ( y, f (x)) p(x, y )dxdy
Risiko=erwarteter Verlust
( y, y ') Zero-One-Loss:
Z
O L
Ri
Risiko
ik h
heisst
i t auch
hF
Fehlerrate.
hl
t
( y, y ') quadratische Fehler ( y y ') 2 : Risiko heisst auch
Mean Squared
q
Error.
Ziel: Risikobestimmung
Nicht möglich, das Risiko exakt zu bestimmen, weil
p(x,y) unbekannt ist → Schätzproblem
10
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Hypothesenbewertung:Risikoschätzung
) (x m , ym ) gegeben sind
Wenn Daten T (x1 , y1 ),...,
sind,
dann kann das Risiko geschätzt werden.
Empirisches Risiko
1
Rˆ ( f )
m
m
j 1
l ( y j , f (x j ))
(Empirische Fehlerrate, empirischer Mean Squared
Error,…).
Wichtig: Wo kommt T her?
Trainingsdaten (T=L)?
Verfügbare Daten in disjunkte L und T aufteilen.
Cross-Validation.
11
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Bias eines Schätzers
Empirischer Fehler ist Schätzer
1
Rˆ ( f )
m
m
j 1
l ( y j , f (x j ))
Schätzer ist Zufallsvariable.
Hängt von Menge T ab, auf der Risiko geschätzt wird
Instanzen in T zufällig gezogen
(xi , yi ) ~ p (x, y )
Welche (xi , yi ) werden gezogen?
g g
Schätzer hat einen Erwartungswert
Schätzer ist erwartungstreu, genau dann wenn:
Erwartungswert des empirischen Risikos = echtes Risiko
Risiko.
12
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Bias eines Schätzers
Schätzer
Rˆ ( f )
einen Bias:
Bias E[ Rˆ ( f )] R( f )
Bias < 0.
Schätzer ist pessimistisch, wenn
E[ Rˆ ( f )] R( f )
Schätzer ist optimistisch
optimistisch, wenn
ist erwartungstreu
erwartungstreu, genau dann wenn:
Ansonsten hat
Rˆ ( f )
Bias > 0.
Schätzer ist erwartungstreu, wenn
Bias = 0.
13
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Erwartungstreuer Risikoschätzer
Datensatz T (x1 , y1 ),...,(x m , ym )
Risikoschätzer
Schätzer auf T
(xi , yi ) ~ p (x, y )
1 m
ˆ
RT ( f ) j 1 l ( y j , f (x j ))
m
Risikoschätzer RˆT ( f ) für eine (festgehaltene, von T
unabhängige) Hypothese f :
Erwartungswert = echtes Risiko,
1 m
ˆ
E[ RT ( f )] E ( y j , f (x j ))
m j 1
Erwartungswert
1 m
1
über Datensätze
Datensät e T
E[( y j , f (x j ))] mR
R( f ) R( f )
m j 1
m
14
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Varianz eines Schätzers
Schätzer
Rˆ ( f )
hat eine Varianz
Var[ Rˆ ( f )] E[( Rˆ ( f ) E[ Rˆ ( f )]) 2 ] E[ Rˆ ( f ) 2 ] E[ Rˆ ( f )]2
Je größer die Stichprobe ist, die zum Schätzen
verwendet wird, desto geringer ist die Varianz.
Genaue Form der Varianz hängt von der Verlustfunktion
ab.
Hohe Varianz: großer „Zufallsanteil“ bei der Bestimmung
des empirischen Risikos
Risikos.
Großer Bias: systematischer Fehler bei der Bestimmung
des empirischen Risikos.
15
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Varianz eines Schätzers
Wert Rˆ ( f )
R
R
Erwarteter Fehler des Schätzers
und Varianz zerlegen
Varianz dominiert
Rˆ ( f )
lässt sich in Bias
E[( Rˆ ( f ) R) 2 ] E[ Rˆ ( f ) 2 2 RRˆ ( f ) R 2 ]
E[ Rˆ ( f )2 ] 2 RE[ Rˆ ( f )] R 2
E[ Rˆ ( f )]2 2 RE[ Rˆ ( f )] R 2 E[ Rˆ ( f ) 2 ] E[ Rˆ ( f )]2
( E[ Rˆ ( f )] R)2 Var[ Rˆ ( f )]
Bias[ Rˆ ( f )]2 Var[ Rˆ ( f )]
16
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Bias dominiert
Risikoschätzer auf den Trainingsdaten
Welche Menge T verwenden?
1. Versuch: Trainingsdaten L
Empirisches Risiko
auf den Trainingsdaten
L (x1 , y1 ),...,
) (x m , ym )
gemessen
gemessen.
Ist dieses empirische Risiko ein
1 m
Rˆ L ( f ) j 1 ( y j , f (x j ))
m
erwartungstreuer
optimistischer
p
pessimistischer
Schätzer für das echte Risiko und warum?
17
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Risikoschätzer auf den Trainingsdaten
Feste Trainingsmenge L
Empirisches Risiko aller Hypothesen für ein festes L?
Aufgrund der Varianz des Schätzers gilt für einige
Hypothesen f , dass Rˆ L ( f ) R( f ) und für andere
Hypothesen f , dass Rˆ L ( f ) R( f )
Lernalgorithmus wählt eine Hypothese f L mit kleinem
empirischen Risiko Rˆ L ( f L )
Wahrscheinlich, dass Rˆ L ( f L ) R ( f L )
18
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Risikoschätzer auf den Trainingsdaten
Empirisches Risiko der vom Lerner gewählten Hypothese
( Trainingsfehler“)) ist ein optimistischer Schätzer des echten
(„Trainingsfehler
Risikos:
E[ Rˆ L ( f L )] R ( f L )
f L vom Lerner ggewählte Hypothese,
yp
, Zufallsvariable
in Abhängigkeit von L
Problem ist die Abhängigkeit
gg
von g
gewählter Hypothese
yp
und
zur Fehlerschätzung verwendeten Daten
Ansatz: Testdaten verwenden, die von den Trainingsdaten
unabhängig sind.
19
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Holdout-Testing
Idee: Fehlerschätzung auf unabhängigen Testdaten
Gegeben: Daten D (x1 , y1 ),...,( x d , yd )
Teile Daten auf in
Trainingsdaten L (x1 , y1 ),...,(x m , ym ) und
Testdaten T (x m1 , ym1 ),...,(
) ( x d , yd )
L
T
20
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Holdout-Testing
Starte Lernalgorithmus mit Daten L,
L gewinne so
Hypothese f L .
Ermittle empirisches Risiko RˆT ( f L ) auf Daten T.
Starte Lernalgorithmus auf Daten D, gewinne so
fD .
Hypothese
yp
Ausgabe: Hypothese f D , benutze RˆT ( f L ) als
Schätzer für das Risiko von f D
L
T
21
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Holdout-Testing: Analyse
Ist der Schätzer
RˆT ( f L )
für Risiko der Hypothese
fD
erwartungstreu,
optimistisch,
pessimistisch?
22
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Holdout-Testing: Analyse
Schätzer
RˆT ( f L )
RˆT ( f L )
ist pessimistisch für R( f D ) :
ist erwartungstreu für f L
wurde mit weniger Trainingsdaten gelernt als f D
hat und daher im Erwartungswert ein höheres Risiko
fL
Aber Schätzer RˆT ( f L ) ist in der Praxis brauchbar,
während Rˆ L ( f L ) meist 0 (oder nahe 0) ist.
23
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Holdout-Testing: Analyse
Warum wird Hypothese f D trainiert und
zurückgeliefert?
f D und nicht f L , weil
Rückgegebene
g g
Hypothese
yp
ein geringeres Risiko hat, also besser ist.
fD
24
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Holdout-Testing: Analyse
Was sind die Vorteile/Nachteile wenn Testmenge T
möglichst groß
möglichst klein
gewählt wird?
T möglichst
g
g
groß,, damit Risikoschätzer RˆT ( f L ) g
geringe
g
Varianz hat.
T möglichst klein, damit Risikoschätzer RˆT ( f L ) geringen
Bias hat,
hat also nicht so stark pessimistisch ist
ist.
Braucht viele Daten, um gute Schätzungen zu
bekommen
Wird praktisch nur verwendet, wenn sehr viele Daten zur
Verfügung stehen.
Cross-Validation
Cross
Validation meist besser (siehe unten)
25
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Cross-Validation
Gegeben: Daten D (x1 , y1 ),...,
) (x d , yd )
Teile D in n gleich große Abschnitte D1 ,..., Dn
n
D
mit
i 1 Di und Di D j 0
Wiederhole für i=1..n
Trainiere fi mit Li =D \ Di.
Bestimme empirisches Risiko Rˆ D ( f i ) auf Di.
i
D1
D2
D3
D4
Training examples
26
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Cross-Validation
Mittle empirische Risikoschätzungen auf den
jeweiligen Testmengen Di :
R
1
n
n
i 1
Rˆ Di ( f i )
Trainiere fD auf allen Daten D.
D
Liefere Hypothese fD und Schätzer R .
Training examples
27
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Leave-One-Out Cross-Validation
Spezialfall n=d heisst auch leave-one-out
Fehlerschätzung
d
28
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Cross-Validation: Analyse
Ist der Schätzer
optimistisch,
pessimistisch
pessimistisch,
erwartungstreu?
29
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Cross-Validation: Analyse
Ist der Schätzer
Optimistisch / pessimistisch / erwartungstreu?
Schätzer ist pessimistisch:
Hypothesen fi werden auf Anteil (n-1)/n der verfügbaren
Daten trainiert.
Hypothese fD wird auf den gesamten Daten trainiert
Holdout
C
Cross-Validation
V lid ti
Training examples
30
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Cross-Validation: Analyse
Bias/Varianz im Vergleich zu Holdout
Holdout-Testing?
Testing?
Varianz ist geringer als beim Holdout-Testing
Mittelung
g über mehrere Holdout-Experimente,
p
, das
reduziert die Varianz
Alle Daten fließen in den Schätzer ein
Bias ähnlich wie beim Holdout-Testing, je nach SplitVerhältnissen.
Holdout
C
Cross-Validation
V lid ti
Training examples
31
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Überblick
Hypothesenbewertung, Risikoschätzung
Anwendungen/Beispiele
Konfidenzintervalle
ROC-Analyse
32
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Anwendungen/Beispiele
g
p
H th
Hypothesenevaluierung
l i
Wir wollen/müssen aus Anwendungsgründen
wissen, wie gut Hypothese ist
Macht es überhaupt
p Sinn,, maschinelles Lernen in der
Anwendung zu verwenden?
Mit wie vielen falschen Vorhersagen müssen wir
rechnen?
Wir wollen mehrere verschiedene Lernansätze
vergleichen
Sollte man Entscheidungsbäume verwenden?
SVMs?
Logistische Regression?
Naive Bayes?
33
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Anwendungen Hypothesenevaluierung
Verfahren hat einen Parameter
Parameter, den wir einstellen
müssen
Regularisierungsparameter
g
g p
f w* arg min f w
( f
i
2
(
x
),
y
)
||
w
||
w
i
i
=?
(Hyper)Parameter, der Modellklasse bestimmt, z.B.
Polynomgrad bei polynomieller Regression
M
f w ( x) wi x i
M=?
i 0
IIn allen
ll di
diesen Fäll
Fällen iistt d
der T
Trainingsfehler
i i
f hl kkein
i
geeignetes Entscheidungskriterium!
Fehlerschätzung mit Holdout-Menge
Holdout Menge oder CrossCross
Validation
34
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Beispiel:
p Polynomgrad
y
g
bei p
polynomieller
y
R
Regression
i
M
Polynommodell vom Grad M: f w ( x) wi x i
i 0
Wir lernen Modell durch Minimierung des quadratischen
Verlustes (unregularisiert – schlecht)
Trainingsdaten
m
w * arg min w ( f w ( xi ) yi )
i 1
2
L ( x1 , y1 ),...,
) ( xm , ym )
Gelerntes Modell
Echtes Modell
Datenpunkte = echtes
Modell plus Gaußsches
Rauschen
35
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Beispiel
p p
polynomielle
y
Regression:
g
T i i vs. T
Training
Testfehler
tf hl
Erfolg des Lernens hängt vom gewählten Polynomgrad M ab
ab,
der Komplexität des Modells kontrolliert
36
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Beispiel
p p
polynomielle
y
Regression:
g
T i i vs. T
Training
Testfehler
tf hl
Trainingsfehler vs
vs. Testfehler für unterschiedliche
Polynomgrade
Testfehler z.B. mit grosser Holdout-Menge gemessen
Phänomen der Überanpassung
(„Overfitting“):
Trainingsfehler sinkt monoton mit
M, aber Testfehler steigt für große
M wieder
i d
37
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Beispiel
p p
polynomielle
y
Regression:
g
T i i vs. T
Training
Testfehler
tf hl
Problem der Überanpassung (Overfitting) wird
geringer, wenn mehr Daten verfügbar
10 Beispiele, M = 9
100 Beispiele, M = 9
In der Praxis verfügbare Daten begrenzt
Modell muss regularisiert werden
38
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Regularisierte Polynomielle Regression
M
i
Polynommodell vom Grad M: f ( x) wi x
i 0
Lerne Modell durch Minimierung des regularisierten
quadratischen Verlustes
m
w * argg min w ( f w ( xi ) yi ) 2 w
i 1
M 9,
Trainingsdaten
2
L ( x1 , y1 ),..., ( xm , ym )
ln 18
Gelerntes Modell
Echtes Modell
Datenpunkte = echtes
Modell plus Gaußsches
Rauschen
39
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Regularisierte Polynomielle Regression
Jetzt müssen wir einstellen
Regularisierungsparameter kontrolliert Komplexität
ähnlich wie Polynomgrad M
M 9
ln
M 9
ln 18
M 9
ln 0
40
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Regularisierte Polynomielle Regression
Trainingsfehler vs
vs. Testfehler für unterschiedliche Werte
des Regularisierungsparameters
Testfehler z.B. mit grosser Holdout-Menge gemessen
Trainingsfehler minimal
ohne Regularisierung,
aber Testfehler besser
für regularisiertes Modell
Umgekehrtes Verhalten wie
für unterschiedliche
Polynomgrade
0
41
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Regularisierte Polynomielle Regression
Regularisierer wirkt wie eine Begrenzung der
Modellkomplexität und verhindert Überanpassung
In der Praxis am besten, Modellkomplexität durch
Regularisierung zu kontrollieren (direkter Parameter wie
bei Polynomen oft nicht verfügbar)
Reg larisierer kann d
Regularisierer
durch
rch Fehlerschät
Fehlerschätzung
ng (Holdo
(Holdoutt
Testing oder Cross-Validation) eingestellt werden.
42
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Überblick
Hypothesenbewertung, Risikoschätzung
Anwendungen/Beispiele
Konfidenzintervalle
ROC-Analyse
43
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Konfidenzintervalle
Idee Konfidenzintervall:
Intervall um den geschätzten Fehler Rˆ ( f ) angeben
so dass der echte Fehler „meistens“ im Intervall liegt
g
Quantifiziert Unsicherheit der Schätzung
Weg zum Konfidenzintervall: Analyse der Verteilung der
Zufallsvariable Rˆ ( f )
Rˆ ( f )
[
]
R
44
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Zero-One Loss und
F hl
Fehlerwahrscheinlichkeit
h h i li hk it
Für Konfidenzintervalle betrachten wir Risikoschätzung
im Spezialfall Klassifikation mit Zero-One Loss
Verlustfunktion Zero-One Loss:
0,, wenn y y '
l ( y, y ')
1, wenn y y '
Risiko = Fehlerwahrscheinlichkeit.
R( f ) ( y, f (x)) p(x, y )dxdy
p( y f (x))
45
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Verteilung für Fehlerschätzer
Hypothese f wird auf separater Testmenge mit m
unabhängigen Beispielen evaluiert:
1 m
RˆT ( f ) j 1 ( y j , f ( x j ))
m
T (x1 , y1 ),...,(
) ( x m , ym )
Fehlerschätzer ist erwartungstreu, E[ RˆT ( f )] R( f )
Betrachten zunächst unnormalisierten Fehlerschätzer
m
m RˆT ( f ) j 1 ( y j , f ( x j ))
{0 1}
Summe über
S
üb B
Beispielverluste
i i l l t ( y j , f (x j )) {0,1}
Beispiele unabhängig: Summe über Münzwürfe
Münzparameter ist Fehlerwahrscheinlichkeit R( f )
46
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Fehlerwahrscheinlichkeit
Unnormalisiertes empirisches Risiko
m
m RˆT ( f ) j 1 ( y j , f (x j ))
i S
ist
Summe von Bernouilli-Variablen,
B
illi V i bl
also
l bi
binomialverteilt:
i l
il
P mR
RˆT ( f ) mrˆ | R ( f ) r Bin(
Bi ( mrˆ | m, r )
rˆ beobachtetes empirisches Risiko
r echtes Risiko
Erwartungswert mrˆ m R ( f ) mr
2
Varianz mrˆ m r (1 r )
47
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Fehlerwahrscheinlichkeit
Normalisiertes empirisches Risiko ebenso binomialverteilt
P Rˆ ( f ) rˆ | R ( f ) r Bin(mrˆ | m, r )
P mRˆT ( f ) mrˆ | R ( f ) r Bin( mrˆ | m, r )
T
rˆ R ( f ) r
Erwartungswert
Varianz
Standardabweichung
g („
(„Standardfehler“)) rˆ
rˆ2
1
r ((1 r )
m
r
(1
r
)
m2
m
r (1 r )
m
Standardabweichung: Zufallsanteil des Schätzers, sinkt
mit 1 m
48
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Binomialverteilung
Wahrscheinlichkeit, empirischen Fehler
Wahrscheinlichkeit
beobachten:
rr̂
zu
m
m(1 rˆ)
P ( RˆT ( f ) rˆ | r ) Bin(mrˆ | r , m) r mrˆ (1 r )
mrˆ
Konvergiert für große m gegen Normalverteilung
m5
m 16
(rˆ r ) / rˆ
(rˆ r ) / rˆ
m 160
r 0.5
(rˆ r ) / rˆ
49
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Normalverteilung
Empirisches Risiko annähernd normalverteilt:
r (1 r )
RˆT ( f ) ~ N RˆT ( f ) | r ,
m
[approximativ, für große m]
Erwartungswert, Varianz der Binomialverteilung
Für die weitere Analyse betrachten wir das
standardisierte Risiko, dieses ist standardnormalverteilt:
RˆT ( f ) R( f )
rˆ
RˆT ( f ) R( f )
~ N
| 0,1
rˆ
[approximativ, für große m]
Für die weitere Analyse brauchen wir Varianz des
empirischen Risikos
Risikos, ist abhängig vom echtem Risiko:
rˆ2 r (1m r )
50
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Students t-Verteilung
Schätzen der Varianz durch empirische Varianz:
sr2ˆ
rˆ(1 rˆ)
,
m 1
srˆ
rˆ(1 rˆ)
m 1
Standardisiertes empirisches
p
Risiko folgt
g bei g
geschätzter
Varianz einer Students t-Verteilung mit m-1
Freiheitsgraden (ähnlich Normalverteilung, aber mehr
Wahrscheinlichkeitsmasse in den Außenbereichen)
Außenbereichen).
Für große m konvergiert Students tt-Verteilung
Verteilung gegen die
Standardnormalverteilung.
51
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Students t-Verteilung
52
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
rˆ r
rˆ r
lim m t
|m N
|0,1
s
s
ˆ
ˆ
r
r
Schranken für echtes Risiko
Wir haben Verteilung des empirischen Risikos
hergeleitet
Was sagt das empirische Risiko jetzt also über das
echte Risiko?
Wir können Schranke für echtes Risiko bestimmen!
rˆ (1 rˆ )
2
Empirisches Risiko r̂ empirische Varianz srˆ m 1
R( f ) RˆT ( f )
ˆ
ˆ
P R ( f ) RT ( f ) P R ( f ) RT ( f ) P
srˆ
srˆ
srˆ
Approximativ
standardnormalverteilt
x P( X x) kumulative Verteilungsfunktion der Standardnormalverteilung
53
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Schranken für echtes Risiko
Zweiseitige Schranke:
P | R ( f ) RˆT ( f ) | ...
...
2
sr̂ˆ
1
54
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Konfidenzintervalle
Idee: so wählen
wählen, dass Schranke mit vorgegebener
Wahrscheinlichkeit von 1- (z.B. =0.05) gilt.
Einseitiges 1--Konfidenzintervall: Schranke , so
dass
ˆ
P R( f ) RT ( f ) 1
Zweiseitiges 1--Konfidenzintervall: Schranke , so
dass
ˆ
P | R( f ) RT ( f ) | 1
Bei symmetrischer Verteilung gilt immer:
zu einseitigem 1--Konfidenzintervall
= zu zweiseitigem
i iti
1 2 K fid
1-2-Konfidenzintervall.
i t
ll
55
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Konfidenzintervalle
Ermitteln des einseitiges 1--Konfidenzintervalls:
P R( f ) RˆT ( f ) 1
1
srˆ
srˆ 1 1
Konfidenzintervall ist [ RˆT ( f ) , RˆT ( f ) ]
(Konfidenzlevel 1-2)
56
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Konfidenzintervalle
Beispiel:
rˆ 0.08
srˆ
beobachtetes empirisches Risiko, m=100
0.08 0.92
0.027
100 1
empirischer Standardfehler
0.05 Konfidenzlevel
P( R( f ) RˆT ( f ) ) 0.95
0.027 1.645 0.045
1 (0.95) [Tabelle]
Für 0.045 gilt mit etwa 95%
Wahrscheinlichkeit: R ( f ) RT ( f )
0.045
[
]
R
90% Konfidenz
57
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Konfidenzintervalle
Vorsicht bei der Interpretation von Konfidenzintervallen:
die Zufallsvariable ist das empirische Risiko r̂ und das
davon abgeleitete Intervall , nicht das echte Risiko R( f ) .
Richtig:
"Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu
erhalten, das den echten Fehler enthält, ist 95%"
Falsch:
"Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit,
dass der echte Fehler im Intervall liegt, ist 95%"
58
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Überblick
Hypothesenbewertung, Risikoschätzung
Anwendungen/Beispiele
Konfidenzintervalle
ROC-Analyse
59
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen