Hypothesenbewertung

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Hypothesenbewertung
Christoph Sawade/Niels Landwehr
Paul Prasse
Tobias Scheffer
Überblick
Hypothesenbewertung, Risikoschätzung

Anwendungen/Beispiele

Konfidenzintervalle

ROC-Analyse
2
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Überblick
Hypothesenbewertung, Risikoschätzung

Anwendungen/Beispiele

Konfidenzintervalle

ROC-Analyse
3
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Lernen und Vorhersage
Klassifikation Regression: Lernproblem
Klassifikation,


Eingabe: Trainingsdaten L  (x1 , y1 ),..., (x m , ym )
Ausgabe: Hypothese (Modell) f : X  Y
f ( x)  ?  Y
x X
Testbeispiel

Ziel des Lernens: genaue Vorhersagen treffen

Verschiedene Verfahren kennengelernt


Bayesian model averaging,
averaging MAP
MAP-Hypothesen
Hypothesen,…
Lineare Modelle, Entscheidungsbäume, Naive
Bayes…
4
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Hypothesenbewertung
Nachdem wir Verfahren implementiert
implementiert, Hypothese
trainiert haben etc.: wie gut sind die Vorhersagen?




Was g
genau heißt „g
„gut“?
Wie berechnet / misst / schätzt man es?
„Gut“ heißt vor allem: gut in der Zukunft, wenn die
gelernte Hypothese eingesetzt wird
„Hypothesenbewertung“:
y
g Abschätzung
g der
Genauigkeit von Vorhersagen
5
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Hypothesenbewertung
Zentrale Annahme: dem Lernproblem liegt eine
(unbekannte) Verteilung p(x,y) zugrunde
Verteilung über
Instanzen
Verteilung für Label
gegeben Instanz
p ( x, y )  p ( x ) p ( y | x )

Beispiel Spam-Filterung
Spam Filterung


p(x) Wahrscheinlichkeit dass wir Email x sehen
p(y|x) Wahrscheinlichkeit dass Mensch Email x als
y ‫{ א‬Spam/Ok} klassifiziert
6
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Hypothesenbewertung
„i.i.d.“-Annahme: Beispiele sind „independent and
identically distributed“.
 Trainingsdaten werden unabhängig aus der
Verteilung p(x,y) gezogen:
(xi , yi ) ~ p (x, y )

Testdaten ebenfalls i.i.d. aus dieser Verteilung
gezogen
(x, y ) ~ p(x, y )

Trainingsbeispiele
Immer realistisch?
Testbeispiel
(Anwendung des Modells)
7
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Verlustfunktionen


Wir haben Annahmen darüber gemacht
gemacht, welche
Instanzen (x,y) auftauchen werden
Instanz (x,y), Hypothese sagt f(x).
Verlustfunktion definiert, wie schlecht das ist.
Verlust der Vorhersage f(x) auf Instanz (x,y)
Nicht-negativ: y, y ' : ( y, y ')  0
Problem-spezifisch,
p
g
gegeben.
g
 ( y, f (x))



Verlustfunktionen für Klassifikation



Zero-one loss: ( y, y ')  0, wenn y  y '; 1, sonst
Klassenabhängige Kostenmatrix: ( y, y ')  c yy '
Verlustfunktionen für Regression

Squared error:
( y, y ')  ( y  y ') 2
8
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Hypothesenbewertung
Beispiel Verlustfunktion Spam-Filterung:
c10 : y  " spam ", f ( x)  " ok "

( y, f (x))  c01 : y  " okk "", f ( x)  " spam "
0 : sonst

c10 Falsch-negativ Kosten (Spam als legitim vorhergesagt)
c01 Falsch-positive
p
Kosten ((legitim
g
als Spam
p
vorhergesagt)
g
g)
c10  c01
9
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Hypothesenbewertung: Risiko
Risiko einer Hypothese: erwarteter Verlust für eine neue
Instanz
(x, y ) ~ p (x, y )
Testbeispiel x mit Label y (Zufallsvariable)
( y, f (x))
Verlust auf Testbeispiel (Zufallsvariable)
R( f )  E[]   ( y, f (x)) p(x, y )dxdy
Risiko=erwarteter Verlust

( y, y ') Zero-One-Loss:
Z
O L
Ri
Risiko
ik h
heisst
i t auch
hF
Fehlerrate.
hl
t

( y, y ') quadratische Fehler ( y  y ') 2 : Risiko heisst auch
Mean Squared
q
Error.


Ziel: Risikobestimmung
Nicht möglich, das Risiko exakt zu bestimmen, weil
p(x,y) unbekannt ist → Schätzproblem
10
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Hypothesenbewertung:Risikoschätzung

) (x m , ym ) gegeben sind
Wenn Daten T  (x1 , y1 ),...,
sind,
dann kann das Risiko geschätzt werden.

Empirisches Risiko
1
Rˆ ( f ) 
m



m
j 1
l ( y j , f (x j ))
(Empirische Fehlerrate, empirischer Mean Squared
Error,…).
Wichtig: Wo kommt T her?



Trainingsdaten (T=L)?
Verfügbare Daten in disjunkte L und T aufteilen.
Cross-Validation.
11
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Bias eines Schätzers
Empirischer Fehler ist Schätzer
1
Rˆ ( f ) 
m


m
j 1
l ( y j , f (x j ))
Schätzer ist Zufallsvariable.


Hängt von Menge T ab, auf der Risiko geschätzt wird
Instanzen in T zufällig gezogen
(xi , yi ) ~ p (x, y )
Welche (xi , yi ) werden gezogen?
g g

Schätzer hat einen Erwartungswert

Schätzer ist erwartungstreu, genau dann wenn:

Erwartungswert des empirischen Risikos = echtes Risiko
Risiko.
12
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Bias eines Schätzers
Schätzer


Rˆ ( f )
einen Bias:
Bias  E[ Rˆ ( f )]  R( f )
Bias < 0.
Schätzer ist pessimistisch, wenn


E[ Rˆ ( f )]  R( f )
Schätzer ist optimistisch
optimistisch, wenn


ist erwartungstreu
erwartungstreu, genau dann wenn:
Ansonsten hat


Rˆ ( f )
Bias > 0.
Schätzer ist erwartungstreu, wenn

Bias = 0.
13
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Erwartungstreuer Risikoschätzer
Datensatz T  (x1 , y1 ),...,(x m , ym )

Risikoschätzer
Schätzer auf T

(xi , yi ) ~ p (x, y )
1 m
ˆ
RT ( f )   j 1 l ( y j , f (x j ))
m
Risikoschätzer RˆT ( f ) für eine (festgehaltene, von T
unabhängige) Hypothese f :
 Erwartungswert = echtes Risiko,
1 m

ˆ
E[ RT ( f )]  E   ( y j , f (x j )) 
 m j 1

Erwartungswert
1 m
1
über Datensätze
Datensät e T
  E[( y j , f (x j ))]  mR
R( f )  R( f )
m j 1
m
14
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Varianz eines Schätzers
Schätzer
Rˆ ( f )
hat eine Varianz
Var[ Rˆ ( f )]  E[( Rˆ ( f )  E[ Rˆ ( f )]) 2 ]  E[ Rˆ ( f ) 2 ]  E[ Rˆ ( f )]2




Je größer die Stichprobe ist, die zum Schätzen
verwendet wird, desto geringer ist die Varianz.
Genaue Form der Varianz hängt von der Verlustfunktion
ab.
Hohe Varianz: großer „Zufallsanteil“ bei der Bestimmung
des empirischen Risikos
Risikos.
Großer Bias: systematischer Fehler bei der Bestimmung
des empirischen Risikos.
15
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Varianz eines Schätzers
Wert Rˆ ( f )
R
R

Erwarteter Fehler des Schätzers
und Varianz zerlegen
Varianz dominiert
Rˆ ( f )
lässt sich in Bias
E[( Rˆ ( f )  R) 2 ]  E[ Rˆ ( f ) 2  2 RRˆ ( f )  R 2 ]
 E[ Rˆ ( f )2 ]  2 RE[ Rˆ ( f )]  R 2
 E[ Rˆ ( f )]2  2 RE[ Rˆ ( f )]  R 2  E[ Rˆ ( f ) 2 ]  E[ Rˆ ( f )]2
 ( E[ Rˆ ( f )]  R)2  Var[ Rˆ ( f )]
 Bias[ Rˆ ( f )]2  Var[ Rˆ ( f )]
16
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
Bias dominiert
Risikoschätzer auf den Trainingsdaten


Welche Menge T verwenden?
1. Versuch: Trainingsdaten L
Empirisches Risiko



auf den Trainingsdaten
L  (x1 , y1 ),...,
) (x m , ym )
gemessen
gemessen.
Ist dieses empirische Risiko ein




1 m
Rˆ L ( f )   j 1 ( y j , f (x j ))
m
erwartungstreuer
optimistischer
p
pessimistischer
Schätzer für das echte Risiko und warum?
17
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Risikoschätzer auf den Trainingsdaten
Feste Trainingsmenge L

Empirisches Risiko aller Hypothesen für ein festes L?

Aufgrund der Varianz des Schätzers gilt für einige
Hypothesen f , dass Rˆ L ( f )  R( f ) und für andere
Hypothesen f , dass Rˆ L ( f )  R( f )

Lernalgorithmus wählt eine Hypothese f L mit kleinem
empirischen Risiko Rˆ L ( f L )

Wahrscheinlich, dass Rˆ L ( f L )  R ( f L )
18
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Risikoschätzer auf den Trainingsdaten
Empirisches Risiko der vom Lerner gewählten Hypothese
( Trainingsfehler“)) ist ein optimistischer Schätzer des echten
(„Trainingsfehler
Risikos:
E[ Rˆ L ( f L )]  R ( f L )
f L vom Lerner ggewählte Hypothese,
yp
, Zufallsvariable
in Abhängigkeit von L


Problem ist die Abhängigkeit
gg
von g
gewählter Hypothese
yp
und
zur Fehlerschätzung verwendeten Daten
Ansatz: Testdaten verwenden, die von den Trainingsdaten
unabhängig sind.
19
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Holdout-Testing


Idee: Fehlerschätzung auf unabhängigen Testdaten
Gegeben: Daten D  (x1 , y1 ),...,( x d , yd )
Teile Daten auf in


Trainingsdaten L  (x1 , y1 ),...,(x m , ym ) und
Testdaten T  (x m1 , ym1 ),...,(
) ( x d , yd )
L
T
20
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Holdout-Testing



Starte Lernalgorithmus mit Daten L,
L gewinne so
Hypothese f L .
Ermittle empirisches Risiko RˆT ( f L ) auf Daten T.
Starte Lernalgorithmus auf Daten D, gewinne so
fD .
Hypothese
yp
Ausgabe: Hypothese f D , benutze RˆT ( f L ) als
Schätzer für das Risiko von f D
L
T
21
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Holdout-Testing: Analyse
Ist der Schätzer



RˆT ( f L )
für Risiko der Hypothese
fD
erwartungstreu,
optimistisch,
pessimistisch?
22
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Holdout-Testing: Analyse
Schätzer



RˆT ( f L )
RˆT ( f L )
ist pessimistisch für R( f D ) :
ist erwartungstreu für f L
wurde mit weniger Trainingsdaten gelernt als f D
hat und daher im Erwartungswert ein höheres Risiko
fL
Aber Schätzer RˆT ( f L ) ist in der Praxis brauchbar,
während Rˆ L ( f L ) meist 0 (oder nahe 0) ist.
23
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Holdout-Testing: Analyse

Warum wird Hypothese f D trainiert und
zurückgeliefert?
f D und nicht f L , weil
Rückgegebene
g g
Hypothese
yp
ein geringeres Risiko hat, also besser ist.
fD
24
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Holdout-Testing: Analyse
Was sind die Vorteile/Nachteile wenn Testmenge T






möglichst groß
möglichst klein
gewählt wird?
T möglichst
g
g
groß,, damit Risikoschätzer RˆT ( f L ) g
geringe
g
Varianz hat.
T möglichst klein, damit Risikoschätzer RˆT ( f L ) geringen
Bias hat,
hat also nicht so stark pessimistisch ist
ist.
Braucht viele Daten, um gute Schätzungen zu
bekommen


Wird praktisch nur verwendet, wenn sehr viele Daten zur
Verfügung stehen.
Cross-Validation
Cross
Validation meist besser (siehe unten)
25
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Cross-Validation


Gegeben: Daten D  (x1 , y1 ),...,
) (x d , yd )
Teile D in n gleich große Abschnitte D1 ,..., Dn
n
D

mit
i 1 Di und Di  D j  0
Wiederhole für i=1..n


Trainiere fi mit Li =D \ Di.
Bestimme empirisches Risiko Rˆ D ( f i ) auf Di.
i
D1
D2
D3
D4
Training examples
26
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Cross-Validation
Mittle empirische Risikoschätzungen auf den
jeweiligen Testmengen Di :
R


1
n

n
i 1
Rˆ Di ( f i )
Trainiere fD auf allen Daten D.
D
Liefere Hypothese fD und Schätzer R .
Training examples
27
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Leave-One-Out Cross-Validation
Spezialfall n=d heisst auch leave-one-out
Fehlerschätzung
d
28
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Cross-Validation: Analyse
Ist der Schätzer



optimistisch,
pessimistisch
pessimistisch,
erwartungstreu?
29
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Cross-Validation: Analyse
Ist der Schätzer


Optimistisch / pessimistisch / erwartungstreu?
Schätzer ist pessimistisch:


Hypothesen fi werden auf Anteil (n-1)/n der verfügbaren
Daten trainiert.
Hypothese fD wird auf den gesamten Daten trainiert
Holdout
C
Cross-Validation
V lid ti
Training examples
30
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Cross-Validation: Analyse

Bias/Varianz im Vergleich zu Holdout
Holdout-Testing?
Testing?
Varianz ist geringer als beim Holdout-Testing

Mittelung
g über mehrere Holdout-Experimente,
p
, das
reduziert die Varianz
Alle Daten fließen in den Schätzer ein
Bias ähnlich wie beim Holdout-Testing, je nach SplitVerhältnissen.


Holdout
C
Cross-Validation
V lid ti
Training examples
31
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Überblick
Hypothesenbewertung, Risikoschätzung

Anwendungen/Beispiele

Konfidenzintervalle

ROC-Analyse
32
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Anwendungen/Beispiele
g
p
H th
Hypothesenevaluierung
l i
Wir wollen/müssen aus Anwendungsgründen
wissen, wie gut Hypothese ist



Macht es überhaupt
p Sinn,, maschinelles Lernen in der
Anwendung zu verwenden?
Mit wie vielen falschen Vorhersagen müssen wir
rechnen?
Wir wollen mehrere verschiedene Lernansätze
vergleichen




Sollte man Entscheidungsbäume verwenden?
SVMs?
Logistische Regression?
Naive Bayes?
33
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Anwendungen Hypothesenevaluierung
Verfahren hat einen Parameter
Parameter, den wir einstellen
müssen
 Regularisierungsparameter
g
g p

f w*  arg min f w

 ( f
i
2
(
x
),
y
)


||
w
||
w
i
i
 =?
(Hyper)Parameter, der Modellklasse bestimmt, z.B.
Polynomgrad bei polynomieller Regression
M
f w ( x)   wi x i
M=?
i 0

IIn allen
ll di
diesen Fäll
Fällen iistt d
der T
Trainingsfehler
i i
f hl kkein
i
geeignetes Entscheidungskriterium!

Fehlerschätzung mit Holdout-Menge
Holdout Menge oder CrossCross
Validation
34
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Beispiel:
p Polynomgrad
y
g
bei p
polynomieller
y
R
Regression
i
M
Polynommodell vom Grad M: f w ( x)   wi x i
i 0

Wir lernen Modell durch Minimierung des quadratischen
Verlustes (unregularisiert – schlecht)
Trainingsdaten
m
w *  arg min w  ( f w ( xi )  yi )
i 1
2
L  ( x1 , y1 ),...,
) ( xm , ym )
Gelerntes Modell
Echtes Modell
Datenpunkte = echtes
Modell plus Gaußsches
Rauschen
35
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Beispiel
p p
polynomielle
y
Regression:
g
T i i vs. T
Training
Testfehler
tf hl
Erfolg des Lernens hängt vom gewählten Polynomgrad M ab
ab,
der Komplexität des Modells kontrolliert
36
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Beispiel
p p
polynomielle
y
Regression:
g
T i i vs. T
Training
Testfehler
tf hl
Trainingsfehler vs
vs. Testfehler für unterschiedliche
Polynomgrade

Testfehler z.B. mit grosser Holdout-Menge gemessen
Phänomen der Überanpassung
(„Overfitting“):
Trainingsfehler sinkt monoton mit
M, aber Testfehler steigt für große
M wieder
i d
37
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Beispiel
p p
polynomielle
y
Regression:
g
T i i vs. T
Training
Testfehler
tf hl
Problem der Überanpassung (Overfitting) wird
geringer, wenn mehr Daten verfügbar
10 Beispiele, M = 9

100 Beispiele, M = 9
In der Praxis verfügbare Daten begrenzt

Modell muss regularisiert werden
38
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Regularisierte Polynomielle Regression
M
i
Polynommodell vom Grad M: f ( x)   wi x
i 0

Lerne Modell durch Minimierung des regularisierten
quadratischen Verlustes
m
w *  argg min w  ( f w ( xi )  yi ) 2   w
i 1
M  9,
Trainingsdaten
2
L  ( x1 , y1 ),..., ( xm , ym )
ln   18
Gelerntes Modell
Echtes Modell
Datenpunkte = echtes
Modell plus Gaußsches
Rauschen
39
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Regularisierte Polynomielle Regression

Jetzt müssen wir  einstellen
Regularisierungsparameter kontrolliert Komplexität
ähnlich wie Polynomgrad M
M 9
ln   
M 9
ln   18
M 9
ln   0
40
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Regularisierte Polynomielle Regression
Trainingsfehler vs
vs. Testfehler für unterschiedliche Werte
des Regularisierungsparameters 

Testfehler z.B. mit grosser Holdout-Menge gemessen
Trainingsfehler minimal
ohne Regularisierung,
aber Testfehler besser
für regularisiertes Modell
Umgekehrtes Verhalten wie
für unterschiedliche
Polynomgrade

0
41
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Regularisierte Polynomielle Regression


Regularisierer wirkt wie eine Begrenzung der
Modellkomplexität und verhindert Überanpassung
In der Praxis am besten, Modellkomplexität durch
Regularisierung zu kontrollieren (direkter Parameter wie
bei Polynomen oft nicht verfügbar)
Reg larisierer kann d
Regularisierer
durch
rch Fehlerschät
Fehlerschätzung
ng (Holdo
(Holdoutt
Testing oder Cross-Validation) eingestellt werden.
42
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Überblick
Hypothesenbewertung, Risikoschätzung

Anwendungen/Beispiele

Konfidenzintervalle

ROC-Analyse
43
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Konfidenzintervalle
Idee Konfidenzintervall:




Intervall um den geschätzten Fehler Rˆ ( f ) angeben
so dass der echte Fehler „meistens“ im Intervall liegt
g
Quantifiziert Unsicherheit der Schätzung
Weg zum Konfidenzintervall: Analyse der Verteilung der
Zufallsvariable Rˆ ( f )
Rˆ ( f )
[
]
R
44
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Zero-One Loss und
F hl
Fehlerwahrscheinlichkeit
h h i li hk it

Für Konfidenzintervalle betrachten wir Risikoschätzung
im Spezialfall Klassifikation mit Zero-One Loss
Verlustfunktion Zero-One Loss:


0,, wenn y  y '
l ( y, y ')  
1, wenn y  y '
 Risiko = Fehlerwahrscheinlichkeit.
R( f )   ( y, f (x)) p(x, y )dxdy
 p( y  f (x))
45
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Verteilung für Fehlerschätzer
Hypothese f wird auf separater Testmenge mit m
unabhängigen Beispielen evaluiert:
1 m
RˆT ( f )   j 1 ( y j , f ( x j ))
m
T  (x1 , y1 ),...,(
) ( x m , ym )

Fehlerschätzer ist erwartungstreu, E[ RˆT ( f )]  R( f )

Betrachten zunächst unnormalisierten Fehlerschätzer
m
m  RˆT ( f )   j 1 ( y j , f ( x j ))



{0 1}
Summe über
S
üb B
Beispielverluste
i i l l t ( y j , f (x j )) {0,1}
Beispiele unabhängig: Summe über Münzwürfe
Münzparameter ist Fehlerwahrscheinlichkeit R( f )
46
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Fehlerwahrscheinlichkeit
Unnormalisiertes empirisches Risiko
m
m  RˆT ( f )   j 1 ( y j , f (x j ))
i S
ist
Summe von Bernouilli-Variablen,
B
illi V i bl
also
l bi
binomialverteilt:
i l
il


P mR
RˆT ( f )  mrˆ | R ( f )  r  Bin(
Bi ( mrˆ | m, r )
rˆ beobachtetes empirisches Risiko
r echtes Risiko

Erwartungswert  mrˆ  m  R ( f )  mr

2
Varianz  mrˆ  m  r (1  r )
47
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Fehlerwahrscheinlichkeit
Normalisiertes empirisches Risiko ebenso binomialverteilt


P  Rˆ ( f )  rˆ | R ( f )  r   Bin(mrˆ | m, r )
P mRˆT ( f )  mrˆ | R ( f )  r  Bin( mrˆ | m, r )
T

rˆ  R ( f )  r

Erwartungswert

Varianz

Standardabweichung
g („
(„Standardfehler“))  rˆ 
 rˆ2 
1
r ((1  r )
m

r
(1

r
)

m2
m
r (1  r )
m
Standardabweichung: Zufallsanteil des Schätzers, sinkt
mit 1 m
48
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Binomialverteilung
Wahrscheinlichkeit, empirischen Fehler
Wahrscheinlichkeit
beobachten:


rr̂
zu
m
m(1  rˆ)
P ( RˆT ( f )  rˆ | r )  Bin(mrˆ | r , m)    r mrˆ (1  r )
 mrˆ 
Konvergiert für große m gegen Normalverteilung
m5
m  16
(rˆ  r ) /  rˆ
(rˆ  r ) /  rˆ
m  160
r  0.5
(rˆ  r ) /  rˆ
49
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Normalverteilung
Empirisches Risiko annähernd normalverteilt:
r (1 r ) 

RˆT ( f ) ~ N  RˆT ( f ) | r ,

m 

[approximativ, für große m]
Erwartungswert, Varianz der Binomialverteilung

Für die weitere Analyse betrachten wir das
standardisierte Risiko, dieses ist standardnormalverteilt:
RˆT ( f )  R( f )
 rˆ

 RˆT ( f )  R( f )

~ N
| 0,1
 rˆ


[approximativ, für große m]
Für die weitere Analyse brauchen wir Varianz des
empirischen Risikos
Risikos, ist abhängig vom echtem Risiko:

 rˆ2  r (1m r )
50
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Students t-Verteilung
Schätzen der Varianz durch empirische Varianz:

sr2ˆ 


rˆ(1 rˆ)
,
m 1
srˆ 
rˆ(1 rˆ)
m 1
Standardisiertes empirisches
p
Risiko folgt
g bei g
geschätzter
Varianz einer Students t-Verteilung mit m-1
Freiheitsgraden (ähnlich Normalverteilung, aber mehr
Wahrscheinlichkeitsmasse in den Außenbereichen)
Außenbereichen).
Für große m konvergiert Students tt-Verteilung
Verteilung gegen die
Standardnormalverteilung.
51
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Students t-Verteilung
52
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen
 rˆ  r 
 rˆ  r 
lim m t 
|m   N 
|0,1
 s

 s

ˆ
ˆ
 r

 r

Schranken für echtes Risiko



Wir haben Verteilung des empirischen Risikos
hergeleitet
Was sagt das empirische Risiko jetzt also über das
echte Risiko?
Wir können Schranke für echtes Risiko bestimmen!
rˆ (1 rˆ )
2
Empirisches Risiko r̂  empirische Varianz srˆ  m 1
 R( f )  RˆT ( f )  
 
ˆ
ˆ
P R ( f )  RT ( f )    P R ( f )  RT ( f )    P 
    
srˆ
srˆ 
 srˆ 


 

Approximativ
standardnormalverteilt
  x   P( X  x) kumulative Verteilungsfunktion der Standardnormalverteilung
53
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Schranken für echtes Risiko
Zweiseitige Schranke:


P | R ( f )  RˆT ( f ) |   ...
 ...

 2 
 sr̂ˆ

 1

54
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Konfidenzintervalle

Idee:  so wählen
wählen, dass Schranke mit vorgegebener
Wahrscheinlichkeit von 1- (z.B.  =0.05) gilt.
Einseitiges 1--Konfidenzintervall: Schranke , so
dass
ˆ


P R( f )  RT ( f )    1  

Zweiseitiges 1--Konfidenzintervall: Schranke , so
dass
ˆ


P | R( f )  RT ( f ) |   1  

Bei symmetrischer Verteilung gilt immer:

 zu einseitigem 1--Konfidenzintervall
=  zu zweiseitigem
i iti
1 2 K fid
1-2-Konfidenzintervall.
i t
ll
55
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Konfidenzintervalle
Ermitteln des einseitiges 1--Konfidenzintervalls:


P R( f )  RˆT ( f )    1  
 
    1 

 srˆ 
   srˆ  1 1 

Konfidenzintervall ist [ RˆT ( f )   , RˆT ( f )   ]
(Konfidenzlevel 1-2)
56
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Konfidenzintervalle
Beispiel:
rˆ  0.08
srˆ 
beobachtetes empirisches Risiko, m=100
0.08  0.92
 0.027
100  1
empirischer Standardfehler
  0.05 Konfidenzlevel
P( R( f )  RˆT ( f )   )  0.95
   0.027 1.645  0.045

 1 (0.95) [Tabelle]
Für   0.045 gilt mit etwa 95%
Wahrscheinlichkeit: R ( f )  RT ( f )  
0.045
[
]
R
90% Konfidenz
57
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Konfidenzintervalle

Vorsicht bei der Interpretation von Konfidenzintervallen:
die Zufallsvariable ist das empirische Risiko r̂ und das
davon abgeleitete Intervall  , nicht das echte Risiko R( f ) .
Richtig:
"Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu
erhalten, das den echten Fehler enthält, ist 95%"

Falsch:
"Wir haben ein Konfidenzintervall  erhalten. Die Wahrscheinlichkeit,
dass der echte Fehler im Intervall liegt, ist 95%"
58
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Überblick
Hypothesenbewertung, Risikoschätzung

Anwendungen/Beispiele

Konfidenzintervalle

ROC-Analyse
59
Sawade/La
S
andwehr/P
Prasse/Sccheffer, Ma
aschinelles Lernen

Herunterladen