Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele Konfidenzintervalle ROC-Analyse 2 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele Konfidenzintervalle ROC-Analyse 3 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Lernen und Vorhersage Klassifikation Regression: Lernproblem Klassifikation, Eingabe: Trainingsdaten L (x1 , y1 ),..., (x m , ym ) Ausgabe: Hypothese (Modell) f : X Y f ( x) ? Y x X Testbeispiel Ziel des Lernens: genaue Vorhersagen treffen Verschiedene Verfahren kennengelernt Bayesian model averaging, averaging MAP MAP-Hypothesen Hypothesen,… Lineare Modelle, Entscheidungsbäume, Naive Bayes… 4 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Hypothesenbewertung Nachdem wir Verfahren implementiert implementiert, Hypothese trainiert haben etc.: wie gut sind die Vorhersagen? Was g genau heißt „g „gut“? Wie berechnet / misst / schätzt man es? „Gut“ heißt vor allem: gut in der Zukunft, wenn die gelernte Hypothese eingesetzt wird „Hypothesenbewertung“: y g Abschätzung g der Genauigkeit von Vorhersagen 5 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Hypothesenbewertung Zentrale Annahme: dem Lernproblem liegt eine (unbekannte) Verteilung p(x,y) zugrunde Verteilung über Instanzen Verteilung für Label gegeben Instanz p ( x, y ) p ( x ) p ( y | x ) Beispiel Spam-Filterung Spam Filterung p(x) Wahrscheinlichkeit dass wir Email x sehen p(y|x) Wahrscheinlichkeit dass Mensch Email x als y { אSpam/Ok} klassifiziert 6 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Hypothesenbewertung „i.i.d.“-Annahme: Beispiele sind „independent and identically distributed“. Trainingsdaten werden unabhängig aus der Verteilung p(x,y) gezogen: (xi , yi ) ~ p (x, y ) Testdaten ebenfalls i.i.d. aus dieser Verteilung gezogen (x, y ) ~ p(x, y ) Trainingsbeispiele Immer realistisch? Testbeispiel (Anwendung des Modells) 7 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Verlustfunktionen Wir haben Annahmen darüber gemacht gemacht, welche Instanzen (x,y) auftauchen werden Instanz (x,y), Hypothese sagt f(x). Verlustfunktion definiert, wie schlecht das ist. Verlust der Vorhersage f(x) auf Instanz (x,y) Nicht-negativ: y, y ' : ( y, y ') 0 Problem-spezifisch, p g gegeben. g ( y, f (x)) Verlustfunktionen für Klassifikation Zero-one loss: ( y, y ') 0, wenn y y '; 1, sonst Klassenabhängige Kostenmatrix: ( y, y ') c yy ' Verlustfunktionen für Regression Squared error: ( y, y ') ( y y ') 2 8 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Hypothesenbewertung Beispiel Verlustfunktion Spam-Filterung: c10 : y " spam ", f ( x) " ok " ( y, f (x)) c01 : y " okk "", f ( x) " spam " 0 : sonst c10 Falsch-negativ Kosten (Spam als legitim vorhergesagt) c01 Falsch-positive p Kosten ((legitim g als Spam p vorhergesagt) g g) c10 c01 9 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Hypothesenbewertung: Risiko Risiko einer Hypothese: erwarteter Verlust für eine neue Instanz (x, y ) ~ p (x, y ) Testbeispiel x mit Label y (Zufallsvariable) ( y, f (x)) Verlust auf Testbeispiel (Zufallsvariable) R( f ) E[] ( y, f (x)) p(x, y )dxdy Risiko=erwarteter Verlust ( y, y ') Zero-One-Loss: Z O L Ri Risiko ik h heisst i t auch hF Fehlerrate. hl t ( y, y ') quadratische Fehler ( y y ') 2 : Risiko heisst auch Mean Squared q Error. Ziel: Risikobestimmung Nicht möglich, das Risiko exakt zu bestimmen, weil p(x,y) unbekannt ist → Schätzproblem 10 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Hypothesenbewertung:Risikoschätzung ) (x m , ym ) gegeben sind Wenn Daten T (x1 , y1 ),..., sind, dann kann das Risiko geschätzt werden. Empirisches Risiko 1 Rˆ ( f ) m m j 1 l ( y j , f (x j )) (Empirische Fehlerrate, empirischer Mean Squared Error,…). Wichtig: Wo kommt T her? Trainingsdaten (T=L)? Verfügbare Daten in disjunkte L und T aufteilen. Cross-Validation. 11 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Bias eines Schätzers Empirischer Fehler ist Schätzer 1 Rˆ ( f ) m m j 1 l ( y j , f (x j )) Schätzer ist Zufallsvariable. Hängt von Menge T ab, auf der Risiko geschätzt wird Instanzen in T zufällig gezogen (xi , yi ) ~ p (x, y ) Welche (xi , yi ) werden gezogen? g g Schätzer hat einen Erwartungswert Schätzer ist erwartungstreu, genau dann wenn: Erwartungswert des empirischen Risikos = echtes Risiko Risiko. 12 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Bias eines Schätzers Schätzer Rˆ ( f ) einen Bias: Bias E[ Rˆ ( f )] R( f ) Bias < 0. Schätzer ist pessimistisch, wenn E[ Rˆ ( f )] R( f ) Schätzer ist optimistisch optimistisch, wenn ist erwartungstreu erwartungstreu, genau dann wenn: Ansonsten hat Rˆ ( f ) Bias > 0. Schätzer ist erwartungstreu, wenn Bias = 0. 13 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Erwartungstreuer Risikoschätzer Datensatz T (x1 , y1 ),...,(x m , ym ) Risikoschätzer Schätzer auf T (xi , yi ) ~ p (x, y ) 1 m ˆ RT ( f ) j 1 l ( y j , f (x j )) m Risikoschätzer RˆT ( f ) für eine (festgehaltene, von T unabhängige) Hypothese f : Erwartungswert = echtes Risiko, 1 m ˆ E[ RT ( f )] E ( y j , f (x j )) m j 1 Erwartungswert 1 m 1 über Datensätze Datensät e T E[( y j , f (x j ))] mR R( f ) R( f ) m j 1 m 14 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Varianz eines Schätzers Schätzer Rˆ ( f ) hat eine Varianz Var[ Rˆ ( f )] E[( Rˆ ( f ) E[ Rˆ ( f )]) 2 ] E[ Rˆ ( f ) 2 ] E[ Rˆ ( f )]2 Je größer die Stichprobe ist, die zum Schätzen verwendet wird, desto geringer ist die Varianz. Genaue Form der Varianz hängt von der Verlustfunktion ab. Hohe Varianz: großer „Zufallsanteil“ bei der Bestimmung des empirischen Risikos Risikos. Großer Bias: systematischer Fehler bei der Bestimmung des empirischen Risikos. 15 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Varianz eines Schätzers Wert Rˆ ( f ) R R Erwarteter Fehler des Schätzers und Varianz zerlegen Varianz dominiert Rˆ ( f ) lässt sich in Bias E[( Rˆ ( f ) R) 2 ] E[ Rˆ ( f ) 2 2 RRˆ ( f ) R 2 ] E[ Rˆ ( f )2 ] 2 RE[ Rˆ ( f )] R 2 E[ Rˆ ( f )]2 2 RE[ Rˆ ( f )] R 2 E[ Rˆ ( f ) 2 ] E[ Rˆ ( f )]2 ( E[ Rˆ ( f )] R)2 Var[ Rˆ ( f )] Bias[ Rˆ ( f )]2 Var[ Rˆ ( f )] 16 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Bias dominiert Risikoschätzer auf den Trainingsdaten Welche Menge T verwenden? 1. Versuch: Trainingsdaten L Empirisches Risiko auf den Trainingsdaten L (x1 , y1 ),..., ) (x m , ym ) gemessen gemessen. Ist dieses empirische Risiko ein 1 m Rˆ L ( f ) j 1 ( y j , f (x j )) m erwartungstreuer optimistischer p pessimistischer Schätzer für das echte Risiko und warum? 17 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Risikoschätzer auf den Trainingsdaten Feste Trainingsmenge L Empirisches Risiko aller Hypothesen für ein festes L? Aufgrund der Varianz des Schätzers gilt für einige Hypothesen f , dass Rˆ L ( f ) R( f ) und für andere Hypothesen f , dass Rˆ L ( f ) R( f ) Lernalgorithmus wählt eine Hypothese f L mit kleinem empirischen Risiko Rˆ L ( f L ) Wahrscheinlich, dass Rˆ L ( f L ) R ( f L ) 18 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Risikoschätzer auf den Trainingsdaten Empirisches Risiko der vom Lerner gewählten Hypothese ( Trainingsfehler“)) ist ein optimistischer Schätzer des echten („Trainingsfehler Risikos: E[ Rˆ L ( f L )] R ( f L ) f L vom Lerner ggewählte Hypothese, yp , Zufallsvariable in Abhängigkeit von L Problem ist die Abhängigkeit gg von g gewählter Hypothese yp und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, die von den Trainingsdaten unabhängig sind. 19 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Holdout-Testing Idee: Fehlerschätzung auf unabhängigen Testdaten Gegeben: Daten D (x1 , y1 ),...,( x d , yd ) Teile Daten auf in Trainingsdaten L (x1 , y1 ),...,(x m , ym ) und Testdaten T (x m1 , ym1 ),...,( ) ( x d , yd ) L T 20 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Holdout-Testing Starte Lernalgorithmus mit Daten L, L gewinne so Hypothese f L . Ermittle empirisches Risiko RˆT ( f L ) auf Daten T. Starte Lernalgorithmus auf Daten D, gewinne so fD . Hypothese yp Ausgabe: Hypothese f D , benutze RˆT ( f L ) als Schätzer für das Risiko von f D L T 21 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Holdout-Testing: Analyse Ist der Schätzer RˆT ( f L ) für Risiko der Hypothese fD erwartungstreu, optimistisch, pessimistisch? 22 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Holdout-Testing: Analyse Schätzer RˆT ( f L ) RˆT ( f L ) ist pessimistisch für R( f D ) : ist erwartungstreu für f L wurde mit weniger Trainingsdaten gelernt als f D hat und daher im Erwartungswert ein höheres Risiko fL Aber Schätzer RˆT ( f L ) ist in der Praxis brauchbar, während Rˆ L ( f L ) meist 0 (oder nahe 0) ist. 23 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Holdout-Testing: Analyse Warum wird Hypothese f D trainiert und zurückgeliefert? f D und nicht f L , weil Rückgegebene g g Hypothese yp ein geringeres Risiko hat, also besser ist. fD 24 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Holdout-Testing: Analyse Was sind die Vorteile/Nachteile wenn Testmenge T möglichst groß möglichst klein gewählt wird? T möglichst g g groß,, damit Risikoschätzer RˆT ( f L ) g geringe g Varianz hat. T möglichst klein, damit Risikoschätzer RˆT ( f L ) geringen Bias hat, hat also nicht so stark pessimistisch ist ist. Braucht viele Daten, um gute Schätzungen zu bekommen Wird praktisch nur verwendet, wenn sehr viele Daten zur Verfügung stehen. Cross-Validation Cross Validation meist besser (siehe unten) 25 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Cross-Validation Gegeben: Daten D (x1 , y1 ),..., ) (x d , yd ) Teile D in n gleich große Abschnitte D1 ,..., Dn n D mit i 1 Di und Di D j 0 Wiederhole für i=1..n Trainiere fi mit Li =D \ Di. Bestimme empirisches Risiko Rˆ D ( f i ) auf Di. i D1 D2 D3 D4 Training examples 26 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Cross-Validation Mittle empirische Risikoschätzungen auf den jeweiligen Testmengen Di : R 1 n n i 1 Rˆ Di ( f i ) Trainiere fD auf allen Daten D. D Liefere Hypothese fD und Schätzer R . Training examples 27 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Leave-One-Out Cross-Validation Spezialfall n=d heisst auch leave-one-out Fehlerschätzung d 28 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Cross-Validation: Analyse Ist der Schätzer optimistisch, pessimistisch pessimistisch, erwartungstreu? 29 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Cross-Validation: Analyse Ist der Schätzer Optimistisch / pessimistisch / erwartungstreu? Schätzer ist pessimistisch: Hypothesen fi werden auf Anteil (n-1)/n der verfügbaren Daten trainiert. Hypothese fD wird auf den gesamten Daten trainiert Holdout C Cross-Validation V lid ti Training examples 30 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Cross-Validation: Analyse Bias/Varianz im Vergleich zu Holdout Holdout-Testing? Testing? Varianz ist geringer als beim Holdout-Testing Mittelung g über mehrere Holdout-Experimente, p , das reduziert die Varianz Alle Daten fließen in den Schätzer ein Bias ähnlich wie beim Holdout-Testing, je nach SplitVerhältnissen. Holdout C Cross-Validation V lid ti Training examples 31 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele Konfidenzintervalle ROC-Analyse 32 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Anwendungen/Beispiele g p H th Hypothesenevaluierung l i Wir wollen/müssen aus Anwendungsgründen wissen, wie gut Hypothese ist Macht es überhaupt p Sinn,, maschinelles Lernen in der Anwendung zu verwenden? Mit wie vielen falschen Vorhersagen müssen wir rechnen? Wir wollen mehrere verschiedene Lernansätze vergleichen Sollte man Entscheidungsbäume verwenden? SVMs? Logistische Regression? Naive Bayes? 33 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Anwendungen Hypothesenevaluierung Verfahren hat einen Parameter Parameter, den wir einstellen müssen Regularisierungsparameter g g p f w* arg min f w ( f i 2 ( x ), y ) || w || w i i =? (Hyper)Parameter, der Modellklasse bestimmt, z.B. Polynomgrad bei polynomieller Regression M f w ( x) wi x i M=? i 0 IIn allen ll di diesen Fäll Fällen iistt d der T Trainingsfehler i i f hl kkein i geeignetes Entscheidungskriterium! Fehlerschätzung mit Holdout-Menge Holdout Menge oder CrossCross Validation 34 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Beispiel: p Polynomgrad y g bei p polynomieller y R Regression i M Polynommodell vom Grad M: f w ( x) wi x i i 0 Wir lernen Modell durch Minimierung des quadratischen Verlustes (unregularisiert – schlecht) Trainingsdaten m w * arg min w ( f w ( xi ) yi ) i 1 2 L ( x1 , y1 ),..., ) ( xm , ym ) Gelerntes Modell Echtes Modell Datenpunkte = echtes Modell plus Gaußsches Rauschen 35 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Beispiel p p polynomielle y Regression: g T i i vs. T Training Testfehler tf hl Erfolg des Lernens hängt vom gewählten Polynomgrad M ab ab, der Komplexität des Modells kontrolliert 36 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Beispiel p p polynomielle y Regression: g T i i vs. T Training Testfehler tf hl Trainingsfehler vs vs. Testfehler für unterschiedliche Polynomgrade Testfehler z.B. mit grosser Holdout-Menge gemessen Phänomen der Überanpassung („Overfitting“): Trainingsfehler sinkt monoton mit M, aber Testfehler steigt für große M wieder i d 37 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Beispiel p p polynomielle y Regression: g T i i vs. T Training Testfehler tf hl Problem der Überanpassung (Overfitting) wird geringer, wenn mehr Daten verfügbar 10 Beispiele, M = 9 100 Beispiele, M = 9 In der Praxis verfügbare Daten begrenzt Modell muss regularisiert werden 38 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Regularisierte Polynomielle Regression M i Polynommodell vom Grad M: f ( x) wi x i 0 Lerne Modell durch Minimierung des regularisierten quadratischen Verlustes m w * argg min w ( f w ( xi ) yi ) 2 w i 1 M 9, Trainingsdaten 2 L ( x1 , y1 ),..., ( xm , ym ) ln 18 Gelerntes Modell Echtes Modell Datenpunkte = echtes Modell plus Gaußsches Rauschen 39 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Regularisierte Polynomielle Regression Jetzt müssen wir einstellen Regularisierungsparameter kontrolliert Komplexität ähnlich wie Polynomgrad M M 9 ln M 9 ln 18 M 9 ln 0 40 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Regularisierte Polynomielle Regression Trainingsfehler vs vs. Testfehler für unterschiedliche Werte des Regularisierungsparameters Testfehler z.B. mit grosser Holdout-Menge gemessen Trainingsfehler minimal ohne Regularisierung, aber Testfehler besser für regularisiertes Modell Umgekehrtes Verhalten wie für unterschiedliche Polynomgrade 0 41 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Regularisierte Polynomielle Regression Regularisierer wirkt wie eine Begrenzung der Modellkomplexität und verhindert Überanpassung In der Praxis am besten, Modellkomplexität durch Regularisierung zu kontrollieren (direkter Parameter wie bei Polynomen oft nicht verfügbar) Reg larisierer kann d Regularisierer durch rch Fehlerschät Fehlerschätzung ng (Holdo (Holdoutt Testing oder Cross-Validation) eingestellt werden. 42 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele Konfidenzintervalle ROC-Analyse 43 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Konfidenzintervalle Idee Konfidenzintervall: Intervall um den geschätzten Fehler Rˆ ( f ) angeben so dass der echte Fehler „meistens“ im Intervall liegt g Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable Rˆ ( f ) Rˆ ( f ) [ ] R 44 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Zero-One Loss und F hl Fehlerwahrscheinlichkeit h h i li hk it Für Konfidenzintervalle betrachten wir Risikoschätzung im Spezialfall Klassifikation mit Zero-One Loss Verlustfunktion Zero-One Loss: 0,, wenn y y ' l ( y, y ') 1, wenn y y ' Risiko = Fehlerwahrscheinlichkeit. R( f ) ( y, f (x)) p(x, y )dxdy p( y f (x)) 45 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Verteilung für Fehlerschätzer Hypothese f wird auf separater Testmenge mit m unabhängigen Beispielen evaluiert: 1 m RˆT ( f ) j 1 ( y j , f ( x j )) m T (x1 , y1 ),...,( ) ( x m , ym ) Fehlerschätzer ist erwartungstreu, E[ RˆT ( f )] R( f ) Betrachten zunächst unnormalisierten Fehlerschätzer m m RˆT ( f ) j 1 ( y j , f ( x j )) {0 1} Summe über S üb B Beispielverluste i i l l t ( y j , f (x j )) {0,1} Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R( f ) 46 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Fehlerwahrscheinlichkeit Unnormalisiertes empirisches Risiko m m RˆT ( f ) j 1 ( y j , f (x j )) i S ist Summe von Bernouilli-Variablen, B illi V i bl also l bi binomialverteilt: i l il P mR RˆT ( f ) mrˆ | R ( f ) r Bin( Bi ( mrˆ | m, r ) rˆ beobachtetes empirisches Risiko r echtes Risiko Erwartungswert mrˆ m R ( f ) mr 2 Varianz mrˆ m r (1 r ) 47 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Fehlerwahrscheinlichkeit Normalisiertes empirisches Risiko ebenso binomialverteilt P Rˆ ( f ) rˆ | R ( f ) r Bin(mrˆ | m, r ) P mRˆT ( f ) mrˆ | R ( f ) r Bin( mrˆ | m, r ) T rˆ R ( f ) r Erwartungswert Varianz Standardabweichung g („ („Standardfehler“)) rˆ rˆ2 1 r ((1 r ) m r (1 r ) m2 m r (1 r ) m Standardabweichung: Zufallsanteil des Schätzers, sinkt mit 1 m 48 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Binomialverteilung Wahrscheinlichkeit, empirischen Fehler Wahrscheinlichkeit beobachten: rr̂ zu m m(1 rˆ) P ( RˆT ( f ) rˆ | r ) Bin(mrˆ | r , m) r mrˆ (1 r ) mrˆ Konvergiert für große m gegen Normalverteilung m5 m 16 (rˆ r ) / rˆ (rˆ r ) / rˆ m 160 r 0.5 (rˆ r ) / rˆ 49 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Normalverteilung Empirisches Risiko annähernd normalverteilt: r (1 r ) RˆT ( f ) ~ N RˆT ( f ) | r , m [approximativ, für große m] Erwartungswert, Varianz der Binomialverteilung Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: RˆT ( f ) R( f ) rˆ RˆT ( f ) R( f ) ~ N | 0,1 rˆ [approximativ, für große m] Für die weitere Analyse brauchen wir Varianz des empirischen Risikos Risikos, ist abhängig vom echtem Risiko: rˆ2 r (1m r ) 50 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Students t-Verteilung Schätzen der Varianz durch empirische Varianz: sr2ˆ rˆ(1 rˆ) , m 1 srˆ rˆ(1 rˆ) m 1 Standardisiertes empirisches p Risiko folgt g bei g geschätzter Varianz einer Students t-Verteilung mit m-1 Freiheitsgraden (ähnlich Normalverteilung, aber mehr Wahrscheinlichkeitsmasse in den Außenbereichen) Außenbereichen). Für große m konvergiert Students tt-Verteilung Verteilung gegen die Standardnormalverteilung. 51 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Students t-Verteilung 52 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen rˆ r rˆ r lim m t |m N |0,1 s s ˆ ˆ r r Schranken für echtes Risiko Wir haben Verteilung des empirischen Risikos hergeleitet Was sagt das empirische Risiko jetzt also über das echte Risiko? Wir können Schranke für echtes Risiko bestimmen! rˆ (1 rˆ ) 2 Empirisches Risiko r̂ empirische Varianz srˆ m 1 R( f ) RˆT ( f ) ˆ ˆ P R ( f ) RT ( f ) P R ( f ) RT ( f ) P srˆ srˆ srˆ Approximativ standardnormalverteilt x P( X x) kumulative Verteilungsfunktion der Standardnormalverteilung 53 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Schranken für echtes Risiko Zweiseitige Schranke: P | R ( f ) RˆT ( f ) | ... ... 2 sr̂ˆ 1 54 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Konfidenzintervalle Idee: so wählen wählen, dass Schranke mit vorgegebener Wahrscheinlichkeit von 1- (z.B. =0.05) gilt. Einseitiges 1--Konfidenzintervall: Schranke , so dass ˆ P R( f ) RT ( f ) 1 Zweiseitiges 1--Konfidenzintervall: Schranke , so dass ˆ P | R( f ) RT ( f ) | 1 Bei symmetrischer Verteilung gilt immer: zu einseitigem 1--Konfidenzintervall = zu zweiseitigem i iti 1 2 K fid 1-2-Konfidenzintervall. i t ll 55 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Konfidenzintervalle Ermitteln des einseitiges 1--Konfidenzintervalls: P R( f ) RˆT ( f ) 1 1 srˆ srˆ 1 1 Konfidenzintervall ist [ RˆT ( f ) , RˆT ( f ) ] (Konfidenzlevel 1-2) 56 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Konfidenzintervalle Beispiel: rˆ 0.08 srˆ beobachtetes empirisches Risiko, m=100 0.08 0.92 0.027 100 1 empirischer Standardfehler 0.05 Konfidenzlevel P( R( f ) RˆT ( f ) ) 0.95 0.027 1.645 0.045 1 (0.95) [Tabelle] Für 0.045 gilt mit etwa 95% Wahrscheinlichkeit: R ( f ) RT ( f ) 0.045 [ ] R 90% Konfidenz 57 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Konfidenzintervalle Vorsicht bei der Interpretation von Konfidenzintervallen: die Zufallsvariable ist das empirische Risiko r̂ und das davon abgeleitete Intervall , nicht das echte Risiko R( f ) . Richtig: "Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu erhalten, das den echten Fehler enthält, ist 95%" Falsch: "Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit, dass der echte Fehler im Intervall liegt, ist 95%" 58 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele Konfidenzintervalle ROC-Analyse 59 Sawade/La S andwehr/P Prasse/Sccheffer, Ma aschinelles Lernen