Ratingverfahren Bayessche Statistik Ratingverfahren und Bayessche Statistik Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Universität Münster 25.10.2007, 8.11.2007, 15.11.2007, 22.11.2007, 29.11.2007 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Vorbemerkung Banken sind durch die Bankenaufsicht angehalten ihre Risiken zu quantifizieren, um den erwarteten Verlust entsprechend (in Form von Wertberichtigungen) berücksichtigen zu können und um einen zusätzlichen Risikopuffer (in Form von aufsichtlich erforderlichem Mindesteigenkapital) vorzuhalten. Zudem ist es für Banken wesentlich Risiken angemessen zu bepreisen. Die wichtigsten Risikokomponenten sind dabei 1. das Kreditrisiko (Risiko, dass ein Kunde einen Kredit nicht zurückzahlt) und 2. das Marktrisiko (Risiko resultierend aus Marktpreisschwankungen). Im Folgendem werden wir uns speziell mit Ratingverfahren beschäftigen. Diese sind die Grundlage für eine Quantifizierung des Kreditrisikos. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Erwarteter Verlust (expected loss, EL) Die Berechnung des innerhalb eines Jahres durch einen möglichen Ausfall eines Kunden erwarteten Verlusts erfordert die Kenntnis der: 1. der Wahrscheinlichkeit eines Ausfalls des Kunden im nächsten Jahr (probability of default, PD), 2. der erwarteten Höhe der Forderung bei Ausfall innerhalb des nächsten Jahres ([expected] exposure at default, EAD), 3. der erwartete Verlustquote bei Ausfall ([expected] loss given default, LGD). Hierbei wird die Ausfallwahrscheinlichkeit des Kunden durch die Anwendung eines Ratingverfahrens bestimmt, welches beispielsweise mit Hilfe einer (parametrischen oder auch nichtparametrischen) logistischen Regression entwickelt worden ist. Die Schätzung des EAD und LGD kann ebenfalls durch Regressionsmodelle erfolgen, diese sind aber abhängig von den Eigenheiten des Geschäfts bzw. der Kreditsicherheiten. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Exposure at Default (EAD) Das Exposure at Default (EAD) ist die (bilanzielle und außerbilanzielle) Inanspruchnahme eines Kunden bei Ausfall innerhalb eines Jahres, zu schätzen aus dem Ziehungsverhalten von in der Vergangenheit ausgefallenen Kunden:1 Inanspruchnahme Konto 2 Erhöhung nach Ausfall Überziehung Limit Rückzahlung nach Ausfall Konto 1 0 r Ausfall Zeit 1 Typische Probleme der EAD-Schätzung sind z.B. die Bestimmung von außerbilanziellen Inanspruchnahmen die zum Ausfallzeitpunkt noch nicht feststehen, resultierend z.B. aus Garantieverpflichtungen, die die Bank für den Kunden übernommen hat, die Umschichtungen zwischen verschiedenen Konten eines Kunden oder zwischen wirtschaftlich abhängigen Kunden, die eine Zusammenfassen von Einzelkonten erforderlich machen, oder die Zuordnung von nachträglich genehmigten Krediterhöhungen zum Zwecke der Sanierung. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Loss given Default (LGD) Positionswert bei Ausfall EAD Erlöse aus Sicherheiten C Blankoanteil EAD - C Erlöse aus Blankoanteil Abwicklungs– kosten Gesamt– verlust EAD · LGD Forderungs– verlust Der erwartete Verlustquote wird aus den tatsächlichen Verlustquoten der Vergangenheit unter Berücksichtung der Erlöse aus Sicherheiten geschätzt. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Rating Ratingverfahren versuchen, die Wahrscheinlichkeit dafür zu schätzen, dass ein Kreditnehmer seinen zukünftigen Rückzahlungsverpflichtungen nicht vertragsgemäß nachkommen kann. Kennzeichnen wir solch einen Ausfall (Default) durch die Indikatorvariable 0 = kein Ausfall des Kreditnehmers i , (1) yi = 1 = Ausfall des Kreditnehmers i so interessiert uns die Schätzung der Ausfallwahrscheinlichkeit p(yi |xi ) von Kunde i gegeben die Informationen xi die bei Vertragsabschluss über ihn vorliegen. Bei diesen Informationen kann es sich z.B. um die Bilanzkennzahlen des Kunden handeln. Als Zeithorizont wird beim Kreditrisiko typischerweise 1 Jahr verwendet, d.h. p(yi |xi ) steht für die Wahrscheinlichkeit, dass der Kreditnehmer i innerhalb eines Jahres ausfällt. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Ausfallwahrscheinlichkeit Die Ereignisse, die eine Bank als Ausfall eines Kunden zu werten hat, sind in der Solvabilitätsverordnung (SolvV) vom 14.12.2006 in §125 erläutert. Dabei gilt ein Kunde i.W. dann als ausgefallen, wenn er mit einer Zahlung über 90 Tage in Verzug gerät, bzw. für ihn eine Einzelwertberichtigung oder Rückstellung gebildet worden ist, d.h. die Bank begründet einen Verlust erwartet (der dann jedoch nicht in jedem Fall auch tatsächlich eintreten muss). Schreiben wir für die Ausfallwahrscheinlichkeit des Kunden i kurz p(yi = 1|xi ) = pi , und damit für die Überlebenswahrscheinlichkeit p(yi = 0|xi ) = 1 − pi , so erhalten wir, wegen y ∈ {0, 1}, pi wenn yi =1 (Ausfall) yi 1−yi . p(yi |xi ) = pi (1−pi ) = 1 − pi wenn yi =0 (kein Ausfall) (2) Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Ausgangsdaten Die Ausgangsdaten oder Trainingsstichprobe zur Konstruktion eines Ratingverfahrens bestehen aus einer repräsentativen Stichprobe von n vergangenen Fällen mit bekanntem Wert des Ausfallindikators yi (abhängige Variable), getrennt in Gutfälle mit yi = 0 und Schlechtfälle mit yi = 1, sowie den dazugehörigen Ausprägungsvektoren xi , die für jeden von n Kreditnehmern i die Ausprägungen xij der m sog. unabhängigen Variablen x·j enthalten, z.B. Bilanzkennzahlen oder auch einen Branchenschlüssel: Fall i 1 2 3 .. . Ausfall yi 0 0 1 .. . Kennzahlen 1 bis m xi1 xi2 · · · xim 17,5 0,2 · · · 7 2,2 0,6 · · · 2 35,0 0,1 · · · 15 .. .. .. .. . . . . Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Modellauswahl mit der Maximum–Likelihood–Methode Wir suchen nun ein Modell, welches die Ausfallwahrscheinlichkeiten pi (xi ) in Abhängigkeit von uns bekannten Größen xi möglichst gut schätzen soll. Dazu wählen wir eine Parametrisierung der Ausfallwahrscheinlichkeit p(yi = 1|xi ) = pi (xi ) → p(yi = 1|xi , a) = pi (xi , a), a ∈ A (3) und suchen dann denjenigen Parametervektor a∗ ∈ A zur Vorhersage von pi , der eine vorzugebende Zielfunktion optimiert. Als Zielfunktion wählen wir die sogenannte Likelihoodfunktion, das ist die Wahrscheinlichkeit der gegebenen Daten (x, y ) in Abhängigkeit von dem Parametervektor, welcher das Modell repräsentiert, L(a) = p(y |x, a) = p(y1 , · · · , yn |x1 , · · · , xn , a), also a ∗ = argmaxa∈A L(a) = argmaxa∈A p(y |x, a). Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (4) (5) Ratingverfahren Bayessche Statistik Faktorisieren der Likelihood Die Likelihoodfunktion (4) ist ein viel zu hochdimensionales Objekt, um in dieser allgemeinen Form damit arbeiten zu können. Nutzen wir die allgemeine Regel p(A, B) = p(A)p(B|A), (6) so sehen wir, dass p(y |x, a) = p(y1 , · · · , yn |x1 , · · · , xn , a) = p(y1 |x, a)p(y2 , · · · , yn |y1 , x, a) (7) = p(y1 |x, a)p(y2 |y1 , x, a)p(y3 |y1 , y2 , x, a) · · · × · · · p(yn |y1 , · · · , yn−1 , x, a). Wir versuchen nun diese Faktoren der Likelihood zu vereinfachen. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Annahmen zur Vereinfachung der Likelihood Dazu nehmen als erstes an, dass der Datenvektor xi alle für yi relevanten Informationen aus x enthält, also p(yi |x, a) = p(yi |xi , a). (8) Dies ist eigentlich eine reine Konvention, denn xi und xj können dabei auch für i 6= j gemeinsame Komponenten enthalten, z.B. können zwei verschiedenen Kunden aus derselben Branche oder demselben Land stammen. Im Extremfall enthält xi ganz x. Zweitens nehmen wir an, dass die Ausfallwahrscheinlichkeiten, gegeben alle verfügbaren Daten x, faktorisieren, d.h. dass p(yi |{yj , j 6= i}, x, a) = p(yi |xi , a). (9) Dies nennt man bedingte Unabhängigkeit der y gegeben x und ist in der Realität sicher nur eine Näherung. Ein Abhängigkeit der Ausfälle y wird in diesen Fällen nur über die Faktoren x vermittelt. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Vereinfachung der Likelihood Damit erhalten wir nun L(a) = p(y |x, a) = p(y1 , · · · , yn |x1 , · · · , xn , a) = p(y1 |x, a)p(y2 |y1 , x, a)p(y3 |y1 , y2 , x, a) · · · × · · · p(yn |y1 , · · · , yn−1 , x, a). = p(y1 |x1 , a)p(y2 |x2 , a) · · · p(yn |xn , a) n Y = p(yi |xi , a) i=1 = n Y piyi (1 − pi )(1−yi ) , i=1 also ein Produkt (bedingt) unabhängiger Faktoren. In der letzten Zeile bezeichnet pi = pi (xi , a) = p(yi = 1|xi , a) die Ausfallwahrscheinlichkeit des i-ten Kunden. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Bemerkung zur bedingten Abhängigkeit Die Voraussetzung 9 der bedingten Unabhängigkeit ist in der Praxis für die Ausfallprognose nicht erfüllt, ja sie steht gewissermaßen sogar im Widerspruch zu den Portfoliomodellen, bei denen gerade die verbleibende Abhängigkeit der Ausfälle modelliert wird. Dies liegt u.a. daran, dass die xi aktuell bekannte Daten über den Kreditnehmer repräsentieren, die yi aber die Ausfallwahrscheinlichkeit innerhalb des nächsten Jahres darstellen. In der Zeit zwischen Ratingerstellung und Ausfall kann es durchaus gemeinsame Faktoren geben, die die Bonität zweier Kunden beeinflussen. Dies kann z.B. eine zum Zeitpunkt der Ratingerstellung noch nicht bekannte Konjunkturentwicklung sein, die die Bonität mehrerer Unternehmen beeinflusst, oder auch eine direkte Abhängigkeit, wie zwischen Mutterkonzern und Tochterunternehmen. Im letzteren Fall wird man beide Unternehmen als eine Ratingeinheit zusammenfassen. Die bedingte Unabhängigkeit ist aber keine notwendige Voraussetzung, und solange wir nur an den Ausfallwahrscheinlichkeiten der einzelnen Kunden und nicht an Mehrkundengrößen, wie Paarausfallwahrscheinlichkeiten, interessiert sind, kann auch die Produktlikelihood, und damit auch die gleichgewichtete Summe der einzelnen Loglikelihoods, maximiert werden. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Loglikelihood Da die Logarithmus-Funktion streng monoton steigend ist, liefert das Maximieren der Likelihood das gleiche Ergebnis a∗ wie das Maximieren der Loglikelihood. Dies ist günstig, da bei dem Übergang von Likelihood zur Loglikelihood aus einem Produkt eine oft einfacher zu handhabende Summe wird ln L(a) = ln p(y |x, a) n X = ln p(yi |xi , a) i=1 = n X [yi ln pi + (1 − yi ) ln (1 − pi )] . i=1 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (10) Ratingverfahren Bayessche Statistik Ausfallwahrscheinlichkeit in Energiedarstellung“ ” Wahrscheinlichkeiten müssen positiv und normiert sein, d.h. in dem Zweizustandsfall (Ausfall, Nichtausfall) muss gelten 0 ≤ pi ≤ 1. Um diese Nebenbedingungen bei einer Parametrisierung der Ausfallwahrscheinlichkeiten automatisch einzuhalten, ist die Darstellung der Wahrscheinlichkeiten in der aus der statistischen Physik bekannten Energiedarstellung“ nützlich ” p(yi = 1|xi , a) = pi = e −E (yi =1|xi ,a) e −E1 (xi ) = , Zi (xi , a) Zi p(yi = 0|xi , a) = 1 − pi = e −E0 (xi ) e −E (yi =0|xi ,a) = . (11) Zi (xi , a) Zi wobei sich die Zustandssumme“ Zi aus der Normierung ergibt ” 1 = p(yi = 1|xi ) + p(yi = 0|xi ) ⇒ Zi = e −E0 (xi ) + e −E1 (xi ) . (12) Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Ausfall– und Überlebenswahrscheinlichkeit Für diesen Zweizustandsfall erhält man also pi (xi ) = = e −E1 (xi ) 1 = −E (x ) −E (x ) −E 0 1 0 i i e +e 1 + e (xi )+E1 (xi ) e ∆i 1 = −∆ 1+e i 1 + e ∆i (13) und für die Überlebenswahrscheinlichkeit 1 − pi (xi ) = = e −E0 (xi ) 1 = e −E0 (xi ) + e −E1 (xi ) 1 + e E0 (xi )−E1 (xi ) −∆ i e 1 = . (14) ∆ i 1+e 1 + e −∆i Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Logit Gl. (13) und (14) zusammenfassend können wir schreiben, p(yi |xi , a) = piyi (1 − pi )1−y −i = e yi ∆ i . 1 + e ∆i Die in (13, 14, 15) vorkommende Energiedifferenzen“ ” pi (xi , a) ∆i (xi , a) = E0 (xi , a) − E1 (xi , a) = ln 1 − pi (xi , a) (15) (16) sind als Logits bekannt (oder, als Logarithmus der Verhältnisse pi 1−pi , den so genannten ”Odds“, auch als Log–Odds). Diese ∆i können nun vollkommen frei parametrisiert werden, d.h. ohne dass die Bedingungen der Positivität und Normierung für pi explizit beachtet werden müssen, denn diese sind aufgrund ihrer Definition zwangsläufig erfüllt. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Likelihood in Energiedarstellung“ ” Die Likelihood wird mit (15) L(a) = p(y |x, a) = Y p(yi |xi , a) = i Y e yi ∆ i 1 + e ∆i (17) i und damit also die Loglikelihood X X ln L(a) = ln p(yi |xi , a) = [yi ln pi + (1 − yi ) ln(1 − pi )] i i i Xh = yi ∆i − ln 1 + e ∆i . (18) i −E (y |x,a) Schreiben wir L(a) = p(y |x, a) = e Z (x,a) können wir darin Q P − i yi ∆i als Likelihoodenergie“ E (y |x, a) und i 1 + e ∆i als ” Likelihoodzustandssumme“ Z (x, a) bezeichnen. ” Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Logistische Regression Die Ausfallwahrscheinlichkeiten pi werden also bei der logistischen Regression nicht direkt, sondern indirekt über deren Logits ∆i parametrisiert. Wählen wir eine lineare Parametrisierung ∆i (a) = a0 + a1 xi1 + · · · + am xim = m X aj xij (19) j=0 worin die m + 1 Parameter aj , 0 ≤ j ≤ m, den Parametervektor a bilden und wir zur Vereinfachung der Schreibweise xi0 = 1 ∀i vereinbart haben, so erhalten wir für die vom Parametervektor a abhängige Ausfallwahrscheinlichkeit pi (a) = p(yi = 1|xi , a) = Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 1 1+e − Pm j=0 aj xij . Ratingverfahren und Bayessche Statistik (20) Ratingverfahren Bayessche Statistik Die Ausfallwahrscheinlichkeit der logistischen Regression Die Ausfallwahrscheinlichkeit hat als Funktion des Logit eine sigmoide Form. Eine eindimensionale logistische Regression mit den beiden Parametern a0 und a1 p(x) = p(y = 1|x, a0 , a1 ) = 1 , 1 + e −(a0 +a1 x) zeigt folgende Abhängigkeit von (dem eindimensionalen) x p(x) = 1 a0 = 0, a1 = 1 p(x) = 0.5 a0 = 1, a1 = 1 p(x) = 0 a0 = 0, a1 = 2 x -5 -1 0 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 5 Ratingverfahren und Bayessche Statistik (21) Ratingverfahren Bayessche Statistik Die allgemeine Stationaritätsbedingung Wir maximieren die Likelihood indem wir die Stationaritätsstellen der Loglikelihood bestimmen, d.h. wir setzen deren Ableitung nach den einzelnen Komponenten aj des Parametervektors a gleich Null n X ∂∆i e ∆i ∂∆i ∂ , yi ln p(y |x, a) = − 0= ∂aj ∆i ∂a ∂aj 1 + e j | {z } i=1 pi n X ∂∆i (a) (yi − pi (a)) = . (22) ∂aj i=1 Lösen von (22) liefert den optimalen Parametervektor a∗ . Da pi von a abhängt, ist die Stationaritätsgleichung nichtlinear, so dass evtl. mehrere Lösungen existieren können, wovon dann die maximale die gesuchte ist. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Die Stationaritätsgleichung der logistischen Regression Setzen wir nun den linearen Ansatz (19) für die Logits, also in Matrixschreibweise ∆ = Xa, Xij = xij (23) in die Stationaritätsbedingung (22) ein, so erhalten wir wegen ∂∆ =X ∂a (24) 0 = X T (y − p), (25) die Stationaritätsgleichung bzw. in Komponenten 0= n X (yi − pi (a)) xij . i=1 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (26) Ratingverfahren Bayessche Statistik Modellerweiterungen Ein logistisches Regressionsmodell kann unter Beibehaltung des linearen Ansatzes für die Logitfunktion erweitert werden, indem die Zahl m der Eingangsvariablen vergrößert wird. Neben den m Variablenwerten xi1 bis xim für Fall i können dabei auch Potenzen, Produkte und beliebige andere nichtlineare Funktionen der xij verwendet werden, wie z.B. 2 ∆i = a0 + a1 xi1 + a2 xi1 + a3 xi1 xi2 + a4 ln xi1 + · · · . (27) Auch diskrete Klassenvariablen cij (z.B. für Länder oder Branchen) können verwendet werden. Eine Klasse mit K verschiedenen Ausprägungen k = 1, · · · K kann dabei auf verschiedene Arten durch K − 1 Dummyvariablen repräsentiert werden, z.B. in der Referenzgruppenkodierung (bzgl. der Gruppe k = K ) durch xi,jk = 1 wenn cij = k und 0 sonst für 1 ≤ k ≤ K − 1. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Nichtlineare Variablentransformationen Bezüglich der Variablen xi , die linear im Logit ∆i auftauchen, kann die logistische Regression nur monotone Zusammenhänge abbilden. Wenn z.B. die Eigenkapitalquote nur linear im Logit auftaucht, dann kann die Ausfallwahrscheinlichkeit mit wachsender Eigenkapitalquote entweder nur fallen oder nur steigen, nicht jedoch oszillieren. Um nichtmonotone Zusammenhänge abzubilden, muss die betreffende Variable daher nichtlinear in den Logit einfließen. Beispielweise wird manchmal ein U-förmiger Zusammenhang zwischen Wachstumsrate und PD gesehen d.h. sowohl zu kleines wie auch zu großes Wachstum ist bonitätsverringernd. Bei solch einem U-förmigen Zusammenhang kann z.B. neben xi ein zusätzlicher xi2 –Term im Logit verwendet werden. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Klassen– und Dummy–Variablen Klassenzugehörigkeiten, können auf verschiedene Weise durch so genannte Dummyvariablen implementiert werden. Wollen wir beispielsweise Firmen nach ihrem Sitzland (z.B. EU vs. US vs. Sonstige) in dem Rating explizit unterscheiden, so können wir dies durch zwei Dummyvariablen, die, z.B. in der Referenzgruppenkodierung wie folgt gewählt werden Gruppe EU US Sonst. xi,EU 1 0 0 xi,US 0 1 0 Eine logistische Regression mit ∆i = a0 + a1 xi,EU + a2 xi,US (28) liefert dann je Ländergruppe eine eigene Ausfallwahrscheinlichkeit. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Wechselwirkungen Hängt ein Term im Logit nichtlinear von mehreren Variablen ab, wie z.B. ∆i = a0 + a1 xi2 xi2 + · · · (29) so modifizieren diese sich in ihrer Wirkung gegenseitig, d.h. sie wechselwirken. Wollen wir zum Beispiel die Rolle der Eigenkapitalquote xi,EQ in Abhängigkeit von dem Land (z.B. EU,US,Sonstige), der Branche (z.B. Einzelhandel, Industrie, Sonstiges) oder der Rechnungslegungsvorschriften (z.B. IFRS, US–GAAP, HGB) differenzieren, so können wir das durch Aufnahme eines Produktes aus der entsprechenden Dummy–Variable und der Eigenkapitalquote als Term im Logit erreichen, also z.B. ∆i = a0 + a1 xi,EQ + a2 xi,US xi,EQ . Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (30) Ratingverfahren Bayessche Statistik Verhältnisskennzahlen Eine besondere Form der Wechselwirkung ist die Verhältnisbildung xi′ = xxi1i2 . Diese dient in erster Linie dazu dimensionslose Kennzahlen zu erhalten. So haben zum Beispiel eine Eigenkapitalquote EQ, gleich Eigenkapital EK in Euro durch Bilanzsumme BS in Euro, von z.B. 10% für eine große und eine kleine Firmen vielleicht einen ähnlichen Effekt auf die Bonität, die Angabe eines Eigenkapitals von 1 Mio. Euro ist dagegen ohne Bezug zur Firmengröße wohl kaum nützlich. Wenn z.B. größere Unternehmen im Mittel geringere Ausfallwahrscheinlichkeiten haben, können neben solchen dimensionslosen Verhältniskennzahlen auch noch Größenindikatoren mit in das Modell aufgenommen werden, wie die Bilanzsumme oder, oft besser, deren Logarithmus. Bei Verwendung von Verhältnissen muss für kleine Nenner auch eine Regularisierungsvorschrift implementiert werden, wie z.B. i1 mit einem kleinen ǫ > 0. Zudem sollte für alle vier xi′ = sign(xi2 ) xmax(|x i2 |,ǫ) Vorzeichenkombinationen von Nenner und Zähler überprüft werden, ob diese jeweils zulässig sind und mit welchem relativen Vorzeichen zueinander diese eingehen sollen. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Parametrisierte Transformationen Um eine optimale Variablentransformation zu erhalten, können allgemein parametrisierte Transformationen f (xi , b) verwendet werden, wobei die Parameter auch durch Maximieren der Likelihood bestimmt werden können. Die Stationaritätsgleichung erhält dadurch zusätzliche, i.a. nichtlineare Faktoren. So kann auch aus mehreren Variablen xi eine Variable xi′ abgeleitet werden, die dann linear in den Logit eingeht, z.B. auch wieder mit einer logistischen Regression xi′ = 1 1+ e b0 +b1 xi1 +b2 xi2 ··· , pi = 1 1+ ′ e a0 +a1 xi +··· . (31) Solch eine iterierte logistische Regression ist auch bekannt als neuronales Netz. Wie wir noch sehen werden, führt jedoch eine zu große Flexibilität zu einem Verlust an Vorhersagekraft des Models. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Qualitative Daten Beispiel: Einschätzung der Qualität des Managements der Kreditnehmerfirma durch den Firmenkundenbetreuer auf einer Skala von 1 bis 6. Vorteil: Komplexe Sachverhalte können durch Experten quantifiziert werden. Nachteile: Nachträglich erhobene, weiche“ qualitative Daten suggerieren leicht eine ” zu hohe Qualität des Ratings, da nach Kenntnis des Ausfalls eines Unternehmen diesem auch schon für die Zeit vorher eher schlechtere qualitative Noten geben werden. Das Wissen um den späteren Ausfall ist dann in den nachträglich erhobenen Daten schon enthalten. Zudem muss eine ordinale Einschätzung, bei der nur größer und kleiner eine Bedeutung hat, entweder als Intervallskala verwendet werden, bei der z.B. die Differenz zwischen 1 und 3 als doppelt so groß interpretiert wird wie die zwischen 1 und 2, oder sie muss wie eine reine Gruppeneinteilung implementiert werden, so dass die ordinale Information, also z.B. 1 ist besser als 2, verloren geht. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Overfitting Bei hinreichend passender Modellwahl (Prior) lassen sich für eine Trainingsmenge optimierte Modelle auch zur Vorhersage neuer Fälle verwenden, werden die Modelle jedoch zu komplex, weil z.B. die Zahl der Eingangsvariablen zu groß wird, so werden zwar die zur Bestimmung der Modellparameter benutzten Trainingsdaten immer perfekter abgebildet, die Übertragbarkeit auf neue Anwendungs– oder Testdaten nimmt jedoch bei steigender Modellkomplexität irgendwann wieder ab. Diesen Fall nennt man Overfitting. Fehler Testfehler optimaler Bereich Overfitting Trainingsfehler Modellkomplexität Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Nichtparametrische“ Modelle ” Um ein vollkommen flexibles Modell zu erhalten können wir die Logits ∆i (xi ) für jeden Wert von xi als eigenständigen Parameter wählen. Damit gibt es keinerlei durch eine Parametrisierung vorgegebene Beziehung von Logits, und damit auch von Ausfallwahrscheinlichkeiten, mit verschiedenen Werten von xi . ∂∆i i Damit erhalten wir ∂∆ ∂aj = ∂∆j = δxi ,xj und (22) wird zu 0= nj X kj =1 1 X yjkj yjkj − pj ⇒ pj = nj (32) kj wobei der Index j die ñ verschiedenen Wert von xi indiziert und kj verschiedene Datenpunkte mit gleichem Wert von xj unterscheidet. D.h. für jedes xj wird die zugehörige empirische Häufigkeit als Schätzung übernommen. Wir werden jedoch sehen, dass solch ein nichtparametrisches“ Modell nutzlos wird für große ñ. ” Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Kreuzvalidierung Bei der Methode der Kreuzvalidierung wird der Testfehler (z.B. die negative Loglikelihood) auf einer von den Trainingsdaten unabhängigen, d.h. nicht zur Bestimmung des optimalen Parameters genutzten Stichprobe bestimmt. Dazu wird von den verfügbaren Daten ein Teil (im Extremfall eine einzelne Beobachtung) abgetrennt und dieser zur Berechnung des Testfehlers für das Modell mit dem anhand der verbleibenden Trainingsdaten bestimmten optimalen Parametervektor verwendet. Um die verfügbaren Daten optimal zu nutzen, kann dieses Verfahren mit einer neuen, disjunkten Testmenge wiederholt werden, bis jeder Datenpunkt genau einmal einer Testmenge zugeteilt war. Diese Schätzung des Testfehlers kann dann genutzt werden, um die optimale Modellkomplexität zu finden (wie z.B. die Anzahl der Inputvariablen x·j in einem Regressionsmodell). Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Kreuzvalidierung: Schema Train. Train. Train. Train. Test Train. Train. Train. Test Train. Train. Test Train. Test Test 1. Durchgang Train. 2. Durchgang Train. Train. 3. Durchgang Train. Train. Train. 4. Durchgang Train. Train. Train. Train. 5. Durchgang Beispiel einer fünffachen Kreuzvalidierung: Die gesamten verfügbaren Daten werden in fünf gleiche Teile geteilt, wovon jeder der Teile in einem der fünf Durchgänge als Testmenge dient. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Ratingbau Der Bau eine Ratingverfahrens kann z.B. nach folgenden Phasen ablaufen 1. Datensammlung (ohne systematische Verzerrung) 2. Auswahl und Analyse möglicher unabhängiger Basisvariablen (z.B. Bilanzpositionen, Branche) 3. Konstruktion und Analyse möglicher abgeleiteter Variablen (z.B. aus Bilanzpositionen gebildete Kennzahlen, und andere nichtlineare Transformationen, Wechselwirkungsvariablen, Dämpfung extremer Werte) 4. Aufbereitung der unabhängigen Variablen (z.B. filtern, Ergänzung fehlender Werte) 5. multivariater Modellbau (z.B. Fitten durch logistische Regression, Variablenauswahl mit Kreuzvalidierung) 6. Umsetzung (z.B. Programmierung Ratinganwendung, Datenbankkonzept, Definition Ratingprozess) Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Bayessche Statistik: Prognosewahrscheinlichkeit Ziel: Vorhersage neuer, noch unbekannter Daten D ∗ auf Basis der bekannten Daten D = {x, y } unter Verwendung der Prognosewahrscheinlichkeit p(D ∗ |D), (33) bzw. wenn wir auch die neuen Daten D ∗ in vorgefundene bzw. gesetzte Bedingungen x ∗ und vorherzusagende Beobachtungen y ∗ unterteilen p(y ∗ |x ∗ , D). (34) Dies ist wie auch bisher eine etwas abgekürzte Notation für die Wahrscheinlichkeit (bzw. die Wahrscheinlichkeitsdichte), dass die Zufallsvariable Y ∗ den Wert y ∗ annimmt, wenn die Variable X ∗ den Wert x ∗ und die Daten den Wert D = {x, y } haben. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Modelle/Hypothesen Um die Größe p(y ∗ |x ∗ , D) handhabbar zu machen, definieren wir einen Raum H möglicher Modelle oder Hypothesen h. Die Modelle h brauchen nicht deterministisch zu sein, d.h. sie liefern für gegebenes x nicht notwendig eine exakte Vorhersage des Wertes y , sondern eine durch ihre Likelihood p(y |x, h) (35) definierte Wahrscheinlichkeit für das Auftreten eines Wertes y . Der Raum H möglicher Modelle sollte dabei vollständig sein, d.h. alle möglichen Modelle abdecken. In der Praxis kann dies natürlich nur näherungsweise erreicht werden. und in H fehlende Modelle können dann nicht erkannt, sondern nur durch andere in H enthaltene h approximiert werden. Die Likelihoods der h sollen zudem für alle x, y definiert und voneinander verschieden, also disjunkt, sein, so dass nur ein Modell realisiert sein kann. Die Modelle h repräsentieren in der Regel verdeckte Variablen, die nicht direkt, sondern nur indirekt über die gemessenen Daten beobachtbar sind. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Einschieben der Hypothesen Für vollständige und disjunkte Ereignisse B gilt X X p(A|B)p(B), p(A, B) = p(A) = B (36) B wobei die Summe für kontinuierliche B durch ein Integral zu ersetzen ist. Wenden wir dies auf die nach Messung der Daten D zur Vorhersage zu verwendende Prognosewahrscheinlichkeit (34) an, so erhalten wir (in Integralschreibweise) Z ∗ ∗ p(y |x , D) = dh p(y ∗ |x ∗ , D, h) p(h|x ∗ , D) . (37) | {z } | {z } p(y ∗ |x ∗ ,h) p(h|D) Der Ausdruck vereinfacht sich wie gezeigt, da die Likelihoods durch x ∗ und h bereits festgelegt und damit unabhängig von D sind und wir mit x ∗ den von h unabhängigen Teil von D ∗ bezeichnen wollen, so dass p(h|x ∗ , D) = p(h|D). Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Beispiel: Modellraum der logistischen Regression Betrachten wir eine univariate logistische Regression mit linearem Logit ∆i = a + b xi , wo bei einer Ratinganwendung xi z. B. die Eigenkapitalquote des Kunden beim Datenpunkt i bezeichnen könnte. Die Likelihood eines Datenpunktes (xi , yi ) ist dabei gemäß (15) definiert als p(yi |xi , h) = p(yi |xi , a, b) = e yi ∆ i e yi (a+bxi ) = . 1 + e ∆i 1 + e a+bxi Machen wir keine weiteren Einschränkungen an a und b, so ist der Modellraum H also der zweidimensionale durch alle Parameter-Wertepaare (a, b) aufgespannte R R Raum und das Integral dh ist als Integral über die Parameter da db zu interpretieren. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Die A–Posteriori–Wahrscheinlichkeit Die Prognosewahrscheinlichkeit Z p(y ∗ |x ∗ , D) = dh p(y ∗ |x ∗ , h) p(h|D), (38) enthält neben der das Modell h definierenden Likelihood bzgl. der neuen Daten p(y ∗ |x ∗ , h) auch den Faktor p(h|D) = p(h|x, y ). Dieser bezeichnet die Wahrscheinlichkeit (für die Richtigkeit) von Modell h gegeben alle bekannten Daten D und ist als A–Posteriori–Wahrscheinlichkeit des Modells h bekannt. Um diese zu berechnen, wollen wir sie durch eine bekannte Größe, nämlich die Likelihood p(y |x, h) ausdrücken. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Bayessches Theorem Die Wahrscheinlichkeit für das gleichzeitige Eintreffen von Ereignis A und B lässt sich einmal durch die bedingte Wahrscheinlichkeiten p(A|B) und einmal durch die bedingte Wahrscheinlichkeiten p(B|A) ausdrücken p(A, B) = p(A|B) p(B) = p(B|A) p(A). Dadurch können wir P(A|B) durch die so genannte zu ihr inverse“ bedingte Wahrscheinlichkeit P(B|A) ausdrücken ” p(A, B) p(B|A) p(A) p(A|B) = = p(B) p(B) Diese Beziehung ist bekannt als Bayessches Theorem. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (39) (40) Ratingverfahren Bayessche Statistik A–Priori–Wahrscheinlichkeit Wir erhalten für die A–Posteriori–Wahrscheinlichkeit mit dem Bayesschen Theorem Likelihood Prior z }| { z}|{ p(D|h) p(h) p(h|D) = . | {z } p(D) | {z } Posterior (41) Evidenz Der Faktor p(h) bezeichnet die Wahrscheinlichkeit für h bevor die Daten D = (x, y ) bekannt sind und wird daher als A–Priori-Wahrscheinlichkeit bezeichnet. Analog erhalten wir p(h|D) = p(h|x, y ) = p(y |x, h) p(h|x) , p(y |x) (42) mit p(h|x) = p(h), da wir mit x den von h unabhängigen Teil der Daten bezeichnen. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Evidenz Die Evidenz, d.h. der Nenner in (41), lässt sich analog wieder durch Einschieben von h durch die Likelihood p(D|h) und Prior p(h) ausdrücken Z p(D) = dh p(D|h) p(h), (43) bzw. für (42) p(y |x) = Z dh p(y |x, h) p(h). (44) So ergibt sich für die A–Posteriori–Wahrscheinlichkeit p(h|D) = R p(y |x, h) p(h) . dh′ p(y |x, h′ ) p(h′ ) Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (45) Ratingverfahren Bayessche Statistik Vorhersage durch Mittelung über alle Modelle Mit (45) lässt sich nun auch die Prognosewahrscheinlichkeit (37) durch die Likelihoods ausdrücken Z 1 ∗ ∗ dh p(y ∗ |x ∗ , h) p(y |x, h) p(h) p(y |x , D) = p(y |x) R dh p(y ∗ |x ∗ , h) p(y |x, h) p(h) R = . (46) dh′ p(y |x, h′ ) p(h′ ) Das Integral über h ist typischerweise extrem hochdimensional und lässt sich nur in ganz einfachen Fällen analytisch, und sonst, wenn überhaupt, nur approximativ, z.B. durch Monte–Carlo–Methoden berechnen. Zudem ist das Integral von y ∗ und x ∗ abhängig, und muss für alle Werte y ∗ und x ∗ , die von Interesse sind, berechnet werden. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Maximum–A–Posteriori–Methode (MAP) Zur Berechnung der Prognosewahrscheinlichkeit (46) wird über die Vorhersagen p(y |x, h) aller möglichen Modelle gemittelt, und zwar jeweils gewichtet mit ihrer A–Posteriori–Wahrscheinlichkeit p(h|D). Dies bedeutet, dass Hypothesen deren Wahrscheinlichkeit auf Grund der vorhandenen Daten hoch ist, auch stark gewichtet in die Prognose mit einfließen. Ist die Zahl der Daten groß genug, so ist in vielen Fällen das Produkt aus Likelihood und A–Priori–Wahrscheinlichkeit an einer Stelle konzentiert. Bezugnehmend auf solche Fälle wird bei der so genannten Maximum–A–Posteriori–Methode das Modell mit der größten A–Posteriori-Wahrscheinlichkeit bestimmt h∗ = argmaxh∈H p(h|D) (47) Unter der Annahme, dass der Gewichtungsfaktor hinreichend um h∗ konzentriert ist, wird p(y ∗ |x ∗ , D) genähert durch p(y ∗ |x ∗ , h∗ ). Dies entspricht einer Sattelpunktsnäherung des Integrals und ist vergleichbar mit dem Übergang von der Quantenmechanik zur klassischen Physik. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Maximum–Likelihood–Methode (ML) Die Berechnung des Posteriors p(h|D) erfordert neben der durch die Modellspezifikation und die Beobachtungsdaten definierten Likelihood auch die Implementierung des problemspezifischen Vorwissens in Form eines Priors über die Parameter p(h). Wenn ein im Vergleich zur Anzahl der Daten sehr flexibler Modellraum gewählt wird (z.B. bei nichtparametrischen Methoden), ist der Prior wesentlich (z.B. in Form einer Glattheitsbedingung). Bei niedrigdimensionalen parametrischen Modellen wählt man den Prior auf den ausgewählten Parametern jedoch häufig uniform. Da auch die Evidenz p(y |x) nicht von den Modellparametern h abhängt, ist in diesem Falle die Maximierung des Posteriors gleichbedeutend mit der Maximierung der Likelihood : p(h) uniform ⇒ argmaxh p(h|x, y ) = argmaxh p(y |x, h). Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (48) Ratingverfahren Bayessche Statistik Loglikelihood und Fehler Das Maximieren der Loglikelihood entspricht dem Minimieren der negativen Loglikelihood. Letztere kann daher als ein zu minimierendes Fehlermaß aufgefasst werden. So wird z.B. bei einer gaußförmigen Likelihood mit Varianz σ 2 und zu schätzender Mittelwertsfunktion h = h(x) p(y |x, h) = 1 n (2π) 2 σ n n Y i=1 (yi − h(xi ))2 exp − 2σ 2 (49) die negative Loglikelihood bis auf eine irrelevante Konstante und einen gemeinsamen Faktor zu dem bekannten quadratischen Fehler n X n 1 X − ln p(y |x, h) = − ln p(yi |xi , h) = 2 (yi − h(xi ))2 + const. 2σ i=1 i=1 (50) Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Beispiel Gaußsche Regression Beispiel einer gaußschen Likelihoodfunktion p(y |x, h). Gezeigt ist die zufällige Realisierung h eines Gaußprozesses mit einem Glattheitsprior (mit höheren Ableitungen), dicke rote Linie = in der Praxis unbekannte Regressionsfunktion h, schwarze Punkte = Beispieldaten (xi , yi ). 4 3 2 1 0 -0.41 80 60 40 20 0 0.4 0 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Gaußsche Likelihood und Lineare Regression Die zu schätzende Funktion h(x) in (49) representiert den x–abhängigen Mittelwert der Gaußverteilung und heißt Regressionsfunktion. Wählen wir für sie einen in den Parametern aj linearen parametrischen Ansatz in Abhängigkeit von m unabhängigen Variablen x·j und einer Konstanten x·0 = 1, h(x) = a0 + m X aj x·j = m X aj x·j = a · x (51) j=0 j=1 spricht man von einer linearen Regression. Analog (50) erhalten wir für (49) so für die Maximum–Likelihood–Lösung a∗ die Bedingung a∗ = argmina n X (yi − a · xi )2 . i=1 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (52) Ratingverfahren Bayessche Statistik Maximum–Likelihoodlösung der linearen Regression Lösen der Maximum–Likelihoodbedingung (52) durch Ableiten nach den aj liefert n m X X yi − 0= aj xij xij , für 0 ≤ j ≤ m, (53) i=1 j=0 bzw. ausgedrückt durch die Vektoren a, y und die Matrix Xij = xij 0 = X T y − X T Xa, (54) a = (X T X )−1 Xy . (55) und damit Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Lineare gaußsche Regression mit Prior Bei Nutzung der Maximum–Likelihood–Methode werden implizit alle Parameterwerte als a priori gleichwahrscheinlich eingeschätzt, für den entsprechenden uniformen Prior p(a) ist daher die Maximum–Posterior– gleich der Maximum–Likelihood–Lösung. Folgender Posterior enthält dagegen z.B. einen Gaußschen Prior, der für aj Werte in der Nähe von a0j bevorzugt (für a0j = 0 z.B. betragsmäßig kleinere aj vorzieht) p(a|x, y ) ∝ p(y |x, a)p(a) ∝ e − Pn i=1 2 (yi −a·xi )2 P m (aj −a0j ) − j=1 2σ 2 2σ 2 0 . (56) Der Wert des sog. Hyperparameters σ02 (dessen Inverses auch als Regularisierungskonstante bekannt ist) bestimmt den Einfluss des Priors auf die Maximum-Posterior-Lösung und kann beispielsweise durch Kreuzvalidierung optimiert werden. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Nichtparametrische gaußsche Regression Bei der linearen parametrischen gaußschen Regression wird für die Regressionsfunktion h(x) der gaußschen P Likelihood ein in den Parametern linearer Ansatz h(x) = a0 + m j=1 aj xij gewählt, bei einer nichtlinearen parametrischen Regression wird entsprechend eine nichtlineare Parametrisierung der Regressionsfunktion vorgegeben. Im Grenzfall der sogenannten nichtparametrischen“ ” Regression wird jeder Funktionswert h(x) selbst als Parameter a(x) = h(x) aufgefasst.2 Bei nichtparametrischen Methoden gibt es also keine impliziten, in der Parametrisierung versteckten Abhängigkeiten, sondern es werden die einzelnen Funktionswerte als die primären Freiheitsgrade des Modells aufgefasst, deren Abhängigkeiten durch A–Priori–Informationen explizit vermittelt werden muss. 2 Um technische Probleme zu vermeiden, die bei nicht–gaußschem Posterior schnell sehr komplex (Renormierung) oder auch unlösbar werden, verwenden wir dabei ggfls. anstelle kontinuierlicher x–Werte diskrete xk (Gittermodell). Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Nichtparametrische gaußsche Regression und Prior Da bei nichtparametrischen Ansätzen also die Anzahl der Funktionswerte h(x), also der primären Freiheitsgrade oder Parameter“, typischerweise wesentlich größer ist (evtl. auch ” abzählbar oder überabzählbar unendlich) als die Zahl der Trainingsdaten, ist in solchen Modellen die A–Priori–Information wesentlich. Häufig verwendete Prior sind Glattheitsprior. Messen wir beispielsweise die Variabilität der Regressionsfunktion h für diskrete x durch die Summe quadratischer Differenzen ∞ X h(xk ) − h(xk−1 ) 2 , (57) xk − xk−1 k=−∞ so erhalten wir einen gaußschen Glattheitsprior durch " # ∞ h(xk ) − h(xk−1 ) 2 1 X . p(h) ∝ exp − 2 xk − xk−1 k=−∞ Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (58) Ratingverfahren Bayessche Statistik Glattheitsprior und kinetische Energie 2 R∞ dx welches sich Für kontinuierliche x wird (57) zu ∞ dh(x) dx nach partieller Integration bei verschwindenden (oder analog bei periodischen) Randbedingungen folgendermaßen durch den Laplaceoperator ∆ ausdrücken lässt Z ∞ Z ∞ dh(x) 2 h(x)(∆h)(x) dx = hh|(−∆)|hi, dx = − dx ∞ ∞ (59) Bra–Ket–Schreibweise. Dies hat die Form eines kinetischen ” Energieterms“ in einer euklidischen Quantenfeldtheorie. Der entsprechende gaußsche Glattheitsprior für h(x) mit einem Gewichtungs– bzw. Regularisierungsfaktor λ0 ist " # Z λ0 λ0 ∞ dh 2 = exp p(h) ∝= exp − hh|∆|hi . (60) 2 −∞ dx 2 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Likelihood–Energie in Operatorschreibweise Die Likelihood–Energie können wir analog ausdrücken = = n λi X (yi − h(xi ))2 2 i=1 n Z Z X λi dx dx ′ (h(x) − yi )δ(x − xi )δ(x − x ′ )(h(x ′ ) − yi ) 2 i=1 Z Z n X 1 ′ dx dx (h(x) − yi (x))Ki (x, x ′ )(h(x ′ ) − yi (x ′ )) 2 i=1 = n 1X hh − yi |Ki |h − yi i 2 (61) i=1 mit der Messwertfunktion yi (x) ≡ yi , einen den Ort xi und das Gewicht λi der Messung kennzeichnenden Diagonaloperator Ki (x, x ′ ) = λi δ(x − x ′ )δ(x − xi ) und z.B. λi = σ −2 . Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Beispiel: diskreter negativer Laplaceoperator Auf einem Gitter mit 7 Punkten und xk − xk−1 = 1, 2 ≤ k ≤ n sieht der als inverse Priorkovarianz verwendbare diskrete negative Laplaceoperator −∆ für außerhalb des Gitters verschwindende Funktionen h wie folgt aus 2 −1 0 0 0 0 0 −1 2 −1 0 0 0 0 0 −1 2 −1 0 0 0 0 −1 2 −1 0 0 (62) −∆ = . 0 0 0 0 −1 2 −1 0 0 0 0 0 −1 2 −1 0 0 0 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 0 0 −1 2 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Beispiel: diskrete inverse Datenkovarianz Auf einem Gitter mit 7 Punkten und jeweils einer Messung bei x = 2 sowie x = 5 und zwei Messungen bei x = 3 sieht die diskrete inverse Datenkovarianz KD für σ = 1 wie folgt aus 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 2 0 0 0 0 KD = (63) 0 0 0 0 0 0 0 . 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Die Nullen in den Nichtdiagonalelementen zeigen an, dass die Daten nur Informationen über die Funktion an den gemessenen x–Werten liefert, die ohne Zuhilfenahme eines nichtdiagonalen A–Priori–Operators nicht auf andere x–Werte übertragbar sind. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Priorreferenzfunktion Als inverse Priorkovarianz K0 können wir einen beliebigen positiv semidefiniten Operator zulassen, und analog zu den Messdaten yi auch in der Priorenergie eine Referenzfunktion y0 (x) verwenden, 1 hh − y0 |K0 |h − y0 i, (64) 2 Das Maximum des gaußschen Priors liegt bei h(x) = y0 (x) und dieses entspricht damit in der Abwesenheit von Daten auch der Maximum–A–Posteriori–Lösung. Die Referenzfunktion y0 (x) wird oft identisch Null gewählt, kann aber beliebige A–Priori–Daten repräsentieren. Damit haben wir eine vollkommen analoge Schreibweise für quadratische Daten– und A–Piori-Terme und können für eine quadratische A–Posteriori–Energie schreiben n n 1X 1X 1 hh−yi |Ki |h−yi i+ hh−y0 |K0 |h−y0 i = hh−yi |Ki |h−yi i. 2 2 2 i=1 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 i=0 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Allgemeine quadratische Ergänzung 1 Um die Maximum–A–Posteriori–Lösung zu finden, fassen wir durch eine quadratische Ergänzung alle quadratischen Terme zu einem h-abhängigen Term zusammen. Dazu multiplizieren wir die einzelnen Terme aus n X hh − yi |Ki |h − yi i i=0 = hh| n X Ki |hi − 2hh| |i=0{z } n X K i yi i + n X hyi |Ki |yi i i=0 i=0 K = hh|K |hi − 2hh|K | K −1 n X K i yi i + Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 {z y hyi |Ki |yi i. (65) i=0 i=0 | n X } Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Allgemeine quadratische Ergänzung 2 P In (65) haben wir dabei die inverse Gesamtkovarianz K = i Ki P und die Gesamtdaten y = K −1 i Ki yi definiert. Um nun alle h-abhängigen Terme zusammenzufassen ergänzen wir ±hy |K |y i n X hh − yi |Ki |h − yi i i=0 = hh|K |hi − 2hh|K |y i + hy |K |y i − hy |K |y i + n X hyi |Ki |yi i i=0 n X hyi |Ki |yi i − hy |K |y i, = hh − y |K |h − y i + i=0 = hh − y |K |h − y i + 2Emin , wobei die verbleibende h-unabhängige Term 2Emin als eine verallgemeinerte Varianz der yi aufgefasst werden kann. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (66) Ratingverfahren Bayessche Statistik Maximum–A–Posteriori–Lösung Die Maximum–A–Posteriori–Lösung h∗ (x) = argmaxh p(h|D) = argminh hh − y |K |h − y i (67) ist nun durch (Funktional–)Ableitung trivial zu finden, 0= δp(h|D) ⇒ 0 = K (h∗ − y ), δh (68) also bei invertierbarem K ∗ h =y =K −1 n X K i yi . (69) i=0 Bei gaußscher Likelihood mit gaußschem Prior kann die Bayesche Integration über alle Hypothesen h zur Berechnung der Prognose (38) durchgeführt werden und liefert wieder die Maximum–A–Posteriori–Lösung. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Lösung als Überlagerung von Kernfunktionen Die MAP-Lösung (69) ist eine Überlagerung von Kernfunktionen der datenabhängigen Gesamtkovarianz K −1 n Z Z X ∗ dx ′ dx ′′ K −1 (x, x ′ )Ki (x ′ , x ′′ )yi (x ′′ ) h (x) = y (x) = i=0 = n X i=0 K −1 (x, x ) λ y = K −1 (x, xi ) | {z i } i i datenabhängig n X λ i yi + K 0 y0 i=1 ! . Im Fall y0 ≡ 0 und λi = 1 für 1 ≤ i ≤ n, also z.B. für konstante, in λ0 absorbierte 1/(2σ 2 ), erhalten wir ∗ h (x) = n X K −1 (x, xi ) yi , (70) i=1 also eine Summe von yi –gewichteten Kernfunktionen K −1 (x, xi ) mit einem Summand pro Datenpunkt. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Problem Bestimmung der Gesamtkovarianz Das Problem bei der Berechnung der Lösung nach Gleichung (70) besteht in der Inversion des datenabhängigen K , um die Gesamtkovarianz K −1 zu erhalten. Zudem ist im Falle von kontinuierlichen x der zu invertierende Operator K unendlichdimensional. Leichter ist es in der Regel einmal die datenunabhängige inverse Priorkovarianz K0 zu invertieren. Gegebenfalls kann sogar an Stelle von K0 direkt die Priorkovarianz K0−1 vorgegeben werden. Wir werden deshalb die Stationaritätsgleichung nochmals für getrennte Daten– und Priorterme berechnen. Dabei wird sich zeigen, dass neben einer Inversion von K0 nur eine weitere Inversion im Datenraum, das heißt in dem durch die als Daten vorkommenden xi aufgespannten Raum, erforderlich ist. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Zusammenfassen der Datenterme Fassen wir dafür nur die Datenterme zusammen, so erhalten wir n X hh − yi |Ki |h − yi i = hh − yD |KD |h − yD i + 2ED,min , (71) i=1 KD = n X Ki , KD (x, x ′ ) = δ(x−x ′ ) n X λi δ(x−xi ) = δ(x−x ′ )n(x), i=1 i=1 (72) mit n(x) = i=1 λi δ(x − xi ) der (λi –gewichteten) Anzahl von Messungen bei x und dem (λi -gewichteten) y –Mittelwert pro x Pn yD = KD−1 n X K i yi , i=1 yD (x) = n(x) X λi yi (x) i=1 n(x) , mit KD−1 dem Inversen im Raum der Daten yi und einer gewichteten lokalen Datenvarianz 2ED,min . Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik (73) Ratingverfahren Bayessche Statistik Nochmals die Stationaritätsgleichung Leiten wir nun den h-abhängigen Teil der Posteriorenergie 1 1 hh − yD |KD |h − yD i + hh − y0 |K0 |h − y0 i 2 2 (74) nach h ab, so erhalten wir die Stationaritätsbedingung 0 = KD (h∗ −yD )+K0 (h∗ −y0 ) ⇔ KD (yD −h∗ ) = K0 (h∗ −y0 ), (75) und bei invertierbarer inverser Priorkovarianz K0 h∗ = y0 + K0−1 KD (yD − h∗ ) = y0 + K0−1 aD , | {z } (76) aD = KD (yD − h∗ ) = KD (yD − y0 − K0−1 aD ), (77) aD wobei wir die im Datenraum definierte Größe eingeführt haben. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Inversion im Datenraum Gleichung (77) lässt sich nach aD auflösen aD = KD (yD − y0 − K0−1 aD ) ⇔ (1 + KD K0−1 )aD = KD (yD − y0 ) 1 ⇔ aD = KD (yD − y0 ). 1 + KD K0−1 (78) Da links und rechts von K0−1 jeweils die einen Projektor auf den Raum der gemessenen xi enthaltene inverse Datenkovarianz KD auftritt, kann aD durch Inversion im Raum der gemessenen Daten gelöst werden. Die Dimension des Datenraums ist gegeben durch die Anzahl der in den Daten vorkommenden unterschiedlichen Werte xi . Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Lösung als Überlagerung von Priorkernen Die Lösung h ∗ = y0 + K0−1 |{z} aD , (79) datenunabhängig also ∗ h (x) = y0 (x) + n X K0−1 (x, xi ) aD (xi ), (80) i=1 ist wieder als Summe von Kernfunktionen mit einem Summanden pro Datenpunkt darstellbar, diesmal allerdings bezüglich der datenunabhängigen Priorkovarianz als Kern. In diesem Sinne lassen sich die aD (xi ) als effektive Daten“ bezüglich der Priorkovarianz ” auffassen. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Beispiel: Priorkovarianz Als Beispiel sind hier die 50 Spalten der Priorkovarianz K0−1 (x, cdot) für den negativen Laplaceoperator K0 = −∆ auf einem Gitter der Größe 50 gezeigt. 12 10 8 6 4 2 0 10 20 30 40 50 K0−1 Da stetige und stückweise lineare Spalten besitzt, resultieren daraus nach (80) auch stetige stückweise lineare MAP-Schätzungen h∗ (x) . Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Glattheit Der negative Laplaceoperator −∆ entspricht dem Quadrat der ersten Ableitung und führt zu stetigen, stückweise linearen MAP-Lösungen. Die Verwendung von eines K0 mit Quadraten höherer Ableitungen führt zu glatteren MAP-Schätzungen. Hier sind z.B. einige Kovarianzspalten K0−1 (x, · · · ) von K0 = 1 - σ12 ∆ + 2σ1 4 ∆2 - 6σ1 6 ∆3 für σ02 = 1 dargestellt. 0 0 0 0.3 0.25 0.2 0.15 0.1 0.05 0 2 4 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 6 8 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik Beispiel: Gesamtkovarianz Hier sind als 50 Spalten einer GesamtkovarianzPK −1 (x, ·), auf einem n Gitter der Größe 50 gezeigt, wobei K = K0 + i=1 Ki mit K0 = −∆ und Ki , die hier n = 6 Messungen bei x ∈ {5, 10, 10, 25, 30, 35} representieren. Nach (69) kann daraus die MAP-Lösung h∗ (x) direkt aus den Daten yi berechnet werden. 4 3 2 1 0 10 20 Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 30 40 50 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik A. Agresti. Categorical Data Analysis. John Wiley & Sons, Inc., New York, 2nd edition, 2002. T. R. Bayes. An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society London, 53:370, 1763. Reprinted in Biometrika 45:293, 1958. J. O. Berger. Statistical Decision Theory and Bayesian Analysis. Springer–Verlag, New York, 1980. 2nd Edition 1985. J. M. Bernado and A. F. Smith. Bayesian Theory. Wiley, New York, 1994. C. M. Bishop. Pattern Recognition and Machine Learning. Springer Verlag, Berlin, 2006. G. E. P. Box and G. C. Tiao. Bayesian Inference in Statistical Analysis. Addison–Wesley, Reading, MA, 1973. Wiley Classics Library Edition published 1992. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik B. P. Carlin and T. A. Louis. Bayes and Empirical Bayes Methods for Data Analysis, volume 69 of Monographs on Statistics and Applied Probability. Chapman & Hall/CRC, Boca Raton, FL, 1996. R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification. Wiley, New York, 2001. B. Efron and R. J. Tibshirani. An Introduction to the Bootstrap, volume 57 of Monographs on Statistics and Applied Probability. Chapman & Hall, New York, 1993. R. A. Fisher. Inverse probability. Proc. Camb. Phil. Soc., 26:528, 1930. K. Fukunaga. Statistical Pattern Recognition. Academic Press, Boston, 1990. A. Gelman, J. B. Carlin, H. S. Stern, and D. B. Rubin. Bayesian Data Analysis. Chapman & Hall, New York, 1995. T. Hastie, R. Tibshirani, and J. Friedman. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik Ratingverfahren Bayessche Statistik The Elements of Statistical Learning. Springer Verlag, New York, 2001. T. J. Hastie and R. J. Tibshirani. Generalized additive models. Statist. Sci., 1:297–318, 1986. D. W. Hosmer and S. Lemeshow. Applied Logistic Regression. John Wiley & Sons, Inc., New York, 2000. J. C. Lemm. Bayesian Field Theory. The Johns Hopkins University Press, Baltimore, 2003. P. McCullagh and J. A. Nelder. Generalized Linear Models. Chapman & Hall, London, 2nd edition, 1989. C. E. Rasmussen and C. Williams. Gaussian Processes for Machine Learning. MIT Press, Cambridge, MA, 2006. G. Winkler. Image Analysis, Random Fields, and Dynamic Monte Carlo Methods. Springer–Verlag, Berlin, 2nd edition, 2000. Jörg Lemm Vorlesung Finanzmathematik WS 2007/08 Ratingverfahren und Bayessche Statistik