Ratingverfahren und Bayessche Statistik

Werbung
Ratingverfahren
Bayessche Statistik
Ratingverfahren und Bayessche Statistik
Jörg Lemm
Vorlesung Finanzmathematik
WS 2007/08
Universität Münster
25.10.2007, 8.11.2007, 15.11.2007, 22.11.2007, 29.11.2007
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Vorbemerkung
Banken sind durch die Bankenaufsicht angehalten ihre Risiken zu
quantifizieren, um den erwarteten Verlust entsprechend (in Form
von Wertberichtigungen) berücksichtigen zu können und um einen
zusätzlichen Risikopuffer (in Form von aufsichtlich erforderlichem
Mindesteigenkapital) vorzuhalten. Zudem ist es für Banken
wesentlich Risiken angemessen zu bepreisen.
Die wichtigsten Risikokomponenten sind dabei
1. das Kreditrisiko (Risiko, dass ein Kunde einen Kredit nicht
zurückzahlt) und
2. das Marktrisiko (Risiko resultierend aus
Marktpreisschwankungen).
Im Folgendem werden wir uns speziell mit Ratingverfahren
beschäftigen. Diese sind die Grundlage für eine Quantifizierung des
Kreditrisikos.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Erwarteter Verlust (expected loss, EL)
Die Berechnung des innerhalb eines Jahres durch einen möglichen Ausfall
eines Kunden erwarteten Verlusts erfordert die Kenntnis der:
1. der Wahrscheinlichkeit eines Ausfalls des Kunden im nächsten Jahr
(probability of default, PD),
2. der erwarteten Höhe der Forderung bei Ausfall innerhalb des
nächsten Jahres ([expected] exposure at default, EAD),
3. der erwartete Verlustquote bei Ausfall ([expected] loss given default,
LGD).
Hierbei wird die Ausfallwahrscheinlichkeit des Kunden durch die
Anwendung eines Ratingverfahrens bestimmt, welches beispielsweise mit
Hilfe einer (parametrischen oder auch nichtparametrischen) logistischen
Regression entwickelt worden ist. Die Schätzung des EAD und LGD kann
ebenfalls durch Regressionsmodelle erfolgen, diese sind aber abhängig von
den Eigenheiten des Geschäfts bzw. der Kreditsicherheiten.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Exposure at Default (EAD)
Das Exposure at Default (EAD) ist die (bilanzielle und
außerbilanzielle) Inanspruchnahme eines Kunden bei Ausfall
innerhalb eines Jahres, zu schätzen aus dem Ziehungsverhalten von
in der Vergangenheit ausgefallenen Kunden:1
Inanspruchnahme
Konto 2
Erhöhung nach Ausfall
Überziehung
Limit
Rückzahlung nach Ausfall
Konto 1
0
r
Ausfall
Zeit
1
Typische Probleme der EAD-Schätzung sind z.B. die Bestimmung von außerbilanziellen Inanspruchnahmen
die zum Ausfallzeitpunkt noch nicht feststehen, resultierend z.B. aus Garantieverpflichtungen, die die Bank für den
Kunden übernommen hat, die Umschichtungen zwischen verschiedenen Konten eines Kunden oder zwischen
wirtschaftlich abhängigen Kunden, die eine Zusammenfassen von Einzelkonten erforderlich machen, oder die
Zuordnung von nachträglich genehmigten Krediterhöhungen zum Zwecke der Sanierung.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Loss given Default (LGD)
Positionswert
bei Ausfall
EAD
Erlöse aus
Sicherheiten
C
Blankoanteil
EAD - C
Erlöse aus
Blankoanteil
Abwicklungs–
kosten
Gesamt–
verlust
EAD · LGD
Forderungs–
verlust
Der erwartete Verlustquote wird aus den tatsächlichen
Verlustquoten der Vergangenheit unter Berücksichtung der Erlöse
aus Sicherheiten geschätzt.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Rating
Ratingverfahren versuchen, die Wahrscheinlichkeit dafür zu
schätzen, dass ein Kreditnehmer seinen zukünftigen
Rückzahlungsverpflichtungen nicht vertragsgemäß nachkommen
kann. Kennzeichnen wir solch einen Ausfall (Default) durch die
Indikatorvariable
0 = kein Ausfall des Kreditnehmers i
,
(1)
yi =
1 = Ausfall des Kreditnehmers i
so interessiert uns die Schätzung der Ausfallwahrscheinlichkeit
p(yi |xi ) von Kunde i gegeben die Informationen xi die bei
Vertragsabschluss über ihn vorliegen. Bei diesen Informationen
kann es sich z.B. um die Bilanzkennzahlen des Kunden handeln.
Als Zeithorizont wird beim Kreditrisiko typischerweise 1 Jahr
verwendet, d.h. p(yi |xi ) steht für die Wahrscheinlichkeit, dass der
Kreditnehmer i innerhalb eines Jahres ausfällt.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Ausfallwahrscheinlichkeit
Die Ereignisse, die eine Bank als Ausfall eines Kunden zu werten
hat, sind in der Solvabilitätsverordnung (SolvV) vom 14.12.2006 in
§125 erläutert. Dabei gilt ein Kunde i.W. dann als ausgefallen,
wenn er mit einer Zahlung über 90 Tage in Verzug gerät, bzw. für
ihn eine Einzelwertberichtigung oder Rückstellung gebildet worden
ist, d.h. die Bank begründet einen Verlust erwartet (der dann
jedoch nicht in jedem Fall auch tatsächlich eintreten muss).
Schreiben wir für die Ausfallwahrscheinlichkeit des Kunden i kurz
p(yi = 1|xi ) = pi , und damit für die Überlebenswahrscheinlichkeit
p(yi = 0|xi ) = 1 − pi , so erhalten wir, wegen y ∈ {0, 1},
pi
wenn yi =1 (Ausfall)
yi
1−yi
.
p(yi |xi ) = pi (1−pi )
=
1 − pi wenn yi =0 (kein Ausfall)
(2)
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Ausgangsdaten
Die Ausgangsdaten oder Trainingsstichprobe zur Konstruktion
eines Ratingverfahrens bestehen aus einer repräsentativen
Stichprobe von n vergangenen Fällen mit bekanntem Wert des
Ausfallindikators yi (abhängige Variable), getrennt in Gutfälle mit
yi = 0 und Schlechtfälle mit yi = 1, sowie den dazugehörigen
Ausprägungsvektoren xi , die für jeden von n Kreditnehmern i die
Ausprägungen xij der m sog. unabhängigen Variablen x·j enthalten,
z.B. Bilanzkennzahlen oder auch einen Branchenschlüssel:
Fall
i
1
2
3
..
.
Ausfall
yi
0
0
1
..
.
Kennzahlen 1 bis m
xi1
xi2 · · · xim
17,5 0,2 · · ·
7
2,2 0,6 · · ·
2
35,0 0,1 · · · 15
..
..
..
..
.
.
.
.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Modellauswahl mit der Maximum–Likelihood–Methode
Wir suchen nun ein Modell, welches die Ausfallwahrscheinlichkeiten
pi (xi ) in Abhängigkeit von uns bekannten Größen xi möglichst gut
schätzen soll. Dazu wählen wir eine Parametrisierung der
Ausfallwahrscheinlichkeit
p(yi = 1|xi ) = pi (xi ) → p(yi = 1|xi , a) = pi (xi , a), a ∈ A
(3)
und suchen dann denjenigen Parametervektor a∗ ∈ A zur
Vorhersage von pi , der eine vorzugebende Zielfunktion optimiert.
Als Zielfunktion wählen wir die sogenannte Likelihoodfunktion, das
ist die Wahrscheinlichkeit der gegebenen Daten (x, y ) in
Abhängigkeit von dem Parametervektor, welcher das Modell
repräsentiert,
L(a) = p(y |x, a) = p(y1 , · · · , yn |x1 , · · · , xn , a), also
a
∗
= argmaxa∈A L(a) = argmaxa∈A p(y |x, a).
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(4)
(5)
Ratingverfahren
Bayessche Statistik
Faktorisieren der Likelihood
Die Likelihoodfunktion (4) ist ein viel zu hochdimensionales
Objekt, um in dieser allgemeinen Form damit arbeiten zu können.
Nutzen wir die allgemeine Regel
p(A, B) = p(A)p(B|A),
(6)
so sehen wir, dass
p(y |x, a) = p(y1 , · · · , yn |x1 , · · · , xn , a)
= p(y1 |x, a)p(y2 , · · · , yn |y1 , x, a)
(7)
= p(y1 |x, a)p(y2 |y1 , x, a)p(y3 |y1 , y2 , x, a) · · ·
× · · · p(yn |y1 , · · · , yn−1 , x, a).
Wir versuchen nun diese Faktoren der Likelihood zu vereinfachen.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Annahmen zur Vereinfachung der Likelihood
Dazu nehmen als erstes an, dass der Datenvektor xi alle für yi
relevanten Informationen aus x enthält, also
p(yi |x, a) = p(yi |xi , a).
(8)
Dies ist eigentlich eine reine Konvention, denn xi und xj können
dabei auch für i 6= j gemeinsame Komponenten enthalten, z.B.
können zwei verschiedenen Kunden aus derselben Branche oder
demselben Land stammen. Im Extremfall enthält xi ganz x.
Zweitens nehmen wir an, dass die Ausfallwahrscheinlichkeiten,
gegeben alle verfügbaren Daten x, faktorisieren, d.h. dass
p(yi |{yj , j 6= i}, x, a) = p(yi |xi , a).
(9)
Dies nennt man bedingte Unabhängigkeit der y gegeben x und ist
in der Realität sicher nur eine Näherung. Ein Abhängigkeit der
Ausfälle y wird in diesen Fällen nur über die Faktoren x vermittelt.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Vereinfachung der Likelihood
Damit erhalten wir nun
L(a) = p(y |x, a) = p(y1 , · · · , yn |x1 , · · · , xn , a)
= p(y1 |x, a)p(y2 |y1 , x, a)p(y3 |y1 , y2 , x, a) · · ·
× · · · p(yn |y1 , · · · , yn−1 , x, a).
= p(y1 |x1 , a)p(y2 |x2 , a) · · · p(yn |xn , a)
n
Y
=
p(yi |xi , a)
i=1
=
n
Y
piyi (1 − pi )(1−yi ) ,
i=1
also ein Produkt (bedingt) unabhängiger Faktoren. In der letzten
Zeile bezeichnet pi = pi (xi , a) = p(yi = 1|xi , a) die
Ausfallwahrscheinlichkeit des i-ten Kunden.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Bemerkung zur bedingten Abhängigkeit
Die Voraussetzung 9 der bedingten Unabhängigkeit ist in der Praxis für die Ausfallprognose nicht erfüllt, ja sie
steht gewissermaßen sogar im Widerspruch zu den Portfoliomodellen, bei denen gerade die verbleibende
Abhängigkeit der Ausfälle modelliert wird. Dies liegt u.a. daran, dass die xi aktuell bekannte Daten über den
Kreditnehmer repräsentieren, die yi aber die Ausfallwahrscheinlichkeit innerhalb des nächsten Jahres darstellen. In
der Zeit zwischen Ratingerstellung und Ausfall kann es durchaus gemeinsame Faktoren geben, die die Bonität
zweier Kunden beeinflussen. Dies kann z.B. eine zum Zeitpunkt der Ratingerstellung noch nicht bekannte
Konjunkturentwicklung sein, die die Bonität mehrerer Unternehmen beeinflusst, oder auch eine direkte
Abhängigkeit, wie zwischen Mutterkonzern und Tochterunternehmen. Im letzteren Fall wird man beide
Unternehmen als eine Ratingeinheit zusammenfassen. Die bedingte Unabhängigkeit ist aber keine notwendige
Voraussetzung, und solange wir nur an den Ausfallwahrscheinlichkeiten der einzelnen Kunden und nicht an
Mehrkundengrößen, wie Paarausfallwahrscheinlichkeiten, interessiert sind, kann auch die Produktlikelihood, und
damit auch die gleichgewichtete Summe der einzelnen Loglikelihoods, maximiert werden.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Loglikelihood
Da die Logarithmus-Funktion streng monoton steigend ist, liefert
das Maximieren der Likelihood das gleiche Ergebnis a∗ wie das
Maximieren der Loglikelihood. Dies ist günstig, da bei dem
Übergang von Likelihood zur Loglikelihood aus einem Produkt eine
oft einfacher zu handhabende Summe wird
ln L(a) = ln p(y |x, a)
n
X
=
ln p(yi |xi , a)
i=1
=
n
X
[yi ln pi + (1 − yi ) ln (1 − pi )] .
i=1
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(10)
Ratingverfahren
Bayessche Statistik
Ausfallwahrscheinlichkeit in Energiedarstellung“
”
Wahrscheinlichkeiten müssen positiv und normiert sein, d.h. in dem
Zweizustandsfall (Ausfall, Nichtausfall) muss gelten 0 ≤ pi ≤ 1.
Um diese Nebenbedingungen bei einer Parametrisierung der
Ausfallwahrscheinlichkeiten automatisch einzuhalten, ist die
Darstellung der Wahrscheinlichkeiten in der aus der statistischen
Physik bekannten Energiedarstellung“ nützlich
”
p(yi = 1|xi , a) = pi =
e −E (yi =1|xi ,a)
e −E1 (xi )
=
,
Zi (xi , a)
Zi
p(yi = 0|xi , a) = 1 − pi =
e −E0 (xi )
e −E (yi =0|xi ,a)
=
. (11)
Zi (xi , a)
Zi
wobei sich die Zustandssumme“ Zi aus der Normierung ergibt
”
1 = p(yi = 1|xi ) + p(yi = 0|xi ) ⇒ Zi = e −E0 (xi ) + e −E1 (xi ) . (12)
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Ausfall– und Überlebenswahrscheinlichkeit
Für diesen Zweizustandsfall erhält man also
pi (xi ) =
=
e −E1 (xi )
1
=
−E
(x
)
−E
(x
)
−E
0
1
0
i
i
e
+e
1 + e (xi )+E1 (xi )
e ∆i
1
=
−∆
1+e i
1 + e ∆i
(13)
und für die Überlebenswahrscheinlichkeit
1 − pi (xi ) =
=
e −E0 (xi )
1
=
e −E0 (xi ) + e −E1 (xi )
1 + e E0 (xi )−E1 (xi )
−∆
i
e
1
=
.
(14)
∆
i
1+e
1 + e −∆i
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Logit
Gl. (13) und (14) zusammenfassend können wir schreiben,
p(yi |xi , a) = piyi (1 − pi )1−y −i =
e yi ∆ i
.
1 + e ∆i
Die in (13, 14, 15) vorkommende Energiedifferenzen“
”
pi (xi , a)
∆i (xi , a) = E0 (xi , a) − E1 (xi , a) = ln
1 − pi (xi , a)
(15)
(16)
sind als Logits bekannt (oder, als Logarithmus der Verhältnisse
pi
1−pi , den so genannten ”Odds“, auch als Log–Odds). Diese ∆i
können nun vollkommen frei parametrisiert werden, d.h. ohne dass
die Bedingungen der Positivität und Normierung für pi explizit
beachtet werden müssen, denn diese sind aufgrund ihrer Definition
zwangsläufig erfüllt.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Likelihood in Energiedarstellung“
”
Die Likelihood wird mit (15)
L(a) = p(y |x, a) =
Y
p(yi |xi , a) =
i
Y e yi ∆ i
1 + e ∆i
(17)
i
und damit also die Loglikelihood
X
X
ln L(a) =
ln p(yi |xi , a) =
[yi ln pi + (1 − yi ) ln(1 − pi )]
i
i
i
Xh
=
yi ∆i − ln 1 + e ∆i .
(18)
i
−E (y |x,a)
Schreiben wir L(a) = p(y |x, a) = e Z (x,a) können wir darin
Q
P
− i yi ∆i als Likelihoodenergie“ E (y |x, a) und i 1 + e ∆i als
”
Likelihoodzustandssumme“ Z (x, a) bezeichnen.
”
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Logistische Regression
Die Ausfallwahrscheinlichkeiten pi werden also bei der logistischen
Regression nicht direkt, sondern indirekt über deren Logits ∆i
parametrisiert. Wählen wir eine lineare Parametrisierung
∆i (a) = a0 + a1 xi1 + · · · + am xim =
m
X
aj xij
(19)
j=0
worin die m + 1 Parameter aj , 0 ≤ j ≤ m, den Parametervektor a
bilden und wir zur Vereinfachung der Schreibweise xi0 = 1 ∀i
vereinbart haben, so erhalten wir für die vom Parametervektor a
abhängige Ausfallwahrscheinlichkeit
pi (a) = p(yi = 1|xi , a) =
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
1
1+e
−
Pm
j=0
aj xij
.
Ratingverfahren und Bayessche Statistik
(20)
Ratingverfahren
Bayessche Statistik
Die Ausfallwahrscheinlichkeit der logistischen Regression
Die Ausfallwahrscheinlichkeit hat als Funktion des Logit eine
sigmoide Form. Eine eindimensionale logistische Regression mit
den beiden Parametern a0 und a1
p(x) = p(y = 1|x, a0 , a1 ) =
1
,
1 + e −(a0 +a1 x)
zeigt folgende Abhängigkeit von (dem eindimensionalen) x
p(x) = 1
a0 = 0, a1 = 1
p(x) = 0.5 a0 = 1, a1 = 1
p(x) = 0
a0 = 0, a1 = 2
x
-5
-1 0
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
5
Ratingverfahren und Bayessche Statistik
(21)
Ratingverfahren
Bayessche Statistik
Die allgemeine Stationaritätsbedingung
Wir maximieren die Likelihood indem wir die Stationaritätsstellen
der Loglikelihood bestimmen, d.h. wir setzen deren Ableitung nach
den einzelnen Komponenten aj des Parametervektors a gleich Null


n
X
 ∂∆i
e ∆i ∂∆i 
∂
,
 yi
ln p(y |x, a) =
−
0=
 ∂aj
∆i ∂a 
∂aj
1
+
e
j
| {z }
i=1
pi
n
X
∂∆i (a)
(yi − pi (a))
=
.
(22)
∂aj
i=1
Lösen von (22) liefert den optimalen Parametervektor a∗ . Da pi
von a abhängt, ist die Stationaritätsgleichung nichtlinear, so dass
evtl. mehrere Lösungen existieren können, wovon dann die
maximale die gesuchte ist.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Die Stationaritätsgleichung der logistischen Regression
Setzen wir nun den linearen Ansatz (19) für die Logits, also in
Matrixschreibweise
∆ = Xa, Xij = xij
(23)
in die Stationaritätsbedingung (22) ein, so erhalten wir wegen
∂∆
=X
∂a
(24)
0 = X T (y − p),
(25)
die Stationaritätsgleichung
bzw. in Komponenten
0=
n
X
(yi − pi (a)) xij .
i=1
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(26)
Ratingverfahren
Bayessche Statistik
Modellerweiterungen
Ein logistisches Regressionsmodell kann unter Beibehaltung des
linearen Ansatzes für die Logitfunktion erweitert werden, indem die
Zahl m der Eingangsvariablen vergrößert wird. Neben den m
Variablenwerten xi1 bis xim für Fall i können dabei auch Potenzen,
Produkte und beliebige andere nichtlineare Funktionen der xij
verwendet werden, wie z.B.
2
∆i = a0 + a1 xi1 + a2 xi1
+ a3 xi1 xi2 + a4 ln xi1 + · · · .
(27)
Auch diskrete Klassenvariablen cij (z.B. für Länder oder Branchen)
können verwendet werden. Eine Klasse mit K verschiedenen
Ausprägungen k = 1, · · · K kann dabei auf verschiedene Arten
durch K − 1 Dummyvariablen repräsentiert werden, z.B. in der
Referenzgruppenkodierung (bzgl. der Gruppe k = K ) durch
xi,jk = 1 wenn cij = k und 0 sonst für 1 ≤ k ≤ K − 1.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Nichtlineare Variablentransformationen
Bezüglich der Variablen xi , die linear im Logit ∆i auftauchen, kann
die logistische Regression nur monotone Zusammenhänge abbilden.
Wenn z.B. die Eigenkapitalquote nur linear im Logit auftaucht,
dann kann die Ausfallwahrscheinlichkeit mit wachsender
Eigenkapitalquote entweder nur fallen oder nur steigen, nicht
jedoch oszillieren.
Um nichtmonotone Zusammenhänge abzubilden, muss die
betreffende Variable daher nichtlinear in den Logit einfließen.
Beispielweise wird manchmal ein U-förmiger Zusammenhang
zwischen Wachstumsrate und PD gesehen d.h. sowohl zu kleines
wie auch zu großes Wachstum ist bonitätsverringernd. Bei solch
einem U-förmigen Zusammenhang kann z.B. neben xi ein
zusätzlicher xi2 –Term im Logit verwendet werden.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Klassen– und Dummy–Variablen
Klassenzugehörigkeiten, können auf verschiedene Weise durch so
genannte Dummyvariablen implementiert werden.
Wollen wir beispielsweise Firmen nach ihrem Sitzland (z.B. EU vs.
US vs. Sonstige) in dem Rating explizit unterscheiden, so können
wir dies durch zwei Dummyvariablen, die, z.B. in der
Referenzgruppenkodierung wie folgt gewählt werden
Gruppe
EU
US
Sonst.
xi,EU
1
0
0
xi,US
0
1
0
Eine logistische Regression mit
∆i = a0 + a1 xi,EU + a2 xi,US
(28)
liefert dann je Ländergruppe eine eigene Ausfallwahrscheinlichkeit.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Wechselwirkungen
Hängt ein Term im Logit nichtlinear von mehreren Variablen ab,
wie z.B.
∆i = a0 + a1 xi2 xi2 + · · ·
(29)
so modifizieren diese sich in ihrer Wirkung gegenseitig, d.h. sie
wechselwirken.
Wollen wir zum Beispiel die Rolle der Eigenkapitalquote xi,EQ in
Abhängigkeit von dem Land (z.B. EU,US,Sonstige), der Branche
(z.B. Einzelhandel, Industrie, Sonstiges) oder der
Rechnungslegungsvorschriften (z.B. IFRS, US–GAAP, HGB)
differenzieren, so können wir das durch Aufnahme eines Produktes
aus der entsprechenden Dummy–Variable und der
Eigenkapitalquote als Term im Logit erreichen, also z.B.
∆i = a0 + a1 xi,EQ + a2 xi,US xi,EQ .
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(30)
Ratingverfahren
Bayessche Statistik
Verhältnisskennzahlen
Eine besondere Form der Wechselwirkung ist die Verhältnisbildung
xi′ = xxi1i2 . Diese dient in erster Linie dazu dimensionslose Kennzahlen zu
erhalten. So haben zum Beispiel eine Eigenkapitalquote EQ, gleich
Eigenkapital EK in Euro durch Bilanzsumme BS in Euro, von z.B. 10%
für eine große und eine kleine Firmen vielleicht einen ähnlichen Effekt auf
die Bonität, die Angabe eines Eigenkapitals von 1 Mio. Euro ist dagegen
ohne Bezug zur Firmengröße wohl kaum nützlich. Wenn z.B. größere
Unternehmen im Mittel geringere Ausfallwahrscheinlichkeiten haben,
können neben solchen dimensionslosen Verhältniskennzahlen auch noch
Größenindikatoren mit in das Modell aufgenommen werden, wie die
Bilanzsumme oder, oft besser, deren Logarithmus.
Bei Verwendung von Verhältnissen muss für kleine Nenner auch eine
Regularisierungsvorschrift implementiert werden, wie z.B.
i1
mit einem kleinen ǫ > 0. Zudem sollte für alle vier
xi′ = sign(xi2 ) xmax(|x
i2 |,ǫ)
Vorzeichenkombinationen von Nenner und Zähler überprüft werden, ob
diese jeweils zulässig sind und mit welchem relativen Vorzeichen
zueinander diese eingehen sollen.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Parametrisierte Transformationen
Um eine optimale Variablentransformation zu erhalten, können
allgemein parametrisierte Transformationen f (xi , b) verwendet
werden, wobei die Parameter auch durch Maximieren der
Likelihood bestimmt werden können. Die Stationaritätsgleichung
erhält dadurch zusätzliche, i.a. nichtlineare Faktoren.
So kann auch aus mehreren Variablen xi eine Variable xi′ abgeleitet
werden, die dann linear in den Logit eingeht, z.B. auch wieder mit
einer logistischen Regression
xi′ =
1
1+
e b0 +b1 xi1 +b2 xi2 ···
,
pi =
1
1+
′
e a0 +a1 xi +···
.
(31)
Solch eine iterierte logistische Regression ist auch bekannt als
neuronales Netz. Wie wir noch sehen werden, führt jedoch eine zu
große Flexibilität zu einem Verlust an Vorhersagekraft des Models.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Qualitative Daten
Beispiel:
Einschätzung der Qualität des Managements der Kreditnehmerfirma
durch den Firmenkundenbetreuer auf einer Skala von 1 bis 6.
Vorteil:
Komplexe Sachverhalte können durch Experten quantifiziert werden.
Nachteile:
Nachträglich erhobene, weiche“ qualitative Daten suggerieren leicht eine
”
zu hohe Qualität des Ratings, da nach Kenntnis des Ausfalls eines
Unternehmen diesem auch schon für die Zeit vorher eher schlechtere
qualitative Noten geben werden. Das Wissen um den späteren Ausfall ist
dann in den nachträglich erhobenen Daten schon enthalten.
Zudem muss eine ordinale Einschätzung, bei der nur größer und kleiner
eine Bedeutung hat, entweder als Intervallskala verwendet werden, bei der
z.B. die Differenz zwischen 1 und 3 als doppelt so groß interpretiert wird
wie die zwischen 1 und 2, oder sie muss wie eine reine Gruppeneinteilung
implementiert werden, so dass die ordinale Information, also z.B. 1 ist
besser als 2, verloren geht.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Overfitting
Bei hinreichend passender Modellwahl (Prior) lassen sich für eine
Trainingsmenge optimierte Modelle auch zur Vorhersage neuer
Fälle verwenden, werden die Modelle jedoch zu komplex, weil z.B.
die Zahl der Eingangsvariablen zu groß wird, so werden zwar die zur
Bestimmung der Modellparameter benutzten Trainingsdaten immer
perfekter abgebildet, die Übertragbarkeit auf neue Anwendungs–
oder Testdaten nimmt jedoch bei steigender Modellkomplexität
irgendwann wieder ab. Diesen Fall nennt man Overfitting.
Fehler
Testfehler
optimaler Bereich
Overfitting
Trainingsfehler
Modellkomplexität
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Nichtparametrische“ Modelle
”
Um ein vollkommen flexibles Modell zu erhalten können wir die
Logits ∆i (xi ) für jeden Wert von xi als eigenständigen Parameter
wählen. Damit gibt es keinerlei durch eine Parametrisierung
vorgegebene Beziehung von Logits, und damit auch von
Ausfallwahrscheinlichkeiten, mit verschiedenen Werten von xi .
∂∆i
i
Damit erhalten wir ∂∆
∂aj = ∂∆j = δxi ,xj und (22) wird zu
0=
nj
X
kj =1
1 X
yjkj
yjkj − pj ⇒ pj =
nj
(32)
kj
wobei der Index j die ñ verschiedenen Wert von xi indiziert und kj
verschiedene Datenpunkte mit gleichem Wert von xj unterscheidet.
D.h. für jedes xj wird die zugehörige empirische Häufigkeit als
Schätzung übernommen. Wir werden jedoch sehen, dass solch ein
nichtparametrisches“ Modell nutzlos wird für große ñ.
”
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Kreuzvalidierung
Bei der Methode der Kreuzvalidierung wird der Testfehler (z.B. die
negative Loglikelihood) auf einer von den Trainingsdaten
unabhängigen, d.h. nicht zur Bestimmung des optimalen
Parameters genutzten Stichprobe bestimmt. Dazu wird von den
verfügbaren Daten ein Teil (im Extremfall eine einzelne
Beobachtung) abgetrennt und dieser zur Berechnung des
Testfehlers für das Modell mit dem anhand der verbleibenden
Trainingsdaten bestimmten optimalen Parametervektor verwendet.
Um die verfügbaren Daten optimal zu nutzen, kann dieses
Verfahren mit einer neuen, disjunkten Testmenge wiederholt
werden, bis jeder Datenpunkt genau einmal einer Testmenge
zugeteilt war. Diese Schätzung des Testfehlers kann dann genutzt
werden, um die optimale Modellkomplexität zu finden (wie z.B. die
Anzahl der Inputvariablen x·j in einem Regressionsmodell).
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Kreuzvalidierung: Schema
Train. Train. Train. Train. Test
Train. Train. Train. Test
Train. Train. Test
Train. Test
Test
1. Durchgang
Train. 2. Durchgang
Train. Train. 3. Durchgang
Train. Train. Train. 4. Durchgang
Train. Train. Train. Train. 5. Durchgang
Beispiel einer fünffachen Kreuzvalidierung: Die gesamten verfügbaren
Daten werden in fünf gleiche Teile geteilt, wovon jeder der Teile in einem
der fünf Durchgänge als Testmenge dient.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Ratingbau
Der Bau eine Ratingverfahrens kann z.B. nach folgenden Phasen
ablaufen
1. Datensammlung (ohne systematische Verzerrung)
2. Auswahl und Analyse möglicher unabhängiger Basisvariablen
(z.B. Bilanzpositionen, Branche)
3. Konstruktion und Analyse möglicher abgeleiteter Variablen
(z.B. aus Bilanzpositionen gebildete Kennzahlen, und andere
nichtlineare Transformationen, Wechselwirkungsvariablen,
Dämpfung extremer Werte)
4. Aufbereitung der unabhängigen Variablen (z.B. filtern,
Ergänzung fehlender Werte)
5. multivariater Modellbau (z.B. Fitten durch logistische
Regression, Variablenauswahl mit Kreuzvalidierung)
6. Umsetzung (z.B. Programmierung Ratinganwendung,
Datenbankkonzept, Definition Ratingprozess)
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Bayessche Statistik: Prognosewahrscheinlichkeit
Ziel: Vorhersage neuer, noch unbekannter Daten D ∗ auf Basis der
bekannten Daten D = {x, y } unter Verwendung der
Prognosewahrscheinlichkeit
p(D ∗ |D),
(33)
bzw. wenn wir auch die neuen Daten D ∗ in vorgefundene bzw.
gesetzte Bedingungen x ∗ und vorherzusagende Beobachtungen y ∗
unterteilen
p(y ∗ |x ∗ , D).
(34)
Dies ist wie auch bisher eine etwas abgekürzte Notation für die
Wahrscheinlichkeit (bzw. die Wahrscheinlichkeitsdichte), dass die
Zufallsvariable Y ∗ den Wert y ∗ annimmt, wenn die Variable X ∗
den Wert x ∗ und die Daten den Wert D = {x, y } haben.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Modelle/Hypothesen
Um die Größe p(y ∗ |x ∗ , D) handhabbar zu machen, definieren wir einen
Raum H möglicher Modelle oder Hypothesen h. Die Modelle h brauchen
nicht deterministisch zu sein, d.h. sie liefern für gegebenes x nicht
notwendig eine exakte Vorhersage des Wertes y , sondern eine durch ihre
Likelihood
p(y |x, h)
(35)
definierte Wahrscheinlichkeit für das Auftreten eines Wertes y .
Der Raum H möglicher Modelle sollte dabei vollständig sein, d.h. alle
möglichen Modelle abdecken. In der Praxis kann dies natürlich nur
näherungsweise erreicht werden. und in H fehlende Modelle können dann
nicht erkannt, sondern nur durch andere in H enthaltene h approximiert
werden.
Die Likelihoods der h sollen zudem für alle x, y definiert und voneinander
verschieden, also disjunkt, sein, so dass nur ein Modell realisiert sein
kann. Die Modelle h repräsentieren in der Regel verdeckte Variablen, die
nicht direkt, sondern nur indirekt über die gemessenen Daten
beobachtbar sind.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Einschieben der Hypothesen
Für vollständige und disjunkte Ereignisse B gilt
X
X
p(A|B)p(B),
p(A, B) =
p(A) =
B
(36)
B
wobei die Summe für kontinuierliche B durch ein Integral zu
ersetzen ist. Wenden wir dies auf die nach Messung der Daten D
zur Vorhersage zu verwendende Prognosewahrscheinlichkeit (34)
an, so erhalten wir (in Integralschreibweise)
Z
∗ ∗
p(y |x , D) = dh p(y ∗ |x ∗ , D, h) p(h|x ∗ , D) .
(37)
|
{z
} | {z }
p(y ∗ |x ∗ ,h)
p(h|D)
Der Ausdruck vereinfacht sich wie gezeigt, da die Likelihoods
durch x ∗ und h bereits festgelegt und damit unabhängig von D
sind und wir mit x ∗ den von h unabhängigen Teil von D ∗
bezeichnen wollen, so dass p(h|x ∗ , D) = p(h|D).
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Beispiel: Modellraum der logistischen Regression
Betrachten wir eine univariate logistische Regression mit linearem
Logit ∆i = a + b xi , wo bei einer Ratinganwendung xi z. B. die
Eigenkapitalquote des Kunden beim Datenpunkt i bezeichnen
könnte. Die Likelihood eines Datenpunktes (xi , yi ) ist dabei gemäß
(15) definiert als
p(yi |xi , h) = p(yi |xi , a, b) =
e yi ∆ i
e yi (a+bxi )
=
.
1 + e ∆i
1 + e a+bxi
Machen wir keine weiteren Einschränkungen an a und b, so ist der
Modellraum H also der zweidimensionale durch alle
Parameter-Wertepaare
(a, b) aufgespannte
R
R Raum und das Integral
dh ist als Integral über die Parameter da db zu interpretieren.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Die A–Posteriori–Wahrscheinlichkeit
Die Prognosewahrscheinlichkeit
Z
p(y ∗ |x ∗ , D) = dh p(y ∗ |x ∗ , h) p(h|D),
(38)
enthält neben der das Modell h definierenden Likelihood bzgl. der
neuen Daten p(y ∗ |x ∗ , h) auch den Faktor p(h|D) = p(h|x, y ).
Dieser bezeichnet die Wahrscheinlichkeit (für die Richtigkeit) von
Modell h gegeben alle bekannten Daten D und ist als
A–Posteriori–Wahrscheinlichkeit des Modells h bekannt.
Um diese zu berechnen, wollen wir sie durch eine bekannte Größe,
nämlich die Likelihood p(y |x, h) ausdrücken.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Bayessches Theorem
Die Wahrscheinlichkeit für das gleichzeitige Eintreffen von Ereignis
A und B lässt sich einmal durch die bedingte Wahrscheinlichkeiten
p(A|B) und einmal durch die bedingte Wahrscheinlichkeiten
p(B|A) ausdrücken
p(A, B) = p(A|B) p(B) = p(B|A) p(A).
Dadurch können wir P(A|B) durch die so genannte zu ihr
inverse“ bedingte Wahrscheinlichkeit P(B|A) ausdrücken
”
p(A, B)
p(B|A) p(A)
p(A|B) =
=
p(B)
p(B)
Diese Beziehung ist bekannt als Bayessches Theorem.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(39)
(40)
Ratingverfahren
Bayessche Statistik
A–Priori–Wahrscheinlichkeit
Wir erhalten für die A–Posteriori–Wahrscheinlichkeit mit dem
Bayesschen Theorem
Likelihood
Prior
z }| { z}|{
p(D|h) p(h)
p(h|D) =
.
| {z }
p(D)
|
{z
}
Posterior
(41)
Evidenz
Der Faktor p(h) bezeichnet die Wahrscheinlichkeit für h bevor die
Daten D = (x, y ) bekannt sind und wird daher als
A–Priori-Wahrscheinlichkeit bezeichnet. Analog erhalten wir
p(h|D) = p(h|x, y ) =
p(y |x, h) p(h|x)
,
p(y |x)
(42)
mit p(h|x) = p(h), da wir mit x den von h unabhängigen Teil der
Daten bezeichnen.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Evidenz
Die Evidenz, d.h. der Nenner in (41), lässt sich analog wieder
durch Einschieben von h durch die Likelihood p(D|h) und Prior
p(h) ausdrücken
Z
p(D) = dh p(D|h) p(h),
(43)
bzw. für (42)
p(y |x) =
Z
dh p(y |x, h) p(h).
(44)
So ergibt sich für die A–Posteriori–Wahrscheinlichkeit
p(h|D) = R
p(y |x, h) p(h)
.
dh′ p(y |x, h′ ) p(h′ )
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(45)
Ratingverfahren
Bayessche Statistik
Vorhersage durch Mittelung über alle Modelle
Mit (45) lässt sich nun auch die Prognosewahrscheinlichkeit (37)
durch die Likelihoods ausdrücken
Z
1
∗ ∗
dh p(y ∗ |x ∗ , h) p(y |x, h) p(h)
p(y |x , D) =
p(y |x)
R
dh p(y ∗ |x ∗ , h) p(y |x, h) p(h)
R
=
.
(46)
dh′ p(y |x, h′ ) p(h′ )
Das Integral über h ist typischerweise extrem hochdimensional und
lässt sich nur in ganz einfachen Fällen analytisch, und sonst, wenn
überhaupt, nur approximativ, z.B. durch Monte–Carlo–Methoden
berechnen. Zudem ist das Integral von y ∗ und x ∗ abhängig, und
muss für alle Werte y ∗ und x ∗ , die von Interesse sind, berechnet
werden.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Maximum–A–Posteriori–Methode (MAP)
Zur Berechnung der Prognosewahrscheinlichkeit (46) wird über die
Vorhersagen p(y |x, h) aller möglichen Modelle gemittelt, und zwar jeweils
gewichtet mit ihrer A–Posteriori–Wahrscheinlichkeit p(h|D). Dies
bedeutet, dass Hypothesen deren Wahrscheinlichkeit auf Grund der
vorhandenen Daten hoch ist, auch stark gewichtet in die Prognose mit
einfließen. Ist die Zahl der Daten groß genug, so ist in vielen Fällen das
Produkt aus Likelihood und A–Priori–Wahrscheinlichkeit an einer Stelle
konzentiert. Bezugnehmend auf solche Fälle wird bei der so genannten
Maximum–A–Posteriori–Methode das Modell mit der größten
A–Posteriori-Wahrscheinlichkeit bestimmt
h∗ = argmaxh∈H p(h|D)
(47)
Unter der Annahme, dass der Gewichtungsfaktor hinreichend um h∗
konzentriert ist, wird p(y ∗ |x ∗ , D) genähert durch p(y ∗ |x ∗ , h∗ ). Dies
entspricht einer Sattelpunktsnäherung des Integrals und ist vergleichbar
mit dem Übergang von der Quantenmechanik zur klassischen Physik.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Maximum–Likelihood–Methode (ML)
Die Berechnung des Posteriors p(h|D) erfordert neben der durch
die Modellspezifikation und die Beobachtungsdaten definierten
Likelihood auch die Implementierung des problemspezifischen
Vorwissens in Form eines Priors über die Parameter p(h). Wenn ein
im Vergleich zur Anzahl der Daten sehr flexibler Modellraum
gewählt wird (z.B. bei nichtparametrischen Methoden), ist der
Prior wesentlich (z.B. in Form einer Glattheitsbedingung). Bei
niedrigdimensionalen parametrischen Modellen wählt man den
Prior auf den ausgewählten Parametern jedoch häufig uniform. Da
auch die Evidenz p(y |x) nicht von den Modellparametern h
abhängt, ist in diesem Falle die Maximierung des Posteriors
gleichbedeutend mit der Maximierung der Likelihood :
p(h) uniform ⇒ argmaxh p(h|x, y ) = argmaxh p(y |x, h).
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(48)
Ratingverfahren
Bayessche Statistik
Loglikelihood und Fehler
Das Maximieren der Loglikelihood entspricht dem Minimieren der
negativen Loglikelihood. Letztere kann daher als ein zu
minimierendes Fehlermaß aufgefasst werden. So wird z.B. bei einer
gaußförmigen Likelihood mit Varianz σ 2 und zu schätzender
Mittelwertsfunktion h = h(x)
p(y |x, h) =
1
n
(2π) 2 σ n
n
Y
i=1
(yi − h(xi ))2
exp −
2σ 2
(49)
die negative Loglikelihood bis auf eine irrelevante Konstante und
einen gemeinsamen Faktor zu dem bekannten quadratischen Fehler
n
X
n
1 X
− ln p(y |x, h) = −
ln p(yi |xi , h) = 2
(yi − h(xi ))2 + const.
2σ
i=1
i=1
(50)
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Beispiel Gaußsche Regression
Beispiel einer gaußschen Likelihoodfunktion p(y |x, h). Gezeigt ist
die zufällige Realisierung h eines Gaußprozesses mit einem Glattheitsprior
(mit höheren Ableitungen), dicke rote Linie = in der Praxis unbekannte
Regressionsfunktion h, schwarze Punkte = Beispieldaten (xi , yi ).
4
3
2
1
0
-0.41
80
60
40
20
0
0.4 0
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Gaußsche Likelihood und Lineare Regression
Die zu schätzende Funktion h(x) in (49) representiert den
x–abhängigen Mittelwert der Gaußverteilung und heißt
Regressionsfunktion. Wählen wir für sie einen in den Parametern aj
linearen parametrischen Ansatz in Abhängigkeit von m
unabhängigen Variablen x·j und einer Konstanten x·0 = 1,
h(x) = a0 +
m
X
aj x·j =
m
X
aj x·j = a · x
(51)
j=0
j=1
spricht man von einer linearen Regression. Analog (50) erhalten wir
für (49) so für die Maximum–Likelihood–Lösung a∗ die Bedingung
a∗ = argmina
n
X
(yi − a · xi )2 .
i=1
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(52)
Ratingverfahren
Bayessche Statistik
Maximum–Likelihoodlösung der linearen Regression
Lösen der Maximum–Likelihoodbedingung (52) durch Ableiten
nach den aj liefert


n
m
X
X
 yi −
0=
aj xij  xij , für 0 ≤ j ≤ m,
(53)
i=1
j=0
bzw. ausgedrückt durch die Vektoren a, y und die Matrix Xij = xij
0 = X T y − X T Xa,
(54)
a = (X T X )−1 Xy .
(55)
und damit
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Lineare gaußsche Regression mit Prior
Bei Nutzung der Maximum–Likelihood–Methode werden implizit
alle Parameterwerte als a priori gleichwahrscheinlich eingeschätzt,
für den entsprechenden uniformen Prior p(a) ist daher die
Maximum–Posterior– gleich der Maximum–Likelihood–Lösung.
Folgender Posterior enthält dagegen z.B. einen Gaußschen Prior,
der für aj Werte in der Nähe von a0j bevorzugt (für a0j = 0 z.B.
betragsmäßig kleinere aj vorzieht)
p(a|x, y ) ∝ p(y |x, a)p(a) ∝ e
−
Pn
i=1
2
(yi −a·xi )2 P m (aj −a0j )
− j=1
2σ 2
2σ 2
0
.
(56)
Der Wert des sog. Hyperparameters σ02 (dessen Inverses auch als
Regularisierungskonstante bekannt ist) bestimmt den Einfluss des
Priors auf die Maximum-Posterior-Lösung und kann beispielsweise
durch Kreuzvalidierung optimiert werden.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Nichtparametrische gaußsche Regression
Bei der linearen parametrischen gaußschen Regression wird für die
Regressionsfunktion h(x) der gaußschen P
Likelihood ein in den
Parametern linearer Ansatz h(x) = a0 + m
j=1 aj xij gewählt, bei
einer nichtlinearen parametrischen Regression wird entsprechend
eine nichtlineare Parametrisierung der Regressionsfunktion
vorgegeben. Im Grenzfall der sogenannten nichtparametrischen“
”
Regression wird jeder Funktionswert h(x) selbst als Parameter a(x)
= h(x) aufgefasst.2 Bei nichtparametrischen Methoden gibt es also
keine impliziten, in der Parametrisierung versteckten
Abhängigkeiten, sondern es werden die einzelnen Funktionswerte
als die primären Freiheitsgrade des Modells aufgefasst, deren
Abhängigkeiten durch A–Priori–Informationen explizit vermittelt
werden muss.
2
Um technische Probleme zu vermeiden, die bei nicht–gaußschem Posterior schnell sehr komplex
(Renormierung) oder auch unlösbar werden, verwenden wir dabei ggfls. anstelle kontinuierlicher x–Werte diskrete
xk (Gittermodell).
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Nichtparametrische gaußsche Regression und Prior
Da bei nichtparametrischen Ansätzen also die Anzahl der
Funktionswerte h(x), also der primären Freiheitsgrade oder
Parameter“, typischerweise wesentlich größer ist (evtl. auch
”
abzählbar oder überabzählbar unendlich) als die Zahl der
Trainingsdaten, ist in solchen Modellen die A–Priori–Information
wesentlich. Häufig verwendete Prior sind Glattheitsprior. Messen
wir beispielsweise die Variabilität der Regressionsfunktion h für
diskrete x durch die Summe quadratischer Differenzen
∞ X
h(xk ) − h(xk−1 ) 2
,
(57)
xk − xk−1
k=−∞
so erhalten wir einen gaußschen Glattheitsprior durch
"
#
∞ h(xk ) − h(xk−1 ) 2
1 X
.
p(h) ∝ exp −
2
xk − xk−1
k=−∞
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(58)
Ratingverfahren
Bayessche Statistik
Glattheitsprior und kinetische Energie
2
R∞
dx welches sich
Für kontinuierliche x wird (57) zu ∞ dh(x)
dx
nach partieller Integration bei verschwindenden (oder analog bei
periodischen) Randbedingungen folgendermaßen durch den
Laplaceoperator ∆ ausdrücken lässt
Z ∞
Z ∞
dh(x) 2
h(x)(∆h)(x) dx = hh|(−∆)|hi,
dx = −
dx
∞
∞
(59)
Bra–Ket–Schreibweise. Dies hat die Form eines kinetischen
”
Energieterms“ in einer euklidischen Quantenfeldtheorie. Der
entsprechende gaußsche Glattheitsprior für h(x) mit einem
Gewichtungs– bzw. Regularisierungsfaktor λ0 ist
"
#
Z
λ0
λ0 ∞ dh 2
= exp
p(h) ∝= exp −
hh|∆|hi .
(60)
2 −∞ dx
2
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Likelihood–Energie in Operatorschreibweise
Die Likelihood–Energie können wir analog ausdrücken
=
=
n
λi X
(yi − h(xi ))2
2
i=1
n Z Z
X
λi
dx dx ′ (h(x) − yi )δ(x − xi )δ(x − x ′ )(h(x ′ ) − yi )
2
i=1
Z Z
n
X
1
′
dx dx
(h(x) − yi (x))Ki (x, x ′ )(h(x ′ ) − yi (x ′ ))
2
i=1
=
n
1X
hh − yi |Ki |h − yi i
2
(61)
i=1
mit der Messwertfunktion yi (x) ≡ yi , einen den Ort xi und das
Gewicht λi der Messung kennzeichnenden Diagonaloperator
Ki (x, x ′ ) = λi δ(x − x ′ )δ(x − xi ) und z.B. λi = σ −2 .
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Beispiel: diskreter negativer Laplaceoperator
Auf einem Gitter mit 7 Punkten und xk − xk−1 = 1, 2 ≤ k ≤ n
sieht der als inverse Priorkovarianz verwendbare diskrete negative
Laplaceoperator −∆ für außerhalb des Gitters verschwindende
Funktionen h wie folgt aus


2 −1 0
0
0
0
0
−1 2 −1 0
0
0
0


 0 −1 2 −1 0
0
0


0 −1 2 −1 0
0
(62)
−∆ = 
.
0

0
0
0
−1
2
−1
0


0
0
0
0 −1 2 −1
0
0
0
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
0
0
−1
2
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Beispiel: diskrete inverse Datenkovarianz
Auf einem Gitter mit 7 Punkten und jeweils einer Messung bei
x = 2 sowie x = 5 und zwei Messungen bei x = 3 sieht die diskrete
inverse Datenkovarianz KD für σ = 1 wie folgt aus


0 0 0 0 0 0 0
0 1 0 0 0 0 0


0 0 2 0 0 0 0



KD = 
(63)
0 0 0 0 0 0 0 .
0 0 0 0 1 0 0


0 0 0 0 0 0 0
0 0 0 0 0 0 0
Die Nullen in den Nichtdiagonalelementen zeigen an, dass die
Daten nur Informationen über die Funktion an den gemessenen
x–Werten liefert, die ohne Zuhilfenahme eines nichtdiagonalen
A–Priori–Operators nicht auf andere x–Werte übertragbar sind.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Priorreferenzfunktion
Als inverse Priorkovarianz K0 können wir einen beliebigen positiv
semidefiniten Operator zulassen, und analog zu den Messdaten yi
auch in der Priorenergie eine Referenzfunktion y0 (x) verwenden,
1
hh − y0 |K0 |h − y0 i,
(64)
2
Das Maximum des gaußschen Priors liegt bei h(x) = y0 (x) und
dieses entspricht damit in der Abwesenheit von Daten auch der
Maximum–A–Posteriori–Lösung. Die Referenzfunktion y0 (x) wird
oft identisch Null gewählt, kann aber beliebige A–Priori–Daten
repräsentieren. Damit haben wir eine vollkommen analoge
Schreibweise für quadratische Daten– und A–Piori-Terme und
können für eine quadratische A–Posteriori–Energie schreiben
n
n
1X
1X
1
hh−yi |Ki |h−yi i+ hh−y0 |K0 |h−y0 i =
hh−yi |Ki |h−yi i.
2
2
2
i=1
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
i=0
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Allgemeine quadratische Ergänzung 1
Um die Maximum–A–Posteriori–Lösung zu finden, fassen wir durch
eine quadratische Ergänzung alle quadratischen Terme zu einem
h-abhängigen Term zusammen. Dazu multiplizieren wir die
einzelnen Terme aus
n
X
hh − yi |Ki |h − yi i
i=0
= hh|
n
X
Ki |hi − 2hh|
|i=0{z }
n
X
K i yi i +
n
X
hyi |Ki |yi i
i=0
i=0
K
= hh|K |hi − 2hh|K | K −1
n
X
K i yi i +
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
{z
y
hyi |Ki |yi i. (65)
i=0
i=0
|
n
X
}
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Allgemeine quadratische Ergänzung 2
P
In (65) haben wir dabei die inverse
Gesamtkovarianz K = i Ki
P
und die Gesamtdaten y = K −1 i Ki yi definiert. Um nun alle
h-abhängigen Terme zusammenzufassen ergänzen wir ±hy |K |y i
n
X
hh − yi |Ki |h − yi i
i=0
= hh|K |hi − 2hh|K |y i + hy |K |y i − hy |K |y i +
n
X
hyi |Ki |yi i
i=0
n
X
hyi |Ki |yi i − hy |K |y i,
= hh − y |K |h − y i +
i=0
= hh − y |K |h − y i + 2Emin ,
wobei die verbleibende h-unabhängige Term 2Emin als eine
verallgemeinerte Varianz der yi aufgefasst werden kann.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(66)
Ratingverfahren
Bayessche Statistik
Maximum–A–Posteriori–Lösung
Die Maximum–A–Posteriori–Lösung
h∗ (x) = argmaxh p(h|D) = argminh hh − y |K |h − y i
(67)
ist nun durch (Funktional–)Ableitung trivial zu finden,
0=
δp(h|D)
⇒ 0 = K (h∗ − y ),
δh
(68)
also bei invertierbarem K
∗
h =y =K
−1
n
X
K i yi .
(69)
i=0
Bei gaußscher Likelihood mit gaußschem Prior kann die Bayesche
Integration über alle Hypothesen h zur Berechnung der Prognose
(38) durchgeführt werden und liefert wieder die
Maximum–A–Posteriori–Lösung.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Lösung als Überlagerung von Kernfunktionen
Die MAP-Lösung (69) ist eine Überlagerung von Kernfunktionen
der datenabhängigen Gesamtkovarianz K −1
n Z Z
X
∗
dx ′ dx ′′ K −1 (x, x ′ )Ki (x ′ , x ′′ )yi (x ′′ )
h (x) = y (x) =
i=0
=
n
X
i=0
K −1 (x, x ) λ y = K −1 (x, xi )
| {z i } i i
datenabhängig
n
X
λ i yi + K 0 y0
i=1
!
.
Im Fall y0 ≡ 0 und λi = 1 für 1 ≤ i ≤ n, also z.B. für konstante, in
λ0 absorbierte 1/(2σ 2 ), erhalten wir
∗
h (x) =
n
X
K −1 (x, xi ) yi ,
(70)
i=1
also eine Summe von yi –gewichteten Kernfunktionen K −1 (x, xi )
mit einem Summand pro Datenpunkt.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Problem Bestimmung der Gesamtkovarianz
Das Problem bei der Berechnung der Lösung nach Gleichung (70)
besteht in der Inversion des datenabhängigen K , um die
Gesamtkovarianz K −1 zu erhalten. Zudem ist im Falle von
kontinuierlichen x der zu invertierende Operator K
unendlichdimensional.
Leichter ist es in der Regel einmal die datenunabhängige inverse
Priorkovarianz K0 zu invertieren. Gegebenfalls kann sogar an Stelle
von K0 direkt die Priorkovarianz K0−1 vorgegeben werden. Wir
werden deshalb die Stationaritätsgleichung nochmals für getrennte
Daten– und Priorterme berechnen. Dabei wird sich zeigen, dass
neben einer Inversion von K0 nur eine weitere Inversion im
Datenraum, das heißt in dem durch die als Daten vorkommenden
xi aufgespannten Raum, erforderlich ist.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Zusammenfassen der Datenterme
Fassen wir dafür nur die Datenterme zusammen, so erhalten wir
n
X
hh − yi |Ki |h − yi i = hh − yD |KD |h − yD i + 2ED,min ,
(71)
i=1
KD =
n
X
Ki ,
KD (x, x ′ ) = δ(x−x ′ )
n
X
λi δ(x−xi ) = δ(x−x ′ )n(x),
i=1
i=1
(72)
mit n(x) = i=1 λi δ(x − xi ) der (λi –gewichteten) Anzahl von
Messungen bei x und dem (λi -gewichteten) y –Mittelwert pro x
Pn
yD =
KD−1
n
X
K i yi ,
i=1
yD (x) =
n(x)
X
λi yi (x)
i=1
n(x)
,
mit KD−1 dem Inversen im Raum der Daten yi und einer
gewichteten lokalen Datenvarianz 2ED,min .
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
(73)
Ratingverfahren
Bayessche Statistik
Nochmals die Stationaritätsgleichung
Leiten wir nun den h-abhängigen Teil der Posteriorenergie
1
1
hh − yD |KD |h − yD i + hh − y0 |K0 |h − y0 i
2
2
(74)
nach h ab, so erhalten wir die Stationaritätsbedingung
0 = KD (h∗ −yD )+K0 (h∗ −y0 ) ⇔ KD (yD −h∗ ) = K0 (h∗ −y0 ), (75)
und bei invertierbarer inverser Priorkovarianz K0
h∗ = y0 + K0−1 KD (yD − h∗ ) = y0 + K0−1 aD ,
|
{z
}
(76)
aD = KD (yD − h∗ ) = KD (yD − y0 − K0−1 aD ),
(77)
aD
wobei wir die im Datenraum definierte Größe
eingeführt haben.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Inversion im Datenraum
Gleichung (77) lässt sich nach aD auflösen
aD = KD (yD − y0 − K0−1 aD )
⇔ (1 + KD K0−1 )aD = KD (yD − y0 )
1
⇔ aD =
KD (yD − y0 ).
1 + KD K0−1
(78)
Da links und rechts von K0−1 jeweils die einen Projektor auf den
Raum der gemessenen xi enthaltene inverse Datenkovarianz KD
auftritt, kann aD durch Inversion im Raum der gemessenen Daten
gelöst werden. Die Dimension des Datenraums ist gegeben durch
die Anzahl der in den Daten vorkommenden unterschiedlichen
Werte xi .
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Lösung als Überlagerung von Priorkernen
Die Lösung
h ∗ = y0 +
K0−1
|{z}
aD ,
(79)
datenunabhängig
also
∗
h (x) = y0 (x) +
n
X
K0−1 (x, xi ) aD (xi ),
(80)
i=1
ist wieder als Summe von Kernfunktionen mit einem Summanden
pro Datenpunkt darstellbar, diesmal allerdings bezüglich der
datenunabhängigen Priorkovarianz als Kern. In diesem Sinne lassen
sich die aD (xi ) als effektive Daten“ bezüglich der Priorkovarianz
”
auffassen.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Beispiel: Priorkovarianz
Als Beispiel sind hier die 50 Spalten der Priorkovarianz K0−1 (x, cdot) für
den negativen Laplaceoperator K0 = −∆ auf einem Gitter der Größe 50
gezeigt.
12
10
8
6
4
2
0
10
20
30
40
50
K0−1
Da
stetige und stückweise lineare Spalten besitzt, resultieren daraus
nach (80) auch stetige stückweise lineare MAP-Schätzungen h∗ (x) .
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Glattheit
Der negative Laplaceoperator −∆ entspricht dem Quadrat der ersten
Ableitung und führt zu stetigen, stückweise linearen MAP-Lösungen. Die
Verwendung von eines K0 mit Quadraten höherer Ableitungen führt zu
glatteren MAP-Schätzungen. Hier sind z.B. einige Kovarianzspalten
K0−1 (x, · · · ) von K0 = 1 - σ12 ∆ + 2σ1 4 ∆2 - 6σ1 6 ∆3 für σ02 = 1 dargestellt.
0
0
0
0.3
0.25
0.2
0.15
0.1
0.05
0
2
4
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
6
8
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
Beispiel: Gesamtkovarianz
Hier sind als 50 Spalten einer GesamtkovarianzPK −1 (x, ·), auf einem
n
Gitter der Größe 50 gezeigt, wobei K = K0 + i=1 Ki mit K0 = −∆ und
Ki , die hier n = 6 Messungen bei x ∈ {5, 10, 10, 25, 30, 35}
representieren. Nach (69) kann daraus die MAP-Lösung h∗ (x) direkt aus
den Daten yi berechnet werden.
4
3
2
1
0
10
20
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
30
40
50
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
A. Agresti.
Categorical Data Analysis.
John Wiley & Sons, Inc., New York, 2nd edition, 2002.
T. R. Bayes.
An essay towards solving a problem in the doctrine of chances.
Philosophical Transactions of the Royal Society London, 53:370, 1763.
Reprinted in Biometrika 45:293, 1958.
J. O. Berger.
Statistical Decision Theory and Bayesian Analysis.
Springer–Verlag, New York, 1980.
2nd Edition 1985.
J. M. Bernado and A. F. Smith.
Bayesian Theory.
Wiley, New York, 1994.
C. M. Bishop.
Pattern Recognition and Machine Learning.
Springer Verlag, Berlin, 2006.
G. E. P. Box and G. C. Tiao.
Bayesian Inference in Statistical Analysis.
Addison–Wesley, Reading, MA, 1973.
Wiley Classics Library Edition published 1992.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
B. P. Carlin and T. A. Louis.
Bayes and Empirical Bayes Methods for Data Analysis, volume 69 of
Monographs on Statistics and Applied Probability.
Chapman & Hall/CRC, Boca Raton, FL, 1996.
R. O. Duda, P. E. Hart, and D. G. Stork.
Pattern Classification.
Wiley, New York, 2001.
B. Efron and R. J. Tibshirani.
An Introduction to the Bootstrap, volume 57 of Monographs on Statistics and
Applied Probability.
Chapman & Hall, New York, 1993.
R. A. Fisher.
Inverse probability.
Proc. Camb. Phil. Soc., 26:528, 1930.
K. Fukunaga.
Statistical Pattern Recognition.
Academic Press, Boston, 1990.
A. Gelman, J. B. Carlin, H. S. Stern, and D. B. Rubin.
Bayesian Data Analysis.
Chapman & Hall, New York, 1995.
T. Hastie, R. Tibshirani, and J. Friedman.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Ratingverfahren
Bayessche Statistik
The Elements of Statistical Learning.
Springer Verlag, New York, 2001.
T. J. Hastie and R. J. Tibshirani.
Generalized additive models.
Statist. Sci., 1:297–318, 1986.
D. W. Hosmer and S. Lemeshow.
Applied Logistic Regression.
John Wiley & Sons, Inc., New York, 2000.
J. C. Lemm.
Bayesian Field Theory.
The Johns Hopkins University Press, Baltimore, 2003.
P. McCullagh and J. A. Nelder.
Generalized Linear Models.
Chapman & Hall, London, 2nd edition, 1989.
C. E. Rasmussen and C. Williams.
Gaussian Processes for Machine Learning.
MIT Press, Cambridge, MA, 2006.
G. Winkler.
Image Analysis, Random Fields, and Dynamic Monte Carlo Methods.
Springer–Verlag, Berlin, 2nd edition, 2000.
Jörg Lemm Vorlesung Finanzmathematik WS 2007/08
Ratingverfahren und Bayessche Statistik
Herunterladen