Schätzung der rohen Sterbenswahrscheinlichkeit

Werbung
Schätzung der rohen Sterbenswahrscheinlichkeit
Sarah Kosjak
24.1.2009
Inhaltsverzeichnis
1 Einleitung
1.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Problemdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
2
2 Methoden zur Schätzung von q̂x
2.1 Momentenmethoden . . . . . . . . . . . . . . . . . . .
2.1.1 Klassische Lösung . . . . . . . . . . . . . . . .
2.1.2 Alternative Lösung . . . . . . . . . . . . . . . .
2.2 Die Maximum Likelihood Methode . . . . . . . . . . .
2.2.1 Die Poissonverteilung zur Maximum Likelihood
2.3 Bayessches Verfahren . . . . . . . . . . . . . . . . . . .
2.4 Verschiedene Ausscheideursachen . . . . . . . . . . . .
2.4.1 Das Modell . . . . . . . . . . . . . . . . . . . .
2.4.2 Schätzung von qj,x . . . . . . . . . . . . . . . .
3
3
3
3
4
4
5
5
5
6
1
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Methode
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Einleitung
1.1
Definitionen
• t qx . . . die t-jährige Sterbewahrscheinlichkeit des x-jährigen
Dafür betrachtet man eine bestimmte Person im Alter von x Jahren. Ihre zukünftige Lebensdauer wird mit T (x) bezeichnet, das heißt x + T ist das Alter beim Tod. T ist eine
Zufallsvariable mit der Verteilungsfunktion G(t) = P (T ≤ t) mit t ≥ 0, wobei T hier als bekannt und stetig vorausgesetzt wird und eine Wahrscheinlichkeitsdichte g(t) = G0 (t) besitzt,
wie zum Beispiel g(t)dt = P (t < T < t + dt).
Wobei G(t) =t qx und das Präfix eins nicht geschrieben wird.
• q̂x . . . geschätzter Wert von qx (rohe Sterbewahrscheinlichkeit)
• t px = 1 − G(t) = 1 −t qx . . . t-jährige Überlebenswahrscheinlichkeit eines x-jährigen
• Ex = (s1 −t1 )+(s2 −t2 )+. . .+(sn −tn ) . . . beobachtete Anzahl Jahresrisiken (engl.:Exposure)
Wir nehmen an, dass im uns interessierenden Rechteck des Lexisdiagramms n Leben einen
Beitrag liefern. Dabei wird das Leben
√ i beobachtet vom Alter x + ti bis x + si mit 0 ≤ ti <
si ≤ 1. Ex ist bis auf einen Faktor 2 die totale Länge der diagonalen Liniensegmente.
• Dx . . .beobachtete Anzahl Todesfälle zwischen Alter x und x + 1.
• I . . . Menge der Indizes i Wobei für das Leben i ein Todesfall beobachtet wurde
(m)
• si
=
msi +1
m
. . .wird aus si erhalten durch Aufrunden auf das nächste m-tel mit i ∈ I
g(t)
d
d
• µx+t = 1−G(t)
= − dt
ln[1 − G(t)] = − dt
lnt px . . . Sterblichkeitsintensität des x-jährigen im
Alter von x + t
• Konfidenzintervall(auch Mutungsintervall) . . . Dieser Begriff sagt etwas über die Präzision
der Lageschätzung eines Parameters aus. Es schließt einen Bereich um den geschätzten Wert
des Parameters ein, der mit einer zuvor festgelegten Wahrscheinlichkeit die wahre Lage des
Parameters trifft.
• Konfidenzlimiten . . . Grenzen des Konfidenzintervalls
• t q(j,x) . . . die (bedingte) Wahrscheinlichkeit dafür, dass falls das Ausscheiden zum Zeitpunkt
t stattfindet es wegen der Ursache j geschieht
• µj,x+t =
1.2
gj (t)
t px
. . . Ausscheideursache des x-jährigen im Alter x + t bezüglich der Ursache j
Problemdarstellung
Die einjährige Sterbewahrscheinlichkeit wird geschätzt aus
1. einer bestimmten Gruppe von Leuten (zum Beispiel aus Lebensversicherungspolicen)
2. einer bestimmten Beobachtungsperiode (zum Beispiel ein Kalenderjahr)
Die Beobachtung wäre vollständig wenn jedes Leben von Alter x bis x + 1 beziehungsweise bis
zum Tod vor dem Alter x + 1. Dies ist in der Praxis meist nicht der Fall da beispielsweise Policen
innerhalb der Beobachtungsperiode gekauft und storniert werden.
Veranschaulicht wird dies im sogenannten Lexisdiagramm in dem jedem Leben ein diagonales
Liniensegment entspricht. Dabei verläuft die Zeitachse waagrecht und die Altersachse senkrecht
und es wird nur das Rechteck betrachtet das durch das uns interessierende Altersintervall und die
Beobachtungsperiode beschränkt wird.
Es gibt nun verschiedene Methoden q̂x zu ermitteln beziehungsweise zu schätzen. Dazu werden
(m)
Ex , Dx , I und si wie oben definiert.
2
2
Methoden zur Schätzung von q̂x
2.1
2.1.1
Momentenmethoden
Klassische Lösung
Die Idee bei dieser Lösungsmethode ist, die erwartete Anzahl an Todesfällen der beobachteten
Anzahl Dx gleichzusetzen. Daraus kann man den geschätzten Wert q̂x ableiten.
Die erwartete Anzahl an Todesfällen wird dabei angenommen mit
n
X
1−ti qx+ti
−
i=1
X
1−si qx+si .
i∈I
/
Diesen Ausdruck kann man vereinfachen durch eine Annahme über den Verlauf der unterjährigen Sterbewahrscheinlichkeit u qx mit x ganzzahlig und 0 ≤ u ≤ 1.
Hierbei nimmt man 1−u qx+u als linear an und findet durch Interpolation zwischen u = 0 und
u = 1 heraus, dass 1−u qx+u = (1 − u)qx .
Somit erhält man die klassische Schätzung
q̂x =
Ex +
D
P x
i∈I (1
− si )
.
Manchmal wird der Nenner nur näherungsweise berechnet indem man annimmt, dass die Todesfälle durchschnittlich im Alter von x + 21 eintreten. So erhält man eine vereinfachte Formel:
q̂x =
Dx
.
Ex + 12 Dx
Bei großen Datenmengen hat sich diese Lösung bewährt bei geringen Datenmengen kann es
allerdings passieren, dass q̂x > 1. Außerdem ist diese Methode nicht für eine weiterführende
statistische Analyse geeignet.
2.1.2
Alternative Lösung
1
Bei dieser Methode wird zunächst h qx geschätzt. Wobei h = m
und m eine positive ganze Zahl.
Wie bei der Klassischen Lösung wird h−u qx+u als lineare Funktion angenommen, also
h−u qx+u = (1 − mu)h qx für 0 ≤ u ≤ h. Weiters sei die Sterblichkeitsintensität zwischen dem
Alter x und x + 1 eine h-periodische Funktion. Das bedeutet, dass h−u qx+jh+u =h−u qx+u für
0 ≤ u ≤ h und j = 1, 2, . . . , m − 1.
Aus diesen beiden Annahmen ergibt sich eine andere Darstellung der erwarteten Anzahl an
P
(m)
Todesfällen: mExh qx + m i∈I (si − si )h qx .
Setzt man diese mit der beobachteten Anzahl Dx gleich ergibt das
h q̂x
hDx
=
Ex +
(m)
i∈I (si
P
− si )
.
Wegen der Annahme über die Sterblichkeitsintensität gilt px = (h px )m .
Da qx = 1 − px und h px = 1 −h qx erhält man die Schätzung für qx aus der Formel
q̂x = 1 − (1 −h q̂x )m .
Da dieses Vorgehen allerdings nur im Grenzübergang m → ∞ wirklich sinnvoll ist, betrachtet
man diese Methode nun in Limes.
Das führt dazu, dass die beiden Annahmen über die Linearität von h−u qx+u und die Sterblichkeitsintensität, nun der Annahme entsprechen, dass die Sterblichkeitsintensität über jedem
3
Einheitsintervall konstant ist. Das heißt, dass µx+u = µx+ 12 für 0 < u < 1. Für den konstanx
ten Wert der Sterblichkeitsintensität erhält man die Schätzung µ̂x+ 12 = D
Ex , da die Anzahl der
erwarteten Todesfälle in Limes Ex µx+ 12 beträgt.
Schließlich erhält man für die Schätzung von qx die Formel:
q̂x = 1 − exp(−µ̂x+ 12 ) = 1 − exp(−
Dx
).
Ex
Ein Kritikpunkt bei beiden Momentenmethoden ist, dass die Anzahl der erwarteten Todesfälle
in gewissem Sinn heuristisch sind.
2.2
Die Maximum Likelihood Methode
Bei dieser Methode erhält man dieselben Schätzer µ̂x+ 12 und q̂x wie bei der Alternativen Lösung.
Sie werden allerdings anders hergeleitet.
Es wird von einer Zufallsvariablen ausgegangen, deren Dichte- bzw. Wahrscheinlichkeitsfunktion von einem Parameter abhängt. Wenn man statistische Untersuchungen durchführt, untersucht
man in der Regel eine Stichprobe. Das führt dazu, dass unbedingt benötigte Kennwerte wie Erwartungswert oder die Standardabweichung unbekannt sind. Die Maximum Likelihood Methode
wird dann verwendet wenn diese Kennwerte nur von einem unbekannten Parameter abhängen. Als
Maximum-Likelihood-Schätzer wird nun derjenige Parameter bezeichnet, der die Wahrscheinlichkeit, die Stichprobe zu erhalten, maximiert.
Setzt man voraus, dass die n beobachteten Leben unabhängig sind, so ist die Likelihoodfunktion
der Beobachtungen
Y
Y
µx+si si −ti px+ti ·
si −ti px+ti .
i∈I
i∈I
/
Diesen Ausdruck kann man vereinfachen indem man die Sterblichkeitsintensität wieder als konstant
annimmt. So erhält man den vereinfachten Ausdruck
(µx+ 12 )Dx exp(−µx+ 21 Ex ).
Dieser Ausdruck ist dann am gößten wenn die Sterblichkeitsintensität den Wert Dx /Ex annimmt.
Der Maximum Likelihood Schätzer für qx ist schließlich q̂x .
2.2.1
Die Poissonverteilung zur Maximum Likelihood Methode
Eine andere Version dieser Methode erhält man indem man Ex als eine vom Zufall unabhängige
bekannte Zahl behandelt, da dies bequemer ist. Eigentlich ist Ex genauso wie Dx eine Zufallsvariable.
So kann man folgenden Ansatz machen: Die Zufallsvariable Dx habe eine Poissonverteilung
mit Mittelwert λ = µx+ 21 Ex , wobei der Parameter µx+ 12 unbekannt sei. Die Wahrscheinlichkeit
für Dx Todesfälle entspricht somit der Likelihoodfunktion, bis auf einen von µx+ 12 unabhängigen
Faktor. Die Punktschätzer µ̂x+ 21 und q̂x , wie oben definiert, bleiben weiterhin gültig.
Für den Parameter einer Poissonverteilung, bei der eine Beobachtung n vorliegt, werden die
Konfidenzlimiten in einer Tabelle vorgegeben. Die untere Limite λu ist dabei so definiert, dass die
unter der Annahme von λu berechnete Wahrscheinlichkeit für eine Beobachtung ≥ n den Wert w
hat. Analog dazu hat die unter Annahme der oberen Limite λ0 berechnete Wahrscheinlichkeit für
eine Beobachtung ≤ n den Wert w. Der Wert w wird zu jeder Limite in der Tabelle angegeben.
Falls nun Dx Todesfälle beobachtet wurden, erhält man aus der Tabelle sofort das Konfidenzintervall für λ. Aus dessen Definition, λ = µx+ 12 Ex , erhält man dann das Konfidenzintervall für
µx+ 21 . Und aus der Formel für q̂x erhält man schließlich das Konfidenzintervall für qx .
4
Die geschätzten einjährige Sterbewahrscheinlichkeiten q̂x können vom einem zum anderen Alter
sehr unterschiedlich sein. Um dies zu korrigieren kann man entweder eine Methode der Ausgleichsrechnung verwenden oder wie in diesem Fall eine Sterbetafel benutzen. (Eine Sterbetafel ist im
Wesentlichen eine Tabelle von einjährigen Sterbewahrscheinlichkeiten.) Man nimmt dabei an, dass
die Sterblichkeit, die den Beobachtungen zu Grunde liegt, ein konstantes Vielfaches der Sterblichkeit entsprechend der Sterbetafel sei und zwar innerhalb einer bestimmten Altersgruppe. Das
heißt innerhalb der Altersgruppe gilt µx+ 21 = f µtx+ 1 , wobei µtx+ 1 die Sterblichkeitsintensität die2
2
ser Sterbetafel ist. Der Faktor f wird nun geschätzt indem man annimmt, dass die Todesfälle für
verschiedene Alter unabhängige
Zufallsvariablen sind. Daraus ergibt sich, dass die totale Anzahl
P
an Todesfällen, D = x Dx , eine Poissonverteilung mit dem Erwartungswert
λ=
X
µx+ 12 Ex = f
X
µtx+ 1 Ex
x
x
2
ist. Dessen Punktschätzer ist somit λ̂ = D. Daher erhält man für fˆ den Ausdruck
D
,
t
µ
x x+ 1 Ex
fˆ = P
2
der als Sterblichkeitsquotient bezeichnet wird. Weiters kann das Konfidenzintervall für λ einfach
in eines für f transformiert werden.
2.3
Bayessches Verfahren
Das Bayessche Verfahre ist eine weitere Möglichkeit qx zu schätzen. Die Idee bei diesem Verfahren
ist, den Parameter µx+ 12 als Wert einer Zufallsvariablen Θ mit bekannter anfänglicher Wahrscheinlichkeitsdichte u(ϑ) aufzufassen. Aus der vereinfachten Likelihoodfunktion ergibt sich die
a-posteriori Wahrscheinlichkeitsdichte:
ϑDx exp(−ϑEx )u(ϑ)
ũ(ϑ) = R ∞ D
.
t x exp(−tEx )u(t)dt
0
Der Parameter µx+ 12 wird durch den a-posteriori Erwartungswert von Θ geschätzt und aufgrund
der Annahme, dass dessen anfängliche Verteilung eine Gammaverteilung sei, ergibt sich, dass
auch die a-posteriori Verteilung eine Gammaverteilung ist, mit den Parametern α̃ = α + Dx und
β̃ = β + Ex . Daher ist
µ̂x+ 21 =
α̃
.
β̃
Den Schätzer für qx erhält man, indem man in der Gleichung qx = 1−exp(−Θ) den a-posteriori
Erwartungswert nimmt, das heißt:
q̂x = 1 − (
β̃ α̃
) .
β̃ + 1
Für die Bestimmung der Perzentilen (Verteilungskennwerte) kann man wiederum die Tabelle
der Konfidenzlimiten für den Parameter einer Poissonverteilung verwenden.
2.4
2.4.1
Verschiedene Ausscheideursachen
Das Modell
Die Zufallsvariable T , die die zukünftige Lebensdauer eines x-jährigen darstellt, wird nun allgemeiner interpretiert.
5
Man betrachtet eine Person im anfänglichen Alter von x in einem bestimmten Zustand. Das
Ausscheiden aus diesem Zustand erfolgt zum Zeitpunkt T aus einem von m verschiedenen Gründen.
Man interessiert sich nun also für ein Paar von Zufallsvariablen, die V erbleibezeit T und die
Ausscheideursache J, welche den Grund des Ausscheidens angibt(zum Beispiel: Invalidierung,
Tod als Aktiver, Tod durch Unfall). Die beiden Zufallsvariablen haben eine gemeinsame Verteilung,
beschreibbar durch die Dichten gj (t) mit j = i, . . . , m.
Damit kommt man auf t qj,x = P (T < t, J = j) und allgemeiner auf t qj,x+s , welche berechnet
wird wie folgt:
R s+t
gj (z)dz
s
.
t qj,x+s =
1 − G(s)
2.4.2
Schätzung von qj,x
Wie bisher betrachtet man die Exposure Ex und die Anzahl der Ausscheidefälle Dx (Der Einfachheit halber wird im folgenden von Todesfällen gesprochen). Dazu kommt nun die Information, dass
in Dj,x Fällen der Tod aus dem Grund j erfolgt (j = 1, 2, . . . , m). Wobei D1,x +D2,x +. . .+Dm,x =
Dx . qx wird mit den vorher besprochenen Methoden geschätzt.
Nun sollen die Wahrscheinlichkeiten qj,x geschätzt werden. Dazu nimmt man an, dass die
Ausscheideintensität stückweise konstant ist, das heißt µj,x+u = µj,x+ 12 für 0 < u < 1. Außerdem
setzt man die Unabhängigkeit der n beobachteten Leben voraus, sodass die Likelihoodfunktion
gegeben ist durch
m
Y
(µj,x+ 12 )Dj,x exp(−µj,x+ 21 Ex ).
j=1
Die Maximum Likelihood Schätzer sind daher µ̂j,x+ 21 =
für qj,x =
µj,x+ 1
2
µj,x+ 1
Dj,x
Ex
für j = 1, 2, . . . , m und der Schätzer
qx ist demnach
2
q̂j,x =
Dj,x
q̂x .
Dx
Dabei ist q̂x definiert wie in der Alternativen Lösung.
Zur weiteren Möglichkeit, dem Bayesschen Ansatz hier nur kurz die Idee der Vorgangsweise: Es werden die m Ausscheideintensitäten durch Zufallsvariablen modelliert. Diese haben eine
α̃
Gammaverteilung und sind unabhängig voneinander. Man erhält schlussendlich µ̂j,x+ 12 = β̃j und
q̂j,x+ 12 =
α̃j
α̃ q̂x .
Wobei α̃ = α̃1 + . . . + α̃m und q̂x so definiert wie im Bayesschen Verfahren.
6
Literatur
1. H. U. Gerber: Lebensversicherungsmathematik, Springer-Verlag (1986)
2. http://de.wikipedia.org/wiki/Konfidenzintervall
3. http://de.wikipedia.org/wiki/Maximum-Likelihood-Methode
7
Herunterladen