Ein multivariater Piecing-Together Ansatz in der Extremwerttheorie

Werbung
Lehrstuhl für Mathematische
Statistik
Institut für Mathematik
Julius-Maximilians-Universität Würzburg
Diplomarbeit im Studiengang Wirtschaftsmathematik
3500000
2500000
1500000
500000
0
0
500000
1500000
2500000
3500000
Ein multivariater Piecing-Together
Ansatz in der Extremwerttheorie
0
500000
1500000
2500000
3500000
0
500000
1500000
eingereicht von
Stefan Aulbach
am
16. November 2009
betreut von
Prof. Dr. Michael Falk
2500000
3500000
ii
Danksagungen
Ebenso wie man ein (Wirtschafts-)Mathematik-Studium als Ganzes kaum im Alleingang
bestreiten kann, war ich in der Entstehungsphase dieser Arbeit über konstruktive Gespräche sehr dankbar. In diesem Zusammenhang möchte ich besonders Martin Hofmann
und Diana Tichy erwähnen, da regelmäßige fachspezifische Diskussionen mit ihnen nicht
selten zur Festigung gewonnener Erkenntnisse oder zur Aufdeckung erweiterter Zusammenhänge führten. Besonderen Dank schulde ich auch Dr. Christian Weiß, der beim
Auftreten von Schwierigkeiten bei den Simulationen stets wertvolle Tipps parat hatte.
Nicht zuletzt möchte ich mich natürlich bei meinem Betreuer Prof. Dr. Michael Falk
bedanken. Er hatte immer ein offenes Ohr für mich und nahm sich oft auch kurzfristig Zeit, um auf meine Probleme und Sorgen im Zusammenhang mit der Diplomarbeit
einzugehen und mir bei der Lösung zu helfen.
Würzburg, im November 2009
Stefan Aulbach
Inhaltsverzeichnis
iii
Inhaltsverzeichnis
1 Einleitung
2 Grundlagen
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten . . . . . .
2.2 Univariate Extremwerttheorie . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Copulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
3
3
13
22
3 Multivariate Extremwerttheorie
28
3.1 Die Verteilung des m-dimensionalen Maximums . . . . . . . . . . . . . . 28
3.2 Eigenschaften multivariater Extremwertverteilungen . . . . . . . . . . . . 30
3.3 Multivariate verallgemeinerte Pareto-Verteilungen . . . . . . . . . . . . . 34
4 Ein
4.1
4.2
4.3
multivariater Piecing-Together Ansatz
37
Copulas im Anziehungsbereich von EVDs . . . . . . . . . . . . . . . . . . 38
Erzeugung von GPD-Zufallsvektoren . . . . . . . . . . . . . . . . . . . . 41
Multivariates Piecing-Together . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Simulationen
51
5.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Das Programm im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3 Simulationsergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Ausblick
65
Abbildungsverzeichnis
66
Tabellenverzeichnis
67
Literaturverzeichnis
68
Erklärung
71
1
1 Einleitung
Die Extremwerttheorie ist ein Teilgebiet der Wahrscheinlichkeitstheorie, das sich mit
der Verteilung von besonders großen bzw. besonders kleinen Beobachtungen beschäftigt.
Als solches findet sie bei praktischen Fragestellungen aus verschiedensten Fachbereichen
Anwendung. So lassen sich z. B. Höchststände des Meeresspiegels mit extremwerttheoretischen Methoden modellieren, um Rückschlüsse auf die erforderliche Deichhöhe in
Küstenregionen zu ziehen. (Tatsächlich haben ebendiese Überlegungen, die nach der
Hollandsturmflut von 1953 angestrengt wurden, maßgeblich zur Entwicklung der Extremwerttheorie beigetragen.) Es finden sich aber auch Beispiele aus der Finanzwelt: Die
Wahrscheinlichkeit, dass der Wert eines Portfolios einen bestimmten niedrigen Schwellenwert unterschreitet, kann ebenso beschrieben werden wie das Risiko, dass bei einer
Versicherung eine so hohe Schadensmeldung eingeht, die die Versicherung selbst in den
Ruin treibt.
Während anfangs das Hauptaugenmerk der Extremwerttheorie auf der Verteilung von
Maxima und Minima einer Folge von Zufallsvariablen lag, untersuchen neuere Ansätze
das asymptotische Verhalten von Beobachtungen, die einen vorgegebenen Schwellenwert
u über- bzw. unterschreiten. Es lässt sich zeigen, dass sich nur verallgemeinerte ParetoVerteilungen (GPD) dazu eignen, um solche Überschreitungen angemessen zu beschreiben. Daraus leitet sich ein Ansatz ab, der den oberen Rand einer Verteilungsfunktion F
durch eine GPD ersetzt – der sog. Piecing-Together Ansatz:
F (x) ≈ F (u) + 1 − F (u) W (x),
x > u.
Die GPD W kann dabei so gewählt werden, dass der Übergang zwischen F und dieser
Approximation stetig an der Stelle x = u ist.
Will man allerdings – um bei oben genannten Beispielen zu bleiben – mehrere Deiche
entlang eines Küstenstreifens, mehrere Portfolios, oder mehrere Geschäftsfelder einer
Versicherung simultan untersuchen, dann wird der Übergang zur multivariaten Extremwerttheorie erforderlich. Sie beschäftigt sich mit komponentenweisen Maxima und Minima von Zufallsvektoren bzw. mit solchen Zufallsvektoren X = (X1 , . . . , Xm ), die komponentenweise einen vorgegebenen Schwellenwert u = (u1 , . . . , um ) überschreiten, d. h.
2
Xi ≥ ui für i = 1, . . . , m. Zwar kann man auch in diesem Kontext multivariate GPDs
definieren und zeigen, dass sich der obere Rand einer multivariaten Verteilungsfunktion nur durch eine GPD sinnvoll annähern lässt. Jedoch wurde noch keine multivariate
Erweiterung des Piecing-Together Ansatzes etabliert.
Das Ziel dieser Arbeit ist es, eine Möglichkeit für einen multivariaten Piecing-Together
Ansatz aufzuzeigen und diesen anhand von Computer-Simulationen zu erproben. Dazu
werden zunächst einige Grundlagen zu bedingten Erwartungswerten, zur univariaten
Extremwerttheorie und zu Copulas geklärt. Letztere sind spezielle Verteilungsfunktionen, die sich dazu eignen, die Abhängigkeitsstruktur zwischen den Komponenten eines Zufallsvektors zu beschreiben. Im darauf folgenden Kapitel werden diese Ergebnisse
genutzt, um einen Überblick über wichtige Ergebnisse der multivariaten Extremwerttheorie zu bieten. Kapitel 4 geht anschließend auf den multivariaten Piecing-Together
Ansatz ein. Es bildet gemeinsam mit Kapitel 5, das der Umsetzung der Resultate in
ein Computer-Programm und der Beschreibung der Simulationsergebnisse gewidmet ist,
den zentralen Teil dieser Arbeit. Ein Ausblick auf mögliche Erweiterungen und Verbesserungen rundet den vorliegenden Text ab.
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
3
2 Grundlagen
Um die späteren Überlegungen besser nachvollziehen zu können, soll an dieser Stelle
auf wichtige Grundlagen eingegangen werden. Damit der Weg zu den eigentlichen Ergebnissen nicht allzu lang wird, beschränke ich mich dabei auf einen groben Überblick,
der keinen Anspruch auf Vollständigkeit erhebt. Für weitere Details sei auf die zitierte
Literatur verwiesen.
Der erste Abschnitt setzt sich mit bedingten Erwartungen und einer allgemeinen Definition der bedingten Wahrscheinlichkeit auseinander. Er stellt elementare Hilfsmittel
für die Beweise in Kapitel 4 bereit und dient außerdem Kapitel 5 als Motivation für
einen dort verwendeten Schätzer. Nach einigen wichtigen Ergebnissen der univariaten
Extremwerttheorie wird kurz auf Copulas eingegangen – Verteilungsfunktionen, die sich
zur Beschreibung von Abhängigkeiten in mehrdimensionalen Datensätzen eignen. Diese
beiden Abschnitte legen zusammen den Grundstein für die multivariate Extremwerttheorie in Kapitel 3. Außerdem spielen Copulas eine zentrale Rolle für den in Kapitel 4
vorgestellten Piecing-Together Ansatz.
2.1 Bedingter Erwartungswert und bedingte
Wahrscheinlichkeiten
Wir betrachten einen Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable X :
(Ω, A) → (R, B), d. h. X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} ∈ A für alle B ∈ B, wobei mit
B die Borel-σ-Algebra von R bezeichnet wird. X beschreibt also eine zufällige Größe,
deren Realisation a priori unbekannt ist. Mit X + := max{X, 0} und X − := max{−X, 0}
bezeichnet man den Positiv- bzw. Negativteil von X.
R
R
Setzt man X als integrierbar voraus, d. h. Ω X + dP < ∞ und Ω X − dP < ∞ 1 , dann
nimmt das Integral
Z
E (X) :=
X dP :=
Ω
1
Z
Ω
+
X dP −
Z
X − dP
Ω
Das Integral für nicht-negative messbare Funktionen (etwa X + und X − ) wird bspw. in Bauer (1992,
Definition 11.3, Satz 11.6) eingeführt.
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
4
einen endlichen Wert an, den man Erwartungswert von X nennt. Ist X sogar quadratintegrierbar, d. h. E (X 2 ) < ∞, dann lässt sich leicht zeigen, dass E (X) die Funktion
MSE(t) := E (X − t)2 , t ∈ R, minimiert. Der Erwartungswert von X geht also mit
dem kleinsten mittleren quadratischen Fehler einher, wenn man den unbekannten Wert
von X durch eine feste Zahl t vorhersagen will. In diesem Sinn ist E (X) also die beste
Prognose von X.
Der bedingte Erwartungswert gegeben eine σ-Algebra
Dieses Konzept soll nun auf den Fall erweitert werden, dass zum Zeitpunkt“ der Pro”
gnose zusätzliche Informationen über die Zufallsvariable X vorliegen. Dazu folgen wir
im Wesentlichen der Argumentation aus §15 in Bauer (2002). Definiert man X0 : Ω → R
durch X0 (ω) := E (X), ω ∈ Ω, dann ist diese Funktion C, B-messbar für jede sub-σAlgebra C von A. Das gilt insbesondere für den Fall C = {∅, Ω}. X0 ist also eine Zufallsvariable, die gemäß den vorangegangenen Überlegungen einen gewissen Informationsgehalt über X repräsentiert. Dem steht die ursprüngliche Zufallsvariable X gegenüber, die
alle Informationen über sich selbst enthält und die im Allgemeinen nicht messbar bzgl.
einer echten sub-σ-Algebra C von A ist, d. h. C ( A.
Es liegt also nahe, den Grad der Information, den eine Zufallsvariable X über X
beinhaltet, durch solche sub-σ-Algebren von A auszudrücken, bezüglich derer X messbar
ist. Das folgende Beispiel veranschaulicht diesen Sachverhalt.
Beispiel 2.1.1. λ|[0,1] : B ∩ [0, 1] → R sei die Einschränkung des eindimensionalen
Lebesgue-Maßes auf das Intervall [0, 1]. Betrachtet wird der Wahrscheinlichkeitsraum
(Ω, A, P ) = ([0, 1], B ∩ [0, 1], λ|[0,1] ) und eine Zufallsvariable X mit X(ω) = ω für alle
ω ∈ Ω, d. h. X ist auf [0, 1] gleichverteilt. Dann ist X0 (ω) = 1/2, ω ∈ Ω, und durch



1/8,




3/8,
X1 (ω) :=


5/8,




7/8,
ω ∈ [0, 1/4),
ω ∈ [1/4, 1/2),
ω ∈ [1/2, 3/4),
ω ∈ [3/4, 1],
wird eine C1 , B-messbare Zufallsvariable definiert, wobei C1 := σ({Ik , k = 1, . . . , 4})
die kleinste σ-Algebra ist, die die Intervalle Ik := (k − 1)/4, k/4 , k = 1, . . . , 3, und
I4 := [3/4, 1] enthält. Abbildung 2.1 vergleicht X0 und X1 grafisch mit X.
Man kann sich leicht überlegen, dass es nicht ausreicht, den Informationsgehalt nur
e 0 mit
über σ-Algebren zu messen: Erweitert man Beispiel 2.1.1 um die Zufallsvariable X
5
0.25
0.50
0.75
1.00
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
0.00
X
X0
X1
0.00
0.25
0.50
0.75
1.00
Abbildung 2.1: Verschiedene Informationsgehalte über X
e 0 (ω) := 3/4, ω ∈ [0, 1], dann sind sowohl X0 als auch X
e 0 messbar bzgl. jeder subX
σ-Algebra von B ∩ [0, 1] und hätten demzufolge denselben Informationsgehalt über X.
Jedoch haben wir am Anfang dieses Abschnitts gesehen, dass X0 die sinnvollere Wahl
ist. Es ist also erforderlich, die Prognose X an die gegebene Zufallsvariable X zu koppeln:
Satz 2.1.2. Sei X eine integrierbare Zufallsvariable auf (Ω, A, P ). Dann existiert zu
jeder sub-σ-Algebra C von A P -fast sicher genau eine integrierbare Zufallsvariable X auf
(Ω, A, P ), die C, B-messbar ist und die
Z
C
X dP =
Z
X dP
C
für alle C ∈ C
(2.1)
erfüllt. Wenn X nicht-negativ ist, dann ist auch X P-fast sicher nicht-negativ.
Beweis. Siehe Satz 15.1 in Bauer (2002).
Dieses Resultat gewährleistet, dass es zu jeder integrierbaren Zufallsvariable X und
zu einem gegebenen Informationsstand – ausgedrückt durch eine σ-Algebra C – eine
fast sicher eindeutige Vorhersage X von X gibt, die im Sinne von Gleichung (2.1) an X
angepasst ist. Damit lässt sich der bedingte Erwartungswert definieren:
Definition 2.1.3. Unter den Gegebenheiten von Satz 2.1.2 heißt die fast sicher eindeutig
bestimmte Zufallsvariable E (X| C) := X der bedingte Erwartungswert von X gegeben C.2
2
Es sei darauf hingewiesen,
dass der bedingte
Erwartungswert auch für quasi-integrierbare ZufallsvaR
R
riablen X, d. h. Ω X + dP < ∞ oder Ω X − dP < ∞, eingeführt werden kann. Dieser Fall ist für
diese Arbeit jedoch nicht von Bedeutung.
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
6
Im Gegensatz zu E (X) ist der bedingte Erwartungswert E (X| C) also keine reelle
Zahl, sondern eine Zufallsvariable. Diese hat aufgrund von (2.1) die Eigenschaft
E E (X| C) = E (X).
(2.2)
Wir gehen nochmal auf das vorangegangene Beispiel ein:
Beispiel 2.1.4. Es gelten die Bezeichnungen aus Beispiel 2.1.1. Dann ist offensichtlich
Z
Ω
X0 dP = 1/2 =
Z
Z
X dP
und
Ω
∅
X0 dP = 0 =
Z
X dP,
∅
d. h. E (X|{∅, Ω}) = X0 λ|[0,1] -fast sicher.
S
K ⊂ {1, . . . , 4} , da die
Außerdem gilt C1 = σ({Ik , k = 1, . . . , 4}) =
I
k
k∈K
S
S
Intervalle I1 , . . . , I4 disjunkt sind mit 4k=1 Ik = [0, 1] und der Konvention k∈∅ Ik = ∅.
Für C ∈ C1 und eine geeignete Teilmenge K von {1, . . . , 4} erhält man also
Z
X1 dP =
C
X Z 2k − 1
X 2k − 1 1 1 X
X1 dP =
dP =
·
=
(2k − 1).
8
8
4
32 k∈K
Ik
k∈K Ik
k∈K
XZ
k∈K
Da X auf [0, 1] gleichverteilt ist, hat die Verteilung P ∗X von X die Dichte 1[0,1] bezüglich
des eindimensionalen Lebesgue-Maßes. Dabei bezeichnet 1M die Indikatorfunktion einer
Menge M , d. h. 1M (x) = 1 für x ∈ M und 1M (x) = 0 sonst. Mit dem Transformationssatz
für Integrale folgt
Z
X dP =
C
XZ
k∈K
Ik
x (P ∗ X)(dx) =
XZ
k∈K
x dx =
Ik
X x2 k/4
k∈K
2
(k−1)/4
1 X 2
1 X
=
k − (k − 1)2 =
(2k − 1).
32 k∈K
32 k∈K
Also ist E (X| C1 ) = X1 λ|[0,1] -fast sicher.
Die Ergebnisse aus den Beispielen 2.1.1 und 2.1.4 lassen sich verallgemeinern: Für jede
integrierbare Zufallsvariable X folgt aus Definition 2.1.3 sofort
E (X|{∅, Ω}) = E (X) fast sicher.
Anschaulich entspricht das dem Fall, dass keine weiteren Informationen über X vorliegen.
S
Ist Ω = i∈I Ai für paarweise disjunkte Mengen Ai ∈ A, i ∈ I 6= ∅, und C = σ({Ai , i ∈
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
I}) =
S
7
J ⊂ I , dann existieren Zufallsvariablen Xi , i ∈ I, mit
A
j
j∈J
E (X| C) =
X
Xi 1Ai
fast sicher
i∈I
und man kann o. B. d. A. Xi = E (X| Ci ) annehmen, wobei Ci = σ({Ai }) = {∅, Ai , Aci , Ω}
S
mit Aci := Ω \ Ai zu setzen ist. Denn es gilt für C = j∈J Aj ∈ C
Z X
C i∈I
E (X| Ci )1Ai dP =
=
XZ
i∈I
C∩Ai
XZ
j∈J
E (X| Ci ) dP =
XZ
j∈J
Aj
E (X| Cj ) dP
Z
X dP =
Aj
X dP.
(2.3)
C
Wie aus dem folgenden Resultat hervorgeht, erhält man in diesem Fall E (X| Ci )1Ai =
E (X1Ai )1Ai P (Ai ) fast sicher, falls P (Ai ) > 0, und andernfalls E (X| Ci )1Ai = 0 fast
sicher.
Lemma 2.1.5. Sei X eine integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und I eine beliebige Indexmenge. Die Mengen Ai ∈ A, i ∈ I, seien
S
paarweise disjunkt mit i∈I Ai = Ω. Für I ∗ ⊂ I gelte P (Ai ) > 0, falls i ∈ I ∗ , und
P (Ai ) = 0 sonst. Dann folgt:
(i) Für Ci = σ({Ai }), i ∈ I, gilt
E (X| Ci )1Ai =
E (X1Ai )
1Ai
P (Ai )
P -fast sicher,
falls i ∈ I ∗ , und andernfalls E (X| Ci )1Ai = 0 P -fast sicher.
(ii) Mit C = σ({Ai , i ∈ I}) erhält man
E (X| C) =
X
i∈I
E (X| Ci )1Ai =
X E (X1A )
i
1Ai
P
(A
)
i
∗
i∈I
P -fast sicher.
Beweis. Wir zeigen zunächst Teil (i). Sei dazu i ∈ I beliebig aber fest gewählt. Falls
0 < P (Ai ) < 1 gilt, ist Ci = {∅, Ai , Aci , Ω} und
Xi :=
E (X1Aci )
E (X1Ai )
1Ai +
1Aci
P (Ai )
P (Aci )
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
R
ist der bedingte Erwartungswert von X gegeben Ci . Denn es gilt
Z
Xi dP =
Ai
Z
Ai
∅
E (X1Ai )
E (X1Ai )
dP + 0 =
P (Ai ) =
P (Ai )
P (Ai )
8
Xi dP = 0 =
R
∅
X dP ,
Z
X dP
Ai
R
R
R
R
R
und analog dazu auch Ac Xi dP = Ac X dP sowie Ω Xi dP = Ai Xi dP + Ac Xi dP =
i
i
i
R
X
dP
.
Also
folgt
E
(X|
C
)1
=
E
(X1
)1
P
(A
)
P
-fast
sicher.
Im
Fall
P
(Ai ) = 1
i Ai
Ai Ai
i
Ω
erhält man mit den gleichen Argumenten wie zuvor E (X| Ci ) = E (X1Ai )1Ai P (Ai ) P fast sicher und damit die Behauptung. Schließlich folgt im Fall P (Ai ) = 0
P E (X| Ci )1Ai = 0 = P E (X| Ci )1Ai = 0 ∩ Ai + P E (X| Ci )1Ai = 0 ∩ Aci
= 0 + P (Aci ) = 1,
weil E (X| Ci )1Ai = 0 eine Obermenge von Aci ist. Damit ist die Behauptung (i) gezeigt.
Teil (ii) folgt nun direkt aus (i) und Gleichung (2.3).
Mit diesem Ergebnis lässt sich der Zusammenhang des bedingten Erwartungswertes
mit dem (unbedingten) Erwartungswert und der elementaren bedingten WahrscheinS
lichkeit verdeutlichen: Seien Bi ∈ A, i ∈ I, paarweise disjunkt mit Ω = i∈I Bi und
zusätzlich P (Bi ) > 0, i ∈ I. Wegen
P (A ∩ Bi )
1
PBi (A) := P (A | Bi ) :=
=
P (Bi )
P (Bi )
Z
Z
1A 1Bi dP =
Ω
A
1Bi
dP,
P (Bi )
A ∈ A,
hat die elementare bedingte Wahrscheinlichkeit PBi die P -Dichte 1Bi P (Bi ) und es gilt
Z
EBi (X) :=
X dPBi
Ω
1
=
P (Bi )
Z
Ω
X1Bi dP = E X σ({Bi , i ∈ I}) (ω)
(2.4)
für P -fast alle ω ∈ Bi . D. h. der bedingte Erwartungswert stimmt auf Bi fast sicher
mit dem Erwartungswert bzgl. PBi überein. P -fast allen ω ∈ Bi , i ∈ I, wird also der
Erwartungswert zugeordnet, der unter der Maßgabe berechnet wird, dass das Ereignis
Bi eingetreten ist.
Kehren wir zum Ausgangspunkt dieses Abschnittes zurück. Gesucht war eine Verallgemeinerung des Erwartungswertes E (X), die zusätzliche Informationen über die Zufallsvariable X berücksichtigt. Das hat uns zum bedingten Erwartungswert E (X| C) geführt,
wobei der gegebene Informationsstand durch die σ-Algebra C ausgedrückt wird. Gleichzeitig wurde aber auch verlangt, dass die Eigenschaft von E (X) erhalten bleibt, den mitt
leren quadratischen Fehler MSE(t) = E (X − t)2 zu minimieren. Gleichung (2.4) legt
nahe, dass sich dies auf den bedingten Erwartungswert überträgt. Dass das tatsächlich
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
9
der Fall ist, ist Gegenstand des folgenden Resultats, das Bauer (2002) entnommen wurde.
Satz 2.1.6. Sei X eine quadratintegrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und C eine sub-σ-Algebra von A. Dann ist der bedingte Erwartungswert E (X| C) bis auf P -fast sichere Gleichheit die einzige C, B-messbare und quadratintegrierbare Zufallsvariable X, für die
MSE(X) = E (X − X)2
den kleinstmöglichen Wert annimmt.
Beweis. Dass E (X| C) quadratintegrierbar ist, folgt aus der Jensenschen Ungleichung für
bedingte Erwartungswerte: Da x 7→ |x|2 eine konvexe Funktion auf R ist, zeigt Satz 15.3
2
in Bauer (2002), dass E (X| C) ≤ E |X|2 C P -fast sicher. Wegen Gleichung (2.2)
erhält man hieraus und aus der Quadratintegrierbarkeit von X
2 E E (X| C) ≤ E |X|2 < ∞,
d. h. E (X| C) ist quadratintegrierbar. Die übrigen Behauptungen folgen nun aus dem
Beweis von Satz 15.8 in Bauer (2002).
Mit E (X| C) haben wir also die gesuchte Verallgemeinerung von E (X) gefunden. Diese
verwenden wir nun zur Definition der bedingten Wahrscheinlichkeit:
Definition 2.1.7. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und C eine sub-σ-Algebra
von A. Dann nennen wir P (A | C) := E (1A | C) für A ∈ A die bedingte Wahrscheinlichkeit von A gegeben C.
Dies ist eine direkte Erweiterung der elementaren bedingten Wahrscheinlichkeit, denn
für A, B ∈ A mit P (B) > 0 gilt nach Lemma 2.1.5
P (A | B) =
P (A ∩ B)
E (1A 1B )
=
= E 1A σ({B}) (ω)
P (B)
P (B)
für P -fast alle ω ∈ B. Zu beachten ist jedoch, dass P (·| C) im Gegensatz zu P (·| B) kein
Wahrscheinlichkeitsmaß ist, da der Wert, der einer Menge A ∈ A zugeordnet wird, vom
Zufall abhängt.
Bedingen unter Realisationen von Zufallsvariablen
Bei der Berechnung der elementaren bedingten Wahrscheinlichkeit P (A | B) ist die Voraussetzung P (B) > 0 wesentlich, d. h. es kann nur unter solchen Mengen bedingt werden,
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
10
die keine Nullmengen sind. Insbesondere lässt sich die Wahrscheinlichkeit P (A | Y = y)
mit einer Zufallsvariablen Y i. A. nicht elementar berechnen. Mittels Definition 2.1.7
kann man diese Lücke schließen, wie im Folgenden gezeigt wird.
Bisher haben wir einen gegebenen Informationsstand immer durch geeignete σ-Algebren ausgedrückt. Diese treten von nun an in den Hintergrund und wir richten stattdessen den Blick auf die Abhängigkeit zwischen Zufallsvariablen: Ist (Yi )i∈I eine Familie
von Zufallsvariablen, die eine σ-Algebra C erzeugen, d. h.
!
C = σ(Yi , i ∈ I) := σ
[
Yi−1 (B)
:= σ
i∈I
[
i∈I
Yi−1 (B)
!
|B∈B ,
dann schreibt man statt E (X| C) auch E (X| Yi , i ∈ I) und spricht vom bedingten Erwatungswert von X gegeben (Yi )i∈I . Entsprechend nennt man P (A | Yi , i ∈ I) die bedingte
Wahrscheinlichkeit von A gegeben (Yi )i∈I .
Diese neue Sichtweise ermöglicht es, den bedingten Erwartungswert E (X| Y ) als Funktion von Y darzustellen:
Satz 2.1.8. X sei eine integrierbare und Y eine beliebige Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ). Die Verteilung von Y sei mit P ∗Y bezeichnet. Dann folgt:
(i) Für jede Zufallsvariable X, die P -fast sicher mit E (X| Y ) übereinstimmt, gibt es
eine B, B-messbare Funktion g : R → R, so dass X = g ◦ Y . Die Restriktion g|Y (Ω)
von g auf Y (Ω) = {y ∈ R | Y (ω) = y für ein ω ∈ Ω} ist eindeutig bestimmt.
(ii) Jede Funktion g aus Teil (i) ist (P ∗ Y )-integrierbar und es gilt
Z
B
g d(P ∗ Y ) =
Z
X dP,
{Y ∈B}
B ∈ B.
(2.5)
Sie ist hierdurch (P ∗ Y )-fast sicher eindeutig bestimmt. Ist umgekehrt g eine
(P ∗ Y )-integrierbare Funktion auf (R, B), die (2.5) erfüllt, dann gilt E (X| Y ) =
g ◦ Y P -fast sicher.
Beweis. Wir zeigen zunächst Teil (i). Wegen E (X| Y ) = X P -fast sicher ist X σ(Y ), Bmessbar. Die Existenz einer Funktion g mit X = g ◦ Y folgt dann aus dem Faktorisierungslemma (siehe z. B. 11.7 in Bauer (1992)). Seien nun g und h zwei Funktionen mit
dieser Eigenschaft. Für gegebenes y ∈ Y (Ω) folgt g(y) = (g ◦ Y )(ω) = X(ω) und ebenso
h(y) = X(ω) für alle ω ∈ Y −1 ({y}), also g|Y (Ω) = h|Y (Ω) . Teil (ii) ergibt sich aus dem
Beweis von Satz 15.9 in Bauer (2002).
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
11
Im Folgenden nennen wir X aus Satz 2.1.8 (i) eine Version des bedingten Erwartungswertes E (X| Y ). Die Kernaussage von Satz 2.1.8 ist also, dass X genau dann eine Version
von E (X| Y ) ist, wenn X = g ◦ Y mit einer Funktion g gilt, die (2.5) erfüllt.
Seien X1 und X2 zwei Versionen von E (X| Y ), so dass X1 = g ◦ Y und X2 = h ◦ Y .
Nach Satz 2.1.8 (ii) ist g = h (P ∗ Y )-fast sicher und
Z
g(y)P (Y = y) =
y ∈ R,
X dP = h(y)P (Y = y),
{Y =y}
da {y} ∈ B für alle y ∈ R. Im Fall P (Y = y) > 0 erhält man daraus unter Beachtung
von Gleichung (2.4) g(y) = h(y) = E{Y =y} (X) und
X1 (ω) = g Y (ω) = h Y (ω) = X2 (ω),
ω ∈ {Y = y}.
Also ist folgende Aussage bewiesen:
Korollar 2.1.9. Seien X und Y gegeben wie in Satz 2.1.8 und y ∈ R mit P (Y = y) > 0.
Dann stimmen alle Versionen von E (X| Y ) auf der Menge {Y = y} überein und es gilt
für alle B, B-messbaren Funktionen g, die (2.5) erfüllen,
E (X| Y )(ω) = E{Y =y} (X) = g(y),
ω ∈ {Y = y}.
Wenn Y jedoch eine Verteilungsfunktion hat, die an der Stelle y stetig ist, dann gilt
P (Y = y) = 0. In diesem Fall ist Korollar 2.1.9 zwar nicht anwendbar, es vermittelt
aber die Anschauung, dass man g(y) auch dann als Mittelwert von X auf der Menge
{Y = y} interpretieren kann. Wie wir in Satz 2.1.8 gesehen haben, ist g (P ∗Y )-fast sicher
eindeutig bestimmt. Ist außerdem eine konkrete Version des bedingten Erwartungswertes
gegeben, dann ist g sogar eindeutig auf Y (Ω). Deswegen definiert man:
Definition 2.1.10. X und Y seien gegeben wie in Satz 2.1.8. Ferner sei g die (P ∗Y )-fast
sicher eindeutig bestimmte Funktion, die Gleichung (2.5) genügt. Dann heißt
E (X| Y = y) := g(y),
y ∈ R,
bedingter Erwartungswert von X gegeben Y = y. Ebenso nennt man
P (A | Y = y) := E (1A | Y = y),
A ∈ A,
die bedingte Wahrscheinlichkeit von A gegeben Y = y und speziell
P (A | B) := P (A | 1B = 1) = E (1A | 1B = 1),
A, B ∈ A,
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
12
die bedingte Wahrscheinlichkeit von A gegeben B.
Zum Abschluss dieses Abschnitts werden noch einige Aussagen bewiesen, die für die
Beweisführung in späteren Kapiteln von Bedeutung sind. Wir betrachten wieder eine
integrierbare Zufallsvariable X auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und eine
sub-σ-Algebra C von A. Wenn X unabhängig von C ist, dann sind auch X und 1C
unabhängig für jedes C ∈ C und es folgt
Z
Z
X dP = E (X1C ) = E (X)E (1C ) =
E (X) dP,
C
C
C ∈ C,
d. h. E (X| C) = E (X) P -fast sicher. Mit C = σ(Y ) für eine weitere Zufallsvariable Y auf
(Ω, A, P ) erhält man folglich
E (X| Y ) = E (X) P -fast sicher,
falls X und Y unabhängig sind. Nach Satz 2.1.8 erfüllt dann g : R → R mit g(y) = E (X),
y ∈ R, Gleichung (2.5), d. h.
E (X| Y = y) = E (X) (P ∗ Y )-fast sicher.
Insbesondere gilt in diesem Fall
P (X ∈ B | Y = y) = E 1{X∈B} = P (X ∈ B) (P ∗ Y )-fast sicher.
Damit ist Teil (i) des folgenden Resultats bewiesen.
Lemma 2.1.11. Seien X und Y zwei Zufallsvariablen auf dem Wahrscheinlichkeitsraum
(Ω, A, P ) mit E (|X|) < ∞. Dann gilt:
(i) Falls X und Y unabhängig sind, folgt E (X| Y = y) = E (X) (P ∗ Y )-fast sicher
und P (X ∈ B | Y = y) = P (X ∈ B) (P ∗ Y )-fast sicher für alle y ∈ R.
(ii) Für beliebiges A ∈ A ist P (A ∩ {Y ∈ B}) =
R
B
P (A | Y = y) (P ∗ Y )(dy).
Beweis. Es bleibt Teil (ii) zu zeigen. Da nach Voraussetzung 1A integrierbar ist, existiert
P (A | Y = y) und ist (P ∗ Y )-fast sicher eindeutig bestimmt. Es folgt mit B ∈ B,
Satz 2.1.8 und Definition 2.1.10
Z
Z
P (A ∩ {Y ∈ B}) = E (1A 1{Y ∈B} ) =
1A dP =
P (A | Y = y) (P ∗ Y )(dy).
{Y ∈B}
B
2.2 Univariate Extremwerttheorie
13
2.2 Univariate Extremwerttheorie
Nachdem im vorangegangenen Abschnitt einige technische Grundlagen geklärt wurden,
beginnt jetzt die Herleitung des multivariaten Piecing-Together Ansatzes, der in Kapitel 4 vorgestellt wird. Dazu ist es aber nötig, sich fundierte Kenntnisse der multivariaten
Extremwerttheorie zu verschaffen. Um diese möglichst anschaulich herzuleiten, geht dieser Abschnitt zunächst auf einige wichtige Ergebnisse der Extremwerttheorie in einer
Dimension ein.
Betrachtet werden die Zufallsvariablen X1 , X2 , X3 , . . . , die als unabhängig und identisch verteilt (i. i. d.) vorausgesetzt sind und die der Verteilungsfunktion F folgen. Mn
bzw. mn sind definiert als die größte bzw. die kleinste Beobachtung der ersten n Zufallsvariablen, d. h.
Mn := max{X1 , . . . , Xn }
und
mn := min{X1 , . . . , Xn }.
Die folgenden Überlegungen beschränken sich auf Aussagen über das Maximum Mn , wie
es auch in der Literatur üblich ist (siehe z. B. Leadbetter et al. (1983), S. 3). Wegen der
Gleichung
min{X1 , . . . , Xn } = − max{−X1 , . . . , −Xn }
erhält man bei Bedarf entsprechende Aussagen über das Minimum mn , indem man die
ursprünglichen Werte mit −1 multipliziert und dann das Maximum betrachtet.
Ein Analogon zum Zentralen Grenzwertsatz
Nun beschäftigen wir uns mit der asymptotischen Verteilung von Mn für n → ∞. Da
Mn die Verteilungsfunktion
P (Mn ≤ x) = P max{X1 , . . . , Xn } ≤ x = P X1 ≤ x, . . . , Xn ≤ x
= P (X1 ≤ x) · · · P (Xn ≤ x) = F n (x)
(2.6)
hat, erkennt man sofort P (Mn ≤ x) → 0, falls F (x) < 1, und P (Mn ≤ x) → 1 sonst.
D. h.
P (Mn ≤ x) →n→∞ 1[ω(F ),∞) (x),
x ∈ R,
(2.7)
wobei ω(F ) := sup{x ∈ R | F (x) < 1} ∈ R∪{∞} den rechten Endpunkt der Verteilungsfunktion F bezeichnet. Mn besitzt also eine entartete Grenzverteilung. Man beachte, dass
1[ω(F ),∞) im Fall ω(F ) = ∞ keine Verteilungsfunktion ist, da dann 1[ω(F ),∞) (x) = 1∅ (x) =
0 für alle x ∈ R gilt.
2.2 Univariate Extremwerttheorie
14
Aus dem Grenzwert (2.7) lassen sich keine weiteren Informationen über Mn gewinnen, da mit F auch der rechte Endpunkt von F a priori bekannt ist.3 Der Zentrale
Grenzwertsatz motiviert eine leicht modifizierte Herangehensweise: Er sagt aus, dass das
P
arithmetische Mittel X̄n := n1 ni=1 Xi von quadratintegrierbaren i. i. d. Zufallsvariablen
annähernd standardnormalverteilt ist, wenn man es zuvor geeignet normiert:
P
X̄n − µ
√σ
n
!
≤x
→n→∞ Φ(x),
x ∈ R,
(2.8)
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. µ := E (X1 ) und
p
σ := Var (X1 ) sind als Erwartungswert bzw. Standardabweichung von X1 definiert.
Um zu einer ähnlichen Aussage für das Maximum von i. i. d. Zufallsvariablen zu gelangen, normieren wir Mn mit gewissen Zahlen an > 0 und bn ∈ R. Das ergibt
Mn − bn
≤x
P
an
= P (Mn ≤ an x + bn ) = F n (an x + bn ).
(2.9)
Wenn man n immer größer werden lässt, gehen immer mehr Beobachtungen in die
Berechnung des Maximums ein, d. h. Mn wächst monoton in n. Wie die Notation in
Gleichung (2.9) nahe legt, werden sich aber gleichzeitig die Werte der Normierungskonstanten an und bn ändern.4 Wie sie sich genau verändern, wird an dieser Stelle jedoch
offen gelassen. Betrachten wir zum Vergleich noch einmal den Zentralen Grenzwertsatz
√
in Gleichung (2.8), dann sieht man, dass an = σ n monoton fällt, während bn = µ
konstant bleibt.
Bildet man den Grenzwert n → ∞, dann wird F n (an x + bn ) unter bestimmten Voraussetzungen gegen eine Verteilungsfunktion G(x) konvergieren:
F n (an x + bn ) →n→∞ G(x).5
Nun stellt sich die Frage, welche Verteilungsfunktionen G als Grenzwert auftreten können. Das zentrale Ergebnis der Extremwerttheorie ist, dass hierfür nur drei verschiedene
Typen von Verteilungsfunktionen in Frage kommen, siehe z. B. Embrechts et al. (1997,
Theorem 3.2.3) oder Resnick (2008, Proposition 0.3):
Es ergibt sich lediglich die naheliegende Folgerung, dass sich Mn für n → ∞ mit Wahrscheinlichkeit
1 dem rechten Endpunkt von F annähert.
4
Auf den ersten Blick scheint es widersprüchlich, bei an und bn von Normierungskonstanten zu sprechen, obwohl sich diese Werte mit wachsendem n verändern. Warum das dennoch üblich ist, wird
beim folgenden Grenzübergang n → ∞ deutlich.
5
Hier wird es klarer, warum man an und bn Konstanten nennt: Bei diesem Grenzübergang wird unabhängig von der Stelle x mit dem gleichen an und dem gleichen bn normiert.
3
2.2 Univariate Extremwerttheorie
15
Satz 2.2.1 (Fisher-Tippett Theorem). Sei F eine Verteilungsfunktion. Falls es Normierungskonstanten an > 0, bn ∈ R, n ∈ N, und eine nicht-entartete Verteilungsfunktion G
gibt, so dass
F n (an x + bn ) →n→∞ G(x), 6
x ∈ R,
(2.10)
dann gehört G zu einem der folgenden Verteilungstypen:
Fréchet:
Weibull:
Gumbel:

0,
falls x ≤ 0,
exp −x−α , falls x > 0,

exp −(−x)α , falls x ≤ 0,
Ψα (x) =
1,
falls x > 0,
Λ(x) = exp −e−x , x ∈ R.
Φα (x) =
für ein α > 0,
für ein α > 0,
In Satz 2.2.1 sprechen wir von Verteilungstypen, da auch zusätzliche Lokations- und
Skalenparameter zugelassen sind: Hat man entsprechende an und bn gefunden, so dass
(2.10) gilt, dann folgt
Mn − bn − νβ −1 an
n
−1
−1
P
≤ x = F β an x + bn − νβ an
β −1 an
x−ν
x−ν
n
= F an
+ bn →n→∞ G
β
β
(2.11)
für ν ∈ R und β > 0. Das ist ein Spezialfall des Theorems von Khintchine, siehe z. B.
Leadbetter et al. (1983, Theorem 1.2.3) oder Resnick (2008, Proposition 0.2). Es besagt
u. a., dass der Verteilungstyp von G in (2.10) eindeutig bestimmt ist, d. h. für gegebenes
F ist jede nicht-entartete Verteilungsfunktion G, die als Grenzwert in (2.10) auftreten
kann, vom gleichen Typ.
Definition 2.2.2. G sei eine der Verteilungsfunktionen Φα , Ψα oder Λ aus Satz 2.2.1.
Dann heißt G eine (Standard-) Extremwertverteilung (EVD). Mit ν ∈ R und β > 0
nennen wir auch G (x − ν) β , x ∈ R, eine Extremwertverteilung (EVD). Gilt
F n (an x + bn ) →n→∞ G(x),
x ∈ R,
für eine Verteilungsfunktion F und geeignete Normierungskonstanten an > 0, bn ∈ R,
dann sagen wir, dass F im Anziehungsbereich von G liegt und schreiben F ∈ D(G). Eine
Zufallsvariable heißt extremwertverteilt, falls ihre Verteilungsfunktion eine Extremwert6
Genau genommen gilt diese Konvergenz zunächst nur für alle Stetigkeitsstellen von G. Da aber alle
Verteilungsfunktionen, die als Grenzwert in Frage kommen, stetig sind, gilt (2.10) für alle x ∈ R.
2.2 Univariate Extremwerttheorie
16
1.0
verteilung ist.
0.0
0.2
0.4
0.6
0.8
Dichte von Φ1
Dichte von Ψ1
Dichte von Λ
−4
−2
0
2
4
Abbildung 2.2: Dichten der Standard-EVDs mit Parameter α = 1
Gleichung (2.11) macht deutlich, dass F genau dann im Anziehungsbereich von G (x−
ν) β liegt, wenn F ∈ D(G) gilt. Also genügt es für theoretische Überlegungen, die
Standard-Extremwertverteilungen zu betrachten.
Es folgen einige Beispiele, deren Herleitungen in Embrechts et al. (1997), S. 145ff
und S. 117f zu finden sind. Eine Untersuchung der verschiedenen Anziehungsbereiche
und weitere Beispiele sind u. a. in Leadbetter et al. (1983, Abschnitt 1.6 und 1.7) und
Embrechts et al. (1997, Abschnitt 3.3) aufgeführt.
Beispiel 2.2.3. (i) Wie zuvor sei Φ die Verteilungsfunktion der Standardnormalver−1/2 (1)
(1)
(1)
teilung. Die Normierungskonstanten an = 2 ln(n)
, bn = an 2 ln(n) −
(1)
(1) 1
ln(ln(n)) − 12 ln(4π) liefern die Konvergenz Φn an x + bn →n→∞ Λ(x).
2
(ii) Die Zufallsvariablen Y1 , Y2 , Y3 , . . . seien unabhängig und standardnormalverteilt.
Betrachtet werden Xi := exp(σYi + µ), i = 1, 2, 3, . . . , mit µ ∈ R, σ > 0. Dann
sind die Xi lognormalverteilt mit den Parametern µ und σ 2 und es gilt
lim P
n→∞
(2)
Mn − bn
(2)
an
≤x
= Λ(x),
(2)
(1)
(1)
(2)
(1)
wobei an = σan exp σbn + µ und bn = exp σbn + µ .
(iii) Die Poisson-Verteilung P (X = k) = e−λ λk k!, k ∈ N0 , mit Parameter λ > 0 liegt
nicht im Anziehungsbereich einer Extremwertverteilung. D. h. für jede Wahl von
2.2 Univariate Extremwerttheorie
17
0.4
0.6
0.8
1.0
Normierungskonstanten an > 0 und bn ∈ R, für die der Grenzwert limn→∞ P (Mn ≤
an x + bn ) existiert, ist dieser entweder gleich 0 oder gleich 1.
0.0
0.2
Gumbel
M5
M50
−2
0
2
4
6
Abbildung 2.3: Verteilungsfunktionen der Gumbel-Verteilung und des
normierten Maximums aus n = 5 und n = 50 unabhängigen standardnormalverteilten Zufallsvariablen
Charakterisierung von Extremwertverteilungen
Eine Eigenschaft von Extremwertverteilungen, die auch im multivariaten Kontext eine Rolle spielt, ist die Max-Stabilität (vgl. auch Leadbetter et al. (1983), S. 8f, oder
Embrechts et al. (1997), Definition 3.2.1):
Definition 2.2.4. Eine nicht-entartete Verteilungsfunktion G heißt max-stabil, falls es
Normierungskonstanten an > 0, bn ∈ R gibt, so dass Gn (an x + bn ) = G(x), x ∈ R, für
alle n ∈ N. Eine Zufallsvariable nennt man max-stabil, wenn ihre Verteilungsfunktion
max-stabil ist.
In dieser Definition wurden mit Bedacht die gleichen Notationen wie zuvor verwendet. Beispielsweise in Leadbetter et al. (1983, Theorem 1.4.1) wird bewiesen, dass jede
Extremwertverteilung max-stabil ist. Umgekehrt ist auch jede max-stabile Verteilungsfunktion eine Extremwertverteilung.
Wie bereits in Gleichung (2.9) gezeigt wurde, ist Gn (an x + bn ) die Verteilungsfunktion
der (normierten) größten Beobachtung der X1 , . . . , Xn , sofern diese Zufallsvariablen unabhängig und identisch nach G verteilt sind. Anschaulich bedeutet Max-Stabilität also,
2.2 Univariate Extremwerttheorie
18
dass das geeignet normierte Maximum von n unabhängigen zufälligen Werten die gleiche
Verteilungsfunktion besitzt wie die ursprünglichen Beobachtungen.
Im Abschnitt Ein Analogon zum Zentralen Grenzwertsatz wurde hergeleitet, dass nur
die drei Verteilungstypen Φα , Ψα und Λ als Grenzwert in (2.10) in Frage kommen. Es
wurde aber – mit Ausnahme von Λ – nicht gesagt, dass auch alle diese Typen tatsächlich
als Grenzwert auftreten. Diese Lücke wird nun geschlossen: Da jede Extremwertverteilung G max-stabil ist, folgt aus Definition 2.2.4 sofort G ∈ D(G). Eine Extremwertverteilung liegt also in ihrem eigenen Anziehungsbereich. Die entsprechenden Normierungskonstanten lassen sich leicht angeben:
an
bn
Φα
n1/α
0
Ψα
n−1/α
0
Λ
1
log(n)
Tabelle 2.1: Normierungskonstanten für die Standard-EVDs
Verallgemeinerte Pareto-Verteilungen
Die drei Verteilungstypen Φα , Ψα und Λ aus Satz 2.2.1 scheinen auf den ersten Blick
keine Gemeinsamkeiten zu haben. Tatsächlich werden sie aber durch die von MisesParametrisierung zusammengeführt:

exp −(1 + ξx)−1/ξ , ξ 6= 0,
Gξ (x) :=
exp −e−x ,
ξ = 0,
wobei 1 + ξx > 0. Man bezeichnet diese Darstellung auch als verallgemeinerte Extremwertverteilung (GEV). Da sich limξ→0 Gξ = Λ zeigen lässt (vgl. auch Abbildung 2.4),
wird oft kurz
Gξ (x) = exp −(1 + ξx)−1/ξ ,
1 + ξx > 0,
(2.12)
für ξ ∈ R geschrieben. Wie zuvor definiert Gξ einen Verteilungstyp, der noch um
Lokations- und Skalenparameter ergänzt werden kann: Mit ν ∈ R und β > 0 nennen
auch wir auch
−1/ξ !
x−ν
x−ν
x−ν
= exp − 1 + ξ
, 1+ξ
> 0,
(2.13)
Gξ;ν,β (x) := Gξ
β
β
β
2.2 Univariate Extremwerttheorie
19
eine verallgemeinerte Extremwertverteilung (GEV). Dabei handelt es sich tatsächlich nur
um eine andere Schreibweise von Φα , Ψα und Λ, wie G0 (x) = Λ(x), x ∈ R, und
−α !
1x−1
G1/α;1,1/α (x) = exp − 1 +
= exp −x−α = Φα (x),
α 1/α
α !
1x+1
G−1/α;−1,1/α (x) = exp − 1 −
= exp −(−x)α = Ψα (x),
α 1/α
x > 0,
x < 0,
0.4
für α > 0 zeigen. Ist ξ > 0, erhält man also eine Fréchet-Verteilung, ξ < 0 entspricht
einer Weibull-Verteilung und G0 ist die Gumbel-Verteilung.
0.0
0.1
0.2
0.3
Gumbel
ξ = −0.1
ξ = +0.1
−2
0
2
4
6
Abbildung 2.4: Gumbel-Approximation für ξ nahe Null: Die Dichte von
Λ = G0 im Vergleich mit den Dichten von Gξ für ξ = −0.1 und
ξ = +0.1
Der Vorteil der gemeinsamen Darstellung (2.12) bzw. (2.13) liegt darin, dass sie einheitliche Schätzmethoden für die Parameter einer Extremwertverteilung ermöglicht. Insbesondere der Parameter ξ – und damit der Verteilungstyp – kann aus vorhandenem
Datenmaterial geschätzt werden. Details dazu findet man in Kapitel 6 von Embrechts
et al. (1997).
Besondere Bedeutung kommt den verallgemeinerten Pareto-Verteilungen (GPD) zu,
die definiert werden als
Wξ;ν,β (x) := 1 + log Gξ;ν,β (x) ,
1/e ≤ Gξ;ν,β (x).
(2.14)
In Analogie zum Vorangegangenen setzt man Wξ := Wξ;0,1 und erhält die drei Vertei-
2.2 Univariate Extremwerttheorie
20
lungstypen
W1/α;1,1/α (x) =

0,
falls x ≤ 1,
für ein α > 0,
1 − x−α , falls x > 1,



0,
falls x ≤ −1,


W−1/α;−1,1/α (x) = 1 − (−x)α , falls − 1 < x ≤ 0,



1,
falls x > 0,

0,
falls x ≤ 0,
W0 (x) =
1 − e−x , falls x > 0,
für ein α > 0,
1.0
die man auch Standard-GPDs nennt. Dabei handelt es sich um eine Pareto-, eine Betabzw. eine Exponentialverteilung. Zu beachten ist, dass W−1/α;−1,1/α im Fall α = 1 mit
der Gleichverteilung auf (−1, 0) übereinstimmt. Diese Eigenschaft wird in Kapitel 4 eine
wichtige Rolle spielen.
0.0
0.2
0.4
0.6
0.8
Pareto
Beta
Exponential
−2
−1
0
1
2
3
4
5
Abbildung 2.5: Dichten der Standard-GPDs mit Parameter α = 1
Die verallgemeinerten Pareto-Verteilungen eignen sich besonders dazu, um Überschreitungen über hohe Schwellenwerte zu modellieren. Das bedeutet, wir wählen eine hohe
Zahl u und sind an der Verteilung einer Zufallsvariablen X interessiert, wenn die Bedingung X > u erfüllt ist. Für die weiteren Überlegungen wird mit F die unbedingte
Verteilungsfunktion von X bezeichnet. Wir setzen 0 < P (X ≤ u) < 1 voraus und
betrachten
Fu (x) := P (X − u ≤ x | X > u).
2.2 Univariate Extremwerttheorie
21
Letzteres ist die Verteilungsfunktion der Überschreitungen X − u, wenn bekannt ist,
dass die Realisation von X größer sein wird als der Schwellenwert u. Dann lässt sich F
darstellen als
F (x) = P (X ≤ x, X ≤ u) + P (X ≤ x, X > u)
= P (X ≤ x, X ≤ u) + P (X > u)P (X ≤ x | X > u)
= P (X ≤ x, X ≤ u) + 1 − F (u) Fu (x − u)

F (x),
x ≤ u,
=
F (u) + 1 − F (u) F (x − u), x > u,
u
Aus Theorem 3.4.13 (b) in Embrechts et al. (1997) folgt, dass sich Fu für großes u gut
durch eine GPD Wξ;0,β(u) annähern lässt, falls F im Anziehungsbereich von Gξ liegt.7
Dabei hängt der Skalenparameter β = β(u) von u ab. Das ergibt die Approximation
F (x) ≈ F (u) + 1 − F (u) Wξ;u,β(u) (x),
x > u,
(2.15)
die wir den Piecing-Together Ansatz der univariaten Extremwerttheorie nennen. Für
Details zur Parameterschätzung sei nochmals auf Embrechts et al. (1997, Kapitel 6)
hingewiesen. Mit β̃ := β(u) 1 + ξWξ−1 F (u) und ν̃ := u − β̃Wξ−1 F (u) erhält man
wegen β̃ − β(u) = −ξ β̃Wξ−1 F (u)
F (x) ≈ 1 − 1 − F (u) + 1 − F (u) Wξ;u,β(u) (x)
= 1 − 1 − Wξ Wξ−1 F (u)
1 − Wξ;u,β(u) (x)
−1/ξ
h
i−1/ξ
x−u
−1
= 1 − 1 + ξWξ F (u)
1+ξ
β(u)
−1/ξ
β(u) + ξ(x − u)
=1−
β̃
"
#−1/ξ
x − u − ξ −1 β̃ − β(u)
=1− 1+ξ
β̃
= Wξ;ν̃,β̃ (x),
u < x < ω Wξ;u,β(u) ,
(2.16)
falls ξ 6= 0, und ebenso F (x) ≈ W0;ν̃,β̃ (x) für x > u, falls ξ = 0 (vgl. auch Abschnitt 1.4 in
Reiss und Thomas (2007)). In (2.15) wird also der rechte Rand der Verteilungsfunktion
F durch eine geeignet gewählte GPD ersetzt.
Der Piecing-Together Ansatz hat eine besondere Bedeutung für die Praxis: Gehen wir
7
Dieses Ergebnis geht auf Balkema und de Haan (1974) und Pickands (1975) zurück.
2.3 Copulas
22
von der Situation aus, dass n unabhängige Realisationen x1 , . . . , xn der Zufallsvariablen
X vorliegen und die Anpassung einer Verteilung (beispielsweise einer Normalverteilung)
an zu vielen großen Werten scheitert. Dann kann man einen Schwellenwert u festlegen
und die Verteilung der Datenpunkte oberhalb von u durch eine GPD approximieren.
Dadurch wird oft eine bessere Anpassung an die Beobachtungen erzielt. Diesen Ansatz
machen sich z. B. auch Di Clemente und Romano (2004) in ihrer Arbeit zunutze.
Eine konkrete Anwendung kommt aus der Welt der Versicherungen: Sie werden z. B.
daran interessiert sein, mit welchen Wahrscheinlichkeiten besonders hohe Schadensmeldungen bei ihnen eintreffen. Soll die Wahrscheinlichkeit modelliert werden, dass die
Gesamtschadenssumme X in einem Jahr einen bestimmten Wert x0 übersteigt, kann
dies auf der Basis von Gleichung (2.15) geschehen. Dazu betrachtet man die Gesamtschadenssummen vergangener Jahre und passt eine GPD an diese Daten an. Damit lässt
sich eine Näherung für die Wahrscheinlichkeit P (X > x0 ) berechnen, selbst wenn alle
zugrunde liegenden Daten kleiner als x0 sind.
2.3 Copulas
Im vorherigen Abschnitt wurde die Verteilung großer (eindimensionaler) Beobachtungen untersucht. Das Ziel dieser Arbeit ist aber, den Piecing-Together Ansatz in (2.15)
auf die multivariate Extremwerttheorie zu verallgemeinern, wo es um die Beschreibung
großer Zufallsvektoren X = (X1 , . . . , Xm ) geht.8 Da die einzelnen Komponenten von
X abhängig voneinander sein können, wird zunächst ein tragfähiges Konzept zur Beschreibung von Abhängigkeiten zwischen Zufallsvariablen benötigt. Dazu führen wir den
Begriff der Copula ein:
Definition 2.3.1. Eine Copula C auf [0, 1]m ist eine m-dimensionale Verteilungsfunktion, so dass jede Randverteilung Ci , i = 1, . . . , m, die Gleichverteilung auf (0, 1) ist, d. h.
Ci (u) = u für u ∈ (0, 1).
Zur Veranschaulichung werden zwei einfache Beispiele von Copulas aufgeführt. Ihre
Bedeutung wird in Satz 2.3.4 geklärt.
Beispiel 2.3.2. (i) Durch Π(u1 , u2 , . . . , um ) := u1 u2 · · · um mit ui ∈ (0, 1) für i =
1, . . . , m wird eine Copula definiert, die Unabhängigkeitscopula genannt wird.
(ii) Auch M (u1 , u2 , . . . , um ) := min{u1 , u2 , . . . , um }, ui ∈ (0, 1), ist eine Copula. Sie
beschreibt den Fall der totalen (stochastischen) Abhängigkeit.
8
Was man in der Extremwerttheorie unter einem großen“ Vektor versteht, wird in Kapitel 3 geklärt.
”
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
23
1.0
2.3 Copulas
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 2.6: 104 Zufallsvektoren aus der Copula Π (links) und aus
der Copula M (rechts)
Das Theorem von Sklar (siehe z. B. Nelsen (2006), Theorem 2.10.9) zeigt, dass jede
m-dimensionale Verteilungsfunktion in ihre Randverteilungen und ihre Copula zerlegt
werden kann:
Satz 2.3.3 (Theorem von Sklar). Sei F eine m-dimensionale Verteilungsfunktion mit
Randverteilungen F1 , . . . , Fm . Dann gibt es eine Copula C auf [0, 1]m , so dass für alle
x = (x1 , . . . , xm ) ∈ Rm
F (x) = C F1 (x1 ), . . . , Fm (xm )
(2.17)
gilt. Falls alle Randverteilungen stetig sind, ist diese Copula eindeutig bestimmt; andern
falls ist C eindeutig auf Im(F1 ) × · · · × Im(Fm ) mit Im(Fi ) := Fi (x) ∈ [0, 1] x ∈ R ,
i = 1, . . . , m.
Wenn umgekehrt eine Copula C auf [0, 1]m und (eindimensionale) Verteilungsfunktionen F1 , . . . , Fm gegeben sind, dann wird durch Gleichung (2.17) eine m-dimensionale
Verteilungsfunktion F mit Randverteilungen F1 , . . . , Fm definiert.
Auch wenn eine Copula, die (2.17) erfüllt, i. A. nur auf einer Teilmenge von [0, 1]m
eindeutig bestimmt ist, nennen wir sie im Folgenden die Copula von F und bezeichnen
sie mit CF . Das ist der Tatsache geschuldet, dass bei der Berechnung des Wertes F (x)
gemäß (2.17) nur Werte aus der Menge Im(F1 ) × · · · × Im(Fm ) in die Copula eingesetzt
werden.
Eine direkte Folgerung aus Satz 2.3.3 ist, dass die Copula einer Verteilungsfunktion
F berechnet werden kann als
CF (u) = F F1−1 (u1 ), . . . , Fm−1 (um )
(2.18)
2.3 Copulas
24
mit u = (u1 , . . . , um ) ∈ (0, 1)m , vgl. Nelsen (2006, Corollary 2.10.10). Dabei ist zu beachten, dass Fi−1 i. A. nicht die Umkehrfunktion von Fi ist, sondern die Quantilfunktion
Fi−1 (ui ) = inf x ∈ R Fi (x) ≥ ui .
0.0
0.2
0.4
0.6
0.8
1.0
Auf die Eigenschaften von Quantilfunktionen soll hier nicht näher eingegangen werden.9
Es handelt sich um eine Art verallgemeinerte Umkehrfunktion für monoton wachsende
Funktionen. Falls Fi streng monoton steigt, dann stimmt die Quantilfunktion mit der
Umkehrfunktion überein.
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 2.7: 104 Zufallsvektoren aus einer Copula, die auf einer bivariaten Normalverteilung mit Korrelationskoeffizient 0.73 basiert.
An Gleichung (2.18) wird deutlich, dass Copulas eine Art Normierung von m-dimensionalen Verteilungsfunktionen sind. Das geschieht dadurch, dass die Randverteilungen gewissermaßen neutralisiert werden und nur eine Funktion übrig bleibt, die die
Abhängigkeitsstruktur beschreibt. Dass Copulas tatsächlich die Abhängigkeiten zwischen den Komponenten eines Zufallsvektors abbilden, wird durch das folgende Resultat
gerechtfertigt (siehe Nelsen (2006), Theorem 2.10.14):
Satz 2.3.4. (X1 , . . . , Xm ) sei ein Zufallsvektor mit Verteilungsfunktion F , deren Randverteilungen stetig sind. Dann gilt:
(i) X1 , . . . , Xm sind genau dann unabhängig, wenn F die Copula Π hat.
(ii) F hat genau dann die Copula M , wenn Xi für alle i = 1, . . . , m und alle j ∈
{1, . . . , m} \ {i} fast sicher (d. h. mit Wahrscheinlichkeit 1) eine streng monoton
steigende Funktion von Xj ist.
9
Siehe dazu beispielsweise S. 6 in Leadbetter et al. (1983) und S. 32 in Falk et al. (2002)
2.3 Copulas
25
Da das Theorem von Sklar (Satz 2.3.3) Verteilungsfunktionen mit stetigen Randverteilungen besonders hervorhebt, soll kurz auf eine wichtige Eigenschaft solcher Verteilungsfunktionen eingegangen werden:
Lemma 2.3.5. Eine Verteilungsfunktion F ist genau dann stetig, wenn alle ihre Randverteilungen F1 , . . . , Fm stetig sind. Insbesondere ist jede Copula stetig.
Beweis. Aus der Stetigkeit von F folgt offensichtlich sofort die Stetigkeit von F1 , . . . , Fm .
Seien nun die Randverteilungen als stetig vorausgesetzt. Da F eine Verteilungsfunktion
ist, existiert ein Zufallsvektor X = (X1 , . . . , Xm ), der nach F verteilt ist. Aus der absteigenden Stetigkeit eines Wahrscheinlichkeitsmaßes10 folgt daher für x = (x1 , . . . , xm ) ∈ R
und ε = (ε1 , . . . , εm ) > (0, . . . , 0) =: 0
F (x + ε) = (P ∗ X) (−∞, x1 + ε1 ] × · · · × (−∞, xm + εm ]
→ε↓0 (P ∗ X) (−∞, x1 ] × · · · × (−∞, xm ] = F (x),
d. h. F ist rechtsseitig stetig. Die linksseitige Stetigkeit folgt andererseits aus der linksseitigen Stetigkeit von F1 , . . . , Fm :
!
F (x) − F (x − ε) = P
\
i≤m
{Xi ≤ xi }
\
{Xj ≤ xj − εj }
j≤m
!
=P
\
{Xi ≤ xi }
i≤m
!!
∩
[
{Xj > xj − εj }
j≤m
!!
=P
[
j≤m
≤P
≤
=
X
j≤m
X
j≤m
[
j≤m
{Xj > xj − εj } ∩
\
{Xi ≤ xi }
i≤m
{Xj > xj − εj } ∩ {Xj ≤ xj }
P xj − εj < Xj ≤ xj
!
Fj (xj ) − Fj (xj − εj ) →ε↓0 0,
wobei sich die beiden Abschätzungen aus der Monotonie bzw. der Sub-Additivität11
eines Wahrscheinlichkeitsmaßes ergeben.
Die Stetigkeit einer Copula folgt nun aus Definition 2.3.1: Jede Randverteilung einer
Copula ist die Gleichverteilung auf (0, 1) und damit stetig.
Siehe hierzu Bauer (1992, Satz 3.2 (c)) und beachte, dass ein Wahrscheinlichkeitsmaß P ein Prämaß
ist, das auf einer σ-Algebra über einer Menge Ω definiert ist und die Eigenschaft P (Ω) = 1 hat.
11
Siehe Gleichung (3.8) in Bauer (1992) und Fußnote 10, da jedes Prämaß auch ein Inhalt ist.
10
2.3 Copulas
26
Abschließend betrachten wir den Einfluss von streng monotonen Transformationen
auf die Copula (vgl. auch Theorem 2.4.3 in Nelsen (2006)):
Satz 2.3.6. Sei (X1 , . . . , Xm ) ein Zufallsvektor mit Verteilungsfunktion F und stetigen
Randverteilungen. Wenn H die Verteilungsfunktion von h1 (X1 ), . . . , hm (Xm ) ist, wobei
die Funktionen hi : R → R, i = 1, . . . , m, streng monoton steigen, dann gilt CH = CF .
Beweis. Da h1 , . . . , hm streng monoton steigend sind, existieren die Umkehrfunktio−1
nen h−1
1 , . . . , hm und diese steigen ebenfalls streng monoton. H hat demnach die i-te
−1
Randverteilung Hi (x) = P hi (Xi ) ≤ x = P Xi ≤ h−1
i (x) = Fi hi (x) , x ∈ R,
i = 1, . . . , m. Es folgt nach (2.17) für alle (x1 , . . . , xm ) ∈ Rm
CH H1 (x1 ), . . . , Hm (xm ) = P h1 (X1 ) ≤ x1 , . . . , hm (Xm ) ≤ xm
−1
= P X1 ≤ h−1
1 (x1 ), . . . , Xm ≤ hm (xm )
−1
(x
)
= CF F1 h−1
(x
)
,
.
.
.
,
F
h
m
1
m
m
1
= CF H1 (x1 ), . . . , Hm (xm ) .
Nach dem Theorem von Sklar (Satz 2.3.3) ist also CH = CF auf der Menge Im(H1 ) ×
· · · × Im(Hm ).
Nun wird gezeigt, dass CH = CF sogar auf ganz Rm gilt. Seien dazu y ∈ (0, 1) und i ∈
{1, . . . , m} gegeben. Da die Randverteilungen von F univariate Verteilungsfunktionen
sind, gilt
lim Fi (x) = 0 sowie lim Fi (x) = 1.
x↓−∞
x↑∞
Sie sind außerdem als stetig vorausgesetzt, d. h. der Zwischenwertsatz von Bolzano (siehe
z. B. Köhler (2006), Satz 10.7) zeigt x ∈ R Fi (x) = y 6= ∅. Wegen der Monotonie und
der rechtsseitigen Stetigkeit der Randverteilungen von F folgt für x̃i := hi Fi−1 (y) ∈ R
Hi (x̃i ) = Fi inf x ∈ R Fi (x) ≥ y = Fi inf x ∈ R Fi (x) = y = y.
Insgesamt ist damit Im(Hi ) ⊃ (0, 1), i = 1, . . . , m, bewiesen, d. h. CH = CF auf (0, 1)m .
Laut Lemma 2.3.5 und Definition 2.3.1 folgt daraus CH = CF zunächst auf [0, 1]m und
schließlich auf ganz Rm .
Aus Satz 2.3.6 folgt sofort, dass die beiden Verteilungsfunktionen F (x), x ∈ R, und
F (x − µ) σ , x ∈ R, mit µ ∈ R und σ > 0 die gleiche Copula haben. Lokationsund Skalenparameter beeinflussen also nicht die Abhängigkeitsstruktur zwischen den
Komponenten eines Zufallsvektors. Demnach ist die Copula, die Abbildung 2.7 zugrunde
2.3 Copulas
27
liegt, eindeutig bestimmt. Man nennt sie die bivariate Normal-Copula mit Parameter
% = 0.73.
3.1 Die Verteilung des m-dimensionalen Maximums
28
3 Multivariate Extremwerttheorie
In den beiden Abschnitten 2.2 und 2.3 wurde der Grundstein für die Extremwerttheorie im Mehrdimensionalen gelegt. Zunächst wurde gezeigt, wie die größte Beobachtung
unter den i. i. d. Zufallsvariablen X1 , X2 , X3 , . . . asymptotisch verteilt ist, nachdem sie
geeignet normiert wurde. Daraus wurde ein Ansatz hergeleitet, wie man eine Verteilung
an besonders große Werte eines Datensatzes anpassen kann. Als große Werte bezeichneten wir dabei Beobachtungen, die einen fest gewählten Schwellenwert überschreiten. Mit
dem Blick auf eine multivariate Erweiterung wurde anschließend darauf eingegangen,
wie sich Abhängigkeiten zwischen Zufallsvariablen mit Hilfe von Copulas beschreiben
lassen.
Nun sollen diese Ergebnisse miteinander kombiniert werden, um die Verteilung von
großen Zufallsvektoren X = (X1 , . . . , Xm ) anzunähern. Analog zum eindimensionalen
Fall wählen wir einen Schwellenwert u = (u1 , . . . , um ) und nennen X groß, falls gleichzeitig Xj > uj für alle j = 1, . . . , m gilt. Das wird uns in die Lage versetzen, in Kapitel 4
den univariaten Piecing-Together Ansatz aus Gleichung (2.15) auf den multivariaten
Kontext zu erweitern.
Um die Schreibweise möglichst übersichtlich zu gestalten, werden alle Rechenoperationen und Ungleichungen zwischen zwei Vektoren x und y komponentenweise aufgefasst.
Das gilt auch für die Anwendung einer univariaten Funktion auf einen Vektor x, d. h.
x+y
=
(x1 + y1 , . . . , xm + ym ),
xy
=
(x1 y1 , . . . , xm ym ),
x≤y
exp(x)
⇔ x1 ≤ y1 , . . . , xm ≤ ym ,
=
exp(x1 ), . . . , exp(xm )
usw.
3.1 Die Verteilung des m-dimensionalen Maximums
Als erstes wollen wir uns dem Begriff der multivariaten Extremwertverteilung nähern.
Dazu werden die i. i. d. Zufallsvektoren X1 , X2 , X3 , . . . mit Xi = (Xi,1 , . . . , Xi,m ), i ∈ N,
betrachtet. Das Maximum der ersten n dieser Vektoren wird komponentenweise erklärt,
3.1 Die Verteilung des m-dimensionalen Maximums
29
d. h.
Mn := max{X1 , . . . , Xn } := max{X1,1 , . . . , Xn,1 }, . . . , max{X1,m , . . . , Xn,m }
muss im Gegensatz zum univariaten Fall kein tatsächlicher Datenpunkt sein.1
(j)
Bezeichnen wir mit Mn := max{X1,j , . . . , Xn,j } das Maximum in der j-ten Komponente, j = 1, . . . , m, dann gilt
Mn = Mn(1) , . . . , Mn(m) ,
(1)
(m)
wobei Mn , . . . , Mn eindimensionale Maxima sind, wie sie in Abschnitt 2.2 untersucht
wurden. Die Verteilungsfunktion von Mn lässt sich analog zu (2.6) berechnen:
P (Mn ≤ x) = P Mn(1) ≤ x1 , . . . , Mn(m) ≤ xm
=P
X1,1 ≤ x1 , . . . , Xn,1 ≤ x1 ,
..
..
.
.
X1,m ≤ xm , . . . , Xn,m ≤ xm
= P X1 ≤ x, . . . , Xn ≤ x
= F n (x),
wobei F die Verteilungsfunktion von X1 ist und im letzten Schritt die i. i. d.-Eigenschaft
ausgenutzt wurde.
Wir orientieren uns weiter an Abschnitt 2.2 und normieren Mn mit gewissen Vektoren
(1)
(m) (1)
(m) an = an , . . . , an
> 0 und bn = bn , . . . , bn
∈ Rm , wobei 0 := (0, . . . , 0) ∈ Rm ,
und erhalten
Mn − b n
≤ x = F n (an x + bn ).
P
an
Das führt zu einer Verallgemeinerung der Extremwertverteilungen aus Definition 2.2.2.
Definition 3.1.1. Sei F eine (multivariate) Verteilungsfunktion. Wenn es Normierungskonstanten an > 0, bn ∈ Rm für n ∈ N gibt, so dass
F n (an x + bn ) →n→∞ G(x), 2
x ∈ Rm ,
(3.1)
mit einer Verteilungsfunktion G gilt, deren Randverteilungen nicht-entartet sind, dann
heißt G eine (multivariate) Extremwertverteilung (EVD). In diesem Fall liegt F im An1
2
Beispielsweise ist max{(2, 5), (3, 4)} = (3, 5).
Wie im univariaten Fall gilt dieser Grenzübergang zunächst nur für alle Stetigkeitsstellen von G. Am
Anfang von Abschnitt 3.2 wird jedoch gezeigt, dass jede Verteilungsfunktion, die als Grenzwert in
Frage kommt, stetig auf ganz Rm ist.
3.2 Eigenschaften multivariater Extremwertverteilungen
30
ziehungsbereich von G und wir schreiben F ∈ D(G). Ein Zufallsvektor heißt extremwertverteilt, falls seine Verteilungsfunktion eine Extremwertverteilung ist.
Im Vergleich zum eindimensionalen Fall, wo das Fisher-Tippett Theorem (Satz 2.2.1)
Aussagen über die Verteilungstypen der Grenzfunktionen gemacht hat, ist diese Definition sehr abstrakt. Der nächste Abschnitt geht daher auf einige wichtige Eigenschaften
von Extremwertverteilungen ein. Dabei wird sich zeigen, dass sich wesentliche Ergebnisse
aus Abschnitt 2.2 direkt übertragen.
3.2 Eigenschaften multivariater Extremwertverteilungen
Zunächst setzen wir uns etwas genauer mit dem Grenzwert (3.1) auseinander. Da die
Normierungskonstanten an und bn unabhängig von der Stelle x = (x1 , . . . , xm ) sind,
kann man alle Komponenten von x bis auf eine gegen unendlich gehen lassen und erhält
für j = 1, . . . , m
(j)
Fjn a(j)
→n→∞ Gj (x),
x ∈ R,
(3.2)
n x + bn
wobei Fj und Gj die j-te Randverteilung von F bzw. G ist. Da die Randverteilungen
von G als nicht-entartet vorausgesetzt sind, bedeutet das, dass Gj eine univariate Extremwertverteilung vom Typ Φα , Ψα oder Λ ist (vgl. Definition 2.2.2 und Satz 2.2.1).3
Alle Ergebnisse aus Abschnitt 2.2 sind also direkt anwendbar, insbesondere die Anpassung von univariaten verallgemeinerten Pareto-Verteilungen an F1 , . . . , Fm , wie sie in
Gleichung (2.15) beschrieben wurde. Außerdem folgt aus Lemma 2.3.5, dass jede multivariate Extremwertverteilung stetig ist.
Nun verwenden wir zusätzlich die Ergebnisse aus Abschnitt 2.3. Ist CF die Copula der
Verteilungsfunktion F , dann folgt aus dem Theorem von Sklar (Satz 2.3.3)
n
h
a(1)
n x1
(m)
b(1)
n , . . . , a n xm
b(m)
n
in
F (an x + bn ) = F
+
+
h in
(1)
(m)
(m)
x
+
b
,
.
.
.
,
F
a
x
+
b
= CF F1 a(1)
1
m
m
n
n
n
n
h
i
h
1/n
i1/n
n
(m)
(m)
n
n
(1)
(1)
, . . . , F m an x m + b n
.
= CF F1 an x1 + bn
Diese Gleichung legt folgendes Ergebnis nahe, das in Deheuvels (1978, 1984) und Galambos (1987) zu finden ist:
3
Insbesondere sind die Randverteilungen von G stetig und mit Lemma 2.3.5 folgt die Stetigkeit von
G.
3.2 Eigenschaften multivariater Extremwertverteilungen
31
Satz 3.2.1. Eine Verteilungsfunktion F liegt genau dann im Anziehungsbereich einer
Extremwertverteilung G, wenn (3.2) gilt und gleichzeitig
−1
CFn u1/n →n→∞ CG (u) = G G−1
1 (u1 ), . . . , Gm (um ) ,
u ∈ (0, 1)m .
Auf die Interpretation dieses Grenzwerts wird in Abschnitt 4.1 eingegangen. Satz 3.2.1
hat eine wichtige Konsequenz: Bei der Überprüfung, ob eine Verteilungsfunktion im
Anziehungsbereich einer Extremwertverteilung liegt, können die Randverteilungen unabhängig von der Copula untersucht werden. Dabei kommen die Methoden der univariaten Extremwerttheorie zum Einsatz.
In Definition 2.2.4 wurde der Begriff der Max-Stabilität eingeführt. Analog dazu nennen wir eine Verteilungsfunktion G max-stabil, falls ihre Randverteilungen nicht-entartet
sind und es für alle n ∈ N Normierungskonstanten an > 0, bn ∈ Rm gibt, so dass
Gn (an x+bn ) = G(x), x ∈ Rm . Auch die Interpretation dieser Gleichung bleibt dieselbe:
Max-Stabilität bedeutet, dass das geeignet normierte Maximum von n i. i. d. Zufallsvektoren die gleiche Verteilungsfunktion besitzt wie diese Zufallsvektoren. Außerdem zeigt
Resnick (2008) in Proposition 5.9 folgende Aussage:
Satz 3.2.2. Eine Verteilungsfunktion ist genau dann max-stabil, wenn sie eine Extremwertverteilung ist.
Verwendet man die Copulas Π und M aus Beispiel 2.3.2, dann lassen sich mit diesem
Ergebnis Beispiele für multivariate Extremwertverteilungen angeben: Sind G1 , . . . , Gm
univariate Extremwertverteilungen, d. h. jeweils vom Typ Φα , Ψα oder Λ, dann gilt für
j = 1, . . . , m nach Abschnitt 2.2
(j)
Gnj a(j)
= Gj (xj ),
n x j + bn
(j)
xj ∈ R,
(j)
mit geeigneten Normierungskonstanten an > 0, bn ∈ R. Aus dem Theorem von Sklar
(Satz 2.3.3) folgt, dass
GΠ (x) := Π G1 (x1 ), . . . , Gm (xm )
und GM (x) := M G1 (x1 ), . . . , Gm (xm ) ,
x = (x1 . . . , xm ) ∈ Rm , Verteilungsfunktionen mit nicht-entarteten Randverteilungen
3.2 Eigenschaften multivariater Extremwertverteilungen
(1)
(m) sind. Mit an = an , . . . , an
GnM (an x
(1)
(m) und bn = bn , . . . , bn
32
gilt
n
on
(1)
(1)
(m)
(m)
+ bn ) = min G1 an x1 + bn , . . . , Gm an xm + bn
(1)
n
(m)
(m)
= min Gn1 a(1)
n x 1 + b n , . . . , G m an x m + b n
= min G1 (x1 ), . . . , Gm (xm )
= GM (x)
und ebenso GnΠ (an x+bn ) = GΠ (x). Also sind GΠ und GM max-stabil und nach Satz 3.2.2
damit auch Extremwertverteilungen.
Dieses Konstruktionsprinzip lässt sich verallgemeinern:
Satz 3.2.3. Eine Verteilungsfunktion G ist genau dann eine m-variate Extremwertverteilung, wenn alle ihre Randverteilungen max-stabil sind und die Copula von G die
Eigenschaft
(3.3)
CG (u) = CGn u1/n , u ∈ [0, 1]m , n ∈ N,
erfüllt.
Beweis. Für eine max-stabile Verteilungsfunktion H mit H(x) = H n (αn x + βn ) für
x ∈ R, αn > 0 und βn ∈ R, n ∈ N, gilt
αn H −1 (y) + βn = inf αn x + βn ∈ R H(x) ≥ y
= inf x ∈ R H αn−1 (x − βn ) ≥ y
= inf x ∈ R H n (x) ≥ y
= H −1 y 1/n ,
y ∈ (0, 1).
Ist G eine multivariate Extremwertverteilung, dann ist sie max-stabil (Satz 3.2.2)
und ihre Randverteilungen sind gemäß Gleichung (3.2) univariate Extremwertverteilun(1)
(m) > 0 und bn =
gen. Es existieren also Normierungskonstanten an = an , . . . , an
(1)
(m) m
bn , . . . , b n
∈ R , so dass
G(x) = Gn (an x + bn ), x ∈ Rm ,
(j)
und Gj (x) = Gnj a(j)
n x + bn , x ∈ R, j ≤ m.
Da G1 , . . . , Gm stetig sind, ist die Copula von G nach Satz 2.3.3 eindeutig bestimmt und
man erhält
−1
CG (u) = G G−1
1 (u1 ), . . . , Gm (um )
−1
(1)
(m) −1
(m)
= Gn a(1)
n G1 (u1 ) + bn , . . . , an Gm (um ) + bn
3.2 Eigenschaften multivariater Extremwertverteilungen
h
= G
G−1
1
1/n u1 , . . . , G−1
m
= CGn u1/n ,
u1/n
m
33
in
u ∈ (0, 1)m .
Aus der Stetigkeit von CG (Lemma 2.3.5) folgt somit CG (u) = CGn u1/n für alle u ∈
[0, 1]m .
Setzt man andererseits CG (u) = CGn u1/n , u ∈ [0, 1]m , und
(j)
Gj (x) = Gnj a(j)
n x + bn , x ∈ R, j ≤ m
(j)
(j)
für geeignet gewählte an > 0 und bn ∈ R voraus, dann ist
G(x) = CG G1 (x1 ), . . . , Gm (xm )
(m)
(m)
n
(1)
= CG Gn1 a(1)
n x 1 + b n , . . . , G m an x m + b n
h
in
(1)
(m)
(m)
= CG G1 a(1)
x
+
b
,
.
.
.
,
G
a
x
+
b
1
m
m
n
n
n
n
= Gn an x + bn ,
x ∈ Rm ,
(1)
(m) mit an = an , . . . , an
Extremwertverteilung.
(1)
(m) und bn = bn , . . . , bn
. Daher ist G laut Satz 3.2.2 eine
Mit diesem Ergebnis steht uns ein allgemeines Verfahren zur Konstruktion einer multivariaten Extremwertverteilung zur Verfügung. Es basiert zum einen auf der Charakterisierung univariater Extremwertverteilungen und zum anderen auf einer Eigenschaft
für Copulas, die sich direkt aus der Max-Stabilität ableitet. Das liefert den Anlass für
folgende Definition:
Definition 3.2.4. Jede Copula C, die Gleichung (3.3) genügt, heißt eine Extremwertcopula oder auch eine EVD-Copula.
Eine weitere Konsequenz aus Satz 3.2.3 ist, dass man die Ränder einer Extremwertverteilung in eine beliebige Form überführen kann: Ist G eine max-stabile Verteilungsfunktion mit Copula CG und Randverteilungen G1 , . . . , Gm und sind H1 , . . . , Hm weitere
univariate Extremwertverteilungen, dann erhält man
−1
−1
G G1 H1 (x1 ) , . . . , Gm Hm (xm ) = CG H1 (x1 ), . . . , Hm (xm )
=: H(x),
x = (x1 , . . . , xm ) ∈ Rm .
Da CG eine Extremwertcopula ist, handelt es sich bei H um eine max-stabile Funktion
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
34
mit Randverteilungen H1 , . . . , Hm und Copula CG . Offensichtlich erhält man durch
−1
H H1−1 G1 (x1 ) , . . . , Hm
Gm (xm ) = G(x),
x ∈ Rm .
die ursprüngliche Extremwertverteilung zurück. Man darf also o. B. d. A. annehmen, dass
eine Extremwertverteilung die vorher festgelegten Ränder H1 , . . . , Hm besitzt (vgl. auch
Abschnitt 5.4 in Falk et al. (2004)).
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
Als nächstes soll auf eine Erweiterung von den aus Abschnitt 2.2 bekannten verallgemeinerten Pareto-Verteilungen eingegangen werden. Dort war gewährleistet, dass durch
W (x) := 1 + log G(x) für alle x ∈ R mit G(x) ≥ 1/e eine Verteilungsfunktion definiert wird. Im multivariaten Kontext (genauer: für m > 2) liefert diese Definition aber
nicht unbedingt eine Verteilungsfunktion, wie Abschnitt 5.1 in Falk et al. (2004) und
Theorem 2.3.12 in Michel (2006) zeigen.
Definition 3.3.1. Sei G eine multivariate Extremwertverteilung. Dann nennen wir
f (x) := 1 + log G(x) ,
W
1/e ≤ G(x),
eine verallgemeinerte Pareto-Funktion (GP Funktion).
Allerdings sagt Lemma 5.1.3 in Falk et al. (2004) aus, dass jede GP Funktion für
hinreichend große x mit einer Verteilungsfunktion übereinstimmt. Mit diesem Ergebnis
lassen sich multivariate verallgemeinerte Pareto-Verteilungen definieren:
Definition 3.3.2. Sei W eine multivariate Verteilungsfunktion mit Randverteilungen
f eine GP Funktion. Wenn es einen Punkt x0 < ω(W1 ), . . . , ω(Wm )
W1 , . . . , Wm und W
f (x) für alle x ≥ x0 gilt, dann heißt W eine (multivariate)
gibt, so dass W (x) = W
verallgemeinerte Pareto-Verteilung (GPD).
Auffallend an dieser Definition ist, dass keine Aussage darüber gemacht wird, welche Gestalt eine GPD hat, wenn mindestens eine Komponente von x = (x1 , . . . , xm )
(1)
(m) kleiner ist als der entsprechende Eintrag in x0 = x0 , . . . , x0 . Wie wir in Kapitel 4
sehen werden, ist das aber auch nicht notwendig, um Gleichung (2.15), die die Anpassung einer univariaten GPD an eine univariate Verteilungsfunktion beschreibt, auf den
mehrdimensionalen Fall zu übertragen.
Am Anfang von Abschnitt 3.2 wurde festgestellt, dass die Randverteilungen einer
Extremwertverteilung G univariate Extremwertverteilungen sind. Das bedeutet für die
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
35
Randverteilungen einer GPD W
Wj (xj ) = 1 + log Gj (xj ) ,
(j)
xj ≥ x0 ,
j = 1, . . . , m,
(3.4)
d. h. sie stimmen für hinreichend große xj mit univariaten GPDs überein.
Darüber hinaus besitzen verallgemeinerte Pareto-Verteilungen eine spezielle Abhän(1)
(m) gigkeitsstruktur. Aus Gleichung (3.4) folgt die Existenz eines u0 = u0 , . . . , u0
∈
(1)
(m)
(0, 1)m mit u0 ≥ W1 x0 , . . . , Wm x0
, so dass
Wj−1 (uj ) = inf x ∈ R 1 + log Gj (x) ≥ uj
= inf x ∈ R Gj (x) ≥ exp(uj − 1)
= G−1
exp(uj − 1)
j
(j)
für alle u0 ≤ uj < 1, j = 1, . . . , m. Damit gilt für die Copula einer verallgemeinerten
Pareto-Verteilung W
CW (u) = W W1−1 (u1 ), . . . , Wm−1 (um )
−1
−1
= 1 + log G G1 exp(u1 − 1) , . . . , Gm exp(um − 1)
= 1 + log CG exp(u1 − 1), . . . , exp(um − 1)
=: 1 + log Gexp (u − 1)
(3.5)
zunächst für u0 ≤ u < 1, wobei 1 := (1, . . . , 1) ∈ Rm , und wegen der Stetigkeit von CW
(Lemma 2.3.5) sogar für u0 ≤ u ≤ 1. Die Überlegungen am Ende von Abschnitt 3.2
zeigen, dass Gexp eine EVD mit den identischen Randverteilungen Ψ1 (x) = exp(x),
x ≤ 0, ist (vgl. Abschnitt 2.2). Dementsprechend ist CW eine verallgemeinerte ParetoVerteilung, deren Ränder in einer linksseitigen Umgebung von 1 mit der Gleichverteilung
auf (0, 1) übereinstimmen.4
Umgekehrt folgt unter der Gültigkeit von (3.4) und (3.5)
W (x) = CW W1 (x1 ), . . . , Wm (xm )
= 1 + log Gexp log G1 (x1 ), . . . , log Gm (xm )
= 1 + log CG G1 (x1 ), . . . , Gm (xm )
= 1 + log G(x)
(1) für alle x ≥ W1−1 u0
4
(m) , . . . , Wm−1 u0
, d. h. W ist eine GPD. Insgesamt erhalten wir:
Da CW insbesondere eine Copula ist, stimmen ihre Randverteilungen überall mit der Gleichverteilung
auf (0, 1) überein.
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
36
Satz 3.3.3. Eine multivariate Verteilungsfunktion W ist genau dann eine verallgemeinerte Pareto-Verteilung, wenn (3.4) und (3.5) gelten, d. h. sowohl die Randverteilungen
als auch die Copula von W stimmen in einer Umgebung ihres jeweiligen rechten Endpunkts mit einer GPD überein.5
Verallgemeinerte Pareto-Verteilungen haben also die bemerkenswerte Eigenschaft, dass
ihre Abhängigkeitsstruktur selbst durch eine GPD beschrieben wird. Das veranlasst uns
zu folgender Definition:
Definition 3.3.4. Jede Copula C, die Gleichung (3.5) genügt, heißt eine GPD-Copula.
Wie am Ende von Abschnitt 3.2 gezeigt wurde, kann eine Extremwertverteilung auf
beliebige EVD-Ränder normiert werden, indem man nur die Randverteilungen transformiert, und diese Normierung kann auch wieder rückgängig gemacht werden. Wegen Definition 3.3.2 überträgt sich diese Eigenschaft entsprechend auf verallgemeinerte ParetoVerteilungen. Andererseits motiviert Gleichung (3.5), dass Extremwertverteilungen mit
negativ exponentialverteilten Rändern bzw. GPDs, deren Randverteilungen in der Nähe
des rechten Endpunkts mit einer Gleichverteilung übereinstimmen, eine natürliche Wahl
darstellen. Deswegen werden wir uns im Folgenden vorrangig mit entsprechend normierten Verteilungen beschäftigen.
5
Der rechte Endpunkt einer m-variaten Verteilungsfunktion F mit Randverteilungen F1 , . . . , Fm ist
definiert als ω(F ) := (ω(F1 ), . . . , ω(Fm )), vgl. Abschnitt 2.2. Insbesondere ist ω(C) = 1 für jede
Copula C.
37
4 Ein multivariater Piecing-Together
Ansatz
In den vorangegangenen Kapiteln lag der Schwerpunkt darauf, einen Überblick über
wichtige Zusammenhänge zu geben, die benötigt werden, um eine mehrdimensionale Erweiterung des Piecing-Together Ansatzes in Gleichung (2.15) zu entwickeln. Dazu wurde
nach technischen Grundlagen in Abschnitt 2.1, die wir für einige Beweise in diesem Kapitel benötigen werden, zunächst auf die univariate Extremwerttheorie eingegangen. Dort
sind uns zum ersten Mal die Begriffe Extremwertverteilung und verallgemeinerte ParetoVerteilung begegnet. Diese wurden mit dem Konzept der Copulas aus Abschnitt 2.3 auf
den multivariaten Kontext verallgemeinert, was Gegenstand von Kapitel 3 war. Wesentlich war dabei das Theorem von Sklar (Satz 2.3.3).
Nun werden – basierend auf Aulbach et al. (2009) – die bisher besprochenen Inhalte
an manchen Stellen ergänzt und ein multivariater Piecing-Together Ansatz hergeleitet.
Dieser besteht aus zwei Schritten:
(i) Zuerst wird eine GPD-Copula an eine gegebene m-dimensionale Copula C angepasst. Das geschieht, indem C nahe des rechten Endpunkts 1 durch eine GPDCopula ersetzt wird, so dass das Ergebnis selbst eine GPD-Copula ist.
(ii) Im zweiten Schritt werden die einzelnen Ränder dieser neuen Copula mittels vorgegebener eindimensionaler Verteilungsfunktionen Fi∗ , 1 ≤ i ≤ m, transformiert.
Insgesamt erhält man auf diese Weise eine multivariate Verteilungsfunktion mit Randverteilungen Fi∗ , deren Copula im zentralen Bereich mit C und im rechten Rand mit
einer GPD-Copula übereinstimmt. Dadurch wird man auch im multivariaten Kontext in
die Lage versetzt, die Wahrscheinlichkeit von seltenen Ereignissen im oberen Rand einer
Verteilung zu approximieren, selbst wenn dafür noch keine Daten vorliegen (siehe auch
Kapitel 5).
In Abschnitt 4.1 werden die theoretischen Grundlagen gelegt, indem wir Satz 3.2.1 genauer betrachten. Da der multivariate Piecing-Together Ansatz im Gegensatz zu (2.15)
nicht für Verteilungsfunktionen sondern für Zufallsvektoren formuliert wird, geht Ab-
4.1 Copulas im Anziehungsbereich von EVDs
38
schnitt 4.2 anschließend auf die Erzeugung von Zufallsvektoren ein, die einer GPD folgen.
Abschnitt 4.3 stellt schließlich das eigentliche Verfahren vor.
4.1 Copulas im Anziehungsbereich von EVDs
Wie Satz 3.2.1 zeigt, liegt eine beliebige m-dimensionale Verteilungsfunktion F genau
dann im Anziehungsbereich einer Extremwertverteilung G, wenn die Randverteilungen
von F im Anziehungsbereich der Randverteilungen von G liegen und gleichzeitig
CFn u1/n →n∈N CG (u),
u ∈ (0, 1)m ,
(4.1)
gilt. Elementare Umformungen wie in Falk (2008, Abschnitt 6) oder in de Haan und
de Ronde (1998, Abschnitt 4.2) ergeben, dass (4.1) äquivalent ist zu
1
1 − CF (1 + tx) →t↓0 − log CG exp(x) =: lG (x),
t
x ≤ 0,
(4.2)
wobei lG in der Literatur unter dem Namen stable tail dependence function bekannt
e
ist, vgl. Huang (1992). Gemäß Abschnitt 3.2 wird durch G(x)
:= CG exp(x) , x ≤ 0,
ei (x) = exp(x), x ≤ 0, i ≤ m,
eine EVD mit standard negativ exponentialen Rändern G
definiert. Nach den Ausführungen in Abschnitt 3.3 folgt daraus
lG (x) = 1 − W (x),
x0 ≤ x ≤ 0,
(4.3)
mit einem x0 < 0 und einer GPD W , deren Randverteilungen in einer linksseitigen
Umgebung der 0 mit der Gleichverteilung auf (−1, 0) übereinstimmen.
Abschnitt 4.3 in Falk et al. (2004) zeigt außerdem
lG (x) = kxkD ,
x ≤ 0,
(4.4)
wobei k·kD eine Norm auf Rm mit besonderen Eigenschaften ist, die D-Norm genannt
wird. Daher ist die stable tail dependence function positiv homogen vom Grad 1 (d. h.
tlG (x) = lG (tx), t ≥ 0) und konvex. Das bedeutet, dass (4.2) gleichbedeutend ist mit
1 − CF (1 + tx) − lG (tx)
→t↓0 0,
t
x ≤ 0.
Unter Beachtung von (4.3) erhält man daraus CF (1 + tx) − W (tx) = o(t) für t ↓ 0, d. h.
t−1 CF (1 + tx) − W (tx) →t↓0 0.
Die vorangegangenen Überlegungen führen nach einigen elementaren Umformungen
4.1 Copulas im Anziehungsbereich von EVDs
39
zu folgendem Resultat. Mit k·k wird eine beliebige Norm auf Rm bezeichnet.
Satz 4.1.1. Eine beliebige multivariate Verteilungsfunktion F liegt genau dann im Anziehungsbereich einer Extremwertverteilung, wenn das für ihre univariaten Randverteilungen gilt und gleichzeitig eine GPD-Copula CW existiert, so dass
CF (u) = CW (u) + o(ku − 1k)
gleichmäßig für u ∈ [0, 1]m .
Dieses Ergebnis zeigt, dass die Copula CF einer Verteilungsfunktion F im oberen Rand
(d. h. in einer linksseitigen Umgebung von ω(CF ) = 1) nur sinnvoll durch eine GPDCopula approximiert werden kann. Das ist in Übereinstimmung mit Rootzén und Tajvidi
(2006), die gezeigt haben, dass auch im multivariaten Kontext Überschreitungen eines
Zufallsvektors über einen hohen Schwellenwert nur sinnvoll durch eine multivariate GPD
modelliert werden können. Da das analog auch für univariate Verteilungsfunktionen gilt
(Balkema und de Haan (1974) und Pickands (1975)), führt das mit Satz 3.3.3 dazu, dass
sich F nahe ω(F ) nur vernünftig durch eine multivariate GPD approximieren lässt.
Für eine beliebige Copula C gelten die folgenden Äquivalenzen:
Korollar 4.1.2. C liegt im Anziehungsbereich einer EVD G
⇐⇒ Es gibt eine GPD-Copula CW , so dass
C(u) = CW (u) + o(ku − 1k)
gleichmäßig für u ∈ [0, 1]m . In diesem Fall gilt CW (u) = 1 + log G(u − 1), u0 ≤
u ≤ 1, mit einem u0 < 1.
⇐⇒ Es gibt eine Norm k·kD auf Rm , so dass
C(u) = 1 − ku − 1kD + o(ku − 1kD )
gleichmäßig für u ∈ [0, 1]m . In diesem Fall gilt G(x) = exp − kxkD , x ≤ 0.
Beweis. Sei CW eine GPD-Copula. Dann gibt es nach Definition 3.3.4 eine GP Funktion
f mit Rändern W
fi (x) = 1 + x für −1 ≤ x ≤ 0, 1 ≤ i ≤ m, so dass
W
f (u − 1),
CW (u) = W
u0 ≤ u ≤ 1,
f darstellen lässt als
mit einem u0 < 1. Es ist wohlbekannt, dass sich W
f (x) = 1 − kxkD ,
W
x ≤ 0, kxkD ≤ 1,
4.1 Copulas im Anziehungsbereich von EVDs
40
wobei k·kD eine D-Norm auf Rm ist, vgl. Abschnitt 4.3 in Falk et al. (2004) und Gleichung (4.4). Insbesondere definiert G(x) := exp (− kxkD ), x ≤ 0, eine Extremwertverteilung auf Rm mit standard negativ exponentialen Rändern Gi (x) = exp(x), x ≤ 0,
f (x) = 1 + log G(x) , 1/e ≤ G(x), sowie
1 ≤ i ≤ m, und es gilt W
f (u − 1) = 1 + log G(u − 1),
CW (u) = W
u0 ≤ u ≤ 1.
Ist C(u) = CW (u) + o(ku − 1k), u ∈ [0, 1]m , für eine beliebige Norm k·k auf Rm , dann
erhält man
n
x
1
1
n
C 1+
= 1 − kxkD + o
kxkD
n
n
n
→n→∞ exp(−kxkD ) = G(x),
x ≤ 0,
d. h. C liegt im Anziehungsbereich von G. Zusammen mit Satz 4.1.1 folgen damit alle
Behauptungen.
Wie dem vorangegangenen Beweis entnommen werden kann, folgt aus C ∈ D(G), dass
G eine Extremwertverteilung mit standard negativ exponentialen Rändern ist. Außerdem
ist Gleichung (4.1) äquivalent dazu, dass C im Anziehungsbereich einer solchen EVD
liegt.
Die D-Norm in der letzten Äquivalenz von Korollar 4.1.2 kann offenbar berechnet
werden als
1 − C(1 + tx)
,
x ≤ 0,
kxkD = lim
t↓0
t
in Übereinstimmung mit (4.2) und (4.4).
Beispiel 4.1.3. Wir betrachten eine beliebige Archimedische Copula (siehe Kapitel 4
in Nelsen (2006))
Cϕ (u) = ϕ−1 ϕ(u1 ) + · · · + ϕ(um ) ,
u = u1 , . . . , um ∈ (0, 1]m ,
wobei der Erzeuger ϕ : (0, ∞) → [0, ∞) eine stetige Funktion ist, die auf (0, 1] streng
monoton fällt und u. a. die Eigenschaften ϕ(1) = 0 sowie limx↓0 ϕ(x) = ∞ erfüllt. Unter
ϕ−1 (t) wird hier inf{x > 0 | ϕ(x) ≤ t}, t ≥ 0, verstanden.
Wenn die linksseitige Ableitung von ϕ im Punkt x = 1 existiert mit ϕ0 (1−) 6= 0, dann
gilt
X
1 − Cϕ (1 + tx)
→t↓0
|xi | = kxk1 ,
x = (x1 , . . . , xm ) ≤ 0.
t
i≤m
Jede Archimedische Copula mit einem derartigen Erzeuger liegt demnach im Anzie-
4.2 Erzeugung von GPD-Zufallsvektoren
41
hungsbereich einer Extremwertverteilung G(x) = exp(−kxk1 ), x ≤ 0, mit unabhängigen Rändern. Die Ränder sind also tail independent, d. h. die tail dependence parameter
verschwinden:
χ(i, j) := lim P (Ui > x | Uj > x) = 0,
x↑1
1 ≤ i 6= j ≤ m,
wobei der Zufallsvektor (U1 , . . . , Um ) der Verteilungsfunktion Cϕ folgt, vgl. auch Nelsen
(2006, Abschnitt 5.4). Eine genauere Betrachtung der tail dependence parameter ist in
Falk et al. (2004, Abschnitt 6.1) zu finden. Dort wird auch auf weiterführende Literatur
verwiesen.
Die vorangegangenen Überlegungen treffen bspw. auf die Clayton- und die FrankCopula zu, nicht aber auf die Gumbel-Copula mit Parameter λ > 1. Die entsprechenden
Erzeuger sind ϕC (t) = ϑ−1 (t−ϑ − 1) und ϕF (t) = − log exp(−ϑt) − 1 exp(−ϑ) − 1 ,
λ
ϑ > 0, sowie ϕG (t) = − log(t) , λ ≥ 1, 0 < t ≤ 1, vgl. auch Abschnitt 4.6 in Nelsen
(2006).
Bereits in den Abschnitten 3.2 und 3.3 wurde festgestellt, dass die Randverteilungen einer EVD univariate EVDs sind und dass ebenso die Ränder einer GPD in einer
geeigneten Umgebung des rechten Endpunkts mit univariaten GPDs übereinstimmen.
Außerdem kann eine beliebige EVD in eine Extremwertverteilung mit standard negativ
exponentialen Rändern überführt werden, indem man ausschließlich die Randverteilungen geeignet transformiert. Diese Transformation kann auch wieder rückgängig gemacht
werden. Analoges gilt für die Normierung einer GPD auf Ränder, die in einer linksseitigen Umgebung von 0 mit der Gleichverteilung auf (−1, 0) übereinstimmen. Daher und
aufgrund der Aussagen von Satz 4.1.1 und Korollar 4.1.2 werden wir uns bei der Erzeugung von GPD-Zufallsvektoren im nächsten Abschnitt ausschließlich mit solchen GPDs
befassen, die von einer Extremwertverteilung mit negativ exponentialen Randverteilungen abgeleitet werden.
4.2 Erzeugung von GPD-Zufallsvektoren
Der vorangegangene Abschnitt beschäftigte sich mit der Charakterisierung des Anziehungsbereichs einer Extremwertverteilung. Eine notwendige Bedingung für F ∈ D(G)
ist demnach, dass sich die Copula CF von F in einer linksseitigen Umgebung von 1
durch eine GPD-Copula approximieren lässt (Satz 4.1.1). Andererseits ist diese Eigenschaft zusammen mit Fi ∈ D(Gi ), i ≤ m, hinreichend für F ∈ D(G), wobei Fi bzw. Gi
die i-te Randverteilung von F bzw. G ist. Vor diesem Hintergrund setzen wir uns nun
4.2 Erzeugung von GPD-Zufallsvektoren
42
mit der Erzeugung von Zufallsvektoren auseinander, die einer GPD folgen. Inbesondere
sind hier GPD-Copulas von Interesse.
Die de Haan-Resnick-Pickands Darstellung einer multivariaten Extremwertverteilung
macht deutlich, dass eine Funktion G auf (−∞, 0]m genau dann die Verteilungsfunktion
einer EVD mit standard negativ exponentialen Rändern Gi (x) = exp(x), x ≤ 0, i ≤ m,
ist, wenn G dargestellt werden kann als
Z
G(x) = exp
min(xi ti ) µ(dt) ,
Sm i≤m
x ≤ 0,
(4.5)
P
wobei µ ein Maß auf Sm := t ≥ 0 i≤m ti = 1 ist – das sog. angular measure – und
R
die charakteristische Eigenschaft Sm ti µ(dt) = 1, i ≤ m, hat (vgl. etwa Abschnitt 4.4
in Falk et al. (2004)). Diese Bedingung an µ hat µ(Sm ) = m zur Folge.
Wegen Gleichung (4.5) erhält man für eine multivariate GPD W , deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0)
übereinstimmen, dass
W (x) = 1 +
X
!Z
xj
max(x̃i ti ) µ(dt)
Sm i≤m
j≤m
!
=: 1 +
X
xj D(x̃1 , . . . , x̃m−1 ),
j≤m
x0 ≤ x ≤ 0,
(4.6)
P
für ein x0 < 0. Dabei ist µ definiert wie zuvor, x̃i = xi
u ∈
j≤m xj und D :
P
m−1 [0, 1]
j≤m−1 uj ≤ 1 → [1/m, 1] ist eine Pickands dependence function, siehe Falk
et al. (2004, Abschnitt 4.3).
Das folgende Ergebnis charakterisiert derartige verallgemeinerte Pareto-Verteilungen.
Gleichzeitig stellt es einen einfachen Ansatz zur Verfügung, um einen Zufallsvektor zu
erzeugen, der einer solchen GPD folgt, indem es das zweidimensionale Verfahren aus
Buishand et al. (2008) auf beliebige Dimensionen erweitert.1 Weitere Möglichkeiten,
eine multivariate GPD zu simulieren, sind in Michel (2007) zu finden.
Satz 4.2.1. Es gelten die folgenden Aussagen:
(i) Sei W eine m-variate GPD, deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen. Dann gibt
es einen Zufallsvektor Z = (Z1 , . . . , Zm ) mit Zi ∈ [0, m] und E(Zi ) = 1, i ≤ m,
1
Um einen Zufallsvektor zu erzeugen, der nach einer beliebigen GPD verteilt ist, sind die Ausführungen
am Ende der Abschnitte 3.3 bzw. 4.1 zu beachten.
4.2 Erzeugung von GPD-Zufallsvektoren
43
sowie einen Vektor (−1/m, . . . , −1/m) ≤ x0 < 0, so dass
1
1
W (x) = P −U
,...,
≤x ,
Z1
Zm
x0 ≤ x ≤ 0,
wobei die Zufallsvariable U auf (0, 1) gleichverteilt und unabhängig von Z ist.
(ii) Sei U eine auf (0, 1) gleichverteilte Zufallsvariable und Z = (Z1 , . . . , Zm ) ein Zufallsvektor mit 0 ≤ Zi ≤ ci f. s. und E(Zi ) = 1, i ≤ m, für geeignete c1 , . . . , cm ≥ 1.
Falls U, Z unabhängig sind, dann folgt −U (1/Z1 , . . . , 1/Zm ) einer GPD, deren
Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen.
Dieses Resultat lässt sich direkt auf eine GPD W mit Randverteilungen Wi (x) =
1 + ai x in einer linksseitigen Umgebung von 0 übertragen, wobei ai > 0, i ≤ m. Dazu
ist lediglich Zi durch ai Zi zu ersetzen.
Beweis. Zuerst wird Teil (i) gezeigt. Wegen Gleichung (4.6) erhalten wir für alle x in
einer geeigneten linksseitigen Umgebung von 0 ∈ Rm
W (x) = 1 +
X
j≤m
!Z
xj
max(x̃i ti ) µ(dt)
Sm i≤m
R
mit einem Maß µ auf Sm , so dass µ(Sm ) = m und Sm ti µ(dt) = 1, i ≤ m.
Durch µ̃(·) := µ(·)/m wird ein Wahrscheinlichkeitsmaß auf Sm definiert. Sei T =
(T1 , . . . , Tm ) ein Zufallsvektor mit Werten in Sm und Verteilung µ̃. Für Z := m T gilt
R
dann Z ∈ [0, m]m und E(Zi ) = Sm ti µ(dt) = 1, i ≤ m. Außerdem folgt aus Lemma 2.1.11 für alle x ≤ 0 ∈ Rm mit xj ≥ −1/m, j ≤ m,
1
1
,...,
≤x
P −U
Z1
Zm
1
1
,...,
≤ mx
= P −U
T1
Tm
Z
1
1
=
,...,
≤ mx T = t (P ∗ T )(dt)
P −U
t1
tm
Sm
Z
1
1
=
P −U
,...,
≤ mx µ̃(dt)
t1
tm
Sm
Z
1
1
1
=
P −U
,...,
≤ mx µ(dt)
m Sm
t1
tm
Z
1
=
P U ≥ m max(−xi ti ) µ(dt)
i≤m
m Sm
4.2 Erzeugung von GPD-Zufallsvektoren
1
=
m
Z
1
=
m
Z
!
Sm
=1+
44
P U ≥ −m
X
xj
j≤m
!
max(x̃i ti ) µ(dt)
i≤m
!
1+m
Sm
X
X
xj
j≤m
max(x̃i ti ) µ(dt)
i≤m
!Z
xj
max(x̃i ti ) µ(dt).
Sm i≤m
j≤m
Damit ist Teil (i) vollständig.
Andererseits gilt für x ≤ 0 und große s > 0
s
1
1
1
,...,
≤ x
P −U
Z1
Zm
s
Z
s
1
=
P U ≥ max(−xi zi ) (P ∗ Z)(dz)
s i≤m
[0,c]
s
Z
1
max(−xi zi ) (P ∗ Z)(dz)
= 1−
s [0,c] i≤m
Z
→s→∞ exp −
max(−xi zi ) (P ∗ Z)(dz)
[0,c] i≤m
=: G(x),
wobei c = (c1 , . . . , cm ). Wegen Lemma 7.2.1 in Reiss (1989) ist G eine Verteilungsfunktion, die offensichtlich max-stabil ist: Gs (s−1 x) = G(x), s > 0. Daher ist G eine multivariate Extremwertverteilung mit standard negativ exponentialen Rändern Gi (x) =
exp(xE(Zi )) = exp(x), x ≤ 0, i ≤ m, und 1 + log(G(x)) eine GP Funktion, die
Z
max(−xi zi ) (P ∗ Z)(dz)
1 + log(G(x)) = 1 −
[0,c] i≤m
1
1
= P −U
,...,
≤x ,
x0 ≤ x ≤ 0,
Z1
Zm
für ein geeignet gewähltes x0 < 0 erfüllt.
Betrachtet man einen Zufallsvektor S = (S1 , . . . , Sm ), der nach einer Copula C verteilt
ist (vgl. Abschnitt 2.3 und Nelsen (2006)), dann erfüllt Z := 2S die Voraussetzungen von
Satz 4.2.1 (ii). Auf diese Weise wird die Menge der Copulas in die Menge der verallgemeinerten Pareto-Verteilungen abgebildet, was ein weites Spektrum an Wahlmöglichkeiten
für den Zufallsvektor Z eröffnet.
Um die verbleibenden Überlegungen in diesem Kapitel möglichst einfach zu gestalten, wird eine gegebene Copula C zeitweise auf das Intervall [−1, 0]m verschoben: Wir
4.3 Multivariates Piecing-Together
45
e durch
definieren die Verteilungsfunktion C
x ∈ Rm ,
e
C(x)
:= C(x + 1),
(4.7)
und nennen sie eine Copula auf [−1, 0]m , da sie ihre charakteristischen Eigenschaften von
e stimmen folglich
der zugrunde liegenden Copula C erhält. Die Randverteilungen von C
mit der Gleichverteilung auf (−1, 0) überein. In diesem Zusammenhang nennen wir C
e abzugrenzen.
gelegentlich auch eine Copula auf [0, 1]m , um sie deutlich von C
eW eine GPD-Copula auf
Ist C = CW insbesondere eine GPD-Copula, dann heißt C
eW eine multivariate GPD ist, folgt aus Gleichung (4.6)
[−1, 0]m . Da mit CW auch C
eW (x) = 1 +
C
X
!Z
xj
j≤m
max ti P
Sm i≤m
!
xi
j≤m
xj
µ(dt),
x0 ≤ x ≤ 0,
mit einem x0 < 0.
Nun verwenden wir Satz 4.2.1, um einen Zufallsvektor V ∈ [−1, 0]m zu konstruieren,
der einer GPD-Copula auf [−1, 0]m folgt. Dazu betrachten wir eine auf (0, 1) gleichverteilte Zufallsvariable U und einen davon unabhängigen Zufallsvektor S = (S1 , . . . , Sm ),
der nach einer beliebigen Copula auf [0, 1]m verteilt ist. Man erhält für i ≤ m


1 + x, falls − 12 ≤ x ≤ 0,
1
≤x =
P −U
 1 ,
2Si
falls x < − 12 ,
4|x|
=: H(x),
x ≤ 0.
Wegen Satz 4.2.1 und Abschnitt 3.3 folgt
U
U
V := (V1 , . . . , Vm ) := H −
− 1, . . . , H −
−1
2S1
2Sm
mit
Vi =

−
U
,
2Si
falls U ≤ Si ,
 Si − 1, falls U > S ,
i
2U
(4.8)
einer GPD-copula auf [−1, 0]m .
4.3 Multivariates Piecing-Together
Nachdem sich die vorangegangenen beiden Abschnitte mit den letzten Vorbereitungen
beschäftigt haben, um den univariaten Piecing-Together Ansatz aus Gleichung (2.15)
4.3 Multivariates Piecing-Together
46
auf beliebige Dimensionen zu erweitern, wird jetzt auf das Haupt-Resultat dieser Arbeit eingegangen. Dieses wird im Gegensatz zu Abschnitt 2.2 unter Verwendung von
Zufallsvektoren formuliert.
Der multivariate Piecing-Together Ansatz besteht aus zwei Schritten:
(i) Zunächst betrachten wir eine gegebene m-dimensionale Copula C und wählen einen
Schwellenwert u0 ∈ [0, 1)m . In dem Bereich, in dem alle Komponenten groß sind –
das entspricht dem mehrdimensionalen Intervall (u0 , 1] – wird C durch eine GPDCopula ersetzt. Das geschieht so, dass das Ergebnis selbst wieder eine GPD-Copula
ist, d. h. es ergibt sich eine stetige Verteilungsfunktion C ∗ , die in einer linksseitigen
Umgebung von 1 mit einer GPD übereinstimmt und die Randverteilungen Ci∗ (x) =
x, x ∈ (0, 1), i ≤ m, hat.
(ii) Anschließend werden die Ränder von C ∗ mit vorgegebenen Verteilungsfunktionen Fi∗ , i ≤ m, transformiert. Es entsteht dadurch eine Verteilungsfunktion F ∗
mit Randverteilungen Fi∗ , i ≤ m, deren Copula im zentralen Bereich mit der ursprünglichen Copula C und jenseits von u0 mit einer GPD übereinstimmt. Sind
F1∗ , . . . , Fm∗ univariate GPDs oder Verteilungsfunktionen, die aus einem univariaten Piecing-Together Ansatz gemäß (2.15) hervorgegangen sind, dann ist F ∗ laut
Satz 3.3.3 sogar eine multivariate GPD.
Wir beginnen mit dem ersten Schritt. Dazu seien eine Copula C, eine GPD-Copula CW
(1)
(m) e bzw. C
eW
und ein multivariater Schwellenwert u0 = u0 , . . . , u0
∈ [0, 1)m gegeben. C
bezeichnen die gemäß (4.7) definierten Transformationen von C und CW auf das Intervall
(1)
(m) [−1, 0]m . Dementsprechend ist y0 := y0 , . . . , y0
:= u0 − 1 der Schwellenwert im
m
Intervall [−1, 0] , der u0 entspricht.
e der einer GPD-Copula C
e∗ auf
Im Folgenden konstruieren wir einen Zufallsvektor Q,
e übereinstimmen, d. h. C
e∗ (x) = C(x)
e
[−1, 0]m folgt. Diese soll im zentralen Bereich mit C
e + 1 einer GPD-Copula C ∗
für alle x ≤ y0 . Dann erhält man aber sofort, dass Q := Q
auf [0, 1]m folgt, die C ∗ (x) = C(x) für x ≤ u0 erfüllt.
eW , d. h. V folgt einer
Sei V = (V1 , . . . , Vm ) ein Zufallsvektor mit Verteilungsfunktion C
GPD-Copula auf [−1, 0]m . Dann stimmen die Randverteilungen P (Vi ≤ x) = 1 + x,
−1 ≤ x ≤ 0, i ≤ m, mit der Gleichverteilung auf (−1, 0) überein und es existiert ein
(1)
(m) x 0 = x0 , . . . , x 0
< 0, so dass für alle x = (x1 , . . . , xm ) ∈ [x0 , 0]
P (V ≤ x) = 1 +
X
i≤m
! x1
xi D P
xm−1
,..., P
i≤m xi
i≤m xi
gilt, wobei D eine Pickands dependence function ist.
(4.9)
4.3 Multivariates Piecing-Together
47
e und sei unDer Zufallsvektor Y = (Y1 , . . . , Ym ) habe die Verteilungsfunktion C
abhängig von V . Dann wird durch
o
o − y (i) V 1n
ei := Yi 1n
Q
(i) ,
(i)
i
0
Y ≤y
Y >y
i
i
0
0
i ≤ m.
(4.10)
e = Q
e1 , . . . , Q
em definiert, dessen Verteilungsfunktion eine GPDein Zufallsvektor Q
e übereinstimmt. Das ist der Inhalt des HauptCopula ist, die im zentralen Bereich mit C
Ergebnisses in dieser Arbeit:
ei aus (4.10) auf (−1, 0) gleichSatz 4.3.1. Wenn P (Y > y0 ) > 0 gilt, dann ist jedes Q
e= Q
e1 , . . . , Q
em folgt einer GPD-Copula auf [−1, 0]m , die
verteilt. Der Zufallsvektor Q
(i)
e auf [−1, 0]m übereinstimmt, d. h.
auf ×i≤m −1, y0 mit der Copula C
e ≤ x = C(x),
e
P Q
x ≤ y0 .
Außerdem erhält man mit x0 aus (4.9) für eine beliebige nicht-leere Teilmenge K von
{1, . . . , m}
ei ≥ xi , i ∈ K = P Vi ≥ bi,K xi , i ∈ K ,
P Q
h
(i) (i) i
xi ∈ max y0 , x0 , 0 , i ≤ m,
wobei
(j)
bi,K :=
P Yj > y0 , j ∈ K
(i)
−y0
(j)
P Yj > y0 , j ∈ K
=
∈ (0, 1],
(i) P Yi > y0
i ∈ K.
ei auf (−1, 0) gleichverteilt ist. Es gilt für −1 ≤
Beweis. Zuerst wird gezeigt, dass jedes Q
(i)
x ≤ y0
ei ≤ x, Yi ≤ y0(i) + P Q
ei ≤ x, Yi > y0(i)
ei ≤ x = P Q
P Q
= P (Yi ≤ x)
=1+x
(i)
und für y0 < x ≤ 0
ei ≤ x = P Yi ≤ y0(i) + P −y0(i) Vi ≤ x P Yi > y0(i)
P Q
!
x
(i) (i)
= 1 + y0 + P Vi ≤ − (i) −y0
y
!0
x
(i)
(i) = 1 + y0 + 1 − (i) −y0
y0
4.3 Multivariates Piecing-Together
48
= 1 + x.
e nach einer Copula auf [−1, 0]m verteilt. Außerdem ist für
Also ist der Zufallsvektor Q
x ≤ y0
e≤x =P Q
e ≤ x, Y ≤ y0 + P Q
e ≤ x, Y y0
P Q
= P (Y ≤ x)
e
= C(x).
Da V nach einer GPD-Copula auf [−1, 0]m verteilt ist, erhält man nach Proposition 2.1
(i) (i) in Falk und Michel (2009) mit xi ∈ max y0 , x0 , 0 , i ≤ m, t ∈ [0, 1] und einer
beliebigen nicht-leeren Teilmenge K ⊂ {1, . . . , m}
ej > txj , j ∈ K = P Q
ej > txj , Yj > y0(j) , j ∈ K
P Q
(j)
(j)
= P −y0 Vj > txj , j ∈ K P Yj > y0 , j ∈ K
(j)
(j)
= tP −y0 Vj > xj , j ∈ K P Yj > y0 , j ∈ K
ej > xj , j ∈ K .
= tP Q
Diese Gleichheit zeigt wiederum nach Proposition 2.1 in Falk und Michel (2009), dass
e einer GPD folgt. Insgesamt ist Q
e also nach einer GPD-Copula auf [−1, 0]m verteilt.
Q
Schließlich erhalten wir mit xi und K von oben
e i ≥ xi , i ∈ K
P Q
ei ≥ xi , i ∈ K, Yj ≤ y0(j) für ein j ∈ K
ei ≥ xi , Yi > y0(i) , i ∈ K + P Q
=P Q
(i)
(i)
= P −y0 Vi ≥ xi , i ∈ K P Yi > y0 , i ∈ K
!
xi
(i)
= P Vi ≥ − (i) , i ∈ K P Yi > y0 , i ∈ K
y0
= P Vi ≥ bi,K xi , i ∈ K
und damit ist der Beweis vollständig.
e in Gleichung (4.10) so zu verstehen: AusgeAnschaulich ist die Konstruktion von Q
hend vom Zufallsvektor Y , der einer Copula auf [−1, 0]m folgt, wird jede einzelne Kom(i)
ponente Yi , i ≤ m, geprüft, ob sie ihren spezifischen Schwellenwert y0 überschreitet. Im
(i)
Fall Yi ≤ y0 bleibt diese Komponente unverändert. Andernfalls wird sie durch die i-te
geeignet normierte Komponente des Zufallsvektors V ersetzt, der einer GPD-Copula auf
[−1, 0]m folgt. Diese Normierung gewährleistet, dass der so erhaltene Wert mit Wahr-
4.3 Multivariates Piecing-Together
49
(i) scheinlichkeit 1 im Intervall y0 , 0 liegt und damit tatsächlich eine Überschreitung von
(i)
y0 darstellt.
e die Verteilung unterhalb“
Satz 4.3.1 stellt sicher, dass beim Übergang von Y nach Q
”
e als Ganzes einer GPD-Copula
des Schwellenwertes y0 erhalten bleibt und außerdem Q
auf [−1, 0]m folgt. Das impliziert, dass
e+1
Q := (Q1 , . . . , Qm ) := Q
(4.11)
einer GPD-Copula C ∗ auf [0, 1]m folgt. Nach dem Konstruktionsprinzip erhält man sofort
C ∗ (u) = C(u),
0 ≤ u ≤ u0 ,
(4.12)
mit C und u0 wie zuvor beschrieben. Damit ist der erste Schritt des multivariaten
Piecing-Together Ansatzes abgeschlossen.
Der zweite Schritt besteht nun aus der Quantiltransformation der Komponenten von
Q mit den vorgegebenen Verteilungsfunktionen F1∗ , . . . , Fm∗ . Dadurch entsteht ein Zufallsvektor
∗
X ∗ := (X1∗ , . . . , Xm
) := F1∗−1 (Q1 ), . . . , Fm∗−1 (Qm )
(4.13)
mit Copula C ∗ und Randverteilungen F1∗ , . . . , Fm∗ . Stimmen die Fi∗ , i ≤ m, in der Nähe
des jeweiligen rechten Endpunktes mit univariaten GPDs überein, dann wird durch
(4.13) ein Zufallsvektor definiert, der nach einer multivariaten GPD verteilt ist (siehe
Satz 3.3.3).
Kombiniert man den univariaten und den multivariaten Piecing-Together Ansatz
miteinander, dann erhält man insbesondere eine multivariate Erweiterung von (2.15):
Sei X ein Zufallsvektor mit Verteilungsfunktion F , die nach dem Theorem von Sklar
(Satz 2.3.3) in eine Copula CF und die Randverteilungen F1 , . . . , Fm zerfällt. Liegt F
im Anziehungsbereich einer multivariaten Extremwertverteilung G mit Copula CG und
Randverteilungen G1 , . . . , Gm , dann gelten (4.1) und Fi ∈ D(Gi ), i ≤ m, vgl. Ab(1)
(m)
(i) schnitt 3.2. Nun wählen wir univariate Schwellenwerte z0 , . . . , z0 , wobei 0 < Fi z0 <
1, und bestimmen Fi∗ , i ≤ m, durch den univariaten Piecing-Together Ansatz in (2.15)
Fi∗ (x)
=

Fi (x),
(i)
Fi z (i) + 1 − Fi z (i)
0
0
x ≤ z0 ,
(i)
(4.14)
Wξi ;νi ,βi (x), x > z0 ,
mit geeignet gewählten ξi , νi ∈ R, βi > 0, i ≤ m. Aus der Gültigkeit von (4.1) folgt
gemäß Abschnitt 4.1
CF (u) = CW (u) + o(ku − 1k)
4.3 Multivariates Piecing-Together
50
gleichmäßig für u ∈ [0, 1]m mit einer GPD-Copula CW und einer beliebigen Norm k·k
auf Rm , wobei
CW (u) = 1 − lG (u − 1),
x0 ≤ u ≤ 1,
mit einem x0 < 1 gilt, vgl. Gleichung (4.3). Dabei bezeichnet lG die stable tail de(1)
(m) pendence function von G. Nun wählen wir einen Schwellenwert u0 = u0 , . . . , u0
∈
m
[0, 1) und verknüpfen CF und CW unter Verwendung des oben beschriebenen multivariaten Piecing-Together Ansatzes. Gleichung (4.13) liefert dann einen Zufallsvektor X ∗
mit Verteilungsfunktion F ∗ , die gemäß (4.12) und (4.14)
F ∗ (x) = CF∗ F1∗ (x1 ), . . . , Fm∗ (xm )
= CF F1 (x1 ), . . . , Fm (xm )
= F (x)
(i)
(i) für alle x = (x1 , . . . , xm ) ∈ Rm mit xi < min z0 , Fi∗−1 u0
, i ≤ m, erfüllt. Da
∗
∗
CF insbesondere eine GPD-Copula ist und die Fi , i ≤ m, jeweils gemäß (2.16) in einer
linksseitigen Umgebung ihrer rechten Endpunkte mit univariaten GPDs übereinstimmen,
ist F ∗ nach Satz 3.3.3 eine multivariate GPD.
Es stellt sich allerdings folgendes Problem: In dem Schritt, der CF mit CW verknüpft,
muss ein Zufallsvektor V erzeugt werden, der der Verteilungsfunktion
eW (x) = CW (x + 1) = 1 − lG (x),
C
x ≤ 0,
folgt. Satz 4.2.1 stellt zwar die Existenz eines solchen V sicher, indem es mit Hilfe eines
geeigneten Zufallsvektors Z und einer davon unabhängigen auf (0, 1) gleichverteilten
Zufallsvariable U konstruiert wird. Die Frage, welcher Verteilung dieses Z folgen muss,
damit V tatsächlich nach CW verteilt ist, bleibt jedoch offen. Da die Lösung dieses
Problems den Rahmen dieser Arbeit sprengen würde, wird im folgenden Kapitel nicht
die Copula CW , sondern die Verteilung von Z als gegeben vorausgesetzt.
5.1 Das Modell
51
5 Simulationen
Im vorangegangen Kapitel wurde ein multivariater Piecing-Together Ansatz vorgestellt
und der Zusammenhang zum univariaten Fall aufgezeigt. Jetzt soll dieses Verfahren
mit Hilfe von Computer-Simulationen durchgeführt werden. Als Benchmark dienen entsprechende Simulationen ohne Anwendung des multivariaten Piecing-Together Ansatzes.
Dazu habe ich ein ausführliches Programm in der Programmiersprache R (Version 2.8.1)
geschrieben, das auf dem beiliegenden Datenträger enthalten ist.1 Auch dieses Kapitel
basiert in Teilen auf der Arbeit Aulbach et al. (2009).
Im ersten Abschnitt wird das Modell vorgestellt, das den Simulationen zugrunde liegt.
Anschließend wird kurz auf das R Programm und die verwendeten Hilfsmittel eingegangen. Der letzte Abschnitt erläutert die Ergebnisse anhand einer ausgewählten Simulation
und behandelt abschließend einige Sonderfälle.
5.1 Das Modell
(i) Betrachtet werden die m Folgen von Zufallsvariablen ζn
vektor (N1 , . . . , Nm ) mit folgenden Eigenschaften:
(i)
n∈N
, i ≤ m, und ein Zufalls-
(i)
(i) Die Folgenglieder ζ1 , ζ2 , . . . sind für jedes i ≤ m unabhängig und identisch verteilt mit Verteilungsfunktion Fi .
(i) (ii) Die i-te Folge ζn
n∈N
ist unabhängig von Ni , i ≤ m.
(iii) Ni ist Poisson-verteilt zum Parameter λi > 0, i ≤ m.
Unter diesen Voraussetzungen definieren wir den Zufallsvektor X = (X1 , . . . , Xm ) durch
Xi :=
Ni
X
k=1
1
(i)
ζk ,
i ≤ m,
R kann kostenlos unter http://www.r-project.org/ heruntergeladen werden.
(5.1)
5.1 Das Modell
52
P
Pm
und untersuchen die Verteilung von kXk1 = m
i=1 |Xi | =
i=1 Xi in der Nähe ihres
rechten Endpunkts. Dazu betrachten wir für α ∈ (0, 1) das α-Quantil
qα := H −1 (α) = inf x ∈ R H(x) ≥ α ,
(5.2)
wobei H die Verteilungsfunktion von kXk1 bezeichnet, und den bedingten Erwartungswert von kXk1 gegeben, dass kXk1 mindestens den Wert qα annimmt,
eα := E kXk1 kXk1 ≥ qα .
(5.3)
Im Sinne von Satz 2.1.6 ist eα die beste Vorhersage von kXk1 , wenn die Information
kXk1 ≥ qα gegeben ist.
Beispiel 5.1.1. Di Clemente und Romano (2004) verwenden diesen Ansatz, um den Gesamtschaden zu modellieren, der im Laufe eines Jahres einer Versicherung gemeldet wird.
(i)
In diesem Zusammenhang entspricht ζk der k-ten Schadensmeldung im Geschäftsfeld i
der Versicherung im betrachteten Jahr und Ni ist die Gesamtzahl von Schadensmeldungen in diesem Geschäftsfeld. Xi ist dementsprechend der Gesamtschaden in Geschäftsfeld
i und kXk1 der gesuchte Gesamtschaden der Versicherung im betrachteten Jahr.
(i)
Es wird angenommen, dass die einzelnen Schadensmeldungen ζk im zentralen Bereich
(i)
– d. h. unterhalb eines Schwellenwertes z0 – einer Lognormalverteilung folgen und im
übrigen Bereich einer univariaten GPD, d. h.
(i)
P ζk
 (i)
log(x)−µi

,
0 < x ≤ z0 ,
Φ
σi
≤x =
(i)
(i)
(i) (i)
Φ log(z0 )−µi + 1 − Φ log(z0 )−µi W
ξi ;0,βi x − z0 , x > z0 .
σi
σi
Dabei bezeichnet Φ die Verteilungsfunktion der Standardnormalverteilung, µi ∈ R und
σi > 0 sind Lokations- und Skalenparameter der Lognormalverteilung und die GPD
Wξi ;0,βi mit ξi , βi > 0 ist gegeben wie in (2.14).
Außerdem modellieren Di Clemente und Romano (2004) die Abhängigkeitsstruktur
zwischen den Komponenten von X – d. h. zwischen den einzelnen Geschäftsfeldern –
durch eine t-Copula mit ν Freiheitsgraden (siehe unten).
Unter den Annahmen aus Beispiel 5.1.1 erzeugen wir n = 104 Realisationen von X und
schätzen daraus die Werte qα und eα (siehe Abschnitt 5.2). Allerdings wird das Modell
dahingehend erweitert, dass der multivariate Piecing-Together Ansatz aus Abschnitt 4.3
auf die oben genannte t-Copula angewendet wird. Die Simulationsergebnisse werden in
Abschnitt 5.3 diskutiert.
5.1 Das Modell
53
An dieser Stelle soll kurz auf die Definition einer t-Copula eingegangen werden. Seien
R ∈ Rm×m eine Korrelationsmatrix und η ein Zufallsvektor in Rm , der einer multivariaten Normalverteilung N (0, R) folgt. Ist S eine von η unabhängige Chi-Quadrat-verteilte
Zufallsvariable mit ν Freiheitsgraden (in Zeichen χ2ν ), dann folgt
√
ν
T := √ η
S
(5.4)
einer m-dimensionalen standardisierten t-Verteilung mit ν Freiheitsgraden. Da jede Komponente Ti von T = (T1 , . . . , Tm ) einer univariaten t-Verteilung mit ν Freiheitsgraden
(in Zeichen tν ) folgt, ist der Zufallsvektor tν (T1 ), . . . , tν (Tm ) der transformierten Komponenten nach einer Copula verteilt, die man eine t-Copula mit ν Freiheitsgraden nennt.
Aufgetretene Probleme
In Di Clemente und Romano (2004) werden die Modell-Parameter aus vorhandenem
Datenmaterial geschätzt. Bei genauerer Betrachtung der Schätzungen für µi und σi fällt
jedoch auf, dass sich daraus sehr hohe Wahrscheinlichkeiten für das Überschreiten der
(i)
Schwellenwerte z0 ergeben:
(i)
(i) P ζk > z0
!
(i) log z0 − µi
,
=1−Φ
σi
k ∈ N, i ≤ m.
Da das nicht vereinbar mit dem übrigen Teil ihres Artikels ist, wird für die Simulationen in diesem Kapitel angenommen, dass die Werte aus Di Clemente und Romano
(2004) nicht Lokations- und Skalenparameter, sondern Erwartungswerte und Standardabweichungen der Lognormalverteilungen angeben. Aus diesen Größen wurden dann die
Lokations- und Skalenparameter µi bzw. σi berechnet.
i
1
2
λi
15.4
18.8
µi
8.039525
7.944303
σi
1.414820
1.421709
(i)
z0
41 823
39 274
βi
20 975.44
21 141.16
ξi
0.33799
0.28845
Tabelle 5.1: Geschätzte Parameter des Modells aus Di Clemente und
Romano (2004), wobei die Werte in den Spalten µi und σi modifiziert
wurden.
(i)
Ein weiteres Problem liegt im Verlauf der Verteilungsfunktionen Fi (x) = P ζk ≤ x ,
x > 0, (vgl. Beispiel 5.1.1): Eine grafische Analyse mit Mathematica 6 erweckte den
Eindruck, als würde eine Lognormalverteilung große Werte mit einer höheren Wahr-
5.1 Das Modell
54
scheinlichkeit versehen als Fi , d. h.
log(x) − µi
Φ
− Fi (x) ≤ 0
σi
(5.5)
für alle hinreichend großen x ∈ R. Das widerspricht nicht nur der Anschauung2 , sondern
auch folgendem Resultat:
Satz 5.1.2. Seien µi ∈ R und σi , ξi , βi > 0 gegeben und Φ, Fi wie zuvor. Dann gilt
lim
x→∞
1 − Fi (x)
1−Φ
log(x)−µi σi
= ∞.
(5.6)
(i)
Beweis. Für x > z0 gilt
!
!!
(i) (i) log z0 − µi
log z0 − µi
(i) 1 − Fi (x) = 1 − Φ
− 1−Φ
Wξi ;0,βi x − z0
σi
σi
!!
!
(i) (i) −1/ξi
log z0 − µi
x − z0
= 1−Φ
1 + ξi
σi
βi
!!
(i)
1
x − z0
=: pi exp − log 1 + ξi
.
ξi
βi
Außerdem erhält man aus Lemma 1.19.2 in Gänssler und Stute (1977)
log(x) − µi
1−Φ
σi
d. h. es gilt für x ≥ exp
log(x) − µi
σi
exp −
≤√
2σi2
2π log(x) − µi
2σi2
ξi
+ µi
2 !
,
x > exp(µi ),
!
log(x) − µi · 2σi2
log(x) − µi
σi
exp −
1−Φ
≤√
σi
2σi2 · ξi
2π log(x) − µi
σi exp µi ξi
1
exp − log(x) .
=√
ξi
2π log(x) − µi
(i)
Insgesamt folgt für x > max z0 , exp
2σi2
ξi
+ µi
"
! #!
√
(i)
pi 2π
1
x − z0
1
log(x) − µi exp − log 1 + ξi
·
≥
log(x)−µi ξi
βi
x
σi exp µi ξi
1−Φ
σi
1 − Fi (x)
2
Üblicherweise wird eine GPD an den rechten Rand einer Verteilung angepasst, um sehr großen Werten
eine höhere Wahrscheinlichkeit zu geben.
5.1 Das Modell
55
!−1/ξi
√
βi − ξi z0(i)
pi 2π
ξi
log(x) − µi
=
+
βi x
βi
σi exp µi ξi
→ ∞ für x → ∞,
da log(x) für x → ∞ unbeschränkt wächst, während
0 konvergiert.
(i)
βi −ξi z0
βi x
+ βξii
−1/ξi
gegen
ξi −1/ξi
βi
>
Damit ist die Vermutung in (5.5) widerlegt. Tatsächlich lässt sich Gleichung (5.6) für
die Parameter in Tabelle 5.1 auch in oben genannter grafischer Analyse beobachten –
allerdings erst für sehr große Werte von x.3
Festlegung der freien Parameter
Wie schon an Tabelle 5.1 erkennbar ist, betrachten wir den Fall m = 2. Die Abhängigkeitsstruktur zwischen den Komponenten des Zufallsvektors X aus (5.1) wird durch eine
t-Copula Ct mit ν = 12 Freiheitsgraden modelliert, der die Korrelationsmatrix
R :=
!
1 0.73
0.73 1
(5.7)
zugrunde liegt, vgl. (5.4) und Di Clemente und Romano (2004).
(1)
(2) Es bleiben noch der Schwellenwert u0 = u0 , u0 , ab dem gemäß Abschnitt 4.3
eine GPD-Copula CW an Ct angepasst werden soll, und CW selbst festzulegen. Wir
eW mit
wählen u0 := 1/2, 1/2 und bestimmen einen Zufallsvektor V = (V1 , V2 ) aus C
eW (x) = CW (x + 1), x ∈ R2 , durch das Verfahren in (4.8), d. h.
C
Vi =

−
U
,
2Si
falls U ≤ Si ,
 Si − 1, falls U > S ,
i
2U
(5.8)
wobei S = (S1 , S2 ) der bivariaten Normal-Copula mit Kovarianzmatrix R aus (5.7)
folgt und U eine von S unabhängige auf (0, 1) gleichverteilte Zufallsvariable ist. Nach
Satz 4.2.1 ist damit insbesondere CW festgelegt.
3
Di Clemente und Romano (2004) betrachten nicht zwei, sondern drei Dimensionen. Jedoch setzt für
eine dieser drei Komponenten (Geschäftsfeld wind storm“) das asymptotische Verhalten in (5.6)
”
erst so weit im rechten Rand der beiden Verteilungen ein, dass es zumindest grafisch auch bei hoher
Rechengenauigkeit nicht mehr beobachtbar ist. Deswegen wurde die entsprechende Komponente für
die Simulationen nicht berücksichtigt.
5.2 Das Programm im Überblick
56
5.2 Das Programm im Überblick
Dieser Abschnitt beschäftigt sich kurz mit dem selbst entwickelten R Programm, das für
die Simulationen im nächsten Abschnitt verwendet wurde. Es entstand unter Verwendung der Entwicklungsumgebung Eclipse Classic 3.4.24 mit dem Plugin StatET
0.7.25 und benötigt die R Pakete rJava6 (0.6-2), stats (2.8.1), mvtnorm (0.9-4), mnormt
(1.3-2), scatterplot3d (0.3-27), corpcor (1.5.2), sn (0.4-11), adapt (1.0-4), pspline
(1.0-13) und copula7 (0.8-3). In Klammern steht jeweils die verwendete Version.
Da die Funktionen, die das Programm zur Verfügung stellt, im Quellcode ausführlich
kommentiert sind, soll hier nur ein kurzer Überblick gegeben werden:
• PiecingTogether ist die zentrale Funktion im Programm und erlaubt die Erzeugung von Zufallsvektoren X entsprechend des Modells aus Abschnitt 5.1, wobei
die Verwendung des multivariaten Piecing-Together Ansatzes vom Benutzer auch
unterdrückt werden kann.
Diese Funktion prüft die Eingabewerte auf ihre Gültigkeit und legt in einem vom
Benutzer angegebenen Output-Verzeichnis selbstständig eine Ordnerstruktur an,
in die die Simulationsergebnisse gespeichert werden.8 Jede Simulation erhält eine
eindeutige ID, so dass auch mehrere Simulationen mit den gleichen Parameterwerten durchgeführt werden können.
Zum standardmäßig erzeugten Output gehören eine Log-Datei, die den ProgrammAblauf dokumentiert, sowie Text-Dateien, die die Zufallswerte aus den einzelnen
Programm-Abschnitten enthalten, und (im Fall m = 2) Scatterplots der Daten
aus diesen Text-Dateien im eps-Format. Falls gewünscht, werden auch Dateien
erzeugt, die Schätzwerte q̂α und êα für qα und eα zu verschiedenen Werten von
α ∈ (0, 1) enthalten, vgl. (5.9) und (5.10).
• combineQuanME ist eine Funktion, die die Schätzwerte q̂α und êα aus mehreren
bereits vorhandenen Simulationen kombiniert. Dazu müssen die Parameterwerte
der einzelnen Simulationen übereinstimmen.
Eclipse ist verfügbar unter http://www.eclipse.org/ und benötigt zusätzlich eine Java Runtime
Environment (JRE), die unter http://java.sun.com/javase/downloads/index.jsp verfügbar ist. Siehe
dazu auch die Hinweise unter http://www.eclipse.org/downloads/moreinfo/jre.php
5
verfügbar unter http://www.walware.de/goto/statet
6
Dieses Paket wird nur für die Verbindung zwischen R und Eclipse benötigt. Wird Eclipse nicht
verwendet, ist dieses Paket überflüssig.
7
Eine Beschreibung dieses Pakets ist in Yan (2007) zu finden.
8
Leider erlaubt ein 32-Bit Microsoftr Windowsr Betriebssystem nur eine Pfad-Länge von maximal 255
Zeichen. Trotz Verwendung möglichst kurzer Ordner-Namen könnte dies bei Dimensionen m ≥ 3 zu
Problemen führen. Ich empfehle daher, den Output-Ordner direkt im Stammverzeichnis der Partition
zu wählen (z. B. D:\Output).
4
5.2 Das Programm im Überblick
57
Zu den Eingabewerten dieser Funktion gehören u. a. der vollständige Pfad zu den
Simulationsergebnissen sowie eine Start- und eine Endmarke. Für alle Simulationen, deren ID größer oder gleich der Startmarke und kleiner oder gleich der Endmarke ist, werden die Werte q̂α bzw. êα eingelesen und das arithmetische Mittel
gebildet. Das geschieht für jeden Wert von α separat.
Es obliegt der Sorgfalt des Benutzers, darauf zu achten, dass alle betrachteten
Simulationen den gleichen Umfang (d. h. die gleiche Anzahl von erzeugten Zufallsvektoren) und den gleichen Copula-Schwellenwert u0 (vgl. Abschnitt 4.3 und
Abschnitt 5.1) haben. Außerdem muss der Wertebereich von α, für den q̂α und êα
berechnet wurden, in allen Simulationen derselbe sein.
• addCentralQuanME ergänzt Simulationen, die auf dem multivariaten Piecing-Together Ansatz basieren, um entsprechende Daten und (im Fall m = 2) Grafiken,
die sich ohne Verwendung dieses Ansatzes ergeben.
Durch die Angabe von Start- und Endmarken (vgl. combineQuanME) wird diese
Operation für mehrere Simulationen hintereinander durchgeführt. Zusätzlich erfolgt ein Aufruf von combineQuanME, so dass die neu hinzugefügten Schätzwerte
für qα bzw. eα um deren arithmetisches Mittel ergänzt werden.
Es sei darauf hingewiesen, dass das Programm nicht nur Normal- und t-Copulas unterstützt. Außerdem stehen noch die einparametrige Marshall-Olkin-Copula, Archimedische Copulas (Clayton, Frank, Gumbel9 , Ali-Mikhail-Haq) und Extremwertcopulas
(Galambos, Hüsler-Reiss) zur Verfügung, siehe auch Yan (2007) und Nelsen (2006).
Die Randverteilungen Fi∗ , i ≤ m, (vgl. Abschnitt 4.3) werden durch Monte-Carlo
Simulationen gemäß (5.1) ermittelt und in jeweils einer Datei gespeichert. Wenn diese
Dateien bereits existieren, wird das von der Funktion PiecingTogether erkannt, so dass
die empirischen Randverteilungen F̂i∗ , i ≤ m, direkt importiert werden können.
Unter Verwendung von F̂i∗ , i ≤ m, werden n unabhängige Realisationen x1 , . . . , xn
des Zufallsvektors X (siehe Gleichung (5.1)) erzeugt und daraus die empirische Verteilungsfunktion Ĥ von kXk1 bestimmt. Diese erlaubt dann die Schätzung von qα aus (5.2)
durch
q̂α := Ĥ −1 (α).
(5.9)
Außerdem gilt für den bedingten Erwartungswert aus (5.3)
E kXk1 1{kXk1 ≥qα }
,
eα =
P kXk1 ≥ qα
9
Die Gumbel-Copula gehört auch zur Klasse der Extremwertcopulas.
5.3 Simulationsergebnisse
58
wobei P kXk1 ≥ qα = 1 − P kXk1 < H −1 (α) = 1 − P H(kXk1 ) < α . Da H unter
den gegebenen Voraussetzungen stetig ist, gilt insbesondere
eα =
1
E kXk1 1{kXk1 ≥qα } .
1−α
Das starke Gesetz der großen Zahlen motiviert demnach den Schätzer
n
X
1
êα :=
kxj k1 1[q̂α ,∞) (kxj k1 ).
n(1 − α) j=1
(5.10)
Analog lassen sich auch die entsprechenden Quantile und bedingten Erwartungswerte
der einzelnen Komponenten Xi , i ≤ m, von X schätzen.
5.3 Simulationsergebnisse
Abschließend soll auf die Ergebnisse der Simulationen eingegangen werden. Die Funktionen aus dem vorangegangenen Abschnitt wurden verwendet, um 50 unabhängige Simulationen des Modells aus Abschnitt 5.1 zu generieren und die Werte q̂α und êα für
α ∈ {0.9, 0.95, 0.99, 0.995, 0.999} zu berechnen. Dazu wurden die empirischen Verteilungsfunktionen F̂1∗ , F̂2∗ auf der Basis von 106 zufälligen Werten berechnet und n = 104
Realisationen von X = (X1 , X2 ) unter Verwendung des multivariaten Piecing-Together
Ansatzes aus Abschnitt 4.3 erzeugt.
Anschließend bildete combineQuanME die Mittelwerte von q̂α bzw. êα über diese 50
Simulationen, um möglichst verlässliche Schätzungen zu erhalten (siehe Tabelle 5.2 und
Tabelle 5.3).
α
X1
X2
kXk1
0.9
210 793
229 054
415 526
0.95
253 376
271 393
495 340
0.99
369 286
381 328
710 413
0.995
429 961
435 589
821 624
0.999
629 664
594 345
1 156 590
Tabelle 5.2: Mittelwerte aus 50 Schätzungen der α-Quantile für verschiedene Werte von α
Zuletzt wurden mittels addCentralQuanME die entsprechenden Werte hinzugefügt, die
entstehen, wenn man den multivariaten Piecing-Together Ansatz nicht anwendet. Das
bedeutet, dass die Abhängigkeitsstruktur zwischen den Komponenten von X nicht durch
eine GPD-Copula beschrieben wird, sondern durch die ursprüngliche t-Copula aus Abschnitt 5.1. Die Tabellen 5.4 und 5.5 geben an, um wieviel Prozent die Mittelwerte in
5.3 Simulationsergebnisse
α
X1
X2
kXk1
0.9
281 288
296 211
546 153
59
0.95
333 167
344 766
641 792
0.99
490 434
483 383
924 387
0.995
586 347
562 570
1 090 940
0.999
957 484
855 025
1 724 303
Tabelle 5.3: Mittelwerte aus 50 Schätzungen des bedingten Erwartungswertes gegeben eine Überschreitung des α-Quantils für verschiedene
Werte von α
den Tabellen 5.2 und 5.3 größer sind als die entsprechenden Werte, die man ohne Anwendung des multivariaten Piecing-Together Ansatzes erhält. Da sich diese beiden Fälle
α
X1
X2
kXk1
0.9
0.06
0.07
-2.72
0.95
0.15
0.27
-1.66
0.99
0.59
0.89
0.47
0.995
0.21
0.63
1.10
0.999
0.13
-1.09
2.59
Tabelle 5.4: Relative Veränderung der α-Quantile beim Übergang von
einer t-Copula zu einer GPD-Copula in Prozent
α
X1
X2
kXk1
0.9
0.31
0.29
-0.83
0.95
0.49
0.41
0.17
0.99
0.76
0.53
2.22
0.995
1.01
0.38
3.16
0.999
2.39
1.50
6.44
Tabelle 5.5: Relative Veränderung der bedingten Erwartungswerte
beim Übergang von einer t-Copula zu einer GPD-Copula in Prozent
nur durch die zugrunde liegende Copula unterscheiden, die Randverteilungen F̂1∗ , F̂2∗ aber
dieselben sind, würde man erwarten, dass die Zahlen in den Zeilen X1“ und X2“ von
”
”
Tabelle 5.4 nahe bei Null liegen. Tatsächlich gibt es in diesem Bereich nur einen Wert,
der betragsmäßig größer als 1% ist. Obwohl diese Überlegungen auch für die betreffenden
Zeilen in Tabelle 5.5 gelten, sind die Unterschiede hier schon etwas größer: Alle Werte
sind positiv und nehmen mit wachsendem α tendenziell zu.
Deutlichere Abweichungen findet man dagegen in der Zeile kXk1“ der Tabellen 5.4
”
und 5.5. Ausgehend von einer negativen Veränderung für α = 0.9 wachsen die Größen
zeilenweise bis auf 2.59% bzw. 6.44% an. Dass die Werte für größer werdendes α zunehmen, war zu erwarten. Schließlich soll durch die Modellierung mittels eines multivariaten
Piecing-Together Ansatzes die Wahrscheinlichkeit, dass die beiden Komponenten X1 , X2
gleichzeitig groß sind, im Vergleich zur Ausgangssituation erhöht werden.
5.3 Simulationsergebnisse
60
Grafische Analyse
0.0
−1.0
0.2
−0.8
0.4
−0.6
0.6
−0.4
0.8
−0.2
1.0
0.0
Nun betrachten wir die in Abschnitt 5.2 erwähnten Scatterplots, um die Auswirkungen
des multivariaten Piecing-Together Ansatzes auch grafisch hervorzuheben. Dazu wird
aus den insgesamt 50 Simulationen eine ausgewählt, deren Schätzungen für qα und eα
nahe bei den Durchschnittswerten in den Tabellen 5.2 und 5.3 liegen.
Wir beginnen mit der Normal-Copula, die dem Zufallsvektor S = (S1 , S2 ) aus Abschnitt 5.1 zugrunde liegt. Abbildung 5.1 stellt den Realisationen von S die Realisationen
des Zufallsvektors V gegenüber, der gemäß (4.8) bzw. (5.8) aus S hervorgeht und einer
GPD-Copula auf [−1, 0]2 folgt.10 Abgesehen von der Verschiebung vom Intervall [0, 1]2
0.0
0.2
0.4
0.6
0.8
1.0
−1.0
−0.8
−0.6
−0.4
−0.2
0.0
Abbildung 5.1: 104 Realisationen von S (links) und V (rechts)
nach [−1, 0]2 fällt auf, dass sich die Realisationen von V in der Nähe des rechten Endpunkts (in diesem Fall 0) viel stärker entlang der Winkelhalbierenden gruppieren als
die Realisationen von S. Das bedeutet, dass die beiden Komponenten in diesem Bereich
stärker voneinander abhängen, vgl. auch Abbildung 2.6.
Im nächsten Schritt wird der Zufallsvektor Y , der der t-Copula aus Abschnitt 5.1
folgt, mit V zu einem Zufallsvektor Q verknüpft, vgl. (4.10) und (4.11). Dieser folgt
gemäß (4.12) einer GPD-Copula, die auf der Menge [0, 1/2]2 mit der ursprünglichen
t-Copula übereinstimmt. An Abbildung 5.2 wird analog zu Abbildung 5.1 deutlich,
dass die zusammengesetzte“ Copula im Vergleich zur ursprünglichen t-Copula höhe”
re Abhängigkeiten in der Nähe des rechten Endpunkts beschreibt. Außerdem fällt auf,
dass der multivariate Piecing-Together Ansatz diese t-Copula bereits dann modifiziert,
wenn nur eine Komponente ihren Schwellenwert überschreitet.
10
Die horizontalen und vertikalen
Geraden
entsprechen
den
Copula-Schwellenwerten
u
=
1/2,
1/2
0
bzw. y0 = −1/2, −1/2 , vgl. Abschnitt 4.3 und das Ende von Abschnitt 5.1.
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
61
1.0
5.3 Simulationsergebnisse
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 5.2: 104 Realisationen von Y (links) und Q (rechts)
Darüber hinaus erkennt man bei genauer Betrachtung des Intervalls [1/2, 1]2 in der
rechten Grafik von Abbildung 5.2 ein kleines Abbild der rechten Grafik in Abbildung 5.1.
Das liegt an der Berechnung von Q mittels (4.10) und (4.11): Überschreitet die i-te
(i)
Komponente Yi von Y den Schwellenwert y0 , dann wird sie durch die i-te Komponente
(i)
Vi von V ersetzt. Dabei wird durch die Multiplikation mit −y0 und der Addition von
1 sichergestellt, dass die i-te Komponente Qi von Q im Überschreitungsbereich liegt,
(i)
(i)
d. h. Qi > u0 = y0 + 1. Da nicht verlangt wird, dass Vi selbst den Schwellenwert
(i)
y0 überschreitet, werden auch Realisationen von Vi nahe Null so skaliert, dass sie im
Überschreitungsbereich liegen. Das kann u. U. dazu führen, dass durch den multivariaten
Piecing-Together Ansatz ursprünglich große Werte verkleinert werden.11
Im letzten Schritt des multivariaten Piecing-Together Ansatzes werden die einzelnen
Komponenten der Realisationen von Q mit den Quantilfunktionen F̂1∗−1 , F̂2∗−1 der empirischen Randverteilungen transformiert. Verwendet man Y anstelle von Q, dann erhält
man zwar auch Realisationen eines Zufallsvektors mit Randverteilungen F̂1∗ , F̂2∗ , allerdings wird die Abhängigkeitsstruktur zwischen den Komponenten dieses Zufallsvektors
dann nicht durch eine GPD-Copula, sondern durch die t-Copula von oben beschrieben.
Abbildung 5.3 vergleicht beide Fälle miteinander. Wie zu erwarten war, wird durch die
Verwendung des multivariaten Piecing-Together Ansatzes die Wahrscheinlichkeit erhöht,
dass beide Komponenten gleichzeitig groß sind. Durch die Struktur der zugrunde liegenden GPD-Copula (vgl. Abbildung 5.2) liegt aber auch ein gewisses Gewicht auf der
Menge, auf der nur eine von beiden Komponenten große Werte annimmt.
11
Siehe dazu auch den Abschnitt Ausgewählte Sonderfälle weiter unten.
1000000
500000
0
0
500000
1000000
1500000
62
1500000
5.3 Simulationsergebnisse
0
500000
1000000
1500000
0
500000
1000000
1500000
Abbildung 5.3: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes
Ausgewählte Sonderfälle
3500000
2500000
1500000
500000
0
0
500000
1500000
2500000
3500000
Die Simulationsergebnisse, die bisher besprochen wurden, entsprechen in etwa den Erwartungen: Die Wahrscheinlichkeit dafür, dass mehrere Komponenten eines Zufallsvektors gleichzeitig große Werte annehmen, ist bei der Modellierung mit dem multivariaten
Piecing-Together Ansatz höher als in Ausgangssituation, in der die Abhängigkeitsstruktur durch eine t-Copula beschrieben wird.
Während oben besprochene Simulation als eine Art Normalfall anzusehen ist, gibt es
auch extremere Beispiele. Abbildung 5.4 zeigt eine solche Simulation. Bei Anwendung
0
500000
1500000
2500000
3500000
0
500000
1500000
2500000
Abbildung 5.4: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, Extrembeispiel
3500000
5.3 Simulationsergebnisse
63
4e+06
3e+06
2e+06
1e+06
0e+00
0e+00
1e+06
2e+06
3e+06
4e+06
des multivariaten Piecing-Together Ansatzes hat kXk1 ein geschätztes 99.9%-Quantil
von q̂0.999 = 1 310 154. Die Schätzung für den zugehörigen bedingten Erwartungswert
e0.999 ist mit 2 148 940 deutlich größer als der Mittelwert aus Tabelle 5.3.
Entgegen der Anschauung stellt der multivariate Piecing-Together Ansatz nicht in jedem Fall sicher, dass Werte erzeugt werden, so dass beide Komponenten gleichzeitig groß
sind. Abbildung 5.5 zeigt eine Simulation, in der die Erhöhung der Schätzungen q̂0.999
und ê0.999 (verglichen mit der Modellierung durch eine t-Copula) auf eine Beobachtung
zurückzuführen sein dürfte, die nur in der ersten Komponente groß ist.
0e+00
1e+06
2e+06
3e+06
4e+06
0e+00
1e+06
2e+06
3e+06
4e+06
Abbildung 5.5: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, univariater
großer Wert
Wie Abbildung 5.6 entnommen werden kann, gibt es sogar Simulationen, in denen
der multivariate Piecing-Together Ansatz ursprünglich große Werte deutlich verkleinert.
Das ist zwar nicht beabsichtigt, liegt aber an dem Verfahren in Gleichung (4.10). Siehe
dazu auch die Ausführungen im Abschnitt Grafische Analyse.
2e+06
4e+06
6e+06
64
0e+00
0e+00
2e+06
4e+06
6e+06
5.3 Simulationsergebnisse
0e+00 1e+06 2e+06 3e+06 4e+06 5e+06 6e+06
0e+00 1e+06 2e+06 3e+06 4e+06 5e+06 6e+06
Abbildung 5.6: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, unerwarteter
Fall
65
6 Ausblick
Diese Arbeit widmete sich der Herleitung eines multivariaten Piecing-Together Ansatzes in der Extremwerttheorie unter Verwendung von Copulas. Wie wir gesehen haben,
eignet sich dieses Verfahren – analog zu seinem univariaten Gegenstück – dazu, um auch
im multivariaten Kontext Überschreitungen über hohe Schwellenwerte zu modellieren.
Insbesondere lassen sich dadurch Wahrscheinlichkeiten von Ereignissen im rechten Rand
einer multivariaten Verteilung approximieren, für die noch keine Daten vorliegen.
Wie am Ende von Abschnitt 4.3 erwähnt wurde, hätte jedoch die Beantwortung aller
offenen Fragen den Rahmen dieser Arbeit gesprengt. So wurde gezeigt, wie sich Zufallsvektoren erzeugen lassen, die einer GPD folgen, und dass man auf diese Art auch
jede GPD simulieren kann (Satz 4.2.1). Das Herausfinden des Zusammenhangs, wie man
einen solchen Vektor wählen muss, damit dieser einer bestimmten GPD folgt, bleibt
jedoch eine interessante Fragestellung.
Obwohl wir in Kapitel 5 gesehen haben, dass der vorgestellte Piecing-Together Ansatz
durchaus ein brauchbares Verfahren ist, wurde auch aufgedeckt, dass er noch einige
Schwächen aufweist. Eine Verbesserung des Verfahrens könnte bspw. dadurch erzielt
werden, in Gleichung (4.10) noch zusätzliche Bedingungen an die Werte aus der GPDCopula zu stellen, wie es in Abschnitt 5.3 schon angedeutet wurde.
Insgesamt lässt sich jedoch festhalten, dass mit der vorgestellten multivariaten Version
des Piecing-Together Ansatzes eine wichtige Tür aufgestoßen wurde, um auch multivariate Daten so zu modellieren, dass hohe Beobachtungen im rechten Rand einer Verteilung
angemessen beschrieben werden.
Abbildungsverzeichnis
66
Abbildungsverzeichnis
2.1
2.2
2.3
2.4
2.5
2.6
2.7
5.1
5.2
5.3
5.4
5.5
5.6
Verschiedene Informationsgehalte über X . . . . . . . . . . . . . . . . . .
Dichten der Standard-EVDs mit Parameter α = 1 . . . . . . . . . . . . .
Verteilungsfunktionen der Gumbel-Verteilung und des normierten Maximums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gumbel-Approximation für ξ nahe Null . . . . . . . . . . . . . . . . . . .
Dichten der Standard-GPDs mit Parameter α = 1 . . . . . . . . . . . . .
104 Zufallsvektoren aus der Copula Π und aus der Copula M . . . . . . .
104 Zufallsvektoren aus einer Normal-Copula . . . . . . . . . . . . . . . .
104 Realisationen von S und V . . . . . . . . . . . . . . . . . . . . . . .
104 Realisationen von Y und Q . . . . . . . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, Extrembeispiel . . . . . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, univariater großer Wert . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, unerwarteter Fall . . . . . . . . . . . . . . . . . . . .
5
16
17
19
20
23
24
60
61
62
62
63
64
Tabellenverzeichnis
67
Tabellenverzeichnis
2.1
Normierungskonstanten für die Standard-EVDs . . . . . . . . . . . . . .
18
5.1
5.2
5.3
5.4
5.5
Geschätzte Parameter des Modells . . . . . . . . . . . . . . . . . .
Mittelwerte aus 50 Schätzungen der α-Quantile . . . . . . . . . .
Mittelwerte aus 50 Schätzungen des bedingten Erwartungswertes .
Relative Veränderung der α-Quantile in Prozent . . . . . . . . . .
Relative Veränderung der bedingten Erwartungswerte in Prozent .
53
58
59
59
59
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Literaturverzeichnis
68
Literaturverzeichnis
Aulbach, S., Bayer, V., Falk, M. (2009). A Multivariate Piecing-Together Approach with
an Application to Operational Loss Data. Technischer Bericht, Julius-MaximiliansUniversität Würzburg.
Balkema, A. A., de Haan, L. (1974). Residual Life Time at Great Age. In The Annals
of Probability 2 (5), S. 792–804.
Bauer, H. (1992). Maß- und Integrationstheorie. 2. Auflage. Walter de Gruyter, Berlin,
New York.
Bauer, H. (2002). Wahrscheinlichkeitstheorie. 5. Auflage. Walter de Gruyter, Berlin,
New York.
Buishand, T. A., de Haan, L., Zhou, C. (2008). On spatial extremes: With application
to a rainfall problem. In The Annals of Applied Statistics 2 (2), S. 624–642.
Di Clemente, A., Romano, C. (2004). A Copula-Extreme Value Theory Approach for
Modelling Operational Risk. In Operational Risk Modelling and Analysis - Theory and
Practice, herausgegeben von M. Cruz, Kapitel 9. Risk Books, London.
Deheuvels, P. (1978). Caractèrisation complète des lois extrème multivariées et de la
convergene des types extrèmes. In Publ. Inst. Statist. Univ. Paris 23, S. 1–36.
Deheuvels, P. (1984). Probabilistic aspects of multivariate extremes. In Statistical Extremes and Applications, herausgegeben von J. Tiago de Oliveira, S. 117–130. D. Reidel
Publishing Company.
Embrechts, P., Klüppelberg, C., Mikosch, T. (1997). Modelling Extremal Events for Insurance and Finance, Band 33 von Applications of Mathematics - Stochastic Modelling
and Applied Probability. Springer-Verlag, Berlin, Heidelberg, New York.
Falk, M. (2008). It was 30 years ago today when Laurens de Haan went the multivariate
way. In Extremes 11 (1), S. 55–80.
Literaturverzeichnis
69
Falk, M., Hüsler, J., Reiss, R.-D. (2004). Laws of Small Numbers: Extremes and Rare
Events. 2. Auflage. Birkhäuser Verlag, Basel, Boston, Berlin.
Falk, M., Marohn, F., Tewes, B. (2002). Foundations of Statistical Analyses and Applications with SAS. Birkhäuser Verlag, Basel, Boston, Berlin.
Falk, M., Michel, R. (2009). Testing for a multivariate generalized Pareto distribution.
In Extremes 12 (1), S. 33–51.
Galambos, J. (1987). The Asymptotic Theory of Extreme Order Statistics. 2. Auflage.
Krieger, Malabar.
Gänssler, P., Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer-Verlag, Berlin,
Heidelberg, New York.
de Haan, L., de Ronde, J. (1998). Sea and Wind: Multivariate Extremes at Work. In
Extremes 1 (1), S. 7–45.
Huang, X. (1992). Statistics of Bivariate Extreme Values. Dissertation, Tinbergen Institute Research Series.
Köhler, G. (2006). Analysis, Band 14 von Berliner Studienreihe zur Mathematik. Heldermann Verlag, Lemgo.
Leadbetter, M. R., Lindgren, G., Rootzén, H. (1983). Extremes and Related Properties
of Random Sequences and Processes. Springer Series in Statistics. Springer-Verlag,
New York, Heidelberg, Berlin.
Michel, R. (2006). Simulation and Estimation in Multivariate Generalized Pareto
Models. Dissertation, Julius-Maximilians-Universität Würzburg. Verfügbar unter
http://www.opus-bayern.de/uni-wuerzburg/volltexte/2006/1848/.
Michel, R. (2007). Simulation of certain multivariate generalized Pareto distributions.
In Extremes 10 (3), S. 83–107.
Nelsen, R. B. (2006). An Introduction to Copulas. Springer Series in Statistics, 2.
Auflage. Springer Science+Business Media, New York.
Pickands, III, J. (1975). Statistical Inference Using Extreme Order Statistics. In The
Annals of Statistics 3 (1), S. 119–131.
Reiss, R.-D. (1989). Approximate Distributions of Order Statistics. (With Applications
to Nonparametric Statistics). Springer Series in Statistics. Springer, New York.
Literaturverzeichnis
70
Reiss, R.-D., Thomas, M. (2007). Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3. Auflage. Birkhäuser
Verlag, Basel, Boston, Berlin.
Resnick, S. I. (2008). Extreme Values, Regular Variation, and Point Processes. Springer
Series in Operations Research and Financial Engineering. Springer Science+Business
Media, New York.
Rootzén, H., Tajvidi, N. (2006). Multivariate generalized Pareto distributions. In Bernoulli 12 (5), S. 917–930.
Yan, J. (2007). Enjoy the Joy of Copulas: With a Package copula. In Journal of Statistical
Software 21 (4), S. 1–21.
71
Erklärung
Hiermit versichere ich, Stefan Aulbach, dass ich diese Arbeit selbstständig und nur unter
Verwendung der angegebenen Quellen und Hilfsmittel angefertigt habe. Außerdem habe
ich diese Diplomarbeit nicht bereits an einer anderen Hochschule oder in einem anderen
Studiengang zur Erlangung eines akademischen Grades eingereicht.
Würzburg, den 16. November 2009
72
Zugehörige Unterlagen
Herunterladen