Ein multivariater Piecing-Together Ansatz in der Extremwerttheorie

Lehrstuhl für Mathematische
Statistik
Institut für Mathematik
Julius-Maximilians-Universität Würzburg
Diplomarbeit im Studiengang Wirtschaftsmathematik
3500000
2500000
1500000
500000
0
0
500000
1500000
2500000
3500000
Ein multivariater Piecing-Together
Ansatz in der Extremwerttheorie
0
500000
1500000
2500000
3500000
0
500000
1500000
eingereicht von
Stefan Aulbach
am
16. November 2009
betreut von
Prof. Dr. Michael Falk
2500000
3500000
ii
Danksagungen
Ebenso wie man ein (Wirtschafts-)Mathematik-Studium als Ganzes kaum im Alleingang
bestreiten kann, war ich in der Entstehungsphase dieser Arbeit über konstruktive Gespräche sehr dankbar. In diesem Zusammenhang möchte ich besonders Martin Hofmann
und Diana Tichy erwähnen, da regelmäßige fachspezifische Diskussionen mit ihnen nicht
selten zur Festigung gewonnener Erkenntnisse oder zur Aufdeckung erweiterter Zusammenhänge führten. Besonderen Dank schulde ich auch Dr. Christian Weiß, der beim
Auftreten von Schwierigkeiten bei den Simulationen stets wertvolle Tipps parat hatte.
Nicht zuletzt möchte ich mich natürlich bei meinem Betreuer Prof. Dr. Michael Falk
bedanken. Er hatte immer ein offenes Ohr für mich und nahm sich oft auch kurzfristig Zeit, um auf meine Probleme und Sorgen im Zusammenhang mit der Diplomarbeit
einzugehen und mir bei der Lösung zu helfen.
Würzburg, im November 2009
Stefan Aulbach
Inhaltsverzeichnis
iii
Inhaltsverzeichnis
1 Einleitung
2 Grundlagen
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten . . . . . .
2.2 Univariate Extremwerttheorie . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Copulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
3
3
13
22
3 Multivariate Extremwerttheorie
28
3.1 Die Verteilung des m-dimensionalen Maximums . . . . . . . . . . . . . . 28
3.2 Eigenschaften multivariater Extremwertverteilungen . . . . . . . . . . . . 30
3.3 Multivariate verallgemeinerte Pareto-Verteilungen . . . . . . . . . . . . . 34
4 Ein
4.1
4.2
4.3
multivariater Piecing-Together Ansatz
37
Copulas im Anziehungsbereich von EVDs . . . . . . . . . . . . . . . . . . 38
Erzeugung von GPD-Zufallsvektoren . . . . . . . . . . . . . . . . . . . . 41
Multivariates Piecing-Together . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Simulationen
51
5.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Das Programm im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3 Simulationsergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Ausblick
65
Abbildungsverzeichnis
66
Tabellenverzeichnis
67
Literaturverzeichnis
68
Erklärung
71
1
1 Einleitung
Die Extremwerttheorie ist ein Teilgebiet der Wahrscheinlichkeitstheorie, das sich mit
der Verteilung von besonders großen bzw. besonders kleinen Beobachtungen beschäftigt.
Als solches findet sie bei praktischen Fragestellungen aus verschiedensten Fachbereichen
Anwendung. So lassen sich z. B. Höchststände des Meeresspiegels mit extremwerttheoretischen Methoden modellieren, um Rückschlüsse auf die erforderliche Deichhöhe in
Küstenregionen zu ziehen. (Tatsächlich haben ebendiese Überlegungen, die nach der
Hollandsturmflut von 1953 angestrengt wurden, maßgeblich zur Entwicklung der Extremwerttheorie beigetragen.) Es finden sich aber auch Beispiele aus der Finanzwelt: Die
Wahrscheinlichkeit, dass der Wert eines Portfolios einen bestimmten niedrigen Schwellenwert unterschreitet, kann ebenso beschrieben werden wie das Risiko, dass bei einer
Versicherung eine so hohe Schadensmeldung eingeht, die die Versicherung selbst in den
Ruin treibt.
Während anfangs das Hauptaugenmerk der Extremwerttheorie auf der Verteilung von
Maxima und Minima einer Folge von Zufallsvariablen lag, untersuchen neuere Ansätze
das asymptotische Verhalten von Beobachtungen, die einen vorgegebenen Schwellenwert
u über- bzw. unterschreiten. Es lässt sich zeigen, dass sich nur verallgemeinerte ParetoVerteilungen (GPD) dazu eignen, um solche Überschreitungen angemessen zu beschreiben. Daraus leitet sich ein Ansatz ab, der den oberen Rand einer Verteilungsfunktion F
durch eine GPD ersetzt – der sog. Piecing-Together Ansatz:
F (x) ≈ F (u) + 1 − F (u) W (x),
x > u.
Die GPD W kann dabei so gewählt werden, dass der Übergang zwischen F und dieser
Approximation stetig an der Stelle x = u ist.
Will man allerdings – um bei oben genannten Beispielen zu bleiben – mehrere Deiche
entlang eines Küstenstreifens, mehrere Portfolios, oder mehrere Geschäftsfelder einer
Versicherung simultan untersuchen, dann wird der Übergang zur multivariaten Extremwerttheorie erforderlich. Sie beschäftigt sich mit komponentenweisen Maxima und Minima von Zufallsvektoren bzw. mit solchen Zufallsvektoren X = (X1 , . . . , Xm ), die komponentenweise einen vorgegebenen Schwellenwert u = (u1 , . . . , um ) überschreiten, d. h.
2
Xi ≥ ui für i = 1, . . . , m. Zwar kann man auch in diesem Kontext multivariate GPDs
definieren und zeigen, dass sich der obere Rand einer multivariaten Verteilungsfunktion nur durch eine GPD sinnvoll annähern lässt. Jedoch wurde noch keine multivariate
Erweiterung des Piecing-Together Ansatzes etabliert.
Das Ziel dieser Arbeit ist es, eine Möglichkeit für einen multivariaten Piecing-Together
Ansatz aufzuzeigen und diesen anhand von Computer-Simulationen zu erproben. Dazu
werden zunächst einige Grundlagen zu bedingten Erwartungswerten, zur univariaten
Extremwerttheorie und zu Copulas geklärt. Letztere sind spezielle Verteilungsfunktionen, die sich dazu eignen, die Abhängigkeitsstruktur zwischen den Komponenten eines Zufallsvektors zu beschreiben. Im darauf folgenden Kapitel werden diese Ergebnisse
genutzt, um einen Überblick über wichtige Ergebnisse der multivariaten Extremwerttheorie zu bieten. Kapitel 4 geht anschließend auf den multivariaten Piecing-Together
Ansatz ein. Es bildet gemeinsam mit Kapitel 5, das der Umsetzung der Resultate in
ein Computer-Programm und der Beschreibung der Simulationsergebnisse gewidmet ist,
den zentralen Teil dieser Arbeit. Ein Ausblick auf mögliche Erweiterungen und Verbesserungen rundet den vorliegenden Text ab.
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
3
2 Grundlagen
Um die späteren Überlegungen besser nachvollziehen zu können, soll an dieser Stelle
auf wichtige Grundlagen eingegangen werden. Damit der Weg zu den eigentlichen Ergebnissen nicht allzu lang wird, beschränke ich mich dabei auf einen groben Überblick,
der keinen Anspruch auf Vollständigkeit erhebt. Für weitere Details sei auf die zitierte
Literatur verwiesen.
Der erste Abschnitt setzt sich mit bedingten Erwartungen und einer allgemeinen Definition der bedingten Wahrscheinlichkeit auseinander. Er stellt elementare Hilfsmittel
für die Beweise in Kapitel 4 bereit und dient außerdem Kapitel 5 als Motivation für
einen dort verwendeten Schätzer. Nach einigen wichtigen Ergebnissen der univariaten
Extremwerttheorie wird kurz auf Copulas eingegangen – Verteilungsfunktionen, die sich
zur Beschreibung von Abhängigkeiten in mehrdimensionalen Datensätzen eignen. Diese
beiden Abschnitte legen zusammen den Grundstein für die multivariate Extremwerttheorie in Kapitel 3. Außerdem spielen Copulas eine zentrale Rolle für den in Kapitel 4
vorgestellten Piecing-Together Ansatz.
2.1 Bedingter Erwartungswert und bedingte
Wahrscheinlichkeiten
Wir betrachten einen Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable X :
(Ω, A) → (R, B), d. h. X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} ∈ A für alle B ∈ B, wobei mit
B die Borel-σ-Algebra von R bezeichnet wird. X beschreibt also eine zufällige Größe,
deren Realisation a priori unbekannt ist. Mit X + := max{X, 0} und X − := max{−X, 0}
bezeichnet man den Positiv- bzw. Negativteil von X.
R
R
Setzt man X als integrierbar voraus, d. h. Ω X + dP < ∞ und Ω X − dP < ∞ 1 , dann
nimmt das Integral
Z
E (X) :=
X dP :=
Ω
1
Z
Ω
+
X dP −
Z
X − dP
Ω
Das Integral für nicht-negative messbare Funktionen (etwa X + und X − ) wird bspw. in Bauer (1992,
Definition 11.3, Satz 11.6) eingeführt.
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
4
einen endlichen Wert an, den man Erwartungswert von X nennt. Ist X sogar quadratintegrierbar, d. h. E (X 2 ) < ∞, dann lässt sich leicht zeigen, dass E (X) die Funktion
MSE(t) := E (X − t)2 , t ∈ R, minimiert. Der Erwartungswert von X geht also mit
dem kleinsten mittleren quadratischen Fehler einher, wenn man den unbekannten Wert
von X durch eine feste Zahl t vorhersagen will. In diesem Sinn ist E (X) also die beste
Prognose von X.
Der bedingte Erwartungswert gegeben eine σ-Algebra
Dieses Konzept soll nun auf den Fall erweitert werden, dass zum Zeitpunkt“ der Pro”
gnose zusätzliche Informationen über die Zufallsvariable X vorliegen. Dazu folgen wir
im Wesentlichen der Argumentation aus §15 in Bauer (2002). Definiert man X0 : Ω → R
durch X0 (ω) := E (X), ω ∈ Ω, dann ist diese Funktion C, B-messbar für jede sub-σAlgebra C von A. Das gilt insbesondere für den Fall C = {∅, Ω}. X0 ist also eine Zufallsvariable, die gemäß den vorangegangenen Überlegungen einen gewissen Informationsgehalt über X repräsentiert. Dem steht die ursprüngliche Zufallsvariable X gegenüber, die
alle Informationen über sich selbst enthält und die im Allgemeinen nicht messbar bzgl.
einer echten sub-σ-Algebra C von A ist, d. h. C ( A.
Es liegt also nahe, den Grad der Information, den eine Zufallsvariable X über X
beinhaltet, durch solche sub-σ-Algebren von A auszudrücken, bezüglich derer X messbar
ist. Das folgende Beispiel veranschaulicht diesen Sachverhalt.
Beispiel 2.1.1. λ|[0,1] : B ∩ [0, 1] → R sei die Einschränkung des eindimensionalen
Lebesgue-Maßes auf das Intervall [0, 1]. Betrachtet wird der Wahrscheinlichkeitsraum
(Ω, A, P ) = ([0, 1], B ∩ [0, 1], λ|[0,1] ) und eine Zufallsvariable X mit X(ω) = ω für alle
ω ∈ Ω, d. h. X ist auf [0, 1] gleichverteilt. Dann ist X0 (ω) = 1/2, ω ∈ Ω, und durch



1/8,




3/8,
X1 (ω) :=


5/8,




7/8,
ω ∈ [0, 1/4),
ω ∈ [1/4, 1/2),
ω ∈ [1/2, 3/4),
ω ∈ [3/4, 1],
wird eine C1 , B-messbare Zufallsvariable definiert, wobei C1 := σ({Ik , k = 1, . . . , 4})
die kleinste σ-Algebra ist, die die Intervalle Ik := (k − 1)/4, k/4 , k = 1, . . . , 3, und
I4 := [3/4, 1] enthält. Abbildung 2.1 vergleicht X0 und X1 grafisch mit X.
Man kann sich leicht überlegen, dass es nicht ausreicht, den Informationsgehalt nur
e 0 mit
über σ-Algebren zu messen: Erweitert man Beispiel 2.1.1 um die Zufallsvariable X
5
0.25
0.50
0.75
1.00
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
0.00
X
X0
X1
0.00
0.25
0.50
0.75
1.00
Abbildung 2.1: Verschiedene Informationsgehalte über X
e 0 (ω) := 3/4, ω ∈ [0, 1], dann sind sowohl X0 als auch X
e 0 messbar bzgl. jeder subX
σ-Algebra von B ∩ [0, 1] und hätten demzufolge denselben Informationsgehalt über X.
Jedoch haben wir am Anfang dieses Abschnitts gesehen, dass X0 die sinnvollere Wahl
ist. Es ist also erforderlich, die Prognose X an die gegebene Zufallsvariable X zu koppeln:
Satz 2.1.2. Sei X eine integrierbare Zufallsvariable auf (Ω, A, P ). Dann existiert zu
jeder sub-σ-Algebra C von A P -fast sicher genau eine integrierbare Zufallsvariable X auf
(Ω, A, P ), die C, B-messbar ist und die
Z
C
X dP =
Z
X dP
C
für alle C ∈ C
(2.1)
erfüllt. Wenn X nicht-negativ ist, dann ist auch X P-fast sicher nicht-negativ.
Beweis. Siehe Satz 15.1 in Bauer (2002).
Dieses Resultat gewährleistet, dass es zu jeder integrierbaren Zufallsvariable X und
zu einem gegebenen Informationsstand – ausgedrückt durch eine σ-Algebra C – eine
fast sicher eindeutige Vorhersage X von X gibt, die im Sinne von Gleichung (2.1) an X
angepasst ist. Damit lässt sich der bedingte Erwartungswert definieren:
Definition 2.1.3. Unter den Gegebenheiten von Satz 2.1.2 heißt die fast sicher eindeutig
bestimmte Zufallsvariable E (X| C) := X der bedingte Erwartungswert von X gegeben C.2
2
Es sei darauf hingewiesen,
dass der bedingte
Erwartungswert auch für quasi-integrierbare ZufallsvaR
R
riablen X, d. h. Ω X + dP < ∞ oder Ω X − dP < ∞, eingeführt werden kann. Dieser Fall ist für
diese Arbeit jedoch nicht von Bedeutung.
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
6
Im Gegensatz zu E (X) ist der bedingte Erwartungswert E (X| C) also keine reelle
Zahl, sondern eine Zufallsvariable. Diese hat aufgrund von (2.1) die Eigenschaft
E E (X| C) = E (X).
(2.2)
Wir gehen nochmal auf das vorangegangene Beispiel ein:
Beispiel 2.1.4. Es gelten die Bezeichnungen aus Beispiel 2.1.1. Dann ist offensichtlich
Z
Ω
X0 dP = 1/2 =
Z
Z
X dP
und
Ω
∅
X0 dP = 0 =
Z
X dP,
∅
d. h. E (X|{∅, Ω}) = X0 λ|[0,1] -fast sicher.
S
K ⊂ {1, . . . , 4} , da die
Außerdem gilt C1 = σ({Ik , k = 1, . . . , 4}) =
I
k
k∈K
S
S
Intervalle I1 , . . . , I4 disjunkt sind mit 4k=1 Ik = [0, 1] und der Konvention k∈∅ Ik = ∅.
Für C ∈ C1 und eine geeignete Teilmenge K von {1, . . . , 4} erhält man also
Z
X1 dP =
C
X Z 2k − 1
X 2k − 1 1 1 X
X1 dP =
dP =
·
=
(2k − 1).
8
8
4
32 k∈K
Ik
k∈K Ik
k∈K
XZ
k∈K
Da X auf [0, 1] gleichverteilt ist, hat die Verteilung P ∗X von X die Dichte 1[0,1] bezüglich
des eindimensionalen Lebesgue-Maßes. Dabei bezeichnet 1M die Indikatorfunktion einer
Menge M , d. h. 1M (x) = 1 für x ∈ M und 1M (x) = 0 sonst. Mit dem Transformationssatz
für Integrale folgt
Z
X dP =
C
XZ
k∈K
Ik
x (P ∗ X)(dx) =
XZ
k∈K
x dx =
Ik
X x2 k/4
k∈K
2
(k−1)/4
1 X 2
1 X
=
k − (k − 1)2 =
(2k − 1).
32 k∈K
32 k∈K
Also ist E (X| C1 ) = X1 λ|[0,1] -fast sicher.
Die Ergebnisse aus den Beispielen 2.1.1 und 2.1.4 lassen sich verallgemeinern: Für jede
integrierbare Zufallsvariable X folgt aus Definition 2.1.3 sofort
E (X|{∅, Ω}) = E (X) fast sicher.
Anschaulich entspricht das dem Fall, dass keine weiteren Informationen über X vorliegen.
S
Ist Ω = i∈I Ai für paarweise disjunkte Mengen Ai ∈ A, i ∈ I 6= ∅, und C = σ({Ai , i ∈
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
I}) =
S
7
J ⊂ I , dann existieren Zufallsvariablen Xi , i ∈ I, mit
A
j
j∈J
E (X| C) =
X
Xi 1Ai
fast sicher
i∈I
und man kann o. B. d. A. Xi = E (X| Ci ) annehmen, wobei Ci = σ({Ai }) = {∅, Ai , Aci , Ω}
S
mit Aci := Ω \ Ai zu setzen ist. Denn es gilt für C = j∈J Aj ∈ C
Z X
C i∈I
E (X| Ci )1Ai dP =
=
XZ
i∈I
C∩Ai
XZ
j∈J
E (X| Ci ) dP =
XZ
j∈J
Aj
E (X| Cj ) dP
Z
X dP =
Aj
X dP.
(2.3)
C
Wie aus dem folgenden Resultat hervorgeht, erhält man in diesem Fall E (X| Ci )1Ai =
E (X1Ai )1Ai P (Ai ) fast sicher, falls P (Ai ) > 0, und andernfalls E (X| Ci )1Ai = 0 fast
sicher.
Lemma 2.1.5. Sei X eine integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und I eine beliebige Indexmenge. Die Mengen Ai ∈ A, i ∈ I, seien
S
paarweise disjunkt mit i∈I Ai = Ω. Für I ∗ ⊂ I gelte P (Ai ) > 0, falls i ∈ I ∗ , und
P (Ai ) = 0 sonst. Dann folgt:
(i) Für Ci = σ({Ai }), i ∈ I, gilt
E (X| Ci )1Ai =
E (X1Ai )
1Ai
P (Ai )
P -fast sicher,
falls i ∈ I ∗ , und andernfalls E (X| Ci )1Ai = 0 P -fast sicher.
(ii) Mit C = σ({Ai , i ∈ I}) erhält man
E (X| C) =
X
i∈I
E (X| Ci )1Ai =
X E (X1A )
i
1Ai
P
(A
)
i
∗
i∈I
P -fast sicher.
Beweis. Wir zeigen zunächst Teil (i). Sei dazu i ∈ I beliebig aber fest gewählt. Falls
0 < P (Ai ) < 1 gilt, ist Ci = {∅, Ai , Aci , Ω} und
Xi :=
E (X1Aci )
E (X1Ai )
1Ai +
1Aci
P (Ai )
P (Aci )
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
R
ist der bedingte Erwartungswert von X gegeben Ci . Denn es gilt
Z
Xi dP =
Ai
Z
Ai
∅
E (X1Ai )
E (X1Ai )
dP + 0 =
P (Ai ) =
P (Ai )
P (Ai )
8
Xi dP = 0 =
R
∅
X dP ,
Z
X dP
Ai
R
R
R
R
R
und analog dazu auch Ac Xi dP = Ac X dP sowie Ω Xi dP = Ai Xi dP + Ac Xi dP =
i
i
i
R
X
dP
.
Also
folgt
E
(X|
C
)1
=
E
(X1
)1
P
(A
)
P
-fast
sicher.
Im
Fall
P
(Ai ) = 1
i Ai
Ai Ai
i
Ω
erhält man mit den gleichen Argumenten wie zuvor E (X| Ci ) = E (X1Ai )1Ai P (Ai ) P fast sicher und damit die Behauptung. Schließlich folgt im Fall P (Ai ) = 0
P E (X| Ci )1Ai = 0 = P E (X| Ci )1Ai = 0 ∩ Ai + P E (X| Ci )1Ai = 0 ∩ Aci
= 0 + P (Aci ) = 1,
weil E (X| Ci )1Ai = 0 eine Obermenge von Aci ist. Damit ist die Behauptung (i) gezeigt.
Teil (ii) folgt nun direkt aus (i) und Gleichung (2.3).
Mit diesem Ergebnis lässt sich der Zusammenhang des bedingten Erwartungswertes
mit dem (unbedingten) Erwartungswert und der elementaren bedingten WahrscheinS
lichkeit verdeutlichen: Seien Bi ∈ A, i ∈ I, paarweise disjunkt mit Ω = i∈I Bi und
zusätzlich P (Bi ) > 0, i ∈ I. Wegen
P (A ∩ Bi )
1
PBi (A) := P (A | Bi ) :=
=
P (Bi )
P (Bi )
Z
Z
1A 1Bi dP =
Ω
A
1Bi
dP,
P (Bi )
A ∈ A,
hat die elementare bedingte Wahrscheinlichkeit PBi die P -Dichte 1Bi P (Bi ) und es gilt
Z
EBi (X) :=
X dPBi
Ω
1
=
P (Bi )
Z
Ω
X1Bi dP = E X σ({Bi , i ∈ I}) (ω)
(2.4)
für P -fast alle ω ∈ Bi . D. h. der bedingte Erwartungswert stimmt auf Bi fast sicher
mit dem Erwartungswert bzgl. PBi überein. P -fast allen ω ∈ Bi , i ∈ I, wird also der
Erwartungswert zugeordnet, der unter der Maßgabe berechnet wird, dass das Ereignis
Bi eingetreten ist.
Kehren wir zum Ausgangspunkt dieses Abschnittes zurück. Gesucht war eine Verallgemeinerung des Erwartungswertes E (X), die zusätzliche Informationen über die Zufallsvariable X berücksichtigt. Das hat uns zum bedingten Erwartungswert E (X| C) geführt,
wobei der gegebene Informationsstand durch die σ-Algebra C ausgedrückt wird. Gleichzeitig wurde aber auch verlangt, dass die Eigenschaft von E (X) erhalten bleibt, den mitt
leren quadratischen Fehler MSE(t) = E (X − t)2 zu minimieren. Gleichung (2.4) legt
nahe, dass sich dies auf den bedingten Erwartungswert überträgt. Dass das tatsächlich
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
9
der Fall ist, ist Gegenstand des folgenden Resultats, das Bauer (2002) entnommen wurde.
Satz 2.1.6. Sei X eine quadratintegrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und C eine sub-σ-Algebra von A. Dann ist der bedingte Erwartungswert E (X| C) bis auf P -fast sichere Gleichheit die einzige C, B-messbare und quadratintegrierbare Zufallsvariable X, für die
MSE(X) = E (X − X)2
den kleinstmöglichen Wert annimmt.
Beweis. Dass E (X| C) quadratintegrierbar ist, folgt aus der Jensenschen Ungleichung für
bedingte Erwartungswerte: Da x 7→ |x|2 eine konvexe Funktion auf R ist, zeigt Satz 15.3
2
in Bauer (2002), dass E (X| C) ≤ E |X|2 C P -fast sicher. Wegen Gleichung (2.2)
erhält man hieraus und aus der Quadratintegrierbarkeit von X
2 E E (X| C) ≤ E |X|2 < ∞,
d. h. E (X| C) ist quadratintegrierbar. Die übrigen Behauptungen folgen nun aus dem
Beweis von Satz 15.8 in Bauer (2002).
Mit E (X| C) haben wir also die gesuchte Verallgemeinerung von E (X) gefunden. Diese
verwenden wir nun zur Definition der bedingten Wahrscheinlichkeit:
Definition 2.1.7. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und C eine sub-σ-Algebra
von A. Dann nennen wir P (A | C) := E (1A | C) für A ∈ A die bedingte Wahrscheinlichkeit von A gegeben C.
Dies ist eine direkte Erweiterung der elementaren bedingten Wahrscheinlichkeit, denn
für A, B ∈ A mit P (B) > 0 gilt nach Lemma 2.1.5
P (A | B) =
P (A ∩ B)
E (1A 1B )
=
= E 1A σ({B}) (ω)
P (B)
P (B)
für P -fast alle ω ∈ B. Zu beachten ist jedoch, dass P (·| C) im Gegensatz zu P (·| B) kein
Wahrscheinlichkeitsmaß ist, da der Wert, der einer Menge A ∈ A zugeordnet wird, vom
Zufall abhängt.
Bedingen unter Realisationen von Zufallsvariablen
Bei der Berechnung der elementaren bedingten Wahrscheinlichkeit P (A | B) ist die Voraussetzung P (B) > 0 wesentlich, d. h. es kann nur unter solchen Mengen bedingt werden,
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
10
die keine Nullmengen sind. Insbesondere lässt sich die Wahrscheinlichkeit P (A | Y = y)
mit einer Zufallsvariablen Y i. A. nicht elementar berechnen. Mittels Definition 2.1.7
kann man diese Lücke schließen, wie im Folgenden gezeigt wird.
Bisher haben wir einen gegebenen Informationsstand immer durch geeignete σ-Algebren ausgedrückt. Diese treten von nun an in den Hintergrund und wir richten stattdessen den Blick auf die Abhängigkeit zwischen Zufallsvariablen: Ist (Yi )i∈I eine Familie
von Zufallsvariablen, die eine σ-Algebra C erzeugen, d. h.
!
C = σ(Yi , i ∈ I) := σ
[
Yi−1 (B)
:= σ
i∈I
[
i∈I
Yi−1 (B)
!
|B∈B ,
dann schreibt man statt E (X| C) auch E (X| Yi , i ∈ I) und spricht vom bedingten Erwatungswert von X gegeben (Yi )i∈I . Entsprechend nennt man P (A | Yi , i ∈ I) die bedingte
Wahrscheinlichkeit von A gegeben (Yi )i∈I .
Diese neue Sichtweise ermöglicht es, den bedingten Erwartungswert E (X| Y ) als Funktion von Y darzustellen:
Satz 2.1.8. X sei eine integrierbare und Y eine beliebige Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ). Die Verteilung von Y sei mit P ∗Y bezeichnet. Dann folgt:
(i) Für jede Zufallsvariable X, die P -fast sicher mit E (X| Y ) übereinstimmt, gibt es
eine B, B-messbare Funktion g : R → R, so dass X = g ◦ Y . Die Restriktion g|Y (Ω)
von g auf Y (Ω) = {y ∈ R | Y (ω) = y für ein ω ∈ Ω} ist eindeutig bestimmt.
(ii) Jede Funktion g aus Teil (i) ist (P ∗ Y )-integrierbar und es gilt
Z
B
g d(P ∗ Y ) =
Z
X dP,
{Y ∈B}
B ∈ B.
(2.5)
Sie ist hierdurch (P ∗ Y )-fast sicher eindeutig bestimmt. Ist umgekehrt g eine
(P ∗ Y )-integrierbare Funktion auf (R, B), die (2.5) erfüllt, dann gilt E (X| Y ) =
g ◦ Y P -fast sicher.
Beweis. Wir zeigen zunächst Teil (i). Wegen E (X| Y ) = X P -fast sicher ist X σ(Y ), Bmessbar. Die Existenz einer Funktion g mit X = g ◦ Y folgt dann aus dem Faktorisierungslemma (siehe z. B. 11.7 in Bauer (1992)). Seien nun g und h zwei Funktionen mit
dieser Eigenschaft. Für gegebenes y ∈ Y (Ω) folgt g(y) = (g ◦ Y )(ω) = X(ω) und ebenso
h(y) = X(ω) für alle ω ∈ Y −1 ({y}), also g|Y (Ω) = h|Y (Ω) . Teil (ii) ergibt sich aus dem
Beweis von Satz 15.9 in Bauer (2002).
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
11
Im Folgenden nennen wir X aus Satz 2.1.8 (i) eine Version des bedingten Erwartungswertes E (X| Y ). Die Kernaussage von Satz 2.1.8 ist also, dass X genau dann eine Version
von E (X| Y ) ist, wenn X = g ◦ Y mit einer Funktion g gilt, die (2.5) erfüllt.
Seien X1 und X2 zwei Versionen von E (X| Y ), so dass X1 = g ◦ Y und X2 = h ◦ Y .
Nach Satz 2.1.8 (ii) ist g = h (P ∗ Y )-fast sicher und
Z
g(y)P (Y = y) =
y ∈ R,
X dP = h(y)P (Y = y),
{Y =y}
da {y} ∈ B für alle y ∈ R. Im Fall P (Y = y) > 0 erhält man daraus unter Beachtung
von Gleichung (2.4) g(y) = h(y) = E{Y =y} (X) und
X1 (ω) = g Y (ω) = h Y (ω) = X2 (ω),
ω ∈ {Y = y}.
Also ist folgende Aussage bewiesen:
Korollar 2.1.9. Seien X und Y gegeben wie in Satz 2.1.8 und y ∈ R mit P (Y = y) > 0.
Dann stimmen alle Versionen von E (X| Y ) auf der Menge {Y = y} überein und es gilt
für alle B, B-messbaren Funktionen g, die (2.5) erfüllen,
E (X| Y )(ω) = E{Y =y} (X) = g(y),
ω ∈ {Y = y}.
Wenn Y jedoch eine Verteilungsfunktion hat, die an der Stelle y stetig ist, dann gilt
P (Y = y) = 0. In diesem Fall ist Korollar 2.1.9 zwar nicht anwendbar, es vermittelt
aber die Anschauung, dass man g(y) auch dann als Mittelwert von X auf der Menge
{Y = y} interpretieren kann. Wie wir in Satz 2.1.8 gesehen haben, ist g (P ∗Y )-fast sicher
eindeutig bestimmt. Ist außerdem eine konkrete Version des bedingten Erwartungswertes
gegeben, dann ist g sogar eindeutig auf Y (Ω). Deswegen definiert man:
Definition 2.1.10. X und Y seien gegeben wie in Satz 2.1.8. Ferner sei g die (P ∗Y )-fast
sicher eindeutig bestimmte Funktion, die Gleichung (2.5) genügt. Dann heißt
E (X| Y = y) := g(y),
y ∈ R,
bedingter Erwartungswert von X gegeben Y = y. Ebenso nennt man
P (A | Y = y) := E (1A | Y = y),
A ∈ A,
die bedingte Wahrscheinlichkeit von A gegeben Y = y und speziell
P (A | B) := P (A | 1B = 1) = E (1A | 1B = 1),
A, B ∈ A,
2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten
12
die bedingte Wahrscheinlichkeit von A gegeben B.
Zum Abschluss dieses Abschnitts werden noch einige Aussagen bewiesen, die für die
Beweisführung in späteren Kapiteln von Bedeutung sind. Wir betrachten wieder eine
integrierbare Zufallsvariable X auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und eine
sub-σ-Algebra C von A. Wenn X unabhängig von C ist, dann sind auch X und 1C
unabhängig für jedes C ∈ C und es folgt
Z
Z
X dP = E (X1C ) = E (X)E (1C ) =
E (X) dP,
C
C
C ∈ C,
d. h. E (X| C) = E (X) P -fast sicher. Mit C = σ(Y ) für eine weitere Zufallsvariable Y auf
(Ω, A, P ) erhält man folglich
E (X| Y ) = E (X) P -fast sicher,
falls X und Y unabhängig sind. Nach Satz 2.1.8 erfüllt dann g : R → R mit g(y) = E (X),
y ∈ R, Gleichung (2.5), d. h.
E (X| Y = y) = E (X) (P ∗ Y )-fast sicher.
Insbesondere gilt in diesem Fall
P (X ∈ B | Y = y) = E 1{X∈B} = P (X ∈ B) (P ∗ Y )-fast sicher.
Damit ist Teil (i) des folgenden Resultats bewiesen.
Lemma 2.1.11. Seien X und Y zwei Zufallsvariablen auf dem Wahrscheinlichkeitsraum
(Ω, A, P ) mit E (|X|) < ∞. Dann gilt:
(i) Falls X und Y unabhängig sind, folgt E (X| Y = y) = E (X) (P ∗ Y )-fast sicher
und P (X ∈ B | Y = y) = P (X ∈ B) (P ∗ Y )-fast sicher für alle y ∈ R.
(ii) Für beliebiges A ∈ A ist P (A ∩ {Y ∈ B}) =
R
B
P (A | Y = y) (P ∗ Y )(dy).
Beweis. Es bleibt Teil (ii) zu zeigen. Da nach Voraussetzung 1A integrierbar ist, existiert
P (A | Y = y) und ist (P ∗ Y )-fast sicher eindeutig bestimmt. Es folgt mit B ∈ B,
Satz 2.1.8 und Definition 2.1.10
Z
Z
P (A ∩ {Y ∈ B}) = E (1A 1{Y ∈B} ) =
1A dP =
P (A | Y = y) (P ∗ Y )(dy).
{Y ∈B}
B
2.2 Univariate Extremwerttheorie
13
2.2 Univariate Extremwerttheorie
Nachdem im vorangegangenen Abschnitt einige technische Grundlagen geklärt wurden,
beginnt jetzt die Herleitung des multivariaten Piecing-Together Ansatzes, der in Kapitel 4 vorgestellt wird. Dazu ist es aber nötig, sich fundierte Kenntnisse der multivariaten
Extremwerttheorie zu verschaffen. Um diese möglichst anschaulich herzuleiten, geht dieser Abschnitt zunächst auf einige wichtige Ergebnisse der Extremwerttheorie in einer
Dimension ein.
Betrachtet werden die Zufallsvariablen X1 , X2 , X3 , . . . , die als unabhängig und identisch verteilt (i. i. d.) vorausgesetzt sind und die der Verteilungsfunktion F folgen. Mn
bzw. mn sind definiert als die größte bzw. die kleinste Beobachtung der ersten n Zufallsvariablen, d. h.
Mn := max{X1 , . . . , Xn }
und
mn := min{X1 , . . . , Xn }.
Die folgenden Überlegungen beschränken sich auf Aussagen über das Maximum Mn , wie
es auch in der Literatur üblich ist (siehe z. B. Leadbetter et al. (1983), S. 3). Wegen der
Gleichung
min{X1 , . . . , Xn } = − max{−X1 , . . . , −Xn }
erhält man bei Bedarf entsprechende Aussagen über das Minimum mn , indem man die
ursprünglichen Werte mit −1 multipliziert und dann das Maximum betrachtet.
Ein Analogon zum Zentralen Grenzwertsatz
Nun beschäftigen wir uns mit der asymptotischen Verteilung von Mn für n → ∞. Da
Mn die Verteilungsfunktion
P (Mn ≤ x) = P max{X1 , . . . , Xn } ≤ x = P X1 ≤ x, . . . , Xn ≤ x
= P (X1 ≤ x) · · · P (Xn ≤ x) = F n (x)
(2.6)
hat, erkennt man sofort P (Mn ≤ x) → 0, falls F (x) < 1, und P (Mn ≤ x) → 1 sonst.
D. h.
P (Mn ≤ x) →n→∞ 1[ω(F ),∞) (x),
x ∈ R,
(2.7)
wobei ω(F ) := sup{x ∈ R | F (x) < 1} ∈ R∪{∞} den rechten Endpunkt der Verteilungsfunktion F bezeichnet. Mn besitzt also eine entartete Grenzverteilung. Man beachte, dass
1[ω(F ),∞) im Fall ω(F ) = ∞ keine Verteilungsfunktion ist, da dann 1[ω(F ),∞) (x) = 1∅ (x) =
0 für alle x ∈ R gilt.
2.2 Univariate Extremwerttheorie
14
Aus dem Grenzwert (2.7) lassen sich keine weiteren Informationen über Mn gewinnen, da mit F auch der rechte Endpunkt von F a priori bekannt ist.3 Der Zentrale
Grenzwertsatz motiviert eine leicht modifizierte Herangehensweise: Er sagt aus, dass das
P
arithmetische Mittel X̄n := n1 ni=1 Xi von quadratintegrierbaren i. i. d. Zufallsvariablen
annähernd standardnormalverteilt ist, wenn man es zuvor geeignet normiert:
P
X̄n − µ
√σ
n
!
≤x
→n→∞ Φ(x),
x ∈ R,
(2.8)
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. µ := E (X1 ) und
p
σ := Var (X1 ) sind als Erwartungswert bzw. Standardabweichung von X1 definiert.
Um zu einer ähnlichen Aussage für das Maximum von i. i. d. Zufallsvariablen zu gelangen, normieren wir Mn mit gewissen Zahlen an > 0 und bn ∈ R. Das ergibt
Mn − bn
≤x
P
an
= P (Mn ≤ an x + bn ) = F n (an x + bn ).
(2.9)
Wenn man n immer größer werden lässt, gehen immer mehr Beobachtungen in die
Berechnung des Maximums ein, d. h. Mn wächst monoton in n. Wie die Notation in
Gleichung (2.9) nahe legt, werden sich aber gleichzeitig die Werte der Normierungskonstanten an und bn ändern.4 Wie sie sich genau verändern, wird an dieser Stelle jedoch
offen gelassen. Betrachten wir zum Vergleich noch einmal den Zentralen Grenzwertsatz
√
in Gleichung (2.8), dann sieht man, dass an = σ n monoton fällt, während bn = µ
konstant bleibt.
Bildet man den Grenzwert n → ∞, dann wird F n (an x + bn ) unter bestimmten Voraussetzungen gegen eine Verteilungsfunktion G(x) konvergieren:
F n (an x + bn ) →n→∞ G(x).5
Nun stellt sich die Frage, welche Verteilungsfunktionen G als Grenzwert auftreten können. Das zentrale Ergebnis der Extremwerttheorie ist, dass hierfür nur drei verschiedene
Typen von Verteilungsfunktionen in Frage kommen, siehe z. B. Embrechts et al. (1997,
Theorem 3.2.3) oder Resnick (2008, Proposition 0.3):
Es ergibt sich lediglich die naheliegende Folgerung, dass sich Mn für n → ∞ mit Wahrscheinlichkeit
1 dem rechten Endpunkt von F annähert.
4
Auf den ersten Blick scheint es widersprüchlich, bei an und bn von Normierungskonstanten zu sprechen, obwohl sich diese Werte mit wachsendem n verändern. Warum das dennoch üblich ist, wird
beim folgenden Grenzübergang n → ∞ deutlich.
5
Hier wird es klarer, warum man an und bn Konstanten nennt: Bei diesem Grenzübergang wird unabhängig von der Stelle x mit dem gleichen an und dem gleichen bn normiert.
3
2.2 Univariate Extremwerttheorie
15
Satz 2.2.1 (Fisher-Tippett Theorem). Sei F eine Verteilungsfunktion. Falls es Normierungskonstanten an > 0, bn ∈ R, n ∈ N, und eine nicht-entartete Verteilungsfunktion G
gibt, so dass
F n (an x + bn ) →n→∞ G(x), 6
x ∈ R,
(2.10)
dann gehört G zu einem der folgenden Verteilungstypen:
Fréchet:
Weibull:
Gumbel:

0,
falls x ≤ 0,
exp −x−α , falls x > 0,

exp −(−x)α , falls x ≤ 0,
Ψα (x) =
1,
falls x > 0,
Λ(x) = exp −e−x , x ∈ R.
Φα (x) =
für ein α > 0,
für ein α > 0,
In Satz 2.2.1 sprechen wir von Verteilungstypen, da auch zusätzliche Lokations- und
Skalenparameter zugelassen sind: Hat man entsprechende an und bn gefunden, so dass
(2.10) gilt, dann folgt
Mn − bn − νβ −1 an
n
−1
−1
P
≤ x = F β an x + bn − νβ an
β −1 an
x−ν
x−ν
n
= F an
+ bn →n→∞ G
β
β
(2.11)
für ν ∈ R und β > 0. Das ist ein Spezialfall des Theorems von Khintchine, siehe z. B.
Leadbetter et al. (1983, Theorem 1.2.3) oder Resnick (2008, Proposition 0.2). Es besagt
u. a., dass der Verteilungstyp von G in (2.10) eindeutig bestimmt ist, d. h. für gegebenes
F ist jede nicht-entartete Verteilungsfunktion G, die als Grenzwert in (2.10) auftreten
kann, vom gleichen Typ.
Definition 2.2.2. G sei eine der Verteilungsfunktionen Φα , Ψα oder Λ aus Satz 2.2.1.
Dann heißt G eine (Standard-) Extremwertverteilung (EVD). Mit ν ∈ R und β > 0
nennen wir auch G (x − ν) β , x ∈ R, eine Extremwertverteilung (EVD). Gilt
F n (an x + bn ) →n→∞ G(x),
x ∈ R,
für eine Verteilungsfunktion F und geeignete Normierungskonstanten an > 0, bn ∈ R,
dann sagen wir, dass F im Anziehungsbereich von G liegt und schreiben F ∈ D(G). Eine
Zufallsvariable heißt extremwertverteilt, falls ihre Verteilungsfunktion eine Extremwert6
Genau genommen gilt diese Konvergenz zunächst nur für alle Stetigkeitsstellen von G. Da aber alle
Verteilungsfunktionen, die als Grenzwert in Frage kommen, stetig sind, gilt (2.10) für alle x ∈ R.
2.2 Univariate Extremwerttheorie
16
1.0
verteilung ist.
0.0
0.2
0.4
0.6
0.8
Dichte von Φ1
Dichte von Ψ1
Dichte von Λ
−4
−2
0
2
4
Abbildung 2.2: Dichten der Standard-EVDs mit Parameter α = 1
Gleichung (2.11) macht deutlich, dass F genau dann im Anziehungsbereich von G (x−
ν) β liegt, wenn F ∈ D(G) gilt. Also genügt es für theoretische Überlegungen, die
Standard-Extremwertverteilungen zu betrachten.
Es folgen einige Beispiele, deren Herleitungen in Embrechts et al. (1997), S. 145ff
und S. 117f zu finden sind. Eine Untersuchung der verschiedenen Anziehungsbereiche
und weitere Beispiele sind u. a. in Leadbetter et al. (1983, Abschnitt 1.6 und 1.7) und
Embrechts et al. (1997, Abschnitt 3.3) aufgeführt.
Beispiel 2.2.3. (i) Wie zuvor sei Φ die Verteilungsfunktion der Standardnormalver−1/2 (1)
(1)
(1)
teilung. Die Normierungskonstanten an = 2 ln(n)
, bn = an 2 ln(n) −
(1)
(1) 1
ln(ln(n)) − 12 ln(4π) liefern die Konvergenz Φn an x + bn →n→∞ Λ(x).
2
(ii) Die Zufallsvariablen Y1 , Y2 , Y3 , . . . seien unabhängig und standardnormalverteilt.
Betrachtet werden Xi := exp(σYi + µ), i = 1, 2, 3, . . . , mit µ ∈ R, σ > 0. Dann
sind die Xi lognormalverteilt mit den Parametern µ und σ 2 und es gilt
lim P
n→∞
(2)
Mn − bn
(2)
an
≤x
= Λ(x),
(2)
(1)
(1)
(2)
(1)
wobei an = σan exp σbn + µ und bn = exp σbn + µ .
(iii) Die Poisson-Verteilung P (X = k) = e−λ λk k!, k ∈ N0 , mit Parameter λ > 0 liegt
nicht im Anziehungsbereich einer Extremwertverteilung. D. h. für jede Wahl von
2.2 Univariate Extremwerttheorie
17
0.4
0.6
0.8
1.0
Normierungskonstanten an > 0 und bn ∈ R, für die der Grenzwert limn→∞ P (Mn ≤
an x + bn ) existiert, ist dieser entweder gleich 0 oder gleich 1.
0.0
0.2
Gumbel
M5
M50
−2
0
2
4
6
Abbildung 2.3: Verteilungsfunktionen der Gumbel-Verteilung und des
normierten Maximums aus n = 5 und n = 50 unabhängigen standardnormalverteilten Zufallsvariablen
Charakterisierung von Extremwertverteilungen
Eine Eigenschaft von Extremwertverteilungen, die auch im multivariaten Kontext eine Rolle spielt, ist die Max-Stabilität (vgl. auch Leadbetter et al. (1983), S. 8f, oder
Embrechts et al. (1997), Definition 3.2.1):
Definition 2.2.4. Eine nicht-entartete Verteilungsfunktion G heißt max-stabil, falls es
Normierungskonstanten an > 0, bn ∈ R gibt, so dass Gn (an x + bn ) = G(x), x ∈ R, für
alle n ∈ N. Eine Zufallsvariable nennt man max-stabil, wenn ihre Verteilungsfunktion
max-stabil ist.
In dieser Definition wurden mit Bedacht die gleichen Notationen wie zuvor verwendet. Beispielsweise in Leadbetter et al. (1983, Theorem 1.4.1) wird bewiesen, dass jede
Extremwertverteilung max-stabil ist. Umgekehrt ist auch jede max-stabile Verteilungsfunktion eine Extremwertverteilung.
Wie bereits in Gleichung (2.9) gezeigt wurde, ist Gn (an x + bn ) die Verteilungsfunktion
der (normierten) größten Beobachtung der X1 , . . . , Xn , sofern diese Zufallsvariablen unabhängig und identisch nach G verteilt sind. Anschaulich bedeutet Max-Stabilität also,
2.2 Univariate Extremwerttheorie
18
dass das geeignet normierte Maximum von n unabhängigen zufälligen Werten die gleiche
Verteilungsfunktion besitzt wie die ursprünglichen Beobachtungen.
Im Abschnitt Ein Analogon zum Zentralen Grenzwertsatz wurde hergeleitet, dass nur
die drei Verteilungstypen Φα , Ψα und Λ als Grenzwert in (2.10) in Frage kommen. Es
wurde aber – mit Ausnahme von Λ – nicht gesagt, dass auch alle diese Typen tatsächlich
als Grenzwert auftreten. Diese Lücke wird nun geschlossen: Da jede Extremwertverteilung G max-stabil ist, folgt aus Definition 2.2.4 sofort G ∈ D(G). Eine Extremwertverteilung liegt also in ihrem eigenen Anziehungsbereich. Die entsprechenden Normierungskonstanten lassen sich leicht angeben:
an
bn
Φα
n1/α
0
Ψα
n−1/α
0
Λ
1
log(n)
Tabelle 2.1: Normierungskonstanten für die Standard-EVDs
Verallgemeinerte Pareto-Verteilungen
Die drei Verteilungstypen Φα , Ψα und Λ aus Satz 2.2.1 scheinen auf den ersten Blick
keine Gemeinsamkeiten zu haben. Tatsächlich werden sie aber durch die von MisesParametrisierung zusammengeführt:

exp −(1 + ξx)−1/ξ , ξ 6= 0,
Gξ (x) :=
exp −e−x ,
ξ = 0,
wobei 1 + ξx > 0. Man bezeichnet diese Darstellung auch als verallgemeinerte Extremwertverteilung (GEV). Da sich limξ→0 Gξ = Λ zeigen lässt (vgl. auch Abbildung 2.4),
wird oft kurz
Gξ (x) = exp −(1 + ξx)−1/ξ ,
1 + ξx > 0,
(2.12)
für ξ ∈ R geschrieben. Wie zuvor definiert Gξ einen Verteilungstyp, der noch um
Lokations- und Skalenparameter ergänzt werden kann: Mit ν ∈ R und β > 0 nennen
auch wir auch
−1/ξ !
x−ν
x−ν
x−ν
= exp − 1 + ξ
, 1+ξ
> 0,
(2.13)
Gξ;ν,β (x) := Gξ
β
β
β
2.2 Univariate Extremwerttheorie
19
eine verallgemeinerte Extremwertverteilung (GEV). Dabei handelt es sich tatsächlich nur
um eine andere Schreibweise von Φα , Ψα und Λ, wie G0 (x) = Λ(x), x ∈ R, und
−α !
1x−1
G1/α;1,1/α (x) = exp − 1 +
= exp −x−α = Φα (x),
α 1/α
α !
1x+1
G−1/α;−1,1/α (x) = exp − 1 −
= exp −(−x)α = Ψα (x),
α 1/α
x > 0,
x < 0,
0.4
für α > 0 zeigen. Ist ξ > 0, erhält man also eine Fréchet-Verteilung, ξ < 0 entspricht
einer Weibull-Verteilung und G0 ist die Gumbel-Verteilung.
0.0
0.1
0.2
0.3
Gumbel
ξ = −0.1
ξ = +0.1
−2
0
2
4
6
Abbildung 2.4: Gumbel-Approximation für ξ nahe Null: Die Dichte von
Λ = G0 im Vergleich mit den Dichten von Gξ für ξ = −0.1 und
ξ = +0.1
Der Vorteil der gemeinsamen Darstellung (2.12) bzw. (2.13) liegt darin, dass sie einheitliche Schätzmethoden für die Parameter einer Extremwertverteilung ermöglicht. Insbesondere der Parameter ξ – und damit der Verteilungstyp – kann aus vorhandenem
Datenmaterial geschätzt werden. Details dazu findet man in Kapitel 6 von Embrechts
et al. (1997).
Besondere Bedeutung kommt den verallgemeinerten Pareto-Verteilungen (GPD) zu,
die definiert werden als
Wξ;ν,β (x) := 1 + log Gξ;ν,β (x) ,
1/e ≤ Gξ;ν,β (x).
(2.14)
In Analogie zum Vorangegangenen setzt man Wξ := Wξ;0,1 und erhält die drei Vertei-
2.2 Univariate Extremwerttheorie
20
lungstypen
W1/α;1,1/α (x) =

0,
falls x ≤ 1,
für ein α > 0,
1 − x−α , falls x > 1,



0,
falls x ≤ −1,


W−1/α;−1,1/α (x) = 1 − (−x)α , falls − 1 < x ≤ 0,



1,
falls x > 0,

0,
falls x ≤ 0,
W0 (x) =
1 − e−x , falls x > 0,
für ein α > 0,
1.0
die man auch Standard-GPDs nennt. Dabei handelt es sich um eine Pareto-, eine Betabzw. eine Exponentialverteilung. Zu beachten ist, dass W−1/α;−1,1/α im Fall α = 1 mit
der Gleichverteilung auf (−1, 0) übereinstimmt. Diese Eigenschaft wird in Kapitel 4 eine
wichtige Rolle spielen.
0.0
0.2
0.4
0.6
0.8
Pareto
Beta
Exponential
−2
−1
0
1
2
3
4
5
Abbildung 2.5: Dichten der Standard-GPDs mit Parameter α = 1
Die verallgemeinerten Pareto-Verteilungen eignen sich besonders dazu, um Überschreitungen über hohe Schwellenwerte zu modellieren. Das bedeutet, wir wählen eine hohe
Zahl u und sind an der Verteilung einer Zufallsvariablen X interessiert, wenn die Bedingung X > u erfüllt ist. Für die weiteren Überlegungen wird mit F die unbedingte
Verteilungsfunktion von X bezeichnet. Wir setzen 0 < P (X ≤ u) < 1 voraus und
betrachten
Fu (x) := P (X − u ≤ x | X > u).
2.2 Univariate Extremwerttheorie
21
Letzteres ist die Verteilungsfunktion der Überschreitungen X − u, wenn bekannt ist,
dass die Realisation von X größer sein wird als der Schwellenwert u. Dann lässt sich F
darstellen als
F (x) = P (X ≤ x, X ≤ u) + P (X ≤ x, X > u)
= P (X ≤ x, X ≤ u) + P (X > u)P (X ≤ x | X > u)
= P (X ≤ x, X ≤ u) + 1 − F (u) Fu (x − u)

F (x),
x ≤ u,
=
F (u) + 1 − F (u) F (x − u), x > u,
u
Aus Theorem 3.4.13 (b) in Embrechts et al. (1997) folgt, dass sich Fu für großes u gut
durch eine GPD Wξ;0,β(u) annähern lässt, falls F im Anziehungsbereich von Gξ liegt.7
Dabei hängt der Skalenparameter β = β(u) von u ab. Das ergibt die Approximation
F (x) ≈ F (u) + 1 − F (u) Wξ;u,β(u) (x),
x > u,
(2.15)
die wir den Piecing-Together Ansatz der univariaten Extremwerttheorie nennen. Für
Details zur Parameterschätzung sei nochmals auf Embrechts et al. (1997, Kapitel 6)
hingewiesen. Mit β̃ := β(u) 1 + ξWξ−1 F (u) und ν̃ := u − β̃Wξ−1 F (u) erhält man
wegen β̃ − β(u) = −ξ β̃Wξ−1 F (u)
F (x) ≈ 1 − 1 − F (u) + 1 − F (u) Wξ;u,β(u) (x)
= 1 − 1 − Wξ Wξ−1 F (u)
1 − Wξ;u,β(u) (x)
−1/ξ
h
i−1/ξ
x−u
−1
= 1 − 1 + ξWξ F (u)
1+ξ
β(u)
−1/ξ
β(u) + ξ(x − u)
=1−
β̃
"
#−1/ξ
x − u − ξ −1 β̃ − β(u)
=1− 1+ξ
β̃
= Wξ;ν̃,β̃ (x),
u < x < ω Wξ;u,β(u) ,
(2.16)
falls ξ 6= 0, und ebenso F (x) ≈ W0;ν̃,β̃ (x) für x > u, falls ξ = 0 (vgl. auch Abschnitt 1.4 in
Reiss und Thomas (2007)). In (2.15) wird also der rechte Rand der Verteilungsfunktion
F durch eine geeignet gewählte GPD ersetzt.
Der Piecing-Together Ansatz hat eine besondere Bedeutung für die Praxis: Gehen wir
7
Dieses Ergebnis geht auf Balkema und de Haan (1974) und Pickands (1975) zurück.
2.3 Copulas
22
von der Situation aus, dass n unabhängige Realisationen x1 , . . . , xn der Zufallsvariablen
X vorliegen und die Anpassung einer Verteilung (beispielsweise einer Normalverteilung)
an zu vielen großen Werten scheitert. Dann kann man einen Schwellenwert u festlegen
und die Verteilung der Datenpunkte oberhalb von u durch eine GPD approximieren.
Dadurch wird oft eine bessere Anpassung an die Beobachtungen erzielt. Diesen Ansatz
machen sich z. B. auch Di Clemente und Romano (2004) in ihrer Arbeit zunutze.
Eine konkrete Anwendung kommt aus der Welt der Versicherungen: Sie werden z. B.
daran interessiert sein, mit welchen Wahrscheinlichkeiten besonders hohe Schadensmeldungen bei ihnen eintreffen. Soll die Wahrscheinlichkeit modelliert werden, dass die
Gesamtschadenssumme X in einem Jahr einen bestimmten Wert x0 übersteigt, kann
dies auf der Basis von Gleichung (2.15) geschehen. Dazu betrachtet man die Gesamtschadenssummen vergangener Jahre und passt eine GPD an diese Daten an. Damit lässt
sich eine Näherung für die Wahrscheinlichkeit P (X > x0 ) berechnen, selbst wenn alle
zugrunde liegenden Daten kleiner als x0 sind.
2.3 Copulas
Im vorherigen Abschnitt wurde die Verteilung großer (eindimensionaler) Beobachtungen untersucht. Das Ziel dieser Arbeit ist aber, den Piecing-Together Ansatz in (2.15)
auf die multivariate Extremwerttheorie zu verallgemeinern, wo es um die Beschreibung
großer Zufallsvektoren X = (X1 , . . . , Xm ) geht.8 Da die einzelnen Komponenten von
X abhängig voneinander sein können, wird zunächst ein tragfähiges Konzept zur Beschreibung von Abhängigkeiten zwischen Zufallsvariablen benötigt. Dazu führen wir den
Begriff der Copula ein:
Definition 2.3.1. Eine Copula C auf [0, 1]m ist eine m-dimensionale Verteilungsfunktion, so dass jede Randverteilung Ci , i = 1, . . . , m, die Gleichverteilung auf (0, 1) ist, d. h.
Ci (u) = u für u ∈ (0, 1).
Zur Veranschaulichung werden zwei einfache Beispiele von Copulas aufgeführt. Ihre
Bedeutung wird in Satz 2.3.4 geklärt.
Beispiel 2.3.2. (i) Durch Π(u1 , u2 , . . . , um ) := u1 u2 · · · um mit ui ∈ (0, 1) für i =
1, . . . , m wird eine Copula definiert, die Unabhängigkeitscopula genannt wird.
(ii) Auch M (u1 , u2 , . . . , um ) := min{u1 , u2 , . . . , um }, ui ∈ (0, 1), ist eine Copula. Sie
beschreibt den Fall der totalen (stochastischen) Abhängigkeit.
8
Was man in der Extremwerttheorie unter einem großen“ Vektor versteht, wird in Kapitel 3 geklärt.
”
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
23
1.0
2.3 Copulas
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 2.6: 104 Zufallsvektoren aus der Copula Π (links) und aus
der Copula M (rechts)
Das Theorem von Sklar (siehe z. B. Nelsen (2006), Theorem 2.10.9) zeigt, dass jede
m-dimensionale Verteilungsfunktion in ihre Randverteilungen und ihre Copula zerlegt
werden kann:
Satz 2.3.3 (Theorem von Sklar). Sei F eine m-dimensionale Verteilungsfunktion mit
Randverteilungen F1 , . . . , Fm . Dann gibt es eine Copula C auf [0, 1]m , so dass für alle
x = (x1 , . . . , xm ) ∈ Rm
F (x) = C F1 (x1 ), . . . , Fm (xm )
(2.17)
gilt. Falls alle Randverteilungen stetig sind, ist diese Copula eindeutig bestimmt; andern
falls ist C eindeutig auf Im(F1 ) × · · · × Im(Fm ) mit Im(Fi ) := Fi (x) ∈ [0, 1] x ∈ R ,
i = 1, . . . , m.
Wenn umgekehrt eine Copula C auf [0, 1]m und (eindimensionale) Verteilungsfunktionen F1 , . . . , Fm gegeben sind, dann wird durch Gleichung (2.17) eine m-dimensionale
Verteilungsfunktion F mit Randverteilungen F1 , . . . , Fm definiert.
Auch wenn eine Copula, die (2.17) erfüllt, i. A. nur auf einer Teilmenge von [0, 1]m
eindeutig bestimmt ist, nennen wir sie im Folgenden die Copula von F und bezeichnen
sie mit CF . Das ist der Tatsache geschuldet, dass bei der Berechnung des Wertes F (x)
gemäß (2.17) nur Werte aus der Menge Im(F1 ) × · · · × Im(Fm ) in die Copula eingesetzt
werden.
Eine direkte Folgerung aus Satz 2.3.3 ist, dass die Copula einer Verteilungsfunktion
F berechnet werden kann als
CF (u) = F F1−1 (u1 ), . . . , Fm−1 (um )
(2.18)
2.3 Copulas
24
mit u = (u1 , . . . , um ) ∈ (0, 1)m , vgl. Nelsen (2006, Corollary 2.10.10). Dabei ist zu beachten, dass Fi−1 i. A. nicht die Umkehrfunktion von Fi ist, sondern die Quantilfunktion
Fi−1 (ui ) = inf x ∈ R Fi (x) ≥ ui .
0.0
0.2
0.4
0.6
0.8
1.0
Auf die Eigenschaften von Quantilfunktionen soll hier nicht näher eingegangen werden.9
Es handelt sich um eine Art verallgemeinerte Umkehrfunktion für monoton wachsende
Funktionen. Falls Fi streng monoton steigt, dann stimmt die Quantilfunktion mit der
Umkehrfunktion überein.
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 2.7: 104 Zufallsvektoren aus einer Copula, die auf einer bivariaten Normalverteilung mit Korrelationskoeffizient 0.73 basiert.
An Gleichung (2.18) wird deutlich, dass Copulas eine Art Normierung von m-dimensionalen Verteilungsfunktionen sind. Das geschieht dadurch, dass die Randverteilungen gewissermaßen neutralisiert werden und nur eine Funktion übrig bleibt, die die
Abhängigkeitsstruktur beschreibt. Dass Copulas tatsächlich die Abhängigkeiten zwischen den Komponenten eines Zufallsvektors abbilden, wird durch das folgende Resultat
gerechtfertigt (siehe Nelsen (2006), Theorem 2.10.14):
Satz 2.3.4. (X1 , . . . , Xm ) sei ein Zufallsvektor mit Verteilungsfunktion F , deren Randverteilungen stetig sind. Dann gilt:
(i) X1 , . . . , Xm sind genau dann unabhängig, wenn F die Copula Π hat.
(ii) F hat genau dann die Copula M , wenn Xi für alle i = 1, . . . , m und alle j ∈
{1, . . . , m} \ {i} fast sicher (d. h. mit Wahrscheinlichkeit 1) eine streng monoton
steigende Funktion von Xj ist.
9
Siehe dazu beispielsweise S. 6 in Leadbetter et al. (1983) und S. 32 in Falk et al. (2002)
2.3 Copulas
25
Da das Theorem von Sklar (Satz 2.3.3) Verteilungsfunktionen mit stetigen Randverteilungen besonders hervorhebt, soll kurz auf eine wichtige Eigenschaft solcher Verteilungsfunktionen eingegangen werden:
Lemma 2.3.5. Eine Verteilungsfunktion F ist genau dann stetig, wenn alle ihre Randverteilungen F1 , . . . , Fm stetig sind. Insbesondere ist jede Copula stetig.
Beweis. Aus der Stetigkeit von F folgt offensichtlich sofort die Stetigkeit von F1 , . . . , Fm .
Seien nun die Randverteilungen als stetig vorausgesetzt. Da F eine Verteilungsfunktion
ist, existiert ein Zufallsvektor X = (X1 , . . . , Xm ), der nach F verteilt ist. Aus der absteigenden Stetigkeit eines Wahrscheinlichkeitsmaßes10 folgt daher für x = (x1 , . . . , xm ) ∈ R
und ε = (ε1 , . . . , εm ) > (0, . . . , 0) =: 0
F (x + ε) = (P ∗ X) (−∞, x1 + ε1 ] × · · · × (−∞, xm + εm ]
→ε↓0 (P ∗ X) (−∞, x1 ] × · · · × (−∞, xm ] = F (x),
d. h. F ist rechtsseitig stetig. Die linksseitige Stetigkeit folgt andererseits aus der linksseitigen Stetigkeit von F1 , . . . , Fm :
!
F (x) − F (x − ε) = P
\
i≤m
{Xi ≤ xi }
\
{Xj ≤ xj − εj }
j≤m
!
=P
\
{Xi ≤ xi }
i≤m
!!
∩
[
{Xj > xj − εj }
j≤m
!!
=P
[
j≤m
≤P
≤
=
X
j≤m
X
j≤m
[
j≤m
{Xj > xj − εj } ∩
\
{Xi ≤ xi }
i≤m
{Xj > xj − εj } ∩ {Xj ≤ xj }
P xj − εj < Xj ≤ xj
!
Fj (xj ) − Fj (xj − εj ) →ε↓0 0,
wobei sich die beiden Abschätzungen aus der Monotonie bzw. der Sub-Additivität11
eines Wahrscheinlichkeitsmaßes ergeben.
Die Stetigkeit einer Copula folgt nun aus Definition 2.3.1: Jede Randverteilung einer
Copula ist die Gleichverteilung auf (0, 1) und damit stetig.
Siehe hierzu Bauer (1992, Satz 3.2 (c)) und beachte, dass ein Wahrscheinlichkeitsmaß P ein Prämaß
ist, das auf einer σ-Algebra über einer Menge Ω definiert ist und die Eigenschaft P (Ω) = 1 hat.
11
Siehe Gleichung (3.8) in Bauer (1992) und Fußnote 10, da jedes Prämaß auch ein Inhalt ist.
10
2.3 Copulas
26
Abschließend betrachten wir den Einfluss von streng monotonen Transformationen
auf die Copula (vgl. auch Theorem 2.4.3 in Nelsen (2006)):
Satz 2.3.6. Sei (X1 , . . . , Xm ) ein Zufallsvektor mit Verteilungsfunktion F und stetigen
Randverteilungen. Wenn H die Verteilungsfunktion von h1 (X1 ), . . . , hm (Xm ) ist, wobei
die Funktionen hi : R → R, i = 1, . . . , m, streng monoton steigen, dann gilt CH = CF .
Beweis. Da h1 , . . . , hm streng monoton steigend sind, existieren die Umkehrfunktio−1
nen h−1
1 , . . . , hm und diese steigen ebenfalls streng monoton. H hat demnach die i-te
−1
Randverteilung Hi (x) = P hi (Xi ) ≤ x = P Xi ≤ h−1
i (x) = Fi hi (x) , x ∈ R,
i = 1, . . . , m. Es folgt nach (2.17) für alle (x1 , . . . , xm ) ∈ Rm
CH H1 (x1 ), . . . , Hm (xm ) = P h1 (X1 ) ≤ x1 , . . . , hm (Xm ) ≤ xm
−1
= P X1 ≤ h−1
1 (x1 ), . . . , Xm ≤ hm (xm )
−1
(x
)
= CF F1 h−1
(x
)
,
.
.
.
,
F
h
m
1
m
m
1
= CF H1 (x1 ), . . . , Hm (xm ) .
Nach dem Theorem von Sklar (Satz 2.3.3) ist also CH = CF auf der Menge Im(H1 ) ×
· · · × Im(Hm ).
Nun wird gezeigt, dass CH = CF sogar auf ganz Rm gilt. Seien dazu y ∈ (0, 1) und i ∈
{1, . . . , m} gegeben. Da die Randverteilungen von F univariate Verteilungsfunktionen
sind, gilt
lim Fi (x) = 0 sowie lim Fi (x) = 1.
x↓−∞
x↑∞
Sie sind außerdem als stetig vorausgesetzt, d. h. der Zwischenwertsatz von Bolzano (siehe
z. B. Köhler (2006), Satz 10.7) zeigt x ∈ R Fi (x) = y 6= ∅. Wegen der Monotonie und
der rechtsseitigen Stetigkeit der Randverteilungen von F folgt für x̃i := hi Fi−1 (y) ∈ R
Hi (x̃i ) = Fi inf x ∈ R Fi (x) ≥ y = Fi inf x ∈ R Fi (x) = y = y.
Insgesamt ist damit Im(Hi ) ⊃ (0, 1), i = 1, . . . , m, bewiesen, d. h. CH = CF auf (0, 1)m .
Laut Lemma 2.3.5 und Definition 2.3.1 folgt daraus CH = CF zunächst auf [0, 1]m und
schließlich auf ganz Rm .
Aus Satz 2.3.6 folgt sofort, dass die beiden Verteilungsfunktionen F (x), x ∈ R, und
F (x − µ) σ , x ∈ R, mit µ ∈ R und σ > 0 die gleiche Copula haben. Lokationsund Skalenparameter beeinflussen also nicht die Abhängigkeitsstruktur zwischen den
Komponenten eines Zufallsvektors. Demnach ist die Copula, die Abbildung 2.7 zugrunde
2.3 Copulas
27
liegt, eindeutig bestimmt. Man nennt sie die bivariate Normal-Copula mit Parameter
% = 0.73.
3.1 Die Verteilung des m-dimensionalen Maximums
28
3 Multivariate Extremwerttheorie
In den beiden Abschnitten 2.2 und 2.3 wurde der Grundstein für die Extremwerttheorie im Mehrdimensionalen gelegt. Zunächst wurde gezeigt, wie die größte Beobachtung
unter den i. i. d. Zufallsvariablen X1 , X2 , X3 , . . . asymptotisch verteilt ist, nachdem sie
geeignet normiert wurde. Daraus wurde ein Ansatz hergeleitet, wie man eine Verteilung
an besonders große Werte eines Datensatzes anpassen kann. Als große Werte bezeichneten wir dabei Beobachtungen, die einen fest gewählten Schwellenwert überschreiten. Mit
dem Blick auf eine multivariate Erweiterung wurde anschließend darauf eingegangen,
wie sich Abhängigkeiten zwischen Zufallsvariablen mit Hilfe von Copulas beschreiben
lassen.
Nun sollen diese Ergebnisse miteinander kombiniert werden, um die Verteilung von
großen Zufallsvektoren X = (X1 , . . . , Xm ) anzunähern. Analog zum eindimensionalen
Fall wählen wir einen Schwellenwert u = (u1 , . . . , um ) und nennen X groß, falls gleichzeitig Xj > uj für alle j = 1, . . . , m gilt. Das wird uns in die Lage versetzen, in Kapitel 4
den univariaten Piecing-Together Ansatz aus Gleichung (2.15) auf den multivariaten
Kontext zu erweitern.
Um die Schreibweise möglichst übersichtlich zu gestalten, werden alle Rechenoperationen und Ungleichungen zwischen zwei Vektoren x und y komponentenweise aufgefasst.
Das gilt auch für die Anwendung einer univariaten Funktion auf einen Vektor x, d. h.
x+y
=
(x1 + y1 , . . . , xm + ym ),
xy
=
(x1 y1 , . . . , xm ym ),
x≤y
exp(x)
⇔ x1 ≤ y1 , . . . , xm ≤ ym ,
=
exp(x1 ), . . . , exp(xm )
usw.
3.1 Die Verteilung des m-dimensionalen Maximums
Als erstes wollen wir uns dem Begriff der multivariaten Extremwertverteilung nähern.
Dazu werden die i. i. d. Zufallsvektoren X1 , X2 , X3 , . . . mit Xi = (Xi,1 , . . . , Xi,m ), i ∈ N,
betrachtet. Das Maximum der ersten n dieser Vektoren wird komponentenweise erklärt,
3.1 Die Verteilung des m-dimensionalen Maximums
29
d. h.
Mn := max{X1 , . . . , Xn } := max{X1,1 , . . . , Xn,1 }, . . . , max{X1,m , . . . , Xn,m }
muss im Gegensatz zum univariaten Fall kein tatsächlicher Datenpunkt sein.1
(j)
Bezeichnen wir mit Mn := max{X1,j , . . . , Xn,j } das Maximum in der j-ten Komponente, j = 1, . . . , m, dann gilt
Mn = Mn(1) , . . . , Mn(m) ,
(1)
(m)
wobei Mn , . . . , Mn eindimensionale Maxima sind, wie sie in Abschnitt 2.2 untersucht
wurden. Die Verteilungsfunktion von Mn lässt sich analog zu (2.6) berechnen:
P (Mn ≤ x) = P Mn(1) ≤ x1 , . . . , Mn(m) ≤ xm
=P
X1,1 ≤ x1 , . . . , Xn,1 ≤ x1 ,
..
..
.
.
X1,m ≤ xm , . . . , Xn,m ≤ xm
= P X1 ≤ x, . . . , Xn ≤ x
= F n (x),
wobei F die Verteilungsfunktion von X1 ist und im letzten Schritt die i. i. d.-Eigenschaft
ausgenutzt wurde.
Wir orientieren uns weiter an Abschnitt 2.2 und normieren Mn mit gewissen Vektoren
(1)
(m) (1)
(m) an = an , . . . , an
> 0 und bn = bn , . . . , bn
∈ Rm , wobei 0 := (0, . . . , 0) ∈ Rm ,
und erhalten
Mn − b n
≤ x = F n (an x + bn ).
P
an
Das führt zu einer Verallgemeinerung der Extremwertverteilungen aus Definition 2.2.2.
Definition 3.1.1. Sei F eine (multivariate) Verteilungsfunktion. Wenn es Normierungskonstanten an > 0, bn ∈ Rm für n ∈ N gibt, so dass
F n (an x + bn ) →n→∞ G(x), 2
x ∈ Rm ,
(3.1)
mit einer Verteilungsfunktion G gilt, deren Randverteilungen nicht-entartet sind, dann
heißt G eine (multivariate) Extremwertverteilung (EVD). In diesem Fall liegt F im An1
2
Beispielsweise ist max{(2, 5), (3, 4)} = (3, 5).
Wie im univariaten Fall gilt dieser Grenzübergang zunächst nur für alle Stetigkeitsstellen von G. Am
Anfang von Abschnitt 3.2 wird jedoch gezeigt, dass jede Verteilungsfunktion, die als Grenzwert in
Frage kommt, stetig auf ganz Rm ist.
3.2 Eigenschaften multivariater Extremwertverteilungen
30
ziehungsbereich von G und wir schreiben F ∈ D(G). Ein Zufallsvektor heißt extremwertverteilt, falls seine Verteilungsfunktion eine Extremwertverteilung ist.
Im Vergleich zum eindimensionalen Fall, wo das Fisher-Tippett Theorem (Satz 2.2.1)
Aussagen über die Verteilungstypen der Grenzfunktionen gemacht hat, ist diese Definition sehr abstrakt. Der nächste Abschnitt geht daher auf einige wichtige Eigenschaften
von Extremwertverteilungen ein. Dabei wird sich zeigen, dass sich wesentliche Ergebnisse
aus Abschnitt 2.2 direkt übertragen.
3.2 Eigenschaften multivariater Extremwertverteilungen
Zunächst setzen wir uns etwas genauer mit dem Grenzwert (3.1) auseinander. Da die
Normierungskonstanten an und bn unabhängig von der Stelle x = (x1 , . . . , xm ) sind,
kann man alle Komponenten von x bis auf eine gegen unendlich gehen lassen und erhält
für j = 1, . . . , m
(j)
Fjn a(j)
→n→∞ Gj (x),
x ∈ R,
(3.2)
n x + bn
wobei Fj und Gj die j-te Randverteilung von F bzw. G ist. Da die Randverteilungen
von G als nicht-entartet vorausgesetzt sind, bedeutet das, dass Gj eine univariate Extremwertverteilung vom Typ Φα , Ψα oder Λ ist (vgl. Definition 2.2.2 und Satz 2.2.1).3
Alle Ergebnisse aus Abschnitt 2.2 sind also direkt anwendbar, insbesondere die Anpassung von univariaten verallgemeinerten Pareto-Verteilungen an F1 , . . . , Fm , wie sie in
Gleichung (2.15) beschrieben wurde. Außerdem folgt aus Lemma 2.3.5, dass jede multivariate Extremwertverteilung stetig ist.
Nun verwenden wir zusätzlich die Ergebnisse aus Abschnitt 2.3. Ist CF die Copula der
Verteilungsfunktion F , dann folgt aus dem Theorem von Sklar (Satz 2.3.3)
n
h
a(1)
n x1
(m)
b(1)
n , . . . , a n xm
b(m)
n
in
F (an x + bn ) = F
+
+
h in
(1)
(m)
(m)
x
+
b
,
.
.
.
,
F
a
x
+
b
= CF F1 a(1)
1
m
m
n
n
n
n
h
i
h
1/n
i1/n
n
(m)
(m)
n
n
(1)
(1)
, . . . , F m an x m + b n
.
= CF F1 an x1 + bn
Diese Gleichung legt folgendes Ergebnis nahe, das in Deheuvels (1978, 1984) und Galambos (1987) zu finden ist:
3
Insbesondere sind die Randverteilungen von G stetig und mit Lemma 2.3.5 folgt die Stetigkeit von
G.
3.2 Eigenschaften multivariater Extremwertverteilungen
31
Satz 3.2.1. Eine Verteilungsfunktion F liegt genau dann im Anziehungsbereich einer
Extremwertverteilung G, wenn (3.2) gilt und gleichzeitig
−1
CFn u1/n →n→∞ CG (u) = G G−1
1 (u1 ), . . . , Gm (um ) ,
u ∈ (0, 1)m .
Auf die Interpretation dieses Grenzwerts wird in Abschnitt 4.1 eingegangen. Satz 3.2.1
hat eine wichtige Konsequenz: Bei der Überprüfung, ob eine Verteilungsfunktion im
Anziehungsbereich einer Extremwertverteilung liegt, können die Randverteilungen unabhängig von der Copula untersucht werden. Dabei kommen die Methoden der univariaten Extremwerttheorie zum Einsatz.
In Definition 2.2.4 wurde der Begriff der Max-Stabilität eingeführt. Analog dazu nennen wir eine Verteilungsfunktion G max-stabil, falls ihre Randverteilungen nicht-entartet
sind und es für alle n ∈ N Normierungskonstanten an > 0, bn ∈ Rm gibt, so dass
Gn (an x+bn ) = G(x), x ∈ Rm . Auch die Interpretation dieser Gleichung bleibt dieselbe:
Max-Stabilität bedeutet, dass das geeignet normierte Maximum von n i. i. d. Zufallsvektoren die gleiche Verteilungsfunktion besitzt wie diese Zufallsvektoren. Außerdem zeigt
Resnick (2008) in Proposition 5.9 folgende Aussage:
Satz 3.2.2. Eine Verteilungsfunktion ist genau dann max-stabil, wenn sie eine Extremwertverteilung ist.
Verwendet man die Copulas Π und M aus Beispiel 2.3.2, dann lassen sich mit diesem
Ergebnis Beispiele für multivariate Extremwertverteilungen angeben: Sind G1 , . . . , Gm
univariate Extremwertverteilungen, d. h. jeweils vom Typ Φα , Ψα oder Λ, dann gilt für
j = 1, . . . , m nach Abschnitt 2.2
(j)
Gnj a(j)
= Gj (xj ),
n x j + bn
(j)
xj ∈ R,
(j)
mit geeigneten Normierungskonstanten an > 0, bn ∈ R. Aus dem Theorem von Sklar
(Satz 2.3.3) folgt, dass
GΠ (x) := Π G1 (x1 ), . . . , Gm (xm )
und GM (x) := M G1 (x1 ), . . . , Gm (xm ) ,
x = (x1 . . . , xm ) ∈ Rm , Verteilungsfunktionen mit nicht-entarteten Randverteilungen
3.2 Eigenschaften multivariater Extremwertverteilungen
(1)
(m) sind. Mit an = an , . . . , an
GnM (an x
(1)
(m) und bn = bn , . . . , bn
32
gilt
n
on
(1)
(1)
(m)
(m)
+ bn ) = min G1 an x1 + bn , . . . , Gm an xm + bn
(1)
n
(m)
(m)
= min Gn1 a(1)
n x 1 + b n , . . . , G m an x m + b n
= min G1 (x1 ), . . . , Gm (xm )
= GM (x)
und ebenso GnΠ (an x+bn ) = GΠ (x). Also sind GΠ und GM max-stabil und nach Satz 3.2.2
damit auch Extremwertverteilungen.
Dieses Konstruktionsprinzip lässt sich verallgemeinern:
Satz 3.2.3. Eine Verteilungsfunktion G ist genau dann eine m-variate Extremwertverteilung, wenn alle ihre Randverteilungen max-stabil sind und die Copula von G die
Eigenschaft
(3.3)
CG (u) = CGn u1/n , u ∈ [0, 1]m , n ∈ N,
erfüllt.
Beweis. Für eine max-stabile Verteilungsfunktion H mit H(x) = H n (αn x + βn ) für
x ∈ R, αn > 0 und βn ∈ R, n ∈ N, gilt
αn H −1 (y) + βn = inf αn x + βn ∈ R H(x) ≥ y
= inf x ∈ R H αn−1 (x − βn ) ≥ y
= inf x ∈ R H n (x) ≥ y
= H −1 y 1/n ,
y ∈ (0, 1).
Ist G eine multivariate Extremwertverteilung, dann ist sie max-stabil (Satz 3.2.2)
und ihre Randverteilungen sind gemäß Gleichung (3.2) univariate Extremwertverteilun(1)
(m) > 0 und bn =
gen. Es existieren also Normierungskonstanten an = an , . . . , an
(1)
(m) m
bn , . . . , b n
∈ R , so dass
G(x) = Gn (an x + bn ), x ∈ Rm ,
(j)
und Gj (x) = Gnj a(j)
n x + bn , x ∈ R, j ≤ m.
Da G1 , . . . , Gm stetig sind, ist die Copula von G nach Satz 2.3.3 eindeutig bestimmt und
man erhält
−1
CG (u) = G G−1
1 (u1 ), . . . , Gm (um )
−1
(1)
(m) −1
(m)
= Gn a(1)
n G1 (u1 ) + bn , . . . , an Gm (um ) + bn
3.2 Eigenschaften multivariater Extremwertverteilungen
h
= G
G−1
1
1/n u1 , . . . , G−1
m
= CGn u1/n ,
u1/n
m
33
in
u ∈ (0, 1)m .
Aus der Stetigkeit von CG (Lemma 2.3.5) folgt somit CG (u) = CGn u1/n für alle u ∈
[0, 1]m .
Setzt man andererseits CG (u) = CGn u1/n , u ∈ [0, 1]m , und
(j)
Gj (x) = Gnj a(j)
n x + bn , x ∈ R, j ≤ m
(j)
(j)
für geeignet gewählte an > 0 und bn ∈ R voraus, dann ist
G(x) = CG G1 (x1 ), . . . , Gm (xm )
(m)
(m)
n
(1)
= CG Gn1 a(1)
n x 1 + b n , . . . , G m an x m + b n
h
in
(1)
(m)
(m)
= CG G1 a(1)
x
+
b
,
.
.
.
,
G
a
x
+
b
1
m
m
n
n
n
n
= Gn an x + bn ,
x ∈ Rm ,
(1)
(m) mit an = an , . . . , an
Extremwertverteilung.
(1)
(m) und bn = bn , . . . , bn
. Daher ist G laut Satz 3.2.2 eine
Mit diesem Ergebnis steht uns ein allgemeines Verfahren zur Konstruktion einer multivariaten Extremwertverteilung zur Verfügung. Es basiert zum einen auf der Charakterisierung univariater Extremwertverteilungen und zum anderen auf einer Eigenschaft
für Copulas, die sich direkt aus der Max-Stabilität ableitet. Das liefert den Anlass für
folgende Definition:
Definition 3.2.4. Jede Copula C, die Gleichung (3.3) genügt, heißt eine Extremwertcopula oder auch eine EVD-Copula.
Eine weitere Konsequenz aus Satz 3.2.3 ist, dass man die Ränder einer Extremwertverteilung in eine beliebige Form überführen kann: Ist G eine max-stabile Verteilungsfunktion mit Copula CG und Randverteilungen G1 , . . . , Gm und sind H1 , . . . , Hm weitere
univariate Extremwertverteilungen, dann erhält man
−1
−1
G G1 H1 (x1 ) , . . . , Gm Hm (xm ) = CG H1 (x1 ), . . . , Hm (xm )
=: H(x),
x = (x1 , . . . , xm ) ∈ Rm .
Da CG eine Extremwertcopula ist, handelt es sich bei H um eine max-stabile Funktion
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
34
mit Randverteilungen H1 , . . . , Hm und Copula CG . Offensichtlich erhält man durch
−1
H H1−1 G1 (x1 ) , . . . , Hm
Gm (xm ) = G(x),
x ∈ Rm .
die ursprüngliche Extremwertverteilung zurück. Man darf also o. B. d. A. annehmen, dass
eine Extremwertverteilung die vorher festgelegten Ränder H1 , . . . , Hm besitzt (vgl. auch
Abschnitt 5.4 in Falk et al. (2004)).
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
Als nächstes soll auf eine Erweiterung von den aus Abschnitt 2.2 bekannten verallgemeinerten Pareto-Verteilungen eingegangen werden. Dort war gewährleistet, dass durch
W (x) := 1 + log G(x) für alle x ∈ R mit G(x) ≥ 1/e eine Verteilungsfunktion definiert wird. Im multivariaten Kontext (genauer: für m > 2) liefert diese Definition aber
nicht unbedingt eine Verteilungsfunktion, wie Abschnitt 5.1 in Falk et al. (2004) und
Theorem 2.3.12 in Michel (2006) zeigen.
Definition 3.3.1. Sei G eine multivariate Extremwertverteilung. Dann nennen wir
f (x) := 1 + log G(x) ,
W
1/e ≤ G(x),
eine verallgemeinerte Pareto-Funktion (GP Funktion).
Allerdings sagt Lemma 5.1.3 in Falk et al. (2004) aus, dass jede GP Funktion für
hinreichend große x mit einer Verteilungsfunktion übereinstimmt. Mit diesem Ergebnis
lassen sich multivariate verallgemeinerte Pareto-Verteilungen definieren:
Definition 3.3.2. Sei W eine multivariate Verteilungsfunktion mit Randverteilungen
f eine GP Funktion. Wenn es einen Punkt x0 < ω(W1 ), . . . , ω(Wm )
W1 , . . . , Wm und W
f (x) für alle x ≥ x0 gilt, dann heißt W eine (multivariate)
gibt, so dass W (x) = W
verallgemeinerte Pareto-Verteilung (GPD).
Auffallend an dieser Definition ist, dass keine Aussage darüber gemacht wird, welche Gestalt eine GPD hat, wenn mindestens eine Komponente von x = (x1 , . . . , xm )
(1)
(m) kleiner ist als der entsprechende Eintrag in x0 = x0 , . . . , x0 . Wie wir in Kapitel 4
sehen werden, ist das aber auch nicht notwendig, um Gleichung (2.15), die die Anpassung einer univariaten GPD an eine univariate Verteilungsfunktion beschreibt, auf den
mehrdimensionalen Fall zu übertragen.
Am Anfang von Abschnitt 3.2 wurde festgestellt, dass die Randverteilungen einer
Extremwertverteilung G univariate Extremwertverteilungen sind. Das bedeutet für die
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
35
Randverteilungen einer GPD W
Wj (xj ) = 1 + log Gj (xj ) ,
(j)
xj ≥ x0 ,
j = 1, . . . , m,
(3.4)
d. h. sie stimmen für hinreichend große xj mit univariaten GPDs überein.
Darüber hinaus besitzen verallgemeinerte Pareto-Verteilungen eine spezielle Abhän(1)
(m) gigkeitsstruktur. Aus Gleichung (3.4) folgt die Existenz eines u0 = u0 , . . . , u0
∈
(1)
(m)
(0, 1)m mit u0 ≥ W1 x0 , . . . , Wm x0
, so dass
Wj−1 (uj ) = inf x ∈ R 1 + log Gj (x) ≥ uj
= inf x ∈ R Gj (x) ≥ exp(uj − 1)
= G−1
exp(uj − 1)
j
(j)
für alle u0 ≤ uj < 1, j = 1, . . . , m. Damit gilt für die Copula einer verallgemeinerten
Pareto-Verteilung W
CW (u) = W W1−1 (u1 ), . . . , Wm−1 (um )
−1
−1
= 1 + log G G1 exp(u1 − 1) , . . . , Gm exp(um − 1)
= 1 + log CG exp(u1 − 1), . . . , exp(um − 1)
=: 1 + log Gexp (u − 1)
(3.5)
zunächst für u0 ≤ u < 1, wobei 1 := (1, . . . , 1) ∈ Rm , und wegen der Stetigkeit von CW
(Lemma 2.3.5) sogar für u0 ≤ u ≤ 1. Die Überlegungen am Ende von Abschnitt 3.2
zeigen, dass Gexp eine EVD mit den identischen Randverteilungen Ψ1 (x) = exp(x),
x ≤ 0, ist (vgl. Abschnitt 2.2). Dementsprechend ist CW eine verallgemeinerte ParetoVerteilung, deren Ränder in einer linksseitigen Umgebung von 1 mit der Gleichverteilung
auf (0, 1) übereinstimmen.4
Umgekehrt folgt unter der Gültigkeit von (3.4) und (3.5)
W (x) = CW W1 (x1 ), . . . , Wm (xm )
= 1 + log Gexp log G1 (x1 ), . . . , log Gm (xm )
= 1 + log CG G1 (x1 ), . . . , Gm (xm )
= 1 + log G(x)
(1) für alle x ≥ W1−1 u0
4
(m) , . . . , Wm−1 u0
, d. h. W ist eine GPD. Insgesamt erhalten wir:
Da CW insbesondere eine Copula ist, stimmen ihre Randverteilungen überall mit der Gleichverteilung
auf (0, 1) überein.
3.3 Multivariate verallgemeinerte Pareto-Verteilungen
36
Satz 3.3.3. Eine multivariate Verteilungsfunktion W ist genau dann eine verallgemeinerte Pareto-Verteilung, wenn (3.4) und (3.5) gelten, d. h. sowohl die Randverteilungen
als auch die Copula von W stimmen in einer Umgebung ihres jeweiligen rechten Endpunkts mit einer GPD überein.5
Verallgemeinerte Pareto-Verteilungen haben also die bemerkenswerte Eigenschaft, dass
ihre Abhängigkeitsstruktur selbst durch eine GPD beschrieben wird. Das veranlasst uns
zu folgender Definition:
Definition 3.3.4. Jede Copula C, die Gleichung (3.5) genügt, heißt eine GPD-Copula.
Wie am Ende von Abschnitt 3.2 gezeigt wurde, kann eine Extremwertverteilung auf
beliebige EVD-Ränder normiert werden, indem man nur die Randverteilungen transformiert, und diese Normierung kann auch wieder rückgängig gemacht werden. Wegen Definition 3.3.2 überträgt sich diese Eigenschaft entsprechend auf verallgemeinerte ParetoVerteilungen. Andererseits motiviert Gleichung (3.5), dass Extremwertverteilungen mit
negativ exponentialverteilten Rändern bzw. GPDs, deren Randverteilungen in der Nähe
des rechten Endpunkts mit einer Gleichverteilung übereinstimmen, eine natürliche Wahl
darstellen. Deswegen werden wir uns im Folgenden vorrangig mit entsprechend normierten Verteilungen beschäftigen.
5
Der rechte Endpunkt einer m-variaten Verteilungsfunktion F mit Randverteilungen F1 , . . . , Fm ist
definiert als ω(F ) := (ω(F1 ), . . . , ω(Fm )), vgl. Abschnitt 2.2. Insbesondere ist ω(C) = 1 für jede
Copula C.
37
4 Ein multivariater Piecing-Together
Ansatz
In den vorangegangenen Kapiteln lag der Schwerpunkt darauf, einen Überblick über
wichtige Zusammenhänge zu geben, die benötigt werden, um eine mehrdimensionale Erweiterung des Piecing-Together Ansatzes in Gleichung (2.15) zu entwickeln. Dazu wurde
nach technischen Grundlagen in Abschnitt 2.1, die wir für einige Beweise in diesem Kapitel benötigen werden, zunächst auf die univariate Extremwerttheorie eingegangen. Dort
sind uns zum ersten Mal die Begriffe Extremwertverteilung und verallgemeinerte ParetoVerteilung begegnet. Diese wurden mit dem Konzept der Copulas aus Abschnitt 2.3 auf
den multivariaten Kontext verallgemeinert, was Gegenstand von Kapitel 3 war. Wesentlich war dabei das Theorem von Sklar (Satz 2.3.3).
Nun werden – basierend auf Aulbach et al. (2009) – die bisher besprochenen Inhalte
an manchen Stellen ergänzt und ein multivariater Piecing-Together Ansatz hergeleitet.
Dieser besteht aus zwei Schritten:
(i) Zuerst wird eine GPD-Copula an eine gegebene m-dimensionale Copula C angepasst. Das geschieht, indem C nahe des rechten Endpunkts 1 durch eine GPDCopula ersetzt wird, so dass das Ergebnis selbst eine GPD-Copula ist.
(ii) Im zweiten Schritt werden die einzelnen Ränder dieser neuen Copula mittels vorgegebener eindimensionaler Verteilungsfunktionen Fi∗ , 1 ≤ i ≤ m, transformiert.
Insgesamt erhält man auf diese Weise eine multivariate Verteilungsfunktion mit Randverteilungen Fi∗ , deren Copula im zentralen Bereich mit C und im rechten Rand mit
einer GPD-Copula übereinstimmt. Dadurch wird man auch im multivariaten Kontext in
die Lage versetzt, die Wahrscheinlichkeit von seltenen Ereignissen im oberen Rand einer
Verteilung zu approximieren, selbst wenn dafür noch keine Daten vorliegen (siehe auch
Kapitel 5).
In Abschnitt 4.1 werden die theoretischen Grundlagen gelegt, indem wir Satz 3.2.1 genauer betrachten. Da der multivariate Piecing-Together Ansatz im Gegensatz zu (2.15)
nicht für Verteilungsfunktionen sondern für Zufallsvektoren formuliert wird, geht Ab-
4.1 Copulas im Anziehungsbereich von EVDs
38
schnitt 4.2 anschließend auf die Erzeugung von Zufallsvektoren ein, die einer GPD folgen.
Abschnitt 4.3 stellt schließlich das eigentliche Verfahren vor.
4.1 Copulas im Anziehungsbereich von EVDs
Wie Satz 3.2.1 zeigt, liegt eine beliebige m-dimensionale Verteilungsfunktion F genau
dann im Anziehungsbereich einer Extremwertverteilung G, wenn die Randverteilungen
von F im Anziehungsbereich der Randverteilungen von G liegen und gleichzeitig
CFn u1/n →n∈N CG (u),
u ∈ (0, 1)m ,
(4.1)
gilt. Elementare Umformungen wie in Falk (2008, Abschnitt 6) oder in de Haan und
de Ronde (1998, Abschnitt 4.2) ergeben, dass (4.1) äquivalent ist zu
1
1 − CF (1 + tx) →t↓0 − log CG exp(x) =: lG (x),
t
x ≤ 0,
(4.2)
wobei lG in der Literatur unter dem Namen stable tail dependence function bekannt
e
ist, vgl. Huang (1992). Gemäß Abschnitt 3.2 wird durch G(x)
:= CG exp(x) , x ≤ 0,
ei (x) = exp(x), x ≤ 0, i ≤ m,
eine EVD mit standard negativ exponentialen Rändern G
definiert. Nach den Ausführungen in Abschnitt 3.3 folgt daraus
lG (x) = 1 − W (x),
x0 ≤ x ≤ 0,
(4.3)
mit einem x0 < 0 und einer GPD W , deren Randverteilungen in einer linksseitigen
Umgebung der 0 mit der Gleichverteilung auf (−1, 0) übereinstimmen.
Abschnitt 4.3 in Falk et al. (2004) zeigt außerdem
lG (x) = kxkD ,
x ≤ 0,
(4.4)
wobei k·kD eine Norm auf Rm mit besonderen Eigenschaften ist, die D-Norm genannt
wird. Daher ist die stable tail dependence function positiv homogen vom Grad 1 (d. h.
tlG (x) = lG (tx), t ≥ 0) und konvex. Das bedeutet, dass (4.2) gleichbedeutend ist mit
1 − CF (1 + tx) − lG (tx)
→t↓0 0,
t
x ≤ 0.
Unter Beachtung von (4.3) erhält man daraus CF (1 + tx) − W (tx) = o(t) für t ↓ 0, d. h.
t−1 CF (1 + tx) − W (tx) →t↓0 0.
Die vorangegangenen Überlegungen führen nach einigen elementaren Umformungen
4.1 Copulas im Anziehungsbereich von EVDs
39
zu folgendem Resultat. Mit k·k wird eine beliebige Norm auf Rm bezeichnet.
Satz 4.1.1. Eine beliebige multivariate Verteilungsfunktion F liegt genau dann im Anziehungsbereich einer Extremwertverteilung, wenn das für ihre univariaten Randverteilungen gilt und gleichzeitig eine GPD-Copula CW existiert, so dass
CF (u) = CW (u) + o(ku − 1k)
gleichmäßig für u ∈ [0, 1]m .
Dieses Ergebnis zeigt, dass die Copula CF einer Verteilungsfunktion F im oberen Rand
(d. h. in einer linksseitigen Umgebung von ω(CF ) = 1) nur sinnvoll durch eine GPDCopula approximiert werden kann. Das ist in Übereinstimmung mit Rootzén und Tajvidi
(2006), die gezeigt haben, dass auch im multivariaten Kontext Überschreitungen eines
Zufallsvektors über einen hohen Schwellenwert nur sinnvoll durch eine multivariate GPD
modelliert werden können. Da das analog auch für univariate Verteilungsfunktionen gilt
(Balkema und de Haan (1974) und Pickands (1975)), führt das mit Satz 3.3.3 dazu, dass
sich F nahe ω(F ) nur vernünftig durch eine multivariate GPD approximieren lässt.
Für eine beliebige Copula C gelten die folgenden Äquivalenzen:
Korollar 4.1.2. C liegt im Anziehungsbereich einer EVD G
⇐⇒ Es gibt eine GPD-Copula CW , so dass
C(u) = CW (u) + o(ku − 1k)
gleichmäßig für u ∈ [0, 1]m . In diesem Fall gilt CW (u) = 1 + log G(u − 1), u0 ≤
u ≤ 1, mit einem u0 < 1.
⇐⇒ Es gibt eine Norm k·kD auf Rm , so dass
C(u) = 1 − ku − 1kD + o(ku − 1kD )
gleichmäßig für u ∈ [0, 1]m . In diesem Fall gilt G(x) = exp − kxkD , x ≤ 0.
Beweis. Sei CW eine GPD-Copula. Dann gibt es nach Definition 3.3.4 eine GP Funktion
f mit Rändern W
fi (x) = 1 + x für −1 ≤ x ≤ 0, 1 ≤ i ≤ m, so dass
W
f (u − 1),
CW (u) = W
u0 ≤ u ≤ 1,
f darstellen lässt als
mit einem u0 < 1. Es ist wohlbekannt, dass sich W
f (x) = 1 − kxkD ,
W
x ≤ 0, kxkD ≤ 1,
4.1 Copulas im Anziehungsbereich von EVDs
40
wobei k·kD eine D-Norm auf Rm ist, vgl. Abschnitt 4.3 in Falk et al. (2004) und Gleichung (4.4). Insbesondere definiert G(x) := exp (− kxkD ), x ≤ 0, eine Extremwertverteilung auf Rm mit standard negativ exponentialen Rändern Gi (x) = exp(x), x ≤ 0,
f (x) = 1 + log G(x) , 1/e ≤ G(x), sowie
1 ≤ i ≤ m, und es gilt W
f (u − 1) = 1 + log G(u − 1),
CW (u) = W
u0 ≤ u ≤ 1.
Ist C(u) = CW (u) + o(ku − 1k), u ∈ [0, 1]m , für eine beliebige Norm k·k auf Rm , dann
erhält man
n
x
1
1
n
C 1+
= 1 − kxkD + o
kxkD
n
n
n
→n→∞ exp(−kxkD ) = G(x),
x ≤ 0,
d. h. C liegt im Anziehungsbereich von G. Zusammen mit Satz 4.1.1 folgen damit alle
Behauptungen.
Wie dem vorangegangenen Beweis entnommen werden kann, folgt aus C ∈ D(G), dass
G eine Extremwertverteilung mit standard negativ exponentialen Rändern ist. Außerdem
ist Gleichung (4.1) äquivalent dazu, dass C im Anziehungsbereich einer solchen EVD
liegt.
Die D-Norm in der letzten Äquivalenz von Korollar 4.1.2 kann offenbar berechnet
werden als
1 − C(1 + tx)
,
x ≤ 0,
kxkD = lim
t↓0
t
in Übereinstimmung mit (4.2) und (4.4).
Beispiel 4.1.3. Wir betrachten eine beliebige Archimedische Copula (siehe Kapitel 4
in Nelsen (2006))
Cϕ (u) = ϕ−1 ϕ(u1 ) + · · · + ϕ(um ) ,
u = u1 , . . . , um ∈ (0, 1]m ,
wobei der Erzeuger ϕ : (0, ∞) → [0, ∞) eine stetige Funktion ist, die auf (0, 1] streng
monoton fällt und u. a. die Eigenschaften ϕ(1) = 0 sowie limx↓0 ϕ(x) = ∞ erfüllt. Unter
ϕ−1 (t) wird hier inf{x > 0 | ϕ(x) ≤ t}, t ≥ 0, verstanden.
Wenn die linksseitige Ableitung von ϕ im Punkt x = 1 existiert mit ϕ0 (1−) 6= 0, dann
gilt
X
1 − Cϕ (1 + tx)
→t↓0
|xi | = kxk1 ,
x = (x1 , . . . , xm ) ≤ 0.
t
i≤m
Jede Archimedische Copula mit einem derartigen Erzeuger liegt demnach im Anzie-
4.2 Erzeugung von GPD-Zufallsvektoren
41
hungsbereich einer Extremwertverteilung G(x) = exp(−kxk1 ), x ≤ 0, mit unabhängigen Rändern. Die Ränder sind also tail independent, d. h. die tail dependence parameter
verschwinden:
χ(i, j) := lim P (Ui > x | Uj > x) = 0,
x↑1
1 ≤ i 6= j ≤ m,
wobei der Zufallsvektor (U1 , . . . , Um ) der Verteilungsfunktion Cϕ folgt, vgl. auch Nelsen
(2006, Abschnitt 5.4). Eine genauere Betrachtung der tail dependence parameter ist in
Falk et al. (2004, Abschnitt 6.1) zu finden. Dort wird auch auf weiterführende Literatur
verwiesen.
Die vorangegangenen Überlegungen treffen bspw. auf die Clayton- und die FrankCopula zu, nicht aber auf die Gumbel-Copula mit Parameter λ > 1. Die entsprechenden
Erzeuger sind ϕC (t) = ϑ−1 (t−ϑ − 1) und ϕF (t) = − log exp(−ϑt) − 1 exp(−ϑ) − 1 ,
λ
ϑ > 0, sowie ϕG (t) = − log(t) , λ ≥ 1, 0 < t ≤ 1, vgl. auch Abschnitt 4.6 in Nelsen
(2006).
Bereits in den Abschnitten 3.2 und 3.3 wurde festgestellt, dass die Randverteilungen einer EVD univariate EVDs sind und dass ebenso die Ränder einer GPD in einer
geeigneten Umgebung des rechten Endpunkts mit univariaten GPDs übereinstimmen.
Außerdem kann eine beliebige EVD in eine Extremwertverteilung mit standard negativ
exponentialen Rändern überführt werden, indem man ausschließlich die Randverteilungen geeignet transformiert. Diese Transformation kann auch wieder rückgängig gemacht
werden. Analoges gilt für die Normierung einer GPD auf Ränder, die in einer linksseitigen Umgebung von 0 mit der Gleichverteilung auf (−1, 0) übereinstimmen. Daher und
aufgrund der Aussagen von Satz 4.1.1 und Korollar 4.1.2 werden wir uns bei der Erzeugung von GPD-Zufallsvektoren im nächsten Abschnitt ausschließlich mit solchen GPDs
befassen, die von einer Extremwertverteilung mit negativ exponentialen Randverteilungen abgeleitet werden.
4.2 Erzeugung von GPD-Zufallsvektoren
Der vorangegangene Abschnitt beschäftigte sich mit der Charakterisierung des Anziehungsbereichs einer Extremwertverteilung. Eine notwendige Bedingung für F ∈ D(G)
ist demnach, dass sich die Copula CF von F in einer linksseitigen Umgebung von 1
durch eine GPD-Copula approximieren lässt (Satz 4.1.1). Andererseits ist diese Eigenschaft zusammen mit Fi ∈ D(Gi ), i ≤ m, hinreichend für F ∈ D(G), wobei Fi bzw. Gi
die i-te Randverteilung von F bzw. G ist. Vor diesem Hintergrund setzen wir uns nun
4.2 Erzeugung von GPD-Zufallsvektoren
42
mit der Erzeugung von Zufallsvektoren auseinander, die einer GPD folgen. Inbesondere
sind hier GPD-Copulas von Interesse.
Die de Haan-Resnick-Pickands Darstellung einer multivariaten Extremwertverteilung
macht deutlich, dass eine Funktion G auf (−∞, 0]m genau dann die Verteilungsfunktion
einer EVD mit standard negativ exponentialen Rändern Gi (x) = exp(x), x ≤ 0, i ≤ m,
ist, wenn G dargestellt werden kann als
Z
G(x) = exp
min(xi ti ) µ(dt) ,
Sm i≤m
x ≤ 0,
(4.5)
P
wobei µ ein Maß auf Sm := t ≥ 0 i≤m ti = 1 ist – das sog. angular measure – und
R
die charakteristische Eigenschaft Sm ti µ(dt) = 1, i ≤ m, hat (vgl. etwa Abschnitt 4.4
in Falk et al. (2004)). Diese Bedingung an µ hat µ(Sm ) = m zur Folge.
Wegen Gleichung (4.5) erhält man für eine multivariate GPD W , deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0)
übereinstimmen, dass
W (x) = 1 +
X
!Z
xj
max(x̃i ti ) µ(dt)
Sm i≤m
j≤m
!
=: 1 +
X
xj D(x̃1 , . . . , x̃m−1 ),
j≤m
x0 ≤ x ≤ 0,
(4.6)
P
für ein x0 < 0. Dabei ist µ definiert wie zuvor, x̃i = xi
u ∈
j≤m xj und D :
P
m−1 [0, 1]
j≤m−1 uj ≤ 1 → [1/m, 1] ist eine Pickands dependence function, siehe Falk
et al. (2004, Abschnitt 4.3).
Das folgende Ergebnis charakterisiert derartige verallgemeinerte Pareto-Verteilungen.
Gleichzeitig stellt es einen einfachen Ansatz zur Verfügung, um einen Zufallsvektor zu
erzeugen, der einer solchen GPD folgt, indem es das zweidimensionale Verfahren aus
Buishand et al. (2008) auf beliebige Dimensionen erweitert.1 Weitere Möglichkeiten,
eine multivariate GPD zu simulieren, sind in Michel (2007) zu finden.
Satz 4.2.1. Es gelten die folgenden Aussagen:
(i) Sei W eine m-variate GPD, deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen. Dann gibt
es einen Zufallsvektor Z = (Z1 , . . . , Zm ) mit Zi ∈ [0, m] und E(Zi ) = 1, i ≤ m,
1
Um einen Zufallsvektor zu erzeugen, der nach einer beliebigen GPD verteilt ist, sind die Ausführungen
am Ende der Abschnitte 3.3 bzw. 4.1 zu beachten.
4.2 Erzeugung von GPD-Zufallsvektoren
43
sowie einen Vektor (−1/m, . . . , −1/m) ≤ x0 < 0, so dass
1
1
W (x) = P −U
,...,
≤x ,
Z1
Zm
x0 ≤ x ≤ 0,
wobei die Zufallsvariable U auf (0, 1) gleichverteilt und unabhängig von Z ist.
(ii) Sei U eine auf (0, 1) gleichverteilte Zufallsvariable und Z = (Z1 , . . . , Zm ) ein Zufallsvektor mit 0 ≤ Zi ≤ ci f. s. und E(Zi ) = 1, i ≤ m, für geeignete c1 , . . . , cm ≥ 1.
Falls U, Z unabhängig sind, dann folgt −U (1/Z1 , . . . , 1/Zm ) einer GPD, deren
Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen.
Dieses Resultat lässt sich direkt auf eine GPD W mit Randverteilungen Wi (x) =
1 + ai x in einer linksseitigen Umgebung von 0 übertragen, wobei ai > 0, i ≤ m. Dazu
ist lediglich Zi durch ai Zi zu ersetzen.
Beweis. Zuerst wird Teil (i) gezeigt. Wegen Gleichung (4.6) erhalten wir für alle x in
einer geeigneten linksseitigen Umgebung von 0 ∈ Rm
W (x) = 1 +
X
j≤m
!Z
xj
max(x̃i ti ) µ(dt)
Sm i≤m
R
mit einem Maß µ auf Sm , so dass µ(Sm ) = m und Sm ti µ(dt) = 1, i ≤ m.
Durch µ̃(·) := µ(·)/m wird ein Wahrscheinlichkeitsmaß auf Sm definiert. Sei T =
(T1 , . . . , Tm ) ein Zufallsvektor mit Werten in Sm und Verteilung µ̃. Für Z := m T gilt
R
dann Z ∈ [0, m]m und E(Zi ) = Sm ti µ(dt) = 1, i ≤ m. Außerdem folgt aus Lemma 2.1.11 für alle x ≤ 0 ∈ Rm mit xj ≥ −1/m, j ≤ m,
1
1
,...,
≤x
P −U
Z1
Zm
1
1
,...,
≤ mx
= P −U
T1
Tm
Z
1
1
=
,...,
≤ mx T = t (P ∗ T )(dt)
P −U
t1
tm
Sm
Z
1
1
=
P −U
,...,
≤ mx µ̃(dt)
t1
tm
Sm
Z
1
1
1
=
P −U
,...,
≤ mx µ(dt)
m Sm
t1
tm
Z
1
=
P U ≥ m max(−xi ti ) µ(dt)
i≤m
m Sm
4.2 Erzeugung von GPD-Zufallsvektoren
1
=
m
Z
1
=
m
Z
!
Sm
=1+
44
P U ≥ −m
X
xj
j≤m
!
max(x̃i ti ) µ(dt)
i≤m
!
1+m
Sm
X
X
xj
j≤m
max(x̃i ti ) µ(dt)
i≤m
!Z
xj
max(x̃i ti ) µ(dt).
Sm i≤m
j≤m
Damit ist Teil (i) vollständig.
Andererseits gilt für x ≤ 0 und große s > 0
s
1
1
1
,...,
≤ x
P −U
Z1
Zm
s
Z
s
1
=
P U ≥ max(−xi zi ) (P ∗ Z)(dz)
s i≤m
[0,c]
s
Z
1
max(−xi zi ) (P ∗ Z)(dz)
= 1−
s [0,c] i≤m
Z
→s→∞ exp −
max(−xi zi ) (P ∗ Z)(dz)
[0,c] i≤m
=: G(x),
wobei c = (c1 , . . . , cm ). Wegen Lemma 7.2.1 in Reiss (1989) ist G eine Verteilungsfunktion, die offensichtlich max-stabil ist: Gs (s−1 x) = G(x), s > 0. Daher ist G eine multivariate Extremwertverteilung mit standard negativ exponentialen Rändern Gi (x) =
exp(xE(Zi )) = exp(x), x ≤ 0, i ≤ m, und 1 + log(G(x)) eine GP Funktion, die
Z
max(−xi zi ) (P ∗ Z)(dz)
1 + log(G(x)) = 1 −
[0,c] i≤m
1
1
= P −U
,...,
≤x ,
x0 ≤ x ≤ 0,
Z1
Zm
für ein geeignet gewähltes x0 < 0 erfüllt.
Betrachtet man einen Zufallsvektor S = (S1 , . . . , Sm ), der nach einer Copula C verteilt
ist (vgl. Abschnitt 2.3 und Nelsen (2006)), dann erfüllt Z := 2S die Voraussetzungen von
Satz 4.2.1 (ii). Auf diese Weise wird die Menge der Copulas in die Menge der verallgemeinerten Pareto-Verteilungen abgebildet, was ein weites Spektrum an Wahlmöglichkeiten
für den Zufallsvektor Z eröffnet.
Um die verbleibenden Überlegungen in diesem Kapitel möglichst einfach zu gestalten, wird eine gegebene Copula C zeitweise auf das Intervall [−1, 0]m verschoben: Wir
4.3 Multivariates Piecing-Together
45
e durch
definieren die Verteilungsfunktion C
x ∈ Rm ,
e
C(x)
:= C(x + 1),
(4.7)
und nennen sie eine Copula auf [−1, 0]m , da sie ihre charakteristischen Eigenschaften von
e stimmen folglich
der zugrunde liegenden Copula C erhält. Die Randverteilungen von C
mit der Gleichverteilung auf (−1, 0) überein. In diesem Zusammenhang nennen wir C
e abzugrenzen.
gelegentlich auch eine Copula auf [0, 1]m , um sie deutlich von C
eW eine GPD-Copula auf
Ist C = CW insbesondere eine GPD-Copula, dann heißt C
eW eine multivariate GPD ist, folgt aus Gleichung (4.6)
[−1, 0]m . Da mit CW auch C
eW (x) = 1 +
C
X
!Z
xj
j≤m
max ti P
Sm i≤m
!
xi
j≤m
xj
µ(dt),
x0 ≤ x ≤ 0,
mit einem x0 < 0.
Nun verwenden wir Satz 4.2.1, um einen Zufallsvektor V ∈ [−1, 0]m zu konstruieren,
der einer GPD-Copula auf [−1, 0]m folgt. Dazu betrachten wir eine auf (0, 1) gleichverteilte Zufallsvariable U und einen davon unabhängigen Zufallsvektor S = (S1 , . . . , Sm ),
der nach einer beliebigen Copula auf [0, 1]m verteilt ist. Man erhält für i ≤ m


1 + x, falls − 12 ≤ x ≤ 0,
1
≤x =
P −U
 1 ,
2Si
falls x < − 12 ,
4|x|
=: H(x),
x ≤ 0.
Wegen Satz 4.2.1 und Abschnitt 3.3 folgt
U
U
V := (V1 , . . . , Vm ) := H −
− 1, . . . , H −
−1
2S1
2Sm
mit
Vi =

−
U
,
2Si
falls U ≤ Si ,
 Si − 1, falls U > S ,
i
2U
(4.8)
einer GPD-copula auf [−1, 0]m .
4.3 Multivariates Piecing-Together
Nachdem sich die vorangegangenen beiden Abschnitte mit den letzten Vorbereitungen
beschäftigt haben, um den univariaten Piecing-Together Ansatz aus Gleichung (2.15)
4.3 Multivariates Piecing-Together
46
auf beliebige Dimensionen zu erweitern, wird jetzt auf das Haupt-Resultat dieser Arbeit eingegangen. Dieses wird im Gegensatz zu Abschnitt 2.2 unter Verwendung von
Zufallsvektoren formuliert.
Der multivariate Piecing-Together Ansatz besteht aus zwei Schritten:
(i) Zunächst betrachten wir eine gegebene m-dimensionale Copula C und wählen einen
Schwellenwert u0 ∈ [0, 1)m . In dem Bereich, in dem alle Komponenten groß sind –
das entspricht dem mehrdimensionalen Intervall (u0 , 1] – wird C durch eine GPDCopula ersetzt. Das geschieht so, dass das Ergebnis selbst wieder eine GPD-Copula
ist, d. h. es ergibt sich eine stetige Verteilungsfunktion C ∗ , die in einer linksseitigen
Umgebung von 1 mit einer GPD übereinstimmt und die Randverteilungen Ci∗ (x) =
x, x ∈ (0, 1), i ≤ m, hat.
(ii) Anschließend werden die Ränder von C ∗ mit vorgegebenen Verteilungsfunktionen Fi∗ , i ≤ m, transformiert. Es entsteht dadurch eine Verteilungsfunktion F ∗
mit Randverteilungen Fi∗ , i ≤ m, deren Copula im zentralen Bereich mit der ursprünglichen Copula C und jenseits von u0 mit einer GPD übereinstimmt. Sind
F1∗ , . . . , Fm∗ univariate GPDs oder Verteilungsfunktionen, die aus einem univariaten Piecing-Together Ansatz gemäß (2.15) hervorgegangen sind, dann ist F ∗ laut
Satz 3.3.3 sogar eine multivariate GPD.
Wir beginnen mit dem ersten Schritt. Dazu seien eine Copula C, eine GPD-Copula CW
(1)
(m) e bzw. C
eW
und ein multivariater Schwellenwert u0 = u0 , . . . , u0
∈ [0, 1)m gegeben. C
bezeichnen die gemäß (4.7) definierten Transformationen von C und CW auf das Intervall
(1)
(m) [−1, 0]m . Dementsprechend ist y0 := y0 , . . . , y0
:= u0 − 1 der Schwellenwert im
m
Intervall [−1, 0] , der u0 entspricht.
e der einer GPD-Copula C
e∗ auf
Im Folgenden konstruieren wir einen Zufallsvektor Q,
e übereinstimmen, d. h. C
e∗ (x) = C(x)
e
[−1, 0]m folgt. Diese soll im zentralen Bereich mit C
e + 1 einer GPD-Copula C ∗
für alle x ≤ y0 . Dann erhält man aber sofort, dass Q := Q
auf [0, 1]m folgt, die C ∗ (x) = C(x) für x ≤ u0 erfüllt.
eW , d. h. V folgt einer
Sei V = (V1 , . . . , Vm ) ein Zufallsvektor mit Verteilungsfunktion C
GPD-Copula auf [−1, 0]m . Dann stimmen die Randverteilungen P (Vi ≤ x) = 1 + x,
−1 ≤ x ≤ 0, i ≤ m, mit der Gleichverteilung auf (−1, 0) überein und es existiert ein
(1)
(m) x 0 = x0 , . . . , x 0
< 0, so dass für alle x = (x1 , . . . , xm ) ∈ [x0 , 0]
P (V ≤ x) = 1 +
X
i≤m
! x1
xi D P
xm−1
,..., P
i≤m xi
i≤m xi
gilt, wobei D eine Pickands dependence function ist.
(4.9)
4.3 Multivariates Piecing-Together
47
e und sei unDer Zufallsvektor Y = (Y1 , . . . , Ym ) habe die Verteilungsfunktion C
abhängig von V . Dann wird durch
o
o − y (i) V 1n
ei := Yi 1n
Q
(i) ,
(i)
i
0
Y ≤y
Y >y
i
i
0
0
i ≤ m.
(4.10)
e = Q
e1 , . . . , Q
em definiert, dessen Verteilungsfunktion eine GPDein Zufallsvektor Q
e übereinstimmt. Das ist der Inhalt des HauptCopula ist, die im zentralen Bereich mit C
Ergebnisses in dieser Arbeit:
ei aus (4.10) auf (−1, 0) gleichSatz 4.3.1. Wenn P (Y > y0 ) > 0 gilt, dann ist jedes Q
e= Q
e1 , . . . , Q
em folgt einer GPD-Copula auf [−1, 0]m , die
verteilt. Der Zufallsvektor Q
(i)
e auf [−1, 0]m übereinstimmt, d. h.
auf ×i≤m −1, y0 mit der Copula C
e ≤ x = C(x),
e
P Q
x ≤ y0 .
Außerdem erhält man mit x0 aus (4.9) für eine beliebige nicht-leere Teilmenge K von
{1, . . . , m}
ei ≥ xi , i ∈ K = P Vi ≥ bi,K xi , i ∈ K ,
P Q
h
(i) (i) i
xi ∈ max y0 , x0 , 0 , i ≤ m,
wobei
(j)
bi,K :=
P Yj > y0 , j ∈ K
(i)
−y0
(j)
P Yj > y0 , j ∈ K
=
∈ (0, 1],
(i) P Yi > y0
i ∈ K.
ei auf (−1, 0) gleichverteilt ist. Es gilt für −1 ≤
Beweis. Zuerst wird gezeigt, dass jedes Q
(i)
x ≤ y0
ei ≤ x, Yi ≤ y0(i) + P Q
ei ≤ x, Yi > y0(i)
ei ≤ x = P Q
P Q
= P (Yi ≤ x)
=1+x
(i)
und für y0 < x ≤ 0
ei ≤ x = P Yi ≤ y0(i) + P −y0(i) Vi ≤ x P Yi > y0(i)
P Q
!
x
(i) (i)
= 1 + y0 + P Vi ≤ − (i) −y0
y
!0
x
(i)
(i) = 1 + y0 + 1 − (i) −y0
y0
4.3 Multivariates Piecing-Together
48
= 1 + x.
e nach einer Copula auf [−1, 0]m verteilt. Außerdem ist für
Also ist der Zufallsvektor Q
x ≤ y0
e≤x =P Q
e ≤ x, Y ≤ y0 + P Q
e ≤ x, Y y0
P Q
= P (Y ≤ x)
e
= C(x).
Da V nach einer GPD-Copula auf [−1, 0]m verteilt ist, erhält man nach Proposition 2.1
(i) (i) in Falk und Michel (2009) mit xi ∈ max y0 , x0 , 0 , i ≤ m, t ∈ [0, 1] und einer
beliebigen nicht-leeren Teilmenge K ⊂ {1, . . . , m}
ej > txj , j ∈ K = P Q
ej > txj , Yj > y0(j) , j ∈ K
P Q
(j)
(j)
= P −y0 Vj > txj , j ∈ K P Yj > y0 , j ∈ K
(j)
(j)
= tP −y0 Vj > xj , j ∈ K P Yj > y0 , j ∈ K
ej > xj , j ∈ K .
= tP Q
Diese Gleichheit zeigt wiederum nach Proposition 2.1 in Falk und Michel (2009), dass
e einer GPD folgt. Insgesamt ist Q
e also nach einer GPD-Copula auf [−1, 0]m verteilt.
Q
Schließlich erhalten wir mit xi und K von oben
e i ≥ xi , i ∈ K
P Q
ei ≥ xi , i ∈ K, Yj ≤ y0(j) für ein j ∈ K
ei ≥ xi , Yi > y0(i) , i ∈ K + P Q
=P Q
(i)
(i)
= P −y0 Vi ≥ xi , i ∈ K P Yi > y0 , i ∈ K
!
xi
(i)
= P Vi ≥ − (i) , i ∈ K P Yi > y0 , i ∈ K
y0
= P Vi ≥ bi,K xi , i ∈ K
und damit ist der Beweis vollständig.
e in Gleichung (4.10) so zu verstehen: AusgeAnschaulich ist die Konstruktion von Q
hend vom Zufallsvektor Y , der einer Copula auf [−1, 0]m folgt, wird jede einzelne Kom(i)
ponente Yi , i ≤ m, geprüft, ob sie ihren spezifischen Schwellenwert y0 überschreitet. Im
(i)
Fall Yi ≤ y0 bleibt diese Komponente unverändert. Andernfalls wird sie durch die i-te
geeignet normierte Komponente des Zufallsvektors V ersetzt, der einer GPD-Copula auf
[−1, 0]m folgt. Diese Normierung gewährleistet, dass der so erhaltene Wert mit Wahr-
4.3 Multivariates Piecing-Together
49
(i) scheinlichkeit 1 im Intervall y0 , 0 liegt und damit tatsächlich eine Überschreitung von
(i)
y0 darstellt.
e die Verteilung unterhalb“
Satz 4.3.1 stellt sicher, dass beim Übergang von Y nach Q
”
e als Ganzes einer GPD-Copula
des Schwellenwertes y0 erhalten bleibt und außerdem Q
auf [−1, 0]m folgt. Das impliziert, dass
e+1
Q := (Q1 , . . . , Qm ) := Q
(4.11)
einer GPD-Copula C ∗ auf [0, 1]m folgt. Nach dem Konstruktionsprinzip erhält man sofort
C ∗ (u) = C(u),
0 ≤ u ≤ u0 ,
(4.12)
mit C und u0 wie zuvor beschrieben. Damit ist der erste Schritt des multivariaten
Piecing-Together Ansatzes abgeschlossen.
Der zweite Schritt besteht nun aus der Quantiltransformation der Komponenten von
Q mit den vorgegebenen Verteilungsfunktionen F1∗ , . . . , Fm∗ . Dadurch entsteht ein Zufallsvektor
∗
X ∗ := (X1∗ , . . . , Xm
) := F1∗−1 (Q1 ), . . . , Fm∗−1 (Qm )
(4.13)
mit Copula C ∗ und Randverteilungen F1∗ , . . . , Fm∗ . Stimmen die Fi∗ , i ≤ m, in der Nähe
des jeweiligen rechten Endpunktes mit univariaten GPDs überein, dann wird durch
(4.13) ein Zufallsvektor definiert, der nach einer multivariaten GPD verteilt ist (siehe
Satz 3.3.3).
Kombiniert man den univariaten und den multivariaten Piecing-Together Ansatz
miteinander, dann erhält man insbesondere eine multivariate Erweiterung von (2.15):
Sei X ein Zufallsvektor mit Verteilungsfunktion F , die nach dem Theorem von Sklar
(Satz 2.3.3) in eine Copula CF und die Randverteilungen F1 , . . . , Fm zerfällt. Liegt F
im Anziehungsbereich einer multivariaten Extremwertverteilung G mit Copula CG und
Randverteilungen G1 , . . . , Gm , dann gelten (4.1) und Fi ∈ D(Gi ), i ≤ m, vgl. Ab(1)
(m)
(i) schnitt 3.2. Nun wählen wir univariate Schwellenwerte z0 , . . . , z0 , wobei 0 < Fi z0 <
1, und bestimmen Fi∗ , i ≤ m, durch den univariaten Piecing-Together Ansatz in (2.15)
Fi∗ (x)
=

Fi (x),
(i)
Fi z (i) + 1 − Fi z (i)
0
0
x ≤ z0 ,
(i)
(4.14)
Wξi ;νi ,βi (x), x > z0 ,
mit geeignet gewählten ξi , νi ∈ R, βi > 0, i ≤ m. Aus der Gültigkeit von (4.1) folgt
gemäß Abschnitt 4.1
CF (u) = CW (u) + o(ku − 1k)
4.3 Multivariates Piecing-Together
50
gleichmäßig für u ∈ [0, 1]m mit einer GPD-Copula CW und einer beliebigen Norm k·k
auf Rm , wobei
CW (u) = 1 − lG (u − 1),
x0 ≤ u ≤ 1,
mit einem x0 < 1 gilt, vgl. Gleichung (4.3). Dabei bezeichnet lG die stable tail de(1)
(m) pendence function von G. Nun wählen wir einen Schwellenwert u0 = u0 , . . . , u0
∈
m
[0, 1) und verknüpfen CF und CW unter Verwendung des oben beschriebenen multivariaten Piecing-Together Ansatzes. Gleichung (4.13) liefert dann einen Zufallsvektor X ∗
mit Verteilungsfunktion F ∗ , die gemäß (4.12) und (4.14)
F ∗ (x) = CF∗ F1∗ (x1 ), . . . , Fm∗ (xm )
= CF F1 (x1 ), . . . , Fm (xm )
= F (x)
(i)
(i) für alle x = (x1 , . . . , xm ) ∈ Rm mit xi < min z0 , Fi∗−1 u0
, i ≤ m, erfüllt. Da
∗
∗
CF insbesondere eine GPD-Copula ist und die Fi , i ≤ m, jeweils gemäß (2.16) in einer
linksseitigen Umgebung ihrer rechten Endpunkte mit univariaten GPDs übereinstimmen,
ist F ∗ nach Satz 3.3.3 eine multivariate GPD.
Es stellt sich allerdings folgendes Problem: In dem Schritt, der CF mit CW verknüpft,
muss ein Zufallsvektor V erzeugt werden, der der Verteilungsfunktion
eW (x) = CW (x + 1) = 1 − lG (x),
C
x ≤ 0,
folgt. Satz 4.2.1 stellt zwar die Existenz eines solchen V sicher, indem es mit Hilfe eines
geeigneten Zufallsvektors Z und einer davon unabhängigen auf (0, 1) gleichverteilten
Zufallsvariable U konstruiert wird. Die Frage, welcher Verteilung dieses Z folgen muss,
damit V tatsächlich nach CW verteilt ist, bleibt jedoch offen. Da die Lösung dieses
Problems den Rahmen dieser Arbeit sprengen würde, wird im folgenden Kapitel nicht
die Copula CW , sondern die Verteilung von Z als gegeben vorausgesetzt.
5.1 Das Modell
51
5 Simulationen
Im vorangegangen Kapitel wurde ein multivariater Piecing-Together Ansatz vorgestellt
und der Zusammenhang zum univariaten Fall aufgezeigt. Jetzt soll dieses Verfahren
mit Hilfe von Computer-Simulationen durchgeführt werden. Als Benchmark dienen entsprechende Simulationen ohne Anwendung des multivariaten Piecing-Together Ansatzes.
Dazu habe ich ein ausführliches Programm in der Programmiersprache R (Version 2.8.1)
geschrieben, das auf dem beiliegenden Datenträger enthalten ist.1 Auch dieses Kapitel
basiert in Teilen auf der Arbeit Aulbach et al. (2009).
Im ersten Abschnitt wird das Modell vorgestellt, das den Simulationen zugrunde liegt.
Anschließend wird kurz auf das R Programm und die verwendeten Hilfsmittel eingegangen. Der letzte Abschnitt erläutert die Ergebnisse anhand einer ausgewählten Simulation
und behandelt abschließend einige Sonderfälle.
5.1 Das Modell
(i) Betrachtet werden die m Folgen von Zufallsvariablen ζn
vektor (N1 , . . . , Nm ) mit folgenden Eigenschaften:
(i)
n∈N
, i ≤ m, und ein Zufalls-
(i)
(i) Die Folgenglieder ζ1 , ζ2 , . . . sind für jedes i ≤ m unabhängig und identisch verteilt mit Verteilungsfunktion Fi .
(i) (ii) Die i-te Folge ζn
n∈N
ist unabhängig von Ni , i ≤ m.
(iii) Ni ist Poisson-verteilt zum Parameter λi > 0, i ≤ m.
Unter diesen Voraussetzungen definieren wir den Zufallsvektor X = (X1 , . . . , Xm ) durch
Xi :=
Ni
X
k=1
1
(i)
ζk ,
i ≤ m,
R kann kostenlos unter http://www.r-project.org/ heruntergeladen werden.
(5.1)
5.1 Das Modell
52
P
Pm
und untersuchen die Verteilung von kXk1 = m
i=1 |Xi | =
i=1 Xi in der Nähe ihres
rechten Endpunkts. Dazu betrachten wir für α ∈ (0, 1) das α-Quantil
qα := H −1 (α) = inf x ∈ R H(x) ≥ α ,
(5.2)
wobei H die Verteilungsfunktion von kXk1 bezeichnet, und den bedingten Erwartungswert von kXk1 gegeben, dass kXk1 mindestens den Wert qα annimmt,
eα := E kXk1 kXk1 ≥ qα .
(5.3)
Im Sinne von Satz 2.1.6 ist eα die beste Vorhersage von kXk1 , wenn die Information
kXk1 ≥ qα gegeben ist.
Beispiel 5.1.1. Di Clemente und Romano (2004) verwenden diesen Ansatz, um den Gesamtschaden zu modellieren, der im Laufe eines Jahres einer Versicherung gemeldet wird.
(i)
In diesem Zusammenhang entspricht ζk der k-ten Schadensmeldung im Geschäftsfeld i
der Versicherung im betrachteten Jahr und Ni ist die Gesamtzahl von Schadensmeldungen in diesem Geschäftsfeld. Xi ist dementsprechend der Gesamtschaden in Geschäftsfeld
i und kXk1 der gesuchte Gesamtschaden der Versicherung im betrachteten Jahr.
(i)
Es wird angenommen, dass die einzelnen Schadensmeldungen ζk im zentralen Bereich
(i)
– d. h. unterhalb eines Schwellenwertes z0 – einer Lognormalverteilung folgen und im
übrigen Bereich einer univariaten GPD, d. h.
(i)
P ζk
 (i)
log(x)−µi

,
0 < x ≤ z0 ,
Φ
σi
≤x =
(i)
(i)
(i) (i)
Φ log(z0 )−µi + 1 − Φ log(z0 )−µi W
ξi ;0,βi x − z0 , x > z0 .
σi
σi
Dabei bezeichnet Φ die Verteilungsfunktion der Standardnormalverteilung, µi ∈ R und
σi > 0 sind Lokations- und Skalenparameter der Lognormalverteilung und die GPD
Wξi ;0,βi mit ξi , βi > 0 ist gegeben wie in (2.14).
Außerdem modellieren Di Clemente und Romano (2004) die Abhängigkeitsstruktur
zwischen den Komponenten von X – d. h. zwischen den einzelnen Geschäftsfeldern –
durch eine t-Copula mit ν Freiheitsgraden (siehe unten).
Unter den Annahmen aus Beispiel 5.1.1 erzeugen wir n = 104 Realisationen von X und
schätzen daraus die Werte qα und eα (siehe Abschnitt 5.2). Allerdings wird das Modell
dahingehend erweitert, dass der multivariate Piecing-Together Ansatz aus Abschnitt 4.3
auf die oben genannte t-Copula angewendet wird. Die Simulationsergebnisse werden in
Abschnitt 5.3 diskutiert.
5.1 Das Modell
53
An dieser Stelle soll kurz auf die Definition einer t-Copula eingegangen werden. Seien
R ∈ Rm×m eine Korrelationsmatrix und η ein Zufallsvektor in Rm , der einer multivariaten Normalverteilung N (0, R) folgt. Ist S eine von η unabhängige Chi-Quadrat-verteilte
Zufallsvariable mit ν Freiheitsgraden (in Zeichen χ2ν ), dann folgt
√
ν
T := √ η
S
(5.4)
einer m-dimensionalen standardisierten t-Verteilung mit ν Freiheitsgraden. Da jede Komponente Ti von T = (T1 , . . . , Tm ) einer univariaten t-Verteilung mit ν Freiheitsgraden
(in Zeichen tν ) folgt, ist der Zufallsvektor tν (T1 ), . . . , tν (Tm ) der transformierten Komponenten nach einer Copula verteilt, die man eine t-Copula mit ν Freiheitsgraden nennt.
Aufgetretene Probleme
In Di Clemente und Romano (2004) werden die Modell-Parameter aus vorhandenem
Datenmaterial geschätzt. Bei genauerer Betrachtung der Schätzungen für µi und σi fällt
jedoch auf, dass sich daraus sehr hohe Wahrscheinlichkeiten für das Überschreiten der
(i)
Schwellenwerte z0 ergeben:
(i)
(i) P ζk > z0
!
(i) log z0 − µi
,
=1−Φ
σi
k ∈ N, i ≤ m.
Da das nicht vereinbar mit dem übrigen Teil ihres Artikels ist, wird für die Simulationen in diesem Kapitel angenommen, dass die Werte aus Di Clemente und Romano
(2004) nicht Lokations- und Skalenparameter, sondern Erwartungswerte und Standardabweichungen der Lognormalverteilungen angeben. Aus diesen Größen wurden dann die
Lokations- und Skalenparameter µi bzw. σi berechnet.
i
1
2
λi
15.4
18.8
µi
8.039525
7.944303
σi
1.414820
1.421709
(i)
z0
41 823
39 274
βi
20 975.44
21 141.16
ξi
0.33799
0.28845
Tabelle 5.1: Geschätzte Parameter des Modells aus Di Clemente und
Romano (2004), wobei die Werte in den Spalten µi und σi modifiziert
wurden.
(i)
Ein weiteres Problem liegt im Verlauf der Verteilungsfunktionen Fi (x) = P ζk ≤ x ,
x > 0, (vgl. Beispiel 5.1.1): Eine grafische Analyse mit Mathematica 6 erweckte den
Eindruck, als würde eine Lognormalverteilung große Werte mit einer höheren Wahr-
5.1 Das Modell
54
scheinlichkeit versehen als Fi , d. h.
log(x) − µi
Φ
− Fi (x) ≤ 0
σi
(5.5)
für alle hinreichend großen x ∈ R. Das widerspricht nicht nur der Anschauung2 , sondern
auch folgendem Resultat:
Satz 5.1.2. Seien µi ∈ R und σi , ξi , βi > 0 gegeben und Φ, Fi wie zuvor. Dann gilt
lim
x→∞
1 − Fi (x)
1−Φ
log(x)−µi σi
= ∞.
(5.6)
(i)
Beweis. Für x > z0 gilt
!
!!
(i) (i) log z0 − µi
log z0 − µi
(i) 1 − Fi (x) = 1 − Φ
− 1−Φ
Wξi ;0,βi x − z0
σi
σi
!!
!
(i) (i) −1/ξi
log z0 − µi
x − z0
= 1−Φ
1 + ξi
σi
βi
!!
(i)
1
x − z0
=: pi exp − log 1 + ξi
.
ξi
βi
Außerdem erhält man aus Lemma 1.19.2 in Gänssler und Stute (1977)
log(x) − µi
1−Φ
σi
d. h. es gilt für x ≥ exp
log(x) − µi
σi
exp −
≤√
2σi2
2π log(x) − µi
2σi2
ξi
+ µi
2 !
,
x > exp(µi ),
!
log(x) − µi · 2σi2
log(x) − µi
σi
exp −
1−Φ
≤√
σi
2σi2 · ξi
2π log(x) − µi
σi exp µi ξi
1
exp − log(x) .
=√
ξi
2π log(x) − µi
(i)
Insgesamt folgt für x > max z0 , exp
2σi2
ξi
+ µi
"
! #!
√
(i)
pi 2π
1
x − z0
1
log(x) − µi exp − log 1 + ξi
·
≥
log(x)−µi ξi
βi
x
σi exp µi ξi
1−Φ
σi
1 − Fi (x)
2
Üblicherweise wird eine GPD an den rechten Rand einer Verteilung angepasst, um sehr großen Werten
eine höhere Wahrscheinlichkeit zu geben.
5.1 Das Modell
55
!−1/ξi
√
βi − ξi z0(i)
pi 2π
ξi
log(x) − µi
=
+
βi x
βi
σi exp µi ξi
→ ∞ für x → ∞,
da log(x) für x → ∞ unbeschränkt wächst, während
0 konvergiert.
(i)
βi −ξi z0
βi x
+ βξii
−1/ξi
gegen
ξi −1/ξi
βi
>
Damit ist die Vermutung in (5.5) widerlegt. Tatsächlich lässt sich Gleichung (5.6) für
die Parameter in Tabelle 5.1 auch in oben genannter grafischer Analyse beobachten –
allerdings erst für sehr große Werte von x.3
Festlegung der freien Parameter
Wie schon an Tabelle 5.1 erkennbar ist, betrachten wir den Fall m = 2. Die Abhängigkeitsstruktur zwischen den Komponenten des Zufallsvektors X aus (5.1) wird durch eine
t-Copula Ct mit ν = 12 Freiheitsgraden modelliert, der die Korrelationsmatrix
R :=
!
1 0.73
0.73 1
(5.7)
zugrunde liegt, vgl. (5.4) und Di Clemente und Romano (2004).
(1)
(2) Es bleiben noch der Schwellenwert u0 = u0 , u0 , ab dem gemäß Abschnitt 4.3
eine GPD-Copula CW an Ct angepasst werden soll, und CW selbst festzulegen. Wir
eW mit
wählen u0 := 1/2, 1/2 und bestimmen einen Zufallsvektor V = (V1 , V2 ) aus C
eW (x) = CW (x + 1), x ∈ R2 , durch das Verfahren in (4.8), d. h.
C
Vi =

−
U
,
2Si
falls U ≤ Si ,
 Si − 1, falls U > S ,
i
2U
(5.8)
wobei S = (S1 , S2 ) der bivariaten Normal-Copula mit Kovarianzmatrix R aus (5.7)
folgt und U eine von S unabhängige auf (0, 1) gleichverteilte Zufallsvariable ist. Nach
Satz 4.2.1 ist damit insbesondere CW festgelegt.
3
Di Clemente und Romano (2004) betrachten nicht zwei, sondern drei Dimensionen. Jedoch setzt für
eine dieser drei Komponenten (Geschäftsfeld wind storm“) das asymptotische Verhalten in (5.6)
”
erst so weit im rechten Rand der beiden Verteilungen ein, dass es zumindest grafisch auch bei hoher
Rechengenauigkeit nicht mehr beobachtbar ist. Deswegen wurde die entsprechende Komponente für
die Simulationen nicht berücksichtigt.
5.2 Das Programm im Überblick
56
5.2 Das Programm im Überblick
Dieser Abschnitt beschäftigt sich kurz mit dem selbst entwickelten R Programm, das für
die Simulationen im nächsten Abschnitt verwendet wurde. Es entstand unter Verwendung der Entwicklungsumgebung Eclipse Classic 3.4.24 mit dem Plugin StatET
0.7.25 und benötigt die R Pakete rJava6 (0.6-2), stats (2.8.1), mvtnorm (0.9-4), mnormt
(1.3-2), scatterplot3d (0.3-27), corpcor (1.5.2), sn (0.4-11), adapt (1.0-4), pspline
(1.0-13) und copula7 (0.8-3). In Klammern steht jeweils die verwendete Version.
Da die Funktionen, die das Programm zur Verfügung stellt, im Quellcode ausführlich
kommentiert sind, soll hier nur ein kurzer Überblick gegeben werden:
• PiecingTogether ist die zentrale Funktion im Programm und erlaubt die Erzeugung von Zufallsvektoren X entsprechend des Modells aus Abschnitt 5.1, wobei
die Verwendung des multivariaten Piecing-Together Ansatzes vom Benutzer auch
unterdrückt werden kann.
Diese Funktion prüft die Eingabewerte auf ihre Gültigkeit und legt in einem vom
Benutzer angegebenen Output-Verzeichnis selbstständig eine Ordnerstruktur an,
in die die Simulationsergebnisse gespeichert werden.8 Jede Simulation erhält eine
eindeutige ID, so dass auch mehrere Simulationen mit den gleichen Parameterwerten durchgeführt werden können.
Zum standardmäßig erzeugten Output gehören eine Log-Datei, die den ProgrammAblauf dokumentiert, sowie Text-Dateien, die die Zufallswerte aus den einzelnen
Programm-Abschnitten enthalten, und (im Fall m = 2) Scatterplots der Daten
aus diesen Text-Dateien im eps-Format. Falls gewünscht, werden auch Dateien
erzeugt, die Schätzwerte q̂α und êα für qα und eα zu verschiedenen Werten von
α ∈ (0, 1) enthalten, vgl. (5.9) und (5.10).
• combineQuanME ist eine Funktion, die die Schätzwerte q̂α und êα aus mehreren
bereits vorhandenen Simulationen kombiniert. Dazu müssen die Parameterwerte
der einzelnen Simulationen übereinstimmen.
Eclipse ist verfügbar unter http://www.eclipse.org/ und benötigt zusätzlich eine Java Runtime
Environment (JRE), die unter http://java.sun.com/javase/downloads/index.jsp verfügbar ist. Siehe
dazu auch die Hinweise unter http://www.eclipse.org/downloads/moreinfo/jre.php
5
verfügbar unter http://www.walware.de/goto/statet
6
Dieses Paket wird nur für die Verbindung zwischen R und Eclipse benötigt. Wird Eclipse nicht
verwendet, ist dieses Paket überflüssig.
7
Eine Beschreibung dieses Pakets ist in Yan (2007) zu finden.
8
Leider erlaubt ein 32-Bit Microsoftr Windowsr Betriebssystem nur eine Pfad-Länge von maximal 255
Zeichen. Trotz Verwendung möglichst kurzer Ordner-Namen könnte dies bei Dimensionen m ≥ 3 zu
Problemen führen. Ich empfehle daher, den Output-Ordner direkt im Stammverzeichnis der Partition
zu wählen (z. B. D:\Output).
4
5.2 Das Programm im Überblick
57
Zu den Eingabewerten dieser Funktion gehören u. a. der vollständige Pfad zu den
Simulationsergebnissen sowie eine Start- und eine Endmarke. Für alle Simulationen, deren ID größer oder gleich der Startmarke und kleiner oder gleich der Endmarke ist, werden die Werte q̂α bzw. êα eingelesen und das arithmetische Mittel
gebildet. Das geschieht für jeden Wert von α separat.
Es obliegt der Sorgfalt des Benutzers, darauf zu achten, dass alle betrachteten
Simulationen den gleichen Umfang (d. h. die gleiche Anzahl von erzeugten Zufallsvektoren) und den gleichen Copula-Schwellenwert u0 (vgl. Abschnitt 4.3 und
Abschnitt 5.1) haben. Außerdem muss der Wertebereich von α, für den q̂α und êα
berechnet wurden, in allen Simulationen derselbe sein.
• addCentralQuanME ergänzt Simulationen, die auf dem multivariaten Piecing-Together Ansatz basieren, um entsprechende Daten und (im Fall m = 2) Grafiken,
die sich ohne Verwendung dieses Ansatzes ergeben.
Durch die Angabe von Start- und Endmarken (vgl. combineQuanME) wird diese
Operation für mehrere Simulationen hintereinander durchgeführt. Zusätzlich erfolgt ein Aufruf von combineQuanME, so dass die neu hinzugefügten Schätzwerte
für qα bzw. eα um deren arithmetisches Mittel ergänzt werden.
Es sei darauf hingewiesen, dass das Programm nicht nur Normal- und t-Copulas unterstützt. Außerdem stehen noch die einparametrige Marshall-Olkin-Copula, Archimedische Copulas (Clayton, Frank, Gumbel9 , Ali-Mikhail-Haq) und Extremwertcopulas
(Galambos, Hüsler-Reiss) zur Verfügung, siehe auch Yan (2007) und Nelsen (2006).
Die Randverteilungen Fi∗ , i ≤ m, (vgl. Abschnitt 4.3) werden durch Monte-Carlo
Simulationen gemäß (5.1) ermittelt und in jeweils einer Datei gespeichert. Wenn diese
Dateien bereits existieren, wird das von der Funktion PiecingTogether erkannt, so dass
die empirischen Randverteilungen F̂i∗ , i ≤ m, direkt importiert werden können.
Unter Verwendung von F̂i∗ , i ≤ m, werden n unabhängige Realisationen x1 , . . . , xn
des Zufallsvektors X (siehe Gleichung (5.1)) erzeugt und daraus die empirische Verteilungsfunktion Ĥ von kXk1 bestimmt. Diese erlaubt dann die Schätzung von qα aus (5.2)
durch
q̂α := Ĥ −1 (α).
(5.9)
Außerdem gilt für den bedingten Erwartungswert aus (5.3)
E kXk1 1{kXk1 ≥qα }
,
eα =
P kXk1 ≥ qα
9
Die Gumbel-Copula gehört auch zur Klasse der Extremwertcopulas.
5.3 Simulationsergebnisse
58
wobei P kXk1 ≥ qα = 1 − P kXk1 < H −1 (α) = 1 − P H(kXk1 ) < α . Da H unter
den gegebenen Voraussetzungen stetig ist, gilt insbesondere
eα =
1
E kXk1 1{kXk1 ≥qα } .
1−α
Das starke Gesetz der großen Zahlen motiviert demnach den Schätzer
n
X
1
êα :=
kxj k1 1[q̂α ,∞) (kxj k1 ).
n(1 − α) j=1
(5.10)
Analog lassen sich auch die entsprechenden Quantile und bedingten Erwartungswerte
der einzelnen Komponenten Xi , i ≤ m, von X schätzen.
5.3 Simulationsergebnisse
Abschließend soll auf die Ergebnisse der Simulationen eingegangen werden. Die Funktionen aus dem vorangegangenen Abschnitt wurden verwendet, um 50 unabhängige Simulationen des Modells aus Abschnitt 5.1 zu generieren und die Werte q̂α und êα für
α ∈ {0.9, 0.95, 0.99, 0.995, 0.999} zu berechnen. Dazu wurden die empirischen Verteilungsfunktionen F̂1∗ , F̂2∗ auf der Basis von 106 zufälligen Werten berechnet und n = 104
Realisationen von X = (X1 , X2 ) unter Verwendung des multivariaten Piecing-Together
Ansatzes aus Abschnitt 4.3 erzeugt.
Anschließend bildete combineQuanME die Mittelwerte von q̂α bzw. êα über diese 50
Simulationen, um möglichst verlässliche Schätzungen zu erhalten (siehe Tabelle 5.2 und
Tabelle 5.3).
α
X1
X2
kXk1
0.9
210 793
229 054
415 526
0.95
253 376
271 393
495 340
0.99
369 286
381 328
710 413
0.995
429 961
435 589
821 624
0.999
629 664
594 345
1 156 590
Tabelle 5.2: Mittelwerte aus 50 Schätzungen der α-Quantile für verschiedene Werte von α
Zuletzt wurden mittels addCentralQuanME die entsprechenden Werte hinzugefügt, die
entstehen, wenn man den multivariaten Piecing-Together Ansatz nicht anwendet. Das
bedeutet, dass die Abhängigkeitsstruktur zwischen den Komponenten von X nicht durch
eine GPD-Copula beschrieben wird, sondern durch die ursprüngliche t-Copula aus Abschnitt 5.1. Die Tabellen 5.4 und 5.5 geben an, um wieviel Prozent die Mittelwerte in
5.3 Simulationsergebnisse
α
X1
X2
kXk1
0.9
281 288
296 211
546 153
59
0.95
333 167
344 766
641 792
0.99
490 434
483 383
924 387
0.995
586 347
562 570
1 090 940
0.999
957 484
855 025
1 724 303
Tabelle 5.3: Mittelwerte aus 50 Schätzungen des bedingten Erwartungswertes gegeben eine Überschreitung des α-Quantils für verschiedene
Werte von α
den Tabellen 5.2 und 5.3 größer sind als die entsprechenden Werte, die man ohne Anwendung des multivariaten Piecing-Together Ansatzes erhält. Da sich diese beiden Fälle
α
X1
X2
kXk1
0.9
0.06
0.07
-2.72
0.95
0.15
0.27
-1.66
0.99
0.59
0.89
0.47
0.995
0.21
0.63
1.10
0.999
0.13
-1.09
2.59
Tabelle 5.4: Relative Veränderung der α-Quantile beim Übergang von
einer t-Copula zu einer GPD-Copula in Prozent
α
X1
X2
kXk1
0.9
0.31
0.29
-0.83
0.95
0.49
0.41
0.17
0.99
0.76
0.53
2.22
0.995
1.01
0.38
3.16
0.999
2.39
1.50
6.44
Tabelle 5.5: Relative Veränderung der bedingten Erwartungswerte
beim Übergang von einer t-Copula zu einer GPD-Copula in Prozent
nur durch die zugrunde liegende Copula unterscheiden, die Randverteilungen F̂1∗ , F̂2∗ aber
dieselben sind, würde man erwarten, dass die Zahlen in den Zeilen X1“ und X2“ von
”
”
Tabelle 5.4 nahe bei Null liegen. Tatsächlich gibt es in diesem Bereich nur einen Wert,
der betragsmäßig größer als 1% ist. Obwohl diese Überlegungen auch für die betreffenden
Zeilen in Tabelle 5.5 gelten, sind die Unterschiede hier schon etwas größer: Alle Werte
sind positiv und nehmen mit wachsendem α tendenziell zu.
Deutlichere Abweichungen findet man dagegen in der Zeile kXk1“ der Tabellen 5.4
”
und 5.5. Ausgehend von einer negativen Veränderung für α = 0.9 wachsen die Größen
zeilenweise bis auf 2.59% bzw. 6.44% an. Dass die Werte für größer werdendes α zunehmen, war zu erwarten. Schließlich soll durch die Modellierung mittels eines multivariaten
Piecing-Together Ansatzes die Wahrscheinlichkeit, dass die beiden Komponenten X1 , X2
gleichzeitig groß sind, im Vergleich zur Ausgangssituation erhöht werden.
5.3 Simulationsergebnisse
60
Grafische Analyse
0.0
−1.0
0.2
−0.8
0.4
−0.6
0.6
−0.4
0.8
−0.2
1.0
0.0
Nun betrachten wir die in Abschnitt 5.2 erwähnten Scatterplots, um die Auswirkungen
des multivariaten Piecing-Together Ansatzes auch grafisch hervorzuheben. Dazu wird
aus den insgesamt 50 Simulationen eine ausgewählt, deren Schätzungen für qα und eα
nahe bei den Durchschnittswerten in den Tabellen 5.2 und 5.3 liegen.
Wir beginnen mit der Normal-Copula, die dem Zufallsvektor S = (S1 , S2 ) aus Abschnitt 5.1 zugrunde liegt. Abbildung 5.1 stellt den Realisationen von S die Realisationen
des Zufallsvektors V gegenüber, der gemäß (4.8) bzw. (5.8) aus S hervorgeht und einer
GPD-Copula auf [−1, 0]2 folgt.10 Abgesehen von der Verschiebung vom Intervall [0, 1]2
0.0
0.2
0.4
0.6
0.8
1.0
−1.0
−0.8
−0.6
−0.4
−0.2
0.0
Abbildung 5.1: 104 Realisationen von S (links) und V (rechts)
nach [−1, 0]2 fällt auf, dass sich die Realisationen von V in der Nähe des rechten Endpunkts (in diesem Fall 0) viel stärker entlang der Winkelhalbierenden gruppieren als
die Realisationen von S. Das bedeutet, dass die beiden Komponenten in diesem Bereich
stärker voneinander abhängen, vgl. auch Abbildung 2.6.
Im nächsten Schritt wird der Zufallsvektor Y , der der t-Copula aus Abschnitt 5.1
folgt, mit V zu einem Zufallsvektor Q verknüpft, vgl. (4.10) und (4.11). Dieser folgt
gemäß (4.12) einer GPD-Copula, die auf der Menge [0, 1/2]2 mit der ursprünglichen
t-Copula übereinstimmt. An Abbildung 5.2 wird analog zu Abbildung 5.1 deutlich,
dass die zusammengesetzte“ Copula im Vergleich zur ursprünglichen t-Copula höhe”
re Abhängigkeiten in der Nähe des rechten Endpunkts beschreibt. Außerdem fällt auf,
dass der multivariate Piecing-Together Ansatz diese t-Copula bereits dann modifiziert,
wenn nur eine Komponente ihren Schwellenwert überschreitet.
10
Die horizontalen und vertikalen
Geraden
entsprechen
den
Copula-Schwellenwerten
u
=
1/2,
1/2
0
bzw. y0 = −1/2, −1/2 , vgl. Abschnitt 4.3 und das Ende von Abschnitt 5.1.
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
61
1.0
5.3 Simulationsergebnisse
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 5.2: 104 Realisationen von Y (links) und Q (rechts)
Darüber hinaus erkennt man bei genauer Betrachtung des Intervalls [1/2, 1]2 in der
rechten Grafik von Abbildung 5.2 ein kleines Abbild der rechten Grafik in Abbildung 5.1.
Das liegt an der Berechnung von Q mittels (4.10) und (4.11): Überschreitet die i-te
(i)
Komponente Yi von Y den Schwellenwert y0 , dann wird sie durch die i-te Komponente
(i)
Vi von V ersetzt. Dabei wird durch die Multiplikation mit −y0 und der Addition von
1 sichergestellt, dass die i-te Komponente Qi von Q im Überschreitungsbereich liegt,
(i)
(i)
d. h. Qi > u0 = y0 + 1. Da nicht verlangt wird, dass Vi selbst den Schwellenwert
(i)
y0 überschreitet, werden auch Realisationen von Vi nahe Null so skaliert, dass sie im
Überschreitungsbereich liegen. Das kann u. U. dazu führen, dass durch den multivariaten
Piecing-Together Ansatz ursprünglich große Werte verkleinert werden.11
Im letzten Schritt des multivariaten Piecing-Together Ansatzes werden die einzelnen
Komponenten der Realisationen von Q mit den Quantilfunktionen F̂1∗−1 , F̂2∗−1 der empirischen Randverteilungen transformiert. Verwendet man Y anstelle von Q, dann erhält
man zwar auch Realisationen eines Zufallsvektors mit Randverteilungen F̂1∗ , F̂2∗ , allerdings wird die Abhängigkeitsstruktur zwischen den Komponenten dieses Zufallsvektors
dann nicht durch eine GPD-Copula, sondern durch die t-Copula von oben beschrieben.
Abbildung 5.3 vergleicht beide Fälle miteinander. Wie zu erwarten war, wird durch die
Verwendung des multivariaten Piecing-Together Ansatzes die Wahrscheinlichkeit erhöht,
dass beide Komponenten gleichzeitig groß sind. Durch die Struktur der zugrunde liegenden GPD-Copula (vgl. Abbildung 5.2) liegt aber auch ein gewisses Gewicht auf der
Menge, auf der nur eine von beiden Komponenten große Werte annimmt.
11
Siehe dazu auch den Abschnitt Ausgewählte Sonderfälle weiter unten.
1000000
500000
0
0
500000
1000000
1500000
62
1500000
5.3 Simulationsergebnisse
0
500000
1000000
1500000
0
500000
1000000
1500000
Abbildung 5.3: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes
Ausgewählte Sonderfälle
3500000
2500000
1500000
500000
0
0
500000
1500000
2500000
3500000
Die Simulationsergebnisse, die bisher besprochen wurden, entsprechen in etwa den Erwartungen: Die Wahrscheinlichkeit dafür, dass mehrere Komponenten eines Zufallsvektors gleichzeitig große Werte annehmen, ist bei der Modellierung mit dem multivariaten
Piecing-Together Ansatz höher als in Ausgangssituation, in der die Abhängigkeitsstruktur durch eine t-Copula beschrieben wird.
Während oben besprochene Simulation als eine Art Normalfall anzusehen ist, gibt es
auch extremere Beispiele. Abbildung 5.4 zeigt eine solche Simulation. Bei Anwendung
0
500000
1500000
2500000
3500000
0
500000
1500000
2500000
Abbildung 5.4: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, Extrembeispiel
3500000
5.3 Simulationsergebnisse
63
4e+06
3e+06
2e+06
1e+06
0e+00
0e+00
1e+06
2e+06
3e+06
4e+06
des multivariaten Piecing-Together Ansatzes hat kXk1 ein geschätztes 99.9%-Quantil
von q̂0.999 = 1 310 154. Die Schätzung für den zugehörigen bedingten Erwartungswert
e0.999 ist mit 2 148 940 deutlich größer als der Mittelwert aus Tabelle 5.3.
Entgegen der Anschauung stellt der multivariate Piecing-Together Ansatz nicht in jedem Fall sicher, dass Werte erzeugt werden, so dass beide Komponenten gleichzeitig groß
sind. Abbildung 5.5 zeigt eine Simulation, in der die Erhöhung der Schätzungen q̂0.999
und ê0.999 (verglichen mit der Modellierung durch eine t-Copula) auf eine Beobachtung
zurückzuführen sein dürfte, die nur in der ersten Komponente groß ist.
0e+00
1e+06
2e+06
3e+06
4e+06
0e+00
1e+06
2e+06
3e+06
4e+06
Abbildung 5.5: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, univariater
großer Wert
Wie Abbildung 5.6 entnommen werden kann, gibt es sogar Simulationen, in denen
der multivariate Piecing-Together Ansatz ursprünglich große Werte deutlich verkleinert.
Das ist zwar nicht beabsichtigt, liegt aber an dem Verfahren in Gleichung (4.10). Siehe
dazu auch die Ausführungen im Abschnitt Grafische Analyse.
2e+06
4e+06
6e+06
64
0e+00
0e+00
2e+06
4e+06
6e+06
5.3 Simulationsergebnisse
0e+00 1e+06 2e+06 3e+06 4e+06 5e+06 6e+06
0e+00 1e+06 2e+06 3e+06 4e+06 5e+06 6e+06
Abbildung 5.6: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, unerwarteter
Fall
65
6 Ausblick
Diese Arbeit widmete sich der Herleitung eines multivariaten Piecing-Together Ansatzes in der Extremwerttheorie unter Verwendung von Copulas. Wie wir gesehen haben,
eignet sich dieses Verfahren – analog zu seinem univariaten Gegenstück – dazu, um auch
im multivariaten Kontext Überschreitungen über hohe Schwellenwerte zu modellieren.
Insbesondere lassen sich dadurch Wahrscheinlichkeiten von Ereignissen im rechten Rand
einer multivariaten Verteilung approximieren, für die noch keine Daten vorliegen.
Wie am Ende von Abschnitt 4.3 erwähnt wurde, hätte jedoch die Beantwortung aller
offenen Fragen den Rahmen dieser Arbeit gesprengt. So wurde gezeigt, wie sich Zufallsvektoren erzeugen lassen, die einer GPD folgen, und dass man auf diese Art auch
jede GPD simulieren kann (Satz 4.2.1). Das Herausfinden des Zusammenhangs, wie man
einen solchen Vektor wählen muss, damit dieser einer bestimmten GPD folgt, bleibt
jedoch eine interessante Fragestellung.
Obwohl wir in Kapitel 5 gesehen haben, dass der vorgestellte Piecing-Together Ansatz
durchaus ein brauchbares Verfahren ist, wurde auch aufgedeckt, dass er noch einige
Schwächen aufweist. Eine Verbesserung des Verfahrens könnte bspw. dadurch erzielt
werden, in Gleichung (4.10) noch zusätzliche Bedingungen an die Werte aus der GPDCopula zu stellen, wie es in Abschnitt 5.3 schon angedeutet wurde.
Insgesamt lässt sich jedoch festhalten, dass mit der vorgestellten multivariaten Version
des Piecing-Together Ansatzes eine wichtige Tür aufgestoßen wurde, um auch multivariate Daten so zu modellieren, dass hohe Beobachtungen im rechten Rand einer Verteilung
angemessen beschrieben werden.
Abbildungsverzeichnis
66
Abbildungsverzeichnis
2.1
2.2
2.3
2.4
2.5
2.6
2.7
5.1
5.2
5.3
5.4
5.5
5.6
Verschiedene Informationsgehalte über X . . . . . . . . . . . . . . . . . .
Dichten der Standard-EVDs mit Parameter α = 1 . . . . . . . . . . . . .
Verteilungsfunktionen der Gumbel-Verteilung und des normierten Maximums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gumbel-Approximation für ξ nahe Null . . . . . . . . . . . . . . . . . . .
Dichten der Standard-GPDs mit Parameter α = 1 . . . . . . . . . . . . .
104 Zufallsvektoren aus der Copula Π und aus der Copula M . . . . . . .
104 Zufallsvektoren aus einer Normal-Copula . . . . . . . . . . . . . . . .
104 Realisationen von S und V . . . . . . . . . . . . . . . . . . . . . . .
104 Realisationen von Y und Q . . . . . . . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, Extrembeispiel . . . . . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, univariater großer Wert . . . . . . . . . . . . . . . . .
104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, unerwarteter Fall . . . . . . . . . . . . . . . . . . . .
5
16
17
19
20
23
24
60
61
62
62
63
64
Tabellenverzeichnis
67
Tabellenverzeichnis
2.1
Normierungskonstanten für die Standard-EVDs . . . . . . . . . . . . . .
18
5.1
5.2
5.3
5.4
5.5
Geschätzte Parameter des Modells . . . . . . . . . . . . . . . . . .
Mittelwerte aus 50 Schätzungen der α-Quantile . . . . . . . . . .
Mittelwerte aus 50 Schätzungen des bedingten Erwartungswertes .
Relative Veränderung der α-Quantile in Prozent . . . . . . . . . .
Relative Veränderung der bedingten Erwartungswerte in Prozent .
53
58
59
59
59
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Literaturverzeichnis
68
Literaturverzeichnis
Aulbach, S., Bayer, V., Falk, M. (2009). A Multivariate Piecing-Together Approach with
an Application to Operational Loss Data. Technischer Bericht, Julius-MaximiliansUniversität Würzburg.
Balkema, A. A., de Haan, L. (1974). Residual Life Time at Great Age. In The Annals
of Probability 2 (5), S. 792–804.
Bauer, H. (1992). Maß- und Integrationstheorie. 2. Auflage. Walter de Gruyter, Berlin,
New York.
Bauer, H. (2002). Wahrscheinlichkeitstheorie. 5. Auflage. Walter de Gruyter, Berlin,
New York.
Buishand, T. A., de Haan, L., Zhou, C. (2008). On spatial extremes: With application
to a rainfall problem. In The Annals of Applied Statistics 2 (2), S. 624–642.
Di Clemente, A., Romano, C. (2004). A Copula-Extreme Value Theory Approach for
Modelling Operational Risk. In Operational Risk Modelling and Analysis - Theory and
Practice, herausgegeben von M. Cruz, Kapitel 9. Risk Books, London.
Deheuvels, P. (1978). Caractèrisation complète des lois extrème multivariées et de la
convergene des types extrèmes. In Publ. Inst. Statist. Univ. Paris 23, S. 1–36.
Deheuvels, P. (1984). Probabilistic aspects of multivariate extremes. In Statistical Extremes and Applications, herausgegeben von J. Tiago de Oliveira, S. 117–130. D. Reidel
Publishing Company.
Embrechts, P., Klüppelberg, C., Mikosch, T. (1997). Modelling Extremal Events for Insurance and Finance, Band 33 von Applications of Mathematics - Stochastic Modelling
and Applied Probability. Springer-Verlag, Berlin, Heidelberg, New York.
Falk, M. (2008). It was 30 years ago today when Laurens de Haan went the multivariate
way. In Extremes 11 (1), S. 55–80.
Literaturverzeichnis
69
Falk, M., Hüsler, J., Reiss, R.-D. (2004). Laws of Small Numbers: Extremes and Rare
Events. 2. Auflage. Birkhäuser Verlag, Basel, Boston, Berlin.
Falk, M., Marohn, F., Tewes, B. (2002). Foundations of Statistical Analyses and Applications with SAS. Birkhäuser Verlag, Basel, Boston, Berlin.
Falk, M., Michel, R. (2009). Testing for a multivariate generalized Pareto distribution.
In Extremes 12 (1), S. 33–51.
Galambos, J. (1987). The Asymptotic Theory of Extreme Order Statistics. 2. Auflage.
Krieger, Malabar.
Gänssler, P., Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer-Verlag, Berlin,
Heidelberg, New York.
de Haan, L., de Ronde, J. (1998). Sea and Wind: Multivariate Extremes at Work. In
Extremes 1 (1), S. 7–45.
Huang, X. (1992). Statistics of Bivariate Extreme Values. Dissertation, Tinbergen Institute Research Series.
Köhler, G. (2006). Analysis, Band 14 von Berliner Studienreihe zur Mathematik. Heldermann Verlag, Lemgo.
Leadbetter, M. R., Lindgren, G., Rootzén, H. (1983). Extremes and Related Properties
of Random Sequences and Processes. Springer Series in Statistics. Springer-Verlag,
New York, Heidelberg, Berlin.
Michel, R. (2006). Simulation and Estimation in Multivariate Generalized Pareto
Models. Dissertation, Julius-Maximilians-Universität Würzburg. Verfügbar unter
http://www.opus-bayern.de/uni-wuerzburg/volltexte/2006/1848/.
Michel, R. (2007). Simulation of certain multivariate generalized Pareto distributions.
In Extremes 10 (3), S. 83–107.
Nelsen, R. B. (2006). An Introduction to Copulas. Springer Series in Statistics, 2.
Auflage. Springer Science+Business Media, New York.
Pickands, III, J. (1975). Statistical Inference Using Extreme Order Statistics. In The
Annals of Statistics 3 (1), S. 119–131.
Reiss, R.-D. (1989). Approximate Distributions of Order Statistics. (With Applications
to Nonparametric Statistics). Springer Series in Statistics. Springer, New York.
Literaturverzeichnis
70
Reiss, R.-D., Thomas, M. (2007). Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3. Auflage. Birkhäuser
Verlag, Basel, Boston, Berlin.
Resnick, S. I. (2008). Extreme Values, Regular Variation, and Point Processes. Springer
Series in Operations Research and Financial Engineering. Springer Science+Business
Media, New York.
Rootzén, H., Tajvidi, N. (2006). Multivariate generalized Pareto distributions. In Bernoulli 12 (5), S. 917–930.
Yan, J. (2007). Enjoy the Joy of Copulas: With a Package copula. In Journal of Statistical
Software 21 (4), S. 1–21.
71
Erklärung
Hiermit versichere ich, Stefan Aulbach, dass ich diese Arbeit selbstständig und nur unter
Verwendung der angegebenen Quellen und Hilfsmittel angefertigt habe. Außerdem habe
ich diese Diplomarbeit nicht bereits an einer anderen Hochschule oder in einem anderen
Studiengang zur Erlangung eines akademischen Grades eingereicht.
Würzburg, den 16. November 2009
72

Zugehörige Unterlagen

Blatt7 - Uni Ulm

Ein multivariater Piecing-Together Ansatz in der Extremwerttheorie

Zugehörige Unterlagen

Produkte

Unterstützung

Ein multivariater Piecing-Together Ansatz in der Extremwerttheorie

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können