Lehrstuhl für Mathematische Statistik Institut für Mathematik Julius-Maximilians-Universität Würzburg Diplomarbeit im Studiengang Wirtschaftsmathematik 3500000 2500000 1500000 500000 0 0 500000 1500000 2500000 3500000 Ein multivariater Piecing-Together Ansatz in der Extremwerttheorie 0 500000 1500000 2500000 3500000 0 500000 1500000 eingereicht von Stefan Aulbach am 16. November 2009 betreut von Prof. Dr. Michael Falk 2500000 3500000 ii Danksagungen Ebenso wie man ein (Wirtschafts-)Mathematik-Studium als Ganzes kaum im Alleingang bestreiten kann, war ich in der Entstehungsphase dieser Arbeit über konstruktive Gespräche sehr dankbar. In diesem Zusammenhang möchte ich besonders Martin Hofmann und Diana Tichy erwähnen, da regelmäßige fachspezifische Diskussionen mit ihnen nicht selten zur Festigung gewonnener Erkenntnisse oder zur Aufdeckung erweiterter Zusammenhänge führten. Besonderen Dank schulde ich auch Dr. Christian Weiß, der beim Auftreten von Schwierigkeiten bei den Simulationen stets wertvolle Tipps parat hatte. Nicht zuletzt möchte ich mich natürlich bei meinem Betreuer Prof. Dr. Michael Falk bedanken. Er hatte immer ein offenes Ohr für mich und nahm sich oft auch kurzfristig Zeit, um auf meine Probleme und Sorgen im Zusammenhang mit der Diplomarbeit einzugehen und mir bei der Lösung zu helfen. Würzburg, im November 2009 Stefan Aulbach Inhaltsverzeichnis iii Inhaltsverzeichnis 1 Einleitung 2 Grundlagen 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten . . . . . . 2.2 Univariate Extremwerttheorie . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Copulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 3 13 22 3 Multivariate Extremwerttheorie 28 3.1 Die Verteilung des m-dimensionalen Maximums . . . . . . . . . . . . . . 28 3.2 Eigenschaften multivariater Extremwertverteilungen . . . . . . . . . . . . 30 3.3 Multivariate verallgemeinerte Pareto-Verteilungen . . . . . . . . . . . . . 34 4 Ein 4.1 4.2 4.3 multivariater Piecing-Together Ansatz 37 Copulas im Anziehungsbereich von EVDs . . . . . . . . . . . . . . . . . . 38 Erzeugung von GPD-Zufallsvektoren . . . . . . . . . . . . . . . . . . . . 41 Multivariates Piecing-Together . . . . . . . . . . . . . . . . . . . . . . . . 45 5 Simulationen 51 5.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2 Das Programm im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3 Simulationsergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6 Ausblick 65 Abbildungsverzeichnis 66 Tabellenverzeichnis 67 Literaturverzeichnis 68 Erklärung 71 1 1 Einleitung Die Extremwerttheorie ist ein Teilgebiet der Wahrscheinlichkeitstheorie, das sich mit der Verteilung von besonders großen bzw. besonders kleinen Beobachtungen beschäftigt. Als solches findet sie bei praktischen Fragestellungen aus verschiedensten Fachbereichen Anwendung. So lassen sich z. B. Höchststände des Meeresspiegels mit extremwerttheoretischen Methoden modellieren, um Rückschlüsse auf die erforderliche Deichhöhe in Küstenregionen zu ziehen. (Tatsächlich haben ebendiese Überlegungen, die nach der Hollandsturmflut von 1953 angestrengt wurden, maßgeblich zur Entwicklung der Extremwerttheorie beigetragen.) Es finden sich aber auch Beispiele aus der Finanzwelt: Die Wahrscheinlichkeit, dass der Wert eines Portfolios einen bestimmten niedrigen Schwellenwert unterschreitet, kann ebenso beschrieben werden wie das Risiko, dass bei einer Versicherung eine so hohe Schadensmeldung eingeht, die die Versicherung selbst in den Ruin treibt. Während anfangs das Hauptaugenmerk der Extremwerttheorie auf der Verteilung von Maxima und Minima einer Folge von Zufallsvariablen lag, untersuchen neuere Ansätze das asymptotische Verhalten von Beobachtungen, die einen vorgegebenen Schwellenwert u über- bzw. unterschreiten. Es lässt sich zeigen, dass sich nur verallgemeinerte ParetoVerteilungen (GPD) dazu eignen, um solche Überschreitungen angemessen zu beschreiben. Daraus leitet sich ein Ansatz ab, der den oberen Rand einer Verteilungsfunktion F durch eine GPD ersetzt – der sog. Piecing-Together Ansatz: F (x) ≈ F (u) + 1 − F (u) W (x), x > u. Die GPD W kann dabei so gewählt werden, dass der Übergang zwischen F und dieser Approximation stetig an der Stelle x = u ist. Will man allerdings – um bei oben genannten Beispielen zu bleiben – mehrere Deiche entlang eines Küstenstreifens, mehrere Portfolios, oder mehrere Geschäftsfelder einer Versicherung simultan untersuchen, dann wird der Übergang zur multivariaten Extremwerttheorie erforderlich. Sie beschäftigt sich mit komponentenweisen Maxima und Minima von Zufallsvektoren bzw. mit solchen Zufallsvektoren X = (X1 , . . . , Xm ), die komponentenweise einen vorgegebenen Schwellenwert u = (u1 , . . . , um ) überschreiten, d. h. 2 Xi ≥ ui für i = 1, . . . , m. Zwar kann man auch in diesem Kontext multivariate GPDs definieren und zeigen, dass sich der obere Rand einer multivariaten Verteilungsfunktion nur durch eine GPD sinnvoll annähern lässt. Jedoch wurde noch keine multivariate Erweiterung des Piecing-Together Ansatzes etabliert. Das Ziel dieser Arbeit ist es, eine Möglichkeit für einen multivariaten Piecing-Together Ansatz aufzuzeigen und diesen anhand von Computer-Simulationen zu erproben. Dazu werden zunächst einige Grundlagen zu bedingten Erwartungswerten, zur univariaten Extremwerttheorie und zu Copulas geklärt. Letztere sind spezielle Verteilungsfunktionen, die sich dazu eignen, die Abhängigkeitsstruktur zwischen den Komponenten eines Zufallsvektors zu beschreiben. Im darauf folgenden Kapitel werden diese Ergebnisse genutzt, um einen Überblick über wichtige Ergebnisse der multivariaten Extremwerttheorie zu bieten. Kapitel 4 geht anschließend auf den multivariaten Piecing-Together Ansatz ein. Es bildet gemeinsam mit Kapitel 5, das der Umsetzung der Resultate in ein Computer-Programm und der Beschreibung der Simulationsergebnisse gewidmet ist, den zentralen Teil dieser Arbeit. Ein Ausblick auf mögliche Erweiterungen und Verbesserungen rundet den vorliegenden Text ab. 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 3 2 Grundlagen Um die späteren Überlegungen besser nachvollziehen zu können, soll an dieser Stelle auf wichtige Grundlagen eingegangen werden. Damit der Weg zu den eigentlichen Ergebnissen nicht allzu lang wird, beschränke ich mich dabei auf einen groben Überblick, der keinen Anspruch auf Vollständigkeit erhebt. Für weitere Details sei auf die zitierte Literatur verwiesen. Der erste Abschnitt setzt sich mit bedingten Erwartungen und einer allgemeinen Definition der bedingten Wahrscheinlichkeit auseinander. Er stellt elementare Hilfsmittel für die Beweise in Kapitel 4 bereit und dient außerdem Kapitel 5 als Motivation für einen dort verwendeten Schätzer. Nach einigen wichtigen Ergebnissen der univariaten Extremwerttheorie wird kurz auf Copulas eingegangen – Verteilungsfunktionen, die sich zur Beschreibung von Abhängigkeiten in mehrdimensionalen Datensätzen eignen. Diese beiden Abschnitte legen zusammen den Grundstein für die multivariate Extremwerttheorie in Kapitel 3. Außerdem spielen Copulas eine zentrale Rolle für den in Kapitel 4 vorgestellten Piecing-Together Ansatz. 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten Wir betrachten einen Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable X : (Ω, A) → (R, B), d. h. X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} ∈ A für alle B ∈ B, wobei mit B die Borel-σ-Algebra von R bezeichnet wird. X beschreibt also eine zufällige Größe, deren Realisation a priori unbekannt ist. Mit X + := max{X, 0} und X − := max{−X, 0} bezeichnet man den Positiv- bzw. Negativteil von X. R R Setzt man X als integrierbar voraus, d. h. Ω X + dP < ∞ und Ω X − dP < ∞ 1 , dann nimmt das Integral Z E (X) := X dP := Ω 1 Z Ω + X dP − Z X − dP Ω Das Integral für nicht-negative messbare Funktionen (etwa X + und X − ) wird bspw. in Bauer (1992, Definition 11.3, Satz 11.6) eingeführt. 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 4 einen endlichen Wert an, den man Erwartungswert von X nennt. Ist X sogar quadratintegrierbar, d. h. E (X 2 ) < ∞, dann lässt sich leicht zeigen, dass E (X) die Funktion MSE(t) := E (X − t)2 , t ∈ R, minimiert. Der Erwartungswert von X geht also mit dem kleinsten mittleren quadratischen Fehler einher, wenn man den unbekannten Wert von X durch eine feste Zahl t vorhersagen will. In diesem Sinn ist E (X) also die beste Prognose von X. Der bedingte Erwartungswert gegeben eine σ-Algebra Dieses Konzept soll nun auf den Fall erweitert werden, dass zum Zeitpunkt“ der Pro” gnose zusätzliche Informationen über die Zufallsvariable X vorliegen. Dazu folgen wir im Wesentlichen der Argumentation aus §15 in Bauer (2002). Definiert man X0 : Ω → R durch X0 (ω) := E (X), ω ∈ Ω, dann ist diese Funktion C, B-messbar für jede sub-σAlgebra C von A. Das gilt insbesondere für den Fall C = {∅, Ω}. X0 ist also eine Zufallsvariable, die gemäß den vorangegangenen Überlegungen einen gewissen Informationsgehalt über X repräsentiert. Dem steht die ursprüngliche Zufallsvariable X gegenüber, die alle Informationen über sich selbst enthält und die im Allgemeinen nicht messbar bzgl. einer echten sub-σ-Algebra C von A ist, d. h. C ( A. Es liegt also nahe, den Grad der Information, den eine Zufallsvariable X über X beinhaltet, durch solche sub-σ-Algebren von A auszudrücken, bezüglich derer X messbar ist. Das folgende Beispiel veranschaulicht diesen Sachverhalt. Beispiel 2.1.1. λ|[0,1] : B ∩ [0, 1] → R sei die Einschränkung des eindimensionalen Lebesgue-Maßes auf das Intervall [0, 1]. Betrachtet wird der Wahrscheinlichkeitsraum (Ω, A, P ) = ([0, 1], B ∩ [0, 1], λ|[0,1] ) und eine Zufallsvariable X mit X(ω) = ω für alle ω ∈ Ω, d. h. X ist auf [0, 1] gleichverteilt. Dann ist X0 (ω) = 1/2, ω ∈ Ω, und durch 1/8, 3/8, X1 (ω) := 5/8, 7/8, ω ∈ [0, 1/4), ω ∈ [1/4, 1/2), ω ∈ [1/2, 3/4), ω ∈ [3/4, 1], wird eine C1 , B-messbare Zufallsvariable definiert, wobei C1 := σ({Ik , k = 1, . . . , 4}) die kleinste σ-Algebra ist, die die Intervalle Ik := (k − 1)/4, k/4 , k = 1, . . . , 3, und I4 := [3/4, 1] enthält. Abbildung 2.1 vergleicht X0 und X1 grafisch mit X. Man kann sich leicht überlegen, dass es nicht ausreicht, den Informationsgehalt nur e 0 mit über σ-Algebren zu messen: Erweitert man Beispiel 2.1.1 um die Zufallsvariable X 5 0.25 0.50 0.75 1.00 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 0.00 X X0 X1 0.00 0.25 0.50 0.75 1.00 Abbildung 2.1: Verschiedene Informationsgehalte über X e 0 (ω) := 3/4, ω ∈ [0, 1], dann sind sowohl X0 als auch X e 0 messbar bzgl. jeder subX σ-Algebra von B ∩ [0, 1] und hätten demzufolge denselben Informationsgehalt über X. Jedoch haben wir am Anfang dieses Abschnitts gesehen, dass X0 die sinnvollere Wahl ist. Es ist also erforderlich, die Prognose X an die gegebene Zufallsvariable X zu koppeln: Satz 2.1.2. Sei X eine integrierbare Zufallsvariable auf (Ω, A, P ). Dann existiert zu jeder sub-σ-Algebra C von A P -fast sicher genau eine integrierbare Zufallsvariable X auf (Ω, A, P ), die C, B-messbar ist und die Z C X dP = Z X dP C für alle C ∈ C (2.1) erfüllt. Wenn X nicht-negativ ist, dann ist auch X P-fast sicher nicht-negativ. Beweis. Siehe Satz 15.1 in Bauer (2002). Dieses Resultat gewährleistet, dass es zu jeder integrierbaren Zufallsvariable X und zu einem gegebenen Informationsstand – ausgedrückt durch eine σ-Algebra C – eine fast sicher eindeutige Vorhersage X von X gibt, die im Sinne von Gleichung (2.1) an X angepasst ist. Damit lässt sich der bedingte Erwartungswert definieren: Definition 2.1.3. Unter den Gegebenheiten von Satz 2.1.2 heißt die fast sicher eindeutig bestimmte Zufallsvariable E (X| C) := X der bedingte Erwartungswert von X gegeben C.2 2 Es sei darauf hingewiesen, dass der bedingte Erwartungswert auch für quasi-integrierbare ZufallsvaR R riablen X, d. h. Ω X + dP < ∞ oder Ω X − dP < ∞, eingeführt werden kann. Dieser Fall ist für diese Arbeit jedoch nicht von Bedeutung. 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 6 Im Gegensatz zu E (X) ist der bedingte Erwartungswert E (X| C) also keine reelle Zahl, sondern eine Zufallsvariable. Diese hat aufgrund von (2.1) die Eigenschaft E E (X| C) = E (X). (2.2) Wir gehen nochmal auf das vorangegangene Beispiel ein: Beispiel 2.1.4. Es gelten die Bezeichnungen aus Beispiel 2.1.1. Dann ist offensichtlich Z Ω X0 dP = 1/2 = Z Z X dP und Ω ∅ X0 dP = 0 = Z X dP, ∅ d. h. E (X|{∅, Ω}) = X0 λ|[0,1] -fast sicher. S K ⊂ {1, . . . , 4} , da die Außerdem gilt C1 = σ({Ik , k = 1, . . . , 4}) = I k k∈K S S Intervalle I1 , . . . , I4 disjunkt sind mit 4k=1 Ik = [0, 1] und der Konvention k∈∅ Ik = ∅. Für C ∈ C1 und eine geeignete Teilmenge K von {1, . . . , 4} erhält man also Z X1 dP = C X Z 2k − 1 X 2k − 1 1 1 X X1 dP = dP = · = (2k − 1). 8 8 4 32 k∈K Ik k∈K Ik k∈K XZ k∈K Da X auf [0, 1] gleichverteilt ist, hat die Verteilung P ∗X von X die Dichte 1[0,1] bezüglich des eindimensionalen Lebesgue-Maßes. Dabei bezeichnet 1M die Indikatorfunktion einer Menge M , d. h. 1M (x) = 1 für x ∈ M und 1M (x) = 0 sonst. Mit dem Transformationssatz für Integrale folgt Z X dP = C XZ k∈K Ik x (P ∗ X)(dx) = XZ k∈K x dx = Ik X x2 k/4 k∈K 2 (k−1)/4 1 X 2 1 X = k − (k − 1)2 = (2k − 1). 32 k∈K 32 k∈K Also ist E (X| C1 ) = X1 λ|[0,1] -fast sicher. Die Ergebnisse aus den Beispielen 2.1.1 und 2.1.4 lassen sich verallgemeinern: Für jede integrierbare Zufallsvariable X folgt aus Definition 2.1.3 sofort E (X|{∅, Ω}) = E (X) fast sicher. Anschaulich entspricht das dem Fall, dass keine weiteren Informationen über X vorliegen. S Ist Ω = i∈I Ai für paarweise disjunkte Mengen Ai ∈ A, i ∈ I 6= ∅, und C = σ({Ai , i ∈ 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten I}) = S 7 J ⊂ I , dann existieren Zufallsvariablen Xi , i ∈ I, mit A j j∈J E (X| C) = X Xi 1Ai fast sicher i∈I und man kann o. B. d. A. Xi = E (X| Ci ) annehmen, wobei Ci = σ({Ai }) = {∅, Ai , Aci , Ω} S mit Aci := Ω \ Ai zu setzen ist. Denn es gilt für C = j∈J Aj ∈ C Z X C i∈I E (X| Ci )1Ai dP = = XZ i∈I C∩Ai XZ j∈J E (X| Ci ) dP = XZ j∈J Aj E (X| Cj ) dP Z X dP = Aj X dP. (2.3) C Wie aus dem folgenden Resultat hervorgeht, erhält man in diesem Fall E (X| Ci )1Ai = E (X1Ai )1Ai P (Ai ) fast sicher, falls P (Ai ) > 0, und andernfalls E (X| Ci )1Ai = 0 fast sicher. Lemma 2.1.5. Sei X eine integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und I eine beliebige Indexmenge. Die Mengen Ai ∈ A, i ∈ I, seien S paarweise disjunkt mit i∈I Ai = Ω. Für I ∗ ⊂ I gelte P (Ai ) > 0, falls i ∈ I ∗ , und P (Ai ) = 0 sonst. Dann folgt: (i) Für Ci = σ({Ai }), i ∈ I, gilt E (X| Ci )1Ai = E (X1Ai ) 1Ai P (Ai ) P -fast sicher, falls i ∈ I ∗ , und andernfalls E (X| Ci )1Ai = 0 P -fast sicher. (ii) Mit C = σ({Ai , i ∈ I}) erhält man E (X| C) = X i∈I E (X| Ci )1Ai = X E (X1A ) i 1Ai P (A ) i ∗ i∈I P -fast sicher. Beweis. Wir zeigen zunächst Teil (i). Sei dazu i ∈ I beliebig aber fest gewählt. Falls 0 < P (Ai ) < 1 gilt, ist Ci = {∅, Ai , Aci , Ω} und Xi := E (X1Aci ) E (X1Ai ) 1Ai + 1Aci P (Ai ) P (Aci ) 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten R ist der bedingte Erwartungswert von X gegeben Ci . Denn es gilt Z Xi dP = Ai Z Ai ∅ E (X1Ai ) E (X1Ai ) dP + 0 = P (Ai ) = P (Ai ) P (Ai ) 8 Xi dP = 0 = R ∅ X dP , Z X dP Ai R R R R R und analog dazu auch Ac Xi dP = Ac X dP sowie Ω Xi dP = Ai Xi dP + Ac Xi dP = i i i R X dP . Also folgt E (X| C )1 = E (X1 )1 P (A ) P -fast sicher. Im Fall P (Ai ) = 1 i Ai Ai Ai i Ω erhält man mit den gleichen Argumenten wie zuvor E (X| Ci ) = E (X1Ai )1Ai P (Ai ) P fast sicher und damit die Behauptung. Schließlich folgt im Fall P (Ai ) = 0 P E (X| Ci )1Ai = 0 = P E (X| Ci )1Ai = 0 ∩ Ai + P E (X| Ci )1Ai = 0 ∩ Aci = 0 + P (Aci ) = 1, weil E (X| Ci )1Ai = 0 eine Obermenge von Aci ist. Damit ist die Behauptung (i) gezeigt. Teil (ii) folgt nun direkt aus (i) und Gleichung (2.3). Mit diesem Ergebnis lässt sich der Zusammenhang des bedingten Erwartungswertes mit dem (unbedingten) Erwartungswert und der elementaren bedingten WahrscheinS lichkeit verdeutlichen: Seien Bi ∈ A, i ∈ I, paarweise disjunkt mit Ω = i∈I Bi und zusätzlich P (Bi ) > 0, i ∈ I. Wegen P (A ∩ Bi ) 1 PBi (A) := P (A | Bi ) := = P (Bi ) P (Bi ) Z Z 1A 1Bi dP = Ω A 1Bi dP, P (Bi ) A ∈ A, hat die elementare bedingte Wahrscheinlichkeit PBi die P -Dichte 1Bi P (Bi ) und es gilt Z EBi (X) := X dPBi Ω 1 = P (Bi ) Z Ω X1Bi dP = E X σ({Bi , i ∈ I}) (ω) (2.4) für P -fast alle ω ∈ Bi . D. h. der bedingte Erwartungswert stimmt auf Bi fast sicher mit dem Erwartungswert bzgl. PBi überein. P -fast allen ω ∈ Bi , i ∈ I, wird also der Erwartungswert zugeordnet, der unter der Maßgabe berechnet wird, dass das Ereignis Bi eingetreten ist. Kehren wir zum Ausgangspunkt dieses Abschnittes zurück. Gesucht war eine Verallgemeinerung des Erwartungswertes E (X), die zusätzliche Informationen über die Zufallsvariable X berücksichtigt. Das hat uns zum bedingten Erwartungswert E (X| C) geführt, wobei der gegebene Informationsstand durch die σ-Algebra C ausgedrückt wird. Gleichzeitig wurde aber auch verlangt, dass die Eigenschaft von E (X) erhalten bleibt, den mitt leren quadratischen Fehler MSE(t) = E (X − t)2 zu minimieren. Gleichung (2.4) legt nahe, dass sich dies auf den bedingten Erwartungswert überträgt. Dass das tatsächlich 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 9 der Fall ist, ist Gegenstand des folgenden Resultats, das Bauer (2002) entnommen wurde. Satz 2.1.6. Sei X eine quadratintegrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und C eine sub-σ-Algebra von A. Dann ist der bedingte Erwartungswert E (X| C) bis auf P -fast sichere Gleichheit die einzige C, B-messbare und quadratintegrierbare Zufallsvariable X, für die MSE(X) = E (X − X)2 den kleinstmöglichen Wert annimmt. Beweis. Dass E (X| C) quadratintegrierbar ist, folgt aus der Jensenschen Ungleichung für bedingte Erwartungswerte: Da x 7→ |x|2 eine konvexe Funktion auf R ist, zeigt Satz 15.3 2 in Bauer (2002), dass E (X| C) ≤ E |X|2 C P -fast sicher. Wegen Gleichung (2.2) erhält man hieraus und aus der Quadratintegrierbarkeit von X 2 E E (X| C) ≤ E |X|2 < ∞, d. h. E (X| C) ist quadratintegrierbar. Die übrigen Behauptungen folgen nun aus dem Beweis von Satz 15.8 in Bauer (2002). Mit E (X| C) haben wir also die gesuchte Verallgemeinerung von E (X) gefunden. Diese verwenden wir nun zur Definition der bedingten Wahrscheinlichkeit: Definition 2.1.7. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und C eine sub-σ-Algebra von A. Dann nennen wir P (A | C) := E (1A | C) für A ∈ A die bedingte Wahrscheinlichkeit von A gegeben C. Dies ist eine direkte Erweiterung der elementaren bedingten Wahrscheinlichkeit, denn für A, B ∈ A mit P (B) > 0 gilt nach Lemma 2.1.5 P (A | B) = P (A ∩ B) E (1A 1B ) = = E 1A σ({B}) (ω) P (B) P (B) für P -fast alle ω ∈ B. Zu beachten ist jedoch, dass P (·| C) im Gegensatz zu P (·| B) kein Wahrscheinlichkeitsmaß ist, da der Wert, der einer Menge A ∈ A zugeordnet wird, vom Zufall abhängt. Bedingen unter Realisationen von Zufallsvariablen Bei der Berechnung der elementaren bedingten Wahrscheinlichkeit P (A | B) ist die Voraussetzung P (B) > 0 wesentlich, d. h. es kann nur unter solchen Mengen bedingt werden, 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 10 die keine Nullmengen sind. Insbesondere lässt sich die Wahrscheinlichkeit P (A | Y = y) mit einer Zufallsvariablen Y i. A. nicht elementar berechnen. Mittels Definition 2.1.7 kann man diese Lücke schließen, wie im Folgenden gezeigt wird. Bisher haben wir einen gegebenen Informationsstand immer durch geeignete σ-Algebren ausgedrückt. Diese treten von nun an in den Hintergrund und wir richten stattdessen den Blick auf die Abhängigkeit zwischen Zufallsvariablen: Ist (Yi )i∈I eine Familie von Zufallsvariablen, die eine σ-Algebra C erzeugen, d. h. ! C = σ(Yi , i ∈ I) := σ [ Yi−1 (B) := σ i∈I [ i∈I Yi−1 (B) ! |B∈B , dann schreibt man statt E (X| C) auch E (X| Yi , i ∈ I) und spricht vom bedingten Erwatungswert von X gegeben (Yi )i∈I . Entsprechend nennt man P (A | Yi , i ∈ I) die bedingte Wahrscheinlichkeit von A gegeben (Yi )i∈I . Diese neue Sichtweise ermöglicht es, den bedingten Erwartungswert E (X| Y ) als Funktion von Y darzustellen: Satz 2.1.8. X sei eine integrierbare und Y eine beliebige Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ). Die Verteilung von Y sei mit P ∗Y bezeichnet. Dann folgt: (i) Für jede Zufallsvariable X, die P -fast sicher mit E (X| Y ) übereinstimmt, gibt es eine B, B-messbare Funktion g : R → R, so dass X = g ◦ Y . Die Restriktion g|Y (Ω) von g auf Y (Ω) = {y ∈ R | Y (ω) = y für ein ω ∈ Ω} ist eindeutig bestimmt. (ii) Jede Funktion g aus Teil (i) ist (P ∗ Y )-integrierbar und es gilt Z B g d(P ∗ Y ) = Z X dP, {Y ∈B} B ∈ B. (2.5) Sie ist hierdurch (P ∗ Y )-fast sicher eindeutig bestimmt. Ist umgekehrt g eine (P ∗ Y )-integrierbare Funktion auf (R, B), die (2.5) erfüllt, dann gilt E (X| Y ) = g ◦ Y P -fast sicher. Beweis. Wir zeigen zunächst Teil (i). Wegen E (X| Y ) = X P -fast sicher ist X σ(Y ), Bmessbar. Die Existenz einer Funktion g mit X = g ◦ Y folgt dann aus dem Faktorisierungslemma (siehe z. B. 11.7 in Bauer (1992)). Seien nun g und h zwei Funktionen mit dieser Eigenschaft. Für gegebenes y ∈ Y (Ω) folgt g(y) = (g ◦ Y )(ω) = X(ω) und ebenso h(y) = X(ω) für alle ω ∈ Y −1 ({y}), also g|Y (Ω) = h|Y (Ω) . Teil (ii) ergibt sich aus dem Beweis von Satz 15.9 in Bauer (2002). 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 11 Im Folgenden nennen wir X aus Satz 2.1.8 (i) eine Version des bedingten Erwartungswertes E (X| Y ). Die Kernaussage von Satz 2.1.8 ist also, dass X genau dann eine Version von E (X| Y ) ist, wenn X = g ◦ Y mit einer Funktion g gilt, die (2.5) erfüllt. Seien X1 und X2 zwei Versionen von E (X| Y ), so dass X1 = g ◦ Y und X2 = h ◦ Y . Nach Satz 2.1.8 (ii) ist g = h (P ∗ Y )-fast sicher und Z g(y)P (Y = y) = y ∈ R, X dP = h(y)P (Y = y), {Y =y} da {y} ∈ B für alle y ∈ R. Im Fall P (Y = y) > 0 erhält man daraus unter Beachtung von Gleichung (2.4) g(y) = h(y) = E{Y =y} (X) und X1 (ω) = g Y (ω) = h Y (ω) = X2 (ω), ω ∈ {Y = y}. Also ist folgende Aussage bewiesen: Korollar 2.1.9. Seien X und Y gegeben wie in Satz 2.1.8 und y ∈ R mit P (Y = y) > 0. Dann stimmen alle Versionen von E (X| Y ) auf der Menge {Y = y} überein und es gilt für alle B, B-messbaren Funktionen g, die (2.5) erfüllen, E (X| Y )(ω) = E{Y =y} (X) = g(y), ω ∈ {Y = y}. Wenn Y jedoch eine Verteilungsfunktion hat, die an der Stelle y stetig ist, dann gilt P (Y = y) = 0. In diesem Fall ist Korollar 2.1.9 zwar nicht anwendbar, es vermittelt aber die Anschauung, dass man g(y) auch dann als Mittelwert von X auf der Menge {Y = y} interpretieren kann. Wie wir in Satz 2.1.8 gesehen haben, ist g (P ∗Y )-fast sicher eindeutig bestimmt. Ist außerdem eine konkrete Version des bedingten Erwartungswertes gegeben, dann ist g sogar eindeutig auf Y (Ω). Deswegen definiert man: Definition 2.1.10. X und Y seien gegeben wie in Satz 2.1.8. Ferner sei g die (P ∗Y )-fast sicher eindeutig bestimmte Funktion, die Gleichung (2.5) genügt. Dann heißt E (X| Y = y) := g(y), y ∈ R, bedingter Erwartungswert von X gegeben Y = y. Ebenso nennt man P (A | Y = y) := E (1A | Y = y), A ∈ A, die bedingte Wahrscheinlichkeit von A gegeben Y = y und speziell P (A | B) := P (A | 1B = 1) = E (1A | 1B = 1), A, B ∈ A, 2.1 Bedingter Erwartungswert und bedingte Wahrscheinlichkeiten 12 die bedingte Wahrscheinlichkeit von A gegeben B. Zum Abschluss dieses Abschnitts werden noch einige Aussagen bewiesen, die für die Beweisführung in späteren Kapiteln von Bedeutung sind. Wir betrachten wieder eine integrierbare Zufallsvariable X auf dem Wahrscheinlichkeitsraum (Ω, A, P ) und eine sub-σ-Algebra C von A. Wenn X unabhängig von C ist, dann sind auch X und 1C unabhängig für jedes C ∈ C und es folgt Z Z X dP = E (X1C ) = E (X)E (1C ) = E (X) dP, C C C ∈ C, d. h. E (X| C) = E (X) P -fast sicher. Mit C = σ(Y ) für eine weitere Zufallsvariable Y auf (Ω, A, P ) erhält man folglich E (X| Y ) = E (X) P -fast sicher, falls X und Y unabhängig sind. Nach Satz 2.1.8 erfüllt dann g : R → R mit g(y) = E (X), y ∈ R, Gleichung (2.5), d. h. E (X| Y = y) = E (X) (P ∗ Y )-fast sicher. Insbesondere gilt in diesem Fall P (X ∈ B | Y = y) = E 1{X∈B} = P (X ∈ B) (P ∗ Y )-fast sicher. Damit ist Teil (i) des folgenden Resultats bewiesen. Lemma 2.1.11. Seien X und Y zwei Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P ) mit E (|X|) < ∞. Dann gilt: (i) Falls X und Y unabhängig sind, folgt E (X| Y = y) = E (X) (P ∗ Y )-fast sicher und P (X ∈ B | Y = y) = P (X ∈ B) (P ∗ Y )-fast sicher für alle y ∈ R. (ii) Für beliebiges A ∈ A ist P (A ∩ {Y ∈ B}) = R B P (A | Y = y) (P ∗ Y )(dy). Beweis. Es bleibt Teil (ii) zu zeigen. Da nach Voraussetzung 1A integrierbar ist, existiert P (A | Y = y) und ist (P ∗ Y )-fast sicher eindeutig bestimmt. Es folgt mit B ∈ B, Satz 2.1.8 und Definition 2.1.10 Z Z P (A ∩ {Y ∈ B}) = E (1A 1{Y ∈B} ) = 1A dP = P (A | Y = y) (P ∗ Y )(dy). {Y ∈B} B 2.2 Univariate Extremwerttheorie 13 2.2 Univariate Extremwerttheorie Nachdem im vorangegangenen Abschnitt einige technische Grundlagen geklärt wurden, beginnt jetzt die Herleitung des multivariaten Piecing-Together Ansatzes, der in Kapitel 4 vorgestellt wird. Dazu ist es aber nötig, sich fundierte Kenntnisse der multivariaten Extremwerttheorie zu verschaffen. Um diese möglichst anschaulich herzuleiten, geht dieser Abschnitt zunächst auf einige wichtige Ergebnisse der Extremwerttheorie in einer Dimension ein. Betrachtet werden die Zufallsvariablen X1 , X2 , X3 , . . . , die als unabhängig und identisch verteilt (i. i. d.) vorausgesetzt sind und die der Verteilungsfunktion F folgen. Mn bzw. mn sind definiert als die größte bzw. die kleinste Beobachtung der ersten n Zufallsvariablen, d. h. Mn := max{X1 , . . . , Xn } und mn := min{X1 , . . . , Xn }. Die folgenden Überlegungen beschränken sich auf Aussagen über das Maximum Mn , wie es auch in der Literatur üblich ist (siehe z. B. Leadbetter et al. (1983), S. 3). Wegen der Gleichung min{X1 , . . . , Xn } = − max{−X1 , . . . , −Xn } erhält man bei Bedarf entsprechende Aussagen über das Minimum mn , indem man die ursprünglichen Werte mit −1 multipliziert und dann das Maximum betrachtet. Ein Analogon zum Zentralen Grenzwertsatz Nun beschäftigen wir uns mit der asymptotischen Verteilung von Mn für n → ∞. Da Mn die Verteilungsfunktion P (Mn ≤ x) = P max{X1 , . . . , Xn } ≤ x = P X1 ≤ x, . . . , Xn ≤ x = P (X1 ≤ x) · · · P (Xn ≤ x) = F n (x) (2.6) hat, erkennt man sofort P (Mn ≤ x) → 0, falls F (x) < 1, und P (Mn ≤ x) → 1 sonst. D. h. P (Mn ≤ x) →n→∞ 1[ω(F ),∞) (x), x ∈ R, (2.7) wobei ω(F ) := sup{x ∈ R | F (x) < 1} ∈ R∪{∞} den rechten Endpunkt der Verteilungsfunktion F bezeichnet. Mn besitzt also eine entartete Grenzverteilung. Man beachte, dass 1[ω(F ),∞) im Fall ω(F ) = ∞ keine Verteilungsfunktion ist, da dann 1[ω(F ),∞) (x) = 1∅ (x) = 0 für alle x ∈ R gilt. 2.2 Univariate Extremwerttheorie 14 Aus dem Grenzwert (2.7) lassen sich keine weiteren Informationen über Mn gewinnen, da mit F auch der rechte Endpunkt von F a priori bekannt ist.3 Der Zentrale Grenzwertsatz motiviert eine leicht modifizierte Herangehensweise: Er sagt aus, dass das P arithmetische Mittel X̄n := n1 ni=1 Xi von quadratintegrierbaren i. i. d. Zufallsvariablen annähernd standardnormalverteilt ist, wenn man es zuvor geeignet normiert: P X̄n − µ √σ n ! ≤x →n→∞ Φ(x), x ∈ R, (2.8) wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. µ := E (X1 ) und p σ := Var (X1 ) sind als Erwartungswert bzw. Standardabweichung von X1 definiert. Um zu einer ähnlichen Aussage für das Maximum von i. i. d. Zufallsvariablen zu gelangen, normieren wir Mn mit gewissen Zahlen an > 0 und bn ∈ R. Das ergibt Mn − bn ≤x P an = P (Mn ≤ an x + bn ) = F n (an x + bn ). (2.9) Wenn man n immer größer werden lässt, gehen immer mehr Beobachtungen in die Berechnung des Maximums ein, d. h. Mn wächst monoton in n. Wie die Notation in Gleichung (2.9) nahe legt, werden sich aber gleichzeitig die Werte der Normierungskonstanten an und bn ändern.4 Wie sie sich genau verändern, wird an dieser Stelle jedoch offen gelassen. Betrachten wir zum Vergleich noch einmal den Zentralen Grenzwertsatz √ in Gleichung (2.8), dann sieht man, dass an = σ n monoton fällt, während bn = µ konstant bleibt. Bildet man den Grenzwert n → ∞, dann wird F n (an x + bn ) unter bestimmten Voraussetzungen gegen eine Verteilungsfunktion G(x) konvergieren: F n (an x + bn ) →n→∞ G(x).5 Nun stellt sich die Frage, welche Verteilungsfunktionen G als Grenzwert auftreten können. Das zentrale Ergebnis der Extremwerttheorie ist, dass hierfür nur drei verschiedene Typen von Verteilungsfunktionen in Frage kommen, siehe z. B. Embrechts et al. (1997, Theorem 3.2.3) oder Resnick (2008, Proposition 0.3): Es ergibt sich lediglich die naheliegende Folgerung, dass sich Mn für n → ∞ mit Wahrscheinlichkeit 1 dem rechten Endpunkt von F annähert. 4 Auf den ersten Blick scheint es widersprüchlich, bei an und bn von Normierungskonstanten zu sprechen, obwohl sich diese Werte mit wachsendem n verändern. Warum das dennoch üblich ist, wird beim folgenden Grenzübergang n → ∞ deutlich. 5 Hier wird es klarer, warum man an und bn Konstanten nennt: Bei diesem Grenzübergang wird unabhängig von der Stelle x mit dem gleichen an und dem gleichen bn normiert. 3 2.2 Univariate Extremwerttheorie 15 Satz 2.2.1 (Fisher-Tippett Theorem). Sei F eine Verteilungsfunktion. Falls es Normierungskonstanten an > 0, bn ∈ R, n ∈ N, und eine nicht-entartete Verteilungsfunktion G gibt, so dass F n (an x + bn ) →n→∞ G(x), 6 x ∈ R, (2.10) dann gehört G zu einem der folgenden Verteilungstypen: Fréchet: Weibull: Gumbel: 0, falls x ≤ 0, exp −x−α , falls x > 0, exp −(−x)α , falls x ≤ 0, Ψα (x) = 1, falls x > 0, Λ(x) = exp −e−x , x ∈ R. Φα (x) = für ein α > 0, für ein α > 0, In Satz 2.2.1 sprechen wir von Verteilungstypen, da auch zusätzliche Lokations- und Skalenparameter zugelassen sind: Hat man entsprechende an und bn gefunden, so dass (2.10) gilt, dann folgt Mn − bn − νβ −1 an n −1 −1 P ≤ x = F β an x + bn − νβ an β −1 an x−ν x−ν n = F an + bn →n→∞ G β β (2.11) für ν ∈ R und β > 0. Das ist ein Spezialfall des Theorems von Khintchine, siehe z. B. Leadbetter et al. (1983, Theorem 1.2.3) oder Resnick (2008, Proposition 0.2). Es besagt u. a., dass der Verteilungstyp von G in (2.10) eindeutig bestimmt ist, d. h. für gegebenes F ist jede nicht-entartete Verteilungsfunktion G, die als Grenzwert in (2.10) auftreten kann, vom gleichen Typ. Definition 2.2.2. G sei eine der Verteilungsfunktionen Φα , Ψα oder Λ aus Satz 2.2.1. Dann heißt G eine (Standard-) Extremwertverteilung (EVD). Mit ν ∈ R und β > 0 nennen wir auch G (x − ν) β , x ∈ R, eine Extremwertverteilung (EVD). Gilt F n (an x + bn ) →n→∞ G(x), x ∈ R, für eine Verteilungsfunktion F und geeignete Normierungskonstanten an > 0, bn ∈ R, dann sagen wir, dass F im Anziehungsbereich von G liegt und schreiben F ∈ D(G). Eine Zufallsvariable heißt extremwertverteilt, falls ihre Verteilungsfunktion eine Extremwert6 Genau genommen gilt diese Konvergenz zunächst nur für alle Stetigkeitsstellen von G. Da aber alle Verteilungsfunktionen, die als Grenzwert in Frage kommen, stetig sind, gilt (2.10) für alle x ∈ R. 2.2 Univariate Extremwerttheorie 16 1.0 verteilung ist. 0.0 0.2 0.4 0.6 0.8 Dichte von Φ1 Dichte von Ψ1 Dichte von Λ −4 −2 0 2 4 Abbildung 2.2: Dichten der Standard-EVDs mit Parameter α = 1 Gleichung (2.11) macht deutlich, dass F genau dann im Anziehungsbereich von G (x− ν) β liegt, wenn F ∈ D(G) gilt. Also genügt es für theoretische Überlegungen, die Standard-Extremwertverteilungen zu betrachten. Es folgen einige Beispiele, deren Herleitungen in Embrechts et al. (1997), S. 145ff und S. 117f zu finden sind. Eine Untersuchung der verschiedenen Anziehungsbereiche und weitere Beispiele sind u. a. in Leadbetter et al. (1983, Abschnitt 1.6 und 1.7) und Embrechts et al. (1997, Abschnitt 3.3) aufgeführt. Beispiel 2.2.3. (i) Wie zuvor sei Φ die Verteilungsfunktion der Standardnormalver−1/2 (1) (1) (1) teilung. Die Normierungskonstanten an = 2 ln(n) , bn = an 2 ln(n) − (1) (1) 1 ln(ln(n)) − 12 ln(4π) liefern die Konvergenz Φn an x + bn →n→∞ Λ(x). 2 (ii) Die Zufallsvariablen Y1 , Y2 , Y3 , . . . seien unabhängig und standardnormalverteilt. Betrachtet werden Xi := exp(σYi + µ), i = 1, 2, 3, . . . , mit µ ∈ R, σ > 0. Dann sind die Xi lognormalverteilt mit den Parametern µ und σ 2 und es gilt lim P n→∞ (2) Mn − bn (2) an ≤x = Λ(x), (2) (1) (1) (2) (1) wobei an = σan exp σbn + µ und bn = exp σbn + µ . (iii) Die Poisson-Verteilung P (X = k) = e−λ λk k!, k ∈ N0 , mit Parameter λ > 0 liegt nicht im Anziehungsbereich einer Extremwertverteilung. D. h. für jede Wahl von 2.2 Univariate Extremwerttheorie 17 0.4 0.6 0.8 1.0 Normierungskonstanten an > 0 und bn ∈ R, für die der Grenzwert limn→∞ P (Mn ≤ an x + bn ) existiert, ist dieser entweder gleich 0 oder gleich 1. 0.0 0.2 Gumbel M5 M50 −2 0 2 4 6 Abbildung 2.3: Verteilungsfunktionen der Gumbel-Verteilung und des normierten Maximums aus n = 5 und n = 50 unabhängigen standardnormalverteilten Zufallsvariablen Charakterisierung von Extremwertverteilungen Eine Eigenschaft von Extremwertverteilungen, die auch im multivariaten Kontext eine Rolle spielt, ist die Max-Stabilität (vgl. auch Leadbetter et al. (1983), S. 8f, oder Embrechts et al. (1997), Definition 3.2.1): Definition 2.2.4. Eine nicht-entartete Verteilungsfunktion G heißt max-stabil, falls es Normierungskonstanten an > 0, bn ∈ R gibt, so dass Gn (an x + bn ) = G(x), x ∈ R, für alle n ∈ N. Eine Zufallsvariable nennt man max-stabil, wenn ihre Verteilungsfunktion max-stabil ist. In dieser Definition wurden mit Bedacht die gleichen Notationen wie zuvor verwendet. Beispielsweise in Leadbetter et al. (1983, Theorem 1.4.1) wird bewiesen, dass jede Extremwertverteilung max-stabil ist. Umgekehrt ist auch jede max-stabile Verteilungsfunktion eine Extremwertverteilung. Wie bereits in Gleichung (2.9) gezeigt wurde, ist Gn (an x + bn ) die Verteilungsfunktion der (normierten) größten Beobachtung der X1 , . . . , Xn , sofern diese Zufallsvariablen unabhängig und identisch nach G verteilt sind. Anschaulich bedeutet Max-Stabilität also, 2.2 Univariate Extremwerttheorie 18 dass das geeignet normierte Maximum von n unabhängigen zufälligen Werten die gleiche Verteilungsfunktion besitzt wie die ursprünglichen Beobachtungen. Im Abschnitt Ein Analogon zum Zentralen Grenzwertsatz wurde hergeleitet, dass nur die drei Verteilungstypen Φα , Ψα und Λ als Grenzwert in (2.10) in Frage kommen. Es wurde aber – mit Ausnahme von Λ – nicht gesagt, dass auch alle diese Typen tatsächlich als Grenzwert auftreten. Diese Lücke wird nun geschlossen: Da jede Extremwertverteilung G max-stabil ist, folgt aus Definition 2.2.4 sofort G ∈ D(G). Eine Extremwertverteilung liegt also in ihrem eigenen Anziehungsbereich. Die entsprechenden Normierungskonstanten lassen sich leicht angeben: an bn Φα n1/α 0 Ψα n−1/α 0 Λ 1 log(n) Tabelle 2.1: Normierungskonstanten für die Standard-EVDs Verallgemeinerte Pareto-Verteilungen Die drei Verteilungstypen Φα , Ψα und Λ aus Satz 2.2.1 scheinen auf den ersten Blick keine Gemeinsamkeiten zu haben. Tatsächlich werden sie aber durch die von MisesParametrisierung zusammengeführt: exp −(1 + ξx)−1/ξ , ξ 6= 0, Gξ (x) := exp −e−x , ξ = 0, wobei 1 + ξx > 0. Man bezeichnet diese Darstellung auch als verallgemeinerte Extremwertverteilung (GEV). Da sich limξ→0 Gξ = Λ zeigen lässt (vgl. auch Abbildung 2.4), wird oft kurz Gξ (x) = exp −(1 + ξx)−1/ξ , 1 + ξx > 0, (2.12) für ξ ∈ R geschrieben. Wie zuvor definiert Gξ einen Verteilungstyp, der noch um Lokations- und Skalenparameter ergänzt werden kann: Mit ν ∈ R und β > 0 nennen auch wir auch −1/ξ ! x−ν x−ν x−ν = exp − 1 + ξ , 1+ξ > 0, (2.13) Gξ;ν,β (x) := Gξ β β β 2.2 Univariate Extremwerttheorie 19 eine verallgemeinerte Extremwertverteilung (GEV). Dabei handelt es sich tatsächlich nur um eine andere Schreibweise von Φα , Ψα und Λ, wie G0 (x) = Λ(x), x ∈ R, und −α ! 1x−1 G1/α;1,1/α (x) = exp − 1 + = exp −x−α = Φα (x), α 1/α α ! 1x+1 G−1/α;−1,1/α (x) = exp − 1 − = exp −(−x)α = Ψα (x), α 1/α x > 0, x < 0, 0.4 für α > 0 zeigen. Ist ξ > 0, erhält man also eine Fréchet-Verteilung, ξ < 0 entspricht einer Weibull-Verteilung und G0 ist die Gumbel-Verteilung. 0.0 0.1 0.2 0.3 Gumbel ξ = −0.1 ξ = +0.1 −2 0 2 4 6 Abbildung 2.4: Gumbel-Approximation für ξ nahe Null: Die Dichte von Λ = G0 im Vergleich mit den Dichten von Gξ für ξ = −0.1 und ξ = +0.1 Der Vorteil der gemeinsamen Darstellung (2.12) bzw. (2.13) liegt darin, dass sie einheitliche Schätzmethoden für die Parameter einer Extremwertverteilung ermöglicht. Insbesondere der Parameter ξ – und damit der Verteilungstyp – kann aus vorhandenem Datenmaterial geschätzt werden. Details dazu findet man in Kapitel 6 von Embrechts et al. (1997). Besondere Bedeutung kommt den verallgemeinerten Pareto-Verteilungen (GPD) zu, die definiert werden als Wξ;ν,β (x) := 1 + log Gξ;ν,β (x) , 1/e ≤ Gξ;ν,β (x). (2.14) In Analogie zum Vorangegangenen setzt man Wξ := Wξ;0,1 und erhält die drei Vertei- 2.2 Univariate Extremwerttheorie 20 lungstypen W1/α;1,1/α (x) = 0, falls x ≤ 1, für ein α > 0, 1 − x−α , falls x > 1, 0, falls x ≤ −1, W−1/α;−1,1/α (x) = 1 − (−x)α , falls − 1 < x ≤ 0, 1, falls x > 0, 0, falls x ≤ 0, W0 (x) = 1 − e−x , falls x > 0, für ein α > 0, 1.0 die man auch Standard-GPDs nennt. Dabei handelt es sich um eine Pareto-, eine Betabzw. eine Exponentialverteilung. Zu beachten ist, dass W−1/α;−1,1/α im Fall α = 1 mit der Gleichverteilung auf (−1, 0) übereinstimmt. Diese Eigenschaft wird in Kapitel 4 eine wichtige Rolle spielen. 0.0 0.2 0.4 0.6 0.8 Pareto Beta Exponential −2 −1 0 1 2 3 4 5 Abbildung 2.5: Dichten der Standard-GPDs mit Parameter α = 1 Die verallgemeinerten Pareto-Verteilungen eignen sich besonders dazu, um Überschreitungen über hohe Schwellenwerte zu modellieren. Das bedeutet, wir wählen eine hohe Zahl u und sind an der Verteilung einer Zufallsvariablen X interessiert, wenn die Bedingung X > u erfüllt ist. Für die weiteren Überlegungen wird mit F die unbedingte Verteilungsfunktion von X bezeichnet. Wir setzen 0 < P (X ≤ u) < 1 voraus und betrachten Fu (x) := P (X − u ≤ x | X > u). 2.2 Univariate Extremwerttheorie 21 Letzteres ist die Verteilungsfunktion der Überschreitungen X − u, wenn bekannt ist, dass die Realisation von X größer sein wird als der Schwellenwert u. Dann lässt sich F darstellen als F (x) = P (X ≤ x, X ≤ u) + P (X ≤ x, X > u) = P (X ≤ x, X ≤ u) + P (X > u)P (X ≤ x | X > u) = P (X ≤ x, X ≤ u) + 1 − F (u) Fu (x − u) F (x), x ≤ u, = F (u) + 1 − F (u) F (x − u), x > u, u Aus Theorem 3.4.13 (b) in Embrechts et al. (1997) folgt, dass sich Fu für großes u gut durch eine GPD Wξ;0,β(u) annähern lässt, falls F im Anziehungsbereich von Gξ liegt.7 Dabei hängt der Skalenparameter β = β(u) von u ab. Das ergibt die Approximation F (x) ≈ F (u) + 1 − F (u) Wξ;u,β(u) (x), x > u, (2.15) die wir den Piecing-Together Ansatz der univariaten Extremwerttheorie nennen. Für Details zur Parameterschätzung sei nochmals auf Embrechts et al. (1997, Kapitel 6) hingewiesen. Mit β̃ := β(u) 1 + ξWξ−1 F (u) und ν̃ := u − β̃Wξ−1 F (u) erhält man wegen β̃ − β(u) = −ξ β̃Wξ−1 F (u) F (x) ≈ 1 − 1 − F (u) + 1 − F (u) Wξ;u,β(u) (x) = 1 − 1 − Wξ Wξ−1 F (u) 1 − Wξ;u,β(u) (x) −1/ξ h i−1/ξ x−u −1 = 1 − 1 + ξWξ F (u) 1+ξ β(u) −1/ξ β(u) + ξ(x − u) =1− β̃ " #−1/ξ x − u − ξ −1 β̃ − β(u) =1− 1+ξ β̃ = Wξ;ν̃,β̃ (x), u < x < ω Wξ;u,β(u) , (2.16) falls ξ 6= 0, und ebenso F (x) ≈ W0;ν̃,β̃ (x) für x > u, falls ξ = 0 (vgl. auch Abschnitt 1.4 in Reiss und Thomas (2007)). In (2.15) wird also der rechte Rand der Verteilungsfunktion F durch eine geeignet gewählte GPD ersetzt. Der Piecing-Together Ansatz hat eine besondere Bedeutung für die Praxis: Gehen wir 7 Dieses Ergebnis geht auf Balkema und de Haan (1974) und Pickands (1975) zurück. 2.3 Copulas 22 von der Situation aus, dass n unabhängige Realisationen x1 , . . . , xn der Zufallsvariablen X vorliegen und die Anpassung einer Verteilung (beispielsweise einer Normalverteilung) an zu vielen großen Werten scheitert. Dann kann man einen Schwellenwert u festlegen und die Verteilung der Datenpunkte oberhalb von u durch eine GPD approximieren. Dadurch wird oft eine bessere Anpassung an die Beobachtungen erzielt. Diesen Ansatz machen sich z. B. auch Di Clemente und Romano (2004) in ihrer Arbeit zunutze. Eine konkrete Anwendung kommt aus der Welt der Versicherungen: Sie werden z. B. daran interessiert sein, mit welchen Wahrscheinlichkeiten besonders hohe Schadensmeldungen bei ihnen eintreffen. Soll die Wahrscheinlichkeit modelliert werden, dass die Gesamtschadenssumme X in einem Jahr einen bestimmten Wert x0 übersteigt, kann dies auf der Basis von Gleichung (2.15) geschehen. Dazu betrachtet man die Gesamtschadenssummen vergangener Jahre und passt eine GPD an diese Daten an. Damit lässt sich eine Näherung für die Wahrscheinlichkeit P (X > x0 ) berechnen, selbst wenn alle zugrunde liegenden Daten kleiner als x0 sind. 2.3 Copulas Im vorherigen Abschnitt wurde die Verteilung großer (eindimensionaler) Beobachtungen untersucht. Das Ziel dieser Arbeit ist aber, den Piecing-Together Ansatz in (2.15) auf die multivariate Extremwerttheorie zu verallgemeinern, wo es um die Beschreibung großer Zufallsvektoren X = (X1 , . . . , Xm ) geht.8 Da die einzelnen Komponenten von X abhängig voneinander sein können, wird zunächst ein tragfähiges Konzept zur Beschreibung von Abhängigkeiten zwischen Zufallsvariablen benötigt. Dazu führen wir den Begriff der Copula ein: Definition 2.3.1. Eine Copula C auf [0, 1]m ist eine m-dimensionale Verteilungsfunktion, so dass jede Randverteilung Ci , i = 1, . . . , m, die Gleichverteilung auf (0, 1) ist, d. h. Ci (u) = u für u ∈ (0, 1). Zur Veranschaulichung werden zwei einfache Beispiele von Copulas aufgeführt. Ihre Bedeutung wird in Satz 2.3.4 geklärt. Beispiel 2.3.2. (i) Durch Π(u1 , u2 , . . . , um ) := u1 u2 · · · um mit ui ∈ (0, 1) für i = 1, . . . , m wird eine Copula definiert, die Unabhängigkeitscopula genannt wird. (ii) Auch M (u1 , u2 , . . . , um ) := min{u1 , u2 , . . . , um }, ui ∈ (0, 1), ist eine Copula. Sie beschreibt den Fall der totalen (stochastischen) Abhängigkeit. 8 Was man in der Extremwerttheorie unter einem großen“ Vektor versteht, wird in Kapitel 3 geklärt. ” 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 23 1.0 2.3 Copulas 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Abbildung 2.6: 104 Zufallsvektoren aus der Copula Π (links) und aus der Copula M (rechts) Das Theorem von Sklar (siehe z. B. Nelsen (2006), Theorem 2.10.9) zeigt, dass jede m-dimensionale Verteilungsfunktion in ihre Randverteilungen und ihre Copula zerlegt werden kann: Satz 2.3.3 (Theorem von Sklar). Sei F eine m-dimensionale Verteilungsfunktion mit Randverteilungen F1 , . . . , Fm . Dann gibt es eine Copula C auf [0, 1]m , so dass für alle x = (x1 , . . . , xm ) ∈ Rm F (x) = C F1 (x1 ), . . . , Fm (xm ) (2.17) gilt. Falls alle Randverteilungen stetig sind, ist diese Copula eindeutig bestimmt; andern falls ist C eindeutig auf Im(F1 ) × · · · × Im(Fm ) mit Im(Fi ) := Fi (x) ∈ [0, 1] x ∈ R , i = 1, . . . , m. Wenn umgekehrt eine Copula C auf [0, 1]m und (eindimensionale) Verteilungsfunktionen F1 , . . . , Fm gegeben sind, dann wird durch Gleichung (2.17) eine m-dimensionale Verteilungsfunktion F mit Randverteilungen F1 , . . . , Fm definiert. Auch wenn eine Copula, die (2.17) erfüllt, i. A. nur auf einer Teilmenge von [0, 1]m eindeutig bestimmt ist, nennen wir sie im Folgenden die Copula von F und bezeichnen sie mit CF . Das ist der Tatsache geschuldet, dass bei der Berechnung des Wertes F (x) gemäß (2.17) nur Werte aus der Menge Im(F1 ) × · · · × Im(Fm ) in die Copula eingesetzt werden. Eine direkte Folgerung aus Satz 2.3.3 ist, dass die Copula einer Verteilungsfunktion F berechnet werden kann als CF (u) = F F1−1 (u1 ), . . . , Fm−1 (um ) (2.18) 2.3 Copulas 24 mit u = (u1 , . . . , um ) ∈ (0, 1)m , vgl. Nelsen (2006, Corollary 2.10.10). Dabei ist zu beachten, dass Fi−1 i. A. nicht die Umkehrfunktion von Fi ist, sondern die Quantilfunktion Fi−1 (ui ) = inf x ∈ R Fi (x) ≥ ui . 0.0 0.2 0.4 0.6 0.8 1.0 Auf die Eigenschaften von Quantilfunktionen soll hier nicht näher eingegangen werden.9 Es handelt sich um eine Art verallgemeinerte Umkehrfunktion für monoton wachsende Funktionen. Falls Fi streng monoton steigt, dann stimmt die Quantilfunktion mit der Umkehrfunktion überein. 0.0 0.2 0.4 0.6 0.8 1.0 Abbildung 2.7: 104 Zufallsvektoren aus einer Copula, die auf einer bivariaten Normalverteilung mit Korrelationskoeffizient 0.73 basiert. An Gleichung (2.18) wird deutlich, dass Copulas eine Art Normierung von m-dimensionalen Verteilungsfunktionen sind. Das geschieht dadurch, dass die Randverteilungen gewissermaßen neutralisiert werden und nur eine Funktion übrig bleibt, die die Abhängigkeitsstruktur beschreibt. Dass Copulas tatsächlich die Abhängigkeiten zwischen den Komponenten eines Zufallsvektors abbilden, wird durch das folgende Resultat gerechtfertigt (siehe Nelsen (2006), Theorem 2.10.14): Satz 2.3.4. (X1 , . . . , Xm ) sei ein Zufallsvektor mit Verteilungsfunktion F , deren Randverteilungen stetig sind. Dann gilt: (i) X1 , . . . , Xm sind genau dann unabhängig, wenn F die Copula Π hat. (ii) F hat genau dann die Copula M , wenn Xi für alle i = 1, . . . , m und alle j ∈ {1, . . . , m} \ {i} fast sicher (d. h. mit Wahrscheinlichkeit 1) eine streng monoton steigende Funktion von Xj ist. 9 Siehe dazu beispielsweise S. 6 in Leadbetter et al. (1983) und S. 32 in Falk et al. (2002) 2.3 Copulas 25 Da das Theorem von Sklar (Satz 2.3.3) Verteilungsfunktionen mit stetigen Randverteilungen besonders hervorhebt, soll kurz auf eine wichtige Eigenschaft solcher Verteilungsfunktionen eingegangen werden: Lemma 2.3.5. Eine Verteilungsfunktion F ist genau dann stetig, wenn alle ihre Randverteilungen F1 , . . . , Fm stetig sind. Insbesondere ist jede Copula stetig. Beweis. Aus der Stetigkeit von F folgt offensichtlich sofort die Stetigkeit von F1 , . . . , Fm . Seien nun die Randverteilungen als stetig vorausgesetzt. Da F eine Verteilungsfunktion ist, existiert ein Zufallsvektor X = (X1 , . . . , Xm ), der nach F verteilt ist. Aus der absteigenden Stetigkeit eines Wahrscheinlichkeitsmaßes10 folgt daher für x = (x1 , . . . , xm ) ∈ R und ε = (ε1 , . . . , εm ) > (0, . . . , 0) =: 0 F (x + ε) = (P ∗ X) (−∞, x1 + ε1 ] × · · · × (−∞, xm + εm ] →ε↓0 (P ∗ X) (−∞, x1 ] × · · · × (−∞, xm ] = F (x), d. h. F ist rechtsseitig stetig. Die linksseitige Stetigkeit folgt andererseits aus der linksseitigen Stetigkeit von F1 , . . . , Fm : ! F (x) − F (x − ε) = P \ i≤m {Xi ≤ xi } \ {Xj ≤ xj − εj } j≤m ! =P \ {Xi ≤ xi } i≤m !! ∩ [ {Xj > xj − εj } j≤m !! =P [ j≤m ≤P ≤ = X j≤m X j≤m [ j≤m {Xj > xj − εj } ∩ \ {Xi ≤ xi } i≤m {Xj > xj − εj } ∩ {Xj ≤ xj } P xj − εj < Xj ≤ xj ! Fj (xj ) − Fj (xj − εj ) →ε↓0 0, wobei sich die beiden Abschätzungen aus der Monotonie bzw. der Sub-Additivität11 eines Wahrscheinlichkeitsmaßes ergeben. Die Stetigkeit einer Copula folgt nun aus Definition 2.3.1: Jede Randverteilung einer Copula ist die Gleichverteilung auf (0, 1) und damit stetig. Siehe hierzu Bauer (1992, Satz 3.2 (c)) und beachte, dass ein Wahrscheinlichkeitsmaß P ein Prämaß ist, das auf einer σ-Algebra über einer Menge Ω definiert ist und die Eigenschaft P (Ω) = 1 hat. 11 Siehe Gleichung (3.8) in Bauer (1992) und Fußnote 10, da jedes Prämaß auch ein Inhalt ist. 10 2.3 Copulas 26 Abschließend betrachten wir den Einfluss von streng monotonen Transformationen auf die Copula (vgl. auch Theorem 2.4.3 in Nelsen (2006)): Satz 2.3.6. Sei (X1 , . . . , Xm ) ein Zufallsvektor mit Verteilungsfunktion F und stetigen Randverteilungen. Wenn H die Verteilungsfunktion von h1 (X1 ), . . . , hm (Xm ) ist, wobei die Funktionen hi : R → R, i = 1, . . . , m, streng monoton steigen, dann gilt CH = CF . Beweis. Da h1 , . . . , hm streng monoton steigend sind, existieren die Umkehrfunktio−1 nen h−1 1 , . . . , hm und diese steigen ebenfalls streng monoton. H hat demnach die i-te −1 Randverteilung Hi (x) = P hi (Xi ) ≤ x = P Xi ≤ h−1 i (x) = Fi hi (x) , x ∈ R, i = 1, . . . , m. Es folgt nach (2.17) für alle (x1 , . . . , xm ) ∈ Rm CH H1 (x1 ), . . . , Hm (xm ) = P h1 (X1 ) ≤ x1 , . . . , hm (Xm ) ≤ xm −1 = P X1 ≤ h−1 1 (x1 ), . . . , Xm ≤ hm (xm ) −1 (x ) = CF F1 h−1 (x ) , . . . , F h m 1 m m 1 = CF H1 (x1 ), . . . , Hm (xm ) . Nach dem Theorem von Sklar (Satz 2.3.3) ist also CH = CF auf der Menge Im(H1 ) × · · · × Im(Hm ). Nun wird gezeigt, dass CH = CF sogar auf ganz Rm gilt. Seien dazu y ∈ (0, 1) und i ∈ {1, . . . , m} gegeben. Da die Randverteilungen von F univariate Verteilungsfunktionen sind, gilt lim Fi (x) = 0 sowie lim Fi (x) = 1. x↓−∞ x↑∞ Sie sind außerdem als stetig vorausgesetzt, d. h. der Zwischenwertsatz von Bolzano (siehe z. B. Köhler (2006), Satz 10.7) zeigt x ∈ R Fi (x) = y 6= ∅. Wegen der Monotonie und der rechtsseitigen Stetigkeit der Randverteilungen von F folgt für x̃i := hi Fi−1 (y) ∈ R Hi (x̃i ) = Fi inf x ∈ R Fi (x) ≥ y = Fi inf x ∈ R Fi (x) = y = y. Insgesamt ist damit Im(Hi ) ⊃ (0, 1), i = 1, . . . , m, bewiesen, d. h. CH = CF auf (0, 1)m . Laut Lemma 2.3.5 und Definition 2.3.1 folgt daraus CH = CF zunächst auf [0, 1]m und schließlich auf ganz Rm . Aus Satz 2.3.6 folgt sofort, dass die beiden Verteilungsfunktionen F (x), x ∈ R, und F (x − µ) σ , x ∈ R, mit µ ∈ R und σ > 0 die gleiche Copula haben. Lokationsund Skalenparameter beeinflussen also nicht die Abhängigkeitsstruktur zwischen den Komponenten eines Zufallsvektors. Demnach ist die Copula, die Abbildung 2.7 zugrunde 2.3 Copulas 27 liegt, eindeutig bestimmt. Man nennt sie die bivariate Normal-Copula mit Parameter % = 0.73. 3.1 Die Verteilung des m-dimensionalen Maximums 28 3 Multivariate Extremwerttheorie In den beiden Abschnitten 2.2 und 2.3 wurde der Grundstein für die Extremwerttheorie im Mehrdimensionalen gelegt. Zunächst wurde gezeigt, wie die größte Beobachtung unter den i. i. d. Zufallsvariablen X1 , X2 , X3 , . . . asymptotisch verteilt ist, nachdem sie geeignet normiert wurde. Daraus wurde ein Ansatz hergeleitet, wie man eine Verteilung an besonders große Werte eines Datensatzes anpassen kann. Als große Werte bezeichneten wir dabei Beobachtungen, die einen fest gewählten Schwellenwert überschreiten. Mit dem Blick auf eine multivariate Erweiterung wurde anschließend darauf eingegangen, wie sich Abhängigkeiten zwischen Zufallsvariablen mit Hilfe von Copulas beschreiben lassen. Nun sollen diese Ergebnisse miteinander kombiniert werden, um die Verteilung von großen Zufallsvektoren X = (X1 , . . . , Xm ) anzunähern. Analog zum eindimensionalen Fall wählen wir einen Schwellenwert u = (u1 , . . . , um ) und nennen X groß, falls gleichzeitig Xj > uj für alle j = 1, . . . , m gilt. Das wird uns in die Lage versetzen, in Kapitel 4 den univariaten Piecing-Together Ansatz aus Gleichung (2.15) auf den multivariaten Kontext zu erweitern. Um die Schreibweise möglichst übersichtlich zu gestalten, werden alle Rechenoperationen und Ungleichungen zwischen zwei Vektoren x und y komponentenweise aufgefasst. Das gilt auch für die Anwendung einer univariaten Funktion auf einen Vektor x, d. h. x+y = (x1 + y1 , . . . , xm + ym ), xy = (x1 y1 , . . . , xm ym ), x≤y exp(x) ⇔ x1 ≤ y1 , . . . , xm ≤ ym , = exp(x1 ), . . . , exp(xm ) usw. 3.1 Die Verteilung des m-dimensionalen Maximums Als erstes wollen wir uns dem Begriff der multivariaten Extremwertverteilung nähern. Dazu werden die i. i. d. Zufallsvektoren X1 , X2 , X3 , . . . mit Xi = (Xi,1 , . . . , Xi,m ), i ∈ N, betrachtet. Das Maximum der ersten n dieser Vektoren wird komponentenweise erklärt, 3.1 Die Verteilung des m-dimensionalen Maximums 29 d. h. Mn := max{X1 , . . . , Xn } := max{X1,1 , . . . , Xn,1 }, . . . , max{X1,m , . . . , Xn,m } muss im Gegensatz zum univariaten Fall kein tatsächlicher Datenpunkt sein.1 (j) Bezeichnen wir mit Mn := max{X1,j , . . . , Xn,j } das Maximum in der j-ten Komponente, j = 1, . . . , m, dann gilt Mn = Mn(1) , . . . , Mn(m) , (1) (m) wobei Mn , . . . , Mn eindimensionale Maxima sind, wie sie in Abschnitt 2.2 untersucht wurden. Die Verteilungsfunktion von Mn lässt sich analog zu (2.6) berechnen: P (Mn ≤ x) = P Mn(1) ≤ x1 , . . . , Mn(m) ≤ xm =P X1,1 ≤ x1 , . . . , Xn,1 ≤ x1 , .. .. . . X1,m ≤ xm , . . . , Xn,m ≤ xm = P X1 ≤ x, . . . , Xn ≤ x = F n (x), wobei F die Verteilungsfunktion von X1 ist und im letzten Schritt die i. i. d.-Eigenschaft ausgenutzt wurde. Wir orientieren uns weiter an Abschnitt 2.2 und normieren Mn mit gewissen Vektoren (1) (m) (1) (m) an = an , . . . , an > 0 und bn = bn , . . . , bn ∈ Rm , wobei 0 := (0, . . . , 0) ∈ Rm , und erhalten Mn − b n ≤ x = F n (an x + bn ). P an Das führt zu einer Verallgemeinerung der Extremwertverteilungen aus Definition 2.2.2. Definition 3.1.1. Sei F eine (multivariate) Verteilungsfunktion. Wenn es Normierungskonstanten an > 0, bn ∈ Rm für n ∈ N gibt, so dass F n (an x + bn ) →n→∞ G(x), 2 x ∈ Rm , (3.1) mit einer Verteilungsfunktion G gilt, deren Randverteilungen nicht-entartet sind, dann heißt G eine (multivariate) Extremwertverteilung (EVD). In diesem Fall liegt F im An1 2 Beispielsweise ist max{(2, 5), (3, 4)} = (3, 5). Wie im univariaten Fall gilt dieser Grenzübergang zunächst nur für alle Stetigkeitsstellen von G. Am Anfang von Abschnitt 3.2 wird jedoch gezeigt, dass jede Verteilungsfunktion, die als Grenzwert in Frage kommt, stetig auf ganz Rm ist. 3.2 Eigenschaften multivariater Extremwertverteilungen 30 ziehungsbereich von G und wir schreiben F ∈ D(G). Ein Zufallsvektor heißt extremwertverteilt, falls seine Verteilungsfunktion eine Extremwertverteilung ist. Im Vergleich zum eindimensionalen Fall, wo das Fisher-Tippett Theorem (Satz 2.2.1) Aussagen über die Verteilungstypen der Grenzfunktionen gemacht hat, ist diese Definition sehr abstrakt. Der nächste Abschnitt geht daher auf einige wichtige Eigenschaften von Extremwertverteilungen ein. Dabei wird sich zeigen, dass sich wesentliche Ergebnisse aus Abschnitt 2.2 direkt übertragen. 3.2 Eigenschaften multivariater Extremwertverteilungen Zunächst setzen wir uns etwas genauer mit dem Grenzwert (3.1) auseinander. Da die Normierungskonstanten an und bn unabhängig von der Stelle x = (x1 , . . . , xm ) sind, kann man alle Komponenten von x bis auf eine gegen unendlich gehen lassen und erhält für j = 1, . . . , m (j) Fjn a(j) →n→∞ Gj (x), x ∈ R, (3.2) n x + bn wobei Fj und Gj die j-te Randverteilung von F bzw. G ist. Da die Randverteilungen von G als nicht-entartet vorausgesetzt sind, bedeutet das, dass Gj eine univariate Extremwertverteilung vom Typ Φα , Ψα oder Λ ist (vgl. Definition 2.2.2 und Satz 2.2.1).3 Alle Ergebnisse aus Abschnitt 2.2 sind also direkt anwendbar, insbesondere die Anpassung von univariaten verallgemeinerten Pareto-Verteilungen an F1 , . . . , Fm , wie sie in Gleichung (2.15) beschrieben wurde. Außerdem folgt aus Lemma 2.3.5, dass jede multivariate Extremwertverteilung stetig ist. Nun verwenden wir zusätzlich die Ergebnisse aus Abschnitt 2.3. Ist CF die Copula der Verteilungsfunktion F , dann folgt aus dem Theorem von Sklar (Satz 2.3.3) n h a(1) n x1 (m) b(1) n , . . . , a n xm b(m) n in F (an x + bn ) = F + + h in (1) (m) (m) x + b , . . . , F a x + b = CF F1 a(1) 1 m m n n n n h i h 1/n i1/n n (m) (m) n n (1) (1) , . . . , F m an x m + b n . = CF F1 an x1 + bn Diese Gleichung legt folgendes Ergebnis nahe, das in Deheuvels (1978, 1984) und Galambos (1987) zu finden ist: 3 Insbesondere sind die Randverteilungen von G stetig und mit Lemma 2.3.5 folgt die Stetigkeit von G. 3.2 Eigenschaften multivariater Extremwertverteilungen 31 Satz 3.2.1. Eine Verteilungsfunktion F liegt genau dann im Anziehungsbereich einer Extremwertverteilung G, wenn (3.2) gilt und gleichzeitig −1 CFn u1/n →n→∞ CG (u) = G G−1 1 (u1 ), . . . , Gm (um ) , u ∈ (0, 1)m . Auf die Interpretation dieses Grenzwerts wird in Abschnitt 4.1 eingegangen. Satz 3.2.1 hat eine wichtige Konsequenz: Bei der Überprüfung, ob eine Verteilungsfunktion im Anziehungsbereich einer Extremwertverteilung liegt, können die Randverteilungen unabhängig von der Copula untersucht werden. Dabei kommen die Methoden der univariaten Extremwerttheorie zum Einsatz. In Definition 2.2.4 wurde der Begriff der Max-Stabilität eingeführt. Analog dazu nennen wir eine Verteilungsfunktion G max-stabil, falls ihre Randverteilungen nicht-entartet sind und es für alle n ∈ N Normierungskonstanten an > 0, bn ∈ Rm gibt, so dass Gn (an x+bn ) = G(x), x ∈ Rm . Auch die Interpretation dieser Gleichung bleibt dieselbe: Max-Stabilität bedeutet, dass das geeignet normierte Maximum von n i. i. d. Zufallsvektoren die gleiche Verteilungsfunktion besitzt wie diese Zufallsvektoren. Außerdem zeigt Resnick (2008) in Proposition 5.9 folgende Aussage: Satz 3.2.2. Eine Verteilungsfunktion ist genau dann max-stabil, wenn sie eine Extremwertverteilung ist. Verwendet man die Copulas Π und M aus Beispiel 2.3.2, dann lassen sich mit diesem Ergebnis Beispiele für multivariate Extremwertverteilungen angeben: Sind G1 , . . . , Gm univariate Extremwertverteilungen, d. h. jeweils vom Typ Φα , Ψα oder Λ, dann gilt für j = 1, . . . , m nach Abschnitt 2.2 (j) Gnj a(j) = Gj (xj ), n x j + bn (j) xj ∈ R, (j) mit geeigneten Normierungskonstanten an > 0, bn ∈ R. Aus dem Theorem von Sklar (Satz 2.3.3) folgt, dass GΠ (x) := Π G1 (x1 ), . . . , Gm (xm ) und GM (x) := M G1 (x1 ), . . . , Gm (xm ) , x = (x1 . . . , xm ) ∈ Rm , Verteilungsfunktionen mit nicht-entarteten Randverteilungen 3.2 Eigenschaften multivariater Extremwertverteilungen (1) (m) sind. Mit an = an , . . . , an GnM (an x (1) (m) und bn = bn , . . . , bn 32 gilt n on (1) (1) (m) (m) + bn ) = min G1 an x1 + bn , . . . , Gm an xm + bn (1) n (m) (m) = min Gn1 a(1) n x 1 + b n , . . . , G m an x m + b n = min G1 (x1 ), . . . , Gm (xm ) = GM (x) und ebenso GnΠ (an x+bn ) = GΠ (x). Also sind GΠ und GM max-stabil und nach Satz 3.2.2 damit auch Extremwertverteilungen. Dieses Konstruktionsprinzip lässt sich verallgemeinern: Satz 3.2.3. Eine Verteilungsfunktion G ist genau dann eine m-variate Extremwertverteilung, wenn alle ihre Randverteilungen max-stabil sind und die Copula von G die Eigenschaft (3.3) CG (u) = CGn u1/n , u ∈ [0, 1]m , n ∈ N, erfüllt. Beweis. Für eine max-stabile Verteilungsfunktion H mit H(x) = H n (αn x + βn ) für x ∈ R, αn > 0 und βn ∈ R, n ∈ N, gilt αn H −1 (y) + βn = inf αn x + βn ∈ R H(x) ≥ y = inf x ∈ R H αn−1 (x − βn ) ≥ y = inf x ∈ R H n (x) ≥ y = H −1 y 1/n , y ∈ (0, 1). Ist G eine multivariate Extremwertverteilung, dann ist sie max-stabil (Satz 3.2.2) und ihre Randverteilungen sind gemäß Gleichung (3.2) univariate Extremwertverteilun(1) (m) > 0 und bn = gen. Es existieren also Normierungskonstanten an = an , . . . , an (1) (m) m bn , . . . , b n ∈ R , so dass G(x) = Gn (an x + bn ), x ∈ Rm , (j) und Gj (x) = Gnj a(j) n x + bn , x ∈ R, j ≤ m. Da G1 , . . . , Gm stetig sind, ist die Copula von G nach Satz 2.3.3 eindeutig bestimmt und man erhält −1 CG (u) = G G−1 1 (u1 ), . . . , Gm (um ) −1 (1) (m) −1 (m) = Gn a(1) n G1 (u1 ) + bn , . . . , an Gm (um ) + bn 3.2 Eigenschaften multivariater Extremwertverteilungen h = G G−1 1 1/n u1 , . . . , G−1 m = CGn u1/n , u1/n m 33 in u ∈ (0, 1)m . Aus der Stetigkeit von CG (Lemma 2.3.5) folgt somit CG (u) = CGn u1/n für alle u ∈ [0, 1]m . Setzt man andererseits CG (u) = CGn u1/n , u ∈ [0, 1]m , und (j) Gj (x) = Gnj a(j) n x + bn , x ∈ R, j ≤ m (j) (j) für geeignet gewählte an > 0 und bn ∈ R voraus, dann ist G(x) = CG G1 (x1 ), . . . , Gm (xm ) (m) (m) n (1) = CG Gn1 a(1) n x 1 + b n , . . . , G m an x m + b n h in (1) (m) (m) = CG G1 a(1) x + b , . . . , G a x + b 1 m m n n n n = Gn an x + bn , x ∈ Rm , (1) (m) mit an = an , . . . , an Extremwertverteilung. (1) (m) und bn = bn , . . . , bn . Daher ist G laut Satz 3.2.2 eine Mit diesem Ergebnis steht uns ein allgemeines Verfahren zur Konstruktion einer multivariaten Extremwertverteilung zur Verfügung. Es basiert zum einen auf der Charakterisierung univariater Extremwertverteilungen und zum anderen auf einer Eigenschaft für Copulas, die sich direkt aus der Max-Stabilität ableitet. Das liefert den Anlass für folgende Definition: Definition 3.2.4. Jede Copula C, die Gleichung (3.3) genügt, heißt eine Extremwertcopula oder auch eine EVD-Copula. Eine weitere Konsequenz aus Satz 3.2.3 ist, dass man die Ränder einer Extremwertverteilung in eine beliebige Form überführen kann: Ist G eine max-stabile Verteilungsfunktion mit Copula CG und Randverteilungen G1 , . . . , Gm und sind H1 , . . . , Hm weitere univariate Extremwertverteilungen, dann erhält man −1 −1 G G1 H1 (x1 ) , . . . , Gm Hm (xm ) = CG H1 (x1 ), . . . , Hm (xm ) =: H(x), x = (x1 , . . . , xm ) ∈ Rm . Da CG eine Extremwertcopula ist, handelt es sich bei H um eine max-stabile Funktion 3.3 Multivariate verallgemeinerte Pareto-Verteilungen 34 mit Randverteilungen H1 , . . . , Hm und Copula CG . Offensichtlich erhält man durch −1 H H1−1 G1 (x1 ) , . . . , Hm Gm (xm ) = G(x), x ∈ Rm . die ursprüngliche Extremwertverteilung zurück. Man darf also o. B. d. A. annehmen, dass eine Extremwertverteilung die vorher festgelegten Ränder H1 , . . . , Hm besitzt (vgl. auch Abschnitt 5.4 in Falk et al. (2004)). 3.3 Multivariate verallgemeinerte Pareto-Verteilungen Als nächstes soll auf eine Erweiterung von den aus Abschnitt 2.2 bekannten verallgemeinerten Pareto-Verteilungen eingegangen werden. Dort war gewährleistet, dass durch W (x) := 1 + log G(x) für alle x ∈ R mit G(x) ≥ 1/e eine Verteilungsfunktion definiert wird. Im multivariaten Kontext (genauer: für m > 2) liefert diese Definition aber nicht unbedingt eine Verteilungsfunktion, wie Abschnitt 5.1 in Falk et al. (2004) und Theorem 2.3.12 in Michel (2006) zeigen. Definition 3.3.1. Sei G eine multivariate Extremwertverteilung. Dann nennen wir f (x) := 1 + log G(x) , W 1/e ≤ G(x), eine verallgemeinerte Pareto-Funktion (GP Funktion). Allerdings sagt Lemma 5.1.3 in Falk et al. (2004) aus, dass jede GP Funktion für hinreichend große x mit einer Verteilungsfunktion übereinstimmt. Mit diesem Ergebnis lassen sich multivariate verallgemeinerte Pareto-Verteilungen definieren: Definition 3.3.2. Sei W eine multivariate Verteilungsfunktion mit Randverteilungen f eine GP Funktion. Wenn es einen Punkt x0 < ω(W1 ), . . . , ω(Wm ) W1 , . . . , Wm und W f (x) für alle x ≥ x0 gilt, dann heißt W eine (multivariate) gibt, so dass W (x) = W verallgemeinerte Pareto-Verteilung (GPD). Auffallend an dieser Definition ist, dass keine Aussage darüber gemacht wird, welche Gestalt eine GPD hat, wenn mindestens eine Komponente von x = (x1 , . . . , xm ) (1) (m) kleiner ist als der entsprechende Eintrag in x0 = x0 , . . . , x0 . Wie wir in Kapitel 4 sehen werden, ist das aber auch nicht notwendig, um Gleichung (2.15), die die Anpassung einer univariaten GPD an eine univariate Verteilungsfunktion beschreibt, auf den mehrdimensionalen Fall zu übertragen. Am Anfang von Abschnitt 3.2 wurde festgestellt, dass die Randverteilungen einer Extremwertverteilung G univariate Extremwertverteilungen sind. Das bedeutet für die 3.3 Multivariate verallgemeinerte Pareto-Verteilungen 35 Randverteilungen einer GPD W Wj (xj ) = 1 + log Gj (xj ) , (j) xj ≥ x0 , j = 1, . . . , m, (3.4) d. h. sie stimmen für hinreichend große xj mit univariaten GPDs überein. Darüber hinaus besitzen verallgemeinerte Pareto-Verteilungen eine spezielle Abhän(1) (m) gigkeitsstruktur. Aus Gleichung (3.4) folgt die Existenz eines u0 = u0 , . . . , u0 ∈ (1) (m) (0, 1)m mit u0 ≥ W1 x0 , . . . , Wm x0 , so dass Wj−1 (uj ) = inf x ∈ R 1 + log Gj (x) ≥ uj = inf x ∈ R Gj (x) ≥ exp(uj − 1) = G−1 exp(uj − 1) j (j) für alle u0 ≤ uj < 1, j = 1, . . . , m. Damit gilt für die Copula einer verallgemeinerten Pareto-Verteilung W CW (u) = W W1−1 (u1 ), . . . , Wm−1 (um ) −1 −1 = 1 + log G G1 exp(u1 − 1) , . . . , Gm exp(um − 1) = 1 + log CG exp(u1 − 1), . . . , exp(um − 1) =: 1 + log Gexp (u − 1) (3.5) zunächst für u0 ≤ u < 1, wobei 1 := (1, . . . , 1) ∈ Rm , und wegen der Stetigkeit von CW (Lemma 2.3.5) sogar für u0 ≤ u ≤ 1. Die Überlegungen am Ende von Abschnitt 3.2 zeigen, dass Gexp eine EVD mit den identischen Randverteilungen Ψ1 (x) = exp(x), x ≤ 0, ist (vgl. Abschnitt 2.2). Dementsprechend ist CW eine verallgemeinerte ParetoVerteilung, deren Ränder in einer linksseitigen Umgebung von 1 mit der Gleichverteilung auf (0, 1) übereinstimmen.4 Umgekehrt folgt unter der Gültigkeit von (3.4) und (3.5) W (x) = CW W1 (x1 ), . . . , Wm (xm ) = 1 + log Gexp log G1 (x1 ), . . . , log Gm (xm ) = 1 + log CG G1 (x1 ), . . . , Gm (xm ) = 1 + log G(x) (1) für alle x ≥ W1−1 u0 4 (m) , . . . , Wm−1 u0 , d. h. W ist eine GPD. Insgesamt erhalten wir: Da CW insbesondere eine Copula ist, stimmen ihre Randverteilungen überall mit der Gleichverteilung auf (0, 1) überein. 3.3 Multivariate verallgemeinerte Pareto-Verteilungen 36 Satz 3.3.3. Eine multivariate Verteilungsfunktion W ist genau dann eine verallgemeinerte Pareto-Verteilung, wenn (3.4) und (3.5) gelten, d. h. sowohl die Randverteilungen als auch die Copula von W stimmen in einer Umgebung ihres jeweiligen rechten Endpunkts mit einer GPD überein.5 Verallgemeinerte Pareto-Verteilungen haben also die bemerkenswerte Eigenschaft, dass ihre Abhängigkeitsstruktur selbst durch eine GPD beschrieben wird. Das veranlasst uns zu folgender Definition: Definition 3.3.4. Jede Copula C, die Gleichung (3.5) genügt, heißt eine GPD-Copula. Wie am Ende von Abschnitt 3.2 gezeigt wurde, kann eine Extremwertverteilung auf beliebige EVD-Ränder normiert werden, indem man nur die Randverteilungen transformiert, und diese Normierung kann auch wieder rückgängig gemacht werden. Wegen Definition 3.3.2 überträgt sich diese Eigenschaft entsprechend auf verallgemeinerte ParetoVerteilungen. Andererseits motiviert Gleichung (3.5), dass Extremwertverteilungen mit negativ exponentialverteilten Rändern bzw. GPDs, deren Randverteilungen in der Nähe des rechten Endpunkts mit einer Gleichverteilung übereinstimmen, eine natürliche Wahl darstellen. Deswegen werden wir uns im Folgenden vorrangig mit entsprechend normierten Verteilungen beschäftigen. 5 Der rechte Endpunkt einer m-variaten Verteilungsfunktion F mit Randverteilungen F1 , . . . , Fm ist definiert als ω(F ) := (ω(F1 ), . . . , ω(Fm )), vgl. Abschnitt 2.2. Insbesondere ist ω(C) = 1 für jede Copula C. 37 4 Ein multivariater Piecing-Together Ansatz In den vorangegangenen Kapiteln lag der Schwerpunkt darauf, einen Überblick über wichtige Zusammenhänge zu geben, die benötigt werden, um eine mehrdimensionale Erweiterung des Piecing-Together Ansatzes in Gleichung (2.15) zu entwickeln. Dazu wurde nach technischen Grundlagen in Abschnitt 2.1, die wir für einige Beweise in diesem Kapitel benötigen werden, zunächst auf die univariate Extremwerttheorie eingegangen. Dort sind uns zum ersten Mal die Begriffe Extremwertverteilung und verallgemeinerte ParetoVerteilung begegnet. Diese wurden mit dem Konzept der Copulas aus Abschnitt 2.3 auf den multivariaten Kontext verallgemeinert, was Gegenstand von Kapitel 3 war. Wesentlich war dabei das Theorem von Sklar (Satz 2.3.3). Nun werden – basierend auf Aulbach et al. (2009) – die bisher besprochenen Inhalte an manchen Stellen ergänzt und ein multivariater Piecing-Together Ansatz hergeleitet. Dieser besteht aus zwei Schritten: (i) Zuerst wird eine GPD-Copula an eine gegebene m-dimensionale Copula C angepasst. Das geschieht, indem C nahe des rechten Endpunkts 1 durch eine GPDCopula ersetzt wird, so dass das Ergebnis selbst eine GPD-Copula ist. (ii) Im zweiten Schritt werden die einzelnen Ränder dieser neuen Copula mittels vorgegebener eindimensionaler Verteilungsfunktionen Fi∗ , 1 ≤ i ≤ m, transformiert. Insgesamt erhält man auf diese Weise eine multivariate Verteilungsfunktion mit Randverteilungen Fi∗ , deren Copula im zentralen Bereich mit C und im rechten Rand mit einer GPD-Copula übereinstimmt. Dadurch wird man auch im multivariaten Kontext in die Lage versetzt, die Wahrscheinlichkeit von seltenen Ereignissen im oberen Rand einer Verteilung zu approximieren, selbst wenn dafür noch keine Daten vorliegen (siehe auch Kapitel 5). In Abschnitt 4.1 werden die theoretischen Grundlagen gelegt, indem wir Satz 3.2.1 genauer betrachten. Da der multivariate Piecing-Together Ansatz im Gegensatz zu (2.15) nicht für Verteilungsfunktionen sondern für Zufallsvektoren formuliert wird, geht Ab- 4.1 Copulas im Anziehungsbereich von EVDs 38 schnitt 4.2 anschließend auf die Erzeugung von Zufallsvektoren ein, die einer GPD folgen. Abschnitt 4.3 stellt schließlich das eigentliche Verfahren vor. 4.1 Copulas im Anziehungsbereich von EVDs Wie Satz 3.2.1 zeigt, liegt eine beliebige m-dimensionale Verteilungsfunktion F genau dann im Anziehungsbereich einer Extremwertverteilung G, wenn die Randverteilungen von F im Anziehungsbereich der Randverteilungen von G liegen und gleichzeitig CFn u1/n →n∈N CG (u), u ∈ (0, 1)m , (4.1) gilt. Elementare Umformungen wie in Falk (2008, Abschnitt 6) oder in de Haan und de Ronde (1998, Abschnitt 4.2) ergeben, dass (4.1) äquivalent ist zu 1 1 − CF (1 + tx) →t↓0 − log CG exp(x) =: lG (x), t x ≤ 0, (4.2) wobei lG in der Literatur unter dem Namen stable tail dependence function bekannt e ist, vgl. Huang (1992). Gemäß Abschnitt 3.2 wird durch G(x) := CG exp(x) , x ≤ 0, ei (x) = exp(x), x ≤ 0, i ≤ m, eine EVD mit standard negativ exponentialen Rändern G definiert. Nach den Ausführungen in Abschnitt 3.3 folgt daraus lG (x) = 1 − W (x), x0 ≤ x ≤ 0, (4.3) mit einem x0 < 0 und einer GPD W , deren Randverteilungen in einer linksseitigen Umgebung der 0 mit der Gleichverteilung auf (−1, 0) übereinstimmen. Abschnitt 4.3 in Falk et al. (2004) zeigt außerdem lG (x) = kxkD , x ≤ 0, (4.4) wobei k·kD eine Norm auf Rm mit besonderen Eigenschaften ist, die D-Norm genannt wird. Daher ist die stable tail dependence function positiv homogen vom Grad 1 (d. h. tlG (x) = lG (tx), t ≥ 0) und konvex. Das bedeutet, dass (4.2) gleichbedeutend ist mit 1 − CF (1 + tx) − lG (tx) →t↓0 0, t x ≤ 0. Unter Beachtung von (4.3) erhält man daraus CF (1 + tx) − W (tx) = o(t) für t ↓ 0, d. h. t−1 CF (1 + tx) − W (tx) →t↓0 0. Die vorangegangenen Überlegungen führen nach einigen elementaren Umformungen 4.1 Copulas im Anziehungsbereich von EVDs 39 zu folgendem Resultat. Mit k·k wird eine beliebige Norm auf Rm bezeichnet. Satz 4.1.1. Eine beliebige multivariate Verteilungsfunktion F liegt genau dann im Anziehungsbereich einer Extremwertverteilung, wenn das für ihre univariaten Randverteilungen gilt und gleichzeitig eine GPD-Copula CW existiert, so dass CF (u) = CW (u) + o(ku − 1k) gleichmäßig für u ∈ [0, 1]m . Dieses Ergebnis zeigt, dass die Copula CF einer Verteilungsfunktion F im oberen Rand (d. h. in einer linksseitigen Umgebung von ω(CF ) = 1) nur sinnvoll durch eine GPDCopula approximiert werden kann. Das ist in Übereinstimmung mit Rootzén und Tajvidi (2006), die gezeigt haben, dass auch im multivariaten Kontext Überschreitungen eines Zufallsvektors über einen hohen Schwellenwert nur sinnvoll durch eine multivariate GPD modelliert werden können. Da das analog auch für univariate Verteilungsfunktionen gilt (Balkema und de Haan (1974) und Pickands (1975)), führt das mit Satz 3.3.3 dazu, dass sich F nahe ω(F ) nur vernünftig durch eine multivariate GPD approximieren lässt. Für eine beliebige Copula C gelten die folgenden Äquivalenzen: Korollar 4.1.2. C liegt im Anziehungsbereich einer EVD G ⇐⇒ Es gibt eine GPD-Copula CW , so dass C(u) = CW (u) + o(ku − 1k) gleichmäßig für u ∈ [0, 1]m . In diesem Fall gilt CW (u) = 1 + log G(u − 1), u0 ≤ u ≤ 1, mit einem u0 < 1. ⇐⇒ Es gibt eine Norm k·kD auf Rm , so dass C(u) = 1 − ku − 1kD + o(ku − 1kD ) gleichmäßig für u ∈ [0, 1]m . In diesem Fall gilt G(x) = exp − kxkD , x ≤ 0. Beweis. Sei CW eine GPD-Copula. Dann gibt es nach Definition 3.3.4 eine GP Funktion f mit Rändern W fi (x) = 1 + x für −1 ≤ x ≤ 0, 1 ≤ i ≤ m, so dass W f (u − 1), CW (u) = W u0 ≤ u ≤ 1, f darstellen lässt als mit einem u0 < 1. Es ist wohlbekannt, dass sich W f (x) = 1 − kxkD , W x ≤ 0, kxkD ≤ 1, 4.1 Copulas im Anziehungsbereich von EVDs 40 wobei k·kD eine D-Norm auf Rm ist, vgl. Abschnitt 4.3 in Falk et al. (2004) und Gleichung (4.4). Insbesondere definiert G(x) := exp (− kxkD ), x ≤ 0, eine Extremwertverteilung auf Rm mit standard negativ exponentialen Rändern Gi (x) = exp(x), x ≤ 0, f (x) = 1 + log G(x) , 1/e ≤ G(x), sowie 1 ≤ i ≤ m, und es gilt W f (u − 1) = 1 + log G(u − 1), CW (u) = W u0 ≤ u ≤ 1. Ist C(u) = CW (u) + o(ku − 1k), u ∈ [0, 1]m , für eine beliebige Norm k·k auf Rm , dann erhält man n x 1 1 n C 1+ = 1 − kxkD + o kxkD n n n →n→∞ exp(−kxkD ) = G(x), x ≤ 0, d. h. C liegt im Anziehungsbereich von G. Zusammen mit Satz 4.1.1 folgen damit alle Behauptungen. Wie dem vorangegangenen Beweis entnommen werden kann, folgt aus C ∈ D(G), dass G eine Extremwertverteilung mit standard negativ exponentialen Rändern ist. Außerdem ist Gleichung (4.1) äquivalent dazu, dass C im Anziehungsbereich einer solchen EVD liegt. Die D-Norm in der letzten Äquivalenz von Korollar 4.1.2 kann offenbar berechnet werden als 1 − C(1 + tx) , x ≤ 0, kxkD = lim t↓0 t in Übereinstimmung mit (4.2) und (4.4). Beispiel 4.1.3. Wir betrachten eine beliebige Archimedische Copula (siehe Kapitel 4 in Nelsen (2006)) Cϕ (u) = ϕ−1 ϕ(u1 ) + · · · + ϕ(um ) , u = u1 , . . . , um ∈ (0, 1]m , wobei der Erzeuger ϕ : (0, ∞) → [0, ∞) eine stetige Funktion ist, die auf (0, 1] streng monoton fällt und u. a. die Eigenschaften ϕ(1) = 0 sowie limx↓0 ϕ(x) = ∞ erfüllt. Unter ϕ−1 (t) wird hier inf{x > 0 | ϕ(x) ≤ t}, t ≥ 0, verstanden. Wenn die linksseitige Ableitung von ϕ im Punkt x = 1 existiert mit ϕ0 (1−) 6= 0, dann gilt X 1 − Cϕ (1 + tx) →t↓0 |xi | = kxk1 , x = (x1 , . . . , xm ) ≤ 0. t i≤m Jede Archimedische Copula mit einem derartigen Erzeuger liegt demnach im Anzie- 4.2 Erzeugung von GPD-Zufallsvektoren 41 hungsbereich einer Extremwertverteilung G(x) = exp(−kxk1 ), x ≤ 0, mit unabhängigen Rändern. Die Ränder sind also tail independent, d. h. die tail dependence parameter verschwinden: χ(i, j) := lim P (Ui > x | Uj > x) = 0, x↑1 1 ≤ i 6= j ≤ m, wobei der Zufallsvektor (U1 , . . . , Um ) der Verteilungsfunktion Cϕ folgt, vgl. auch Nelsen (2006, Abschnitt 5.4). Eine genauere Betrachtung der tail dependence parameter ist in Falk et al. (2004, Abschnitt 6.1) zu finden. Dort wird auch auf weiterführende Literatur verwiesen. Die vorangegangenen Überlegungen treffen bspw. auf die Clayton- und die FrankCopula zu, nicht aber auf die Gumbel-Copula mit Parameter λ > 1. Die entsprechenden Erzeuger sind ϕC (t) = ϑ−1 (t−ϑ − 1) und ϕF (t) = − log exp(−ϑt) − 1 exp(−ϑ) − 1 , λ ϑ > 0, sowie ϕG (t) = − log(t) , λ ≥ 1, 0 < t ≤ 1, vgl. auch Abschnitt 4.6 in Nelsen (2006). Bereits in den Abschnitten 3.2 und 3.3 wurde festgestellt, dass die Randverteilungen einer EVD univariate EVDs sind und dass ebenso die Ränder einer GPD in einer geeigneten Umgebung des rechten Endpunkts mit univariaten GPDs übereinstimmen. Außerdem kann eine beliebige EVD in eine Extremwertverteilung mit standard negativ exponentialen Rändern überführt werden, indem man ausschließlich die Randverteilungen geeignet transformiert. Diese Transformation kann auch wieder rückgängig gemacht werden. Analoges gilt für die Normierung einer GPD auf Ränder, die in einer linksseitigen Umgebung von 0 mit der Gleichverteilung auf (−1, 0) übereinstimmen. Daher und aufgrund der Aussagen von Satz 4.1.1 und Korollar 4.1.2 werden wir uns bei der Erzeugung von GPD-Zufallsvektoren im nächsten Abschnitt ausschließlich mit solchen GPDs befassen, die von einer Extremwertverteilung mit negativ exponentialen Randverteilungen abgeleitet werden. 4.2 Erzeugung von GPD-Zufallsvektoren Der vorangegangene Abschnitt beschäftigte sich mit der Charakterisierung des Anziehungsbereichs einer Extremwertverteilung. Eine notwendige Bedingung für F ∈ D(G) ist demnach, dass sich die Copula CF von F in einer linksseitigen Umgebung von 1 durch eine GPD-Copula approximieren lässt (Satz 4.1.1). Andererseits ist diese Eigenschaft zusammen mit Fi ∈ D(Gi ), i ≤ m, hinreichend für F ∈ D(G), wobei Fi bzw. Gi die i-te Randverteilung von F bzw. G ist. Vor diesem Hintergrund setzen wir uns nun 4.2 Erzeugung von GPD-Zufallsvektoren 42 mit der Erzeugung von Zufallsvektoren auseinander, die einer GPD folgen. Inbesondere sind hier GPD-Copulas von Interesse. Die de Haan-Resnick-Pickands Darstellung einer multivariaten Extremwertverteilung macht deutlich, dass eine Funktion G auf (−∞, 0]m genau dann die Verteilungsfunktion einer EVD mit standard negativ exponentialen Rändern Gi (x) = exp(x), x ≤ 0, i ≤ m, ist, wenn G dargestellt werden kann als Z G(x) = exp min(xi ti ) µ(dt) , Sm i≤m x ≤ 0, (4.5) P wobei µ ein Maß auf Sm := t ≥ 0 i≤m ti = 1 ist – das sog. angular measure – und R die charakteristische Eigenschaft Sm ti µ(dt) = 1, i ≤ m, hat (vgl. etwa Abschnitt 4.4 in Falk et al. (2004)). Diese Bedingung an µ hat µ(Sm ) = m zur Folge. Wegen Gleichung (4.5) erhält man für eine multivariate GPD W , deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen, dass W (x) = 1 + X !Z xj max(x̃i ti ) µ(dt) Sm i≤m j≤m ! =: 1 + X xj D(x̃1 , . . . , x̃m−1 ), j≤m x0 ≤ x ≤ 0, (4.6) P für ein x0 < 0. Dabei ist µ definiert wie zuvor, x̃i = xi u ∈ j≤m xj und D : P m−1 [0, 1] j≤m−1 uj ≤ 1 → [1/m, 1] ist eine Pickands dependence function, siehe Falk et al. (2004, Abschnitt 4.3). Das folgende Ergebnis charakterisiert derartige verallgemeinerte Pareto-Verteilungen. Gleichzeitig stellt es einen einfachen Ansatz zur Verfügung, um einen Zufallsvektor zu erzeugen, der einer solchen GPD folgt, indem es das zweidimensionale Verfahren aus Buishand et al. (2008) auf beliebige Dimensionen erweitert.1 Weitere Möglichkeiten, eine multivariate GPD zu simulieren, sind in Michel (2007) zu finden. Satz 4.2.1. Es gelten die folgenden Aussagen: (i) Sei W eine m-variate GPD, deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen. Dann gibt es einen Zufallsvektor Z = (Z1 , . . . , Zm ) mit Zi ∈ [0, m] und E(Zi ) = 1, i ≤ m, 1 Um einen Zufallsvektor zu erzeugen, der nach einer beliebigen GPD verteilt ist, sind die Ausführungen am Ende der Abschnitte 3.3 bzw. 4.1 zu beachten. 4.2 Erzeugung von GPD-Zufallsvektoren 43 sowie einen Vektor (−1/m, . . . , −1/m) ≤ x0 < 0, so dass 1 1 W (x) = P −U ,..., ≤x , Z1 Zm x0 ≤ x ≤ 0, wobei die Zufallsvariable U auf (0, 1) gleichverteilt und unabhängig von Z ist. (ii) Sei U eine auf (0, 1) gleichverteilte Zufallsvariable und Z = (Z1 , . . . , Zm ) ein Zufallsvektor mit 0 ≤ Zi ≤ ci f. s. und E(Zi ) = 1, i ≤ m, für geeignete c1 , . . . , cm ≥ 1. Falls U, Z unabhängig sind, dann folgt −U (1/Z1 , . . . , 1/Zm ) einer GPD, deren Randverteilungen in einer linksseitigen Umgebung von 0 ∈ Rm mit der Gleichverteilung auf (−1, 0) übereinstimmen. Dieses Resultat lässt sich direkt auf eine GPD W mit Randverteilungen Wi (x) = 1 + ai x in einer linksseitigen Umgebung von 0 übertragen, wobei ai > 0, i ≤ m. Dazu ist lediglich Zi durch ai Zi zu ersetzen. Beweis. Zuerst wird Teil (i) gezeigt. Wegen Gleichung (4.6) erhalten wir für alle x in einer geeigneten linksseitigen Umgebung von 0 ∈ Rm W (x) = 1 + X j≤m !Z xj max(x̃i ti ) µ(dt) Sm i≤m R mit einem Maß µ auf Sm , so dass µ(Sm ) = m und Sm ti µ(dt) = 1, i ≤ m. Durch µ̃(·) := µ(·)/m wird ein Wahrscheinlichkeitsmaß auf Sm definiert. Sei T = (T1 , . . . , Tm ) ein Zufallsvektor mit Werten in Sm und Verteilung µ̃. Für Z := m T gilt R dann Z ∈ [0, m]m und E(Zi ) = Sm ti µ(dt) = 1, i ≤ m. Außerdem folgt aus Lemma 2.1.11 für alle x ≤ 0 ∈ Rm mit xj ≥ −1/m, j ≤ m, 1 1 ,..., ≤x P −U Z1 Zm 1 1 ,..., ≤ mx = P −U T1 Tm Z 1 1 = ,..., ≤ mx T = t (P ∗ T )(dt) P −U t1 tm Sm Z 1 1 = P −U ,..., ≤ mx µ̃(dt) t1 tm Sm Z 1 1 1 = P −U ,..., ≤ mx µ(dt) m Sm t1 tm Z 1 = P U ≥ m max(−xi ti ) µ(dt) i≤m m Sm 4.2 Erzeugung von GPD-Zufallsvektoren 1 = m Z 1 = m Z ! Sm =1+ 44 P U ≥ −m X xj j≤m ! max(x̃i ti ) µ(dt) i≤m ! 1+m Sm X X xj j≤m max(x̃i ti ) µ(dt) i≤m !Z xj max(x̃i ti ) µ(dt). Sm i≤m j≤m Damit ist Teil (i) vollständig. Andererseits gilt für x ≤ 0 und große s > 0 s 1 1 1 ,..., ≤ x P −U Z1 Zm s Z s 1 = P U ≥ max(−xi zi ) (P ∗ Z)(dz) s i≤m [0,c] s Z 1 max(−xi zi ) (P ∗ Z)(dz) = 1− s [0,c] i≤m Z →s→∞ exp − max(−xi zi ) (P ∗ Z)(dz) [0,c] i≤m =: G(x), wobei c = (c1 , . . . , cm ). Wegen Lemma 7.2.1 in Reiss (1989) ist G eine Verteilungsfunktion, die offensichtlich max-stabil ist: Gs (s−1 x) = G(x), s > 0. Daher ist G eine multivariate Extremwertverteilung mit standard negativ exponentialen Rändern Gi (x) = exp(xE(Zi )) = exp(x), x ≤ 0, i ≤ m, und 1 + log(G(x)) eine GP Funktion, die Z max(−xi zi ) (P ∗ Z)(dz) 1 + log(G(x)) = 1 − [0,c] i≤m 1 1 = P −U ,..., ≤x , x0 ≤ x ≤ 0, Z1 Zm für ein geeignet gewähltes x0 < 0 erfüllt. Betrachtet man einen Zufallsvektor S = (S1 , . . . , Sm ), der nach einer Copula C verteilt ist (vgl. Abschnitt 2.3 und Nelsen (2006)), dann erfüllt Z := 2S die Voraussetzungen von Satz 4.2.1 (ii). Auf diese Weise wird die Menge der Copulas in die Menge der verallgemeinerten Pareto-Verteilungen abgebildet, was ein weites Spektrum an Wahlmöglichkeiten für den Zufallsvektor Z eröffnet. Um die verbleibenden Überlegungen in diesem Kapitel möglichst einfach zu gestalten, wird eine gegebene Copula C zeitweise auf das Intervall [−1, 0]m verschoben: Wir 4.3 Multivariates Piecing-Together 45 e durch definieren die Verteilungsfunktion C x ∈ Rm , e C(x) := C(x + 1), (4.7) und nennen sie eine Copula auf [−1, 0]m , da sie ihre charakteristischen Eigenschaften von e stimmen folglich der zugrunde liegenden Copula C erhält. Die Randverteilungen von C mit der Gleichverteilung auf (−1, 0) überein. In diesem Zusammenhang nennen wir C e abzugrenzen. gelegentlich auch eine Copula auf [0, 1]m , um sie deutlich von C eW eine GPD-Copula auf Ist C = CW insbesondere eine GPD-Copula, dann heißt C eW eine multivariate GPD ist, folgt aus Gleichung (4.6) [−1, 0]m . Da mit CW auch C eW (x) = 1 + C X !Z xj j≤m max ti P Sm i≤m ! xi j≤m xj µ(dt), x0 ≤ x ≤ 0, mit einem x0 < 0. Nun verwenden wir Satz 4.2.1, um einen Zufallsvektor V ∈ [−1, 0]m zu konstruieren, der einer GPD-Copula auf [−1, 0]m folgt. Dazu betrachten wir eine auf (0, 1) gleichverteilte Zufallsvariable U und einen davon unabhängigen Zufallsvektor S = (S1 , . . . , Sm ), der nach einer beliebigen Copula auf [0, 1]m verteilt ist. Man erhält für i ≤ m 1 + x, falls − 12 ≤ x ≤ 0, 1 ≤x = P −U 1 , 2Si falls x < − 12 , 4|x| =: H(x), x ≤ 0. Wegen Satz 4.2.1 und Abschnitt 3.3 folgt U U V := (V1 , . . . , Vm ) := H − − 1, . . . , H − −1 2S1 2Sm mit Vi = − U , 2Si falls U ≤ Si , Si − 1, falls U > S , i 2U (4.8) einer GPD-copula auf [−1, 0]m . 4.3 Multivariates Piecing-Together Nachdem sich die vorangegangenen beiden Abschnitte mit den letzten Vorbereitungen beschäftigt haben, um den univariaten Piecing-Together Ansatz aus Gleichung (2.15) 4.3 Multivariates Piecing-Together 46 auf beliebige Dimensionen zu erweitern, wird jetzt auf das Haupt-Resultat dieser Arbeit eingegangen. Dieses wird im Gegensatz zu Abschnitt 2.2 unter Verwendung von Zufallsvektoren formuliert. Der multivariate Piecing-Together Ansatz besteht aus zwei Schritten: (i) Zunächst betrachten wir eine gegebene m-dimensionale Copula C und wählen einen Schwellenwert u0 ∈ [0, 1)m . In dem Bereich, in dem alle Komponenten groß sind – das entspricht dem mehrdimensionalen Intervall (u0 , 1] – wird C durch eine GPDCopula ersetzt. Das geschieht so, dass das Ergebnis selbst wieder eine GPD-Copula ist, d. h. es ergibt sich eine stetige Verteilungsfunktion C ∗ , die in einer linksseitigen Umgebung von 1 mit einer GPD übereinstimmt und die Randverteilungen Ci∗ (x) = x, x ∈ (0, 1), i ≤ m, hat. (ii) Anschließend werden die Ränder von C ∗ mit vorgegebenen Verteilungsfunktionen Fi∗ , i ≤ m, transformiert. Es entsteht dadurch eine Verteilungsfunktion F ∗ mit Randverteilungen Fi∗ , i ≤ m, deren Copula im zentralen Bereich mit der ursprünglichen Copula C und jenseits von u0 mit einer GPD übereinstimmt. Sind F1∗ , . . . , Fm∗ univariate GPDs oder Verteilungsfunktionen, die aus einem univariaten Piecing-Together Ansatz gemäß (2.15) hervorgegangen sind, dann ist F ∗ laut Satz 3.3.3 sogar eine multivariate GPD. Wir beginnen mit dem ersten Schritt. Dazu seien eine Copula C, eine GPD-Copula CW (1) (m) e bzw. C eW und ein multivariater Schwellenwert u0 = u0 , . . . , u0 ∈ [0, 1)m gegeben. C bezeichnen die gemäß (4.7) definierten Transformationen von C und CW auf das Intervall (1) (m) [−1, 0]m . Dementsprechend ist y0 := y0 , . . . , y0 := u0 − 1 der Schwellenwert im m Intervall [−1, 0] , der u0 entspricht. e der einer GPD-Copula C e∗ auf Im Folgenden konstruieren wir einen Zufallsvektor Q, e übereinstimmen, d. h. C e∗ (x) = C(x) e [−1, 0]m folgt. Diese soll im zentralen Bereich mit C e + 1 einer GPD-Copula C ∗ für alle x ≤ y0 . Dann erhält man aber sofort, dass Q := Q auf [0, 1]m folgt, die C ∗ (x) = C(x) für x ≤ u0 erfüllt. eW , d. h. V folgt einer Sei V = (V1 , . . . , Vm ) ein Zufallsvektor mit Verteilungsfunktion C GPD-Copula auf [−1, 0]m . Dann stimmen die Randverteilungen P (Vi ≤ x) = 1 + x, −1 ≤ x ≤ 0, i ≤ m, mit der Gleichverteilung auf (−1, 0) überein und es existiert ein (1) (m) x 0 = x0 , . . . , x 0 < 0, so dass für alle x = (x1 , . . . , xm ) ∈ [x0 , 0] P (V ≤ x) = 1 + X i≤m ! x1 xi D P xm−1 ,..., P i≤m xi i≤m xi gilt, wobei D eine Pickands dependence function ist. (4.9) 4.3 Multivariates Piecing-Together 47 e und sei unDer Zufallsvektor Y = (Y1 , . . . , Ym ) habe die Verteilungsfunktion C abhängig von V . Dann wird durch o o − y (i) V 1n ei := Yi 1n Q (i) , (i) i 0 Y ≤y Y >y i i 0 0 i ≤ m. (4.10) e = Q e1 , . . . , Q em definiert, dessen Verteilungsfunktion eine GPDein Zufallsvektor Q e übereinstimmt. Das ist der Inhalt des HauptCopula ist, die im zentralen Bereich mit C Ergebnisses in dieser Arbeit: ei aus (4.10) auf (−1, 0) gleichSatz 4.3.1. Wenn P (Y > y0 ) > 0 gilt, dann ist jedes Q e= Q e1 , . . . , Q em folgt einer GPD-Copula auf [−1, 0]m , die verteilt. Der Zufallsvektor Q (i) e auf [−1, 0]m übereinstimmt, d. h. auf ×i≤m −1, y0 mit der Copula C e ≤ x = C(x), e P Q x ≤ y0 . Außerdem erhält man mit x0 aus (4.9) für eine beliebige nicht-leere Teilmenge K von {1, . . . , m} ei ≥ xi , i ∈ K = P Vi ≥ bi,K xi , i ∈ K , P Q h (i) (i) i xi ∈ max y0 , x0 , 0 , i ≤ m, wobei (j) bi,K := P Yj > y0 , j ∈ K (i) −y0 (j) P Yj > y0 , j ∈ K = ∈ (0, 1], (i) P Yi > y0 i ∈ K. ei auf (−1, 0) gleichverteilt ist. Es gilt für −1 ≤ Beweis. Zuerst wird gezeigt, dass jedes Q (i) x ≤ y0 ei ≤ x, Yi ≤ y0(i) + P Q ei ≤ x, Yi > y0(i) ei ≤ x = P Q P Q = P (Yi ≤ x) =1+x (i) und für y0 < x ≤ 0 ei ≤ x = P Yi ≤ y0(i) + P −y0(i) Vi ≤ x P Yi > y0(i) P Q ! x (i) (i) = 1 + y0 + P Vi ≤ − (i) −y0 y !0 x (i) (i) = 1 + y0 + 1 − (i) −y0 y0 4.3 Multivariates Piecing-Together 48 = 1 + x. e nach einer Copula auf [−1, 0]m verteilt. Außerdem ist für Also ist der Zufallsvektor Q x ≤ y0 e≤x =P Q e ≤ x, Y ≤ y0 + P Q e ≤ x, Y y0 P Q = P (Y ≤ x) e = C(x). Da V nach einer GPD-Copula auf [−1, 0]m verteilt ist, erhält man nach Proposition 2.1 (i) (i) in Falk und Michel (2009) mit xi ∈ max y0 , x0 , 0 , i ≤ m, t ∈ [0, 1] und einer beliebigen nicht-leeren Teilmenge K ⊂ {1, . . . , m} ej > txj , j ∈ K = P Q ej > txj , Yj > y0(j) , j ∈ K P Q (j) (j) = P −y0 Vj > txj , j ∈ K P Yj > y0 , j ∈ K (j) (j) = tP −y0 Vj > xj , j ∈ K P Yj > y0 , j ∈ K ej > xj , j ∈ K . = tP Q Diese Gleichheit zeigt wiederum nach Proposition 2.1 in Falk und Michel (2009), dass e einer GPD folgt. Insgesamt ist Q e also nach einer GPD-Copula auf [−1, 0]m verteilt. Q Schließlich erhalten wir mit xi und K von oben e i ≥ xi , i ∈ K P Q ei ≥ xi , i ∈ K, Yj ≤ y0(j) für ein j ∈ K ei ≥ xi , Yi > y0(i) , i ∈ K + P Q =P Q (i) (i) = P −y0 Vi ≥ xi , i ∈ K P Yi > y0 , i ∈ K ! xi (i) = P Vi ≥ − (i) , i ∈ K P Yi > y0 , i ∈ K y0 = P Vi ≥ bi,K xi , i ∈ K und damit ist der Beweis vollständig. e in Gleichung (4.10) so zu verstehen: AusgeAnschaulich ist die Konstruktion von Q hend vom Zufallsvektor Y , der einer Copula auf [−1, 0]m folgt, wird jede einzelne Kom(i) ponente Yi , i ≤ m, geprüft, ob sie ihren spezifischen Schwellenwert y0 überschreitet. Im (i) Fall Yi ≤ y0 bleibt diese Komponente unverändert. Andernfalls wird sie durch die i-te geeignet normierte Komponente des Zufallsvektors V ersetzt, der einer GPD-Copula auf [−1, 0]m folgt. Diese Normierung gewährleistet, dass der so erhaltene Wert mit Wahr- 4.3 Multivariates Piecing-Together 49 (i) scheinlichkeit 1 im Intervall y0 , 0 liegt und damit tatsächlich eine Überschreitung von (i) y0 darstellt. e die Verteilung unterhalb“ Satz 4.3.1 stellt sicher, dass beim Übergang von Y nach Q ” e als Ganzes einer GPD-Copula des Schwellenwertes y0 erhalten bleibt und außerdem Q auf [−1, 0]m folgt. Das impliziert, dass e+1 Q := (Q1 , . . . , Qm ) := Q (4.11) einer GPD-Copula C ∗ auf [0, 1]m folgt. Nach dem Konstruktionsprinzip erhält man sofort C ∗ (u) = C(u), 0 ≤ u ≤ u0 , (4.12) mit C und u0 wie zuvor beschrieben. Damit ist der erste Schritt des multivariaten Piecing-Together Ansatzes abgeschlossen. Der zweite Schritt besteht nun aus der Quantiltransformation der Komponenten von Q mit den vorgegebenen Verteilungsfunktionen F1∗ , . . . , Fm∗ . Dadurch entsteht ein Zufallsvektor ∗ X ∗ := (X1∗ , . . . , Xm ) := F1∗−1 (Q1 ), . . . , Fm∗−1 (Qm ) (4.13) mit Copula C ∗ und Randverteilungen F1∗ , . . . , Fm∗ . Stimmen die Fi∗ , i ≤ m, in der Nähe des jeweiligen rechten Endpunktes mit univariaten GPDs überein, dann wird durch (4.13) ein Zufallsvektor definiert, der nach einer multivariaten GPD verteilt ist (siehe Satz 3.3.3). Kombiniert man den univariaten und den multivariaten Piecing-Together Ansatz miteinander, dann erhält man insbesondere eine multivariate Erweiterung von (2.15): Sei X ein Zufallsvektor mit Verteilungsfunktion F , die nach dem Theorem von Sklar (Satz 2.3.3) in eine Copula CF und die Randverteilungen F1 , . . . , Fm zerfällt. Liegt F im Anziehungsbereich einer multivariaten Extremwertverteilung G mit Copula CG und Randverteilungen G1 , . . . , Gm , dann gelten (4.1) und Fi ∈ D(Gi ), i ≤ m, vgl. Ab(1) (m) (i) schnitt 3.2. Nun wählen wir univariate Schwellenwerte z0 , . . . , z0 , wobei 0 < Fi z0 < 1, und bestimmen Fi∗ , i ≤ m, durch den univariaten Piecing-Together Ansatz in (2.15) Fi∗ (x) = Fi (x), (i) Fi z (i) + 1 − Fi z (i) 0 0 x ≤ z0 , (i) (4.14) Wξi ;νi ,βi (x), x > z0 , mit geeignet gewählten ξi , νi ∈ R, βi > 0, i ≤ m. Aus der Gültigkeit von (4.1) folgt gemäß Abschnitt 4.1 CF (u) = CW (u) + o(ku − 1k) 4.3 Multivariates Piecing-Together 50 gleichmäßig für u ∈ [0, 1]m mit einer GPD-Copula CW und einer beliebigen Norm k·k auf Rm , wobei CW (u) = 1 − lG (u − 1), x0 ≤ u ≤ 1, mit einem x0 < 1 gilt, vgl. Gleichung (4.3). Dabei bezeichnet lG die stable tail de(1) (m) pendence function von G. Nun wählen wir einen Schwellenwert u0 = u0 , . . . , u0 ∈ m [0, 1) und verknüpfen CF und CW unter Verwendung des oben beschriebenen multivariaten Piecing-Together Ansatzes. Gleichung (4.13) liefert dann einen Zufallsvektor X ∗ mit Verteilungsfunktion F ∗ , die gemäß (4.12) und (4.14) F ∗ (x) = CF∗ F1∗ (x1 ), . . . , Fm∗ (xm ) = CF F1 (x1 ), . . . , Fm (xm ) = F (x) (i) (i) für alle x = (x1 , . . . , xm ) ∈ Rm mit xi < min z0 , Fi∗−1 u0 , i ≤ m, erfüllt. Da ∗ ∗ CF insbesondere eine GPD-Copula ist und die Fi , i ≤ m, jeweils gemäß (2.16) in einer linksseitigen Umgebung ihrer rechten Endpunkte mit univariaten GPDs übereinstimmen, ist F ∗ nach Satz 3.3.3 eine multivariate GPD. Es stellt sich allerdings folgendes Problem: In dem Schritt, der CF mit CW verknüpft, muss ein Zufallsvektor V erzeugt werden, der der Verteilungsfunktion eW (x) = CW (x + 1) = 1 − lG (x), C x ≤ 0, folgt. Satz 4.2.1 stellt zwar die Existenz eines solchen V sicher, indem es mit Hilfe eines geeigneten Zufallsvektors Z und einer davon unabhängigen auf (0, 1) gleichverteilten Zufallsvariable U konstruiert wird. Die Frage, welcher Verteilung dieses Z folgen muss, damit V tatsächlich nach CW verteilt ist, bleibt jedoch offen. Da die Lösung dieses Problems den Rahmen dieser Arbeit sprengen würde, wird im folgenden Kapitel nicht die Copula CW , sondern die Verteilung von Z als gegeben vorausgesetzt. 5.1 Das Modell 51 5 Simulationen Im vorangegangen Kapitel wurde ein multivariater Piecing-Together Ansatz vorgestellt und der Zusammenhang zum univariaten Fall aufgezeigt. Jetzt soll dieses Verfahren mit Hilfe von Computer-Simulationen durchgeführt werden. Als Benchmark dienen entsprechende Simulationen ohne Anwendung des multivariaten Piecing-Together Ansatzes. Dazu habe ich ein ausführliches Programm in der Programmiersprache R (Version 2.8.1) geschrieben, das auf dem beiliegenden Datenträger enthalten ist.1 Auch dieses Kapitel basiert in Teilen auf der Arbeit Aulbach et al. (2009). Im ersten Abschnitt wird das Modell vorgestellt, das den Simulationen zugrunde liegt. Anschließend wird kurz auf das R Programm und die verwendeten Hilfsmittel eingegangen. Der letzte Abschnitt erläutert die Ergebnisse anhand einer ausgewählten Simulation und behandelt abschließend einige Sonderfälle. 5.1 Das Modell (i) Betrachtet werden die m Folgen von Zufallsvariablen ζn vektor (N1 , . . . , Nm ) mit folgenden Eigenschaften: (i) n∈N , i ≤ m, und ein Zufalls- (i) (i) Die Folgenglieder ζ1 , ζ2 , . . . sind für jedes i ≤ m unabhängig und identisch verteilt mit Verteilungsfunktion Fi . (i) (ii) Die i-te Folge ζn n∈N ist unabhängig von Ni , i ≤ m. (iii) Ni ist Poisson-verteilt zum Parameter λi > 0, i ≤ m. Unter diesen Voraussetzungen definieren wir den Zufallsvektor X = (X1 , . . . , Xm ) durch Xi := Ni X k=1 1 (i) ζk , i ≤ m, R kann kostenlos unter http://www.r-project.org/ heruntergeladen werden. (5.1) 5.1 Das Modell 52 P Pm und untersuchen die Verteilung von kXk1 = m i=1 |Xi | = i=1 Xi in der Nähe ihres rechten Endpunkts. Dazu betrachten wir für α ∈ (0, 1) das α-Quantil qα := H −1 (α) = inf x ∈ R H(x) ≥ α , (5.2) wobei H die Verteilungsfunktion von kXk1 bezeichnet, und den bedingten Erwartungswert von kXk1 gegeben, dass kXk1 mindestens den Wert qα annimmt, eα := E kXk1 kXk1 ≥ qα . (5.3) Im Sinne von Satz 2.1.6 ist eα die beste Vorhersage von kXk1 , wenn die Information kXk1 ≥ qα gegeben ist. Beispiel 5.1.1. Di Clemente und Romano (2004) verwenden diesen Ansatz, um den Gesamtschaden zu modellieren, der im Laufe eines Jahres einer Versicherung gemeldet wird. (i) In diesem Zusammenhang entspricht ζk der k-ten Schadensmeldung im Geschäftsfeld i der Versicherung im betrachteten Jahr und Ni ist die Gesamtzahl von Schadensmeldungen in diesem Geschäftsfeld. Xi ist dementsprechend der Gesamtschaden in Geschäftsfeld i und kXk1 der gesuchte Gesamtschaden der Versicherung im betrachteten Jahr. (i) Es wird angenommen, dass die einzelnen Schadensmeldungen ζk im zentralen Bereich (i) – d. h. unterhalb eines Schwellenwertes z0 – einer Lognormalverteilung folgen und im übrigen Bereich einer univariaten GPD, d. h. (i) P ζk (i) log(x)−µi , 0 < x ≤ z0 , Φ σi ≤x = (i) (i) (i) (i) Φ log(z0 )−µi + 1 − Φ log(z0 )−µi W ξi ;0,βi x − z0 , x > z0 . σi σi Dabei bezeichnet Φ die Verteilungsfunktion der Standardnormalverteilung, µi ∈ R und σi > 0 sind Lokations- und Skalenparameter der Lognormalverteilung und die GPD Wξi ;0,βi mit ξi , βi > 0 ist gegeben wie in (2.14). Außerdem modellieren Di Clemente und Romano (2004) die Abhängigkeitsstruktur zwischen den Komponenten von X – d. h. zwischen den einzelnen Geschäftsfeldern – durch eine t-Copula mit ν Freiheitsgraden (siehe unten). Unter den Annahmen aus Beispiel 5.1.1 erzeugen wir n = 104 Realisationen von X und schätzen daraus die Werte qα und eα (siehe Abschnitt 5.2). Allerdings wird das Modell dahingehend erweitert, dass der multivariate Piecing-Together Ansatz aus Abschnitt 4.3 auf die oben genannte t-Copula angewendet wird. Die Simulationsergebnisse werden in Abschnitt 5.3 diskutiert. 5.1 Das Modell 53 An dieser Stelle soll kurz auf die Definition einer t-Copula eingegangen werden. Seien R ∈ Rm×m eine Korrelationsmatrix und η ein Zufallsvektor in Rm , der einer multivariaten Normalverteilung N (0, R) folgt. Ist S eine von η unabhängige Chi-Quadrat-verteilte Zufallsvariable mit ν Freiheitsgraden (in Zeichen χ2ν ), dann folgt √ ν T := √ η S (5.4) einer m-dimensionalen standardisierten t-Verteilung mit ν Freiheitsgraden. Da jede Komponente Ti von T = (T1 , . . . , Tm ) einer univariaten t-Verteilung mit ν Freiheitsgraden (in Zeichen tν ) folgt, ist der Zufallsvektor tν (T1 ), . . . , tν (Tm ) der transformierten Komponenten nach einer Copula verteilt, die man eine t-Copula mit ν Freiheitsgraden nennt. Aufgetretene Probleme In Di Clemente und Romano (2004) werden die Modell-Parameter aus vorhandenem Datenmaterial geschätzt. Bei genauerer Betrachtung der Schätzungen für µi und σi fällt jedoch auf, dass sich daraus sehr hohe Wahrscheinlichkeiten für das Überschreiten der (i) Schwellenwerte z0 ergeben: (i) (i) P ζk > z0 ! (i) log z0 − µi , =1−Φ σi k ∈ N, i ≤ m. Da das nicht vereinbar mit dem übrigen Teil ihres Artikels ist, wird für die Simulationen in diesem Kapitel angenommen, dass die Werte aus Di Clemente und Romano (2004) nicht Lokations- und Skalenparameter, sondern Erwartungswerte und Standardabweichungen der Lognormalverteilungen angeben. Aus diesen Größen wurden dann die Lokations- und Skalenparameter µi bzw. σi berechnet. i 1 2 λi 15.4 18.8 µi 8.039525 7.944303 σi 1.414820 1.421709 (i) z0 41 823 39 274 βi 20 975.44 21 141.16 ξi 0.33799 0.28845 Tabelle 5.1: Geschätzte Parameter des Modells aus Di Clemente und Romano (2004), wobei die Werte in den Spalten µi und σi modifiziert wurden. (i) Ein weiteres Problem liegt im Verlauf der Verteilungsfunktionen Fi (x) = P ζk ≤ x , x > 0, (vgl. Beispiel 5.1.1): Eine grafische Analyse mit Mathematica 6 erweckte den Eindruck, als würde eine Lognormalverteilung große Werte mit einer höheren Wahr- 5.1 Das Modell 54 scheinlichkeit versehen als Fi , d. h. log(x) − µi Φ − Fi (x) ≤ 0 σi (5.5) für alle hinreichend großen x ∈ R. Das widerspricht nicht nur der Anschauung2 , sondern auch folgendem Resultat: Satz 5.1.2. Seien µi ∈ R und σi , ξi , βi > 0 gegeben und Φ, Fi wie zuvor. Dann gilt lim x→∞ 1 − Fi (x) 1−Φ log(x)−µi σi = ∞. (5.6) (i) Beweis. Für x > z0 gilt ! !! (i) (i) log z0 − µi log z0 − µi (i) 1 − Fi (x) = 1 − Φ − 1−Φ Wξi ;0,βi x − z0 σi σi !! ! (i) (i) −1/ξi log z0 − µi x − z0 = 1−Φ 1 + ξi σi βi !! (i) 1 x − z0 =: pi exp − log 1 + ξi . ξi βi Außerdem erhält man aus Lemma 1.19.2 in Gänssler und Stute (1977) log(x) − µi 1−Φ σi d. h. es gilt für x ≥ exp log(x) − µi σi exp − ≤√ 2σi2 2π log(x) − µi 2σi2 ξi + µi 2 ! , x > exp(µi ), ! log(x) − µi · 2σi2 log(x) − µi σi exp − 1−Φ ≤√ σi 2σi2 · ξi 2π log(x) − µi σi exp µi ξi 1 exp − log(x) . =√ ξi 2π log(x) − µi (i) Insgesamt folgt für x > max z0 , exp 2σi2 ξi + µi " ! #! √ (i) pi 2π 1 x − z0 1 log(x) − µi exp − log 1 + ξi · ≥ log(x)−µi ξi βi x σi exp µi ξi 1−Φ σi 1 − Fi (x) 2 Üblicherweise wird eine GPD an den rechten Rand einer Verteilung angepasst, um sehr großen Werten eine höhere Wahrscheinlichkeit zu geben. 5.1 Das Modell 55 !−1/ξi √ βi − ξi z0(i) pi 2π ξi log(x) − µi = + βi x βi σi exp µi ξi → ∞ für x → ∞, da log(x) für x → ∞ unbeschränkt wächst, während 0 konvergiert. (i) βi −ξi z0 βi x + βξii −1/ξi gegen ξi −1/ξi βi > Damit ist die Vermutung in (5.5) widerlegt. Tatsächlich lässt sich Gleichung (5.6) für die Parameter in Tabelle 5.1 auch in oben genannter grafischer Analyse beobachten – allerdings erst für sehr große Werte von x.3 Festlegung der freien Parameter Wie schon an Tabelle 5.1 erkennbar ist, betrachten wir den Fall m = 2. Die Abhängigkeitsstruktur zwischen den Komponenten des Zufallsvektors X aus (5.1) wird durch eine t-Copula Ct mit ν = 12 Freiheitsgraden modelliert, der die Korrelationsmatrix R := ! 1 0.73 0.73 1 (5.7) zugrunde liegt, vgl. (5.4) und Di Clemente und Romano (2004). (1) (2) Es bleiben noch der Schwellenwert u0 = u0 , u0 , ab dem gemäß Abschnitt 4.3 eine GPD-Copula CW an Ct angepasst werden soll, und CW selbst festzulegen. Wir eW mit wählen u0 := 1/2, 1/2 und bestimmen einen Zufallsvektor V = (V1 , V2 ) aus C eW (x) = CW (x + 1), x ∈ R2 , durch das Verfahren in (4.8), d. h. C Vi = − U , 2Si falls U ≤ Si , Si − 1, falls U > S , i 2U (5.8) wobei S = (S1 , S2 ) der bivariaten Normal-Copula mit Kovarianzmatrix R aus (5.7) folgt und U eine von S unabhängige auf (0, 1) gleichverteilte Zufallsvariable ist. Nach Satz 4.2.1 ist damit insbesondere CW festgelegt. 3 Di Clemente und Romano (2004) betrachten nicht zwei, sondern drei Dimensionen. Jedoch setzt für eine dieser drei Komponenten (Geschäftsfeld wind storm“) das asymptotische Verhalten in (5.6) ” erst so weit im rechten Rand der beiden Verteilungen ein, dass es zumindest grafisch auch bei hoher Rechengenauigkeit nicht mehr beobachtbar ist. Deswegen wurde die entsprechende Komponente für die Simulationen nicht berücksichtigt. 5.2 Das Programm im Überblick 56 5.2 Das Programm im Überblick Dieser Abschnitt beschäftigt sich kurz mit dem selbst entwickelten R Programm, das für die Simulationen im nächsten Abschnitt verwendet wurde. Es entstand unter Verwendung der Entwicklungsumgebung Eclipse Classic 3.4.24 mit dem Plugin StatET 0.7.25 und benötigt die R Pakete rJava6 (0.6-2), stats (2.8.1), mvtnorm (0.9-4), mnormt (1.3-2), scatterplot3d (0.3-27), corpcor (1.5.2), sn (0.4-11), adapt (1.0-4), pspline (1.0-13) und copula7 (0.8-3). In Klammern steht jeweils die verwendete Version. Da die Funktionen, die das Programm zur Verfügung stellt, im Quellcode ausführlich kommentiert sind, soll hier nur ein kurzer Überblick gegeben werden: • PiecingTogether ist die zentrale Funktion im Programm und erlaubt die Erzeugung von Zufallsvektoren X entsprechend des Modells aus Abschnitt 5.1, wobei die Verwendung des multivariaten Piecing-Together Ansatzes vom Benutzer auch unterdrückt werden kann. Diese Funktion prüft die Eingabewerte auf ihre Gültigkeit und legt in einem vom Benutzer angegebenen Output-Verzeichnis selbstständig eine Ordnerstruktur an, in die die Simulationsergebnisse gespeichert werden.8 Jede Simulation erhält eine eindeutige ID, so dass auch mehrere Simulationen mit den gleichen Parameterwerten durchgeführt werden können. Zum standardmäßig erzeugten Output gehören eine Log-Datei, die den ProgrammAblauf dokumentiert, sowie Text-Dateien, die die Zufallswerte aus den einzelnen Programm-Abschnitten enthalten, und (im Fall m = 2) Scatterplots der Daten aus diesen Text-Dateien im eps-Format. Falls gewünscht, werden auch Dateien erzeugt, die Schätzwerte q̂α und êα für qα und eα zu verschiedenen Werten von α ∈ (0, 1) enthalten, vgl. (5.9) und (5.10). • combineQuanME ist eine Funktion, die die Schätzwerte q̂α und êα aus mehreren bereits vorhandenen Simulationen kombiniert. Dazu müssen die Parameterwerte der einzelnen Simulationen übereinstimmen. Eclipse ist verfügbar unter http://www.eclipse.org/ und benötigt zusätzlich eine Java Runtime Environment (JRE), die unter http://java.sun.com/javase/downloads/index.jsp verfügbar ist. Siehe dazu auch die Hinweise unter http://www.eclipse.org/downloads/moreinfo/jre.php 5 verfügbar unter http://www.walware.de/goto/statet 6 Dieses Paket wird nur für die Verbindung zwischen R und Eclipse benötigt. Wird Eclipse nicht verwendet, ist dieses Paket überflüssig. 7 Eine Beschreibung dieses Pakets ist in Yan (2007) zu finden. 8 Leider erlaubt ein 32-Bit Microsoftr Windowsr Betriebssystem nur eine Pfad-Länge von maximal 255 Zeichen. Trotz Verwendung möglichst kurzer Ordner-Namen könnte dies bei Dimensionen m ≥ 3 zu Problemen führen. Ich empfehle daher, den Output-Ordner direkt im Stammverzeichnis der Partition zu wählen (z. B. D:\Output). 4 5.2 Das Programm im Überblick 57 Zu den Eingabewerten dieser Funktion gehören u. a. der vollständige Pfad zu den Simulationsergebnissen sowie eine Start- und eine Endmarke. Für alle Simulationen, deren ID größer oder gleich der Startmarke und kleiner oder gleich der Endmarke ist, werden die Werte q̂α bzw. êα eingelesen und das arithmetische Mittel gebildet. Das geschieht für jeden Wert von α separat. Es obliegt der Sorgfalt des Benutzers, darauf zu achten, dass alle betrachteten Simulationen den gleichen Umfang (d. h. die gleiche Anzahl von erzeugten Zufallsvektoren) und den gleichen Copula-Schwellenwert u0 (vgl. Abschnitt 4.3 und Abschnitt 5.1) haben. Außerdem muss der Wertebereich von α, für den q̂α und êα berechnet wurden, in allen Simulationen derselbe sein. • addCentralQuanME ergänzt Simulationen, die auf dem multivariaten Piecing-Together Ansatz basieren, um entsprechende Daten und (im Fall m = 2) Grafiken, die sich ohne Verwendung dieses Ansatzes ergeben. Durch die Angabe von Start- und Endmarken (vgl. combineQuanME) wird diese Operation für mehrere Simulationen hintereinander durchgeführt. Zusätzlich erfolgt ein Aufruf von combineQuanME, so dass die neu hinzugefügten Schätzwerte für qα bzw. eα um deren arithmetisches Mittel ergänzt werden. Es sei darauf hingewiesen, dass das Programm nicht nur Normal- und t-Copulas unterstützt. Außerdem stehen noch die einparametrige Marshall-Olkin-Copula, Archimedische Copulas (Clayton, Frank, Gumbel9 , Ali-Mikhail-Haq) und Extremwertcopulas (Galambos, Hüsler-Reiss) zur Verfügung, siehe auch Yan (2007) und Nelsen (2006). Die Randverteilungen Fi∗ , i ≤ m, (vgl. Abschnitt 4.3) werden durch Monte-Carlo Simulationen gemäß (5.1) ermittelt und in jeweils einer Datei gespeichert. Wenn diese Dateien bereits existieren, wird das von der Funktion PiecingTogether erkannt, so dass die empirischen Randverteilungen F̂i∗ , i ≤ m, direkt importiert werden können. Unter Verwendung von F̂i∗ , i ≤ m, werden n unabhängige Realisationen x1 , . . . , xn des Zufallsvektors X (siehe Gleichung (5.1)) erzeugt und daraus die empirische Verteilungsfunktion Ĥ von kXk1 bestimmt. Diese erlaubt dann die Schätzung von qα aus (5.2) durch q̂α := Ĥ −1 (α). (5.9) Außerdem gilt für den bedingten Erwartungswert aus (5.3) E kXk1 1{kXk1 ≥qα } , eα = P kXk1 ≥ qα 9 Die Gumbel-Copula gehört auch zur Klasse der Extremwertcopulas. 5.3 Simulationsergebnisse 58 wobei P kXk1 ≥ qα = 1 − P kXk1 < H −1 (α) = 1 − P H(kXk1 ) < α . Da H unter den gegebenen Voraussetzungen stetig ist, gilt insbesondere eα = 1 E kXk1 1{kXk1 ≥qα } . 1−α Das starke Gesetz der großen Zahlen motiviert demnach den Schätzer n X 1 êα := kxj k1 1[q̂α ,∞) (kxj k1 ). n(1 − α) j=1 (5.10) Analog lassen sich auch die entsprechenden Quantile und bedingten Erwartungswerte der einzelnen Komponenten Xi , i ≤ m, von X schätzen. 5.3 Simulationsergebnisse Abschließend soll auf die Ergebnisse der Simulationen eingegangen werden. Die Funktionen aus dem vorangegangenen Abschnitt wurden verwendet, um 50 unabhängige Simulationen des Modells aus Abschnitt 5.1 zu generieren und die Werte q̂α und êα für α ∈ {0.9, 0.95, 0.99, 0.995, 0.999} zu berechnen. Dazu wurden die empirischen Verteilungsfunktionen F̂1∗ , F̂2∗ auf der Basis von 106 zufälligen Werten berechnet und n = 104 Realisationen von X = (X1 , X2 ) unter Verwendung des multivariaten Piecing-Together Ansatzes aus Abschnitt 4.3 erzeugt. Anschließend bildete combineQuanME die Mittelwerte von q̂α bzw. êα über diese 50 Simulationen, um möglichst verlässliche Schätzungen zu erhalten (siehe Tabelle 5.2 und Tabelle 5.3). α X1 X2 kXk1 0.9 210 793 229 054 415 526 0.95 253 376 271 393 495 340 0.99 369 286 381 328 710 413 0.995 429 961 435 589 821 624 0.999 629 664 594 345 1 156 590 Tabelle 5.2: Mittelwerte aus 50 Schätzungen der α-Quantile für verschiedene Werte von α Zuletzt wurden mittels addCentralQuanME die entsprechenden Werte hinzugefügt, die entstehen, wenn man den multivariaten Piecing-Together Ansatz nicht anwendet. Das bedeutet, dass die Abhängigkeitsstruktur zwischen den Komponenten von X nicht durch eine GPD-Copula beschrieben wird, sondern durch die ursprüngliche t-Copula aus Abschnitt 5.1. Die Tabellen 5.4 und 5.5 geben an, um wieviel Prozent die Mittelwerte in 5.3 Simulationsergebnisse α X1 X2 kXk1 0.9 281 288 296 211 546 153 59 0.95 333 167 344 766 641 792 0.99 490 434 483 383 924 387 0.995 586 347 562 570 1 090 940 0.999 957 484 855 025 1 724 303 Tabelle 5.3: Mittelwerte aus 50 Schätzungen des bedingten Erwartungswertes gegeben eine Überschreitung des α-Quantils für verschiedene Werte von α den Tabellen 5.2 und 5.3 größer sind als die entsprechenden Werte, die man ohne Anwendung des multivariaten Piecing-Together Ansatzes erhält. Da sich diese beiden Fälle α X1 X2 kXk1 0.9 0.06 0.07 -2.72 0.95 0.15 0.27 -1.66 0.99 0.59 0.89 0.47 0.995 0.21 0.63 1.10 0.999 0.13 -1.09 2.59 Tabelle 5.4: Relative Veränderung der α-Quantile beim Übergang von einer t-Copula zu einer GPD-Copula in Prozent α X1 X2 kXk1 0.9 0.31 0.29 -0.83 0.95 0.49 0.41 0.17 0.99 0.76 0.53 2.22 0.995 1.01 0.38 3.16 0.999 2.39 1.50 6.44 Tabelle 5.5: Relative Veränderung der bedingten Erwartungswerte beim Übergang von einer t-Copula zu einer GPD-Copula in Prozent nur durch die zugrunde liegende Copula unterscheiden, die Randverteilungen F̂1∗ , F̂2∗ aber dieselben sind, würde man erwarten, dass die Zahlen in den Zeilen X1“ und X2“ von ” ” Tabelle 5.4 nahe bei Null liegen. Tatsächlich gibt es in diesem Bereich nur einen Wert, der betragsmäßig größer als 1% ist. Obwohl diese Überlegungen auch für die betreffenden Zeilen in Tabelle 5.5 gelten, sind die Unterschiede hier schon etwas größer: Alle Werte sind positiv und nehmen mit wachsendem α tendenziell zu. Deutlichere Abweichungen findet man dagegen in der Zeile kXk1“ der Tabellen 5.4 ” und 5.5. Ausgehend von einer negativen Veränderung für α = 0.9 wachsen die Größen zeilenweise bis auf 2.59% bzw. 6.44% an. Dass die Werte für größer werdendes α zunehmen, war zu erwarten. Schließlich soll durch die Modellierung mittels eines multivariaten Piecing-Together Ansatzes die Wahrscheinlichkeit, dass die beiden Komponenten X1 , X2 gleichzeitig groß sind, im Vergleich zur Ausgangssituation erhöht werden. 5.3 Simulationsergebnisse 60 Grafische Analyse 0.0 −1.0 0.2 −0.8 0.4 −0.6 0.6 −0.4 0.8 −0.2 1.0 0.0 Nun betrachten wir die in Abschnitt 5.2 erwähnten Scatterplots, um die Auswirkungen des multivariaten Piecing-Together Ansatzes auch grafisch hervorzuheben. Dazu wird aus den insgesamt 50 Simulationen eine ausgewählt, deren Schätzungen für qα und eα nahe bei den Durchschnittswerten in den Tabellen 5.2 und 5.3 liegen. Wir beginnen mit der Normal-Copula, die dem Zufallsvektor S = (S1 , S2 ) aus Abschnitt 5.1 zugrunde liegt. Abbildung 5.1 stellt den Realisationen von S die Realisationen des Zufallsvektors V gegenüber, der gemäß (4.8) bzw. (5.8) aus S hervorgeht und einer GPD-Copula auf [−1, 0]2 folgt.10 Abgesehen von der Verschiebung vom Intervall [0, 1]2 0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.8 −0.6 −0.4 −0.2 0.0 Abbildung 5.1: 104 Realisationen von S (links) und V (rechts) nach [−1, 0]2 fällt auf, dass sich die Realisationen von V in der Nähe des rechten Endpunkts (in diesem Fall 0) viel stärker entlang der Winkelhalbierenden gruppieren als die Realisationen von S. Das bedeutet, dass die beiden Komponenten in diesem Bereich stärker voneinander abhängen, vgl. auch Abbildung 2.6. Im nächsten Schritt wird der Zufallsvektor Y , der der t-Copula aus Abschnitt 5.1 folgt, mit V zu einem Zufallsvektor Q verknüpft, vgl. (4.10) und (4.11). Dieser folgt gemäß (4.12) einer GPD-Copula, die auf der Menge [0, 1/2]2 mit der ursprünglichen t-Copula übereinstimmt. An Abbildung 5.2 wird analog zu Abbildung 5.1 deutlich, dass die zusammengesetzte“ Copula im Vergleich zur ursprünglichen t-Copula höhe” re Abhängigkeiten in der Nähe des rechten Endpunkts beschreibt. Außerdem fällt auf, dass der multivariate Piecing-Together Ansatz diese t-Copula bereits dann modifiziert, wenn nur eine Komponente ihren Schwellenwert überschreitet. 10 Die horizontalen und vertikalen Geraden entsprechen den Copula-Schwellenwerten u = 1/2, 1/2 0 bzw. y0 = −1/2, −1/2 , vgl. Abschnitt 4.3 und das Ende von Abschnitt 5.1. 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 61 1.0 5.3 Simulationsergebnisse 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Abbildung 5.2: 104 Realisationen von Y (links) und Q (rechts) Darüber hinaus erkennt man bei genauer Betrachtung des Intervalls [1/2, 1]2 in der rechten Grafik von Abbildung 5.2 ein kleines Abbild der rechten Grafik in Abbildung 5.1. Das liegt an der Berechnung von Q mittels (4.10) und (4.11): Überschreitet die i-te (i) Komponente Yi von Y den Schwellenwert y0 , dann wird sie durch die i-te Komponente (i) Vi von V ersetzt. Dabei wird durch die Multiplikation mit −y0 und der Addition von 1 sichergestellt, dass die i-te Komponente Qi von Q im Überschreitungsbereich liegt, (i) (i) d. h. Qi > u0 = y0 + 1. Da nicht verlangt wird, dass Vi selbst den Schwellenwert (i) y0 überschreitet, werden auch Realisationen von Vi nahe Null so skaliert, dass sie im Überschreitungsbereich liegen. Das kann u. U. dazu führen, dass durch den multivariaten Piecing-Together Ansatz ursprünglich große Werte verkleinert werden.11 Im letzten Schritt des multivariaten Piecing-Together Ansatzes werden die einzelnen Komponenten der Realisationen von Q mit den Quantilfunktionen F̂1∗−1 , F̂2∗−1 der empirischen Randverteilungen transformiert. Verwendet man Y anstelle von Q, dann erhält man zwar auch Realisationen eines Zufallsvektors mit Randverteilungen F̂1∗ , F̂2∗ , allerdings wird die Abhängigkeitsstruktur zwischen den Komponenten dieses Zufallsvektors dann nicht durch eine GPD-Copula, sondern durch die t-Copula von oben beschrieben. Abbildung 5.3 vergleicht beide Fälle miteinander. Wie zu erwarten war, wird durch die Verwendung des multivariaten Piecing-Together Ansatzes die Wahrscheinlichkeit erhöht, dass beide Komponenten gleichzeitig groß sind. Durch die Struktur der zugrunde liegenden GPD-Copula (vgl. Abbildung 5.2) liegt aber auch ein gewisses Gewicht auf der Menge, auf der nur eine von beiden Komponenten große Werte annimmt. 11 Siehe dazu auch den Abschnitt Ausgewählte Sonderfälle weiter unten. 1000000 500000 0 0 500000 1000000 1500000 62 1500000 5.3 Simulationsergebnisse 0 500000 1000000 1500000 0 500000 1000000 1500000 Abbildung 5.3: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes Ausgewählte Sonderfälle 3500000 2500000 1500000 500000 0 0 500000 1500000 2500000 3500000 Die Simulationsergebnisse, die bisher besprochen wurden, entsprechen in etwa den Erwartungen: Die Wahrscheinlichkeit dafür, dass mehrere Komponenten eines Zufallsvektors gleichzeitig große Werte annehmen, ist bei der Modellierung mit dem multivariaten Piecing-Together Ansatz höher als in Ausgangssituation, in der die Abhängigkeitsstruktur durch eine t-Copula beschrieben wird. Während oben besprochene Simulation als eine Art Normalfall anzusehen ist, gibt es auch extremere Beispiele. Abbildung 5.4 zeigt eine solche Simulation. Bei Anwendung 0 500000 1500000 2500000 3500000 0 500000 1500000 2500000 Abbildung 5.4: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, Extrembeispiel 3500000 5.3 Simulationsergebnisse 63 4e+06 3e+06 2e+06 1e+06 0e+00 0e+00 1e+06 2e+06 3e+06 4e+06 des multivariaten Piecing-Together Ansatzes hat kXk1 ein geschätztes 99.9%-Quantil von q̂0.999 = 1 310 154. Die Schätzung für den zugehörigen bedingten Erwartungswert e0.999 ist mit 2 148 940 deutlich größer als der Mittelwert aus Tabelle 5.3. Entgegen der Anschauung stellt der multivariate Piecing-Together Ansatz nicht in jedem Fall sicher, dass Werte erzeugt werden, so dass beide Komponenten gleichzeitig groß sind. Abbildung 5.5 zeigt eine Simulation, in der die Erhöhung der Schätzungen q̂0.999 und ê0.999 (verglichen mit der Modellierung durch eine t-Copula) auf eine Beobachtung zurückzuführen sein dürfte, die nur in der ersten Komponente groß ist. 0e+00 1e+06 2e+06 3e+06 4e+06 0e+00 1e+06 2e+06 3e+06 4e+06 Abbildung 5.5: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, univariater großer Wert Wie Abbildung 5.6 entnommen werden kann, gibt es sogar Simulationen, in denen der multivariate Piecing-Together Ansatz ursprünglich große Werte deutlich verkleinert. Das ist zwar nicht beabsichtigt, liegt aber an dem Verfahren in Gleichung (4.10). Siehe dazu auch die Ausführungen im Abschnitt Grafische Analyse. 2e+06 4e+06 6e+06 64 0e+00 0e+00 2e+06 4e+06 6e+06 5.3 Simulationsergebnisse 0e+00 1e+06 2e+06 3e+06 4e+06 5e+06 6e+06 0e+00 1e+06 2e+06 3e+06 4e+06 5e+06 6e+06 Abbildung 5.6: 104 Zufallsvektoren ohne (links) und mit (rechts) Anwendung des multivariaten Piecing-Together Ansatzes, unerwarteter Fall 65 6 Ausblick Diese Arbeit widmete sich der Herleitung eines multivariaten Piecing-Together Ansatzes in der Extremwerttheorie unter Verwendung von Copulas. Wie wir gesehen haben, eignet sich dieses Verfahren – analog zu seinem univariaten Gegenstück – dazu, um auch im multivariaten Kontext Überschreitungen über hohe Schwellenwerte zu modellieren. Insbesondere lassen sich dadurch Wahrscheinlichkeiten von Ereignissen im rechten Rand einer multivariaten Verteilung approximieren, für die noch keine Daten vorliegen. Wie am Ende von Abschnitt 4.3 erwähnt wurde, hätte jedoch die Beantwortung aller offenen Fragen den Rahmen dieser Arbeit gesprengt. So wurde gezeigt, wie sich Zufallsvektoren erzeugen lassen, die einer GPD folgen, und dass man auf diese Art auch jede GPD simulieren kann (Satz 4.2.1). Das Herausfinden des Zusammenhangs, wie man einen solchen Vektor wählen muss, damit dieser einer bestimmten GPD folgt, bleibt jedoch eine interessante Fragestellung. Obwohl wir in Kapitel 5 gesehen haben, dass der vorgestellte Piecing-Together Ansatz durchaus ein brauchbares Verfahren ist, wurde auch aufgedeckt, dass er noch einige Schwächen aufweist. Eine Verbesserung des Verfahrens könnte bspw. dadurch erzielt werden, in Gleichung (4.10) noch zusätzliche Bedingungen an die Werte aus der GPDCopula zu stellen, wie es in Abschnitt 5.3 schon angedeutet wurde. Insgesamt lässt sich jedoch festhalten, dass mit der vorgestellten multivariaten Version des Piecing-Together Ansatzes eine wichtige Tür aufgestoßen wurde, um auch multivariate Daten so zu modellieren, dass hohe Beobachtungen im rechten Rand einer Verteilung angemessen beschrieben werden. Abbildungsverzeichnis 66 Abbildungsverzeichnis 2.1 2.2 2.3 2.4 2.5 2.6 2.7 5.1 5.2 5.3 5.4 5.5 5.6 Verschiedene Informationsgehalte über X . . . . . . . . . . . . . . . . . . Dichten der Standard-EVDs mit Parameter α = 1 . . . . . . . . . . . . . Verteilungsfunktionen der Gumbel-Verteilung und des normierten Maximums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gumbel-Approximation für ξ nahe Null . . . . . . . . . . . . . . . . . . . Dichten der Standard-GPDs mit Parameter α = 1 . . . . . . . . . . . . . 104 Zufallsvektoren aus der Copula Π und aus der Copula M . . . . . . . 104 Zufallsvektoren aus einer Normal-Copula . . . . . . . . . . . . . . . . 104 Realisationen von S und V . . . . . . . . . . . . . . . . . . . . . . . 104 Realisationen von Y und Q . . . . . . . . . . . . . . . . . . . . . . . 104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, Extrembeispiel . . . . . . . . . . . . . . . . . . . . . 104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, univariater großer Wert . . . . . . . . . . . . . . . . . 104 Zufallsvektoren ohne und mit Anwendung des multivariaten PiecingTogether Ansatzes, unerwarteter Fall . . . . . . . . . . . . . . . . . . . . 5 16 17 19 20 23 24 60 61 62 62 63 64 Tabellenverzeichnis 67 Tabellenverzeichnis 2.1 Normierungskonstanten für die Standard-EVDs . . . . . . . . . . . . . . 18 5.1 5.2 5.3 5.4 5.5 Geschätzte Parameter des Modells . . . . . . . . . . . . . . . . . . Mittelwerte aus 50 Schätzungen der α-Quantile . . . . . . . . . . Mittelwerte aus 50 Schätzungen des bedingten Erwartungswertes . Relative Veränderung der α-Quantile in Prozent . . . . . . . . . . Relative Veränderung der bedingten Erwartungswerte in Prozent . 53 58 59 59 59 . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis 68 Literaturverzeichnis Aulbach, S., Bayer, V., Falk, M. (2009). A Multivariate Piecing-Together Approach with an Application to Operational Loss Data. Technischer Bericht, Julius-MaximiliansUniversität Würzburg. Balkema, A. A., de Haan, L. (1974). Residual Life Time at Great Age. In The Annals of Probability 2 (5), S. 792–804. Bauer, H. (1992). Maß- und Integrationstheorie. 2. Auflage. Walter de Gruyter, Berlin, New York. Bauer, H. (2002). Wahrscheinlichkeitstheorie. 5. Auflage. Walter de Gruyter, Berlin, New York. Buishand, T. A., de Haan, L., Zhou, C. (2008). On spatial extremes: With application to a rainfall problem. In The Annals of Applied Statistics 2 (2), S. 624–642. Di Clemente, A., Romano, C. (2004). A Copula-Extreme Value Theory Approach for Modelling Operational Risk. In Operational Risk Modelling and Analysis - Theory and Practice, herausgegeben von M. Cruz, Kapitel 9. Risk Books, London. Deheuvels, P. (1978). Caractèrisation complète des lois extrème multivariées et de la convergene des types extrèmes. In Publ. Inst. Statist. Univ. Paris 23, S. 1–36. Deheuvels, P. (1984). Probabilistic aspects of multivariate extremes. In Statistical Extremes and Applications, herausgegeben von J. Tiago de Oliveira, S. 117–130. D. Reidel Publishing Company. Embrechts, P., Klüppelberg, C., Mikosch, T. (1997). Modelling Extremal Events for Insurance and Finance, Band 33 von Applications of Mathematics - Stochastic Modelling and Applied Probability. Springer-Verlag, Berlin, Heidelberg, New York. Falk, M. (2008). It was 30 years ago today when Laurens de Haan went the multivariate way. In Extremes 11 (1), S. 55–80. Literaturverzeichnis 69 Falk, M., Hüsler, J., Reiss, R.-D. (2004). Laws of Small Numbers: Extremes and Rare Events. 2. Auflage. Birkhäuser Verlag, Basel, Boston, Berlin. Falk, M., Marohn, F., Tewes, B. (2002). Foundations of Statistical Analyses and Applications with SAS. Birkhäuser Verlag, Basel, Boston, Berlin. Falk, M., Michel, R. (2009). Testing for a multivariate generalized Pareto distribution. In Extremes 12 (1), S. 33–51. Galambos, J. (1987). The Asymptotic Theory of Extreme Order Statistics. 2. Auflage. Krieger, Malabar. Gänssler, P., Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer-Verlag, Berlin, Heidelberg, New York. de Haan, L., de Ronde, J. (1998). Sea and Wind: Multivariate Extremes at Work. In Extremes 1 (1), S. 7–45. Huang, X. (1992). Statistics of Bivariate Extreme Values. Dissertation, Tinbergen Institute Research Series. Köhler, G. (2006). Analysis, Band 14 von Berliner Studienreihe zur Mathematik. Heldermann Verlag, Lemgo. Leadbetter, M. R., Lindgren, G., Rootzén, H. (1983). Extremes and Related Properties of Random Sequences and Processes. Springer Series in Statistics. Springer-Verlag, New York, Heidelberg, Berlin. Michel, R. (2006). Simulation and Estimation in Multivariate Generalized Pareto Models. Dissertation, Julius-Maximilians-Universität Würzburg. Verfügbar unter http://www.opus-bayern.de/uni-wuerzburg/volltexte/2006/1848/. Michel, R. (2007). Simulation of certain multivariate generalized Pareto distributions. In Extremes 10 (3), S. 83–107. Nelsen, R. B. (2006). An Introduction to Copulas. Springer Series in Statistics, 2. Auflage. Springer Science+Business Media, New York. Pickands, III, J. (1975). Statistical Inference Using Extreme Order Statistics. In The Annals of Statistics 3 (1), S. 119–131. Reiss, R.-D. (1989). Approximate Distributions of Order Statistics. (With Applications to Nonparametric Statistics). Springer Series in Statistics. Springer, New York. Literaturverzeichnis 70 Reiss, R.-D., Thomas, M. (2007). Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3. Auflage. Birkhäuser Verlag, Basel, Boston, Berlin. Resnick, S. I. (2008). Extreme Values, Regular Variation, and Point Processes. Springer Series in Operations Research and Financial Engineering. Springer Science+Business Media, New York. Rootzén, H., Tajvidi, N. (2006). Multivariate generalized Pareto distributions. In Bernoulli 12 (5), S. 917–930. Yan, J. (2007). Enjoy the Joy of Copulas: With a Package copula. In Journal of Statistical Software 21 (4), S. 1–21. 71 Erklärung Hiermit versichere ich, Stefan Aulbach, dass ich diese Arbeit selbstständig und nur unter Verwendung der angegebenen Quellen und Hilfsmittel angefertigt habe. Außerdem habe ich diese Diplomarbeit nicht bereits an einer anderen Hochschule oder in einem anderen Studiengang zur Erlangung eines akademischen Grades eingereicht. Würzburg, den 16. November 2009 72