Rekonstruktion von hochdimensionalen atomaren

Werbung
Diplomarbeit
Rekonstruktion von hochdimensionalen
atomaren Verteilungsfunktionen aus
Randverteilungsdaten mit dem
Copula-Konzept
von
Nicole Tschauder
vorgelegt am
Fachbereich Mathematik
TU Darmstadt
PD Dr. S. M. Kast
Fachbereich Chemie
TU Darmstadt
Prof. Dr. J. Lehn
Fachbereich Mathematik
TU Darmstadt
September 2006
Danksagungen
An dieser Stelle möchte ich mich bei all denen bedanken, die dazu beigetragen haben, dass
diese Arbeit zustande gekommen ist.
Allen voran bedanke ich mich bei PD Dr. S. M. Kast für die Vergabe dieses interessanten
Themas, die fachliche Unterstützung und die sehr gute Betreuung während meiner ganzen
Arbeit.
Bedanken möchte ich mich auch bei Prof. Dr. J. Lehn, der mich jederzeit darin unterstützte, meine Diplomarbeit an einem fachfremden Fachbereich anzufertigen.
Ein besonderer Dank gilt Herrn H.-U. Weidemüller, der mich während meines ganzen
Studiums fachlich sehr unterstützte und diese Arbeit Korrektur gelesen hat.
Für die Hilfe bei der Erstellung dieser Arbeit bedanke ich mich vielmals bei meiner Familie,
Dörte Beigel, Thomas Kloss und Sascha Tayefeh.
Des weiteren bedanke ich mich bei der gesamten Arbeitsgruppe Kast für die tatkräftige Unterstützung bei jeglichen Computerproblemen und die schöne Zeit während meiner
Arbeit.
Meinen Eltern, meiner Schwester Tina, Thabo und meinem Freund Christian will ich
sehr herzlich danken für ihre grenzenlose Nachsicht und Geduld mit mir während der doch
oft und lang andauernden stressigen Prüfungsphasen meines Studiums.
Meinen Eltern danke ich darüberhinaus dafür, dass sie mir mein Studium ermöglichten.
Inhaltsverzeichnis
1 Einleitung
3
2 Physikalisch-Chemischer Hintergrund
5
2.1
2.2
Grundsätze der klassischen Physik und Chemie . . . . . . . . . . . . . . . .
5
2.1.1
Die potentielle Energie eines Atoms . . . . . . . . . . . . . . . . . . .
6
Statistische Thermodynamik . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2.1
Grundlegende Definitionen und Ergebnisse . . . . . . . . . . . . . . .
7
2.2.2
Wahrscheinlichkeitstheoretische Herleitung der Paarverteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3
2.3
Verläufe der radialen Paarverteilungsfunktion . . . . . . . . . . . . . 13
Ermittlung der radialen Paarverteilungsfunktion . . . . . . . . . . . . . . . . 16
2.3.1
Molekulare Computersimulationen . . . . . . . . . . . . . . . . . . . 17
3 Copula
20
3.1
Grundlegende Definitionen und Eigenschaften . . . . . . . . . . . . . . . . . 20
3.2
Copula und Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3
Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4
3.3.1
Der lineare Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . 30
3.3.2
Copulabasierte Zusammenhangsmaße . . . . . . . . . . . . . . . . . . 31
Konstruktion von Copulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1
Grundlegende Konstruktionsmethoden . . . . . . . . . . . . . . . . . 36
3.4.2
Konstruktion Archimedischer Copulas . . . . . . . . . . . . . . . . . 37
4 Wahl einer passenden Copula
4.1
4.2
Auswahlmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.1
Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . 40
4.1.2
Wahl einer Archimedischen Copula . . . . . . . . . . . . . . . . . . . 42
4.1.3
Maximalentropische Copula . . . . . . . . . . . . . . . . . . . . . . . 45
Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5 Extrahieren der Copulas aus Modellbeispielen
5.1
40
49
Beschreibung der gegebenen Modellbeispiele . . . . . . . . . . . . . . . . . . 49
Inhaltsverzeichnis
5.2
Seite 2
Transformation der gegebenen Daten in copula-kompatible Form . . . . . . 59
5.2.1
Transformation in benötigte Dimensionen . . . . . . . . . . . . . . . 59
5.2.2
Die Gewichtungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.3
Transformierte Graphen . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.4
Extrahierte Copuladichten / Copulas . . . . . . . . . . . . . . . . . . 73
6 Analyse der Copulas und ihrer Dichten
77
6.1
Allgemeine Betrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.2
Kendalls Tau der verschiedenen Fälle . . . . . . . . . . . . . . . . . . . . . . 81
6.3
Sind die Copulas Archimedische? . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3.1
Anwendung bekannter Archimedischer Copulas . . . . . . . . . . . . 87
6.3.2
Konstruktion weiterer Archimedischer Copulas . . . . . . . . . . . . 97
7 Zusammenfassung und Ausblick
8 Anhang A
99
102
1 Einleitung
Die Statistische Thermodynamik bildet die Basis zur Berechnung von makroskopischen
Größen („Observablen“), wie z.B. Gleichgewichtskonstanten chemischer Reaktionen oder
Eigenschaften von Materialien, ausgehend von Informationen über die Wechselwirkungen
zwischen Atomen. Ihr zugrunde liegt die Verteilungsfunktion der Atome einer Probe im
Raum. In der Praxis ist diese Funktion in der Regel schwer zugänglich, wohingegen ihre
Randverteilungsfunktionen aus Experimenten oder Theorien häufig einfacher erhältlich
sind. Letztere sind allerdings nicht immer ausreichend zur Berechnung bestimmter Observablen. Es stellt sich also die Frage nach Möglichkeiten zur Rekonstruktion höherdimensionaler Daten aus Verteilungsinformationen in einer geringeren Dimensionsanzahl.
In der mathematischen Statistik liefert eine Funktion namens Copula die Verbindung einer gemeinsamen Verteilungsfunktion mit ihren Randverteilungsfunktionen. Somit ist die
Copula diejenige Funktion, welche die volle Information über jegliche Abhängigkeitsstrukturen der zugrunde liegenden Zufallsvariablen beschreibt. Copulas wurden erstmals von
Sklar [38] definiert, worauf sie jedoch lange im Hintergrund der mathematischen Forschung blieben. Es gab lediglich einige Konferenzen über die anfänglichen Untersuchungen
von Copulas, wobei erste Monographien über sie als Konferenzmitschrift verfasst wurden [11]. In den 90er Jahren des 20.Jh traten die Copulas erstmals in das Interesse der
Finanz- und Versicherungsmathematik [15, 16], da mit ihnen eine Modellierung der Abhängigkeitsstruktur mehrerer eingehender Risiken über den gesamten Definitionsbereich
realisiert werden konnte. Durch die vielfältigen Fragestellungen der Finanz- und Versicherungsmathematik, die von einer derartigen Modellierung profitieren, gewannen die Copulas
seitdem enorm an Popularität. Als Folge des stark wachsenden Interesses erschien 1999 von
Nelsen [33] die erste Monographie, die sich ausschließlich mit Copulas und ihren grundlegenden Eigenschaften beschäftigt. Die verschiedenen Anwendungsfelder der Copulas in der
Finanzmathematik werden in [8] diskutiert: Copulas werden zum Beispiel im Bereich Risikomanagement eingesetzt, oder um ein aus mehreren Aktien bzw. Derivaten bestehendes
Portfolio zu modellieren. Versicherungen schätzen mit Copulas die Risiken der einzelnen
Policen. Darüberhinaus werden aber auch beispielsweise Naturkatastrophenmodelle durch
Einbindung der Copulas verbessert [17].
1 Einleitung
Seite 4
In Anbetracht der vielfältigen Anwendungsgebiete stellt sich folgende Frage: Kann dieses
Konzept auch auf das Problem der Rekonstruktion von höherdimensionalen atomaren Verteilungsfunktionen aus niederatomaren übertragen werden? Ziel dieser Arbeit ist es, das
Konzept der Copulas erstmalig in die Statistische Thermodynamik einzuführen und an einfachen, gut charakterisierten Modellbeispielen zu testen. Zu diesem Zweck werden zunächst
die Copulas aus den Beispielverteilungen extrahiert; ihre Abhängigkeit von den gewählten
physikalischen Parametern und ihre mathematischen Eigenschaften werden untersucht. Im
nächsten Schritt wird eine analytische Beschreibung der zugrunde liegenden Abhängigkeitsstruktur gesucht, um sinnvolle Strategien zur Copula-Parametrisierung ausgehend von
Daten zu entwickeln, die typischerweise im Rahmen des physikalischen Problems bekannt
sind. Abschließend werden künftige Entwicklungsmöglichkeiten des Copula-Konzepts in
der Statistischen Physik diskutiert.
2 Physikalisch-Chemischer Hintergrund
2.1 Grundsätze der klassischen Physik und Chemie
Die Energie ist eine der zentralen Größen der Physik. Man bezeichnet mit ihr die Fähigkeit
eines Systems, Arbeit zu verrichten. In der klassischen Mechanik setzt sich die Gesamtenergie E (eines Systems) additiv aus zwei unterschiedlichen Energieformen, der kinetischen
Energie K und der potentiellen Energie U , zusammen
E =K +U.
(2.1)
Die Gesamtenergie E ist in einem abgeschlossenen System eine Erhaltungsgröße. Sie kann
folglich weder erzeugt noch vernichtet, sondern lediglich von einer Energieform in eine
Andere umwandeln werden.
Für ein aus N Teilchen bestehendes System ergibt sich seine kinetische Energie durch
[39, S.137]
K=
N
X
1
i=1
2
mi ~vi2 =
wobei mi die Masse des Teilchens i, ~vi =
N
X
1 2
p~ ,
2mi i
(2.2)
i=1
∂~
ri
∂t
seine Geschwindigkeit, ~ri seine Position im
Raum und p~i = mi · ~ri sein Impuls ist.
Die potentielle Energie des Systems ist eine Funktion der Positionen seiner Teilchen,
U = U (~r1 , . . . , ~rn ) .
(2.3)
Bezeichnet Uij die potentielle Energie zwischen Teilchen i und j, so beschreibt nachfolgende
Gleichung einen Modellansatz für die gesamte potentiellen Energie:
U = U12 (~r1 , ~r2 ) + U23 (~r2 , ~r3 ) + · · ·
(2.4)
In diesem Modell wird folglich angenommen, die Gesamtenergie ergäbe sich allein aus den
Paarenergien aller beteiligten Teilchen. Mehrkörperterme werden hierbei vernachlässigt.
2 Physikalisch-Chemischer Hintergrund
Seite 6
2.1.1 Die potentielle Energie eines Atoms
Die potentielle Energie eines Atoms wird durch die intermolekularen Wechselwirkungen
(WW) mit den anderen Atomen hervorgerufen. Diese Wechselwirkungen hängen von dem
Abstand der Atome untereinander ab und wirken nur über eine geringe Distanz, das heißt,
sie gewinnen an Einfluss, je näher sich die Atome zueinander in der Substanz befinden.
Es gibt diverse intermolekulare Kräfte, die zwischen Atomen wirken können. Man unterscheidet hierbei zwischen attraktiven und repulsiven Kräften. In kurzen Reichweiten wirken
nur die abstoßenden Kräfte, wohingegen langreichweitig wirkende Kräfte anziehend oder
abstoßend sein können.
Alle intermolekularen Kräfte verlieren ihre Wirkung, wenn die Atome genügend Abstand
voneinander haben. Somit geht die potentielle Energie der Atome bei stetig steigendem
Radius gegen Null.
Für ein unpolares Atom in der Umgebung eines anderen unpolaren Atoms ergeben zum
Beispiel die unterschiedlichen Wechselwirkungen folgenden Potentialverlauf
Abb. 2.1: Potentielle Energie eines unpolaren Atoms im Umkreis eines zweiten unpolaren
Atoms und die Aufspaltung in einen attraktiven und einen repulsiven Anteil
(entnommen aus [2, S. 728] )
Der repulsive Anteil dieses Potentials resultiert aus der Paulirepulsion, die einen rein quantenmechanischen Effekt beschreibt. Es wird oft angenommen, dass sich der Verlauf dieser
Wechselwirkung antiproportional zu einer hohen Potenz von r verhält. Der attraktive Anteil des dargestellten Potentials, welcher proportional zu 1/r6 verläuft, ergibt sich aus der
zwischen zwei unpolaren Atomen wirkenden London-Kraft.
2 Physikalisch-Chemischer Hintergrund
Seite 7
2.2 Statistische Thermodynamik
(Die in diesem Kapitel aufgeführten Formeln sind, wenn nicht explizit anders angegeben,
in [7, S. 188-197], [29, S.257-259] oder [20, S.31-34] zu finden)
2.2.1 Grundlegende Definitionen und Ergebnisse
Die klassische Statistische Thermodynamik basiert auf der Annahme, dass sich die makroskopischen Eigenschaften eines Systems aus gemittelten atomaren Eigenschaften der in
dem System befindlichen Teilchen bestimmen lassen, wenn die Anzahl der Teilchen ausreichend groß ist. Die atomaren Eigenschaften der Teilchen werden hierbei über Orts- und
Impulsverteilungen beschrieben.
Der mikroskopische Zustand eines Teilchens i wird in der klassischen Physik durch seine
Koordinaten ~ri = (xi , yi , zi ) und seinen Impuls p~i = (pi,x , pi,y , pi,z ) in alle drei Raumrichtungen vollständig beschrieben. Jedem mikroskopischen Zustand eines aus N Teilchen
bestehenden Systems ist demzufolge ein Punkt ~rN , p~N = (~r1 , ~r2 , ..., ~rN , p~1 , p~2 , ..., p~N ) eines 6N -dimensionalen Raumes, des Phasenraumes, zugeordnet.
Grundlage der Betrachtungen der Statistischen Thermodynamik sind so genannte Ensembles, welche die Gesamtheit einer großen Anzahl an gleichartig präparierten Systemen von
Teilchen darstellen. Die Statistische Thermodynamik bezieht sich bei ihren Herleitungen
und Betrachtungen hauptsächlich auf die nachfolgend beschriebenen vier verschiedenen
Ensembles, die sich in den an sie gestellten Randbedingungen unterscheiden:
• das mikrokanonische Ensemble,
ein System mit konstanter Innerer, d.h. Gesamtenergie E, Volumen V und Teilchen-
zahl N
• das kanonische Ensemble,
ein System mit konstanter Temperatur T , Volumen V und Teilchenzahl N
• das isotherm-isobare Ensemble,
ein System mit konstanter Teilchenzahl N , Druck p und Temperatur T
• das großkanonische Ensemble,
ein System mit konstanter Temperatur T , Volumen V und chemischem Potential µ
Das mikrokanonische Ensemble entspricht per Definition einem abgeschlossenen System
der Thermodynamik, das weder Energie noch Teilchen mit der Umgebung austauscht. Das
kanonische und das isotherm-isobare System sind geschlossene Systeme (kein Teilchen-,
aber Energieaustausch mit der Umgebung). Das großkanonische System ist offen, d.h. es
2 Physikalisch-Chemischer Hintergrund
Seite 8
finden Teilchen- und Energieaustausch mit der Umgebung statt. Die konstante Temperatur
wird hierbei durch ein das System umgebendes Wärmebad realisiert. In einem offenen
System ist somit ein Teilchenaustausch mit dem Wärmebad möglich.
Stellt man an ein System bestimmte makroskopische Randbedingungen, so gibt es eine
ermittelbare Anzahl von Mikrozuständen, d.h. Punkte im Phasenraum, die das System
annehmen könnte, um diese Randbedingungen zu erfüllen.
Eine zentrale Aussage der Statistischen Thermodynamik ist die so genannte Ergodenhypothese. Sie beschreibt die Feststellung, dass das Ensemblemittel einer Observablen O identisch mit ihrem zeitlichen Mittel ist, da das System über lange Zeit betrachtet fast jeden
der möglichen Mikrozustände einnimmt. Systeme mit diesem Verhalten werden als ergodisch bezeichnet. Da jede Observable eine Funktion des angenommenen Mikrozustandes
ist, folgt ihre Zeitabhängigkeit aus der zeitlichen Entwicklung des entprechenden Phasenraumpunktes:
O(t) = O ~rN (t) , p~N (t)
(2.5)
Für das zeitliche Mittel der Observablen O ergibt sich somit
1
O=
T
ˆ
T
O(t) dt
(2.6)
0
wobei T die betrachtete Zeitspanne beschreibt.
Um das Ensemblemittel definieren zu können, wird die Phasenraumdichte f ~rN , p~N eingeführt. Ihre Integration über einen infinitesimal kleinen Teilbereich B des Phasenraumes
gibt die Wahrscheinlichkeit dafür an, dass sich ein klassisches System in einem Mikrozustand innerhalb von B befindet, d.h.
P( System in einem Mikrozustand in B ) =
ˆ
· · · f ~rN , p~N d~rN d~
pN
| {z }
ˆ
(2.7)
B
Mittels der Phasenraumdichte lässt sich das Ensemblemittel der Observablen O wie folgt
formulieren
hOi =
ˆ
···
ˆ
Aus der Ergodenhypothese resultiert:
f ~rN , p~N O ~rN , p~N d~rN d~
pN
O = hOi
(2.8)
(2.9)
2 Physikalisch-Chemischer Hintergrund
Seite 9
In jedem Ensemble kann eine Beschreibung der Phasenraumdichte gewonnen werden. Speziell für das kanonische Ensemble ergibt sich für sie die bekannte Boltzmann-Verteilung
e−βH(~r
f ~rN , p~N =
Z
wobei
ˆ
Z=
···
ˆ
e−βH(~r
N ,~
pN
N ,~
pN
)
(2.10)
) d~rN d~
pN
(2.11)
die so genannte Zustandssumme und β = 1/kT mit der Temperatur T und der BoltzmannKonstanten k ist. Die in dieser Gleichung auftretende Funktion H ist die Hamiltonfunktion, welche jedem Phasenraumpunkt seine Gesamtenergie zuordnet. Nach Kapitel 2.1 lässt
sich der Hamiltonoperator in eine nur von den Impulsen abhängige kinetische Energie
K = K(~
pN ) und eine nur ortsabhängige potentielle Energie U = U (~rN ) separieren.
Nach den Gesetzen der Statistik ergibt sich die gemeinsame Verteilung zweier unabhängiger
Zufallsvariablen aus dem Produkt der einzelnen Verteilungen dieser Variablen. Das heißt:
Seien X und Y zwei unabhängige, mit der Dichte g bzw. h verteilte Zufallsvariablen, so
ergibt sich als gemeinsame Dichte f des Zufallsvektors (X, Y ) [26, S.69]
f (x, y) = g(x) · h(y)
(2.12)
Vorstehende Aussage lässt sich folgendermaßen auf die Hamiltonfunktion H übertragen:
Mit der Impulsdichte
N
φ p~
und der Konfigurationsdichte
ϑ ~r
N
exp −βK p~N
=´
exp(−βK(~
pN )) d~
pN
(2.13)
exp −βU ~rN
=´
exp(−βU (~rN )) d~rN
(2.14)
ergibt sich für die Phasenraumdichte
f ~rN , p~N = φ p~N · ϑ ~rN
(2.15)
Bei der Impulsdichte φ(~
pN ) handelt es sich um die Maxwell-Boltzmann-Verteilung, deren
Verlauf analytisch anzugeben ist. Nach (2.2) lässt sie sich weiter aufspalten in N Teile, die
jeweils ausschließlich von dem Impuls eines Teilchens abhängen. Der konfigurelle Teil ϑ(~rN )
dieser Gleichung lässt sich im Gegensatz dazu nicht in Beiträge seiner Einzelkomponenten
zerlegen, da er auf der potentiellen Energie des Systems beruht, welche alle Komponenten
miteinander in Beziehung setzt.
2 Physikalisch-Chemischer Hintergrund
Seite 10
2.2.2 Wahrscheinlichkeitstheoretische Herleitung der
Paarverteilungsfunktion
Formal beschreibt die Konfigurationsdichte ϑ(~rN ) die räumliche Verteilung für den Fall,
dass die Aufenthaltsorte ~ri aller Teilchen i gleichzeitig betrachtet werden. Ist man lediglich
an Informationen über die Konfiguration einer bestimmten Untermenge von n Teilchen
interessiert, so kann aus ϑ(~rN ) durch Integration über die restlichen N − n Teilchen eine
so genannte spezielle n-Partikel-Dichte extrahiert werden. Für die gemeinsame Dichte des
Aufhaltens von T eilchens 1 am Ort ~r1 , während sich T eilchen j am Ort ~rj , j = 2, . . . , n
befinden, ergibt sich:
ϑ
(n/N )
(~r1 , . . . , ~rn ) =
¨
...
ˆ
ϑ ~rN d~rN −n d~rN −n+1 · · · d~rN
(2.16)
Da das System aus N nichtunterscheidbaren Teilchen besteht, ist es unwichtig, welche
Teilchen genau betrachtet werden. Die Beschreibung soll somit erweitert werden auf n
beliebige Teilchen, wodurch die spezielle n-Partikel-Dichte (2.16) einen Vorfaktor erhalten
muss, der die Anzahl der Möglichkeiten angibt, aus N Teilchen n auszuwählen. Bezeichnet
ρ(n/N ) die n-Teilchen-Dichte, welche angibt, wie die Aufenthaltswahrscheinlichkeit von n
beliebigen Teilchen im Raum verteilt ist, wenn der Ort der restlichen N − n Teilchen ohne
Belang ist, so ergibt sich
ρ(n/N ) (~rn ) =
N!
ϑ(n/N ) (~rn )
(N − n)!
(2.17)
Durch (2.17) unterliegt die n-Teilchen-Dichte ρ(n/N ) folgender, von der mathematischen
Definition einer Dichte abweichenden, Normierung [20, S.32]
ˆ
ρ(n/N ) (~rn )d~rn =
N!
(N − n)!
(2.18)
Eine Dichte im streng mathematischen Sinn lässt sich über den gesamten Raum zu 1
integrieren.
Ist eine Flüssigkeit homogen und isotrop, d.h. ist sie in alle Raumrichtungen gleich verteilt,
so muss sich für die Dichte eines Teilchens im Raum, die durch den vorgestellten Formalismus hergeleitet wird, die Gleichheit mit der bekannten physikalischen Beziehung zwischen
der Dichte, dem Volumen V eines Raumes und der Teilchenzahl N ergeben
ρ(1/N ) (~r1 ) = ρ =
N
V
(2.19)
2 Physikalisch-Chemischer Hintergrund
Seite 11
Bezieht man die weiteren Betrachtungen auf ein ideales Gas, in dem die Teilchen unkorreliert sind, ergibt sich aus (2.12) für die spezielle n-Partikel-Dichte ϑ(n/N ) (~r1 , ~r2 , . . . , ~rn ) die
Formulierung als Produkt ihrer n Randdichten ϑ(1/N ) (~r1 ) , . . . , ϑ(1/N ) (~rn ). Auf diese Weise
(n/N )
folgt für ρid
(n/N )
ρid
(~rn ) = ρn
n N!
n
=
ρ
≈ ρn
1
+
O
N n (N − n)!
N
(2.20)
wobei O die Landau-Notation ist [5, S.57].
Für die Zwei-Teilchen-Dichte führt dies zu
(2/N )
ρid
(~r1 , ~r2 ) =
N (N − 1)
2
−1
=
ρ
1
−
N
≈ ρ2
V2
(2.21)
Gleichung (2.20) legt es nahe, eine neue Dichte zu formulieren, die das Verhalten einer
n-Teilchen-Dichte relativ zu dem Verhalten eines idealen Gases beschreibt. Diese Verteilung
heißt n-Teilchen-Verteilungsfunktion und ergibt sich folglich durch
ρ(n/N ) (~r1 , . . . , ~rn )
g (n/N ) (~rn ) = Q
(1/N )
n
(~ri )
i=1 ρid
(2.22)
Die Bezeichnung Verteilungsfunktion ist auch hier nicht im mathematischen Kontext zu
verstehen, da es sich nach wie vor um eine Art bedingte Dichte handelt.
Im Folgenden soll speziell auf den Fall zweier Moleküle genauer eingegangen werden.
Auf Grund ihrer großen Bedeutung in der Physikalischen Chemie besitzt die Zwei-TeilchenVerteilungsfunktion einen eigenen Namen. Sie heißt Paarverteilungsfunktion und ist nach
(2.22) gegeben durch
g (2/N ) (~r1 , ~r2 ) =
ρ(2/N ) (~r1 , ~r2 )
ρ2
(2.23)
Da sich die folgenden Herleitungen sowie die Betrachtungen dieser Arbeit stets auf Paarverteilungsfunktionen beziehen, wird an dieser Stelle der hochgestellte Index (2/N ) in ihrer
Bezeichnung fallen gelassen. Um darauf hinzuweisen, dass es sich bei den Paarverteilungsfunktionen um räumliche Funktionen handelt, erscheint stattdessen der hochgestellte Index
3D:
g (2/N ) (~r1 , ~r2 ) = g 3D (~r1 , ~r2 )
(2.24)
Bezieht sich die Paarverteilungsfunktion auf zwei Moleküle, so bezeichnet ~r1 bzw. ~r2 einen
festgelegten Punkt im entsprechenden Molekül, beispielsweise den Schwerpunkt.
2 Physikalisch-Chemischer Hintergrund
Seite 12
Für jedes Atom i der beiden mit g 3D in Bezug gesetzten Moleküle kann durch radiale Mittelung von g 3D um seinen Aufpunkt ~ai , d.h. seine Position im Molekül, folgende Funktion
gewonnen werden:
1
gi (r) := 4 3
3 πr
ˆ
0
r
g 3D ~r ′ − ~ai d~r ′
(2.25)
wobei |~r − ~ai | die Euklidische Norm des Vektors ~r − ~ai bezeichnet. Da gi per Definition
radial symmetrisch ist, bezeichnet man sie als radiale Paarverteilungsfunktion.
Mittels der radialen Paarverteilungsfunktion lässt sich wie folgt eine bedingte Dichte formulieren:
Sind in der Statistik zwei Zufallsvariablen X und Y mit gemeinsamer Dichte f (x, y) gegeben, so ist die Wahrscheinlichkeitsdichte der bedingten Wahrscheinlichkeit, Werte für Y
zu bekommen, wenn X gewisse Werte annimmt, gegeben durch
fY |X (y|x) =
f (x, y)
g(x)
(2.26)
wobei g(x) die Dichte von X ist. Mit
ρ(2/N ) (~ri , ~r2 ) = ρ(2/N ) (r) = ρgi (r)
(2.27)
ist somit die Dichte der bedingten Wahrscheinlichkeit gegeben, ein beliebiges Atom im
Abstand r zu finden, während sich Atom i am Nullpunkt aufhält.
Für die weiteren Betrachtungen der vorliegenden Arbeit werden an dieser Stelle folgende
Funktionen eingeführt:
gi1D (r) := 4πr2 gi (r)
(2.28)
3D ′
(2.29)
gi
(~r) := gi (r = |~r − ~ai |)
Handelt es sich bei dem betrachteten System um ein „einfaches“, monoatomares Fluid, was
bedeutet, dass die in ihm enthaltenen Moleküle aus einem einzigen, strukturlosen Atom
bestehen, so hängt die Paarverteilungsfunktion allein vom Abstand r = |~r1 − ~r2 | der beiden
Moleküle, bzw. in diesem Fall Atome, voneinander ab. Daraus ergibt sich, dass durch die
vorstehenden Transformationen (2.25) und (2.29) keinerlei Information verloren geht:
′
gi3D (~r) = g 3D (~r)
(2.30)
In der Regel bestehen die betrachteten Moleküle jedoch aus mehreren Atomen. In dieser
Situation kann die Paarverteilungsfunktion an unterschiedlichen Raumpunkten um ein
Atom der beiden Moleküle verschiedene Werte annehmen, auch wenn diese Punkte zu dem
2 Physikalisch-Chemischer Hintergrund
Seite 13
entsprechenden Atomaufpunkt den selben Abstand haben - die Paarverteilungsfunktion
ist in diesem Fall nicht radial symmetrisch. Als Konsequenz ergibt sich, dass durch die
Transformationen Information vernichtet wird, das heißt,
′
gi3D (~r) 6= g 3D (~r)
(2.31)
Der einfachste, nichttriviale Fall einer solchen Situation ist durch ein zweiatomiges gelöstes
Molekül in einem einatomigen Lösungsmittel gegeben. An diesem Fall soll vorstehender
Sachverhalt veranschaulicht werden.
Abb. 2.2: Skizze des gelösten Moleküls im Lösungsmittel
Die beiden Atome des gelösten Moleküls sind in der obigen Skizze mit 1 und 2 bezeichnet,
das Atom des Lösungsmittels mit 3. Der Schwerpunkt des gelösten Moleküls ist mit SP
gekennzeichnet. Die Skizze zeigt deutlich, dass die Paarverteilungsfunktion der beiden Moleküle um beispielsweise Atom 1 nicht radial symmetrisch ist. Besonders bei kleinen Radien
wird diese Asymmetrie sehr deutlich. Während sich in der dargestellten Anordnung links
von Atom 1 für jeden Radius Atome des Lösungsmittels (Atome 3) befinden können, ist
dies rechts von ihm für kleine Radien unmöglich, da dort der restliche Teil seines eigenen
Moleküls lokalisiert ist. Genauer gesagt bedeutet dies, dass die beiden radialen Paarverteilungsfunktionen die vorliegende Situation nicht hinreichend beschreiben, woraus sich das
Rekonstruktions-Problem ergibt.
2.2.3 Verläufe der radialen Paarverteilungsfunktion
Für jeden der unterschiedlichen Aggregatzustände ergibt sich eine für ihn typische Form
der radialen Paarverteilungsfunktion. Da sich die Betrachtungen dieser Arbeit ausschließlich auf Flüssigkeiten beziehen, wird im Folgenden der typische Verlauf einer radialen
Paarverteilungsfunktion in einem Fluid betrachtet. Abbildung 2.3 gibt die Struktur einer
Flüssigkeit wieder, mit der sich der Funktionsverlauf der radialen Paarverteilungsfunktion
aus Abbildung 2.4 ergibt. σ beschreibt hierbeiden Van-der-Waals-Durchmesser
der Atome,
welcher beispielsweise für Argon σAr = 3.4 Å 1 Angström = 1 Å = 10−10 m ist.
2 Physikalisch-Chemischer Hintergrund
Seite 14
Abb. 2.3: Struktur eines Fluids (nach [7, S.198])
Obwohl sich die Teilchen in einer Flüssigkeit bewegen, erkennt man an Abbildung 2.3,
dass eine Nahordnung erhalten bleibt. Unmittelbar auf den Durchmesser σ folgt mit sehr
großer Wahrscheinlichkeit die erste Nachbarschale von Atomen, welche im Funktionsverlauf
(Abbildung 2.4) durch das erste Maximum angezeigt ist. Anschließend folgt ein Gebiet wesentlich niedrigerer Dichte. Bei dem Abstand 2σ ergibt sich das nächste Maximum, welches
die zweite Nachbarschale in Abbildung 2.3 anzeigt. Da sich diese Schale jedoch weiter weg
von dem Referenzatom befindet, wirken auf ihre Atome weniger die anziehenden Kräfte
des Referenzatoms als bei dem Abstand σ und somit ist die Wahrscheinlichkeit für ihre
Ausprägung an dieser Stelle geringer. Diese oszillierende Form der radialen Paarverteilungsfunktion setzt sich bis zu demjenigen Radius fort, der die maximale Reichweite der
Korrelationswirkung angibt. Dies sind bei dichten Fluiden typischerweise einige molekulare
Durchmesser.
Abb. 2.4: Typischer Verlauf der radialen Paarverteilungsfunktion in einer flüssigen und
gasförmigen Umgebung (nach [7, S.199])
In einem Gas hingegen ist die Reichweite der Korrelation lediglich die des intermolekularen
Paarpotentials. Es bilden sich keine Schalen um das betrachtete Atom, die Teilchen sind
2 Physikalisch-Chemischer Hintergrund
Seite 15
demzufolge ungeordnet. Aus diesen molekularen Beschreibungen eines Gases geht der für
sie, ebenfalls in Abbildung 2.4 gezeigte, typische Verlauf hervor.
Bei der graphischen Darstellung dieser Funktionen sei nochmals darauf hingewiesen, dass
sie nur aufgrund der besseren Darstellungsweise als univariate Funktionen aufgetragen
werden. Interessiert man sich jedoch für eine „echte“ radiale Paarverteilungsfunktion, also
eine Wahrscheinlichkeitsverteilung für das Auffinden eines Atoms in einem bestimmten
Abstand zu einem anderen Atom (in einer beliebigen Richtung vom Atomaufpunkt), so
muss die in (2.28) definierte Funktion g 1D (r) betrachtet werden.
2 Physikalisch-Chemischer Hintergrund
Seite 16
2.3 Ermittlung der radialen Paarverteilungsfunktion
Die radiale Paarverteilungsfunktion kann experimentell, aus approximativen Theorien und
aus Simulationen gewonnen werden.
Experimentell wird die radiale Paarverteilungsfunktion durch Streuexperimente mit Neutronen oder Röntgenstrahlen gemessen. Für eine genaue Beschreibung der Methode sei auf
[7] verwiesen.
Eine approximative Integralgleichungstheorie zur Berechnung molekularer Verteilungsfunktionen wurde von Chandler und Andersen [6] unter dem Namen „reference interaction
site model “ (RISM) eingeführt. Die Erweiterung dieses Modells auf dreidimensionale Korrelationsfunktionen ist als 3D-RISM-Gleichung [3, 24] bekannt. Im Orts-Raum ist die
3D-RISM-Gleichung über ein Faltungsprodukt definiert; nach Fourier-Transformation in
den reziproken Raum lässt sie sich übersichtlicher als Matrixgleichung der Form
ĥγ =
X
ĉγ χ̂γγ ′
(2.32)
γ′
darstellen. Hierbei ist χ̂ die sogenannte Lösungsmittelsuszeptibilität, eine numerisch gegebene Funktion, die von der Art und Dichte des Lösungsmittels abhängt. ĥ und ĉ sind
die Matrizen der fouriertransformierten totalen und direkten Korrelationsfunktionen. Bei
gegebener totaler Korrelationsfunktion hγ lässt sich mit
gγ3D (~r) = hγ (~r) + 1
(2.33)
die Verteilungsfunktion gγ3D (r) eines Lösungsmittelatoms für ein beliebiges starres gelöstes Molekül im Raum direkt ermitteln. Zur Berechnung der Korrelationsfunktionen muss
neben der RISM-Integralgleichung noch eine weitere Verknüpfung zwischen den Korrelationsfunktionen bestehen. Diese Beziehung ist über die so genannte „Closure“ gegeben. Für
diese Arbeit wurde die so genannte „hypernetted chain (HNC)-Closure“ [32]
hγ = exp(−βuγ + hγ − cγ ) − 1
mit
β = 1/(k T )
(2.34)
benutzt. Das nichtlineare 3D-RISM/HNC Gleichungssystem lässt sich nicht analytisch
lösen und muss iterativ gelöst werden. Für numerische Details sei auf Spezialliteratur
(z.B. [21]) verwiesen.
Der Zugang zu Verteilungsfunktionen über die Integralgleichung bietet im Gegensatz zu
Simulationen den Vorteil, dass die erhaltenen Verteilungsfunktionen frei von Rauschen
sind. Die radialen Verteilungsfunktionen werden durch radiale Integration mittels
2 Physikalisch-Chemischer Hintergrund
Seite 17
Lebedev-Quadratur [25] über g 3D (~r) um die jeweiligen Atomzentren im gelösten Molekül
berechnet. Auf diese Weise ist sichergestellt, dass die radialen Randverteilungen mit der
3D-Verteilung konsistent sind.
In diese Berechnungen der radialen Paarverteilungsfunktionen müssen Informationen über
die potentielle Energie der Atome eingehen. Es gibt verschiedene Modellansätze, die diesen
Verlauf angenähert beschreiben. Das am meisten gebrauchte unter ihnen ist das LennardJones-(12,6)-Potential, welches wie folgt definiert ist (nach [2, S.729]):
V LJ (r) = 4ǫ (σ/r)12 − (σ/r)6
(2.35)
wobei ǫ und σ zwei zu wählende Parameter sind. Für die in dieser Arbeit betrachtete
Ausgangssituation, welche sich aus einem zweiatomigen gelösten Molekül in einem monoatomaren Lösungsmittel ergibt, wurde das Lennard-Jones-(12,6)-Potential für die einzelnen
Atome wie folgt bestimmt: Für alle drei Atome wurden Parameter σi und ǫi gewählt. Das
Lennard-Jones-(12,6)-Potential für das Atome i wird durch
VijLJ (rij ) = 4ǫij (σij /rij )12 − (σij /rij )6
beschrieben, wobei
sij =
1
(si + sj )
2
und
ǫij =
√
ǫi · ǫj
(2.36)
(2.37)
ist (Lorentz-Berthelot Regel). Das in die Berechnungen des Potentials von Atom i eingehende Atom j ist für ein Atom im gelösten Molekül das jeweils andere Atom des gelösten
Moleküls. Bezeichnet i das Atom des Lösungsmittels, dann ist Atom j dasjenige des gelösten Moleküls, um wessen Aufpunkt radial integriert wird.
Da Computersimulationen den intuitivsten Zugang zur Ermittlung der radialen Paarverteilungsfunktion darstellen, werden im nächsten Abschnitt kurz die in der Physikalischen
Chemie verwendeten Simulationsmethoden vorgestellt und anhand dieser Methode der radialen Paarverteilungsgewinnung die Motivation der vorliegenden Arbeit verdeutlicht.
2.3.1 Molekulare Computersimulationen
Computersimulationen molekularer Vielteilchensysteme [1] sind ein wichtiges Hilfsmittel
bei Untersuchungen von physikalischen Systemen. Sie bilden dabei eine Brücke zwischen
Theorie und Experiment. Durch ihre kontrollierbare Genauigkeit und Reproduzierbarkeit
erlauben Computersimulationen die Entwicklung von möglichst realitätsnahen Modellen,
die somit detaillierte Informationen über die Struktur und Dynamik des untersuchten Systems liefern.
2 Physikalisch-Chemischer Hintergrund
Seite 18
Zwei konzeptionell unterschiedliche Ansätze der Computersimulation im hier betrachteten Gebiet sind die deterministische Molekulardynamik-Simulation (auch MD-Simulation
genannt) und die stochastische Monte-Carlo-Simulation (MC-Simulation).
Bei der MD-Simulation werden durch numerische Integration die Newtonschen Bewegungsgleichungen simultan für alle betrachteten Teilchen des Systems in diskreten Zeitschritten
gelöst. Ein System Newtonscher Bewegungsgleichungen beschreibt exakt die zeitliche Bewegung von N Atomen, die dem Einfluss eines definierten Modellpotentials ausgesetzt sind.
Da die von einer MD-Simulation erzeugten Zustände somit der natürlichen zeitlichen Entwicklung des Systems folgen, liegen sie entlang einer Trajektorie im Phasenraum. Gewöhnlich werden diese Berechnungen für 106 − 108 Zeitschritte durchgeführt. Die gewünschte
makroskopische Observable wird dann durch die zeitliche Mittelung gebildet.
In MC-Simulationen hingegen werden makroskopische Eigenschaften direkt aus dem Ensemblemittel (der gewichteten Mittelung über die dem Viel-Teilchen-System zugänglichen
Zustände) berechnet, wobei hier lediglich räumliche Informationen benutzt werden.
Da die MD-Simulation zeitliche Mittelwerte und die MC-Methode Ensemblemittel bildet,
folgt aus der Ergodenhypothese, dass die Resultate beider Simulationsmethoden vergleichbar sind.
Bei dem heutigen Stand der Rechenleistung sind die Simulationen jedoch zeitlich beschränkt, welches Untersuchungen langsamer molekularer Vorgänge nicht ermöglicht. Systematische Fehler ergeben sich durch die Modellierung der Systeme aufgrund von unvermeidbaren Diskretisierungen und die endliche Anzahl von simulierten Teilchen bzw. die
endliche Größe der Simulationsbox. Dies führt zu einer eingeschränkten Aussagekraft der
Ergebnisse. Um die letzten beiden Nachteile zu korrigieren, bezieht man so genannte periodischen Randbedingungen in die Berechnungen ein. Dabei wird die Simulationsbox mit
ihren Teilchen in alle Richtungen durch identische Boxen periodisch erweitert. Verlässt ein
Teilchen die Originalbox, so kommt ein identisches Teilchen genau auf der gegenüberliegenden Seite dieser Box wieder in sie hinein. Dieses wird exakt an der Stelle platziert, an
der sich das ursprüngliche Teilchen jetzt in der Nachbarbox befindet. Die Wechselwirkung
eines Teilchens mit anderen Teilchen geschieht nun boxübergreifend, das heißt, es werden
für dieses Teilchen alle anderen Teilchen in Betracht gezogen, die sich in seiner boxgroßen
Umgebung befinden, unabhängig davon, in welcher der Boxen sie genau sind. Unter Einbeziehung dieser periodischen Randbedingungen reicht eine geringe Zahl von Atomen (in
der Regel einige hundert bis einige tausend Moleküle) aus, um das Verhalten des Systems
gut zu approximieren.
2 Physikalisch-Chemischer Hintergrund
Seite 19
Wie aus einer Computersimulation letztlich die radiale Paarverteilungsfunktion ermittelt
werden kann, verdeutlicht ihre folgende äquivalente Formulierung [1, S.55]:
g
3D ′
(~r) = ρ
−2
·
*
XX
i
j6=i
δ(~ri ) δ(~rj − ~r)
+
V
= 2
N
*
XX
i
j6=i
δ(~r − ~rij )
+
(2.38)
Hierbei ist δ(x) die Delta-Funktion
δ(x) =

0
für x 6= 0
 ∞ für x = 0
(2.39)
In der Praxis wird anstelle der Delta-Funktion eine Funktion verwendet, die nicht an einer
Stelle, sondern in einem kleinen Bereich ungleich Null ist. Aus den sich aus der Simulation
ergebenden Abständen der Atome wird damit ein entsprechendes Histogramm erzeugt.
Ermittelt man aus einer molekularen Simulation die radialen Paarverteilungsfunktionen
mit (2.38), so gehen in die Berechnungen statistische Fehler ein. Dies hat zur Konsequenz,
dass die ermittelten radialen Paarverteilungsfunktionen verrauscht sind. Durch die Tatsache, dass viele der im Raum erzeugten Punkte einem Radiuswert entsprechen, kann jedoch
eine an die radiale Paarverteilungsgewinnung geforderte Genauigkeit möglichst gut realisiert werden. Soll allerdings eine drei- oder noch höher-dimensionale Verteilungsfunktion
erzeugt werden, so steigt die Anzahl der zu generierenden Punkte extrem an, will man die
selbe Genauigkeit erzielen.
Aufgrund der zeitlichen Begrenzung der Simulation können die höheratomaren Verteilungsfunktionen daher nicht ermittelt werden. Die zu diesen höheratomaren Verteilungsfunktionen gehörenden radialen Paarverteilungsfunktionen sind jedoch, wie vorstehend erläutert,
durch (2.38) sehr gut zugänglich. Es stellt sich somit die Frage nach einer Methode, die
höheratomare Verteilungsfunktion aus ihren radialen Paarverteilungsfunktionen zu rekonstruieren. Die vorliegende Arbeit beschäftigt sich mit der Übertragung dieser Aufgabenstellung in ein mathematisches Konzept, den Copulas, und untersucht Möglichkeiten und
Grenzen dieses Ansatzes.
3 Copula
Dieses Kapitel stellt zusammenfassend die Grundlagen des Copula-Konzepts vor, die in der
weiteren Arbeit benötig werden. Es orientiert sich stark an den entsprechenden Ausführungen in [33] und [16], weshalb für Beweise der in diesem Kapitel aufgestellten Theoreme
(wenn nicht anders angegeben) und für weitergehende Informationen auf die angegebene
Literatur verwiesen sei.
3.1 Grundlegende Definitionen und Eigenschaften
Es gibt zwei unterschiedliche Definitionen einer Copula. Zum einen ist sie definiert als
ein Funktional, welches eine multivariate Verteilungsfunktion durch ihre Randverteilungsfunktionen beschreibt und somit als Verknüpfung zwischen ihnen dient. Andererseits kann
die Copula selbst als eine multivariate Verteilungsfunktion betrachtet werden, die auf
I n = [0, 1]n gleichverteilte Randverteilungsfunktionen besitzt.
Um die erste Variante der Definition einer Copula formulieren zu können, sind vorab drei
Definitionen nötig:
Definition 3.1.1 (geerdet (grounded))
Seien S1 , S2 , . . . , Sn nichtleere Mengen in R, also S1 , . . . , Sn ⊆ R und S1 , . . . , Sn 6= ∅, und
H : S1 × · · · ×Sn → R. ai sei das kleinste Element aus Si , i = 1, . . . , n. Die Funktion H
heißt geerdet auf S1 × · · · ×Sn , wenn
H(~s) = 0
∀~s ∈ {~s ∈ S1 × · · · ×Sn | si = 0 für mindestens ein i ∈ {1, . . . , n}}
(3.1)
Definition 3.1.2 (H-Volumen)
n
Seien S1 , . . . , Sn und H wie in Definition 3.1.1. Für ~s, ~t ∈ R mit si ≤ ti ∀ i = 1, . . . , n sei
B = ~s, ~t = [s1 , t1 ] × · · · × [sn , tn ] ein beliebiges Rechteck, dessen Ecken in S1 × · · · ×Sn
liegen. Das H−Volumen von B ist gegeben durch
VH (B) :=
X
sgn(e) H(e)
e
wobei die Summe über alle Ecken e des Rechtecks läuft
(3.2)
3 Copula
Seite 21
und sgn(e) definiert ist durch

 1 wenn e = s für eine gerade Anzahl von k
k
k
sgn(e) =
 0 wenn e = s für eine ungerade Anzahl von k
k
k
(3.3)
Definition 3.1.3 (n-wachsend (n-increasing))
Seien S1 , . . . , Sn und H wieder wie in Definition 3.1.1. Die Funktion H heißt n-wachsend,
wenn VH (B) ≥ 0 für jedes Rechteck B, dessen Ecken in S1 × · · · ×Sn liegen.
Die Eigenschaft n-wachsend ist das n-dimensionale Analogon des Nichtfallens einer univariaten Funktion. Allerdings bedingt die Eigenschaft n-wachsend einer Funktion alleine
noch nicht das Nichtfallen dieser Funktion in jeder ihrer Komponenten.
Mit Hilfe dieser drei Definitionen ist es nun möglich, die erste Variante der CopulaDefinition zu formulieren:
Definition 3.1.4 (n- (dimensionale) Copula (1. Variante))
Eine n-(dimensionale) Copula ist eine Funktion C : I n → I, I = [0, 1], für die gilt:
1. C ist geerdet, d.h.
C(~u) = 0 ∀ ~u ∈ {~u ∈ I n | ∃ mindestens ein i ∈ {1, . . . , n} : ui = 0}
(3.4)
∀ ~u ∈ {~u ∈ I n | ui = 1 ∀ i ∈ {1, . . . , k − 1, k + 1, . . . , n}}
(3.5)
2.
C(~u) = uk
3. C ist n-wachsend, d.h.
∀ ~u, ~v ∈ I n mit ui ≤ vi , i = 1, . . . , n ist für B = [u1 , v1 ] × · · · × [un , vn ]
VC (B) ≥ 0
(3.6)
Bedingung 3 ergibt jetzt durch die zusätzliche Bedingung 1 das Nichtfallen einer Copula
C in jeder ihrer Komponenten.
3 Copula
Seite 22
Aus Definition 3.1.4 ergibt sich die Definition einer zweidimensionalen Copula, welche im
Mittelpunkt dieser Arbeit steht:
Definition 3.1.5 (Spezialfall n = 2)
Eine 2- (dimensionale) Copula ist eine Funktion C : I 2 → I, I = [0, 1], für die gilt:
1. C ist geerdet, d.h.
C(u, 0) = C(0, v) = 0 ∀ u, v ∈ I
(3.7)
2.
C(u, 1) = u,
C(1, v) = v
∀ u, v ∈ I
(3.8)
3. C ist 2-wachsend, d.h.
∀ u1 , u2 , v1 , v2 ∈ I mit u1 ≤ v1 und u2 ≤ v2 gilt
VC (B) = VC ([u1 , v1 ] × [u2 , v2 ])
= C(v1 , v2 ) − C(v1 , u2 ) − C(u1 , v2 ) + C(u1 , u2 )
≥0
(3.9)
Jede Copula ist in ihrem Verlauf nach oben und unten beschränkt. Diese Grenzfunktionen
heißen untere bzw. obere Fréchet-Hoeffding-Grenze.
Definition 3.1.6 (Fréchet-Hoeffding-Grenzen)
Die untere und obere Fréchet-Hoeffding-Grenze W n (~u) bzw. M n (~u) sind für ~u ∈ I n wie
folgt definiert:
W n : In → I ,
M n : In → I ,
~u 7→ max(u1 + u2 + · · · + un − n + 1, 0)
(3.10)
~u 7→ min(u1 , u2 , . . . , un )
(3.11)
Die obere Grenze M n (~u) bildet für alle Dimensionen n selbst eine Copula. Bei der unteren
Grenze W n (~u) ist dies nur für n = 2 richtig. Für Dimensionen n ≥ 3 erfüllt sie nicht mehr
alle an eine Copula gestellten Bedingungen und stellt somit nur noch eine punktweise
Untergrenze für die Werte jeder beliebigen Copula dar.
Für den zweidimensionalen Fall seien in Abbildung 3.1 und 3.2 die Graphen der FréchetHoeffding-Grenzen dargestellt.
Um eine bessere Übersicht über den Verlauf einer 2-Copula zu bekommen, wählt man als
graphische Darstellung oft ein Konturendiagramm. In einem solchen Diagramm werden
für bestimmte Konstanten a ∈ I die Graphen der Level-Mengen, die durch C(u, v) = a
gegeben sind, aufgetragen. Für die obere und untere Fréchet-Hoeffding-Grenze ergeben sich
die in Abbildung 3.3 und 3.4 dargestellten Diagramme.
3 Copula
Seite 23
W2 Hu1 ,u2 L
1
1
0.8
0.8
0.6
M2 Hu1 ,u2 L
0.4
1
0.8
0.6
0.4 u2
0.2
0
0
0.2 0.4
0.6
u1
0.8
1
0.6
0.4
0.2
0
0.2
0
0
Abb. 3.1: Graph der unteren FréchetHoeffding-Grenze W 2
0.2 0.4
0.6
u1
0.8
1
1
0.8
0.6
0.4 u2
0.2
0
Abb. 3.2: Graph der oberen FréchetHoeffding-Grenze M 2
u2
1
u2
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0
0.2
0.4
0.6
0.8
1
u1
0
0
Abb. 3.3: Konturendiagramm der unteren Fréchet-Hoeffding-Grenze
W2
0.2
0.4
0.6
0.8
1
u1
Abb. 3.4: Konturendiagramm der oberen
Fréchet-Hoeffding-Grenze M 2
Nachfolgendes Theorem verdeutlicht die Bedeutung der Fréchet-Hoeffding-Grenzen:
Theorem 3.1.1
Für jede n-Copula C gilt die Fréchet-Hoeffding-Ungleichung
W n (~u) ≤ C(~u) ≤ M n (~u)
∀ ~u ∈ I n
(3.12)
Einen weiteren Einblick in das Verhalten einer Copula liefert nachfolgendes Lemma, dessen
Beweis aus mehreren Teilschritten besteht (nachzulesen in der für dieses Kapitel genannten
Literatur).
Lemma 3.1.1 (Stetigkeit einer Copula)
Sei C eine n-Copula. Dann gilt für alle ~u, ~v ∈ I n
|C(~v ) − C(~u)| ≤
Das bedeutet: C ist gleichmäßig stetig auf I n .
n
X
k=1
|vk − uk |
(3.13)
3 Copula
Seite 24
Aus den bisherigen Definitionen und aufgezeigten Eigenschaften folgt konkret für den Graphen einer beliebigen 2-Copula C :
Der Graph bildet eine stetige Fläche im Einheitswürfel I 3 und wird begrenzt durch das
schiefe Viereck mit den Ecken (0, 0, 0) , (0, 1, 0) , (1, 0, 0) und (1, 1, 1) (Ecken liegen nicht
in einer Ebene). Darüberhinaus verläuft der Graph innerhalb der beiden Graphen der
Fréchet-Hoeffding-Grenzen.
Als weiteres Beispiel einer bekannten n-Copula ist noch die Produktcopula Πn zu nennen
Πn (~u) = u1 · u2 · . . . · un
∀ ~u ∈ I n
(3.14)
Abbildungen 3.5 und 3.6 zeigen den Graphen der zweidimensionalen Produktcopula Π2
und das entsprechende Konturendiagramm.
u2
1
1
0.8
0.8
0.6
Π2 Hu1 ,u2 L
0.6
0.4
0.4
0.2
0
0
0.2
0.4
0.6
u1
0.8
1
1
0.8
0.6
0.4 u2
0.2
0
Abb. 3.5: Graph der Produktcopula Π2
0.2
0
0
0.2
0.4
0.6
0.8
1
u1
Abb. 3.6: Konturendiagramm der Produktcopula Π2
3 Copula
Seite 25
3.2 Copula und Zufallsvariablen
Definition 3.2.1 (Verteilungsfunktion, 1-dim.)
Eine eindimensionale Verteilungsfunktion ist eine Funktion F : R → I, für die gilt:
1. F ist monoton nicht fallend (monoton wachsend)
2. F ist rechtsseitig stetig, d.h. F (x) =
lim
h>0,h→0
F (x + h)
∀x∈R
3. F (−∞) = 0 , F (∞) = 1
Die Verteilungfunktion einer Zufallsvariablen X beschreibt für ein x ∈ R die Wahrschein-
lichkeit P, mit der diese Zufallsvariable ein Element ω aus der Ereignismenge Ω auf einen
Wert ≤ x abbildet. Formal bedeutet dies:
F (x) = P(X ≤ x) = P({w ∈ Ω : X(w) ≤ x})
(3.15)
Die Verteilungsfunktion ist stetig, wenn die zugrundeliegende Zufallsvariable stetig verteilt
ist, sie also ihrerseits eine Wahrscheinlichkeitsdichte besitzt.
Definition 3.2.2 (Verteilungsfunktion, n-dim.)
n
Eine n-dimensionale Verteilungsfunktion ist eine Funktion H : R → I, für die gilt:
1. H ist n-wachsend
2. H ist rechtsseitig stetig, d.h. H(~x) =
lim
h>0,h→0
H(x1 , . . . , xi−1 , xi + h, xi+1 , . . . , xn )
∀ ~x ∈ R und i ∈ {1, . . . , n}
3. H ist geerdet
und
H(+∞, . . . , +∞) = 1
Diese Verteilungsfunktion beschreibt, analog zu oben, die Wahrscheinlichkeit, mit welcher
der n-dimensionale Zufallsvektor (X1 , . . . , Xn )T Elemente ω aus dem Ereignisraum Ω auf
n
Werte ~s ∈ R abbildet, für die si ≤ xi ∀ i = 1, . . . , n gilt. Formal lässt sich dies wie folgt
beschreiben:
H(~x) = P(X1 ≤ x1 , . . . , Xn ≤ xn )
= P({ω ∈ Ω : X1 (ω) ≤ x1 } ∩ · · · ∩ {ω ∈ Ω : Xn (ω) ≤ xn })
(3.16)
Eine n-dimensionale Verteilungsfunktion ist gleichzeitig auch eine gemeinsame Verteilungsfunktion, die
FXk (xk ) = P(X1 ≤ ∞, . . . , Xk−1 ≤ ∞, Xk ≤ xk , Xk+1 ≤ ∞, . . . , Xn ≤ ∞)
=
lim
xi →∞
i=1,...,n, i6=k
H(~x)
n
für ~x ∈ R
und für
k = 1, . . . , n
(3.17)
3 Copula
Seite 26
als Randverteilungsfunktionen besitzt. Diese Randverteilungsfunktionen lassen sich mit
(3.17) eindeutig aus der gemeinsamen Verteilungsfunktion H(~x) bestimmen. Umgekehrt
kann aus der alleinigen Kenntnis der Randverteilungsfunktionen nicht die gemeinsame Verteilungsfunktion konstruiert werden, da diese zusätzlich zu den Randverteilungsfunktionen
die Abhängigkeit zwischen den Zufallsvariablen beschreibt.
Folgendes Theorem stellt die zentrale Aussage des Copula-Konzepts dar:
Theorem 3.2.1 (Sklars Theorem (angewendet auf Zufallsvariablen))
Seien X1 , . . . , Xn Zufallsvariablen mit Verteilungsfunktionen F1 , . . . , Fn und gemeinsamer
Verteilungsfunktion H. Dann existiert eine n-Copula C so, dass gilt
H(~x) = C(F1 (x1 ) , . . . , Fn (xn ))
n
∀ ~x ∈ R
(3.18)
Sind alle Fi , i = 1, . . . , n stetig, so ist die Copula C eindeutig bestimmt. Im Falle der Unstetigkeit beschränkt sich die eindeutige Bestimmung auf den Bereich W (X1 ) × · · · ×W (Xn ),
wobei W (X1 ) der Wertebereich der Zufallsvariablen X ist.
Das folgende Beispiel soll das Theorem von Sklar (Theorem 3.2.1) und die Verwendung
von Copulas verdeutlichen:
Beispiel Zwei Zufallsvariablen X und Y mit den Verteilungsfunktionen F und G sind
genau dann unabhängig, falls für die Verteilungsfunktion H des zweidimensionalen Zufallsvektors (X, Y )T gilt:
H(x, y) = F (x) · G(y)
∀ (x, y) ∈ R
2
(3.19)
Eine äquivalente Formulierung dieser Aussage ist:
Zwei Zufallsvariablen X und Y mit den Verteilungsfunktionen F und G sind genau dann
unabhängig, falls ihre Copula die Produktcopula Π2 ist.
Das Theorem von Sklar lässt die Bedeutung der Copula bei der Beschreibung einer mehrdimensionalen Verteilungsfunktion erkennen. Da die Copula ein Funktional der Randverteilungsfunktionen ist, beschreibt sie die fehlenden mehrdimensionalen Abhängigkeitsstrukturen der zugrundeliegenden Zufallsvariablen. In der Darstellung einer gemeinsamen Verteilungsfunktion mit Hilfe einer Copula werden somit die Informationen über den Zusammenhang der Zufallsvariablen vollständig separiert von den Informationen über die univariaten
Randverteilungsfunktionen.
3 Copula
Seite 27
Die folgende Copula-Eigenschaft ist ein weiterer Grund, warum sich gerade die Finanzmathematik oft des Copula-Konzepts bedient: Copulas sind invariant unter streng monoton
wachsenden Funktionen.
Theorem 3.2.2
Sei (X1 , . . . , Xn )T ein Zufallsvektor stetig verteilter Zufallsvariablen mit Copula C. Wenn
f1 , . . . , fn streng monoton wachsende Funktionen auf W (X1 ) , . . . , W (Xn ) sind, dann hat
auch (f1 (X1 ) , . . . , fn (Xn ))T die Copula C.
Der positive Aspekt dieser Aussage liegt für die Finanzmathematik darin begründet, dass
sich bei der Bestimmung einer Verteilungsfunktion eines Aktienportfolio keine Änderungen
ergeben, unabhängig davon, ob als Randverteilungen die realen Aktienkurse oder die in
der Finanzmathematik oft verwendeten „log-Kurse“ eingehen.
Als nächstes wird die Umkehrung des Satzes von Sklar angegeben, welche eine Konstruktionsmöglichkeit für Copulas bietet.
Definition 3.2.3 (Pseudo-Inverse einer Verteilungsfunktion)
Die Pseudo-Inverse F [−1] einer Verteilungsfunktion F ist wie folgt definiert:

 x, so dass gilt F (x) = u ∀ u ∈ W (F )
F [−1] (u) =
 inf {x ∈ R | F (x) ≥ u}
sonst
(3.20)
Wenn F stetig und streng monoton steigend ist, ist die Pseudo-Inverse die gewöhnliche
Inverse F −1 der Verteilungsfunktion F .
Mittels der letzten Definition kann die Umkehrung des Theorems von Sklar formuliert
werden:
Korrolar 3.2.1
n
Sei H : R → I eine gemeinsame Verteilungsfunktion mit stetigen eindimensionalen Rand[−1]
verteilungsfunktionen F1 , . . . , Fn : R → I. Sei weiter C eine Copula und Fi
Inverse von Fi , i = 1, . . . n. Dann gilt ∀ ~u ∈
die Pseudo-
In
[−1]
C(~u) = H F1 (u1 ) , . . . , Fn[−1] (un )
(3.21)
Aus den bisherigen Beobachtungen lässt sich abschließend das folgende, für diese Arbeit
wichtige Resultat ableiten:
3 Copula
Seite 28
Sind n eindimensionale Verteilungsfunktionen F1 , . . . , Fn und eine beliebige n-Copula C
gegeben, so ist mit
F (x1 , . . . , xn ) = C(F1 (x1 ) , . . . , Fn (xn ))
(3.22)
eine n-dimensionale Verteilungsfunktion gegeben, deren Randverteilungsfunktionen F1 ,
. . . , Fn sind.
Definition 3.2.4 (Rechteckverteilung)
Sei −∞ < a < b < ∞. Die Zufallsvariable X heißt rechteckverteilt im Intervall [a, b]
(R (a, b)-verteilt), wenn X stetig verteilt ist und folgende Dichte besitzt
f (t) =



1
b−a
0
für a < t < b
(3.23)
sonst
Die zugehörige Verteilungsfunktion ergibt sich infolgedessen zu
Uab (x) =









0
x−a
b−a
1
für x ≤ a
für a < x < b
(3.24)
für x ≥ b
Durch Einführen der Rechteckverteilung lässt sich auch die zweite Variante der Definition
einer Copula formulieren. Hierbei wird die Copula, wie sie vorstehend betrachtet wurde,
zu einer gemeinsamen Verteilungsfunktion fortgesetzt.
Definition 3.2.5
Sei C eine zu den Zufallsvariablen X1 , . . . , Xn gehörende Copulafunktion mit Definitionsbereich [0, 1]n . Dann kann diese Copula wie folgt zu einer gemeinsamen Verteilungsfunktion
erweitert werden, die in dem Bereich [0, 1]n gleichverteilte Randverteilungsfunktionen besitzt:
HC (~x) = C(J(x1 ) , . . . , J(xn ))
(3.25)
wobei
J(z) =



0


z



1
für z < 0
für z ∈ [0, 1]
für z > 1
(3.26)
3 Copula
=⇒
Seite 29



0




 C(~x)
HC (~x) =

 xk




1
für x1 oder x2 oder . . . oder xn < 0
für ~x ∈ [0, 1]n
(3.27)
für xk ∈ [0, 1] , x1 , . . . , xk−1 , xk+1 , . . . , xn > 1
für xi > 1 ∀ i ∈ {1, . . . , n}
Daraus folgt: Man kann die Copula betrachten als eine gemeinsame Verteilungsfunktion,
die auf I n beschränkt R(0, 1) -verteilte Randverteilungsfunktionen besitzt.
Jede n-Copula lässt sich allgemein in eine absolut stetige Komponente AC und eine singuläre Komponente SC zerlegen:
C(~u) = AC (~u) + SC (~u)
wobei
AC (~u) =
ˆ
0
u1
···
un
ˆ
0
∂n
C(s1 , . . . , sn )ds1 · · · dsn
∂s1 · · · ∂sn
(3.28)
(3.29)
die stetige Komponente und
SC (~u) = C(u1 , . . . , un ) − AC (u1 , . . . , un )
(3.30)
die singuläre Komponente darstellt.
Ist C ≡ AC auf I n , dann nennt man C absolut stetig und C besitzt die Dichte
c(~u) =
∂ n C(~u)
∂u1 · · · ∂un
(3.31)
Da eine Dichte auf dem ganzen Raum definiert sein muss, ist zu beachten, dass die CopulaDichte exakt formuliert die Dichte der erweiterten Copula, wie sie in (3.27) beschrieben
wurde, ist.
3 Copula
Seite 30
3.3 Zusammenhangsmaße
Es existieren mehrere Möglichkeiten, einen Zusammenhang zwischen Zufallsvariablen quantitativ beschreiben zu können. Im Gegensatz zu dem bekanntesten dieser Abhängigkeitsmaße, dem linearen Korrelationskoeffizienten, existieren Maße, deren Ermittlung sich einzig
auf die zu den Zufallsvariablen gehörenden Copula bezieht. Dies hat zur Folge, dass sich
die positiven Eigenschaften einer Copula auf diese Maße übergehen.
3.3.1 Der lineare Korrelationskoeffizient
Der lineare Korrelationskoeffizient ist das bekannteste Maß der Statistik, um einen Zusammenhang zwischen zwei Zufallsvariablen zu beschreiben. Aufgrund seiner anschaulichen
Bedeutung und seiner einfachen Bestimmung ist er zugleich das am meisten gebrauchte.
Der lineare Korrelationskoeffizient ϕ zweier Zufallsvariablen X und Y ist durch [26, S.73]
Cov(X, Y )
ϕ(X, Y ) = p
V ar(X) · V ar(Y )
(3.32)
gegeben. Cov(X, Y ) bezeichnet hierbei die Kovarianz der beiden Zufallsvariablen [26, S.73]
Cov(X, Y ) = E([X − E(X)] · [Y − E(Y )])
(3.33)
wobei E(X) den Erwartungswert der Zufallvariablen X beschreibt, der im Falle einer
stetigen, mit der Dichte f verteilten Zufallsvariablen durch [26, S.51]
E(X) =
ˆ
∞
xf (x) dx
(3.34)
−∞
bestimmt wird.
V ar(X) beschreibt wie üblich die Varianz der Zufallsvariablen X, die durch [26, S.58]
gegeben ist.
V ar(X) = E [X − E(X)]2 = E X 2 − [E(X)]2
(3.35)
Der lineare Korrelationskoeffizient ϕ(X, Y ) bestimmt den Grad der linearen Abhängigkeit der Zufallsvariablen X und Y , wobei er Werte im Intervall [−1, 1] annehmen kann.
Ist ϕ(X, Y ) = −1 oder ϕ(X, Y ) = +1, so gilt mit Wahrscheinlichkeit 1 die Gleichung
Y = aX + b mit geeigneten Koeffizienten a und b. Nimmt der Korrelationskoeffizient den
Wert 0 an, so nennt man die zugrunde liegenden Zufallsvariablen unkorreliert. Aus der
Tatsache der Unkorreliertheit folgt jedoch nicht die Unabhängigkeit dieser Zufallsvariablen. Weitere für bestimmte Situationen unvorteilhafte Eigenschaften des linearen Korre-
3 Copula
Seite 31
lationskoeffizientens ergeben sich, da er nur eine globale Größe für die gesamte Verteilung
darstellt und seine Ermittlung momentenbasiert ist, was bedeutet, dass sie von den Randverteilungen abhängt.
3.3.2 Copulabasierte Zusammenhangsmaße
Die letzten beiden aufgeführten Nachteile des linearen Korrelationskoeffizienten werden
durch Abhängigkeitsbetrachtungen mittels der Copula behoben. In einer gemeinsamen
Verteilungsfunktion sind Informationen über die Randverteilungsfunktionen sowie Informationen über die Abhängigkeiten der eingehenden Zufallsvariablen gespeichert. Da eine
Copula diejenige Funktion ist, welche die Randverteilungsfunktionen mit der gemeinsamen Verteilungsfunktion auf dem gesamten Definitionsraum verknüpft, beinhaltet sie die
vollständige Information über jegliche Abhängigkeitsstrukturen der Zufallsvariablen. Die
Copula selbst ist demzufolge mehr als nur ein globales Maß.
Lassen sich Zusammenhangsmaße aus einer Copula generieren, so sind diese zwar wiederum nur eine globale Größe für die gesamte Verteilung, sie sind aber unabhängig von den
eingehenden Randverteilungen. Ein weiterer Vorteil von copulabasierten Maßen ist die Invarianz dieser Maße unter streng monoton wachsenden Funktionen (auch nichtlinearer),
da die Copula selbst diese Eigenschaft nach Theorem 3.2.2 besitzt. Durch diese Tatsache
werden copulabasierte Maße gerne in der Finanzmathematik eingesetzt, da dort oftmals
Renditen in so genannte „log-Renditen“ umgewandelt werden und copulabasierte Zusammenhangsmaße dafür nicht neu berechnet werden müssen.
Viele der auf Copulas basierenden Zusammenhangsmaße beruhen auf der Konkordanz /
Diskordanz zweier Zufallsvariablen. Die bekanntesten unter ihnen sind Kendalls Tau (τ )
und Spearmans Rho (ρ).
Allgemein versteht man unter Konkordanz die Tatsache, dass „große“ Werte der Zufallsvariablen X tendenziell mit „großen“ Werten der Variablen Y auftreten. Diskordanz ist
dementsprechend der Zusammenhang „kleiner“ Werte mit „kleinen“ Werten.
Definition 3.3.1 (Konkordanz / Diskordanz)
Seien (xi , yi )T und (xj , yj )T zwei Realisierungen des Zufallsvektors (X, Y )T . Die beiden
Realisierungen besitzen folgende Eigenschaft:
(xi − xj ) · (yi − yj ) > 0 ⇒ sie sind konkordant
(3.36)
(xi − xj ) · (yi − yj ) < 0 ⇒ sie sind diskordant
(3.37)
3 Copula
Seite 32
Seien (X1 , Y1 )T und (X2 , Y2 )T zwei unabhängige Zufallsvektoren von stetig verteilten Zufallsvariablen mit gemeinsamen Verteilungsfunktionen H1 bzw. H2 , welche beide die gleichen Randverteilungsfunktionen F (von X1 und X2 ) und G (von Y1 und Y2 ) besitzen.
Seien weiter C1 und C2 die Copulas von (X1 , Y1 )T bzw. von (X2 , Y2 )T , so dass gilt:
H1 (x, y) = C1 (F (x) , G(y))
und H2 (x, y) = C2 (F (x) , G(y))
Q gebe die Differenz zwischen der Wahrscheinlichkeit von Konkordanz und Diskordanz der
Zufallsvektoren (X1 , Y1 )T und (X2 , Y2 )T an, d.h.
Q = P((X1 − X2 ) (Y1 − Y2 ) > 0) − P((X1 − X2 ) (Y1 − Y2 ) < 0)
(3.38)
Aus (3.38) folgt die alternative Formulierung von Q mit den Copulas C1 und C2
Q = Q(C1 , C2 ) = 4
¨
C2 (u, v) dC1 (u, v) − 1
(3.39)
I2
Definition 3.3.2 (Kendalls Tau (τ ))
Seien X und Y stetig verteilte Zufallsvariablen mit Copula C. Dann ist Kendalls Tau (τ )
gegeben durch
τX,Y = τC = Q(C, C) = 4
¨
C(u, v) dC(u, v) − 1 = 4 · E(C(u, v)) − 1
(3.40)
I2
Definition 3.3.3 (Spearmans Rho (ρ))
Seien (Xi , Yi )T , i = 1, 2, 3 drei unabhängige Zufallsvektoren mit gemeinsamer Verteilungsfunktion H. Die Randverteilungsfunktionen seien wie vorher F und G. Spearmans Rho
(ρ) misst die Differenz zwischen Konkordanz und Diskordanz von (X1 , Y1 )T (gemeinsame
Verteilungsfunktion H) und (X2 , Y3 )T (gemeinsame Verteilungsfunktion F (x) G(y)), d.h.
ρ = ρX,Y = 3 (P((X1 − X2 ) (Y1 − Y3 ) > 0) − P((X1 − X2 ) (Y1 − Y3 ) < 0))
(3.41)
Seien X, Y stetige Zufallsvariablen mit Copula C. Dann ist
2
ρX,Y = ρC = 3Q C, Π
= 12
¨
u v dC(u, v) − 3
(3.42)
I2
wobei Π2 die in (3.14) formulierte Produktcopula ist.
Zwischen Kendalls Tau (τ ) und Spearmans Rho (ρ) zweier Zufallsvariablen X und Y bestehen diverse gegenseitige Abschätzungen, die zum Beispiel in [33, S.141-S.146] nachzulesen
sind.
3 Copula
Seite 33
Ein weniger bekanntes Abhängigkeitsmaß, das sich jedoch ebenfalls aus einer Copula gewinnen lässt und auf Konkordanz / Diskordanz basiert, ist Ginis Maß (γ)
Definition 3.3.4 (Ginis Maß (γ))
Seien (Xi , Yi )T , i = 1, 2, 3 drei unabhängige Zufallsvektoren mit gemeinsamen Verteilungsfunktionen H(X, Y ), max(F (x) + G(y) − 1, 0) und min(F (x) , G(y)), welche alle die glei-
chen Randverteilungsfunktionen F (x) (von X1 , X2 , X3 ) und G(y) (von Y1 , Y2 , Y3 ) besitzen.
Ginis Maß (γ) ist wie folgt definiert:
γ = P((X1 − X3 ) (Y1 − Y3 ) > 0) − P((X1 − X3 ) (Y1 − Y3 ) < 0)
+P((X1 − X2 ) (Y1 − Y2 ) > 0) − P((X1 − X2 ) (Y1 − Y2 ) < 0)
(3.43)
Seien X, Y erneut stetige Zufallsvariablen mit Copula C. Dann ergibt sich mit den in
Definition 3.1.6 eingeführten Fréchet-Hoeffding-Grenzen M 2 und W 2
γX,Y = γC = Q C, M 2 + Q C, W 2 = 2
¨
(|u + v − 1| − |u − v|) dC (u, v)
(3.44)
I2
Vorstehendes bedeutet, dass γ die Konkordanz-Diskordanz-Beziehung zwischen C und monotoner Abhängigkeit misst, die durch die Copulas M und W ausgedrückt werden.
Jedes dieser drei Maße (Kendalls Tau (τ ), Spearmans Rho (ρ) und Ginis Maß (γ)) kann
Werte in [−1, 1] annehmen. Wird einer der Extremwerte −1 oder 1 angenommen, so ist die
Copula der Zufallsvariablen die zweidimensionale Fréchet-Hoeffding-Ober-(W 2 ) bzw. Untergrenze (M 2 ). Bei den genannten Zusammenhangsmaßen bedingt jedoch, genau wie bei
dem linearen Korrelationskoeffizienten, der Wert 0 nicht die Unabhängigkeit der jeweiligen
Zufallsvariablen. Ein Maß, das dies erfüllt und dennoch über eine Copula definiert ist, ist
das folgende Unabhängigkeitsmaß (σ) von Schweizer und Wolff.
Definition 3.3.5 (Schweizer und Wolffs Unabhängigkeitsmaß (σ))
Seien X, Y stetige Zufallsvariablen mit Copula C. Dann ist
σX,Y = σC = 12
¨
|C(u, v) − u v| du dv
(3.45)
I2
ein Unabhängigkeitsmaß. Das bedeutet: Ist σX,Y = 0, so sind die Zufallsvariablen X und
Y unabhängig.
Eine Ausweitung dieser Maße auf höhere Dimensionen ist im Allgemeinen sehr komplex
und schwierig. Für das Unabhängigkeitsmaß von Schweizer und Wolff exisitiert jedoch eine
3 Copula
Seite 34
solche Erweiterung. Für eine n-dimensionale Copula ist σ wie folgt definiert:
n
σC
=
2n (n + 1)
2n − (n + 1)
ˆ
ˆ
· · · |C n (~u) − u1 · u2 · . . . · un | du1 du2 · · · dun
| {z }
(3.46)
In
Nicht ein Maß, sondern eine Form der zweidimensionalen Abhängigkeit ist die QuadrantenAbhängigkeit. Auch sie lässt sich auf höhere Dimensionen erweitern, wobei dann aus Quadranten Orthanten werden und man folglich eine Orthanten-Abhängigkeit beschreibt.
Definition 3.3.6 (Quadranten-Abhängigkeit)
Seien X und Y Zufallsvariablen. Sie sind genau dann positiv quadrantenabhängig (PQD),
wenn ∀ (x, y) ∈ R2 gilt
P(X ≤ x, Y ≤ y) ≥ P(X ≤ x) · P(Y ≤ y)
(3.47)
Wenn X und Y PQD sind, dann bedeutet dies, dass die Wahrscheinlichkeit, mit der die
Werte der Zufallsvariablen gleichzeitig klein (oder groß) sind, mindestens so groß ist, wie
wenn die Zufallsvariablen unabhängig wären. In der Copula-Schreibweise lässt sich diese
Abhängigkeit wie folgt ausdrücken:
∀ (x, y) ∈ R2
P QD ⇔ H(x, y) ≥ F (x) G(y)
∀ (u, v) ∈ I 2
⇔ C(u, v) ≥ uv
(3.48)
(3.49)
Die höherdimensionale Orthanten-Abhängigkeit lässt sich folgendermaßen beschreiben:
Definition 3.3.7 (Orthanten-Abhängigkeit)
~ = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor. X
~ ist „positiv lower“ orthanSei X
tenabhängig (PLOD), wenn ∀ ~x = (x1 , . . . , xn ) ∈ Rn gilt
n
Y
~
P (Xi ≤ xi )
P X ≤ ~x ≥
(3.50)
i=1
In der Finanzmathematik wird fast ausschließlich von folgenden Abhängigkeitsstrukturen
Gebrauch gemacht: Den so genannten asymptotischen oberen bzw. unteren Randabhängigkeiten (lower und upper tail dependence). Diese Strukturen bemessen, wie groß die
Wahrscheinlichkeit ist, dass sich im Grenzfall die beiden Zufallsvariablen gleich entwickeln.
Somit ermöglichen sie eine Untersuchung der Abhängigkeiten zwischen extremen Werten.
3 Copula
Seite 35
Definition 3.3.8 (obere Randabhängigkeit [22])
Seien X und Y stetig verteilte Zufallsvariablen mit Verteilungsfunktionen F bzw. G und
seien F −1 und G−1 die zugehörigen Inversen. Weiter soll der Grenzwert
λo (X, Y ) := lim λo (u) = lim P Y ≥ G−1 (u)X ≥ F −1 (u)
u→1−
u→1−
(3.51)
existieren. Dann sind X und Y
• asymptotisch abhängig im oberen Rand, wenn λo ∈ (0, 1]
• asymptotisch unabhängig im oberen Rand, wenn λo = 0.
Analog dazu lässt sich die untere Randabhängigkeit beschreiben:
Definition 3.3.9 (untere Randabhängigkeit [22])
Seien X, Y , F , G, F −1 und G−1 wie in 3.3.8. Existiert der Grenzwert
λu (X, Y ) := lim λu (u) = lim P Y ≤ G−1 (u)X ≤ F −1 (u)
u→0+
u→0+
(3.52)
dann sind X und Y
• asymptotisch abhängig im unteren Rand, wenn λu ∈ (0, 1]
• asymptotisch unabhängig im unteren Rand, wenn λu = 0.
Durch eine Copula lassen sich diese Abhängigkeiten folgendermaßen bestimmen [22, S. 31]:
1 − 2u + C(u, v)
1−u
u→1−
C(u, v)
λu = lim
u
u→0+
λo = lim
(3.53)
(3.54)
3 Copula
Seite 36
3.4 Konstruktion von Copulas
3.4.1 Grundlegende Konstruktionsmethoden
Es existieren einige Methoden, eine zweidimensionale Copula zu konstruieren. Die eingängigste unter ihnen ist die Inversionsmethode. In Anlehnung an Sklar’s Theorem (Theorem
3.2.1) wird hierbei eine Copula aus einer gegebenen mehrdimensionalen Verteilungsfunktion wie folgt extrahiert:
Ist eine stetige, gemeinsame bivariate Verteilungsfunktion H gegeben, so können aus ihr die
Randverteilungsfunktionen F und G nach (3.17) und damit ihre entsprechenden Inversen
F −1 bzw. G−1 bestimmt werden. Durch
C(u, v) = H F −1 (u) , G−1 (v)
(3.55)
erhält man einen Ausdruck für die Copula C.
Neben der Inversionsmethode existieren diverse andere Möglichkeiten, Copulas zu konstruieren bzw. beliebig zu modellieren. So können zum Beispiel Copulas entwickelt werden, die
singulär sind und deren Träger (Bereich des Definitionsbereiches, der nicht auf Null abgebildet wird) in einem gewünschten Gebiet liegen. Ein solches Gebiet kann beispielsweise
einer der Schnitte der Copula sein, der sich zum Beispiel für den diagonalen Schnitt für
eine beliebige Konstante a ∈ I durch die Funktion δC : I → I, t 7→ C(t, t) ergibt.
Ein weiteres Beispiel einer Copula-Konstruktion ist durch eine Methode gegeben, die es
ermöglicht, eine Copula so zu konstruieren, dass sie sich in einer ihrer Variablen durch ein
Polynom beliebigen Grades beschreiben lässt. In [33, S. 53 - S. 87] ist eine ausführliche
Beschreibung dieser und weiterer Methoden zu finden.
Eine prinzipielle Möglichkeit, eine Copula aus schon bekannten Copulas zu erhalten, ist
durch eine beliebige Konvexkombination dieser Copulas gegeben. Ist {Cϑ } eine endliche
Menge von Copulas, dann ist jede Konvexkombination mit Copulas aus dieser Menge erneut
eine Copula. Ist ϑ die Beobachtung einer stetig verteilten Zufallsvariablen mit Verteilungsfunktion Λ, dann ist
′
C (u, v) =
ˆ
Cϑ dΛ(ϑ)
(3.56)
R
ebenfalls eine Copula, genannt die konvexe Summe von {Cϑ } bezüglich Λ. Auch wenn die
einzelnen Copulas der Menge singulär sind, kann die konvexe Summe dieser Copulas eine
stetige Copula ergeben.
Konstruktionen von höherdimensionalen Copulas sind im Allgemeinen schwer zugänglich.
Die „naive“ Konstruktion einer höherdimensionalen Copula durch Ersetzen der Argumente
3 Copula
Seite 37
niedrigdimensionaler Copulas durch ebenfalls niedrigdimensionalere Copulas scheitert oft.
Sind zum Beispiel C1 und C2 zwei bivariate Copulas, so ist C3 (u, v, w) = C2 (C1 (u, v) , w)
meist keine trivariate Copula. Es gibt jedoch für ein paar Konstruktionsmethoden Erweiterungen für die Konstruktion n-dimensionaler Copulas.
Eine dieser Methoden ist die nachfolgend eingeführte Konstruktion von so genannten Archimedischen Copulas.
3.4.2 Konstruktion Archimedischer Copulas
Neben der erwähnten Möglichkeit der Erweiterung der Konstruktionsmethode für Archimedische Copulas in höheren Dimensionen, beinhaltet diese Methode weitere positive Eigenschaften, welche den Archimedischen Copulas eine große Popularität verleihen. Ein
entscheidender Vorteil dieser Methode ist in ihrer Einfachheit begründet. Mit einer geeigneten univariaten Funktion, genannt Generator (-funktion), werden Copulas erzeugt. Die
Eigenschaften, welche diese Generatorfunktionen besitzen müssen, um eine Archimedische
Copula zu erzeugen, weisen beliebig viele univariate Funktionen auf. Dies führt dazu, dass
die Klasse von geeigneten Generatorfunktionen beliebig groß ist, was wiederum dazu führt,
dass sich in der Klasse der Archimedischen Copulas eine große Vielzahl von Copulas befinden, die teilweise sehr unterschiedliche Abhängigkeitsstrukturen repräsentieren können.
Darüberhinaus ermöglicht die exakte Zuweisung einer Generatorfunktion zu ihrer Copula,
dass man sich bei Untersuchungen der Eigenschaften einer Copula auf die entsprechenden Untersuchungen der Generatorfunktion beschränken kann. Da diese im Vergleich zu
der aus ihr erzeugten Copula eine wesentlich niedrigere Komplexität aufweist, stellt dies
eine starke Vereinfachung für die Gewinnung der Untersuchungsergebnisse dar. Nachfolgend werden die erwähnten Bedingungen an eine Generatorfunktion und die Konstruktion
Archimedischer Copulas formuliert:
Sie ϕ : [0, 1] → [0, ∞] eine stetige, strikt fallende und konvexe Funktion mit ϕ(1) = 0. ϕ[−1]
sei die Pseudo-Inverse von ϕ

ϕ−1 (t) für 0 ≤ t ≤ ϕ(0)
ϕ[−1] (t) :=
0
für ϕ(0) ≤ t ≤ ∞
(3.57)
Die Funktion ϕ[−1] (t) ist folglich stetig und nichtwachsend auf [0, ∞] (Abbildung 3.7),
wohingegen sie auf [0, ϕ(0)] streng monoton fallend ist (Abbildung 3.8).
Ist für die Generatorfunktion ϕ der Archimedischen Copula ϕ(0) = ∞, dann heißt ϕ ein
strikter Generator. Eine strikte Generatorfunktion und ihre Inverse haben dementsprechend den in Abbildung 3.9 bzw. Abbildung 3.10 dargestellten Verlauf.
3 Copula
Seite 38
Abb. 3.7: Verlauf einer geeigneten Generatorfunktion ϕ (entnommen
aus [33, S.93])
Abb. 3.8: Verlauf der zugehörigen Pseudoinversen ϕ[−1] (entnommen
aus [33, S.93])
Abb. 3.9: Verlauf einer geeigneten strikten Generatorfunktion ϕ (entnommen aus [33, S.93])
Abb. 3.10: Verlauf der zugehörigen Inversen ϕ−1 (entnommen aus
[33, S.93])
Die Generatorfunktion erzeugt eine bivariate Archimedische Copula durch
Cϕ (u, v) = ϕ[−1] (ϕ(u) + ϕ(v))
∀ (u, v) ∈ I 2
(3.58)
An dem Beispiel der Erzeugung der Produktcopula Π2 wird die vorstehende Konstruktionsmethode deutlich:
Beispiel Sei ϕ(t) = − ln t für t ∈ I. Da ϕ(0) = ∞ ist ϕ strikt und
ϕ[−1] (t) = ϕ−1 (t) = exp(−t)
3 Copula
Seite 39
Für die Copula C ergibt sich somit
C(u, v) = exp(− [(− ln u) + (− ln v)]) = u v = Π2 (u, v)
Hieraus folgt, dass die Produktcopula eine strikte Archimedische Copula ist.
Ist die Generatorfunktion zusätzlich abhängig von einem Parameter ϑ ∈ R, so erzeugt sie
eine einparametrische Copula-Familie, deren Mitglieder mit Cϑ bezeichnet werden. Jede
dieser so generierten Copula-Familien repräsentiert eine bestimmte Abhängigkeitsstruktur,
beispielsweise die asymptotische Abhängigkeit im oberen Rand (siehe Definition 3.3.8).
Der Grad der Abhängigkeit bezüglich dieser Struktur wird durch den Parameter ϑ justiert.
Eine Auflistung einiger dieser einparametrischen Archimedischen Copula-Familien ist in
[33, S. 94 - S. 97] zu finden. Diese dort aufgeführten Copulas werden in späteren Kapiteln
dieser Arbeit verwendet, um eine analytische Beschreibung der aus den gegebenen Daten
extrahierten Copulas zu finden.
Wie oben erwähnt, existiert eine Erweiterung des Konzepts für höhere Dimensionen. Hierzu
muss die Generatorfunktion jedoch strikt sein und eine zusätzliche Eigenschaft aufweisen:
Sie muss auf I vollständig monoton sein. Eine Funktion g ist genau dann vollständig
monoton auf einem Intervall J, wenn sie dort stetig ist und ihre Ableitungen beliebiger
Ordnung folgende Bedingung erfüllen:
(−1)k
dk
g(t) ≥ 0
dtk
(3.59)
für alle t im Inneren von J und k = 0, 1, 2, . . ..
Besitzt eine Generatorfunktion alle diese Eigenschaften, so ist die durch
Cϕn (~u) = ϕ[−1] (ϕ(u1 ) + ϕ(u2 ) + · · · + ϕ(un ))
(3.60)
definierte Funktion eine n-dimensionale Copula. Gleichung (3.60) resultiert dabei aus dem
vorher dargestellten „naiven“ Ansatz der Konstruktion höherdimensionaler Copulas, der
sich wie folgt formulieren lässt:
C n (u1 , u2 , . . . , un ) = C C n−1 (u1 , u2 , . . . , un−1 ) , un
(3.61)
4 Wahl einer passenden Copula
In der Literatur werden unterschiedliche Wege aufgezeigt, eine zu gegebenen Randbedingungen passende Copula auszuwählen. Diese lassen sich zwei verschiedenen Verfahrensklassen zuordnen. Die Verfahren der einen Kategorie bestimmen die Copula, welche am besten
zu gegebenen Randbedingungen passt. Dagegen testen die Verfahren der anderen Kategorie, ob sich eine vorhandene Datenreihe aus einer bestimmten Copula mit einer hohen
Wahrscheinlichkeit ergeben könnte oder nicht. Im Folgenden werden zuerst drei der zur
ersten Klasse gehörenden Verfahren vorgestellt. Im zweiten Teil dieses Kapitels wird eine
Übersicht der Literatur zu einigen unterschiedlichen Testverfahren gegeben.
4.1 Auswahlmethoden
In diesem Abschnitt werden drei Verfahren der oben genannten ersten Kategorie vorgestellt. Das erste von ihnen, die Maximum-Likelihood-Methode, bestimmt, ausgehend von
vorhandenen Daten, diejenige Copula einer gegebenen Copula-Familie, die innerhalb dieser
Familie die Daten am wahrscheinlichsten erzeugen würde. Die zweite Methode bezieht sich
speziell auf die Bestimmung einer zu gegebenen Daten passenden Archimedischen Copula. Unter verschiedenen Copula-Familien wird hierbei diejenige ausgewählt, zu welcher die
den Daten am ehesten zugrunde liegende Copula zählt. Das dritte Verfahren beschreibt
einen anderen Zugang zur Wahl einer Copula. Ausgehend von Randbedingungen, die an
die Copula gestellt werden, wird die maximalentropische Copula modelliert.
4.1.1 Maximum-Likelihood-Methode
Die Maximum-Likelihood-Methode ist eine in der allgemeinen Statistik weit verbreitete
Methode, um anhand von gemessenen Daten die zugrunde liegende Verteilung zu schätzen. Sie beruht auf dem Prinzip der größten Plausibilität. Das bedeutet, es wird diejenige Dichte als Verteilung der Zufallsvariable gewählt, aus welcher sich der Ausgang der
vorliegenden Realisierung am wahrscheinlichsten ergeben würde. Grundsätzlich wird dies
durch Maximieren einer bestimmten Funktion erreicht. Die prinzipielle Vorgehensweise der
Maximum-Likelihood-Methode soll nachfolgend anhand einer klassischen eindimensionalen
Dichte demonstriert werden.
4 Wahl einer passenden Copula
Seite 41
Für eine Zufallsvariable X liegen n Messwerte x1 , . . . , xn vor. Es wird angenommen, die
Zufallsvariable X besäße eine zu einer parametrischen Verteilungsfamilie gehörende Ver~ ∈ Θ, Θ ⊂ Rk ist. Für das weitere Vorgehen werden die n
teilungsfunktion F ~ , wobei ϑ
ϑ
Messwerte als unabhängige Realisierung von n Zufallsvariablen X1 , . . . , Xn angesehen, die
identisch wie X verteilt sein sollen. Genauer gesagt bedeutet dies, dass sie alle dieselbe Verteilungsfunktion Fϑ~ und folglich auch dieselbe, zu Fϑ~ gehörende, Dichte fϑ~ besitzen. Auf
Grund der Annahme der Unabhängigkeit dieser Zufallsvariablen lässt sich die gemeinsame
~ beschreiben durch [26, S.118]
Dichte der Realsisierung abhängig von den Parametern ϑ
~ x1 , . . . , xn := f ~ (x1 ) · . . . · f ~ (xn )
L ϑ,
ϑ
ϑ
(4.1)
~ x1 , . . . , xn wird als Likelihood-Funktion zur Realisierung (x1 , . . . , xn )
Die Funktion L ϑ,
~ x1 , . . . , xn liefert folglich diejenigen Paramebezeichnet. Maximieren der Funktion L ϑ,
~ welche die Dichte f ~ referenzieren, für die sich die größte Wahrscheinlichkeit für die
ter ϑ,
ϑ
gegebene Realsierung ergibt.
wird oftmals der natürliche Logarithmus der
In der Praxis
~
Likelihood-Funktion ln L ϑ, x1 , . . . , xn maximiert, da die Maximalstellen beider Funk-
tionen identisch sind und sich in vielen Fällen der Logarithmus der Likelihood-Funktion
leichter maximieren lässt.
Angewendet auf die Wahl einer Copula ergibt sich daraus folgendes Verfahren:
Im Falle einer stetigen n-Copula C und ebenfalls stetigen Randverteilungsfunktionen F1 ,
~ ergibt sich für die gemeinsame Dichte von X
~ (s. Kapitel
. . . , Fn eines Zufallsvektors X
5.2.4)
f (x1 , . . . , xn ) = c(F1 (x1 ) , . . . , Fn (xn ))
n
Y
fi (xi )
(4.2)
i=1
wobei fi die sich aus der Randverteilungsfunktion Fi ergebende Dichte und c die CopulaT
~ und
dichte ist (3.31). Sei weiter xt1 , . . . , xtn t=1 eine Reihe von T Realisierungen von X
C eine durch α
~ parametrisierte Copula-Familie. Anwenden der Likelihood-Funktion (4.1)
auf das mehrdimensionale Problem liefert mittels (4.2)[35]
n
T X
T
X
X
~ α
ln fl xil ; ϑl
~ +
ln c F1 xi1 ; ϑi , . . . , Fn xin ; ϑi ; α
~ =
L ϑ,
i=1
(4.3)
i=1 l=1
~ = (ϑ1 , . . . , ϑn )T bezeichnet hierbei den Vektor der Parameter der Randverteilungsfunkϑ
tionen (F1 , . . . , Fn )T und α
~ den Parametervektor der Copula. Im Allgemeinen wird die
Bestimmung einer Dichte mittels der Maximum-Likelihood-Methode bei höheren Dimensionen sehr komplex, da alle Parameter simultan bestimmt werden müssen. Im CopulaKonzept hingegen werden die Parameter der Randverteilungsfunktionen vollständig von
4 Wahl einer passenden Copula
Seite 42
denen der gemeinsamen Abhängigkeitsstruktur (der Copula) separiert, weshalb es für diesen Fall möglich ist, die Parameter getrennt voneinander zu schätzen. Dieser Sachverhalt
lässt sich ebenso aus Gleichung (4.3) schließen.
Eine auf dieser Tatsache basierende Formulierung der Maximum-Likelihood-Methode für
Copulas ist die IFM-Methode („Method of Inference Functions for Margins“) [35, 14], in
welcher zuerst gleichzeitig alle Parameter der Randverteilungsfunktionen geschätzt und
anschließend mit diesen geschätzten Parametern die Parameter der Copula bestimmt werden. Neben dieser Methode existieren unter anderem auch solche, die für die ParameterSchätzung der Copula keine Angaben der Randverteilungsfunktions-Parameter benötigen
[31].
4.1.2 Wahl einer Archimedischen Copula
Nimmt man an, dass die den Daten zugrunde liegende Copula eine Archimedische sei,
dann kann aus diesen Daten diejenige Generatorfunktion bestimmt werden, welche die zu
ihnen passende Copula erzeugt. Im Gegensatz zu der vorgestellten Maximum-LikelihoodMethode, bei der eine Copula aus einer gegebenen Familie ausgewählt wurde, werden mit
dieser Methode aus einigen gegebenen Copula-Familien jeweils die zu den Daten passendste Copula ausgewählt und diese miteinander verglichen. Dies impliziert, dass neben der
Copula diejenige Copula-Familie bestimmt wird, welche die grundlegende Abhängigkeitsstruktur der Daten am wahrscheinlichsten beschreibt. Eingeführt wurde diese Methode von
Genest und Rivest [19]. Später wurde sie in [35, 13, 18, 14] aufgegriffen und erweitert.
Basis dieses Verfahrens ist die Einführung der gemeinsamen Verteilungsfunktion einer zweidimensionalen Copula C
K(z) = P(C ≤ z)
∀z ∈ I
(4.4)
Für diese Verteilungsfunktion kann gezeigt werden, dass sie sich einerseits direkt aus dem
Generator ihrer Copula bestimmen lässt, und dass sich andererseits aus den Daten eine
empirische Verteilungsfunktion konstruieren lässt, welche einen Schätzer für die Verteilungsfunktion darstellt. Zur besseren Unterscheidung zwischen den beiden Möglichkeiten,
die Verteilungsfunktion zu gewinnen, wird die Verteilungsfunktion, welche analytisch durch
die Generatorfunktion beschrieben werden kann, mit K(z) und die aus den Daten resulb
tierende, geschätzte Verteilungsfunktion mit K(z)
bezeichnet.
b
Aus n Realisierungen einer zweidimensionalen Zufallsvariable {(xi , yi )}Ti=1 kann K(z)
wie
folgt bestimmt werden:
4 Wahl einer passenden Copula
Seite 43
1. Definieren der Pseudo-Realisierungen Zi , i ∈ {1, . . . , n} durch
Zi = {Anzahl der (xj , yj ) , für die gilt: (xj < xi ) und (yj < yi )} / (n − 1)
b
2. Konstruieren von K(z)
durch
b
K(z)
= Anteil der Zi ≤ z
(4.5)
(4.6)
Für die analytische Beschreibung der Verteilungsfunktion einer Copula K(z) kann gezeigt
werden [33, S.103], dass sie mit der Generatorfunktion ϕ der Copula wie folgt verknüpft
ist:
K(z) = z −
ϕ(z)
ϕ′ (z)
(4.7)
Das Prinzip der Copula-Auswahl ergibt sich daraus wie folgt: Wird für die Bestimmung von
K(z) diejenige Generatorfunktion eingesetzt, welche die Copula erzeugt, die dem gegebenen
b
Datensatz zugrunde liegt, so sind sich K(z) und K(z)
sehr ähnlich.
Ist statt einer konkreten Generatorfunktion eine einparametrische Copula-Familie gegeben,
so muss aus dieser zuerst der zu den Daten gehörende Parameter geschätzt werden, um
K(z) erzeugen zu können. Aus nachfolgendem Theorem kann abgeleitet werden, dass dies
durch Kendalls Tau der Datenreihe realisiert werden kann.
Theorem 4.1.1
Seien X und Y zwei Zufallsvariablen, deren Copula C durch die Generatorfunktion ϕ
erzeugt wird. Kendalls Tau (τ ) lässt sich durch ϕ wie folgt bestimmen
τ =1+4
ˆ
1
0
ϕ(t)
dt
ϕ′(t)
(4.8)
Beweisskizze: Sei C die von ϕ erzeugte Archimedische Copula, die zu den Zufallsvariablen
X und Y gehört. Mit KC (z) sei das C-Maß der Levelmenge (u, v) ∈ I 2 |C(u, v) ≤ z
bezeichnet. Dann gilt für alle z ∈ I [33, S.101]
KC (z) = z −
ϕ(z)
ϕ′ (z)
(4.9)
Seien weiter die oben genannten Zufallsvariablen R(0, 1) - verteilt. Dann ist KC (z) gleichzeitig die gemeinsame Verteilungsfunktion von C(X, Y ) [33, S.103], also KC ≡ K. Einset-
4 Wahl einer passenden Copula
Seite 44
zen von (4.9) in die Gleichung zur Bestimmung von Kendalls Tau (τ ) (3.40) ergibt
τ = 4 E(C(X, Y )) − 1
ˆ 1
=4
z dK(z) − 1
0
1 ˆ 1
K(z) dz
= z · K(z) −
0
0
ˆ 1
K(z) dz
=3−4
0
ˆ 1
ϕ(z)
z−
=3−4
dz
ϕ′ (z)
0
ˆ 1
ϕ(z)
dz
=1+4
0 ϕ′ (z)
Kendalls Tau kann für eine Stichprobe einer zweidimensionalen Zufallsvariablen wie folgt
bestimmt werden:
Sei eine Realisierung von n identisch wie (X, Y ) verteilte Zufallsvektoren (Xi , Yi ) , i=1, . . . , n
gegeben, so ist ein Schätzer für Kendalls Tau (τ ) definiert durch [30]
−1 X
n
ϑ̂τ =
sgn [(Xi − Xj ) (Yi − Yj )]
2
(4.10)
i<j
Die signum-Funktion sgn (auch Vorzeichenfunktion ) ist dabei folgendermaßen definiert
sgn(x) =



−1 für x < 0


0 für x = 0



 +1 für x > 0
(4.11)
Aus den hergeleiteten Beziehungen zwischen den einzelnen Größen ergibt sich zusammenfassend folgender Algorithmus zur Wahl einer zu gegebenen Daten passenden Archimedischen Copula, bzw. ihrer Familie:
b
1. Bestimmen der empirischen Verteilungsfunktion K(z)
anhand der Daten durch (4.5)
und (4.6)
2. Schätzen von Kendalls Tau für die Daten mit (4.10)
3. Festlegung des Parameters ϑ für verschiedene Generatorfunktionen ϕi (ϑ, t) mittels
(4.8) und dem aus 2. resultierenden Wert für Kendalls Tau
4 Wahl einer passenden Copula
Seite 45
4. Beschreibung der analytischen Verteilungsfunktionen Ki (z) durch die in 3. bestimmten Generatoren
b
5. Vergleichen der verschiedenen Ki (z) mit K(z)
und Auswahl desjenigen Generators
b
ϕi (ϑ, t), für den Ki (z) am geringsten von K(z) abweicht
Um quantitativ entscheiden zu können, welche Verteilungsfunktion Ki (z) am wenigsten
b
von der empirischen Verteilungsfunktion K(z)
abweicht, werden in der Literatur unterschiedliche Methoden aufgezeigt. Frees und Valdez [18] schlagen einen optischen Verb
gleich des QQ-Plots von Ki (z) und K(z)
vor. Genestund Rivest [19] tragen die Funk-
b
tionen z − Ki (z) und z − K(z)
gegeneinander auf und vergleichen sie. Durrleman, Ni-
keghbali
und Roncalli
[14] bestimmen als Auswahlkriterium den minimalen Abstand
b
, Ki (z) der beiden Verteilungsfunktionen bezüglich der L2 -Norm
d2 K(z)
d2
ˆ
b
K(z) , Ki (z) :=
0
1h
b
Ki (t) − K(t)
i2
dt
(4.12)
Teilabschnitte dieses Verfahrens werden in Kapitel 6.2 und 6.3.1 der vorliegenden Arbeit
benutzt, um aus gegebenen Stichproben der dreidimensionalen atomaren Verteilungsfunktion Kendalls Tau zu schätzen und mit ihm Parameter Archimedischer Copulas zu bestimmen. Da für die physikalisch-chemische Ausgangssituation in der Regel nur die radialen
Paarverteilungsfunktionen bekannt sind, wurden diese Stichproben bezüglich der radialen
Paarverteilungsfunktionen und nicht bezüglich der echten Paarverteilung generiert. Dies
hat zur Folge, dass die Zufallszahlenpaare die korrekte Abhängigkeit nur approximativ
wiedergeben. Es wird sich jedoch in den entsprechenden Kapiteln zeigen, dass dies keine
Auswirkungen auf Kendalls Tau hat, da Kendalls Tau von dem Abstand der beiden Atome
im gelösten Molekül dominiert wird und von der Art der Atome nahezu unabhängig ist.
4.1.3 Maximalentropische Copula
Neben den beiden aufgeführten Verfahren zur Copula-Wahl existiert ein weiteres, das einen
anderen, interessanten Ansatz verfolgt. Der Vorteil dieses Verfahrens liegt darin beründet,
dass nicht zu Beginn eine oder mehrere Copula-Familien bestimmt werden müssen, welche
die grundlegende Abhängigkeitsstruktur der Daten beschreiben, sondern dass anhand von
Randbedingungen, die an die gemeinsame Dichte gestellt werden, die passende Copuladichte direkt modelliert wird. Die konstruierte Copuladichte ergibt sich dabei durch Maximierung der Shannonschen Informationsentropie [23, 40]. Diese Entropie ist prinzipiell ein Maß
für den fehlenden Informationsgehalt einer Dichte. Je höher ihr Entropiewert, desto höher
ist die Unsicherheit der Vorhersage einer aus ihr resultierenden Variablenausprägung.
4 Wahl einer passenden Copula
Seite 46
Die Shannonsche Informationsentropie SI einer Dichte f ist gegeben durch [23, S. 9]
SI (f ) = −
ˆ
f (x) log f (x) dx
(4.13)
R
wobei R die Menge beschreibt, für die gilt: f (x) ≥ 0. Aus der Definition der Shannonschen
Informationsentropie folgt, dass sie stets nichtnegativ ist. Den minimalen Entropiewert 0
nimmt die Ein-Punkt-Verteilung an, da das Ergebnis einer mit dieser Dichte verteilten
Zufallsvariablen eindeutig vorhergesagt werden kann. Dagegen besitzt die Gleichverteilung
die maximale Informationsentropie, da hier die genannte Unsicherheit am größten ist. Für
alle anderen Dichten befinden sich ihre Entropiewerte zwischen diesen beiden Extrema.
Soll eine unbekannte Dichte bestimmte Randbedingungen erfüllen, so folgt aus den vorstehenden Betrachtungen, dass diejenige Dichte am wahrscheinlichsten die gesuchte Dichte
ist, welche unter Berücksichtigung der gegebenen Randbedingungen die maximale Entropie aufweist. Genauer gesagt bedeutet dies, dass sie bezüglich der fehlenden Information
maximal entropisch ist.
Das sich hieraus ergebende Optimierungsproblem heißt Maximum-Entropie-Formalismus.
Für den Fall, dass die an die gemeinsame Dichte gestellten Randbedingungen beispielsweise
ihre Normierung sowie das Annehmen eines festgelegten Erwartungswertes sind, ergibt sich
folgende Formulierung des Problems
ˆ
f (x) ln f (x) dx
max SI (f ) = −
R
ˆ ∞
f (x) dx = 1
s.t.
−∞
ˆ ∞
xf (x) dx = µ
(4.14)
(4.15)
(4.16)
−∞
Es kann weiter gezeigt werden, dass sich die Entropie einer gemeinsamen Dichte additiv aus
den Einzel-Entropien ihrer Randdichten und der Entropie der Copuladichte zusammensetzt
[27]:
4 Wahl einer passenden Copula
Seite 47
Theorem 4.1.2
Sei f eine gemeinsame Dichte mit Randdichten f1 , . . . , fn . Die entsprechenden Verteilungsfunktionen seien mit F1 , . . . , Fn und die zugehörige Copuladichte mit c bezeichnet. Dann
gilt für die Informationsentropie SI der gemeinsamen Verteilung [27]
SI (f ) =
n
X
i=1
SI (fi ) + SI (c)
(4.17)
Beweis
SI (f ) = −
=−
=−
ˆ
∞
ˆ−∞
∞
−∞
···
=
n
X
i=1
=
=
n
X
i=1
n
X
i=1
−∞
f (x1 , . . . , xn ) ln(f (x1 , . . . , xn )) dx1 · · · dxn
ln(fi (xi ) · · · fn (xn ) c(F1 (x1 ) , . . . , Fn (xn )))
· f (x1 , . . . , xn ) dx1 · · · dxn
−∞
−
∞
ˆ−∞
∞
···
n ˆ ∞
X
i=1
ˆ
ˆ
ˆ
···
∞
−∞
∞
···
−∞
∞
SI (fi ) −
ˆ
∞
SI (fi ) −
ˆ
ˆ
−∞
−∞
ln(fi (xi )) f (x1 , . . . , xn ) dx1 · · · dxn
∞
ln(c(F1 (x1 ) , . . . , Fn (xn ))) dx1 · · · dxn
−∞
···
ˆ
···
ˆ
∞
−∞
∞
ln(c(F1 (x1 ) , . . . , Fn (xn ))) f1 (x1 ) · · · fn (xn )
· c(F1 (x1 ) , . . . , Fn (xn )) dx1 · · · dxn
−∞
ln(c(u1 , . . . , un )) c(u1 , . . . , un ) du1 · · · dun
SI (fi ) + SI (c)
Sind die Randdichten eines Problems bekannt, so folgt aus vorstehender Erkenntnis, dass
sich die Maximierung der Entropie der gemeinsamen Dichte auf die Maximierung der Entropie der Copula reduziert.
4 Wahl einer passenden Copula
Seite 48
Für die maximalentropische Copula lässt sich das Optimierungsroblem wie folgt formulieren [9, 10]
max
s.t
ˆ
c(u, v) log c(u, v) du dv
SI (c) = −
[0,1]2
ˆ
c(u, v) du dv = 1
[0,1]2
ˆ uˆ 1
0
ˆ
c(x, v) dx dv = u ,
0
0
[0,1]2
ˆ
1ˆ v
(4.18)
(4.19)
c(u, y) du dy = v
0
∀ u, v ∈ [0, 1]
h(u, v, ϑ) c(u, v) du dv = k
(4.20)
(4.21)
wobei k einen konstanten Wert und ϑ die Menge der Parameter beschreibt. Randbedingung
(4.21) ergibt sich beispielsweise für einen gewünschten Spearmans Rho (ρ) zu
ˆ
[0,1]2
u v c(u, v) du dv =
ρ+3
12
(4.22)
Mit der Multiplikatoren-Methode von Lagrange [5, S.418] lässt sich aus dem Optimierungsproblem eine allgemeine Form der Lösung bzw. der maximalentropischen Copula ermitteln.
4.2 Testverfahren
In einem Testverfahren werden, wie in der Einleitung erwähnt, keine Copulas anhand von
Daten ausgewählt, sondern gegebene Copulas auf ihre Güte hin getestet. So genannte
Goodness-of-Fit-Tests für Copulas finden sich zahlreich in der Literatur. Grundlage dieser
Tests ist eine von den Daten abhängige Testgröße, mit welcher entschieden wird, ob die
Nullhypothese, welche besagt, dass die zu testende Copula die den Daten zugrunde liegende sei, akzeptiert oder verworfen wird. Für die Ermittlung dieser Testgröße werden in
der Literatur verschiedene Varianten vorgestellt: Test-Verfahren, die auf der ProbabilityIntegral-Transform (PIT) basieren sind in [4] zu finden, solche, in denen die Testgröße auf
dem Kernel-Schätzer der Copula aufbaut, in [37]. In [34] wird eine Testgröße vorgeschlagen,
die auf positiv definiten Bilinearformen beruht. Ein Goodness-of-Fit-Test speziell für Archimedische Copulas ist in [36] zu finden. Hierbei basiert der Test auf der χ2 -Statistik. Die
Testgröße wurde anhand der Canonical-Maximum-Likelihood-Methode entwickelt. Einen
Überblick dieser und weiterer Testverfahren ist beipielsweise in [28] zu finden.
5 Extrahieren der Copulas aus
Modellbeispielen
Wie schon in der Einleitung erwähnt, ist die einfachste, nichttriviale Situation, in welcher
eine mehrdimensionale atomare Verteilungsfunktion existiert, durch ein zweiatomiges, gelöstes Molekül in einem monoatomaren Lösungsmittel gegeben. Für diese Konstellation
sind mittels der Integralgleichungstheorie die atomare Paarverteilungsfunktion des Lösungsmittelatoms, bezogen auf das gesamte gelöste Molekül, sowie die radialen Paarverteilungsfunktionen zwischen allen Atomen numerisch lösbar (s. Kapitel 2.3). Aus derartigen
Molekül-Konstellationen ist demzufolge die zugehörige zweidimensionale Copula eindeutig
ermittelbar. Ziel dieses Kapitels ist es, aus bekannten Situationen die Copulas zu extrahieren, um sie im nächsten Kapitel auf ihre Eigenschaften hin untersuchen zu können.
5.1 Beschreibung der gegebenen Modellbeispiele
Um eine jeweils anders geartete Situation für die oben beschriebene Molekül-Konstellation
zu erzeugen, können die in die Berechnungen eingehenden Größen dahingegen variiert werden, dass sich die vier, die Situation charakterisierenden, Parameter verändern. Die ersten
drei dieser charakterisierenden Parameter beziehen sich dabei auf die modellierte Atomart
des gelösten Moleküls (2 Atome, bezeichnet mit 1 und 2 / 2 Parameter) und des Atoms
im Lösungsmittel (1 Atom, bezeichnet mit 3 / 1 Parameter). Zusätzlich kann der Abstand
zwischen den beiden Atomen 1 und 2 im Molekül (symbolisiert durch |1 − 2| ), den der
vierte charakterisierende Parameter beschreibt, variiert werden. Folgende Skizze soll die
Bezeichnung der Atome verdeutlichen:
Abb. 5.1: Bezeichnung der Atome
5 Extrahieren der Copulas aus Modellbeispielen
Seite 50
Für diese Arbeit wurden insgesamt sechs ungleiche Situationen erzeugt, die sich nur in
der Art des Atoms 2 und des Abstandes unterscheiden. Die Atome 1 und 3 sind in jeder
Situation identisch. Sie sind in Anlehnung an das chemische Element Argon modelliert,
was mit Atomart A bezeichnet wird. Für das Atom 2 wurden drei unterschiedliche Atome
eingesetzt, die sich einmal 2 Å und einmal 4 Å entfernt vom Atom 1 befinden. Einmal entspricht das Atom 2 in seiner Modellierung ebenfalls einem Argon-Atom (A). In diesem Fall
ist das gelöste Molekül homoatomar. In den verbleibenden Fällen ist das gelöste Molekül
heteroatomar, wobei das zweite Atom mit B und C bezeichnet ist. Die Atomart B und
C resultieren jeweils aus Berechnungen mit unterschiedlich gewählten Größen. Die nachstehende Tabelle 5.1 führt die in dieser Arbeit benutzte Notation zur Spezifizierung der
einzelnen Fälle ein und bietet eine Übersicht über die beschreibenden vier Parameter.
Tab. 5.1: Notation und Parameter der einzelnen Fälle
Bezeichnung
1
2
3
|1 − 2|
A − A − 2 Å
A
A
A
2 Å
A − A − 4 Å
A
A
A
4 Å
A − B − 2 Å
A
B
A
2 Å
A − B − 4 Å
A
B
A
4 Å
A − C − 2 Å
A
C
A
2 Å
A − C − 4 Å
A
C
A
4 Å
Die atomare Verteilungsfunktion des Lösungsmittels „Argon“ (Atom 3) im Umfeld des gesamten gelösten Moleküls und die beiden zugehörigen radialen Paarverteilungsfunktionen
wurden für jeden der sechs Fälle mittels der Integralgleichungstheorie (Kapitel 2.3) berechnet. Hierbei wurden an 1003 äquidistant verteilten Punkten in der Box die Funktionswerte
ermittelt. Die in die Berechnungen eingegangenen Werte der in Kapitel 2.3 beschriebenen
Größen sind nachfolgend tabellarisch für alle Fälle dargestellt.
5 Extrahieren der Copulas aus Modellbeispielen
Seite 51
Tab. 5.2: In die Berechnungen eingegangene Parameterwerte
s1 [ Å]
ǫ1 [kJ/mol]
s2 [ Å]
ǫ2 [kJ/mol]
s3 [ Å]
ǫ3 [kJ/mol]
A − A − 2 Å
3.414
1.058
3.414
1.058
3.414
1.058
A − A − 4 Å
3.414
1.058
3.414
1.058
3.414
1.058
A − B − 2 Å
3.0
1.058
4.0
1.058
3.414
1.058
A − B − 4 Å
3.0
1.058
4.0
1.058
3.414
1.058
A − C − 2 Å
3.0
0.456
4.0
2.263
3.414
1.058
A − C − 4 Å
3.0
0.456
4.0
2.263
3.414
1.058
Fall
Um die verschiedenen Verteilungsfunktionen voneinander unterscheiden zu können, werden sie im Weiteren wie folgt bezeichnet: Die atomare Verteilungsfunktion des Atoms 3
in Bezug auf das gesamte gelöste Molekül wird mit g 3D indiziert. Die radialen Paarverteilungsfunktionen des Atoms 3, die sich auf eines der einzelnen Atome 1 oder 2 beziehen,
′
′
werden in Analogie zu Kapitel 2.2.2 mit g13D bzw. g23D bezeichnet. Der hochgestellte Index 3D bei den eingeführten Bezeichnungen verdeutlicht, dass es sich um Funktionen auf
dem reellen Raum R3 handelt, das heißt
g 3D = g 3D (x, y, z)
,
′
′
g13D = g13D (x, y, z)
′
′
und g23D = g23D (x, y, z)
(5.1)
mit (x, y, z) ∈ R3 .
Neben dem Verlauf dieser Funktionen sind die Untermengen ihrer Definitionsbereiche, auf
denen tatsächlich Funktionswerte für sie generiert wurden, eine weitere wichtige Angabe
für die folgenden Betrachtungen. Für g 3D ist dies eine quadratische Box mit Seitenlängen
19.8 Å, woraus sich
g 3D : R3 ⊇ [−9.9 , 9.9]3 → R
(5.2)
ergibt.
Nach Kapitel 2.2.2 hängen die radialen Paarverteilungsfunktionen allein vom Abstand
zwischen den beiden in Bezug gesetzten Atome ab - sie sind folglich kugelsymmetrisch.
′
′
Aufgrund dieses Sachverhaltes wurden für g13D und g23D jeweils Werte auf einer Kugel
generiert, deren Mittelpunkt der Aufpunkt des Atoms 1 (~a1 ) bzw. des Atoms 2 (~a2 ) ist.
Da die Atome 1 und 2 auf der x-Achse und symmetrisch zum Nullpunkt angeordnet sind,
ergeben sich als kartesische Koordinaten ihrer Aufpunkte ~a1 = (|1 − 2| /2 , 0 , 0)T und
5 Extrahieren der Copulas aus Modellbeispielen
Seite 52
~a2 = (−|1 − 2| /2 , 0 , 0)T . Als Kugelradius wurde für beide radialen Paarverteilungsfunktionen rk = 9.9 Å gewählt.
Die
aller Punkte innerhalb einer Kugel um den Mittelpunkt d~ mit Radius r sei mit
Menge
~ r bezeichnet
L d,
q
~ r := (x, y, z) ∈ R3 | (x − d1 )2 + (y − d2 )2 + (z − d3 )2 ≤ r
L d,
′
Mit Hilfe von (5.3) ergibt sich somit für g13D und g23D
′
(5.3)
′
′
g13D : R3 ⊇ L(~a1 , rk ) → R und g23D : R3 ⊇ L(~a2 , rk ) → R
(5.4)
Nachfolgend werden alle gegebenen Daten für die sechs verschiedenen Fälle graphisch dargestellt.
Für jeden Fall werden zuerst die beiden zugehörigen radialen Paarverteilungsfunktionen
aufgetragen, die sich zwischen dem ersten bzw. dem zweiten Atom im gelösten Molekül
′
′
und dem Atom im Lösungsmittel ergeben, also g13D und g23D . Durch ihre radiale Symmetrie ergibt sich, ausgehend von dem jeweiligen Atomaufpunkt, in jede Richtung derselbe
Funktionsverlauf. Es ist daher ausreichend, diesen Verlauf nur entlang einer Richtung dar′
′
zustellen. In dieser Darstellung werden g13D und g23D folglich gegen den Abstand r des
Punktes in der Kugel zu dem entsprechenden Atomaufpunkt aufgetragen. Bei den Fällen
′
′
A − A − 2 Å und A − A − 4 Å ist zu beachten, dass g13D ≡ g23D , da die Atome 1 und 2 dort
identisch sind. Die aufgetragenen Daten bilden die Basis für die später zu ermittelnden
Randdichten des mehrdimensionalen Problems.
Die darauf folgenden zwei Graphiken jeder Situation zeigen den Verlauf von g 3D auf einer
Schnittebene der Box auf. Durch die Symmetrie der atomaren Verteilungsfunktion bezüglich der x-Achse ist es gleich, ob für diese Betrachtung die xz-Ebene (bei y = 0) oder die
xy-Ebene (bei z = 0) gewählt wird. In dieser Arbeit wird hierbei stets der Verlauf auf der
xy-Ebene, also g 3D (x, y, 0) aufgetragen. Neben der hierfür gewöhnlichen dreidimensionalen
Darstellung wird zusätzlich das zugehörige Konturendiagramm abgebildet.
5 Extrahieren der Copulas aus Modellbeispielen
Seite 53
A − A − 2 Å
2,0
1,5
1,5
(r)
2
3D'
1,0
1,0
g
1
g
3D'
(r)
2,0
0,5
0,5
0,0
0,0
0
2
4
6
8
0
10
2
4
6
r
8
10
r
′
′
Abb. 5.2: g13D bei A − A − 2 Å
Abb. 5.3: g23D bei A − A − 2 Å
y
10
5
3
g3 D Hx,y,0L 2
1
0
-9.8
9.8
9.9
5
0 y
-5
-5
x
0
0
-5
5
-10
-10
9.9 -9.8
Abb. 5.4: Graph
von
A − A − 2 Å
g 3D
bei
-5
0
5
10
x
Abb. 5.5: Konturendiagramm von g 3D
bei A − A − 2 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 54
A − A − 4 Å
2,0
1,5
1,5
2
3D'
g
1
1,0
g
3D'
(r)
(r)
2,0
0,5
1,0
0,5
0,0
0
2
4
6
8
0,0
10
0
r
2
4
r
6
8
10
′
′
Abb. 5.7: g23D bei A − A − 4 Å
Abb. 5.6: g13D bei A − A − 4 Å
y
10
5
3
g3 D Hx,y,0L 2
1
0
-9.8
9.8
9.9
5
0 y
-5
-5
x
0
0
-5
5
-10
-10
9.9 -9.8
Abb. 5.8: Graph
von
A − A − 4 Å
g 3D
bei
-5
0
5
10
x
Abb. 5.9: Konturendiagramm von g 3D
bei A − A − 4 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 55
A − B − 2 Å
2,0
1,5
1,5
(r)
2
3D'
1,0
1,0
g
1
g
3D'
(r)
2,0
0,5
0,5
0,0
0,0
0
2
4
6
8
0
10
2
4
6
r
8
10
r
′
′
Abb. 5.10: g13D bei A − B − 2 Å
Abb. 5.11: g23D bei A − B − 2 Å
y
10
5
3
g3 D Hx,y,0L 2
1
0
-9.8
9.8
9.9
5
0 y
-5
-5
x
0
0
-5
5
-10
-10
9.9 -9.8
Abb. 5.12: Graph
von
A − B − 2 Å
g 3D
bei
-5
0
5
10
x
Abb. 5.13: Konturendiagramm von g 3D
bei A − B − 2 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 56
A − B − 4 Å
2,0
1,5
1,5
(r)
2
3D'
1,0
1,0
g
1
g
3D'
(r)
2,0
0,5
0,5
0,0
0,0
0
2
4
6
8
10
0
2
4
6
8
10
r
r
′
′
Abb. 5.14: g13D bei A − B − 4 Å
Abb. 5.15: g23D bei A − B − 4 Å
y
10
5
3
g3 D Hx,y,0L 2
1
0
-9.8
9.8
9.9
5
0 y
-5
-5
x
0
0
-5
5
-10
-10
9.9 -9.8
Abb. 5.16: Graph
von
A − B − 4 Å
g 3D
bei
-5
0
5
10
x
Abb. 5.17: Konturendiagramm von g 3D
bei A − B − 4 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 57
A − C − 2 Å
2,0
1,5
1,5
2
3D'
1,0
g
1
1,0
g
3D'
(r)
(r)
2,0
0,5
0,5
0,0
0,0
0
2
4
6
8
0
10
2
4
6
r
8
10
r
′
′
Abb. 5.18: g13D bei A − C − 2 Å
Abb. 5.19: g23D bei A − C − 2 Å
y
10
5
3
g3 D Hx,y,0L 2
1
0
-9.8
9.8
9.9
5
0 y
-5
-5
x
0
0
-5
5
-10
-10
9.9 -9.8
Abb. 5.20: Graph
von
A − C − 2 Å
g 3D
bei
-5
0
5
10
x
Abb. 5.21: Konturendiagramm von g 3D
bei A − C − 2 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 58
A − C − 4 Å
2,0
1,5
1,5
2
3D'
1,0
g
1
1,0
g
3D'
(r)
(r)
2,0
0,5
0,5
0,0
0,0
0
2
4
6
8
10
0
2
4
6
8
10
r
r
′
′
Abb. 5.22: g13D bei A − C − 4 Å
Abb. 5.23: g23D bei A − C − 4 Å
y
10
5
3
g3 D Hx,y,0L 2
1
0
-9.8
9.8
9.9
5
0 y
-5
-5
x
0
0
-5
5
-10
-10
9.9 -9.8
Abb. 5.24: Graph
von
A − C − 4 Å
g 3D
bei
-5
0
5
10
x
Abb. 5.25: Konturendiagramm von g 3D
bei A − C − 4 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 59
5.2 Transformation der gegebenen Daten in
copula-kompatible Form
′
′
In diesem Kapitel werden die verfügbaren Informationen über g 3D , g13D und g23D allgemein
in ein Konzept übertragen, welches sich für Copula-Betrachtungen eignet. Grundsätzlich
kann die atomare Verteilungsfunktion g 3D als eine Funktion angesehen werden, die alle
Informationen über die zugehörigen radialen Paarverteilungsfunktionen enthält. Soll jedoch
ein Konzept entwickelt werden, auf das sich die Prinzipien der Copulas anwenden lassen,
so muss eine Formulierung dieser Situation als Konstrukt einer gemeinsamen Dichte und
den aus ihr resultierenden Randdichten gefunden werden.
5.2.1 Transformation in benötigte Dimensionen
′
′
Da die radialen Paarverteilungsfunktionen g13D und g23D Randfunktionen darstellen sollen,
müssen sie zuerst in die univariaten Funktionen g11D bzw. g21D überführt werden. Nach
(2.28) wird dies durch
′
g11D (r) = 4π r2 g13D (~r : |~r − ~a1 | = r)
′
und g21D (r) = 4π r2 g23D (~r : |~r − ~a2 | = r)
(5.5)
erreicht. Für die Funktionen g11D und g21D ergibt sich daraus
g21D : [0, r1,max ] → R und g21D : [0, r2,max ] → R
(5.6)
Soll ferner g 3D eine gemeinsame Funktion der vom Abstand abhängigen Funktionen g11D
und g21D sein, so muss sie auf dem kartesischen Produktraum dieser beiden Funktionen
definiert sein. Bei diesem Produktraum handelt es sich um eine Untermenge des R2 . Seine
Elemente stellen jedoch keine kartesischen Koordinaten, sondern die Abstände zu den beiden Atomen 1 und 2 dar. Zur besseren Unterscheidung des Raumes R3 , dessen Elemente
(x, y, z) die kartesischen Koordinaten eines Punktes im Raum bezeichnen, von dem Raum
R2 , dessen Elemente (r1 , r2 ) die Abstände eines Punktes zu den Atomen 1 (r1 ) und 2
(r2 ) beschreiben, wird in der vorliegenden Arbeit ersterer kartesischer Raum und letzterer
radialer Raum genannt.
Das Ziel der Transformation ist es, die gegebene Funktion g 3D aus dem kartesischen Raum
in den radialen Raum abzubilden, in welchem sie mit g 2D bezeichnet wird.
Um den Unterraum des radialen Raumes zu bemessen, auf welchem g 2D durch die Transformation Werte annimmt, müssen die maximalen Abstände r1,max und r2,max der in der
Box befindlichen Punkte zu den beiden Atomen ermittelt werden. Hierbei ergibt sich
für 2 Å : r1,max = 17.7435 Å, r2,max = 17.7435 Å und für 4 Å : r1,max = 18.3747 Å ,
5 Extrahieren der Copulas aus Modellbeispielen
Seite 60
r2,max = 18.3747 Å, welche jeweils beide von verschiedenen Ecken der Box angenommen
werden. Da r1,max und r2,max größer sind als die rechten Intervallgrenzen derjenigen Inter′
′
valle, auf denen die radialen Paarverteilungsfunktionen g13D und g23D und folglich auch
′
′
g11D und g21D berechnet wurden, müssen g13D und g23D bis r1,max bzw. r2,max erweitert
werden. Da sich radiale Paarverteilungsfunktionen aufgrund der Korrelationsentkopplung
′
′
für r → ∞ asymptotisch dem Wert 1 nähern, wird g13D und g23D an äquidistanten Stellen
des zu ergänzenden Gebiets der Funktionswert 1 zugewiesen und die Funktionen anschließend interpoliert. Der Diskretisierungsabstand dieser Erweiterungen beläuft sich dabei auf
0.063 Å . Als letzter zu ergänzender Wert wurde jeweils der exakte Radius r1,max bzw.
r2,max eingesetzt. Obwohl es sich dabei um eine Näherung handelt, wird angenommen,
dass die daraus resultierenden Fehler vernachlässigbar klein sind.
Die Abbildung der Punkte in der Box (kartesischer Raum) auf die zugehörigen Punktepaare
des radialen Raumes ist nicht injektiv, denn aus geometrischen Überlegungen folgt, dass
jedem Paar (r1 , r2 ) eine Menge von Punkten (xi , yi , zi ) zugeordnet wird. Anhand einer
Skizze der Box mit den auf der x-Achse platzierten Atomen 1 und 2 lässt sich folgender
Sachverhalt begründen: Alle die Punkte der Box, welche dieselben Abstände zu den Atomen
1 und 2 besitzen, liegen für ein bestimmtes x auf einem Kreis in der dazugehörigen yzEbene.
Die auf das Radiuspaar (r1 , r2 ) abgebildete Menge G von Boxpunkten lässt sich formal wie
folgt definieren:
G(r1 , r2 ) :=
q
(x, y, z) ∈ [−9.9 , 9.9]3 (x − a1,1 )2 + (y − a1,2 )2 + (z − a1,3 )2 = r1
(5.7)
q
2
2
2
und
(x − a2,1 ) + (y − a2,2 ) + (z − a2,3 ) = r2
~a1 und ~a2 bezeichnen hierbei wieder die Aufpunkte der Atome 1 und 2. Jeder Menge
G(r1 , r2 ) sei zusätzlich mit V (G(r1 , r2 )) ihr Maß zugeordnet.
Der Funktionswert von g 2D an einer beliebigen Stelle (r1 , r2 ) ∈ [0, r1,max ]×[0, r2,max ] ergibt
sich demnach aus der Integration der Funktionswerte von g 3D über der Menge G(r1 , r2 ).
Unter zusätzlicher Berücksichtigung der Symmetrie von g 3D bezüglich der x-Achse ergibt
sich, dass g 3D = g 3D (r1 , r2 ) und g 3D somit auf der Menge G(r1 , r2 ) konstant ist. Zusammenfassend ergibt sich nachstehende Transformation
g
2D
(r1 , r2 ) =
ˆ
G(r1 ,r2 )
g 3D (x, y, z) dx dy dz = g 3D (r1 , r2 ) · V (G(r1 , r2 ))
(5.8)
5 Extrahieren der Copulas aus Modellbeispielen
Seite 61
5.2.2 Die Gewichtungsfunktion
Die Wahrscheinlichkeitsdichte, welche jedem Paar (r1 , r2 ) den relativen Anteil von
V (G(r1 , r2 )) an dem Volumen der gesamten Box zuordnet, soll Gewichtungsfunktion genannt und mit h indiziert werden:
h : [0, r1,max ] × [0, r2,max ] → [0, 1]
n
o
(r1 , r2 ) 7→ P
(x, y, z) ∈ [−9.9 , 9.9]3 (x, y, z) ∈ G(r1 , r2 )
(5.9)
Für diese Arbeit wurde h wie folgt numerisch gewonnen: Es wurden zufällig und gleichverteilt Punkte in der Box generiert, ihre Abstände zu den Atomen 1 und 2 berechnet und
mittels dieser Daten ein Histogramm erzeugt.
Haben die beiden Atome im gelösten Molekül voneinander einen Abstand von 2 Å , so ergibt
sich folgender Verlauf der Wahrscheinlichkeitsdichte h, der hier aus zwei unterschiedlichen
Perspektiven dargestellt wird:
hHr1 ,r2 L
0.06
hHr1 ,r2 L 0.04
0.02
0
0
15
15
10
r2
5
r1
10
r2
5
5
10
15
10
15
5
0
0
Abb. 5.26: Graph der Gewichtungsfunktion für |1 − 2| = 2 Å
r1
0
Abb. 5.27: Graph von h für |1 − 2| =
2 Å von oben
Für einen Abstand zwischen den beiden Atomen von 4 Å ergibt sich für h folgender Verlauf:
hHr1 ,r2 L
0.03
15
hHr1 ,r2 L 0.02
0.01
0
0
15
10
5
r1
r2
5
10
10
r2
5
15
10
15
5
0
Abb. 5.28: Graph der Gewichtungsfunktion für |1 − 2| = 4 Å
0
r1
0
Abb. 5.29: Graph von h für |1 − 2| =
4 Å von oben
5 Extrahieren der Copulas aus Modellbeispielen
Seite 62
Vorstehende Abbildungen lassen erkennen, auf welche Bereiche des radialen Raumes die
Punkte der Box abgebildet werden. Betrachtet man genauer den Verlauf an einem beliebigen, aber festen Wert für r1 oder r2 , so stellt sich heraus, dass dieser „Strahl“ eine bestimmte
Höhe bzw. Breite aufweist. Dies ist geometrisch leicht begründbar, denn für einen fixierten
Wert für r1 z.B. liegen alle zugehörigen Paare (r1 , r2 ) auf der Oberfläche von L(~a1 , r1 ). Daraus folgt, dass r2 nur Werte innerhalb des Intervalls [|r1 − |1 − 2| | , r1 + |1 − 2| ] annehmen
kann.
Auffällig ist auch die „Einbuchtung“ des „Strahls“ bei größeren Radien. Obwohl in diesem
Bereich beide Radien kleiner sind als ihre maximalen Radien, befindet sich innerhalb der
Box kein Punkt, der genau diese beiden Abstände von den Atomen aufweist. Diese Situation tritt genau dann ein, wenn sich die Kugel mit einem der beiden Radien um den
entsprechenden Atomaufpunkt nicht mehr vollständig im Inneren der Box befindet.
Multipliziert man die Gewichtungsfunktion mit dem Volumen der gesamten Box (VBox ) und
ermittelt daraus eine ihrer Randfunktionen, so lässt sich die obige Tatsache auch aus der
graphischen Darstellung dieser Randfunktion entnehmen. Bis zu dem Radius, an welchem
die „Einbuchtung“ des „Strahls“ beginnt, erhält man die gewünschte Übereinstimmung mit
der Kugeloberfläche 4π r2 . Bei größeren Radien weichen die Werte voneinander ab.
Mittels der generierten Gewichtungsfunktion h lässt sich die gesamte Information der auf
der Box berechneten Funktion g 3D in die auf dem radialen Raum definierten Funktion g 2D
wie folgt exakt transformieren
g 2D (r1 , r2 ) = g 3D (r1 , r2 ) · h(r1 , r2 ) · VBox
∀ (r1 , r2 ) ∈ [0, r1,max ] × [0, r2,max ]
(5.10)
Probleme
Die aus der Transformation gewonnene atomare Verteilungsfunktion g 2D auf dem radialen
Raum besitzt jedoch nicht die geforderten Randfunktionen g11D und g21D . Die aus g 2D
1D und g 1D bezeichnet und ergeben sich wie
ermittelten Randfunktionen werden mit gb,1
b,2
folgt
1D
gb,1
(r)
=
ˆ
0
r2,max
g
2D
(r, r2 ) dr2
und
1D
gb,2
(r)
=
ˆ
r1,max
g 2D (r1 , r) dr1
(5.11)
0
1D und g 1D gleichzeitig gegen den Radius auf, so wird der stark
Trägt man beispielsweise gb,1
1
unterschiedliche Verlauf der beiden Funktionen bei großen Radien erkennbar.
5 Extrahieren der Copulas aus Modellbeispielen
Seite 63
Die gravierenden Unterschiede der Funktionsverläufe lassen sich durch die unterschiedlichen Methoden erklären, mit denen die radialen Paarverteilungsfunktionen aus der atomaren Verteilungsfunktion gewonnen werden. Während bei dem klassischen mathematischen
Konzept (Copula) eine Randverteilung aus der gemeinsamen Verteilung wie in (5.11) erhalten wird, werden bei den Berechnungen mittels der Integralgleichungstheorie periodische
Randbedingungen eingesetzt (siehe hierzu auch Kapitel 2.3.1). Diese Randbedingungen
bewirken, dass für die Ermittlung der Randfunktionen (z.B. g11D (r)) für jeden Radius
r ≤ r1,max über die gesamte Kugel um Atom 1 mit dem Radius r integriert wird, unabhängig davon, ob sich diese Kugel vollständig im Inneren der Box befindet oder nicht. Liegen
benötigte Punkte außerhalb der Box, so wird für den Funktionswert an dieser Stelle ein bestimmter anderer Wert eingesetzt. Die Festlegung dieses anderen Wertes soll exemplarisch
für eine Koordinate geschildert werden. Ist die x-Koordinate des benötigten Punktes um
m größer als die maximale x-Koordinate der Box, so wird der Funktionswert desjenigen
Punktes innerhalb der Box ausgewählt, der genau auf der gegenüberliegenden Seite der
Box um m in der x-Koordinate in die Box hineinragt.
Durch Einbeziehung dieser Methode in die Ermittlungen der Randfunktionen werden folgende drei Situationen ungleich behandelt:
1. Für das Paar (r1 , r2 ) liegt nur ein Teil der Menge G(r1 , r2 ) innerhalb der Box. Demzufolge wird ihr Funktionswert aus dem Funktionswert einer der in der Box befindlichen
Punkte aus G bestimmt, welcher mit dem Maß der Menge G ∩ Box gewichtet wird.
Unter Einbeziehung der Periodizität wird dieser Funktionswert mit dem vollen Maß
der Menge G gewichtet.
2. Für Radienpaare (r1 , r2 ), die sich in dem Bereich der „Einbuchtung“ von h befinden,
existiert kein zugehöriger Punkt in der Box. Ihnen wird an dieser Stelle der Funktionswert 0 zugewiesen. Im Gegensatz dazu erhalten diese Paare unter der PeriodizitätsAnnahme den mit dem vollen Maß von G gewichteten Funktionswert eines Punktes
aus G als Funktionswert.
3. Ist einer der Radien sehr groß und soll die zugehörige Kugel vollständig abgetastet
werden, so nimmt der jeweils andere Radius Werte an, die größer sind als sein in
der Box maximal angenommener Wert. Die daraus resultierende unterschiedliche
Funktionswert-Ermittlung für diese Radienpaare ergibt sich wie in 2.
Um aus dem auf die transformierten Daten angewendeten Copula-Konzept eine möglichst
gute Übereinstimmung mit den Ausgangsdaten zu erhalten, wird die Forderung der exakten
Transformation von g 3D auf g 2D in Analogie zur in der Integralgleichungstheorie benutzten
Methode fallengelassen. Damit für alle Punkte, welche unter Einbeziehung der periodischen
5 Extrahieren der Copulas aus Modellbeispielen
Seite 64
Randbedingungen betrachtet werden, der Funktionswert der Gewichtungsfunktion ungleich
0 ist, wird h auf einer vergrößerten Box generiert. Die Größe dieser neuen Box bemisst sich
durch die Forderung, dass sich alle Kugeln um die Atome 1 und 2 mit Radien r1 ≤ r1,max
bzw. r2 ≤ r2,max innerhalb der Box befinden. Schneidet man aus der auf der erweiterten Box
ermittelten Funktion den für die Transformation benötigten Bereich [0, r1,max ] × [0, r2,max ]
aus, so ergibt sich für die Atomabstände 2 Å und 4 Å folgender Verlauf:
hHr1 ,r2 L
15
hHr1 ,r2 L 0.01
0.005
0
0
15
10
5
r1
10
r2
r2
5
10
15
5
15
10
0
5
0
Abb. 5.30: Graph
der
erweiterten
Gewichtungsfunktion
für
|1 − 2| = 2 Å
r1
0
Abb. 5.31: Graph von h für |1 − 2| =
2 Å von oben
hHr1 ,r2 L
0.004
hHr1 ,r2 L 0.003
0.002
0.001
0
0
15
15
10
5
r1
10
r2
r2
5
10
15
5
15
10
0
5
0
Abb. 5.32: Graph
der
erweiterten
Gewichtungsfunktion
für
|1 − 2| = 4 Å
r1
0
Abb. 5.33: Graph von h für |1 − 2| =
4 Å von oben
Die Abbildungen zeigen, dass die „Einbuchtungen“, wie sie sich bei den Gewichtungsfunktionen vor der Boxerweiterung ergaben, verschwunden sind. Dies geht einher mit der obigen
Forderung an die erweiterte Boxgröße. Auch die radiale Integration der neuen Gewichtungsfunktion multipliziert mit dem Volumen der erweiterten Box ist jetzt bis zu einem größeren
Radius, jedoch nicht bis rmax , identisch mit 4πr2 .
Führt man die in (5.10) definierte Transformation der g 3D auf die Funktion g 2D mittels der
1D
erweiterten h-Funktion durch, so entsprechen die aus g 2D ermittelten Randfunktionen gb,1
1D eher den Funktionen g 1D bzw. g 1D , wie nachfolgende Abbildung 5.34 beispielhaft
und gb,2
2
1
5 Extrahieren der Copulas aus Modellbeispielen
Seite 65
1D und g 1D von A − A − 2 Å belegt.
an den Funktionen gb,1
1
g
(r)
g
(r)
1D
b;1
2500
- - - -
1D
1
b;1
1
1500
1000
g
1D
(r),
g
1D
(r)
2000
500
0
0
2
4
6
8
10
12
14
16
18
20
r
1D und g 1D bei A − A − 2 Å nach der Erweiterung von h
Abb. 5.34: Verlauf von gb,1
1
Die Tatsache, dass sich nach wie vor ein Unterschied in den Funktionen ergibt, ist darin
begründet, dass durch die Erweiterung der Gewichtungsfunktion die Fehler, die sich durch
die vorher beschriebene erste und zweite Situation ergeben, umgangen werden, jedoch nicht
solche, die aus der dritten Situation resultieren. Es ist prinzipiell nicht möglich, die dritte
Situation entsprechend in das Copula-Konzept zu übertragen, da dies erfordern würde,
dass eine gemeinsame Funktion auf einem Raum [a, b]2 definiert ist, die Randfunktionen
jedoch nur bis zu einem Wert ≤ b ermittelt werden. Da sich dieses Problem ausschließlich
bei großen Radien ergibt, ist bei den weiteren Betrachtungen zu berücksichtigen, dass die
berechneten Funktionen in Bereichen großer Radien bzw. später in Bereichen Nahe 1 in
ihrer Aussagekraft beschränkt sind.
5 Extrahieren der Copulas aus Modellbeispielen
Seite 66
5.2.3 Transformierte Graphen
Mittels der im vorigen Abschnitt erweiterten Gewichtungsfunktion können die Funktionen
′
′
g 3D , g13D und g23D bestmöglichst in diejenigen Dimensionen übertragen werden, welche für
die Beschreibung einer gemeinsamen Funktion und den aus ihr resultierenden Randfunktionen benötigt werden. Da eine Copula die gemeinsame Verteilungsfunktion bzw. gemeinsame
Dichte mit ihren Randverteilungsfunktionen bzw. Randdichten verknüpft, müssen die vor1D und g 1D auf 1 normiert werden. Diese daraus entstehenden
liegenden Funktionen g 2D , gb,1
b,2
1D und g 1D bezeichnet.
Dichten werden mit gd2D , gd,1
d,2
gd2D (r1 , r2 ) = ´ r1,max ´ r2,max
0
1D
gd,1
(r1 ) = ´ r1,max
0
1D
gd,2
(r2 ) = ´ r2,max
0
0
1
g 2D (r1 , r2 ) dr1 dr2
g 2D (r1 , r2 )
(5.12)
1
b1D (r1 )
1D
gb,1 (r1 ) dr1 b,1
(5.13)
1
1D
gb,2
(r2 )
1D
gb,2 (r2 ) dr2
(5.14)
Nachfolgend wird für jeden der sechs Fälle die gemeinsame Dichte gd2D (r1 , r2 ) und die
1D (r ) und g 1D (r ) graphisch dargestellt. Dies
beiden aus ihr berechneten Randdichten gd,1
1
d,2 2
sind genau diejenigen Dichten, aus denen die Copulas im Folgenden extrahiert werden.
Die Reihenfolge der Abbildungen ist dabei bewusst umgekehrt zu Kapitel 5.1 gewählt,
um zu verdeutlichen, dass die abgebildeten Funktionen die aus der gemeinsamen Dichte
berechneten Randdichten sind.
5 Extrahieren der Copulas aus Modellbeispielen
Seite 67
A − A − 2 Å
0.02
gd 2 D Hr1 , r2 L
0.01
0
0
15
10
r2
5
r1
5
10
15
0
0,12
0,12
8
0,0
8
0,0
g
d;2
(r)
0,16
1D
d;1
0,16
g
1D
(r)
Abb. 5.35: gd2D bei A − A − 2 Å
0,04
0,04
0,00
0
4
8
12
16
20
r
1D bei A − A − 2 Å
Abb. 5.36: gd,1
0,00
0
4
8
r
12
16
20
1D bei A − A − 2 Å
Abb. 5.37: gd,2
5 Extrahieren der Copulas aus Modellbeispielen
Seite 68
A − A − 4 Å
0.02
gd 2 D Hr1 , r2 L
0.01
0
0
15
10
r2
5
r1
5
10
15
0
0,12
0,12
8
1D
0,0
d;2
(r)
0,16
8
0,0
g
d;1
0,16
g
1D
(r)
Abb. 5.38: gd2D bei A − A − 4 Å
0,04
0,04
0,00
0
4
8
0,00
12
16
20
r
1D bei A − A − 4 Å
Abb. 5.39: gd,1
0
4
8
12
16
20
r
1D bei A − A − 4 Å
Abb. 5.40: gd,2
5 Extrahieren der Copulas aus Modellbeispielen
Seite 69
A − B − 2 Å
0.04
gd 2 D Hr1 , r2 L
0.02
0
0
15
10
r2
5
r1
5
10
15
0
0,12
0,12
8
0,0
8
0,0
g
d;2
(r)
0,16
1D
d;1
0,16
g
1D
(r)
Abb. 5.41: gd2D bei A − B − 2 Å
0,04
0,04
0,00
0
4
0,00
8
12
16
20
r
1D bei A − B − 2 Å
Abb. 5.42: gd,1
0
4
8
12
16
20
r
1D bei A − B − 2 Å
Abb. 5.43: gd,2
5 Extrahieren der Copulas aus Modellbeispielen
Seite 70
A − B − 4 Å
0.02
gd 2 D Hr1 , r2 L
0.01
0
0
15
10
r2
5
r1
5
10
15
0
0,12
0,12
8
1D
0,0
d;1
(r)
0,16
8
0,0
g
d;1
0,16
g
1D
(r)
Abb. 5.44: gd2D bei A − B − 4 Å
0,04
0,04
0,00
0
4
0,00
8
12
16
20
r
1D bei A − B − 4 Å
Abb. 5.45: gd,1
0
4
8
12
16
20
r
1D bei A − B − 4 Å
Abb. 5.46: gd,2
5 Extrahieren der Copulas aus Modellbeispielen
Seite 71
A − C − 2 Å
0.04
gd 2 D Hr1 , r2 L
0.02
0
0
15
10
r2
5
r1
5
10
15
0
0,12
0,12
8
0,0
8
0,0
g
d;2
(r)
0,16
1D
d;1
0,16
g
1D
(r)
Abb. 5.47: gd2D bei A − C − 2 Å
0,04
0,04
0,00
0
4
0,00
8
12
16
20
r
1D bei A − C − 2 Å
Abb. 5.48: gd,1
0
4
8
12
16
20
r
1D bei A − C − 2 Å
Abb. 5.49: gd,2
5 Extrahieren der Copulas aus Modellbeispielen
Seite 72
A − C − 4 Å
0.02
gd 2 D Hr1 , r2 L
0.01
0
0
15
10
r2
5
r1
5
10
15
0
0,12
0,12
8
0,0
8
0,0
g
d;2
(r)
0,16
1D
d;1
0,16
g
1D
(r)
Abb. 5.50: gd2D bei A − C − 4 Å
0,04
0,04
0,00
0
4
0,00
8
12
16
20
r
1D bei A − C − 4 Å
Abb. 5.51: gd,1
0
4
8
12
16
20
r
1D bei A − C − 4 Å
Abb. 5.52: gd,2
5 Extrahieren der Copulas aus Modellbeispielen
Seite 73
5.2.4 Extrahierte Copuladichten / Copulas
Die im letzten Abschnitt hergeleitete Transformation überführt die Ausgangsdaten in eine
gemeinsame Dichte und in die aus ihr resultierenden Randdichten. Nachfolgend wird erläutert, wie aus dieser Situation die Copuladichte ermittelt werden kann. Der Satz von Sklar
(Theorem 3.2.1) gibt folgenden Zusammenhang einer gemeinsamen Verteilungsfunktion F
und ihren Randverteilungsfunktionen F1 und F2 mit einer 2-Copula an
F (x, y) = C(F1 (x) , F2 (y))
(5.15)
Zweimaliges partielles Ableiten von (5.15) liefert
∂ 2 F (x, y)
= f (x, y) = c(F1 (x) , F2 (y)) · f1 (x) · f2 (y)
∂x∂y
wobei f die gemeinsame Dichte, c die Copuladichte (3.31) und f1 =
∂F1
∂x
(5.16)
bzw. f2 =
aus den Randverteilungsfunktionen abgeleiteten Randdichten sind. Setzt man x =
∂F2
∂y die
F1−1 (u)
und y = F2−1 (v), so ergibt sich für die Copuladichte c
f F1−1 (u) , F2−1 (v)
c(u, v) =
f1 F1−1 (u) · f2 F2−1 (v)
(5.17)
Sind für eine Situation die gemeinsame Dichte und ihre Randdichten gegeben, so liefert
(5.17) eine Konstruktionsmöglichkeit für die unbekannte Copuladichte.
Kapitel 5.2.3 liefert demzufolge alle hinreichenden Informationen, um aus den sechs Fällen
die jeweilige Copula mittels (5.17) zu extrahieren. Nachfolgend sind für alle sechs Fälle die
ermittelten Copuladichten sowie die zugehörigen Copulas abgebildet. Zur besseren Darstellung des Dichteverlaufs wird dieser im Dreidimensionalen aufgetragen. Für die Betrachtung
des Funktionsverlaufs der Copula eignet sich das Konturendiagramm, wobei schwarz den
Funktionswert 0 und weiß den Funktionswert 1 repräsentiert.
5 Extrahieren der Copulas aus Modellbeispielen
Seite 74
A − A − 2 Å
v
1
0.8
cHu, vL
7.5
5
2.5
0
0
0.2
0.6
1
0.8
0.6
0.4 v
0.4
u 0.6
0.4
0.2
0.2
0.8
Abb. 5.53: Graph von
A − A − 2 Å
0
1 0
0
c(u, v)
bei
0.2
0.4
0.6
0.8
1
u
Abb. 5.54: Konturendiagramm
von
C(u, v) bei A − A − 2 Å
A − A − 4 Å
v
1
0.8
cHu, vL
4
1
0.8
0.6
0.4 v
2
0
0
0.2
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
Abb. 5.55: Graph von
A − A − 4 Å
0
1 0
c(u, v)
0
bei
0.2
0.4
0.6
0.8
1
u
Abb. 5.56: Konturendiagramm
von
C(u, v) bei A − A − 4 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 75
A − B − 2 Å
v
1
0.8
10
7.5
c Hu, vL 5
2.5
0
0
0.2
0.6
1
0.8
0.6
0.4 v
0.4
u 0.6
0.4
0.2
0.2
0.8
Abb. 5.57: Graph von
A − B − 2 Å
0
1 0
0
c(u, v)
bei
0.2
0.4
0.6
0.8
1
u
Abb. 5.58: Konturendiagramm
von
C(u, v) bei A − B − 2 Å
A − B − 4 Å
v
1
0.8
c Hu, vL
4
1
0.8
0.6
0.4 v
2
0
0
0.2
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
Abb. 5.59: Graph von
A − B − 4 Å
0
1 0
c(u, v)
0
bei
0.2
0.4
0.6
0.8
1
u
Abb. 5.60: Konturendiagramm
von
C(u, v) bei A − B − 4 Å
5 Extrahieren der Copulas aus Modellbeispielen
Seite 76
A − C − 2 Å
v
1
0.8
10
7.5
c Hu, vL 5
2.5
0
0
0.2
0.6
1
0.8
0.6
0.4 v
0.4
u 0.6
0.4
0.2
0.2
0.8
Abb. 5.61: Graph von
A − C − 2 Å
0
1 0
0
c(u, v)
bei
0.2
0.4
0.6
0.8
1
u
Abb. 5.62: Konturendiagramm
von
C(u, v) bei A − C − 2 Å
A − C − 4 Å
v
1
0.8
c Hu, vL
4
1
0.8
0.6
0.4 v
2
0
0
0.2
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
Abb. 5.63: Graph von
A − C − 4 Å
0
1 0
c(u, v)
0
bei
0.2
0.4
0.6
0.8
1
u
Abb. 5.64: Konturendiagramm
von
C(u, v) bei A − C − 4 Å
6 Analyse der Copulas und ihrer Dichten
In diesem Kapitel werden die im vorausgehenden Kapitel erzeugten Copulas bzw. ihre
Dichten auf ihre Eigenschaften hin untersucht und ein Weg für deren analytische Beschreibung wird aufgezeigt.
6.1 Allgemeine Betrachtungen
Die Abbildungen der aus den gegebenen Daten extrahierten Copuladichten lassen erkennen, dass sich ihr Funktionsverlauf ändert, wenn der Abstand des Atoms 1 von Atom 2 im
gelösten Molekül variiert wird. Dagegen zeigt sich keine deutliche Änderung der Dichten,
wenn dieser Abstand konstant gehalten wird, sich jedoch die Art des Atoms 2 bzw. die
dadurch eingehende Randdichte ändert. Um diese Beobachtung überprüfen zu können, werden im Folgenden für die Abstände 2 Å und 4 Å die zugehörigen Copuladichten miteinander
verglichen. Die aus der Differenz jeweils zweier Copuladichten resultierende Funktion wird
mit △c = dif f c bezeichnet und Differenzfunktion genannt. Um eine quantitative Aussage
über die Ähnlichkeit zweier Copuladichten zu bekommen, wurde die Differenzfunktion an
N = 1002 äquidistanten Punkten des Einheitsquadrates ausgewertet. Für die dadurch erzeugte Messreihe △c1 , . . . , △cN wurde anschließend das arithmetische Mittel △c [26, S.13]
△c =
N
1 X
△ci
N
(6.1)
i=1
und die Standardabweichung σ△c [26, S.14]
N
σ△c =
2
1 X
△ci − △c
N −1
(6.2)
i=1
bestimmt. Nachstehend werden die Differenzfunktionen sowie die genannten Maßzahlen
(auf drei Nachkommastellen gerundet) der zu vergleichenden Fälle beider Abstände dargestellt.
6 Analyse der Copulas und ihrer Dichten
Seite 78
Tab. 6.1: Vergleich der Copuladichten bei |1 − 2| = 2 Å
Fälle
A − A − 2 Å /
A − B − 2 Å
A − A − 2 Å /
A − C − 2 Å
A − B − 2 Å /
A − C − 2 Å
Differenzfunktion
diffc Hu, vL
0.4
0.2
0
0
0.6
diffc Hu, vL 0.4
0.2
0
0
0.15
diffc Hu, vL 0.1
0.05
0
0
0.2
0.2
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
1 0
△c = 0.017 Å
σ△c = 0.077 Å
0.2
0.8
1 0
1
0.8
0.6
0.4 v
0.4
u 0.6
△c = 0.013 Å
σ△c = 0.07 Å
0.2
0.8
1
0.8
0.6
0.4 v
0.4
u 0.6
Maßzahlen
0.2
0.8
1 0
△c = 0.006 Å
σ△c = 0.033 Å
6 Analyse der Copulas und ihrer Dichten
Seite 79
Tab. 6.2: Vergleich der Copuladichten bei |1 − 2| = 4 Å
Fälle
A − A − 4 Å /
A − B − 4 Å
A − A − 4 Å /
A − C − 4 Å
A − B − 4 Å /
A − C − 4 Å
Differenzfunktion
0.3
diffc Hu, vL 0.2
0.1
0
0
0.6
diffc Hu, vL 0.4
0.2
0
0
0.3
diffc Hu, vL 0.2
0.1
0
0
0.2
0.2
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
1 0
△c = 0.017 Å
σ△c = 0.078 Å
0.2
0.8
1 0
1
0.8
0.6
0.4 v
0.4
u 0.6
△c = 0.015 Å
σ△c = 0.068 Å
0.2
0.8
1
0.8
0.6
0.4 v
0.4
u 0.6
Maßzahlen
0.2
0.8
1 0
△c = 0.006 Å
σ△c = 0.03 Å
6 Analyse der Copulas und ihrer Dichten
Seite 80
Die Abbildungen der Differenzfunktionen bestätigen, dass die Copuladichten eines Abstandes fast identisch sind. Vor allem die sehr kleinen Werte für △c und σ△c belegen, dass die
miteinander verglichenen Copuladichten kaum voneinander abweichen. Die geringen Unterschiede lassen sich durch resultierende Fehler der numerischen Berechnungen erklären oder
sie deuten auf einen doch sehr feinen Unterschied der Copuladichten hin, der durch die
eingehenden radialen Paarverteilungsfunktionen verursacht sein müsste. Ferner können die
geringen Werte auch aus den Theorieansätzen resultieren, aufgrund derer die Referenzdichten erzeugt wurden, denn diese beschreiben die zugrunde liegende Physik lediglich
approximativ.
Diese wichtige Erkenntnis hat für die physikalisch-chemische Ausgangssituation die Konsequenz, dass die Abhängigkeitsstruktur der Paarverteilungsfunktionen in dem beschriebenen einfachsten, nichttrivialen Fall nahezu unabhängig ist von der Art der eingehenden
drei Atome. Ihr Verlauf wird fast ausschließlich von dem Abstand der beiden Atome voneinander im gelösten Molekül bestimmt. Dies bedeutet weiter, dass mit den extrahierten
Copuladichten unter Einbeziehung der Transformationsbeziehungen aus Kapitel 5 für jede
beliebige Situation die Paarverteilungsfunktion g 3D aus den radialen Paarverteilungsfunk′
′
tionen der zugehörigen Atome g13D und g23D annähernd rekonstruiert werden kann, wenn
der Abstand von Atom 1 zu Atom 2 entweder 2 Å oder 4 Å beträgt.
Weitergedacht muss sich diese Tatsache auf alle Zusammenhangsmaße, die copulabasiert
sind, übertragen lassen. Das heißt: Für jede Wahl der Atomarten im Konstrukt eines zweiatomigen Moleküls, welches sich in einem monoatomaren Lösungsmittel befindet, nehmen
Kendalls Tau, Spearmans Rho und alle weiteren in Kapitel 3.3 eingeführten copulabasierten Abhängigkeitsmaße fast den selben Wert an, wenn der Abstand der Atome im gelösten
Molekül identisch ist.
Diese Behauptung soll im Nachfolgenden für Kendalls Tau getestet werden.
6 Analyse der Copulas und ihrer Dichten
Seite 81
6.2 Kendalls Tau der verschiedenen Fälle
Um Kendalls Tau für die verschiedenen Fälle mit (4.10) schätzen zu können, müssen Stichproben dieser Verteilungen vorliegen.
Diese Stichproben können sich beispielsweise durch Verwendung von Daten aus molekulardynamischen Simulationen ergeben. Greift man zu verschiedenen Zeiten gleichzeitig die
Abstände zwischen Lösungsmittel und Atom 1 bzw. 2 des gelösten Moleküls ab, so besitzt
das resultierende Zahlenpaar die korrekte Korrelation. Auf diesem Weg kann u.U. schon
eine sehr kurze Trajektorie ausreichen, um Kendalls Tau mit hinreichender Genauigkeit zu
bestimmen.
Zur konkreten Aufgabe der Dichterekonstruktion bei limitierter Information über die Randverteilungen ist es notwendig, Kendalls Tau direkt aus diesen Daten abzuschätzen. Dies
kann mit der Acceptance-Rejection-Methode [12, S.428] realisiert werden, da sie ein Algorithmus ist, der beliebig verteilte Zufallszahlen erzeugt. Seine Vorgehensweise soll im
Eindimensionalen demonstriert werden.
Zu Beginn wird der maximale Funktionswert M der gewünschten, auf [a, b) definierten,
Verteilung f (t) ermittelt. Daraufhin wird aus dem Definitionsbereich ein Punkt x zufällig
ausgewählt und eine gleichverteilte Zufallszahl u aus [0, 1) generiert. Der ausgewählte Punkt
x wird genau dann zur Realisierung hinzugenommen, wenn
u≤
f (x)
M
(6.3)
ist. Der Punkt x wird demnach umso eher akzeptiert, je größer der Wert der Dichte an ihm
ist. Führt man diese Schritte für sehr viele Punkte durch, so folgt daraus eine Realisierung,
die wie f verteilt ist.
Diese Methode wurde auf die zu untersuchenden Fälle angewendet, um eine zu g 3D ähnlich verteilte Realisierung zu konstruieren: Zuerst wurden die Maximalwerte M1 und M2
der beiden „echten“ radialen Paarverteilungsfunktionen g11D bzw. g21D bestimmt. Danach
wurden zufällig Punkte (xi , yi , zi ) in der Box ausgewählt und deren Abstände (r1,i , r2,i ) zu
den Atomen 1 und 2 berechnet. Abschließend wurden für jeden Punkt zwei gleichverteilte Zufallszahlen u1,i und u2,i aus [0, 1) generiert und der betrachtete Punkt genau dann
akzeptiert, wenn für diesen die Bedingungen
u1,i ≤
g11D (r1,i )
M1
und
u2,i ≤
g21D (r2,i )
M2
(6.4)
erfüllt waren. Da für die Konstruktion der zweidimensionalen Realisierung die „echten“
6 Analyse der Copulas und ihrer Dichten
Seite 82
radialen Paarverteilungsfunktionen g11D bzw. g21D und nicht die Paarverteilungsfunktion
g 3D in den Algorithmus einbezogen wurden, repräsentieren die erzeugten Stichproben nur
approximativ die korrekte Abhängigkeit. Im Weiteren zeigt sich aber, dass dieser in der
Stichproben-Konstruktion gemachte Fehler nur geringe Auswirkungen auf Kendalls Tau
hat.
Ausgehend von einer mit der obigen Methode erzeugten Realisierung kann für jeden der
sechs gegebenen Fälle Kendalls Tau theoretisch mit (4.10) geschätzt werden. Praktisch kann
der Wert allerdings nicht für große Datensätze bestimmt werden, da dies zu viel Speicherplatz in Anspruch nehmen würde. Aufgrund dieser Beschränkung wurden für jeden der
zu untersuchenden Fälle 30 einzelne, jeweils aus 3000 Punkten bestehende, Realisierungen erzeugt und für jede dieser 30 Stichproben Kendalls Tau ermittelt. Die sich daraus
ergebende Messreihe τ1 , . . . , τ30 wurde anschließend statistisch analysiert, d.h. die maximale Abweichung ihrer Elemente δτ = maxi,j=1,...,30 |τi − τj |, ihr arithmetisches Mittel τ
(6.1) und ihre Standardabweichung στ (6.2) bestimmt. Die Tabelle 6.3 listet die genannten
Werte für jeden der sechs Fälle auf.
Die Werte der Tabelle lassen die Vermutung zu, Kendalls Tau hinge ausschließlich von dem
Abstand der beiden Atome im gelösten Molekül ab und sei vollkommen unabhängig von
der Art der Atome bzw. den eingehenden „echten“ radialen Paarverteilungsfunktionen g11D
bzw. g21D . Diese Vermutung wird darüberhinaus dadurch bestärkt, dass sich auch bei eingehenden gleichverteilten Randfunktionen keine signifikanten Abweichungen des Kendalls
Tau ergeben. Es konnte jedoch gezeigt werden, dass die Dichte, welche aus den mit der
Acceptance-Rejection-Methode erzeugten Punkten resultiert, exakt die Funktionen g11D
und g21D als Randdichten besitzt. Daher ist es fraglich, ob Kendalls Tau allein von dem
Atomabstand abhängen kann, denn eine sehr geringe Abweichung müsste sich durch die
eingehenden Verteilungen ergeben. Die Behauptung, Kendalls Tau müsste sich auch innerhalb einer Abstandsbetrachtung leicht verändern, folgt ebenfalls aus Betrachtungen der
extrahierten Copuladichten. Da Kendalls Tau eindeutig aus ihnen bestimmt werden kann,
müsste Kendalls Tau in Analogie zu den Copuladichten in den verschiedenen Fällen eines
Abstandes leicht variieren. Vermutlich sind die Berechnungen jedoch durch die beschränkte
Größe des Datensatzes nicht sensibel genug, um diese Unterschiede aufzuzeigen.
Ungeachtet der Vermutung, Kendalls Tau müsste etwas variieren, bestätigen die in der
Tabelle aufgelisteten Werte die Vorhersage, dass Kendalls Tau größtenteils durch den
Atomabstand bestimmt wird. Dies bedeutet physikalisch gesehen, dass die Struktur der
Flüssigkeit um das gelöste Molekül im Wesentlichen durch Packungseffekte dominiert wird.
Des weiteren ist dies eine Rechtfertigung für die Benutzung des aus den Randverteilungen
gewonnenen Kendalls Tau als das aus der Copula resultierende.
6 Analyse der Copulas und ihrer Dichten
Seite 83
Tab. 6.3: Kendalls Tau für die verschiedenen Fälle
Nr. A-A-2 Å
A-A-4 Å
A-B-2 Å
A-B-4 Å
A-C-2 Å
A-C-4 Å
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.730
0.730
0.724
0.725
0.721
0.730
0.731
0.723
0.728
0.727
0.727
0.729
0.732
0.734
0.727
0.721
0.730
0.729
0.730
0.729
0.721
0.726
0.730
0.725
0.723
0.726
0.732
0.724
0.725
0.729
0.465
0.474
0.477
0.472
0.467
0.460
0.469
0.472
0.468
0.464
0.461
0.471
0.473
0.473
0.460
0.465
0.472
0.473
0.458
0.466
0.484
0.457
0.456
0.487
0.465
0.467
0.465
0.480
0.470
0.472
0.720
0.725
0.715
0.723
0.733
0.724
0.722
0.730
0.726
0.722
0.723
0.728
0.731
0.723
0.728
0.730
0.729
0.721
0.726
0.727
0.728
0.724
0.724
0.724
0.728
0.730
0.729
0.722
0.721
0.733
0.449
0.468
0.462
0.469
0.472
0.477
0.459
0.470
0.464
0.472
0.447
0.470
0.470
0.475
0.471
0.472
0.467
0.454
0.477
0.480
0.466
0.459
0.459
0.469
0.470
0.467
0.476
0.464
0.464
0.451
0.727
0.728
0.724
0.726
0.735
0.725
0.724
0.730
0.725
0.727
0.723
0.728
0.722
0.728
0.726
0.726
0.730
0.723
0.726
0.718
0.726
0.726
0.729
0.721
0.725
0.722
0.723
0.726
0.725
0.723
0.475
0.457
0.470
0.465
0.466
0.463
0.472
0.458
0.472
0.469
0.464
0.474
0.464
0.471
0.470
0.454
0.488
0.468
0.464
0.466
0.465
0.464
0.463
0.455
0.461
0.472
0.473
0.479
0.456
0.476
τ
0.727
0.469
0.726
0.466
0.726
0.467
δτ
0.004
0.008
0.004
0.008
0.007
0.003
στ
0.013
0.003
0.018
0.033
0.034
0.017
6 Analyse der Copulas und ihrer Dichten
Seite 84
Diese Erkenntnis lässt sich ebenfalls aus der Definition von Kendalls Tau ableiten, da die
Bereiche der Box, in welchen konkordante bzw. diskordante Radienpaare auftreten können,
eindeutig durch den Abstand des Atoms 1 von Atom 2 determiniert werden.
Aus diesen Überlegungen lassen sich zusätzlich zu den zwei ermittelten Werten an den
Abständen 2 Å und 4 Å zwei weitere Werte für Kendalls Tau bestimmen. Liegen die beiden Atome 1 und 2 an demselben Aufpunkt, dann ist τ = 1, da eine Änderung des einen
Abstandes in eine Richtung einhergeht mit der Änderung des anderen Abstandes in die
selbe Richtung. Befinden sich die Atome 1 und 2 auf zwei gegenüberliegenden Rändern
der Box, so ist τ fast −1, denn eine Vergrößerung des einen Abstandes zieht fast im-
mer eine Verkleinerung des anderen Abstandes nach sich und umgekehrt. Anhand dieser
vier Kendalls Taus an unterschiedlichen Abständen der Atome 1 und 2 voneinander kann
Kendalls Tau über den gesamten Bereich, der von dem Abstand |1 − 2| angenommen wer-
den kann, bestimmt werden. Das heißt, für jede beliebige Ausgangssituation der einfachsten, nichttrivialen Molekül-Konstellation kann Kendalls Tau anhand des Abstandes des
Atoms 1 von Atom 2 in erster Näherung durch eine Funktion der vier bekannten Kendalls
Taus geschätzt werden, ohne eine entsprechende Stichprobe, wie beispielsweise mit der
Acceptance-Rejection-Methode, zu erzeugen.
Nimmt man im Folgenden weiter an, die Copulas innerhalb eines Abstandes seien tatsächlich identisch, so kann die vorstehende, an Kendalls Tau demonstrierte, Methode auch für
alle weiteren copulabasierte Zusammenhangsmaße angewendet werden. Konkret formuliert
ergibt sich daraus folgendes Verfahren: Für einige unterschiedliche Abstände |1 − 2| werden
die Paarverteilungsfunktionen und die zugehörigen radialen Paarverteilungsfunktionen für
ein Beispiel der einfachsten, nichttrivialen Molekül-Konstellation erzeugt und aus diesen
Daten mittels der in dieser Arbeit hergeleiteten Methode die Copuladichte bzw. die Copula
extrahiert. Mit diesen Copulas werden daraufhin die Werte der einzelnen Abhängigkeitsmaße für die gewählten Abstände bestimmt. Für alle anderen Abstände, welche die Atome
1 und 2 voneinander annehmen können, werden diese Zusammenhangsmaße durch eine von
den berechneten Werten abhängige Funktion geschätzt, z.B. durch lineare Interpolation.
Diese Schätzung wird umso besser sein, je feiner die Abstände der erzeugten Situationen gewählt werden. Ist eines dieser Zusammenhangsmaße kompliziert zu ermitteln, so ergibt sich
durch die vorstehende Methode die Möglichkeit, dennoch einfach an die entsprechenden
Werte zu gelangen. Darüberhinaus können die physikalisch-chemischen Ausgangssituationen somit, unter der Annahme, dass die zu einem Abstand gehörenden Copulas identisch
sind, auf Zusammenhangsmaße hin untersucht und bewertet werden, die bisher allein im
Kontext mit den Copulas definiert wurden, aber eventuell auch eine physikalisch-chemisch
motivierte Bedeutung besitzen.
6 Analyse der Copulas und ihrer Dichten
Seite 85
Um für alle von den Atomen einnehmbaren Abständen nicht nur die angenommenen Zusammenhangsmaße, sondern auch die dort vorliegende Copula zu kennen, muss eine analytische Darstellung der zugrunde liegenden Copula-Familie gefunden werden. Diese kann
durch den Abstand, oder wie im Vorausgehenden gezeigt, äquivalent, wenn nicht sogar
besser, durch Kendalls Tau, parametrisiert werden.
6.3 Sind die Copulas Archimedische?
Da die Klasse der Archimedischen Copulas so umfassend ist, liegt es nahe, die Copulas
daraufhin zu testen, ob sie ebenfalls dieser Klasse angehören. Folgendes Theorem liefert
hierfür die Grundlage:
Theorem 6.3.1
Sei C eine Copula. Dann ist sie genau dann eine Archimedische Copula, wenn sie folgende
zwei Eigenschaften erfüllt:
1. C ist assoziativ, das heißt
C(C(u, v) , w) = C(u, C(v, w))
∀ (u, v, w) ∈ I 3
(6.5)
2.
C(u, u) ≤ u
(6.6)
Für einen Beweis dieser Aussage sei auf [33, S.93] bzw. auf die dort genannte Literatur
verwiesen. Da die zu untersuchenden Copulas anhand von Daten extrahiert wurden, liegen
für sie keine analytischen Beschreibungen vor. Um die Copulas dennoch auf diese Eigenschaften hin zu prüfen, wurden die Aussagen an diskreten Stellen untersucht. Für Aussage
1 wurden hierfür 1003 im Einheitswürfel äquidistant verteilte Punkte gewählt und der
Fehler bezüglich der ersten Aussage an diesen Punkten bestimmt (△Ci ). Anhand dieser
Daten wurde daraufhin der mittlere Fehler (△C) und die Standardabweichung des Fehlers
(σ△C ) ausgewertet. Um Aussage 2 zu testen, wurden im Intervall [0, 1] 100 ebenfalls äquidistante Stellen auf diese Aussage hin untersucht und der Funktionsverlauf von C(u, u) − u
analysiert. Für die sechs vorliegenden Fälle ergaben sich dabei folgende Ergebnisse:
6 Analyse der Copulas und ihrer Dichten
Seite 86
Tab. 6.4: Copulas und ihre Zugehörigkeit zu den Archimedischen
Fall
C(C(u, v) , w) = C(u, C(v, w))?
C(u, u) ≤ u?
A − A − 2 Å
△C = 0.0052
,
σ△C = 0.0041
ja
A − A − 4 Å
△C = 0.0042
,
σ△C = 0.0036
ja
A − B − 2 Å
△C = 0.0047
,
σ△C = 0.0037
ja
A − B − 4 Å
△C = 0.0046
,
σ△C = 0.0039
ja
A − C − 2 Å
△C = 0.0046
,
σ△C = 0.0036
ja
A − C − 4 Å
△C = 0.0043
,
σ△C = 0.0036
ja
Die Werte der vorstehenden Tabelle zeigen eindeutig, dass es sich bei den sechs extrahierten
Copulas um Archimedische Copulas handelt. Die sehr geringen Abweichungen gehen auf
Fehler zurück, die durch die numerische Bestimmung der Copuladichten entstanden sind
oder folgen aus der nicht korrekt beschriebenen physikalisch-chemischen Ausgangssituation
durch die approximativen Theorien.
Die Tatsache, dass es sich bei den Copulas um Archimedische handelt, ermöglicht im Zusammenhang mit der Erkenntnis, dass die vorliegenden Copulas mit Kendalls Tau parametrisiert werden können, die Anwendbarkeit der in Kapitel 4.1.2 vorgestellten Methode zur
Bestimmung einer analytischen Beschreibung der Copulas. In Anlehnung an diese Methode
soll für gegebene Copula-Familien mit Kendalls Tau für beide Abstände jeweils der passende Parameter des Generators ermittelt werden, um darauffolgend die durch ihn erzeugten
Copulas mit den Referenzcopulas vergleichen zu können.
6 Analyse der Copulas und ihrer Dichten
Seite 87
6.3.1 Anwendung bekannter Archimedischer Copulas
In Analogie zu der in Kapitel 4.1.2 vorgestellten Methode sollen in diesem Abschnitt bestimmte Copuladichten einiger Copula-Familien daraufhin getestet werden, ob sie die gegebene Abhängigkeitsstruktur der extrahierten Copulas beschreiben. Der zu den Daten
gehörende Parameter jeder Familie wird dabei durch den zu Beginn des Kapitels ermittelten Kendalls Tau für die Abstände 2 Å und 4 Å mit (4.8) bestimmt. Eine Auflistung der
bekanntesten Archimedischen Copulas ist in Nelsen [33, S. 94-97] zu finden. Allerdings
eignen sich nicht alle der dort aufgeführten Copulas zum Vergleich mit den extrahierten
Copulas, da sie durch ihren eingeschränkten Parameterbereich nicht für den vollen Bereich
des Kendalls Tau von -1 bis +1 eine Copula erzeugen. Aus diesem Grund wurden die aufgelisteten Archimedischen Copulas vorab auf den Bereich hin untersucht, den Kendalls Tau
bei ihren Beschreibungen annehmen kann. Nachfolgend werden zuerst die verschiedenen
Generatoren und die zugehörigen Parameter(ϑ)-Intervalle tabellarisch aufgelistet (Tabelle
6.5). Die Tabelle 6.6 stellt die Formulierung der aus den Generatoren erzeugten Copulas und den numerisch ermittelten, zugänglichen Bereich des Kendalls Tau dar. Da dieser
Bereich für Kendalls Tau numerisch bestimmt wurde, sind die angegebenen Intervallgrenzen nur approximativ. Es werden die auf drei Nachkommastellen gerundeten Werte von
Kendalls Tau angegeben.
Tab. 6.5: Verschiedene Generatoren ϕϑ (t) und der Bereich des Parameters ϑ
N r.
1
ϕϑ (t)
1
ϑ
t−ϑ − 1
ϑ∈
[−1, ∞) \ {0}
2
(1 − t)ϑ
[1, ∞)
3
ln 1−ϑ(1−t)
t
[−1, 1)
4
(− ln t)ϑ
[1, ∞)
5
−1
− ln ee−ϑ −1
(−∞, ∞) \ {0}
6
h
i
− ln 1 − (1 − t)ϑ
[1, ∞)
7
− ln[ϑt + (1 − ϑ)]
(0, 1]
8
1−t
1+(ϑ−1)t
[1, ∞)
−ϑt
Fortsetzung nächste Seite
6 Analyse der Copulas und ihrer Dichten
Seite 88
Tab. 6.5: Verschiedene Generatoren ϕϑ (t) und der Bereich des Parameters ϑ
ϕϑ (t)
ϑ∈
ln(1 − ϑ ln t)
(0, 1]
N r.
9
10
11
ln 2t−ϑ − 1
ln 2 − tϑ
1
t
12
13
14
(0, 1/2]
ϑ
−1
[1, ∞)
(1 − ln t)ϑ − 1
(0, ∞)
ϑ
t−1/ϑ − 1
[1, ∞)
1 − t1/ϑ
15
16
(0, 1]
ϑ
t
ϑ
[1, ∞)
+ 1 (1 − t)
−ϑ
[0, ∞)
17
−1
− ln (1+t)
2−ϑ −1
(−∞, ∞) \ {0}
18
eϑ/(t−1)
[2, ∞)
19
eϑ/t − eϑ
(0, ∞)
exp t−ϑ − e
(0, ∞)
20
21
h
i1/ϑ
1 − 1 − (1 − t)ϑ
[1, ∞)
22
arcsin 1 − tϑ
(0, 1]
6 Analyse der Copulas und ihrer Dichten
Seite 89
Tab. 6.6: Resultierende Copulas Cϑ (u, v) und der Bereich für Kendalls Tau (τ )
N r.
Cϑ (u, v)
−1/ϑ ,0
max u−ϑ + v −ϑ − 1
1
2
h
i1/ϑ ϑ
ϑ
max 1 − (1 − u) + (1 − v)
,0
3
uv
1−ϑ(1−u)(1−v)
4
h
i1/ϑ ϑ
ϑ
exp − (− ln u) + (− ln v)
− ϑ1
5
(e−ϑu −1)(e−ϑv −1)
ln 1 +
e−ϑ −1
τ∈
[−1, 1]
[−1, 1]
−0.182, 0.3
[−∞, ∞] \ [1, 2]
??
6
h
i1/ϑ
1 − (1 − u)ϑ + (1 − v)ϑ − (1 − u)ϑ (1 − v)ϑ
[−∞, ∞] \ [1, 2]
7
max (ϑuv + (1 − ϑ) (u + v − 1) , 0)
[−1, 0]
max
8
9
10
11
12
h
i
ϑ2 uv−(1−u)(1−v)
,0
ϑ2 −(ϑ−1)2 (1−u)(1−v)
uv exp(−ϑ ln u ln v)
[−0.361, 0]
uv
[−0.182, 0]
1/ϑ
[1+(1−uϑ )(1−vϑ )]
max
−1, 0.3
1/ϑ uϑ v ϑ − 2 1 − uϑ 1 − v ϑ
,0
h
ϑ
ϑ i1/ϑ −1
1 + u−1 − 1 + v −1 − 1
[−0.565, 0]
0.3, 1
13
h
i1/ϑ ϑ
ϑ
exp 1 − (1 − ln u) + (1 − ln v) − 1
[−0.361, 1]
14
h
ϑ
ϑ i1/ϑ −ϑ
−1/ϑ
−1/ϑ
−1 + v
−1
1+ u
??
Fortsetzung nächste Seite
6 Analyse der Copulas und ihrer Dichten
Seite 90
Tab. 6.6: Resultierende Copulas Cϑ (u, v) und der Bereich für Kendalls Tau (τ )
N r.
Cϑ (u, v)
15
max
16
1
2
h
1 − u1/ϑ
ϑ
+ 1 − v 1/ϑ
ϑ i1/ϑ
√
S + S 2 + 4ϑ , S = u + v − 1 − ϑ
1+
[(1+u)−ϑ −1][(1+v)−ϑ −1]
2−ϑ −1
−1/ϑ
1
u
ϑ
+
1
v
,0
−1
−1
max 1 + ϑ/ ln eϑ/(u−1) + eϑ/(v−1) , 0
18
ϑ/ ln eϑ/u + eϑ/v − eϑ
19
−1/ϑ
ln exp u−ϑ + exp v −ϑ − e
20
22
1−
17
21
!
1−
ϑ !1/ϑ
h
i1/ϑ h
i1/ϑ
ϑ
ϑ
+ 1 − (1 − v)
− 1, 0
1 − max 1 − (1 − u)
h
i1/ϑ p
p
ϑ
ϑ
ϑ
ϑ
,0
max 1 − 1 − u
1 − (1 − v ) − 1 − v
1 − (1 − u )
τ∈
[−1, 1]
−1, 0.3
[−0.614, 1]
0.3, 1
0.3, 1
[0, 0.861]
[−1, 1]
[−0.467, 0]
Für die Archimedischen Copulas der Nummern 5 und 14 konnten wegen numerischer Probleme keine Intervallgrenzen bestimmt werden.
Aus obiger Tabelle ergibt sich, dass für die geschätzten Kendalls Taus τ1 = 0.727 und
τ2 = 0.469 der beiden Abstände 2 Å bzw. 4 Å nur aus Generatoren der Nummern 1, 2, 4, 6,
12, 13, 15, 17, 18, 19, 20, 21 Archimedische Copulas erzeugt werden können.
Da in den vorigen Abschnitten gezeigt wurde, dass die Copuladichten für einen Abstand als
nahezu identisch angesehen werden können, wird an dieser Stelle die Abweichung der nachfolgend erzeugten Archimedischen Copulas und ihrer Dichten von den extrahierten Copulas
bzw. -dichten repräsentativ an dem Fall A − A − 2 Å und A − A − 4 Å untersucht. In der
folgenden Tabelle sind die Differenzfunktionen der Copuladichten sowie die statistischen
Maßzahlen der an 1002 äquidistanten Punkten des Einheitsquadrates ausgewerteten Stichproben aufgetragen. Zusätzlich sind die Konturendiagramme der Differenzfunktionen der
Copuladichten dargestellt. Bei den Konturendiagrammen stellen dunkle Gebiete Bereiche
geringer Abweichung und helle Gebiete Bereiche großer Abweichungen dar.
6 Analyse der Copulas und ihrer Dichten
Seite 91
Tab. 6.7: Abweichung der Archimedischen Copulas für τ1 = 0.727 bei 2 Å
N r.
Differenzfunktion
Konturendiagramm
v
1
0.8
1
3
diffc Hu, vL 2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.509
ϑ = 5.334
0.2
0.4
0.6
0.8
1
u
σ△c = 1.648
v
1
0.8
2
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.791
ϑ = 7.334
0.2
0.4
0.6
0.8
1
u
σ△c = 2.513
v
1
0.8
4
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.646
ϑ = 3.667
0.2
0.4
0.6
0.8
1
u
σ△c = 1.281
v
1
0.8
6
diffc Hu, vL
4
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
ϑ = 3.667
0
1 0
0
△c = 0.916
0.2
0.4
0.6
0.8
1
u
σ△c = 1.419
Fortsetzung nächste Seite
6 Analyse der Copulas und ihrer Dichten
Seite 92
Tab. 6.7: Abweichung der Archimedischen Copulas für τ1 = 0.727 bei 2 Å
N r.
Differenzfunktion
Konturendiagramm
v
1
0.8
12
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.535
ϑ = 2.445
0.2
0.4
0.6
0.8
1
u
σ△c = 1.031
v
1
0.8
13
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.423
ϑ = 9.491
0.2
0.4
0.6
0.8
1
u
σ△c = 0.674
v
1
0.8
15
3
diffc Hu, vL 2
1
0
0
1
0.8
0.6
0.4 v
0.2
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.69
ϑ = 4.167
0.2
0.4
0.6
0.8
1
u
σ△c = 1.46
v
1
0.8
17
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
ϑ = 18.592
0
1 0
0
△c = 0.439
0.2
0.4
0.6
0.8
1
u
σ△c = 0.69
Fortsetzung nächste Seite
6 Analyse der Copulas und ihrer Dichten
Seite 93
Tab. 6.7: Abweichung der Archimedischen Copulas für τ1 = 0.727 bei 2 Å
N r.
Differenzfunktion
Konturendiagramm
v
1
0.8
18
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 2.752
ϑ = 4.89
0.2
0.4
0.6
0.8
1
u
σ△c = 125.637
v
1
0.8
19
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 1.543
ϑ = 2.364
0.2
0.4
0.6
0.8
1
u
σ△c = 60.738
v
1
0.8
20
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 5.989
ϑ = 1.517
0.2
0.4
0.6
0.8
1
u
σ△c = 412.446
v
1
0.8
21
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
ϑ = 6.274
0
1 0
0
△c = 0.803
0.2
0.4
0.6
0.8
σ△c = 2.12
1
u
6 Analyse der Copulas und ihrer Dichten
Seite 94
Tab. 6.8: Abweichung der Archimedischen Copulas für τ2 = 0.469 bei 4 Å
N r.
Differenzfunktion
Konturendiagramm
v
1
0.8
1
3
diffc Hu, vL 2
1
0
0
1
0.8
0.6
0.4 v
0.2
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.464
ϑ = 1.764
0.2
0.4
0.6
0.8
1
u
σ△c = 0.598
v
1
0.8
2
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.714
ϑ = 3.764
0.2
0.4
0.6
0.8
1
u
σ△c = 1.42
v
1
0.8
4
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.539
ϑ = 1.882
0.2
0.4
0.6
0.8
1
u
σ△c = 0.628
v
1
0.8
6
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
ϑ = 1.882
0
1 0
0
△c = 0.714
0.2
0.4
0.6
0.8
1
u
σ△c = 0.698
Fortsetzung nächste Seite
6 Analyse der Copulas und ihrer Dichten
Seite 95
Tab. 6.8: Abweichung der Archimedischen Copulas für τ2 = 0.469 bei 4 Å
N r.
Differenzfunktion
Konturendiagramm
v
1
0.8
12
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.444
ϑ = 1.254
0.2
0.4
0.6
0.8
1
u
σ△c = 0.446
v
1
0.8
13
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.431
ϑ = 3.995
0.2
0.4
0.6
0.8
1
u
σ△c = 0.363
v
1
0.8
15
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 2.096
ϑ = 2.382
0.2
0.4
0.6
0.8
1
u
σ△c = 24.15
v
1
0.8
17
2
1.5
diffc Hu, vL
1
0.5
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
ϑ = 7.231
0
1 0
0
△c = 0.439
0.2
0.4
0.6
0.8
1
u
σ△c = 0.415
Fortsetzung nächste Seite
6 Analyse der Copulas und ihrer Dichten
Seite 96
Tab. 6.8: Abweichung der Archimedischen Copulas für τ2 = 0.469 bei 4 Å
N r.
Differenzfunktion
Konturendiagramm
v
1
0.8
18
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 1.851
ϑ = 2.51
0.2
0.4
0.6
0.8
1
u
σ△c = 64.388
v
1
0.8
19
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.654
ϑ = 0.33
0.2
0.4
0.6
0.8
1
u
σ△c = 8.471
v
1
0.8
20
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
0
1 0
0
△c = 0.578
ϑ = 0.656
0.2
0.4
0.6
0.8
1
u
σ△c = 3.564
v
1
0.8
21
diffc Hu, vL
3
2
1
0
0
0.2
1
0.8
0.6
0.4 v
0.4
u 0.6
0.6
0.4
0.2
0.2
0.8
ϑ = 2.957
0
1 0
0
△c = 0.67
0.2
0.4
0.6
0.8
1
u
σ△c = 1.105
Unter den generierten Copuladichten lässt sich keine finden, welche die vorliegende Abhängigkeitsstruktur des physikalisch-chemischen Problems zufriedenstellend beschreibt. Im
nächsten Abschnitt wird deshalb eine im Rahmen dieser Arbeit hergeleitete Methode eingeführt, mit der beliebig viele weitere Archimedische Copulas konstruiert werden können,
die für zukünftige Vergleiche dienen können.
6 Analyse der Copulas und ihrer Dichten
Seite 97
6.3.2 Konstruktion weiterer Archimedischer Copulas
Ausgehend von bekannten Generatorfunktionen Archimedischer Copulas können beliebig
viele weitere Generatoren durch Linearkombination dieser Generatorfunktionen mit nichtnegativen Vorfaktoren erzeugt werden, was in diesem Abschnitt bewiesen wird.
Eine Funktion ϕ ist genau dann eine Generatorfunktion für eine Archimedische Copula,
wenn sie folgende Eigenschaften besitzt (Kapitel 3.4.2):
1. ϕ ist eine Funktion von I in [0, ∞]
2. ϕ ist stetig
3. ϕ ist streng monoton fallend
4. ϕ(1) = 0
5. ϕ ist konvex
Dass eine Linearkombination bekannter Generatoren erneut eine Generatorfunktion ist,
zeigt nachfolgendes Theorem:
Theorem 6.3.2
Seien ϕi , i = 1, . . . , n Generatorfunktionen verschiedener Archimedischer Copulas. Dann
P
+
ist jede Linearkombination ϑ = N
i=1 ci ϕi mit ci ∈ R0 für i ∈ {1, . . . , n} dieser Funktionen
ebenfalls eine Generatorfunktion einer Archimedischen Copula.
Beweis:
1. Ist erfüllt, da alle ci ≥ 0.
2. Jede Linearkombination stetiger Funktionen ist eine stetige Funktion.
3. Gilt ∀ r, s ∈ [0, 1] mit r < s und ∀ i = 1, . . . , n
ϕi (r) > ϕi (s)
so ist auch
ϑ(r) =
N
X
i=1
da alle ci ≥ 0.
ci ϕi (r) >
N
X
i=1
ci ϕi (s) = ϑ(s)
6 Analyse der Copulas und ihrer Dichten
Seite 98
4. Ist ϕi (1) = 0 ∀i ∈ {1, . . . , n}, dann ist auch
ϑ(1) =
N
X
ci ϕi (1) = 0
i=1
5. Gilt ∀ x, y ∈ [0, 1] und ∀ i = 1, . . . , n bei beliebigem λ ∈ [0, 1]
ϕi (λx + (1 − λ) y) ≤ λϕi (x) + (1 − λ) ϕi (y)
so ist auch
ϑ(λx + (1 − λ) y) =
≤
N
X
i=1
N
X
ci ϕi (λx + (1 − λ) y)
ci (λϕi (x)
i=1
N
X
=λ
i=1
+ (1 − λ) ϕi (y))
ci ϕi (x) + (1 − λ)
= λϑ (x) + (1 − λ) ϑ(y)
N
X
ci ϕi (y)
i=1
Durch das vorstehende Theorem kann die Suche nach einer passenden Copula-Familie
in ein Optimierungsproblem transformiert werden. Das Ziel dieses Optimierungsproblems
ist es, diejenige Linearkombination bekannter Generatoren Archimedischer Copulas mit
nichtnegativen Konstanten zu finden, welche für die aus den Werten von Kendalls Tau zu
ermittelnden Parametern Copulas erzeugen, welche die extrahierten Copulas bestmöglich
approximieren.
7 Zusammenfassung und Ausblick
In der vorliegenden Arbeit wurde das Copula-Konzept herangezogen, um das Rekonstruktionsproblem der Statistischen Thermodynamik zu behandeln, d.h. die Frage nach der Bestimmung von höherdimensionaler Darstellung atomarer Verteilungsfunktionen ausgehend
von niederdimensionalen Daten. Als konkretes Beispiel wurde der einfachste, nichttriviale
Fall untersucht: ein zweiatomiges Molekül gelöst in einem monoatomaren Lösungsmittel.
Hierbei stehen als Randverteilungen die radialen Paarverteilungsfunktionen zur Verfügung,
mit denen die dreidimensionale Paarverteilungsfunktion im Raum rekonstruiert werden
soll. Die Ergebnisse lassen sich folgendermaßen zusammenfassen:
1. Für das gegebene physikalische Problem wurde die Copula-Darstellung formuliert.
Aus den gegebenen dreidimensionalen Paarverteilungsfunktionen wurden die (im
Rahmen numerischer Fehler) „exakten“ Copulas für verschiedene Sätze von physikalischen Parametern (Atomarten und -abstände) extrahiert.
2. Anhand der resultierenden Copuladichten konnte gezeigt werden, dass die Abhängigkeitsstruktur der Paarverteilungsfunktion vom Abstand der beiden Atome im gelösten Molekül dominiert wird und nahezu unabhängig ist von der Art der eingehenden
Atome. Aus dieser Erkenntnis folgt, dass dies auch für alle copulabasierten Maße
gelten muss, was speziell für Kendalls Tau belegt wurde.
3. Es konnte gezeigt werden, dass es sich bei den extrahierten Copulas um Archimedische handelt.
4. Für jede beliebige Ausgangssituation lässt sich durch das zugehörige Kendalls Tau
diejenige Copula bestimmen, welche dieser Situation zugrunde liegt, sofern eine einparametrische Archimedische Copula-Familie analytisch formuliert werden kann, welche
die allgemeine Abhängigkeitsstruktur der physikalischen Situation beschreibt.
5. Die in Nelsen [33] aufgelisteten Archimedischen Copula-Familien wurden hierzu
exemplarisch verwendet und die entsprechenden Copuladichten mit den Referenzcopuladichten verglichen. Allerdings ergab sich keine zufriedenstellende Übereinstimmung, was u.U. darauf zurückzuführen ist, dass Kendalls Tau über ein approximatives
Verfahren bestimmt wurde.
7 Zusammenfassung und Ausblick
Seite 100
6. Es wurde gezeigt, dass aus bekannten Generatoren Archimedischer Copula-Familien
durch Linearkombination mit nichtnegativen Vorfaktoren beliebig viele andere Generatoren gefunden werden können, die neue Archimedische Copula-Familien erzeugen.
Künftig kann hierdurch eine Copula-Familie gefunden werden, welche die vorliegende
Struktur besser beschreibt.
7. Zur Rekonstruktion der realen dreidimensionalen Paarverteilungsfunktion aus limitierter Information kann Kendalls Tau direkt aus uniformen Randverteilungen bestimmt werden. Dies bedeutet physikalisch gesehen, dass die Flüssigkeitsstruktur in
den Modellbeispielen durch Packungseffekte dominiert wird.
In künftigen Arbeiten kann aufbauend auf den hier präsentierten Ergebnissen eine Methode entwickelt werden, jedes copulabasierte Maß in erster Näherung zu schätzen: Hierzu
müssten für bestimmte Abstände idealerweise nur eine Ausgangssituation mit einem bestimmten Satz von Parametern erzeugt, die Copula extrahiert und der Wert des Maßes an
den Abständen ausgewertet werden. Für alle weiteren Atomabstände könnte das Maß aus
den ermittelten Werten in erster Näherung beispielsweise durch Interpolation geschätzt
werden.
Für den Fall, dass es nicht möglich ist, die Struktur analytisch zu beschreiben, würde sich
eine Inter- bzw. Extrapolation der bekannten Copuladichten auf den für Kendalls Tau
zugänglichen Bereich von [-1,1] anbieten.
Ein sehr interessanter Ansatz für künftige Anwendungen ist die Kombination des CopulaFormalismus mit dem Prinzip der minimalen Kreuz-Entropie [23, 40]. Hiermit kann aus einer geschätzten Paarverteilungsfunktion eine verbesserte Verteilungsfunktion mittels Minimierung der Kullback-Leibler-Divergenz
DKL (f : g) =
ˆ
f (x) ln
f (x)
dx
g(x)
(7.1)
konstruiert werden. Hierbei ist g(x) eine Vorabdichte für die gesuchte Dichte f (x).
DKL (f : g) ist immer nichtnegativ und wird minimal, d.h. 0, wenn f ≡ g ist. In Anlehnung
an den Maximum-Entropie-Formalismus (vergleiche auch Kap. 4.1.3) wird hierbei folglich
diejenige Dichte bestimmt, welche der Vorabdichte am ähnlichsten ist und die gegebenen
Randbedingungen erfüllt. Aus einer geschätzten Copuladichte und den radialen Paarverteilungsfunktionen kann die Vorabdichte definiert und das Entropiefunktional unter den
gegebenen Randbedingungen minimiert werden.
Ein zentrales Problem für weitere Untersuchungen stellt die Erweiterung auf kompliziertere
als den in dieser Arbeit behandelten Modellfall dar. Komplexere Molekül-Konstellationen
7 Zusammenfassung und Ausblick
Seite 101
wie z.B. Lösungsmittelteilchen mit inneren Freiheitsgraden oder polyatomare gelöste Moleküle bedeuten eine Erhöhung der Dimensionalität des Rekonstruktionsproblems. Dazu
müssten analog zu dem vorliegenden Konzept Möglichkeiten geschaffen werden, Zusammenhangsmaße mehrerer Zufallsvariablen zu beschreiben und diese mit den Copulas zu
verknüpfen, so wie es in dem vorliegenden Fall Kendalls Tau für die Generatoren einer
Archimedischen Copula sind. Zu dieser Problematik sind in der Literatur bislang nur
äußerst wenige Ansätze zu finden. In der Zukunft kann hierfür wichtig sein, die mathematischen Strukturen der statistischen Thermodynamik vor dem Hintergrund des CopulaFormalismus genauer zu beleuchten.
8 Anhang A
Die für diese Arbeit benötigten Berechnungen wurden mit dem Programm Mathematica,
Version 5.1, Wolfram Research. Inc., Champaign, IL 2004 durchgeführt. Die entwickelten
Programme sind dieser Arbeit als CD-Beilage angefügt.
Die einzelnen Programmteile der CD werden im Folgenden kurz erläutert:
• gewichtungsfunktionsgenerierung_normal.nb : Generierung der Gewichtungsfunktion
auf der nichterweiterten Box
• gewichtungsfunktionsgenerierung_erweitert.nb : Generierung der Gewichtungsfunktion auf der erweiterten Box
• originadaten_und_gitterpunkte.nb : Einlesen der Originaldaten der Fälle mit einem
homoatomaren gelösten Molekül aus den gegebenen Files, Erweiterung der radialen
Paarverteilungsfunktion auf den benötigten Bereich und Ermittlung der Verteilungsfunktionen und ihrer Inversen
• originaldaten_und_gitterpunkte_hetero.nb : analog zu oben für die Fälle mit einem
heteroatomaren gelösten Molekül
• 3d_auf_2d.nb : Transformation der 3D-Paarverteilungsfunktion in 2D-Daten für die
homoatomaren Fälle
• 3d_auf_2d_het.nb : Transformation der 3D-Paarverteilungsfunktion in 2D-Daten
für die heteroatomaren Fälle
• copula_extrahieren_hom.nb : Übertragung der 2D-Daten in eine gemeinsame Dichte, Ermittlung der zugehörigen Randdichten und extrahieren der Copula für den
homoatomaren Fall
8 Anhang A
Seite 103
• copula_extrahieren_het.nb : analog zu oben für den heteroatomaren Fall
• berechnung_kendall_hom.nb : Erzeugung einer Stichprobe, die wie die Randvertei-
lungen des homoatomaren Falls verteilt sind mit der Acceptance-Rejection-Methode
und schätzen von Kendalls Tau
• berechnung_kendall_het.nb : Erzeugung einer Stichprobe, die wie die Randvertei-
lungen des heteroatomaren Falls verteilt sind mit der Acceptance-Rejection-Methode
und schätzen von Kendalls Tau
• daten_kendallstau.nb : Liste der generierten Kendalls Tau für alle Fälle
• copula.nb : Auflistung der Archimedischen Copulas, die mit den Referenzdichten verglichen wurden, Ermittlung des Copula-Parameters mit Kendalls Tau und vergleichen
der Copuladichten
• origindaten_erzeugen.nb : Erzeugen der Daten für die zweidimensionalen Graphiken
dieser Arbeit
Literaturverzeichnis
[1] Allen, M.P. ; Tildesley, D.J.: Computer Simulation of Liquids. Oxford University
Press, 1994
[2] Atkins, Peter W.: Physikalische Chemie. 3. WILEY-VCH, 2001
[3] Beglov, D. ; Roux, B.: Solvation of complex molecules in a polar liquid: An integral
equation theory. In: J. Chem. Phys. 104 (1996), S. 8678
[4] Berg, Daniel ; Bakken, Henrik: A Goodness-of-Fit Test for Copulae based on the
Probability Integral Transform. In: Statistical Research Report No. 10 (2005)
[5] Bronstein, I.N. ; Semendjajew, K.A. ; Musiol, G. ; Mühlig, H.: Taschenbuch
der Mathematik. 5. Verlag Harri Deutsch, 2001
[6] Chandler, D. ; Andersen, H.C.: In: J. Chem. Phys. 78 (1972), Nr. 303
[7] Chandler, David: Introduction to Modern Statistical Mechanics. Oxford University
Press, 1987
[8] Cherubini, Giovanni ; Luciano, Elisa ; Vecchiato, Walter: Copula Methods in
Finance. Wiley Finance Series (John Wiley & Sons, Ltd), 2004
[9] Chu, Ba ; Satchell, Stephan. Computing the Most Entropic Copula. University of
London / University of Cambridge. 2005
[10] Chu, Ba ; Satchell, Stephan: On the Recovery of the Most Entropic Copulas from
Prior Knowledge of Dependence. In: Warwick Business School, Working Paper No.
06-31 (2005)
[11] Dall’Aglio, G. ; Kotz, S. ; Salinetti, G.: Advances in Probability Distributions
with Given Marginals. Kluwer Academic Publishers, 1991
[12] Danos, Michael ; Rafelski, Johann: Pocketbook of Mathematical Functions. Verlag
Harri Deutsch, 1984
[13] Denuit, Michel ; Purcaru, Oana. How to deal with correlated risks in actuarial science? Institut de Statistique & Institut des Sciences Actuarielles, Université
Catholique de Louvain
Literaturverzeichnis
Seite 105
[14] Durrleman, V. ; Nikeghbali, A. ; Roncalli, T.: Which copula is the right one?
In: Working Paper, Group de Recherche Opérationelle, Crédit Lyonnais, France (2000)
[15] Embrechts, P. ; McNeil, A. ; Straumann, D.: Correlation and Dependency in
Risk Management: Properties and Pitfalls. Department of Mathematics, ETH Zürich.
1999. – www.math.ethz.ch/ mcneil/ftp/pitfalls.pdf
[16] Embrechts, Paul ; Lindskog, Filip ; McNeil, Alexander. Modelling Dependence
with Copulas and Applications to Risk Management. Department of Mathematics,
ETH Zürich. 2001
[17] Ender, P.:
Stochastische Modellierung von Katastrophenschäden.
tut für mathematische Stochastik, Universität Karlsruhe (TH).
Insti1999. –
http://www.dkkv.org/forum2001/Datei35.pdf
[18] Frees, Edward W. ; Valdez, Emiliano A.: Understanding relationships using copulas. In: North American Actuarial Journal 2 (1993), Nr. 1
[19] Genest, Christian ; Rivest, Louis-Paul: Statistical Inference Procedures for Bivariate Archimedean Copulas. In: J. Amer. Statist. Assoc. 88 (1993), Nr. 423
[20] Hansen, J.-P. ; McDonald, I.R.: Theory of simple liquids. 2. Academic Press, San
Diego, 1991
[21] Hirata, Fumio: Molecular Theory of Solvation. Kluwer Academic Publishers, 2003
[22] Junker, Markus: Modelling, Estimating and Validating Multidimensional Distribution Functions with Applications to Risk Management, Technische Universität Kaiserslautern, Diss., 2003
[23] Karmeshu, Prof.: Entropy Measures, Maximum Entropy Principle and Emerging
Applications. Springer-Verlag, Berlin, 2003
[24] Kovalenko, A. ; Hirata, F.: Three-dimensional density profiles of water in contact
with a solute of arbitrary shape: A RISM approach. In: Chem. Phys. Lett. 290 (1998)
[25] Lebedev, V.I. ; Laikov, D.N.: A quadrature formula for the sphere of the 131st
algebraic order of accuracy. In: Doklady Mathematics 59 (1999), Nr. 3, S. 477–481
[26] Lehn, J. ; Wegmann, H.: Einführung in die Statistik. 3. B.G.Teubner, StuttgartLeipzig, 2000
[27] MacKenzie, George R.: Approximately Maximum-Entropy Multivariate Distributions
with Specified Marginals and Pairwise Correlations, University of Oregon, Diss., 1994
Literaturverzeichnis
Seite 106
[28] Matteis, Roberto de: Fitting Copulas to data, Institute of Mathematics, University
of Zürich, Diploma thesis, 2001
[29] McQuarrie, Donald A.: Statistical Mechanics. HarperCollinsPublisher
[30] Melchiori, Mario R.: Which Archimedean Copula is the right one? In: YieldCurve.com e-Journal (2003)
[31] Meyfredi, Jean-Christophe: Is There a Gain to Explicitly Modelling Extremes? A
Risk Management Analysis. In: EDHEC Risk and Asset Management Research Centre
(2005)
[32] Morita, T. ; Hiroike, K.: A new Approach to the Theory of Classical Fluids. III.
In: Prog. Theor. Phys. 25 (1961)
[33] Nelsen, Roger B.: An Introduction to Copulas. Springer-Verlag, 1999
[34] Panchenko, Valentyn: Goodness-of-fit test for copulas. In: Physica A:Statistical
Mechanics and its Applications 355 (2005), Nr. 1
[35] Romano, Claudio:
Calibrating and Simulating Copula Functions: An Ap-
plication to the Italian Stock Market.
In: Working Paper N. 12/2002,
Centro Interdipartimentale sul Diritto e l’Economia dei Mercati
(2002). –
http://w3.uniroma1.it/cidem/Files/WPRomanodicembre02.pdf
[36] Savu, Cornelia ; Trede, Merk: Goodness-of-Fit tests for parametric families of Archimedean Copulas. In: Institute for Econometrics, University of Münster (2004). –
www.wiwi.uni-muenster.de/insiwo/cawm/material/CAWM-Beitrag%20Nr.%206.pdf
[37] Scaillet, Olivier:
Kernel Based Goodness-of-Fit Tests for Copulas with
Fixed Smoothing Parameters.
cial
Asset
Management
and
In: FAME-International Center for FinanEngineering,
Research
Paper
No.
145
.
–
http://www.swissfinanceinstitute.ch/rp145.pdf
[38] Sklar, A.: Fonctions de répartition à n dimensions et leurs marges. In: Publications
de l’institute de Statistique de l’Université de Paris (1959)
[39] Tipler, P.A.: Physik. 3. Spektrum Akademischer Verlag, 2000
[40] Wu, Nailong: The Maximum Entropy Method. Springer-Verlag, 1997
Eidesstattliche Erklärung
Hiermit erkläre ich an Eides statt, dass ich die vorliegende Arbeit selbständig und nur
unter Zuhilfenahme der ausgewiesenen Quellen angefertigt habe. Alle den Quellen
wörtlich oder inhaltlich entnommenen Stellen sind als solche gekennzeichnet.
Darmstadt, den 30. September 2006
Nicole Tschauder
Herunterladen