Einführung in die Statistik - Meteo Uni Bonn

Werbung
Meteorologisches Institut der Universität Bonn
Skript zur Vorlesung
Einführung in die Statistik
Wintersemester 2004/2005
Andreas Hense
Thomas Burkhardt
Petra Friederichs
Version: 31. Oktober 2005
1
Inhaltsverzeichnis
1 Einführung
1
2 Elemente der Wahrscheinlichkeitsrechnung
4
2.1
Ereignisse und Stichprobenraum . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.3
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.4
Unabhängige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3 Zufallsvariable, Verteilung von Zufallsvariablen
8
3.1
Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
3.2
Verteilung einer diskreten ZVA . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.3
Univariate reelle kontinuierliche ZVA’s . . . . . . . . . . . . . . . . . . . . .
9
3.4
Multivariate reelle ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.5
Verallgemeinerte ZVA’s, Funktionen von ZVA’s . . . . . . . . . . . . . . . .
11
3.6
Realisierungen von ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.7
Momente einer Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . .
15
3.7.1
Reduzierte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . .
17
Modus, Median und Quantile . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.8
4 Erwartungswert einer Funktion einer ZVA
4.1
Momente multivariater ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
5.1
5.2
19
19
22
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
5.1.1
Binominalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
5.1.2
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
Kontinuierliche Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.2.1
Gaussverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.2.2
Zentraler Grenzwertsatz der Statistik . . . . . . . . . . . . . . . . . .
30
5.2.3
Die χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
5.2.4
Die Student-t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.2.5
Die Fisher-F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.3
Weitere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.3.1
Log-Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.3.2
Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
5.3.3
Weibullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5.3.4
Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.3.5
Multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . .
41
6 Stichproben von ZVA
43
6.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
6.2
Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
6.3
Schätzung der pdf, Häufigkeitsverteilung . . . . . . . . . . . . . . . . . . . .
45
6.4
Schätzer der Verteilungsfunktion,
Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . .
46
6.5
Schätzung des Erwartungswertes
. . . . . . . . . . . . . . . . . . . . . . . .
47
6.6
Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
6.7
Maximum Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . . . . .
50
6.8
Übung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
6.9
Verteilungen von Schätzern
. . . . . . . . . . . . . . . . . . . . . . . . . . .
52
6.9.1
Verteilung eines Erwartungswertschätzers . . . . . . . . . . . . . . . .
52
6.9.2
Verteilung eines Varianzschätzers - χ2 Verteilung
52
6.9.3
Beziehung zwischen Erwartungswert- und Varianzschätzer -
. . . . . . . . . . .
Student - t Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
54
Beziehung zwischen 2 Varianzschätzern - Fisher-F Verteilung . . . . .
55
6.10 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
6.9.4
6.10.1 Konfidenzintervall für den Mittelwert bei bekannter Varianz einer
normalverteilten GG . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
6.10.2 Konfidenzintervall für den Mittelwert einer normalverteilten GG bei
geschätzter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.10.3 Konfidenzintervall für den Schätzer der Varianz einer NV GG . . . .
58
7 Prüfung statistischer Hypothesen, Tests
7.1
Allgemeine Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
59
7.2
Mittelwerttest bei einer NV GG mit bekannter Varianz . . . . . . . . . . . .
63
7.3
Vergleich der Mittelwerte zweier NV mit identischer Varianz . . . . . . . . .
65
7.4
Vergleich der Varianz zweier NV . . . . . . . . . . . . . . . . . . . . . . . . .
67
7.5
Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
7.5.1
Der χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
7.5.2
Kolmogoroff - Smirnov Test . . . . . . . . . . . . . . . . . . . . . . .
70
8 Statistische Untersuchung extremer Ereignisse
72
8.1
Die Generalisierte Extremwertverteilung . . . . . . . . . . . . . . . . . . . .
8.2
Die Überschreitung eines Schwellenwerts und die Generalisierte Pareto-Verteilung 76
8.2.1
Die Generalisierte Pareto-Verteilung
8.2.2
Das Poisson-GPD-Modell
73
. . . . . . . . . . . . . . . . . .
77
. . . . . . . . . . . . . . . . . . . . . . . .
78
9 Kleine Einführung in die Bayesische Statistik
80
9.1
Nicht-frequentistische Wahrscheinlichkeitsrechnung
. . . . . . . . . . . . . .
82
9.2
Bayes-Theorem für Wahrscheinlichkeiten - der diskrete Fall . . . . . . . . . .
83
9.3
Bayesische Statistik für Wahrscheinlichkeitsdichten
. . . . . . . . . . . . . .
85
9.4
Die Priori-Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
9.4.1
Nichtinformative Priori-Dichten . . . . . . . . . . . . . . . . . . . . .
86
9.4.2
Priori-Dichte mit Maximum Entropie Methode . . . . . . . . . . . . .
87
9.4.3
Einschränkung der Priori-Dichten . . . . . . . . . . . . . . . . . . . .
87
9.4.4
Die Randverteilung zur Bestimmung der Priori-Dichte . . . . . . . . .
88
9.5
Die Maximum-Likelihood Typ II - Methode . . . . . . . . . . . . . . . . . .
89
9.6
Die Momente-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
9.7
Konjugierten Priori-Dichten und die Posteriori . . . . . . . . . . . . . . . . .
90
9.8
Anwendungen Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . . .
91
9.8.1
Punktschätzung eines Parameters . . . . . . . . . . . . . . . . . . . .
91
9.8.2
Multivariate Parameterschätzung . . . . . . . . . . . . . . . . . . . .
91
9.8.3
Test statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . .
91
9.8.4
Bayesiche Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . .
91
1 Einführung
1 Einführung
Warum wird in der Meteorologie Statistik betrieben? Meteorologie war und ist immer eine
datenorientierte Wissenschaft gewesen: dies ist in der Klimatologie offensichtlich, wird in der
Synoptik jeden Tag betrieben, jedes Grenzschichtexperiment lebt von den gemessenen Daten
und auch jedes numerische Modell stellt nichts anderes dar, als einen großen Komplex, mit
dem erstmal viele Daten erzeugt werden, die dann im nachhinein ausgewertet werden müssen.
Viele Daten – ob räumlich oder zeitlich verteilt – stehen an und müssen verarbeitet und
komprimiert werden, um zu einer Aussage zu kommen. Dies ist die Aufgabe der statistischen
Analyse (Beschreibende Statistik).
In der Vorlesung werden die Grundlagen der mathematischen, beschreibenden Statistik
– zunächst für eine skalare Größe (univariate Statistik) – vorgestellt und ihre Anwendung
auf Daten diskutiert. Ein Teil der Vorlesung soll der praktischen Anwendung der statistischen Analyse mit Hilfe von PC’s und Programmen gewidmet sein. Zu Beginn der Vorlesung
werden die grundlegenden Begriffe wie Wahrscheinlichkeit, Zufallsvariable, Wahrscheinlichkeitsdichtefunktionen u.ä. eingeführt. Dann folgen die Grundlagen der Stichprobenentnahme,
das Schätzproblem, die Beurteilung der Qualität der statistischen Analyse (Konfidenz) und
die Absicherung von Annahmen oder Hypothesen durch die (beliebten) statistischen Tests.
Man sollte sich aber im klaren sein, daß diese Begriffe weit über die beschreibende Statistik hinaus Bedeutung haben. Die eigentliche Statistik setzt ein – für meine Begriffe – bei
stochastischen dynamischen Systemen, der statistischen Behandlung nichtaufgelöster Bewegungsformen in numerischen Modellen, der Bestimmung dynamisch konsistenter Analysen
meteorologischer Felder aus unregelmäßig in Raum und Zeit verteilten stochastischen Beobachtungen und vieles mehr. Aber alle diese Punkte kann man nicht verstehen, wenn die
Grundlagen der Statistik nicht vorliegen. Es wäre deshalb auch überheblich, die beschreibende Statistik als Kinkerlitzchen oder reine Fingerübung zu verstehen. Ohne die Grundlagen
kann man die höher angesiedelten Probleme nicht adäquat verstehen und behandeln. Als
ganz typisches Beispiel wird hier die Problematik der statistischen Tests auftauchen. Die
Grundlagen der beschreibenden Statistik machen hier die – vielleicht mitunter etwas verqueren – Gedankengebäude sichtbar, die man bei den Hypothesentests aufstellen muß die dann
aber bei den höher angesiedelten Problemen völlig identisch auftreten und damit begrifflich
keine Schwierigkeiten mehr schaffen.
1
1 Einführung
In einem anderen Teil der Vorlesung werden wir uns dann mit der Statistik von mehrdimensionalen Größen (Vektoren) beschäftigen, der sogenannten multivariaten Statistik. Für
moderne Anwendungen in der Klimatologie sind diese Methoden unabdingbar. Der speziellen
Statistik für Zeitreihen ist dann eine weitere Vorlesung gewidmet.
Eine Warnung zum Schluß : Obwohl die Vorlesung mathematische Statistik heißt, bedeutet
dies nicht, daß die Datenanalyse völlig frei von subjektiven Einflüssen der Experimentatoren
ist. Im Gegenteil: eine wichtige Erkenntnis der Vorlesung sollte sein, daß alle statistischen
Analysen durch das Vorwissen und die Ansprüchen der Experimentatoren bestimmt werden.
Dies wird besonders deutlich bei der statistischen Analyse hochdimensionaler Daten (bspw.
meteorologische Felder, die an Gitterpunkten dargestellt werden sollen), ist aber auch bei
eindimensionalen Daten der Fall, etwa bei der Frage, ob ein zeitlicher Trend in einer Stichprobe wichtig für die Analyse ist oder unwichtig und dann aus den Daten rausgefiltert werden
mußḊiese Vorkenntnis der Experimentatoren wird meisten vornehm mit dem lateinischen
Ausdruck ”a-priori” umschrieben. A-priori Annahmen sind völlig legal, sollten allerdings
von den Experimentatoren als solche auch klar erkannt sein.
Andreas Hense
Bonn, März 1996
Für das Wintersemester 1998/99 wurde die vergriffene Auflage von 1996 einer kleinen
Überarbeitung unterzogen. Diese zielte zunächst auf die Entfernung von Druckfehlern, erbrachte jedoch auch den einen oder anderen erweiterten Erklärungsversuch. Das Kapitel über
die multivariaten Normalverteilungen ist jetzt in dem 1996 noch nicht existenten Skript über
multivariate Statistik zu finden.
Ich danke Andreas Hense für die Überlassung des LaTeX-Skripts und für seine strapazierte Geduld bei der Beantwortung meiner Fragen. Weiterhin danke ich Jochen Elberskirch
für seine Hilfe beim Korrekturlesen und Heiko Paeth für seine Hilfe bei meinem ersten,
erschöpfendem Kampf gegen das LaTeX.
Thomas Burkhardt
Bonn, November 1998
2
1 Einführung
Auch in den Wintersemestern 2002/03 und 2004/05 wurde das Skript weiter überarbeitet.
Vor allem wurde das Kapitel 5 über die Verteilungsfunktionen erweitert. Die Statistik extremer Ereignisse wird in dem neuen Kapitel 8 gesondert behandelt. Ein erster Versuch, eine
Einführung in die Bayesische Statistik zu geben, findet sich in Kapitel 9 - Achtung! - dieses
Kapitel bedarf eventuell noch einiger Überarbeitung und ist vielleicht nicht an allen Stellen
genügend verständlich (Anregungen sind jederzeit willkommen). Während die Kapitel 2 bis
7 essentielle Grundlagen der Statistik vermitteln, auf die alle weiteren Vorlesungen aufbauen, sollen Kapitel 8 und 9 erste Einblicke in besonders aktuelle Methoden der statistischen
Analyse geben. Viel Spaß!
Petra Friederichs
Bonn, Januar 2005
3
2 Elemente der Wahrscheinlichkeitsrechnung
2 Elemente der Wahrscheinlichkeitsrechnung
2.1 Ereignisse und Stichprobenraum
Statistik ist die Beschäftigung mit Daten,
die gemessen wurden oder – allgemeiner –
durch ein Experiment gewonnen wurden (z.B.
auch durch eine Computersimulation). Jede
Durchführung eines identischen Experiments
nennen wir eine Realisierung oder auch Stichprobenentnahme (s.unten). Die Ergebnisse, die
während des Experiments gesammelt werden,
können aus diskreten oder auch aus kontinuierlichen Wertebereichen stammen. Die Er-
Abbildung 1 Beispiel für den Stichproben-
gebnisse einer endlichen Anzahl an Experi-
raum zweier kontinuierlicher Variablen: Feuch-
menten werden einen bestimmten, endlichen
temessung an einem Punkt durch Trocken- und
Bereich im Raum aller denkbaren Ergebnis-
Feuchttemperatur
se einnehmen. Die Vereinigungsmenge aller
Bereiche für alle Größen, die während aller
möglichen Realisierungen des Experiments gesammelt werden, bilden den Stichprobenraum
S des Experiments. Der Stichprobenraum S
kann endlich oder auch unendlich ausgedehnt
sein (vergleiche Abb. (1) bis (3)).
Die Ergebnisse einer einzelnen Realisierung
des Experiments liegen immer in einem Unterraum A von S. Dann wollen wir sagen:
Abbildung 2 Beispiel für den Stichprobenraum zweier kontinuierlicher Variablen (endlich
• Fällt das Ergebnis des Experiments in den
und unendlich ausgedehnt): Beobachtung Bede-
Unterraum A, so liegt das Ereignis A vor.
ckungsgrad und Niederschlag
• Fällt das Ergebnis des Experiments nicht in
den Unterraum A, so liegt das komplementäre Ereignis A vor.
4
2 Elemente der Wahrscheinlichkeitsrechnung
Das Ereignis E umfasst den gesamten Stichprobenraum S, der jede denkbare Realisierung
des Experiments enthält. Das komplementäre Ereignis E ist dann die leere Menge ∅.
Abbildung 3 Beispiel für den Stichprobenraum zweier diskreter, endlicher Stichprobenvariablen:
Monatswitterungsvorhersage nach Temperatur und Niederschlagsklassen
2.2 Begriff der Wahrscheinlichkeit
Es seien N Realisierungen des Experiments mit diskretem Stichprobenraum durchgeführt.
Das Ereignis A wird n(A) mal beobachtet (gemessen). Dann definiert man als Wahrscheinlichkeit für das Auftreten von A
n(A)
N →∞ N
P(A) = lim
(2.1)
Für die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933):
1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit
P(A) ≥ 0
(2.2)
2. Das Ereignis E (Stichprobenraum) hat die Wahrscheinlichkeit 1
P(E) = 1
(2.3)
3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß
A oder B eintreten, geschrieben das Ereignis (A + B)
P(A + B) = P(A) + P(B)
5
(2.4)
2 Elemente der Wahrscheinlichkeitsrechnung
Aus (1), (2) und (3) folgt, daß P(A) ≤ 1 (Übung!). Wenn A das Komplement von A ist, so
gilt, dass die Wahrscheinlichkeit P(A) = 1 − P(A) ist und es folgt mit P(E) = 1, dass für
die leere Menge gilt P(∅) = 0.
Schließen sich die Ereignisse A und B nicht aus, so gibt es eine Wahrscheinlichkeit für das
gemeinsame Ereignis (AB): P(AB). Die Wahrscheinlichkeit für (A + B) ist dann
P(A + B) = P(A) + P(B) − P(AB)
(2.5)
Beweis: Das Ereignis (A + B) läßt sich aufspalten in drei sich ausschließende Ereignisse
(Mengenlehre läßt grüßen, Abb. (4)):
(A + B) : AB + AB + AB
(2.6)
Abbildung 4 Die Aufteilung des Ereignisses (A + B) in drei sich ausschließende Ereignisse, wenn
A und B sich nicht ausschließen
mit der Aufteilung des Ereignisses A
A : AB + AB
(2.7)
und entsprechend für B ergibt sich für die Wahrscheinlichkeit P(A + B)
P(A + B) = P(AB + AB + AB)
P(A + B) = P(AB) + P(AB) + P(AB)
P(A + B) = P(A) − P(AB) + P(B) − P(AB) + P(AB)
6
(2.8)
2 Elemente der Wahrscheinlichkeitsrechnung
2.3 Bedingte Wahrscheinlichkeiten
Das Ereignis A sei beobachtet. Die Wahrscheinlichkeit, daß zusätzlich auch noch das Ereignis
B auftritt, heißt bedingte Wahrscheinlichkeit
P(B|A) =
P(AB)
.
P(A)
(2.9)
Die Wahrscheinlichkeit P(B|A) ist nur auf dem Ereignis A definiert. Es lässt sich ausserdem
jede gemeinsame Wahrscheinlichkeit P(B|A) aufteilen in die bedingte Wahrscheinlichkeit
P(B|A) und die Randwahrscheinlichkeit P(A) oder vice versa
P(AB) = P(B|A)P(A) = P(A|B)P(B).
(2.10)
2.4 Unabhängige Ereignisse
‘ Zwei Ereignisse A und B sind unabhängig, das heisst die Festlegung des Ereignisses A hat
keinen Einfluss auf das Auftreten des Ereignisses A. Es gilt also
P(A|B) = P(A)
(2.11)
P(B|A) = P(B)
(2.12)
und umgekehrt
Damit folgt, dass die Wahrscheinlichkeit für das gemeinsame Ereignis AB gilt
P(AB) = P(A)P(B).
7
(2.13)
3 Zufallsvariable, Verteilung von Zufallsvariablen
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.1 Diskrete Zufallsvariable
Sei S ein diskreter Stichprobenraum. Jedes Ereignis A tritt mit der Wahrscheinlichkeit P(A)
auf. Dann heißt die Menge
a = {(A, P(A)), A ∈ S}
(3.1)
(diskrete) Zufallsvariable (ZVA). Es ist wichtig, daß wir bei ZVA immer daran denken,
daß es sich um eine Menge und nicht um eine Zahl oder Funktion o.ä. handelt.
Kann jedem Ereignis A eine reelle Zahl x zugeordnet werden, wollen wir auch die Menge
X = {(x, P(x)), x ∈ S}
(3.2)
als diskrete ZVA bezeichnen.
ACHTUNG: Bisher wurden für die Bezeichnung der Ereignisse Großbuchstaben verwendet
und für die ZVA Kleinbuchstaben. Ist einem Ereignis aber eine reelle Zahl zugeordnet, wird
das Ereignis mit Klein- und die ZVA mit Großbuchstaben bezeichnet.
Ausführlich geschrieben ist die Notation für die ZVA X:
X = {(x1 , P(x1 )), (x2 , P(x2 )), ...., (xm , P(xm )), xi ∈ S} für i = 1, ..., m,
{z
}
|
(3.3)
m−mal
wobei m sowohl endlich als auch zählbar unendlich sein kann.
Wegen der Normierungsbedingung (Axiom (2)) gilt
X
P (x) = 1
(3.4)
x∈S
Die folgenden Beispiele sollen den Begriff ZVA verdeutlichen.
1. Deterministische Vorgänge: Sei für ein bestimmtes Ereignis A ∈ S die Wahrscheinlichkeit P(A) = 1 und entsprechend P(A) = 0, so ist der Ausgang eines Experiments
eindeutig determiniert: es kommt immer zum Ereignis A und sonst nichts.
2. Gleichverteilte ZVA (der allseits beliebte Münz- oder Würfelwurf): S bestehe aus M
Elementen, für alle Ereignisse Am sei P(Am ) =
{(Am ,
1
,
M
m=1,...,M. Dann heißt die ZVA
1
), Am ∈ S}
M
8
(3.5)
3 Zufallsvariable, Verteilung von Zufallsvariablen
eine gleichverteilte ZVA. Im Fall der Münze gilt:
ZVAGeld = {(Adler, 0.5), (Zahl, 0.5), Am ∈ Adler ∩ Zahl}
Wie man sieht, muß nicht jedem Ereignis (hier Adler, Zahl) eine reelle Zahl zugeordnet
sein.
3. Binomialverteilte ZVA (siehe nächstes Kapitel): Der Stichprobenraum besteht immer
aus Zahlen zwischen 0 und n. Das Ereignis dieser ZVA wird im Gegensatz zu den
obigen festgelegt durch die Häufigkeit des Eintretens eines bestimmten Ereignisses bei
der n-maligen, unabhängigen Durchführung eines Experiments (mit anderer ZVA), das
nur 2 Ereignisse zuläßt.
3.2 Verteilung einer diskreten ZVA
Sei X eine diskrete ZVA und in dem Stichprobenraum kann eine Ordnungsrelation ”größer
(>)” definiert werden. Dann heißt die Funktion
X
F (x) =
P (y)
(3.6)
y≤x
die Verteilungsfunktion der ZVA X. Die Existenz einer Ordnungsrelation in S ist nicht trivial:
man denke z.B an die Zufallsvariablen Farbe, Wolkentyp oder Großwetterlage. Kann man
dem Ereignis X eine reelle Zahl x zuordnen, so ist die Ordnungsrelation i.A. aber gegeben.
Wie sieht die Verteilungsfunktion einer gleichverteilten ZVA aus?
Sei xmax = max(x, x ∈ S) und xmin entsprechend. Wie sieht F (xmax ) und F (xmin ) aus?
3.3 Univariate reelle kontinuierliche ZVA’s
Sei der Stichprobenraum S nicht mehr diskret, sondern das eindimensionale, geschlossene
und kontinuierliche Intervall [a, b] (Kann auch offen sein oder halboffen oder a, b = ±∞; spielt
keine Rolle). Dann kann keine Wahrscheinlichkeit P(x), die der Normierungsbedingung (3.4)
entspricht, für die Definition der Zufallsvariablen verwendet werden. Man zieht sich deshalb
bei reellen ZVA auf die Verteilungsfunktion F(x) zurück und definiert als univariate (wg. des
eindimensionalen Stichprobenraums), reelle ZVA X die Menge:
X = {(x, F (x)), x ∈ [a, b]}
9
(3.7)
3 Zufallsvariable, Verteilung von Zufallsvariablen
wobei F eine monoton steigende (nicht notwendigerweise streng monoton steigende) Funktion ist, die das Intervall [a, b] auf das Intervall [0, 1] abbildet und analog zu der Wahrscheinlichkeit folgendes Axiome bezitzt:
• 0 ≤ F (a) ≤ F (b) ≤ 1
• limx→b F (x) = 1
• limx→a F (x) = 0
Ist der Stichprobenraum auf ein endliches Intervall [a, b] begrenzt, so gilt natürlich auch
F (b) = 1 und F (a) = 0.
Ist F (x) stetig differenzierbar f (x) = F 0 (x), so kann man alternativ auch die Menge
X = {(x, f (x)), x ∈ [a, b]}
(3.8)
als eine reelle ZVA definieren. F (x) heißt Verteilungsfunktion der ZVA X und f (x) die
Wahrscheinlichkeitsdichtefunktion (engl. probability density function = pdf ). Wahrscheinlichkeiten für das Beobachten einzelner Zahlen während der Realisierung eines Experiments
anzugeben ist nicht sinnvoll, da eine Zahl nicht beobachtbar ist, sondern nur Werte innerhalb eines Intervalls (s. Ereignisdefinition in Kap.2.1). Dieses Intervall hat z.B. die Breite des
Messfehlers. Daher rührt auch das Versagen der Wahrscheinlichkeitsdefinition beim Übergang von diskreten ZVA zu reellen ZVA und man kann bei kontinuierlichen, reellen ZVA’s nur
von Wahrscheinlichkeiten über Intervallen reden: d.h. über die Wahrscheinlichkeit, während
der Realisierung eines Experimentes eine Zahl im Intervall [c, d] zu finden. Sie folgt aus der
Verteilungsfunktion für a ≤ c < d ≤ b bzw. der Dichtefunktion die Wahrscheinlichkeit
Z d
f (t)dt.
(3.9)
P([c, d]) = F (d) − F (c) =
c
Insbesondere ist
F (b) =
Z
b
f (t)dt = 1,
(3.10)
a
was aus der Definition für F folgt. Die pdf f (x) kann man dann als die Wahrscheinlichkeit interpretieren, mit der eine Realisierung einen Wert liefert, der in dem infinitesimalen
Intervall [x, x + dx] liegt.
Wie sehen die Verteilungsfunktion und die Dichtefunktion einer gleichverteilten reellen ZVA
über einem endlichen Intervall [a, b] aus?
10
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.4 Multivariate reelle ZVA’s
Sei Ω ∈ IRn ein vernünftiges Gebiet (oder gutartiges Gebiet: d.h. man kann alle Integrationen ausführen). Ein Element dieses Gebietes sei durch den n-dimensionalen Vektor ~x
gekennzeichnet. Sei f eine Funktion von Ω in IR, die positiv semidefinit ist und für die gilt
Z
f (~x) ≥ 0
f (~x)d~x = 1
(3.11)
~ = {(~x, f (~x)), ~x ∈ Ω}
X
(3.12)
Ω
Dann heißt die Menge
eine n-dimensionale (multivariate) ZVA. Die Verteilungsfunktion lautet dann
Z x1
Z xn
f (~t)dt1 . . . dtn
F (~x) =
...
(3.13)
−∞
−∞
Wie lautet die Wahrscheinlichkeitsdichtefunktion für eine gleichverteilte ZVA über der Einheitskugel?1
3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s
Sei die Menge
X = {(x, P(x)), x ∈ S}
(3.14)
eine diskrete ZVA und g(x) = y eine Abbildung von dem Stichprobenraum S in einen neuen
Stichprobenraum Sg . Dann ist auch die Menge
Y = {(y, Pg (y)), y ∈ Sg }
(3.15)
eine diskrete ZVA, die identisch ist zur diskreten ZVA
g(X) = {(g(x), P(x)), x ∈ S}
(3.16)
wenn man setzt
Pg (y) =
X
P (x)
x∈S 0
1
Z
2π
0
Z
π/2
cr2 cos ϕdϕdλ = c2πr 2 = 1
−π/2
11
(3.17)
3 Zufallsvariable, Verteilung von Zufallsvariablen
Dabei entsteht S 0 durch die Abbildung g −1 (y) von Sg in den Raum S 0 . g(x) ist aber nun
keineswegs auf eindeutig umkehrbare Funktionen begrenzt. Zur Berechnung der Wahrscheinlichkeit Pg (y) muß man ggf. g(x) in eindeutig umkehrbare Funktionsabschnitte unterteilen.
Die Verallgemeinerung auf reelle univariate oder multivariate ZVA folgt unmittelbar. Sei
~ = {(~x, f (~x)), ~x ∈ Ω}
X
(3.18)
eine multivariate ZVA und ~g eine Abbildung von Ω in IRq mit ~g (~x) = ~y und ~g und ~g −1 stetig
differenzierbar. Dann ist die ZVA
~ = {(~y, fg (~y)), y ∈ Ωg }
Y
(3.19)
~ = {(~g (~x), f (~x)), ~x ∈ Ω}
~g (X)
(3.20)
~ mit
identisch zur ZVA ~g (X)
wenn man für die pdf fg (~y) setzt:
2
fg (~y) = f (~g −1 (~y)) |det ∂~g −1 (~y)|
(3.21)
|det ∂~g −1 (~y)|
(3.22)
wobei
die Funktionaldeterminante (Jacobische Determinante) der inversen Abbildung ~g −1 ist.
Diesen Zusammenhang kann man sich klar machen mit der Vorstellung, daß Wahrscheinlichkeit und Wahrscheinlichkeitsdichte vergleichbar mit Masse und Massendichte sind und
nicht vernichtet oder erzeugt werden können. Dies gilt auch unter der Abbildung ~g . Die Wahrscheinlichkeitsmasse Prob (~x) im (q-dimensionalen) Volumenelement dq x um den Aufpunkt
x ist gegeben durch:
Prob(~x) = f (~x)dq x
(3.23)
Unter der Abbildung ~g (~x) = ~y bzw. ~g −1 (~y) = ~x muß diese Masse erhalten bleiben. Es muß
also gelten
f (~x)dq x = fg (~y)dq y
2
Dies folgt aus der Normierungsbedingung
Z
Z
Z
f~(~x)d~x =
f~(~g −1 (~y ))d(~g −1 (~y )) =
Ω
Ωg
12
(3.24)
f~(~g −1 (~y ))(∂y ~g −1 )d~y
Ωg
3 Zufallsvariable, Verteilung von Zufallsvariablen
Da fg (~y) unbekannt ist, folgt mit Hilfe der Rechenregeln für die Änderung des Volumenelementes bei Koordinatentransformationen
dq x = |det ∂~g −1 (~y)| dq y
(3.25)
die oben angegebene Beziehung als Bestimmungsgleichung für fg (~y) aus f (~x).
3.6 Realisierungen von ZVA’s
In vielen Anwendungsfällen ist es erwünscht, ZVA zu haben, die wohldefinierten Verteilungsfunktionen unterliegen. Dies ist zu unterscheiden vom Schätzproblem (s.u.). Dabei sind aus
ZVA, die durch verschiedene Realisierungen eines Experiments entstanden sind, i.A. die Verteilungsfunktion oder was damit zusammenhängt zu ”schätzen”. Typisches Beispiel für das
erste Problem dagegen sind die sogenannten Monte Carlo Experimente: es werden Realisierungen einer oder auch mehrerer ZVA generiert, mit denen man dann seine statistischen
Analysen überprüft. Man behandelt die künstlich erzeugten Daten so, als ob sie einem realen Experiment entnommen worden wären, weiß aber im Gegensatz zum realen Experiment,
welcher Verteilung sie unterliegen.
Wie erzeugt man nun ZVA mit wohldefinierten Verteilungsfunktionen? Strenggenommen
lassen sie sich nur auf dem Computer realisieren, wenngleich frühe Experimentatoren (=Spieler) schon interessante Erkenntnisse über diskrete ZVA’s wie Münz- oder Würfelwurf durch
viele tatsächliche Würfe erzielt haben. Heute arbeitet man mit Zufallszahlengeneratoren
(ZZG), also Rechnerprogrammen, die ZVA erzeugen. Jede FORTRAN Library hat i.A. einen
solchen Generator standardmäßig implementiert. Numerical Recipes, Kapitel 7 gibt einen guten Überblick, wie Zufallszahlengeneratoren arbeiten, wie man welche schreibt und auch, in
welche Fallen man tappen kann.
Die allgemeine Form eines ZZG ist folgende Iteration (stückweise lineare Abbildung eines
Intervalls auf sich selbst):
In+1 = mod(aIn + c, m)
(3.26)
wobei a, c, m positive Integer Zahlen sind und mod die modulo– Funktion bezeichnet. Realisierungen einer gleichverteilte ZVA im Intervall [0, 1[ erhält man durch die Normierung
xn = In /m
13
(3.27)
3 Zufallsvariable, Verteilung von Zufallsvariablen
”Gute” Werte für die Konstanten a, c, m findet man in Numerical Recipes auf Seite 198. Den
Grund, warum Iterationen der obigen Art Zufallszahlen erzeugen, findet man am Beispiel
des ”Bernoulli shift” (a = 2, c = 0, m = 1), der zufällig verteilte Bitmuster erzeugen kann,
in Schuster, Deterministic Chaos, Seite 15ff (Abb. (5)).
Realisierungen von reellen, univariaten ZVA’s
mit einer beliebigen Verteilungsfunktion, werden aus gleichverteilten ZVA’s gewonnen. Hierzu benutzen wir die Ergebnisse des Kapitels
über verallgemeinerte ZVA’s. Sei g eine Abbildung des Intervalls [0, 1] in IR und X eine gleichverteilte ZVA im Einheitsintervall.
Dann war die Wahrscheinlichkeitsdichte der
ZVA Y = g(X) gegeben durch
Abbildung 5 Darstellung der Abbildung des
p(y) = p(x) |
Bernoulli shift
d −1
g (y)|
dy
(3.28)
p(x) ist aber konstant wg. der Gleichverteilung, so daß die Wahrscheinlichkeitsverteilung
der ZVA Y durch die Ableitung der inversen Funktion zu g gegeben ist.
Beispiel: Die Abbildung
g = −ln(x)
erzeugt aus Realisierungen einer gleichverteilten ZVA Realisierungen einer exponentiell verteilten ZVA, da
g −1 = exp(−y)
bzw.
|
d −1
g (y)| = exp(−y)
dy
Analog verfährt man im Fall der multivariaten ZVA’s.
14
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.7 Momente einer Verteilungsfunktion
Sei X = {(x, P(x)), x ∈ S} eine diskrete univariate ZVA. Dann nennt man
mk =
X
xk P(x) k = 0, 1, ...i (links Index, rechts Exponent)
(3.29)
x∈S
das k.te Moment der ZVA. Die Definition macht natürlich nur Sinn, wenn in S eine Addition definiert ist (bedeutet, daß die Ereignisse schon auf Zahlen projeziert sein müssen).
Sei X = {(x, f (x)), x ∈ [a, b]} eine kontinuierliche, univariate und reelle ZVA, dann
bezeichnet man mit
mk =
Z
b
xk f (x)dx
(3.30)
a
das k.te zentrierte Moment von X und mit
Z b
(x − m1 )k f (x)dx
µk =
(3.31)
a
das k.te zentrierte Moment.
Das erste Moment m1 bezeichnet man auch als Erwartungswert E(X) der ZVA X. In
der Theoretischen Mechanik ist das auch der Schwerpunkt der Massenverteilung P(x) (in der
Punktmechanik) bzw. der Massendichte f (x) in der Kontinuumsmechanik. Merke: der Erwartungswert (wie auch alle anderen Momente) einer univariaten ZVA ist selbstverständlich
keine ZVA, sondern eine wohldefinierte reelle Zahl, da unter dem Integral nur reelle Zahlen
bzw. Funktionen stehen, die Teile der Menge X sind. Die Berechnung des Erwartungswertes
ist linear, d.h. es gilt (α, β feste aber beliebige reelle Zahlen)
Z b
0
(αx + β)f (x)dx
E(X ) = g(X) =
a
Z b
Z b
= α
xf (x)dx + β
f (x)dx
a
a
= αE(X) + β
(3.32)
mit X 0 = {(αx + β), f (x)), x ∈ [a, b]}. Gerne schreibt man auch:
E(X 0 ) = E(αX + β) = αE(X) + β
(3.33)
was aber natürlich nicht ganz exakt ist, weil man bei der mittleren Schreibweise im Argument
des Operators E() Mengen (X) mit reellen Zahlen (α) verknüpft. Der Einfachheit halber
werden aber auch wir – nach diesem ausführlichen Hinweis – diese Schreibweise verwenden.
15
3 Zufallsvariable, Verteilung von Zufallsvariablen
Es sei eine Wahrscheinlichkeitsdichtefunktion mit folgender Eigenschaft gegeben (c eine
reelle Zahl, der Stichprobenraum sei die gesamte reelle Zahlenachse)
f (x − c) = f (c − x)
(3.34)
d.h. f ist um c symmetrisch. Dann gilt – sofern der Erwartungswert existiert –
E(X) = c
(3.35)
Beweis für c = 0
E(X) =
=
Z
∞
−∞
Z 0
xf (x)dx
xf (x)dx +
Z
∞
xf (x)dx
Z ∞
xf (x)dx
(−x)f (−x)dx +
=
0
0
Z ∞
Z ∞
xf (x)dx
xf (x)dx +
= −
Z−∞
∞
0
0
0
= 0
(3.36)
Ist c 6= 0, setze y = x − c und benutze die Linearität der Berechnung von E(X). Dann erhält
man sofort E(X) = c.
Das zweite, zentrierte Moment µ2 einer ZVA wird Varianz oder Dispersion Var(X)
der ZVA genannt und ist ein Maß für die mittlere quadratische Abweichung der ZVA von
ihrem Erwartungswert. Die Varianz ist groß wenn die Variabilität der ZVA groß ist und
umgekehrt. Es gilt für alle c ∈
Var(X) = E((X − E(X))2 ) (siehe obigen Hinweis zur Schreibweise!)
Var(X) = E(X 2 ) − (E(X))2
Steiner‘scher Satz
Var(X − c) = Var(X)
Var(cX) = c2 Var(X)
Die Zahl σ(X) =
(3.37)
p
Var(X) bezeichnet man als Streuung der ZVA X.
Das dritte, zentrierte Moment µ3 mit
µ3 = E((X − E(X))3 )
16
(3.38)
3 Zufallsvariable, Verteilung von Zufallsvariablen
kombiniert man mit σ(X) zu
γ=
µ3
σ3
(3.39)
und nennt es Schiefe (Skewness) der Verteilung f oder der ZVA. Hat die pdf lange Ausläufer
nach links (rechts), ist die Schiefe der Verteilung negativ (positiv). Die Schiefe einer symmetrischen Verteilung ist Null.
Das vierte, zentrierte Moment
µ4 = E((X − E(X))4 )
(3.40)
kombiniert man mit σ 4 zu
δ=
µ4
σ4
(3.41)
und nennt δ den Exzeß oder die Kurtosis (Wölbung) der Verteilung. Hat eine Verteilung
eine Kurtosis δ > 3 (δ < 3), so weist sie gegenüber ihrer ”Normalversion” erhöhte (erniedrigte) Werte der pdf im Bereich des pdf -Maximums und erniedrigte (erhöhte) Werte an den
Verteilungsenden auf. Die beiden letzten Momente (und natürlich auch alle noch höheren)
haben i.A. selten grundlegende Bedeutung, weil in sehr vielen Anwendungen eine Normalverteilung der ZVA vorausgesetzt wird. Diese ist durch erstes und zweites Moment schon
vollständig bestimmt.
3.7.1 Reduzierte Zufallsvariable
Sei µ1 der Erwartungswert und σ die Streuung einer ZVA X. Definiert man
z=
x − µ1
,
σ
(3.42)
und existiert eine Abbildung g(x) = z vom Sx in den Sz so heißt die ZVA
Z = {(z, f (z)), z ∈ Sz }
die reduzierte oder auch standardisierte ZVA von X mit E(Z) = 0 und Var(Z) = 1.
17
(3.43)
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.8 Modus, Median und Quantile
Sei X = {(x, f (x)), x ∈ [a, b]} eine reelle, univariate ZVA. Dann nennt man xm den Modus
von X, wenn gilt
f (xm ) = max
0
f (xm ) = 0
00
f (xm ) < 0
(3.44)
Liegen relativ höchste Werte der pdf an nicht differenzierbaren Stellen des Stichprobenraums,
so liegt auch dort ein Modus vor. Existiert nur ein Modus, heißt die ZVA unimodal verteilt.
Existieren mehrere Modi, nennt man die ZVA multimodal (inbesondere bei 2 Modi: bimodal)
verteilt.
Sei die Verteilungsfunktion F (x) der ZVA X streng monoton steigend. Dann existiert eine
eindeutige Lösung xp der Gleichung
F (xp ) = p
(3.45)
Die Zahl xp heißt p−Quantil der ZVA oder der Verteilung. Ist F (x) nur monoton steigend,
existiert möglicherweise nur ein Lösungsintervall für die Gleichung. Dann definiert man als
p−Quantil
xp = inf ({(x0p , F (x0p ) = p), x0p ∈ [a, b]})
(3.46)
Der Median ist definiert als das 0.5 - Quantil (p = 0.5) einer ZVA. Der Median teilt den
Stichprobenraum einer univariaten, reellen ZVA in zwei Bereiche gleicher Wahrscheinlichkeit. Wenn eine unimodale ZVA symmetrisch um das Dichtemaximum verteilt ist, die Verteilungsfunktion zweimal stetig differenzierbar ist und der Erwartungswert existiert, dann
fallen Modus, Median und Erwartungswert zusammen.
Als oberes (unteres) Dezil bezeichnet man die Quantile zum Wert p = 0.9 (p = 0.1).
Modus, Median und Quantile sind selbstverständlich auch keine ZVA, sondern wohldefinierte
reelle Zahlen.
Aufgabe: Berechne Erwartungswert, Varianz, Modus und Median einer gleichverteilten ZVA
im Intervall [0, 1] bzw. einer exponentiellverteilten ZVA.
18
4 Erwartungswert einer Funktion einer ZVA
4 Erwartungswert einer Funktion einer ZVA
Wir hatten bereits gesehen, dass sich der Erwartungswert eine diskreten ZVA bestimmt als
X
E[X] =
xP (x).
(4.1)
S
Wie sieht nun der Erwartungswert E[g(X)] einer Funktion von X aus? Folgende Eigenschaftten gelten für die Funktionen von ZVA.
E[c] = c
(4.2)
E[cg1 (x)] = cE[g1 (x)]
#
J
J
X
X
E
gi (x) =
E[gi (x)]
(4.3)
"
i=1
(4.4)
i=1
Die dritte Eigenschaft ist wichtig, denn sie sagt uns, dass der Erwartungswert einer Summe
von ZVA gleich der Summe der Erwartungswerte von ZVA ist.
Die Nützlichkeit dieser Eigenschaft kann am Erwartungswert der Funktion
g(x) = (x − µ)2
(4.5)
nämlich die Varianz, gezeigt werden.
V ar[X] = E[(X − µ)2 ] =
=
X
x
X
x
=
X
x
(x − µ)2 P (x)
(4.6)
(x2 − 2xµ + µ2 )P (x)
(4.7)
x2 P (x) − 2µ
X
xP (x) + µ2
x
= E[x2 ] − 2µE[x] + µ2
= E[x2 ] − µ2
X
P (x)
(4.8)
x
(4.9)
(4.10)
4.1 Momente multivariater ZVA’s
~
Analog zum univariaten Fall definiert man den Erwartungswert einer multivariaten ZVA X
zu
~ =
E(X)
Z
~xf (~x)d~x
Z
~ =
E(X)
. . . ~xf (x1 , . . . , xn )dx1 . . . dxn
Z
Z
mit E(Xi ) =
. . . xi f (x1 , . . . , xn )dx1 . . . dxn )
Z
19
(4.11)
4 Erwartungswert einer Funktion einer ZVA
Der Erwartungswert eines Vektors ist selbst ein Vektor, dagegen gilt f (~x) ∈ IR. Bei den
weiteren Momenten kann der einfache Analogieschluß zu den Vorschriften bei univariaten
ZVA nur mit Vorsicht angewandt werden. Es ist zu beachten, daß bei der Multiplikation der
Vektoren ~x nicht das normale Skalarprodukt gebildet werden darf (also Zeilen- mal Spaltenvektor), sondern das sogenannte äußere Produkt gebildet werden muß. Dieses berechnet sich
durch ~x ·~xT , wobei wir Vektoren normalerweise als Spaltenvektoren verstehen und die Transponierte des Vektors als Zeilenvektor. Das Ergebnis des äußeren Produkts zweier Vektoren
ist eine Matrix.
Das zweite Moment einer multivariaten ZVA stellt sich daher als die sogenannte Kovarianzmatrix der ZVA X dar. Die Varianz läßt sich nur komponentenweise angeben. Sie belegt
~ ist
in der Kovarianzmatrix die Hauptdiagonale. Die Varianz einer Komponente Xi von X
gegeben durch
Var(Xi ) = E((Xi − E(Xi ))2 )
(4.12)
Die sogenannten Kovarianzen (in manchen Büchern auch ”1,1te Momente” genannt) berechnen sich zu
ci,j = cov(Xi , Xj ) = E((Xi − E(Xi ))(Xj − E(Xj ))) i 6= j
(4.13)
Sie belegen die durch ihre Indizierung festgelegten Plätze in der Kovarianzmatrix Σ, die die
Dimension n × n hat. Man schreibt
~ − E(X))(
~ X
~ − E(X))
~ T)
Σ = E((X
Die Kovarianzmatrix ist symmetrisch. Ihre Spur ist positiv definit.
X
Spur(Σ) =
Var(Xi ) > 0
(4.14)
(4.15)
i
Damit sind die Eigenwerte der Kovarianzmatrix reell und positiv und die Eigenvektoren
bilden ein Orthonormalsystem.
Sei eine lineare Transformation der multivariaten ZVA X wie folgt definiert
~ = TX
~ + ~a
Y
(4.16)
mit der Transformationsmatrix T . (Beachte auch hier den Hinweis zur gemischten Schreibweise von Mengen und Vektoren aus Kap. 3.7!) Dann transformiert sich die Kovarianzmatrix
wie
ΣY = T Σ X T T
20
(4.17)
4 Erwartungswert einer Funktion einer ZVA
(Beweis:
ΣY
~ − E(Y
~ ))(Y
~ − E(Y
~ ))T )
= E((Y
~ + ~a − T E(X)
~ − ~a)(T X
~ + ~a − T E(X)
~ − ~a)T )
= E((T X
~ − T E(X))(T
~
~ − T E(X))
~ T ) (wegen (AB)T = B T · AT )
= E((T X
X
~ − E(X))(
~ X
~ − E(X))
~ T )T T
= T E((X
= T ΣX T T )
(4.18)
Der Korrelationskoeffizient zwischen Komponente i und j einer multivariaten ZVA, wird
ausgedrückt durch
ρi,j =
cov(Xi , Xj )
E((Xi − E(Xi ))(Xj − E(Xj )))
p
=
σ(Xi ) · σ(Xj )
Var(Xi )Var(Xj )
i 6= j
Alle Korrelationskoeffizienten werden dann zur Korrelationsmatrix zusammengefaßt.
21
(4.19)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Wir wollen uns in diesem Kapitel mit einigen theoretischen Verteilungen beschäftigen. Solch
eine Verteilung ist die mathematische Formulierung, die die probabilistischen Eigenschaften
der vorliegenden ZVA beschreiben soll. In der Regel, ist dies eine Idealisierung der wirklichen,
meist unbekannten Verteilung und wird deshalb theoretisch genannt. Sie repräsentiert die
vorhandenen Daten somit nur approximativ, auch wenn die Näherung tatsächlich sehr gut
sein kann. Eine besondere Eigenschaft ist, dass theoretische Verteilungen durch einige wenige
Parameter vollständig festgelegt sind und somit auch parametrische Verteilungen genannt
werden. So ist die Gauß-Normalverteilung eindeutig bestimmt, wenn wir die Verteilungsparameter Erwartungswert µ und die Varianz σ kennen.
Es gibt mehrere Gründe, solche theoretischen Verteilungen zu benutzen.
1. Zum einen geben sie eine kompakte Beschreibung der probabilistischen Eigenschaften der
Daten. Die Eigenschaften der Daten können dann durch eine kleine Anzahl von Parametern
beschrieben werden.
2. Ein anderer Aspekt ist die Glättung und Interpolation von Daten. Wenn die Wahrscheinlichkeitsdichtefunktion aus einer Reihe von Messungen zum Beispiel durch eine Häufigkeitsverteilung abgeschätzt, so ist eine solche Schätzung sehr grob, mit Löchern und herausragenden Peaks. Eine solche Schätzung hat einen Stichprobenfehler und dieser wird geglättet,
indem an die Daten eine Verteilung angefittet wird.
3. Eine theoretische Verteilung kann auch zur Extrapolation dienen, um Wahrscheinlichkeitsdichten für Ereignisse zu schätzen, die außerhalb des beobachteten Bereichs liegen.
5.1 Diskrete Verteilungen
Es gibt zwei Arten von Zufallsvariablen, diskrete und kontinuierliche. Diskrete Variablen
sind solche, deren Werte entweder endlich oder zählbar unendlich sind. Eine kontinuierlich
ZVA kann dagegen alle reellen Werte in einem bestimmten Intervall annehmen. Es gibt viele
diskrete Wahrscheinlichkeitsdichteverteilungen aber nur zwei werden in der Meteorologie
öfter benutzt: die Binominalverteilung und die Poissonverteilung.
22
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
5.1.1 Binominalverteilung
Die Binominalverteilung ist wahrscheinlich die einfachste theoretische Verteilung. Sie entsteht, wenn das Ergebnis einer Reihe von Versuchen in zwei Klassen eingeteilt wird und
dieser Versuch dann n-mal durchgefürt wird. Generell wird einem Ergebnis die ”1” und dem
anderen Ergebnis die ”0” zugeordnet. Die Anzahl der Versuche n kann eine beliebige positive
Integerzahl sein und die Zufallsvariable X B ist dann die Häufigkeit, mit der das Ergebnis
”1” bei n Versuchen beobachtet wurde.
Ein Experiment entspricht einer Realisierung einer ZVA X, die das Ergebnis ”1” oder
”0” hat, wobei das Ereignis ”1” mit der Wahrscheinlichtkeit p auftritt. Entsprechend ist die
Wahrscheinlichkeit für das Ereignis ”0” (p − 1). Die ZVA für das so formulierte Experiment
ist
X = {(0, (1 − p)), (1, p), S = {0, 1}}
(5.1)
Ein so definiertes Experiment wird nun n mal durchgeführt. Zwei Bedingungen müssen dabei
erfüllt sein:
1. dass die Wahrscheinlichkeiten mit denen wir das Ergebnis ”1” bzw. ”0” erhalten während
des gesamten Experiments konstant bleiben und
2. dass die Ergebnisse der aufeinanderfolgenden Versuche unabhängig voneinander sind.
Das Ereignis des ”Binomial-Experiments” ist die Anzahl k des Auftretens von ”1” aus
den n obigen Versuchen. Der Stichprobenraum umfaßt also die Zahlen 0 bis n. Die Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses das ”k” zugeordnet wird, wie
{1, 1, 1, 0}, berechnet sich folgendermaßen
P (k : {1, . . . , 1, 0, . . . , 0 }) = p · p · ... · p
| {z }
| {z } | {z }
k−mal
(1 − p) · (1 − p) · ... · (1 − p)
|
{z
}
k−mal
(n−k)−mal
k
= p · (1 − p)
(n−k)−mal
n−k
(5.2)
”k” kann aber über verschiedene Experimentabläufe erreicht werden. Bspw. erzeugen bei
n=4 die Beobachtungen (1,1,1,0), (1,1,0,1), (1,0,1,1) und (0,1,1,1) alle das Ereignis ”3”.
Diese Zahl läßt sich errechnen durch
n!
k!(n − k)!
Das wird als Binomialkoeffizient bezeichnet und
23
(5.3)
n
k
geschrieben. So erhält man für die
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Wahrscheinlichkeit einer binomialverteilten ZVA folgenden Ausdruck:
n k
B(k, n, p) =
p (1 − p)n−k
k
(5.4)
Die binomialverteilte ZVA endlich kann man dann leicht schreiben als:
X B = {(k, B(k, n, p)), k = 0, . . . , n}
(5.5)
Die festen Zahlen (n, p) nennt man die Parameter der Binominalverteilung (vergl. Abb. 6).
Wir können die ZVA X B auch über eine Funktion darstellen als
g(X) = {(g(x1 , . . . , xn ), P (x1 , . . . , xn )), xi ∈ S = {0, 1}, i = 1, . . . , n}
(5.6)
Für den Spezialfall, dass der Stichprobenraum S = {0, 1} für xi ist, lautet diese Abbildung
k = g(x1 , . . . , xn ) =
n
X
xi
(5.7)
i=1
und ist genau unsere Binominal-ZV.
0.4
0.4
(n,p) = 10, 0.1
0.2
0
0.2
0
0 1 2 3 4 5 6 7 8 9 10
0.4
0.4
(n,p) = 10, 0.5
0.2
0
0 1 2 3 4 5 6 7 8 9 10
(n,p) = 10, 0.7
0.2
0
0 1 2 3 4 5 6 7 8 9 10
0.4
0 1 2 3 4 5 6 7 8 9 10
(n,p) = 10, 0.9
0.5
0.2
0
(n,p) = 10, 0.2
0
0 1 2 3 4 5 6 7 8 9 10
(n,p) = 10, 0.99
0 1 2 3 4 5 6 7 8 9 10
Abbildung 6 Binomialverteilungen mit verschiedenen Parametern (n, p).
Der Erwartungswert der ZVA X B läßt sich nach der Formel für den Erwartungswert ausrechnen:
n
X
n
X
n k
E(X ) =
kB(n, p, k) =
k·
p (1 − p)n−k
k
k=0
k=0
B
24
(5.8)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Dies geschieht in Kreyszig, S.111 (1998) [4] mit speziell konstruierten Funktionen. Für unseren oben schon festgelegten Spezialfall ist aber nur Standard-Arithmetik nötig. Dabei fragen
wir nicht nach dem Erwartungswert der ZVA X B sondern nach dem von g(X). Wir können
also schreiben
n
XX
E(g(X)) =
l=0,1 i=1
n X
X
=
i=1 l=0,1
n
X
=
i=1
xi,l · P (xl )
xi,l · P (xl )
(p · 1 + (1 − p) · 0)
= np
(5.9)
Tatsächlich ist das Ergebnis von (5.8) ebenfalls np. Leicht läßt sich aber auch ausrechnen,
daß für den Stichprobenraum S = {1, 3} E(g(X)) = n(1 − 2p) ist. Dann gilt aber (5.7) nicht
mehr!
Die Berechnung der Varianz der ZVA X B läuft auf die Berechung des Erwartungswerts
von [g(X) − E(g(X))]2 heraus, also
V ar(X B ) = E[(X B − E[X B ])2 ] = E[(g(X) − E(g(X)))2 ]
X
X
X
X
= E[(
xi − E[
xi ])2 ] = E[(
xi −
E[xi ])2 ]
i
= E[(
X
i
=
X
i
i
xi −
X
i
2
µi ) ] = E[(
i
X
i
2
E[(xi − µi ) ] =
X
[E[x2i ]
i
i
2
(xi − µi )) ]
− µ2i ]
XX
X
=
[
x2i P (x) − p2 ] =
[12 · p + 02 · (1 − p) − p2 ]
i
=
X
i
i
S
p(1 − p) = np(1 − p)
(5.10)
Da g(X) eine Summe von ZVA darstellt, entstehen bei der Quadrierung Mischglieder, was
zu Kovarianzen führt. Man hat es also mit einer multivariaten ZVA zu tun. Die Berechung
wird erleichtert durch die Tatsache, daß xi unabhängig ist von xj für i 6= j. Das bedeutet,
daß P (x1 , x2 , ..., xn ) = P (x1 ) · P (x2 ) · ...P (xn ) gilt. Man gelangt für unseren Spezialfall zu
der einfachen Formel
Var(X B ) = Var(X1 ) + Var(X2 ) + ... + Var(Xn )
25
(5.11)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Die Varianz der ZVA Xi läßt sich leicht berechnen
Var(X) = E((Xi − E(Xi ))2 ) =
X
l=0,1
(xl − E(Xi ))2 P (xl ) = (0 − p)2 (1 − p) + (1 − p)2 p (5.12)
Damit gilt
Var(X B ) = np(1 − p)
(5.13)
5.1.2 Poissonverteilung
Die Poissonverteilung beschreibt die Anzahl von diskreten Ereignissen welche in einer Serie
auftreten und eine bestimmte Art von Unabhängigkeit haben. Ähnlich wie bei der Binominalverteilung fragen wir hier nach der Wahrscheinlichkeit des Auftretens von einer bestimmten
Anzahl von Ereignissen in einem bestimmten Zeitraum. Idealerweise ist das Ereignis so selten, also die Wahrscheinlichkeit p so klein, dass es sehr unwahrscheinlich ist, dass in dem
vorgegebenen Zeitraum mehr als ein Ereignis auftritt. Der Zeitraum oder anders gesagt die
Anzahl der Versuche n ist hingegen groß. Es macht also Sinn, den Grenzwert der Binominalverteilung für n → ∞ zu bilden, wobei wir einen Parameter
λ = np = endlich = const
(5.14)
definieren. Die Poissonverteilung hat einen Parameter λ, welche mit mittlere Rate des Auftretens eines Ereignisses darstellt. Dieser Parameter wird auch als Intensität bezeichnet.
Sei bei einer Serie von Experimenten, die binomialverteilte ZVA
n k
B(k, n, p) =
p (1 − p)n−k
k
λ (1 − nλ )n
n!
( )k
=
k!(n − k)! n (1 − nλ )k
k−1
λk 1 (1 − nλ )n Y
=
(n − i)
k! nk (1 − λn )k i=0
=
=
)( n−2
) . . . ( n−(k−1)
)
λ ( n−0 )( n−1
λk
n
n
n
(1 − )n n
k!
n
(1 − nλ )k
λ (1 − n0 )(1 − n1 )(1 − n2 ) . . . (1 −
λk
(1 − )n
k!
n
(1 − nλ )k
k−1
)
n
(5.15)
Bildet man die Grenzwerte
lim (1 −
n→∞
26
x
)=1
n
(5.16)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und
lim (1 −
n→∞
λ n
) = exp(−λ)
n
(5.17)
so verbleibt bei festem, aber beliebigen k
lim B(k, n, p) = f (k) =
n→∞
λk
exp(−λ)
k!
(5.18)
Abbildung 7 Poissonverteilung für unterschiedliche Parameter λ
Die Dichteverteilung f (k) nennt man die Poissonverteilung und λ den Parameter der Possionverteilung. Sie gibt die Wahrscheinlichkeit an für das Eintreten k ”unwahrscheinlicher”
Ereignisse bei n Beobachtungen, die jedes für sich mit der kleinen Wahrscheinlichkeit p
eintreten. Der Erwartungswert der ZVA K
K = {(k, f (k)), k = 0, . . . , n}
ergibt sich zu
E(K) =
∞
X
k=0
k·
λk
exp(−λ) = λ = µ
k!
27
(5.19)
(5.20)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und die Varianz zu
Var(K) = E(K 2 ) − µ2 = µ
(5.21)
Die Poissonverteilung für verschiedene Parameter λ ist in der Abb. (7) dargestellt. Da auch
das 3. zentrierte Moment der Poissonverteilung durch µ gegeben ist, hat die Poissonverteilung
√
immer eine positive Schiefe von 1/ µ, also ”lange Ausläufer nach rechts”, auch wenn das in
Abb. (7) für die großen µ nicht deutlich wird. Für µ gegen ∞ nimmt die Poissonverteilung
symmetrische Gestalt an. Ein gutes Beispiel für eine Poissonverteilung in der Meteorologie
ist die Verteilung von Stark-niederschlägen.
5.2 Kontinuierliche Verteilungen
Die meisten Variablen in der Meteorologie können einen kontinuierlichen Wert annehmen.
Temperatur, Niederschlag, Geopotential, Windgeschwindigkeit sind zumindest konzeptionell
nicht auf Integerwerte einer bestimmten Einheit beschränkt. Auch wenn Messwerte oder
Modellergebnisse auf diskrete Werte gerundet werden, so ist der Satz der möglichen Werte
in der Regel groß genug, um im weiteren die Variable als kontinuierlich Variable zu behandeln.
Die in der Statistik vorkommenden Verteilungen können in zwei Kategorien unterteilt
werden. Die einen werden benutzt, um die Daten zu repräsentieren, also Verteilungen, die
im Zusammenhang mit einem mathematischen Modell benutzt werden. Hierzu gehören auch
die Binominal- und Poissonverteilung. Ich werde hier einige vorstellen (Gaußverteilung, LogNormalverteilung, Gamma-Verteilung, Beta-Verteilung,...). Eine zweite Kategorie von Verteilungen dient zur Abschätzung der Unsicherheit einer Schätzung z. B. des Mittelwertes
oder der Varianz oder zum Vergleich von Mittelwert oder Varianz zweier ZVA. Natürlich
lassen sich einige Verteilungen beiden Kategorien zuordnen.
5.2.1 Gaussverteilung
Die univariate Gaußverteilung oder Normalverteilung (NV) ist die wichtigste Wahrscheinlichkeitsdichtefunktion für univariate, reelle ZVA, weil
• viele ZVA, die bei Experimenten beobachtet werden, einer NV entstammen.
• einige ZVA näherungsweise normalverteilt sind (bei unimodalen Verteilungen lassen
sich in vielen Fällen sinnvolle Ergebnisse unter der Annahme NV erzielen).
28
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
• einige ZVA sich durch geeignete Transformationen auf Normalverteilung bringen lassen
(etwa ZVA, die ein endliches Intervall und nicht die gesamte reelle Zahlenmenge als
Stichprobenraum haben).
• die klassische Statistik meist auf der Annahme der Normalverteilung basiert,
• der Zentrale Grenzwertsatz der Statistik oder central limit theorem gilt.
Sei X = {(x, f (x)), x ∈
} eine reelle univariate ZVA. X heißt normalverteilt, wenn f (x)
von der Form
f (x) = √
1
1 x−µ 2
) )
exp(− (
2 σ
2πσ
(5.22)
ist. µ, σ nennt man dann auch die Parameter der Normalverteilung. Bei einer Gauß- oder
Normalverteilung mit µ = 0 und σ = 1 wird von einer Standard-Normalverteilung oder
Standard-Gaußverteilung geredet. Jede Gauß-verteilte ZVA kann durch die Transformation
Z=
X −µ
σ
(5.23)
in ihre Standardform gebracht werden.
µ bestimmt die Position des Maximums und den Symmetriepunkt, d.h. µ ist der Erwartungswert der ZVA X. Die Varianz der ZVA X ist dann gegeben durch
Z ∞
Var(X) =
(x − µ)2 f (x)dx = σ 2
−∞
was man durch einfaches Nachrechnen mit partieller Integration beweisen kann. Dies bedeutet, daß die Normalverteilung vollständig durch die Varianz σ 2 bzw. Streuung σ und den
Mittelwert µ der ZVA X bestimmt ist. Damit sind aber auch alle Eigenschaften der ZVA X
durch den Erwartungswert und die Streuung festgelegt. Hat man also E(X) und σ sowie die
Gewißheit oder die Annahme, daß eine ZVA X normalverteilt ist, ist die gesamte Statistik
der ZVA X bekannt.
Da es für das Integral über die Dichtefunktion der Gauß-Verteilung (5.22) keine analytische Lösung gibt, gibt es für die Verteilungsfunktion der NV oder auch kummulative
Dichtefunktion genannt, keine allgemeine Berechnungsvorschrift.
Z x
1 t−µ 2
1
exp(− (
) )dt
F (x) = √
2 σ
2πσ −∞
29
(5.24)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Für den Fall, dass µ = 0 und σ = 1 ist, heisst die ZVA auch reduzierte ZVA (oder eben
standard-normalverteilt). Die Verteilungsfunktion F (x) ist dann die Fehlerfunktion (error
function) und wird mit Φ(x) oder erf(x) bezeichnet. Es gilt dann natürlich
Z x
x−µ
2
2
F (x) = erf(
et dt.
)= √
σ
π 0
(5.25)
Die Fehlerfunktion findet man tabelliert oder als Standardsubroutine in FORTRAN oder
MATLAB.
Die Quantile der NV kann man mit Hilfe der error - Funktion bestimmen:
• das 16%- (bzw. 84%) Quantil findet man bei µ ∓ σ
• das 2.5%- (bzw. 97.5%) Quantil findet man bei µ ∓ 1.96σ
• das 0.5%- (bzw. 99.5%) Quantil findet man bei µ ∓ 2.58σ
Als gängige Abkürzung wollen wir noch folgende Bezeichnung einführen: Sei X eine Normalverteilte ZVA mit den Parametern µ, σ. Dann wird dies im folgenden auch einfach mit
X ∈ N (µ, σ) bezeichnet.
Abbildung 8 Johann Carl Friedrich Gauss (1777-1855)
5.2.2 Zentraler Grenzwertsatz der Statistik
Der zentrale Grenzwertsatz der Statistik ist von fundamentaler Bedeutung in der Statistik
und hat der Normalverteilung ihre herausragenden Rolle gegeben. Er besagt: Seien Xi , i =
1, . . . , n unabhängige und identisch, aber beliebig verteilte Zufallsvariablen mit E(Xi ) = µ
und V ar(Xi ) = σ 2 . Dann ist das arithmetische Mittel
n
1X
Xi
X=
n i=1
30
(5.26)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
wiederum eine Zufallsvariable, die asymptotisch für große n Normalverteilt ist. Es gilt also
Pn
1
i=1 (Xi − µ)
n
lim
∈ N (0, 1)
(5.27)
√1 σ
n→∞
n
Grob gesagt besagt dies, dass eine Zufallsvariable, welche sich zusammensetzt als Summe
vieler, unabhängiger, Zufallsvariablen mit gleicher Verteilung, Gaußverteilt ist. Es ist jedoch
nicht bekannt, wann diese Konvergenz eintritt, und manchmal muss n sehr gross sein, um
näherungsweise eine Normalverteilung zu erhalten.
Der zentrale Grenzwertsatz der Statistik lässt sich erweitern auf Summen von Zufallsvariablen, die nicht zwangsläufig die gleiche Verteilung haben. Dazu werden die Zufallsvariablen
zentriert und mit (nV ar(Xi ))−1/2 normiert, so dass
Xi − E(Xi )
.
Xni = p
nV ar(Xi )
2
Es gilt dann, dass E(Xni ) = 0 und V ar(Xi ) = σi2 und für σni
= V ar(Xni ) gilt
2
0 < σni
= V ar(Xni ) < ∞.
Es kann ausserdem gezeigt werden, dass
Lindeberg besagt nun: Falls für jedes > 0
" n Z
X
lim
n→∞
dann ist die Summe Yn =
Pn
i=1
i=1
Pn
i=1
2
σni
= 1. Der zentrale Grenzwertsatz von
#
2
x pi (x)dx = 0
|x|>
(5.28)
Xni im Grenzfall n → ∞ standardnormalverteilt N (0, 1).
5.2.3 Die χ2 -Verteilung
Die χ2 -Verteilung wird definiert als die Verteilung eine Summe der Quadrate von unabhangigen und standard-normalverteilten ZVA. Sie ist also nur auf dem Raum der postitiven
reellen Zahlen definiert. Seien X1 , X2 , . . . , Xn ∈ N (0, 1) unabhängige ZVA, von denen jede
den Erwartungswert E(Xi ) = 0 und die Varianz V ar(XI ) = E(XI2 ) = 1 besitzt. Die Summe
der Quadrate der ZVA Xi wird im Allgemeinen mit χ2 bezeichnet.
χ2 =
X
Xi2 .
(5.29)
i
Entsprechend heißt die Verteilung dieser Zufallsvariablen χ2 auch die χ2 -Verteilung. Ihre
Wahrscheinlichkeitsdichte lautet
f (x) = Kn x(n−2)/2 e−x/2
31
für
x>0
(5.30)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und f (x) = 0 für x ≤ 0. n ist hier eine positive Zahl und representiert die Freiheitsgrade der
Verteilung. Kn ist eine Konstante, die sich aus der Normierungsbedingung, dass das Integral
über die Wahrscheinlichkeitsdichte von −∞ bis ∞ eins sein muss, ergibt als
Kn =
1
2n/2 Γ( n2 )
.
(5.31)
Γ(α) ist die Gamma-Funktion3 , eine der wohl wichtigsten nichtelementaren Funktionen. Ist
n geradzahlig, so ist
Γ
Für n = 1 ist
und damit erhalten wir für
3
Γ
=
2
n
2
=(
n
− 1)!.
2
√
1
= π
Γ
2
ungerade n
1
1
1√
Γ
π,
=
2
2
2
3
5
3
3√
Γ
π
= Γ
=
2
2
2
4
(5.34)
(5.35)
(5.36)
Abbildung 9 zeigt die pdf der χ2 -Verteilung für verschiedene Freiheitsgrade n. Für n = 1
und n = 2 fallen die Kurven der pdf monoton ab. Für n > 2 hat die pdf der χ2 -Verteilung
ein Maximum bei n − 2 (zu berechnen über f 0 (x) = 0).
Der Erwartungswert einer χ2 -verteilten Variablen mit n Freiheitsgraden ist
E(χ2 ) = µ = n
(5.37)
V ar(χ2 ) = 2n
(5.38)
und die Varianz ist
Es lässt sich zeigen, dass die χ2 -Verteilung für große n durch die Normalverteilung brauchbar
approximiert werden kann.
3
Die Gamma-Funktion ist definiert (Eulersche Definition) durch das Integral
Z ∞
Γ(α) =
e−t tα−1 dt.
(5.32)
0
Sie hat eine besondere Eigenschaft, nämlich dass Γ(α + 1) = αΓ(α), was sich durch partielle Integration
R∞
herleiten läßt. Setzten wir α = 1, so erhalten wir Γ(1) = 0 e−t dt = 1 und mit der oben genannten
Beziehung, auch Γ(2) = 1 · Γ(1) = 1! und Γ(3) = 2 · Γ(2) = 2! oder allgemein für n = 1, 2, . . .
Γ(n + 1) = n!
Die Gamma-Funktion ist also eine Verallgemeinerung der Fakultät.
32
(5.33)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
χ2−PDF (1 dof)
χ2−PDF (2 dof)
1.4
0.5
1.2
0.4
1
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0
0
2
4
6
8
0
10
0
2
4
χ2−PDF (5 dof)
6
8
10
χ2−PDF (10 dof)
0.2
0.1
0.08
0.15
0.06
0.1
0.04
0.05
0
0.02
0
5
10
15
0
20
0
5
10
15
20
Abbildung 9 pdf der χ2 -Verteilung für verschiedene Parameter (degrees of freedom).
5.2.4 Die Student-t-Verteilung
Die t-Verteilung wurde von W. L. Gosset 1908, der unter dem Pseudonym ”Student” veröffentlichte, eingeführt. Die t-Verteilung bildet die Grundlage für viele statistische Tests.
X ∈ N (0, 1) sei eine Standard-Normalverteilte ZVA und Y eine von X unabhängige ZVA,
die eine χ2 -Verteilung mit n Freiheitsgraden bezitzt. Unter diesen Voraussetzungen besitzt
die Variable
X
T =p
Y /n
eine Student-t-Verteilung. Die t-Verteilung hat die Wahrscheinlichkeitsdichte
Γ n+1
2
f (t; n) = √
2 (n+1)/2
n
nπΓ 2 1 + tn
(5.39)
(5.40)
Die Formel für die Verteilungsfunktion ist sehr kompliziert und ist in ? nachzuschagen.
Die t-Verteilung ist um Null symmetrisch. Für n = 1 existiert das erste Moment oder der
Erwartungswert nicht. Dies läßt sich in Abbildung 10 nachvollziehen. Für den Fall n = 1
konvergiert zwar die pdf für große t → ±∞ gegen Null, jedoch so langsam, dass das Integral
R∞
tf (t; 1)dt nicht existiert. Der Spezialfall n = 1 heißt auch Cauchy-Verteilung. Für n ≥ 2
0
33
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
ist der Erwartungswert E(T ) = 0. Aus dem selben Grund wie bereits für den Erwartungswert
bei n = 1 existiert das zweite zentrale Moment, also die Varianz, erst für n ≥ 3 und lautet
V ar(T ) =
n
n−2
für n ≥ 3
(5.41)
Für große n > 10 wird die t-Verteilung der Normalverteilung sehr ähnlich und für n > 30
vernachlässignbar klein.
student−t PDF (1 dof)
student−t PDF (10 dof)
0.35
0.4
0.3
0.3
0.25
pdf
pdf
0.2
0.2
0.15
0.1
0.1
0.05
0
−5
0
x
0
−5
5
0.4
0.3
0.3
0.2
0.1
0
−5
5
student−t PDF (50 dof)
0.4
pdf
pdf
student−t PDF (20 dof)
0
x
0.2
0.1
0
x
0
−5
5
0
x
5
Abbildung 10 pdf der Student-t-Verteilung für verschiedene Parameter (DOF).
5.2.5 Die Fisher-F -Verteilung
Die F -Verteilung ist eine andere Verteilung, die ganz eng mit der Normalverteilung zusammenhängt. Es wird gesagt, eine Variable ist Fisher-F -verteilt mit p und q Freiheitsgraden,
wenn die Dichtefunktion lautet
p2
p
q
Γ
f (x; p, q) =
Γ p2 Γ
p+q
2
q
2
x
(p−2)/2
p
1+ x
q
−(p+q)/2
.
(5.42)
Insbesondere gilt für zwei unabhängige χ2 -verteilte ZVA X und Y , dass die Variable F ,
welche als Quotient der beiden χ2 -verteilte ZVA definiert ist, Fisher-F -verteilt ist
F =
X/p
.
Y /q
34
(5.43)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Für q > 2 lautet der Erwartungswert von F
E(F ) =
q
q−2
(5.44)
und für q > 4 lautet die Varianz
V ar(F ) =
2q 2 (p + q − 2)
.
p(q − 2)2 (q − 4)
(5.45)
Also wie für die t-Verteilung existieren für die F -Verteilung nicht alle Momente. Die F Verteilung ist für alle festen Freiheitsgrade p schief. Für q → ∞ allerdings nähert sich die
F -Verteilung einer normalisierten χ2 -Verteilung an.
PDF der F−Verteilung (1,10) DOF
4
3
3
pdf
pdf
PDF der F−Verteilung (1,1) DOF
4
2
1
0
2
1
0
0.5
1
x
1.5
0
2
0
0.8
0.6
0.6
0.4
0.2
0
1
x
1.5
2
PDF der F−Verteilung (10,10) DOF
0.8
pdf
pdf
PDF der F−Verteilung (10,1) DOF
0.5
0.4
0.2
0
1
2
x
3
0
4
0
1
2
x
3
4
Abbildung 11 pdf (links) der F -Verteilung für verschiedene Parameter p und q (DOF).
5.3 Weitere Verteilungen
Viele atmosphärische Variablen haben eine asymmetrische und damit schiefe Verteilung. Die
tritt auf, wenn die Werte, die eine Variable annehmen kann, durch eine physikalische Bedingung begrenzt sind. Die ist der Fall für Niederschlag oder Windgeschwindigkeit, die ganz
einfach nicht negativ werden können. Würden wir also an soche Daten eine Gaußverteilung
35
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
anfitten, so bekämen wir zumindest theoretisch eine von Null verschiedene Wahrscheinlichkeit für negativen Niederschlag, und das ist natürlich Unsinn. Es existieren verschiedene
theoretische Dichteverteilungen, die durch Null begrenzt sind und eine positive Schiefe haben.
5.3.1 Log-Normalverteilung
Viele Variablen, die nur positive Werte annehmen können und außerdem über mehrere
Größenordungen variieren, können durch die Log-Normalverteilung dargestellt werden. Dazu wird eine logarithmische Transformation Y = ln X durchgeführt. Ist die transformierte Variable Y normalverteilt, so sagen wir, dass die transformierte ZVA X logarithmischnormalverteilt, oder eben log-normalverteilt ist. Es gilt also, dass die transformierte ZVA
Y = ln X normalverteilt ist mit
1
1
f (ln x) = √
exp(−
2
2πσy
Y
2
ln x − µy
)
σy
x > 0,
(5.46)
wobei µy der Erwartungswert E(ln x) und σy2 die Varianz V ar(ln x) ist. Es gilt die Normierungsbedingung für Wahrscheinlichkeitsdichten, dass
Z ∞
Z ∞
X
f (x)dx =
f Y (ln x)d ln x = 1
−∞
und da für x > 0 d ln x =
dx
,
x
−∞
gilt
f X (x) =
f Y (ln x)
.
x
Entsprechend lautet dann die Dichteverteilung der log-normalverteilten ZVA X
2
1 ln x − µy
1
X
exp(−
f (x) = √
),
für x > 0,
2
σy
x 2πσy
f X (x) = 0,
für x ≤ 0.
(5.47)
Abbildung 12 zeigt die pdf der Log-Normalverteilung und die pdf der transformierten ZVA.
Die Log-Normalverteilung ist nach unten hin durch 0 beschränkt und bezitzt einen Modus.
Alle Momente existieren für die Log-Normalverteilung und die entsprechenden Parameter
µ und σ lassen sich aus µy und σy und umgekehrt bestimmen. Der Mittelwert der LogNormalverteilung lässt sich aus dem Mittelwert der transformierten ZVA Y bestimmen als
2
E(x) = µ = eµy +σy /2
36
(5.48)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und die Varianz bestimmt sich aus
2
E((x − µ)2 ) = σ 2 = µ2 (eσy − 1).
(5.49)
Abbildung 12 Log-Normalverteilung: a) pdf der log-normalverteilten ZVA, b) pdf der transformierten ZVA.
Die Log-Normalverteilung hat ähnliche Eigenschaften wie die Normalverteilung, allerdings
werden die additiven Eigenschaften durch multiplikative Eigenschaften ersetzt. Wenn also
x log-normalverteilt ist, dann ist z = axb , wobei a und b konstanten sind, ebenfalls lognormalverteilt. Für den Erwartungswert der transformierten ZVA gilt, dass
E[ln(axb )] = ln a + bE(ln x)
E[(ln(axb ) − µy )2 ] = V ar[ln(axb )] = b2 σy2
(5.50)
Ausserdem gilt, wenn x und y zwei unabhängige log-normalverteilte ZVA sind, das z = xy
ebenfall log-normalverteilt ist und deren Transformierte den Erwartungswert und die Varianz
E(ln z) = E(ln x) + E(ln y)
V ar(ln z) = V ar(ln x) + V ar(ln y)
bezitzt. Analog können auch Erwartungswert und Varianz von z =
(5.51)
x
y
geschrieben werden,
wobei beim Erwartungswert das + durch ein − ersetzt wird, während die Varianz die gleiche
bleibt.
37
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Diese pdf wird z.B. gebraucht für monatliche Summen des Niederschlags wobei dann der
Parameter µ = 0 gesetzt wird. Viele hydrologische Daten, aber auch in anderen Gebieten
der Wissenschaft, wie der Medizin, sind näherungsweise log-normalverteilt. Allerdings ist
die Log-Normalverteilung nicht die einzige Verteilung, die zum Beispiel zur Darstellung des
Niederschlags benutzt wird.
5.3.2 Gamma-Verteilung
Wohl die häufigste Verteilung, die benutzt wird um Niederschlag der mittleren Breiten darzustellen, ist die Gammaverteilung. Sie ist definiert durch die Dichteverteilung
x
( Xβ )(α−1) e− β
f (x) =
x, α ≥ 0 und β > 0.
,
βΓ(α)
(5.52)
Die Gammaverteilung ist eine Verteilung mit zwei Parametern, dem ”Shape”-Parameter α
und dem ”Scale”-Parameter β.
PDF der Gamma−Verteilung α=0.5, β=1
PDF der Gamma−Verteilung α=1, β=1
6
1
5
0.8
4
pdf
pdf
0.6
3
0.4
2
0.2
1
0
0
1
2
3
4
0
5
0
1
2
x
4
5
PDF der Gamma−Verteilung α=5, β=1
0.2
0.3
0.15
pdf
pdf
PDF der Gamma−Verteilung α=2, β=1
0.4
0.2
0.1
0
3
x
0.1
0.05
0
2
4
6
8
0
10
x
0
2
4
6
8
10
x
Abbildung 13 pdf der Gamma-Verteilung für verschiedene ”Shape”-Parameter α, wobei der ”Scale”-Parameter β = 1 konstant ist.
Der Erwartungswert und die Varianz einer Gammaverteilten ZVA mit den Parametern α
38
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und β berechnen sich als
E(X) = αβ
V ar(X) = αβ 2
(5.53)
Für α < 1 ist die Dichteverteilung sehr schief, wobei die Wahrscheinlichkeitsdichte gegen
unendlich geht für x → 0. Für α = 1 schneidet die Funktion die y-Achse bei f (0) =
1
β
und
fällt dann exponentiell ab. Für diesen Fall wird die Gammaverteilung auch Exponentialverteilung genannt. Auch die χ2 -Verteilung ist eine Spezialform der Gammaverteilung wenn der
”Scale”-Parameter β = 2 gesetzt wird.
Das Schätzen der Parameter ist nicht so einfach wie bei der Normal- oder Log-Normalverteilung,
da die Parameter nicht identisch mit den Momenten der Verteilung sind. Außerdem ist die
Dichtefunktion der Gammaverteilung nicht analytisch integrierbar und zur Abschätzung der
Quantile muss die Verteilungsfunktion numerisch oder aus Tabellen abgeschätzt werden.
5.3.3 Weibullverteilung
Auch die Weibullverteilung ist auf nichtnegative Werte beschränkt und hat eine positive
Schiefe. Sie wird mitunter als Näherung an die NV im Fall positiv semidefiniter ZVA (z.B.
Windgeschwindigkeiten) benutzt.
Die Wahrscheinlichkeitsdichte der Weibullverteilung lautet (x ≥ 0, α > 0, β > 0)
α
f (x) =
β
α−1
α x
x
,
exp −
β
β
(5.54)
wobei α als ”Shape”-Parameter und β als ”Scale”-Parameter bezeichnet werden. Die Verteilungsfunktion lautet
α x
F (x) = 1 − exp −
β
(5.55)
Eine Weibullverteilung lässt sich nicht so einfach anfitten wie die Log-Normalverteilung
und es bedarf dazu iterative Verfahren. Der Erwartungswert der Weibullverteilung ist gegeben durch
E(X) = µ = βΓ(1 +
und die Varianz
1
)
α
1
2
2
V ar(X) = β Γ(1 + ) − Γ (1 + ) .
α
α
2
39
(5.56)
(5.57)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
PDF der Weibull−Verteilung α=0.5
PDF der Weibull−Verteilung α=1
4
0.8
3
0.6
pdf
1
pdf
5
2
0.4
1
0.2
0
0
1
2
3
4
0
5
0
1
2
x
3
4
5
x
PDF der Weibull−Verteilung α=1
PDF der Weibull−Verteilung α=5
1
2
0.8
1.5
pdf
pdf
0.6
1
0.4
0.5
0.2
0
0
1
2
3
4
0
5
0
1
2
x
3
4
5
x
Abbildung 14 pdf der Weibull-Verteilung für verschiedene ”Shape”-Parameter α.
Der Spezialfall der Weibullverteilung für α = 2 wird auch Rayleighverteilung genannt, mit
f (x) = (
x2
2x
) exp(− ).
2
β
β
(5.58)
5.3.4 Beta-Verteilung
Es gibt jedoch auch ZVA die nach beiden Seiten, also auf ein Intervall, beschränkt sind.
Ein Beispiel ist dafür der Bedeckungsgrad oder relative Feuchte oder eben auch die Wahrscheinlichkeitsdichte selbst. So kann es nützlich sein, die Vorhersage eine Wahrscheinlichkeit, zum Beispiel, dass Niederschlag fällt, über eine solche Dichtefunktion, die nur auf dem
Intervall [0, 1] definiert ist, zu beschreiben. Eine Dichteverteilung, die dies erfüllt, ist die
Beta-Verteilung. Ihre Wahrscheinlichkeitsdichtefunktion lautet
Γ(p + q) p−1
f (x) =
x (1 − x)q−1 ,
Γ(p)Γ(q)
(5.59)
wobei 0 ≤ x ≤ 1 ist, und p, q > 0 die zwei Parameter der Beta-Funktion sind. Der Erwartungswert und die Varianz der Beta-Funktion berechnen sich aus den Parametern als
E(X) =
V ar(X) =
pq
(p +
q)2 (p
40
p
p+q
+ q + 1)
.
(5.60)
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Die Dichtefunktion für verschiedene Parameter p und q ist dargestellt in Abbildung 15. Es
ist eine sehr flexible Dichtefunktion. Für p < 1 liegt das Maximum der Verteilung bei 0. Wenn
beide Parameter kleiner 1 sind, dann hat die Verteilung eine U-Form und zwei Maxima nahe
0 und 1. Die wird verwandt für ZVA auf einem abgeschlossenen Intervall, deren Extremwerte
sehr häufig, aber deren Mittelwert selten auftreten (z.B. Bedeckungsgrad in Bremerhaven).
Sind p und q größer 1, so hat die Verteilung ein Maximum, ist also unimodal.
PDF der Beta−Verteilung p=0.5, q=2
8
3
6
pdf
pdf
PDF der Beta−Verteilung p=0.5, q=1
4
2
1
0
4
2
0
0.2
0.4
0.6
0.8
0
1
0
0.2
0.4
x
0.8
1
PDF der Beta−Verteilung p=2, q=2
2
6
1.5
pdf
pdf
PDF der Beta−Verteilung p=2, q=0.5
8
4
2
0
0.6
x
1
0.5
0
0.2
0.4
0.6
0.8
0
1
0
0.2
0.4
x
0.6
0.8
1
x
Abbildung 15 pdf der Beta-Verteilung für verschiedene Parameter p und q
5.3.5 Multivariate Normalverteilung
Sei
~ = {(~x, f (~x)), ~x ∈
X
q
}
(5.61)
eine q-dimensionale ZVA. ~x heißt multivariat NV, wenn f (~x) die Form
f (~x) =
1
1
exp(− (~x − µ
~ )t B(~x − µ
~ ))
Z
2
(5.62)
hat, wobei B eine symmetrische, positiv-definite Matrix ist (d.h. alle Eigenwerte sind positiv)
und Z der Normierungsfaktor. Bedenke, daß eigentlich f (~x) = f (~x, ~µ, B)! Diese multivariat
41
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
NV ZVA ist symmetrisch um µ
~ , d.h.
Z ∞
Z ∞
...
(~x − µ
~ )f (~x, µ
~ , B) dx1 dx2 ...dxq = ~0
−∞
(5.63)
−∞
Damit ist aber
E(~x − µ
~ ) = ~0
⇒
E(~x) = µ
~
(5.64)
In der Bestimmungsgleichung von f (~x, ~µ, B) war B noch unbestimmt. Daher bildet man nun
Z ∞
Z ∞
~µ
(~x − µ
~ ) f (~x, µ
~ , B) dx1 dx2 ...dxq = ~0
(5.65)
...
∇
−∞
−∞
Ausrechnen der Ableitung führt auf (I ist die Einheitsmatrix, B = B t )
Z ∞
Z ∞
(I − (~x − µ
~ )(~x − µ
~ )t B) f (~x, ~µ, B) dx1 dx2 ...dxq = ~0
...
−∞
(5.66)
−∞
Damit wiederum gilt auch (O ist die Nullmatrix)
E(I − (~x − µ
~ )(~x − µ
~ )t B) = O
(5.67)
E((~x − µ
~ )(~x − µ
~ )t B) = E(I) = I
(5.68)
und daraus folgend
d.h. die Matrix B ist die Inverse der Kovarianzmatrix Σ. Damit ist im Fall der multivariaten
NV die gesamte Verteilung durch die Parameter µ
~ und Σ vollständig beschrieben.
42
6 Stichproben von ZVA
6 Stichproben von ZVA
6.1 Definition
Wir haben bisher gesehen, daß ZVA mit kontinuierlichem Stichprobenraum durch ihre Verteilungsoder Wahrscheinlichkeitsdichtefunktion gekennzeichnet sind. Wenn ein Experiment durchgeführt wird, so erzeugt das Experiment Daten, von denen i.A. die Verteilungsfunktion (oder
die pdf ) und die Momente unbekannt sind. Es gibt lediglich das Wissen, daß das Experiment ZVA produziert. Die Aufgabe der Statistik ist es nun, aus den Realisierungen der
ZVA, die nur eine (möglicherweise sehr geringe) Teilmenge des Stichprobenraums umfassen,
Informationen über die Gesamtheit der ZVA zu ermitteln. Diese Gesamtheit wollen wir im
folgenden auch die Grundgesamtheit (GG) der ZVA nennen. Die Eigenschaften der GG werden vollständig durch die Verteilungs- oder Wahrscheinlichkeitsdichtefunktion beschrieben.
Ziel der mathematischen Statistik ist es also, aus der durch das Experiment gewonnenen Teilmenge des Stichprobenraums – der sogenannten Stichprobe – verläßliche Aussagen über
die GG herzuleiten.
Sei X = {(x, f (x)), x ∈ IR} eine univariate, reelle ZVA, deren m verschiedene Realisierungen in einem Experiment die Werte xi , i = 1, ..., m annehmen sollen. Die Zahl xi ist dann
eine Repräsentierung der ZVA Xi , die die gleiche pdf wie die ZVA X hat. Wir wollen dann
sagen, daß die ZVA Xi der GG der ZVA X entnommen wurden. Dann ist die Vektorvariable
~ m = (X1 , . . . , Xm ) = {((x1 , . . . , xm ), f (x1 )f (x2 ) . . . f (xm )), (x1 , . . . , xm ) ∈ IRm }
X
eine m− dimensionale multivariate ZVA. Die Wahl der multivariaten pdf f (~x) =
Qm
i=1
f (xi )
bedeutet, daß die Einzelereignisse xi unabhängig voneinander sind. Die Einzelereignisse xi
können also als unabhängige Wiederholungen eines Experiments gelten, das jedesmal eine
~ m nennt man dann auch eine Stichprobe vom Umfang m der
ZVA Xi liefert. Den Vektor X
univariaten ZVA X und den Vektor (x1 , . . . , xm ) eine Repräsentierung der Stichproben-ZVA
~ m . Es ist wichtig festzustellen, daß
X
• das Erheben einer Stichprobe (sei es auch nur ein einziger Wert) ebenfalls ein Zufallsprozess ist
Wichtig ist weiterhin die Forderung, daß die Stichprobenentnahme zufällig erfolgen soll und
damit die Einzelereignisse xi unabhängig sind. Das kann man gar nicht genug betonen,
43
6 Stichproben von ZVA
da schon in vielen statistischen Untersuchungen gegen diese grundlegende Voraussetzung
verstoßen wurde.
6.2 Schätzer
~ m der univariaten, reellen ZVA X gegeEs sei nun eine Realisierung der Stichproben-ZVA X
ben. Ziel der Statistik ist es, die Eigenschaften der unbekannten Verteilungsfunktion oder pdf
der GG anhand der Realisierung zu ermitteln. Man kann zum einen versuchen, die pdf oder
die Verteilungsfunktion selbst näherungsweise aus der Realisierung der Stichprobe zu berechnen (”schätzen”). Zum anderen haben wir im letzten Kapitel gesehen, daß typische pdf 0 s
durch ihre Parameter eindeutig beschrieben werden. Im Fall der Binomialverteilung waren
das die Zahlen n und p, im Fall der univariaten NV der Erwartungswert µ und die Streuung
σ. Man kann also auch aus der Realisierung der Stichprobe Parameterwerte schätzen und –
sofern diese es zulassen – von den geschätzten Parameterwerten auf die pdf der GG schließen. Dieser letze Punkt ist sehr eng – wie man sich vorstellen kann – mit der Schätzung der
Momente der pdf der GG verbunden. Im folgenden sei gx ein Moment, ein Parameter oder
eine andere Eigenschaft der GG der ZVA X (z.B. die pdf selbst). gx ist keine ZVA!
~ m ), die X
~ m aus dem IRm abbildet in die Menge der
Ein Schätzer für gx sei die ZVA ĝ(X
reellen Zahlen IR, mit dem Ziel, die eindeutig festgelegte Größe gx so genau wie möglich zu beschreiben. Der Schätzer ĝ ist eine ZVA mit pdf und Verteilungsfunktion im Stichprobenraum
~ m . Die Größe gx ist ein Moment, ein Parameter oder eine andere Eigenschaft der
von ZVA X
GG (bspw. die pdf). Eine Realisierung eines Schätzers ist dagegen wieder das, was geschätzt
wird. Eine Realisierung eines Erwartungswertschätzers für eine univariate ZVA ist also eine
Zahl. Eine Schätzer ĝ heißt erwartungstreu, unverzerrt oder unverfälscht (engl. unbiased),
wenn gilt
E(ĝ) = gx
(6.1)
(wobei in der praktischen Arbeit das gx i.a. unbekannt ist). Gerne wird in der Literatur mit
dem Begriff Bias die Verzerrung eines Schätzers beschrieben. Das zweite, zentrierte Moment
eines unverzerrten Schätzers E((ĝ − gx )2 ) heißt mittlerer quadratischer Fehler des Schätzers.
Sei ĝ ∗ ein weiterer unverzerrter Schätzer für gx . Dann heißt ĝ effizienter, wenn gilt
E((ĝ − gx )2 ) < E((ĝ ∗ − gx )2 )
44
(6.2)
6 Stichproben von ZVA
Eine Schätzung heißt konsistent, wenn gilt
lim E((ĝ − gx )2 ) = 0
(6.3)
m→∞
Ziel ist es natürlich, Schätzer zu finden, die unverzerrt, konsistent und effizient sind. Sobald man sich also einen Schätzer ausgedacht hat, sollte man die Eigenschaften überprüfen.
Manchmal erweist sich das allerdings als unmöglich. Hier helfen einem dann die Monte Carlo
Experimente. Aus vorgegebenen, bekannten GG (d.h. bekannten pdf ’s oder Verteilungsfunktionen) werden viele Stichproben mit einer großen Anzahl von Realisierungen (Ereignissen)
entnommen. Aus jeder Stichprobe wird der Schätzer ĝ(x) berechnet und die Menge aller
berechneten Schätzer wird als Realisierung einer Stichprobe der ZVA ”Schätzer für gx ” genommen, aus der man dann z.B. den mittleren quadratischen Fehler berechnen (weil ich
gx ja kenne) kann.
6.3 Schätzung der pdf, Häufigkeitsverteilung
Die Wahrscheinlichkeit der GG über einem Intervall der Breite ∆j war in (3.12) schon definiert worden als
p(∆j ) =
Z
f (x) dx
(6.4)
∆j
Das Intervall ∆j soll klein sein und muß a-priori d.h. ohne Information aus der Stichprobe,
zu Beginn der statistischen Untersuchung festgelegt werden. Die ∆j können unterschiedlich breit sein. Liegt nun eine Stichprobe vor, deren Umfang m groß genug ist, so ist die
Wahrscheinlichkeit p(∆j ) proportional zur relativen Häufigkeit der Stichprobenelemente xi
im Intervall ∆j . Im Grenzübergang m → ∞ gilt dann
|{xi ∈ ∆j }|
m→∞
m
(6.5)
p(∆j ) = lim
Die Bezeichnung |{∗}| steht für die Anzahl der Elemente der entsprechenden Menge. Die
Folge H(∆j ), j = 1, ..., k mit
H(∆j ) =
|{xi ∈ ∆j }|
m
~ m . Dabei überdecke
nennt man das Histogramm der Realisierung der Stichprobe X
den gesamten Wertebereich der Stichprobe. Ein Schätzer für die pdf f (x) ist dann
|{xi ∈ ∆j }|
, P (xi )), xi ∈ ∆j }
ĝ m (xi ) = fˆm (xi ) = {(
m∆j
45
(6.6)
Pk
j=1
∆j
(6.7)
6 Stichproben von ZVA
bzw.
H(∆j )
fˆm (xi ) = fˆm (H(∆j )) = {(
, P (H(∆j ))), H(∆j ) ∈ [0, 1]}
∆j
(6.8)
6.4 Schätzer der Verteilungsfunktion,
Empirische Verteilungsfunktion
~ m . Dann ist ein
Sei X eine ZVA und {x1 , . . . , xm } eine Realisierung der Stichproben-ZVA X
Schätzer der Verteilungsfunktion gegeben durch
F̂ m (x) = {(
|{xi , xi ≤ x, i = 1, ..., m}|
, P (xi )), xi ∈ IR}
m
(6.9)
mit der gleichen Bedeutung der Notation |{∗}| wie oben. F̂ m ist eine Treppenfunktion mit
den Stufen eines Vielfachen von
1
m
und wird of empirische Verteilungsfunktion genannt.
Nimmt man als Werte der unabhängigen Variablen x die aufsteigend sortierten Werte der
Stichprobe, so springt die empirische Verteilungsfunktion (meistens) um genau den Wert
1
.
m
Wann nicht ??.
• Dieser Schätzer der Verteilungsfunktion von X ist unverfälscht.
Beweis:
Sei die Stichprobenlänge m fest und a eine beliebige reelle Zahl. Die Definition des Schätzers
F̂ m bedeutet, daß mF̂ m (a) die Anzahl der Stichprobenelemente xi ist mit xi ≤ a. Die Wahrscheinlichkeit, ein Stichprobenelement mit xi ≤ a zu finden, ist aber gemäß der Definition
der Verteilungsfunktion Prob(x ≤ a) = F (a). Also ist die Zufallsvariable
mF̂ m (a) = {(|{xi , xi ≤ a, i = 1, m}|, B(m, F (a), |{xi , xi ≤ a, i = 1, m}|)), xi ∈ IR} (6.10)
eine binomialverteilte ZVA mit den Parametern F (a) und m. Der Erwartungswert einer
solchen ZVA ist aber (s.o.)
E(mF̂ m (a)) = mF (a)
(6.11)
E(F̂ m (a)) = F (a)
(6.12)
oder, da m beliebig aber fest
Entsprechend folgt aus der Binomialverteilung die Varianz des Schätzers F̂ m zu
Var(mF̂ m (a)) = mF (a)(1 − F (a))
46
(6.13)
6 Stichproben von ZVA
oder
1
F (a)(1 − F (a))
m
Var(F̂ m (a)) =
(6.14)
• Also ist F̂ m ein konsistenter Schätzer von F (x).
Aus der Erwartungstreue des Schätzers der Verteilungsfunktion folgt auch die Erwartungstreue des Schätzers der pdf . Der Schätzer F̂ m wird durch eine lineare Operation aus den
Häufigkeiten fˆm gewonnen (Summation):
Z b
E(
fˆm (xi )dxi ) = E(F̂ m (b) − F̂ m (a))
a
Z b
f (x)dx
= F (b) − F (a) =
(6.15)
a
oder – abgesehen von Mengen vom Maß Null –
E(fˆm (xi )) = f (x)
(6.16)
6.5 Schätzung des Erwartungswertes
Der Erwartungswert µ1 (wird jetzt immer statt m1 benutzt) der zentrierten ZVA X war
definiert als
µ1 =
Z
xf (x)dx
(6.17)
Nimmt man für f (x) den oben (6.7 bzw. 6.8) hergeleiteten, für das Intervall ∆j gültigen
Schätzer fˆm (xi ), so erhält man:
µ̂01
=
k Z
X
j=1
x
∆j
H(∆j )
dx
∆j
(6.18)
Das Integral ist über das Intervall ∆j zu bilden, die einzelnen Intervalle sind von 1 bis k zu
summieren.
Noch einmal zur Vergewisserung
Da die Stichprobe eine ZVA ist, ist das arithmetische Mittel der Stichprobenelemente
ebenfalls eine ZVA und damit ist der Schätzer des Erwartungswertes eine ZVA! Der
Erwartungswert selbst dagegen ist keine ZVA!
47
6 Stichproben von ZVA
Sind die Intervalle ∆j zufällig a-priori genau so gelegt, daß nur ein Element der Realisierung
der Stichproben-ZVA in jedem Intervall liegt und das auch noch genau in der Mitte des
Intervalls, so erhält man:
m
X
1
µ̂1 =
Xi
m
i=1
(6.19)
d.h., das arithmetische Mittel der Stichprobenrealisierung ist dann ein Schätzer des Erwartungswertes. In diesem Spezialfall ist der Schätzer des Erwartungswertes unverfälscht.
Beweis:
m
m
X
X
1
1
Xi ) =
E(Xi )
E(µ̂1 ) = E(
m
m
i=1
i=1
=
m
m
X
X
1
1
E(X) =
µ1 = µ 1
m
m
i=1
i=1
(6.20)
Die Varianz des Schätzers µ̂1 ist
m
1 X
Xi ) − µ 1 ) 2
Var(µ̂1 ) = E((
m i=1
m
m
1 X
1 X 2
2
= E((
Xi ) − 2
µ)
m i=1
m i,j=1 1
m
1 X
E(Xi Xj − µ21 )
=
2
m i,j=1
m
1 X
=
E((Xi − µ1 )(Xj − µ1 ))
m2 i,j=1
(6.21)
Wegen der Unabhängigkeit der Stichprobe folgt für die Kovarianzmatrix
E((Xi − µ1 )(Xj − µ1 )) = σ 2 δi,j
(6.22)
(δi,j ist das Kroneckersymbol). Dann folgt für die Varianz des Erwartungsschätzers
m
1 X 2
1
σ = σ2
Var(µ̂1 ) = 2
m i=1
m
(6.23)
d.h. der Schätzer µ̂1 ist ein konsistenter Schätzer.
6.6 Schätzung der Varianz
Das zweite zentrierte Moment µ2 war definiert worden als
Z
µ2 = (x − µ1 )2 f (x)dx
48
(6.24)
6 Stichproben von ZVA
Geht man vor wie beim Erwartungswert, erhält man als Schätzer der Varianz µ2 von X
m
µ̂2 = σ̂ 2 =
1 X
(Xi − µ̂1 )2
m i=1
Man berechnet den Erwartungswert dieses Schätzers folgendermaßen (mit m · µ̂1 =
m
m
1 X
1 X
(Xi − µ̂1 )2 ) = E(
(Xi − µ1 − (µ̂1 − µ1 ))2 )
E(σ̂ ) = E(
m i=1
m i=1
2
(6.25)
P
Xi )
m
m
1 X 2
1 X
2
2
E( (Xi − µ1 ) − m(µ̂1 − µ1 ) ) =
=
σ − Var(µ̂1 )
m i=1
m i=1
= (1 −
1 2
)σ
m
(6.26)
Der in (6.25) konstruierte Schätzer der Varianz ist also verzerrt und zwar wird die Varianz
der GG unterschätzt um die Varianz des Erwartungsschätzers (6.23). Der Schätzer ist asymptotisch verzerrt, denn für m → ∞ verschwindet die Verzerrung. Benutzt man statt dessen
als Schätzer für σ 2 folgenden Ausdruck
m
1 X
s =
(Xi − µ̂1 )2
m − 1 i=1
2
(6.27)
so erhält man als Erwartungswert des Schätzers
E(s2 ) = σ 2
(6.28)
also einen unverfälschten Schätzer. Der unverzerrte Varianzschätzer wird im Folgenden mit
s bezeichnet, um ihn von dem verzerrten Schẗzer σ̂ zu unterscheiden.
Die Varianz des ersten Schätzer für µ2 läßt sich mit etwas Algebra bestimmen zu
Var(σ̂ 2 ) =
2
1
1
(µ4 − µ22 ) − 2 (µ4 − 2µ22 ) + 3 (µ4 − 3µ22 )
m
m
m
(6.29)
Ist die ZVA X normalverteilt, reduziert sich der Ausdruck wegen µ4 = 3µ22 zu
Var(σ̂ 2 ) =
2(m − 1) 4
σ
m2
(6.30)
Berechnet man die Varianz des unverzerrten Varianzschätzers, so ist diese größer als die
des verzerrten (nur ”asymptotisch unverzerrten”) Schätzers. Der verzerrte Schätzer ist also effizienter als der unverzerrte. Dies ist ein typischer Fall in der Statistik: die Qualität
von Schätzern wird bestimmt von der Balance zwischen Varianz und Verzerrung (Bias) der
Schätzer.
49
6 Stichproben von ZVA
6.7 Maximum Likelihood Methode
Bisher wurden die Schätzer für Parameter von Verteilungsfunktionen oder Momente von ZVA
mehr oder weniger ad-hoc eingeführt. Es gibt jedoch auch ein allgemeines Verfahren für die
Schätzung von Parametern von Verteilungsfunktionen: die Maximum-Likelihood Methode.
~ m die Stichproben ZVA. Wenn f (x) die pdf für X
Sei X eine univariate reelle ZVA und X
ist, war die entsprechende pdf der Stichproben ZVA gegeben als
f (~x) =
m
Y
f (xi )
(6.31)
i=1
Sei ~λ der Parametervektor der pdf f (x), also im Fall von NV ZVA ~λ = (µ, σ). Wenn
(x1 , . . . , xm ) eine Realisierung der Stichproben ZVA ist, so ist die Wahrscheinlichkeit, diese
Realisierung zu finden, gegeben durch
p((x1 , . . . , xm ), ~λ) =
m
Y
(fˆ(xi , ~λ) dxi )
(6.32)
i=1
ˆ
Die Maximum Likelihood Schätzung (MLS) des Parametervektors ~λ ist nun der Vektor ~λ,
der die Funktion L
L=
m
Y
ˆ
fˆ(xi , ~λ)
(6.33)
i=1
maximiert. L heißt auch Likelihood Funktion. Dabei handelt es sich aber um eine Zufallsgröße
und nicht um eine analytische Funktion. Da der Logarithmus eine streng monoton steigende
Funktion ist, ist die MLS von ~λ auch der Wert, der die logarithmische Likelihood Funktion l
l=
m
X
ˆ
ln fˆ(xi , ~λ)
(6.34)
i=1
maximiert.
ˆ !
l(~λ) = max
(6.35)
Beispiel: die MLS des Parametervektors einer Stichprobe aus einer NV univariaten GG ist
(a) der arithmetische Mittelwertschätzer und (b) der verzerrte Schätzer der Varianz.
Beweis: Es gilt
1 (x − µ)2
1
exp(−
)
2 σ2
2πσ
(6.36)
1 (xi − µ̂)2
1
exp(−
)
fˆ(xi ) = √
2
σ̂ 2
2πσ̂
(6.37)
f (x) = √
und
50
6 Stichproben von ZVA
Dann folgt für die log-Likelihoodfunktion
m
1 X (xi − µ̂)2
− m ln σ̂ − C
l=−
2 i=1
σ̂ 2
(6.38)
Die Maximumsbedingung lautet dann
m
X (xi − µ̂)
∂l
=
=0
∂ µ̂
σ̂ 2
i=1
und
Daraus ergibt sich die Lösung
m
1 X
m
∂l
= 3
=0
(xi − µ̂)2 −
∂ σ̂
σ̂ i=1
σ̂
(6.39)
(6.40)
m
1 X
xi
µ̂ =
m i=1
und
(6.41)
m
1 X
(xi − µ̂)2
σ̂ =
m i=1
2
(6.42)
Die MLS Methode ist eine sehr brauchbare Methode zur Bestimmung von Parametern aus
Stichproben, zumal aus der 2. Ableitung der (log-)Likelihoodfunktion auch noch ein Gütemaß
der geschätzten Parameter (Konfidenzintervall) berechnet werden kann. Dies geschieht hier
nicht. Was ein Konfidenzintervall ist und wie diese auch ohne MLS für die Standardschätzer
berechnet werden können, soll in Kapitel 5.10 besprochen werden.
6.8 Übung
Entnimm aus einer NV ZVA mit Erwartungswert 1 und Streuung 2 mit Hilfe eines Zufallszahlengenerators je 100 Stichproben vom Umfang m = 10, 20, 30, 40. (Monte Carlo Experiment)
1. Schätze die Verteilungsfunktion der GG durch die Daten jeder Realisierung. Plotte die
100 Schätzungen zusammen mit der Verteilungsfunktion der GG (erf(x)).
2. Schätze den Erwartungswert aus jeder Realisierung. Vergleiche mit dem vorgegebenen Erwartungswert. Wie groß ist die zu erwartende Streuung der Schätzungen des
Erwartungswertes?
3. Schätze Varianz (Streuung) mit dem erwartungstreuen und dem verzerrten Schätzer.
Vergleiche mit der Varianz der GG. Kann man die Verzerrung des zweiten Schätzers
erkennen?
51
6 Stichproben von ZVA
6.9 Verteilungen von Schätzern
Bisher wurden von den ZVA ’Schätzer’ Parameter berechnet (nicht geschätzt!). Denn der
Schätzer ist eine ’Formel’, in der die Werte der Stichprobe verwendet werden (= zur Realisierung der ZVA dienen). Mit dieser Formel kann aber der Parameter (Erwartungswert
oder Varianz) berechnet werden. Da ein Schätzer eine ZVA darstellt, gibt es eine pdf für
den Schätzer. Nachdem zunächst beschrieben wurde, was wie geschätzt wird (nämlich der
Parameter einer anderen ZVA) und dann nach den Parametern des verwendetet Schätzers
gefragt wurde, soll nun gezeigt werden wie die pdf eines Schätzers aussieht.
6.9.1 Verteilung eines Erwartungswertschätzers
Man betrachtet eine Stichprobe (X1 , . . . , Xm ) vom Umfang m aus einer normalverteilten GG
N (µ, σ). Die ZVA
m
1 X
Xi
µ̂ =
m i=1
(6.43)
ist dann ja ebenfalls eine NV ZVA mit Erwartungswert
E(µ̂) = µ
(6.44)
σ2
m
(6.45)
und Varianz
σ 2 (µ̂) =
Der Beweis folgt aus dem Zentralen Grenzwertsatz. µ̂ ist natürlich genau der Erwartungswertschätzer (5.19) der mit der Maximum Likelihood Methode entwickelt worden war. Er
ist NV und in Kap.5.5 mit den dort genannten Voraussetzungen schon benutzt worden. Auf
den Index
1
wurde hier der Einfachheit halber verzichtet.
6.9.2 Verteilung eines Varianzschätzers - χ2 Verteilung
Seien die Xi allesamt N (0, 1). Dann ist die ZVA
2
χ =
m
X
Xi2
(6.46)
i=1
χ2 -verteilt mit m Freiheitsgraden (beachte, daß hier in der Notation nicht mehr zwischen
ZVA und deren Repräsentierung - sonst Groß-/Kleinschreibung - unterschieden werden kann)
χ2 = {(χ2 , f (χ2 )), χ2 ∈ IR}
52
(6.47)
6 Stichproben von ZVA
Die Wahrscheinlichkeitsdichte der ZVA χ2 ist
f (χ2 ) =
χ2
1
2 λ−1
(χ
)
exp(−
)
Γ(λ)2λ
2
(6.48)
wobei
λ=
und
Γ(λ) =
Z
∞
m
2
(6.49)
uλ−1 exp(−u)du
(6.50)
0
die Gammafunktion ist. m ist ein Parameter der χ2 Verteilung und entspricht der Anzahl
der Freiheitsgrade der Verteilung. Die Verteilungsfunktion hat die Form
Z χ2
u
1
2
uλ−1 exp(− )du
F (χ ) =
λ
Γ(λ)2 0
2
(6.51)
Der Erwartungswert und die Varianz einer χ2 verteilten ZVA lassen sich berechnen zu
E(χ2 ) = m
Var(χ2 ) = 2m
(6.52)
wenn man die pdf durch die Gammafunktion ausdrückt und berücksichtigt, daß
Γ(λ + 1) = λΓ(λ)
(6.53)
Die Erweiterung auf NV ZVA Xi mit Mittelwert µ und Streuung σ erfolgt einfach dadurch,
daß man die ZVA
χ2 =
m
X
Xi − µ 2
(
)
σ
i=1
(6.54)
die ihrerseits wieder χ2 -verteilt ist, betrachtet. Man verwendet also weiterhin die standardisierte NV, jedoch mit veränderten Integrationsgrenzen (von x zu
(x−µ)
).
σ
Gesucht wird aber nach der Verteilung des Varianzschätzers (verzerrt oder unverzerrt)
m
σ̂ 2 = s2 =
1 X
(Xi − µ̂)2
m − 1 i=1
(6.55)
Man kann unter den gegebenen Umständen zeigen, daß auch die ZVA
(m − 1)
ŝ2
σ2
(6.56)
mit dem unverzerrten Varianzschätzer aus (6.27) χ2 -verteilt ist, jedoch mit nur m − 1 Freiheitsgraden.
53
6 Stichproben von ZVA
Dazu müssen die xi ∈ N (µ, σ) orthogonal auf die yi einer neuen ZVA transformiert werden,
derart, daß Summen von xi die yi bilden. Dann sind die yi auch NV und haben bei geschickter
Wahl der Transformation den Mittelwert 0 und die Streuung 1. ym wird dabei ausgedrückt
√
durch mµ̂. Die Orthogonalität zwischen x und y sorgt dafür, daß
m
X
x2i
=
i=1
m
X
yi2
(6.57)
i=1
Dadurch wird
2
(m − 1)σ̂ =
m
X
i=1
(xi − µ̂)
2
=
=
m
X
i=1
m
X
i=1
x2i − mµ̂2
yi2
−
2
ym
=
m−1
X
yi2
(6.58)
i=1
Somit ist auch die Größe aus (6.56)) χ2 -verteilt.
Alle Beweise siehe Brandt, Datenanalyse ([3]).
6.9.3 Beziehung zwischen Erwartungswert- und Varianzschätzer Student - t Verteilung
Sei X eine NV ZVA und Y eine χ2 -verteilte ZVA mit m Freiheitsgraden. Weiterhin seien X
und Y unabhängig. Dann folgt die ZVA, die wie folgt gebildet wird
X
T =p
(Y /m)
(6.59)
der sogenannten Student-t Wahrscheinlichkeitsdichte mit m Freiheitsgraden
)
Γ( m+1
t2 − m+1
2
) 2
(1
+
f (t) = √
m
mπΓ( m2 )
(6.60)
Der Erwartungswert der Student-t ZVA ist für m = 1 nicht definiert, für m ≥ 2 folgt
E(T ) = 0. Die Varianz der Student-t ZVA ist für m = 1, 2 nicht definiert und ist für m ≥ 3
Var(T ) =
m
.
(m−2)
Damit sind die Verteilungen für Erwartungswert- und Varianzschätzer in
einer ZVA vereint. Die Verteilung des Quotienten ist bekannt.
54
6 Stichproben von ZVA
6.9.4 Beziehung zwischen 2 Varianzschätzern - Fisher-F Verteilung
In engem Zusammenhang mit der in 5.9.2 vorgestellten χ2 Verteilung steht die von R.A.Fisher
([10]) 1924 erstmals urkundlich erwähnte F -Verteilung. Sie hat die Form
F (x) = 0
F (x) =
für negative x
y
) mx /2 my /2
Γ( mx +m
2
my
m y mx
mx
Γ( 2 )Γ( 2 )
Z
x
0
u(mx −2)/2
du
(mx + my )(mx +my )/2
(6.61)
Fisher-F -verteilt sind ZVA vom Typ
X=
X (x) my
mx X (y)
(6.62)
Dabei folgen die ZVA X (x) und X (y) jeweils der χ2 -Verteilung mit mx bzw. my Freiheitsgraden. Die Verteilungsfunktion der F -Verteilung kennzeichnet man daher auch oft mit der
Schreibweise F (x, mx , my ). Sie hat die besondere Eigenschaft
F (x, mx , my ) =
1
F (x, my , mx )
(6.63)
Folgende Kenngrößen der F -Verteilung kann man angeben
my
für my > 2
my − 2
2m2y (mx + my − 2)
V ar(X) =
für my > 4
mx (my − 2)2 (my − 4)
E(X) =
(6.64)
Insbesonders ist auch der Quotient zweier ZVA vom Typ
(m − 1)
σ̂x2
σy2
(6.65)
die schon in (5.43) aufgetaucht waren, F -verteilt. Damit wird die F -Verteilung beim Vergleich
von Varianzen in Kap.7.4 Verwendung finden.
6.10 Konfidenzintervalle
Bisher haben wir das Problem behandelt, wie die Parameter der pdf oder die Momente der
ZVA geschätzt werden, wenn aus einer GG eine Stichprobe gegeben ist (Punktschätzungen).
Wir haben gesehen, daß der Prozeß der Stichprobenentnahme wieder eine Zufallsvariable ist
und somit die aus einer Realisierung der Stichproben ZVA berechneten Schätzer wieder ZVA
sind, die wiederum durch pdf 0 s (bzw. ihre Momente) beschrieben werden. Eine andere Frage,
55
6 Stichproben von ZVA
die man stellen kann, ist, wie groß ein Intervall [a, b] ist, in dem die Schätzung des Parameters mit einer bestimmten, a-priori festgelegten Wahrscheinlichkeit liegt. Dieses Intervall
heißt Konfidenzintervall. Ist das Intervall klein und die festgelegte Wahrscheinlichkeit hoch,
so ist der Parameter relativ genau bestimmbar. Anhand eines etwas akademischen Beispiels
sei die Vorgehensweise im nächsten Unterkapitel beschrieben. Die etwas realistischeren Anwendungen werden in den anderen Unterkapiteln besprochen.
6.10.1 Konfidenzintervall für den Mittelwert bei bekannter Varianz einer
normalverteilten GG
~ m die Stichprobenvariable für eine normalverteilte GG N (µ, σ). Die Streuung σ sei als
Sei X
bekannt vorausgesetzt. Der Erwartungswert sei geschätzt durch die ZVA
m
1 X
Xi
µ̂ =
m i=1
(6.66)
Dann ist die reduzierte ZVA Z ausgedrückt durch
z=
√ µ̂ − µ
m
σ
(6.67)
eine NV ZVA mit N (0, 1) (s. Ergebnisse oben). Sei γ ∈]0, 1[ die a-priori festgelegte Wahrscheinlichkeit, die ZVA Z in einem bestimmten Konfidenzintervall zu beobachten. Wir suchen
also die Zahlen a und b, so daß gilt
Prob(a ≤ z ≤ b) = γ
(6.68)
Betrachtet man nur um 0 symmetrische Intervalle, folgt a=−b. Mit Hilfe der Fehler-Funktion
erf (x) läßt sich die linke Seite ausdrücken als
Prob(−b ≤ z ≤ b) = erf(b) − erf(−b) = γ
(6.69)
Daraus folgt mit erf (−b) = 1 − erf (b) als Gleichung für b:
erf(b) =
1+γ
2
(6.70)
d.h. b ist das Quantil der Normalverteilung zum Wahrscheinlichkeitswert (1 + γ)/2. Wählt
man also γ nahe an 1, so bedeutet das, daß die Wahrscheinlichkeit, die ZVA Z im Intervall
[−b, b] zu beobachten, sehr groß ist. Ist dabei b eine Zahl, die klein gegen σ ist, bedeutet
56
6 Stichproben von ZVA
das, daß mit einer hohen Wahrscheinlichkeit die ZVA Z in einem kleinen Intervall liegt,
daß also die durch die Zufälligkeit der Stichprobe erzeugte Variabilität des Schätzers µ̂ mit
hoher Wahrscheinlichkeit gering ist. Damit ist also der gesuchte Parameter ”gut” schätzbar. Die Intervallgrenze b ist keine ZVA, da sie aus der theoretischen Verteilungsfunktion
für die Schätzer (genauer aus der Inversen der Verteilungsfunktion) bestimmbar ist. b ist
für die unterschiedlichsten Verteilungsfunktionen als Funktion der a-priori Wahrscheinlichkeit γ tabelliert oder als FORTRAN Subroutine z.B. in der mathematischen Library IMSL
verfügbar.
Es ist üblich, das Konfidenzintervall der reduzierten ZVA wieder in ein Intervall um den
unbekannten Erwartungswert (allgemein um den unbekannten Parameter) µ umzurechnen.
Dies ist das Intervall, in dem man mit einer Wahrscheinlichkeit (aber nicht γ) den Parameter
vermutet. Deshalb nennen einige Autoren das so umgerechnete Konfidenzintervall auch ”Mutungsbereich”. Für den vorliegenden Fall ergibt sich mit b als Lösung der letzten Gleichung
und der Definition der reduzierten ZVA Z
bσ
bσ
µ̂ − √ ≤ µ ≤ µ̂ + √
m
m
(6.71)
Die so berechneten Intervallgrenzen sind natürlich wieder ZVA und damit von dem Konfidenzintervall der reduzierten ZVA Z deutlich zu unterscheiden.
6.10.2 Konfidenzintervall für den Mittelwert einer normalverteilten GG bei
geschätzter Varianz
~ m die Stichproben ZVA einer normalverteilten GG mit N (µ, σ). Als Schätzer
Sei wiederum X
P
des Erwartungswerts und der Streuung seien der Stichprobenmittelwert m1 m
i=1 xi und der
unverzerrte Schätzer der Varianz (5.27) gewählt. Dann kann man zeigen, daß die ZVA Z (s.
5.67) und Y unabängige ZVA sind, d.h. cov(Z, Y ) = 0 (Beweis siehe Kreyszig, S.381 [4]),
wenn man Y wie folgt festlegt:
Y =
Pm
i=1 (Xi
σ2
− µ̂)2
(6.72)
Da Z und Y unabhängig sind, ist ganz offensichtlich die ZVA T mit
Z
T =p
Y /(m − 1)
(6.73)
eine Student-t verteilte ZVA mit m − 1 Freiheitsgraden. Das Konfidenzintervall [−b, b] zum
a-priori Wahrscheinlichkeitswert γ folgt dann analog zum letzten Unterkapitel, wobei die
57
6 Stichproben von ZVA
erf -Funktion jedoch durch die Verteilungsfunktion der Student-t Verteilung FSt−t ersetzt
wird:
FSt−t (b) =
1+γ
2
(6.74)
Dann kann man wieder den Mutungsbereich für den Erwartungswert angeben als
bσ̂
bσ̂
µ̂ − √ ≤ µ ≤ µ̂ + √
m
m
(6.75)
Es gilt natürlich wiederum: b ist keine ZVA, sondern wohldefiniert, die Intervallgrenzen des
Mutungsbereichs dagegen sind ZVA.
6.10.3 Konfidenzintervall für den Schätzer der Varianz einer NV GG
Die ZVA Y läßt sich auch schreiben als
Y = (m − 1)
σ̂ 2
σ2
(6.76)
und ist damit eine χ2 -verteilte ZVA mit m − 1 Freiheitsgraden. Es lassen sich nun auch
Konfidenzintervalle für Y ausrechnen. Allerdings ist die χ2 Verteilung nicht symmetrisch, so
daß man die Lösungen der Gleichungen (Fχ ist die Verteilungsfunktion der χ2 - Verteilung)
1
Fχ (a) = (1 − γ)
2
1
Fχ (b) = (1 + γ)
2
(6.77)
bestimmen muß, da gelten soll:
Fχ (b) − Fχ (a) = γ
(6.78)
Die entsprechenden Lösungen sind tabelliert oder als IMSL Routinen anwählbar. Das entsprechende Mutungsintervall ergibt sich dann als
m−1 2
m−1 2
σ̂ ≤ σ 2 ≤
σ̂
b
a
58
(6.79)
7 Prüfung statistischer Hypothesen, Tests
7 Prüfung statistischer Hypothesen, Tests
7.1 Allgemeine Bemerkungen
Bisher sind u.a. folgende Probleme der mathematischen Statistik behandelt worden (s.Kap.5)
• Schätzung von Parametern oder Momenten der pdf einer GG, aus der eine Stichprobe
~ m gegeben war (Punktschätzung).
X
• Bestimmung von Vertrauensgrenzen oder die Berechnung der Güte der geschätzten
Parameter (Intervallschätzung).
Sehr oft liegt in der mathematischen Statistik das Problem vor, daß man ein Vorurteil bzw.
Vorwissen über eine GG hat und dieses mit einer Stichprobe überprüfen möchte. So verfügt
man in der klimatologischen Forschung ja sogar immer nur über Stichproben des Experiments
”Klimasystem”. Mit diesen verschafft man sich das ”Vorwissen” (eher wohl die Vermutung)
über die GG dieses Experiments, die dem Menschen aber immer unbekannt bleiben wird.
Im Sprachgebrauch der Statistik bezeichnet man dies als Hypothese.
• Der Hypothesentest besteht nun darin, objektiv zu prüfen, wie gut diese Vermutung
bezüglich der GG (i.a. handelt es sich um eine Vermutung über die pdf der GG) mit
den Daten der Stichprobe zu vereinbaren ist.
Die Prüfung kann allenfalls zur Ablehnung der Hypothese führen. Im gegenteiligen Falle
stellt man nur fest, daß die Aussage der Stichprobe nicht gegen das Vorwissen über die GG
spricht. Man kann nie 100%ig sicher sein, die richtige Entscheidung zu treffen. Man kann
nur Signifikanz-/Irrtumsniveaus angeben, innerhalb derer die getroffene Entscheidung richtig
ist. Zu jeder Hypothese gibt es in natürlicher Weise zumindest eine Gegenhypothese (”Es ist
nicht so!”). Zur Unterscheidung nennt man die zu testende Hypothese die Nullhypothese
H0 und die Hypothese gegen die H0 getestet wird die Alternativhypothese H1 . Erzielt
ein Wissenschaftler eine bisher unbekannte Erkenntnis, so muß er sich selbst den Zweifel der
wissenschaftlichen Gemeinschaft formulieren und mit einem Test versuchen, die virtuellen
Zweifler von seiner Erkenntnis zu überzeugen.
Die Durchführung statistischer Hypothesentests verläuft i.a. nach einem Schema, das im
Folgenden dargelegt werden soll. Zuerst wird das Hypothesenpaar aus Null- und Alternativhypothese explizit formuliert. Man sollte sich sogar angewöhnen, das immer schriftlich
59
7 Prüfung statistischer Hypothesen, Tests
Es gilt in der GG
Es gilt in der GG
Testausgang
H0 ist wahr/H1 ist falsch
H0 ist falsch/H1 ist wahr
û < uα ⇔ H0 akzeptieren
richtig, (1 − α)
Fehler 2.Art β
û > uα ⇔ H1 akzeptieren
Fehler 1.Art, α
richtig,(1 − β)
Tabelle 1 Entscheidungstabelle bei statistischen Hypothesentests, Definition Fehler 1. und
2. Art
zu fixieren! Dies legt zwei GG und entsprechende ZVA, unsere Testvariable, fest. Für die
Nullhypothese lautet diese Testvariable U 0 = {(u, f (0) (u)), u ∈ Su } und für die Alternativ-
hypothese U 1 = {(u, f (1) (u)), u ∈ Su }. Die ZVA U i , i = 0, 1 sind zumeist – auch bei Tests
mit Stichproben aus multivariaten GG – univariate, reelle ZVA. Ziel des Tests ist es, eine
gegebene Stichprobe der entsprechenden GG H0 bzw. H1 zuzuordnen. Dazu wird die Testvariable benutzt, der Stichprobenwert der Testvariablen û muss also entwederU 0 oder U 1
entstammen. Natürlich ist eine solche Zuordnung immer mit einer Unsicherheit verbunden.
Man wählt nun das Irrtumsniveau α. α ist die Wahrscheinlichkeit, mit der man H0
verwirft, obwohl die Nullhypothese richtig ist. Man nennt das den Fehler 1.Art. Je kleiner
ich α wähle, umso entfernter muß die Aussage der Stichprobe von der zugehörigen Aussage
der GG (=H0 ) sein. Anders herum gesagt ist es verständlicher, entspricht aber nicht exakt
dem Vorgehen: Je entfernter die Daten von der Nullhypothese sind, umso kleiner ist die
Wahrscheinlichkeit, daß ich mich irre, wenn ich H0 ablehne. Ist die Aussage der Stichprobe
weit genug von der GG entfernt, lehne ich H0 mit einer Signifikanz von α ab. So ist das
in Strenge zu formulieren. Durchaus gebräuchlich und für den Wissenden nicht verwirrend
ist es aber, in diesem Fall zu formulieren, daß die Nullhypothese auf dem Irrtumsniveau α
verworfen wird wird.
Hat man H0 (berechtigt oder unberechtigt) verworfen, so ist die Alternativhypothese als
unbewiesenes Vorurteil anzubieten. Unterscheiden sich H0 und H1 wenig in ihren Aussagen,
so hat das allerdings wenig Nutzen. Dies ist dem gesunden Menschenverstand zugänglich
(...und das in einer Statistikvorlesung!!!) und zeigt sich, wenn man den Test unter Einbeziehung der Alternativhypothese zuende führt. Neben dem Fehler, H0 unberechtigt abzulehnen,
kann man auch noch den Fehler machen, H0 unberechtigt nicht abzulehnen (also unberech-
60
7 Prüfung statistischer Hypothesen, Tests
tigt zu akzeptieren). Es wird also die (falsche) Aussage getroffen, daß die Stichprobe nicht
gegen die mit H0 verbundene GG spricht obwohl sie in Wahrheit irgend einer anderen GG
entnommen wurde, bspw. der, die mit H1 verbunden ist. Die Wahrscheinlichkeit für diesen
Fehler 2.Art nennt man β und sie ist abhängig von α und natürlich von H1 , welche aber in
der Regel unbekannt ist. Leider vergrößert ein kleiner werdendes α den Fehler β. β. Daher
ist die Wahl der Testvariablen sehr wichtig (gerade bei multivariaten statistischen Hypothesentests). In Tabelle (1) sind die möglichen Entscheidung bei statistischen Tests aufgelistet.
In Abb.16 wird versucht, diesen Sachverhalt anschaulich darzustellen. Mit dem
Begriff Hypothese darf man ruhig eine
pdf verbinden, die auf der Ordinaten
aufgetragen ist und mit der Größe auf
der Abszisse die ZVA U 0 oder U 1 . Befindet sich die Stichprobe û rechts von dem
durch die Wahl von α festgelegten, kritischen Wert uα , so wird H0 mit einer Sicherheit von (1-α) verworfen. Liegt dagegen û links von uα , so sprechen die
Daten mit der selben Sicherheit nicht
gegen H0 . In diesem Fall ist es natürlich
trotzdem noch möglich, daß û eine Realisierung von U 1 und nicht von U 0 ist.
Dieser Fehler wird durch β beschrieben.
Abbildung 16 Graphische Darstellung zum Begriff
Z
uα
der Fehler I. und II. Art bei Hypothesentests
Prob (û ∈ ] − ∞; uα ] |H1 ) =
f (1) (y) dy = β
Z ∞ −∞
Prob (û ∈ ]uα ; ∞[ |H1 ) =
f (1) (y) dy = 1(7.1)
−β
uα
61
7 Prüfung statistischer Hypothesen, Tests
Analog kann man formulieren:
Z
uα
f (0) (y) dy = 1 − α
Prob (û ∈ ] − ∞; uα [ |H0 ) =
Z ∞ −∞
f (0) (y) dy = α
Prob (û ∈ [uα ; ∞[ |H0 ) =
(7.2)
uα
Für besonders aussagekräftige – mächtige – Tests wendet man gerne folgendes Verfahren
an: Das Vorurteil, das man mit der Stichprobe unterstützen möchte, wählt man als Alternativhypothese H1 . Getestet wird also der Widerstand gegen meine These. Wählt man ein
kleines α, so kann man die gegnerische Hypothese H0 nur bei Daten, die sehr für meine These (= H1 ) sprechen (û > uα ) mit hoher Wahrscheinlichkeit verwerfen. Und nur wenn ”das
Alte” durch ”das Neue” stark angegriffen wird, soll sich ”das Neue” durchsetzen können.
Man widerlegt lieber sein Vorurteil (in der Wissenschaft!....) auch wenn es richtig ist, als
daß man es akzeptiert, wenn es falsch ist. Man sieht das als Ansporn, noch bessere Hinweise
(Signale) für seine These zu suchen.
Wie man aus Abb.8 schon erkennt, ist der Fehler β groß, wenn sich Hypothese und Alternativhypothese stark überlappen. Die Größe (1 − β), die man als Macht des Tests bezeichnet,
ist dann klein. Es gibt eine hohe Wahrscheinlichkeit, daß eine Stichprobe, die tatsächlich der
GG H1 entstammt, zu einer Annahme von H0 führt. Man kann sich bspw. vorstellen, daß
H0 sagt, eine Farbfläche sei rosa und H1 stellt dagegen die Alternative, sie sei pink. Nutzen
und Präzision dieses Tests sind natürlich zweifelhaft.
Ein anderes Beispiel aus der bösen Welt der Geschäftemacher soll die Problematik beleuchten, die mit der richtigen Hypthesenwahl verbunden ist. Im Hamburger Hafen liege ein
Bananendampfer mit einer Ladung im Wert von 106 Euro. Der Bananenhändler sucht nun
einen Kunden (bspw. einen Großhändler auf dem Fischmarkt), der ihm die Ware abkauft.
Dazu macht er einen Test mit der Nullhypothese H0 ”Die Ware ist gut”. Er führt den Test
durch mit einer Irrtumswahrscheinlichkeit α=0.01. Das bedeutet, daß der Test mit einer
Wahrscheinlichkeit von 1% das Ergebnis ”Ware ist schlecht” liefert, obwohl die Lieferung
o.k. ist. Es heißt nicht, daß 1% der Bananen verdorben sind! Es bedeutet aber, daß ein Risiko besteht, daß 1 von 100 Lieferungen schlecht ist. Das Händlerrisiko ist 1% × 106 Euro.
Das Risiko des Kunden ist β. Die Größe von β ist ungewiß, könnte bspw. β(α = 0.01) = 0.2
sein. Dann ist das Kundenrisiko 20% × 106 Euro = 200.000 Euro!
62
7 Prüfung statistischer Hypothesen, Tests
Schlauer wäre es von dem Kunden, einen Test auf die Nullhypothese H0 ”Die Ware ist
schlecht” zu verlangen. Dann kann er das Kundenrisiko fest eingrenzen und den Überseehändler mit seinem nun ungewissen Händlerrisiko in schlaflose Nächte verfallen lassen.
7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz
~ m vom Umfang m entnommen wird, sei
Die Grundgesamtheit, aus der die Stichprobe X
normalverteilt mit N (µ, σ). Die Varianz σ 2 der GG sei (unrealistischerweise) bekannt. Mit
µ ist im folgenden ohne die Indizierung
1
das zentrierte 1. Moment dieser GG bezeichnet.
Sei weiterhin µ(0) eine Annahme (keine Schätzung!) über den Erwartungswert der GG. Die
Variable µ(0) ist damit keine ZVA, sondern eine wohlbekannte reelle Zahl. Dann soll die
Nullhypothese H0 lauten
µ = µ(0)
H0 :
(7.3)
Als Alternativhypothese hat man drei Möglichkeiten:
H1 :
µ > µ(0)
H1 :
µ < µ(0)
H1 :
µ 6= µ(0)
(7.4)
Formuliert man eine der ersten beiden Alternativhypothesen, so führt man einen sogenannten
einseitigen Test durch, im dritten Fall dagegen einen zweiseitigen Test. Als Schätzer für den
Erwartungswert wählen wir den arithmetischen Mittelwert – den ML Schätzer –
m
1 X
µ̂ =
xi
m i=1
(7.5)
µ̂ ist eine NV ZVA mit N (µ, √σm ). Gilt die Nullhypothese µ = µ(0) , so ist die ZVA U
ausgedrückt durch
û =
√ µ̂ − µ(0)
m
σ
(7.6)
eine NV ZVA mit N (0, 1). Die pdf der Hypothese f 0 (u) ist dann die Gauss’sche Wahrscheinlichkeitsdichte mit den Parametern (0, 1). Führt man den einseitigen Test nach rechts (>)
durch, so erhält man (α fest vorgegeben):
Prob(u > uα ) = α
63
(7.7)
7 Prüfung statistischer Hypothesen, Tests
uα wird bestimmt durch
⇐⇒
Z
erf(uα ) = 1 − α
uα
−∞
f 0 (u) du = 1 − α
(7.8)
mit
uα =
√ cα − µ(0)
m
σ
(7.9)
wobei cα eine durch (6.9) festgelegte Zahl ist. Man findet nun
û ≤ uα → akzeptiere H0
(7.10)
û > uα → akzeptiere H1
(7.11)
bzw.
Macht man für die Alternativhypothese eine konkrete Annahme über den Erwartungswert
µ(1) , so kann man die Macht des einseitigen, rechten Tests beschreiben durch
√ cα − µ(1)
)
1 − β(α) = 1 − erf( m
√σ
m (0)
(µ − µ(1) ))
= 1 − erf(uα +
σ
(7.12)
Die Durchführung des einseitigen, linken Tests (<) erfolgt analog mit uα → −uα . Ist man an
dem zweiseitigen Test interessiert, so ist ein symmetrisches Intervall [−uα , uα ] gesucht mit
Prob(−uα ≤ u ≤ uα ) = 1 − α
(7.13)
erf(uα ) − erf(−uα ) = 1 − α
(7.14)
oder
oder mit Hilfe der Beziehung erf(−uα ) = 1 − erf(uα )
erf(uα ) = 1 −
α
2
(7.15)
Man findet nun mit Hilfe des aus der Stichprobe gewonnenen Wertes û die gewünschte
Hypothesenentscheidung:
û ∈ [−uα , uα ] → akzeptiere
H0
(7.16)
û 6∈ [−uα , uα ] → akzeptiere
H1
(7.17)
bzw.
64
7 Prüfung statistischer Hypothesen, Tests
Bei gleichem Irrtumsniveau α sind die Entscheidungsgrenzen |uα | des zweiseitigen Tests
größer als beim einseitigen Test. D.h. bei gleichem Schätzwert µ̂ wird die Nullhypothese eher
beim einseitigen Test als beim zweiseitigen Test abgelehnt. Das liegt natürlich daran, daß
bei dem einseitigen Test die zusätzliche ”a-priori” Information über das Vorzeichen honoriert
wird. Die Macht des zweiseitigen Tests ist gegeben durch
√
√
m (0)
m (0)
(2)
(µ − µ )) − erf(uα +
(µ − µ(2) ))
1 − β(α) = 1 + erf(−uα +
σ
σ
(7.18)
wobei µ(2) die konkrete Annahme über den Erwartungswert der ”linken” Alternativhypothese
ist.
7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz
~ mx vom Umfang mx aus einer NV GG mit N (µx , σ) und
Gegeben seien zwei Stichproben X
~ my vom Umfang my aus einer NV GG mit N (µy , σ). Die Schätzer der Erwartungswerte seien
Y
die arithmetischen Mittelwerte, als Schätzer für die Varianz benutzen wir den unverzerrten
Schätzer der Stichprobenvarianz, also
µ̂x
µ̂y
mx
1 X
=
Xi
mx i=1
my
1 X
=
Yi
my i=1
m
ŝ2x
x
X
1
=
(Xi − µ̂x )2
mx − 1 i=1
my
ŝ2y
X
1
=
(Yi − µ̂y )2
my − 1 i=1
(7.19)
Beide Stichproben seien unabhängig. Die Nullhypothese wird formuliert als
H0
:
µx = µ y
(7.20)
Als Alternativhypothese bieten sich wieder drei Formulierungen an:
H1
:
µx > µ y
H1
:
µx < µ y
H1
:
µx 6= µy
65
(7.21)
7 Prüfung statistischer Hypothesen, Tests
Dann ist die ZVA U mit
p
u=
mx my (mx + my − 2)
µ̂x − µ̂y
q
mx + m y
(mx − 1)ŝ2x + (my − 1)ŝ2y
(7.22)
Student-t verteilt mit (mx + my − 2) Freiheitsgraden. (Beweis [4],S.381) Trifft die Nullhypo-
these µx = µy zu, ist U zentral (d.h. E(U)=0) Student-t verteilt. Die pdf f 0 (u) ist dann die
Student-t Wahrscheinlichkeitsdichte aus dem letzten Kapitel. Soll die einseitige, rechte (>)
Alternativhypothese gegen die Nullhypothese getestet werden, sucht man wieder
Prob(u ≤ uα ) = 1 − α
(7.23)
FSt−t (uα , mx + my − 2) = 1 − α
(7.24)
oder
wobei FSt−t die Verteilungsfunktion der Student-t Verteilung mit mx +my −2 Freiheitsgraden
ist. Sei û die aus der Stichprobe berechnete Realisierung der Teststatistik U . Dann entscheidet
man
û ≤ uα → akzeptiere H0
û > uα → akzeptiere H1
(7.25)
+
Lautet die Alternativhypothese H1 : µx 6= µy , so wird ein Intervall [u−
α , uα ] gesucht mit
α
2
α
+
Prob(u > uα ) =
2
Prob(u < u−
α) =
(7.26)
+
Da aber die Student-t Verteilung symmetrisch ist, ist u−
α = −uα und uα wird aus der
Gleichung
F (uα ) = 1 −
α
2
(7.27)
berechnet. Der Test erfolgt dann wie oben:
|û| ≤ uα → akzeptiere
H0
|û| > uα → akzeptiere
H1
(7.28)
Ebenso wie im letzen Unterkapitel sind die Entscheidungsgrenzen bei gleichem Irrtumsniveau für den einseitigen Test geringer als beim zweiseitigen (Begründung s. oben). Analog
läßt sich auch die Macht des Student-t Tests bestimmen; statt der erf-Funktion wird hier
aber die Verteilungsfunktion der nichtzentralen Student-t Verteilung mit dem Nichtzentralitätsparameter δ = (µx − µy ) benötigt.
66
7 Prüfung statistischer Hypothesen, Tests
7.4 Vergleich der Varianz zweier NV
Eine wesentliche Voraussetzung des letzten Testverfahrens war die Einschränkung auf identische Varianzen der zugrundegelegten GG. Sind zwei voneinander unabhängige Stichproben
gegeben, sind natürlich die berechneten Realisierungen der Varianzschätzer unterschiedliche Zahlen. Ein Test dieser beiden Zahlen soll deshalb feststellen, ob die Varianzen der
~ mx vom
GG identisch (H0 ) oder verschieden (H1 ) sind. Gegeben seien zwei Stichproben X
~ my vom Umfang my aus einer NV GG
Umfang mx aus einer NV GG mit N (µx , σx ) und Y
mit N (µy , σy ). Die Schätzer der Erwartungswerte und der Varianzen seien wie im letzten
Unterkapitel gewählt. Die Nullhypothese sei
H0
σx2 = σy2
:
(7.29)
Als Alternativhypothese formulieren wir entweder einseitig
H1
:
σx2 > σy2
(7.30)
H1
:
σx2 6= σy2
(7.31)
oder zweiseitig
Gilt die Nullhypothese, ist die Teststatistik U :
σ̂y2
σ̂x2
u = ( 2 )/( 2 )
σx σy
(7.32)
Fisher-F verteilt mit (mx −1, my −1) Freiheitsgraden. Soll die einseitige Alternativhypothese
gelten, sucht man nach
Prob(u ≤ uα ) = 1 − α
(7.33)
FFisher (uα , mx − 1, my − 1) = 1 − α
(7.34)
oder uα als Lösung der Gleichung
wobei FFisher die Verteilungsfunktion einer (zentralen) Fisher-F ZVA ist mit (mx − 1, my − 1)
Freiheitsgraden. Hierbei bedeutet zentrale Fisher-F Verteilung, daß der Erwartungswert der
entsprechenden ZVA Eins ist. Mit û aus
û =
σ̂x2
σ̂y2
67
(7.35)
7 Prüfung statistischer Hypothesen, Tests
erfolgt die Testentscheidung wie
û ≤ uα → akzeptiere H0
û > uα → akzeptiere H1
(7.36)
Im Fall der zweiseitigen Alternativhypothese ist zu bedenken, daß die Fisher-F Verteilung
+
nicht symmetrisch ist, d.h. man sucht ein Intervall [u−
α , uα ] mit
α
2
α
+
Prob (u ≤ uα ) = 1 −
2
Prob (u < u−
α) =
(7.37)
Die Intervallgrenzen findet man dann als die entsprechenden Quantile der zentralen Fisher-F
Verteilung mit den bereits angegebenen Freiheitsgraden zu
α
2
α
+
(uα , mx − 1, my − 1) = 1 −
2
FF isher (u−
α , mx − 1, my − 1) =
FF isher
(7.38)
Die Testentscheidung wird dann wie folgt durchgeführt:
+
û ∈ [u−
α , uα ] → akzeptiere
H0
+
û 6∈ [u−
α , uα ] → akzeptiere
H1
(7.39)
7.5 Anpassungstests
Eine wesentliche Vorausetzung der bisher beschriebenen Testverfahren war die Einschränkung
der GG auf NV GG. Insbesondere der Fisher-F Test ist jedoch bekannt dafür, auf Abweichungen von der NV-Annahme empfindlich zu reagieren (dies ist ein Ergebnis aus Monte
Carlo Experimenten). D.h sind die GG, aus denen die Stichproben entnommen werden,
nicht NV, so ist das Ergebnis des Fisher-F Tests zweifelhaft. Aus diesem Grund ist es nötig,
zu testen, ob die pdf oder die Verteilungsfunktion einer GG, die aus der Stichprobe durch die
entsprechenden Schätzer berechnet wurde, eine bestimmte Form hat, etwa die Form der Normalverteilung. Dies ist die Aufgabe der sogenannten Anpassungstests, mit denen Hypothesen
über vermutete pdf bzw. Verteilungsfunktionen der GG überprüft werden können.
68
7 Prüfung statistischer Hypothesen, Tests
7.5.1 Der χ2 -Test
Mit Hilfe des χ2 Tests wird getestet, ob die pdf f (x) einer GG mit einer Annahme über diese
pdf (das ”Vorurteil”) verträglich ist oder nicht. Das Vorurteil wird mit f (0) bezeichnet. Aus
~ m vom Umfang m vor. Damit kann man die pdf f (x) durch
der GG liegt eine Stichprobe X
das Histogramm H(∆j ), j = 1, ..., J schätzen. Als Null- bzw. Alternativhypothese formuliert
man
H0
:
f (x) = f (0) (x)
H1
:
f (x) 6= f (0) (x)
(7.40)
Dabei wird als Schẗzer der Verteilungsfunktion
H(∆j )
fˆ(x ∈ ∆j ) =
∆j
(7.41)
benutzt. Wenn die Nullhypothese richtig ist, ist die Wahrscheinlichkeit, die ZVA X im Intervall ∆j zu beobachten gegeben durch
pj =
Z
f (0) (x) dx
(7.42)
∆j
Damit kann man die im Intervall ∆j zu erwartende Anzahl von Stichprobenelementen h bei
einer Stichprobe vom Umfang m berechnen zu
h(∆j ) = mpj
(7.43)
Die beobachtete Anzahl von Stichprobenelementen im Intervall ∆j liefert das Histogramm
H(∆j ) aber zu
mH(∆j ) = |{x ∈ ∆j }|
(7.44)
Man kann zeigen (Beweis siehe [3]), daß die ZVA U mit
u=
J
X
(mH(∆j ) − mpj )2
mpj
j=1
(7.45)
asymptotisch (d.h für m → ∞) eine χ2 -verteilte ZVA mit (J − 1) Freiheitsgraden ist. Bei
der Durchführung des Tests ist also wiederum eine Zahl uα gesucht mit
Prob(u ≤ uα ) = 1 − α
69
(7.46)
7 Prüfung statistischer Hypothesen, Tests
oder mit Hilfe der χ2 Verteilungsfunktion das Quantil
Fχ2 (uα , J − 1) = 1 − α
(7.47)
Damit führt man die Testentscheidung wie folgt durch
u ≤ uα → akzeptiere H0
u > uα → akzeptiere H1
(7.48)
~ m noch p Parameter geschätzt (z.B.
Werden zur Herleitung der pdf f (0) aus der Stichprobe X
für eine Normalverteilung µ und σ, p = 2), so ist die ZVA U immer noch (asymptotisch) χ2
verteilt, jedoch mit J − p − 1 Freiheitsgraden.
7.5.2 Kolmogoroff - Smirnov Test
So wie der χ2 Test ein Test für die pdf ist, ist der Kolmogoroff-Smirnov Test (KS-Test)
~ m eine Stichprobe vom Umfang m aus einer
ein Test für die Verteilungsfunktion. Sei also X
GG mit der Verteilungsfunktion F (x). Diese Verteilungsfunktion sei geschätzt durch die
empirische Verteilungsfunktion F̂ z.B. als Summe über das Histogramm H(∆j ). A-priori sei
eine Verteilungsfunktion F̃ (x) vorgegeben. Die Null- bzw. Alternativhypothese lautet dann
H0
:
F (x) = F̃ (x)
H1
:
F (x) 6= F̃ (x)
(7.49)
Bestimmen wir die maximale Distanz zwischen empirischer Verteilungsfunktion F̂ (x) und
theoretischer Verteilungsfunktion F̃ (x) als
u = sup |F̂ (x) − F̃ (x)|.
(7.50)
x∈S
Ist die Nullhypothese korrekt, folgt, dass die ZVA U näherungsweise der Verteilungsfunktion
FKS (u) ' 1 − 2 exp(−2mu2 )
(7.51)
folgt. FKS heißt auch die Kolmogoroff-Smirnov Verteilung. Es ist also wiederum eine Zahl
uα gesucht mit
Prob(u ≤ uα ) = 1 − α
(7.52)
FKS (uα ) = 1 − α
(7.53)
oder
70
7 Prüfung statistischer Hypothesen, Tests
Unter Benutzung der expliziten Darstellung der KS - Verteilung erhält man dann
r
ln( α )
uα = − 2
2m
(7.54)
Damit führt man die Testentscheidung wieder wie folgt durch
u ≤ uα → akzeptiere H0
u > uα → akzeptiere H1
(7.55)
Ein Problem ergibt sich mit den KS-Test, wenn die Parameter der theoretischen Verteilung
aus der Stichprobe geschäzt werden müssen. Dies lässt sich nicht, wie beim χ2 -Test, einfach
durch die Anpassung der Freiheitsgrade korrigierten. Allerdings existiert ein Modifikation
des KS-Tests, welche auf den Lilliefors-Test führt. Hier existiert eine andere Statistik, die
DL -Statistik, welche sich aus Tabellen ablesen lässt oder über Approximationen hergeleitet
werden kann.
71
8 Statistische Untersuchung extremer Ereignisse
8 Statistische Untersuchung extremer Ereignisse
Bisher haben wir uns mit den Eigenschaften von Zufallsvariable beschäftig, die das Zentrum
der Dichteverteilung beschreiben, also im Wesentlichen mit Erwartungswert und Varianz,
evt. auch Schiefe oder Kurtosis. Ein weiteres Feld in der Meteorologie, der Hydrologie und
insbesondere der Ökonomie ist die Untersuchung von Extremereignissen. Solche Extremereignisse treten sehr selten auf, sind jedoch mit hohem wirtschaftlichen Schaden, oder schlimmer
mit Verlust von Menschenleben verbunden und damit wichtig für Risikoabschätzungen. Solche Ereignisse werden als ”Extreme Ereignisse” bezeichnet. Natürlich ist der Schaden, den
ein extremes Ereigniss verursacht, nicht nur von seiner Stärke abhängig, sondern vor allem
auch vom Ort und Zeitpunkt seine Auftretens. Ein Sturmtief, welches über eine nicht besiedelte Region zieht, wird u.U. gar nicht als ”Extremes Ereignis” wahrgenommen, während
ein Sturm über Paris schwere Schäden verursachen kann.
Wir wollen als ”Extreme Ereignisse” lieber solche Ereignisse bezeichnen, die selten auftreten und damit in den Ausläufern der Dichtefunktion der ZVA liegen. Die bisher genannten
Verteilungen beschreiben das Verhalten der Zufallsvariable ausgehend von Ihrem Erwartungswert: Mittelwert, Standardabweichung, Schiefe, Kurtosis, ect.. Ihre Ausläufer repräsentieren das Verhalten der Extremwerte jedoch relativ schlecht. Bei der Statistik extremer
Ereignisse machen wir uns ein Theorem zu Nutze, welches ähnlich wie beim Grenzwertsatz
der Statistik, asymptotisch für große Stichproben, das statistische Verhalten der extremen
Ereignisse beschreibt. Leider wird die Existenz dieser asymptotischen Verteilungen für Extreme oft ignoriert. Da Extreme per Definition selten auftreten (in der Risikoabschätzung
soll sogar die Eintrittswahrscheinlichkeit für eventuell nie da gewesene Ereignisse abgeschätzt
werden) ist die statistische Behandlung auf Grund der kleinen Stichprobe mit großen Fehlern
behaftet. Diese können ”extreme” groß werden, wenn Verteilungen einen extremalen Prozess
schlecht beschreiben.
Es gibt zwei Möglichkeiten, eine extremes Ereignis zu definieren. Wir nehmen eine univariate, unabhängig und identisch verteilte ZVA an. Nun können wir a) ein extremes Ereignis
als das Maximum einer Stichprobe einer bestimmten Länge definieren, oder b) als eine Ereignis, welches einen gewissen Schwellenwert (”threshold”) überschreitet. Bei der Definition a)
werden die so definierten extremen Ereignisse über die Generalisierte Extremwertverteilung
(GEV für generalized extrem value distribution) beschrieben, bei b) folgen sie der Genera-
72
8 Statistische Untersuchung extremer Ereignisse
lisierten Paretoverteilung (GPD für generalized Pareto distribution). Wir beschäftigen uns
also im Folgenden mit diesen zwei Ansätzen der Statistik extremer Ereignisse. Einen guten
und ausfühlichen Einstieg in die Extremwertanalyse bietet das Buch von Stuart Coles [11].
Wir können hier nur einen Überblick über die grundlegenden Konzepte der Extremwertanalyse geben.
8.1 Die Generalisierte Extremwertverteilung
Der in diesem Abschnitt beschriebene Ansatz der Extremwertstatistik beruht auf dem FisherTippett Theorem, welches diese 1928 veröffentlichten, und welches 1943 von Gnedenko mathemetisch bewiesen wurde. Sie zeigten, dass nur 3 Klassen von Grenzverteilungen für Extreme in großen Zufallsstichproben existieren. Anwendung fand es als erstes in der Hydrologie.
Gumbel, dessen Buch ”Statistics of Extremes” 1958 erschien, entwickelte die praktische Umsetzung der Extremwertstatistik. Später wurden diese 3 Klassen von Verteilungen (Fréchet,
Gumbel und Weibull) zu der Generalisierten Extremwertverteilung, welche 3 Parameter hat,
zusammmengefasst.
Wir haben nun n unabhängige ZVA X1 , . . . , Xn mit der gleichen, unbeschränkten Verteilungsfunktion F (x) = P (Xi ≤ x). Bei der Extremwertstatik interessieren wir uns für
das Maximum eines solchen Samples von ZVA Mn = max(x1 , x2 , . . . , xn ). Gleiches kann für
Minima hergeleitet werden, indem die X1 , . . . , Xn durch −X1 , . . . , −Xn erzetzt werden. Die
Verteilungsfunktion für das Maximum Mn ist gegeben durch durch F n (x), denn
P (Mn ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x)
= P (X1 ≤ x) · . . . · P (Xn ≤ x)
= F n (x).
(8.1)
Nehmen wir an, wir lassen n gegen unendlich gehen, dann geht also die Wahrscheinlichkeit,
dass das Maximum unter einem bestimmten Wert x fällt, gegen 0, und der Wert Mn gegen
unendlich. Somit ist diese Grenzverteilung für n → ∞ nicht geeignet, uns Informationen
über das Verhalten von Maxima großer Stichproben zu geben.
Es wurden jedoch von Fisher und Tippett 1928 gezeigt, dass die Folge der Mn mit einer
Folge von an und bn normiert werden kann, so dass F n (an x+bn ) gegen eine Verteilungsfunktion H(x) konvergiert. Das Fisher-Tippett-Theorem besagt also, dass die Verteilungsfunktion
73
8 Statistische Untersuchung extremer Ereignisse
für das normierte Maximum M̂n =
P(
Mn −bn
an
gegen eine bestimmte Verteilung konvergiert
Mn − b n
≤ x) = P (Mn ≤ an x + bn )
an
= F n (an x + bn )
lim F n (an x + bn ) = H(x).
(8.2)
n→∞
Dabei existierten genau 3 Klassen von Grenzverteilungen:
? Gumbel-Verteilung:
−x
H(x) = e−e ,
−∞ < x < ∞
(8.3)
? Fréchet-Verteilung:
α
H(x) = e−x ,
für 0 < x < ∞
H(x) = 0
x≤0
für
(8.4)
? Weibull-Verteilung:
α
H(x) = e−(−x) ,
für
−∞ < x < 0
H(x) = 0
für
≥0
(8.5)
Die drei Klassen von Grenzverteilungen können zu einer Verteilung, der Generalisierte
Extremwertverteilung (GEV) kombiniert werden, die lautet
H(x) = exp(−(1 + ζ
x − µ 1/ζ
) ,
β
(8.6)
wobei µ der Ortsparameter, β der Skalenparameter und ζ der alles entscheidende ”Shape”Parameter sind, wobei der ”Shape”-Parameter die Klasse der Verteilung bestimmt. Für ζ > 0
ist die GEV vom Typ Fréchet und für ζ < 0 vom Typ Weibull. Für ζ = 0 erhalten wir die
Grenzverteilung
lim H(x; µ, β, ζ) = exp(−exp(−
ζ→0
x−µ
)).
β
(8.7)
Diese Verteilung ist vom Typ Gumbel und wird oft als DIE Extremwertverteilung oder auch
Fisher-Tippett Typ I Verteilung bezeichnet.
Die Klasse der Verteilungen, für die das Fisher-Tippett Theorem gilt, ist relativ groß. Dabei
entscheidet die Form der Ausläufer der Verteilung der Xi , zu welcher Klasse die Grenzverteilung der Maxima (Extreme) konvergiert. Für solche Verteilungen, deren Ausläufer langsam
74
8 Statistische Untersuchung extremer Ereignisse
Abbildung 17 Beispiel für GEV mit Parameter ζ = 3/4 (Fréchet),ζ = 0 (Gumbel) und ζ = −3/4
(Weibull).
gegen Eins mit
1 − F (x) ∼ cx−1/ζ wenn x → ∞,
(8.8)
konvergieren, erhalten wir die Klasse der Fréchet-Verteilungen. c > 0 und ζ > 0. Eine
exemplarische Verteilung, die nicht nach oben begrenzt ist, ist die Pareto-Verteilung. Die
einfachste Form der Paretoverteilung ist definiert als
f (x) = axa−1
a > 0 x > 0.
(8.9)
Sie beschreibt zum Beispiel die Intensität von Unwetterschäden oder eben Einkommen. Endscheidend ist hier, dass beliebig große Werte endliche, nicht verschwindend kleine Wahrscheinlichkeiten haben. Wir hatten auch bei der Student-t-Verteilung gesehen, dass bestimmte Momente nicht existieren, da die Dichtefunktion zu langsam gegen Null abfallen.
Für solche Verteilung, die sehr enge Ausläufer haben, erhalten wir die Weibull-Verteilung.
Mathematisch ausgedrückt, erhalten wir dann die Weibull-Verteilung, wenn die Verteilungsfunktion F einen endlichen Endpunkt wF bezitzt, an dem F (wF ) = 1 ist, wobei F (x) < 1
für jeden anderen Punkt x < wF gilt, so dass
1 − F (wF − y) ∼ cy −1/ζ wenn y → 0.
c > 0 und ζ < 0.
75
(8.10)
8 Statistische Untersuchung extremer Ereignisse
Für die meisten Verteilungen konvergiert die Verteilung der Maxima gegen die GumbelVerteilung. Dabei liegt der Endpunkt wF der Verteilung im Undendlichen, allerdings konvergiert der Ausläufer der Verteilung schneller gegen Eins als im Fréchet-Fall. Die genauere
Bedingung ist die ”von Mises”-Bedingung
d 1 − F (x)
→ 0 wenn x → wF ,
dx
f (x)
(8.11)
wobei f (x) die PDF der Verteilungsfunktion F (x) ist. Eine Gumbel-Verteilung erhalten wir
z.B., wenn die Verteilungsfunktion F (x) die Normalverteilung, die Log-Normalverteilung, die
Gamma-, oder Weibull-Verteilung u.a. annehmen, also Verteilungen, deren Ausläufer weder
besonders eng, noch besonders breit sind.
Einige Eigenschaften der GEV seien hier noch erwähnt. Der Erwartungswert existiert nur
für ζ < 1 und die Varianz nur für ζ <
1
2
oder allgemeiner: das k-te Moment einer GEV-
verteilten ZVA existiert nur für ζ < k1 . Erwartungswert und Varianz berechnen sich zu
β
(Γ(1 − ζ) − 1) für ζ < 1
ζ
1
Γ(1 − 2ζ) − Γ2 (1 − ζ)
für ζ < .
2
E(X) = µ +
V ar(X) =
β2
ζ2
(8.12)
(8.13)
Für den Grenzfall ζ → 0 vereinfacht sich dies zu
E(X) = µ + βγ
β 2π2
V ar(X) =
6
mit γ = 0.5772 . . . (Euler-Konstante)
(8.14)
(8.15)
8.2 Die Überschreitung eines Schwellenwerts und die Generalisierte
Pareto-Verteilung
Eine alternative Methode der Extremwertstatistik ergibt sich aus der Definition extremer
Ereignisse durch die Überschreitung eines Schwellenwertes (threshold). Hierbei wird ein Wert
u gewählt und alle die Ereignisse untersucht, die diesen Schwellenwert u überschreiten. Zwei
Fragen stellen sich bei diese Definition:
I wieviele Ereignisse überschreiten den Schwellenwert u in einer Stichprobe einer vorgegebenen Länge, bzw. wieviele so definierte extreme Ereignisse finden in einem vorgegebenen Zeitraum statt?
76
8 Statistische Untersuchung extremer Ereignisse
II wie sind die einen Schwellenwert überschreitenden Werte verteilt?4
8.2.1 Die Generalisierte Pareto-Verteilung
Gegeben seien unabhängig, identisch verteilte ZVA Xi ∈ IDD mit der Verteilung F (x). Die
einen Schwellwert u überschreitenden ZVA Yi = Xi − u mit Xi > u beschreiben die extremen
Ereignisse. Die Verteilungsfunktion von Yi lässt sich herleiten über
Fu (y) = P (Y ≤ y|X > u)
= P (X − u ≤ y|X > u) = P (X ≤ u + y|X > u)
F (u + y) − F (u)
P (u < X ≤ u + y)
=
,
=
P (X > u)
1 − F (u)
wobei benutzt wurde, dass P (Y |X) =
P (X,Y )
P (X)
(8.16)
ist.
Interessant wird es, wenn sich der Schwellenwert u dem oberen Endpunkt wF (der endlich oder unendlich sein kann) nähert. Dann nähert sich die Verteilungsfunktion Fu (y) der
Überschreitungen (analog zur Grenzverteilung des normierten Maximums großer (n → ∞)
Stichproben der GEV) der Generalisierten Pareto-Verteilung (GPD)
y
Fu (y) ≈ G(y; σu , ζ) = 1 − 1 + ζ
σu
− 1ζ
.
(8.17)
D.h. für einen genügend großen Schwellenwert u existieren ein σu (welches abhängig ist von
u) und ein ζ (unabhängig von u), so dass die GPD eine Näherung der Verteilung Fu (y) der
Überschreitungen ist.
Die Analogie zwischen den beiden Anzätzen der Extremwertstatistik präzisierte Pickands
1975 indem er zeigte, dass solche σu und ζ immer dann existieren, wenn auch eine Normierung
des Maximums einer Stichprobe existiert (siehe Gl. 8.2), so dass die Verteilung des normierten
Maximums gegen die GEV konvergiert. Die ζ der GEV und der GPD sind in diesem Fall
identisch.
Wie bei der GEV können verschieden Klassen von Verteilungen in Abhängigkeit von dem
Parameter ζ unterschieden werden.
4
zu I.: Die ZVA Anzahl k der so definierten extremen Ereignisse kann bei genügend grossem Schwellenwert
(so dass das Ereignis ausreichend selten ist), durch eine Poisson-Verteilung (siehe Kapitel 5.1.2) beschrieben werden. zu II.: Bei genügend großem Schwellenwert besitzten die extremen Ereignisse (analog zur
GEV) eine Generalisierte Pareto-Verteilung.
77
8 Statistische Untersuchung extremer Ereignisse
1. Wenn ζ > 0 ist, dann ist die GPD nur für 0 < y < ∞ definiert. Die Ausläufer verhalten
sich mit 1 − G(y; , σu , ζ) ∼ cy −1/ζ , der klassische Pareto-Ausläufer.
2. Wenn ζ < 0 ist, dann bezitzt die GPD einen oberen Endpunkt bei wG = σu /|ζ|, analog
zur Weibull-Verteilung der GEV.
3. Für den Grenzfall ζ → 0 erhalten wir
y
G(y; σu , 0) = 1 − e− σu ,
welches der Exponential-Verteilung mit Erwartungswert E(Y ) = σu entspricht.
Wiederum ist die Existenz bestimmter Momente von ζ abhängig. Erwartungswert und
Varianz berechnen sich als
E(Y ) =
V ar(Y ) =
σu
1−ζ
für ζ < 1
σu2
(1 − ζ)2 (1 − 2ζ)
(8.18)
1
für ζ < .
2
(8.19)
8.2.2 Das Poisson-GPD-Modell
Um nun ein vollständiges Modell der Extremwerte zu erhalten, müssen sowohl I. (der Prozess
der Überschreitung von u) als auch II. (die Verteilung der Überschreitungen) beschrieben
werden. Letzteres wird durch die GPD beschrieben, während die Überschreitung durch einen
Poisson-Punktprozess dargestellt werden. Dieser gibt die Verteilung der Zufallsvariable k, also die Anzahl der Überschreitungen bei gegebener Stichprobenlänge n, an. Wir kombinieren
also die Information über die Verteilung der Überschreitungen mit der Anzahl k der Überschreitungen, und zwar für den einfachsten Fall, dass die dem ganzen zu Grunde liegende
ZVA unabhängig und identisch verteilt ist.
Wir habe also eine ZVA X ∈ IID. Für einen grossen Schwellenwert u, also genügend kleine
Anzahl von Überschreitungen k beschreibt k eine Poissonverteilte ZVA mit
fu (k) =
λk −λ
e
k!
und
E(k) = λ,
(8.20)
wobei, wir erinnern uns, λ = np die mittlere Rate der Überschreitung, n die Länge der
Stichprobe und p die Wahrscheinlichkeit für das Eintreten des Ereignisses ”Überschreitung”
ist.
78
8 Statistische Untersuchung extremer Ereignisse
Die Überschreitungen definieren neue ZVA Yi ∈ IDD mit einer GPD (8.17). Die Kombination der beiden ergibt das Poisson-GPD-Modell. Dazu wählen wir einen Wert x > u und
fragen nach der Wahrscheinlichkeit, dass das Maximum der k Überschreitungen Yi kleiner
ist als x. Wir wollen also eine Verteilungsfunktion für das Maximum der Überschreitungen
bestimmen.
P ( max ≤ x) = P (k = 0) +
0≤i≤k
=
=
=
=
dabei wurde benutzt, dass
P∞
∞
X
n=1
P (k = n, Y1 ≤ x, . . . , Yn ≤ x)
−1/ζ !n
x
−
u
e−λ +
1− 1+ζ
n!
σu
n=1
−1/ζ !n
∞
X
λn e−λ
x−u
1− 1+ζ
n!
σu
n=0
−1/ζ n
x−u
λ − λ 1 + ζ σu
∞
X
−λ
e
n!
n=0
−1/ζ !
x−u
exp −λ 1 + ζ
σu
∞
X
λn e−λ
xn
n=0 n!
(8.21)
= ex die natürliche Exponetialfunktion ergibt.ist.
Erinnern wir uns, dass die GEV definiert war als
x − µ 1/ζ
) ) .
H(x; µ, β, ζ) = exp −(1 + ζ
β
(8.22)
Dann sind diese beiden Ausdrücke identisch, wenn
σu = β + ζ(u − µ)
−1/ζ
u−µ
λ= 1+ζ
.
β
Damit sind die GEV und die GPD Modelle völlig konsistent miteinander.
79
(8.23)
(8.24)
9 Kleine Einführung in die Bayesische Statistik
9 Kleine Einführung in die Bayesische Statistik
ACHTUNG: Vorläufige Version !
Zu Beginn ein Beispiel, welches eine der Fallen des in Kapitel 7 vorgestellten Hypothesentests darstellt. Für die normalverteilte ZVA X sei X1 , . . . , Xn eine Stichprobe mit bekannter
Varianz σ = 1. Getestet werden soll die Nullhypothese H0 :
µ = 0 gegen HA :
einem Irtumsniveau α = 0.05 würde die Nullhypothese verworfen werden, wenn
√
µ 6= 0. Bei
nµ̂ > 1.96,
wobei µ̂ das arithmetrische Mittel der Stichprobe ist. In Wirklichkeit ist es unwahrscheinlich, dass die Nullhypothese exakt zutrifft. Bedenken wir, dass statistischen Hypthesen immer
Modelle der Wirklichkeit zu Grunde liegen, die immer mit einer Unsicherheit verbunden
sind (Skalen). Ist also unsere Stichprobe sehr groß, d.h. die Daten genauer als die Unsicherheit des Modells, so werden wir fast sicher die Nullhypothese verwerfen, auch wenn die
Differenz zwischen µ̂ und µ völlig unbedeutend für uns ist. Eine wesentlich angemessenere
Nullhypothese wäre daher z.B. H0 :
|µ| ≤ 10−3 .
Warum dieses Beispiel? Bisher hatten wir Wahrscheinlichkeiten nur für zufällige Ereignisse, die aus Experimenten resultieren, definiert. Sie wurden als relative Häufigkeiten interpretiert, mit denen ein Ereignis in einem Zufallsexperiment auftritt. Daher wird diese Ansatz
der Statistik auch als ”frequentistisch” bezeichnet. In der Bayes-Statistik wird der Begriff der Wahrscheinlichkeit auf alle Aussagen, insbesondere auch auf die in der
”klassischen” Statistik festen Parameter, aber auch auf alle Aussagen, erweitert.
Dabei wird der Begriff der Wahrscheinlichkeit als Grad der Plausibilität einer Aussage oder
auch als Unsicherheit eines Parameters verstanden.
Ein weiterer wichtiger Unterschied zur frequentistische Statistik ist die ”Subjektivität”
der Bayesischen Statistik. In der Bayesische Statistik wird vorhandenes Wissen in
die Beurteilung einbezogen. Die Grundlegende Frage der Bayesischen Statistik ist die
vom Presbyterier Mönch Thomas Bayes im 18. Jahrhundert gestellte Frage: ”Wie sollte eine
Person seinen vorhandenes Wissen ändern, wenn neue Hinweise vorliegen?”
Betrachten wir drei weitere Beispielen (frei nach Berger 1985 [12]):
I Eine Person behauptet, sie kann unterscheiden, ob in ihrem Milchkaffee zuerst die
Milch eingeschüttet oder ob die Milch in den Kaffee eingerührt wurden.
II Eine Dirigentin behauptet am Notenbild die Partitionen von Mozart und Haydn un-
80
9 Kleine Einführung in die Bayesische Statistik
terscheiden zu können.
III Eine betrunkene Kommilitonin behauptet, dass sie das Ergebnis eines Münzwurfes
vorhersagen kann.
Wir können uns gut vorstellen, dass die Dirigentin kann, was sie behauptet. Der betrunkenen
Kommilitonin würden wir erstmal raten, ihren Rausch auszuschlafen, und ob wir Person
A glauben, hängt davon ab. Im Rahmen der frequentistischen Statistik würden wir nun
eine Reihe unabhängiger Experimente durchführen, ein Signifikanzniveau festlegen und auf
Grund der Ergebnisse die entsprechende Hypothese H0 : ”Die Person hat recht.” ablehnen
oder akzeptieren. Die wesentliche Schwierigkeit besteht in der Aufstellung der Hypothesen
und der Formulierung der Testvariablen.
Jede Person führt also ihr Können 10 mal vor. Person A schafft es, in 9 von 10 Experimenten richtig zu erkennen, ob die Milch zuerst in den Kaffee geschüttet wurde oder nicht.
Person B ordnet 9 von 10 Partitionen richtig zu und unsere betrunkene Kommilitonin schafft
es 9 von 10 Münzwürfen richtig vorherzusagen. Beurteilen wir also nach dem Experient die
Aussagen aller drei Personen gleich? NEIN! Wir würden der Person A vielleicht widerwillig
zugestehen, dass sie tatsächlich schmeckt, dass die Milch in den Kaffee eingerührt wurde.
Der Dirigentin würden wir sagen: ”Klar kannst Du Partitionen unterscheiden.” Und der betrunkenen Kommilitonin würden wir trotzdem nicht glauben - sie hat ganz einfach tierisch
Glück gehabt.
Das Beispiel soll verdeutlichen, dass das Einbinden von ”subjektivem” Vorwissen in eine
Entscheidung durchaus sinnvoll sein kann und vor allem vielmehr der Wirklichkeit einer
Person entspricht, die Entscheidungen fällen muss. Ob wir also willens sind unsere Meinung
auf Grund neuer Daten zu korrigieren, ist von unserer a-priori Einstellung - oder eben der apriori Wahrscheinlichkeit - abhängig. Wenn ich 100% sicher bin, dass sich ein Münzwurf nicht
vorhersagen lässt, wird mich auch kein Experiment vom Gegenteil überzeugen. Umgekehrt,
wenn ich mir sehr unsicher bin, werde ich jeden neuen Hinweis gerne nutzen, um mir eine
Meinung zu bilden. In der Bayesischen Statistik wird jeder Hinweis genutzt, der dazu dient
die Unsicherheit über eine Aussage oder einen Parameter zu reduzieren. Es muss also nicht,
wie in der frequentistischen Statistik, erst solange gewartet werden, bis eine ausreichend
große Stichprobe zur Verfügung steht. So können Bayesische Netzwerke lernen und werden
zum Beispiel bei der Konstruktion von Spam-Filtern eingesetzt. Aus die nervige Office-
81
9 Kleine Einführung in die Bayesische Statistik
Büroklammer bei MS-Word soll Bayes benutzen.
9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung
Um das Bayes Theorem formal einzuführen, müssen wir uns nochmal mit Wahrscheinlichkeiten insbesondere mit bedingten Wahrscheinlichkeiten, befassen. Ausgangspunkt sei ein
Ereignisraum E, der in eine Menge sich gegenseitig ausschließender Ereignisse A1 , . . . , An ,
bzw. B1 , . . . , Bm unterteilt ist. A und B beschreiben Ereignisse, welche wir jetzt o. E. d. A.
auch durch Parameter oder Aussagen ersetzen können.
Für die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933):
1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit
P(A) ≥ 0
(9.1)
2. Das Ereignis E (Ereignisraum) hat die Wahrscheinlichkeit 1
P(E) = 1
(9.2)
3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß
A oder B eintreten, geschrieben als das Ereignis (A + B)
P(A + B) = P(A) + P(B)
(9.3)
Schließen sich die Ereignisse A und B nicht aus, so lässt Ereignis (A + B) sich aufspalten in
drei sich ausschließende Ereignisse
(A + B) : AB + AB + AB
(9.4)
mit der Aufteilung des Ereignisses A
A : AB + AB
(9.5)
und entsprechend für B ergibt sich für die Wahrscheinlichkeit P(A + B)
P(A + B) = P(AB + AB + AB)
= P(AB) + P(AB) + P(AB)
= P(A) − P(AB) + P(B) − P(AB) + P(AB)
= P(A) + P(B) − P(AB)
82
(9.6)
9 Kleine Einführung in die Bayesische Statistik
Die ist das verallgemeinterte Summengesetzt für Wahrscheinlichkeiten. Die Kettenregel für
Wahrscheinlichkeiten lautet
P (AB) = P (A|B)P (B) = P (B|A)P (A).
(9.7)
P (A|B) ist die auf B konditionierte oder bedingte Wahrscheinlichkeit von A. Nehmen wir
unser Beispiel I.: A sei die Aussage der Person, C sei das Vorwissen über die Person, nämlich
die Tatsache, dass es sich um eine Dirigentin handelt. P (A|C) ist also die Plausibilität der
Aussage A gegeben die die Tatsache, dass die Aussage von einer Dirigentin gemacht wurde.
Bei mehreren sich nicht notwendigerweise ausschließenden Aussagen A1 , A2 , A3 lässt sich
die Kettenregen mehrfach anwenden und wir erhalten
P (A1 A2 A3 ) = P (A3 |A1 A2 )P (A1 A2 ) = P (A3 |A1 A2 )P (A2 |A1 )P (A1 ).
(9.8)
Was können wir nun mit diesen Wahrscheinlichkeiten anfangen, wenn A und B beliebige
Aussagen, Ereignisse oder Parameter sind. Nehmen wir das Ereignis A, dass auch geschrieben
werden kann als A = AB + AB. Die Wahrscheinlichkeit für dieses Ereignis
P (A) = P (AB + AB) = P (AB) + P (AB).
Seien nun Bi , i = 1, . . . , n sich ausschließende Ereignisse, so folgt
P (A) =
n
X
P (ABi ) =
i=1
n
X
P (A|Bi )P (Bi ).
i=1
Somit kann also die Wahrscheinlichkeit von A ermittelt werden als Summe über die Wahrscheinlichkeiten im Zusammenhang mit den sich ausschließenden Ereignissen Bi .
9.2 Bayes-Theorem für Wahrscheinlichkeiten - der diskrete Fall
Aus Gleichung (9.7) lässt sich das Bayes-Theorem für zwei Ereignisse herleiten:
P (A|B) =
P (B|A)P (A)
.
P (B)
(9.9)
P (A|B) heißt die Posteriori-Wahrscheinlichkeit, P (A) die Priori-Wahrscheinlichkeit
und P (B|A) die Likelihood. Wir können also jetzt als A die Aussage der Dirigentin einsetzen und als B das Ergebnis ihrer 10 Versuche. Die Wahrscheinlichkeit, die wir suchen ist
die Posteriori-Wahrscheinlichkeit, nämlich gegeben das Experiment, dass wir durchgeführt
83
9 Kleine Einführung in die Bayesische Statistik
haben, wie hoch ist die Plausibilität der der Aussagen A nachdem wir unsere Experiment
durchgeführt haben, wenn wir vor dem Experiment der Aussagen A eine Wahrscheinlichkeit
von P (A) (Priori-Wahrscheinlichkeit) zugeordnete haben. Die Likelihood gibt die Wahrscheinlichkeit des Ausgangs des Experiments unter der Bedingung an, dass die Aussage der
Dirigentin A zutrifft P (B|A) und wird aus den Daten bestimmt, oder anders formuliert ist
die Wahrscheinlichkeit der Daten B gegeben die Aussage A.
Existieren nun n disjunkte und den Ereignisraum erschöpfende Aussagen A1 , . . . , AN , so
lautet das Bayes-Theorem
P (B|Ai )P (Ai )
P (Ai |B) = P
(9.10)
i P (B|Ai )P (Ai )
P
Die Normiertung c = i P (B|Ai )P (Ai ) wird jedoch häufig weggelassen, so dass das BayesTheorem über die Proportionalitätsbedingung
P (Ai |B) ∝ P (B|Ai )P (Ai )
Posteriori
∝
Likelihood ∗ Priori.
(9.11)
Doch wie sehen diese Wahrscheinlichkeiten aus und wie werden sie bestimmt. Die PrioriWahrscheinlichkeiten würden wir aus unserem Vorurteil ableiten. Dazu folgt später mehr,
aber hier würden wir eine Zahl zwischen 0 und 1 wählen, die unsere Einschätzung der Plausibilität der Aussage widerspiegelt. Die Likelihood P (B|A) bestimmen wir aus unseren Daten,
die ergab, dass k = 9 von 10 Versuchen die Aussage bestätigt haben. k ist Binominalverteilt
mit den Parametern n = 10 und p. Der Parameter p gehört zur Aussage A, denn wir suchen
ja die von A bedingte Wahrscheinlichkeit. Die Aussage A müsste also besser spezifiziert werden (z.B. mit einer Wahrscheinlichkeit von p = 0.8 im Falle der Dirigentin). Die Likelihood
wäre also
n k
p (1 − p)k .
(9.12)
P (B|A) =
k
Den Normierungsfaktor P (B) können wir eventuell bestimmen aus dem Integral über alle
möglichen Aussagen, in unserem Fall aller möglichen pi mit
P (B) =
N
X
B(k|n, pi )π(pi ),
(9.13)
i=1
wobei π die PDF des Parameter p ist und die i = 1, . . . , N andeuten sollen, dass wir den p diskrete Werte zuordnen. Dies erfordert jedoch, dass wir nicht nur die Priori-Wahrscheinlichkeit
und damit p festlegen müssen, sondern wir müssen eine Verteilung der p festlegen. Dazu mehr
im Kapitel 9.4.4.
84
9 Kleine Einführung in die Bayesische Statistik
9.3 Bayesische Statistik für Wahrscheinlichkeitsdichten
Die Rechenregeln für die Wahrscheinlichkeiten und das Bayes-Theorem lassen sich natürlich
auch für Wahrscheinlichkeitsdichten formulieren. Nehmen wir eine diskrete bivariate ZVA
~ = (X, Y ), wobei X ∈ [x1 , . . . , xn ] und Y ∈ [y1 , . . . , ym ] (Ereignisräume). Die bivariate
X
~ hat die Dichteverteilung p(x, y). Als Randverteilung pX (x) wird die Summe der
ZVA X
bivariaten Dichteverteilung über alle möglichen Ereignisse y ∈ [y1 , . . . , ym ] definiert
pX (x) =
m
X
p(x, yi ) =
i=1
m
X
p(x|yi )pY (yi ),
(9.14)
i=1
wobei wir die Kettenregel für Dichtefunktionen benutzt haben
p(x, y, z) = p(x|y, z)p(y, z) = p(x|y, z)p(y|z)p(z).
~ = (X, Y ), mit X ∈
Analog gilt für eine kontinuierliche bivariate ZVA X
Z ∞
Z ∞
p(x|y)pY (y)dy.
p(x, y)dy =
pX (x) =
(9.15)
und Y ∈
(9.16)
−∞
−∞
Dies lässt sich natürlich auf beliebige multivariate ZVA erweitern. Die Berechnung der Randverteilung, also das Integrieren über den vollständigen Ereignisraum einer oder mehrerer
Komponente der multivariaten ZVA heisst auch Marginalisierung.
Wir möchten als nun mit der Bayesische Statistik einen Parameter θ schätzen, wobei
uns eine Realisierung der ZVA X (Daten, Beobachtungen, Ergebnisse eines Modells, ect.)
x vorliegt. Die Frage also, die wir beantworten wollen ist, wie sieht die Verteilung des zu
schätzenden Parameters gegeben die Beobachtung x und unser Vorwissen über den Parameter π(θ) aus. Das Bayes-Theorem für Wahrscheinlichkeitsdichten lautet dann
l(θ)π(θ)
π(x|θ 0 )π(θ 0 )dθ 0
π(θ|x) ∝ l(θ) π(θ)
π(θ|x) = R
Posteriori-Dichte
∝
Likelihood ∗ Priori-Dichte.
(9.17)
(9.18)
(9.19)
Die Likelihood l(θ) = π(x|θ) sagt aus, dass ein θ für welches die Likelihood l(θ) groß ist,
wahrscheinlicher (”more likely”) ist als eine θ für das die Likelihood klein ist.
Doch wie bekommen wir nun all die Wahrscheinlichkeitsdichten, also die Priori-Dichte, die
R
Likelihood und die Normierung φ(x) = π(x|θ 0 )π(θ 0 )dθ 0 , in der ja wiederum die Likelihood
85
9 Kleine Einführung in die Bayesische Statistik
und die Priori-Dichte stecken? Um es vorweg zu nehmen: Das ganze ist verdammt kompliziert! So lässt sich zwar ein Problem in Rahmen der Bayesische Statistik relativ anschaulich
formulieren, jedoch nur in den einfachsten Fällen tatsächlich (analytische) lösen. Das war
auch der Grund weswegen die Bayesische Statistik erst in den letzten 20-30 Jahren überhaupt vermehrt zur Anwendung kommt. Denn heute existieren numerische Methoden, mit
denen sich die Priori-Dichten und die Likelihood relativ leicht bestimmen lassen (allerdings
manchmal noch mit recht großem Rechenaufwand). Eine sehr wichtige numerische Methode
zur Schätzung der unbekannten Dichten ist die ”Markov Chain Monte Carlo” Modellierung.
Dazu vielleicht später noch ein Paar Worte.
9.4 Die Priori-Dichte
Zuerst wenden wir uns Methoden zur Schätzung von Priori-Dichte zu. Die Priori-Dichte soll
die Information ausdrücken, die bereits über den Parameter θ existiert. Sie soll aber auch nur
genau diese beinhalten und nicht mehr, denn sonst würde wir unser Ergebnis verfälschen.
9.4.1 Nichtinformative Priori-Dichten
Existiert kein Vorwissen über den Parameter θ so werden sogenannte ”nichtinformative
Priori-Dichten” bestimmt. Für einen diskreten Parameter θ ∈ Θ aus einem Ereignisraum
Θ min n Elementen ist es plausible, π(θi ) so zu wählen, dass kein θi bevorzugt würde, was
bedeutet, dass θi gleichverteilt mit π(θi ) =
1
n
sein muss.
Für einen kontinuierlichen Parameter θ ∈] − ∞, ∞[ ist dann die nichtinformative PrioriDichte gegeben als
π(θ) ∝ c für
c > 0 ist eine Konstante. Da
R∞
−∞
− ∞ < θ < ∞.
π(θ)dθ 6= 1 ist, ist dies eigendlich keine Priori-Dichte. Es
lässt sich jedoch über die Likelihood sicherstellen, dass die Normierungsbedingung zumindest
R∞
für die Posteriori-Dichte −∞ π(θ|x)dθ = 1 gegeben ist.
Andere nichtinformative Priori-Dichte lassen sich über Transformationen ableiten. Ist z.B.
der unbekannte Parameter eine Varianz θ = σ 2 > 0, so lässt sich diese transformieren auf
θ 0 = ln σ 2 .
86
9 Kleine Einführung in die Bayesische Statistik
Für π(θ 0 ) wird wiederum die Gleichverteilung benutzt und mit der Transformation
dθ 0
dσ 2
=
1
σ2
ergibt sich, dass die Priori-Dichte für die Varianz lautet
π(θ) ∝
1
σ2
0 < θ < ∞.
für
Ein Problem dabei ist, dass diese nicht mehr gleichverteilt ist, was bedeutet, dass die Form
der nichtinformativen Priori-Dichte nicht invariant unter Transformation ist.
Es gibt verschiedene Methoden, nichtinformative Priori-Dichten zu bestimmen, darauf will
ich hier nicht weiter eingehen. Außerdem gibt es viele Pros und Contras bezüglich nichtinformativer Priori-Dichten (siehe Berger 1985, p. 87 [12]).
9.4.2 Priori-Dichte mit Maximum Entropie Methode
Mit der Methode der Maximum Entropie lassen sich Priori-Dichten finden, die zwar die gegebene Information beinhalten, aber ansonsten die Unsicherheit maximieren. Die Methode
sei hier nun kurz für diskrete Parameter skizziert. Sei θ ein diskreter Parameter mit Ereignisraum Θ und einer Wahrscheinlichkeitsdichte π(θ). Die Entropie der Dichtefunktion ist
definiert als
En(π) = −
X
π(θi )log π(θi ).
Θ
Sie misst die Unsicherheit einer Dichtefunktion. Das vorhandene Priori-Wissen über den
Parameter wird in der Regel über eine Beschränkung der diskreten Dichtefunktion π(θ)
eingebunden der Form
E π [gk (θ)] =
X
π(θi )gk (θi ) = µk ,
k = 1, . . . , m.
i
Die Lösung dieses Maximierungsproblems sprengt selbst den Rahmen von [12], welches eins
der ausführlichsten Bücher zu Bayesischer Entscheidungstheorie ist. Begnügen wir uns damit,
denn die Maximum Entropie Methode für kontinuierliche Parameter ist noch weit komplizierter. Trotzdem ist die Methode gerade in Fällen, bei denen vorhandene Information sich
in Form von Einschränkungen der Momente der Priori-Dichten ausdrücken lassen, enorm erfolgreicht und bildet die Grundlage für viele weitere Techniken, die häufig angewand werden.
9.4.3 Einschränkung der Priori-Dichten
Eine Möglichkeit, die Bestimmung der Priori-Dichten zu erleichten ist die Einschränkung auf
bestimmte Klassen von Dichtefunktionen.
87
9 Kleine Einführung in die Bayesische Statistik
1. Einschränkung der Priori-Dichten auf gegebene funktionale Form: Die Familie der möglichen Priori-Dichten Γ, also Auswahl der Priori-Dichten wird auf eine
bestimmte funktionale Form eingeschränkt
Γ = {π : π(θ) = g(θ|~λ), ~λ ∈ Λ}.
~λ ist der Parametervektor der Dichtefunktion g und heißen in diesem Fall Hyperparameter der Priori-Dichte. Die Wahl der Priori-Dichte wird also eingeschränkt auf die
Bestimmung der Hyperparameter. Diese wiederum lassen sich u.U. über die Randverteilung der Daten (dazu mehr im nächsten Abschnitt) bestimmt werden.
2. Einschränkung der Priori-Dichten auf gegebene strukturelle Form: Dies betrifft die Bestimmung der Priori-Dichte für multivariate Parameter Θ = (θ1 , . . . , θn )T .
Die strukturelle Einschränkung bezieht sich dann auf den Zusammenhang zwischen
den Komponenten des Parameters.
3. Einschränkung der Priori-Dichten auf die Umgebung einer ausgewählten
Priori-Dichte: Solche Priori-Dichten werden gewählt um die Robustheit der Ergebnisse zu testen. Ist eine Priori-Dichte π(θ)0 ausgewählt, so wird eine -kontaminierte
Klasse von Verteilungen definiert als
Γ = {π : π(θ) = (1 − )π0 (θ) + q(θ), q ∈ D},
wobei D die Klasse aller möglchen Konaminationen beschreibt.
Die Punkte 2. und 3. sich hier nur der Vollständigkeit angeführt. Wir beschränken uns im
Folgenden darauf, dass wir die Wahl der Priori-Dichte, wenn über auf, auf eine funktionale
Form einschränken.
9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte
Eine sehr wichtige Größe zur Bestimmung der Priori-Dichte ist die Dichtefunktion der Randverteilung von X, also die Randdichte m(x) der ZVA X (Daten).
Wenn X also die Dichtefunktion f (x|θ) besitzt und θ die Wahrscheinlichkeitsdichte π(θ),
dann lässt sich die gemeinsame Dichte von X und θ schreiben als Integral über den Parameter
θ mit
h(x, θ) = f (x|θ)π(θ)
88
9 Kleine Einführung in die Bayesische Statistik
Wir definieren die Dichtefunktion der Randverteilung (Randdichte) bezüglich der Priori π(θ)
als
m(x|π) =
Z
f (x|θ)π(θ)dθ =
Θ
Z
f (x|θ)dF π (θ).
Θ
Die Randdichte m(x|π) ≡ m(x) ist die Dichteverteilung, mit der tatsächlich die ZVA X (die
Daten) auftreten.
Die Randdichte ist deshalb so interessant, weil sie die Wahrscheinlichkeitsdichte beschreibt,
mit der die ZVA Daten X tatsächlich auftritt. Die Randdichte kann zum Beispiel dazu benutzt werden, die Annahme über die Priori π(θ) oder das Modell, welches durch die Likelihood repräsentiert wird, zu testen. Denn wenn die Randdichte m(x), für das tatsächlich
beobachtete x klein ist, so lieferte das Modell keile gute ”Vorhersage” der Daten. Die Wahl
der Priori-Dichte oder der Likelihood sind somit zumindest suspekt.
9.5 Die Maximum-Likelihood Typ II - Methode
Die Randdichte m(x|π) beschreibt also die Plausibilität der Daten bezüglich einer bestimmten Wahl von Priori-Dichte und Modell. Bei gegebenen Daten x bedeutet dies, dass wenn
die Randdichte bezüglich der Priori-Dichte π1 größer ist als bezügilch π2 , also
m(x|π1 ) > m(x|π2 ),
dass die Daten die Priori π1 mehr unterstützen als π2 . Die Randdichte m(x|π) kann also als
Likelihood-Funktion der Priori-Dichte dienen.
Der natürliche Weg also, die Priori-Dichte zu bestimmen, wäre also die maximierung der
Likelihood m(x|π) bezüglich π. Die Maximum-Likelihood Typ II Priori-Dichte π̂ ist also die
Priori-Dichte, für die gilt
m(x|π̂) = sup m(x|π).
π∈Γ
Γ beschreibt eine eventuelle Einschränkung der Priori-Dichten, welche die ML Methode
sehr vereinfachen kann. Beschreibt Γ eine funktionale Beschränkung
Γ = {π : π(θ) = g(θ|~λ), ~λ ∈ Λ, }
dann wird die Maximierung bezüglich der Hyperparameter ~λ durchgeführt
sup m(x|π) = sup m(x|g(θ|~λ)).
π∈Γ
~λ∈Λ
89
9 Kleine Einführung in die Bayesische Statistik
9.6 Die Momente-Methode
Anstatt der Maximum-Likelihood Typ II - Methode kann auch die so genannte MomenteMethode benutzt werden, um eine auf eine funktionale Form eingeschränkte Priori-Dichte
zu bestimmen. Dabei werden die Momente der Randdichte in Verbindung gebracht mit den
Momenten der Priori-Dichte. Erstere kann z.B. aus den Daten geschätzt werden.
9.7 Konjugierten Priori-Dichten und die Posteriori
Ziel der Bayesische Statistik ist die Bestimmung der Posteriori-Dichte, welche resultiert aus
der Verknüpfung des Vorwissens mit der Information aus den Daten (welche in der Regel
über ein Modell geschieht, welches die Daten mit dem Parameter verbindet, der Likelihood).
Diese Posteriori dient dann als Grundlage aller Entscheidungen und Schlussfolgerungen. Die
Randdichte m(x) und die Posteriori sind jedoch i.A. nicht leicht zu berechnen. In vielen
Fällen existieren nur numerische Lösungen.
Es ist jedoch möglich, die Klasse der Priori-Dichte so zu beschänken, dass die Klasse
der Posteriori-Dichte bekannt ist. Dies geschieht mit Hilfe konjugierter Familien von
Wahrscheinlichkeitsdichten. Sei F eine Klasse von Dichtefunktionen f (x|θ) (Likelihood).
Eine Klasse von Priodi-Dichten P heisst konjugierte Familie von F , wenn die PosterioriDichte π(θ|x) in der gleichen Klasse P wie die Priori-Dichte ist, und zwar für alle x ∈ X
und alle π ∈ P.
Das bedeutet, dass wir die Priori aus der Familie der zur Likelihood konjugierten Familie
wählen, und die Posteriori dann der selben konjugierten Klasse angehört. Ist die Likelihood
Binominalverteilt, so ist die entsprechende konjugierte Dichte aus der Familie der BetaVerteilung. Die zur Normalverteilung konjugierten Dichten sind aus der Familie der Gammaverteilung oder der Normalverteilung. Die Poisson-Verteilung hat als konjugierte Dichte
die Gamma-Verteilung.
Die Anwendung konjugierter Priori-Dichten hat den angenehmen Effekt, dass nur die
Parameter bezüglich neuer Daten ”updated” werden, die funktionale Form verändert sich
nicht. Es bleibt natürlich die Frage, ob konjugierte Dichten existieren, die eine genügend
genaue Näherung der Priori darstellen.
90
9 Kleine Einführung in die Bayesische Statistik
9.8 Anwendungen Bayesische Statistik
9.8.1 Punktschätzung eines Parameters
Wie in der frequentistischen Statistik seien wir an einem Schätzer des Parameters θ interessiert und möchten natürlich auch ein Maß für die Güte der Schätzung erhalten. Die
Bayesische Statistik gibt uns die Posteriori-Dichte von θ an, π(θ|x), die wesentlich mehr
Information enthält als eine Punktschätzung und deren Güte.
Erinnern wir uns an die Maximum Likelihood Methode zur Schätzung von Parametern
aus einer Stichprobe. Die zu maximierende Likelihood war die Dichte l(~λ) = f (x|~λ). Der
analoge Bayesische Schätzer ist der Generalisierte Maximum Likelihood Schätzer. Der Generalisierte Maximum Likelihood Schätzer ist das θ̂, welches die Posteriori-Dichte maximiert.
Dies entspricht dem Wahrscheinlichten Wert für θ bei gegebenden Daten x und Priori π(θ).
Anstatt des Modus ließen sich natürlich auch noch Erwartungswert und Median angeben.
Die Güte der Schẗzunge bestimmt sich auch der Varianz der Posteriori, der Posteriori
Standardabweichung. Die Posteriori Standardabweichung ist meistens (nicht immer!) kleiner
als die Standardabweichung des klassischen Schätzers σ, da die Einbindung von Vorwissen
die Unsicherheit der Schẗzung reduziert.
Eine andere Möglichkeit um die Güte einer Schätzung anzugeben ist die Angabe von Mutingsintervallen. In der Bayesischen Statistik heißen diese Kredibilitätsintervalle und lassen
sich direkt aus der Posteriori ableiten. Definiert sind für den konzinuierlichen Fall als das
Intervall, in dem der Parameter θ mit einer Wahrscheinlichkeit 1 − α ist
Z
P (C|x) =
π(θ|x)dθ ≥ 1 − α.
C
9.8.2 Multivariate Parameterschätzung
9.8.3 Test statistischer Hypothesen
9.8.4 Bayesiche Entscheidungstheorie
91
Literatur
Literatur
[1] Kolmogoroff A., Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin, Springer, 1933
[2] Schönwiese, C.D., Praktische Statistik, Gebr. Borntraeger, Berlin 1985
[3] Brandt, S., Datenanalyse, BI Wissenschaftsverlag 1981
[4] Kreyszig, E., Statistische Methoden und ihre Anwendungen, Vandenhoeck und Ruprecht, 1975
[5] Taubenheim, J., Statistische Auswertung geopysikalischer und meteorologischer Daten,
Leipzig, Akademische Verlagsgesellschaft, 1979 (wird nicht mehr aufgelegt)
[6] Press, W.H., Flannery, B.P., Teukalsky, S.A., Vetterling W.T., Numerical Recipes, Cambridge University Press, 1986
[7] Schuster, Deterministic Chaos, An Introduction, Physik - Verlag, Weinheim
[8] Morrison, D.F., Multivariate Statistical Methods, McGraw Hill Series in Probability
and Statistics
[9] Anderson, T.W., An Introduction to Multivariate Statistical Analysis, 2nd Edition, J.
Wiley & Sons,
[10] Proc. Int. Math. Congress, Toronto 1924
[11] Coles, S., An Introduction to Statistical Modelling of Extreme Values. Springer Series
in Statistics, London 2001, 208p.
[12] Berger, J.O., Statistical Decision Theory and Bayesian Analysis, 2nd Edition, Springer
1985
92
Herunterladen