Meteorologisches Institut der Universität Bonn Skript zur Vorlesung Einführung in die Statistik Wintersemester 2004/2005 Andreas Hense Thomas Burkhardt Petra Friederichs Version: 31. Oktober 2005 1 Inhaltsverzeichnis 1 Einführung 1 2 Elemente der Wahrscheinlichkeitsrechnung 4 2.1 Ereignisse und Stichprobenraum . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Unabhängige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Zufallsvariable, Verteilung von Zufallsvariablen 8 3.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 Verteilung einer diskreten ZVA . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.3 Univariate reelle kontinuierliche ZVA’s . . . . . . . . . . . . . . . . . . . . . 9 3.4 Multivariate reelle ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s . . . . . . . . . . . . . . . . 11 3.6 Realisierungen von ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.7 Momente einer Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 15 3.7.1 Reduzierte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 17 Modus, Median und Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.8 4 Erwartungswert einer Funktion einer ZVA 4.1 Momente multivariater ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Theoretische Wahrscheinlichkeitsdichteverteilungen 5.1 5.2 19 19 22 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.1.1 Binominalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.1.2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Kontinuierliche Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.2.1 Gaussverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.2.2 Zentraler Grenzwertsatz der Statistik . . . . . . . . . . . . . . . . . . 30 5.2.3 Die χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.2.4 Die Student-t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2.5 Die Fisher-F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.3 Weitere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.3.1 Log-Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.3.2 Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.3.3 Weibullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.3.4 Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.3.5 Multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 41 6 Stichproben von ZVA 43 6.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.2 Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.3 Schätzung der pdf, Häufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . 45 6.4 Schätzer der Verteilungsfunktion, Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.5 Schätzung des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . 47 6.6 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.7 Maximum Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.8 Übung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.9 Verteilungen von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.9.1 Verteilung eines Erwartungswertschätzers . . . . . . . . . . . . . . . . 52 6.9.2 Verteilung eines Varianzschätzers - χ2 Verteilung 52 6.9.3 Beziehung zwischen Erwartungswert- und Varianzschätzer - . . . . . . . . . . . Student - t Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Beziehung zwischen 2 Varianzschätzern - Fisher-F Verteilung . . . . . 55 6.10 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.9.4 6.10.1 Konfidenzintervall für den Mittelwert bei bekannter Varianz einer normalverteilten GG . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.10.2 Konfidenzintervall für den Mittelwert einer normalverteilten GG bei geschätzter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.10.3 Konfidenzintervall für den Schätzer der Varianz einer NV GG . . . . 58 7 Prüfung statistischer Hypothesen, Tests 7.1 Allgemeine Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz . . . . . . . . . . . . 63 7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz . . . . . . . . . 65 7.4 Vergleich der Varianz zweier NV . . . . . . . . . . . . . . . . . . . . . . . . . 67 7.5 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 7.5.1 Der χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 7.5.2 Kolmogoroff - Smirnov Test . . . . . . . . . . . . . . . . . . . . . . . 70 8 Statistische Untersuchung extremer Ereignisse 72 8.1 Die Generalisierte Extremwertverteilung . . . . . . . . . . . . . . . . . . . . 8.2 Die Überschreitung eines Schwellenwerts und die Generalisierte Pareto-Verteilung 76 8.2.1 Die Generalisierte Pareto-Verteilung 8.2.2 Das Poisson-GPD-Modell 73 . . . . . . . . . . . . . . . . . . 77 . . . . . . . . . . . . . . . . . . . . . . . . 78 9 Kleine Einführung in die Bayesische Statistik 80 9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . 82 9.2 Bayes-Theorem für Wahrscheinlichkeiten - der diskrete Fall . . . . . . . . . . 83 9.3 Bayesische Statistik für Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . 85 9.4 Die Priori-Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 9.4.1 Nichtinformative Priori-Dichten . . . . . . . . . . . . . . . . . . . . . 86 9.4.2 Priori-Dichte mit Maximum Entropie Methode . . . . . . . . . . . . . 87 9.4.3 Einschränkung der Priori-Dichten . . . . . . . . . . . . . . . . . . . . 87 9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte . . . . . . . . . 88 9.5 Die Maximum-Likelihood Typ II - Methode . . . . . . . . . . . . . . . . . . 89 9.6 Die Momente-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 9.7 Konjugierten Priori-Dichten und die Posteriori . . . . . . . . . . . . . . . . . 90 9.8 Anwendungen Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . . . 91 9.8.1 Punktschätzung eines Parameters . . . . . . . . . . . . . . . . . . . . 91 9.8.2 Multivariate Parameterschätzung . . . . . . . . . . . . . . . . . . . . 91 9.8.3 Test statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . 91 9.8.4 Bayesiche Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . . 91 1 Einführung 1 Einführung Warum wird in der Meteorologie Statistik betrieben? Meteorologie war und ist immer eine datenorientierte Wissenschaft gewesen: dies ist in der Klimatologie offensichtlich, wird in der Synoptik jeden Tag betrieben, jedes Grenzschichtexperiment lebt von den gemessenen Daten und auch jedes numerische Modell stellt nichts anderes dar, als einen großen Komplex, mit dem erstmal viele Daten erzeugt werden, die dann im nachhinein ausgewertet werden müssen. Viele Daten – ob räumlich oder zeitlich verteilt – stehen an und müssen verarbeitet und komprimiert werden, um zu einer Aussage zu kommen. Dies ist die Aufgabe der statistischen Analyse (Beschreibende Statistik). In der Vorlesung werden die Grundlagen der mathematischen, beschreibenden Statistik – zunächst für eine skalare Größe (univariate Statistik) – vorgestellt und ihre Anwendung auf Daten diskutiert. Ein Teil der Vorlesung soll der praktischen Anwendung der statistischen Analyse mit Hilfe von PC’s und Programmen gewidmet sein. Zu Beginn der Vorlesung werden die grundlegenden Begriffe wie Wahrscheinlichkeit, Zufallsvariable, Wahrscheinlichkeitsdichtefunktionen u.ä. eingeführt. Dann folgen die Grundlagen der Stichprobenentnahme, das Schätzproblem, die Beurteilung der Qualität der statistischen Analyse (Konfidenz) und die Absicherung von Annahmen oder Hypothesen durch die (beliebten) statistischen Tests. Man sollte sich aber im klaren sein, daß diese Begriffe weit über die beschreibende Statistik hinaus Bedeutung haben. Die eigentliche Statistik setzt ein – für meine Begriffe – bei stochastischen dynamischen Systemen, der statistischen Behandlung nichtaufgelöster Bewegungsformen in numerischen Modellen, der Bestimmung dynamisch konsistenter Analysen meteorologischer Felder aus unregelmäßig in Raum und Zeit verteilten stochastischen Beobachtungen und vieles mehr. Aber alle diese Punkte kann man nicht verstehen, wenn die Grundlagen der Statistik nicht vorliegen. Es wäre deshalb auch überheblich, die beschreibende Statistik als Kinkerlitzchen oder reine Fingerübung zu verstehen. Ohne die Grundlagen kann man die höher angesiedelten Probleme nicht adäquat verstehen und behandeln. Als ganz typisches Beispiel wird hier die Problematik der statistischen Tests auftauchen. Die Grundlagen der beschreibenden Statistik machen hier die – vielleicht mitunter etwas verqueren – Gedankengebäude sichtbar, die man bei den Hypothesentests aufstellen muß die dann aber bei den höher angesiedelten Problemen völlig identisch auftreten und damit begrifflich keine Schwierigkeiten mehr schaffen. 1 1 Einführung In einem anderen Teil der Vorlesung werden wir uns dann mit der Statistik von mehrdimensionalen Größen (Vektoren) beschäftigen, der sogenannten multivariaten Statistik. Für moderne Anwendungen in der Klimatologie sind diese Methoden unabdingbar. Der speziellen Statistik für Zeitreihen ist dann eine weitere Vorlesung gewidmet. Eine Warnung zum Schluß : Obwohl die Vorlesung mathematische Statistik heißt, bedeutet dies nicht, daß die Datenanalyse völlig frei von subjektiven Einflüssen der Experimentatoren ist. Im Gegenteil: eine wichtige Erkenntnis der Vorlesung sollte sein, daß alle statistischen Analysen durch das Vorwissen und die Ansprüchen der Experimentatoren bestimmt werden. Dies wird besonders deutlich bei der statistischen Analyse hochdimensionaler Daten (bspw. meteorologische Felder, die an Gitterpunkten dargestellt werden sollen), ist aber auch bei eindimensionalen Daten der Fall, etwa bei der Frage, ob ein zeitlicher Trend in einer Stichprobe wichtig für die Analyse ist oder unwichtig und dann aus den Daten rausgefiltert werden mußḊiese Vorkenntnis der Experimentatoren wird meisten vornehm mit dem lateinischen Ausdruck ”a-priori” umschrieben. A-priori Annahmen sind völlig legal, sollten allerdings von den Experimentatoren als solche auch klar erkannt sein. Andreas Hense Bonn, März 1996 Für das Wintersemester 1998/99 wurde die vergriffene Auflage von 1996 einer kleinen Überarbeitung unterzogen. Diese zielte zunächst auf die Entfernung von Druckfehlern, erbrachte jedoch auch den einen oder anderen erweiterten Erklärungsversuch. Das Kapitel über die multivariaten Normalverteilungen ist jetzt in dem 1996 noch nicht existenten Skript über multivariate Statistik zu finden. Ich danke Andreas Hense für die Überlassung des LaTeX-Skripts und für seine strapazierte Geduld bei der Beantwortung meiner Fragen. Weiterhin danke ich Jochen Elberskirch für seine Hilfe beim Korrekturlesen und Heiko Paeth für seine Hilfe bei meinem ersten, erschöpfendem Kampf gegen das LaTeX. Thomas Burkhardt Bonn, November 1998 2 1 Einführung Auch in den Wintersemestern 2002/03 und 2004/05 wurde das Skript weiter überarbeitet. Vor allem wurde das Kapitel 5 über die Verteilungsfunktionen erweitert. Die Statistik extremer Ereignisse wird in dem neuen Kapitel 8 gesondert behandelt. Ein erster Versuch, eine Einführung in die Bayesische Statistik zu geben, findet sich in Kapitel 9 - Achtung! - dieses Kapitel bedarf eventuell noch einiger Überarbeitung und ist vielleicht nicht an allen Stellen genügend verständlich (Anregungen sind jederzeit willkommen). Während die Kapitel 2 bis 7 essentielle Grundlagen der Statistik vermitteln, auf die alle weiteren Vorlesungen aufbauen, sollen Kapitel 8 und 9 erste Einblicke in besonders aktuelle Methoden der statistischen Analyse geben. Viel Spaß! Petra Friederichs Bonn, Januar 2005 3 2 Elemente der Wahrscheinlichkeitsrechnung 2 Elemente der Wahrscheinlichkeitsrechnung 2.1 Ereignisse und Stichprobenraum Statistik ist die Beschäftigung mit Daten, die gemessen wurden oder – allgemeiner – durch ein Experiment gewonnen wurden (z.B. auch durch eine Computersimulation). Jede Durchführung eines identischen Experiments nennen wir eine Realisierung oder auch Stichprobenentnahme (s.unten). Die Ergebnisse, die während des Experiments gesammelt werden, können aus diskreten oder auch aus kontinuierlichen Wertebereichen stammen. Die Er- Abbildung 1 Beispiel für den Stichproben- gebnisse einer endlichen Anzahl an Experi- raum zweier kontinuierlicher Variablen: Feuch- menten werden einen bestimmten, endlichen temessung an einem Punkt durch Trocken- und Bereich im Raum aller denkbaren Ergebnis- Feuchttemperatur se einnehmen. Die Vereinigungsmenge aller Bereiche für alle Größen, die während aller möglichen Realisierungen des Experiments gesammelt werden, bilden den Stichprobenraum S des Experiments. Der Stichprobenraum S kann endlich oder auch unendlich ausgedehnt sein (vergleiche Abb. (1) bis (3)). Die Ergebnisse einer einzelnen Realisierung des Experiments liegen immer in einem Unterraum A von S. Dann wollen wir sagen: Abbildung 2 Beispiel für den Stichprobenraum zweier kontinuierlicher Variablen (endlich • Fällt das Ergebnis des Experiments in den und unendlich ausgedehnt): Beobachtung Bede- Unterraum A, so liegt das Ereignis A vor. ckungsgrad und Niederschlag • Fällt das Ergebnis des Experiments nicht in den Unterraum A, so liegt das komplementäre Ereignis A vor. 4 2 Elemente der Wahrscheinlichkeitsrechnung Das Ereignis E umfasst den gesamten Stichprobenraum S, der jede denkbare Realisierung des Experiments enthält. Das komplementäre Ereignis E ist dann die leere Menge ∅. Abbildung 3 Beispiel für den Stichprobenraum zweier diskreter, endlicher Stichprobenvariablen: Monatswitterungsvorhersage nach Temperatur und Niederschlagsklassen 2.2 Begriff der Wahrscheinlichkeit Es seien N Realisierungen des Experiments mit diskretem Stichprobenraum durchgeführt. Das Ereignis A wird n(A) mal beobachtet (gemessen). Dann definiert man als Wahrscheinlichkeit für das Auftreten von A n(A) N →∞ N P(A) = lim (2.1) Für die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933): 1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit P(A) ≥ 0 (2.2) 2. Das Ereignis E (Stichprobenraum) hat die Wahrscheinlichkeit 1 P(E) = 1 (2.3) 3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß A oder B eintreten, geschrieben das Ereignis (A + B) P(A + B) = P(A) + P(B) 5 (2.4) 2 Elemente der Wahrscheinlichkeitsrechnung Aus (1), (2) und (3) folgt, daß P(A) ≤ 1 (Übung!). Wenn A das Komplement von A ist, so gilt, dass die Wahrscheinlichkeit P(A) = 1 − P(A) ist und es folgt mit P(E) = 1, dass für die leere Menge gilt P(∅) = 0. Schließen sich die Ereignisse A und B nicht aus, so gibt es eine Wahrscheinlichkeit für das gemeinsame Ereignis (AB): P(AB). Die Wahrscheinlichkeit für (A + B) ist dann P(A + B) = P(A) + P(B) − P(AB) (2.5) Beweis: Das Ereignis (A + B) läßt sich aufspalten in drei sich ausschließende Ereignisse (Mengenlehre läßt grüßen, Abb. (4)): (A + B) : AB + AB + AB (2.6) Abbildung 4 Die Aufteilung des Ereignisses (A + B) in drei sich ausschließende Ereignisse, wenn A und B sich nicht ausschließen mit der Aufteilung des Ereignisses A A : AB + AB (2.7) und entsprechend für B ergibt sich für die Wahrscheinlichkeit P(A + B) P(A + B) = P(AB + AB + AB) P(A + B) = P(AB) + P(AB) + P(AB) P(A + B) = P(A) − P(AB) + P(B) − P(AB) + P(AB) 6 (2.8) 2 Elemente der Wahrscheinlichkeitsrechnung 2.3 Bedingte Wahrscheinlichkeiten Das Ereignis A sei beobachtet. Die Wahrscheinlichkeit, daß zusätzlich auch noch das Ereignis B auftritt, heißt bedingte Wahrscheinlichkeit P(B|A) = P(AB) . P(A) (2.9) Die Wahrscheinlichkeit P(B|A) ist nur auf dem Ereignis A definiert. Es lässt sich ausserdem jede gemeinsame Wahrscheinlichkeit P(B|A) aufteilen in die bedingte Wahrscheinlichkeit P(B|A) und die Randwahrscheinlichkeit P(A) oder vice versa P(AB) = P(B|A)P(A) = P(A|B)P(B). (2.10) 2.4 Unabhängige Ereignisse ‘ Zwei Ereignisse A und B sind unabhängig, das heisst die Festlegung des Ereignisses A hat keinen Einfluss auf das Auftreten des Ereignisses A. Es gilt also P(A|B) = P(A) (2.11) P(B|A) = P(B) (2.12) und umgekehrt Damit folgt, dass die Wahrscheinlichkeit für das gemeinsame Ereignis AB gilt P(AB) = P(A)P(B). 7 (2.13) 3 Zufallsvariable, Verteilung von Zufallsvariablen 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.1 Diskrete Zufallsvariable Sei S ein diskreter Stichprobenraum. Jedes Ereignis A tritt mit der Wahrscheinlichkeit P(A) auf. Dann heißt die Menge a = {(A, P(A)), A ∈ S} (3.1) (diskrete) Zufallsvariable (ZVA). Es ist wichtig, daß wir bei ZVA immer daran denken, daß es sich um eine Menge und nicht um eine Zahl oder Funktion o.ä. handelt. Kann jedem Ereignis A eine reelle Zahl x zugeordnet werden, wollen wir auch die Menge X = {(x, P(x)), x ∈ S} (3.2) als diskrete ZVA bezeichnen. ACHTUNG: Bisher wurden für die Bezeichnung der Ereignisse Großbuchstaben verwendet und für die ZVA Kleinbuchstaben. Ist einem Ereignis aber eine reelle Zahl zugeordnet, wird das Ereignis mit Klein- und die ZVA mit Großbuchstaben bezeichnet. Ausführlich geschrieben ist die Notation für die ZVA X: X = {(x1 , P(x1 )), (x2 , P(x2 )), ...., (xm , P(xm )), xi ∈ S} für i = 1, ..., m, {z } | (3.3) m−mal wobei m sowohl endlich als auch zählbar unendlich sein kann. Wegen der Normierungsbedingung (Axiom (2)) gilt X P (x) = 1 (3.4) x∈S Die folgenden Beispiele sollen den Begriff ZVA verdeutlichen. 1. Deterministische Vorgänge: Sei für ein bestimmtes Ereignis A ∈ S die Wahrscheinlichkeit P(A) = 1 und entsprechend P(A) = 0, so ist der Ausgang eines Experiments eindeutig determiniert: es kommt immer zum Ereignis A und sonst nichts. 2. Gleichverteilte ZVA (der allseits beliebte Münz- oder Würfelwurf): S bestehe aus M Elementen, für alle Ereignisse Am sei P(Am ) = {(Am , 1 , M m=1,...,M. Dann heißt die ZVA 1 ), Am ∈ S} M 8 (3.5) 3 Zufallsvariable, Verteilung von Zufallsvariablen eine gleichverteilte ZVA. Im Fall der Münze gilt: ZVAGeld = {(Adler, 0.5), (Zahl, 0.5), Am ∈ Adler ∩ Zahl} Wie man sieht, muß nicht jedem Ereignis (hier Adler, Zahl) eine reelle Zahl zugeordnet sein. 3. Binomialverteilte ZVA (siehe nächstes Kapitel): Der Stichprobenraum besteht immer aus Zahlen zwischen 0 und n. Das Ereignis dieser ZVA wird im Gegensatz zu den obigen festgelegt durch die Häufigkeit des Eintretens eines bestimmten Ereignisses bei der n-maligen, unabhängigen Durchführung eines Experiments (mit anderer ZVA), das nur 2 Ereignisse zuläßt. 3.2 Verteilung einer diskreten ZVA Sei X eine diskrete ZVA und in dem Stichprobenraum kann eine Ordnungsrelation ”größer (>)” definiert werden. Dann heißt die Funktion X F (x) = P (y) (3.6) y≤x die Verteilungsfunktion der ZVA X. Die Existenz einer Ordnungsrelation in S ist nicht trivial: man denke z.B an die Zufallsvariablen Farbe, Wolkentyp oder Großwetterlage. Kann man dem Ereignis X eine reelle Zahl x zuordnen, so ist die Ordnungsrelation i.A. aber gegeben. Wie sieht die Verteilungsfunktion einer gleichverteilten ZVA aus? Sei xmax = max(x, x ∈ S) und xmin entsprechend. Wie sieht F (xmax ) und F (xmin ) aus? 3.3 Univariate reelle kontinuierliche ZVA’s Sei der Stichprobenraum S nicht mehr diskret, sondern das eindimensionale, geschlossene und kontinuierliche Intervall [a, b] (Kann auch offen sein oder halboffen oder a, b = ±∞; spielt keine Rolle). Dann kann keine Wahrscheinlichkeit P(x), die der Normierungsbedingung (3.4) entspricht, für die Definition der Zufallsvariablen verwendet werden. Man zieht sich deshalb bei reellen ZVA auf die Verteilungsfunktion F(x) zurück und definiert als univariate (wg. des eindimensionalen Stichprobenraums), reelle ZVA X die Menge: X = {(x, F (x)), x ∈ [a, b]} 9 (3.7) 3 Zufallsvariable, Verteilung von Zufallsvariablen wobei F eine monoton steigende (nicht notwendigerweise streng monoton steigende) Funktion ist, die das Intervall [a, b] auf das Intervall [0, 1] abbildet und analog zu der Wahrscheinlichkeit folgendes Axiome bezitzt: • 0 ≤ F (a) ≤ F (b) ≤ 1 • limx→b F (x) = 1 • limx→a F (x) = 0 Ist der Stichprobenraum auf ein endliches Intervall [a, b] begrenzt, so gilt natürlich auch F (b) = 1 und F (a) = 0. Ist F (x) stetig differenzierbar f (x) = F 0 (x), so kann man alternativ auch die Menge X = {(x, f (x)), x ∈ [a, b]} (3.8) als eine reelle ZVA definieren. F (x) heißt Verteilungsfunktion der ZVA X und f (x) die Wahrscheinlichkeitsdichtefunktion (engl. probability density function = pdf ). Wahrscheinlichkeiten für das Beobachten einzelner Zahlen während der Realisierung eines Experiments anzugeben ist nicht sinnvoll, da eine Zahl nicht beobachtbar ist, sondern nur Werte innerhalb eines Intervalls (s. Ereignisdefinition in Kap.2.1). Dieses Intervall hat z.B. die Breite des Messfehlers. Daher rührt auch das Versagen der Wahrscheinlichkeitsdefinition beim Übergang von diskreten ZVA zu reellen ZVA und man kann bei kontinuierlichen, reellen ZVA’s nur von Wahrscheinlichkeiten über Intervallen reden: d.h. über die Wahrscheinlichkeit, während der Realisierung eines Experimentes eine Zahl im Intervall [c, d] zu finden. Sie folgt aus der Verteilungsfunktion für a ≤ c < d ≤ b bzw. der Dichtefunktion die Wahrscheinlichkeit Z d f (t)dt. (3.9) P([c, d]) = F (d) − F (c) = c Insbesondere ist F (b) = Z b f (t)dt = 1, (3.10) a was aus der Definition für F folgt. Die pdf f (x) kann man dann als die Wahrscheinlichkeit interpretieren, mit der eine Realisierung einen Wert liefert, der in dem infinitesimalen Intervall [x, x + dx] liegt. Wie sehen die Verteilungsfunktion und die Dichtefunktion einer gleichverteilten reellen ZVA über einem endlichen Intervall [a, b] aus? 10 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.4 Multivariate reelle ZVA’s Sei Ω ∈ IRn ein vernünftiges Gebiet (oder gutartiges Gebiet: d.h. man kann alle Integrationen ausführen). Ein Element dieses Gebietes sei durch den n-dimensionalen Vektor ~x gekennzeichnet. Sei f eine Funktion von Ω in IR, die positiv semidefinit ist und für die gilt Z f (~x) ≥ 0 f (~x)d~x = 1 (3.11) ~ = {(~x, f (~x)), ~x ∈ Ω} X (3.12) Ω Dann heißt die Menge eine n-dimensionale (multivariate) ZVA. Die Verteilungsfunktion lautet dann Z x1 Z xn f (~t)dt1 . . . dtn F (~x) = ... (3.13) −∞ −∞ Wie lautet die Wahrscheinlichkeitsdichtefunktion für eine gleichverteilte ZVA über der Einheitskugel?1 3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s Sei die Menge X = {(x, P(x)), x ∈ S} (3.14) eine diskrete ZVA und g(x) = y eine Abbildung von dem Stichprobenraum S in einen neuen Stichprobenraum Sg . Dann ist auch die Menge Y = {(y, Pg (y)), y ∈ Sg } (3.15) eine diskrete ZVA, die identisch ist zur diskreten ZVA g(X) = {(g(x), P(x)), x ∈ S} (3.16) wenn man setzt Pg (y) = X P (x) x∈S 0 1 Z 2π 0 Z π/2 cr2 cos ϕdϕdλ = c2πr 2 = 1 −π/2 11 (3.17) 3 Zufallsvariable, Verteilung von Zufallsvariablen Dabei entsteht S 0 durch die Abbildung g −1 (y) von Sg in den Raum S 0 . g(x) ist aber nun keineswegs auf eindeutig umkehrbare Funktionen begrenzt. Zur Berechnung der Wahrscheinlichkeit Pg (y) muß man ggf. g(x) in eindeutig umkehrbare Funktionsabschnitte unterteilen. Die Verallgemeinerung auf reelle univariate oder multivariate ZVA folgt unmittelbar. Sei ~ = {(~x, f (~x)), ~x ∈ Ω} X (3.18) eine multivariate ZVA und ~g eine Abbildung von Ω in IRq mit ~g (~x) = ~y und ~g und ~g −1 stetig differenzierbar. Dann ist die ZVA ~ = {(~y, fg (~y)), y ∈ Ωg } Y (3.19) ~ = {(~g (~x), f (~x)), ~x ∈ Ω} ~g (X) (3.20) ~ mit identisch zur ZVA ~g (X) wenn man für die pdf fg (~y) setzt: 2 fg (~y) = f (~g −1 (~y)) |det ∂~g −1 (~y)| (3.21) |det ∂~g −1 (~y)| (3.22) wobei die Funktionaldeterminante (Jacobische Determinante) der inversen Abbildung ~g −1 ist. Diesen Zusammenhang kann man sich klar machen mit der Vorstellung, daß Wahrscheinlichkeit und Wahrscheinlichkeitsdichte vergleichbar mit Masse und Massendichte sind und nicht vernichtet oder erzeugt werden können. Dies gilt auch unter der Abbildung ~g . Die Wahrscheinlichkeitsmasse Prob (~x) im (q-dimensionalen) Volumenelement dq x um den Aufpunkt x ist gegeben durch: Prob(~x) = f (~x)dq x (3.23) Unter der Abbildung ~g (~x) = ~y bzw. ~g −1 (~y) = ~x muß diese Masse erhalten bleiben. Es muß also gelten f (~x)dq x = fg (~y)dq y 2 Dies folgt aus der Normierungsbedingung Z Z Z f~(~x)d~x = f~(~g −1 (~y ))d(~g −1 (~y )) = Ω Ωg 12 (3.24) f~(~g −1 (~y ))(∂y ~g −1 )d~y Ωg 3 Zufallsvariable, Verteilung von Zufallsvariablen Da fg (~y) unbekannt ist, folgt mit Hilfe der Rechenregeln für die Änderung des Volumenelementes bei Koordinatentransformationen dq x = |det ∂~g −1 (~y)| dq y (3.25) die oben angegebene Beziehung als Bestimmungsgleichung für fg (~y) aus f (~x). 3.6 Realisierungen von ZVA’s In vielen Anwendungsfällen ist es erwünscht, ZVA zu haben, die wohldefinierten Verteilungsfunktionen unterliegen. Dies ist zu unterscheiden vom Schätzproblem (s.u.). Dabei sind aus ZVA, die durch verschiedene Realisierungen eines Experiments entstanden sind, i.A. die Verteilungsfunktion oder was damit zusammenhängt zu ”schätzen”. Typisches Beispiel für das erste Problem dagegen sind die sogenannten Monte Carlo Experimente: es werden Realisierungen einer oder auch mehrerer ZVA generiert, mit denen man dann seine statistischen Analysen überprüft. Man behandelt die künstlich erzeugten Daten so, als ob sie einem realen Experiment entnommen worden wären, weiß aber im Gegensatz zum realen Experiment, welcher Verteilung sie unterliegen. Wie erzeugt man nun ZVA mit wohldefinierten Verteilungsfunktionen? Strenggenommen lassen sie sich nur auf dem Computer realisieren, wenngleich frühe Experimentatoren (=Spieler) schon interessante Erkenntnisse über diskrete ZVA’s wie Münz- oder Würfelwurf durch viele tatsächliche Würfe erzielt haben. Heute arbeitet man mit Zufallszahlengeneratoren (ZZG), also Rechnerprogrammen, die ZVA erzeugen. Jede FORTRAN Library hat i.A. einen solchen Generator standardmäßig implementiert. Numerical Recipes, Kapitel 7 gibt einen guten Überblick, wie Zufallszahlengeneratoren arbeiten, wie man welche schreibt und auch, in welche Fallen man tappen kann. Die allgemeine Form eines ZZG ist folgende Iteration (stückweise lineare Abbildung eines Intervalls auf sich selbst): In+1 = mod(aIn + c, m) (3.26) wobei a, c, m positive Integer Zahlen sind und mod die modulo– Funktion bezeichnet. Realisierungen einer gleichverteilte ZVA im Intervall [0, 1[ erhält man durch die Normierung xn = In /m 13 (3.27) 3 Zufallsvariable, Verteilung von Zufallsvariablen ”Gute” Werte für die Konstanten a, c, m findet man in Numerical Recipes auf Seite 198. Den Grund, warum Iterationen der obigen Art Zufallszahlen erzeugen, findet man am Beispiel des ”Bernoulli shift” (a = 2, c = 0, m = 1), der zufällig verteilte Bitmuster erzeugen kann, in Schuster, Deterministic Chaos, Seite 15ff (Abb. (5)). Realisierungen von reellen, univariaten ZVA’s mit einer beliebigen Verteilungsfunktion, werden aus gleichverteilten ZVA’s gewonnen. Hierzu benutzen wir die Ergebnisse des Kapitels über verallgemeinerte ZVA’s. Sei g eine Abbildung des Intervalls [0, 1] in IR und X eine gleichverteilte ZVA im Einheitsintervall. Dann war die Wahrscheinlichkeitsdichte der ZVA Y = g(X) gegeben durch Abbildung 5 Darstellung der Abbildung des p(y) = p(x) | Bernoulli shift d −1 g (y)| dy (3.28) p(x) ist aber konstant wg. der Gleichverteilung, so daß die Wahrscheinlichkeitsverteilung der ZVA Y durch die Ableitung der inversen Funktion zu g gegeben ist. Beispiel: Die Abbildung g = −ln(x) erzeugt aus Realisierungen einer gleichverteilten ZVA Realisierungen einer exponentiell verteilten ZVA, da g −1 = exp(−y) bzw. | d −1 g (y)| = exp(−y) dy Analog verfährt man im Fall der multivariaten ZVA’s. 14 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.7 Momente einer Verteilungsfunktion Sei X = {(x, P(x)), x ∈ S} eine diskrete univariate ZVA. Dann nennt man mk = X xk P(x) k = 0, 1, ...i (links Index, rechts Exponent) (3.29) x∈S das k.te Moment der ZVA. Die Definition macht natürlich nur Sinn, wenn in S eine Addition definiert ist (bedeutet, daß die Ereignisse schon auf Zahlen projeziert sein müssen). Sei X = {(x, f (x)), x ∈ [a, b]} eine kontinuierliche, univariate und reelle ZVA, dann bezeichnet man mit mk = Z b xk f (x)dx (3.30) a das k.te zentrierte Moment von X und mit Z b (x − m1 )k f (x)dx µk = (3.31) a das k.te zentrierte Moment. Das erste Moment m1 bezeichnet man auch als Erwartungswert E(X) der ZVA X. In der Theoretischen Mechanik ist das auch der Schwerpunkt der Massenverteilung P(x) (in der Punktmechanik) bzw. der Massendichte f (x) in der Kontinuumsmechanik. Merke: der Erwartungswert (wie auch alle anderen Momente) einer univariaten ZVA ist selbstverständlich keine ZVA, sondern eine wohldefinierte reelle Zahl, da unter dem Integral nur reelle Zahlen bzw. Funktionen stehen, die Teile der Menge X sind. Die Berechnung des Erwartungswertes ist linear, d.h. es gilt (α, β feste aber beliebige reelle Zahlen) Z b 0 (αx + β)f (x)dx E(X ) = g(X) = a Z b Z b = α xf (x)dx + β f (x)dx a a = αE(X) + β (3.32) mit X 0 = {(αx + β), f (x)), x ∈ [a, b]}. Gerne schreibt man auch: E(X 0 ) = E(αX + β) = αE(X) + β (3.33) was aber natürlich nicht ganz exakt ist, weil man bei der mittleren Schreibweise im Argument des Operators E() Mengen (X) mit reellen Zahlen (α) verknüpft. Der Einfachheit halber werden aber auch wir – nach diesem ausführlichen Hinweis – diese Schreibweise verwenden. 15 3 Zufallsvariable, Verteilung von Zufallsvariablen Es sei eine Wahrscheinlichkeitsdichtefunktion mit folgender Eigenschaft gegeben (c eine reelle Zahl, der Stichprobenraum sei die gesamte reelle Zahlenachse) f (x − c) = f (c − x) (3.34) d.h. f ist um c symmetrisch. Dann gilt – sofern der Erwartungswert existiert – E(X) = c (3.35) Beweis für c = 0 E(X) = = Z ∞ −∞ Z 0 xf (x)dx xf (x)dx + Z ∞ xf (x)dx Z ∞ xf (x)dx (−x)f (−x)dx + = 0 0 Z ∞ Z ∞ xf (x)dx xf (x)dx + = − Z−∞ ∞ 0 0 0 = 0 (3.36) Ist c 6= 0, setze y = x − c und benutze die Linearität der Berechnung von E(X). Dann erhält man sofort E(X) = c. Das zweite, zentrierte Moment µ2 einer ZVA wird Varianz oder Dispersion Var(X) der ZVA genannt und ist ein Maß für die mittlere quadratische Abweichung der ZVA von ihrem Erwartungswert. Die Varianz ist groß wenn die Variabilität der ZVA groß ist und umgekehrt. Es gilt für alle c ∈ Var(X) = E((X − E(X))2 ) (siehe obigen Hinweis zur Schreibweise!) Var(X) = E(X 2 ) − (E(X))2 Steiner‘scher Satz Var(X − c) = Var(X) Var(cX) = c2 Var(X) Die Zahl σ(X) = (3.37) p Var(X) bezeichnet man als Streuung der ZVA X. Das dritte, zentrierte Moment µ3 mit µ3 = E((X − E(X))3 ) 16 (3.38) 3 Zufallsvariable, Verteilung von Zufallsvariablen kombiniert man mit σ(X) zu γ= µ3 σ3 (3.39) und nennt es Schiefe (Skewness) der Verteilung f oder der ZVA. Hat die pdf lange Ausläufer nach links (rechts), ist die Schiefe der Verteilung negativ (positiv). Die Schiefe einer symmetrischen Verteilung ist Null. Das vierte, zentrierte Moment µ4 = E((X − E(X))4 ) (3.40) kombiniert man mit σ 4 zu δ= µ4 σ4 (3.41) und nennt δ den Exzeß oder die Kurtosis (Wölbung) der Verteilung. Hat eine Verteilung eine Kurtosis δ > 3 (δ < 3), so weist sie gegenüber ihrer ”Normalversion” erhöhte (erniedrigte) Werte der pdf im Bereich des pdf -Maximums und erniedrigte (erhöhte) Werte an den Verteilungsenden auf. Die beiden letzten Momente (und natürlich auch alle noch höheren) haben i.A. selten grundlegende Bedeutung, weil in sehr vielen Anwendungen eine Normalverteilung der ZVA vorausgesetzt wird. Diese ist durch erstes und zweites Moment schon vollständig bestimmt. 3.7.1 Reduzierte Zufallsvariable Sei µ1 der Erwartungswert und σ die Streuung einer ZVA X. Definiert man z= x − µ1 , σ (3.42) und existiert eine Abbildung g(x) = z vom Sx in den Sz so heißt die ZVA Z = {(z, f (z)), z ∈ Sz } die reduzierte oder auch standardisierte ZVA von X mit E(Z) = 0 und Var(Z) = 1. 17 (3.43) 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.8 Modus, Median und Quantile Sei X = {(x, f (x)), x ∈ [a, b]} eine reelle, univariate ZVA. Dann nennt man xm den Modus von X, wenn gilt f (xm ) = max 0 f (xm ) = 0 00 f (xm ) < 0 (3.44) Liegen relativ höchste Werte der pdf an nicht differenzierbaren Stellen des Stichprobenraums, so liegt auch dort ein Modus vor. Existiert nur ein Modus, heißt die ZVA unimodal verteilt. Existieren mehrere Modi, nennt man die ZVA multimodal (inbesondere bei 2 Modi: bimodal) verteilt. Sei die Verteilungsfunktion F (x) der ZVA X streng monoton steigend. Dann existiert eine eindeutige Lösung xp der Gleichung F (xp ) = p (3.45) Die Zahl xp heißt p−Quantil der ZVA oder der Verteilung. Ist F (x) nur monoton steigend, existiert möglicherweise nur ein Lösungsintervall für die Gleichung. Dann definiert man als p−Quantil xp = inf ({(x0p , F (x0p ) = p), x0p ∈ [a, b]}) (3.46) Der Median ist definiert als das 0.5 - Quantil (p = 0.5) einer ZVA. Der Median teilt den Stichprobenraum einer univariaten, reellen ZVA in zwei Bereiche gleicher Wahrscheinlichkeit. Wenn eine unimodale ZVA symmetrisch um das Dichtemaximum verteilt ist, die Verteilungsfunktion zweimal stetig differenzierbar ist und der Erwartungswert existiert, dann fallen Modus, Median und Erwartungswert zusammen. Als oberes (unteres) Dezil bezeichnet man die Quantile zum Wert p = 0.9 (p = 0.1). Modus, Median und Quantile sind selbstverständlich auch keine ZVA, sondern wohldefinierte reelle Zahlen. Aufgabe: Berechne Erwartungswert, Varianz, Modus und Median einer gleichverteilten ZVA im Intervall [0, 1] bzw. einer exponentiellverteilten ZVA. 18 4 Erwartungswert einer Funktion einer ZVA 4 Erwartungswert einer Funktion einer ZVA Wir hatten bereits gesehen, dass sich der Erwartungswert eine diskreten ZVA bestimmt als X E[X] = xP (x). (4.1) S Wie sieht nun der Erwartungswert E[g(X)] einer Funktion von X aus? Folgende Eigenschaftten gelten für die Funktionen von ZVA. E[c] = c (4.2) E[cg1 (x)] = cE[g1 (x)] # J J X X E gi (x) = E[gi (x)] (4.3) " i=1 (4.4) i=1 Die dritte Eigenschaft ist wichtig, denn sie sagt uns, dass der Erwartungswert einer Summe von ZVA gleich der Summe der Erwartungswerte von ZVA ist. Die Nützlichkeit dieser Eigenschaft kann am Erwartungswert der Funktion g(x) = (x − µ)2 (4.5) nämlich die Varianz, gezeigt werden. V ar[X] = E[(X − µ)2 ] = = X x X x = X x (x − µ)2 P (x) (4.6) (x2 − 2xµ + µ2 )P (x) (4.7) x2 P (x) − 2µ X xP (x) + µ2 x = E[x2 ] − 2µE[x] + µ2 = E[x2 ] − µ2 X P (x) (4.8) x (4.9) (4.10) 4.1 Momente multivariater ZVA’s ~ Analog zum univariaten Fall definiert man den Erwartungswert einer multivariaten ZVA X zu ~ = E(X) Z ~xf (~x)d~x Z ~ = E(X) . . . ~xf (x1 , . . . , xn )dx1 . . . dxn Z Z mit E(Xi ) = . . . xi f (x1 , . . . , xn )dx1 . . . dxn ) Z 19 (4.11) 4 Erwartungswert einer Funktion einer ZVA Der Erwartungswert eines Vektors ist selbst ein Vektor, dagegen gilt f (~x) ∈ IR. Bei den weiteren Momenten kann der einfache Analogieschluß zu den Vorschriften bei univariaten ZVA nur mit Vorsicht angewandt werden. Es ist zu beachten, daß bei der Multiplikation der Vektoren ~x nicht das normale Skalarprodukt gebildet werden darf (also Zeilen- mal Spaltenvektor), sondern das sogenannte äußere Produkt gebildet werden muß. Dieses berechnet sich durch ~x ·~xT , wobei wir Vektoren normalerweise als Spaltenvektoren verstehen und die Transponierte des Vektors als Zeilenvektor. Das Ergebnis des äußeren Produkts zweier Vektoren ist eine Matrix. Das zweite Moment einer multivariaten ZVA stellt sich daher als die sogenannte Kovarianzmatrix der ZVA X dar. Die Varianz läßt sich nur komponentenweise angeben. Sie belegt ~ ist in der Kovarianzmatrix die Hauptdiagonale. Die Varianz einer Komponente Xi von X gegeben durch Var(Xi ) = E((Xi − E(Xi ))2 ) (4.12) Die sogenannten Kovarianzen (in manchen Büchern auch ”1,1te Momente” genannt) berechnen sich zu ci,j = cov(Xi , Xj ) = E((Xi − E(Xi ))(Xj − E(Xj ))) i 6= j (4.13) Sie belegen die durch ihre Indizierung festgelegten Plätze in der Kovarianzmatrix Σ, die die Dimension n × n hat. Man schreibt ~ − E(X))( ~ X ~ − E(X)) ~ T) Σ = E((X Die Kovarianzmatrix ist symmetrisch. Ihre Spur ist positiv definit. X Spur(Σ) = Var(Xi ) > 0 (4.14) (4.15) i Damit sind die Eigenwerte der Kovarianzmatrix reell und positiv und die Eigenvektoren bilden ein Orthonormalsystem. Sei eine lineare Transformation der multivariaten ZVA X wie folgt definiert ~ = TX ~ + ~a Y (4.16) mit der Transformationsmatrix T . (Beachte auch hier den Hinweis zur gemischten Schreibweise von Mengen und Vektoren aus Kap. 3.7!) Dann transformiert sich die Kovarianzmatrix wie ΣY = T Σ X T T 20 (4.17) 4 Erwartungswert einer Funktion einer ZVA (Beweis: ΣY ~ − E(Y ~ ))(Y ~ − E(Y ~ ))T ) = E((Y ~ + ~a − T E(X) ~ − ~a)(T X ~ + ~a − T E(X) ~ − ~a)T ) = E((T X ~ − T E(X))(T ~ ~ − T E(X)) ~ T ) (wegen (AB)T = B T · AT ) = E((T X X ~ − E(X))( ~ X ~ − E(X)) ~ T )T T = T E((X = T ΣX T T ) (4.18) Der Korrelationskoeffizient zwischen Komponente i und j einer multivariaten ZVA, wird ausgedrückt durch ρi,j = cov(Xi , Xj ) E((Xi − E(Xi ))(Xj − E(Xj ))) p = σ(Xi ) · σ(Xj ) Var(Xi )Var(Xj ) i 6= j Alle Korrelationskoeffizienten werden dann zur Korrelationsmatrix zusammengefaßt. 21 (4.19) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Wir wollen uns in diesem Kapitel mit einigen theoretischen Verteilungen beschäftigen. Solch eine Verteilung ist die mathematische Formulierung, die die probabilistischen Eigenschaften der vorliegenden ZVA beschreiben soll. In der Regel, ist dies eine Idealisierung der wirklichen, meist unbekannten Verteilung und wird deshalb theoretisch genannt. Sie repräsentiert die vorhandenen Daten somit nur approximativ, auch wenn die Näherung tatsächlich sehr gut sein kann. Eine besondere Eigenschaft ist, dass theoretische Verteilungen durch einige wenige Parameter vollständig festgelegt sind und somit auch parametrische Verteilungen genannt werden. So ist die Gauß-Normalverteilung eindeutig bestimmt, wenn wir die Verteilungsparameter Erwartungswert µ und die Varianz σ kennen. Es gibt mehrere Gründe, solche theoretischen Verteilungen zu benutzen. 1. Zum einen geben sie eine kompakte Beschreibung der probabilistischen Eigenschaften der Daten. Die Eigenschaften der Daten können dann durch eine kleine Anzahl von Parametern beschrieben werden. 2. Ein anderer Aspekt ist die Glättung und Interpolation von Daten. Wenn die Wahrscheinlichkeitsdichtefunktion aus einer Reihe von Messungen zum Beispiel durch eine Häufigkeitsverteilung abgeschätzt, so ist eine solche Schätzung sehr grob, mit Löchern und herausragenden Peaks. Eine solche Schätzung hat einen Stichprobenfehler und dieser wird geglättet, indem an die Daten eine Verteilung angefittet wird. 3. Eine theoretische Verteilung kann auch zur Extrapolation dienen, um Wahrscheinlichkeitsdichten für Ereignisse zu schätzen, die außerhalb des beobachteten Bereichs liegen. 5.1 Diskrete Verteilungen Es gibt zwei Arten von Zufallsvariablen, diskrete und kontinuierliche. Diskrete Variablen sind solche, deren Werte entweder endlich oder zählbar unendlich sind. Eine kontinuierlich ZVA kann dagegen alle reellen Werte in einem bestimmten Intervall annehmen. Es gibt viele diskrete Wahrscheinlichkeitsdichteverteilungen aber nur zwei werden in der Meteorologie öfter benutzt: die Binominalverteilung und die Poissonverteilung. 22 5 Theoretische Wahrscheinlichkeitsdichteverteilungen 5.1.1 Binominalverteilung Die Binominalverteilung ist wahrscheinlich die einfachste theoretische Verteilung. Sie entsteht, wenn das Ergebnis einer Reihe von Versuchen in zwei Klassen eingeteilt wird und dieser Versuch dann n-mal durchgefürt wird. Generell wird einem Ergebnis die ”1” und dem anderen Ergebnis die ”0” zugeordnet. Die Anzahl der Versuche n kann eine beliebige positive Integerzahl sein und die Zufallsvariable X B ist dann die Häufigkeit, mit der das Ergebnis ”1” bei n Versuchen beobachtet wurde. Ein Experiment entspricht einer Realisierung einer ZVA X, die das Ergebnis ”1” oder ”0” hat, wobei das Ereignis ”1” mit der Wahrscheinlichtkeit p auftritt. Entsprechend ist die Wahrscheinlichkeit für das Ereignis ”0” (p − 1). Die ZVA für das so formulierte Experiment ist X = {(0, (1 − p)), (1, p), S = {0, 1}} (5.1) Ein so definiertes Experiment wird nun n mal durchgeführt. Zwei Bedingungen müssen dabei erfüllt sein: 1. dass die Wahrscheinlichkeiten mit denen wir das Ergebnis ”1” bzw. ”0” erhalten während des gesamten Experiments konstant bleiben und 2. dass die Ergebnisse der aufeinanderfolgenden Versuche unabhängig voneinander sind. Das Ereignis des ”Binomial-Experiments” ist die Anzahl k des Auftretens von ”1” aus den n obigen Versuchen. Der Stichprobenraum umfaßt also die Zahlen 0 bis n. Die Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses das ”k” zugeordnet wird, wie {1, 1, 1, 0}, berechnet sich folgendermaßen P (k : {1, . . . , 1, 0, . . . , 0 }) = p · p · ... · p | {z } | {z } | {z } k−mal (1 − p) · (1 − p) · ... · (1 − p) | {z } k−mal (n−k)−mal k = p · (1 − p) (n−k)−mal n−k (5.2) ”k” kann aber über verschiedene Experimentabläufe erreicht werden. Bspw. erzeugen bei n=4 die Beobachtungen (1,1,1,0), (1,1,0,1), (1,0,1,1) und (0,1,1,1) alle das Ereignis ”3”. Diese Zahl läßt sich errechnen durch n! k!(n − k)! Das wird als Binomialkoeffizient bezeichnet und 23 (5.3) n k geschrieben. So erhält man für die 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Wahrscheinlichkeit einer binomialverteilten ZVA folgenden Ausdruck: n k B(k, n, p) = p (1 − p)n−k k (5.4) Die binomialverteilte ZVA endlich kann man dann leicht schreiben als: X B = {(k, B(k, n, p)), k = 0, . . . , n} (5.5) Die festen Zahlen (n, p) nennt man die Parameter der Binominalverteilung (vergl. Abb. 6). Wir können die ZVA X B auch über eine Funktion darstellen als g(X) = {(g(x1 , . . . , xn ), P (x1 , . . . , xn )), xi ∈ S = {0, 1}, i = 1, . . . , n} (5.6) Für den Spezialfall, dass der Stichprobenraum S = {0, 1} für xi ist, lautet diese Abbildung k = g(x1 , . . . , xn ) = n X xi (5.7) i=1 und ist genau unsere Binominal-ZV. 0.4 0.4 (n,p) = 10, 0.1 0.2 0 0.2 0 0 1 2 3 4 5 6 7 8 9 10 0.4 0.4 (n,p) = 10, 0.5 0.2 0 0 1 2 3 4 5 6 7 8 9 10 (n,p) = 10, 0.7 0.2 0 0 1 2 3 4 5 6 7 8 9 10 0.4 0 1 2 3 4 5 6 7 8 9 10 (n,p) = 10, 0.9 0.5 0.2 0 (n,p) = 10, 0.2 0 0 1 2 3 4 5 6 7 8 9 10 (n,p) = 10, 0.99 0 1 2 3 4 5 6 7 8 9 10 Abbildung 6 Binomialverteilungen mit verschiedenen Parametern (n, p). Der Erwartungswert der ZVA X B läßt sich nach der Formel für den Erwartungswert ausrechnen: n X n X n k E(X ) = kB(n, p, k) = k· p (1 − p)n−k k k=0 k=0 B 24 (5.8) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Dies geschieht in Kreyszig, S.111 (1998) [4] mit speziell konstruierten Funktionen. Für unseren oben schon festgelegten Spezialfall ist aber nur Standard-Arithmetik nötig. Dabei fragen wir nicht nach dem Erwartungswert der ZVA X B sondern nach dem von g(X). Wir können also schreiben n XX E(g(X)) = l=0,1 i=1 n X X = i=1 l=0,1 n X = i=1 xi,l · P (xl ) xi,l · P (xl ) (p · 1 + (1 − p) · 0) = np (5.9) Tatsächlich ist das Ergebnis von (5.8) ebenfalls np. Leicht läßt sich aber auch ausrechnen, daß für den Stichprobenraum S = {1, 3} E(g(X)) = n(1 − 2p) ist. Dann gilt aber (5.7) nicht mehr! Die Berechnung der Varianz der ZVA X B läuft auf die Berechung des Erwartungswerts von [g(X) − E(g(X))]2 heraus, also V ar(X B ) = E[(X B − E[X B ])2 ] = E[(g(X) − E(g(X)))2 ] X X X X = E[( xi − E[ xi ])2 ] = E[( xi − E[xi ])2 ] i = E[( X i = X i i xi − X i 2 µi ) ] = E[( i X i 2 E[(xi − µi ) ] = X [E[x2i ] i i 2 (xi − µi )) ] − µ2i ] XX X = [ x2i P (x) − p2 ] = [12 · p + 02 · (1 − p) − p2 ] i = X i i S p(1 − p) = np(1 − p) (5.10) Da g(X) eine Summe von ZVA darstellt, entstehen bei der Quadrierung Mischglieder, was zu Kovarianzen führt. Man hat es also mit einer multivariaten ZVA zu tun. Die Berechung wird erleichtert durch die Tatsache, daß xi unabhängig ist von xj für i 6= j. Das bedeutet, daß P (x1 , x2 , ..., xn ) = P (x1 ) · P (x2 ) · ...P (xn ) gilt. Man gelangt für unseren Spezialfall zu der einfachen Formel Var(X B ) = Var(X1 ) + Var(X2 ) + ... + Var(Xn ) 25 (5.11) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Die Varianz der ZVA Xi läßt sich leicht berechnen Var(X) = E((Xi − E(Xi ))2 ) = X l=0,1 (xl − E(Xi ))2 P (xl ) = (0 − p)2 (1 − p) + (1 − p)2 p (5.12) Damit gilt Var(X B ) = np(1 − p) (5.13) 5.1.2 Poissonverteilung Die Poissonverteilung beschreibt die Anzahl von diskreten Ereignissen welche in einer Serie auftreten und eine bestimmte Art von Unabhängigkeit haben. Ähnlich wie bei der Binominalverteilung fragen wir hier nach der Wahrscheinlichkeit des Auftretens von einer bestimmten Anzahl von Ereignissen in einem bestimmten Zeitraum. Idealerweise ist das Ereignis so selten, also die Wahrscheinlichkeit p so klein, dass es sehr unwahrscheinlich ist, dass in dem vorgegebenen Zeitraum mehr als ein Ereignis auftritt. Der Zeitraum oder anders gesagt die Anzahl der Versuche n ist hingegen groß. Es macht also Sinn, den Grenzwert der Binominalverteilung für n → ∞ zu bilden, wobei wir einen Parameter λ = np = endlich = const (5.14) definieren. Die Poissonverteilung hat einen Parameter λ, welche mit mittlere Rate des Auftretens eines Ereignisses darstellt. Dieser Parameter wird auch als Intensität bezeichnet. Sei bei einer Serie von Experimenten, die binomialverteilte ZVA n k B(k, n, p) = p (1 − p)n−k k λ (1 − nλ )n n! ( )k = k!(n − k)! n (1 − nλ )k k−1 λk 1 (1 − nλ )n Y = (n − i) k! nk (1 − λn )k i=0 = = )( n−2 ) . . . ( n−(k−1) ) λ ( n−0 )( n−1 λk n n n (1 − )n n k! n (1 − nλ )k λ (1 − n0 )(1 − n1 )(1 − n2 ) . . . (1 − λk (1 − )n k! n (1 − nλ )k k−1 ) n (5.15) Bildet man die Grenzwerte lim (1 − n→∞ 26 x )=1 n (5.16) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und lim (1 − n→∞ λ n ) = exp(−λ) n (5.17) so verbleibt bei festem, aber beliebigen k lim B(k, n, p) = f (k) = n→∞ λk exp(−λ) k! (5.18) Abbildung 7 Poissonverteilung für unterschiedliche Parameter λ Die Dichteverteilung f (k) nennt man die Poissonverteilung und λ den Parameter der Possionverteilung. Sie gibt die Wahrscheinlichkeit an für das Eintreten k ”unwahrscheinlicher” Ereignisse bei n Beobachtungen, die jedes für sich mit der kleinen Wahrscheinlichkeit p eintreten. Der Erwartungswert der ZVA K K = {(k, f (k)), k = 0, . . . , n} ergibt sich zu E(K) = ∞ X k=0 k· λk exp(−λ) = λ = µ k! 27 (5.19) (5.20) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und die Varianz zu Var(K) = E(K 2 ) − µ2 = µ (5.21) Die Poissonverteilung für verschiedene Parameter λ ist in der Abb. (7) dargestellt. Da auch das 3. zentrierte Moment der Poissonverteilung durch µ gegeben ist, hat die Poissonverteilung √ immer eine positive Schiefe von 1/ µ, also ”lange Ausläufer nach rechts”, auch wenn das in Abb. (7) für die großen µ nicht deutlich wird. Für µ gegen ∞ nimmt die Poissonverteilung symmetrische Gestalt an. Ein gutes Beispiel für eine Poissonverteilung in der Meteorologie ist die Verteilung von Stark-niederschlägen. 5.2 Kontinuierliche Verteilungen Die meisten Variablen in der Meteorologie können einen kontinuierlichen Wert annehmen. Temperatur, Niederschlag, Geopotential, Windgeschwindigkeit sind zumindest konzeptionell nicht auf Integerwerte einer bestimmten Einheit beschränkt. Auch wenn Messwerte oder Modellergebnisse auf diskrete Werte gerundet werden, so ist der Satz der möglichen Werte in der Regel groß genug, um im weiteren die Variable als kontinuierlich Variable zu behandeln. Die in der Statistik vorkommenden Verteilungen können in zwei Kategorien unterteilt werden. Die einen werden benutzt, um die Daten zu repräsentieren, also Verteilungen, die im Zusammenhang mit einem mathematischen Modell benutzt werden. Hierzu gehören auch die Binominal- und Poissonverteilung. Ich werde hier einige vorstellen (Gaußverteilung, LogNormalverteilung, Gamma-Verteilung, Beta-Verteilung,...). Eine zweite Kategorie von Verteilungen dient zur Abschätzung der Unsicherheit einer Schätzung z. B. des Mittelwertes oder der Varianz oder zum Vergleich von Mittelwert oder Varianz zweier ZVA. Natürlich lassen sich einige Verteilungen beiden Kategorien zuordnen. 5.2.1 Gaussverteilung Die univariate Gaußverteilung oder Normalverteilung (NV) ist die wichtigste Wahrscheinlichkeitsdichtefunktion für univariate, reelle ZVA, weil • viele ZVA, die bei Experimenten beobachtet werden, einer NV entstammen. • einige ZVA näherungsweise normalverteilt sind (bei unimodalen Verteilungen lassen sich in vielen Fällen sinnvolle Ergebnisse unter der Annahme NV erzielen). 28 5 Theoretische Wahrscheinlichkeitsdichteverteilungen • einige ZVA sich durch geeignete Transformationen auf Normalverteilung bringen lassen (etwa ZVA, die ein endliches Intervall und nicht die gesamte reelle Zahlenmenge als Stichprobenraum haben). • die klassische Statistik meist auf der Annahme der Normalverteilung basiert, • der Zentrale Grenzwertsatz der Statistik oder central limit theorem gilt. Sei X = {(x, f (x)), x ∈ } eine reelle univariate ZVA. X heißt normalverteilt, wenn f (x) von der Form f (x) = √ 1 1 x−µ 2 ) ) exp(− ( 2 σ 2πσ (5.22) ist. µ, σ nennt man dann auch die Parameter der Normalverteilung. Bei einer Gauß- oder Normalverteilung mit µ = 0 und σ = 1 wird von einer Standard-Normalverteilung oder Standard-Gaußverteilung geredet. Jede Gauß-verteilte ZVA kann durch die Transformation Z= X −µ σ (5.23) in ihre Standardform gebracht werden. µ bestimmt die Position des Maximums und den Symmetriepunkt, d.h. µ ist der Erwartungswert der ZVA X. Die Varianz der ZVA X ist dann gegeben durch Z ∞ Var(X) = (x − µ)2 f (x)dx = σ 2 −∞ was man durch einfaches Nachrechnen mit partieller Integration beweisen kann. Dies bedeutet, daß die Normalverteilung vollständig durch die Varianz σ 2 bzw. Streuung σ und den Mittelwert µ der ZVA X bestimmt ist. Damit sind aber auch alle Eigenschaften der ZVA X durch den Erwartungswert und die Streuung festgelegt. Hat man also E(X) und σ sowie die Gewißheit oder die Annahme, daß eine ZVA X normalverteilt ist, ist die gesamte Statistik der ZVA X bekannt. Da es für das Integral über die Dichtefunktion der Gauß-Verteilung (5.22) keine analytische Lösung gibt, gibt es für die Verteilungsfunktion der NV oder auch kummulative Dichtefunktion genannt, keine allgemeine Berechnungsvorschrift. Z x 1 t−µ 2 1 exp(− ( ) )dt F (x) = √ 2 σ 2πσ −∞ 29 (5.24) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Für den Fall, dass µ = 0 und σ = 1 ist, heisst die ZVA auch reduzierte ZVA (oder eben standard-normalverteilt). Die Verteilungsfunktion F (x) ist dann die Fehlerfunktion (error function) und wird mit Φ(x) oder erf(x) bezeichnet. Es gilt dann natürlich Z x x−µ 2 2 F (x) = erf( et dt. )= √ σ π 0 (5.25) Die Fehlerfunktion findet man tabelliert oder als Standardsubroutine in FORTRAN oder MATLAB. Die Quantile der NV kann man mit Hilfe der error - Funktion bestimmen: • das 16%- (bzw. 84%) Quantil findet man bei µ ∓ σ • das 2.5%- (bzw. 97.5%) Quantil findet man bei µ ∓ 1.96σ • das 0.5%- (bzw. 99.5%) Quantil findet man bei µ ∓ 2.58σ Als gängige Abkürzung wollen wir noch folgende Bezeichnung einführen: Sei X eine Normalverteilte ZVA mit den Parametern µ, σ. Dann wird dies im folgenden auch einfach mit X ∈ N (µ, σ) bezeichnet. Abbildung 8 Johann Carl Friedrich Gauss (1777-1855) 5.2.2 Zentraler Grenzwertsatz der Statistik Der zentrale Grenzwertsatz der Statistik ist von fundamentaler Bedeutung in der Statistik und hat der Normalverteilung ihre herausragenden Rolle gegeben. Er besagt: Seien Xi , i = 1, . . . , n unabhängige und identisch, aber beliebig verteilte Zufallsvariablen mit E(Xi ) = µ und V ar(Xi ) = σ 2 . Dann ist das arithmetische Mittel n 1X Xi X= n i=1 30 (5.26) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen wiederum eine Zufallsvariable, die asymptotisch für große n Normalverteilt ist. Es gilt also Pn 1 i=1 (Xi − µ) n lim ∈ N (0, 1) (5.27) √1 σ n→∞ n Grob gesagt besagt dies, dass eine Zufallsvariable, welche sich zusammensetzt als Summe vieler, unabhängiger, Zufallsvariablen mit gleicher Verteilung, Gaußverteilt ist. Es ist jedoch nicht bekannt, wann diese Konvergenz eintritt, und manchmal muss n sehr gross sein, um näherungsweise eine Normalverteilung zu erhalten. Der zentrale Grenzwertsatz der Statistik lässt sich erweitern auf Summen von Zufallsvariablen, die nicht zwangsläufig die gleiche Verteilung haben. Dazu werden die Zufallsvariablen zentriert und mit (nV ar(Xi ))−1/2 normiert, so dass Xi − E(Xi ) . Xni = p nV ar(Xi ) 2 Es gilt dann, dass E(Xni ) = 0 und V ar(Xi ) = σi2 und für σni = V ar(Xni ) gilt 2 0 < σni = V ar(Xni ) < ∞. Es kann ausserdem gezeigt werden, dass Lindeberg besagt nun: Falls für jedes > 0 " n Z X lim n→∞ dann ist die Summe Yn = Pn i=1 i=1 Pn i=1 2 σni = 1. Der zentrale Grenzwertsatz von # 2 x pi (x)dx = 0 |x|> (5.28) Xni im Grenzfall n → ∞ standardnormalverteilt N (0, 1). 5.2.3 Die χ2 -Verteilung Die χ2 -Verteilung wird definiert als die Verteilung eine Summe der Quadrate von unabhangigen und standard-normalverteilten ZVA. Sie ist also nur auf dem Raum der postitiven reellen Zahlen definiert. Seien X1 , X2 , . . . , Xn ∈ N (0, 1) unabhängige ZVA, von denen jede den Erwartungswert E(Xi ) = 0 und die Varianz V ar(XI ) = E(XI2 ) = 1 besitzt. Die Summe der Quadrate der ZVA Xi wird im Allgemeinen mit χ2 bezeichnet. χ2 = X Xi2 . (5.29) i Entsprechend heißt die Verteilung dieser Zufallsvariablen χ2 auch die χ2 -Verteilung. Ihre Wahrscheinlichkeitsdichte lautet f (x) = Kn x(n−2)/2 e−x/2 31 für x>0 (5.30) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und f (x) = 0 für x ≤ 0. n ist hier eine positive Zahl und representiert die Freiheitsgrade der Verteilung. Kn ist eine Konstante, die sich aus der Normierungsbedingung, dass das Integral über die Wahrscheinlichkeitsdichte von −∞ bis ∞ eins sein muss, ergibt als Kn = 1 2n/2 Γ( n2 ) . (5.31) Γ(α) ist die Gamma-Funktion3 , eine der wohl wichtigsten nichtelementaren Funktionen. Ist n geradzahlig, so ist Γ Für n = 1 ist und damit erhalten wir für 3 Γ = 2 n 2 =( n − 1)!. 2 √ 1 = π Γ 2 ungerade n 1 1 1√ Γ π, = 2 2 2 3 5 3 3√ Γ π = Γ = 2 2 2 4 (5.34) (5.35) (5.36) Abbildung 9 zeigt die pdf der χ2 -Verteilung für verschiedene Freiheitsgrade n. Für n = 1 und n = 2 fallen die Kurven der pdf monoton ab. Für n > 2 hat die pdf der χ2 -Verteilung ein Maximum bei n − 2 (zu berechnen über f 0 (x) = 0). Der Erwartungswert einer χ2 -verteilten Variablen mit n Freiheitsgraden ist E(χ2 ) = µ = n (5.37) V ar(χ2 ) = 2n (5.38) und die Varianz ist Es lässt sich zeigen, dass die χ2 -Verteilung für große n durch die Normalverteilung brauchbar approximiert werden kann. 3 Die Gamma-Funktion ist definiert (Eulersche Definition) durch das Integral Z ∞ Γ(α) = e−t tα−1 dt. (5.32) 0 Sie hat eine besondere Eigenschaft, nämlich dass Γ(α + 1) = αΓ(α), was sich durch partielle Integration R∞ herleiten läßt. Setzten wir α = 1, so erhalten wir Γ(1) = 0 e−t dt = 1 und mit der oben genannten Beziehung, auch Γ(2) = 1 · Γ(1) = 1! und Γ(3) = 2 · Γ(2) = 2! oder allgemein für n = 1, 2, . . . Γ(n + 1) = n! Die Gamma-Funktion ist also eine Verallgemeinerung der Fakultät. 32 (5.33) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen χ2−PDF (1 dof) χ2−PDF (2 dof) 1.4 0.5 1.2 0.4 1 0.8 0.3 0.6 0.2 0.4 0.1 0.2 0 0 2 4 6 8 0 10 0 2 4 χ2−PDF (5 dof) 6 8 10 χ2−PDF (10 dof) 0.2 0.1 0.08 0.15 0.06 0.1 0.04 0.05 0 0.02 0 5 10 15 0 20 0 5 10 15 20 Abbildung 9 pdf der χ2 -Verteilung für verschiedene Parameter (degrees of freedom). 5.2.4 Die Student-t-Verteilung Die t-Verteilung wurde von W. L. Gosset 1908, der unter dem Pseudonym ”Student” veröffentlichte, eingeführt. Die t-Verteilung bildet die Grundlage für viele statistische Tests. X ∈ N (0, 1) sei eine Standard-Normalverteilte ZVA und Y eine von X unabhängige ZVA, die eine χ2 -Verteilung mit n Freiheitsgraden bezitzt. Unter diesen Voraussetzungen besitzt die Variable X T =p Y /n eine Student-t-Verteilung. Die t-Verteilung hat die Wahrscheinlichkeitsdichte Γ n+1 2 f (t; n) = √ 2 (n+1)/2 n nπΓ 2 1 + tn (5.39) (5.40) Die Formel für die Verteilungsfunktion ist sehr kompliziert und ist in ? nachzuschagen. Die t-Verteilung ist um Null symmetrisch. Für n = 1 existiert das erste Moment oder der Erwartungswert nicht. Dies läßt sich in Abbildung 10 nachvollziehen. Für den Fall n = 1 konvergiert zwar die pdf für große t → ±∞ gegen Null, jedoch so langsam, dass das Integral R∞ tf (t; 1)dt nicht existiert. Der Spezialfall n = 1 heißt auch Cauchy-Verteilung. Für n ≥ 2 0 33 5 Theoretische Wahrscheinlichkeitsdichteverteilungen ist der Erwartungswert E(T ) = 0. Aus dem selben Grund wie bereits für den Erwartungswert bei n = 1 existiert das zweite zentrale Moment, also die Varianz, erst für n ≥ 3 und lautet V ar(T ) = n n−2 für n ≥ 3 (5.41) Für große n > 10 wird die t-Verteilung der Normalverteilung sehr ähnlich und für n > 30 vernachlässignbar klein. student−t PDF (1 dof) student−t PDF (10 dof) 0.35 0.4 0.3 0.3 0.25 pdf pdf 0.2 0.2 0.15 0.1 0.1 0.05 0 −5 0 x 0 −5 5 0.4 0.3 0.3 0.2 0.1 0 −5 5 student−t PDF (50 dof) 0.4 pdf pdf student−t PDF (20 dof) 0 x 0.2 0.1 0 x 0 −5 5 0 x 5 Abbildung 10 pdf der Student-t-Verteilung für verschiedene Parameter (DOF). 5.2.5 Die Fisher-F -Verteilung Die F -Verteilung ist eine andere Verteilung, die ganz eng mit der Normalverteilung zusammenhängt. Es wird gesagt, eine Variable ist Fisher-F -verteilt mit p und q Freiheitsgraden, wenn die Dichtefunktion lautet p2 p q Γ f (x; p, q) = Γ p2 Γ p+q 2 q 2 x (p−2)/2 p 1+ x q −(p+q)/2 . (5.42) Insbesondere gilt für zwei unabhängige χ2 -verteilte ZVA X und Y , dass die Variable F , welche als Quotient der beiden χ2 -verteilte ZVA definiert ist, Fisher-F -verteilt ist F = X/p . Y /q 34 (5.43) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Für q > 2 lautet der Erwartungswert von F E(F ) = q q−2 (5.44) und für q > 4 lautet die Varianz V ar(F ) = 2q 2 (p + q − 2) . p(q − 2)2 (q − 4) (5.45) Also wie für die t-Verteilung existieren für die F -Verteilung nicht alle Momente. Die F Verteilung ist für alle festen Freiheitsgrade p schief. Für q → ∞ allerdings nähert sich die F -Verteilung einer normalisierten χ2 -Verteilung an. PDF der F−Verteilung (1,10) DOF 4 3 3 pdf pdf PDF der F−Verteilung (1,1) DOF 4 2 1 0 2 1 0 0.5 1 x 1.5 0 2 0 0.8 0.6 0.6 0.4 0.2 0 1 x 1.5 2 PDF der F−Verteilung (10,10) DOF 0.8 pdf pdf PDF der F−Verteilung (10,1) DOF 0.5 0.4 0.2 0 1 2 x 3 0 4 0 1 2 x 3 4 Abbildung 11 pdf (links) der F -Verteilung für verschiedene Parameter p und q (DOF). 5.3 Weitere Verteilungen Viele atmosphärische Variablen haben eine asymmetrische und damit schiefe Verteilung. Die tritt auf, wenn die Werte, die eine Variable annehmen kann, durch eine physikalische Bedingung begrenzt sind. Die ist der Fall für Niederschlag oder Windgeschwindigkeit, die ganz einfach nicht negativ werden können. Würden wir also an soche Daten eine Gaußverteilung 35 5 Theoretische Wahrscheinlichkeitsdichteverteilungen anfitten, so bekämen wir zumindest theoretisch eine von Null verschiedene Wahrscheinlichkeit für negativen Niederschlag, und das ist natürlich Unsinn. Es existieren verschiedene theoretische Dichteverteilungen, die durch Null begrenzt sind und eine positive Schiefe haben. 5.3.1 Log-Normalverteilung Viele Variablen, die nur positive Werte annehmen können und außerdem über mehrere Größenordungen variieren, können durch die Log-Normalverteilung dargestellt werden. Dazu wird eine logarithmische Transformation Y = ln X durchgeführt. Ist die transformierte Variable Y normalverteilt, so sagen wir, dass die transformierte ZVA X logarithmischnormalverteilt, oder eben log-normalverteilt ist. Es gilt also, dass die transformierte ZVA Y = ln X normalverteilt ist mit 1 1 f (ln x) = √ exp(− 2 2πσy Y 2 ln x − µy ) σy x > 0, (5.46) wobei µy der Erwartungswert E(ln x) und σy2 die Varianz V ar(ln x) ist. Es gilt die Normierungsbedingung für Wahrscheinlichkeitsdichten, dass Z ∞ Z ∞ X f (x)dx = f Y (ln x)d ln x = 1 −∞ und da für x > 0 d ln x = dx , x −∞ gilt f X (x) = f Y (ln x) . x Entsprechend lautet dann die Dichteverteilung der log-normalverteilten ZVA X 2 1 ln x − µy 1 X exp(− f (x) = √ ), für x > 0, 2 σy x 2πσy f X (x) = 0, für x ≤ 0. (5.47) Abbildung 12 zeigt die pdf der Log-Normalverteilung und die pdf der transformierten ZVA. Die Log-Normalverteilung ist nach unten hin durch 0 beschränkt und bezitzt einen Modus. Alle Momente existieren für die Log-Normalverteilung und die entsprechenden Parameter µ und σ lassen sich aus µy und σy und umgekehrt bestimmen. Der Mittelwert der LogNormalverteilung lässt sich aus dem Mittelwert der transformierten ZVA Y bestimmen als 2 E(x) = µ = eµy +σy /2 36 (5.48) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und die Varianz bestimmt sich aus 2 E((x − µ)2 ) = σ 2 = µ2 (eσy − 1). (5.49) Abbildung 12 Log-Normalverteilung: a) pdf der log-normalverteilten ZVA, b) pdf der transformierten ZVA. Die Log-Normalverteilung hat ähnliche Eigenschaften wie die Normalverteilung, allerdings werden die additiven Eigenschaften durch multiplikative Eigenschaften ersetzt. Wenn also x log-normalverteilt ist, dann ist z = axb , wobei a und b konstanten sind, ebenfalls lognormalverteilt. Für den Erwartungswert der transformierten ZVA gilt, dass E[ln(axb )] = ln a + bE(ln x) E[(ln(axb ) − µy )2 ] = V ar[ln(axb )] = b2 σy2 (5.50) Ausserdem gilt, wenn x und y zwei unabhängige log-normalverteilte ZVA sind, das z = xy ebenfall log-normalverteilt ist und deren Transformierte den Erwartungswert und die Varianz E(ln z) = E(ln x) + E(ln y) V ar(ln z) = V ar(ln x) + V ar(ln y) bezitzt. Analog können auch Erwartungswert und Varianz von z = (5.51) x y geschrieben werden, wobei beim Erwartungswert das + durch ein − ersetzt wird, während die Varianz die gleiche bleibt. 37 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Diese pdf wird z.B. gebraucht für monatliche Summen des Niederschlags wobei dann der Parameter µ = 0 gesetzt wird. Viele hydrologische Daten, aber auch in anderen Gebieten der Wissenschaft, wie der Medizin, sind näherungsweise log-normalverteilt. Allerdings ist die Log-Normalverteilung nicht die einzige Verteilung, die zum Beispiel zur Darstellung des Niederschlags benutzt wird. 5.3.2 Gamma-Verteilung Wohl die häufigste Verteilung, die benutzt wird um Niederschlag der mittleren Breiten darzustellen, ist die Gammaverteilung. Sie ist definiert durch die Dichteverteilung x ( Xβ )(α−1) e− β f (x) = x, α ≥ 0 und β > 0. , βΓ(α) (5.52) Die Gammaverteilung ist eine Verteilung mit zwei Parametern, dem ”Shape”-Parameter α und dem ”Scale”-Parameter β. PDF der Gamma−Verteilung α=0.5, β=1 PDF der Gamma−Verteilung α=1, β=1 6 1 5 0.8 4 pdf pdf 0.6 3 0.4 2 0.2 1 0 0 1 2 3 4 0 5 0 1 2 x 4 5 PDF der Gamma−Verteilung α=5, β=1 0.2 0.3 0.15 pdf pdf PDF der Gamma−Verteilung α=2, β=1 0.4 0.2 0.1 0 3 x 0.1 0.05 0 2 4 6 8 0 10 x 0 2 4 6 8 10 x Abbildung 13 pdf der Gamma-Verteilung für verschiedene ”Shape”-Parameter α, wobei der ”Scale”-Parameter β = 1 konstant ist. Der Erwartungswert und die Varianz einer Gammaverteilten ZVA mit den Parametern α 38 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und β berechnen sich als E(X) = αβ V ar(X) = αβ 2 (5.53) Für α < 1 ist die Dichteverteilung sehr schief, wobei die Wahrscheinlichkeitsdichte gegen unendlich geht für x → 0. Für α = 1 schneidet die Funktion die y-Achse bei f (0) = 1 β und fällt dann exponentiell ab. Für diesen Fall wird die Gammaverteilung auch Exponentialverteilung genannt. Auch die χ2 -Verteilung ist eine Spezialform der Gammaverteilung wenn der ”Scale”-Parameter β = 2 gesetzt wird. Das Schätzen der Parameter ist nicht so einfach wie bei der Normal- oder Log-Normalverteilung, da die Parameter nicht identisch mit den Momenten der Verteilung sind. Außerdem ist die Dichtefunktion der Gammaverteilung nicht analytisch integrierbar und zur Abschätzung der Quantile muss die Verteilungsfunktion numerisch oder aus Tabellen abgeschätzt werden. 5.3.3 Weibullverteilung Auch die Weibullverteilung ist auf nichtnegative Werte beschränkt und hat eine positive Schiefe. Sie wird mitunter als Näherung an die NV im Fall positiv semidefiniter ZVA (z.B. Windgeschwindigkeiten) benutzt. Die Wahrscheinlichkeitsdichte der Weibullverteilung lautet (x ≥ 0, α > 0, β > 0) α f (x) = β α−1 α x x , exp − β β (5.54) wobei α als ”Shape”-Parameter und β als ”Scale”-Parameter bezeichnet werden. Die Verteilungsfunktion lautet α x F (x) = 1 − exp − β (5.55) Eine Weibullverteilung lässt sich nicht so einfach anfitten wie die Log-Normalverteilung und es bedarf dazu iterative Verfahren. Der Erwartungswert der Weibullverteilung ist gegeben durch E(X) = µ = βΓ(1 + und die Varianz 1 ) α 1 2 2 V ar(X) = β Γ(1 + ) − Γ (1 + ) . α α 2 39 (5.56) (5.57) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen PDF der Weibull−Verteilung α=0.5 PDF der Weibull−Verteilung α=1 4 0.8 3 0.6 pdf 1 pdf 5 2 0.4 1 0.2 0 0 1 2 3 4 0 5 0 1 2 x 3 4 5 x PDF der Weibull−Verteilung α=1 PDF der Weibull−Verteilung α=5 1 2 0.8 1.5 pdf pdf 0.6 1 0.4 0.5 0.2 0 0 1 2 3 4 0 5 0 1 2 x 3 4 5 x Abbildung 14 pdf der Weibull-Verteilung für verschiedene ”Shape”-Parameter α. Der Spezialfall der Weibullverteilung für α = 2 wird auch Rayleighverteilung genannt, mit f (x) = ( x2 2x ) exp(− ). 2 β β (5.58) 5.3.4 Beta-Verteilung Es gibt jedoch auch ZVA die nach beiden Seiten, also auf ein Intervall, beschränkt sind. Ein Beispiel ist dafür der Bedeckungsgrad oder relative Feuchte oder eben auch die Wahrscheinlichkeitsdichte selbst. So kann es nützlich sein, die Vorhersage eine Wahrscheinlichkeit, zum Beispiel, dass Niederschlag fällt, über eine solche Dichtefunktion, die nur auf dem Intervall [0, 1] definiert ist, zu beschreiben. Eine Dichteverteilung, die dies erfüllt, ist die Beta-Verteilung. Ihre Wahrscheinlichkeitsdichtefunktion lautet Γ(p + q) p−1 f (x) = x (1 − x)q−1 , Γ(p)Γ(q) (5.59) wobei 0 ≤ x ≤ 1 ist, und p, q > 0 die zwei Parameter der Beta-Funktion sind. Der Erwartungswert und die Varianz der Beta-Funktion berechnen sich aus den Parametern als E(X) = V ar(X) = pq (p + q)2 (p 40 p p+q + q + 1) . (5.60) 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Die Dichtefunktion für verschiedene Parameter p und q ist dargestellt in Abbildung 15. Es ist eine sehr flexible Dichtefunktion. Für p < 1 liegt das Maximum der Verteilung bei 0. Wenn beide Parameter kleiner 1 sind, dann hat die Verteilung eine U-Form und zwei Maxima nahe 0 und 1. Die wird verwandt für ZVA auf einem abgeschlossenen Intervall, deren Extremwerte sehr häufig, aber deren Mittelwert selten auftreten (z.B. Bedeckungsgrad in Bremerhaven). Sind p und q größer 1, so hat die Verteilung ein Maximum, ist also unimodal. PDF der Beta−Verteilung p=0.5, q=2 8 3 6 pdf pdf PDF der Beta−Verteilung p=0.5, q=1 4 2 1 0 4 2 0 0.2 0.4 0.6 0.8 0 1 0 0.2 0.4 x 0.8 1 PDF der Beta−Verteilung p=2, q=2 2 6 1.5 pdf pdf PDF der Beta−Verteilung p=2, q=0.5 8 4 2 0 0.6 x 1 0.5 0 0.2 0.4 0.6 0.8 0 1 0 0.2 0.4 x 0.6 0.8 1 x Abbildung 15 pdf der Beta-Verteilung für verschiedene Parameter p und q 5.3.5 Multivariate Normalverteilung Sei ~ = {(~x, f (~x)), ~x ∈ X q } (5.61) eine q-dimensionale ZVA. ~x heißt multivariat NV, wenn f (~x) die Form f (~x) = 1 1 exp(− (~x − µ ~ )t B(~x − µ ~ )) Z 2 (5.62) hat, wobei B eine symmetrische, positiv-definite Matrix ist (d.h. alle Eigenwerte sind positiv) und Z der Normierungsfaktor. Bedenke, daß eigentlich f (~x) = f (~x, ~µ, B)! Diese multivariat 41 5 Theoretische Wahrscheinlichkeitsdichteverteilungen NV ZVA ist symmetrisch um µ ~ , d.h. Z ∞ Z ∞ ... (~x − µ ~ )f (~x, µ ~ , B) dx1 dx2 ...dxq = ~0 −∞ (5.63) −∞ Damit ist aber E(~x − µ ~ ) = ~0 ⇒ E(~x) = µ ~ (5.64) In der Bestimmungsgleichung von f (~x, ~µ, B) war B noch unbestimmt. Daher bildet man nun Z ∞ Z ∞ ~µ (~x − µ ~ ) f (~x, µ ~ , B) dx1 dx2 ...dxq = ~0 (5.65) ... ∇ −∞ −∞ Ausrechnen der Ableitung führt auf (I ist die Einheitsmatrix, B = B t ) Z ∞ Z ∞ (I − (~x − µ ~ )(~x − µ ~ )t B) f (~x, ~µ, B) dx1 dx2 ...dxq = ~0 ... −∞ (5.66) −∞ Damit wiederum gilt auch (O ist die Nullmatrix) E(I − (~x − µ ~ )(~x − µ ~ )t B) = O (5.67) E((~x − µ ~ )(~x − µ ~ )t B) = E(I) = I (5.68) und daraus folgend d.h. die Matrix B ist die Inverse der Kovarianzmatrix Σ. Damit ist im Fall der multivariaten NV die gesamte Verteilung durch die Parameter µ ~ und Σ vollständig beschrieben. 42 6 Stichproben von ZVA 6 Stichproben von ZVA 6.1 Definition Wir haben bisher gesehen, daß ZVA mit kontinuierlichem Stichprobenraum durch ihre Verteilungsoder Wahrscheinlichkeitsdichtefunktion gekennzeichnet sind. Wenn ein Experiment durchgeführt wird, so erzeugt das Experiment Daten, von denen i.A. die Verteilungsfunktion (oder die pdf ) und die Momente unbekannt sind. Es gibt lediglich das Wissen, daß das Experiment ZVA produziert. Die Aufgabe der Statistik ist es nun, aus den Realisierungen der ZVA, die nur eine (möglicherweise sehr geringe) Teilmenge des Stichprobenraums umfassen, Informationen über die Gesamtheit der ZVA zu ermitteln. Diese Gesamtheit wollen wir im folgenden auch die Grundgesamtheit (GG) der ZVA nennen. Die Eigenschaften der GG werden vollständig durch die Verteilungs- oder Wahrscheinlichkeitsdichtefunktion beschrieben. Ziel der mathematischen Statistik ist es also, aus der durch das Experiment gewonnenen Teilmenge des Stichprobenraums – der sogenannten Stichprobe – verläßliche Aussagen über die GG herzuleiten. Sei X = {(x, f (x)), x ∈ IR} eine univariate, reelle ZVA, deren m verschiedene Realisierungen in einem Experiment die Werte xi , i = 1, ..., m annehmen sollen. Die Zahl xi ist dann eine Repräsentierung der ZVA Xi , die die gleiche pdf wie die ZVA X hat. Wir wollen dann sagen, daß die ZVA Xi der GG der ZVA X entnommen wurden. Dann ist die Vektorvariable ~ m = (X1 , . . . , Xm ) = {((x1 , . . . , xm ), f (x1 )f (x2 ) . . . f (xm )), (x1 , . . . , xm ) ∈ IRm } X eine m− dimensionale multivariate ZVA. Die Wahl der multivariaten pdf f (~x) = Qm i=1 f (xi ) bedeutet, daß die Einzelereignisse xi unabhängig voneinander sind. Die Einzelereignisse xi können also als unabhängige Wiederholungen eines Experiments gelten, das jedesmal eine ~ m nennt man dann auch eine Stichprobe vom Umfang m der ZVA Xi liefert. Den Vektor X univariaten ZVA X und den Vektor (x1 , . . . , xm ) eine Repräsentierung der Stichproben-ZVA ~ m . Es ist wichtig festzustellen, daß X • das Erheben einer Stichprobe (sei es auch nur ein einziger Wert) ebenfalls ein Zufallsprozess ist Wichtig ist weiterhin die Forderung, daß die Stichprobenentnahme zufällig erfolgen soll und damit die Einzelereignisse xi unabhängig sind. Das kann man gar nicht genug betonen, 43 6 Stichproben von ZVA da schon in vielen statistischen Untersuchungen gegen diese grundlegende Voraussetzung verstoßen wurde. 6.2 Schätzer ~ m der univariaten, reellen ZVA X gegeEs sei nun eine Realisierung der Stichproben-ZVA X ben. Ziel der Statistik ist es, die Eigenschaften der unbekannten Verteilungsfunktion oder pdf der GG anhand der Realisierung zu ermitteln. Man kann zum einen versuchen, die pdf oder die Verteilungsfunktion selbst näherungsweise aus der Realisierung der Stichprobe zu berechnen (”schätzen”). Zum anderen haben wir im letzten Kapitel gesehen, daß typische pdf 0 s durch ihre Parameter eindeutig beschrieben werden. Im Fall der Binomialverteilung waren das die Zahlen n und p, im Fall der univariaten NV der Erwartungswert µ und die Streuung σ. Man kann also auch aus der Realisierung der Stichprobe Parameterwerte schätzen und – sofern diese es zulassen – von den geschätzten Parameterwerten auf die pdf der GG schließen. Dieser letze Punkt ist sehr eng – wie man sich vorstellen kann – mit der Schätzung der Momente der pdf der GG verbunden. Im folgenden sei gx ein Moment, ein Parameter oder eine andere Eigenschaft der GG der ZVA X (z.B. die pdf selbst). gx ist keine ZVA! ~ m ), die X ~ m aus dem IRm abbildet in die Menge der Ein Schätzer für gx sei die ZVA ĝ(X reellen Zahlen IR, mit dem Ziel, die eindeutig festgelegte Größe gx so genau wie möglich zu beschreiben. Der Schätzer ĝ ist eine ZVA mit pdf und Verteilungsfunktion im Stichprobenraum ~ m . Die Größe gx ist ein Moment, ein Parameter oder eine andere Eigenschaft der von ZVA X GG (bspw. die pdf). Eine Realisierung eines Schätzers ist dagegen wieder das, was geschätzt wird. Eine Realisierung eines Erwartungswertschätzers für eine univariate ZVA ist also eine Zahl. Eine Schätzer ĝ heißt erwartungstreu, unverzerrt oder unverfälscht (engl. unbiased), wenn gilt E(ĝ) = gx (6.1) (wobei in der praktischen Arbeit das gx i.a. unbekannt ist). Gerne wird in der Literatur mit dem Begriff Bias die Verzerrung eines Schätzers beschrieben. Das zweite, zentrierte Moment eines unverzerrten Schätzers E((ĝ − gx )2 ) heißt mittlerer quadratischer Fehler des Schätzers. Sei ĝ ∗ ein weiterer unverzerrter Schätzer für gx . Dann heißt ĝ effizienter, wenn gilt E((ĝ − gx )2 ) < E((ĝ ∗ − gx )2 ) 44 (6.2) 6 Stichproben von ZVA Eine Schätzung heißt konsistent, wenn gilt lim E((ĝ − gx )2 ) = 0 (6.3) m→∞ Ziel ist es natürlich, Schätzer zu finden, die unverzerrt, konsistent und effizient sind. Sobald man sich also einen Schätzer ausgedacht hat, sollte man die Eigenschaften überprüfen. Manchmal erweist sich das allerdings als unmöglich. Hier helfen einem dann die Monte Carlo Experimente. Aus vorgegebenen, bekannten GG (d.h. bekannten pdf ’s oder Verteilungsfunktionen) werden viele Stichproben mit einer großen Anzahl von Realisierungen (Ereignissen) entnommen. Aus jeder Stichprobe wird der Schätzer ĝ(x) berechnet und die Menge aller berechneten Schätzer wird als Realisierung einer Stichprobe der ZVA ”Schätzer für gx ” genommen, aus der man dann z.B. den mittleren quadratischen Fehler berechnen (weil ich gx ja kenne) kann. 6.3 Schätzung der pdf, Häufigkeitsverteilung Die Wahrscheinlichkeit der GG über einem Intervall der Breite ∆j war in (3.12) schon definiert worden als p(∆j ) = Z f (x) dx (6.4) ∆j Das Intervall ∆j soll klein sein und muß a-priori d.h. ohne Information aus der Stichprobe, zu Beginn der statistischen Untersuchung festgelegt werden. Die ∆j können unterschiedlich breit sein. Liegt nun eine Stichprobe vor, deren Umfang m groß genug ist, so ist die Wahrscheinlichkeit p(∆j ) proportional zur relativen Häufigkeit der Stichprobenelemente xi im Intervall ∆j . Im Grenzübergang m → ∞ gilt dann |{xi ∈ ∆j }| m→∞ m (6.5) p(∆j ) = lim Die Bezeichnung |{∗}| steht für die Anzahl der Elemente der entsprechenden Menge. Die Folge H(∆j ), j = 1, ..., k mit H(∆j ) = |{xi ∈ ∆j }| m ~ m . Dabei überdecke nennt man das Histogramm der Realisierung der Stichprobe X den gesamten Wertebereich der Stichprobe. Ein Schätzer für die pdf f (x) ist dann |{xi ∈ ∆j }| , P (xi )), xi ∈ ∆j } ĝ m (xi ) = fˆm (xi ) = {( m∆j 45 (6.6) Pk j=1 ∆j (6.7) 6 Stichproben von ZVA bzw. H(∆j ) fˆm (xi ) = fˆm (H(∆j )) = {( , P (H(∆j ))), H(∆j ) ∈ [0, 1]} ∆j (6.8) 6.4 Schätzer der Verteilungsfunktion, Empirische Verteilungsfunktion ~ m . Dann ist ein Sei X eine ZVA und {x1 , . . . , xm } eine Realisierung der Stichproben-ZVA X Schätzer der Verteilungsfunktion gegeben durch F̂ m (x) = {( |{xi , xi ≤ x, i = 1, ..., m}| , P (xi )), xi ∈ IR} m (6.9) mit der gleichen Bedeutung der Notation |{∗}| wie oben. F̂ m ist eine Treppenfunktion mit den Stufen eines Vielfachen von 1 m und wird of empirische Verteilungsfunktion genannt. Nimmt man als Werte der unabhängigen Variablen x die aufsteigend sortierten Werte der Stichprobe, so springt die empirische Verteilungsfunktion (meistens) um genau den Wert 1 . m Wann nicht ??. • Dieser Schätzer der Verteilungsfunktion von X ist unverfälscht. Beweis: Sei die Stichprobenlänge m fest und a eine beliebige reelle Zahl. Die Definition des Schätzers F̂ m bedeutet, daß mF̂ m (a) die Anzahl der Stichprobenelemente xi ist mit xi ≤ a. Die Wahrscheinlichkeit, ein Stichprobenelement mit xi ≤ a zu finden, ist aber gemäß der Definition der Verteilungsfunktion Prob(x ≤ a) = F (a). Also ist die Zufallsvariable mF̂ m (a) = {(|{xi , xi ≤ a, i = 1, m}|, B(m, F (a), |{xi , xi ≤ a, i = 1, m}|)), xi ∈ IR} (6.10) eine binomialverteilte ZVA mit den Parametern F (a) und m. Der Erwartungswert einer solchen ZVA ist aber (s.o.) E(mF̂ m (a)) = mF (a) (6.11) E(F̂ m (a)) = F (a) (6.12) oder, da m beliebig aber fest Entsprechend folgt aus der Binomialverteilung die Varianz des Schätzers F̂ m zu Var(mF̂ m (a)) = mF (a)(1 − F (a)) 46 (6.13) 6 Stichproben von ZVA oder 1 F (a)(1 − F (a)) m Var(F̂ m (a)) = (6.14) • Also ist F̂ m ein konsistenter Schätzer von F (x). Aus der Erwartungstreue des Schätzers der Verteilungsfunktion folgt auch die Erwartungstreue des Schätzers der pdf . Der Schätzer F̂ m wird durch eine lineare Operation aus den Häufigkeiten fˆm gewonnen (Summation): Z b E( fˆm (xi )dxi ) = E(F̂ m (b) − F̂ m (a)) a Z b f (x)dx = F (b) − F (a) = (6.15) a oder – abgesehen von Mengen vom Maß Null – E(fˆm (xi )) = f (x) (6.16) 6.5 Schätzung des Erwartungswertes Der Erwartungswert µ1 (wird jetzt immer statt m1 benutzt) der zentrierten ZVA X war definiert als µ1 = Z xf (x)dx (6.17) Nimmt man für f (x) den oben (6.7 bzw. 6.8) hergeleiteten, für das Intervall ∆j gültigen Schätzer fˆm (xi ), so erhält man: µ̂01 = k Z X j=1 x ∆j H(∆j ) dx ∆j (6.18) Das Integral ist über das Intervall ∆j zu bilden, die einzelnen Intervalle sind von 1 bis k zu summieren. Noch einmal zur Vergewisserung Da die Stichprobe eine ZVA ist, ist das arithmetische Mittel der Stichprobenelemente ebenfalls eine ZVA und damit ist der Schätzer des Erwartungswertes eine ZVA! Der Erwartungswert selbst dagegen ist keine ZVA! 47 6 Stichproben von ZVA Sind die Intervalle ∆j zufällig a-priori genau so gelegt, daß nur ein Element der Realisierung der Stichproben-ZVA in jedem Intervall liegt und das auch noch genau in der Mitte des Intervalls, so erhält man: m X 1 µ̂1 = Xi m i=1 (6.19) d.h., das arithmetische Mittel der Stichprobenrealisierung ist dann ein Schätzer des Erwartungswertes. In diesem Spezialfall ist der Schätzer des Erwartungswertes unverfälscht. Beweis: m m X X 1 1 Xi ) = E(Xi ) E(µ̂1 ) = E( m m i=1 i=1 = m m X X 1 1 E(X) = µ1 = µ 1 m m i=1 i=1 (6.20) Die Varianz des Schätzers µ̂1 ist m 1 X Xi ) − µ 1 ) 2 Var(µ̂1 ) = E(( m i=1 m m 1 X 1 X 2 2 = E(( Xi ) − 2 µ) m i=1 m i,j=1 1 m 1 X E(Xi Xj − µ21 ) = 2 m i,j=1 m 1 X = E((Xi − µ1 )(Xj − µ1 )) m2 i,j=1 (6.21) Wegen der Unabhängigkeit der Stichprobe folgt für die Kovarianzmatrix E((Xi − µ1 )(Xj − µ1 )) = σ 2 δi,j (6.22) (δi,j ist das Kroneckersymbol). Dann folgt für die Varianz des Erwartungsschätzers m 1 X 2 1 σ = σ2 Var(µ̂1 ) = 2 m i=1 m (6.23) d.h. der Schätzer µ̂1 ist ein konsistenter Schätzer. 6.6 Schätzung der Varianz Das zweite zentrierte Moment µ2 war definiert worden als Z µ2 = (x − µ1 )2 f (x)dx 48 (6.24) 6 Stichproben von ZVA Geht man vor wie beim Erwartungswert, erhält man als Schätzer der Varianz µ2 von X m µ̂2 = σ̂ 2 = 1 X (Xi − µ̂1 )2 m i=1 Man berechnet den Erwartungswert dieses Schätzers folgendermaßen (mit m · µ̂1 = m m 1 X 1 X (Xi − µ̂1 )2 ) = E( (Xi − µ1 − (µ̂1 − µ1 ))2 ) E(σ̂ ) = E( m i=1 m i=1 2 (6.25) P Xi ) m m 1 X 2 1 X 2 2 E( (Xi − µ1 ) − m(µ̂1 − µ1 ) ) = = σ − Var(µ̂1 ) m i=1 m i=1 = (1 − 1 2 )σ m (6.26) Der in (6.25) konstruierte Schätzer der Varianz ist also verzerrt und zwar wird die Varianz der GG unterschätzt um die Varianz des Erwartungsschätzers (6.23). Der Schätzer ist asymptotisch verzerrt, denn für m → ∞ verschwindet die Verzerrung. Benutzt man statt dessen als Schätzer für σ 2 folgenden Ausdruck m 1 X s = (Xi − µ̂1 )2 m − 1 i=1 2 (6.27) so erhält man als Erwartungswert des Schätzers E(s2 ) = σ 2 (6.28) also einen unverfälschten Schätzer. Der unverzerrte Varianzschätzer wird im Folgenden mit s bezeichnet, um ihn von dem verzerrten Schẗzer σ̂ zu unterscheiden. Die Varianz des ersten Schätzer für µ2 läßt sich mit etwas Algebra bestimmen zu Var(σ̂ 2 ) = 2 1 1 (µ4 − µ22 ) − 2 (µ4 − 2µ22 ) + 3 (µ4 − 3µ22 ) m m m (6.29) Ist die ZVA X normalverteilt, reduziert sich der Ausdruck wegen µ4 = 3µ22 zu Var(σ̂ 2 ) = 2(m − 1) 4 σ m2 (6.30) Berechnet man die Varianz des unverzerrten Varianzschätzers, so ist diese größer als die des verzerrten (nur ”asymptotisch unverzerrten”) Schätzers. Der verzerrte Schätzer ist also effizienter als der unverzerrte. Dies ist ein typischer Fall in der Statistik: die Qualität von Schätzern wird bestimmt von der Balance zwischen Varianz und Verzerrung (Bias) der Schätzer. 49 6 Stichproben von ZVA 6.7 Maximum Likelihood Methode Bisher wurden die Schätzer für Parameter von Verteilungsfunktionen oder Momente von ZVA mehr oder weniger ad-hoc eingeführt. Es gibt jedoch auch ein allgemeines Verfahren für die Schätzung von Parametern von Verteilungsfunktionen: die Maximum-Likelihood Methode. ~ m die Stichproben ZVA. Wenn f (x) die pdf für X Sei X eine univariate reelle ZVA und X ist, war die entsprechende pdf der Stichproben ZVA gegeben als f (~x) = m Y f (xi ) (6.31) i=1 Sei ~λ der Parametervektor der pdf f (x), also im Fall von NV ZVA ~λ = (µ, σ). Wenn (x1 , . . . , xm ) eine Realisierung der Stichproben ZVA ist, so ist die Wahrscheinlichkeit, diese Realisierung zu finden, gegeben durch p((x1 , . . . , xm ), ~λ) = m Y (fˆ(xi , ~λ) dxi ) (6.32) i=1 ˆ Die Maximum Likelihood Schätzung (MLS) des Parametervektors ~λ ist nun der Vektor ~λ, der die Funktion L L= m Y ˆ fˆ(xi , ~λ) (6.33) i=1 maximiert. L heißt auch Likelihood Funktion. Dabei handelt es sich aber um eine Zufallsgröße und nicht um eine analytische Funktion. Da der Logarithmus eine streng monoton steigende Funktion ist, ist die MLS von ~λ auch der Wert, der die logarithmische Likelihood Funktion l l= m X ˆ ln fˆ(xi , ~λ) (6.34) i=1 maximiert. ˆ ! l(~λ) = max (6.35) Beispiel: die MLS des Parametervektors einer Stichprobe aus einer NV univariaten GG ist (a) der arithmetische Mittelwertschätzer und (b) der verzerrte Schätzer der Varianz. Beweis: Es gilt 1 (x − µ)2 1 exp(− ) 2 σ2 2πσ (6.36) 1 (xi − µ̂)2 1 exp(− ) fˆ(xi ) = √ 2 σ̂ 2 2πσ̂ (6.37) f (x) = √ und 50 6 Stichproben von ZVA Dann folgt für die log-Likelihoodfunktion m 1 X (xi − µ̂)2 − m ln σ̂ − C l=− 2 i=1 σ̂ 2 (6.38) Die Maximumsbedingung lautet dann m X (xi − µ̂) ∂l = =0 ∂ µ̂ σ̂ 2 i=1 und Daraus ergibt sich die Lösung m 1 X m ∂l = 3 =0 (xi − µ̂)2 − ∂ σ̂ σ̂ i=1 σ̂ (6.39) (6.40) m 1 X xi µ̂ = m i=1 und (6.41) m 1 X (xi − µ̂)2 σ̂ = m i=1 2 (6.42) Die MLS Methode ist eine sehr brauchbare Methode zur Bestimmung von Parametern aus Stichproben, zumal aus der 2. Ableitung der (log-)Likelihoodfunktion auch noch ein Gütemaß der geschätzten Parameter (Konfidenzintervall) berechnet werden kann. Dies geschieht hier nicht. Was ein Konfidenzintervall ist und wie diese auch ohne MLS für die Standardschätzer berechnet werden können, soll in Kapitel 5.10 besprochen werden. 6.8 Übung Entnimm aus einer NV ZVA mit Erwartungswert 1 und Streuung 2 mit Hilfe eines Zufallszahlengenerators je 100 Stichproben vom Umfang m = 10, 20, 30, 40. (Monte Carlo Experiment) 1. Schätze die Verteilungsfunktion der GG durch die Daten jeder Realisierung. Plotte die 100 Schätzungen zusammen mit der Verteilungsfunktion der GG (erf(x)). 2. Schätze den Erwartungswert aus jeder Realisierung. Vergleiche mit dem vorgegebenen Erwartungswert. Wie groß ist die zu erwartende Streuung der Schätzungen des Erwartungswertes? 3. Schätze Varianz (Streuung) mit dem erwartungstreuen und dem verzerrten Schätzer. Vergleiche mit der Varianz der GG. Kann man die Verzerrung des zweiten Schätzers erkennen? 51 6 Stichproben von ZVA 6.9 Verteilungen von Schätzern Bisher wurden von den ZVA ’Schätzer’ Parameter berechnet (nicht geschätzt!). Denn der Schätzer ist eine ’Formel’, in der die Werte der Stichprobe verwendet werden (= zur Realisierung der ZVA dienen). Mit dieser Formel kann aber der Parameter (Erwartungswert oder Varianz) berechnet werden. Da ein Schätzer eine ZVA darstellt, gibt es eine pdf für den Schätzer. Nachdem zunächst beschrieben wurde, was wie geschätzt wird (nämlich der Parameter einer anderen ZVA) und dann nach den Parametern des verwendetet Schätzers gefragt wurde, soll nun gezeigt werden wie die pdf eines Schätzers aussieht. 6.9.1 Verteilung eines Erwartungswertschätzers Man betrachtet eine Stichprobe (X1 , . . . , Xm ) vom Umfang m aus einer normalverteilten GG N (µ, σ). Die ZVA m 1 X Xi µ̂ = m i=1 (6.43) ist dann ja ebenfalls eine NV ZVA mit Erwartungswert E(µ̂) = µ (6.44) σ2 m (6.45) und Varianz σ 2 (µ̂) = Der Beweis folgt aus dem Zentralen Grenzwertsatz. µ̂ ist natürlich genau der Erwartungswertschätzer (5.19) der mit der Maximum Likelihood Methode entwickelt worden war. Er ist NV und in Kap.5.5 mit den dort genannten Voraussetzungen schon benutzt worden. Auf den Index 1 wurde hier der Einfachheit halber verzichtet. 6.9.2 Verteilung eines Varianzschätzers - χ2 Verteilung Seien die Xi allesamt N (0, 1). Dann ist die ZVA 2 χ = m X Xi2 (6.46) i=1 χ2 -verteilt mit m Freiheitsgraden (beachte, daß hier in der Notation nicht mehr zwischen ZVA und deren Repräsentierung - sonst Groß-/Kleinschreibung - unterschieden werden kann) χ2 = {(χ2 , f (χ2 )), χ2 ∈ IR} 52 (6.47) 6 Stichproben von ZVA Die Wahrscheinlichkeitsdichte der ZVA χ2 ist f (χ2 ) = χ2 1 2 λ−1 (χ ) exp(− ) Γ(λ)2λ 2 (6.48) wobei λ= und Γ(λ) = Z ∞ m 2 (6.49) uλ−1 exp(−u)du (6.50) 0 die Gammafunktion ist. m ist ein Parameter der χ2 Verteilung und entspricht der Anzahl der Freiheitsgrade der Verteilung. Die Verteilungsfunktion hat die Form Z χ2 u 1 2 uλ−1 exp(− )du F (χ ) = λ Γ(λ)2 0 2 (6.51) Der Erwartungswert und die Varianz einer χ2 verteilten ZVA lassen sich berechnen zu E(χ2 ) = m Var(χ2 ) = 2m (6.52) wenn man die pdf durch die Gammafunktion ausdrückt und berücksichtigt, daß Γ(λ + 1) = λΓ(λ) (6.53) Die Erweiterung auf NV ZVA Xi mit Mittelwert µ und Streuung σ erfolgt einfach dadurch, daß man die ZVA χ2 = m X Xi − µ 2 ( ) σ i=1 (6.54) die ihrerseits wieder χ2 -verteilt ist, betrachtet. Man verwendet also weiterhin die standardisierte NV, jedoch mit veränderten Integrationsgrenzen (von x zu (x−µ) ). σ Gesucht wird aber nach der Verteilung des Varianzschätzers (verzerrt oder unverzerrt) m σ̂ 2 = s2 = 1 X (Xi − µ̂)2 m − 1 i=1 (6.55) Man kann unter den gegebenen Umständen zeigen, daß auch die ZVA (m − 1) ŝ2 σ2 (6.56) mit dem unverzerrten Varianzschätzer aus (6.27) χ2 -verteilt ist, jedoch mit nur m − 1 Freiheitsgraden. 53 6 Stichproben von ZVA Dazu müssen die xi ∈ N (µ, σ) orthogonal auf die yi einer neuen ZVA transformiert werden, derart, daß Summen von xi die yi bilden. Dann sind die yi auch NV und haben bei geschickter Wahl der Transformation den Mittelwert 0 und die Streuung 1. ym wird dabei ausgedrückt √ durch mµ̂. Die Orthogonalität zwischen x und y sorgt dafür, daß m X x2i = i=1 m X yi2 (6.57) i=1 Dadurch wird 2 (m − 1)σ̂ = m X i=1 (xi − µ̂) 2 = = m X i=1 m X i=1 x2i − mµ̂2 yi2 − 2 ym = m−1 X yi2 (6.58) i=1 Somit ist auch die Größe aus (6.56)) χ2 -verteilt. Alle Beweise siehe Brandt, Datenanalyse ([3]). 6.9.3 Beziehung zwischen Erwartungswert- und Varianzschätzer Student - t Verteilung Sei X eine NV ZVA und Y eine χ2 -verteilte ZVA mit m Freiheitsgraden. Weiterhin seien X und Y unabhängig. Dann folgt die ZVA, die wie folgt gebildet wird X T =p (Y /m) (6.59) der sogenannten Student-t Wahrscheinlichkeitsdichte mit m Freiheitsgraden ) Γ( m+1 t2 − m+1 2 ) 2 (1 + f (t) = √ m mπΓ( m2 ) (6.60) Der Erwartungswert der Student-t ZVA ist für m = 1 nicht definiert, für m ≥ 2 folgt E(T ) = 0. Die Varianz der Student-t ZVA ist für m = 1, 2 nicht definiert und ist für m ≥ 3 Var(T ) = m . (m−2) Damit sind die Verteilungen für Erwartungswert- und Varianzschätzer in einer ZVA vereint. Die Verteilung des Quotienten ist bekannt. 54 6 Stichproben von ZVA 6.9.4 Beziehung zwischen 2 Varianzschätzern - Fisher-F Verteilung In engem Zusammenhang mit der in 5.9.2 vorgestellten χ2 Verteilung steht die von R.A.Fisher ([10]) 1924 erstmals urkundlich erwähnte F -Verteilung. Sie hat die Form F (x) = 0 F (x) = für negative x y ) mx /2 my /2 Γ( mx +m 2 my m y mx mx Γ( 2 )Γ( 2 ) Z x 0 u(mx −2)/2 du (mx + my )(mx +my )/2 (6.61) Fisher-F -verteilt sind ZVA vom Typ X= X (x) my mx X (y) (6.62) Dabei folgen die ZVA X (x) und X (y) jeweils der χ2 -Verteilung mit mx bzw. my Freiheitsgraden. Die Verteilungsfunktion der F -Verteilung kennzeichnet man daher auch oft mit der Schreibweise F (x, mx , my ). Sie hat die besondere Eigenschaft F (x, mx , my ) = 1 F (x, my , mx ) (6.63) Folgende Kenngrößen der F -Verteilung kann man angeben my für my > 2 my − 2 2m2y (mx + my − 2) V ar(X) = für my > 4 mx (my − 2)2 (my − 4) E(X) = (6.64) Insbesonders ist auch der Quotient zweier ZVA vom Typ (m − 1) σ̂x2 σy2 (6.65) die schon in (5.43) aufgetaucht waren, F -verteilt. Damit wird die F -Verteilung beim Vergleich von Varianzen in Kap.7.4 Verwendung finden. 6.10 Konfidenzintervalle Bisher haben wir das Problem behandelt, wie die Parameter der pdf oder die Momente der ZVA geschätzt werden, wenn aus einer GG eine Stichprobe gegeben ist (Punktschätzungen). Wir haben gesehen, daß der Prozeß der Stichprobenentnahme wieder eine Zufallsvariable ist und somit die aus einer Realisierung der Stichproben ZVA berechneten Schätzer wieder ZVA sind, die wiederum durch pdf 0 s (bzw. ihre Momente) beschrieben werden. Eine andere Frage, 55 6 Stichproben von ZVA die man stellen kann, ist, wie groß ein Intervall [a, b] ist, in dem die Schätzung des Parameters mit einer bestimmten, a-priori festgelegten Wahrscheinlichkeit liegt. Dieses Intervall heißt Konfidenzintervall. Ist das Intervall klein und die festgelegte Wahrscheinlichkeit hoch, so ist der Parameter relativ genau bestimmbar. Anhand eines etwas akademischen Beispiels sei die Vorgehensweise im nächsten Unterkapitel beschrieben. Die etwas realistischeren Anwendungen werden in den anderen Unterkapiteln besprochen. 6.10.1 Konfidenzintervall für den Mittelwert bei bekannter Varianz einer normalverteilten GG ~ m die Stichprobenvariable für eine normalverteilte GG N (µ, σ). Die Streuung σ sei als Sei X bekannt vorausgesetzt. Der Erwartungswert sei geschätzt durch die ZVA m 1 X Xi µ̂ = m i=1 (6.66) Dann ist die reduzierte ZVA Z ausgedrückt durch z= √ µ̂ − µ m σ (6.67) eine NV ZVA mit N (0, 1) (s. Ergebnisse oben). Sei γ ∈]0, 1[ die a-priori festgelegte Wahrscheinlichkeit, die ZVA Z in einem bestimmten Konfidenzintervall zu beobachten. Wir suchen also die Zahlen a und b, so daß gilt Prob(a ≤ z ≤ b) = γ (6.68) Betrachtet man nur um 0 symmetrische Intervalle, folgt a=−b. Mit Hilfe der Fehler-Funktion erf (x) läßt sich die linke Seite ausdrücken als Prob(−b ≤ z ≤ b) = erf(b) − erf(−b) = γ (6.69) Daraus folgt mit erf (−b) = 1 − erf (b) als Gleichung für b: erf(b) = 1+γ 2 (6.70) d.h. b ist das Quantil der Normalverteilung zum Wahrscheinlichkeitswert (1 + γ)/2. Wählt man also γ nahe an 1, so bedeutet das, daß die Wahrscheinlichkeit, die ZVA Z im Intervall [−b, b] zu beobachten, sehr groß ist. Ist dabei b eine Zahl, die klein gegen σ ist, bedeutet 56 6 Stichproben von ZVA das, daß mit einer hohen Wahrscheinlichkeit die ZVA Z in einem kleinen Intervall liegt, daß also die durch die Zufälligkeit der Stichprobe erzeugte Variabilität des Schätzers µ̂ mit hoher Wahrscheinlichkeit gering ist. Damit ist also der gesuchte Parameter ”gut” schätzbar. Die Intervallgrenze b ist keine ZVA, da sie aus der theoretischen Verteilungsfunktion für die Schätzer (genauer aus der Inversen der Verteilungsfunktion) bestimmbar ist. b ist für die unterschiedlichsten Verteilungsfunktionen als Funktion der a-priori Wahrscheinlichkeit γ tabelliert oder als FORTRAN Subroutine z.B. in der mathematischen Library IMSL verfügbar. Es ist üblich, das Konfidenzintervall der reduzierten ZVA wieder in ein Intervall um den unbekannten Erwartungswert (allgemein um den unbekannten Parameter) µ umzurechnen. Dies ist das Intervall, in dem man mit einer Wahrscheinlichkeit (aber nicht γ) den Parameter vermutet. Deshalb nennen einige Autoren das so umgerechnete Konfidenzintervall auch ”Mutungsbereich”. Für den vorliegenden Fall ergibt sich mit b als Lösung der letzten Gleichung und der Definition der reduzierten ZVA Z bσ bσ µ̂ − √ ≤ µ ≤ µ̂ + √ m m (6.71) Die so berechneten Intervallgrenzen sind natürlich wieder ZVA und damit von dem Konfidenzintervall der reduzierten ZVA Z deutlich zu unterscheiden. 6.10.2 Konfidenzintervall für den Mittelwert einer normalverteilten GG bei geschätzter Varianz ~ m die Stichproben ZVA einer normalverteilten GG mit N (µ, σ). Als Schätzer Sei wiederum X P des Erwartungswerts und der Streuung seien der Stichprobenmittelwert m1 m i=1 xi und der unverzerrte Schätzer der Varianz (5.27) gewählt. Dann kann man zeigen, daß die ZVA Z (s. 5.67) und Y unabängige ZVA sind, d.h. cov(Z, Y ) = 0 (Beweis siehe Kreyszig, S.381 [4]), wenn man Y wie folgt festlegt: Y = Pm i=1 (Xi σ2 − µ̂)2 (6.72) Da Z und Y unabhängig sind, ist ganz offensichtlich die ZVA T mit Z T =p Y /(m − 1) (6.73) eine Student-t verteilte ZVA mit m − 1 Freiheitsgraden. Das Konfidenzintervall [−b, b] zum a-priori Wahrscheinlichkeitswert γ folgt dann analog zum letzten Unterkapitel, wobei die 57 6 Stichproben von ZVA erf -Funktion jedoch durch die Verteilungsfunktion der Student-t Verteilung FSt−t ersetzt wird: FSt−t (b) = 1+γ 2 (6.74) Dann kann man wieder den Mutungsbereich für den Erwartungswert angeben als bσ̂ bσ̂ µ̂ − √ ≤ µ ≤ µ̂ + √ m m (6.75) Es gilt natürlich wiederum: b ist keine ZVA, sondern wohldefiniert, die Intervallgrenzen des Mutungsbereichs dagegen sind ZVA. 6.10.3 Konfidenzintervall für den Schätzer der Varianz einer NV GG Die ZVA Y läßt sich auch schreiben als Y = (m − 1) σ̂ 2 σ2 (6.76) und ist damit eine χ2 -verteilte ZVA mit m − 1 Freiheitsgraden. Es lassen sich nun auch Konfidenzintervalle für Y ausrechnen. Allerdings ist die χ2 Verteilung nicht symmetrisch, so daß man die Lösungen der Gleichungen (Fχ ist die Verteilungsfunktion der χ2 - Verteilung) 1 Fχ (a) = (1 − γ) 2 1 Fχ (b) = (1 + γ) 2 (6.77) bestimmen muß, da gelten soll: Fχ (b) − Fχ (a) = γ (6.78) Die entsprechenden Lösungen sind tabelliert oder als IMSL Routinen anwählbar. Das entsprechende Mutungsintervall ergibt sich dann als m−1 2 m−1 2 σ̂ ≤ σ 2 ≤ σ̂ b a 58 (6.79) 7 Prüfung statistischer Hypothesen, Tests 7 Prüfung statistischer Hypothesen, Tests 7.1 Allgemeine Bemerkungen Bisher sind u.a. folgende Probleme der mathematischen Statistik behandelt worden (s.Kap.5) • Schätzung von Parametern oder Momenten der pdf einer GG, aus der eine Stichprobe ~ m gegeben war (Punktschätzung). X • Bestimmung von Vertrauensgrenzen oder die Berechnung der Güte der geschätzten Parameter (Intervallschätzung). Sehr oft liegt in der mathematischen Statistik das Problem vor, daß man ein Vorurteil bzw. Vorwissen über eine GG hat und dieses mit einer Stichprobe überprüfen möchte. So verfügt man in der klimatologischen Forschung ja sogar immer nur über Stichproben des Experiments ”Klimasystem”. Mit diesen verschafft man sich das ”Vorwissen” (eher wohl die Vermutung) über die GG dieses Experiments, die dem Menschen aber immer unbekannt bleiben wird. Im Sprachgebrauch der Statistik bezeichnet man dies als Hypothese. • Der Hypothesentest besteht nun darin, objektiv zu prüfen, wie gut diese Vermutung bezüglich der GG (i.a. handelt es sich um eine Vermutung über die pdf der GG) mit den Daten der Stichprobe zu vereinbaren ist. Die Prüfung kann allenfalls zur Ablehnung der Hypothese führen. Im gegenteiligen Falle stellt man nur fest, daß die Aussage der Stichprobe nicht gegen das Vorwissen über die GG spricht. Man kann nie 100%ig sicher sein, die richtige Entscheidung zu treffen. Man kann nur Signifikanz-/Irrtumsniveaus angeben, innerhalb derer die getroffene Entscheidung richtig ist. Zu jeder Hypothese gibt es in natürlicher Weise zumindest eine Gegenhypothese (”Es ist nicht so!”). Zur Unterscheidung nennt man die zu testende Hypothese die Nullhypothese H0 und die Hypothese gegen die H0 getestet wird die Alternativhypothese H1 . Erzielt ein Wissenschaftler eine bisher unbekannte Erkenntnis, so muß er sich selbst den Zweifel der wissenschaftlichen Gemeinschaft formulieren und mit einem Test versuchen, die virtuellen Zweifler von seiner Erkenntnis zu überzeugen. Die Durchführung statistischer Hypothesentests verläuft i.a. nach einem Schema, das im Folgenden dargelegt werden soll. Zuerst wird das Hypothesenpaar aus Null- und Alternativhypothese explizit formuliert. Man sollte sich sogar angewöhnen, das immer schriftlich 59 7 Prüfung statistischer Hypothesen, Tests Es gilt in der GG Es gilt in der GG Testausgang H0 ist wahr/H1 ist falsch H0 ist falsch/H1 ist wahr û < uα ⇔ H0 akzeptieren richtig, (1 − α) Fehler 2.Art β û > uα ⇔ H1 akzeptieren Fehler 1.Art, α richtig,(1 − β) Tabelle 1 Entscheidungstabelle bei statistischen Hypothesentests, Definition Fehler 1. und 2. Art zu fixieren! Dies legt zwei GG und entsprechende ZVA, unsere Testvariable, fest. Für die Nullhypothese lautet diese Testvariable U 0 = {(u, f (0) (u)), u ∈ Su } und für die Alternativ- hypothese U 1 = {(u, f (1) (u)), u ∈ Su }. Die ZVA U i , i = 0, 1 sind zumeist – auch bei Tests mit Stichproben aus multivariaten GG – univariate, reelle ZVA. Ziel des Tests ist es, eine gegebene Stichprobe der entsprechenden GG H0 bzw. H1 zuzuordnen. Dazu wird die Testvariable benutzt, der Stichprobenwert der Testvariablen û muss also entwederU 0 oder U 1 entstammen. Natürlich ist eine solche Zuordnung immer mit einer Unsicherheit verbunden. Man wählt nun das Irrtumsniveau α. α ist die Wahrscheinlichkeit, mit der man H0 verwirft, obwohl die Nullhypothese richtig ist. Man nennt das den Fehler 1.Art. Je kleiner ich α wähle, umso entfernter muß die Aussage der Stichprobe von der zugehörigen Aussage der GG (=H0 ) sein. Anders herum gesagt ist es verständlicher, entspricht aber nicht exakt dem Vorgehen: Je entfernter die Daten von der Nullhypothese sind, umso kleiner ist die Wahrscheinlichkeit, daß ich mich irre, wenn ich H0 ablehne. Ist die Aussage der Stichprobe weit genug von der GG entfernt, lehne ich H0 mit einer Signifikanz von α ab. So ist das in Strenge zu formulieren. Durchaus gebräuchlich und für den Wissenden nicht verwirrend ist es aber, in diesem Fall zu formulieren, daß die Nullhypothese auf dem Irrtumsniveau α verworfen wird wird. Hat man H0 (berechtigt oder unberechtigt) verworfen, so ist die Alternativhypothese als unbewiesenes Vorurteil anzubieten. Unterscheiden sich H0 und H1 wenig in ihren Aussagen, so hat das allerdings wenig Nutzen. Dies ist dem gesunden Menschenverstand zugänglich (...und das in einer Statistikvorlesung!!!) und zeigt sich, wenn man den Test unter Einbeziehung der Alternativhypothese zuende führt. Neben dem Fehler, H0 unberechtigt abzulehnen, kann man auch noch den Fehler machen, H0 unberechtigt nicht abzulehnen (also unberech- 60 7 Prüfung statistischer Hypothesen, Tests tigt zu akzeptieren). Es wird also die (falsche) Aussage getroffen, daß die Stichprobe nicht gegen die mit H0 verbundene GG spricht obwohl sie in Wahrheit irgend einer anderen GG entnommen wurde, bspw. der, die mit H1 verbunden ist. Die Wahrscheinlichkeit für diesen Fehler 2.Art nennt man β und sie ist abhängig von α und natürlich von H1 , welche aber in der Regel unbekannt ist. Leider vergrößert ein kleiner werdendes α den Fehler β. β. Daher ist die Wahl der Testvariablen sehr wichtig (gerade bei multivariaten statistischen Hypothesentests). In Tabelle (1) sind die möglichen Entscheidung bei statistischen Tests aufgelistet. In Abb.16 wird versucht, diesen Sachverhalt anschaulich darzustellen. Mit dem Begriff Hypothese darf man ruhig eine pdf verbinden, die auf der Ordinaten aufgetragen ist und mit der Größe auf der Abszisse die ZVA U 0 oder U 1 . Befindet sich die Stichprobe û rechts von dem durch die Wahl von α festgelegten, kritischen Wert uα , so wird H0 mit einer Sicherheit von (1-α) verworfen. Liegt dagegen û links von uα , so sprechen die Daten mit der selben Sicherheit nicht gegen H0 . In diesem Fall ist es natürlich trotzdem noch möglich, daß û eine Realisierung von U 1 und nicht von U 0 ist. Dieser Fehler wird durch β beschrieben. Abbildung 16 Graphische Darstellung zum Begriff Z uα der Fehler I. und II. Art bei Hypothesentests Prob (û ∈ ] − ∞; uα ] |H1 ) = f (1) (y) dy = β Z ∞ −∞ Prob (û ∈ ]uα ; ∞[ |H1 ) = f (1) (y) dy = 1(7.1) −β uα 61 7 Prüfung statistischer Hypothesen, Tests Analog kann man formulieren: Z uα f (0) (y) dy = 1 − α Prob (û ∈ ] − ∞; uα [ |H0 ) = Z ∞ −∞ f (0) (y) dy = α Prob (û ∈ [uα ; ∞[ |H0 ) = (7.2) uα Für besonders aussagekräftige – mächtige – Tests wendet man gerne folgendes Verfahren an: Das Vorurteil, das man mit der Stichprobe unterstützen möchte, wählt man als Alternativhypothese H1 . Getestet wird also der Widerstand gegen meine These. Wählt man ein kleines α, so kann man die gegnerische Hypothese H0 nur bei Daten, die sehr für meine These (= H1 ) sprechen (û > uα ) mit hoher Wahrscheinlichkeit verwerfen. Und nur wenn ”das Alte” durch ”das Neue” stark angegriffen wird, soll sich ”das Neue” durchsetzen können. Man widerlegt lieber sein Vorurteil (in der Wissenschaft!....) auch wenn es richtig ist, als daß man es akzeptiert, wenn es falsch ist. Man sieht das als Ansporn, noch bessere Hinweise (Signale) für seine These zu suchen. Wie man aus Abb.8 schon erkennt, ist der Fehler β groß, wenn sich Hypothese und Alternativhypothese stark überlappen. Die Größe (1 − β), die man als Macht des Tests bezeichnet, ist dann klein. Es gibt eine hohe Wahrscheinlichkeit, daß eine Stichprobe, die tatsächlich der GG H1 entstammt, zu einer Annahme von H0 führt. Man kann sich bspw. vorstellen, daß H0 sagt, eine Farbfläche sei rosa und H1 stellt dagegen die Alternative, sie sei pink. Nutzen und Präzision dieses Tests sind natürlich zweifelhaft. Ein anderes Beispiel aus der bösen Welt der Geschäftemacher soll die Problematik beleuchten, die mit der richtigen Hypthesenwahl verbunden ist. Im Hamburger Hafen liege ein Bananendampfer mit einer Ladung im Wert von 106 Euro. Der Bananenhändler sucht nun einen Kunden (bspw. einen Großhändler auf dem Fischmarkt), der ihm die Ware abkauft. Dazu macht er einen Test mit der Nullhypothese H0 ”Die Ware ist gut”. Er führt den Test durch mit einer Irrtumswahrscheinlichkeit α=0.01. Das bedeutet, daß der Test mit einer Wahrscheinlichkeit von 1% das Ergebnis ”Ware ist schlecht” liefert, obwohl die Lieferung o.k. ist. Es heißt nicht, daß 1% der Bananen verdorben sind! Es bedeutet aber, daß ein Risiko besteht, daß 1 von 100 Lieferungen schlecht ist. Das Händlerrisiko ist 1% × 106 Euro. Das Risiko des Kunden ist β. Die Größe von β ist ungewiß, könnte bspw. β(α = 0.01) = 0.2 sein. Dann ist das Kundenrisiko 20% × 106 Euro = 200.000 Euro! 62 7 Prüfung statistischer Hypothesen, Tests Schlauer wäre es von dem Kunden, einen Test auf die Nullhypothese H0 ”Die Ware ist schlecht” zu verlangen. Dann kann er das Kundenrisiko fest eingrenzen und den Überseehändler mit seinem nun ungewissen Händlerrisiko in schlaflose Nächte verfallen lassen. 7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz ~ m vom Umfang m entnommen wird, sei Die Grundgesamtheit, aus der die Stichprobe X normalverteilt mit N (µ, σ). Die Varianz σ 2 der GG sei (unrealistischerweise) bekannt. Mit µ ist im folgenden ohne die Indizierung 1 das zentrierte 1. Moment dieser GG bezeichnet. Sei weiterhin µ(0) eine Annahme (keine Schätzung!) über den Erwartungswert der GG. Die Variable µ(0) ist damit keine ZVA, sondern eine wohlbekannte reelle Zahl. Dann soll die Nullhypothese H0 lauten µ = µ(0) H0 : (7.3) Als Alternativhypothese hat man drei Möglichkeiten: H1 : µ > µ(0) H1 : µ < µ(0) H1 : µ 6= µ(0) (7.4) Formuliert man eine der ersten beiden Alternativhypothesen, so führt man einen sogenannten einseitigen Test durch, im dritten Fall dagegen einen zweiseitigen Test. Als Schätzer für den Erwartungswert wählen wir den arithmetischen Mittelwert – den ML Schätzer – m 1 X µ̂ = xi m i=1 (7.5) µ̂ ist eine NV ZVA mit N (µ, √σm ). Gilt die Nullhypothese µ = µ(0) , so ist die ZVA U ausgedrückt durch û = √ µ̂ − µ(0) m σ (7.6) eine NV ZVA mit N (0, 1). Die pdf der Hypothese f 0 (u) ist dann die Gauss’sche Wahrscheinlichkeitsdichte mit den Parametern (0, 1). Führt man den einseitigen Test nach rechts (>) durch, so erhält man (α fest vorgegeben): Prob(u > uα ) = α 63 (7.7) 7 Prüfung statistischer Hypothesen, Tests uα wird bestimmt durch ⇐⇒ Z erf(uα ) = 1 − α uα −∞ f 0 (u) du = 1 − α (7.8) mit uα = √ cα − µ(0) m σ (7.9) wobei cα eine durch (6.9) festgelegte Zahl ist. Man findet nun û ≤ uα → akzeptiere H0 (7.10) û > uα → akzeptiere H1 (7.11) bzw. Macht man für die Alternativhypothese eine konkrete Annahme über den Erwartungswert µ(1) , so kann man die Macht des einseitigen, rechten Tests beschreiben durch √ cα − µ(1) ) 1 − β(α) = 1 − erf( m √σ m (0) (µ − µ(1) )) = 1 − erf(uα + σ (7.12) Die Durchführung des einseitigen, linken Tests (<) erfolgt analog mit uα → −uα . Ist man an dem zweiseitigen Test interessiert, so ist ein symmetrisches Intervall [−uα , uα ] gesucht mit Prob(−uα ≤ u ≤ uα ) = 1 − α (7.13) erf(uα ) − erf(−uα ) = 1 − α (7.14) oder oder mit Hilfe der Beziehung erf(−uα ) = 1 − erf(uα ) erf(uα ) = 1 − α 2 (7.15) Man findet nun mit Hilfe des aus der Stichprobe gewonnenen Wertes û die gewünschte Hypothesenentscheidung: û ∈ [−uα , uα ] → akzeptiere H0 (7.16) û 6∈ [−uα , uα ] → akzeptiere H1 (7.17) bzw. 64 7 Prüfung statistischer Hypothesen, Tests Bei gleichem Irrtumsniveau α sind die Entscheidungsgrenzen |uα | des zweiseitigen Tests größer als beim einseitigen Test. D.h. bei gleichem Schätzwert µ̂ wird die Nullhypothese eher beim einseitigen Test als beim zweiseitigen Test abgelehnt. Das liegt natürlich daran, daß bei dem einseitigen Test die zusätzliche ”a-priori” Information über das Vorzeichen honoriert wird. Die Macht des zweiseitigen Tests ist gegeben durch √ √ m (0) m (0) (2) (µ − µ )) − erf(uα + (µ − µ(2) )) 1 − β(α) = 1 + erf(−uα + σ σ (7.18) wobei µ(2) die konkrete Annahme über den Erwartungswert der ”linken” Alternativhypothese ist. 7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz ~ mx vom Umfang mx aus einer NV GG mit N (µx , σ) und Gegeben seien zwei Stichproben X ~ my vom Umfang my aus einer NV GG mit N (µy , σ). Die Schätzer der Erwartungswerte seien Y die arithmetischen Mittelwerte, als Schätzer für die Varianz benutzen wir den unverzerrten Schätzer der Stichprobenvarianz, also µ̂x µ̂y mx 1 X = Xi mx i=1 my 1 X = Yi my i=1 m ŝ2x x X 1 = (Xi − µ̂x )2 mx − 1 i=1 my ŝ2y X 1 = (Yi − µ̂y )2 my − 1 i=1 (7.19) Beide Stichproben seien unabhängig. Die Nullhypothese wird formuliert als H0 : µx = µ y (7.20) Als Alternativhypothese bieten sich wieder drei Formulierungen an: H1 : µx > µ y H1 : µx < µ y H1 : µx 6= µy 65 (7.21) 7 Prüfung statistischer Hypothesen, Tests Dann ist die ZVA U mit p u= mx my (mx + my − 2) µ̂x − µ̂y q mx + m y (mx − 1)ŝ2x + (my − 1)ŝ2y (7.22) Student-t verteilt mit (mx + my − 2) Freiheitsgraden. (Beweis [4],S.381) Trifft die Nullhypo- these µx = µy zu, ist U zentral (d.h. E(U)=0) Student-t verteilt. Die pdf f 0 (u) ist dann die Student-t Wahrscheinlichkeitsdichte aus dem letzten Kapitel. Soll die einseitige, rechte (>) Alternativhypothese gegen die Nullhypothese getestet werden, sucht man wieder Prob(u ≤ uα ) = 1 − α (7.23) FSt−t (uα , mx + my − 2) = 1 − α (7.24) oder wobei FSt−t die Verteilungsfunktion der Student-t Verteilung mit mx +my −2 Freiheitsgraden ist. Sei û die aus der Stichprobe berechnete Realisierung der Teststatistik U . Dann entscheidet man û ≤ uα → akzeptiere H0 û > uα → akzeptiere H1 (7.25) + Lautet die Alternativhypothese H1 : µx 6= µy , so wird ein Intervall [u− α , uα ] gesucht mit α 2 α + Prob(u > uα ) = 2 Prob(u < u− α) = (7.26) + Da aber die Student-t Verteilung symmetrisch ist, ist u− α = −uα und uα wird aus der Gleichung F (uα ) = 1 − α 2 (7.27) berechnet. Der Test erfolgt dann wie oben: |û| ≤ uα → akzeptiere H0 |û| > uα → akzeptiere H1 (7.28) Ebenso wie im letzen Unterkapitel sind die Entscheidungsgrenzen bei gleichem Irrtumsniveau für den einseitigen Test geringer als beim zweiseitigen (Begründung s. oben). Analog läßt sich auch die Macht des Student-t Tests bestimmen; statt der erf-Funktion wird hier aber die Verteilungsfunktion der nichtzentralen Student-t Verteilung mit dem Nichtzentralitätsparameter δ = (µx − µy ) benötigt. 66 7 Prüfung statistischer Hypothesen, Tests 7.4 Vergleich der Varianz zweier NV Eine wesentliche Voraussetzung des letzten Testverfahrens war die Einschränkung auf identische Varianzen der zugrundegelegten GG. Sind zwei voneinander unabhängige Stichproben gegeben, sind natürlich die berechneten Realisierungen der Varianzschätzer unterschiedliche Zahlen. Ein Test dieser beiden Zahlen soll deshalb feststellen, ob die Varianzen der ~ mx vom GG identisch (H0 ) oder verschieden (H1 ) sind. Gegeben seien zwei Stichproben X ~ my vom Umfang my aus einer NV GG Umfang mx aus einer NV GG mit N (µx , σx ) und Y mit N (µy , σy ). Die Schätzer der Erwartungswerte und der Varianzen seien wie im letzten Unterkapitel gewählt. Die Nullhypothese sei H0 σx2 = σy2 : (7.29) Als Alternativhypothese formulieren wir entweder einseitig H1 : σx2 > σy2 (7.30) H1 : σx2 6= σy2 (7.31) oder zweiseitig Gilt die Nullhypothese, ist die Teststatistik U : σ̂y2 σ̂x2 u = ( 2 )/( 2 ) σx σy (7.32) Fisher-F verteilt mit (mx −1, my −1) Freiheitsgraden. Soll die einseitige Alternativhypothese gelten, sucht man nach Prob(u ≤ uα ) = 1 − α (7.33) FFisher (uα , mx − 1, my − 1) = 1 − α (7.34) oder uα als Lösung der Gleichung wobei FFisher die Verteilungsfunktion einer (zentralen) Fisher-F ZVA ist mit (mx − 1, my − 1) Freiheitsgraden. Hierbei bedeutet zentrale Fisher-F Verteilung, daß der Erwartungswert der entsprechenden ZVA Eins ist. Mit û aus û = σ̂x2 σ̂y2 67 (7.35) 7 Prüfung statistischer Hypothesen, Tests erfolgt die Testentscheidung wie û ≤ uα → akzeptiere H0 û > uα → akzeptiere H1 (7.36) Im Fall der zweiseitigen Alternativhypothese ist zu bedenken, daß die Fisher-F Verteilung + nicht symmetrisch ist, d.h. man sucht ein Intervall [u− α , uα ] mit α 2 α + Prob (u ≤ uα ) = 1 − 2 Prob (u < u− α) = (7.37) Die Intervallgrenzen findet man dann als die entsprechenden Quantile der zentralen Fisher-F Verteilung mit den bereits angegebenen Freiheitsgraden zu α 2 α + (uα , mx − 1, my − 1) = 1 − 2 FF isher (u− α , mx − 1, my − 1) = FF isher (7.38) Die Testentscheidung wird dann wie folgt durchgeführt: + û ∈ [u− α , uα ] → akzeptiere H0 + û 6∈ [u− α , uα ] → akzeptiere H1 (7.39) 7.5 Anpassungstests Eine wesentliche Vorausetzung der bisher beschriebenen Testverfahren war die Einschränkung der GG auf NV GG. Insbesondere der Fisher-F Test ist jedoch bekannt dafür, auf Abweichungen von der NV-Annahme empfindlich zu reagieren (dies ist ein Ergebnis aus Monte Carlo Experimenten). D.h sind die GG, aus denen die Stichproben entnommen werden, nicht NV, so ist das Ergebnis des Fisher-F Tests zweifelhaft. Aus diesem Grund ist es nötig, zu testen, ob die pdf oder die Verteilungsfunktion einer GG, die aus der Stichprobe durch die entsprechenden Schätzer berechnet wurde, eine bestimmte Form hat, etwa die Form der Normalverteilung. Dies ist die Aufgabe der sogenannten Anpassungstests, mit denen Hypothesen über vermutete pdf bzw. Verteilungsfunktionen der GG überprüft werden können. 68 7 Prüfung statistischer Hypothesen, Tests 7.5.1 Der χ2 -Test Mit Hilfe des χ2 Tests wird getestet, ob die pdf f (x) einer GG mit einer Annahme über diese pdf (das ”Vorurteil”) verträglich ist oder nicht. Das Vorurteil wird mit f (0) bezeichnet. Aus ~ m vom Umfang m vor. Damit kann man die pdf f (x) durch der GG liegt eine Stichprobe X das Histogramm H(∆j ), j = 1, ..., J schätzen. Als Null- bzw. Alternativhypothese formuliert man H0 : f (x) = f (0) (x) H1 : f (x) 6= f (0) (x) (7.40) Dabei wird als Schẗzer der Verteilungsfunktion H(∆j ) fˆ(x ∈ ∆j ) = ∆j (7.41) benutzt. Wenn die Nullhypothese richtig ist, ist die Wahrscheinlichkeit, die ZVA X im Intervall ∆j zu beobachten gegeben durch pj = Z f (0) (x) dx (7.42) ∆j Damit kann man die im Intervall ∆j zu erwartende Anzahl von Stichprobenelementen h bei einer Stichprobe vom Umfang m berechnen zu h(∆j ) = mpj (7.43) Die beobachtete Anzahl von Stichprobenelementen im Intervall ∆j liefert das Histogramm H(∆j ) aber zu mH(∆j ) = |{x ∈ ∆j }| (7.44) Man kann zeigen (Beweis siehe [3]), daß die ZVA U mit u= J X (mH(∆j ) − mpj )2 mpj j=1 (7.45) asymptotisch (d.h für m → ∞) eine χ2 -verteilte ZVA mit (J − 1) Freiheitsgraden ist. Bei der Durchführung des Tests ist also wiederum eine Zahl uα gesucht mit Prob(u ≤ uα ) = 1 − α 69 (7.46) 7 Prüfung statistischer Hypothesen, Tests oder mit Hilfe der χ2 Verteilungsfunktion das Quantil Fχ2 (uα , J − 1) = 1 − α (7.47) Damit führt man die Testentscheidung wie folgt durch u ≤ uα → akzeptiere H0 u > uα → akzeptiere H1 (7.48) ~ m noch p Parameter geschätzt (z.B. Werden zur Herleitung der pdf f (0) aus der Stichprobe X für eine Normalverteilung µ und σ, p = 2), so ist die ZVA U immer noch (asymptotisch) χ2 verteilt, jedoch mit J − p − 1 Freiheitsgraden. 7.5.2 Kolmogoroff - Smirnov Test So wie der χ2 Test ein Test für die pdf ist, ist der Kolmogoroff-Smirnov Test (KS-Test) ~ m eine Stichprobe vom Umfang m aus einer ein Test für die Verteilungsfunktion. Sei also X GG mit der Verteilungsfunktion F (x). Diese Verteilungsfunktion sei geschätzt durch die empirische Verteilungsfunktion F̂ z.B. als Summe über das Histogramm H(∆j ). A-priori sei eine Verteilungsfunktion F̃ (x) vorgegeben. Die Null- bzw. Alternativhypothese lautet dann H0 : F (x) = F̃ (x) H1 : F (x) 6= F̃ (x) (7.49) Bestimmen wir die maximale Distanz zwischen empirischer Verteilungsfunktion F̂ (x) und theoretischer Verteilungsfunktion F̃ (x) als u = sup |F̂ (x) − F̃ (x)|. (7.50) x∈S Ist die Nullhypothese korrekt, folgt, dass die ZVA U näherungsweise der Verteilungsfunktion FKS (u) ' 1 − 2 exp(−2mu2 ) (7.51) folgt. FKS heißt auch die Kolmogoroff-Smirnov Verteilung. Es ist also wiederum eine Zahl uα gesucht mit Prob(u ≤ uα ) = 1 − α (7.52) FKS (uα ) = 1 − α (7.53) oder 70 7 Prüfung statistischer Hypothesen, Tests Unter Benutzung der expliziten Darstellung der KS - Verteilung erhält man dann r ln( α ) uα = − 2 2m (7.54) Damit führt man die Testentscheidung wieder wie folgt durch u ≤ uα → akzeptiere H0 u > uα → akzeptiere H1 (7.55) Ein Problem ergibt sich mit den KS-Test, wenn die Parameter der theoretischen Verteilung aus der Stichprobe geschäzt werden müssen. Dies lässt sich nicht, wie beim χ2 -Test, einfach durch die Anpassung der Freiheitsgrade korrigierten. Allerdings existiert ein Modifikation des KS-Tests, welche auf den Lilliefors-Test führt. Hier existiert eine andere Statistik, die DL -Statistik, welche sich aus Tabellen ablesen lässt oder über Approximationen hergeleitet werden kann. 71 8 Statistische Untersuchung extremer Ereignisse 8 Statistische Untersuchung extremer Ereignisse Bisher haben wir uns mit den Eigenschaften von Zufallsvariable beschäftig, die das Zentrum der Dichteverteilung beschreiben, also im Wesentlichen mit Erwartungswert und Varianz, evt. auch Schiefe oder Kurtosis. Ein weiteres Feld in der Meteorologie, der Hydrologie und insbesondere der Ökonomie ist die Untersuchung von Extremereignissen. Solche Extremereignisse treten sehr selten auf, sind jedoch mit hohem wirtschaftlichen Schaden, oder schlimmer mit Verlust von Menschenleben verbunden und damit wichtig für Risikoabschätzungen. Solche Ereignisse werden als ”Extreme Ereignisse” bezeichnet. Natürlich ist der Schaden, den ein extremes Ereigniss verursacht, nicht nur von seiner Stärke abhängig, sondern vor allem auch vom Ort und Zeitpunkt seine Auftretens. Ein Sturmtief, welches über eine nicht besiedelte Region zieht, wird u.U. gar nicht als ”Extremes Ereignis” wahrgenommen, während ein Sturm über Paris schwere Schäden verursachen kann. Wir wollen als ”Extreme Ereignisse” lieber solche Ereignisse bezeichnen, die selten auftreten und damit in den Ausläufern der Dichtefunktion der ZVA liegen. Die bisher genannten Verteilungen beschreiben das Verhalten der Zufallsvariable ausgehend von Ihrem Erwartungswert: Mittelwert, Standardabweichung, Schiefe, Kurtosis, ect.. Ihre Ausläufer repräsentieren das Verhalten der Extremwerte jedoch relativ schlecht. Bei der Statistik extremer Ereignisse machen wir uns ein Theorem zu Nutze, welches ähnlich wie beim Grenzwertsatz der Statistik, asymptotisch für große Stichproben, das statistische Verhalten der extremen Ereignisse beschreibt. Leider wird die Existenz dieser asymptotischen Verteilungen für Extreme oft ignoriert. Da Extreme per Definition selten auftreten (in der Risikoabschätzung soll sogar die Eintrittswahrscheinlichkeit für eventuell nie da gewesene Ereignisse abgeschätzt werden) ist die statistische Behandlung auf Grund der kleinen Stichprobe mit großen Fehlern behaftet. Diese können ”extreme” groß werden, wenn Verteilungen einen extremalen Prozess schlecht beschreiben. Es gibt zwei Möglichkeiten, eine extremes Ereignis zu definieren. Wir nehmen eine univariate, unabhängig und identisch verteilte ZVA an. Nun können wir a) ein extremes Ereignis als das Maximum einer Stichprobe einer bestimmten Länge definieren, oder b) als eine Ereignis, welches einen gewissen Schwellenwert (”threshold”) überschreitet. Bei der Definition a) werden die so definierten extremen Ereignisse über die Generalisierte Extremwertverteilung (GEV für generalized extrem value distribution) beschrieben, bei b) folgen sie der Genera- 72 8 Statistische Untersuchung extremer Ereignisse lisierten Paretoverteilung (GPD für generalized Pareto distribution). Wir beschäftigen uns also im Folgenden mit diesen zwei Ansätzen der Statistik extremer Ereignisse. Einen guten und ausfühlichen Einstieg in die Extremwertanalyse bietet das Buch von Stuart Coles [11]. Wir können hier nur einen Überblick über die grundlegenden Konzepte der Extremwertanalyse geben. 8.1 Die Generalisierte Extremwertverteilung Der in diesem Abschnitt beschriebene Ansatz der Extremwertstatistik beruht auf dem FisherTippett Theorem, welches diese 1928 veröffentlichten, und welches 1943 von Gnedenko mathemetisch bewiesen wurde. Sie zeigten, dass nur 3 Klassen von Grenzverteilungen für Extreme in großen Zufallsstichproben existieren. Anwendung fand es als erstes in der Hydrologie. Gumbel, dessen Buch ”Statistics of Extremes” 1958 erschien, entwickelte die praktische Umsetzung der Extremwertstatistik. Später wurden diese 3 Klassen von Verteilungen (Fréchet, Gumbel und Weibull) zu der Generalisierten Extremwertverteilung, welche 3 Parameter hat, zusammmengefasst. Wir haben nun n unabhängige ZVA X1 , . . . , Xn mit der gleichen, unbeschränkten Verteilungsfunktion F (x) = P (Xi ≤ x). Bei der Extremwertstatik interessieren wir uns für das Maximum eines solchen Samples von ZVA Mn = max(x1 , x2 , . . . , xn ). Gleiches kann für Minima hergeleitet werden, indem die X1 , . . . , Xn durch −X1 , . . . , −Xn erzetzt werden. Die Verteilungsfunktion für das Maximum Mn ist gegeben durch durch F n (x), denn P (Mn ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x) = P (X1 ≤ x) · . . . · P (Xn ≤ x) = F n (x). (8.1) Nehmen wir an, wir lassen n gegen unendlich gehen, dann geht also die Wahrscheinlichkeit, dass das Maximum unter einem bestimmten Wert x fällt, gegen 0, und der Wert Mn gegen unendlich. Somit ist diese Grenzverteilung für n → ∞ nicht geeignet, uns Informationen über das Verhalten von Maxima großer Stichproben zu geben. Es wurden jedoch von Fisher und Tippett 1928 gezeigt, dass die Folge der Mn mit einer Folge von an und bn normiert werden kann, so dass F n (an x+bn ) gegen eine Verteilungsfunktion H(x) konvergiert. Das Fisher-Tippett-Theorem besagt also, dass die Verteilungsfunktion 73 8 Statistische Untersuchung extremer Ereignisse für das normierte Maximum M̂n = P( Mn −bn an gegen eine bestimmte Verteilung konvergiert Mn − b n ≤ x) = P (Mn ≤ an x + bn ) an = F n (an x + bn ) lim F n (an x + bn ) = H(x). (8.2) n→∞ Dabei existierten genau 3 Klassen von Grenzverteilungen: ? Gumbel-Verteilung: −x H(x) = e−e , −∞ < x < ∞ (8.3) ? Fréchet-Verteilung: α H(x) = e−x , für 0 < x < ∞ H(x) = 0 x≤0 für (8.4) ? Weibull-Verteilung: α H(x) = e−(−x) , für −∞ < x < 0 H(x) = 0 für ≥0 (8.5) Die drei Klassen von Grenzverteilungen können zu einer Verteilung, der Generalisierte Extremwertverteilung (GEV) kombiniert werden, die lautet H(x) = exp(−(1 + ζ x − µ 1/ζ ) , β (8.6) wobei µ der Ortsparameter, β der Skalenparameter und ζ der alles entscheidende ”Shape”Parameter sind, wobei der ”Shape”-Parameter die Klasse der Verteilung bestimmt. Für ζ > 0 ist die GEV vom Typ Fréchet und für ζ < 0 vom Typ Weibull. Für ζ = 0 erhalten wir die Grenzverteilung lim H(x; µ, β, ζ) = exp(−exp(− ζ→0 x−µ )). β (8.7) Diese Verteilung ist vom Typ Gumbel und wird oft als DIE Extremwertverteilung oder auch Fisher-Tippett Typ I Verteilung bezeichnet. Die Klasse der Verteilungen, für die das Fisher-Tippett Theorem gilt, ist relativ groß. Dabei entscheidet die Form der Ausläufer der Verteilung der Xi , zu welcher Klasse die Grenzverteilung der Maxima (Extreme) konvergiert. Für solche Verteilungen, deren Ausläufer langsam 74 8 Statistische Untersuchung extremer Ereignisse Abbildung 17 Beispiel für GEV mit Parameter ζ = 3/4 (Fréchet),ζ = 0 (Gumbel) und ζ = −3/4 (Weibull). gegen Eins mit 1 − F (x) ∼ cx−1/ζ wenn x → ∞, (8.8) konvergieren, erhalten wir die Klasse der Fréchet-Verteilungen. c > 0 und ζ > 0. Eine exemplarische Verteilung, die nicht nach oben begrenzt ist, ist die Pareto-Verteilung. Die einfachste Form der Paretoverteilung ist definiert als f (x) = axa−1 a > 0 x > 0. (8.9) Sie beschreibt zum Beispiel die Intensität von Unwetterschäden oder eben Einkommen. Endscheidend ist hier, dass beliebig große Werte endliche, nicht verschwindend kleine Wahrscheinlichkeiten haben. Wir hatten auch bei der Student-t-Verteilung gesehen, dass bestimmte Momente nicht existieren, da die Dichtefunktion zu langsam gegen Null abfallen. Für solche Verteilung, die sehr enge Ausläufer haben, erhalten wir die Weibull-Verteilung. Mathematisch ausgedrückt, erhalten wir dann die Weibull-Verteilung, wenn die Verteilungsfunktion F einen endlichen Endpunkt wF bezitzt, an dem F (wF ) = 1 ist, wobei F (x) < 1 für jeden anderen Punkt x < wF gilt, so dass 1 − F (wF − y) ∼ cy −1/ζ wenn y → 0. c > 0 und ζ < 0. 75 (8.10) 8 Statistische Untersuchung extremer Ereignisse Für die meisten Verteilungen konvergiert die Verteilung der Maxima gegen die GumbelVerteilung. Dabei liegt der Endpunkt wF der Verteilung im Undendlichen, allerdings konvergiert der Ausläufer der Verteilung schneller gegen Eins als im Fréchet-Fall. Die genauere Bedingung ist die ”von Mises”-Bedingung d 1 − F (x) → 0 wenn x → wF , dx f (x) (8.11) wobei f (x) die PDF der Verteilungsfunktion F (x) ist. Eine Gumbel-Verteilung erhalten wir z.B., wenn die Verteilungsfunktion F (x) die Normalverteilung, die Log-Normalverteilung, die Gamma-, oder Weibull-Verteilung u.a. annehmen, also Verteilungen, deren Ausläufer weder besonders eng, noch besonders breit sind. Einige Eigenschaften der GEV seien hier noch erwähnt. Der Erwartungswert existiert nur für ζ < 1 und die Varianz nur für ζ < 1 2 oder allgemeiner: das k-te Moment einer GEV- verteilten ZVA existiert nur für ζ < k1 . Erwartungswert und Varianz berechnen sich zu β (Γ(1 − ζ) − 1) für ζ < 1 ζ 1 Γ(1 − 2ζ) − Γ2 (1 − ζ) für ζ < . 2 E(X) = µ + V ar(X) = β2 ζ2 (8.12) (8.13) Für den Grenzfall ζ → 0 vereinfacht sich dies zu E(X) = µ + βγ β 2π2 V ar(X) = 6 mit γ = 0.5772 . . . (Euler-Konstante) (8.14) (8.15) 8.2 Die Überschreitung eines Schwellenwerts und die Generalisierte Pareto-Verteilung Eine alternative Methode der Extremwertstatistik ergibt sich aus der Definition extremer Ereignisse durch die Überschreitung eines Schwellenwertes (threshold). Hierbei wird ein Wert u gewählt und alle die Ereignisse untersucht, die diesen Schwellenwert u überschreiten. Zwei Fragen stellen sich bei diese Definition: I wieviele Ereignisse überschreiten den Schwellenwert u in einer Stichprobe einer vorgegebenen Länge, bzw. wieviele so definierte extreme Ereignisse finden in einem vorgegebenen Zeitraum statt? 76 8 Statistische Untersuchung extremer Ereignisse II wie sind die einen Schwellenwert überschreitenden Werte verteilt?4 8.2.1 Die Generalisierte Pareto-Verteilung Gegeben seien unabhängig, identisch verteilte ZVA Xi ∈ IDD mit der Verteilung F (x). Die einen Schwellwert u überschreitenden ZVA Yi = Xi − u mit Xi > u beschreiben die extremen Ereignisse. Die Verteilungsfunktion von Yi lässt sich herleiten über Fu (y) = P (Y ≤ y|X > u) = P (X − u ≤ y|X > u) = P (X ≤ u + y|X > u) F (u + y) − F (u) P (u < X ≤ u + y) = , = P (X > u) 1 − F (u) wobei benutzt wurde, dass P (Y |X) = P (X,Y ) P (X) (8.16) ist. Interessant wird es, wenn sich der Schwellenwert u dem oberen Endpunkt wF (der endlich oder unendlich sein kann) nähert. Dann nähert sich die Verteilungsfunktion Fu (y) der Überschreitungen (analog zur Grenzverteilung des normierten Maximums großer (n → ∞) Stichproben der GEV) der Generalisierten Pareto-Verteilung (GPD) y Fu (y) ≈ G(y; σu , ζ) = 1 − 1 + ζ σu − 1ζ . (8.17) D.h. für einen genügend großen Schwellenwert u existieren ein σu (welches abhängig ist von u) und ein ζ (unabhängig von u), so dass die GPD eine Näherung der Verteilung Fu (y) der Überschreitungen ist. Die Analogie zwischen den beiden Anzätzen der Extremwertstatistik präzisierte Pickands 1975 indem er zeigte, dass solche σu und ζ immer dann existieren, wenn auch eine Normierung des Maximums einer Stichprobe existiert (siehe Gl. 8.2), so dass die Verteilung des normierten Maximums gegen die GEV konvergiert. Die ζ der GEV und der GPD sind in diesem Fall identisch. Wie bei der GEV können verschieden Klassen von Verteilungen in Abhängigkeit von dem Parameter ζ unterschieden werden. 4 zu I.: Die ZVA Anzahl k der so definierten extremen Ereignisse kann bei genügend grossem Schwellenwert (so dass das Ereignis ausreichend selten ist), durch eine Poisson-Verteilung (siehe Kapitel 5.1.2) beschrieben werden. zu II.: Bei genügend großem Schwellenwert besitzten die extremen Ereignisse (analog zur GEV) eine Generalisierte Pareto-Verteilung. 77 8 Statistische Untersuchung extremer Ereignisse 1. Wenn ζ > 0 ist, dann ist die GPD nur für 0 < y < ∞ definiert. Die Ausläufer verhalten sich mit 1 − G(y; , σu , ζ) ∼ cy −1/ζ , der klassische Pareto-Ausläufer. 2. Wenn ζ < 0 ist, dann bezitzt die GPD einen oberen Endpunkt bei wG = σu /|ζ|, analog zur Weibull-Verteilung der GEV. 3. Für den Grenzfall ζ → 0 erhalten wir y G(y; σu , 0) = 1 − e− σu , welches der Exponential-Verteilung mit Erwartungswert E(Y ) = σu entspricht. Wiederum ist die Existenz bestimmter Momente von ζ abhängig. Erwartungswert und Varianz berechnen sich als E(Y ) = V ar(Y ) = σu 1−ζ für ζ < 1 σu2 (1 − ζ)2 (1 − 2ζ) (8.18) 1 für ζ < . 2 (8.19) 8.2.2 Das Poisson-GPD-Modell Um nun ein vollständiges Modell der Extremwerte zu erhalten, müssen sowohl I. (der Prozess der Überschreitung von u) als auch II. (die Verteilung der Überschreitungen) beschrieben werden. Letzteres wird durch die GPD beschrieben, während die Überschreitung durch einen Poisson-Punktprozess dargestellt werden. Dieser gibt die Verteilung der Zufallsvariable k, also die Anzahl der Überschreitungen bei gegebener Stichprobenlänge n, an. Wir kombinieren also die Information über die Verteilung der Überschreitungen mit der Anzahl k der Überschreitungen, und zwar für den einfachsten Fall, dass die dem ganzen zu Grunde liegende ZVA unabhängig und identisch verteilt ist. Wir habe also eine ZVA X ∈ IID. Für einen grossen Schwellenwert u, also genügend kleine Anzahl von Überschreitungen k beschreibt k eine Poissonverteilte ZVA mit fu (k) = λk −λ e k! und E(k) = λ, (8.20) wobei, wir erinnern uns, λ = np die mittlere Rate der Überschreitung, n die Länge der Stichprobe und p die Wahrscheinlichkeit für das Eintreten des Ereignisses ”Überschreitung” ist. 78 8 Statistische Untersuchung extremer Ereignisse Die Überschreitungen definieren neue ZVA Yi ∈ IDD mit einer GPD (8.17). Die Kombination der beiden ergibt das Poisson-GPD-Modell. Dazu wählen wir einen Wert x > u und fragen nach der Wahrscheinlichkeit, dass das Maximum der k Überschreitungen Yi kleiner ist als x. Wir wollen also eine Verteilungsfunktion für das Maximum der Überschreitungen bestimmen. P ( max ≤ x) = P (k = 0) + 0≤i≤k = = = = dabei wurde benutzt, dass P∞ ∞ X n=1 P (k = n, Y1 ≤ x, . . . , Yn ≤ x) −1/ζ !n x − u e−λ + 1− 1+ζ n! σu n=1 −1/ζ !n ∞ X λn e−λ x−u 1− 1+ζ n! σu n=0 −1/ζ n x−u λ − λ 1 + ζ σu ∞ X −λ e n! n=0 −1/ζ ! x−u exp −λ 1 + ζ σu ∞ X λn e−λ xn n=0 n! (8.21) = ex die natürliche Exponetialfunktion ergibt.ist. Erinnern wir uns, dass die GEV definiert war als x − µ 1/ζ ) ) . H(x; µ, β, ζ) = exp −(1 + ζ β (8.22) Dann sind diese beiden Ausdrücke identisch, wenn σu = β + ζ(u − µ) −1/ζ u−µ λ= 1+ζ . β Damit sind die GEV und die GPD Modelle völlig konsistent miteinander. 79 (8.23) (8.24) 9 Kleine Einführung in die Bayesische Statistik 9 Kleine Einführung in die Bayesische Statistik ACHTUNG: Vorläufige Version ! Zu Beginn ein Beispiel, welches eine der Fallen des in Kapitel 7 vorgestellten Hypothesentests darstellt. Für die normalverteilte ZVA X sei X1 , . . . , Xn eine Stichprobe mit bekannter Varianz σ = 1. Getestet werden soll die Nullhypothese H0 : µ = 0 gegen HA : einem Irtumsniveau α = 0.05 würde die Nullhypothese verworfen werden, wenn √ µ 6= 0. Bei nµ̂ > 1.96, wobei µ̂ das arithmetrische Mittel der Stichprobe ist. In Wirklichkeit ist es unwahrscheinlich, dass die Nullhypothese exakt zutrifft. Bedenken wir, dass statistischen Hypthesen immer Modelle der Wirklichkeit zu Grunde liegen, die immer mit einer Unsicherheit verbunden sind (Skalen). Ist also unsere Stichprobe sehr groß, d.h. die Daten genauer als die Unsicherheit des Modells, so werden wir fast sicher die Nullhypothese verwerfen, auch wenn die Differenz zwischen µ̂ und µ völlig unbedeutend für uns ist. Eine wesentlich angemessenere Nullhypothese wäre daher z.B. H0 : |µ| ≤ 10−3 . Warum dieses Beispiel? Bisher hatten wir Wahrscheinlichkeiten nur für zufällige Ereignisse, die aus Experimenten resultieren, definiert. Sie wurden als relative Häufigkeiten interpretiert, mit denen ein Ereignis in einem Zufallsexperiment auftritt. Daher wird diese Ansatz der Statistik auch als ”frequentistisch” bezeichnet. In der Bayes-Statistik wird der Begriff der Wahrscheinlichkeit auf alle Aussagen, insbesondere auch auf die in der ”klassischen” Statistik festen Parameter, aber auch auf alle Aussagen, erweitert. Dabei wird der Begriff der Wahrscheinlichkeit als Grad der Plausibilität einer Aussage oder auch als Unsicherheit eines Parameters verstanden. Ein weiterer wichtiger Unterschied zur frequentistische Statistik ist die ”Subjektivität” der Bayesischen Statistik. In der Bayesische Statistik wird vorhandenes Wissen in die Beurteilung einbezogen. Die Grundlegende Frage der Bayesischen Statistik ist die vom Presbyterier Mönch Thomas Bayes im 18. Jahrhundert gestellte Frage: ”Wie sollte eine Person seinen vorhandenes Wissen ändern, wenn neue Hinweise vorliegen?” Betrachten wir drei weitere Beispielen (frei nach Berger 1985 [12]): I Eine Person behauptet, sie kann unterscheiden, ob in ihrem Milchkaffee zuerst die Milch eingeschüttet oder ob die Milch in den Kaffee eingerührt wurden. II Eine Dirigentin behauptet am Notenbild die Partitionen von Mozart und Haydn un- 80 9 Kleine Einführung in die Bayesische Statistik terscheiden zu können. III Eine betrunkene Kommilitonin behauptet, dass sie das Ergebnis eines Münzwurfes vorhersagen kann. Wir können uns gut vorstellen, dass die Dirigentin kann, was sie behauptet. Der betrunkenen Kommilitonin würden wir erstmal raten, ihren Rausch auszuschlafen, und ob wir Person A glauben, hängt davon ab. Im Rahmen der frequentistischen Statistik würden wir nun eine Reihe unabhängiger Experimente durchführen, ein Signifikanzniveau festlegen und auf Grund der Ergebnisse die entsprechende Hypothese H0 : ”Die Person hat recht.” ablehnen oder akzeptieren. Die wesentliche Schwierigkeit besteht in der Aufstellung der Hypothesen und der Formulierung der Testvariablen. Jede Person führt also ihr Können 10 mal vor. Person A schafft es, in 9 von 10 Experimenten richtig zu erkennen, ob die Milch zuerst in den Kaffee geschüttet wurde oder nicht. Person B ordnet 9 von 10 Partitionen richtig zu und unsere betrunkene Kommilitonin schafft es 9 von 10 Münzwürfen richtig vorherzusagen. Beurteilen wir also nach dem Experient die Aussagen aller drei Personen gleich? NEIN! Wir würden der Person A vielleicht widerwillig zugestehen, dass sie tatsächlich schmeckt, dass die Milch in den Kaffee eingerührt wurde. Der Dirigentin würden wir sagen: ”Klar kannst Du Partitionen unterscheiden.” Und der betrunkenen Kommilitonin würden wir trotzdem nicht glauben - sie hat ganz einfach tierisch Glück gehabt. Das Beispiel soll verdeutlichen, dass das Einbinden von ”subjektivem” Vorwissen in eine Entscheidung durchaus sinnvoll sein kann und vor allem vielmehr der Wirklichkeit einer Person entspricht, die Entscheidungen fällen muss. Ob wir also willens sind unsere Meinung auf Grund neuer Daten zu korrigieren, ist von unserer a-priori Einstellung - oder eben der apriori Wahrscheinlichkeit - abhängig. Wenn ich 100% sicher bin, dass sich ein Münzwurf nicht vorhersagen lässt, wird mich auch kein Experiment vom Gegenteil überzeugen. Umgekehrt, wenn ich mir sehr unsicher bin, werde ich jeden neuen Hinweis gerne nutzen, um mir eine Meinung zu bilden. In der Bayesischen Statistik wird jeder Hinweis genutzt, der dazu dient die Unsicherheit über eine Aussage oder einen Parameter zu reduzieren. Es muss also nicht, wie in der frequentistischen Statistik, erst solange gewartet werden, bis eine ausreichend große Stichprobe zur Verfügung steht. So können Bayesische Netzwerke lernen und werden zum Beispiel bei der Konstruktion von Spam-Filtern eingesetzt. Aus die nervige Office- 81 9 Kleine Einführung in die Bayesische Statistik Büroklammer bei MS-Word soll Bayes benutzen. 9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung Um das Bayes Theorem formal einzuführen, müssen wir uns nochmal mit Wahrscheinlichkeiten insbesondere mit bedingten Wahrscheinlichkeiten, befassen. Ausgangspunkt sei ein Ereignisraum E, der in eine Menge sich gegenseitig ausschließender Ereignisse A1 , . . . , An , bzw. B1 , . . . , Bm unterteilt ist. A und B beschreiben Ereignisse, welche wir jetzt o. E. d. A. auch durch Parameter oder Aussagen ersetzen können. Für die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933): 1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit P(A) ≥ 0 (9.1) 2. Das Ereignis E (Ereignisraum) hat die Wahrscheinlichkeit 1 P(E) = 1 (9.2) 3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß A oder B eintreten, geschrieben als das Ereignis (A + B) P(A + B) = P(A) + P(B) (9.3) Schließen sich die Ereignisse A und B nicht aus, so lässt Ereignis (A + B) sich aufspalten in drei sich ausschließende Ereignisse (A + B) : AB + AB + AB (9.4) mit der Aufteilung des Ereignisses A A : AB + AB (9.5) und entsprechend für B ergibt sich für die Wahrscheinlichkeit P(A + B) P(A + B) = P(AB + AB + AB) = P(AB) + P(AB) + P(AB) = P(A) − P(AB) + P(B) − P(AB) + P(AB) = P(A) + P(B) − P(AB) 82 (9.6) 9 Kleine Einführung in die Bayesische Statistik Die ist das verallgemeinterte Summengesetzt für Wahrscheinlichkeiten. Die Kettenregel für Wahrscheinlichkeiten lautet P (AB) = P (A|B)P (B) = P (B|A)P (A). (9.7) P (A|B) ist die auf B konditionierte oder bedingte Wahrscheinlichkeit von A. Nehmen wir unser Beispiel I.: A sei die Aussage der Person, C sei das Vorwissen über die Person, nämlich die Tatsache, dass es sich um eine Dirigentin handelt. P (A|C) ist also die Plausibilität der Aussage A gegeben die die Tatsache, dass die Aussage von einer Dirigentin gemacht wurde. Bei mehreren sich nicht notwendigerweise ausschließenden Aussagen A1 , A2 , A3 lässt sich die Kettenregen mehrfach anwenden und wir erhalten P (A1 A2 A3 ) = P (A3 |A1 A2 )P (A1 A2 ) = P (A3 |A1 A2 )P (A2 |A1 )P (A1 ). (9.8) Was können wir nun mit diesen Wahrscheinlichkeiten anfangen, wenn A und B beliebige Aussagen, Ereignisse oder Parameter sind. Nehmen wir das Ereignis A, dass auch geschrieben werden kann als A = AB + AB. Die Wahrscheinlichkeit für dieses Ereignis P (A) = P (AB + AB) = P (AB) + P (AB). Seien nun Bi , i = 1, . . . , n sich ausschließende Ereignisse, so folgt P (A) = n X P (ABi ) = i=1 n X P (A|Bi )P (Bi ). i=1 Somit kann also die Wahrscheinlichkeit von A ermittelt werden als Summe über die Wahrscheinlichkeiten im Zusammenhang mit den sich ausschließenden Ereignissen Bi . 9.2 Bayes-Theorem für Wahrscheinlichkeiten - der diskrete Fall Aus Gleichung (9.7) lässt sich das Bayes-Theorem für zwei Ereignisse herleiten: P (A|B) = P (B|A)P (A) . P (B) (9.9) P (A|B) heißt die Posteriori-Wahrscheinlichkeit, P (A) die Priori-Wahrscheinlichkeit und P (B|A) die Likelihood. Wir können also jetzt als A die Aussage der Dirigentin einsetzen und als B das Ergebnis ihrer 10 Versuche. Die Wahrscheinlichkeit, die wir suchen ist die Posteriori-Wahrscheinlichkeit, nämlich gegeben das Experiment, dass wir durchgeführt 83 9 Kleine Einführung in die Bayesische Statistik haben, wie hoch ist die Plausibilität der der Aussagen A nachdem wir unsere Experiment durchgeführt haben, wenn wir vor dem Experiment der Aussagen A eine Wahrscheinlichkeit von P (A) (Priori-Wahrscheinlichkeit) zugeordnete haben. Die Likelihood gibt die Wahrscheinlichkeit des Ausgangs des Experiments unter der Bedingung an, dass die Aussage der Dirigentin A zutrifft P (B|A) und wird aus den Daten bestimmt, oder anders formuliert ist die Wahrscheinlichkeit der Daten B gegeben die Aussage A. Existieren nun n disjunkte und den Ereignisraum erschöpfende Aussagen A1 , . . . , AN , so lautet das Bayes-Theorem P (B|Ai )P (Ai ) P (Ai |B) = P (9.10) i P (B|Ai )P (Ai ) P Die Normiertung c = i P (B|Ai )P (Ai ) wird jedoch häufig weggelassen, so dass das BayesTheorem über die Proportionalitätsbedingung P (Ai |B) ∝ P (B|Ai )P (Ai ) Posteriori ∝ Likelihood ∗ Priori. (9.11) Doch wie sehen diese Wahrscheinlichkeiten aus und wie werden sie bestimmt. Die PrioriWahrscheinlichkeiten würden wir aus unserem Vorurteil ableiten. Dazu folgt später mehr, aber hier würden wir eine Zahl zwischen 0 und 1 wählen, die unsere Einschätzung der Plausibilität der Aussage widerspiegelt. Die Likelihood P (B|A) bestimmen wir aus unseren Daten, die ergab, dass k = 9 von 10 Versuchen die Aussage bestätigt haben. k ist Binominalverteilt mit den Parametern n = 10 und p. Der Parameter p gehört zur Aussage A, denn wir suchen ja die von A bedingte Wahrscheinlichkeit. Die Aussage A müsste also besser spezifiziert werden (z.B. mit einer Wahrscheinlichkeit von p = 0.8 im Falle der Dirigentin). Die Likelihood wäre also n k p (1 − p)k . (9.12) P (B|A) = k Den Normierungsfaktor P (B) können wir eventuell bestimmen aus dem Integral über alle möglichen Aussagen, in unserem Fall aller möglichen pi mit P (B) = N X B(k|n, pi )π(pi ), (9.13) i=1 wobei π die PDF des Parameter p ist und die i = 1, . . . , N andeuten sollen, dass wir den p diskrete Werte zuordnen. Dies erfordert jedoch, dass wir nicht nur die Priori-Wahrscheinlichkeit und damit p festlegen müssen, sondern wir müssen eine Verteilung der p festlegen. Dazu mehr im Kapitel 9.4.4. 84 9 Kleine Einführung in die Bayesische Statistik 9.3 Bayesische Statistik für Wahrscheinlichkeitsdichten Die Rechenregeln für die Wahrscheinlichkeiten und das Bayes-Theorem lassen sich natürlich auch für Wahrscheinlichkeitsdichten formulieren. Nehmen wir eine diskrete bivariate ZVA ~ = (X, Y ), wobei X ∈ [x1 , . . . , xn ] und Y ∈ [y1 , . . . , ym ] (Ereignisräume). Die bivariate X ~ hat die Dichteverteilung p(x, y). Als Randverteilung pX (x) wird die Summe der ZVA X bivariaten Dichteverteilung über alle möglichen Ereignisse y ∈ [y1 , . . . , ym ] definiert pX (x) = m X p(x, yi ) = i=1 m X p(x|yi )pY (yi ), (9.14) i=1 wobei wir die Kettenregel für Dichtefunktionen benutzt haben p(x, y, z) = p(x|y, z)p(y, z) = p(x|y, z)p(y|z)p(z). ~ = (X, Y ), mit X ∈ Analog gilt für eine kontinuierliche bivariate ZVA X Z ∞ Z ∞ p(x|y)pY (y)dy. p(x, y)dy = pX (x) = (9.15) und Y ∈ (9.16) −∞ −∞ Dies lässt sich natürlich auf beliebige multivariate ZVA erweitern. Die Berechnung der Randverteilung, also das Integrieren über den vollständigen Ereignisraum einer oder mehrerer Komponente der multivariaten ZVA heisst auch Marginalisierung. Wir möchten als nun mit der Bayesische Statistik einen Parameter θ schätzen, wobei uns eine Realisierung der ZVA X (Daten, Beobachtungen, Ergebnisse eines Modells, ect.) x vorliegt. Die Frage also, die wir beantworten wollen ist, wie sieht die Verteilung des zu schätzenden Parameters gegeben die Beobachtung x und unser Vorwissen über den Parameter π(θ) aus. Das Bayes-Theorem für Wahrscheinlichkeitsdichten lautet dann l(θ)π(θ) π(x|θ 0 )π(θ 0 )dθ 0 π(θ|x) ∝ l(θ) π(θ) π(θ|x) = R Posteriori-Dichte ∝ Likelihood ∗ Priori-Dichte. (9.17) (9.18) (9.19) Die Likelihood l(θ) = π(x|θ) sagt aus, dass ein θ für welches die Likelihood l(θ) groß ist, wahrscheinlicher (”more likely”) ist als eine θ für das die Likelihood klein ist. Doch wie bekommen wir nun all die Wahrscheinlichkeitsdichten, also die Priori-Dichte, die R Likelihood und die Normierung φ(x) = π(x|θ 0 )π(θ 0 )dθ 0 , in der ja wiederum die Likelihood 85 9 Kleine Einführung in die Bayesische Statistik und die Priori-Dichte stecken? Um es vorweg zu nehmen: Das ganze ist verdammt kompliziert! So lässt sich zwar ein Problem in Rahmen der Bayesische Statistik relativ anschaulich formulieren, jedoch nur in den einfachsten Fällen tatsächlich (analytische) lösen. Das war auch der Grund weswegen die Bayesische Statistik erst in den letzten 20-30 Jahren überhaupt vermehrt zur Anwendung kommt. Denn heute existieren numerische Methoden, mit denen sich die Priori-Dichten und die Likelihood relativ leicht bestimmen lassen (allerdings manchmal noch mit recht großem Rechenaufwand). Eine sehr wichtige numerische Methode zur Schätzung der unbekannten Dichten ist die ”Markov Chain Monte Carlo” Modellierung. Dazu vielleicht später noch ein Paar Worte. 9.4 Die Priori-Dichte Zuerst wenden wir uns Methoden zur Schätzung von Priori-Dichte zu. Die Priori-Dichte soll die Information ausdrücken, die bereits über den Parameter θ existiert. Sie soll aber auch nur genau diese beinhalten und nicht mehr, denn sonst würde wir unser Ergebnis verfälschen. 9.4.1 Nichtinformative Priori-Dichten Existiert kein Vorwissen über den Parameter θ so werden sogenannte ”nichtinformative Priori-Dichten” bestimmt. Für einen diskreten Parameter θ ∈ Θ aus einem Ereignisraum Θ min n Elementen ist es plausible, π(θi ) so zu wählen, dass kein θi bevorzugt würde, was bedeutet, dass θi gleichverteilt mit π(θi ) = 1 n sein muss. Für einen kontinuierlichen Parameter θ ∈] − ∞, ∞[ ist dann die nichtinformative PrioriDichte gegeben als π(θ) ∝ c für c > 0 ist eine Konstante. Da R∞ −∞ − ∞ < θ < ∞. π(θ)dθ 6= 1 ist, ist dies eigendlich keine Priori-Dichte. Es lässt sich jedoch über die Likelihood sicherstellen, dass die Normierungsbedingung zumindest R∞ für die Posteriori-Dichte −∞ π(θ|x)dθ = 1 gegeben ist. Andere nichtinformative Priori-Dichte lassen sich über Transformationen ableiten. Ist z.B. der unbekannte Parameter eine Varianz θ = σ 2 > 0, so lässt sich diese transformieren auf θ 0 = ln σ 2 . 86 9 Kleine Einführung in die Bayesische Statistik Für π(θ 0 ) wird wiederum die Gleichverteilung benutzt und mit der Transformation dθ 0 dσ 2 = 1 σ2 ergibt sich, dass die Priori-Dichte für die Varianz lautet π(θ) ∝ 1 σ2 0 < θ < ∞. für Ein Problem dabei ist, dass diese nicht mehr gleichverteilt ist, was bedeutet, dass die Form der nichtinformativen Priori-Dichte nicht invariant unter Transformation ist. Es gibt verschiedene Methoden, nichtinformative Priori-Dichten zu bestimmen, darauf will ich hier nicht weiter eingehen. Außerdem gibt es viele Pros und Contras bezüglich nichtinformativer Priori-Dichten (siehe Berger 1985, p. 87 [12]). 9.4.2 Priori-Dichte mit Maximum Entropie Methode Mit der Methode der Maximum Entropie lassen sich Priori-Dichten finden, die zwar die gegebene Information beinhalten, aber ansonsten die Unsicherheit maximieren. Die Methode sei hier nun kurz für diskrete Parameter skizziert. Sei θ ein diskreter Parameter mit Ereignisraum Θ und einer Wahrscheinlichkeitsdichte π(θ). Die Entropie der Dichtefunktion ist definiert als En(π) = − X π(θi )log π(θi ). Θ Sie misst die Unsicherheit einer Dichtefunktion. Das vorhandene Priori-Wissen über den Parameter wird in der Regel über eine Beschränkung der diskreten Dichtefunktion π(θ) eingebunden der Form E π [gk (θ)] = X π(θi )gk (θi ) = µk , k = 1, . . . , m. i Die Lösung dieses Maximierungsproblems sprengt selbst den Rahmen von [12], welches eins der ausführlichsten Bücher zu Bayesischer Entscheidungstheorie ist. Begnügen wir uns damit, denn die Maximum Entropie Methode für kontinuierliche Parameter ist noch weit komplizierter. Trotzdem ist die Methode gerade in Fällen, bei denen vorhandene Information sich in Form von Einschränkungen der Momente der Priori-Dichten ausdrücken lassen, enorm erfolgreicht und bildet die Grundlage für viele weitere Techniken, die häufig angewand werden. 9.4.3 Einschränkung der Priori-Dichten Eine Möglichkeit, die Bestimmung der Priori-Dichten zu erleichten ist die Einschränkung auf bestimmte Klassen von Dichtefunktionen. 87 9 Kleine Einführung in die Bayesische Statistik 1. Einschränkung der Priori-Dichten auf gegebene funktionale Form: Die Familie der möglichen Priori-Dichten Γ, also Auswahl der Priori-Dichten wird auf eine bestimmte funktionale Form eingeschränkt Γ = {π : π(θ) = g(θ|~λ), ~λ ∈ Λ}. ~λ ist der Parametervektor der Dichtefunktion g und heißen in diesem Fall Hyperparameter der Priori-Dichte. Die Wahl der Priori-Dichte wird also eingeschränkt auf die Bestimmung der Hyperparameter. Diese wiederum lassen sich u.U. über die Randverteilung der Daten (dazu mehr im nächsten Abschnitt) bestimmt werden. 2. Einschränkung der Priori-Dichten auf gegebene strukturelle Form: Dies betrifft die Bestimmung der Priori-Dichte für multivariate Parameter Θ = (θ1 , . . . , θn )T . Die strukturelle Einschränkung bezieht sich dann auf den Zusammenhang zwischen den Komponenten des Parameters. 3. Einschränkung der Priori-Dichten auf die Umgebung einer ausgewählten Priori-Dichte: Solche Priori-Dichten werden gewählt um die Robustheit der Ergebnisse zu testen. Ist eine Priori-Dichte π(θ)0 ausgewählt, so wird eine -kontaminierte Klasse von Verteilungen definiert als Γ = {π : π(θ) = (1 − )π0 (θ) + q(θ), q ∈ D}, wobei D die Klasse aller möglchen Konaminationen beschreibt. Die Punkte 2. und 3. sich hier nur der Vollständigkeit angeführt. Wir beschränken uns im Folgenden darauf, dass wir die Wahl der Priori-Dichte, wenn über auf, auf eine funktionale Form einschränken. 9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte Eine sehr wichtige Größe zur Bestimmung der Priori-Dichte ist die Dichtefunktion der Randverteilung von X, also die Randdichte m(x) der ZVA X (Daten). Wenn X also die Dichtefunktion f (x|θ) besitzt und θ die Wahrscheinlichkeitsdichte π(θ), dann lässt sich die gemeinsame Dichte von X und θ schreiben als Integral über den Parameter θ mit h(x, θ) = f (x|θ)π(θ) 88 9 Kleine Einführung in die Bayesische Statistik Wir definieren die Dichtefunktion der Randverteilung (Randdichte) bezüglich der Priori π(θ) als m(x|π) = Z f (x|θ)π(θ)dθ = Θ Z f (x|θ)dF π (θ). Θ Die Randdichte m(x|π) ≡ m(x) ist die Dichteverteilung, mit der tatsächlich die ZVA X (die Daten) auftreten. Die Randdichte ist deshalb so interessant, weil sie die Wahrscheinlichkeitsdichte beschreibt, mit der die ZVA Daten X tatsächlich auftritt. Die Randdichte kann zum Beispiel dazu benutzt werden, die Annahme über die Priori π(θ) oder das Modell, welches durch die Likelihood repräsentiert wird, zu testen. Denn wenn die Randdichte m(x), für das tatsächlich beobachtete x klein ist, so lieferte das Modell keile gute ”Vorhersage” der Daten. Die Wahl der Priori-Dichte oder der Likelihood sind somit zumindest suspekt. 9.5 Die Maximum-Likelihood Typ II - Methode Die Randdichte m(x|π) beschreibt also die Plausibilität der Daten bezüglich einer bestimmten Wahl von Priori-Dichte und Modell. Bei gegebenen Daten x bedeutet dies, dass wenn die Randdichte bezüglich der Priori-Dichte π1 größer ist als bezügilch π2 , also m(x|π1 ) > m(x|π2 ), dass die Daten die Priori π1 mehr unterstützen als π2 . Die Randdichte m(x|π) kann also als Likelihood-Funktion der Priori-Dichte dienen. Der natürliche Weg also, die Priori-Dichte zu bestimmen, wäre also die maximierung der Likelihood m(x|π) bezüglich π. Die Maximum-Likelihood Typ II Priori-Dichte π̂ ist also die Priori-Dichte, für die gilt m(x|π̂) = sup m(x|π). π∈Γ Γ beschreibt eine eventuelle Einschränkung der Priori-Dichten, welche die ML Methode sehr vereinfachen kann. Beschreibt Γ eine funktionale Beschränkung Γ = {π : π(θ) = g(θ|~λ), ~λ ∈ Λ, } dann wird die Maximierung bezüglich der Hyperparameter ~λ durchgeführt sup m(x|π) = sup m(x|g(θ|~λ)). π∈Γ ~λ∈Λ 89 9 Kleine Einführung in die Bayesische Statistik 9.6 Die Momente-Methode Anstatt der Maximum-Likelihood Typ II - Methode kann auch die so genannte MomenteMethode benutzt werden, um eine auf eine funktionale Form eingeschränkte Priori-Dichte zu bestimmen. Dabei werden die Momente der Randdichte in Verbindung gebracht mit den Momenten der Priori-Dichte. Erstere kann z.B. aus den Daten geschätzt werden. 9.7 Konjugierten Priori-Dichten und die Posteriori Ziel der Bayesische Statistik ist die Bestimmung der Posteriori-Dichte, welche resultiert aus der Verknüpfung des Vorwissens mit der Information aus den Daten (welche in der Regel über ein Modell geschieht, welches die Daten mit dem Parameter verbindet, der Likelihood). Diese Posteriori dient dann als Grundlage aller Entscheidungen und Schlussfolgerungen. Die Randdichte m(x) und die Posteriori sind jedoch i.A. nicht leicht zu berechnen. In vielen Fällen existieren nur numerische Lösungen. Es ist jedoch möglich, die Klasse der Priori-Dichte so zu beschänken, dass die Klasse der Posteriori-Dichte bekannt ist. Dies geschieht mit Hilfe konjugierter Familien von Wahrscheinlichkeitsdichten. Sei F eine Klasse von Dichtefunktionen f (x|θ) (Likelihood). Eine Klasse von Priodi-Dichten P heisst konjugierte Familie von F , wenn die PosterioriDichte π(θ|x) in der gleichen Klasse P wie die Priori-Dichte ist, und zwar für alle x ∈ X und alle π ∈ P. Das bedeutet, dass wir die Priori aus der Familie der zur Likelihood konjugierten Familie wählen, und die Posteriori dann der selben konjugierten Klasse angehört. Ist die Likelihood Binominalverteilt, so ist die entsprechende konjugierte Dichte aus der Familie der BetaVerteilung. Die zur Normalverteilung konjugierten Dichten sind aus der Familie der Gammaverteilung oder der Normalverteilung. Die Poisson-Verteilung hat als konjugierte Dichte die Gamma-Verteilung. Die Anwendung konjugierter Priori-Dichten hat den angenehmen Effekt, dass nur die Parameter bezüglich neuer Daten ”updated” werden, die funktionale Form verändert sich nicht. Es bleibt natürlich die Frage, ob konjugierte Dichten existieren, die eine genügend genaue Näherung der Priori darstellen. 90 9 Kleine Einführung in die Bayesische Statistik 9.8 Anwendungen Bayesische Statistik 9.8.1 Punktschätzung eines Parameters Wie in der frequentistischen Statistik seien wir an einem Schätzer des Parameters θ interessiert und möchten natürlich auch ein Maß für die Güte der Schätzung erhalten. Die Bayesische Statistik gibt uns die Posteriori-Dichte von θ an, π(θ|x), die wesentlich mehr Information enthält als eine Punktschätzung und deren Güte. Erinnern wir uns an die Maximum Likelihood Methode zur Schätzung von Parametern aus einer Stichprobe. Die zu maximierende Likelihood war die Dichte l(~λ) = f (x|~λ). Der analoge Bayesische Schätzer ist der Generalisierte Maximum Likelihood Schätzer. Der Generalisierte Maximum Likelihood Schätzer ist das θ̂, welches die Posteriori-Dichte maximiert. Dies entspricht dem Wahrscheinlichten Wert für θ bei gegebenden Daten x und Priori π(θ). Anstatt des Modus ließen sich natürlich auch noch Erwartungswert und Median angeben. Die Güte der Schẗzunge bestimmt sich auch der Varianz der Posteriori, der Posteriori Standardabweichung. Die Posteriori Standardabweichung ist meistens (nicht immer!) kleiner als die Standardabweichung des klassischen Schätzers σ, da die Einbindung von Vorwissen die Unsicherheit der Schẗzung reduziert. Eine andere Möglichkeit um die Güte einer Schätzung anzugeben ist die Angabe von Mutingsintervallen. In der Bayesischen Statistik heißen diese Kredibilitätsintervalle und lassen sich direkt aus der Posteriori ableiten. Definiert sind für den konzinuierlichen Fall als das Intervall, in dem der Parameter θ mit einer Wahrscheinlichkeit 1 − α ist Z P (C|x) = π(θ|x)dθ ≥ 1 − α. C 9.8.2 Multivariate Parameterschätzung 9.8.3 Test statistischer Hypothesen 9.8.4 Bayesiche Entscheidungstheorie 91 Literatur Literatur [1] Kolmogoroff A., Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin, Springer, 1933 [2] Schönwiese, C.D., Praktische Statistik, Gebr. Borntraeger, Berlin 1985 [3] Brandt, S., Datenanalyse, BI Wissenschaftsverlag 1981 [4] Kreyszig, E., Statistische Methoden und ihre Anwendungen, Vandenhoeck und Ruprecht, 1975 [5] Taubenheim, J., Statistische Auswertung geopysikalischer und meteorologischer Daten, Leipzig, Akademische Verlagsgesellschaft, 1979 (wird nicht mehr aufgelegt) [6] Press, W.H., Flannery, B.P., Teukalsky, S.A., Vetterling W.T., Numerical Recipes, Cambridge University Press, 1986 [7] Schuster, Deterministic Chaos, An Introduction, Physik - Verlag, Weinheim [8] Morrison, D.F., Multivariate Statistical Methods, McGraw Hill Series in Probability and Statistics [9] Anderson, T.W., An Introduction to Multivariate Statistical Analysis, 2nd Edition, J. Wiley & Sons, [10] Proc. Int. Math. Congress, Toronto 1924 [11] Coles, S., An Introduction to Statistical Modelling of Extreme Values. Springer Series in Statistics, London 2001, 208p. [12] Berger, J.O., Statistical Decision Theory and Bayesian Analysis, 2nd Edition, Springer 1985 92