Spezielle Verteilungen Prof. Sabine Attinger Jun. Prof. Anke Hildebrandt 15.05.2012 Geostatistik Beschreibende Statistik Lagemaße: 1 n µ = x = ∑ xi n i =1 1. Mittelwert: 3. Median=0.5 Perzentil 15.05.2012 Geostatistik Beschreibende Statistik Streumaße: 1. Reichweite: V = ( xmax − xmin ) 3. Varianz: 1 n 2 σ = ∑ (xi − x ) n i =1 4. Standardabweichung σ = σ2 s = s2 σ CV = µ s CV = x 2 5. Variationskoeffizient: 15.05.2012 Geostatistik Beschreibende Statistik Schiefe: g= 15.05.2012 3 1 n ∑ ( x − xi ) n −1 i =1 s3 Geostatistik Statistik • Beschreibende Statistik – Stichproben/Ereignisse – Grundgesamtheit – Grafische Darstellung, Maße, Perzentile • Schließende Statistik: – Wahrscheinlichkeit – Zufallsvariable – Spezielle Verteilungen 15.05.2012 Geostatistik Wahrscheinlichkeit Verteilungsfunktion F(x): = die Wahrscheinlichkeit einer Zufallsvariable kleiner oder gleich als x zu sein Wahrscheinlichkeitsdichte f(x) für diskrete Zufallsvariablen =Wahrscheinlichkeit, exakt x_i anzunehmen 15.05.2012 Geostatistik Wahrscheinlichkeit Wahrscheinlichkeitsdichte f(x) (kontinuierliche Variablen): ∞ ∫ f ( x) = 1 −∞ 15.05.2012 Geostatistik Wahrscheinlichkeit • Wahrscheinlichkeitsdichte f(x) (kontinuierlich): ∞ ∫ f ( x) = 1 −∞ • Verteilungsfunktion F(x): x F ( x) = ∫ f ( x) −∞ 15.05.2012 Geostatistik Maße • Mittelwert +∞ N E( X ) = µ = E ( X ) = µ = ∑ xi ⋅ f ( xi ) i =1 −∞ discrete 15.05.2012 ∫ x ⋅ f ( x) dx continuous Geostatistik Maße • Mittelwert +∞ N E( X ) = µ = E ( X ) = µ = ∑ xi ⋅ f ( xi ) i =1 ∫ x ⋅ f ( x) dx −∞ • Varianz 2 N 2 Var ( X ) = σ = ∑ (xi − µ ) ⋅ f ( xi ) +∞ 2 Var ( X ) = σ = i =1 −∞ diskret 15.05.2012 2 ( ) x − µ ⋅ f ( x) ∫ kontinuierlich Geostatistik Das Bild kann nicht angezeigt werden. Dieser Computer verfügt möglicherweise über zu wenig Arbeitsspeicher, um das Bild zu öffnen, oder das Bild ist beschädigt. Starten Sie den Computer neu, und öffnen Sie dann erneut die Datei. Wenn weiterhin das rote x angezeigt wird, müssen Sie das Bild möglicherweise löschen und dann erneut einfügen. Perzentil Definition: Das als . α -Quantil Qα ist definiert als der Wert, bei dem der α te-Teil der Daten kleiner ist and 1- α Qα te-Teil größer ist P( X < Qα ) = α Die Definition für das Perzentil ist ähnlich, nur ein Prozenten ausgedrückt. Qα = P100α % 15.05.2012 Geostatistik Perzentil p – Perzentil (- Quantil) 0.90 – Perzentil 0.75 – Perzentil (upper Quartile) 0.50 – Perzentil (Median) 0.25 – Perzentil (Lower Quartile) 0.10 – Perzentil 15.05.2012 Geostatistik Box-Whisker-Plot 15.05.2012 Geostatistik Spezielle Verteilungen/ Wahrscheinlichkeitsdichten • • • • • • Binomial Verteilung Bernoulli Verteilung Poisson Verteilung Normal Verteilung Log-Normal Verteilung Gamma Verteilung 15.05.2012 Geostatistik Bernoulli Verteilung Wenn die Ergebnisse eines Zufallsexperiments in zwei Ereignisse A und B zusammengefasst werden können, gilt für die Wahrscheinlichkeit der Ereignisse P(A=1)=p P(B=0)=q=1-p diese Verteilung heißt Bernoulli Verteilung, nach dem Schweizer Jacob Bernoulli. Es ist eine diskrete Verteilung, die den Wert 1 mit der Wahrscheinlichkeit p und den Wert 0 mit der Wahrscheinlichkeit q = 1 − p annimmt. 15.05.2012 Geostatistik Binomial Verteilung • Die Binomialverteilung ist eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen. • Sie beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils genau zwei mögliche Ergebnisse haben („Erfolg“ oder „Misserfolg“). Solche VersuchsSerien werden auch Bernoulli-Prozesse genannt. ⎛ N ⎞ x p( x) = ⎜⎜ ⎟⎟ p (1 − p) N − x ⎝ x ⎠ • Der Spezialfall N=1 entspricht gerade der Bernoulli Verteilung. 15.05.2012 Geostatistik Beispiel Für ein See wurde in den letzten 220 Jahren aufgezeichnet, wann er zugefroren war. Wie hoch ist die Wahrscheinlichkeit, daß der See 1. 2. 3. im nächsten Jahr zufriert? genau einmal in den nächsten 10 Jahren zufriert? mindestens einmal in den nächsten 10 Jahren zufriert? 15.05.2012 Geostatistik Jahre Jahre 1796 1904 1816 1912 1856 1934 1875 1961 1884 1979 Poisson Verteilung • Die Poisson Verteilung ist eine diskrete Verteilung die die Wahrscheinlichkeit seltener Ereignisse beschreibt. Die Verteilung wurde von Siméon Denis Poisson (1781–1840) eingeführt. Das Bild kann nicht angezeigt werden. Dieser Computer verfügt möglicherweise über zu wenig Arbeitsspeicher, um das Bild zu öffnen, oder das Bild ist beschädigt. Starten Sie den Computer neu, und öffnen Sie dann erneut die Datei. Wenn weiterhin das rote x angezeigt wird, müssen Sie das Bild möglicherweise löschen und dann erneut einfügen. • Wenn die erwartete Anzahl von Ereignissen in einem Intervall gleich λ ist, dann ist die Wahrscheinlichkeit, daß es genau k Ereignisse gibt f (X = k) = λk e − λ k! λk e −λ E( X ) = ∑ k =λ k! 2 Var ( X ) = ∑ (k − E ( X ) ) 15.05.2012 Geostatistik λk e −λ k! =λ Beispiel Der Staat New York wird häufiger von Tornados heimgesucht. Die 30jährigen Aufzeichnungen sagen folgendes: Nehmen Sie an, daß das Auftreten von Tornados einer Poisson Verteilung gehorcht. Stellen Sie die Poisson Verteilung auf! 15.05.2012 Geostatistik 1959 3 1969 7 1979 3 1960 4 1970 4 1980 4 1961 5 1971 5 1981 3 1962 1 1972 6 1982 3 1963 3 1973 6 1983 8 1964 1 1974 6 1984 6 1965 5 1975 3 1985 7 1966 1 1976 7 1986 9 1967 2 1977 5 1987 6 1968 2 1978 8 1988 5 Normal Verteilung Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gauß-Kurve, Gauß-Glocke, Gaußsche Glockenkurve oder schlicht Glockenkurve genannt. f ( x) = 15.05.2012 Geostatistik 1 ⋅e σ 2π 1 ⎛ x − µ ⎞ − ⎜ ⎟ 2 ⎝ σ ⎠ 2 Normalverteilung Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten Zufallsvariablen im Grenzwert normalverteilt ist. Das bedeutet, dass man Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis zur Gesamtsumme unbedeutenden Beitrag liefert. Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie: • zufällige Messfehler, • zufällige Abweichungen vom Nennmaß bei der Fertigung von Werkstücken, • Beschreibung der brownschen Molekularbewegung. 15.05.2012 Geostatistik Normalverteilung 1 f ( x) = ⋅e σ 2π 1 ⎛ x − µ ⎞ − ⎜ ⎟ 2 ⎝ σ ⎠ E(X ) = µ Var(X) = σ 2 15.05.2012 Geostatistik 2 Lognormal Verteilung Die Lognormalverteilung ist eine Verteilung, die sich ergibt, wenn man normalverteilte logarithmierte Werte zugrunde legt. 15.05.2012 Geostatistik Lognormal Verteilung 15.05.2012 Geostatistik Gamma Verteilung Viele atmosphärischen Variablen sind gammaverteilt: α −1 ⎛ x ⎞ ⎜⎜ ⎟⎟ β f ( x) = ⎝ ⎠ ⎛ x ⎞ exp⎜⎜ − ⎟⎟ ⎝ β ⎠ βΓ(α ) E(X) = αβ Var(X) = αβ 2 15.05.2012 Geostatistik Beispiel Wir nehmen an, daß die Verteilung der Januar Niederschlagswerte in Ithaka (Tabelle A.2) einer Gamma-Verteilung folgt. Stellen Sie die Verteilung auf! 15.05.2012 Geostatistik Fitten von Verteilungen Anpassen der theoretischen Verteilung durch • Vergleich mit Histogramm mithilfe der Methode der kleinsten Fehlerquadrate • Quantil-Quantil-Plots • Maximum Likelihood 15.05.2012 Geostatistik Methode der kleinsten Fehlerquadrate • Die Methode der kleinsten Quadrate (engl.: method of least squares) ist das mathematische Standardverfahren zur Ausgleichungsrechnung. • Dabei wird zu einer Datenpunktwolke eine Kurve gesucht, die möglichst nahe an den Datenpunkten verläuft. • Die Methode der kleinsten Quadrate besteht dann darin, die Kurvenparameter so zu bestimmen, dass die Summe der quadratischen Abweichungen der Kurve von den beobachteten Punkten minimiert wird. Die Abweichungen werden Residuen genannt. 15.05.2012 Geostatistik Methode der kleinsten Fehlerquadrate N min!= ∑ ( f (xi , β j ) − yi ) 2 i =1 Quelle: Wikipedia 15.05.2012 Geostatistik Quantil-Quantil-Plots Ein Quantile-Quantile-Plot (Q-Quantil-Diagramm) ist ein exploratives, grafisches Werkzeug, in dem die Quantile zweier statistischer Variablen gegeneinander abgetragen werden, um ihre Verteilungen zu vergleichen. Stammen die Messdaten tatsächlich aus der angenommenen Verteilung, liegen die Wertepaare ungefähr auf einer Linie. Wenn die Vergleichsverteilung für die Merkmalswerte nicht passt, gibt es mehr oder weniger starke Abweichungen von der Linie; die Verteilung kann dann nicht als Ursprungsverteilung der Merkmalswerte angenommen werden. 15.05.2012 Geostatistik Quelle: http://www.bb-sbl.de/tutorial/verteilungen/ qqplot.html Maximum Likelihood Die Maximum-Likelihood-Methode (von engl. maximale Wahrscheinlichkeit) bezeichnet in der Statistik ein parametrisches Schätzverfahren. • Bei der Maximum-Likelihood-Methode wird von einer Zufallsvariablen ausgegangen, deren Dichte- bzw. Wahrscheinlichkeitsfunktion von einem Parameter abhängt. Liegt eine einfache Zufallsstichprobe mit unabhängigen und identisch verteilten Realisationen vor, so lässt sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion wie folgt faktorisieren: N L(β j ) = ∏ f (xi ; β j ) i =1 15.05.2012 Geostatistik Maximum Likelihood • Wird diese Funktion in Abhängigkeit von den Parametern der Verteilung maximiert, so erhält man die Maximum-LikelihoodSchätzung für diese Parameter. • Häufig arbeitet man auch mit dem Logarithmus von L und maximiert lnL. N N i =1 i =1 ln L(β j ) = ln ∏ f (xi ; β j ) = ∑ ln f (xi ; β j ) 15.05.2012 Geostatistik Maximum Likelihood • Wir stellen die Likelihood-Funktion bzw. Log-Likelihood Funktion einmal für die Normalverteilung auf: 15.05.2012 Geostatistik Beispiel Um die Parameter der Gamma-Verteilung zu schätzen wird gern die Maximum-Likelihood Methode benutzt, allerdings muß man dabei auf Approximationen zu zurückgreifen, weil man nicht explizit nach den Parametern der Verteilung auflösen kann. Dazu wird die Größe D definiert: N D = ln(x ) − 1 / N ∑ ln(xi ) i =1 Nach Thom (1958) folgen dann die Parameter zu: α= 1 + 1 + 4D / 3 4D Es gibt auch noch andere Approximationen (siehe Wilks, Seite 97) 15.05.2012 Geostatistik 15.05.2012 Geostatistik Übung 1 15.05.2012 Geostatistik Übung 2 • Bitte berechnen Sie den Mittelwert und die Varianz der Bernoulli-Verteilung! 15.05.2012 Geostatistik Bernoulli Distribution 15.05.2012 Geostatistik Übung 3 Auf der Erde gibt es pro Jahr im Mittel ein Erdbeben mit einer Stärke 8 oder mehr auf der Richterskala. a) Mit welcher Wahrscheinlichkeit gibt es im nächsten Jahr mehr als zwei solche Erdbeben? b) Wieviele Jahre im Zeitraum 2011 bis 2060 mit höchstens einem solch starken Erdbeben können wir erwarten? Hinweis: Die Anzahl Erdbeben pro Jahr soll Poisson-verteilt sein. 15.05.2012 Geostatistik Übung 3 In Japan, gibt es im Jahresmittel 50 Erdbeben. Wie hoch ist die Wahrscheinlichkeit, daß sich im nächsten Monat 3 Erdbeben ereignen, wenn man annimmt, daß die Erbeben einer Poisson Verteilung folgen? 15.05.2012 Geostatistik Poisson Verteilung 15.05.2012 Geostatistik Poisson Verteilung 15.05.2012 Geostatistik 15.05.2012 Geostatistik Übung 4 15.05.2012 Geostatistik Übung 4 • Please plot the distribution of the porosities in sand stone. • It looks like which specific probabiity distribution? • Please determine the parameters of this distribution! Write down explicitly the probability distribution! 15.05.2012 Geostatistik Example 15.05.2012 Geostatistik Solution - Mean 15.05.2012 Geostatistik Solution - Variance 15.05.2012 Geostatistik