skript

Werbung
Spezielle Verteilungen
Prof. Sabine Attinger
Jun. Prof. Anke Hildebrandt
15.05.2012
Geostatistik
Beschreibende Statistik
Lagemaße:
1 n
µ = x = ∑ xi
n i =1
1.  Mittelwert:
3.  Median=0.5 Perzentil
15.05.2012
Geostatistik
Beschreibende Statistik
Streumaße:
1.  Reichweite:
V = ( xmax − xmin )
3.  Varianz:
1 n
2
σ = ∑ (xi − x )
n i =1
4.  Standardabweichung
σ = σ2
s = s2
σ
CV =
µ
s
CV =
x
2
5.  Variationskoeffizient:
15.05.2012
Geostatistik
Beschreibende Statistik
Schiefe:
g=
15.05.2012
3
1 n
∑ ( x − xi )
n −1 i =1
s3
Geostatistik
Statistik
•  Beschreibende Statistik
–  Stichproben/Ereignisse
–  Grundgesamtheit
–  Grafische Darstellung, Maße, Perzentile
•  Schließende Statistik:
–  Wahrscheinlichkeit
–  Zufallsvariable
–  Spezielle Verteilungen
15.05.2012
Geostatistik
Wahrscheinlichkeit
Verteilungsfunktion F(x):
= die Wahrscheinlichkeit einer Zufallsvariable kleiner oder
gleich als x zu sein
Wahrscheinlichkeitsdichte f(x) für diskrete Zufallsvariablen
=Wahrscheinlichkeit, exakt x_i anzunehmen
15.05.2012
Geostatistik
Wahrscheinlichkeit
Wahrscheinlichkeitsdichte f(x) (kontinuierliche
Variablen):
∞
∫ f ( x) = 1
−∞
15.05.2012
Geostatistik
Wahrscheinlichkeit
•  Wahrscheinlichkeitsdichte f(x) (kontinuierlich):
∞
∫ f ( x) = 1
−∞
•  Verteilungsfunktion F(x):
x
F ( x) =
∫ f ( x)
−∞
15.05.2012
Geostatistik
Maße
•  Mittelwert
+∞
N
E( X ) = µ =
E ( X ) = µ = ∑ xi ⋅ f ( xi )
i =1
−∞
discrete
15.05.2012
∫ x ⋅ f ( x) dx
continuous
Geostatistik
Maße
•  Mittelwert
+∞
N
E( X ) = µ =
E ( X ) = µ = ∑ xi ⋅ f ( xi )
i =1
∫ x ⋅ f ( x) dx
−∞
•  Varianz
2
N
2
Var ( X ) = σ = ∑ (xi − µ ) ⋅ f ( xi )
+∞
2
Var ( X ) = σ =
i =1
−∞
diskret
15.05.2012
2
(
)
x
−
µ
⋅ f ( x)
∫
kontinuierlich
Geostatistik
Das Bild kann nicht angezeigt werden. Dieser Computer verfügt möglicherweise über zu wenig Arbeitsspeicher, um das Bild zu öffnen, oder das Bild ist beschädigt. Starten Sie den Computer neu, und öffnen Sie dann erneut die Datei. Wenn weiterhin das rote x
angezeigt wird, müssen Sie das Bild möglicherweise löschen und dann erneut einfügen.
Perzentil
Definition: Das
als
.
α -Quantil Qα
ist definiert als der Wert, bei dem der
α te-Teil der Daten kleiner ist and 1- α
Qα
te-Teil größer ist
P( X < Qα ) = α
Die Definition für das Perzentil ist ähnlich, nur ein Prozenten
ausgedrückt.
Qα = P100α %
15.05.2012
Geostatistik
Perzentil
p – Perzentil (- Quantil)
0.90 – Perzentil
0.75 – Perzentil (upper Quartile)
0.50 – Perzentil (Median)
0.25 – Perzentil (Lower Quartile)
0.10 – Perzentil
15.05.2012
Geostatistik
Box-Whisker-Plot
15.05.2012
Geostatistik
Spezielle Verteilungen/
Wahrscheinlichkeitsdichten
• 
• 
• 
• 
• 
• 
Binomial Verteilung
Bernoulli Verteilung
Poisson Verteilung
Normal Verteilung
Log-Normal Verteilung
Gamma Verteilung
15.05.2012
Geostatistik
Bernoulli Verteilung
Wenn die Ergebnisse eines Zufallsexperiments in zwei Ereignisse A
und B zusammengefasst werden können, gilt für die
Wahrscheinlichkeit der Ereignisse
P(A=1)=p
P(B=0)=q=1-p
diese Verteilung heißt Bernoulli Verteilung, nach dem Schweizer
Jacob Bernoulli. Es ist eine diskrete Verteilung, die den Wert 1 mit
der Wahrscheinlichkeit p und den Wert 0 mit der Wahrscheinlichkeit
q = 1 − p annimmt.
15.05.2012
Geostatistik
Binomial Verteilung
•  Die Binomialverteilung ist eine der wichtigsten
diskreten Wahrscheinlichkeitsverteilungen.
•  Sie beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen
und unabhängigen Versuchen, die jeweils genau zwei mögliche
Ergebnisse haben („Erfolg“ oder „Misserfolg“). Solche VersuchsSerien werden auch Bernoulli-Prozesse genannt.
⎛ N ⎞ x
p( x) = ⎜⎜ ⎟⎟ p (1 − p) N − x
⎝ x ⎠
•  Der Spezialfall N=1 entspricht gerade der Bernoulli Verteilung.
15.05.2012
Geostatistik
Beispiel
Für ein See wurde in den letzten 220 Jahren aufgezeichnet, wann er
zugefroren war.
Wie hoch ist die Wahrscheinlichkeit, daß der See
1. 
2. 
3. 
im nächsten Jahr zufriert?
genau einmal in den nächsten 10 Jahren zufriert?
mindestens einmal in den nächsten 10 Jahren
zufriert?
15.05.2012
Geostatistik
Jahre
Jahre
1796
1904
1816
1912
1856
1934
1875
1961
1884
1979
Poisson Verteilung
•  Die Poisson Verteilung ist eine diskrete Verteilung die die
Wahrscheinlichkeit seltener Ereignisse beschreibt.
Die Verteilung wurde von Siméon Denis Poisson (1781–1840)
eingeführt.
Das Bild kann nicht angezeigt werden. Dieser Computer verfügt möglicherweise über zu wenig Arbeitsspeicher, um das Bild zu
öffnen, oder das Bild ist beschädigt. Starten Sie den Computer neu, und öffnen Sie dann erneut die Datei. Wenn weiterhin das
rote x angezeigt wird, müssen Sie das Bild möglicherweise löschen und dann erneut einfügen.
•  Wenn die erwartete Anzahl von Ereignissen in einem Intervall
gleich λ ist, dann ist die Wahrscheinlichkeit, daß es genau k
Ereignisse gibt
f (X = k) =
λk e − λ
k!
λk e −λ
E( X ) = ∑ k
=λ
k!
2
Var ( X ) = ∑ (k − E ( X ) )
15.05.2012
Geostatistik
λk e −λ
k!
=λ
Beispiel
Der Staat New York wird häufiger von Tornados heimgesucht. Die 30jährigen Aufzeichnungen sagen folgendes:
Nehmen Sie an, daß das Auftreten von
Tornados einer Poisson Verteilung
gehorcht.
Stellen Sie die Poisson Verteilung auf!
15.05.2012
Geostatistik
1959 3
1969
7
1979
3
1960 4
1970
4
1980
4
1961 5
1971
5
1981
3
1962 1
1972
6
1982
3
1963 3
1973
6
1983
8
1964 1
1974
6
1984
6
1965 5
1975
3
1985
7
1966 1
1976
7
1986
9
1967 2
1977
5
1987
6
1968 2
1978
8
1988
5
Normal Verteilung
Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist ein
wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre
Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gauß-Kurve,
Gauß-Glocke, Gaußsche Glockenkurve oder schlicht Glockenkurve
genannt.
f ( x) =
15.05.2012
Geostatistik
1
⋅e
σ 2π
1 ⎛ x − µ ⎞
− ⎜
⎟
2 ⎝ σ ⎠
2
Normalverteilung
Die besondere Bedeutung der Normalverteilung beruht unter anderem
auf dem zentralen Grenzwertsatz, der besagt, dass eine Summe
von n unabhängigen, identisch verteilten Zufallsvariablen im
Grenzwert normalverteilt ist. Das bedeutet, dass man
Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie
durch Überlagerung einer großen Zahl von unabhängigen
Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im
Verhältnis zur Gesamtsumme unbedeutenden Beitrag liefert.
Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung
zufälliger Vorgänge wie:
•  zufällige Messfehler,
•  zufällige Abweichungen vom Nennmaß bei der Fertigung von
Werkstücken,
•  Beschreibung der brownschen Molekularbewegung.
15.05.2012
Geostatistik
Normalverteilung
1
f ( x) =
⋅e
σ 2π
1 ⎛ x − µ ⎞
− ⎜
⎟
2 ⎝ σ ⎠
E(X ) = µ
Var(X) = σ 2
15.05.2012
Geostatistik
2
Lognormal Verteilung
Die Lognormalverteilung ist eine Verteilung, die sich
ergibt, wenn man normalverteilte logarithmierte Werte
zugrunde legt.
15.05.2012
Geostatistik
Lognormal Verteilung
15.05.2012
Geostatistik
Gamma Verteilung
Viele atmosphärischen Variablen sind gammaverteilt:
α −1
⎛ x ⎞
⎜⎜ ⎟⎟
β
f ( x) = ⎝ ⎠
⎛ x ⎞
exp⎜⎜ − ⎟⎟
⎝ β ⎠
βΓ(α )
E(X) = αβ
Var(X) = αβ 2
15.05.2012
Geostatistik
Beispiel
Wir nehmen an, daß die Verteilung der Januar Niederschlagswerte in
Ithaka (Tabelle A.2) einer Gamma-Verteilung folgt.
Stellen Sie die Verteilung auf!
15.05.2012
Geostatistik
Fitten von Verteilungen
Anpassen der theoretischen Verteilung
durch
•  Vergleich mit Histogramm mithilfe der
Methode der kleinsten Fehlerquadrate
•  Quantil-Quantil-Plots
•  Maximum Likelihood
15.05.2012
Geostatistik
Methode der kleinsten
Fehlerquadrate
•  Die Methode der kleinsten Quadrate (engl.: method of
least squares) ist das mathematische Standardverfahren
zur Ausgleichungsrechnung.
•  Dabei wird zu einer Datenpunktwolke eine Kurve
gesucht, die möglichst nahe an den Datenpunkten
verläuft.
•  Die Methode der kleinsten Quadrate besteht dann darin,
die Kurvenparameter so zu bestimmen, dass die Summe
der quadratischen Abweichungen der Kurve von den
beobachteten Punkten minimiert wird. Die
Abweichungen werden Residuen genannt.
15.05.2012
Geostatistik
Methode der kleinsten
Fehlerquadrate
N
min!= ∑ ( f (xi , β j ) − yi )
2
i =1
Quelle: Wikipedia
15.05.2012
Geostatistik
Quantil-Quantil-Plots
Ein Quantile-Quantile-Plot (Q-Quantil-Diagramm) ist
ein exploratives, grafisches Werkzeug, in dem die
Quantile zweier statistischer Variablen
gegeneinander abgetragen werden, um ihre
Verteilungen zu vergleichen.
Stammen die Messdaten tatsächlich aus der
angenommenen Verteilung, liegen die Wertepaare
ungefähr auf einer Linie.
Wenn die Vergleichsverteilung für die Merkmalswerte
nicht passt, gibt es mehr oder weniger starke
Abweichungen von der Linie; die Verteilung kann
dann nicht als Ursprungsverteilung der
Merkmalswerte angenommen werden.
15.05.2012
Geostatistik
Quelle: http://www.bb-sbl.de/tutorial/verteilungen/
qqplot.html
Maximum Likelihood
Die Maximum-Likelihood-Methode (von engl. maximale
Wahrscheinlichkeit) bezeichnet in der Statistik ein parametrisches
Schätzverfahren.
•  Bei der Maximum-Likelihood-Methode wird von einer
Zufallsvariablen ausgegangen, deren Dichte- bzw.
Wahrscheinlichkeitsfunktion von einem Parameter abhängt. Liegt
eine einfache Zufallsstichprobe mit unabhängigen und identisch
verteilten Realisationen vor, so lässt sich die Dichtefunktion bzw.
Wahrscheinlichkeitsfunktion wie folgt faktorisieren:
N
L(β j ) = ∏ f (xi ; β j )
i =1
15.05.2012
Geostatistik
Maximum Likelihood
•  Wird diese Funktion in Abhängigkeit von den Parametern der
Verteilung maximiert, so erhält man die Maximum-LikelihoodSchätzung für diese Parameter.
•  Häufig arbeitet man auch mit dem Logarithmus von L und
maximiert lnL.
N
N
i =1
i =1
ln L(β j ) = ln ∏ f (xi ; β j ) = ∑ ln f (xi ; β j )
15.05.2012
Geostatistik
Maximum Likelihood
•  Wir stellen die Likelihood-Funktion bzw. Log-Likelihood Funktion
einmal für die Normalverteilung auf:
15.05.2012
Geostatistik
Beispiel
Um die Parameter der Gamma-Verteilung zu schätzen wird gern die
Maximum-Likelihood Methode benutzt, allerdings muß man dabei
auf Approximationen zu zurückgreifen, weil man nicht explizit nach
den Parametern der Verteilung auflösen kann. Dazu wird die
Größe D definiert:
N
D = ln(x ) − 1 / N ∑ ln(xi )
i =1
Nach Thom (1958) folgen dann die Parameter zu:
α=
1 + 1 + 4D / 3
4D
Es gibt auch noch andere Approximationen (siehe Wilks, Seite 97)
15.05.2012
Geostatistik
15.05.2012
Geostatistik
Übung 1
15.05.2012
Geostatistik
Übung 2
•  Bitte berechnen Sie den Mittelwert und die Varianz der
Bernoulli-Verteilung!
15.05.2012
Geostatistik
Bernoulli Distribution
15.05.2012
Geostatistik
Übung 3
Auf der Erde gibt es pro Jahr im Mittel ein Erdbeben mit
einer Stärke 8 oder mehr auf der Richterskala.
a)  Mit welcher Wahrscheinlichkeit gibt es im nächsten
Jahr mehr als zwei solche Erdbeben?
b)  Wieviele Jahre im Zeitraum 2011 bis 2060 mit
höchstens einem solch starken Erdbeben können wir
erwarten?
Hinweis: Die Anzahl Erdbeben pro Jahr soll Poisson-verteilt
sein.
15.05.2012
Geostatistik
Übung 3
In Japan, gibt es im Jahresmittel 50 Erdbeben.
Wie hoch ist die Wahrscheinlichkeit, daß sich im nächsten
Monat 3 Erdbeben ereignen, wenn man annimmt, daß
die Erbeben einer Poisson Verteilung folgen?
15.05.2012
Geostatistik
Poisson Verteilung
15.05.2012
Geostatistik
Poisson Verteilung
15.05.2012
Geostatistik
15.05.2012
Geostatistik
Übung 4
15.05.2012
Geostatistik
Übung 4
•  Please plot the distribution of the porosities in sand
stone.
•  It looks like which specific probabiity distribution?
•  Please determine the parameters of this distribution!
Write down explicitly the probability distribution!
15.05.2012
Geostatistik
Example
15.05.2012
Geostatistik
Solution - Mean
15.05.2012
Geostatistik
Solution - Variance
15.05.2012
Geostatistik
Herunterladen