Geostatistik
•
•
•
•
•
•
Einführung
Statistische Grundbegriffe
Geostatistische Begriffe
Variogramm
Explorative Datenanalyse
Prädiktion und Krigen
Ausgleichungsrechnung II
Gerhard Navratil
Was ist Geostatistik?
• Statistik, die sich auf die Erde bezieht
• Problem: Erde hält sich nicht immer an
mathematisch wünschenswerte Eigenschaften
(Stetigkeit)
• In verschiedenen Geowissenschaften angewendet (Geographie, Geologie, Geophysik etc.)
• Noel Cressie: Statistische Theorie im Zusammenhang mit Prozessen, die mit räumlichen
Indizes behaftet sind.
Ausgleichungsrechnung II
Gerhard Navratil
Definition Geostatistik (1)
• Modellierung von Daten als Realisierung
eines Zufallsprozesses
{Z(x):xD}
wobei D der d-dimensionale Raum ist und
x darin variieren kann.
• In der Praxis: Schätzungen aufgrund
weniger Proben
Ausgleichungsrechnung II
Gerhard Navratil
Definition Geostatistik (2)
• Zeitlich-räumlicher Prozess: Dann definiert
über
{Z(x,t):xD, tT}
• Im folgenden: Datenbereich rein räumlich,
auch wenn über größerer Zeitraum
erhoben
• Gezeigt wird: Schließen von Daten an
bekannten Orten auf den Prozess
Ausgleichungsrechnung II
Gerhard Navratil
Definition Geostatistik (3)
• Geostatistik = Anwendung stochastischer
Prozesse in den Geowissenschaften
• Dient Analyse und Modellierung raumbezogener Daten
• Bei ‚einfacher‘ Ausgleichungsrechnung
Raumbezug nicht verwendet
Ausgleichungsrechnung II
Gerhard Navratil
Geostatistik = Arbeit im Team
• Daten verschiedenster Herkunft
Teamarbeit, z.B. Geologe, Montanist,
Finanzmanager, Statistiker
• Aufgaben des Statistikers
– Erstellen eines Probenplanes
– Zusammenfassen/Visualisieren der Daten
– Suche nach Ausreißern/räuml. Strukturen
– Schätzen von Gesamt-/Durchschnittswerten
– Inter- und Extrapolation
Ausgleichungsrechnung II
Gerhard Navratil
Beispiele
• Exploration von Erzlagerstätten oder
Erdölvorkommen
• Analyse von Bodenverunreinigungen
• Niederschlagsmengen/Temperaturwerte
prädizieren
• Grundwassermodellierung
Ausgleichungsrechnung II
Gerhard Navratil
Datengewinnung
z.B.
• Entnahme von Bodenproben
• Erfassung mittels Messgeräten
• Direkte Beobachtung
Ausgleichungsrechnung II
Gerhard Navratil
Verwendetes Beispiel
• Aus Cressie: Statistics for Spatial Data
• Messungen des Kohlengehaltes auf dem
Gelände der Robena-Mine (Pennsylvania)
• Nahezu regelmäßiger Raster mit einer
Maschenweite von 2500ft (~750m)
• Kein rechteckiges Gebiet
Ausgleichungsrechnung II
Gerhard Navratil
Statistische Grundbegriffe
•
•
•
•
•
Momente einer Verteilung
Quartil
Median
Interquartiler Bereich
Quantile
Ausgleichungsrechnung II
Gerhard Navratil
Momente einer Verteilung
• Mittelwert (Moment 1. Ordnung)
• Streuung oder Standardabweichung
(zentrales Moment 2. Ordnung)
• Schiefe (zentrales Moment 3. Ordnung)
• Normalverteilung charakterisiert durch
Mittelwert und Streuung – nicht robust!
Ausgleichungsrechnung II
Gerhard Navratil
Quantil
• Wert, der den a-Anteil der Daten von den
übrigen (1-a) Daten abtrennt: a-Quantil
• Angabe in Prozent: Perzentil
• Median: 50%-Perzentil oder 0,5-Quantil
• Quartile:
– Unteres Quartil = 0,25-Quantil
– Oberes Quartil = 0,75-Quantil
Ausgleichungsrechnung II
Gerhard Navratil
Interquartiler Bereich
• Bereich zwischen unterem und oberem
Quartil (0,75-Quantil – 0,25-Quantil)
• Umfasst 50% der Daten
• Vergleichbar mit Streuung – hohe Stabilität
• Bei exakter Normalverteilung gilt
interquart iler Bereich
approx
1,394
Ausgleichungsrechnung II
Gerhard Navratil
Geostatistische Begriffe
• Regionalisierte Zufallsvariable
– Zufallsvariable
– Zufallsprozess
– Regionalisierte Zufallsvariable
– Realisierung einer Zufallsvariable
• Stationarität
Ausgleichungsrechnung II
Gerhard Navratil
Zufallsvariable Z
• Ist eine (veränderliche) Größe
• Wird in einem zufälligen Versuch
untersucht
• Nimmt verschiedene Werte an
• Hat eine Verteilung (also Erwartungswert,
Streuung, etc.)
Ausgleichungsrechnung II
Gerhard Navratil
Zufallsprozess Z(t)
• Ist eine Zufallsvariable
• Nach einem Parameter t geordnet (meist
nach der Zeit)
• Besitzt somit statistische Verteilung und
zeitliche Struktur (=Abhängigkeit)
• Abhängigkeit beschrieben durch
Kovarianzfunktion
Ausgleichungsrechnung II
Gerhard Navratil
Regionalisierte Zufallsvariable
• Auch: Räumlicher Zufallsprozess Z(x)
• Zufallsvariable mit räumlicher Struktur
• Parameter x ist ein Ortsvektor im ddimensionalen Raum
• Besitzt somit statistische Verteilung und
räumliche Struktur (=Abhängigkeit)
• Abhängigkeit beschrieben durch Variogramm
bzw. Kovariogramm
• Keine Vergangenheit/Gegenwart/Zukunft
• Dimension (theoretisch) nicht beschränkt
Ausgleichungsrechnung II
Gerhard Navratil
Realisierung einer Zufallsvariablen
• Ist im allgemeinen ein skalarer Wert z(x)
• Kann ein geometrischer Messwert sein
• Aber auch: Schadstoffgehalt der Luft,
Gesteinsdichte, Lärmpegel, etc.
Ausgleichungsrechnung II
Gerhard Navratil
Geostatistik
• Statistische Untersuchung von Datensätzen, die mit Orten verknüpft sind, also
regionalisierte Zufallsvariablen
• Annahme: Bestimmte Struktur, also
Korrelation zwischen z(x) und z(x+h)
• Beschrieben durch Variogramm/Kovariogramm
Ausgleichungsrechnung II
Gerhard Navratil
Stationarität
• Bestimmung der Parameter der Verteilungsfunktion: Mehrere Datensätze an
jedem Punkt nötig
• Ist meist nicht möglich (mehrere Bodenproben?) oder zu teuer
• Annahme: Eigenschaften ändern sich
nicht mit dem Ort – ist meist erfüllt wenn
vorausgehende Transformationen erlaubt
(Elimination des Trend)
Ausgleichungsrechnung II
Gerhard Navratil
Intrinsische Stationarität (1)
• Für jedes Z(x) existiert ein Erwartungswert
E(Z(x)), der unabhängig vom Ort x ist
EZ x x
• Insbesondere gilt auch EZ x Z x h 0
also frei von einem Trend
• Erwartungswert geschätzt aus Proben zu
1 n
m E Z zi
n i 1
Ausgleichungsrechnung II
Gerhard Navratil
Intrinsische Stationarität (2)
• Für jedes Z(x) existiert eine Varianz
Var(Z(x)), die unabhängig vom Ort x ist
2
Var Z x x
• Varianz kann aus empirischen Proben
geschätzt werden zu
n
1
2
2
2
zi m
s E Z
n 1 i 1
Ausgleichungsrechnung II
Gerhard Navratil
Intrinsische Stationarität (3)
• Die Varianz der Differenz Z(x1)–Z(x2) ist
nur von der relativen Lage der Orte
abhängig
2
E Z x1 Z x 2 C (x1 x 2 ) C (h) x1 , x 2
mit h=x1–x2
• Wenn alle drei Bedingungen erfüllt: homogen
und isotrop
Ausgleichungsrechnung II
Gerhard Navratil
Variogramm (1)
• Beschreibt die Korrelation zwischen
räumlich strukturierten Realisierungen
einer regionalisierten Zufallsvariablen
• Für homogene, isotrope Felder definiert
als 2 (x x ) 2 (h) VarZ x Z x E Z x Z x
• Aus empirischen Daten für Abstand h (lag)
1
geschätzt als 2 (h)
Z x Z x h
N h
2
1
2
1
2
1
2
N h
2
i 1
i
Anzahl der Messwertpaare mit Abstand h
Ausgleichungsrechnung II
Gerhard Navratil
i
Variogramm (2)
• Praktische Berechnung: Oft Einteilung in
Abstandsklassen - Aus n Werten alle n(n-1)/2
Paare gebildet, für jedes Paar Abstand
und Quadrat der Messwertdifferenz
gebildet in äquidistente Klassen geteilt
1
• Variogrammwert dann 2 (h ) N h Z Z
• Variogramm definiert als 2, SemiVariogramm ist das halbe Variogramm
N h
2
m
Ausgleichungsrechnung II
Gerhard Navratil
i 1
i
j
Eigenschaften (1)
• Verhalten im Bereich des Ursprungs: (0)=0
• In der Praxis: Bei Messwerten mit kleinem
Abstand tritt Differenz auf lim
h F2 0
h0
= Nugget Effekt
• Ursachen: Letzte Information zu Nullpunkt
extrapoliert, Medium hat kleinste Körnung
(Microscale Effect), Messgenauigkeit
• Microscale und Messgenauigkeit als
stochastisch unabhängig modelliert
Ausgleichungsrechnung II
Gerhard Navratil
Eigenschaften (2)
2
2
• Varianz des Zufallsfeldes 2 MS
ME
F2 I2
• Mit wachsendem h steigt das Variogramm
• Oft ab Schwellenwert konstant (Kovarianz
gleich Null)
• Korrelationsweite (range): Ab hier
Differenz zwischen Funktionswert und
Varianz kleiner als gewählter Wert e
• Grenzwert: Schwellenwert (sill)
Ausgleichungsrechnung II
Gerhard Navratil
Ausgleichungsrechnung II
Gerhard Navratil
Theoretische Variogramme (1)
• Nugget Effekt aus kürzesten Paaren ermittelt, über Paare in bestimmtem Abstand
diskrete Funktionswerte für 2, aber keine
eindeutige Funktion!
• Ergebnis kann sich mit anderen Klassengrößen erheblich ändern
• Funktion muss bestimmte Bedingungen
erfüllen, unterschiedliche Modelle
entwickelt
Ausgleichungsrechnung II
Gerhard Navratil
Theoretische Variogramme (2)
• Lineares Modell
kein Schwellenwert
• Sphärisches Modell
0
h0
h 2
0 c h h 0
0
3
2
1 h
2 3 h
h 0 s
2
a
2 a
2
2
0 s
• Exponentielles Modell
Schwellenwert
02 e2
0
h
h 2
e2 1 e a
0
Ausgleichungsrechnung II
Gerhard Navratil
h0
0ha
ha
h0
h0
Theoretische Variogramme (3)
• Rational-quadratisches Modell
h0
0
2
2
2 r h
h 0
2
h
1
a
• Wellen-Modell
• Potenz-Modell
0
h
a sin
h 2
a
w2 1
0
h
0
h0
h 2
2
h
h0
0
p
Ausgleichungsrechnung II
Gerhard Navratil
h0
h0
h0
Linear
Spärisch
Exponentiell
Rational-quadratisch
Wellen
Potenz
Ausgleichungsrechnung II
Gerhard Navratil
Anisotrope Variogramme
• Bisher h immer Vektor – sinnvoll, wenn abhängig von Richtung (Staubimmissionen
und Wind)
• Anisotropie oft mit Transformationen
behebbar
• Im Allgemeinen: Isotrope Variogramme
2 h 2 0 A h
mit (d,d)-Matrix A zur Transformation
geometrische Anisotropie
Ausgleichungsrechnung II
Gerhard Navratil
Kovariogramm/Korrelogramm (1)
• Kovariogramm beschreibt wie Variogramm
die räumliche Struktur. Bei Stationarität
definiert durch Ch covZ x, Z x h
• Entspricht Autokovarianzfunktion bei
Zeitprozessen
C h
• Korrelogramm: Normieren, also h C 0
Ausgleichungsrechnung II
Gerhard Navratil
Kovariogramm/Korrelogramm (2)
• Beziehungen C h C h
h h
0 1
• Variogramm und Kovariogramm können
ineinander übergeführt werden, wenn
stationär
Ausgleichungsrechnung II
Gerhard Navratil
Explorative Datenanalyse
• Datenmaterial prüfen auf
– Ausreißer
– Verteilung
– räumliche Struktur
• Grundsätzlich: Daten, die nicht zum Modell
passen, sollen erkannt werden
• Modell meist Gauß‘sches Modell
• Ausreißer über bekannte Tests
• Räumlicher Modellanteil: Daten die nicht zu
ihren Nachbarn passen
Ausgleichungsrechnung II
Gerhard Navratil
Visualisierung
• Einfache Methoden: Histogramme,
Stamm-und-Blatt Darstellung, Box-Plot
• Kandidaten für Ausreißer über Betrachten
der Darstellung
• Nächster Schritt: Visualisierung der
räumlichen Struktur – z.B. Lageplots der
Messpunkte, Tabellen mit Messwerten,
axonometrische 3D-Darstellung
Stationarität, Trend
Ausgleichungsrechnung II
Gerhard Navratil
6
6
7
003
7
66678888899
8
00111222222234
8
56666666788888899999999
9
000000001111122222223333333444444
9
555555666666666778888888888999999999
10
000000001111111222222333334444444
10
56666667777788888899999
11
0000011122222223344
11
5666689
12
12
568
13
11
13
14
14
15
15
Unterscheidet sich stark von den
Übrigen Werten – Ausreißer?
16
16
17
17
6
Ausgleichungsrechnung II
Gerhard Navratil
Ausgleichungsrechnung II
Gerhard Navratil
Ausreißer fast
nicht sichtbar!
Ausgleichungsrechnung II
Gerhard Navratil
Trendermittlung (1)
• Bisherige Methoden: Veranschaulichung
• Reihen- und spaltenweises Ermitteln von
Mittelwert und Median: Trend bzw. nicht
stationäre Stellen
• Stationär: Median = Mittelwert
• Ausreißer: Überdurchschnittlich große
Differenz
Ausgleichungsrechnung II
Gerhard Navratil
Trendermittlung (2)
• Annahme: Werte unabhängig und gleichverteilt, Erwartungswert , Varianz ,
Dichtefunktion f
1
• Mittelwert: Y n Yi
1 sign Yi
~
• Median: Y
n
2 f
• Es gilt
und
normiert die Differenz
2
~
var Y Y
1
n 2
Ausgleichungsrechnung II
Gerhard Navratil
~
Y Y
u n
0,7555
Anscheinend Trend in
Ost-West-Richtung
In einigen Zeilen/Spalten
Abstand Mittelwert-Median
Groß – Ausreißer?
Ausgleichungsrechnung II
Gerhard Navratil
Bivariater Scatter-Plot (1)
• Methode um Ausreißer sichtbar zu
machen
• X-Achse: Werte z(x)
• Y-Achse: Werte z(x+h)
• Ausreißer fallen deutlich aus dem Schema
Ausgleichungsrechnung II
Gerhard Navratil
Bivariater Scatter-Plot (2)
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktion und Krigen (1)
• Bisher Daten an vorhandenen Stellen
beurteilt
• Jetzt: Schätzen von Daten an Stellen, an
denen nicht gemessen wurde
• Ausgang: Zufallsprozess von dem n
Daten z(xi) erhoben wurden, Daten werden
verwendet um Prozess zu beschreiben
• Ziel: Prädiktion einer bekannten Funktion
g
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktion und Krigen (2)
• Einfachster Fall: Punktschätzung g F Z x
• Häufig auch: Schätzen des Durchschnittes
1
g
Z
Z x dx
eines Blocks
V
• Gestaltung der Funktion ermöglicht
Glättung, Filterung und Prädiktion
• Krigen: Prädiktionsform, abgeleitet von
Methode der kleinsten Quadrate
0
B
B
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktion und Krigen (3)
•
•
•
•
Best: wirksam
Linear: lineare Schätzfunktion
Unbiased: erwartungstreu
Estimator: Schätzer
• Kollokation war ähnlich aber ohne
Erwartungstreue
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktor (1)
• Prädiktor p(Z;x0) schätzt Wert Z(x0) aufgrund der Daten Z=(Z(x1), …, Z(xn))
• Verlustfunktion (loss function)
L(Z(x0),p(Z;x0)) Abweichung tatsächlicher
Wert – prädizierter Wert
• Optimaler Prädiktor, wenn Bayes‘sches
Risiko E{L} minimal
• Häufige Verlustfunktion: Quadratfehlerverlust (squared-error loss)
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktor (2)
• Lineare und nicht-lineare Ansätze möglich
• Im Folgenden: Linear, also pZ; x0 k li Z xi
• Parameter l1, …, ln, k so zu bestimmen,
dass Erwartungswert minimal
• Eingesetzt in Verlustfunktion: Bayes‘sches
2
Risiko wird E Z x0 k li Z xi
2
var Z x0 li Z x i x0 k li x i
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktor (3)
•
T
T 1
l
c
Σ mit
k
x
l
x
Mit
i i und
0
T
c Cx0 , x1 Cx0 , xn erhalten wir
pZ; x 0 l T Z x 0 cT Σ 1 Z x 0
• Minimaler Prädiktionsfehler:
2
SK
C x 0 x 0 cT Σ 1c
• Diese Form der Prädiktion:
Simple Kriging (einfaches Krigen) – nicht
erwartungstreu aber geringster
Prädiktionsfehler
Ausgleichungsrechnung II
Gerhard Navratil
Gewöhnliches Krigen (1)
• Wieder Daten an n Punkten bekannt,
Prädiktionsfunktion wie vorher
• Weitere Annahmen: Z x x
pZ; x 0 i Z xi mit i 1
• 1. Bed.: Mittelwert für alle Werte gleich
stationärer Zufallsprozess, Beschreibung
durch Variogramm
• 2. Bed.: Erwartungstreue
Ausgleichungsrechnung II
Gerhard Navratil
Gewöhnliches Krigen (2)
• Verlustfunktion wie vorher
2
E
Z
x
Z
x
• Zu minimieren ist
i i 2m i 1
0
• Unter der Bedingung i 1 können wir
schreiben
Z x Z x
1
Z x Z x Z x Z x
2
2
0
i
i
2
i
i
j
j
i
2
j
i
i
Ausgleichungsrechnung II
Gerhard Navratil
0
i
Gewöhnliches Krigen (3)
• Wenn das Modell Z s s gilt, können
wir schreiben
2
E Z x 0 i Z x i 2m i 1
2
i x i x j 2 i x 0 x i 2m i 1
i
j
i
• Ableitung nach i und m gleich Null gesetzt
i xi x j x0 xi m 0
gibt
i
Ausgleichungsrechnung II
Gerhard Navratil
1
Gewöhnliches Krigen (4)
• In Vektorform 00 0
• Aufgelöst nach i ergibt sich 0 01 0
• Ergebnis ändert sich nicht, wenn statt
Variogramm (h) das Variogramm (h)+c
verwendet wird (ev. stabilere Numerik)
• Mittlerer Prädiktionsfehler (Krige-Varianz)
0 i x0 x j m
2
K
T
0
T
Ausgleichungsrechnung II
Gerhard Navratil
l
1
T
1
1
lT 1l
2
A-priori-Prädiktion
• Wenn Variogramm bekannt, kann ein
geplanter Probenplan a priori untersucht
werden
• Notwendige Koeffizienten ergeben sich
aus Abstand der Punkte und Variogramm
Ausgleichungsrechnung II
Gerhard Navratil
Einfluss des Nugget-Effektes (1)
• Aufgliederung notwendig: 2 F2 I2
• Abweichungen (x) setzenAnteil
sich
zusammen
aufgrund
Anteil
aufgrund
eines des
stationären
Messrauschens
Prozesses
aus stationärem Prozess und
Messrauschen: x e x x
• Wenn Z(x) mit dem vorigen Formelapparat
prädiziert, dann Wert mit Störeinflüssen
• eigentlich nur erlaubt wenn e(x)=0
Ausgleichungsrechnung II
Gerhard Navratil
Einfluss des Nugget-Effektes (2)
• Richtiger: Messfehlerfreie Version von Z
prädizieren (richtiger Wert ist gesucht!)
• Es gilt Z x0 S x0 e x0
oder S x0 x
• Dann gilt pZ; x0 i Z xi mit i 1
• Zu minimieren ist also
2
E S x 0 i Z x i 2m i 1
• Und man kommt auf 0 01 0*
Ausgleichungsrechnung II
Gerhard Navratil
Universal Kriging
• Erweitert die Theorie des Ordinary Kriging
• Statt Z x x neue Annahme
p 1
Z x f i 1 x j 1 x
j 1
• Summe: Linearkombination aus bekannten
Werten mit unbekannten Parametern, die
den Mittelwert beschreibt
• Besteht aus beliebigen Funktionen p, daher
sehr universell
Ausgleichungsrechnung II
Gerhard Navratil
ENDE
Ausgleichungsrechnung II
Gerhard Navratil