Document

Werbung
Geostatistik
•
•
•
•
•
•
Einführung
Statistische Grundbegriffe
Geostatistische Begriffe
Variogramm
Explorative Datenanalyse
Prädiktion und Krigen
Ausgleichungsrechnung II
Gerhard Navratil
Was ist Geostatistik?
• Statistik, die sich auf die Erde bezieht
• Problem: Erde hält sich nicht immer an
mathematisch wünschenswerte Eigenschaften
(Stetigkeit)
• In verschiedenen Geowissenschaften angewendet (Geographie, Geologie, Geophysik etc.)
• Noel Cressie: Statistische Theorie im Zusammenhang mit Prozessen, die mit räumlichen
Indizes behaftet sind.
Ausgleichungsrechnung II
Gerhard Navratil
Definition Geostatistik (1)
• Modellierung von Daten als Realisierung
eines Zufallsprozesses
{Z(x):xD}
wobei D der d-dimensionale Raum ist und
x darin variieren kann.
• In der Praxis: Schätzungen aufgrund
weniger Proben
Ausgleichungsrechnung II
Gerhard Navratil
Definition Geostatistik (2)
• Zeitlich-räumlicher Prozess: Dann definiert
über
{Z(x,t):xD, tT}
• Im folgenden: Datenbereich rein räumlich,
auch wenn über größerer Zeitraum
erhoben
• Gezeigt wird: Schließen von Daten an
bekannten Orten auf den Prozess
Ausgleichungsrechnung II
Gerhard Navratil
Definition Geostatistik (3)
• Geostatistik = Anwendung stochastischer
Prozesse in den Geowissenschaften
• Dient Analyse und Modellierung raumbezogener Daten
• Bei ‚einfacher‘ Ausgleichungsrechnung
Raumbezug nicht verwendet
Ausgleichungsrechnung II
Gerhard Navratil
Geostatistik = Arbeit im Team
• Daten verschiedenster Herkunft 
Teamarbeit, z.B. Geologe, Montanist,
Finanzmanager, Statistiker
• Aufgaben des Statistikers
– Erstellen eines Probenplanes
– Zusammenfassen/Visualisieren der Daten
– Suche nach Ausreißern/räuml. Strukturen
– Schätzen von Gesamt-/Durchschnittswerten
– Inter- und Extrapolation
Ausgleichungsrechnung II
Gerhard Navratil
Beispiele
• Exploration von Erzlagerstätten oder
Erdölvorkommen
• Analyse von Bodenverunreinigungen
• Niederschlagsmengen/Temperaturwerte
prädizieren
• Grundwassermodellierung
Ausgleichungsrechnung II
Gerhard Navratil
Datengewinnung
z.B.
• Entnahme von Bodenproben
• Erfassung mittels Messgeräten
• Direkte Beobachtung
Ausgleichungsrechnung II
Gerhard Navratil
Verwendetes Beispiel
• Aus Cressie: Statistics for Spatial Data
• Messungen des Kohlengehaltes auf dem
Gelände der Robena-Mine (Pennsylvania)
• Nahezu regelmäßiger Raster mit einer
Maschenweite von 2500ft (~750m)
• Kein rechteckiges Gebiet
Ausgleichungsrechnung II
Gerhard Navratil
Statistische Grundbegriffe
•
•
•
•
•
Momente einer Verteilung
Quartil
Median
Interquartiler Bereich
Quantile
Ausgleichungsrechnung II
Gerhard Navratil
Momente einer Verteilung
• Mittelwert (Moment 1. Ordnung)
• Streuung oder Standardabweichung
(zentrales Moment 2. Ordnung)
• Schiefe (zentrales Moment 3. Ordnung)
• Normalverteilung charakterisiert durch
Mittelwert und Streuung – nicht robust!
Ausgleichungsrechnung II
Gerhard Navratil
Quantil
• Wert, der den a-Anteil der Daten von den
übrigen (1-a) Daten abtrennt: a-Quantil
• Angabe in Prozent: Perzentil
• Median: 50%-Perzentil oder 0,5-Quantil
• Quartile:
– Unteres Quartil = 0,25-Quantil
– Oberes Quartil = 0,75-Quantil
Ausgleichungsrechnung II
Gerhard Navratil
Interquartiler Bereich
• Bereich zwischen unterem und oberem
Quartil (0,75-Quantil – 0,25-Quantil)
• Umfasst 50% der Daten
• Vergleichbar mit Streuung – hohe Stabilität
• Bei exakter Normalverteilung gilt
interquart iler Bereich
 approx 
1,394
Ausgleichungsrechnung II
Gerhard Navratil
Geostatistische Begriffe
• Regionalisierte Zufallsvariable
– Zufallsvariable
– Zufallsprozess
– Regionalisierte Zufallsvariable
– Realisierung einer Zufallsvariable
• Stationarität
Ausgleichungsrechnung II
Gerhard Navratil
Zufallsvariable Z
• Ist eine (veränderliche) Größe
• Wird in einem zufälligen Versuch
untersucht
• Nimmt verschiedene Werte an
• Hat eine Verteilung (also Erwartungswert,
Streuung, etc.)
Ausgleichungsrechnung II
Gerhard Navratil
Zufallsprozess Z(t)
• Ist eine Zufallsvariable
• Nach einem Parameter t geordnet (meist
nach der Zeit)
• Besitzt somit statistische Verteilung und
zeitliche Struktur (=Abhängigkeit)
• Abhängigkeit beschrieben durch
Kovarianzfunktion
Ausgleichungsrechnung II
Gerhard Navratil
Regionalisierte Zufallsvariable
• Auch: Räumlicher Zufallsprozess Z(x)
• Zufallsvariable mit räumlicher Struktur
• Parameter x ist ein Ortsvektor im ddimensionalen Raum
• Besitzt somit statistische Verteilung und
räumliche Struktur (=Abhängigkeit)
• Abhängigkeit beschrieben durch Variogramm
bzw. Kovariogramm
• Keine Vergangenheit/Gegenwart/Zukunft
• Dimension (theoretisch) nicht beschränkt
Ausgleichungsrechnung II
Gerhard Navratil
Realisierung einer Zufallsvariablen
• Ist im allgemeinen ein skalarer Wert z(x)
• Kann ein geometrischer Messwert sein
• Aber auch: Schadstoffgehalt der Luft,
Gesteinsdichte, Lärmpegel, etc.
Ausgleichungsrechnung II
Gerhard Navratil
Geostatistik
• Statistische Untersuchung von Datensätzen, die mit Orten verknüpft sind, also
regionalisierte Zufallsvariablen
• Annahme: Bestimmte Struktur, also
Korrelation zwischen z(x) und z(x+h)
• Beschrieben durch Variogramm/Kovariogramm
Ausgleichungsrechnung II
Gerhard Navratil
Stationarität
• Bestimmung der Parameter der Verteilungsfunktion: Mehrere Datensätze an
jedem Punkt nötig
• Ist meist nicht möglich (mehrere Bodenproben?) oder zu teuer
• Annahme: Eigenschaften ändern sich
nicht mit dem Ort – ist meist erfüllt wenn
vorausgehende Transformationen erlaubt
(Elimination des Trend)
Ausgleichungsrechnung II
Gerhard Navratil
Intrinsische Stationarität (1)
• Für jedes Z(x) existiert ein Erwartungswert
E(Z(x)), der unabhängig vom Ort x ist
EZ x   x
• Insbesondere gilt auch EZ x  Z x  h  0
also frei von einem Trend
• Erwartungswert geschätzt aus Proben zu
1 n
m  E Z    zi
n i 1
Ausgleichungsrechnung II
Gerhard Navratil
Intrinsische Stationarität (2)
• Für jedes Z(x) existiert eine Varianz
Var(Z(x)), die unabhängig vom Ort x ist
2
Var Z x    x
• Varianz kann aus empirischen Proben
geschätzt werden zu
n
1
2
2
2
 zi  m 
s  E Z    

n  1 i 1
Ausgleichungsrechnung II
Gerhard Navratil
Intrinsische Stationarität (3)
• Die Varianz der Differenz Z(x1)–Z(x2) ist
nur von der relativen Lage der Orte
abhängig
2
E Z x1   Z x 2   C (x1  x 2 )  C (h) x1 , x 2
mit h=x1–x2
• Wenn alle drei Bedingungen erfüllt: homogen
und isotrop
Ausgleichungsrechnung II
Gerhard Navratil
Variogramm (1)
• Beschreibt die Korrelation zwischen
räumlich strukturierten Realisierungen
einer regionalisierten Zufallsvariablen
• Für homogene, isotrope Felder definiert
als 2 (x  x )  2 (h)  VarZ x   Z x   E Z x   Z x 
• Aus empirischen Daten für Abstand h (lag)
1 
geschätzt als 2 (h) 
Z x   Z x  h 

N h 
2
1
2
1
2
1
2
N h
2
i 1
i
Anzahl der Messwertpaare mit Abstand h
Ausgleichungsrechnung II
Gerhard Navratil
i
Variogramm (2)
• Praktische Berechnung: Oft Einteilung in
Abstandsklassen - Aus n Werten alle n(n-1)/2
Paare gebildet, für jedes Paar Abstand
und Quadrat der Messwertdifferenz
gebildet  in äquidistente Klassen geteilt
1 
• Variogrammwert dann 2 (h )  N h   Z  Z 
• Variogramm definiert als 2, SemiVariogramm ist  das halbe Variogramm
N h
2
m
Ausgleichungsrechnung II
Gerhard Navratil
i 1
i
j
Eigenschaften (1)
• Verhalten im Bereich des Ursprungs: (0)=0
• In der Praxis: Bei Messwerten mit kleinem
Abstand tritt Differenz auf lim
 h   F2  0
h0
= Nugget Effekt
• Ursachen: Letzte Information zu Nullpunkt
extrapoliert, Medium hat kleinste Körnung
(Microscale Effect), Messgenauigkeit
• Microscale und Messgenauigkeit als
stochastisch unabhängig modelliert
Ausgleichungsrechnung II
Gerhard Navratil
Eigenschaften (2)
2
2
• Varianz des Zufallsfeldes  2   MS
  ME
  F2   I2
• Mit wachsendem h steigt das Variogramm
• Oft ab Schwellenwert konstant (Kovarianz
gleich Null)
• Korrelationsweite (range): Ab hier
Differenz zwischen Funktionswert und
Varianz kleiner als gewählter Wert e
• Grenzwert: Schwellenwert (sill)
Ausgleichungsrechnung II
Gerhard Navratil
Ausgleichungsrechnung II
Gerhard Navratil
Theoretische Variogramme (1)
• Nugget Effekt aus kürzesten Paaren ermittelt, über Paare in bestimmtem Abstand
diskrete Funktionswerte für 2, aber keine
eindeutige Funktion!
• Ergebnis kann sich mit anderen Klassengrößen erheblich ändern
• Funktion muss bestimmte Bedingungen
erfüllen, unterschiedliche Modelle
entwickelt
Ausgleichungsrechnung II
Gerhard Navratil
Theoretische Variogramme (2)
• Lineares Modell
kein Schwellenwert
• Sphärisches Modell
 0
h0
 h    2
 0  c h h  0

0

3

 2
1  h  
2 3 h
 h    0   s 

2
a
2  a  





2
2
0  s

• Exponentielles Modell
Schwellenwert
 02   e2
0


h


 h    2

   e2 1  e a
 0



Ausgleichungsrechnung II
Gerhard Navratil
h0
0ha
ha
h0




h0
Theoretische Variogramme (3)
• Rational-quadratisches Modell 
h0
0
2
2
 2 r h
 h    0 
2
h

1

a

• Wellen-Modell
• Potenz-Modell
0



h 
 a sin 

 h    2
a 
   w2 1 
 0

h 







0
h0
 h    2

2



h
h0
0
p

Ausgleichungsrechnung II
Gerhard Navratil
h0
h0
h0
Linear
Spärisch
Exponentiell
Rational-quadratisch
Wellen
Potenz
Ausgleichungsrechnung II
Gerhard Navratil
Anisotrope Variogramme
• Bisher h immer Vektor – sinnvoll, wenn abhängig von Richtung (Staubimmissionen
und Wind)
• Anisotropie oft mit Transformationen
behebbar
• Im Allgemeinen: Isotrope Variogramme
2 h  2 0  A  h 
mit (d,d)-Matrix A zur Transformation 
geometrische Anisotropie
Ausgleichungsrechnung II
Gerhard Navratil
Kovariogramm/Korrelogramm (1)
• Kovariogramm beschreibt wie Variogramm
die räumliche Struktur. Bei Stationarität
definiert durch Ch  covZ x, Z x  h
• Entspricht Autokovarianzfunktion bei
Zeitprozessen
C h 
• Korrelogramm: Normieren, also  h   C 0
Ausgleichungsrechnung II
Gerhard Navratil
Kovariogramm/Korrelogramm (2)
• Beziehungen C h   C  h 
 h     h 
 0  1
• Variogramm und Kovariogramm können
ineinander übergeführt werden, wenn
stationär
Ausgleichungsrechnung II
Gerhard Navratil
Explorative Datenanalyse
• Datenmaterial prüfen auf
– Ausreißer
– Verteilung
– räumliche Struktur
• Grundsätzlich: Daten, die nicht zum Modell
passen, sollen erkannt werden
• Modell meist Gauß‘sches Modell
• Ausreißer über bekannte Tests
• Räumlicher Modellanteil: Daten die nicht zu
ihren Nachbarn passen
Ausgleichungsrechnung II
Gerhard Navratil
Visualisierung
• Einfache Methoden: Histogramme,
Stamm-und-Blatt Darstellung, Box-Plot
• Kandidaten für Ausreißer über Betrachten
der Darstellung
• Nächster Schritt: Visualisierung der
räumlichen Struktur – z.B. Lageplots der
Messpunkte, Tabellen mit Messwerten,
axonometrische 3D-Darstellung 
Stationarität, Trend
Ausgleichungsrechnung II
Gerhard Navratil
6
6
7
003
7
66678888899
8
00111222222234
8
56666666788888899999999
9
000000001111122222223333333444444
9
555555666666666778888888888999999999
10
000000001111111222222333334444444
10
56666667777788888899999
11
0000011122222223344
11
5666689
12
12
568
13
11
13
14
14
15
15
Unterscheidet sich stark von den
Übrigen Werten – Ausreißer?
16
16
17
17
6
Ausgleichungsrechnung II
Gerhard Navratil
Ausgleichungsrechnung II
Gerhard Navratil
Ausreißer fast
nicht sichtbar!
Ausgleichungsrechnung II
Gerhard Navratil
Trendermittlung (1)
• Bisherige Methoden: Veranschaulichung
• Reihen- und spaltenweises Ermitteln von
Mittelwert und Median: Trend bzw. nicht
stationäre Stellen
• Stationär: Median = Mittelwert
• Ausreißer: Überdurchschnittlich große
Differenz
Ausgleichungsrechnung II
Gerhard Navratil
Trendermittlung (2)
• Annahme: Werte unabhängig und gleichverteilt, Erwartungswert , Varianz ,
Dichtefunktion f
1
• Mittelwert: Y    n  Yi   
1 sign Yi   
~
• Median: Y    
n
2 f  

• Es gilt 
und
normiert die Differenz
 2  
~
var Y  Y 
  1
n 2 
Ausgleichungsrechnung II
Gerhard Navratil
~
Y Y
u n
0,7555
Anscheinend Trend in
Ost-West-Richtung
In einigen Zeilen/Spalten
Abstand Mittelwert-Median
Groß – Ausreißer?
Ausgleichungsrechnung II
Gerhard Navratil
Bivariater Scatter-Plot (1)
• Methode um Ausreißer sichtbar zu
machen
• X-Achse: Werte z(x)
• Y-Achse: Werte z(x+h)
• Ausreißer fallen deutlich aus dem Schema
Ausgleichungsrechnung II
Gerhard Navratil
Bivariater Scatter-Plot (2)
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktion und Krigen (1)
• Bisher Daten an vorhandenen Stellen
beurteilt
• Jetzt: Schätzen von Daten an Stellen, an
denen nicht gemessen wurde
• Ausgang: Zufallsprozess von dem n
Daten z(xi) erhoben wurden, Daten werden
verwendet um Prozess zu beschreiben
• Ziel: Prädiktion einer bekannten Funktion
g
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktion und Krigen (2)
• Einfachster Fall: Punktschätzung g F   Z x 
• Häufig auch: Schätzen des Durchschnittes
1




g
Z


Z x  dx
eines Blocks

V
• Gestaltung der Funktion ermöglicht
Glättung, Filterung und Prädiktion
• Krigen: Prädiktionsform, abgeleitet von
Methode der kleinsten Quadrate
0
B
B
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktion und Krigen (3)
•
•
•
•
Best: wirksam
Linear: lineare Schätzfunktion
Unbiased: erwartungstreu
Estimator: Schätzer
• Kollokation war ähnlich aber ohne
Erwartungstreue
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktor (1)
• Prädiktor p(Z;x0) schätzt Wert Z(x0) aufgrund der Daten Z=(Z(x1), …, Z(xn))
• Verlustfunktion (loss function)
L(Z(x0),p(Z;x0)) Abweichung tatsächlicher
Wert – prädizierter Wert
• Optimaler Prädiktor, wenn Bayes‘sches
Risiko E{L} minimal
• Häufige Verlustfunktion: Quadratfehlerverlust (squared-error loss)
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktor (2)
• Lineare und nicht-lineare Ansätze möglich
• Im Folgenden: Linear, also pZ; x0   k   li Z xi 
• Parameter l1, …, ln, k so zu bestimmen,
dass Erwartungswert minimal
• Eingesetzt in Verlustfunktion: Bayes‘sches
2
Risiko wird E Z x0   k   li Z xi  
2
var Z x0    li Z x i    x0   k   li  x i 
Ausgleichungsrechnung II
Gerhard Navratil
Prädiktor (3)
•
T
T 1
l

c
Σ mit




k


x

l

x
Mit
 i i und
0
T
c  Cx0 , x1   Cx0 , xn  erhalten wir
pZ; x 0   l T Z      x 0   cT Σ 1 Z      x 0 
• Minimaler Prädiktionsfehler:
2
 SK
 C x 0 x 0   cT Σ 1c
• Diese Form der Prädiktion:
Simple Kriging (einfaches Krigen) – nicht
erwartungstreu aber geringster
Prädiktionsfehler
Ausgleichungsrechnung II
Gerhard Navratil
Gewöhnliches Krigen (1)
• Wieder Daten an n Punkten bekannt,
Prädiktionsfunktion wie vorher
• Weitere Annahmen: Z x     x
pZ; x 0    i Z xi  mit  i  1
• 1. Bed.: Mittelwert für alle Werte gleich 
stationärer Zufallsprozess, Beschreibung
durch Variogramm
• 2. Bed.: Erwartungstreue
Ausgleichungsrechnung II
Gerhard Navratil
Gewöhnliches Krigen (2)
• Verlustfunktion wie vorher
2






E
Z
x


Z
x
• Zu minimieren ist
 i i  2m i  1
0
• Unter der Bedingung  i  1 können wir
schreiben
Z x     Z x  
1
    Z x   Z x     Z x   Z x 
2
2
0
i
i
2
i
i
j
j
i
2
j
i
i
Ausgleichungsrechnung II
Gerhard Navratil
0
i
Gewöhnliches Krigen (3)
• Wenn das Modell Z s     s gilt, können
wir schreiben
2
E Z x 0    i Z x i   2m i  1 
2
  i x i  x j   2 i x 0  x i   2m i  1
i
j
i
• Ableitung nach i und m gleich Null gesetzt
  i xi  x j    x0  xi   m  0
gibt

i
Ausgleichungsrechnung II
Gerhard Navratil
1
Gewöhnliches Krigen (4)
• In Vektorform 00   0
• Aufgelöst nach i ergibt sich 0  01 0
• Ergebnis ändert sich nicht, wenn statt
Variogramm (h) das Variogramm (h)+c
verwendet wird (ev. stabilere Numerik)
• Mittlerer Prädiktionsfehler (Krige-Varianz)
    0   i x0  x j   m   
2
K
T
0
T
Ausgleichungsrechnung II
Gerhard Navratil

l 

1
T
  1
1
lT  1l
2
A-priori-Prädiktion
• Wenn Variogramm bekannt, kann ein
geplanter Probenplan a priori untersucht
werden
• Notwendige Koeffizienten ergeben sich
aus Abstand der Punkte und Variogramm
Ausgleichungsrechnung II
Gerhard Navratil
Einfluss des Nugget-Effektes (1)
• Aufgliederung notwendig:  2   F2   I2
• Abweichungen (x) setzenAnteil
sich
zusammen
aufgrund
Anteil
aufgrund
eines des
stationären
Messrauschens
Prozesses
aus stationärem Prozess und
Messrauschen:  x  e x  x
• Wenn Z(x) mit dem vorigen Formelapparat
prädiziert, dann Wert mit Störeinflüssen
•  eigentlich nur erlaubt wenn e(x)=0
Ausgleichungsrechnung II
Gerhard Navratil
Einfluss des Nugget-Effektes (2)
• Richtiger: Messfehlerfreie Version von Z
prädizieren (richtiger Wert ist gesucht!)
• Es gilt Z x0   S x0   e x0 
oder S x0      x
• Dann gilt pZ; x0    i Z xi  mit  i  1
• Zu minimieren ist also
2
E S x 0    i Z x i   2m i  1
• Und man kommt auf  0  01 0*
Ausgleichungsrechnung II
Gerhard Navratil
Universal Kriging
• Erweitert die Theorie des Ordinary Kriging
• Statt Z x     x neue Annahme
p 1
Z x    f i 1 x  j 1   x 
j 1
• Summe: Linearkombination aus bekannten
Werten mit unbekannten Parametern, die
den Mittelwert beschreibt
• Besteht aus beliebigen Funktionen p, daher
sehr universell
Ausgleichungsrechnung II
Gerhard Navratil
ENDE
Ausgleichungsrechnung II
Gerhard Navratil
Herunterladen