Geostatistik • • • • • • Einführung Statistische Grundbegriffe Geostatistische Begriffe Variogramm Explorative Datenanalyse Prädiktion und Krigen Ausgleichungsrechnung II Gerhard Navratil Was ist Geostatistik? • Statistik, die sich auf die Erde bezieht • Problem: Erde hält sich nicht immer an mathematisch wünschenswerte Eigenschaften (Stetigkeit) • In verschiedenen Geowissenschaften angewendet (Geographie, Geologie, Geophysik etc.) • Noel Cressie: Statistische Theorie im Zusammenhang mit Prozessen, die mit räumlichen Indizes behaftet sind. Ausgleichungsrechnung II Gerhard Navratil Definition Geostatistik (1) • Modellierung von Daten als Realisierung eines Zufallsprozesses {Z(x):xD} wobei D der d-dimensionale Raum ist und x darin variieren kann. • In der Praxis: Schätzungen aufgrund weniger Proben Ausgleichungsrechnung II Gerhard Navratil Definition Geostatistik (2) • Zeitlich-räumlicher Prozess: Dann definiert über {Z(x,t):xD, tT} • Im folgenden: Datenbereich rein räumlich, auch wenn über größerer Zeitraum erhoben • Gezeigt wird: Schließen von Daten an bekannten Orten auf den Prozess Ausgleichungsrechnung II Gerhard Navratil Definition Geostatistik (3) • Geostatistik = Anwendung stochastischer Prozesse in den Geowissenschaften • Dient Analyse und Modellierung raumbezogener Daten • Bei ‚einfacher‘ Ausgleichungsrechnung Raumbezug nicht verwendet Ausgleichungsrechnung II Gerhard Navratil Geostatistik = Arbeit im Team • Daten verschiedenster Herkunft Teamarbeit, z.B. Geologe, Montanist, Finanzmanager, Statistiker • Aufgaben des Statistikers – Erstellen eines Probenplanes – Zusammenfassen/Visualisieren der Daten – Suche nach Ausreißern/räuml. Strukturen – Schätzen von Gesamt-/Durchschnittswerten – Inter- und Extrapolation Ausgleichungsrechnung II Gerhard Navratil Beispiele • Exploration von Erzlagerstätten oder Erdölvorkommen • Analyse von Bodenverunreinigungen • Niederschlagsmengen/Temperaturwerte prädizieren • Grundwassermodellierung Ausgleichungsrechnung II Gerhard Navratil Datengewinnung z.B. • Entnahme von Bodenproben • Erfassung mittels Messgeräten • Direkte Beobachtung Ausgleichungsrechnung II Gerhard Navratil Verwendetes Beispiel • Aus Cressie: Statistics for Spatial Data • Messungen des Kohlengehaltes auf dem Gelände der Robena-Mine (Pennsylvania) • Nahezu regelmäßiger Raster mit einer Maschenweite von 2500ft (~750m) • Kein rechteckiges Gebiet Ausgleichungsrechnung II Gerhard Navratil Statistische Grundbegriffe • • • • • Momente einer Verteilung Quartil Median Interquartiler Bereich Quantile Ausgleichungsrechnung II Gerhard Navratil Momente einer Verteilung • Mittelwert (Moment 1. Ordnung) • Streuung oder Standardabweichung (zentrales Moment 2. Ordnung) • Schiefe (zentrales Moment 3. Ordnung) • Normalverteilung charakterisiert durch Mittelwert und Streuung – nicht robust! Ausgleichungsrechnung II Gerhard Navratil Quantil • Wert, der den a-Anteil der Daten von den übrigen (1-a) Daten abtrennt: a-Quantil • Angabe in Prozent: Perzentil • Median: 50%-Perzentil oder 0,5-Quantil • Quartile: – Unteres Quartil = 0,25-Quantil – Oberes Quartil = 0,75-Quantil Ausgleichungsrechnung II Gerhard Navratil Interquartiler Bereich • Bereich zwischen unterem und oberem Quartil (0,75-Quantil – 0,25-Quantil) • Umfasst 50% der Daten • Vergleichbar mit Streuung – hohe Stabilität • Bei exakter Normalverteilung gilt interquart iler Bereich approx 1,394 Ausgleichungsrechnung II Gerhard Navratil Geostatistische Begriffe • Regionalisierte Zufallsvariable – Zufallsvariable – Zufallsprozess – Regionalisierte Zufallsvariable – Realisierung einer Zufallsvariable • Stationarität Ausgleichungsrechnung II Gerhard Navratil Zufallsvariable Z • Ist eine (veränderliche) Größe • Wird in einem zufälligen Versuch untersucht • Nimmt verschiedene Werte an • Hat eine Verteilung (also Erwartungswert, Streuung, etc.) Ausgleichungsrechnung II Gerhard Navratil Zufallsprozess Z(t) • Ist eine Zufallsvariable • Nach einem Parameter t geordnet (meist nach der Zeit) • Besitzt somit statistische Verteilung und zeitliche Struktur (=Abhängigkeit) • Abhängigkeit beschrieben durch Kovarianzfunktion Ausgleichungsrechnung II Gerhard Navratil Regionalisierte Zufallsvariable • Auch: Räumlicher Zufallsprozess Z(x) • Zufallsvariable mit räumlicher Struktur • Parameter x ist ein Ortsvektor im ddimensionalen Raum • Besitzt somit statistische Verteilung und räumliche Struktur (=Abhängigkeit) • Abhängigkeit beschrieben durch Variogramm bzw. Kovariogramm • Keine Vergangenheit/Gegenwart/Zukunft • Dimension (theoretisch) nicht beschränkt Ausgleichungsrechnung II Gerhard Navratil Realisierung einer Zufallsvariablen • Ist im allgemeinen ein skalarer Wert z(x) • Kann ein geometrischer Messwert sein • Aber auch: Schadstoffgehalt der Luft, Gesteinsdichte, Lärmpegel, etc. Ausgleichungsrechnung II Gerhard Navratil Geostatistik • Statistische Untersuchung von Datensätzen, die mit Orten verknüpft sind, also regionalisierte Zufallsvariablen • Annahme: Bestimmte Struktur, also Korrelation zwischen z(x) und z(x+h) • Beschrieben durch Variogramm/Kovariogramm Ausgleichungsrechnung II Gerhard Navratil Stationarität • Bestimmung der Parameter der Verteilungsfunktion: Mehrere Datensätze an jedem Punkt nötig • Ist meist nicht möglich (mehrere Bodenproben?) oder zu teuer • Annahme: Eigenschaften ändern sich nicht mit dem Ort – ist meist erfüllt wenn vorausgehende Transformationen erlaubt (Elimination des Trend) Ausgleichungsrechnung II Gerhard Navratil Intrinsische Stationarität (1) • Für jedes Z(x) existiert ein Erwartungswert E(Z(x)), der unabhängig vom Ort x ist EZ x x • Insbesondere gilt auch EZ x Z x h 0 also frei von einem Trend • Erwartungswert geschätzt aus Proben zu 1 n m E Z zi n i 1 Ausgleichungsrechnung II Gerhard Navratil Intrinsische Stationarität (2) • Für jedes Z(x) existiert eine Varianz Var(Z(x)), die unabhängig vom Ort x ist 2 Var Z x x • Varianz kann aus empirischen Proben geschätzt werden zu n 1 2 2 2 zi m s E Z n 1 i 1 Ausgleichungsrechnung II Gerhard Navratil Intrinsische Stationarität (3) • Die Varianz der Differenz Z(x1)–Z(x2) ist nur von der relativen Lage der Orte abhängig 2 E Z x1 Z x 2 C (x1 x 2 ) C (h) x1 , x 2 mit h=x1–x2 • Wenn alle drei Bedingungen erfüllt: homogen und isotrop Ausgleichungsrechnung II Gerhard Navratil Variogramm (1) • Beschreibt die Korrelation zwischen räumlich strukturierten Realisierungen einer regionalisierten Zufallsvariablen • Für homogene, isotrope Felder definiert als 2 (x x ) 2 (h) VarZ x Z x E Z x Z x • Aus empirischen Daten für Abstand h (lag) 1 geschätzt als 2 (h) Z x Z x h N h 2 1 2 1 2 1 2 N h 2 i 1 i Anzahl der Messwertpaare mit Abstand h Ausgleichungsrechnung II Gerhard Navratil i Variogramm (2) • Praktische Berechnung: Oft Einteilung in Abstandsklassen - Aus n Werten alle n(n-1)/2 Paare gebildet, für jedes Paar Abstand und Quadrat der Messwertdifferenz gebildet in äquidistente Klassen geteilt 1 • Variogrammwert dann 2 (h ) N h Z Z • Variogramm definiert als 2, SemiVariogramm ist das halbe Variogramm N h 2 m Ausgleichungsrechnung II Gerhard Navratil i 1 i j Eigenschaften (1) • Verhalten im Bereich des Ursprungs: (0)=0 • In der Praxis: Bei Messwerten mit kleinem Abstand tritt Differenz auf lim h F2 0 h0 = Nugget Effekt • Ursachen: Letzte Information zu Nullpunkt extrapoliert, Medium hat kleinste Körnung (Microscale Effect), Messgenauigkeit • Microscale und Messgenauigkeit als stochastisch unabhängig modelliert Ausgleichungsrechnung II Gerhard Navratil Eigenschaften (2) 2 2 • Varianz des Zufallsfeldes 2 MS ME F2 I2 • Mit wachsendem h steigt das Variogramm • Oft ab Schwellenwert konstant (Kovarianz gleich Null) • Korrelationsweite (range): Ab hier Differenz zwischen Funktionswert und Varianz kleiner als gewählter Wert e • Grenzwert: Schwellenwert (sill) Ausgleichungsrechnung II Gerhard Navratil Ausgleichungsrechnung II Gerhard Navratil Theoretische Variogramme (1) • Nugget Effekt aus kürzesten Paaren ermittelt, über Paare in bestimmtem Abstand diskrete Funktionswerte für 2, aber keine eindeutige Funktion! • Ergebnis kann sich mit anderen Klassengrößen erheblich ändern • Funktion muss bestimmte Bedingungen erfüllen, unterschiedliche Modelle entwickelt Ausgleichungsrechnung II Gerhard Navratil Theoretische Variogramme (2) • Lineares Modell kein Schwellenwert • Sphärisches Modell 0 h0 h 2 0 c h h 0 0 3 2 1 h 2 3 h h 0 s 2 a 2 a 2 2 0 s • Exponentielles Modell Schwellenwert 02 e2 0 h h 2 e2 1 e a 0 Ausgleichungsrechnung II Gerhard Navratil h0 0ha ha h0 h0 Theoretische Variogramme (3) • Rational-quadratisches Modell h0 0 2 2 2 r h h 0 2 h 1 a • Wellen-Modell • Potenz-Modell 0 h a sin h 2 a w2 1 0 h 0 h0 h 2 2 h h0 0 p Ausgleichungsrechnung II Gerhard Navratil h0 h0 h0 Linear Spärisch Exponentiell Rational-quadratisch Wellen Potenz Ausgleichungsrechnung II Gerhard Navratil Anisotrope Variogramme • Bisher h immer Vektor – sinnvoll, wenn abhängig von Richtung (Staubimmissionen und Wind) • Anisotropie oft mit Transformationen behebbar • Im Allgemeinen: Isotrope Variogramme 2 h 2 0 A h mit (d,d)-Matrix A zur Transformation geometrische Anisotropie Ausgleichungsrechnung II Gerhard Navratil Kovariogramm/Korrelogramm (1) • Kovariogramm beschreibt wie Variogramm die räumliche Struktur. Bei Stationarität definiert durch Ch covZ x, Z x h • Entspricht Autokovarianzfunktion bei Zeitprozessen C h • Korrelogramm: Normieren, also h C 0 Ausgleichungsrechnung II Gerhard Navratil Kovariogramm/Korrelogramm (2) • Beziehungen C h C h h h 0 1 • Variogramm und Kovariogramm können ineinander übergeführt werden, wenn stationär Ausgleichungsrechnung II Gerhard Navratil Explorative Datenanalyse • Datenmaterial prüfen auf – Ausreißer – Verteilung – räumliche Struktur • Grundsätzlich: Daten, die nicht zum Modell passen, sollen erkannt werden • Modell meist Gauß‘sches Modell • Ausreißer über bekannte Tests • Räumlicher Modellanteil: Daten die nicht zu ihren Nachbarn passen Ausgleichungsrechnung II Gerhard Navratil Visualisierung • Einfache Methoden: Histogramme, Stamm-und-Blatt Darstellung, Box-Plot • Kandidaten für Ausreißer über Betrachten der Darstellung • Nächster Schritt: Visualisierung der räumlichen Struktur – z.B. Lageplots der Messpunkte, Tabellen mit Messwerten, axonometrische 3D-Darstellung Stationarität, Trend Ausgleichungsrechnung II Gerhard Navratil 6 6 7 003 7 66678888899 8 00111222222234 8 56666666788888899999999 9 000000001111122222223333333444444 9 555555666666666778888888888999999999 10 000000001111111222222333334444444 10 56666667777788888899999 11 0000011122222223344 11 5666689 12 12 568 13 11 13 14 14 15 15 Unterscheidet sich stark von den Übrigen Werten – Ausreißer? 16 16 17 17 6 Ausgleichungsrechnung II Gerhard Navratil Ausgleichungsrechnung II Gerhard Navratil Ausreißer fast nicht sichtbar! Ausgleichungsrechnung II Gerhard Navratil Trendermittlung (1) • Bisherige Methoden: Veranschaulichung • Reihen- und spaltenweises Ermitteln von Mittelwert und Median: Trend bzw. nicht stationäre Stellen • Stationär: Median = Mittelwert • Ausreißer: Überdurchschnittlich große Differenz Ausgleichungsrechnung II Gerhard Navratil Trendermittlung (2) • Annahme: Werte unabhängig und gleichverteilt, Erwartungswert , Varianz , Dichtefunktion f 1 • Mittelwert: Y n Yi 1 sign Yi ~ • Median: Y n 2 f • Es gilt und normiert die Differenz 2 ~ var Y Y 1 n 2 Ausgleichungsrechnung II Gerhard Navratil ~ Y Y u n 0,7555 Anscheinend Trend in Ost-West-Richtung In einigen Zeilen/Spalten Abstand Mittelwert-Median Groß – Ausreißer? Ausgleichungsrechnung II Gerhard Navratil Bivariater Scatter-Plot (1) • Methode um Ausreißer sichtbar zu machen • X-Achse: Werte z(x) • Y-Achse: Werte z(x+h) • Ausreißer fallen deutlich aus dem Schema Ausgleichungsrechnung II Gerhard Navratil Bivariater Scatter-Plot (2) Ausgleichungsrechnung II Gerhard Navratil Prädiktion und Krigen (1) • Bisher Daten an vorhandenen Stellen beurteilt • Jetzt: Schätzen von Daten an Stellen, an denen nicht gemessen wurde • Ausgang: Zufallsprozess von dem n Daten z(xi) erhoben wurden, Daten werden verwendet um Prozess zu beschreiben • Ziel: Prädiktion einer bekannten Funktion g Ausgleichungsrechnung II Gerhard Navratil Prädiktion und Krigen (2) • Einfachster Fall: Punktschätzung g F Z x • Häufig auch: Schätzen des Durchschnittes 1 g Z Z x dx eines Blocks V • Gestaltung der Funktion ermöglicht Glättung, Filterung und Prädiktion • Krigen: Prädiktionsform, abgeleitet von Methode der kleinsten Quadrate 0 B B Ausgleichungsrechnung II Gerhard Navratil Prädiktion und Krigen (3) • • • • Best: wirksam Linear: lineare Schätzfunktion Unbiased: erwartungstreu Estimator: Schätzer • Kollokation war ähnlich aber ohne Erwartungstreue Ausgleichungsrechnung II Gerhard Navratil Prädiktor (1) • Prädiktor p(Z;x0) schätzt Wert Z(x0) aufgrund der Daten Z=(Z(x1), …, Z(xn)) • Verlustfunktion (loss function) L(Z(x0),p(Z;x0)) Abweichung tatsächlicher Wert – prädizierter Wert • Optimaler Prädiktor, wenn Bayes‘sches Risiko E{L} minimal • Häufige Verlustfunktion: Quadratfehlerverlust (squared-error loss) Ausgleichungsrechnung II Gerhard Navratil Prädiktor (2) • Lineare und nicht-lineare Ansätze möglich • Im Folgenden: Linear, also pZ; x0 k li Z xi • Parameter l1, …, ln, k so zu bestimmen, dass Erwartungswert minimal • Eingesetzt in Verlustfunktion: Bayes‘sches 2 Risiko wird E Z x0 k li Z xi 2 var Z x0 li Z x i x0 k li x i Ausgleichungsrechnung II Gerhard Navratil Prädiktor (3) • T T 1 l c Σ mit k x l x Mit i i und 0 T c Cx0 , x1 Cx0 , xn erhalten wir pZ; x 0 l T Z x 0 cT Σ 1 Z x 0 • Minimaler Prädiktionsfehler: 2 SK C x 0 x 0 cT Σ 1c • Diese Form der Prädiktion: Simple Kriging (einfaches Krigen) – nicht erwartungstreu aber geringster Prädiktionsfehler Ausgleichungsrechnung II Gerhard Navratil Gewöhnliches Krigen (1) • Wieder Daten an n Punkten bekannt, Prädiktionsfunktion wie vorher • Weitere Annahmen: Z x x pZ; x 0 i Z xi mit i 1 • 1. Bed.: Mittelwert für alle Werte gleich stationärer Zufallsprozess, Beschreibung durch Variogramm • 2. Bed.: Erwartungstreue Ausgleichungsrechnung II Gerhard Navratil Gewöhnliches Krigen (2) • Verlustfunktion wie vorher 2 E Z x Z x • Zu minimieren ist i i 2m i 1 0 • Unter der Bedingung i 1 können wir schreiben Z x Z x 1 Z x Z x Z x Z x 2 2 0 i i 2 i i j j i 2 j i i Ausgleichungsrechnung II Gerhard Navratil 0 i Gewöhnliches Krigen (3) • Wenn das Modell Z s s gilt, können wir schreiben 2 E Z x 0 i Z x i 2m i 1 2 i x i x j 2 i x 0 x i 2m i 1 i j i • Ableitung nach i und m gleich Null gesetzt i xi x j x0 xi m 0 gibt i Ausgleichungsrechnung II Gerhard Navratil 1 Gewöhnliches Krigen (4) • In Vektorform 00 0 • Aufgelöst nach i ergibt sich 0 01 0 • Ergebnis ändert sich nicht, wenn statt Variogramm (h) das Variogramm (h)+c verwendet wird (ev. stabilere Numerik) • Mittlerer Prädiktionsfehler (Krige-Varianz) 0 i x0 x j m 2 K T 0 T Ausgleichungsrechnung II Gerhard Navratil l 1 T 1 1 lT 1l 2 A-priori-Prädiktion • Wenn Variogramm bekannt, kann ein geplanter Probenplan a priori untersucht werden • Notwendige Koeffizienten ergeben sich aus Abstand der Punkte und Variogramm Ausgleichungsrechnung II Gerhard Navratil Einfluss des Nugget-Effektes (1) • Aufgliederung notwendig: 2 F2 I2 • Abweichungen (x) setzenAnteil sich zusammen aufgrund Anteil aufgrund eines des stationären Messrauschens Prozesses aus stationärem Prozess und Messrauschen: x e x x • Wenn Z(x) mit dem vorigen Formelapparat prädiziert, dann Wert mit Störeinflüssen • eigentlich nur erlaubt wenn e(x)=0 Ausgleichungsrechnung II Gerhard Navratil Einfluss des Nugget-Effektes (2) • Richtiger: Messfehlerfreie Version von Z prädizieren (richtiger Wert ist gesucht!) • Es gilt Z x0 S x0 e x0 oder S x0 x • Dann gilt pZ; x0 i Z xi mit i 1 • Zu minimieren ist also 2 E S x 0 i Z x i 2m i 1 • Und man kommt auf 0 01 0* Ausgleichungsrechnung II Gerhard Navratil Universal Kriging • Erweitert die Theorie des Ordinary Kriging • Statt Z x x neue Annahme p 1 Z x f i 1 x j 1 x j 1 • Summe: Linearkombination aus bekannten Werten mit unbekannten Parametern, die den Mittelwert beschreibt • Besteht aus beliebigen Funktionen p, daher sehr universell Ausgleichungsrechnung II Gerhard Navratil ENDE Ausgleichungsrechnung II Gerhard Navratil