Vortrag zum Hauptseminar: Analyse und Modellierung räumlicher Daten Thema: Räumliche Autokorrelation und deskriptive Methoden Inhalt 1 Einleitung 2 Allgemeine deskriptive Methoden 2.1 Mittelwerte 2.2 Streuungsmaße 2.3 „Nearest Neighbor“-Analyse 2.4 Histogramm 2.5 Objektarten 2.6 Spatial Sampling 3 Räumliche Autokorrelation 3.1 Hinführung 3.2 Das erste Gesetz der Geographie 3.3 Berechnung der räumliche Autokorrelation 3.4 Probleme 4 Schlussbemerkung 1 Einleitung Wie sind bestimmte Eigenschaften im Raum verteilt? Gibt es eine räumliche Beziehung der Attributdaten? um diese sichtbar zu machen braucht es deskriptive Methoden Ein Bereich der deskriptive Methoden ist Analyse der räumliche Autokorrelation Moran schrieb 1948 „The presence, absence, or characteristics of some spatial objects may sometimes have significant impacts on the presence, absence, or characteristics of the neighboring objects.”( Lo & Yeung 2002: 117) zuvor wichtige, grundlegende Verfahren und Sachverhalte der traditionellen deskriptiven Statistik erläutert 2 Allgemeine deskriptive Methoden deskriptive Statistik = beschreibende Statistik Aufgabe: Analyse und Darstellung von räumlichen & zeitlichen Daten Ziel: Datenmengen mit wenigen Zahlen zu charakterisieren für den Betrachter besser interpretierbar deskriptiven Methoden: u.a. Mittelwert und Streuung 2.1 Mittelwerte Mittelwerte (engl. central tendency) • beschreiben Zentrum der Verteilung Angabe durch: • arithmetische Mittel • Median • Modus 2.1.1 Arithmetische Mittel Berechnung: aus der Summe aller Einzelwerte, dividiert durch die Gesamtzahl aller Stichprobenfälle Beispiel: • Geg.: 1, 3, 5, 7, 64 • Xm = 16 Anwendung: wenn Werte hauptsächlich um arithmetische Mittel verteilt Nachteil: wenn Stichprobe zu heterogen Formel 1: Mittelwert xm (Helmschrot & Fink 2001) 2.1.2 Median Def.: teilt eine der Größe nach geordnete Verteilung in 2 gleichgroße Bereiche • Beispiel: Gegeben ist ein beliebige Zahlenreihe mit den Werten 1, 3, 5, 7, 64 • Median = 5 bei ungeraden Anzahl der Stichproben: Median besteht aus den 2 in der Mitte stehenden Zahlen Vorteil: keine große Beeinflussung durch einzelne hohe Werte 2.1.2 Modus Def: zeigt den am häufigsten vorkommenden Merkmalswert einer Datenreihe oder einer Klasse Beispiel • Geg.: 1, 7, 2, 5, 64, 7, 5, 7, 2 • Modus = 7 2.2 Streuungsmaße Def.: geben die Verteilung der Merkmalswerte um das Zentrum an Streuungsmaße sind • Standartabweichung und Varianz • Schiefe • Exzess 2.2.1 Standartabweichung und Varianz wichtigste Maßeinheit um die Streuung zu charakterisieren Def.: Verhalten der Streuung einer Verteilung um den Mittelwert Berechnung: • Standartabweichung ergibt sich, aus der Wurzel der Varianz • Varianz berechnet sich aus der Summe der quadrierten Abweichungen vom Mittelwert xm, geteilt durch die Gesamtzahl der Elemente n Nachteil: die Standartabweichungen zweier verschiedener Stichproben sind nur vergleichbar, wenn deren arithmetische Mittel etwa gleichgroß Formel 2,3: Varianz & Standartabweichung (Helmschrot & Fink 2001) 2.2.2 Schiefe Schiefe (engl.: skewness) und Exzess (engl.: kurtosis) sind Formenparameter, d.h. sie geben Auskunft über die Form der Verteilung Def.: Maß für die Symmetrie der Verteilung um das arithmetische Mittel Berechnung: aus der Differenz des Mittelwert xm vom Median, welche durch die Standartabweichung s dividiert wird Eigenschaften: • Schiefe g = 0, Normalverteilung • Schiefe g > 0, positive Schiefe der Median ist links vom Mittel • Schiefe g < 0, negativen Schiefe der Median rechts vom Mittel Formel 4: Schiefe g (Helmschrot & Fink 2001) 2.2.2 Schiefe Eigene Darstellung: Schiefe 2.2.3 Exzess Def.: • ein Maß für die Steilheit der Verteilung • beschreibt ob die Merkmalsverteilung spitz oder flach um das Zentrum verteilt ist Eigenschaften: • Exzess Ez > 1, positiver Exzess Verteilung steile als Normalverteilung • Exzess Ez < 1, negativer Exzess Verteilung flacher als Normalverteilung • Exzess Ez = 1, keinen Exzess einer Normalverteilung Formel 5: Exzess Ez (Helmschrot & Fink 2001) 2.2.3 Exzess Eigene Darstellung: Exzess 2.3 „Nearest Neighbor“-Analyse Def.: Untersuchung der Verteilungsmuster von Punkten auf einer Fläche aber nicht im Zusammenhang mit den Attributdaten Mögliche Verteilungsmuster: regelmäßig, unregelmäßig oder in Clustern (Gruppen) • Einordnung erfolgt über Messung der Distanzen zwischen gepaarten Datenpunkten • Gepaart werden Punkte mit der geringsten räumlichen Distanz zueinander = Nearest Neighbor Abbildung 1: Mögliche Muster (a)regelmäßig, (b)unregelmäßig (c)gruppiert (Dumfarth & lorup 2000) 2.3 „Nearest Neighbor“-Analyse • Probleme der Größe der Analysefläche • es ist notwendig, die Punktdichte in dem Gebiet zu kennen, es muss die Größe der Analysefläche genau festgelegt werden bei zu großer Fläche zu geringer Punktdichte als wenn für die gleiche Anzahl von Punkten eine kleinere Fläche verwendet wird • Problem des Kanteneffektes (engl.: edge effect) • von Punkten am Rande der Untersuchungsmatrix wird keine Distanz zu Punkten außerhalb gemessen, obwohl diese am nächsten liegen 2.4 Histogramm eine der verbreitesten Möglichkeiten Daten visuell darzustellen Def.: • zeigt an, wie viele Merkmalsausprägungen in einer bestimmten vorher festgelegten Klasse sind • Klassenhäufigkeitsverteilung, durch die erkennbar ist, wie sich die Werte über das gestammte Wertespektrum verteilen Eigenschaften: • y-Achse = Häufigkeit der Variable (z.B.: Anzahl von Temperaturwerten) • x-Achse = die Klassen, in denen die Werte eingeordnet werden (z.B.: in der Klasse 0-5°C liegen 3 Werte) wichtigste Form einer Häufigkeitsverteilung ist die glockenförmige Normalverteilung • bei Normalverteilungen liegt das arithmetisches Mittel und Median aufeinander bzw. repräsentieren die Mitte der Datenmenge 2.4 Histogramm Diagramm 1: Histogramm [rot] Normalverteilung [schwarz] (Dumfarth & lorup 2000) 2.5 Objektarten wie bei Skalenarten ist Anwendung von statistischen Methoden an bestimmte Objektarten gekoppelt geographische Objekte werden nach ihrer Topologieausdehnung bestimmt Punkte: keine dimensionale Ausbreitung • Verwendung um räumliche Verteilung von Ereignissen und deren Muster wiederzugeben Linien: eindimensionale Ausbreitung, die Länge • Verwendung um Distanzen zu messen oder lineare Objekte darzustellen (z.B.: Strassen) Flächenobjekte: zweidimensionale Ausdehnung, die Länge und Breite • Verwendung bei natürliche Objekte wie Felder oder künstliche Objekte wie Bevölkerungsverteilungen Oberflächen und Volumen: dreidimensional • Verwendung bei Darstellung von natürlichen Objekten wie digitalen Geländemodellen Problem des Maßstab am Beispiel der Darstellung von New York auf verschieden Karten 2.6 Spatial Sampling Def.: Ziehen von Stichproben im Raum nötig, da die reale Welt unendlich komplex ist, ein GIS aber nicht unendlich viele Daten verarbeiten kann sampling Modelle (engl.: sampling scheme) • bestimmen die räumliche Verteilung der einzelnen Stichprobenpunkte im Untersuchungsgebiet Stichprobenanzahl • je heterogener räumliche Phänomene verteilt desto mehr Stichproben nötig • je homogener die Verteilung desto weniger Stichproben nötig • es gibt aber Mindestriechprobenzahl 2.6 Spatial Sampling einfache zufällige Stichprobe (Feld A): jeder Punkt hat die gleiche Wahrscheinlichkeit gezogen zu werden • statistisch völlig korrekt aber Probleme in der Praxis kleine, aber wichtige Bereiche werden unterpräsentiert, außer bei große Anzahl von Stichproben systematischen Stichprobe (Feld B): der erste Punkt wird zufällig ermittelt und an diesem die restlichen entlang eines festen Schemas ausgerichtet • einfach durchzuführen aber Fehler bei Daten die periodischen Änderungen unterliegen strategische Zufallstichprobe (Feld C): Untersuchungsgebiet wird in Teilgebiete gliedert und in jedem Teilgebiet eine zufällige Stichrobe genommen • geeignet, weil nur geringe Anzahl von Stichproben nötig aber selben Problemen wie bei Zufallsstichprobe strategisches, systematisches und unangepasstes Modell (Feld D) • vereinigt es die Vorgehensweise und auch Vorteile der drei vorher genannten Modelle 2.6 Spatial Sampling 3 Räumliche Autokorrelation 3.1 Hinführung Problem der traditionellen statistischen Analysen: • bei Untersuchung von Zusammenhängen, die stochastische Abhängigkeit aufweisen kommt es zu fehlerhaften Resultaten • aber stochastische abhängige Variablen häufig in Statistik • Stochastische Abhängigkeit statistische Ereignisse treten nicht unabhängig voneinander auf Ursache:trad. Statistik basiert auf Zufallsvariablen • d.h. Datenwerte der Variable kommen rein zufällig zustande sie sind unabhängig voneinander • Beispiel am Würfelexperiment 3.1 Hinführung „In Hinblick auf die räumliche Verteilung von Datenpunkten bedeutet dies, daß die verschiedenen Werte einer Variablen unabhängig von ihrer räumlichen Position zustande kommen. Erscheinungen wie Distanz der Werte zueinander, Nachbarschaft, Nähe, Richtung und dergleichen haben also keinen Einfluß auf den Wert eines bzw. aller Datenwerte.“ (Dumfarth & lorup 2000) Entspricht nicht der Realität Beispiel des Bodenmarktes Ansatz der Geostatistik: die Werte einer Variable durch eine Funktion gesteuert regionalisierten Variablen: Werte einer Region sind ähnlich, weil untereinander beeinflussbar und mit zunehmender Entfernung die Ähnlichkeit abnimmt beschrieb W. Tobler mit dem „ersten Gesetz der Geographie“ wichtig bei Verbreitung eines Phänomens ist Distanz bzw. Nachbarschaft 3.2 Das erste Gesetz der Geographie Das „erste gesetzt der Geographie“ von W. Tobler beschrieb das bekannte Phänomen, das benachbarte Objekte oft ähnlicher waren als weit entfernte. „The first law of geography is that everything is related to everything else, but near things are more related than distant things.”(Tobler 1970 in Abler 1992: 155) • beschreibt die räumliche Autokorrelation d.h. den Grad, mit dem nahe und entfernte Dinge miteinander verbunden sind „In practice, the existence of spatial autocorrelation means that if auf die Zeit bezogen = zeitliche Autokorrelation A and B are close together, what happens at A is related to what happens at B, and vice-versa.”(Abler et al 1992: 287) wichtigsten Faktoren: • Lage der Objekte zueinander • Merkmalsausprägung 3.2 Das erste Gesetz der Geographie 3 wichtigsten Typen räumliche Autokorrelationen: • Klassifizierung nach der relativen Verteilung räumlicher Objekte und ihrer Nachbarn • Feld A: extreme positive räumliche Autokorrelation • Feld C: extreme negative räumliche Autokorrelation • Feld B: keine räumliche Autokorrelation Abbildung 2: Typen der räumlichen Autokorrelation (Lo & Yeung 2002: 117) 3.2 Das erste Gesetz der Geographie praktisches Beispiel der unterschiedliche Typen räumliche Autokorrelation: • in San Bernardino = starke räumliche Autokorrelation der Bevölkerung • in Iowa = schlechte räumliche Autokorrelation Abbildung 3: Bevölkerungsverteilung in Kalifornien und Iowa (Abler et al. 1992: 84) 3.3 Berechnung der räumliche Autokorrelation Berechnung: • Vergleich zwei Werte miteinander • 1. Gleichwertigkeit der Attribute • 2. Ähnlichkeit des Ortes der Objekte, welche mit den Attributen besetzt sind 2 wichtigsten Maße zur Angabe der räumliche Autokorrelation • Geary’s (c) Index • Moran’s (I) Index 3.3.1 Geary’s (c) Index Geary Index = für Objekte mit intervallskalierten Attributdaten • bei der Analyse von Datenansammlungen z.B.: Erhebungsgebieten (engl. census tracts) cij = Unterschied der Attribute i, j wij = Grad der Nachbarschaft von i, j σ² = Varianz c = 1, keine räumliche Autokorrelation c < 1, positive räumliche Autokorrelation c > 1, negative räumliche Autokorrelation Formel 6,7: Berechnung des Geary’s (c) Index (Lo & Yeung 2002: 351) 3.3.2 Moran’s (I) Index • starke Ähnlichkeit mit Geary’s Index • Unterschied: Ergebnisse logischer für Betrachter • positive Ergebnisse positive räumliche Autokorrelation • negative Ergebnisse negative räumliche Autokorrelation • Index = 0 unabhängige unkorrelierte Daten Berechnung ähnlich des Geary’s (c) Index • cij = Unterschied der Attribute i, j • wij = räumliche Nähe von i, j • =Mittelwert • s² = Varianz Formel 8: Berechnung des Moran’s (I) Index (Lo & Yeung 2002: 352) 3.3.3 Moran’s und Gearie’s Index Moran’s & Gearie’s Index für flächenhaften Objekten entwickelt Aber: über Umwege Berechnung für Punkt, Linien und Rasterobjekte möglich Punktdaten Punkte in Flächen umwandeln linienförmigen Objekte wenn Linien = Verbindungen zwischen Punkten, die mit Merkmalen besetzt sind • Verglich der Merkmalsähnlichkeit der Punktpaaren mit anderen Punktpaaren • Messung der räumliche Nähe dadurch ob direkte Verbindung zwischen den Punktpaaren Rasterdaten Vergleich ob einzelne Rasterzellen gleiche Außengrenzen 3.4 Probleme 3.4.1 Datenherkunft allgemeines Problem • „ Uncertainties in data lead to uncertainties in the result of analysis.“ (Longley et al. 2001: 137) Ursache • liegt u.a. in der Generalisierung und Bündelung der rohen Ausgangsdaten z.B.: Krankheitsfälle pro Bezirk Bevölkerungszahlen für bestimmtes Gebiet • GIS Daten unterschiedlichster Herkunft Maßstabe, Detailgenauigkeit, Klassifizierung 3.4.2 MAUP „modifiable areal unit problem“ (MAUP) tritt auf bei willkürlich festgelegte Grenzen von räumlichen Ereignissen Beispiel • bei Volkszählungsdaten die in bestimmten Flächen angegeben werden • bei Angabe des Wahlergebnisses in Stadtvierteln Schlussfolgerung • Vorsicht bei Vergleich zweier Karten oder Datensätze die denselben Ausschnitt zeigen, aber mit unterschiedlichen Flächeneinheiten 3.4.2 MAUP Untersuchung der Wohnqualität von Syracuse, New York Frage: Welcher Maßstab ist der beste für diese Analyse? Antwort: • Berechnung von Moran‘s (I) für beide Maßstäbe d.h. Messung der räumlichen Verteilung zwischen den Voklszählungsgebieten Ergebnis: • I (Census tract) = 0,51 • I (Census block group) = 0,76 Schlussfolgerung: • Räumliche Autokorrelation bei „Census block group“ höher als bei „Census tract“ „Census block group“ für Untersuchung besser geeignet 4 Schlussbemerkung Analyse räumlich korrelierter Daten ist komplexe und aufschlussreiche Methodik mit vielfachen Anwendungsmöglichkeiten Analyse räumlichen korrelierter Daten nur schlecht GIS integriert • mit Idris32 möglich • mit Arcview nur über Umwege Literatur Abler R.F., Marcus G. M. & J. M. Olsen (1992): Geography’s inner worlds, Pervasive Themes in Contemporary American Geography. New Jersey. Bahrenberg G., Giese E. & J. Nipper (2003²): Statistische Methoden in der Geographie, Bd. 2. Berlin, Stuttgart. Heywood I., Cornelius S. & S. Carver (2002²): An Introduction to Geographical Information Systems. Essex. Lo C. P. & A. K.W. Yeung (2002): Concepts and Techniques of Geographic Information Systems. New Jersey. Longley P. A., Goodchild M.F., Maguire D. J. & D.W. Rhind (2001): Geographic Information, Systems and Science. Chichester, New York. Helmschrot J. & M. Fink (2001): Skript zum Proseminar Statistik, www.geogr.uni-jena.de/~c8firma/Statistik/ (letzter Aufruf 2002) Dumfarth E. & E. J. Lorup (2000): Geostatistik I - Theorie und Praxis, www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/ (letzter Aufruf 3.11.04)