Powerpoint

Werbung
Vortrag zum Hauptseminar:
Analyse und Modellierung
räumlicher Daten
Thema:
Räumliche
Autokorrelation und
deskriptive Methoden
Inhalt
1 Einleitung
2 Allgemeine deskriptive Methoden
2.1 Mittelwerte
2.2 Streuungsmaße
2.3 „Nearest Neighbor“-Analyse
2.4 Histogramm
2.5 Objektarten
2.6 Spatial Sampling
3 Räumliche Autokorrelation
3.1 Hinführung
3.2 Das erste Gesetz der Geographie
3.3 Berechnung der räumliche Autokorrelation
3.4 Probleme
4 Schlussbemerkung
1 Einleitung

Wie sind bestimmte Eigenschaften im Raum verteilt?

Gibt es eine räumliche Beziehung der Attributdaten?

um diese sichtbar zu machen braucht es deskriptive
Methoden

Ein Bereich der deskriptive Methoden ist Analyse der
räumliche Autokorrelation


Moran schrieb 1948 „The presence, absence, or
characteristics of some spatial objects may sometimes have
significant impacts on the presence, absence, or
characteristics of the neighboring objects.”( Lo & Yeung
2002: 117)
zuvor wichtige, grundlegende Verfahren und Sachverhalte
der traditionellen deskriptiven Statistik erläutert
2 Allgemeine deskriptive Methoden




deskriptive Statistik = beschreibende Statistik
Aufgabe: Analyse und Darstellung von räumlichen
& zeitlichen Daten
Ziel: Datenmengen mit wenigen Zahlen zu
charakterisieren
 für den Betrachter besser interpretierbar
deskriptiven Methoden:
u.a. Mittelwert und Streuung
2.1 Mittelwerte

Mittelwerte (engl. central tendency)
• beschreiben Zentrum der Verteilung

Angabe durch:
• arithmetische Mittel
• Median
• Modus
2.1.1 Arithmetische Mittel


Berechnung:
aus der Summe aller Einzelwerte,
dividiert durch die Gesamtzahl
aller Stichprobenfälle
Beispiel:
• Geg.: 1, 3, 5, 7, 64
• Xm = 16
Anwendung:
wenn Werte hauptsächlich um
arithmetische Mittel verteilt

Nachteil:
wenn Stichprobe zu heterogen
Formel 1: Mittelwert xm
(Helmschrot & Fink 2001)
2.1.2 Median

Def.: teilt eine der Größe nach geordnete
Verteilung in 2 gleichgroße Bereiche
• Beispiel: Gegeben ist ein beliebige Zahlenreihe mit den
Werten 1, 3, 5, 7, 64
• Median = 5


bei ungeraden Anzahl der Stichproben:
Median besteht aus den 2 in der Mitte stehenden
Zahlen
Vorteil:
keine große Beeinflussung durch einzelne hohe
Werte
2.1.2 Modus


Def: zeigt den am häufigsten vorkommenden
Merkmalswert einer Datenreihe oder einer Klasse
Beispiel
• Geg.: 1, 7, 2, 5, 64, 7, 5, 7, 2
• Modus = 7
2.2 Streuungsmaße


Def.: geben die Verteilung der Merkmalswerte um
das Zentrum an
Streuungsmaße sind
• Standartabweichung und Varianz
• Schiefe
• Exzess
2.2.1 Standartabweichung und Varianz

wichtigste Maßeinheit um die Streuung zu charakterisieren

Def.: Verhalten der Streuung einer Verteilung um den
Mittelwert


Berechnung:
• Standartabweichung ergibt sich,
aus der Wurzel der Varianz
• Varianz berechnet sich aus der Summe der quadrierten
Abweichungen vom Mittelwert xm, geteilt durch die
Gesamtzahl der Elemente n
Nachteil: die Standartabweichungen
zweier verschiedener Stichproben
sind nur vergleichbar, wenn deren
arithmetische Mittel etwa gleichgroß
Formel 2,3: Varianz & Standartabweichung
(Helmschrot & Fink 2001)
2.2.2 Schiefe




Schiefe (engl.: skewness) und Exzess (engl.: kurtosis) sind
Formenparameter, d.h. sie geben Auskunft über die Form der
Verteilung
Def.: Maß für die Symmetrie der Verteilung um das
arithmetische Mittel
Berechnung: aus der Differenz des Mittelwert xm vom
Median, welche durch die Standartabweichung s dividiert
wird
Eigenschaften:
• Schiefe g = 0, Normalverteilung
• Schiefe g > 0, positive Schiefe
 der Median ist links vom Mittel
• Schiefe g < 0, negativen Schiefe
 der Median rechts vom Mittel
Formel 4: Schiefe g (Helmschrot & Fink 2001)
2.2.2 Schiefe
Eigene Darstellung: Schiefe
2.2.3 Exzess


Def.:
• ein Maß für die Steilheit der Verteilung
• beschreibt ob die Merkmalsverteilung spitz oder flach um das
Zentrum verteilt ist
Eigenschaften:
• Exzess Ez > 1, positiver Exzess  Verteilung steile als
Normalverteilung
• Exzess Ez < 1, negativer Exzess Verteilung flacher als
Normalverteilung
• Exzess Ez = 1, keinen Exzess  einer Normalverteilung
Formel 5: Exzess Ez
(Helmschrot & Fink
2001)
2.2.3 Exzess
Eigene Darstellung: Exzess
2.3 „Nearest Neighbor“-Analyse


Def.: Untersuchung der Verteilungsmuster von Punkten auf
einer Fläche aber nicht im Zusammenhang mit den
Attributdaten
Mögliche Verteilungsmuster: regelmäßig, unregelmäßig
oder in Clustern (Gruppen)
• Einordnung erfolgt über Messung der Distanzen
zwischen gepaarten Datenpunkten
• Gepaart werden Punkte mit der geringsten räumlichen
Distanz zueinander = Nearest Neighbor
Abbildung 1:
Mögliche Muster
(a)regelmäßig,
(b)unregelmäßig
(c)gruppiert
(Dumfarth & lorup
2000)
2.3 „Nearest Neighbor“-Analyse
• Probleme der Größe der Analysefläche
• es ist notwendig, die Punktdichte in dem Gebiet zu kennen,
es muss die Größe der Analysefläche genau festgelegt werden
bei zu großer Fläche zu geringer Punktdichte
als wenn für die gleiche Anzahl von Punkten eine
kleinere Fläche verwendet wird
• Problem des Kanteneffektes (engl.: edge effect)
• von Punkten am Rande der Untersuchungsmatrix wird keine
Distanz zu Punkten außerhalb gemessen, obwohl diese am
nächsten liegen
2.4 Histogramm


eine der verbreitesten Möglichkeiten Daten visuell
darzustellen
Def.:
• zeigt an, wie viele Merkmalsausprägungen in einer
bestimmten vorher festgelegten Klasse sind
• Klassenhäufigkeitsverteilung, durch die erkennbar ist,
wie sich die Werte über das gestammte Wertespektrum
verteilen

Eigenschaften:
• y-Achse = Häufigkeit der Variable
(z.B.: Anzahl von Temperaturwerten)
• x-Achse = die Klassen, in denen die Werte eingeordnet
werden (z.B.: in der Klasse 0-5°C liegen 3 Werte)

wichtigste Form einer Häufigkeitsverteilung ist die
glockenförmige Normalverteilung
• bei Normalverteilungen liegt das arithmetisches Mittel
und Median aufeinander bzw. repräsentieren die Mitte
der Datenmenge
2.4 Histogramm
Diagramm 1:
Histogramm [rot]
Normalverteilung
[schwarz]
(Dumfarth & lorup
2000)
2.5 Objektarten

wie bei Skalenarten ist Anwendung von statistischen Methoden an
bestimmte Objektarten gekoppelt

geographische Objekte werden nach ihrer Topologieausdehnung
bestimmt
Punkte: keine dimensionale Ausbreitung
• Verwendung um räumliche Verteilung von Ereignissen und deren
Muster wiederzugeben
Linien: eindimensionale Ausbreitung, die Länge
• Verwendung um Distanzen zu messen oder lineare Objekte
darzustellen (z.B.: Strassen)
Flächenobjekte: zweidimensionale Ausdehnung, die Länge und Breite
• Verwendung bei natürliche Objekte wie Felder oder künstliche
Objekte wie Bevölkerungsverteilungen
Oberflächen und Volumen: dreidimensional
• Verwendung bei Darstellung von natürlichen Objekten wie
digitalen Geländemodellen

Problem des Maßstab am Beispiel der Darstellung von New York auf
verschieden Karten
2.6 Spatial Sampling



Def.: Ziehen von Stichproben im Raum
nötig, da die reale Welt unendlich komplex ist,
ein GIS aber nicht unendlich viele Daten
verarbeiten kann
sampling Modelle (engl.: sampling scheme)
• bestimmen die räumliche Verteilung der einzelnen
Stichprobenpunkte im Untersuchungsgebiet

Stichprobenanzahl
• je heterogener räumliche Phänomene verteilt desto
mehr Stichproben nötig
• je homogener die Verteilung desto weniger Stichproben
nötig
• es gibt aber Mindestriechprobenzahl
2.6 Spatial Sampling




einfache zufällige Stichprobe (Feld A): jeder Punkt hat die gleiche
Wahrscheinlichkeit gezogen zu werden
• statistisch völlig korrekt aber Probleme in der Praxis
 kleine, aber wichtige Bereiche werden unterpräsentiert, außer bei
große Anzahl von Stichproben
systematischen Stichprobe (Feld B): der erste Punkt wird zufällig
ermittelt und an diesem die restlichen entlang eines festen Schemas
ausgerichtet
• einfach durchzuführen aber Fehler bei Daten die periodischen
Änderungen unterliegen
strategische Zufallstichprobe (Feld C): Untersuchungsgebiet wird in
Teilgebiete gliedert und in jedem Teilgebiet eine zufällige Stichrobe
genommen
• geeignet, weil nur geringe Anzahl von Stichproben nötig aber
selben Problemen wie bei Zufallsstichprobe
strategisches, systematisches und unangepasstes Modell (Feld D)
• vereinigt es die Vorgehensweise und auch Vorteile der drei vorher
genannten Modelle
2.6 Spatial Sampling
3 Räumliche Autokorrelation
3.1 Hinführung

Problem der traditionellen statistischen Analysen:
• bei Untersuchung von Zusammenhängen, die
stochastische Abhängigkeit aufweisen kommt es zu
fehlerhaften Resultaten
• aber stochastische abhängige Variablen häufig in Statistik
• Stochastische Abhängigkeit  statistische Ereignisse
treten nicht unabhängig voneinander auf

Ursache:trad. Statistik basiert auf Zufallsvariablen
• d.h. Datenwerte der Variable kommen rein zufällig
zustande  sie sind unabhängig voneinander
• Beispiel am Würfelexperiment
3.1 Hinführung






„In Hinblick auf die räumliche Verteilung von Datenpunkten
bedeutet dies, daß die verschiedenen Werte einer Variablen
unabhängig von ihrer räumlichen Position zustande kommen.
Erscheinungen wie Distanz der Werte zueinander,
Nachbarschaft, Nähe, Richtung und dergleichen haben also
keinen Einfluß auf den Wert eines bzw. aller Datenwerte.“
(Dumfarth & lorup 2000)
Entspricht nicht der Realität  Beispiel des Bodenmarktes
 Ansatz der Geostatistik: die Werte einer Variable durch eine
Funktion gesteuert
regionalisierten Variablen: Werte einer Region sind ähnlich,
weil untereinander beeinflussbar und mit zunehmender
Entfernung die Ähnlichkeit abnimmt
beschrieb W. Tobler mit dem „ersten Gesetz der Geographie“
wichtig bei Verbreitung eines Phänomens ist Distanz bzw.
Nachbarschaft
3.2 Das erste Gesetz der Geographie

Das „erste gesetzt der Geographie“ von W. Tobler beschrieb das
bekannte Phänomen, das benachbarte Objekte oft ähnlicher
waren als weit entfernte.
„The first law of geography is that everything is related to
everything else, but near things are more related than distant
things.”(Tobler 1970 in Abler 1992: 155)
• beschreibt die räumliche Autokorrelation d.h. den Grad, mit
dem nahe und entfernte Dinge miteinander verbunden sind

„In practice, the existence of spatial autocorrelation means that if

auf die Zeit bezogen = zeitliche Autokorrelation


A and B are close together, what happens at A is related to what
happens at B, and vice-versa.”(Abler et al 1992: 287)
wichtigsten Faktoren:
• Lage der Objekte zueinander
• Merkmalsausprägung
3.2 Das erste Gesetz der Geographie

3 wichtigsten Typen räumliche Autokorrelationen:
• Klassifizierung nach der relativen Verteilung
räumlicher Objekte und ihrer Nachbarn
• Feld A: extreme positive räumliche Autokorrelation
• Feld C: extreme negative räumliche Autokorrelation
• Feld B: keine räumliche Autokorrelation
Abbildung 2: Typen der räumlichen Autokorrelation (Lo & Yeung 2002: 117)
3.2 Das erste Gesetz der Geographie

praktisches Beispiel der unterschiedliche Typen räumliche
Autokorrelation:
• in San Bernardino = starke räumliche Autokorrelation der
Bevölkerung
• in Iowa = schlechte räumliche Autokorrelation
Abbildung 3: Bevölkerungsverteilung in Kalifornien und Iowa (Abler et al. 1992: 84)
3.3 Berechnung der räumliche
Autokorrelation

Berechnung:
• Vergleich zwei Werte miteinander
• 1. Gleichwertigkeit der Attribute
• 2. Ähnlichkeit des Ortes der Objekte, welche mit den
Attributen besetzt sind

2 wichtigsten Maße zur Angabe der räumliche
Autokorrelation
• Geary’s (c) Index
• Moran’s (I) Index
3.3.1 Geary’s (c) Index

Geary Index = für Objekte mit
intervallskalierten Attributdaten
• bei der Analyse von Datenansammlungen
z.B.: Erhebungsgebieten (engl. census
tracts)
cij = Unterschied der Attribute i, j
wij = Grad der Nachbarschaft von i, j
σ² = Varianz
c = 1, keine räumliche Autokorrelation
c < 1, positive räumliche Autokorrelation
c > 1, negative räumliche Autokorrelation
Formel 6,7: Berechnung des Geary’s (c) Index
(Lo & Yeung 2002: 351)
3.3.2 Moran’s (I) Index
• starke Ähnlichkeit mit Geary’s Index
• Unterschied: Ergebnisse logischer für Betrachter
• positive Ergebnisse  positive räumliche Autokorrelation
• negative Ergebnisse  negative räumliche Autokorrelation
• Index = 0  unabhängige unkorrelierte Daten

Berechnung ähnlich des Geary’s (c)
Index
• cij = Unterschied der Attribute i, j
• wij = räumliche Nähe von i, j
•
=Mittelwert
• s² = Varianz
Formel 8: Berechnung des Moran’s (I) Index
(Lo & Yeung 2002: 352)
3.3.3 Moran’s und Gearie’s Index

Moran’s & Gearie’s Index für flächenhaften Objekten
entwickelt

Aber: über Umwege Berechnung für Punkt, Linien und
Rasterobjekte möglich

Punktdaten  Punkte in Flächen umwandeln


linienförmigen Objekte  wenn Linien = Verbindungen
zwischen Punkten, die mit Merkmalen besetzt sind
• Verglich der Merkmalsähnlichkeit der Punktpaaren mit
anderen Punktpaaren
• Messung der räumliche Nähe dadurch ob direkte
Verbindung zwischen den Punktpaaren
Rasterdaten  Vergleich ob einzelne Rasterzellen gleiche
Außengrenzen
3.4 Probleme
3.4.1 Datenherkunft

allgemeines Problem
• „ Uncertainties in data lead to uncertainties in the result
of analysis.“ (Longley et al. 2001: 137)

Ursache
• liegt u.a. in der Generalisierung und Bündelung der
rohen Ausgangsdaten
 z.B.: Krankheitsfälle pro Bezirk
Bevölkerungszahlen für bestimmtes Gebiet
• GIS Daten unterschiedlichster Herkunft
 Maßstabe, Detailgenauigkeit, Klassifizierung
3.4.2 MAUP

„modifiable areal unit problem“ (MAUP)

tritt auf bei willkürlich festgelegte Grenzen von
räumlichen Ereignissen

Beispiel
• bei Volkszählungsdaten die in bestimmten Flächen
angegeben werden
• bei Angabe des Wahlergebnisses in Stadtvierteln

Schlussfolgerung
• Vorsicht bei Vergleich zweier Karten oder Datensätze
die denselben Ausschnitt zeigen, aber mit
unterschiedlichen Flächeneinheiten
3.4.2 MAUP



Untersuchung der Wohnqualität von Syracuse, New York
Frage: Welcher Maßstab ist der beste für diese Analyse?
Antwort:
• Berechnung von Moran‘s (I) für beide Maßstäbe d.h.
Messung der räumlichen Verteilung zwischen den
Voklszählungsgebieten


Ergebnis:
• I (Census tract) = 0,51
• I (Census block group) = 0,76
Schlussfolgerung:
• Räumliche Autokorrelation bei „Census block group“ höher
als bei „Census tract“
 „Census block group“ für Untersuchung besser geeignet
4 Schlussbemerkung


Analyse räumlich korrelierter Daten ist komplexe
und aufschlussreiche Methodik mit vielfachen
Anwendungsmöglichkeiten
Analyse räumlichen korrelierter Daten nur
schlecht GIS integriert
• mit Idris32 möglich
• mit Arcview nur über Umwege
Literatur
Abler R.F., Marcus G. M. & J. M. Olsen (1992): Geography’s inner worlds,
Pervasive Themes in Contemporary American Geography. New Jersey.
Bahrenberg G., Giese E. & J. Nipper (2003²): Statistische Methoden in der
Geographie, Bd. 2. Berlin, Stuttgart.
Heywood I., Cornelius S. & S. Carver (2002²): An Introduction to Geographical
Information Systems. Essex.
Lo C. P. & A. K.W. Yeung (2002): Concepts and Techniques of Geographic
Information Systems. New Jersey.
Longley P. A., Goodchild M.F., Maguire D. J. & D.W. Rhind (2001): Geographic
Information, Systems and Science. Chichester, New York.
Helmschrot J. & M. Fink (2001): Skript zum Proseminar Statistik,
www.geogr.uni-jena.de/~c8firma/Statistik/ (letzter Aufruf 2002)
Dumfarth E. & E. J. Lorup (2000): Geostatistik I - Theorie und Praxis,
www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/ (letzter Aufruf 3.11.04)
Herunterladen