Datenbankunterstützung für mobile GIS - Spatial Data

Werbung
Datenbankunterstützung für mobile GIS - Spatial
Data Mining
Collin Raddatz
Betreuer: Florian Wenzel
Zusammenfassung Diese Ausarbeitung bietet eine kurze Einführung
in die Welt des Spatial Data Minings. Dabei wird kurz klassisches Data
Mining beleuchtet, um hierauf die Unterschiede des Spatial Data Minings
aufzuzeigen. In einem weiteren Abschnitt werden einzelne Algorithmen
des Spatial Data Minings vorgestellt. Zuletzt wird die Rolle der Visualisierung vorgestellt und es werden Argumente hervorgebracht, warum
gerade Spatial Data Mining von einer geeigneten Visualisierung besonders profitiert.
1
Einleitung
Data Mining wird mit dem Ziel eingesetzt, in großen Datenbeständen Muster
und Strukturen zu erkennen, welche zuvor nicht bekannt waren. So lässt sich Data Mining gut von dem Thema des Maschinellen Lernens abgrenzen, in welchem
hauptsächlich bekannte Muster in neuen Datensätzen erkannt werden sollen.
Der Begriff Data Mining lässt sich bis in die 1950er zurückverfolgen, als erstmals große Datenbanken mit Machine Learning Techniken durchsucht wurden.
Mit der Zeit entwickelten sich Techniken die sich dem Data Mining zuordnen
lassen zu einem integralen Bestandteil der modernen Datenbank Technologien
und spielen eine wichtige Rolle im Übergang von klassischen Datanmanagement
Tools zu Software die Management Entscheidungen direkt unterstützen können.
Das Data Mining in Datenbanken (Knowledge discovery in databases, KDD)
besteht typischer Weise aus einer Abfolge einzelner Prozessschritte:
–
–
–
–
–
Datenintegration und Bereinigung
Datenselektion und Transformation
Suche von Muster und Trends
Wissensfindung und Konstruktion
Auslieferung
Wegen der interaktiven und iterativen Natur von KDD ist es nicht einfach,
die Grenzen von Data Mining zu definieren. Denn Data Mining endet nicht mit
der Berechnung von Informationen durch Algorithmen sondern beinhaltet außerdem die Erzeugung einer Visualisierung, welche Beobachtern das Verständnis für
die neu gefundenen Inforationen erleichtert. Selbst die Interpretation der Visuellen Darstellung von Informationen kann noch zum Data Mining selbst gezählt
werden so Yeung und Hall [1].
2
2
Datenbankunterstützung für mobile GIS
Einführung in Spatial Data Mining
Spatial Data Mining erweitert das Klassische Data Mining um eine räumliche
Komponente. Dadurch stehen alle räumlichen Objekte in einem Zusammenhang
zueinander, nicht nur im Raum, oft auch in der Zeit. Über diese Zusammenhänge
ist es möglich, eine Vielzahl von Mustern und Trends zu erkennen, welche Informationen bergen könnten die für weitreichende, planerische Entscheidungen
von äußerstem Interesse sind. Daher ist der Bedarf an den Ergebnissen räumlichen Data Minings in den letzten Jahren deutlich gestiegen. Waren räumliche
Daten bisher nur für geologische und wissenschaftliche Anwendungen von Interesse, wird deren Einsatz nun auch vermehrt im Markt der Endnutzer eingesetzt.
Daneben entwickelt sich außerdem eine Verbreitung von Spatial Data Mining
Techniken auf dem Gebiet der Decision Support Systemen, welche Managemententscheidungen unterstützen oder verifizieren sollen.
3
Komplexität von Spatial Data Mining
Durch die Komplexität von räumlichen Datentypen, räumlichen Relationen und
räumlichen Autokorrelationen ist das auffinden von Mustern in Räumlichen Ratensätzen deutlich komplexer als in klassischen Datensätzen. Zudem der Einsatz klassischer Data Mining Techniken abzuraten, da diese nur eingeschränkt
brauchbare Ergebnisse liefern können [2]. Yeung und Hall nennen dafür zahlreiche Faktoren[1].
Räumliche Datenstrukturen Räumliche Daten enthalten sowohl Ortsinformationen als auch Topologische Informationen, welche nicht für Analysen optimiert wurden, so liegen diese Daten häufig in normalisierter Form vor. Welche
das Auffinden von Informationen erschweren.
Räumliche Datenvielfalt Die gesammelten Daten welche in großen räumlichen Datenbanken gehalten werden, weißen häufig eine große Heterogenität auf.
Dies bezieht sich angefangen bei unterschiedlicher Genauigkeit in der Datenerfassung bis zu der Existenz verschiedener Datentypen für die selben Datensätze.
Hierdurch können wichtige Muster in den Daten verschleiert werden.
Räumliche Datensammlung Bei der Sammlung von Räumlichen Daten entstehen häufig Fehler, wie sie zum Beispiel bei dem Verlust von Satellitenverbindung im Einsatz von GPS Geräten. Diese Fehler können die Analyse erschweren,
da sie wie Ausreißer gegenüber der anderen Daten erscheinen.
Räumliche Abhängigkeiten Da räumliche Daten häufig voneinander abhängen ist es schwer, ohne ein Vorwissen über die Daten, Informationen zu gewinnen. Ein einfach verständlicher Zusammenhang ist der von Höhe und Temperatur, je höher der gemessene Ort, desto niedriger für gewöhnlich die gemessene
Spatial Data Mining
3
Temperatur im Vergleich zu niedrigeren Standorten. Oft sind die entstehenden
Abhängigkeiten aber komplexerer Natur und nicht leicht ersichtlich.
Zeitliche Abhängigkeit räumlicher Daten Räumliche Daten werden fast
immer zu einem bestimmten Zeitpunkt erfasst und sind so streng mit der Zeit
verbunden. Sie stellen so nur eine Momentaufnahme dar. Zudem ist der Zeitpunkt der Momentaufnahme bei allen Einzeldaten unterschiedlich. In (Abbildung. 1) wird ein typisches Erscheinungsbild dieses Problems gezeigt. Die einzelnen Satellitenbilder wurden zu verschiedenen Tageszeiten aufgenommen, so
kommt es zu einen Bruch zwischen den Übergängen der Einzelbilder. Ein ähnliches Problem stellt sich zum Beispiel bei Verkehrsmessungen, zu unterschiedlichen Zeiten werden verschiedene Werte gemessen. So ist für die korrekte Erfassung und das Umgehen des Problems zeitlicher Abhängigkeiten oft ein Wissen
über diese erforderlich. Vorwissen, das im Data Mining oft nicht vorhanden ist.
Abbildung 1. Zeitliche Abhängigkeit räumlicher Daten [10]
4
Algorithmen des Spatial Data Minings
Im Folgenden werden Methoden vorgestellt welche im Rahmen des Spatial Data
Minings eingesetzt werden und sich als effektiv bewiesen haben.
4
4.1
Datenbankunterstützung für mobile GIS
Standort Prognose
Das Voraussagen von Standorten ist ein Technik, welche in vielen Anwendungsgebieten Beachtung findet. So wird sie zur Verbrechensanalyse genauso eingesetzt,
wie zur Planung von Mobilfunknetzen oder die Vorhersage von Naturkatastrophen.
Messen von Korrektheit im räumlichen Zusammenhang In einem klassischen Data Mining Szenario werden Datensätze in Lern- und Testdaten aufgeteilt. Mit den Lerndaten lernt das System die Regeln die das Vorkommen von
gesuchten Ereignissen bestimmen. Mit den Testdaten wird das durch die Lerndaten antrainierte Verhalten verifiziert oder falsifiziert. Im folgenden Beispiel
von (Abbildung 2) wird zunächst im Bild b) das Vorkommen von Brutstätten
seltener Vogelarten mittels eines Rasters diskretisiert, welche in Bild a) noch
in indiskreter Form vorliegen. Bilder c) und d) zeigen zwei verschiedene Vorhersagen. Hier zeigt sich nun die Schwierigkeit, beide Prognosen einzuschätzen.
Bei einer klassischen Bewertungsmethode werden die Häufigkeiten der korrekten
Klassifikation gezählt. Würde man diese Bewertungsmethode anwenden, wären
beide Prognosen gleich schlecht. Weder die Prognose aus a) noch jene aus b) haben die Vorkommen der Brutstätten korrekt vorhergesagt. Doch ist die Prognose
d) deutlich genauer, wenn man die Daten vor der Rasterisierung betrachtet.
Abbildung 2. Vorkommen von Brutstätten [2]
Um diesem Problem zu begegnen wurde der Nachbarschaftszusammenhang
eingeführt, welcher den Räumlichen Zusammenhang von Ereignissen beschreibt.
Häufigste eingesetzte Techniken sind die 4er und 8er Nachbarschaften (Abbildung 3).
Die Modellierung solcher räumlicher Abhängigkeiten während des Klassifikationsprozesses können die Klassifikationsgenauigkeit erhöhen, was Studien von
Jhung, Swain [3] und Solberg, Taxt, Jain [4] zeigen.
4.2
Räumliche Ausreißer Erkennung
Ausreißer können als Daten in einem Datensatz beschrieben werden, welche von
den restlichen Daten des Datensatzes abweichen Barnett, Lewis 1994. Diese Aus-
Spatial Data Mining
5
Abbildung 3. 4er und 8er Nachbarschaft
reißer können nicht nur als zu beseitigende Probleme in einem Datensatz betrachtet werden, diese Anomalien können auch interessanten Wissen beherbergen, da
sie eventuell durch einen anderen Mechanismus erzeugt wurden, als die anderen
Objekte im Datensatz [5]. Beispiele hierfür sind das Aufspüren von Kreditkartenbetrug, Unstimmigkeiten bei Athletischen Leistungen bei Dopingkontrollen
oder der Vorhersage von Wetter. Bei der Erkennung von räumlichen Ausreißern
spielt die Nachbarschaft der Daten eine große Rolle. So kann können einzelne Daten nach der klassischen Beurteilung Ausreißer darstellen, nach der räumlichen
Beurteilung dagegen innerhalb der Toleranz liegen. Folgendes Beispiel soll dies
verdeutlichen. In Abbildung 4 a) ist ein Datensatz mit einer eindimensionalen
räumlichen Ausdehnung aufgetragen. Eine klassische Erkennung von Ausreißern
würde den Punkt G als Ausreißer markiere, da sich dieser, wie in Abbildung 4 b)
gezeigt, mit einem Wert von 7,9 außerhalb der doppelten Standardabweichung
von 7,71 befindet.
Um räumliche Ausreißer zu erkennen, kommen jedoch andere Algorithmen
zum Einsatz. Einer hiervon ist der Moran Scatterplot [7]. Hierbei werden die einzelnen Datenpunkte in ein Achsensystem eingetragen, so dass auf der x-Achse
f (i)−µ
die normalisierten Attributswerte (Z[f (i)] = σf f ) beschrieben werden. Auf
der y-Achse dagegen werden werden die Nachbarschaftsdurchschnitte der normalisierten Attributswerte aufgetragen (W ∗ Z). Dabei beschreibt W eine zeilennormalisierte Nachbarschaftsmatrix. Der Wert Wi,j ist somit größer als 0, wenn
eine Nachbarschaft zwischen i und j existiert.
In (Abbildung. 5) a) ist der daraus resultierende Moran Scatterplot gezeigt.
Die Punkte, welche sich in dem linken oberen Quadranten sammeln sind jene,
die selbst niedrige Werte besitzen, aber Punkte in ihrer Nachbarschaft mit hohen
Werten haben. Der Quadrant rechts unten enthält genau gegenteilige Punkte. Sie
besitzen die Eigenschaft hoher Attributwerte in einer Nachbarschaft mit Punkten
niedriger Attributwerte.
4.3
Koexistenz Regeln
Bei der Suche von Koexistenz Regeln werden Muster gesucht, die darauf hinweisen welche Beobachtungen vermehrt in einer Nachbarschaft vorkommen. Das
6
Datenbankunterstützung für mobile GIS
Abbildung 4. Räumliche Ausreißer [2]
Abbildung 5. Moran scatterplot [2]
gemeinsame Vorkommen von Objekten ist sehr häufig, Beispiele sind hierbei die
Koexistenz von Tierarten, das gemeinsame Aufkommen von Krankheiten oder
das Auftreten von Verbrechen bei bestimmten Geologischen oder Sozialen Gegebenheiten. Folgendes Beispiel in Abbildung 6 offenbart bereits bei genauem
Hinsehen einzelne Koexistenzen. So treten ‘+‘ und ‘x‘ häufig zusammen auf,
genauso wie ‘o‘und ‘∗‘.
Für das Finden von Koexistenz Regeln soll hier der Reference Feature Centric
Model Ansatz genauer erläutert werden. Wie schon aus dem Namen ersichtlich
muss für diese Technik ein Referenz Objekt ausgewählt werden, zu welchem
Spatial Data Mining
7
Abbildung 6. Koexistenz [2]
Nachbarschaften definiert werden, in diesem Beispiel Objekte vom Typ A. Der
Raum in welcher sich die einzelnen Objekte befinden, muss wie in Abbildung 7
gezeigt, rasterisiert werden. Nun wird bestimmt, für welche Objekte Koexistenzen überhaupt von Interesse sind. In diesem Beispiel werden nun Objekte von
Typ B und C zur Untersuchung herangezogen. Objekte vom Typ D interessieren
in der weiteren Untersuchung nicht und werden ausgelassen. Nun wird ein räumliches Prädikat close_to erzeugt, wobei close_to(a,b) gelten soll, wenn b in der
Nachbarschaft von a liegt. Dabei wird in diesem Model eine 8er Nachbarschaft
angenommen. Werden nun die Wahrscheinlichkeiten für das Auftreten von B und
C in Nachbarschaft von A berechnet, so kommt B zu 50% in Nachbarschaft mit
A vor, wenn A eine Nachbarschaft besitzt. C kommt dagegen zu 100% in einer
Nachbarschaft mit A vor. Wäre bei der initialen Auswahl der Objekte auch D
als möglicher Nachbarschaftskandidat ausgewählt worden, hätten sich auch die
Wahrscheinlichkeiten von B und C verändert.
4.4
Räumliches Clustering
Räumliches Clustering wird eingesetzt um Zentren von Ereignissen oder Objekten zu bestimmen. Anwendungsgebiete hierfür stellen die räumliche Analyse von
Straftaten dar. Zudem findet diese Technik wirtschaftlichen Einsatz bei der Bestimmung von Einzugsgebieten wie sie bei Bauvorhaben für Einkaufszentren von
Bedeutung sind. Dabei werden Clusterzentren des Kundenklientels erstellt, um
eine optimale Verteilung und dadurch höhere Umsätze zu garantieren. Mit einer
Räumlichen Clusteringanalyse können schnell intuitive Visualisierungen entwickelt werden, welche die Entscheidungsfindung im Bereich des Managements vereinfachen könne. So ist in Abbildung 8 eine durch Clustering erzeugte Verteilung
von Wissenschafts- und Technologiestandorten über Deutschland gezeigt.
Für das Räumliche Clustering existieren 4 grundlegende Vorgehensweisen.
8
Datenbankunterstützung für mobile GIS
Abbildung 7. Reference Feature Centric Model [9]
Hierarchische Clustering Methoden existieren in zwei verschiedenen Typen, den agglomerativen Methoden welche einen bottom up Ansatz darstellen
und jedes Objekt als einzelner Cluster beginnt. Und dem Typ der divisiven Methoden, bei welchen alle Objekte zusammen, als ein einzelner Cluster beginnen
und somit top down Ansatz darstellen. Die agglomerativen Methoden werden
die einzelnen Cluster sukzessiv zusammengeführt, bis ein definiertes Haltekriterium greift. Ein hierdurch erstellter Baum, auch Dendogramm genannt, wird in
Abbildung 9 gezeigt. Bei den divisiven Methoden werden die Cluster geteilt bis
der Algorithmus durch ein Haltekriterium zum Stoppen gebracht wird.
Partitionierende Clustering Methoden werden eingesetzt um Cluster von
Kreisform zu finden. Dabei wird im Fall des k-means clustering eine Startverteilung der k Cluster vorgegeben und jeder Punkt seinem nächsten Cluster zugeordnet. Danach wird den Clustern die mittlere Position aller ihrer enthaltenen
Punkte zugeordnet. Hiernach wird wieder überprüft ob sich alle Punkte in ihren, am nächsten gelegenen Clustern befinden und eventuell neu zugeordnet.
Auch dieser Algorithmus kann iterativ, bis zum eintreten eines Haltekriteriums
ausgeführt werden.
Probleme ergeben sich bei diesem Algorithmus besonders durch die zufällige
Auswahl der Startcluster. Wird eine andere Verteilung der Startcluster gewählt,
ändert sich auch das Ergebnis des Algorithmus. Als weiteres großes Problem
wird gesehen, dass die Anzahl der Cluster im Voraus bekannt sein muss. Somit
kann diese Methode ohne Vorwissen nicht effektiv eingesetzt werden.
Dichte-basierende Clustering Methoden finden Cluster mit willkürlicher
Form aufgrund der Dichte von Punkten innerhalb einer Region. Hierbei werden
die Punkte einzeln besucht und innerhalb einer -Nachbarschaft nach weiteren
Spatial Data Mining
9
Abbildung 8. Wissenschaftsstandorte in Deutschland[13]
Punkten gesucht. Kommen weitere Punkte vor, werden diese zum Cluster hinzugefügt, existieren keine weiteren Punkte wird der besuchte Punkt als potentielles
Rauschen interpretiert.
Rasterbasierte Clustering Methoden zerteilen den Raum zunächst in ein
endliche Anzahl an Zellen. Zellen welche mehr Punkte als ein Mindestkriterium
enthalten werden als möglicher Cluster identifiziert. Danach werden die einzelnen
möglichen Clusterzellen zu Cluster zusammengefügt.
5
Visualisierung von Spatial Data Mining
Durch die Visualisierung von Räumlichen Daten wird die intuitivste Form der
Präsentation und Interpretation ermöglicht. Nach Adrienko und Adrienko [8]
kann die Visualisierung in verschiedenen Phasen des Data Mining Prozesses eingesetzt werden.
Vorverarbeitung kann visuell stattfinden, indem extreme oder andere auffällige Werte schnell ausselektiert oder einer weiteren Verifikation unterzogen werden
können. Die Darstellung von Zwischenergebnissen kann der bedienenden Person
ermöglichen, in den Prozess des Data Minings interaktiv einzugreifen, Parameter
nach seinen Wünschen zu verändern um ein gewünschtes Ergebnis zu erhalten.
Und eine Evaluation und Interpretation kann durch eine geeignete Visualisierung profitieren, da Räumliche Merkmale, Muster und Trends häufig schneller
10
Datenbankunterstützung für mobile GIS
Abbildung 9. Agglomerativ hirarchisches Clustering [11]
durch eine visuelle Analyse erspäht werden können als durch die Interpretation
von Numerischen Daten wie Tabellen.
Nach Adrienko und Adrienko [12] wird daher empfohlen, die Visualisierung
als integraler Bestandteil von Räumlichem Data Mining zu sehen. Daher wurden zwei Herangehensweisen entwickelt, welche elementar auf der VIsualisierung
basieren.
Geography-to-mathematics beschreibt eine Vorgehensweise, bei welcher die
Analyse mit einer visuellen Evaluation startet. Die in diesem Schritt gesammelte Daten werden mathematisch durch die Methoden des Spatial Data Manings
validiert. Ein Beispiel hierfür kann das Fickr Projekt von Eric Fisher gesehen
werden, dabei wurden Photos aus Flickr Standorte zugewiesen und vermerkt ob
diese von Einheimischen oder Touristen veröffentlicht wurden. Die Visuelle Darstellung der einzelnen Datenpunkte über die Karte Bekannter Städte lässt eine
intuitive Analyse zu, mit der Touristische Stadtteile schnell identifiziert werden
können. Eine so erstellte Visualisierung der Stadt Berlin zeigt die Abbildung 10,
dabei wurden die Orte touristischer Bilder in rot dargestellt, Bilder von Einheimischen in blau.
Mathematics-to-geography wählt einen entgegengesetzten Weg. Zunächst wird
ein mathematisches Data Mining durchgeführt, die daraus entstehenden Daten
werden visualisiert um geeignet interpretiert zu werden. Dies stellt die klassische
Vorgehensweise dar, wie sie auch im herkömmlichen Data Mining anzutreffen
ist.
Spatial Data Mining
11
Abbildung 10. Fotos von Touristen in Berlin werden rot dargestellt [14]
6
Zusammenfassung
Durch die Verbreitung von GIS Anwendungen und den steigenden Informationsbedarf, der durch Behörden und Unternehmen forciert wird, steigt das Interesse
an Räumlichem Data Mining und die hierfür benötigten Technologien finden
Verbreitung. Als großer Unterschied zu gewöhnlichem Data Mining kann die Bedeutung der Visualisierung von räumlichen Daten gesehen werden. Durch den
räumlichen Kontext, wird einerseits die Visualisierung vereinfacht; für jeden Datensatz existier ein Räumlicher Punkt, der auf einer Karte gezeichnet werden
kann; andererseits wird auch eine intuitive Analyse der Datensätze ermöglicht,
die mehr Wert auf den Menschen im Data Mining Prozess legt, als es bei klassischem Data Mining der Fall ist. Besteht die Befürchtung, dass eine Intuitive
Analyse nicht die gleiche Qualität wie ein maschinen-zentrierter Ansatz liefert, so
kann weiterhin nach dem Geography-to-mathematics Vorgehen eine maschinenzentrierte Verifikation der Ergebnisse stattfinden.
Erst durch die Kombination menschliche Analysefertigkeit, ermöglicht durch
das intuitive Verständnis für räumliche Gegebenheiten und angelerntes Wissen,
mit den Möglichkeiten maschineller Methoden, kann ein effektives Spacial Data
Mining gewährleistet werden.
Literatur
[1]
[2]
[3]
Yeung A.K.W., Hall G.B. Spatial Database Systems 2007, Springer
Shashi Shekhar, Pusheng Zhang, Yan Huang Spatial Data Mining Data Mining
and Knowledge Discovery Handbook, 2010, Springer
Yonhong Jhung, Swain, P.H. Bayesian contextual classification based on modified
M-estimates and Markov random fields IEEE Transactions on Geoscience and
Remote Sensing, 1996, IEEE
12
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
Datenbankunterstützung für mobile GIS
Solberg, A.H.S., Taxt, T., Jain, A.K. A Markov random field model for classification of multisource satellite imagery IEEE Transactions on Geoscience and
Remote Sensing, 1996, IEEE
Hawkins D.M. Identification of outliers 1980, Chapman and Hall in London,
New York
Barnett V., Lewis T. Outliers in statistical data 1994, John Wiley & Sons, Chichester
Anselin L. The Moran Scatterplot as an ESDA Tool to Assess Local Instability
in Spatial Association 1993, GISDATA Specialist Meeting on GIS ans Spatial
Analysis
Andrienko G., Andrienko N. Data Mining with C4.5 and Cartographic Visualization User Interfaces to Data Intensive Systems, 1999, IEEE
Shashi Shekhar, Hui Xiong, Yan Huang Performance Evaluation of Co-location
Miner 2001
Google - Grafiken TerraMetrics Kartendaten maps.google.de 2011
Wikipedia Foundation Cluster analysis http://en.wikipedia.org/wiki/Cluster_analysis,
letzte Einsicht: 08.07.2011
Andrienko G., Andrienko N. Knowledge-Based Visualization to Support Spatial
Data Mining Advances in Intelligent Data Analysis, 1999, Springer
Bundesinstitut
für
Bau-,
Stadtund
Raumforschung
Raumentwicklungspolitische
Ansätze
zur
Förderung
der
Wissensgesellschaft
http://www.bbsr.bund.de/nn_614636/BBSR/DE/FP/MORO/Studien/ Wissensgesellschaft/04_Ergebnisse.html, letzte Einsicht: 08.07.2011,
Eric Fischer, Locals vs Tourists http://www.flickr.com/photos/walkingsf/4671594023/
in/photostream/, letzte Einsicht: 08.07.2011,
Spatial Data Mining
13
Erklärung: Hiermit erkläre ich, Collin Raddatz, dass ich die vorliegende Arbeit
selbständig verfasst und keine anderen Hilfsmittel als die angegebenen verwendet
habe. Die Stellen der Arbeit, die anderen Werken dem Wortlaut oder dem Sinn
nach entnommen sind, wurden in jedem Fall unter Angabe der Quelle kenntlich
gemacht.
Herunterladen