Datenbankunterstützung für mobile GIS - Spatial Data Mining Collin Raddatz Betreuer: Florian Wenzel Zusammenfassung Diese Ausarbeitung bietet eine kurze Einführung in die Welt des Spatial Data Minings. Dabei wird kurz klassisches Data Mining beleuchtet, um hierauf die Unterschiede des Spatial Data Minings aufzuzeigen. In einem weiteren Abschnitt werden einzelne Algorithmen des Spatial Data Minings vorgestellt. Zuletzt wird die Rolle der Visualisierung vorgestellt und es werden Argumente hervorgebracht, warum gerade Spatial Data Mining von einer geeigneten Visualisierung besonders profitiert. 1 Einleitung Data Mining wird mit dem Ziel eingesetzt, in großen Datenbeständen Muster und Strukturen zu erkennen, welche zuvor nicht bekannt waren. So lässt sich Data Mining gut von dem Thema des Maschinellen Lernens abgrenzen, in welchem hauptsächlich bekannte Muster in neuen Datensätzen erkannt werden sollen. Der Begriff Data Mining lässt sich bis in die 1950er zurückverfolgen, als erstmals große Datenbanken mit Machine Learning Techniken durchsucht wurden. Mit der Zeit entwickelten sich Techniken die sich dem Data Mining zuordnen lassen zu einem integralen Bestandteil der modernen Datenbank Technologien und spielen eine wichtige Rolle im Übergang von klassischen Datanmanagement Tools zu Software die Management Entscheidungen direkt unterstützen können. Das Data Mining in Datenbanken (Knowledge discovery in databases, KDD) besteht typischer Weise aus einer Abfolge einzelner Prozessschritte: – – – – – Datenintegration und Bereinigung Datenselektion und Transformation Suche von Muster und Trends Wissensfindung und Konstruktion Auslieferung Wegen der interaktiven und iterativen Natur von KDD ist es nicht einfach, die Grenzen von Data Mining zu definieren. Denn Data Mining endet nicht mit der Berechnung von Informationen durch Algorithmen sondern beinhaltet außerdem die Erzeugung einer Visualisierung, welche Beobachtern das Verständnis für die neu gefundenen Inforationen erleichtert. Selbst die Interpretation der Visuellen Darstellung von Informationen kann noch zum Data Mining selbst gezählt werden so Yeung und Hall [1]. 2 2 Datenbankunterstützung für mobile GIS Einführung in Spatial Data Mining Spatial Data Mining erweitert das Klassische Data Mining um eine räumliche Komponente. Dadurch stehen alle räumlichen Objekte in einem Zusammenhang zueinander, nicht nur im Raum, oft auch in der Zeit. Über diese Zusammenhänge ist es möglich, eine Vielzahl von Mustern und Trends zu erkennen, welche Informationen bergen könnten die für weitreichende, planerische Entscheidungen von äußerstem Interesse sind. Daher ist der Bedarf an den Ergebnissen räumlichen Data Minings in den letzten Jahren deutlich gestiegen. Waren räumliche Daten bisher nur für geologische und wissenschaftliche Anwendungen von Interesse, wird deren Einsatz nun auch vermehrt im Markt der Endnutzer eingesetzt. Daneben entwickelt sich außerdem eine Verbreitung von Spatial Data Mining Techniken auf dem Gebiet der Decision Support Systemen, welche Managemententscheidungen unterstützen oder verifizieren sollen. 3 Komplexität von Spatial Data Mining Durch die Komplexität von räumlichen Datentypen, räumlichen Relationen und räumlichen Autokorrelationen ist das auffinden von Mustern in Räumlichen Ratensätzen deutlich komplexer als in klassischen Datensätzen. Zudem der Einsatz klassischer Data Mining Techniken abzuraten, da diese nur eingeschränkt brauchbare Ergebnisse liefern können [2]. Yeung und Hall nennen dafür zahlreiche Faktoren[1]. Räumliche Datenstrukturen Räumliche Daten enthalten sowohl Ortsinformationen als auch Topologische Informationen, welche nicht für Analysen optimiert wurden, so liegen diese Daten häufig in normalisierter Form vor. Welche das Auffinden von Informationen erschweren. Räumliche Datenvielfalt Die gesammelten Daten welche in großen räumlichen Datenbanken gehalten werden, weißen häufig eine große Heterogenität auf. Dies bezieht sich angefangen bei unterschiedlicher Genauigkeit in der Datenerfassung bis zu der Existenz verschiedener Datentypen für die selben Datensätze. Hierdurch können wichtige Muster in den Daten verschleiert werden. Räumliche Datensammlung Bei der Sammlung von Räumlichen Daten entstehen häufig Fehler, wie sie zum Beispiel bei dem Verlust von Satellitenverbindung im Einsatz von GPS Geräten. Diese Fehler können die Analyse erschweren, da sie wie Ausreißer gegenüber der anderen Daten erscheinen. Räumliche Abhängigkeiten Da räumliche Daten häufig voneinander abhängen ist es schwer, ohne ein Vorwissen über die Daten, Informationen zu gewinnen. Ein einfach verständlicher Zusammenhang ist der von Höhe und Temperatur, je höher der gemessene Ort, desto niedriger für gewöhnlich die gemessene Spatial Data Mining 3 Temperatur im Vergleich zu niedrigeren Standorten. Oft sind die entstehenden Abhängigkeiten aber komplexerer Natur und nicht leicht ersichtlich. Zeitliche Abhängigkeit räumlicher Daten Räumliche Daten werden fast immer zu einem bestimmten Zeitpunkt erfasst und sind so streng mit der Zeit verbunden. Sie stellen so nur eine Momentaufnahme dar. Zudem ist der Zeitpunkt der Momentaufnahme bei allen Einzeldaten unterschiedlich. In (Abbildung. 1) wird ein typisches Erscheinungsbild dieses Problems gezeigt. Die einzelnen Satellitenbilder wurden zu verschiedenen Tageszeiten aufgenommen, so kommt es zu einen Bruch zwischen den Übergängen der Einzelbilder. Ein ähnliches Problem stellt sich zum Beispiel bei Verkehrsmessungen, zu unterschiedlichen Zeiten werden verschiedene Werte gemessen. So ist für die korrekte Erfassung und das Umgehen des Problems zeitlicher Abhängigkeiten oft ein Wissen über diese erforderlich. Vorwissen, das im Data Mining oft nicht vorhanden ist. Abbildung 1. Zeitliche Abhängigkeit räumlicher Daten [10] 4 Algorithmen des Spatial Data Minings Im Folgenden werden Methoden vorgestellt welche im Rahmen des Spatial Data Minings eingesetzt werden und sich als effektiv bewiesen haben. 4 4.1 Datenbankunterstützung für mobile GIS Standort Prognose Das Voraussagen von Standorten ist ein Technik, welche in vielen Anwendungsgebieten Beachtung findet. So wird sie zur Verbrechensanalyse genauso eingesetzt, wie zur Planung von Mobilfunknetzen oder die Vorhersage von Naturkatastrophen. Messen von Korrektheit im räumlichen Zusammenhang In einem klassischen Data Mining Szenario werden Datensätze in Lern- und Testdaten aufgeteilt. Mit den Lerndaten lernt das System die Regeln die das Vorkommen von gesuchten Ereignissen bestimmen. Mit den Testdaten wird das durch die Lerndaten antrainierte Verhalten verifiziert oder falsifiziert. Im folgenden Beispiel von (Abbildung 2) wird zunächst im Bild b) das Vorkommen von Brutstätten seltener Vogelarten mittels eines Rasters diskretisiert, welche in Bild a) noch in indiskreter Form vorliegen. Bilder c) und d) zeigen zwei verschiedene Vorhersagen. Hier zeigt sich nun die Schwierigkeit, beide Prognosen einzuschätzen. Bei einer klassischen Bewertungsmethode werden die Häufigkeiten der korrekten Klassifikation gezählt. Würde man diese Bewertungsmethode anwenden, wären beide Prognosen gleich schlecht. Weder die Prognose aus a) noch jene aus b) haben die Vorkommen der Brutstätten korrekt vorhergesagt. Doch ist die Prognose d) deutlich genauer, wenn man die Daten vor der Rasterisierung betrachtet. Abbildung 2. Vorkommen von Brutstätten [2] Um diesem Problem zu begegnen wurde der Nachbarschaftszusammenhang eingeführt, welcher den Räumlichen Zusammenhang von Ereignissen beschreibt. Häufigste eingesetzte Techniken sind die 4er und 8er Nachbarschaften (Abbildung 3). Die Modellierung solcher räumlicher Abhängigkeiten während des Klassifikationsprozesses können die Klassifikationsgenauigkeit erhöhen, was Studien von Jhung, Swain [3] und Solberg, Taxt, Jain [4] zeigen. 4.2 Räumliche Ausreißer Erkennung Ausreißer können als Daten in einem Datensatz beschrieben werden, welche von den restlichen Daten des Datensatzes abweichen Barnett, Lewis 1994. Diese Aus- Spatial Data Mining 5 Abbildung 3. 4er und 8er Nachbarschaft reißer können nicht nur als zu beseitigende Probleme in einem Datensatz betrachtet werden, diese Anomalien können auch interessanten Wissen beherbergen, da sie eventuell durch einen anderen Mechanismus erzeugt wurden, als die anderen Objekte im Datensatz [5]. Beispiele hierfür sind das Aufspüren von Kreditkartenbetrug, Unstimmigkeiten bei Athletischen Leistungen bei Dopingkontrollen oder der Vorhersage von Wetter. Bei der Erkennung von räumlichen Ausreißern spielt die Nachbarschaft der Daten eine große Rolle. So kann können einzelne Daten nach der klassischen Beurteilung Ausreißer darstellen, nach der räumlichen Beurteilung dagegen innerhalb der Toleranz liegen. Folgendes Beispiel soll dies verdeutlichen. In Abbildung 4 a) ist ein Datensatz mit einer eindimensionalen räumlichen Ausdehnung aufgetragen. Eine klassische Erkennung von Ausreißern würde den Punkt G als Ausreißer markiere, da sich dieser, wie in Abbildung 4 b) gezeigt, mit einem Wert von 7,9 außerhalb der doppelten Standardabweichung von 7,71 befindet. Um räumliche Ausreißer zu erkennen, kommen jedoch andere Algorithmen zum Einsatz. Einer hiervon ist der Moran Scatterplot [7]. Hierbei werden die einzelnen Datenpunkte in ein Achsensystem eingetragen, so dass auf der x-Achse f (i)−µ die normalisierten Attributswerte (Z[f (i)] = σf f ) beschrieben werden. Auf der y-Achse dagegen werden werden die Nachbarschaftsdurchschnitte der normalisierten Attributswerte aufgetragen (W ∗ Z). Dabei beschreibt W eine zeilennormalisierte Nachbarschaftsmatrix. Der Wert Wi,j ist somit größer als 0, wenn eine Nachbarschaft zwischen i und j existiert. In (Abbildung. 5) a) ist der daraus resultierende Moran Scatterplot gezeigt. Die Punkte, welche sich in dem linken oberen Quadranten sammeln sind jene, die selbst niedrige Werte besitzen, aber Punkte in ihrer Nachbarschaft mit hohen Werten haben. Der Quadrant rechts unten enthält genau gegenteilige Punkte. Sie besitzen die Eigenschaft hoher Attributwerte in einer Nachbarschaft mit Punkten niedriger Attributwerte. 4.3 Koexistenz Regeln Bei der Suche von Koexistenz Regeln werden Muster gesucht, die darauf hinweisen welche Beobachtungen vermehrt in einer Nachbarschaft vorkommen. Das 6 Datenbankunterstützung für mobile GIS Abbildung 4. Räumliche Ausreißer [2] Abbildung 5. Moran scatterplot [2] gemeinsame Vorkommen von Objekten ist sehr häufig, Beispiele sind hierbei die Koexistenz von Tierarten, das gemeinsame Aufkommen von Krankheiten oder das Auftreten von Verbrechen bei bestimmten Geologischen oder Sozialen Gegebenheiten. Folgendes Beispiel in Abbildung 6 offenbart bereits bei genauem Hinsehen einzelne Koexistenzen. So treten ‘+‘ und ‘x‘ häufig zusammen auf, genauso wie ‘o‘und ‘∗‘. Für das Finden von Koexistenz Regeln soll hier der Reference Feature Centric Model Ansatz genauer erläutert werden. Wie schon aus dem Namen ersichtlich muss für diese Technik ein Referenz Objekt ausgewählt werden, zu welchem Spatial Data Mining 7 Abbildung 6. Koexistenz [2] Nachbarschaften definiert werden, in diesem Beispiel Objekte vom Typ A. Der Raum in welcher sich die einzelnen Objekte befinden, muss wie in Abbildung 7 gezeigt, rasterisiert werden. Nun wird bestimmt, für welche Objekte Koexistenzen überhaupt von Interesse sind. In diesem Beispiel werden nun Objekte von Typ B und C zur Untersuchung herangezogen. Objekte vom Typ D interessieren in der weiteren Untersuchung nicht und werden ausgelassen. Nun wird ein räumliches Prädikat close_to erzeugt, wobei close_to(a,b) gelten soll, wenn b in der Nachbarschaft von a liegt. Dabei wird in diesem Model eine 8er Nachbarschaft angenommen. Werden nun die Wahrscheinlichkeiten für das Auftreten von B und C in Nachbarschaft von A berechnet, so kommt B zu 50% in Nachbarschaft mit A vor, wenn A eine Nachbarschaft besitzt. C kommt dagegen zu 100% in einer Nachbarschaft mit A vor. Wäre bei der initialen Auswahl der Objekte auch D als möglicher Nachbarschaftskandidat ausgewählt worden, hätten sich auch die Wahrscheinlichkeiten von B und C verändert. 4.4 Räumliches Clustering Räumliches Clustering wird eingesetzt um Zentren von Ereignissen oder Objekten zu bestimmen. Anwendungsgebiete hierfür stellen die räumliche Analyse von Straftaten dar. Zudem findet diese Technik wirtschaftlichen Einsatz bei der Bestimmung von Einzugsgebieten wie sie bei Bauvorhaben für Einkaufszentren von Bedeutung sind. Dabei werden Clusterzentren des Kundenklientels erstellt, um eine optimale Verteilung und dadurch höhere Umsätze zu garantieren. Mit einer Räumlichen Clusteringanalyse können schnell intuitive Visualisierungen entwickelt werden, welche die Entscheidungsfindung im Bereich des Managements vereinfachen könne. So ist in Abbildung 8 eine durch Clustering erzeugte Verteilung von Wissenschafts- und Technologiestandorten über Deutschland gezeigt. Für das Räumliche Clustering existieren 4 grundlegende Vorgehensweisen. 8 Datenbankunterstützung für mobile GIS Abbildung 7. Reference Feature Centric Model [9] Hierarchische Clustering Methoden existieren in zwei verschiedenen Typen, den agglomerativen Methoden welche einen bottom up Ansatz darstellen und jedes Objekt als einzelner Cluster beginnt. Und dem Typ der divisiven Methoden, bei welchen alle Objekte zusammen, als ein einzelner Cluster beginnen und somit top down Ansatz darstellen. Die agglomerativen Methoden werden die einzelnen Cluster sukzessiv zusammengeführt, bis ein definiertes Haltekriterium greift. Ein hierdurch erstellter Baum, auch Dendogramm genannt, wird in Abbildung 9 gezeigt. Bei den divisiven Methoden werden die Cluster geteilt bis der Algorithmus durch ein Haltekriterium zum Stoppen gebracht wird. Partitionierende Clustering Methoden werden eingesetzt um Cluster von Kreisform zu finden. Dabei wird im Fall des k-means clustering eine Startverteilung der k Cluster vorgegeben und jeder Punkt seinem nächsten Cluster zugeordnet. Danach wird den Clustern die mittlere Position aller ihrer enthaltenen Punkte zugeordnet. Hiernach wird wieder überprüft ob sich alle Punkte in ihren, am nächsten gelegenen Clustern befinden und eventuell neu zugeordnet. Auch dieser Algorithmus kann iterativ, bis zum eintreten eines Haltekriteriums ausgeführt werden. Probleme ergeben sich bei diesem Algorithmus besonders durch die zufällige Auswahl der Startcluster. Wird eine andere Verteilung der Startcluster gewählt, ändert sich auch das Ergebnis des Algorithmus. Als weiteres großes Problem wird gesehen, dass die Anzahl der Cluster im Voraus bekannt sein muss. Somit kann diese Methode ohne Vorwissen nicht effektiv eingesetzt werden. Dichte-basierende Clustering Methoden finden Cluster mit willkürlicher Form aufgrund der Dichte von Punkten innerhalb einer Region. Hierbei werden die Punkte einzeln besucht und innerhalb einer -Nachbarschaft nach weiteren Spatial Data Mining 9 Abbildung 8. Wissenschaftsstandorte in Deutschland[13] Punkten gesucht. Kommen weitere Punkte vor, werden diese zum Cluster hinzugefügt, existieren keine weiteren Punkte wird der besuchte Punkt als potentielles Rauschen interpretiert. Rasterbasierte Clustering Methoden zerteilen den Raum zunächst in ein endliche Anzahl an Zellen. Zellen welche mehr Punkte als ein Mindestkriterium enthalten werden als möglicher Cluster identifiziert. Danach werden die einzelnen möglichen Clusterzellen zu Cluster zusammengefügt. 5 Visualisierung von Spatial Data Mining Durch die Visualisierung von Räumlichen Daten wird die intuitivste Form der Präsentation und Interpretation ermöglicht. Nach Adrienko und Adrienko [8] kann die Visualisierung in verschiedenen Phasen des Data Mining Prozesses eingesetzt werden. Vorverarbeitung kann visuell stattfinden, indem extreme oder andere auffällige Werte schnell ausselektiert oder einer weiteren Verifikation unterzogen werden können. Die Darstellung von Zwischenergebnissen kann der bedienenden Person ermöglichen, in den Prozess des Data Minings interaktiv einzugreifen, Parameter nach seinen Wünschen zu verändern um ein gewünschtes Ergebnis zu erhalten. Und eine Evaluation und Interpretation kann durch eine geeignete Visualisierung profitieren, da Räumliche Merkmale, Muster und Trends häufig schneller 10 Datenbankunterstützung für mobile GIS Abbildung 9. Agglomerativ hirarchisches Clustering [11] durch eine visuelle Analyse erspäht werden können als durch die Interpretation von Numerischen Daten wie Tabellen. Nach Adrienko und Adrienko [12] wird daher empfohlen, die Visualisierung als integraler Bestandteil von Räumlichem Data Mining zu sehen. Daher wurden zwei Herangehensweisen entwickelt, welche elementar auf der VIsualisierung basieren. Geography-to-mathematics beschreibt eine Vorgehensweise, bei welcher die Analyse mit einer visuellen Evaluation startet. Die in diesem Schritt gesammelte Daten werden mathematisch durch die Methoden des Spatial Data Manings validiert. Ein Beispiel hierfür kann das Fickr Projekt von Eric Fisher gesehen werden, dabei wurden Photos aus Flickr Standorte zugewiesen und vermerkt ob diese von Einheimischen oder Touristen veröffentlicht wurden. Die Visuelle Darstellung der einzelnen Datenpunkte über die Karte Bekannter Städte lässt eine intuitive Analyse zu, mit der Touristische Stadtteile schnell identifiziert werden können. Eine so erstellte Visualisierung der Stadt Berlin zeigt die Abbildung 10, dabei wurden die Orte touristischer Bilder in rot dargestellt, Bilder von Einheimischen in blau. Mathematics-to-geography wählt einen entgegengesetzten Weg. Zunächst wird ein mathematisches Data Mining durchgeführt, die daraus entstehenden Daten werden visualisiert um geeignet interpretiert zu werden. Dies stellt die klassische Vorgehensweise dar, wie sie auch im herkömmlichen Data Mining anzutreffen ist. Spatial Data Mining 11 Abbildung 10. Fotos von Touristen in Berlin werden rot dargestellt [14] 6 Zusammenfassung Durch die Verbreitung von GIS Anwendungen und den steigenden Informationsbedarf, der durch Behörden und Unternehmen forciert wird, steigt das Interesse an Räumlichem Data Mining und die hierfür benötigten Technologien finden Verbreitung. Als großer Unterschied zu gewöhnlichem Data Mining kann die Bedeutung der Visualisierung von räumlichen Daten gesehen werden. Durch den räumlichen Kontext, wird einerseits die Visualisierung vereinfacht; für jeden Datensatz existier ein Räumlicher Punkt, der auf einer Karte gezeichnet werden kann; andererseits wird auch eine intuitive Analyse der Datensätze ermöglicht, die mehr Wert auf den Menschen im Data Mining Prozess legt, als es bei klassischem Data Mining der Fall ist. Besteht die Befürchtung, dass eine Intuitive Analyse nicht die gleiche Qualität wie ein maschinen-zentrierter Ansatz liefert, so kann weiterhin nach dem Geography-to-mathematics Vorgehen eine maschinenzentrierte Verifikation der Ergebnisse stattfinden. Erst durch die Kombination menschliche Analysefertigkeit, ermöglicht durch das intuitive Verständnis für räumliche Gegebenheiten und angelerntes Wissen, mit den Möglichkeiten maschineller Methoden, kann ein effektives Spacial Data Mining gewährleistet werden. Literatur [1] [2] [3] Yeung A.K.W., Hall G.B. Spatial Database Systems 2007, Springer Shashi Shekhar, Pusheng Zhang, Yan Huang Spatial Data Mining Data Mining and Knowledge Discovery Handbook, 2010, Springer Yonhong Jhung, Swain, P.H. Bayesian contextual classification based on modified M-estimates and Markov random fields IEEE Transactions on Geoscience and Remote Sensing, 1996, IEEE 12 [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] Datenbankunterstützung für mobile GIS Solberg, A.H.S., Taxt, T., Jain, A.K. A Markov random field model for classification of multisource satellite imagery IEEE Transactions on Geoscience and Remote Sensing, 1996, IEEE Hawkins D.M. Identification of outliers 1980, Chapman and Hall in London, New York Barnett V., Lewis T. Outliers in statistical data 1994, John Wiley & Sons, Chichester Anselin L. The Moran Scatterplot as an ESDA Tool to Assess Local Instability in Spatial Association 1993, GISDATA Specialist Meeting on GIS ans Spatial Analysis Andrienko G., Andrienko N. Data Mining with C4.5 and Cartographic Visualization User Interfaces to Data Intensive Systems, 1999, IEEE Shashi Shekhar, Hui Xiong, Yan Huang Performance Evaluation of Co-location Miner 2001 Google - Grafiken TerraMetrics Kartendaten maps.google.de 2011 Wikipedia Foundation Cluster analysis http://en.wikipedia.org/wiki/Cluster_analysis, letzte Einsicht: 08.07.2011 Andrienko G., Andrienko N. Knowledge-Based Visualization to Support Spatial Data Mining Advances in Intelligent Data Analysis, 1999, Springer Bundesinstitut für Bau-, Stadtund Raumforschung Raumentwicklungspolitische Ansätze zur Förderung der Wissensgesellschaft http://www.bbsr.bund.de/nn_614636/BBSR/DE/FP/MORO/Studien/ Wissensgesellschaft/04_Ergebnisse.html, letzte Einsicht: 08.07.2011, Eric Fischer, Locals vs Tourists http://www.flickr.com/photos/walkingsf/4671594023/ in/photostream/, letzte Einsicht: 08.07.2011, Spatial Data Mining 13 Erklärung: Hiermit erkläre ich, Collin Raddatz, dass ich die vorliegende Arbeit selbständig verfasst und keine anderen Hilfsmittel als die angegebenen verwendet habe. Die Stellen der Arbeit, die anderen Werken dem Wortlaut oder dem Sinn nach entnommen sind, wurden in jedem Fall unter Angabe der Quelle kenntlich gemacht.