Kap. 5 Spatial (räumliches) Data Mining

Werbung
Kap. 5
Spatial (räumliches) Data Mining
Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt
AGIS / Inst. Für Angewandte Informatik (INF4)
Universität der Bundeswehr München
[email protected]
www.agis.unibw.de
Überblick / Ziele
• Einführung Data Mining / Spatial Data Mining
(sp. DM)
• Clusteranalyse als wesentliche Methode des sp.
DM
• Anwendungsbeispiel
 Kennen der Methoden / Einschätzung der
Anwendbarkeit
2 / 50
Data Mining
Unter Data Mining („Daten-Bergbau, DatenSchürfen“), sinngemäß „in einem Datenberg
nach wertvollem Wissen suchen“, versteht
man die systematische Anwendung
statistischer (u.a.) Methoden auf einen
Datenbestand mit dem Ziel, neue Muster zu
erkennen. Hierbei geht es auch um die
Verarbeitung sehr großer Datenbestände,
wofür effiziente Methoden benötigt werden
…
(Abgeändert nach wikipedia)
3 / 52
Data Mining
SRC.: http://winfwiki.wifom.de/index.php/Data_Mining_%E2%80%93_Anwendungsfelder_und_%E2%80%93beispiele
4 / 52
Spatial Data Mining
Spatial data mining (auch: KDD - knowledge
discovery in spatial databases)
Bezieht sich darauf implizit vorhandene
Informationen, Beziehungen, räumliche
Strukturen etc. in raumbezogenen
Datenbeständen zu ermitteln (die nicht
explizit gespeichert sind)
5 / 52
Spatial Data Mining
Das klassische Beispiel
Infizierte Wasserpumpe?
Dr. John Snow, Untersuchung
der Ursachen einer
Choleraepidemie London,
September 1854
Krankheitshäufung
6 / 52
Lösung durch Räumliche Analyse
Räumliche Beziehungen von Objekten
einer Art sind dargestellt (Todesfälle)
Räumliche Beziehung zu
Objekten anderer Arten sind
dargestellt (Wasserpumpen)
Es ist nicht nur wichtig
wo ein Cluster ist –
sondern auch was
sonst dort ist (z.B.
Wasserpumpen)!
7 / 52
Ziele des Spatial Data Mining
• Räumliche Cluster erkennen
• Objekte erkennen, die solche Cluster
möglicherweise verursachen
• Information extrahieren, die für
die Erklärung der Cluster relevant
ist (und irrelvante Information
wegfiltern)
• Information so präsentieren, daß der Nutzer
sein Anwendungswissen in die Analyse
einbringen kann
8 / 52
Ansatz für Spatial Data Mining
Data Mining
Geoinformation / Methoden
Spatial Data Mining
9 / 52
Besonderheiten des Spatial Data Mining
• Raumbezogene Daten (Raumbezug /
weitere Attribute)
• Räumliche (u.a.) Beziehungen zw. Objekten
• Geometrische
• Topologische
• (vgl. Kap. 3 und 4)
• Konsequenz: spatial data mining deutlich
komplexer als data mining
10 / 52
Kurze Einführung, spatial data mining
CLUSTERANALYSEN
11 / 52
Data Mining
Typische Aufgabenstellungen





Klassifizierungsanalysen
Segmentierungsanalysen
Prognoseanalysen (-> Zeit)
Abhängigkeitsanalysen
Abweichungsanalysen
12 / 52
Data Mining
Klassifizierung
 Objekte werden einer vorher bestimmten Klasse
zugeordnet
 Zuordnung findet aufgrund der Parameter und
der Klasseneigenschaften statt
 Anzahl an Klassen i.d.R. bekannt
 Informationen sind vorab bekannt
Segmentierung
 Objekte werden in Gruppen zusammengefasst,
welche vorher nicht bekannt sind
 Anzahl an Gruppen zu Beginn i.d.R. unbekannt
 Datenabhängige Einteilung  objektiv
nachvollziehbar und reproduzierbar
13 / 52
Data Mining
Das am Häufigsten verwendete Verfahren der
Segmentierung ist die Clusteranalyse
Definition (Steinhausen und Langer, 1977):
 Clusteranalyse steht „für eine Reihe
unterschiedlicher mathematisch-statistischer und
heuristischer Verfahren, deren Ziel darin besteht,
eine meist umfangreiche Menge von Elementen
durch Konstruktion homogener Klassen, Gruppen
oder Cluster optimal zu strukturieren“.
14 / 52
Spatial data mining
Bei räumlichen Daten spielt deren Lage zueinander
eine große Rolle. -> Clusteranalyse
Aber auch die Untersuchung der räumlichen Verteilung
- sind Objekte gebündelt (clustered) oder verstreut
(dispersed)- ist von Interesse:
15 / 52
Räumliche Verteilung von Objekten
Einbeziehen des Nutzers
 Visualisierung
 Kontext!
16 / 52
Räumliche Verteilung von Objekten
Frage: Sind die Standorte zufällig verteilt?
Kriterium?
17 / 52
Räumliche Verteilung von Objekten
Frage: Sind die Standorte zufällig verteilt?
Abstand / Distanz zum nächsten Nachbarn (und deren Verteilung)
Siehe Literatur
18 / 52
Räumliche Verteilung von Objekten
Weitere Verfahren zur Ermittlung des Grades der räumlichen
Verteilung: Verschiedene auf räumliche Autokorrelation
beruhende Maße kommen zum Einsatz.
Beispiel: Ripley k-function K(t), wird benutzt für:
• Beschreibung des Musters eines Punkthaufens
• Hypothesen über die Verteilung des Punkthaufens zu testen
Beispiel: Test ob ein Punkthaufen rein zufällig verteilt ist
(CSR: Complete spatial randomness), durch K(t) für einen
homogenen Poisson Prozess:
t – Distanz zwischen Punkten
19 / 52
Räumliches Verteilung von Objekten
Beispiel: Standorte verschiedener Spezies gegeben, sind diese zufällig verteilt?
Src.: http://www.spatial.cs.umn.edu/paper_list.html
Answers:
and
20 / 52
Räumliche Verteilung von Objekten
Test der räumlichen Verteilung:
K function
Abweichung!
Abstand t
21 / 52
Räumliche Verteilung von Objekten
Cluster?
Auffinden räumlicher Strukturen -> Clusteranalyse
http://www.biostat.umn.edu/~dipankar/pubh8472/RipleysK.pdf
22 / 52
Clusteranalyse
Grundidee:
Eine heterogene Gesamtheit von „Fällen“ (Personen/Objekte)
soll in homogene Gruppen oder Cluster aufgeteilt werden
Dabei wird die Ähnlichkeit der Fälle auf allen relevanten
Variablen berücksichtigt
Zentrale Fragen:
• Wie wird die Ähnlichkeit von Fällen bestimmt?
• Welche Parameter werden ausgewählt?
• Wie wird die Gruppenaufteilung vorgenommen, wenn
die Ähnlichkeit zwischen Fällen bekannt ist?
23 / 52
Clusteranalyse
Objekte innerhalb eines Clusters sollen möglichst
ähnlich sein (Homogenität in den Clustern)
räumlich: möglichst geringer Abstand der Objekte
und ggfs. weiterer Parameter
Cluster zueinander sollen möglichst unähnlich sein
(Heterogenität zwischen den Clustern), räumlich:
möglichst großer Abstand der Cluster)
24 / 52
Bestimmung der Ähnlichkeit
Quantifizierung der Ähnlichkeiten zwischen den in der
Clusteranalyse berücksichtigten Objekten durch eine
statistische Maßzahl
Ähnlichkeitsmaße
 Drücken die Ähnlichkeit zwischen zwei Objekten aus
 Ein großer Wert beschreibt eine hohe Ähnlichkeit
Distanzmaße
 Drücken die Unähnlichkeit zwischen zwei Objekten aus
 Ein großer Wert beschreibt eine niedrige Ähnlichkeit
 Bei identischen Objekten ist die Distanz Null
Maße: abhängig von Skalen (binär, ordinal, metrisch …)
25 / 52
Bestimmung der Ähnlichkeit
Hinweis:
 Clusteranalyse erfordert kein spezielles
Skalenniveau (nominal, metrisch …)
 Thema dieser Vorlesung ist Geoinformatik, daher
Konzentration auf metrische Skalen
26 / 52
Distanzmaße
Werden hauptsächlich bei quantitativen
Parametern verwendet (metrische Skalen)
Die am häufigsten verwendeten basieren auf der
Minkowski-Metrik
r = 1  City-Block-Metrik
r = 2  Euklidische Distanz
…
27 / 52
Ablauf der Clusteranalyse
Analyse und Präzisierung der Fragestellung
Modifikation, Korrektur
Auswahl der Parameter, Aufstellen der Matrix
Bestimmung der Ähnlichkeit
Bestimmung der Clusteranzahl
Auswahl des Algorithmus
Durchführung
Analyse/Bewertung der Ergebnisse
28 / 52
Auswahl der Parameter
Clusteranalyse erfordert kein spezielles
Skalenniveau (nominal, metrisch …)
Wahl der Parameter muss dem Ziel der
Analyse gerecht werden, beachten:
 Wahl von zu vielen Parametern  viele Cluster,
die sich weiter zusammenfassen ließen
 Wahl von zu wenigen Parametern  wenige
Cluster, die sich weiter ausdifferenzieren ließen
Gute Auswahl der Parameter = einfaches
und leicht verständliches Clusterergebnis
Schlechte Auswahl der Parameter =
komplexes Clusterergebnis, dessen wahre
Struktur oft schwierig oder unmöglich zu
erkennen ist
29 / 52
Auswahl der Parameter – 2 räumliche Beispiele
Beispiel 1, gegeben n Standorte (Punkte)
Gesucht (Fragestellung):
K Cluster von „benachbarten“ Standorten
-> univariate Clusteranalyse (u CA)
Beispiel 2, gegeben n Vektoren
Gesucht (Fragestellung): Cluster von Vektoren mit
„ähnlicher“ Richtung und Länge,
die benachbart sind
-> multivariate Clusteranalyse (m CA)
U CA rel. einfach, Betrachtung m CA im weiteren
30 / 52
Aufstellen der Rohdatenmatrix (m CA)
Aufstellen der Rohdatenmatrix (Beispiel)
 Objekte
 Parameter
Parameter
Vektor
1 Vektor
2 Vektor
Vektor
1 Vektor
2 Vektor
3 ...3
Geeignete Normierung
der Werte!
VektorVektor
n
n
Z 
ij
X [m]
249,7211,562
240,0351,673245,546
1,757
...
242,098
1,604
Y [m]
549,2720,856
548,2721,923562,186
0,968
...
536,249
-0,065
20,883 1,499
20,883 1,49920,883...
Länge [m] 1,499
14,8040,315
Richtung [°]-2,423
...
204,137-2,423
203,137-2,423
204,136
-0,640
267,832
X X
S
ij
i
31 / 52
i
Normierung
32 / 52
Gruppenbildung: Methoden der Clusteranalyse
Cluster-Algorithmen
Partitionierend
K-means
Minimal Spanning
Tree
Hierarchisch
Single Linkage
s. z.B. Malczewski, J., 2006: GIS-based multicriteria decision analysis: a survey of the literature,
IJGIS (20), S 703-726.
Complete Linkage
33 / 52
Partitionierende Clustermethoden
Gehen von einer gegebenen
Startgruppierung aus
Die Startgruppierung muss vom Nutzer
geschätzt werden
Alle Objekte werden zu Beginn einem Cluster
zugeordnet
Prominentes Beispiel: K-Means
1. Festlegung von K Cluster-Mittelpunkten.
2. Zuordnen der Werte zu dem am nächsten liegenden Mittelpunkt.
3. Neuberechnung der Cluster-Mittelpunkte.
4. Prüfen, ob das Konvergenz-Kriterium, welches zu Beginn festgelegt
wurde, erfüllt ist.
34 / 52
Methoden der Clusteranalyse – k-means
Festzulegende Parameter: Anzahl Cluster = 3
Gewählte Mittelpunke: P9, P84, P106
(aus den geg. Punkten)
35 / 52
Methoden der Clusteranalyse – k-means
P7
P8
P9
P81
P82
P84
P106
P107
M1= K106
34,85
21,36
28,58
13,67
8,06
24,36
0
6,77
M2 = K9
32,89
0,85
0
3,17
12,05
1,62
28,52
19,17
M3 = K84
42,57
2,66
1,62
1,81
6,58
0
24,36
21,07
Berechnete Distanzwerte der Punkte zu den Anfangs gewählten Mittelpunkten
Hinweis: Die Distanzwerte der Punkte (Ki) sind aus den versch. Parametern (s. Folie 29) berechnet
36 / 52
Methoden der Clusteranalyse – k-means
• Iterative Berechnung neuer Mittelpunkte
• Neue Zuordnung der Punkte zu clustern
37 / 52
Methoden der Clusteranalyse – k-means
Ergebnis hängt sehr stark von der Wahl der AnfangsCluster-Mittelpunkte ab
Ergebnis bei Wahl von anderen Anfangsmittelpunkten!
Quelle: M. Reus (2010), Diplomarbeit (unveröffentlicht)
Weiteres und Anwendungsbeispiel:
Nuhn, Eva; Kropat, E.; Reinhardt, Wolfgang; Pickl, S. (2012): Preparation of Complex
Landslide Simulation Results with Clustering Approaches for Decision Support and Early
Warning. hicss, pp.1089-1096, 2012 45th Hawaii International Conference on System
38 / 52
Sciences.
Methoden der Clusteranalyse - hierarchisch
Hierarchisches Vorgehen, keine Vorabwahl der Anzahl der Cluster
• Erstellen einer Ähnlichkeits-Matrix mit den Abständen der
einzelnen Cluster zueinander (zu Beginn ist jeder Punkt ein cluster)
• Zusammenfassen der Cluster nach geg. Kriterien (s.u)
• Update der Ähnlichkeits-Matrix
• Iteration bis Abbruch-Kriterium erfüllt ist
A
B
C
D
A
0
1
6
7
B
C
D
Geringster Abstand
A/B C
0
5
8
0
2
0
A/B 0
C 5
D 7
Ähnlichkeitsmatrix zu Beginn (li) und nach 1.Fusion (re)
39 / 52
0
2
D
0
Methoden der Clusteranalyse - hierarchisch
Single Linkage (SL) / Complete Linkage (CL)
http://de.wikipedia.org/wiki/Hierarchische_Clusteranalyse
Dendrogramm für single-linkage
Kriterium für Fusionen:
Sl: Minimaler Abstand aller Elementpaare aus den beiden Clustern
Cl: Maximaler Abstand aller Elementpaare aus den beiden Clustern
40 / 52
Methoden der Clusteranalyse - hierarchisch
Vorteil für Single Linkage / complete linkage:
- keine Vorabwahl der Anzahl der Cluster
Single Linkage kann zu Längliche, kettenförmige Cluster
führen
Vorteil für complete linkage: Eher kompakte Cluster
41 / 52
Kurze Einführung, spatial data mining
ANWENDUNGSBEISPIEL
42 / 52
Forschungsprojekt „EGIFF“
Motivation
Verbundprojekt EGIFF
(“Geotechnologien”, BMBF/DFG)
Testgebiet
Teilprojekt: “Entwicklung eines
gekoppelten Simulations- und
Informationssystems”
Aufbereitung, Analyse und
Visualisierung der komplexen
Simulationsergebnisse mit Hilfe
von Spatial Data Mining Methoden
https://www.unibw.de/inf4/professuren/geoinformatik/forschung/projektauswahl/slide
43 / 52
Bruchentwicklung im SIMS
44 / 52
Ergebnis: Verschiebungen der Knoten
45 / 52
Simulationsergebnisse
FE-Netz
Clusterbildung
Verschiebungsvektoren (Sehr große Datenmenge, Millionen von Vektoren)
46 / 52
Aufbereitung der Simulationsergebnisse
Segmentierung der Verformungsbereiche:
 Methoden der Clusteranalyse
Bestimmung des Rutschkörpers
Simulationsergebnisse für den
Rutschkörper
47 / 52
Methoden der Clusteranalyse
2D:
- Lage
- Richtung
- Länge
3D:
- Ähnlichkeitsmaße
- Lage
- Distanzmaße
- Azimuth, Inklination
- Länge
Analyse und Präzisierung der Fragestellung
Auswahl der Elemente und Variablen
Wahl eines Proximitätsmaßes
Bestimmung des Algorithmus
SF / CF
Bestimmung der Clusteranzahl
Standardisierung:
Technische Durchführung
Z 
ij
Analyse der Ergebnisse
X X
S
ij
i
d  ( a  b )²  (a  b )²  ...  ( a  b )² 
1
1
2
2
n
n
( X  X )²  (Y  Y )²  ( L  L )²  ( R  R )²
1
2
1
2
1
2
1
2
48 / 52
i
Anwendung Clusteranalyse
Analyse und Präzisierung der Fragestellung
Auswahl der Elemente und Variablen
Wahl eines Proximitätsmaßes
Bestimmung des Algorithmus
Bestimmung der Clusteranzahl
Technische Durchführung
- Subjektive Methoden
- Objektive Methoden
Stopping Rule von Mojena
Analyse der Ergebnisse
49 / 52
Anwendung Clusteranalyse
Multivariate Clusteranalyse
(X,Y,L,R)
 Einfluss der Lage zu groß!
d  (a  b )²  (a  b )²  ...  (a  b )² 
1
1
2
2
n
n
( X  X )²  (Y  Y )²  ( L  L )²  ( R  R )²
1
2
1
2
1
2
1
2
-> einige Tests erforderlich, -> Heuristik
50 / 52
Anwendung Clusteranalyse
Bivariate Clusteranalyse mit Nachbarschaftsbetrachtung (nicht
verbundene Clusterteile)
d  (a  b )²  (a  b )²  ...  (a  b )² 
1
1
2
2
n
( L  L )²  ( R  R )²
1
2
1
2
Bivariate Clusteranalyse nach Länge und
Richtung
Nachbarschaftsbetrachtung
51 / 52
n
Grundlage für Decision Support
52 / 52
Clusteranalysen
• Sehr gute Möglichkeit Daten aufzubereiten,
verständlich zu machen, zusätzliche
Information zu generieren etc.
• Allerdings erfordert der Einsatz viel
Verständnis der Anwendung
• Lösung meist iterativ zu erarbeiten
53 / 52
Vielen Dank für die Aufmerksamkeit!
Weitere Fragen?
54 / 52
Zugehörige Unterlagen
Herunterladen