Spatial Data Mining in Precision Agriculture

Werbung
Spatial Data Mining in Precision Agriculture
Martin-Luther-Universität Halle-Wittenberg
Georg Ruß, Otto-von-Guericke-Universität Magdeburg
01.03.2011
Data Mining
◮
Ausgangspunkt: große Datenmengen
◮
◮
◮
◮
Anwendung intelligenter Datenanalyse
Entwicklung und Einsatz neuer Algorithmen
Generierung von neuem Wissen bzw. neuen Informationen
Einsatz im Precision Farming (PF):
◮
◮
◮
große Datenmengen liegen vor (zunehmend)
Daten haben räumliche Struktur
Beantwortung praktischer Fragestellungen durch Data Mining
Feld F440
Figure: F440 bei Görzig, Quelle: Google Earth mit Overlay
Fragestellungen in meiner Dissertation
◮
Ertragsvorhersage und Bedeutung einzelner Variablen
◮
◮
◮
◮
Betrachtung als Regressionsproblem
Notwendigkeit zur räumlichen Kreuzvalidierung bei Einsatz von
Regressionsmodellen
Nutzung als Vehikel zur Bestimmung der Bedeutung einzelner
Variablen (Sensoren, Datenquellen)
Management-Zonen
◮
◮
◮
Probleme existierender Algorithmen
Wünschenswerte Eigenschaften eines neuen Algorithmus
Hierarchisches Clustering als explorativer Ansatz
Ertragsvorhersage
◮
basiert auf Georg Weigerts Dissertation:
◮
◮
◮
◮
◮
zugrundeliegender Umstand: räumliche Autokorrelation
◮
◮
◮
◮
Einsatz neuronaler Netze (zur Regression)
Einsatz von Kreuzvalidierung
räumlicher Bezug der Daten nicht beachtet
Probleme mit systematischer Fehlerunterschätzung
räumlich benachbarte Datenpunkte sind häufig ähnlich
bei nicht-räumlicher Kreuzvalidierung landen räumlich
benachbarte Punkte im Trainings- und Testdatensatz
führt zur Unterschätzung des Vorhersagefehlers, da das
Regressionsmodell einige Punkte im Testdatensatz schon im
Trainingsdatensatz “gesehen” hat
Entwicklung einer räumlichen Kreuzvalidierung
Räumliche Autokorrelation
5727800
5727800
5727600
5727600
5727400
5727400
5727200
5727200
5727000
5726800
[39.47,45.04]
(45.04,46.91]
(46.91,48.43]
(48.43,49.26]
(49.26,50.24]
(50.24,51.39]
(51.39,52.21]
(52.21,53.42]
(53.42,54.43]
(54.43,60.69]
5727000
5726800
(a) EC25
[721.3,724.2]
(724.2,724.6]
(724.6,724.9]
(724.9,725]
(725,725.2]
(725.2,725.3]
(725.3,725.5]
(725.5,725.6]
(725.6,725.9]
(725.9,728.1]
(b) REIP32
Figure: F440, EC25/REIP32
Räumliche Kreuzvalidierung
Latitude
F440, 20 clusters
Longitude
[0.49,0.9569]
Figure: Räumliche Zerlegung von F440 mit Hilfe von k-means, k = 20
Räumliche Variablenbedeutung
(engl. spatial variable importance)
◮
ausgehend vom Ertragsvorhersagemodell:
◮
◮
◮
bestimme den Einfluß einzelner Variablen (Sensoren,
Datenquellen)
Wie “gut” ist ein neuer Sensor zur Ertragsvorhersage geeignet?
Welche “neuen” Informationen liefert eine zusätzliche
Datenquelle?
Räumliche Variablenbedeutung
◮
relativ einfache Grundidee:
◮
wie bisher: räumliche Kreuzvalidierung
◮
◮
◮
◮
Modelltraining auf Trainingsdatensatz
Vorhersage auf Testdatensatz
Bestimmung des Fehlers als Differenz (RMSE) aus
Modellvorhersage und tatsächlichem Wert
zusätzlich:
◮
◮
◮
◮
(wiederholte) Permutation einer Variable im Testdatensatz
Aufzeichnen des Einflusses dieser Permutation auf die
Vorhersagegüte des trainierten Regressionsmodells
wenn Fehlerzunahme: Variable ist (im Modell) wichtig
keine/kaum Änderung: Variable ist eher unwichtig
Räumliche Variablenbedeutung: vorläufige Ergebnisse
ELEVATION
REIP49
REIP32
EC25
N3
N2
N1
ELEVATION
REIP49
REIP32
EC25
N3
N2
N1
0.0
0.4
0.8
1.2
(a) lm
0
1
2
(b) neural network
ELEVATION
REIP49
REIP32
EC25
N3
N2
N1
ELEVATION
REIP49
REIP32
EC25
N3
N2
N1
0.0
0.4
0.8
1.2
(c) support vector regression, radial kernel
0.0
0.5
(d) bagging
1.0
3
Management-Zonen
engl. management zone delineation
◮
Grundidee: Bestimmung von Teilbereichen des Feldes, die
unterschiedlich behandelt (“gemanagt”) werden
◮
bisher eher heuristisch und ad-hoc behandelt, nicht unbedingt
mit Rücksicht auf volle Ausnutzung der Daten
◮
PF-Behandlung etwa seit dem Jahr 2000, laut Literatur
◮
kein tatsächliches Qualitätsmaß vorhanden
◮
Zonen (zwangsläufig) abhängig vom Verwendungszweck
◮
daher: Entwicklung eines explorativen Ansatzes aus
Datensicht mit Ausnutzung der räumlichen Struktur der Daten
Management-Zonen als Clusterproblem
◮
aus Datensicht:
◮
◮
Zerlegung des Datenraums (des Feldes) in disjunkte
Teilbereiche = Clusterproblem
Problem: zwei Datenräume
◮
◮
◮
◮
◮
Geo-Raum: x-y-z-Koordinaten der Datenpunkte
Merkmalsraum: Sensordaten, Datenquellen, Meßwerte (EC, N,
REIP, . . . )
existierende Algorithmen sind immer auf nur einen der beiden
Räume ausgelegt
Einbeziehung vieler Variablen (nicht nur EC/EM)
zusätzliche wünschenswerte Eigenschaft: einstellbarer
räumlicher Zusammenhang der Zonen
◮
◮
führt zu Erkenntnisgewinn über Ähnlichkeiten von
Feldbereichen (Sinn des Data Mining)
manueller, explorativer Prozeß (automatisierbar?)
Hierarchisches Clustern
◮
Beginn: jeder Datenpunkt in einem einzelnen Cluster
◮
Zwischenschritte: Verschmelzen einzelner Datenpunkte zu
einem neuen Cluster
◮
Ende: alle Datenpunkte in einem Cluster
Kriterien zum Verschmelzen:
◮
◮
◮
◮
a) Ähnlichkeit im Geo-Raum (Cluster benachbart)
b) Ähnlichkeit im Merkmalsraum (ähnliche Feldeigenschaften)
Parameter zur Einstellung der räumlichen Kontiguität
Management-Zonen, Beispiel
Easting
(e) F550, 150 Cluster
[17.36,23.59]
Northing
Northing
Northing
niedrige Kontiguität
Easting
(f) F550, 60 Cluster
[17.36,23.59]
Easting
(g) F550, 4 Cluster
[17.36,23.59]
Figure: F550, Clustern mit niedriger Kontiguität, Variablen: pH, K, Mg,
P (Farben nur zur Abgrenzung der Cluster, keine weitere Bedeutung)
Management-Zonen, Beispiel
Easting
(a) F550, Beginn
[17.36,23.59]
Northing
Northing
Northing
hohe Kontiguität
Easting
(b) F550, 75 Cluster
[17.36,23.59]
Easting
(c) F550, 22 Cluster
[17.36,23.59]
Figure: F550, Clustern mit hoher Kontiguität, Variablen: pH, K, Mg, P
(Farben nur zur Abgrenzung der Cluster, keine weitere Bedeutung)
(Demo: Videovergleich)
Management-Zonen
Vergleich der Zonen mit Bodenattributen
[4.5,5.4]
(5.4,5.5]
(5.5,5.6]
(5.6,5.7]
(5.7,5.8]
(5.8,6]
(6,6.2]
(6.2,6.4]
(6.4,6.9]
(6.9,8.9]
(a) pH
[1,4.3]
(4.3,4.8]
(4.8,5.3]
(5.3,6.1]
(6.1,6.7]
(6.7,7.6]
(7.6,9]
(9,11]
(11,14.9]
(14.9,58.8]
(b) P
[4.8,8.7]
(8.7,9.2]
(9.2,9.5]
(9.5,9.8]
(9.8,10]
(10,10.3]
(10.3,10.6]
(10.6,11]
(11,11.6]
(11.6,18.3]
(c) Mg
Figure: F550, Variablen
[5.4,7.7]
(7.7,8.6]
(8.6,9.3]
(9.3,10.1]
(10.1,11.2]
(11.2,12.3]
(12.3,14.1]
(14.1,16.3]
(16.3,22.5]
(22.5,73.7]
(d) K
Management-Zonen
Vergleich der Zonen mit Bodenattributen
Figure: F550, elf Management-Zonen laut Algorithmus
◮
letztendlich nur 3 Zonen:
◮
◮
◮
pH niedrig, P niedrig, Mg niedrig, K niedrig (größte Zone)
pH hoch, P hoch, Mg hoch, K hoch (Ränder)
pH hoch, P hoch, Mg niedrig, K hoch (Mitte links)
Zusammenfassung
◮
precision farming ist ein datengetriebener Ansatz für
zukünftige Landwirtschaft
◮
räumliche, georeferenzierte, große Datenmengen
◮
Ertragsvorhersage als Vehikel zur Bestimmung der räumlichen
Variablenbedeutung
◮
Management-Zonierung per räumlichem Clusteralgorithmus
Zeit für . . .
Fragen?
◮
[email protected]
◮
Folien, Veröffentlichungen, Skripte unter
http://research.georgruss.de
Herunterladen