Spatial Data Mining in Precision Agriculture Martin-Luther-Universität Halle-Wittenberg Georg Ruß, Otto-von-Guericke-Universität Magdeburg 01.03.2011 Data Mining ◮ Ausgangspunkt: große Datenmengen ◮ ◮ ◮ ◮ Anwendung intelligenter Datenanalyse Entwicklung und Einsatz neuer Algorithmen Generierung von neuem Wissen bzw. neuen Informationen Einsatz im Precision Farming (PF): ◮ ◮ ◮ große Datenmengen liegen vor (zunehmend) Daten haben räumliche Struktur Beantwortung praktischer Fragestellungen durch Data Mining Feld F440 Figure: F440 bei Görzig, Quelle: Google Earth mit Overlay Fragestellungen in meiner Dissertation ◮ Ertragsvorhersage und Bedeutung einzelner Variablen ◮ ◮ ◮ ◮ Betrachtung als Regressionsproblem Notwendigkeit zur räumlichen Kreuzvalidierung bei Einsatz von Regressionsmodellen Nutzung als Vehikel zur Bestimmung der Bedeutung einzelner Variablen (Sensoren, Datenquellen) Management-Zonen ◮ ◮ ◮ Probleme existierender Algorithmen Wünschenswerte Eigenschaften eines neuen Algorithmus Hierarchisches Clustering als explorativer Ansatz Ertragsvorhersage ◮ basiert auf Georg Weigerts Dissertation: ◮ ◮ ◮ ◮ ◮ zugrundeliegender Umstand: räumliche Autokorrelation ◮ ◮ ◮ ◮ Einsatz neuronaler Netze (zur Regression) Einsatz von Kreuzvalidierung räumlicher Bezug der Daten nicht beachtet Probleme mit systematischer Fehlerunterschätzung räumlich benachbarte Datenpunkte sind häufig ähnlich bei nicht-räumlicher Kreuzvalidierung landen räumlich benachbarte Punkte im Trainings- und Testdatensatz führt zur Unterschätzung des Vorhersagefehlers, da das Regressionsmodell einige Punkte im Testdatensatz schon im Trainingsdatensatz “gesehen” hat Entwicklung einer räumlichen Kreuzvalidierung Räumliche Autokorrelation 5727800 5727800 5727600 5727600 5727400 5727400 5727200 5727200 5727000 5726800 [39.47,45.04] (45.04,46.91] (46.91,48.43] (48.43,49.26] (49.26,50.24] (50.24,51.39] (51.39,52.21] (52.21,53.42] (53.42,54.43] (54.43,60.69] 5727000 5726800 (a) EC25 [721.3,724.2] (724.2,724.6] (724.6,724.9] (724.9,725] (725,725.2] (725.2,725.3] (725.3,725.5] (725.5,725.6] (725.6,725.9] (725.9,728.1] (b) REIP32 Figure: F440, EC25/REIP32 Räumliche Kreuzvalidierung Latitude F440, 20 clusters Longitude [0.49,0.9569] Figure: Räumliche Zerlegung von F440 mit Hilfe von k-means, k = 20 Räumliche Variablenbedeutung (engl. spatial variable importance) ◮ ausgehend vom Ertragsvorhersagemodell: ◮ ◮ ◮ bestimme den Einfluß einzelner Variablen (Sensoren, Datenquellen) Wie “gut” ist ein neuer Sensor zur Ertragsvorhersage geeignet? Welche “neuen” Informationen liefert eine zusätzliche Datenquelle? Räumliche Variablenbedeutung ◮ relativ einfache Grundidee: ◮ wie bisher: räumliche Kreuzvalidierung ◮ ◮ ◮ ◮ Modelltraining auf Trainingsdatensatz Vorhersage auf Testdatensatz Bestimmung des Fehlers als Differenz (RMSE) aus Modellvorhersage und tatsächlichem Wert zusätzlich: ◮ ◮ ◮ ◮ (wiederholte) Permutation einer Variable im Testdatensatz Aufzeichnen des Einflusses dieser Permutation auf die Vorhersagegüte des trainierten Regressionsmodells wenn Fehlerzunahme: Variable ist (im Modell) wichtig keine/kaum Änderung: Variable ist eher unwichtig Räumliche Variablenbedeutung: vorläufige Ergebnisse ELEVATION REIP49 REIP32 EC25 N3 N2 N1 ELEVATION REIP49 REIP32 EC25 N3 N2 N1 0.0 0.4 0.8 1.2 (a) lm 0 1 2 (b) neural network ELEVATION REIP49 REIP32 EC25 N3 N2 N1 ELEVATION REIP49 REIP32 EC25 N3 N2 N1 0.0 0.4 0.8 1.2 (c) support vector regression, radial kernel 0.0 0.5 (d) bagging 1.0 3 Management-Zonen engl. management zone delineation ◮ Grundidee: Bestimmung von Teilbereichen des Feldes, die unterschiedlich behandelt (“gemanagt”) werden ◮ bisher eher heuristisch und ad-hoc behandelt, nicht unbedingt mit Rücksicht auf volle Ausnutzung der Daten ◮ PF-Behandlung etwa seit dem Jahr 2000, laut Literatur ◮ kein tatsächliches Qualitätsmaß vorhanden ◮ Zonen (zwangsläufig) abhängig vom Verwendungszweck ◮ daher: Entwicklung eines explorativen Ansatzes aus Datensicht mit Ausnutzung der räumlichen Struktur der Daten Management-Zonen als Clusterproblem ◮ aus Datensicht: ◮ ◮ Zerlegung des Datenraums (des Feldes) in disjunkte Teilbereiche = Clusterproblem Problem: zwei Datenräume ◮ ◮ ◮ ◮ ◮ Geo-Raum: x-y-z-Koordinaten der Datenpunkte Merkmalsraum: Sensordaten, Datenquellen, Meßwerte (EC, N, REIP, . . . ) existierende Algorithmen sind immer auf nur einen der beiden Räume ausgelegt Einbeziehung vieler Variablen (nicht nur EC/EM) zusätzliche wünschenswerte Eigenschaft: einstellbarer räumlicher Zusammenhang der Zonen ◮ ◮ führt zu Erkenntnisgewinn über Ähnlichkeiten von Feldbereichen (Sinn des Data Mining) manueller, explorativer Prozeß (automatisierbar?) Hierarchisches Clustern ◮ Beginn: jeder Datenpunkt in einem einzelnen Cluster ◮ Zwischenschritte: Verschmelzen einzelner Datenpunkte zu einem neuen Cluster ◮ Ende: alle Datenpunkte in einem Cluster Kriterien zum Verschmelzen: ◮ ◮ ◮ ◮ a) Ähnlichkeit im Geo-Raum (Cluster benachbart) b) Ähnlichkeit im Merkmalsraum (ähnliche Feldeigenschaften) Parameter zur Einstellung der räumlichen Kontiguität Management-Zonen, Beispiel Easting (e) F550, 150 Cluster [17.36,23.59] Northing Northing Northing niedrige Kontiguität Easting (f) F550, 60 Cluster [17.36,23.59] Easting (g) F550, 4 Cluster [17.36,23.59] Figure: F550, Clustern mit niedriger Kontiguität, Variablen: pH, K, Mg, P (Farben nur zur Abgrenzung der Cluster, keine weitere Bedeutung) Management-Zonen, Beispiel Easting (a) F550, Beginn [17.36,23.59] Northing Northing Northing hohe Kontiguität Easting (b) F550, 75 Cluster [17.36,23.59] Easting (c) F550, 22 Cluster [17.36,23.59] Figure: F550, Clustern mit hoher Kontiguität, Variablen: pH, K, Mg, P (Farben nur zur Abgrenzung der Cluster, keine weitere Bedeutung) (Demo: Videovergleich) Management-Zonen Vergleich der Zonen mit Bodenattributen [4.5,5.4] (5.4,5.5] (5.5,5.6] (5.6,5.7] (5.7,5.8] (5.8,6] (6,6.2] (6.2,6.4] (6.4,6.9] (6.9,8.9] (a) pH [1,4.3] (4.3,4.8] (4.8,5.3] (5.3,6.1] (6.1,6.7] (6.7,7.6] (7.6,9] (9,11] (11,14.9] (14.9,58.8] (b) P [4.8,8.7] (8.7,9.2] (9.2,9.5] (9.5,9.8] (9.8,10] (10,10.3] (10.3,10.6] (10.6,11] (11,11.6] (11.6,18.3] (c) Mg Figure: F550, Variablen [5.4,7.7] (7.7,8.6] (8.6,9.3] (9.3,10.1] (10.1,11.2] (11.2,12.3] (12.3,14.1] (14.1,16.3] (16.3,22.5] (22.5,73.7] (d) K Management-Zonen Vergleich der Zonen mit Bodenattributen Figure: F550, elf Management-Zonen laut Algorithmus ◮ letztendlich nur 3 Zonen: ◮ ◮ ◮ pH niedrig, P niedrig, Mg niedrig, K niedrig (größte Zone) pH hoch, P hoch, Mg hoch, K hoch (Ränder) pH hoch, P hoch, Mg niedrig, K hoch (Mitte links) Zusammenfassung ◮ precision farming ist ein datengetriebener Ansatz für zukünftige Landwirtschaft ◮ räumliche, georeferenzierte, große Datenmengen ◮ Ertragsvorhersage als Vehikel zur Bestimmung der räumlichen Variablenbedeutung ◮ Management-Zonierung per räumlichem Clusteralgorithmus Zeit für . . . Fragen? ◮ [email protected] ◮ Folien, Veröffentlichungen, Skripte unter http://research.georgruss.de