Transformation

Werbung
Realisierung von Datenimport und
-export für die
Kooperationspartner und GBIF
Stephan Lesch, Sebastian Rick
Motivation
• Wir sammeln möglichst alle beschriebenen
Beobachtungen der Tiergruppen
– Viele der Beobachtungen kommen von
extern und/oder liegen schon digital vor
 Import
– Viele Wissenschaftler wollen die Daten für
eigene Auswertungen nutzen
 Export
Import
Problem
• Verschiedenste Formate als
Ausgangsmaterial
• Alles auf ein einheitliches Format bringen
Import
Lösung
• Große Excel-Tabelle mit allen
Informationsfeldern
• WMs und TAs haben gemeinsam an
praktischer Lösung gearbeitet
• Alle Informationen einer Beobachtung in
einer Zeile  >280 Spalten
Import
In zwei Varianten
• Einzelne Fundbeschreibungen
Entwicklungs- Geschlecht
stadium
Anzahl in
Probe
Anzahl in
Sammlung
Abundanz
Abundanzeinheit
• Parallele Quantität
Gesamt M
W
Adult
Adult
M
Adult
W
Juv
Juv M
Juv W
…
Import
Umsetzung
• Halbautomatisches Skript
vom Client aus aufrufbar
• Direktes SQL;JPA wie im
Client zu langsam
• Hauptaufgabe:
Text  Objekt
• Traue keiner Nutzereingabe!
Import
Traue keiner Nutzereingabe – Beispiele
• Namen (abgekürzt, Schreibfehler, informelle
Namen)
• Datum (unzählige Formate)
• Listeneinträge (Bodenart: „lehmiger Sand“)
• Einheiten (Abundanz: „pro m Graben“; „3 000 g“)
• Zuordnungen (Volumen im Feld für Fläche)
Export
Möglichkeiten des Datenexports
• Abfragen im Client
• Datenexport für GBIF und das Portal
• Datenexport aus dem Portal (Download)
Export
Abfragen im Client
• Halbautomatische materialisierte Views
• Bedingungen für die Rematerialisierung:
– Nach Datenänderung der verwendeten
Tabellen
– Nach bestimmter Zeit
– Bei Verwendung
Export
Datenexport für GBIF und das Portal
Datenbank für die Dateneingabe
•
Transformation in 4
Schritten
Transformation
Datenbanken für GBIF
und das Portal
Export
Datenexport für GBIF und das Portal
Datenbank für die Dateneingabe
• 1. Vorbereitungen:
• Aktualisieren von
Materialisierten ViewsDatenbanken für GBIF
zur Beschleunigung und das Portal
des Exports
Transformation
Export
Datenexport für GBIF und das Portal
Datenbank für die Dateneingabe
• 2. Erzeugen der
Zieldatenbanken, falls
diese noch nicht
vorhanden sind
Transformation
Datenbanken für GBIF
und das Portal
Export
Datenexport für GBIF und das Portal
Datenbank für die Dateneingabe
• 3. Aktualisieren von
Tabellen in der
Zieldatenbank
Transformation
Datenbanken für GBIF
und das Portal
Export
Datenexport für GBIF und das Portal
Datenbank für die Dateneingabe
• 4. Materialisieren von
Views von der Quellauf der Zieldatenbank
Transformation
Datenbanken für GBIF
und das Portal
Export
Datenexport im Portal
Zusammenfassung
• Die Daten dürfen nicht nur im Produkt
bearbeitbar und abfragbar sein,
sondern müssen im- und exportierbar sein
– Komplexe Daten in einer Tabelle (2D)
– Fehlertoleranz
– Große Datenmengen  Performanz
Dank
FKZ 01LI0901A
Herunterladen