Wissenschaftliches Datenmanagement: Das CERA-2 Daten- und Metadatenmodell Frank Toussaint, Potsdam-Institut für Klimafolgenforschung Zusammenfassung Um die in jeder Beziehung stark inhomogenen Daten verschiedener Forschungsinstitute zugänglich zu machen, wurde das Daten- und Metadatenmodell CERA entwickelt. Es ermöglicht für geografisch bezogene Metadaten institutsübergreifenden Zugang. Inhalt, Qualität, Formate und zahlreiche andere Parameter der beschriebenen Daten sind damit allgemein abrufbar. Die SQL der auf ORACLE-Basis erfolgten Umsetzung am PIK ist über das Internet einsehbar. Außerdem wurde eine flexible Java-Oberfläche (AFRI) entwickelt, mit der die Datenbank-Inhalte in Inter- und Intranet sichtbar gemacht werden. 1. Einführung Wie auf allen Gebieten der IT so sind auch im Bereich der raumbezogenen Daten die Datenmengen in den letzten Jahren exponentiell angestiegen. Sie liegen oftmals weit verteilt auf verschiedenen Medien und sind nach Struktur, Format, Qualität und Menge extrem inhomogen. In Forschungsinstituten kommen die unterschiedlichen Sicherheits- und Nutzungsanforderungen der einzelnen Arbeitsgruppen hinzu. Aus dieser Situation heraus wurde 1997/98 das CERA-2 Datenmodell entwickelt, mit dem Ziel, die ganz unterschiedlichen raumbezogenen Daten verschiedener Institute gleichermaßen zu beschreiben und die Beschreibungen transparent zu koppeln. Außerdem sollte das Konzept von CERA (Climate and Environmental Data Retrieval and Archiving System) offen genug für die Möglichkeit sein, lokale Daten direkt in das Datenmodell der beschreibenden Daten zu integrieren. Hierdurch können die beschreibenden Informationen der Meta-Datenbank (MDB) mit den eigentlichen Daten verschmolzen werden. In den folgenden Kapiteln sollen die Anforderungen an das Datenmodell skizziert (Kap. 2) und seine Entstehung beschrieben (Kap. 3) werden. Es folgen eine Beschreibung der Struktur des Modells (Kap. 4) sowie der aktuellen Implementation (Kap. 5) am Potsdam-Institut für Klimafolgenforschung (PIK). Zusätzlich wurde eine flexible, webfähige grafische Nutzerschnittstelle (AFRI) entwickelt, die in Kapitel 6 beschrieben wird. Den Abschluss bildet ein kurzer Ausblick auf die geplante Weiterentwicklung (Kap. 7) von CERA-2 und seiner Implementation im PIK. 2. Motivation und Anforderungen an das Metadatenmodell Zunächst sind die verschiedenen Anforderungen an das Datenmodell zu formulieren. Dabei sei vorgegeben, dass es sich um geografisch-raumbezogene Daten (Geospatial Data) handeln soll. Die Zuordnung zu Raumbereichen erfolgte über bounding boxes (minimale und maximale geografische Länge und Breite) sowie (optional) über örtliche Bezeichnungen. Bei der Festlegung der Metadatenstrukturen von CERA-2 standen vor allem folgende, sich teilweise überschneidende Punkte im Vordergrund: • Flexibilität der Datenstrukturen hinsichtlich der sehr inhomogenen Daten der verschiedenen Anwender und ihrer ebenso inhomogenen Bedürfnisse, • leichte Erweiterbarkeit zur Anpassung an neue Anforderungen, die im Hause aber auch durch Erweiterung des Kreises der Nutzerinstitute immer wieder auftreten, • Übersichtlichkeit der Strukturen, da etliche Dutzend Tabellen miteinander in Verbindung stehen und über Institutsgrenzen hinweg koppelbar sein sollen, • hinreichende Beschreibung der Speicherstrukturen, um automatischen Datenzugriff zu ermöglichen, • Kompatibilität zu inhaltlichen Standards wie sie durch den Content Standard of Digital Geospatial Metadata (CSDGM) des Federal Geographic Data Committee (FGDC 1999) oder das Directory Interchange Format (DIF) der National Aeronautics and Space Administration (NASA 1999) festgelegt werden, • Kompatibilität zu funktionalen Standards. Zum Beispiel fordert die US-amerikanische IEEE (siehe Bretherton 1994) neben »Browse/Search/Retrieval« Funktionen und der Unterstützung von »Storage and Archive« auch die Möglichkeit, mittels der Metadaten »Application to Application Transfer« durchzuführen sowie »Ingest, Quality Assurance and Reprocessing«. • transparente Vernetzung verteilter Datenbestände soll möglich sein, • akzeptabler Aufwand für Pflege und Nutzung, damit die DB die Projektlaufzeit ihrer Erstellung überlebt. Außerdem spielte bei der Umsetzung eine besondere Rolle, dass die entstehende Datenbank von NichtInformatikern in weitgehend fachlich disjunkten Institutionen verwendet werden sollte. 3. Werdegang von CERA-2 Zunächst entstand am Deutschen Klimarechenzentrum (DKRZ) in Hamburg das CERA-1 Datenmodell in Zusammenarbeit mit dem Potsdam-Institut für Klimafolgenforschung (PIK) und dem Alfred-WegenerInstitut für Polar- und Meeresforschung (AWI) in Bremerhaven. Auf Basis des Oracle DatenbankManagementsystems (DBMS) wurde ein relationaler Ansatz gewählt. Einer relationalen Struktur wurde aus verschiedenen Gründen der Vorzug gegeben. Neben der besseren Übersichtlichkeit spielten dabei Institute 1 Institute 2 CERA Module A l.e. 1 l.e. 2 CERA Core Mod. B Mod. C local extension 3 Institute 3 Abb. 1: Die CERA-2 Tabellen teilen sich in einen Kernbereich (CERA Core), die Module (CERA Modules) und lokal installierte Erweiterungen (local extensions). vor allem die weite Verbreitung und der hohe Entwicklungsstand entsprechender Systeme eine Rolle, mit denen für Oracle und Sybase auch bereits positive Erfahrungen vorlagen. Gleichzeitig war mit SQL eine einheitliche Definitions- und Abfragesprache verfügbar, die eine Zusammenarbeit verschiedener Entwicklungszentren begünstigte. Dieser zunächst sehr an der Massendatenhaltung des DKRZ ausgerichtete erste Entwurf war Grundlage für das CERA-2 Datenmodell, das von den beteiligten Instituten unter Potsdamer Federführung erstellt wurde. Die gemeinsame Entwicklung wurde über das Internet (Diskussionsbeiträge, gemeinsame »CERA Central Page«) koordiniert. Dabei wurde die Entstehung besonders davon beeinflusst, dass die beteiligten Institute sehr unterschiedliche Interessen haben, bedingt durch ihre unterschiedlichen Datenstrukturen (AWI: große Mengen mäßig homogener Messdaten; DKRZ: große Mengen relativ homogener Modelldaten; PIK: relativ geringe Mengen extrem inhomogener Daten). 4. Grundlagen von CERA-2 4.1 Die Struktur: CERA Core und CERA Modules Flexibilität und Erweiterbarkeit werden vor allem durch die Aufteilung der Tabellen in Gruppen gewährleistet. Dabei sollte die zentrale Gruppe von gut 40 Tabellen (CERA Core) von allen Partnerinstituten installiert und in der Regel auch genutzt (i.e. befüllt) werden. Hingegen werden Tabellengruppen, die nur für einige Teilnehmer von Bedeutung sind, dort als sogenannte CERA Modules installiert. Schließlich kann jedes Institut natürlich eigene Tabellenstrukturen (»Local Extensions«) in CERA integrieren (s. Abb. 1). REFERENCE Any publication related to the data can be stored in this block, together with the form of presentation of the data. Publication types include, e.g., the publication of the data itself or papers that make use of the data. STATUS Here some status information is given as, e.g., on data quality and processing that has been applied to the data. COVERAGE This block contains information on the volume of spacetime, covered by the data. METADATA ENTRY This is the main CERA Block, providing information on - the entry’s title - its type and relation to other entries, if implemented - the project the data belong to - a summary of the entry - a list of keywords related to the data - creation and review dates of the metadata additionally : DISTRIBUTION Information on how data is distributed is provided in this block, including access restrictions, data format, and fees. MODULES AND LOCAL EXTENSIONS Module DATA_ORGANIZATION Module DATA_ACCESS Local extensions for specific information on (e.g.): - data usage - data access and data administration PARAMETER The content of this block describes the topic, the data gives information about, its unit, and its aggregation in space (e.g., data given per country, per square degree) and time (weekly, daily data). SPATIAL REFERENCE Information on the coordinate systems used. CONTACT Information on contact persons and contact institutes related to the data, as e.g., distributor, investigator, and owner of the copyright. Abb. 2: Der CERA-Kernbereich (CERA Core) ist thematisch in Tabellengruppen (CERA Blocks) untergliedert. Abb. 3: METADATA ENTRY STATUS SPATIAL REFERENCE CERA Core Hauptblock (“Metadata Entry”) mit Blöcken “Status” und “Spatial Information”. ENTRY entry_id entry_name entry_acronym entry_type_id summary_id quality_id progress_id creation_date review_date future_review_date QUALITY SPATIAL_REFERENCE quality_id accuracy_report consistency_report completeness_report horizontal_acc_report vertical_acc_report entry_id hor_coord_sys_id ver_coord_sys_id KEY_CONNECT entry_id general_key_id VER_COORD_SYS PROGRESS SUMMARY summary_id summary GENERAL_KEY ver_coord_sys_id sys_descr general_key_id general_key PROCESS_STEP ENTRY_TYPE entry_type_id entry_type entry_type_descr progress_id progress_descr HOR_COORD_SYS CAMPAIGN entry_id project_id entry_id process_descr process_date person_id hor_coord_sys_id sys_descr ENTRY_CONNECT PERSON gen_entry_id spec_entry_id connect_type_id PROJECT CONNECT_TYPE project_id project_name project_acronym project_descr connect_type_id connect_type connect_type_descr PARAMETER LOCATION_CONNECT COVERAGE CONTACT DISTRIBUTION REFERENCE ENTITY: List of values ENTITY: other RELATION Abb. 4: CERA Core Blocks “Parameter”, “Coverage“, “Contact”, “Distribution” und “Reference”. ENTRY currentness_ref_id currentness_ref_descr CURRENTNESS_REF topic_id topic_name topic_acronym topic_descr topic_pointer topic_level TOPIC unit_id unit_name unit_acronym unit_descr UNIT spatial_data_org_id reference_method SPATIAL_DATA_ORG AGGREGATION aggregation_id aggregation_descr PARAMETER entry_id topic_id unit_id spatial_data_org_id aggregation_id (data_org_id) (data_access_id) PARAMETER ENTRY temporal_coverage_id start_year start_month start_day stop_year stop_month stop_day currentness_ref_id TEMPORAL_COVERAGE spatial_coverage_id min_lat max_lat min_lon max_lon min_altitude max_altitude min_alt_unit_id max_alt_unit_id SPATIAL_COVERAGE entry_id temporal_coverage_id spatial_coverage_id COVERAGE location_id location_name location_pointer location_level ref_date min_lat max_lat min_lon max_lon LOCATION entry_id location_id LOCATION_CONNECT COVERAGE PROCESS_STEP institute_id institute_name institute_acronym department_name department_acronym country state_or_province place street street_postal_code pobox pobox_postal_code url additional_info INSTITUTE person_id first_name second_name last_name title institute_id telephone fax email url PERSON contact_type_id contact_type CONTACT_TYPE entry_id institute_id person_id contact_type_id CONTACT CONTACT ENTRY ENTRY PIK, DKRZ, AWI 07/99 CERA Version 2.4 access_type_id access_acronym access_descr ACCESS_TYPE format_id format_acronym format_descr FORMAT fees_id fees_acronym fees_descr FEES access_constraint_id constraint_descr ACCESS_CONSTRAINT use_constraint_id constraint_descr USE_CONSTRAINT entry_id data_size access_type_id format_id fees_id access_constraint_id use_constraint_id DISTRIBUTION DISTRIBUTION PRESENTATION presentation_id presentation_descr CITATION_TYPE citation_type_id citation_type citation_type_descr CITATION citation_id title authors publication publisher editor publication_date country state place edition access_spec presentation_id citation_type_id REF_TYPE ref_type_id ref_type_descr REFERENCE entry_id citation_id ref_type_id REFERENCE ENTRY Abb. 5: CERA Module “Data Access” CERA Module DATA_ACCESS, Version 1.0 PARAMETER data_access_id These are examples of using the strings of the storage table. They can be defined in "ACCESS_STRUCTURE": DATA_ACCESS data_access_id access_structure_id storage1_id storage2_id storage3_id storage4_id rec_structure_id modification_date ACCESS_STRUCTURE access_structure_id access_structure_name*80 accesss_structure_descr*2000 acc_structure disk ext.&int.: DB internal: storage1 host name DB type storage2 directory DB name storage3 file table name storage4 comment owner STORAGE storage_id storage_name*250 TABLE_NAME REC_STRUCTURE rec_structure_id structure_name*250 dim1_type*10 dim1_id dim2_type*10 dim2_id dim3_type*10 dim3_id dim4_type*10 dim4_id dim5_type*10 dim5_id SCALE TIME POINT_SET (PARA_ORDER: local extension) start_moment_id blob_id blob_size blob_table_name blob_min blob_max missing_value MOMENT blob_table_name blob_id blob These tables are an example of storing blobs at DKRZ (local extension). 3 ENTITIES 1 LIST OF VALUES Version 1.0, 6. February 1998 Institut 1 Institut 2 GUI GUI CERA Core ist inhaltlich in acht CERA Blocks unterteilt, die verschiedene Themenbereiche abdecken: Titel und Datum des Eintrags, die raumzeitliche Überdeckung der Daten, ihr Qualitäts- und Bearbeitungsstatus, die gemessenen physikalischen Größen, die verwendeten Koordinatensysteme, Kontaktinformation zu Datennehmern, eignern und Distributoren, die nötigen Informationen um an die Daten zu gelangen und schließlich Verbindungen zu eventuellen Publikationen (s. Abb. 2). In der CERA Core-Tabellenstruktur (s. Abb. 3 und 4) sind zahlreiche Wertetabellen integriert, um die Eingaben zu systematisieren. Sie sind auf der zur Eingabe bestimmten Benutzeroberfläche als Pull-Down-Menues zugänglich. Server JDBC Server JDBC A DB MS DB MS B DB DB Abb. 6: Eine Kopplung verschiedener DB an eine grafische Nutzerschnittstelle (GUI) kann über JDBC erfolgen, da entsprechende Treiber praktisch für alle DBMS erhältlich sind (Fall A, Sun 1998b). Bei gleichen DBMS ist oft eine Kopplung auf DB-Ebene (Fall B) sehr viel einfacher durchzuführen (z.B. bei ORACLE). Die CERA Module beschreiben als fakultative Erweiterungen des Modells beispielsweise die Speicher- (CERA Module Data Organization) und Zugriffsstrukturen (CERA Module Data Access, beispielhaft in Abb. 5) oder auch die Inputparameter, mit denen bestimmte Modelldaten erzeugt wurden (CERA Module Model Input). 4.2 Von Metadaten zu Daten: CERA Local Extensions Das CERA Datenmodell lässt Raum für die Bedürfnisse der einzelnen Anwender. Beispielsweise kann es lokal um zusätzliche Tabellen mit Metainformationen erweitert werden. Hierdurch wird der Tatsache Rechnung getragen, dass die erforderliche Detailgenauigkeit der Metadaten von Anwender zu Anwender stark unterschiedlich ist. Mittels der CERA Local Extensions können andererseits aber auch die Daten selbst in das Model integriert werden. Beschreibungen der Integration finden sich dann ggf. in den übrigen CERA Tabellen. In dieser Form erfolgte die Umsetzung am Deutschen Klimarechenzentrum. 4.3 Vernetzung von DB unter CERA Die transparente Kopplung der MetaDatenbanken verschiedener Institute ist grundsätzlich auf verschiedene Weisen möglich (s. Abb. 6). Bei der Verwendung gleicher DBMS kann vielfach direkt auf Datenbankebene gekoppelt werden. In diesem Fall sorgt die an den verschiedenen Orten gleiche Tabellenstruktur dafür, dass die lokalen Oberflächen unmittelbar auf die Partnerstrukturen aufsetzen können. So wird zum Beispiel gegenwärtig zwischen DKRZ und PIK verfahren, die beide Oracle als DBMS verwenden. Auch die datenbankspezifischen Nutzeroberflächen können dann gemeinsam verwendet werden. Etwas aufwendiger ist die Vernetzung, wenn verschiedene DBMS vorliegen. Die lokalen Nutzeroberflächen müssen in der Regel getrennt entwickelt werden, eine Kopplung ist via JDBC oder CORBA möglich. 4.4 Praktische Umsetzung Bei der Entwicklung von DB sind gegenüber theoretischen Entity-Relationship-(ER)-Modellen und ihren Forderungen nach Normalform verschiedentlich Kompromisse nötig, um die Nutzbarkeit nicht unnötig einzuschränken. In solchen Fällen muss der praktische Nutzwert den Ausschlag geben gegenüber modelltheoretisch oder ästhetisch ansprechenderen Lösungen. Unter Normalisierungsgesichtspunkten (Erste Normalform) hätte es sich in CERA zum Beispiel angeboten, die im Bereich der Beschreibung von Publikationen auftretenden »Autoren« in der sowieso vorhandenen Tabelle »Personen« abzulegen. Die genauere Betrachtung praktischer Fälle verbietet solches Vorgehen. Bei der Eingabe von Literaturzitaten sind oftmals von einem Autor nur der Nachname und der Initial des Vornamens bekannt. In der Personentabelle qualifiziert dies keinen Schlüssel, folglich ist eine Eintragung dort nicht sinnvoll. Das »Authors«-Feld muss daher als freier Text in der Beschreibung von Referenzen bleiben. Auch die Beschreibung der jeweiligen Speicherstruktur ist für die verschiedenen Daten der unterschiedlichen Institute so spezifisch, dass sie sich nicht ohne Weiteres in eine Datenstruktur abbilden lässt. In CERA wurde der wohl flexibelst denkbare Weg gewählt. Die Zugriffsbeschreibung erfolgt in vier freien Textfeldern. Deren Bedeutung wiederum kann abhängig von der konkreten Situation in einer beschreibenden Tabelle definiert werden. Eine häufige Bezeichnung für die vier Felder ist hier zum Beispiel Host/Pfad/Datei/Kommentar. Auf diese Weise können auch Zugriffsregeln für in DB gehaltene große Binärdatenmengen (Binary Large Objects, blobs) in der MDB abgelegt und zur automatisierten Weiterverarbeitung ausgelesen werden. Hierarchien werden in CERA nicht als Tabellengruppen mit einer Tabelle pro Ebene abgespeichert, da dies eine A-priori-Festlegung auf die Zahl der Hierarchieebenen erfordert. Statt dessen ist jeweils eine einzelne rekursive Tabelle eingerichtet worden. In ihr enthält jede Zeile einen Zeiger auf die Zeile des übergeordneten Eintrags sowie aus Performanzgründen die (redundante) Information über das Hierarchieniveau, auf dem sich die Zeile befindet. Zusammen gefasst mag man die praktische Umsetzung an dem Satz orientieren: Soviel Normalform wie möglich, aber durchaus Abweichungen wo nötig. In einigen, begründeten Fällen kann also durchaus von den Normalformen abgewichen werden, generell aber ist eine weitgehende Normalisierung durchaus wünschenswert. Der eingesparte Speicherplatz spielt beim heutigen Preisniveau von Festplatten zwar kaum noch eine Rolle, die Datenintegrität ist jedoch sehr viel leichter zu gewährleisten, wenn Doppelspeicherungen unterbleiben. Eine andere Maxime für den Strukturentwurf mag sein: So allgemein wie möglich, aber speziell wo nötig. Bei neuen Anforderungen sind Erweiterungen und Umstrukturierungen in generischen Modellentwürfen sehr viel leichter durchzuführen. Schließlich hat sich bewährt, über die reine Tabellenstruktur hinaus auch die Semantik in die Entwurfsdiskussion mit einzubeziehen. Allein unter dem Begriff “Modell” wird von verschiedenen Anwendern mal der ein Problem beschreibende Algorithmus verstanden, mal dessen Implementation als Programm und mal die resultierenden Ergebnisse. Eine sorgfältig gewählte Semantik ist umso wichtiger, wenn mehrere Personen unterschiedlicher fachlicher Herkunft am DB-Entwurf arbeiten, was für eine möglichst allgemein nutzbare Struktur gerade wünschenswert ist. 5. Die aktuelle CERA-Implementierung am PIK Gegenwärtig sind am PIK das CERA Core sowie zwei der CERA Module installiert und in Verwendung; außerdem eine Gruppe von rund 30 Tabellen (Ladetabellen) in denen Neueingaben aufgefangen werden. Erst nach einer halbautomatischen Prüfung werden sie dann mittels SQL Skripten in die CERA Tabellen übertragen. Die Füllung der Ladetabellen erfolgt über Masken (ORACLE Forms). Update der Datenbankeinträge ist ebenfalls über Masken möglich (s. Abb. 7). Die Abfrage der Datenbank erfolgt im Wesentlichen auf zwei Wegen: Über die CERA Central Page des Internets (http://www.pik-Potsdam.de/cera/) ist ein direkter Zugang zu einem Teil der Einträge über ein Java-Applet (AFRI, s. nächster Abschnitt) möglich, im Intranet zu allen Einträgen. Gleichzeitig kann hausintern (oft performanter) über das analoge Java-Programm zugegriffen werden. Zusätzlich kann die CERA MDB über ORACLE Masken abgefragt werden, die noch einige besondere Funktionalitäten bieten. INPUT Graphical user interface: " update MDB " (ORACLE Form) FOREIGN RETRIEVAL Graphical user interface: " read MDB " (ORACLE Form) Internet Web GUI : query for non protected data (WWW, Java) View layer : 9 views View layer : 5 views control layer CERA Load (input control layer) : 9 main loading tables INHOUSE RETRIEVAL user interface GUI: automatted: "load MDB" (ASCII (ORACLE input) Form) UPDATE PL/SQL script Abb. 7: CERA structure of approx. 75 tables Organized as CERA Core and several CERA Modules storage layer CERA Base (permanent storage) : Die CERA-2-Implementierung am PIK. Für Eingabe, Bearbeitung und Abfragen wurden ORACLE Forms Oberflächen verwendet. Um Konsistenz und Sinnhaftigkeit der Eingabedaten zu sichern, wurde eine Zwischenschicht von neun Haupt- und rund 20 kleineren Ladetabellen erzeugt, die eine Kontrolle der eingegebenen Daten ermöglicht, bevor diese mittels eines SQLSkriptes in die CERA-Tabellen eingetragen werden. Parallel entstand die Abfrage-Oberfläche “AFRI” (s. Kap. 6), die die CERA-Eintragungen in Intranet und Internet sichtbar macht. 6. AFRI und IDA: Flexible Grafische Nutzer Schnittstellen (GUI) auf Java Basis Zur komfortablen Abfrage von DB- und MetaDB-Inhalten wurde am PIK ein flexibles Java-Userinterface mit dem dazugehörigen Server entwickelt (AFRI, s. Abb. 8). Zusammen mit einem interaktiven digitalen Atlas (IDA) erlaubt es, intuitiv Anfragen auf die räumliche und zeitliche Überdeckung der gesuchten Daten zu formulieren. Außerdem ist eine Auswahl in Stichwort-Hierarchien und in Einzelfeldern möglich. Die auszugebenden Spalten können gewählt werden und die gefundenen Daten direkt auf den Client übertragen. Dabei wird der Kontakt zur Datenbank über JDBC (Sun 1998a) hergestellt. Abb. 8: Das Java-Programm AFRI ermöglicht DB-Abfragen über Internet, Intranet und als Standalone-Version. Es passt sich selbstkonfigurierend an die in Steuertabellen beschriebenen DBTabellen an. Die Datenstruktur, an die sich das GUI anpassen muss, wird in Tabellenform beschrieben und ebenfalls in der DB abgelegt, so dass bei Änderungen keine Neuprogrammierung erfolgen muss (s. Abb. AFRI/IDA). Dadurch eignet es sich nicht nur für CERA sondern für jede Art von Tabellengruppen geografischer Daten, die in einem relationalen DBMS über JDBC zugänglich sind. Abb. 9: Die Ausgabe erfolgt bei AFRI in Tabellenform oder mittels IDA als Ortsinformation. Bei der Ausgabe erlaubt IDA die Darstellung von verorteten Daten als Figuren auf den Karten des hierarchischen Atlas. Die aktuelle Version von AFRI hat unkomprimiert eine Größe von ca. 560 KB. Für den Zugriff auf die PIK MDB CERA ist sie über die CERA Central Page im Netz offen zugänglich. 7. Ausblick Am PIK ist die Installation von CERA-2 abgeschlossen. Die SQL-Skripte zur Tabellendefinition (DDL) sowie zahlreiche Tools (DML) können über die CERA Central Page eingesehen und abgerufen werden. Ebenso stehen dort die Beschreibungen des CERA-Konzepts zur Verfügung. Gegenwärtig ist CERA an vier Instituten installiert. Eine Kopplung der MDB steht bisher zwischen Potsdam und Hamburg zur Verfügung, weitere Kopplungen sind geplant. Noch unvollständig sind die Automatisierungsmöglichkeiten genutzt. Lediglich in der Ladeschicht laufen Konsistenzprüfungen bereits teilweise automatisch ab. Wenigstens soweit Speicherorte der Daten beschrieben werden, wäre von Zeit zu Zeit eine automatische Kontrolle auf Aktualität wünschenswert, da damit zu rechnen ist, dass in den verschiedenen Arbeitsgruppen Daten migrieren, ohne dass die entsprechenden Korrekturen der Metainformationen vorgenommen werden. Schließlich ist eine engere Anbindung der Daten an die Metadaten geplant. Nach Selektion der Metainformationen aus CERA (zum Beispiel mittels AFRI), soll sich der Nutzer schnell einen Überblick über die Daten selbst verschaffen können, um sie dann gegebenenfalls lokal weiter zu bearbeiten. Literatur Bretherton, F., 1994: Reference Model for Metadata: A Strawman. Whitepaper, University Wisconsin. URL: http://www.llnl.gov/liv_comp/metadata/papers/whitepaper-bretherton.html and whitepaperbretherton.ps Federal Geographic Data Committee (FGDC), 1999: Content Standard for Digital Geospatial Metadata (CSDGM), Version 1.0, URL: http://www.fgdc.gov/metadata/contstan.html Kramer, R. und F. Hosenfeld (Hrsg.) 1999: Heterogene, aktive Umweltdatenbanken, Workshop Vilm 1998, Metropolis-Verlag, Marburg 1999 Lautenschlager, M., F. Toussaint, H. Thiemann, M. Reinke, 1998: The CERA-2 Metadata Model, Technical Report No.15, Deutsches Klimarechenzentrum Hamburg 1998, URL: http:// www.pikpotsdam.de/cera/Descriptions/Publications/Papers/9807_DKRZ_TechRep15/ National Aeronautics and Space Administration (NASA), 1999: Global Change Master Directory, URL: http://gcmd.gsfc.nasa.gov/ Potsdam-Institut für Klimafolgenforschung (PIK), 1999: The CERA Central Page, URL: http://www.pikpotsdam.de/cera/ Sun Microsystems, 1998a: The JDBC Database Access API, URL: http://java.sun.com/products/ jdbc/jdbc.html Sun Microsystems, 1998b: JDBC Drivers, URL: http://java.sun.com/products/jdbc/jdbc.drivers.html Toussaint, F., M. Lautenschlager und M. Reinke, 1999: CERA-2 - Ein raumbezogenes Daten- und Metadatenmodell, in: Kramer und Hosenfeld 1999 Wrobel, M., 1999: AFRI/IDA - Ein flexibles Retrieval-Interface für heterogene raumbezogene Daten, in: Kramer und Hosenfeld 1999