Informationsintegration Materialisierte vs. Virtuelle Integration 1.11.2005 Felix Naumann Überblick Überblick Materialisiert Virtuell Data Warehouse Mediator-Wrapper System Vergleich Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2 Integration Materialisiert A priori Integration Zentrale Datenbasis Zentrale Anfragebearbeitung Typisches Beispiel: Data Warehouse Virtuell On demand Integration Dezentrale Daten Dezentrale Anfragebearbeitung Typisches Beispiel: Mediator-basiertes Informationssystem 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3 Data Warehouse vs. Mediatorbasiertes Informationssystem Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Data Warehouse Quelle 1 1.11.2005 Quelle 2 Mediator Quelle 3 Quelle 1 Felix Naumann, VL Informationsintegration, WS 05/06 Quelle 2 Quelle 3 4 Data Warehouse vs. Mediator Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Mediator Data Warehouse ETL 3 ETL 1 Wrapper 1 ETL 2 Quelle 1 1.11.2005 Quelle 2 Wrapper 3 Wrapper 2 Quelle 3 Quelle 1 Felix Naumann, VL Informationsintegration, WS 05/06 Quelle 2 Quelle 3 5 Taxonomie nach [DD99] 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 6 Data Warehouse vs. Mediator Jetzt jeweils kurzer Überblick Datenfluss Anfragebearbeitung Entwurf und Entwicklung (Schema) Details in den folgenden Wochen 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7 Materialisierte Integration Datenfluss Anwendung 1 Anwendung 2 Push Erstmalige „Bevölkerung“ (population) des DW Data Warehouse Periodischer Datenimport ETL 1 ETL 2 ETL 3 Quelle 1 Quelle 2 Quelle 3 Stündlich / Täglich / Wöchentlich Materialisierte Sichten / Sicht-Updates Redundante Datenhaltung Aggregation und Löschung alter Daten 1.11.2005 Data Cleansing Je älter, desto „aggregierter“ Felix Naumann, VL Informationsintegration, WS 05/06 8 Materialisierte Integration Anfragebearbeitung Anwendung 1 Anwendung 2 Data Warehouse Wie „normale“ DBMS Besonderheiten ETL 1 Quelle 1 1.11.2005 ETL 2 Quelle 2 ETL 3 Quelle 3 Star Schema Aggregation Decision Support Siehe auch VL DWH (Ulf Leser) Felix Naumann, VL Informationsintegration, WS 05/06 9 Materialisierte Integration Schema Anwendung 1 Anwendung 2 Data Warehouse Bottom-Up Entwurf Schemaintegration Star-Schema ETL 1 Quelle 1 1.11.2005 ETL 2 Quelle 2 Fact-Table Dimension Tables ETL 3 Quelle 3 Felix Naumann, VL Informationsintegration, WS 05/06 10 Materialisierte Integration Schema Anwendung 1 Anwendung 2 Data Warehouse Bottom-Up Entwurf Schemaintegration Star-Schema ETL 1 Quelle 1 1.11.2005 ETL 2 Quelle 2 Fact-Table Dimension Tables ETL 3 Quelle 3 Felix Naumann, VL Informationsintegration, WS 05/06 11 Virtuelle Integration Datenfluss Anwendung 1 Anwendung 2 Mediator Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 1.11.2005 Quelle 2 Quelle 3 Pull Daten sind in Quellen gespeichert. Nur die zur Anfragebeantwortung notwendigen Daten werden übertragen. Data Cleansing nur online möglich. Felix Naumann, VL Informationsintegration, WS 05/06 12 Virtuelle Integration Anfragebearbeitung Anwendung 1 Anwendung 2 Optimierung schwierig Mediator Viele mögliche Pläne Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 1.11.2005 Quelle 2 Quelle 3 Fähigkeiten der Quellen Geschwindigkeit der Quellen Redundante Quellen Redundante Pläne Dynamisch, um ausfallende Quellen auszugleichen Felix Naumann, VL Informationsintegration, WS 05/06 13 Virtuelle Integration - Schema Anwendung 1 Anwendung 2 Top-Down Entwurf Leicht erweiterbar Mediator Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 1.11.2005 Quelle 2 Quelle 3 Global: Neue Quellen suchen Lokal: Nur ein mapping verändern. Schema Mapping statt Schemaintegration Felix Naumann, VL Informationsintegration, WS 05/06 14 Überblick Überblick Materialisiert Virtuell Data Warehouse Mediator-Wrapper System Vergleich Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15 Dimensionen des Vergleichs Aktualität Antwortzeit Flexibilität / Wartbarkeit Komplexität Autonomie Anfragebearbeitung / Mächtigkeit Read / Write Größe / Speicherbedarf 1.11.2005 Ressourcenbedarf Vollständigkeit Data Cleansing Informationsqualität Felix Naumann, VL Informationsintegration, WS 05/06 16 Aktualität (up-to-date-ness) Materialisierte Integration Je nach UpdateFrequenz In Unternehmen meist täglich (über Nacht) Beispiel SwissProt Updates in SwissProt täglich Aber: Release nur monatlich 1.11.2005 Virtuelle Integration Sehr gut Abhängig von Aktualität der autonomern Quellen Manchmal: Caching Felix Naumann, VL Informationsintegration, WS 05/06 17 Antwortzeit (response time) Materialisierte Integration Sehr gut Lokale Bearbeitung Wie DBMS Optimierung Materialisierte Sichten Indices ... Allerdings: Typische Anfragen sind komplex Virtuelle Integration 1.11.2005 Nicht gut Daten sind entfernt Übertragung durch das Netz Abhängig von Antwortzeit der Quellen Optimierung schwierig Komplexe Operatoren müssen naïv ausgeführt werden. Data Cleansing Operationen müssen nachgeholt werden. Felix Naumann, VL Informationsintegration, WS 05/06 18 Flexibilität / Wartbarkeit (flexibility / maintenance) Materialisierte Integration Schwierig Entfernen / Ändern / Hinzufügen einer Quelle kann gesamte Integration verändern (bei GaV) Lokale Wartung eines großen und wachsenden Datenbestandes Mit Indices etc. Tägliche Integration nötig 1.11.2005 Virtuelle Integration Einfacher Entfernen / Ändern / Hinzufügen einer Quelle wirkt sich nur auf das mapping dieser Quelle aus (bei LaV) Quellen müssen Daten selbst warten. Backups, DBMS Wartug etc. Felix Naumann, VL Informationsintegration, WS 05/06 19 Komplexität (complexity) Materialisierte Integration Wie DBMS Komplexe Anfragen Anfrageplanung im GaV leicht Quellen sind oft untereinander ähnlich. Oft sind es selbst DBMS 1.11.2005 Virtuelle Integration Modellierung der Quellen wichtig Fähigkeiten der Quellen Anfrageplanung in LaV schwierig Oft verschiedenste Quellen Web Services HTML Formulare Flat Files ... Felix Naumann, VL Informationsintegration, WS 05/06 20 Autonomie (autonomy) Materialisierte Integration Quellen wenig autonom Keine Kommunikationsautonomie Geringe Ausführungsautonomie Geringe Designautonomie Müssen bulk-read o.ä. zulassen Update notifications Virtuelle Integration Quellen können autonom sein. Volle Design-Autonomie Fast volle KommunikationsAutonomie Fast volle AusführungsAutonomie 1.11.2005 Gewisse Kommunikation ist nötig, sonst nicht Teilnehmer der Integration Nur: Anfragen müssen irgendwann beantwortet werden. Felix Naumann, VL Informationsintegration, WS 05/06 21 Anfragebearbeitung / Mächtigkeit (query planning / expressivenes) Materialisierte Integration Anfragebearbeitung wie DBMS bzw. anderes globales System Anfragemächtigkeit wie globales System z.B. volle SQL Mächtigkeit Virtuelle Integration Anfragebearbeitung komplex Mangelnde Fähigkeiten der Quellen können global eventuell ausgeglichen werden. Aber auch: Spezialfähigkeiten der Quellen können genutzt werden: 1.11.2005 Verteilung Autonomie Heterogenität Image retrieval Text Index Felix Naumann, VL Informationsintegration, WS 05/06 22 Lesen / Schreiben (Read / Write) Materialisierte Integration Read immer möglich DW: Write oft nicht gewünscht, aber möglich Kann zu Inkonsistenz mit Quellen führen 1.11.2005 Virtuelle Integration Read meist möglich Verfügbarkeit! Write meist nicht möglich Bei Redundanz: Wohin schreiben? Transaktionen schwierig Autonomie Felix Naumann, VL Informationsintegration, WS 05/06 23 Größe / Speicherbedarf (size / memory consumption) Materialisierte Integration Hoch Virtuelle Integration Redundante Datenhaltung DW: Historische Daten Gering Wachstum Stetig wachsend Oder konstant durch zunehmende Aggregation im Laufe der Zeit Metadaten Cache Zwischenergebnisse Footprint: wie DBMS Footprint: wie DBMS 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 24 Ressourcenbedarf (resource consumption) Materialisierte Integration Virtuelle Integration Planbare Netzwerklast Daten werden eventl. unnötig übertragen Abhängig von Anfrage Aggregation Pre-Aggregation Potentiell hohe Netzwerklast Daten werden mehrfach übertragen. Cache kann helfen. Nur jeweils nötige Daten werden übertragen. Je nach Workload. Spannendes Optimierungsproblem! 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25 Vollständigkeit (completeness) Materialisierte Integration Gut Annahme: Materialisation ist vollständig Virtuelle Integration Nur bei Verfügbarkeit aller nötigen Quellen Gegebenenfalls Anfrage unbeantwortbar oder nur unvollständig beantwortbar Fuzzy Anfragesemantik: Definition der Vollständigkeit 1.11.2005 Alle Tupel? Alle Attribute? Open World Assumption Closed World Assumption Felix Naumann, VL Informationsintegration, WS 05/06 26 Datenreinigung (Data Cleansing) Materialisierte Integration Viele Methoden Aufwändig Offline (über Nacht) 1.11.2005 Virtuelle Integration Online cleansing schwierig Aufwand Keine Interaktion mit Experten möglich Felix Naumann, VL Informationsintegration, WS 05/06 27 Informationsqualität (information quality) Materialisierte Integration Hoch Kontrolliert Kann bei Bedarf verbessert werden. 1.11.2005 Virtuelle Integration Abhängig von Quellen Oft zweifelhaft Autonomie Felix Naumann, VL Informationsintegration, WS 05/06 28 Zusammenfassung Vor- und Nachteile Materialisiert Virtuell 1.11.2005 Aktualität - (Cache) + Antwortzeit + - Flexibilität - (GaV) + (LaV) Komplexität - -- Autonomie - + Anfragemächtigkeit + - Read/Write +/+ +/- Größe - + Ressourcenbedarf ? (workload) ? (workload) Vollständigkeit + ? (OWA, CWA) Datenreinigung + - Informationsqualität + - Felix Naumann, VL Informationsintegration, WS 05/06 29 Hybrider Ansatz Teile der Daten werden materialisiert Oft benötigte Daten (Cache) Als bulk verfügbare Daten Dump Files SQL Zugang ... Mediator Teile der Daten bleiben bei den Quellen Oft aktualisierte Daten Daten mit beschränktem Zugang Anwendung 1 Anwendung 2 Wrapper 3 Wrapper 2 mind. eine gebundene Variable Beschränkte Lizenzen Optimierung bevorzugt lokale Daten ETL 1 Quelle 1 Quelle 2 Quelle 3 Prüfung, ob Aktualisierung vorliegt 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 30 Rückblick Überblick Materialisiert Virtuell Data Warehouse Mediator-Wrapper System Vergleich Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31 Literatur [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, 1999. Online: http://www.informatik.huberlin.de/~leser/publications/tr_terminology.ps [DD99] Ruxandra Domenig, Klaus R. Dittrich: An Overview and Classification of Mediated Query Systems. SIGMOD Record 28(3): 63-72 (1999) 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 32