 
                                Informationsintegration Materialisierte vs. Virtuelle Integration 1.11.2005 Felix Naumann Überblick  Überblick  Materialisiert   Virtuell   Data Warehouse Mediator-Wrapper System Vergleich     Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2 Integration  Materialisiert      A priori Integration Zentrale Datenbasis Zentrale Anfragebearbeitung Typisches Beispiel: Data Warehouse Virtuell     On demand Integration Dezentrale Daten Dezentrale Anfragebearbeitung Typisches Beispiel: Mediator-basiertes Informationssystem 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3 Data Warehouse vs. Mediatorbasiertes Informationssystem Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Data Warehouse Quelle 1 1.11.2005 Quelle 2 Mediator Quelle 3 Quelle 1 Felix Naumann, VL Informationsintegration, WS 05/06 Quelle 2 Quelle 3 4 Data Warehouse vs. Mediator Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Mediator Data Warehouse ETL 3 ETL 1 Wrapper 1 ETL 2 Quelle 1 1.11.2005 Quelle 2 Wrapper 3 Wrapper 2 Quelle 3 Quelle 1 Felix Naumann, VL Informationsintegration, WS 05/06 Quelle 2 Quelle 3 5 Taxonomie nach [DD99] 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 6 Data Warehouse vs. Mediator  Jetzt jeweils kurzer Überblick     Datenfluss Anfragebearbeitung Entwurf und Entwicklung (Schema) Details in den folgenden Wochen 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7 Materialisierte Integration Datenfluss Anwendung 1 Anwendung 2   Push Erstmalige „Bevölkerung“ (population) des DW  Data Warehouse  Periodischer Datenimport   ETL 1 ETL 2 ETL 3   Quelle 1 Quelle 2 Quelle 3 Stündlich / Täglich / Wöchentlich Materialisierte Sichten / Sicht-Updates Redundante Datenhaltung Aggregation und Löschung alter Daten  1.11.2005 Data Cleansing Je älter, desto „aggregierter“ Felix Naumann, VL Informationsintegration, WS 05/06 8 Materialisierte Integration Anfragebearbeitung Anwendung 1 Anwendung 2   Data Warehouse Wie „normale“ DBMS Besonderheiten   ETL 1 Quelle 1 1.11.2005 ETL 2 Quelle 2  ETL 3 Quelle 3  Star Schema Aggregation Decision Support Siehe auch VL DWH (Ulf Leser) Felix Naumann, VL Informationsintegration, WS 05/06 9 Materialisierte Integration Schema Anwendung 1 Anwendung 2   Data Warehouse  Bottom-Up Entwurf Schemaintegration Star-Schema   ETL 1 Quelle 1 1.11.2005 ETL 2 Quelle 2 Fact-Table Dimension Tables ETL 3 Quelle 3 Felix Naumann, VL Informationsintegration, WS 05/06 10 Materialisierte Integration Schema Anwendung 1 Anwendung 2    Data Warehouse Bottom-Up Entwurf Schemaintegration Star-Schema   ETL 1 Quelle 1 1.11.2005 ETL 2 Quelle 2 Fact-Table Dimension Tables ETL 3 Quelle 3 Felix Naumann, VL Informationsintegration, WS 05/06 11 Virtuelle Integration Datenfluss Anwendung 1 Anwendung 2   Mediator Wrapper 1 Wrapper 2  Wrapper 3  Quelle 1 1.11.2005 Quelle 2 Quelle 3 Pull Daten sind in Quellen gespeichert. Nur die zur Anfragebeantwortung notwendigen Daten werden übertragen. Data Cleansing nur online möglich. Felix Naumann, VL Informationsintegration, WS 05/06 12 Virtuelle Integration Anfragebearbeitung Anwendung 1 Anwendung 2  Optimierung schwierig   Mediator  Viele mögliche Pläne  Wrapper 1 Wrapper 2  Wrapper 3  Quelle 1 1.11.2005 Quelle 2 Quelle 3 Fähigkeiten der Quellen Geschwindigkeit der Quellen Redundante Quellen Redundante Pläne Dynamisch, um ausfallende Quellen auszugleichen Felix Naumann, VL Informationsintegration, WS 05/06 13 Virtuelle Integration - Schema Anwendung 1 Anwendung 2   Top-Down Entwurf Leicht erweiterbar  Mediator  Wrapper 1 Wrapper 2 Wrapper 3  Quelle 1 1.11.2005 Quelle 2 Quelle 3 Global: Neue Quellen suchen Lokal: Nur ein mapping verändern. Schema Mapping statt Schemaintegration Felix Naumann, VL Informationsintegration, WS 05/06 14 Überblick  Überblick  Materialisiert   Virtuell   Data Warehouse Mediator-Wrapper System Vergleich     Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15 Dimensionen des Vergleichs         Aktualität Antwortzeit Flexibilität / Wartbarkeit Komplexität Autonomie Anfragebearbeitung / Mächtigkeit Read / Write Größe / Speicherbedarf 1.11.2005     Ressourcenbedarf Vollständigkeit Data Cleansing Informationsqualität Felix Naumann, VL Informationsintegration, WS 05/06 16 Aktualität (up-to-date-ness)  Materialisierte Integration      Je nach UpdateFrequenz In Unternehmen meist täglich (über Nacht) Beispiel SwissProt  Updates in SwissProt täglich  Aber: Release nur monatlich 1.11.2005 Virtuelle Integration   Sehr gut Abhängig von Aktualität der autonomern Quellen Manchmal: Caching Felix Naumann, VL Informationsintegration, WS 05/06 17 Antwortzeit (response time)  Materialisierte Integration    Sehr gut Lokale Bearbeitung Wie DBMS      Optimierung Materialisierte Sichten Indices ... Allerdings: Typische Anfragen sind komplex  Virtuelle Integration        1.11.2005 Nicht gut Daten sind entfernt Übertragung durch das Netz Abhängig von Antwortzeit der Quellen Optimierung schwierig Komplexe Operatoren müssen naïv ausgeführt werden. Data Cleansing Operationen müssen nachgeholt werden. Felix Naumann, VL Informationsintegration, WS 05/06 18 Flexibilität / Wartbarkeit (flexibility / maintenance)  Materialisierte Integration       Schwierig Entfernen / Ändern / Hinzufügen einer Quelle kann gesamte Integration verändern (bei GaV) Lokale Wartung eines großen und wachsenden Datenbestandes  Mit Indices etc. Tägliche Integration nötig 1.11.2005 Virtuelle Integration   Einfacher Entfernen / Ändern / Hinzufügen einer Quelle wirkt sich nur auf das mapping dieser Quelle aus (bei LaV) Quellen müssen Daten selbst warten.  Backups, DBMS Wartug etc. Felix Naumann, VL Informationsintegration, WS 05/06 19 Komplexität (complexity)  Materialisierte Integration       Wie DBMS Komplexe Anfragen Anfrageplanung im GaV leicht Quellen sind oft untereinander ähnlich.  Oft sind es selbst DBMS 1.11.2005 Virtuelle Integration   Modellierung der Quellen wichtig  Fähigkeiten der Quellen Anfrageplanung in LaV schwierig Oft verschiedenste Quellen  Web Services  HTML Formulare  Flat Files  ... Felix Naumann, VL Informationsintegration, WS 05/06 20 Autonomie (autonomy)  Materialisierte Integration  Quellen wenig autonom      Keine Kommunikationsautonomie Geringe Ausführungsautonomie Geringe Designautonomie Müssen bulk-read o.ä. zulassen Update notifications  Virtuelle Integration    Quellen können autonom sein. Volle Design-Autonomie Fast volle KommunikationsAutonomie   Fast volle AusführungsAutonomie  1.11.2005 Gewisse Kommunikation ist nötig, sonst nicht Teilnehmer der Integration Nur: Anfragen müssen irgendwann beantwortet werden. Felix Naumann, VL Informationsintegration, WS 05/06 21 Anfragebearbeitung / Mächtigkeit (query planning / expressivenes)  Materialisierte Integration   Anfragebearbeitung wie DBMS bzw. anderes globales System Anfragemächtigkeit wie globales System  z.B. volle SQL Mächtigkeit  Virtuelle Integration  Anfragebearbeitung komplex      Mangelnde Fähigkeiten der Quellen können global eventuell ausgeglichen werden. Aber auch: Spezialfähigkeiten der Quellen können genutzt werden:   1.11.2005 Verteilung Autonomie Heterogenität Image retrieval Text Index Felix Naumann, VL Informationsintegration, WS 05/06 22 Lesen / Schreiben (Read / Write)  Materialisierte Integration     Read immer möglich DW: Write oft nicht gewünscht, aber möglich  Kann zu Inkonsistenz mit Quellen führen 1.11.2005 Virtuelle Integration   Read meist möglich Verfügbarkeit! Write meist nicht möglich  Bei Redundanz: Wohin schreiben?  Transaktionen schwierig  Autonomie Felix Naumann, VL Informationsintegration, WS 05/06 23 Größe / Speicherbedarf (size / memory consumption)  Materialisierte Integration  Hoch    Virtuelle Integration  Redundante Datenhaltung DW: Historische Daten  Gering   Wachstum     Stetig wachsend Oder konstant durch zunehmende Aggregation im Laufe der Zeit  Metadaten Cache Zwischenergebnisse Footprint: wie DBMS Footprint: wie DBMS 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 24 Ressourcenbedarf (resource consumption)  Materialisierte Integration    Virtuelle Integration  Planbare Netzwerklast Daten werden eventl. unnötig übertragen  Abhängig von Anfrage  Aggregation  Pre-Aggregation   Potentiell hohe Netzwerklast Daten werden mehrfach übertragen.  Cache kann helfen. Nur jeweils nötige Daten werden übertragen. Je nach Workload. Spannendes Optimierungsproblem! 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25 Vollständigkeit (completeness)  Materialisierte Integration   Gut Annahme: Materialisation ist vollständig  Virtuelle Integration   Nur bei Verfügbarkeit aller nötigen Quellen Gegebenenfalls Anfrage unbeantwortbar oder nur unvollständig beantwortbar  Fuzzy Anfragesemantik:    Definition der Vollständigkeit   1.11.2005 Alle Tupel? Alle Attribute? Open World Assumption Closed World Assumption Felix Naumann, VL Informationsintegration, WS 05/06 26 Datenreinigung (Data Cleansing)  Materialisierte Integration     Viele Methoden  Aufwändig Offline (über Nacht) 1.11.2005 Virtuelle Integration Online cleansing schwierig  Aufwand  Keine Interaktion mit Experten möglich Felix Naumann, VL Informationsintegration, WS 05/06 27 Informationsqualität (information quality)  Materialisierte Integration      Hoch Kontrolliert Kann bei Bedarf verbessert werden. 1.11.2005 Virtuelle Integration  Abhängig von Quellen Oft zweifelhaft  Autonomie Felix Naumann, VL Informationsintegration, WS 05/06 28 Zusammenfassung Vor- und Nachteile Materialisiert Virtuell 1.11.2005 Aktualität - (Cache) + Antwortzeit + - Flexibilität - (GaV) + (LaV) Komplexität - -- Autonomie - + Anfragemächtigkeit + - Read/Write +/+ +/- Größe - + Ressourcenbedarf ? (workload) ? (workload) Vollständigkeit + ? (OWA, CWA) Datenreinigung + - Informationsqualität + - Felix Naumann, VL Informationsintegration, WS 05/06 29 Hybrider Ansatz  Teile der Daten werden materialisiert   Oft benötigte Daten (Cache) Als bulk verfügbare Daten     Dump Files SQL Zugang ... Mediator Teile der Daten bleiben bei den Quellen   Oft aktualisierte Daten Daten mit beschränktem Zugang    Anwendung 1 Anwendung 2 Wrapper 3 Wrapper 2 mind. eine gebundene Variable Beschränkte Lizenzen Optimierung bevorzugt lokale Daten  ETL 1 Quelle 1 Quelle 2 Quelle 3 Prüfung, ob Aktualisierung vorliegt 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 30 Rückblick  Überblick  Materialisiert   Virtuell   Data Warehouse Mediator-Wrapper System Vergleich     Flexibilität Antwortzeiten Aktualität etc. 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31 Literatur  [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, 1999. Online: http://www.informatik.huberlin.de/~leser/publications/tr_terminology.ps  [DD99] Ruxandra Domenig, Klaus R. Dittrich: An Overview and Classification of Mediated Query Systems. SIGMOD Record 28(3): 63-72 (1999) 1.11.2005 Felix Naumann, VL Informationsintegration, WS 05/06 32