Materializierte versus virtuelle Integration - Hu

Werbung
Informationsintegration
Materialisierte vs.
Virtuelle Integration
1.11.2005
Felix Naumann
Überblick

Überblick

Materialisiert


Virtuell


Data Warehouse
Mediator-Wrapper System
Vergleich




Flexibilität
Antwortzeiten
Aktualität
etc.
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
2
Integration

Materialisiert





A priori Integration
Zentrale Datenbasis
Zentrale Anfragebearbeitung
Typisches Beispiel: Data Warehouse
Virtuell




On demand Integration
Dezentrale Daten
Dezentrale Anfragebearbeitung
Typisches Beispiel: Mediator-basiertes Informationssystem
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
3
Data Warehouse vs. Mediatorbasiertes Informationssystem
Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2
Data
Warehouse
Quelle 1
1.11.2005
Quelle 2
Mediator
Quelle 3
Quelle 1
Felix Naumann, VL Informationsintegration, WS 05/06
Quelle 2
Quelle 3
4
Data Warehouse vs. Mediator
Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2
Mediator
Data
Warehouse
ETL 3
ETL 1
Wrapper 1
ETL 2
Quelle 1
1.11.2005
Quelle 2
Wrapper 3
Wrapper 2
Quelle 3
Quelle 1
Felix Naumann, VL Informationsintegration, WS 05/06
Quelle 2
Quelle 3
5
Taxonomie nach [DD99]
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
6
Data Warehouse vs. Mediator

Jetzt jeweils kurzer Überblick




Datenfluss
Anfragebearbeitung
Entwurf und Entwicklung (Schema)
Details in den folgenden Wochen
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
7
Materialisierte Integration Datenfluss
Anwendung 1 Anwendung 2


Push
Erstmalige „Bevölkerung“
(population) des DW

Data
Warehouse

Periodischer Datenimport


ETL 1
ETL 2
ETL 3


Quelle 1
Quelle 2
Quelle 3
Stündlich / Täglich /
Wöchentlich
Materialisierte Sichten /
Sicht-Updates
Redundante Datenhaltung
Aggregation und Löschung
alter Daten

1.11.2005
Data Cleansing
Je älter, desto „aggregierter“
Felix Naumann, VL Informationsintegration, WS 05/06
8
Materialisierte Integration Anfragebearbeitung
Anwendung 1 Anwendung 2 

Data
Warehouse
Wie „normale“
DBMS
Besonderheiten


ETL 1
Quelle 1
1.11.2005
ETL 2
Quelle 2

ETL 3
Quelle 3

Star Schema
Aggregation
Decision Support
Siehe auch VL DWH
(Ulf Leser)
Felix Naumann, VL Informationsintegration, WS 05/06
9
Materialisierte Integration Schema
Anwendung 1 Anwendung 2 

Data
Warehouse

Bottom-Up Entwurf
Schemaintegration
Star-Schema


ETL 1
Quelle 1
1.11.2005
ETL 2
Quelle 2
Fact-Table
Dimension Tables
ETL 3
Quelle 3
Felix Naumann, VL Informationsintegration, WS 05/06
10
Materialisierte Integration Schema
Anwendung 1 Anwendung 2



Data
Warehouse
Bottom-Up Entwurf
Schemaintegration
Star-Schema


ETL 1
Quelle 1
1.11.2005
ETL 2
Quelle 2
Fact-Table
Dimension Tables
ETL 3
Quelle 3
Felix Naumann, VL Informationsintegration, WS 05/06
11
Virtuelle Integration Datenfluss
Anwendung 1 Anwendung 2 

Mediator
Wrapper 1
Wrapper 2

Wrapper 3

Quelle 1
1.11.2005
Quelle 2
Quelle 3
Pull
Daten sind in Quellen
gespeichert.
Nur die zur
Anfragebeantwortung
notwendigen Daten
werden übertragen.
Data Cleansing nur
online möglich.
Felix Naumann, VL Informationsintegration, WS 05/06
12
Virtuelle Integration Anfragebearbeitung
Anwendung 1 Anwendung 2

Optimierung schwierig


Mediator

Viele mögliche Pläne

Wrapper 1
Wrapper 2

Wrapper 3

Quelle 1
1.11.2005
Quelle 2
Quelle 3
Fähigkeiten der Quellen
Geschwindigkeit der
Quellen
Redundante Quellen
Redundante Pläne
Dynamisch, um
ausfallende Quellen
auszugleichen
Felix Naumann, VL Informationsintegration, WS 05/06
13
Virtuelle Integration - Schema
Anwendung 1 Anwendung 2 

Top-Down Entwurf
Leicht erweiterbar

Mediator

Wrapper 1
Wrapper 2
Wrapper 3

Quelle 1
1.11.2005
Quelle 2
Quelle 3
Global: Neue Quellen
suchen
Lokal: Nur ein
mapping verändern.
Schema Mapping
statt Schemaintegration
Felix Naumann, VL Informationsintegration, WS 05/06
14
Überblick

Überblick

Materialisiert


Virtuell


Data Warehouse
Mediator-Wrapper System
Vergleich




Flexibilität
Antwortzeiten
Aktualität
etc.
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
15
Dimensionen des Vergleichs








Aktualität
Antwortzeit
Flexibilität / Wartbarkeit
Komplexität
Autonomie
Anfragebearbeitung /
Mächtigkeit
Read / Write
Größe / Speicherbedarf
1.11.2005




Ressourcenbedarf
Vollständigkeit
Data Cleansing
Informationsqualität
Felix Naumann, VL Informationsintegration, WS 05/06
16
Aktualität (up-to-date-ness)

Materialisierte
Integration





Je nach UpdateFrequenz
In Unternehmen meist
täglich (über Nacht)
Beispiel SwissProt
 Updates in SwissProt
täglich
 Aber: Release nur
monatlich
1.11.2005
Virtuelle Integration


Sehr gut
Abhängig von Aktualität
der autonomern Quellen
Manchmal: Caching
Felix Naumann, VL Informationsintegration, WS 05/06
17
Antwortzeit (response time)

Materialisierte Integration



Sehr gut
Lokale Bearbeitung
Wie DBMS





Optimierung
Materialisierte Sichten
Indices
...
Allerdings: Typische
Anfragen sind komplex

Virtuelle Integration







1.11.2005
Nicht gut
Daten sind entfernt
Übertragung durch das
Netz
Abhängig von Antwortzeit
der Quellen
Optimierung schwierig
Komplexe Operatoren
müssen naïv ausgeführt
werden.
Data Cleansing
Operationen müssen
nachgeholt werden.
Felix Naumann, VL Informationsintegration, WS 05/06
18
Flexibilität / Wartbarkeit
(flexibility / maintenance)

Materialisierte
Integration






Schwierig
Entfernen / Ändern /
Hinzufügen einer Quelle
kann gesamte Integration
verändern (bei GaV)
Lokale Wartung eines
großen und wachsenden
Datenbestandes
 Mit Indices etc.
Tägliche Integration nötig
1.11.2005
Virtuelle Integration


Einfacher
Entfernen / Ändern /
Hinzufügen einer Quelle
wirkt sich nur auf das
mapping dieser Quelle
aus (bei LaV)
Quellen müssen Daten
selbst warten.
 Backups, DBMS Wartug
etc.
Felix Naumann, VL Informationsintegration, WS 05/06
19
Komplexität (complexity)

Materialisierte
Integration






Wie DBMS
Komplexe Anfragen
Anfrageplanung im GaV
leicht
Quellen sind oft
untereinander ähnlich.
 Oft sind es selbst
DBMS
1.11.2005
Virtuelle Integration


Modellierung der Quellen
wichtig
 Fähigkeiten der Quellen
Anfrageplanung in LaV
schwierig
Oft verschiedenste
Quellen
 Web Services
 HTML Formulare
 Flat Files
 ...
Felix Naumann, VL Informationsintegration, WS 05/06
20
Autonomie (autonomy)

Materialisierte Integration

Quellen wenig autonom





Keine Kommunikationsautonomie
Geringe Ausführungsautonomie
Geringe Designautonomie
Müssen bulk-read o.ä.
zulassen
Update notifications

Virtuelle Integration



Quellen können autonom
sein.
Volle Design-Autonomie
Fast volle KommunikationsAutonomie


Fast volle AusführungsAutonomie

1.11.2005
Gewisse Kommunikation
ist nötig, sonst nicht
Teilnehmer der Integration
Nur: Anfragen müssen
irgendwann beantwortet
werden.
Felix Naumann, VL Informationsintegration, WS 05/06
21
Anfragebearbeitung / Mächtigkeit
(query planning / expressivenes)

Materialisierte Integration


Anfragebearbeitung wie DBMS
bzw. anderes globales System
Anfragemächtigkeit wie
globales System

z.B. volle SQL Mächtigkeit

Virtuelle Integration

Anfragebearbeitung komplex





Mangelnde Fähigkeiten der
Quellen können global
eventuell ausgeglichen
werden.
Aber auch: Spezialfähigkeiten
der Quellen können genutzt
werden:


1.11.2005
Verteilung
Autonomie
Heterogenität
Image retrieval
Text Index
Felix Naumann, VL Informationsintegration, WS 05/06
22
Lesen / Schreiben
(Read / Write)

Materialisierte
Integration




Read immer möglich
DW: Write oft nicht
gewünscht, aber möglich
 Kann zu Inkonsistenz
mit Quellen führen
1.11.2005
Virtuelle Integration


Read meist möglich
Verfügbarkeit!
Write meist nicht möglich
 Bei Redundanz: Wohin
schreiben?
 Transaktionen schwierig
 Autonomie
Felix Naumann, VL Informationsintegration, WS 05/06
23
Größe / Speicherbedarf
(size / memory consumption)

Materialisierte Integration

Hoch



Virtuelle Integration

Redundante Datenhaltung
DW: Historische Daten

Gering


Wachstum




Stetig wachsend
Oder konstant durch
zunehmende Aggregation
im Laufe der Zeit

Metadaten
Cache
Zwischenergebnisse
Footprint: wie DBMS
Footprint: wie DBMS
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
24
Ressourcenbedarf
(resource consumption)

Materialisierte
Integration



Virtuelle Integration

Planbare Netzwerklast
Daten werden eventl.
unnötig übertragen
 Abhängig von Anfrage
 Aggregation
 Pre-Aggregation


Potentiell hohe
Netzwerklast
Daten werden mehrfach
übertragen.
 Cache kann helfen.
Nur jeweils nötige Daten
werden übertragen.
Je nach Workload.
Spannendes Optimierungsproblem!
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
25
Vollständigkeit (completeness)

Materialisierte Integration


Gut
Annahme: Materialisation
ist vollständig

Virtuelle Integration


Nur bei Verfügbarkeit aller
nötigen Quellen
Gegebenenfalls Anfrage
unbeantwortbar oder nur
unvollständig beantwortbar

Fuzzy Anfragesemantik:



Definition der
Vollständigkeit


1.11.2005
Alle Tupel?
Alle Attribute?
Open World Assumption
Closed World Assumption
Felix Naumann, VL Informationsintegration, WS 05/06
26
Datenreinigung (Data
Cleansing)

Materialisierte
Integration




Viele Methoden
 Aufwändig
Offline (über Nacht)
1.11.2005
Virtuelle Integration
Online cleansing
schwierig
 Aufwand
 Keine Interaktion mit
Experten möglich
Felix Naumann, VL Informationsintegration, WS 05/06
27
Informationsqualität
(information quality)

Materialisierte
Integration





Hoch
Kontrolliert
Kann bei Bedarf
verbessert werden.
1.11.2005
Virtuelle Integration

Abhängig von Quellen
Oft zweifelhaft
 Autonomie
Felix Naumann, VL Informationsintegration, WS 05/06
28
Zusammenfassung Vor- und
Nachteile
Materialisiert Virtuell
1.11.2005
Aktualität
- (Cache)
+
Antwortzeit
+
-
Flexibilität
- (GaV)
+ (LaV)
Komplexität
-
--
Autonomie
-
+
Anfragemächtigkeit
+
-
Read/Write
+/+
+/-
Größe
-
+
Ressourcenbedarf
? (workload)
? (workload)
Vollständigkeit
+
? (OWA,
CWA)
Datenreinigung
+
-
Informationsqualität +
-
Felix Naumann, VL Informationsintegration, WS 05/06
29
Hybrider Ansatz

Teile der Daten werden
materialisiert


Oft benötigte Daten (Cache)
Als bulk verfügbare Daten




Dump Files
SQL Zugang
...
Mediator
Teile der Daten bleiben bei den
Quellen


Oft aktualisierte Daten
Daten mit beschränktem Zugang



Anwendung 1 Anwendung 2
Wrapper 3
Wrapper 2
mind. eine gebundene Variable
Beschränkte Lizenzen
Optimierung bevorzugt lokale Daten

ETL 1
Quelle 1
Quelle 2
Quelle 3
Prüfung, ob Aktualisierung vorliegt
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
30
Rückblick

Überblick

Materialisiert


Virtuell


Data Warehouse
Mediator-Wrapper System
Vergleich




Flexibilität
Antwortzeiten
Aktualität
etc.
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
31
Literatur

[BKLW99] Busse, Kutsche, Leser, Weber, Federated
Information Systems: Concepts, Terminology and
Architectures. Forschungsbericht 99-9 des FB Informatik
der TU Berlin, 1999.
Online: http://www.informatik.huberlin.de/~leser/publications/tr_terminology.ps

[DD99] Ruxandra Domenig, Klaus R. Dittrich: An
Overview and Classification of Mediated Query
Systems. SIGMOD Record 28(3): 63-72 (1999)
1.11.2005
Felix Naumann, VL Informationsintegration, WS 05/06
32
Herunterladen