Architekturen zur Informationsintegration

Werbung
Informationsintegration
Architekturen
Ulf Leser
Wissensmanagement in der
Bioinformatik
Übersicht
• Technische Heterogenität
•
•
Technische Realisierung des Datenzugriffs
Technische Unterschiede in der Darstellung
• Syntaktische Unterschiede
•
•
Unterschiede in der Darstellung
Gleiche Dinge syntaktisch verschieden repräsentieren
• Datenmodellheterogenität
• Strukturelle Heterogenität
•
•
Strukturelle Unterschiede in der Darstellung
Gleiche Dinge verschieden modellieren
• Semantische Heterogenität
•
•
Unterschiede in der Bedeutung von Namen (Schema und Daten)
Gleiches sagen, verschiedenes meinen (oder andersrum)
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
2
Ausprägung 2
Anfrage
Heterogenität
zwischen
globaler
Schicht und
Datenquellen
Integriertes Informationssystem
Quelle
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
3
Technische Heterogenität
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
4
Mächtige globale Anfragesprache
SQL
SELECT
FROM
WHERE
AND
*
Books
Author = „Defoe“
PubYear = 1979
HTML
Form
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
5
Kompensation möglich
SELECT
FROM
WHERE
AND
*
Books
Author = „Defoe“
PubYear = 1979
Daniel Defoe, Robinson Crusoe, 1979
PubYear = 1979
Daniel Defoe, Robinson Crusoe, 1986
Daniel Defoe, Robinson Crusoe, 1979
Daniel Defoe, Moll Flanders,
1933
Defoe
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
6
Syntaktische Heterogenität
• Unterschiedliche Darstellung desselben
Sachverhalts
•
•
•
•
•
•
•
Dezimalpunkt oder –komma
Euro oder €
Comma-separated oder tab-separated
HTML oder ASCII oder Unicode
Notenskala 1-6 oder „sehr gut“, „gut“, …
Binärcodierung oder Zeichen
Datumsformate (12. September 2006, 12.9.2006, 9/12/2006, …)
• Überwindung in der Regel nicht problematisch
• Umrechnung, Übersetzungstabellen, …
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
7
Strukturelle Heterogenität
• Allgemein
• Gleiche Dinge in unterschiedlichen Schemata ausdrücken
• Andere Aufteilung von Attributen auf Tabellen
• Fehlende / neue Attribute (wenn Intension nicht betroffen ist)
• Setzt intensionale Überlappung voraus („gleiche Dinge“)
• Meistens mit semantischen Heterogenität verbunden
• Ausnahme: 1:1 Beziehungen
• Spezialfall: Schematische Heterogenität
• Verwendung anderer Elemente eines Datenmodells
• Kann meist nicht durch Anfragesprachen überwunden werden
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
8
Spezialfall: Schematische Heterogenität
maenner( Id, vorname, nachname)
frauen( Id, vorname, nachname)
Relation vs. Wert
Relation vs. Attribut
person( Id, vorname, nachname,
maennlich?, weiblich?)
person( Id, vorname, nachname,
geschlecht)
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Attribut vs. Wert
9
Integrierte Sichten
• Verlangt viele Verrenkungen
• Sicht muss angepasst werden, wenn neue Filmtypen
vorliegen
•
•
Datenänderungen bedingen Schemaänderungen
Das will man unbedingt vermeiden
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
10
Semantik von was?
Name
Extension
Realweltliche Objekte
Intension
repräsentiert
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Konzept
11
Probleme
• Mögliche Beziehungen zwischen den Mengen
realweltlicher Objekte, die Konzepte repräsentieren
• A=B (Äquivalenz): „semantische“ (echte) Synonyme
• Kreditinstitut, Bank (?)
• Gibt es echte Synonyme?
• A⊆B (Inklusion): B ist Hyperonym (Oberbegriff) zu A; A ist Hyponym
zu B
• Tochter ⊆ Kind
• A ∩ B ≠ ∅ ∧ A≠B (Überlappung): Schwierigster Fall
• Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler
• A ∩ B = ∅ (Disjunktion): nicht verwandte Begriffe (häufigster Fall)
• Dose-Lohnsteuerjahresausgleich
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
12
Semantik: Woher nehmen?
• Schemaelemente sind erst mal nur Namen
• Was bestimmt die Semantik eines Namens?
• Für Attributnamen
•
•
•
•
•
•
•
•
•
•
Datentyp
Constraints (Schlüssel, FK, unique, CHECK, …)
Zugehörigkeit zu einer Relation
Andere Attribute dieser Relation
Beziehung der Relation zu anderen Relationen
Dokumentation
Vorhandene Werte
Wissen über den Anwendungsbereich
…
Der Kontext
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
13
Kontext
• Semantik eines Namens hängt vom Kontext ab
• Beispiel
•
•
•
•
Unternehmen A: angestellte( …)
Unternehmen B: mitarbeiter( …)
Mitarbeiter und Angestellte kann man als Synonyme betrachten
Aber: A.angestellte ∩ B.mitarbeiter = ∅
• Wenn Personen nicht in zwei Unternehmen beschäftigt sind
• Erst bei einem Merger von A und B werden A.angestellte und
B.mitarbeiter zu Synonymen
• Sollten dann zu einer Tabelle integriert werden
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
14
Entstehung von Inter-Source-Konflikten
• Bei der Integration von Informationssystemen
•
•
Lokal konsistent aber global inkonsistent
Voraussetzung sind Duplikate
• Extensionale Redundanz
•
•
Andere Datentypen („1“ versus „eins“)
Andere lokale Schreibweisen oder Konventionen
• Skalen (inch – cm) , Währungen, rechtliche Bedingungen (MWST), …
•
Übertragungsfehler
• Fehlerhafte Parser beim ETL
•
Fehlendes Verständnis für die Bedeutung der Dinge
• Mangelnde Dokumentation, falsches Re-engineering, …
•
Verwendung unterschiedlicher Standards
• Produktnummern, Produktklassen, Berufsbezeichnungen, …
•
Verschiedene Messungen
• Temperatur an einem Tag?
•
…
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
15
Voraussetzung: Identität
• Konzept = Realweltobjekt
•
Name = Identifikation, Schlüssel
• Duplikate: Semantische Konflikte auf Datenebene
•
Synonyme: Verschiedene IDs für gleiches Objekt
• Personalausweisnummer und Führerscheinnummer
• ISBN und Kombination Autor/Titel
•
Homonym: Gleiche IDs für verschiedene Objekte
• Dann ging was schief (gefälschte Pässe, …)
• Oder über Unternehmensgrenzen hinweg (Kunden.ID, …)
• Schwieriges Problem: Lokale IDs
•
•
•
•
Schlüssel gelten in einer Tabelle
Häufig verwendet man nur surrogate Keys (sequence)
Die bedeuten nichts außerhalb der eigenen Datenbank
Integration erfordert Duplikaterkennung
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
16
Transparenz
• Verteilung, Autonomie, Heterogenität kann in
unterschiedlichem Maße überwunden werden
• Ortstransparenz
• Benutzer müssen den Ort der integrierten Systeme nicht kennen
• Keine URLs, Datenbankpräfixe, …
• Quellentransparenz, Verteilungstransparenz
• Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt werden
kann (und muss daher nicht auswählen)
• Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt wurde
(Datenherkunft)
• Setzt ein globales Schema voraus
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
17
Will man nicht immer!
• Intuitiv strebt man maximale Transparenz an
• Tatsächlich ist das oft kontraproduktiv
• Benutzer kennen und lieben „ihre“ Datenquellen
• Datenherkunft ist wichtigstes Kriterium für Einschätzung der
Qualität der Informationen
• Zugriff durch globales Schemas nur bei Kenntnis dieses
• Benutzer muss neues Schema lernen
• Globale Schemata können sehr kompliziert werden
• Da sie viele Quellen integrieren
• Für „kleine“ Zugriffe unnötig schwierig
• Transparenz bedingt Informationsverlust
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
18
Inhalt diese Vorlesung
• Klassifikation
• Verteilter, autonomer, heterogener Systeme
• Führt zu möglichen Architekturen
• Weitere Klassifikationskriterien
• Schichtenaufbau integrierter Systeme
• 3-5 Schichten
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
19
Klassifikation
Verteilte,
homogene
DBS
[ÖV91]
Verteilung
Verteilte,
heterogene
DBS
Logisch
integrierte und
homogene DBS
Verteilte,
föderierte
DBS
Verteilte,
heterogene
föderierte DBS
Autonomie
Heterogenität
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
20
Verteilung
1. Zentrale Datenbank
Autonomie
Heterogenität
• „Normalfall“ – homogene, zentrale Datenbank
• Daten/Berechnung können trotzdem begrenzt
verteilt sein
• Filesystem: Partitionierung, RAID, SAN
• Berechnung: Cluster
• Parallele Datenbanken
• Datenbank entsteht aus homogenem Entwurf
• Wenn Redundanz / Heterogenität, dann mit Absicht und kontrolliert
• Problem: Weiterentwicklung (Evolution)
• Zentrale Kontrolle und Administration
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
21
Verteilung
2. Verteilte Datenbanken
Autonomie
• Daten liegen physisch verteilt
•
•
•
Heterogenität
Absichtsvolle, kontrollierte, a-priori Verteilung
Existenz eines konzeptionell homogenen, verteilt realisierten Schemas
Ziele
• Höhere Performanz durch Parallelisierung
• Höhere Sicherheit vor Katastrophen
• Höhere Ausfallsicherheit durch redundant ausgelegte Systeme (Replikation)
• Knoten haben keine Autonomie
• Heterogenität wird unterdrückt
• Ortstransparenz, aber keine Verteilungstransparenz
•
•
Aliase und Proxy kapseln entfernte Orte
Verteilungstransparenz durch Sichten möglich, aber nicht durch System
erzeugt
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
22
Einschub: Verteilte Datenbanken mit Oracle
• Oracle-DB können auf andere Oracle-DB zugreifen
• Database Links
•
CREATE [PUBLIC] DATABASE LINK <link_name>
CONNECT TO <user_name> <IDENTIFIED BY <password>
USING '<service_name>';
• service_name muss über Konfigurationsfiles aufgelöst werden
•
SELECT col1, col2, … FROM tab1@link_name;
• Zugriff wie auf lokale Tabelle (Joins, Selektion, Projektion, …)
• Transparenz durch Sicht möglich
• CREATE VIEW myview AS SELECT * FROM tab1@link_name;
• Schwieriger
•
•
Verteilte Optimierung (später)
2-phase-commit
• Anwendung (z.B.): automatische Replikation
•
Verschiedene Refresh-Optionen
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
23
Einschub: Partitionierung
• Aufteilung der Daten einer Tabelle in
Untereinheiten
• Für den Benutzer transparente Partitionierung
• Nach Definition der Partitionen
• Muss vom System unterstützt werden
• Für den Benutzer nicht transparente Partitionierung
• Explizites Anlegen mehrerer Tabellen
• Anfragen müssen entsprechend formuliert werden
• Geht immer
• Daten sind im Ergebnis physisch verteilt
• Verschiedene Platten, verschiedene Controller
• Voraussetzung zur verteilten Bearbeitung
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
24
Vertikale Partitionierung
id
id
price
amount
code
form
1
50
4
011010 CASH
2
60
2
110101 VISA
3
20
1
001101 VISA
price
amount
id
code
...
form
1
50
4
1
011010 CASH
2
60
2
2
110101 VISA
3
20
1
3
001101 VISA
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
...
25
Bewertung
• „Zerstört“ semantische Einheiten – die Tupel
• Zusammenfassen erfordert (teure) Joins
• Geeignete Technik zur „Auslagerung“ ...
• von selten benutzten Attributen
• von Attributen, die häufiger als andere verändert werden (und deshalb
zu Reorganisation / Row Splits führen)
• von BLOBs, LONG, etc.
• Transparenz für Benutzer ist möglich
• Definition eines Views
• Performanceverschlechterung, wenn Optimierer mit dem View nicht
richtig umgehen kann
• Benötigt immer zusätzliche Joins
• Forschung: Column-wise databases
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
26
Horizontale Partitionierung
id
price
amount
code
form
1
50
4
011010 CASH
2
60
2
110101 VISA
3
20
1
001101 VISA
4
30
4
110101 CASH
...
1
50
4
011010 CASH
1
50
4
011010 CASH
2
60
2
110101 VISA
4
30
4
110101 CASH
3
20
1
001101 VISA
2
60
2
110101 VISA
4
30
4
110101 CASH
3
20
1
001101 VISA
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
27
Horizontale Partitionierung
• Wichtige Erweiterung der meisten
kommerziellen RDBMS der letzten Jahre
• Hauptvorteile
• Datenmanagement – Partitionen als eigenständige
Datenbankobjekte
• Parallele Verarbeitung
• Scans können Partitionen auslassen (Partition pruning)
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
28
Prinzip
CREATE TABLE sales_range
(salesman_id NUMBER(5),
salesman_name VARCHAR2(30),
sales_amount NUMBER(10),
sales_date
DATE)
PARTITION BY RANGE(sales_date)
( PARTITION t21 VALUES LESS THAN(TO_DATE('02/01/2000','DD/MM/YYYY')),
PARTITION t22 VALUES LESS THAN(TO_DATE('03/01/2000','DD/MM/YYYY')),
PARTITION t23 VALUES LESS THAN(TO_DATE('04/01/2000','DD/MM/YYYY')),
PARTITION t24 VALUES LESS THAN(TO_DATE('05/01/2000','DD/MM/YYYY'))
);
• Partitionen sind eigene Datenbankobjekte
• Eigene DDL Kommandos
• Müssen explizit angelegt werden
• Können einzeln positioniert und gemanaged werden
• Nach Anlage vollkommen transparente Benutzung
• Partitionierungskriterium kann auch jederzeit geändert werden
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
29
Verteilte versus parallele Datenbanken
ANSI/SPARC 3-Schichten Architektur für
zentralisierte DBMS
Externes
Schema 1
...
Externes
Schema N
Konzeptionelles Schema
Internes, physisches
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
30
Vergleich
Parallele
Datenbank
Externes
Schema 1
...
Verteilte
Datenbank
Externes
Schema N
Externes
Schema 1
...
Externes
Schema N
Konzeptionelles Schema
Konzep. Schema
Konzep. Schema
Internes, physisches Schema
Internes Schema
Internes Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
31
Einschub: Parallele Datenbanken
• Auswirkung nur auf der physischen Schicht
•
Es existiert nur ein logisches Schema
• Interquery: Queries werden (jeweils als ganzes) auf
verschiedene Knoten verteilt
• Intraquery: Einzelne Queries werden aufgebrochen und die
Fragmente verteilt (z.B. Partitionen)
• Shared Nothing (DB2)
•
•
•
Verschiedene Knoten haben eigene Platten
Zentrale Instanz verteilt Anfragen
Verteilungsmöglichkeiten mit Konfiguration festgelegt
• Shared Disc (Oracle)
•
•
•
Alle Knoten greifen auf gleiche Platten zu
Schwierige Synchronisation
Dynamische Verteilung je nach Last möglich
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
32
Einschub: Gateways
• Ähnlich verteilte Datenbanken
•
•
•
•
Zugriff z.B. über ODBC
Umwandlung von Datentypen
Unterstützung verschiedener SQL-Dialekte
Kompensation fehlender Funktionen
• Siehe auch: GARLIC (später)
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
33
Verteilung
3. Verteilte & heterogene DB
Autonomie
• Daten liegen physisch verteilt vor
• Daten sind heterogen
Heterogenität
• Z.B. aufgrund der Historie der Entstehung
• Keine Autonomie
• Heterogenität sollte also nicht schlimmer werden
• Typischer Zwischenzustand
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
34
Verteilung
4. Verteilte & autonome DB
Autonomie
Heterogenität
• Verteilte, aber homogene Datenbestände
• Entsteht durch freiwillige Übernahme von Regeln
• Standards, Verträge, …
• Autonomie wird teilweise aufgegeben
• Z.B. Aufgabe von Designautonomie
• Z.B. nicht Kommunikationsautonomie
• Z.B. nicht juristische Autonomie
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
35
Verteilung
5. Multidatenbanken
Autonomie
• Verteilt, autonom, und etwas heterogen
•
•
•
•
Heterogenität
Keine technische und Datenmodellheterogenität
Z.B.: verteilte Systeme benutzen gleiche Techniken (RDBMS)
Schemata können strukturell und semantisch heterogen sein
Zugriff über einheitliche Sprache
• Oder Simulation durch Wrapper (später)
• Autonomie bleibt bewahrt
•
Aber Zugriff muss möglich sein (Kommunikationsautonomie)
• Zugriff über Multidatenbanksprachen
•
•
•
Qualifizierung von Tabellennamen mit Datenbanknamen
Ähnlich Database-Links;
Beispiel: SchemaSQL
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
36
Verteilung
6. Verteilt, heterogen, autonom
Autonomie
Heterogenität
• Das ist das hauptsächliche Szenario dieser
Vorlesung
• Quellen behalten volle Autonomie
• Wissen u.U. nichts von ihrer Integration
• Nehmen u.U. keine Rücksicht bzgl. Änderungen
• Quellen sind heterogen
• Quellen sind verteilt
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
37
Taxonomie nach [SL90]
DBMS
Kontrollierte, gewollte Verteilung
Kein Zugriff durch einheitlichen
Mechanismus
Nutzer muss selbst integrieren
(durch Views etc.)
Nur ein föderiertes Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Zentralisiertes
DBMS
Verteiltes
DBMS
Einfaches, verteiltes DBMS
Multidatenbanksystem
Nicht-föderierte
DBS
Föderierte
DBS (FDBS)
Lose Kopplung
Enge Kopplung
Einfache
Föderation
Mehrfache
Föderation
38
Überblick
• Klassifikation
• Verteilter, autonomer, heterogener Systeme
• Weitere Klassifikationskriterien
• Schichtenaufbau integrierter Systeme
• 3-5 Schichten
• Prominente Architekturen
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
39
Kriterien föderierter Informationssysteme
• Nach [BKLW99]
• Weitere (nicht-orthogonale) Kriterien
•
•
•
•
•
•
•
•
•
Strukturierung der Komponenten
Enge und lose Kopplung
Datenmodell
Art der semantischen Integration
Transparenz
Anfrage-Paradigma
Bottom-up oder Top-down Entwurf
Virtuell oder materialisiert
Read-only oder read-&-write
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
40
Struktur der Komponenten
• Strukturiert
• Festes Schema, festes Format
• Beispiel: Datenbanken
• Semi-strukturiert
• Struktur vorhanden, aber höchstens teilweise festgelegt
• Individuelle Abweichungen jederzeit möglich
• Vor allem neue Attribute, Tabellen, Elemente, Prädikate, …
• Daten sind mit semantischen Tags versehen
• Beispiel: XML/RDF ohne Schemata, OEM Daten, UNQL, ACeDB, …
• Unstrukturiert
• Keine Struktur
• Search, Information Retrieval, Informationsextraktion
• Beispiel: Textuelle Daten, Webseiten, Berichte
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
41
Enge oder lose Kopplung
• Enge Kopplung
• Festes, integriertes/föderiertes Schema
• Korrespondenzen regeln die Zusammenhänge
• Für den Benutzer einheitliche Sicht
• Erfordert Kooperation der Quellen
• Anpassungen, Schemaevolution
• Lose Kopplung
• Kein globales, einheitliches Schema
• Nutzer müssen Semantik der Quellen kennen
• Nutzer integrieren selber
• Nur technische und Datenmodellheterogenität ist gelöst
• Verlangt weniger Kooperation
• Zugriff muss möglich sein, aber Schemata können sich ändern
• Multidatabase query language (MDBQL)
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
42
Verwendetes Datenmodell
• Kanonisches Datenmodell
• Objektorientiertes Modell
• Relationales Modell
• XML Datenmodell
• Abbildung zwischen Datenmodellen ist schwierig
• Relational zu XML
• Abbildung von m:n Beziehungen?
• OO zu Relational
• Schlüssel versus ID, Assoziation versus Foreign Keys, Vererbung?
• Abbildung in semantisch schwächere Datenmodelle bringt Verlust
• Muss durch Anwendung kompensiert werden
• Integration semantisch starker Modelle ist schwieriger
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
43
Art der semantischen Integration
• Vereinigung
• Simple „Konkatenation“ von Objekten
• Anreicherung
•
•
•
•
Mit Metadaten
Keine Konfliktauflösung
Erzeugt mehr, aber nicht notwendigerweise bessere Daten
Sehr häufig!
• Datenfusion
•
•
•
•
Objektidentifizierung
Re-Strukturierung
Komplementierung
Konfliktlösung
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
44
Welche Transparenz wird erreicht?
• Orttransparenz
• Physischer Ort der Daten unbekannt
• IP, Quellenname, DB Name
• Verteilungstransparenz
• Nutzer sehen nur integriertes Schema
• Strukturelle Konflikte werden verborgen
• Schnittstellentransparenz
• Nutzer muss nur eine Sprache beherrschen
• Integriertes System übersetzt
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
45
Welche Art von Anfragen werden unterstützt?
• Strukturierte Anfragen
• Schema ist Nutzern bekannt und wird in Anfragen verwendet
• Z.B. SQL, OQL, QBE
• „Canned queries“
• Vordefinierte Anfragen mit Parametern
• Z.B.: Webformulare, Funktionen
• Such-Anfragen (Information Retrieval)
• Struktur unbekannt oder nicht vorhanden
• Z.B. Suchmaschinen auf Texten
• Browsing
• Kein Such-Interface
• Beispiel: WWW, Hypertext, Reports
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
46
Bottom-up oder Top-down Entwurf
• Bottom-up
•
•
•
•
•
Beginnt mit dem Bedarf nach der Integration einer festen Menge von
genau bestimmten Quellen
Globales Schema wird durch Schemaintegration erstellt
Änderungen in Quellen i.d.R. schwierig (Neuintegration)
Verbunden mit hohen Ansprüchen an Vollständigkeit und Qualität
Typisches Szenario: Data Warehouse, Merging von
Unternehmensdatenbanken
• Top-down
•
•
•
•
•
•
•
Ausgelöst durch „globalen“ Informationsbedarf
Neuentwurf des globalen Schemas
Quellen werden nach Bedarf und Eignung hinzugefügt
Verlangt flexiblere Integrationsmechanismen
Vorteilhaft bei volatilen Quellen (Web)
Verbunden mit geringeren Ansprüchen an Vollständigkeit und Qualität
Typisches Szenario: Webintegration, Integration als Service
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
47
Bottom-up Entwicklung
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
48
Top-down Entwicklung
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
49
Virtuell oder materialisiert
• Virtuell
•
•
•
•
Kein zentraler Datenpool
Anfragen werden in Teilanfragen zerlegt und in den Quellen beantwortet
Daten werden nur bei Bedarf übertragen und höchstens temporär
gespeichert
Immer aktuell, potentiell langsam, eingeschränkte Queries
• Materialisiert
•
•
•
•
•
•
Aufbau eines zentralen Datenpools
Redundante Datenhaltung
Daten werden offline transformiert und integriert
Anfragen werden direkt gegen die materialisierten Daten gestellt
Potentiell veraltet, sehr schnell, volle Queries
Setzt Zugriff auf komplette Datenbasis voraus
• Später mehr
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
50
Read-only oder read-&-write
• Read-only die beliebtere Variante
• Write (insert & update) schwierig
•
•
•
•
•
Viele Interfaces erlauben kein Schreiben
Update durch Sichten ist schwierig
Bei Komplementierung: Welche Quelle?
Globale Transaktionen (komplexe Protokolle)
Autonomie!
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
51
Überblick
• Klassifikation
• Verteilter, autonomer, heterogener Systeme
• Führt zu möglichen Architekturen
• Weitere Klassifikationskriterien
• Schichtenaufbau integrierter Systeme
• 3-5 Schichten
• Prominente Architekturen
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
52
ANSI/SPARC 3-Schichten Architektur
• Externe (logische) Sicht
• Je nach Anwendung
• Nur relevante Daten
• Sichten (Views)
• Konzeptionelle (logische) Sicht
• Unabhängig von physischer Sicht
• Definiert durch Datenmodell
• Stabiler Bezugspunkt
• Interne (physische) Sicht
• Dateistruktur
• Speicherort (Zylinder, Block)
• Indexe, Partitionen, …
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
53
3-Schichten Architektur
Anwendungen
Externes ... Externes
Schema 1
Schema N
Konzeptionelles Schema
DBMS
Internes Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
54
4-Schichten Architektur
• Für verteilte DBMS
• Lokales vs. globales
konzeptionelles Schema
• Globales
konzeptionelles Schema
integriert die lokalen
konzeptionellen
Schemata
• Lokales und globales
konzeptionelles Schema
können gleich sein
•
Aber Datenbestände
unterschiedlich
Externes
Schema 1
...
Externes
Schema N
Konzeptionelles
Schema
Lokales konzept. ...
Schema
Internes
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
...
Lokales konzept.
Schema
Internes
Schema
55
4-Schichten Architektur
Anwendungen
Externes
Schema 1
Externes
Schema N
Konzeptionelles
Schema
Vert. DBMS
Lokale DBMS
...
Lokales konzept. ...
Schema
Internes
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
...
Lokales konzept.
Schema
Internes
Schema
56
Import-/Export-Schema-Architektur
= lokales
konzeptionelles
Schema
Idee: Nur Teilmenge des
lokalen konzeptionellen
Schemas wird der Föderation
zur Verfügung gestellt.
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
[HM85]
Idee: Nur Teilmengen
der Exportschemas
sollen verwendet
werden.
57
Multidatenbankarchitektur
• Siehe [LMR90]
• Voraussetzung
• Nutzer kennen die
jeweiligen Schemas
• Multidatenbanksprache
• Lose Kopplung
Externes
Schema 1
...
Export-Schema
Export-Schema
Lokales konzept. ...
Schema
Internes
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Externes
Schema N
...
Lokales konzept.
Schema
Internes
Schema
58
4-Schichten Architektur
Anwendungen
Anwendungen
müssen selbst
integrieren
Lokale DBMS
Externes
Schema 1
...
Export-Schema
Export-Schema
Lokales konzept. ...
Schema
Internes
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Externes
Schema N
...
Lokales konzept.
Schema
Internes
Schema
59
5-Schichten Architektur [SL90]
• Eigentlich 6 Schichten
• Interne Schemas werden
nicht mehr betrachtet
• Integriertes,
föderiertes Schema
• Komponentenschema
= lokales konzept.
Schema
• Föderiertes Schema =
globales konzept.
Schema
Externes
Schema 1
Externes
Schema N
...
Föderiertes Schema
Exportschema
Exportschema
Komponenten- ...
schema
Komponentenschema
Lokales
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
...
Lokales
Schema
60
5-Schichten Architektur [SL90]
Anwendungen
Föderiertes DBMS
Externes
Schema 1
...
Föderiertes Schema
Exportschema
Lokale DBMS
Externes
Schema N
Komponentenschema
Lokales
internes
Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Exportschema
...
...
Komponentenschema
Lokales
internes
Schema
61
5-Schichten Architektur [SL90]
• Exportschemas
•
•
•
Externes
Schema 1
Teilmenge des
Komponentenschemas
Zugangsberechtigungen
Unnötig, wenn komplettes Schema
exportiert wird
...
Föderiertes Schema
• Komponentenschemas
•
•
•
•
Kanonisches Datenmodell
Fügt fehlende Semantik hinzu
Übergang durch Mappings
Unnötig, wenn lokales =
kanonisches Datenmodell
Exportschema
Exportschema
Komponenten- ...
schema
Komponentenschema
• Lokale Schemas
•
Externes
Schema N
Konzeptionell
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Lokales
Schema
...
Lokales
Schema
62
5-Schichten Architektur [SL90]
• Externes Schema
Externes
Schema 1
• Föderiertes Schema kann sehr
groß sein → Vereinfachung im
Exportschema
• Schema Evolution leichter
• Zugangskontrollen
...
Föderiertes Schema
• Föderiertes Schema
• Integriert aus den Exportschemas
• Kennt Datenverteilung
• Andere Namen:
• Import, global, unified,
Enterprise Schema
Externes
Schema N
Exportschema
Exportschema
Komponenten- ...
schema
Komponentenschema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
Lokales
Schema
...
Lokales
Schema
63
Überblick
• Klassifikation
• Verteilter, autonomer, heterogener Systeme
• Führt zu möglichen Architekturen
• Weitere Klassifikationskriterien
• Schichtenaufbau integrierter Systeme
• 3-5 Schichten
• Prominente Architekturen
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
64
Data Warehouses
Metadaten
Quelle 1
RDBMS
Quelle 2
IMS
Staging Area
Staging Area
Mart 2
Cube
Mart 1
• Materialisierte Integration
• Regelmäßiger Export, Transformation, Import einer festen
Zahl von Datenquellen (ETL Prozess)
• Redundante Datenhaltung wegen unterschiedlicher
Verwendung (OLAP versus OLTP)
• Kommerziell extrem wichtig
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
65
Mediator-Wrapper Architektur
• Virtuelle Integration
• Unabhängig von
Strukturiertheit
Anwendung 1
• Quellspezifische Wrapper
• Datenmodelltransformation
• Übersetzung von Anfragen
• Mediatoren als
Mehrwertdienste
• Datenintegration
• Verdichtung
• …
Anwendung 2
Mediator
Wrapper 1
Wrapper 2
Wrapper 3
Quelle 1
Quelle 2
Quelle 3
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
66
Föderierte Datenbanken
• Trotz häufiger Verwendung keine klare Definition
vorhanden
• Klassischer Definition: 5-Schichten Architektur
• Lokales Schema, Komponentenschema, Exportschema, föderiertes
Schema, externes Schema
• Integrierte Schemata verlangen aber semantische
Integration
• Datenbankhersteller meiden dieses Gebiet
• „Federated databases“ heute
• Allgemeiner Begriff für integrierten Zugang
• Kommerziell meistens über Multidatenbanksprachen
• Definition von Sichten zur Erstellung (teil-)integrierter Schema
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
67
Einordnung
Distributed Databases
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
C
p
om
ty
i
x
le
68
Literatur
• Wichtige Literatur
•
•
•
[ÖV99] Principles of Distributed Database Systems. M. Tamer Özsu, Patrick
Valduriez, Prentice Hall, 1999.
[SL90] Amit P. Sheth and James A. Larson, Federated Database Systems
for Managing Distributed, Heterogeneous, and Autonomous Databases,
ACM Computing Surveys, Vol. 22(3), pp183-236, 1990.
[Con97] Stefan Conrad, Föderierte Datenbanksysteme. Springer,
Heidelberg 1997.
• Weitere Literatur
•
•
[LMR90] W. Litwin, L. Mark, N. Roussoupoulos, Interoperability of Multiple
Autonomous Databases, ACM Computing Surveys, Vol. 22(3), pp267-293,
1990.
[HM85] Dennis Heimbigner, Dennis McLeod: A Federated Architecture for
Information Management. ACM Trans. Inf. Syst. 3(3): 253-278 (1985)
Ulf Leser: Informationsintegration, Wintersemester 2006/2007
69
Herunterladen