Informationsintegration Architekturen Vergleichskriterien für integrierte Systeme Ulf Leser Wissensmanagement in der Bioinformatik Übersicht • Technische Heterogenität • • Technische Realisierung des Datenzugriffs Technische Unterschiede in der Darstellung • Syntaktische Unterschiede • • Unterschiede in der Darstellung Gleiche Dinge syntaktisch verschieden repräsentieren • Datenmodellheterogenität • Strukturelle Heterogenität • • Strukturelle Unterschiede in der Darstellung Gleiche Dinge verschieden modellieren • Semantische Heterogenität • • Unterschiede in der Bedeutung von Namen (Schema und Daten) Gleiches sagen, verschiedenes meinen (oder andersrum) Ulf Leser: Informationsintegration, Wintersemester 2008/2009 2 Technische Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2008/2009 3 Mächtigere globale Anfragesprache SQL SELECT FROM WHERE AND * Books Author = „Defoe“ PubYear = 1979 HTML Form Ulf Leser: Informationsintegration, Wintersemester 2008/2009 4 Kompensation SELECT FROM WHERE AND * Books Author = „Defoe“ PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 Defoe Ulf Leser: Informationsintegration, Wintersemester 2008/2009 5 Syntaktische Heterogenität • Unterschiedliche Darstellung desselben Sachverhalts • • • • • • • Dezimalpunkt oder –komma Euro oder € Comma-separated oder tab-separated HTML oder ASCII oder Unicode Notenskala 1-6 oder „sehr gut“, „gut“, … Binärcodierung oder Zeichen Datumsformate (12. September 2006, 12.9.2006, 9/12/2006, …) • Überwindung in der Regel nicht problematisch • Umrechnung, Übersetzungstabellen, … Ulf Leser: Informationsintegration, Wintersemester 2008/2009 6 Strukturelle Heterogenität • Allgemein • • Gleiche Dinge in unterschiedlichen Schemata ausdrücken • Andere Aufteilung von Attributen auf Tabellen • Fehlende / neue Attribute (wenn Intension nicht betroffen ist) • Setzt intensionale Überlappung voraus („gleiche Dinge“) Meistens mit semantischen Heterogenität verbunden • Ausnahme: 1:1 Beziehungen • Spezialfall: Schematische Heterogenität • • Verwendung anderer Elemente eines Datenmodells Kann meist nicht durch Anfragesprachen überwunden werden Ulf Leser: Informationsintegration, Wintersemester 2008/2009 7 Spezialfall: Schematische Heterogenität maenner( Id, vorname, nachname) frauen( Id, vorname, nachname) Relation vs. Wert Relation vs. Attribut person( Id, vorname, nachname, maennlich?, weiblich?) person( Id, vorname, nachname, geschlecht) Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Attribut vs. Wert 8 Integrierte Sichten • Verlangt viele Verrenkungen • Sicht muss angepasst werden, wenn neue Filmtypen vorliegen • • Datenänderungen bedingen Schemaänderungen Das will man unbedingt vermeiden Ulf Leser: Informationsintegration, Wintersemester 2008/2009 9 Semantik von was? Name Extension Realweltliche Objekte Intension repräsentiert Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Konzept 10 Probleme • Mögliche Beziehungen zwischen den Mengen realweltlicher Objekte, die durch ein Konzept repräsentiert werden • • • • • Seien a,b zwei Konzepte für die Mengen A, B A=B (Äquivalenz): a und b sind (echte) Synonyme • Kreditinstitut, Bank (?) • Gibt es echte Synonyme? A⊆B (Inklusion): b ist Hyperonym (Oberbegriff) zu a; a ist Hyponym zu b • Tochter ⊆ Kind A ∩ B ≠ ∅ ∧ A≠B (Überlappung): Schwierigster Fall • Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler A ∩ B = ∅ (Disjunktion): a und b sind nicht verwandt (häufigster Fall) • Dose - Lohnsteuerjahresausgleich Ulf Leser: Informationsintegration, Wintersemester 2008/2009 11 Semantik: Woher nehmen? • Schemaelemente sind erst mal nur Namen • Was bestimmt die Semantik eines Namens? • Für Attributnamen • • • • • • • • • • Datentyp Constraints (Schlüssel, FK, unique, CHECK, …) Zugehörigkeit zu einer Relation Andere Attribute dieser Relation Beziehung der Relation zu anderen Relationen Dokumentation Vorhandene Werte Wissen über den Anwendungsbereich … Der Kontext Ulf Leser: Informationsintegration, Wintersemester 2008/2009 12 Datenkonflikte - Beispiel amazon.de 0766607194 H. Melville $3.98 $5.99 ID 0766607194 Herman Melville Moby Dick bol.de Ulf Leser: Informationsintegration, Wintersemester 2008/2009 13 Transparenz • Verteilung, Autonomie, Heterogenität kann in unterschiedlichem Maße überwunden werden • Ortstransparenz • • Benutzer müssen den Ort der integrierten Systeme nicht kennen Keine URLs, Datenbankpräfixe, … • Quellentransparenz, Verteilungstransparenz • • • Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt werden kann (und muss daher nicht auswählen) Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt wurde (Datenherkunft) Setzt ein globales Schema voraus Ulf Leser: Informationsintegration, Wintersemester 2008/2009 14 Inhalt diese Vorlesung • Klassifikation • • Verteilter, autonomer, heterogener Systeme Führt zu möglichen Architekturen • Weitere Klassifikationskriterien • Schichtenaufbau integrierter Systeme • 3-5 Schichten Ulf Leser: Informationsintegration, Wintersemester 2008/2009 15 Klassifikation Verteilte, homogene DBS [ÖV91] Verteilung Verteilte, föderierte DBS Verteilte, heterogene föderierte DBS Logisch integrierte und homogene DBS Autonomie Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2008/2009 16 Verteilung Zentrale Datenbank Autonomie Heterogenität • „Normalfall“ – homogene, zentrale Datenbank • Daten/Berechnung können trotzdem begrenzt verteilt sein • • • Filesystem: Partitionierung, RAID, SAN Berechnung: Cluster Parallele Datenbanken • Datenbank entsteht aus homogenem Entwurf • • Wenn Redundanz / Heterogenität, dann mit Absicht und kontrolliert Problem: Weiterentwicklung (Evolution) • Zentrale Kontrolle und Administration Ulf Leser: Informationsintegration, Wintersemester 2008/2009 17 Verteilung Verteilte Datenbanken Autonomie • Daten liegen physisch verteilt • • • Heterogenität Absichtsvolle, kontrollierte, a-priori Verteilung Existenz eines konzeptionell homogenen, verteilt realisierten Schemas Ziele • Höhere Performanz durch Parallelisierung • Höhere Sicherheit vor Katastrophen • Höhere Ausfallsicherheit durch redundant ausgelegte Systeme (Replikation) • Knoten haben keine Autonomie • Heterogenität wird unterdrückt • Ortstransparenz, aber keine Verteilungstransparenz • • Aliase und Proxy kapseln entfernte Orte Verteilungstransparenz durch Sichten möglich, aber nicht durch System erzeugt Ulf Leser: Informationsintegration, Wintersemester 2008/2009 18 Einschub: Verteilte Datenbanken mit Oracle • Oracle-DBs können auf andere Oracle-DBs zugreifen • Database Links • • CREATE [PUBLIC] DATABASE LINK <link_name> CONNECT TO <user_name> <IDENTIFIED BY <password> USING '<service_name>'; • service_name muss über Konfigurationsfiles aufgelöst werden SELECT col1, col2, … FROM tab1@link_name; • Zugriff wie auf lokale Tabelle (Joins, Selektion, Projektion, …) • Transparenz durch Sicht möglich • CREATE VIEW myview AS SELECT * FROM tab1@link_name; • Schwieriger • • • Verteilte Optimierung (später) Ausfallwahrscheinlichkeit 2-phase-commit • Anwendung (z.B.): automatische Replikation • Verschiedene Refresh-Optionen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 19 Verteilte versus parallele Datenbanken Parallele Datenbank Externes Schema 1 ... Externes Schema N Verteilte Datenbank Externes Schema 1 ... Externes Schema N Konzeptionelles Schema Konzeptionelles Schema Internes, physisches Schema Lokales konzept. Schema ... Internes Schema ... Lokales konzept. Schema Internes Schema ... Ulf Leser: Informationsintegration, Wintersemester 2008/2009 26 Einschub: Parallele Datenbanken • Auswirkung nur auf der physischen Schicht • • • Es existiert nur ein logisches Schema Interquery: Queries werden (jeweils als ganzes) auf verschiedene Knoten verteilt Intraquery: Einzelne Queries werden aufgebrochen und die Fragmente verteilt (z.B. Partitionen) • Shared Nothing (DB2) • • • Verschiedene Knoten haben eigene Platten Zentrale Instanz verteilt Anfragen Verteilungsmöglichkeiten mit Konfiguration festgelegt • Shared Disc (Oracle) • • • Alle Knoten greifen auf gleiche Platten zu Schwierige Synchronisation Dynamische Verteilung je nach Last möglich Ulf Leser: Informationsintegration, Wintersemester 2008/2009 27 Einschub: Gateways • Ähnlich verteilte Datenbanken • • • • Zugriff z.B. über ODBC Umwandlung von Datentypen Unterstützung verschiedener SQL-Dialekte Kompensation fehlender Funktionen • Siehe auch: GARLIC (später) Ulf Leser: Informationsintegration, Wintersemester 2008/2009 28 Verteilung Verteilte & autonome DB Autonomie Heterogenität • Verteilte, aber homogene Datenbestände • Entsteht durch freiwillige Übernahme von Regeln • Standards, Verträge, … • Autonomie wird teilweise aufgegeben • • • Z.B. Aufgabe von Designautonomie Z.B. nicht Kommunikationsautonomie Z.B. nicht juristische Autonomie Ulf Leser: Informationsintegration, Wintersemester 2008/2009 29 Verteilung Multidatenbanken Autonomie • Verteilt, autonom, und „etwas“ heterogen • • • • Heterogenität Keine technische Heterogenität Keine Datenmodellheterogenität Schemata können strukturell und semantisch heterogen sein Verteilte Systeme benutzen gleiche Techniken (RDBMS) • Zugriff über einheitliche Sprache • Oder Simulation durch Wrapper (später) • Autonomie bleibt bewahrt • Aber Zugriff muss möglich sein (Kommunikationsautonomie) • Zugriff über Multidatenbanksprachen • • • Qualifizierung von Tabellennamen mit Datenbanknamen Ähnlich Database-Links Beispiel: SchemaSQL Ulf Leser: Informationsintegration, Wintersemester 2008/2009 30 Verteilung Verteilt, heterogen, autonom Autonomie Heterogenität • Das ist das hauptsächliche Szenario dieser Vorlesung • Quellen behalten volle Autonomie • • Wissen u.U. nichts von ihrer Integration Nehmen u.U. keine Rücksicht bzgl. Änderungen • Quellen sind heterogen • Quellen sind verteilt Ulf Leser: Informationsintegration, Wintersemester 2008/2009 31 Taxonomie nach [SL90] DBMS Kontrollierte, gewollte Verteilung Kein Zugriff durch einheitlichen Mechanismus; Kataloge Nutzer muss selbst integrieren (durch Views etc.) Nur ein föderiertes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Zentralisiertes DBMS Verteiltes DBMS Einfaches verteiltes DBMS Multidatenbanksystem Nicht-föderierte DBS Föderierte DBS (FDBS) Lose Kopplung Enge Kopplung Einfache Föderation Mehrfache Föderation 32 Überblick • Klassifikation • Verteilter, autonomer, heterogener Systeme • Weitere Klassifikationskriterien • Schichtenaufbau integrierter Systeme • 3-5 Schichten • Prominente Architekturen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 33 Kriterien föderierter Informationssysteme • Nach [BKLW99] • Weitere (nicht-orthogonale) Kriterien • • • • • • • • • Strukturiertheit der Komponenten Enge und lose Kopplung Datenmodell Art der semantischen Integration Transparenz Anfrage-Paradigma Bottom-up oder Top-down Entwurf Virtuell oder materialisiert Read-only oder read-&-write Ulf Leser: Informationsintegration, Wintersemester 2008/2009 34 Enge oder lose Kopplung • Enge Kopplung • Festes, integriertes/föderiertes Schema • Korrespondenzen regeln die Zusammenhänge • • Für den Benutzer einheitliche Sicht System muss Änderungen der Quellen kompensieren • Lose Kopplung • • Kein globales, einheitliches Schema Nutzer integrieren selber • Nutzer müssen Semantik der Quellen kennen • Nur technische und Datenmodellheterogenität ist gelöst • • Änderungen in Quellen gelangen zum Benutzer Multidatabase query language (MDBQL) Ulf Leser: Informationsintegration, Wintersemester 2008/2009 36 Verwendetes Datenmodell • Kanonisches Datenmodell • • Das Datenmodell des integrierten Systems Objektorientiert, relational, XML, … • Abbildung zwischen Datenmodellen ist schwierig • Relational zu XML • Abbildung von m:n Beziehungen? • OO zu Relational • Schlüssel versus ID, Assoziation versus Foreign Keys, Vererbung? • Abbildung in semantisch schwächere Datenmodelle bringt Verlust • Muss durch Anwendung kompensiert werden • Integration semantisch starker Modelle ist schwieriger Ulf Leser: Informationsintegration, Wintersemester 2008/2009 37 Art der semantischen Integration • Vereinigung • • • Simple „Konkatenation“ von Objekten Erzeugt mehr, aber hochredundante Daten Sehr häufig • Anreicherung • • Mit Metadaten; keine Konfliktauflösung Erzeugt mehr, aber nicht notwendigerweise bessere Daten • Datenfusion • • • • Objektidentifizierung Re-Strukturierung Komplementierung Konfliktlösung Ulf Leser: Informationsintegration, Wintersemester 2008/2009 38 Welche Art von Anfragen werden unterstützt? • Strukturierte Anfragen • • Schema ist Nutzern bekannt und wird in Anfragen verwendet Z.B. SQL, OQL, QBE • Canned queries • • Vordefinierte Anfragen mit Parametern Z.B.: Webformulare, Funktionen • Such-Anfragen (Information Retrieval) • • Struktur unbekannt oder nicht vorhanden Z.B. Suchmaschinen auf Texten • Browsing • • Kein Such-Interface Beispiel: WWW, Hypertext, Reports Ulf Leser: Informationsintegration, Wintersemester 2008/2009 40 Bottom-up oder Top-down Entwurf • Bottom-up • • • • • Beginnt mit dem Bedarf nach der Integration einer festen Menge von genau bestimmten Quellen Globales Schema wird durch Schemaintegration erstellt Änderungen in Quellen i.d.R. schwierig (Neuintegration) Verbunden mit hohen Ansprüchen an Vollständigkeit und Qualität Typisches Szenario: Data Warehouse, Merging von Unternehmensdatenbanken • Top-down • • • • • • • Ausgelöst durch „globalen“ Informationsbedarf Neuentwurf des globalen Schemas Quellen werden nach Bedarf und Eignung hinzugefügt Verlangt flexiblere Integrationsmechanismen Vorteilhaft bei volatilen Quellen (Web) Verbunden mit geringeren Ansprüchen an Vollständigkeit und Qualität Typisches Szenario: Webintegration, Integration als Service Ulf Leser: Informationsintegration, Wintersemester 2008/2009 41 Bottom-up Entwicklung Ulf Leser: Informationsintegration, Wintersemester 2008/2009 42 Top-down Entwicklung Ulf Leser: Informationsintegration, Wintersemester 2008/2009 43 Virtuell oder materialisiert • Virtuell • • • • Kein zentraler Datenpool Anfragen werden in Teilanfragen zerlegt und in den Quellen beantwortet Daten werden nur bei Bedarf übertragen und höchstens temporär gespeichert Immer aktuell, potentiell langsam, eingeschränkte Queries • Materialisiert • • • • • • Aufbau eines zentralen Datenpools Redundante Datenhaltung Daten werden offline transformiert und integriert Anfragen werden direkt gegen die materialisierten Daten gestellt Potentiell veraltet, sehr schnell, volle Queries Setzt Zugriff auf komplette Datenbasis voraus Ulf Leser: Informationsintegration, Wintersemester 2008/2009 44 Überblick • Klassifikation • • Verteilter, autonomer, heterogener Systeme Führt zu möglichen Architekturen • Weitere Klassifikationskriterien • Schichtenaufbau integrierter Systeme • 3-5 Schichten • Prominente Architekturen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 46 ANSI/SPARC 3-Schichten Architektur • Externe (logische) Sicht • • • Je nach Anwendung Nur relevante Daten Sichten (Views) • Konzeptionelle (logische) Sicht • • • Unabhängig von physischer Sicht Definiert durch Datenmodell Stabiler Bezugspunkt Externes Schema 1 ... Externes Schema N Konzeptionelles Schema • Interne (physische) Sicht • • • Dateistruktur Speicherort (Zylinder, Block) Indexe, Partitionen, … Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Internes, physisches Schema 47 3-Schichten Architektur Anwendungen DBMS Externes ... Externes Schema 1 Schema N Konzeptionelles Schema Internes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 48 4-Schichten Architektur • Für verteilte DBMS • Lokales vs. globales konzeptionelles Schema • Globales konzeptionelles Schema integriert die lokalen konzeptionellen Schemata • Lokales und globales konzeptionelles Schema können gleich sein • Aber Datenbestände unterschiedlich Externes Schema 1 ... Externes Schema N Konzeptionelles Schema Lokales konzept. ... Lokales konzept. Schema Schema Internes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 ... Internes Schema 49 4-Schichten Architektur Anwendungen Externes Schema 1 Externes Schema N Konzeptionelles Schema Verteilte DBMS Lokale DBMS ... Lokales konzept. ... Lokales konzept. Schema Schema Internes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 ... Internes Schema 50 Import-/Export-Schema-Architektur = lokales konzeptionelles Schema Nur Teilmenge des lokalen konzeptionellen Schemas wird der Föderation zur Verfügung gestellt Ulf Leser: Informationsintegration, Wintersemester 2008/2009 [HM85] Nur Teilmengen der Exportschemata sollen verwendet werden 51 Multidatenbankarchitektur Externes Schema 1 • Siehe [LMR90] • Voraussetzung • • Nutzer kennen die jeweiligen Schemas Multidatenbanksprache • Lose Kopplung ... Externes Schema N Export-Schema Export-Schema Lokales konzept. ... Lokales konzept. Schema Schema Internes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 ... Internes Schema 52 4-Schichten Architektur Anwendungen Anwendungen müssen selbst integrieren Lokale DBMS Externes Schema 1 ... Externes Schema N Export-Schema Export-Schema Lokales konzept. ... Lokales konzept. Schema Schema Internes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 ... Internes Schema 53 5-Schichten Architektur [SL90] Externes Schema 1 ... • Eigentlich 6 Schichten • Interne Schemas werden nicht mehr betrachtet • Integriertes, föderiertes Schema • Komponentenschema = lokales konzept. Schema • Föderiertes Schema = globales konzept. Schema Externes Schema N Föderiertes Schema Exportschema Exportschema Komponenten- ... Komponentenschema schema Lokales Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 ... Lokales Schema 54 5-Schichten Architektur [SL90] Anwendungen Föderiertes DBMS Externes Schema 1 ... Föderiertes Schema Exportschema Lokale DBMS Externes Schema N Komponentenschema Lokales internes Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Exportschema ... ... Komponentenschema Lokales internes Schema 55 5-Schichten Architektur [SL90] • Exportschemata • • • Externes Schema 1 Teilmenge des jeweiligen Komponentenschemas Zugangsberechtigungen Unnötig, wenn komplettes Schema exportiert wird ... Föderiertes Schema • Komponentenschemata • • • • Kanonisches Datenmodell Fügt fehlende Semantik hinzu Übergang durch Mappings Unnötig, wenn lokales = kanonisches Datenmodell Exportschema Exportschema Komponenten- ... Komponentenschema schema • Lokale Schemata • Externes Schema N Konzeptionell Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Lokales Schema ... Lokales Schema 56 5-Schichten Architektur [SL90] Externes Schema 1 • Externes Schema • • • • • • ... Anwendungsabhängig Föderiertes Schema kann sehr groß sein → Vereinfachung im Exportschema Zugangskontrollen • Föderiertes Schema Integriert aus den Exportschemata Kennt Datenverteilung Auch globales, unified, Enterprise Schema Externes Schema N Föderiertes Schema Exportschema Exportschema Komponenten- ... Komponentenschema schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 Lokales Schema ... Lokales Schema 57 Überblick • Klassifikation • • Verteilter, autonomer, heterogener Systeme Führt zu möglichen Architekturen • Weitere Klassifikationskriterien • Schichtenaufbau integrierter Systeme • 3-5 Schichten • Prominente Architekturen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 58 Data Warehouses Metadaten Quelle 1 RDBMS Quelle 2 IMS Staging Area Staging Area Mart 2 Cube Mart 1 • Materialisierte Integration • Regelmäßiger Export, Transformation, Import einer festen Zahl von Datenquellen (ETL Prozess) • Redundante Datenhaltung wegen unterschiedlicher Verwendung (OLAP versus OLTP) • Kommerziell extrem wichtig Ulf Leser: Informationsintegration, Wintersemester 2008/2009 59 Mediator-Wrapper Architektur • Virtuelle Integration • Unabhängig von Strukturiertheit Anwendung 1 • Quellspezifische Wrapper • • Datenmodelltransformation Übersetzung von Anfragen • Mediatoren als Mehrwertdienste • • • Datenintegration Verdichtung … Anwendung 2 Mediator Wrapper 1 Wrapper 2 Wrapper 3 Quelle 1 Quelle 2 Quelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 60 Föderierte Datenbanken • Trotz häufiger Verwendung keine klare Definition vorhanden • Klassische Definition: 5-Schichten Architektur • Lokales Schema, Komponentenschema, Exportschema, föderiertes Schema, externes Schema • Integrierte Schemata verlangen semantische Integration • Datenbankhersteller meiden dieses Gebiet • „Federated databases“ heute • • • Allgemeiner Begriff für integrierten Zugang Kommerziell meistens über Multidatenbanksprachen Definition von Sichten zur Erstellung (teil-)integrierter Schema Ulf Leser: Informationsintegration, Wintersemester 2008/2009 61 Einordnung Distributed Databases Ulf Leser: Informationsintegration, Wintersemester 2008/2009 p m o K x e l t ä it 62