Informationsintegration Beispiel 17.4.2007 Felix Naumann Informationsintegration 2 Web Service A Web Service B Integration <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Identifikation Fusion Optimierung Visualisierung Felix Naumann | Informationsintegration | SoSe 2007 1 Beispiel – Web Service A 3 ■ Standort: Trier ■ Operation: □ getPubByAuthor(firstName, lastName) □ getPubByTitle(title) ■ Output-Struktur: Felix Naumann | Informationsintegration | SoSe 2007 Beispiel – Web Service A Output 4 Felix Naumann | Informationsintegration | SoSe 2007 2 Beispiel – Web Service B 5 ■ Standort: Humboldt-Universität ■ Operation: myPubs(Autor, Jahr) ■ Struktur: Felix Naumann | Informationsintegration | SoSe 2007 Beispiel – Web Service B Output 6 Felix Naumann | Informationsintegration | SoSe 2007 3 Integration von Web Services A & B 7 1. Nutzerschnittstelle 2. Schema Integration / Schema Mapping 3. Anfrage-Umwandlung 4. Zeit abschätzen (Optimierung) 5. Requests an beide Services abschicken 6. Antworten einholen 7. Objektidentifikation 8. Integrationsschritte 1. Konfliktlösung etc. 2. Entscheidung kleinster gemeinsamer Nenner? 3. Durchführung (deklarativ, prozedural) 9. Anzeige beim Nutzer Felix Naumann | Informationsintegration | SoSe 2007 Nutzerschnittstellen 8 Felix Naumann | Informationsintegration | SoSe 2007 4 Informationsintegration 9 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Schemaintegration Schema Mapping Modellierung durch eine Menge von Anfragen (Views) Felix Naumann | Informationsintegration | SoSe 2007 Anfrage Umwandlung 10 Integration der Anfrage durch Mediator: ■ Integrierte Schnittstelle ■ Z.B. Concat(First Name, Last Name) = Autor Felix Naumann | Informationsintegration | SoSe 2007 5 Anfrageoptimierung 11 ■ Was ist besser: Eine schnelle Antwort oder vollständige Antwort? □ Web Service A in Trier (remote) □ Web Service B in Adlershof (local) □ Web Service A hat mehr Attribute und mehr Objekte. □ Web Service B hat weniger Attribute. ■ Außerdem: □ Eine Suche nach „year“ kann nur durch Web Service B beantwortet werden. □ Transformationen können teuer sein. Felix Naumann | Informationsintegration | SoSe 2007 Zwei Resultate 12 Web Service A Web Service B Felix Naumann | Informationsintegration | SoSe 2007 6 Schema Matching 13 ? Felix Naumann | Informationsintegration | SoSe 2007 Objektidentifikation 14 Felix Naumann | Informationsintegration | SoSe 2007 7 Objektidentifikation 15 Edit-distance: 5 Edit-distance: 6 Zusammen? Felix Naumann | Informationsintegration | SoSe 2007 Stand der Dinge 16 ■ Wir haben die heterogenen Informationen. ■ Wir wissen, was wir integrieren wollen. ■ Aber noch nicht wie: □ Integriertes Schema □ Integrierte Daten Felix Naumann | Informationsintegration | SoSe 2007 8 Angestrebtes Integrationsergebnis 17 + = Integriertes Schema: Felix Naumann | Informationsintegration | SoSe 2007 Angestrebtes Integrationsergebnis 18 Integrierte Daten: Felix Naumann | Informationsintegration | SoSe 2007 9 Integrierte Daten – was ist passiert? 19 Konfliktlösung NeuStrukturierung Vorher: „Naumann“ Neu Felix Naumann | Informationsintegration | SoSe 2007 Implementierung 20 ■ Auf Folien ist alles klar, aber wie implementieren? ■ Deklarativ? □ SQL, XQuery, XSLT □ Oft nicht alles möglich □ Langsam ■ Prozedural? □ Java, C++ □ Schlecht wartbar □ Schnell Felix Naumann | Informationsintegration | SoSe 2007 10 Anzeige beim Nutzer 21 Konfliktlösung Visualisierung der ■ Datenherkunft Vorher: „Naumann“ ■ Qualität ■ veränderten Daten ■ Operationen Felix Naumann | Informationsintegration | SoSe 2007 Integrierte Informationssysteme 22 Anfrage Design time Architekturen Anfragesprache Run time Integriertes Informationssystem Datenfusion / ETL Anfrageplanung Schemamanagement Optimierung Wrapper Anfrageausführung Oracle, DB2… Dateisystem Web Service Anwendung HTML Form Integriertes Info.-system Felix Naumann | Informationsintegration | SoSe 2007 11 Erste Hälfte 23 Einführung in die Informationsintegration Problemstellung Architekturen Mapping Szenarien der Informationsintegration Verteilung und Autonomie Heterogenität Materialisierte und virtuelle Integration 5-Schichten Architektur Mediator/Wrapper-Architektur / PDMS Schema Mapping Schema Matching SchemaSQL Modellierung Global-as-View und Lokal-as-View Modellierung Global-as-View Anfragebearbeitung Felix Naumann | Informationsintegration | SoSe 2007 Zweite Hälfte 24 Anfragen Containment & Local-as-View Anfragebearbeitung Bucket Algorithmus Verteilte Anfragebearbeitung Optimierung Konflikte Dynamische Programmierung in verteilten Datenbanken Top-N Anfragen Duplikaterkennung Datenfusion - Union & Co. DWH, ETL & Data Lineage Informationsqualität Anwendungen Hidden Web Semantic Web Felix Naumann | Informationsintegration | SoSe 2007 12 Fragen, Wünsche und Vorstellungen 25 ■ Jetzt, oder... ■ Raum: A.1-13 ■ Sprechstunden: Dienstags 15-16 Uhr oder n.V. ■ Email: [email protected] ■ Telefon: (0331) 5509 280 Felix Naumann | Informationsintegration | SoSe 2007 13