Informationsintegration Einführung 18.10.2005 Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2… 18.10.2005 Dateisystem Web Service Anwendung HTML Form Felix Naumann, VL Informationsintegration, WS 05/06 Integriertes Info.-system 2 Einige Untertitel Content Merging Objekt Fusion Datenintegration Data Amalgamation Data Cleansing Intelligent Information Integration: I³ Data Consolidation 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 4 Forschungsgruppe Informationsintegration Juniorprofessor: Felix Naumann Wissenschaftliche Mitarbeiter / Doktoranden Studentische Hilfskräfte Jens Bleiholder Melanie Weis Armin Roth Alexander Bilke Karsten Draba (HumMer Projekt) Veronique Tietz (Aladin Projekt) Erik Witzmann (DB2 Metasearch Projekt) http://www.informatik.hu-berlin.de/mac/ 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 5 User Interface Tables Query Optimization Duplicate Detection SQL XQuery RDB Metadata Services Data Lineage Data Statistics XML RDB Metadata Repository Schema Mapping XML Data RDB2XML transformation Schema Matching XML2RDB Samples Schema conversion DBMS 18.10.2005 XML Graphical Query Builder SQL XQuery Data Fusion Query Execution HumMer – Humboldt Merger Data Import Data Visualization ... RDB2XML DBMS XML2RDB XML ... XML Felix Naumann, VL Informationsintegration, WS 05/06 6 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7 Laufende Studien- und Diplomarbeiten Diplomarbeiten Entwicklung einer Testumgebung für ein Peer Data Management System Entwurf eines Peer Data Management Systems mit Steuerungs- und Simulationskomponente Datentransformation mittels Schema Mapping Tree-Edit Distance für XML Duplikaterkennung Studienarbeiten Transformation von DB2 Datenbanken in XML Dokumente mittels SQL/XML Similar Pattern Search in History Data Minimum Union als DB2 table function 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 8 Freie Stellen Studentische Hilfskraft HumMerDB: Testdaten für den Humboldt Merger 80h / Monat Demnächst ausgeschrieben Studien- und Diplomarbeiten Zurzeit keine frei Themenvorschläge sind aber willkommen Mehr gegen Ende des Semesters 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 9 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 10 Voraussetzungen Vordiplom VL Datenbanken I (DBS I) oder äquivalente Grundkenntnisse in Datenbanken Falls Sie Fragen haben in Bezug auf die äquivalenten Grundkenntnisse, schreiben Sie mir bitte eine Email. Es genügt nicht, DBS I parallel zu dieser VL zu hören. Einordnung in den Fahrplan zum Datenbankstudium Voraussetzung zur Zulassung zur mündlichen Prüfung ist die erfolgreiche Teilnahme am Praktikum. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 11 Termine Vorlesung Praktikum Dienstags 13:15 – 14:45 Donnerstags 13:15 – 14:45 Dienstags 15:15 – 16:45 Erstes Praktikum: 25.10. Letzte Vorlesung: 16.2.2005 Weihnachten: 19.12. – 29.12. Insgesamt 32 Veranstaltungen Prüfungstermine i.d.R. 2 Wochen nach Wintersemester i.d.R. 2 Wochen vor Sommersemester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 12 Andere Veranstaltungen Fahrplan durch das DB Studium Forschungsseminar http://www.informatik.huberlin.de/mac/fahrplandatenbanken.html Neue Entwicklungen in der Bioinformatik und Informationsintegration Termin: Mittwochs 11 Uhr in 4.113 Weitere: Blockseminar: Graphmanagement in Datenbanken Dozent: Prof. Ulf Leser 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 13 Feedback Schon Evaluation angesehen? http://www.informatik.huberlin.de/~koessler/evalu/Fragebogen_auswertung.html Evaluation am Ende des Semesters Fragen bitte jederzeit! In der VL Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr) Email: [email protected] Anregungen zur Verbesserung: Z.B. zu Gebrauch der Folien Infos im WWW Jeweils nach der VL oder in der Sprechstunde Oder per Email: [email protected] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 14 Literatur Leider kein geeignetes Lehrbuch Themen u.a. aus Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, ISBN: 3540631763 Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez ISBN: 0136597076 Jeweils Hinweise in den Vorlesungen Alle genannten Artikel können von mir per Email angefragt werden. Oder: Google Scholar: http://scholar.google.com/ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html CiteSeer: http://citeseer.ist.psu.edu/ Homepages der Autoren 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15 Fotos 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 16 Praktikum Metasuchmaschine Web Services Phase I Wrapper Web Service für eine Suchmaschine Phase II Spezielle Web Services für die Metasuchmaschine, z.B. WrapperService: Automatische Erstellung eines neuen Suchmaschinen Wrappers DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten SamplingService: Metadaten Sammlung OptimierungsService: Auswahl relevanter Suchmaschinen DuplikaterkennungsService: Erkennung doppelter HTML Seiten DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse RankmergingService: Erstellung eines globalen Ergebnisrankings AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 17 Praktikum Scheinvoraussetzungen Besuch der Vorlesung Informationsintegration Aktive Teilnahme an den Praktikumsterminen Erfolgreiche Erstellung eines Wrapper-Services für eine Suchmaschine in Einzelarbeit Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum Erfolgreiche Erstellung eines weiteren Web Services für die Metasuchmaschine in Gruppenarbeit Vorstellung Ihres Integrations-Services vor dem Plenum Erstellung eines Abschlußberichts in Gruppenarbeit 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 18 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 19 Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2… 18.10.2005 Dateisystem Web Service Anwendung HTML Form Felix Naumann, VL Informationsintegration, WS 05/06 Integriertes Info.-system 20 Was ist Informationsintegration? Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge. Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 21 Wo herrscht Informationsintegration? Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration) Im engeren Sinne Datenbanken und Informationssysteme Verteilt Autonom Heterogen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 22 Beispiele für Informationssysteme Dateisystem Informationseinheit: Flat file Anfrage: File search, RegEx Struktur: Flach oder hierarchisch Beispiele Einsatzgebiete 18.10.2005 NTFS NIS FTP Zugriff WWW (HTML Dateien) Desktop-Anwendungen (Textverarbeitung, etc.) Felix Naumann, VL Informationsintegration, WS 05/06 23 Beispiele für Informationssysteme Datei Informationseinheit: Zeile /Token Anfrage: Parser Struktur: Flach 18.10.2005 Beispiele Komma-delimited files Annotated files Einsatzgebiete SwissProt Felix Naumann, VL Informationsintegration, WS 05/06 24 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25 Beispiele für Informationssysteme Markup Datei Informationseinheit: Tagged text Anfrage: Parser, Anfragesprache Struktur: Flach, hierarchisch oder graph-basiert 18.10.2005 Beispiele XML HTML Einsatzgebiete Web Services Messages Interoperationale Anwendungen Felix Naumann, VL Informationsintegration, WS 05/06 26 Beispiele für Informationssysteme Datenbank Anfrage: Komplexe Sprache, z.B. SQL Informationseinheit: Tupel / Attribut, Objekt Struktur: Relational, OO, Hierarchisch 18.10.2005 Beispiele Relationale DBMS OO DBMS Auch: XML DBMS Einsatzgebiete Data Warehouses OLTP Banken/Versicherungen Felix Naumann, VL Informationsintegration, WS 05/06 27 Beispiele für Informationssysteme HTML Formular Informationseinheit: HTML Seite, Text Anfrage: Suchworte, Formular (inkl. Radiobutton, dropdown-list, etc.) Struktur: wie Markup Datei: Flach, hierarchisch oder graphbasiert I.d.R. flach 18.10.2005 Beispiele Einfache Suchformulare Komplexe Anfrageformulare Einsatzgebiete Suchmaschinen Reisedienste Kataloge Felix Naumann, VL Informationsintegration, WS 05/06 28 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 29 Beispiele für Informationssysteme Web Service Informationseinheit: XML Dokument Anfrage XML Dokument Struktur: Wie XML: Flach, hierarchisch, graphbasiert 18.10.2005 Beispiele Einfach: Temperaturdienst, etc Komplex: Reservierungen (Schachtelung und Verknüpfung von Web Services) Einsatzgebiete Intra-organisatorische Workflows E-Marketplaces Datenaustausch Felix Naumann, VL Informationsintegration, WS 05/06 30 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31 Beispiele für Informationssysteme Anwendung Informationseinheit: Java Objekt, Text Anfrage: via Anwendungsschnittstelle oder GUI Struktur: Objekt (Interface) Display (GUI) 18.10.2005 Beispiele Java, C++, etc Legacy Informationssysteme Einsatzgebiete Komplexe Analysen (Data Mining, Statistik) Felix Naumann, VL Informationsintegration, WS 05/06 32 Beispiele für Informationssysteme Integriertes Informationssystem Verhält sich in Anfrage, Struktur und Informationseinheit je nach Design: DBMS HTML Formular Web Service ... 18.10.2005 Beispiele Data Warehouses Föderierte Datenbanken Portale Einsatzgebiete: Meta Search Life Sciences Int. Unternehmen Intranets Felix Naumann, VL Informationsintegration, WS 05/06 33 Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2… 18.10.2005 Dateisystem Web Service Anwendung HTML Form Felix Naumann, VL Informationsintegration, WS 05/06 Integriertes Info.-system 34 Integrierte Suchmaschinen Anfrage Meta-Suchmaschine Intranet Thesaurus Index 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 35 Integration = Abstraktion Logisches DB-Design abstrahiert von physischem DB-Design 1. Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ Informationsintegration abstrahiert von logischen DB Design 2. Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen Unterschieden (hoffentlich!) 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 36 Anwendungsgebiet 1: Business [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 37 Anwendungsgebiet 2: Wissenschaft [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 38 Anwendungsgebiet 3: Das Web [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 39 Informationsintegration: Ein altes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung, ...) Neue Arten von Nutzern (Laien, Manager, Admins, ...) Alon Halevy: „It‘s plain hard!“ [Halevy04] 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 40 Warum ist es so schwer? [Halevy04] System-bedingte Gründe Soziale Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen Integrationsarchitektur. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 41 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 42 Informationsintegration Web Service A Web Service B Integration 18.10.2005 <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Identifikation Fusion Optimierung Felix Naumann, VL Informationsintegration, WS 05/06 Visualisierung 43 Beispiel – Web Service A Web Service A Standort: Trier Operation: getPubByAuthor(firstName, lastName) getPubByTitle(title) Output-Struktur: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 44 Beispiel – Web Service A Output 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 45 Beispiel – Web Service B Web Service B Standort: Humboldt-Universität Operation: myPubs(Autor, Jahr) Struktur: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 46 Beispiel – Web Service B Output 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 47 Integration von Web Services A&B 1. 2. 3. 4. 5. 6. 7. 8. 9. Nutzerschnittstelle Schema Integration / Schema Mapping Anfrage-Umwandlung Zeit abschätzen (Optimierung) Requests an beide Services abschicken Antworten einholen Objektidentifikation Integrationsschritte 1. Konfliktlösung etc. 2. Entscheidung kleinster gemeinsamer Nenner? 3. Durchführung (deklarativ, prozedural) Anzeige beim Nutzer 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 48 Nutzerschnittstellen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 49 Informationsintegration Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year> </pub> Schemaintegration Schema Mapping Modellierung durch eine Menge von Anfragen (Views) 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 50 Anfrage Umwandlung Integration der Anfrage durch Mediator: Integrierte Schnittstelle Z.B. Concat(First Name, Last Name) = Autor 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 51 Anfrageoptimierung Was ist besser: Eine schnelle Antwort oder vollständige Antwort? Web Service A in Trier (remote) Web Service B in Adlershof (local) Web Service A hat mehr Attribute und mehr Objekte. Web Service B hat weniger Attribute. Außerdem: Eine Suche nach „year“ kann nur durch Web Service B beantwortet werden. Transformationen können teuer sein. 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 52 Zwei Resultate Web Service A Web Service B 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 53 Schema Matching ? 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 54 Objektidentifikation 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 55 Objektidentifikation Edit-distance: 5 Zusammen? Edit-distance: 6 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 56 Stand der Dinge Wir haben die heterogenen Informationen. Wir wissen, was wir integrieren wollen. Aber noch nicht wie: Integriertes Schema Integrierte Daten 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 57 Angestrebtes Integrationsergebnis + = Integriertes Schema: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 58 Angestrebtes Integrationsergebnis Integrierte Daten: 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 59 Integrierte Daten – was ist passiert? Konfliktlösung NeuStrukturierung Vorher: „Naumann“ Neu 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 60 Implementierung Auf Folien ist alles klar, aber wie implementieren? Deklarativ? SQL, XQuery, XSLT Oft nicht alles möglich Langsam Prozedural? Java, C++ Schlecht wartbar Schnell 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 61 Anzeige beim Nutzer Konfliktlösung Visualisierung der Datenherkunft Qualität veränderten Daten Operationen 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 Vorher: „Naumann“ 62 Überblick Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 63 Integrierte Informationssysteme Anfrage Design time Architekturen Anfragesprache Run time Datenfusion / ETL Integriertes Informationssystem Anfrageplanung Schemamanagement Optimierung Wrapper Anfrageausführung Oracle, DB2… 18.10.2005 Dateisystem Web Service Anwendung HTML Form Felix Naumann, VL Informationsintegration, WS 05/06 Integriertes Info.-system 64 Erste Hälfte 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Einführung in die Informationsintegration Szenarien der Informationsintegration Verteilung und Autonomie Heterogenität Materialisierte und virtuelle Integration Klassifikation integrierter Informationssysteme und 5-Schichten Architektur Mediator/Wrapper-Architektur Global-as-View und Lokal-as-View Modellierung Global-as-View Anfragebearbeitung SchemaSQL Verteilte Anfragebearbeitung Dynamische Programmierung in verteilten Datenbanken Top-N Anfragen Problemstellung Architekturen Modellierung Optimierung 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 65 Zweite Hälfte 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Informationsqualität Duplikaterkennung ETL & Data Lineage Datenfusion - Union & Co. Containment & Local-as-View Anfragebearbeitung Bucket Algorithmus Peer-Data-Management Systeme (PDMS) Schema Mapping Schema Matching Hidden Web Semantic Web Forschungsprojekte - TSIMMIS, Garlic, Revere, etc Data Streams Konflikte Anfragen Mapping Systeme 18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 66 Fragen, Wünsche und Vorstellungen Jetzt, oder... Raum: Sprechstunden: Email: Telefon: 18.10.2005 IV.122 Donnerstags 15 Uhr oder n.V. naumann@informatik (030) 2093 3905 Felix Naumann, VL Informationsintegration, WS 05/06 67