Einführung - Hu

Werbung
Informationsintegration
Einführung
18.10.2005
Felix Naumann
Integrierte
Informationssysteme
Anfrage
Integriertes Informationssystem
Oracle,
DB2…
18.10.2005
Dateisystem
Web
Service
Anwendung
HTML
Form
Felix Naumann, VL Informationsintegration, WS 05/06
Integriertes
Info.-system
2
Einige Untertitel







Content Merging
Objekt Fusion
Datenintegration
Data Amalgamation
Data Cleansing
Intelligent Information Integration: I³
Data Consolidation
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
3
Überblick





Vorstellung der Arbeitsgruppe
Organisatorisches
Informationssysteme
Informationsintegration am
Beispiel
Ausblick auf das Semester
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
4
Forschungsgruppe
Informationsintegration


Juniorprofessor: Felix Naumann
Wissenschaftliche Mitarbeiter / Doktoranden





Studentische Hilfskräfte




Jens Bleiholder
Melanie Weis
Armin Roth
Alexander Bilke
Karsten Draba (HumMer Projekt)
Veronique Tietz (Aladin Projekt)
Erik Witzmann (DB2 Metasearch Projekt)
http://www.informatik.hu-berlin.de/mac/
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
5
User
Interface
Tables
Query
Optimization
Duplicate
Detection
SQL XQuery
RDB
Metadata
Services
Data
Lineage
Data
Statistics
XML
RDB
Metadata
Repository
Schema
Mapping
XML
Data
RDB2XML
transformation
Schema
Matching
XML2RDB
Samples
Schema
conversion
DBMS
18.10.2005
XML
Graphical
Query Builder
SQL XQuery
Data
Fusion
Query Execution
HumMer –
Humboldt Merger
Data Import
Data Visualization
...
RDB2XML
DBMS
XML2RDB
XML
...
XML
Felix Naumann, VL Informationsintegration, WS 05/06
6
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
7
Laufende Studien- und
Diplomarbeiten

Diplomarbeiten





Entwicklung einer Testumgebung für ein Peer Data
Management System
Entwurf eines Peer Data Management Systems mit
Steuerungs- und Simulationskomponente
Datentransformation mittels Schema Mapping
Tree-Edit Distance für XML Duplikaterkennung
Studienarbeiten



Transformation von DB2 Datenbanken in XML Dokumente
mittels SQL/XML
Similar Pattern Search in History Data
Minimum Union als DB2 table function
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
8
Freie Stellen

Studentische Hilfskraft




HumMerDB: Testdaten für den Humboldt Merger
80h / Monat
Demnächst ausgeschrieben
Studien- und Diplomarbeiten



Zurzeit keine frei
Themenvorschläge sind aber willkommen
Mehr gegen Ende des Semesters
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
9
Überblick





Vorstellung der Arbeitsgruppe
Organisatorisches
Informationssysteme
Informationsintegration am
Beispiel
Ausblick auf das Semester
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
10
Voraussetzungen




Vordiplom
VL Datenbanken I (DBS I) oder äquivalente
Grundkenntnisse in Datenbanken
 Falls Sie Fragen haben in Bezug auf die äquivalenten
Grundkenntnisse, schreiben Sie mir bitte eine Email.
 Es genügt nicht, DBS I parallel zu dieser VL zu hören.
Einordnung in den Fahrplan zum Datenbankstudium
Voraussetzung zur Zulassung zur mündlichen Prüfung
ist die erfolgreiche Teilnahme am Praktikum.
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
11
Termine

Vorlesung



Praktikum






Dienstags 13:15 – 14:45
Donnerstags 13:15 – 14:45
Dienstags 15:15 – 16:45
Erstes Praktikum: 25.10.
Letzte Vorlesung: 16.2.2005
Weihnachten: 19.12. – 29.12.
Insgesamt 32 Veranstaltungen
Prüfungstermine


i.d.R. 2 Wochen nach Wintersemester
i.d.R. 2 Wochen vor Sommersemester
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
12
Andere Veranstaltungen

Fahrplan durch das DB Studium


Forschungsseminar



http://www.informatik.huberlin.de/mac/fahrplandatenbanken.html
Neue Entwicklungen in der Bioinformatik und
Informationsintegration
Termin: Mittwochs 11 Uhr in 4.113
Weitere:

Blockseminar: Graphmanagement in Datenbanken
Dozent: Prof. Ulf Leser
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
13
Feedback




Schon Evaluation angesehen?
 http://www.informatik.huberlin.de/~koessler/evalu/Fragebogen_auswertung.html
Evaluation am Ende des Semesters
Fragen bitte jederzeit!
 In der VL
 Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr)
 Email: [email protected]
Anregungen zur Verbesserung:
 Z.B. zu




Gebrauch der Folien
Infos im WWW
Jeweils nach der VL oder in der Sprechstunde
Oder per Email: [email protected]
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
14
Literatur




Leider kein geeignetes Lehrbuch
Themen u.a. aus
 Föderierte Datenbanksysteme. Konzepte der Datenintegration,
Stefan Conrad, ISBN: 3540631763
 Principles of Distributed Database Systems
M. Tamer Özsu, Patrick Valduriez
ISBN: 0136597076
Jeweils Hinweise in den Vorlesungen
Alle genannten Artikel können von mir per Email angefragt
werden. Oder:
 Google Scholar: http://scholar.google.com/
 DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html
 CiteSeer: http://citeseer.ist.psu.edu/
 Homepages der Autoren
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
15
Fotos
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
16
Praktikum



Metasuchmaschine
Web Services
Phase I


Wrapper Web Service für eine Suchmaschine
Phase II

Spezielle Web Services für die Metasuchmaschine, z.B.








WrapperService: Automatische Erstellung eines neuen Suchmaschinen
Wrappers
DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten
SamplingService: Metadaten Sammlung
OptimierungsService: Auswahl relevanter Suchmaschinen
DuplikaterkennungsService: Erkennung doppelter HTML Seiten
DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse
RankmergingService: Erstellung eines globalen Ergebnisrankings
AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
17
Praktikum

Scheinvoraussetzungen







Besuch der Vorlesung Informationsintegration
Aktive Teilnahme an den Praktikumsterminen
Erfolgreiche Erstellung eines Wrapper-Services für eine
Suchmaschine in Einzelarbeit
Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum
Erfolgreiche Erstellung eines weiteren Web Services für die
Metasuchmaschine in Gruppenarbeit
Vorstellung Ihres Integrations-Services vor dem Plenum
Erstellung eines Abschlußberichts in Gruppenarbeit
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
18
Überblick





Vorstellung der Arbeitsgruppe
Organisatorisches
Informationssysteme
Informationsintegration am
Beispiel
Ausblick auf das Semester
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
19
Integrierte
Informationssysteme
Anfrage
Integriertes Informationssystem
Oracle,
DB2…
18.10.2005
Dateisystem
Web
Service
Anwendung
HTML
Form
Felix Naumann, VL Informationsintegration, WS 05/06
Integriertes
Info.-system
20
Was ist
Informationsintegration?

Informationsintegration ist die Zusammenführung
von Daten und Inhalt verschiedener Quellen zu
einer einheitlichen Informationsmenge.

Informationsintegration ist die korrekte, vollständige
und effiziente Zusammenführung von Daten und
Inhalt verschiedener, heterogener Quellen zu einer
einheitlichen und strukturierten Informationsmenge
zur effektiven Interpretation durch Nutzer und
Anwendungen.
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
21
Wo herrscht
Informationsintegration?

Im weiteren Sinne




Business-Integration
Application-Integration
Prozess-Integration (Workflow-Integration)
Im engeren Sinne

Datenbanken und Informationssysteme



Verteilt
Autonom
Heterogen
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
22
Beispiele für
Informationssysteme

Dateisystem




Informationseinheit:
Flat file
Anfrage:
File search, RegEx
Struktur:
Flach oder hierarchisch
Beispiele




Einsatzgebiete


18.10.2005
NTFS
NIS
FTP Zugriff
WWW (HTML Dateien)
Desktop-Anwendungen
(Textverarbeitung, etc.)
Felix Naumann, VL Informationsintegration, WS 05/06
23
Beispiele für
Informationssysteme

Datei




Informationseinheit:
Zeile /Token
Anfrage:
Parser
Struktur:
Flach
18.10.2005
Beispiele



Komma-delimited files
Annotated files
Einsatzgebiete

SwissProt
Felix Naumann, VL Informationsintegration, WS 05/06
24
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
25
Beispiele für
Informationssysteme

Markup Datei




Informationseinheit:
Tagged text
Anfrage:
Parser, Anfragesprache
Struktur:
Flach, hierarchisch oder
graph-basiert
18.10.2005
Beispiele



XML
HTML
Einsatzgebiete



Web Services
Messages
Interoperationale
Anwendungen
Felix Naumann, VL Informationsintegration, WS 05/06
26
Beispiele für
Informationssysteme

Datenbank




Anfrage:
Komplexe Sprache, z.B.
SQL
Informationseinheit:
Tupel / Attribut, Objekt
Struktur:
Relational, OO,
Hierarchisch
18.10.2005
Beispiele




Relationale DBMS
OO DBMS
Auch: XML DBMS
Einsatzgebiete



Data Warehouses
OLTP
Banken/Versicherungen
Felix Naumann, VL Informationsintegration, WS 05/06
27
Beispiele für
Informationssysteme

HTML Formular



Informationseinheit:
HTML Seite, Text
Anfrage:
Suchworte, Formular
(inkl. Radiobutton,
dropdown-list, etc.)
Struktur:
wie Markup Datei: Flach,
hierarchisch oder graphbasiert
I.d.R. flach
18.10.2005

Beispiele



Einfache Suchformulare
Komplexe
Anfrageformulare
Einsatzgebiete



Suchmaschinen
Reisedienste
Kataloge
Felix Naumann, VL Informationsintegration, WS 05/06
28
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
29
Beispiele für
Informationssysteme

Web Service
 Informationseinheit:
XML Dokument
 Anfrage
XML Dokument
 Struktur:
Wie XML: Flach,
hierarchisch, graphbasiert
18.10.2005


Beispiele
 Einfach:
Temperaturdienst, etc
 Komplex:
Reservierungen
(Schachtelung und
Verknüpfung von Web
Services)
Einsatzgebiete
 Intra-organisatorische
Workflows
 E-Marketplaces
 Datenaustausch
Felix Naumann, VL Informationsintegration, WS 05/06
30
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
31
Beispiele für
Informationssysteme

Anwendung




Informationseinheit:
Java Objekt, Text
Anfrage:
via Anwendungsschnittstelle oder GUI
Struktur:
Objekt (Interface)
Display (GUI)
18.10.2005
Beispiele



Java, C++, etc
Legacy
Informationssysteme
Einsatzgebiete

Komplexe Analysen
(Data Mining, Statistik)
Felix Naumann, VL Informationsintegration, WS 05/06
32
Beispiele für
Informationssysteme

Integriertes
Informationssystem

Verhält sich in Anfrage,
Struktur und
Informationseinheit je
nach Design:
 DBMS
 HTML Formular
 Web Service
 ...
18.10.2005

Beispiele




Data Warehouses
Föderierte Datenbanken
Portale
Einsatzgebiete:




Meta Search
Life Sciences
Int. Unternehmen
Intranets
Felix Naumann, VL Informationsintegration, WS 05/06
33
Integrierte
Informationssysteme
Anfrage
Integriertes Informationssystem
Oracle,
DB2…
18.10.2005
Dateisystem
Web
Service
Anwendung
HTML
Form
Felix Naumann, VL Informationsintegration, WS 05/06
Integriertes
Info.-system
34
Integrierte Suchmaschinen
Anfrage
Meta-Suchmaschine
Intranet Thesaurus
Index
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
35
Integration = Abstraktion
Logisches DB-Design abstrahiert von
physischem DB-Design
1.


Datenunabhängigkeit
Anfragen: Prozedural vs. deklarativ
Informationsintegration abstrahiert von
logischen DB Design
2.



Quellenunabhängigkeit (Speicherort)
Datenmodell- und Syntaxunabhängigkeit
Unabhängigkeit von semantischen
Unterschieden (hoffentlich!)
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
36
Anwendungsgebiet 1: Business
[Halevy04]
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
37
Anwendungsgebiet 2:
Wissenschaft [Halevy04]
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
38
Anwendungsgebiet 3: Das Web
[Halevy04]
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
39
Informationsintegration: Ein
altes Problem





Seit 50 Jahren auf der Forschungsagenda
Frühe Systeme in den 70ern
Integration per Hand natürlich noch früher
Neue Probleme
 Viele, viele Quellen
 Heterogenität
 Neue Arten von Daten (XML, GIS, OO,...)
 Neue Arten von Anfragen (Search, UDFs,...)
 Neue Arten von Ergebnissen (Ranking, Visualisierung, ...)
 Neue Arten von Nutzern (Laien, Manager, Admins, ...)
Alon Halevy: „It‘s plain hard!“ [Halevy04]
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
40
Warum ist es so schwer? [Halevy04]

System-bedingte Gründe



Soziale Gründe




Verschiedene Plattformen
Anfragebearbeitung über mehrere Systeme
Finden relevanter Daten in Unternehmen
Beschaffen relevanter Daten in Unternehmen
Menschen zur Zusammenarbeit überreden
Logik-bedingte Gründe


Schema- und Datenheterogenität
Dies ist unabhängig von der jeweiligen
Integrationsarchitektur.
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
41
Überblick





Vorstellung der Arbeitsgruppe
Organisatorisches
Informationssysteme
Informationsintegration am
Beispiel
Ausblick auf das Semester
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
42
Informationsintegration
Web
Service
A
Web
Service
B
Integration
18.10.2005
<pub>
<Titel> Federated Database
Systems </Titel>
<Autoren>
<Autor> Amit Sheth </Autor>
<Autor> James Larson </Autor>
</Autoren>
</pub>
<publication>
<title> Federated Database
Systems for Managing
Distributed, Heterogeneous,
and Autonomous
Databases </title>
<auth> Scheth & Larson </auth>
<year> 1990 </year>
</publication>
Identifikation
Fusion
Optimierung
Felix Naumann, VL Informationsintegration, WS 05/06
Visualisierung
43
Beispiel – Web Service A

Web Service A


Standort: Trier
Operation:



getPubByAuthor(firstName, lastName)
getPubByTitle(title)
Output-Struktur:
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
44
Beispiel – Web Service A
Output
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
45
Beispiel – Web Service B

Web Service B



Standort: Humboldt-Universität
Operation: myPubs(Autor, Jahr)
Struktur:
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
46
Beispiel – Web Service B
Output
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
47
Integration von Web Services
A&B
1.
2.
3.
4.
5.
6.
7.
8.
9.
Nutzerschnittstelle
Schema Integration / Schema Mapping
Anfrage-Umwandlung
Zeit abschätzen (Optimierung)
Requests an beide Services abschicken
Antworten einholen
Objektidentifikation
Integrationsschritte
1.
Konfliktlösung etc.
2.
Entscheidung kleinster gemeinsamer Nenner?
3.
Durchführung (deklarativ, prozedural)
Anzeige beim Nutzer
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
48
Nutzerschnittstellen
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
49
Informationsintegration
Web
Service
A
Web
Service
B
<pub>
<Titel> Federated Database
Systems </Titel>
<Autoren>
<Autor> Amit Sheth </Autor>
<Autor> James Larson </Autor>
</Autoren>
</pub>
<publication>
<title> Federated Database
Systems for Managing
Distributed, Heterogeneous,
and Autonomous
Databases </title>
<auth> Scheth & Larson </auth>
<year> 1990 </year>
</publication>
<pub>
<Titel> </Titel>
<Autoren>
<Autor> </Autor>
<Autor> </Autor>
</Autoren>
<year> </year>
</pub>
Schemaintegration
Schema Mapping
Modellierung durch eine Menge von Anfragen (Views)
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
50
Anfrage Umwandlung

Integration der Anfrage durch Mediator:


Integrierte Schnittstelle
Z.B.
Concat(First Name, Last Name)
= Autor
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
51
Anfrageoptimierung

Was ist besser: Eine schnelle Antwort oder
vollständige Antwort?





Web Service A in Trier (remote)
Web Service B in Adlershof (local)
Web Service A hat mehr Attribute und mehr Objekte.
Web Service B hat weniger Attribute.
Außerdem:


Eine Suche nach „year“ kann nur durch Web Service B
beantwortet werden.
Transformationen können teuer sein.
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
52
Zwei Resultate
Web Service A
Web Service B
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
53
Schema Matching
?
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
54
Objektidentifikation
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
55
Objektidentifikation
Edit-distance: 5
Zusammen?
Edit-distance: 6
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
56
Stand der Dinge



Wir haben die heterogenen Informationen.
Wir wissen, was wir integrieren wollen.
Aber noch nicht wie:


Integriertes Schema
Integrierte Daten
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
57
Angestrebtes
Integrationsergebnis
+
=
Integriertes Schema:
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
58
Angestrebtes
Integrationsergebnis
Integrierte Daten:
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
59
Integrierte Daten – was ist
passiert?
Konfliktlösung
NeuStrukturierung
Vorher:
„Naumann“
Neu
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
60
Implementierung


Auf Folien ist alles klar, aber wie implementieren?
Deklarativ?




SQL, XQuery, XSLT
Oft nicht alles möglich
Langsam
Prozedural?



Java, C++
Schlecht wartbar
Schnell
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
61
Anzeige beim Nutzer
Konfliktlösung

Visualisierung der




Datenherkunft
Qualität
veränderten Daten
Operationen
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
Vorher:
„Naumann“
62
Überblick





Vorstellung der Arbeitsgruppe
Organisatorisches
Informationssysteme
Informationsintegration am
Beispiel
Ausblick auf das Semester
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
63
Integrierte
Informationssysteme
Anfrage
Design time
Architekturen
Anfragesprache
Run time
Datenfusion / ETL
Integriertes Informationssystem
Anfrageplanung
Schemamanagement
Optimierung
Wrapper
Anfrageausführung
Oracle,
DB2…
18.10.2005
Dateisystem
Web
Service
Anwendung
HTML
Form
Felix Naumann, VL Informationsintegration, WS 05/06
Integriertes
Info.-system
64
Erste Hälfte
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Einführung in die Informationsintegration
Szenarien der Informationsintegration
Verteilung und Autonomie
Heterogenität
Materialisierte und virtuelle Integration
Klassifikation integrierter Informationssysteme und 5-Schichten
Architektur
Mediator/Wrapper-Architektur
Global-as-View und Lokal-as-View Modellierung
Global-as-View Anfragebearbeitung
SchemaSQL
Verteilte Anfragebearbeitung
Dynamische Programmierung in verteilten Datenbanken
Top-N Anfragen
Problemstellung
Architekturen
Modellierung
Optimierung
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
65
Zweite Hälfte
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Informationsqualität
Duplikaterkennung
ETL & Data Lineage
Datenfusion - Union & Co.
Containment & Local-as-View Anfragebearbeitung
Bucket Algorithmus
Peer-Data-Management Systeme (PDMS)
Schema Mapping
Schema Matching
Hidden Web
Semantic Web
Forschungsprojekte - TSIMMIS, Garlic, Revere, etc
Data Streams
Konflikte
Anfragen
Mapping
Systeme
18.10.2005
Felix Naumann, VL Informationsintegration, WS 05/06
66
Fragen, Wünsche und
Vorstellungen

Jetzt, oder...

Raum:
Sprechstunden:



Email:
Telefon:
18.10.2005
IV.122
Donnerstags 15 Uhr
oder n.V.
naumann@informatik
(030) 2093 3905
Felix Naumann, VL Informationsintegration, WS 05/06
67
Herunterladen