Informationsintegration Beispiel Informationsintegration

Werbung
Informationsintegration
Beispiel
17.4.2007
Felix Naumann
Informationsintegration
2
Web
Service
A
Web
Service
B
Integration
<pub>
<Titel> Federated Database
Systems </Titel>
<Autoren>
<Autor> Amit Sheth </Autor>
<Autor> James Larson </Autor>
</Autoren>
</pub>
<publication>
<title> Federated Database
Systems for Managing
Distributed, Heterogeneous,
and Autonomous
Databases </title>
<auth> Scheth & Larson </auth>
<year> 1990 </year>
</publication>
Identifikation
Fusion
Optimierung
Visualisierung
Felix Naumann | Informationsintegration | SoSe 2007
1
Beispiel – Web Service A
3
■ Standort: Trier
■ Operation:
□ getPubByAuthor(firstName, lastName)
□ getPubByTitle(title)
■ Output-Struktur:
Felix Naumann | Informationsintegration | SoSe 2007
Beispiel – Web Service A Output
4
Felix Naumann | Informationsintegration | SoSe 2007
2
Beispiel – Web Service B
5
■ Standort: Humboldt-Universität
■ Operation: myPubs(Autor, Jahr)
■ Struktur:
Felix Naumann | Informationsintegration | SoSe 2007
Beispiel – Web Service B Output
6
Felix Naumann | Informationsintegration | SoSe 2007
3
Integration von Web Services A & B
7
1. Nutzerschnittstelle
2. Schema Integration / Schema Mapping
3. Anfrage-Umwandlung
4. Zeit abschätzen (Optimierung)
5. Requests an beide Services abschicken
6. Antworten einholen
7. Objektidentifikation
8. Integrationsschritte
1. Konfliktlösung etc.
2. Entscheidung kleinster gemeinsamer Nenner?
3. Durchführung (deklarativ, prozedural)
9. Anzeige beim Nutzer
Felix Naumann | Informationsintegration | SoSe 2007
Nutzerschnittstellen
8
Felix Naumann | Informationsintegration | SoSe 2007
4
Informationsintegration
9
Web
Service
A
Web
Service
B
<pub>
<Titel> Federated Database
Systems </Titel>
<Autoren>
<Autor> Amit Sheth </Autor>
<Autor> James Larson </Autor>
</Autoren>
</pub>
<pub>
<Titel> </Titel>
<Autoren>
<Autor> </Autor>
<Autor> </Autor>
</Autoren>
<year> </year>
</pub>
<publication>
<title> Federated Database
Systems for Managing
Distributed, Heterogeneous,
and Autonomous
Databases </title>
<auth> Scheth & Larson </auth>
<year> 1990 </year>
</publication>
Schemaintegration
Schema Mapping
Modellierung durch eine Menge von Anfragen (Views)
Felix Naumann | Informationsintegration | SoSe 2007
Anfrage Umwandlung
10
Integration der Anfrage durch Mediator:
■ Integrierte Schnittstelle
■ Z.B.
Concat(First Name, Last Name)
= Autor
Felix Naumann | Informationsintegration | SoSe 2007
5
Anfrageoptimierung
11
■ Was ist besser: Eine schnelle Antwort oder vollständige Antwort?
□ Web Service A in Trier (remote)
□ Web Service B in Adlershof (local)
□ Web Service A hat mehr Attribute und mehr Objekte.
□ Web Service B hat weniger Attribute.
■ Außerdem:
□ Eine Suche nach „year“ kann nur durch Web Service B
beantwortet werden.
□ Transformationen können teuer sein.
Felix Naumann | Informationsintegration | SoSe 2007
Zwei Resultate
12
Web Service A
Web Service B
Felix Naumann | Informationsintegration | SoSe 2007
6
Schema Matching
13
?
Felix Naumann | Informationsintegration | SoSe 2007
Objektidentifikation
14
Felix Naumann | Informationsintegration | SoSe 2007
7
Objektidentifikation
15
Edit-distance: 5
Edit-distance: 6
Zusammen?
Felix Naumann | Informationsintegration | SoSe 2007
Stand der Dinge
16
■ Wir haben die heterogenen Informationen.
■ Wir wissen, was wir integrieren wollen.
■ Aber noch nicht wie:
□ Integriertes Schema
□ Integrierte Daten
Felix Naumann | Informationsintegration | SoSe 2007
8
Angestrebtes Integrationsergebnis
17
+
=
Integriertes Schema:
Felix Naumann | Informationsintegration | SoSe 2007
Angestrebtes Integrationsergebnis
18
Integrierte Daten:
Felix Naumann | Informationsintegration | SoSe 2007
9
Integrierte Daten – was ist passiert?
19
Konfliktlösung
NeuStrukturierung
Vorher:
„Naumann“
Neu
Felix Naumann | Informationsintegration | SoSe 2007
Implementierung
20
■ Auf Folien ist alles klar, aber wie implementieren?
■ Deklarativ?
□ SQL, XQuery, XSLT
□ Oft nicht alles möglich
□ Langsam
■ Prozedural?
□ Java, C++
□ Schlecht wartbar
□ Schnell
Felix Naumann | Informationsintegration | SoSe 2007
10
Anzeige beim Nutzer
21
Konfliktlösung
Visualisierung der
■ Datenherkunft
Vorher:
„Naumann“
■ Qualität
■ veränderten Daten
■ Operationen
Felix Naumann | Informationsintegration | SoSe 2007
Integrierte Informationssysteme
22
Anfrage
Design time
Architekturen
Anfragesprache
Run time
Integriertes Informationssystem
Datenfusion / ETL
Anfrageplanung
Schemamanagement
Optimierung
Wrapper
Anfrageausführung
Oracle,
DB2…
Dateisystem
Web
Service
Anwendung
HTML
Form
Integriertes
Info.-system
Felix Naumann | Informationsintegration | SoSe 2007
11
Erste Hälfte
23
Einführung in die Informationsintegration
Problemstellung
Architekturen
Mapping
Szenarien der Informationsintegration
Verteilung und Autonomie
Heterogenität
Materialisierte und virtuelle Integration
5-Schichten Architektur
Mediator/Wrapper-Architektur / PDMS
Schema Mapping
Schema Matching
SchemaSQL
Modellierung
Global-as-View und Lokal-as-View Modellierung
Global-as-View Anfragebearbeitung
Felix Naumann | Informationsintegration | SoSe 2007
Zweite Hälfte
24
Anfragen
Containment & Local-as-View Anfragebearbeitung
Bucket Algorithmus
Verteilte Anfragebearbeitung
Optimierung
Konflikte
Dynamische Programmierung in verteilten Datenbanken
Top-N Anfragen
Duplikaterkennung
Datenfusion - Union & Co.
DWH, ETL & Data Lineage
Informationsqualität
Anwendungen
Hidden Web
Semantic Web
Felix Naumann | Informationsintegration | SoSe 2007
12
Fragen, Wünsche und Vorstellungen
25
■ Jetzt, oder...
■ Raum:
A.1-13
■ Sprechstunden:
Dienstags 15-16 Uhr
oder n.V.
■ Email:
[email protected]
■ Telefon:
(0331) 5509 280
Felix Naumann | Informationsintegration | SoSe 2007
13
Herunterladen