Kein Folientitel - Competence Site

Werbung
Seminar
Enterprise Application Integration
Data Fusion
Steffen Koch
Betreuer: Holger Schwarz
Universität Stuttgart
SS 2000
Seminar SS2000 - Data Fusion
Folie 1
Übersicht
• Motivation
• Data Fusion/Informationsfusion
– Datenintegration/ -mangement
– KDD und Data Mining
– Datenfusion
• Anwendungsfelder der Informationsfusion
• Anforderungen
• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources
–
–
–
–
Das „TSIMMIS Mediation System“
Zusammenfassung von TSIMMIS
Einschätzung des TSIMMIS Systems
Andere Ansätze zur Informationsintegration
• Informationsfusion - ein Ausblick
• Literaturhinweise
Seminar SS2000 - Data Fusion
Folie 2
Motivation
• Inzwischen effiziente Speicherung großer Datenmengen möglich
• Zugriff auf weltweit verteilte Informationen durch moderne
Kommunikationsmedien (Internet)
Neue Nutzungspotentiale für unternehmensinterne
Informationssysteme durch Integration externer Informationen
Probleme:
–
–
–
–
–
–
–
Auffinden relevanter Daten
heterogene Datenbestände
Redundanzen, Inkonsistenzen
Aktualität, Vertrauenswürdigkeit
kein effizienter Zugriff
unzureichend strukturierte Daten
versteckte Information/implizites Wissens in Daten
Seminar SS2000 - Data Fusion
Folie 3
Der Begriff „Data Fusion“ bzw.
„Informationsfusion“
Data Fusion
= Informationsfusion
Datenintegration
und -management
Seminar SS2000 - Data Fusion
Data Mining/
Knowledge Discovery
in Databases(KDD)
Datenfusion
Folie 4
Datenintegration und - management
•
Ziel: Überwindung von Heterogenitäten auf
verschiedenen Ebenen
–
–
–
–
•
unterschiedliche Datenmodelle
verschiedene Datentypen
andere Einheiten, die den Daten zugrunde liegen
semistrukturierte Daten
Allgemeine Vorgehensweise:
– Transformation in gemeinsames Datenmodell
– Erkennung von Übereinstimmungen in den Schemata
Seminar SS2000 - Data Fusion
Folie 5
KDD und Data Mining
• Ziel von KDD:
Identifikation neuer, potentiell nützlicher und verständlicher Muster
in Datenbeständen.
• KDD läuft iterativ und interaktiv in mehreren Schritten ab:
1. Festlegung Problembereiche/Zielen
2. Datensammlung/ -bereinigung
3. Auswahl/Parametrisierung der Analysefunktionen
4. Data Mining
5. Bewertung/Interpretation der Ergebnisse
6. Nutzung des gefundenen Wissens
Seminar SS2000 - Data Fusion
Folie 6
Datenfusion
• Grundsätzlich: Die Kombination von Daten aus
verschiedenen (heterogenen) Quellen
• Anwendungsgebiete der Datenfusion:
– Multi-Sensor Fusion
– Image Fusion
– Multiple Source Interrogation
Seminar SS2000 - Data Fusion
Folie 7
Anwendungsfelder der
Informationsfusion
Überall dort, wo Daten aus unterschiedlichen Quellen kombiniert und
daraus neue Informationen abgeleitet werden sollen
Anwendungsszenario:
Betrieb einer großen
Telekommunikationsanlage
Kundendaten
Verbindungsdaten
Daten zum
Kommunikationsnetz
Integration und Verdichtung
dieser Datenbestände für:
•
•
•
•
Dispositive Bereiche
Marketing
Netzwerkmanagement
Systemmanagement
Produktdaten
Seminar SS2000 - Data Fusion
Folie 8
Übersicht
• Motivation
• Data Fusion/Informationsfusion
– Datenintegration/ -mangement
– KDD und Data Mining
– Datenfusion
• Anwendungsfelder der Informationsfusion
• Anforderungen
• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources
–
–
–
–
Das „TSIMMIS Mediation System“
Zusammenfassung von TSIMMIS
Einschätzung des TSIMMIS Systems
Andere Ansätze zur Informationsintegration
• Informationsfusion - ein Ausblick
• Literaturhinweise
Seminar SS2000 - Data Fusion
Folie 9
Anforderungen der
Informationsfusion (1)
• Datenzugriff:
– Transparenter Zugriff auf Daten
– Verarbeitung von Daten mit vorgegebener Struktur
– Verarbeitung und Optimierung von Anfragen
• Datenintegration
– Integrierte Sicht auf Daten durch homogenes Datenmodell
– Behebung von Konflikte auf Schema- und Instanzebene
– Repräsentation und Verwaltung quellübergreifender Beziehungen
Seminar SS2000 - Data Fusion
Folie 10
Anforderungen der
Informationsfusion (2)
• Analyse und Verdichtung
– Gewinnung von Daten einer „höheren“ Qualität durch Extrahieren von
Zusammenhängen und Abstraktionen, durch Filterung und Verdichtung der
Daten
• Präsentation und Weiterverarbeitung
• Repräsentation von Metainformationen
– Verwaltung von Metainformationen durch das System
– Sukzessive Anpassung/Erweiterung der Metainformationen während des
Fusionsprozesses
Seminar SS2000 - Data Fusion
Folie 11
Anforderungen im Datenbankbereich
•
•
•
•
Intelligente Unterstützung des Integrationsprozesses
Realisierung eines effizienten Datenzugriffs
Integration semistrukturierter Daten
Gewinnung von Metainformationen
Realisierung in DBMS durch
–
–
–
–
–
„offenen“ Optimierer
Integrationsmöglichkeiten
Unterstützung von „Ranking“
Repository für Metainformationen
Sampling
Seminar SS2000 - Data Fusion
Folie 12
Anforderungen im KDD-Bereich
•
•
•
•
Behandlung verschiedener Datentypen
Behandlung unsicherer/vager Daten
Effizienz/Skalierbarkeit der Verfahren
Verbesserung Aussagefähigkeit/Verständlichkeit der
Daten
Seminar SS2000 - Data Fusion
Folie 13
Anforderungen an Systemarchitektur
• Unterstützung iterativer/interaktiver Arbeitsweisen
• Anpassungsfähigkeit/Erweiterbarkeit des Systems
• Nutzerunterstützung bei Auswahl/Anwendung von
Fusionsmethoden
Seminar SS2000 - Data Fusion
Folie 14
Übersicht
• Motivation
• Data Fusion/Informationsfusion
– Datenintegration/ -mangement
– KDD und Data Mining
– Datenfusion
• Anwendungsfelder der Informationsfusion
• Anforderungen
• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources
–
–
–
–
Das „TSIMMIS Mediation System“
Zusammenfassung von TSIMMIS
Einschätzung des TSIMMIS Systems
Andere Ansätze zur Informationsintegration
• Informationsfusion - ein Ausblick
• Literaturhinweise
Seminar SS2000 - Data Fusion
Folie 15
Das „TSIMMIS Mediation System“
MSL oder LOREL
Komponenten von TSIMMIS:
– OEM (Object Exchange Model)
– Mediatoren
– MSL (Mediator Specification
Language)
– Wrapper
– LOREL (Lightweight Object
REpository Language)
Mediator
MSL
MediatorGenerator
Wrapper
WrapperGenerator
Information
Source
Seminar SS2000 - Data Fusion
Folie 16
Das Mediator Konzept
Ermöglicht integrierte Sicht auf Information aus
unterschiedlichen Datenquellen, die sich auf ein und
dasselbe Objekt beziehen.
Query
Mediator
Anforderungen an Mediatoren:
– Unterstützung breiter Vielfalt von Datenstrukturen
– Behandlung unzureichender/vager Daten
– Verwaltung von Metainformationen
Mediator
Anforderungen an Anfragesprache:
– Erstellung von Mediatoren
– Kopplung von Mediatoren an vorhandene
– Kopplung von Datenquellen an bereits vorhandene
Mediatoren
Wrapper
Wrapper
Source
Source
Mediatoren in TSIMMIS:
– Berücksichtigung von „Fähigkeiten“ der Datenquellen
– Zugriff auf Daten über Wrapper
Seminar SS2000 - Data Fusion
Folie 17
OEM (Object Exchange Model)
OEM-Objekt:
OID:
Konzepte von OEM:
–
–
–
–
OEM ist selbsterklärend
Flexibilität
Objektorientiertheit
OEM ist logisches
Datenmodell
label type value
OEM-Objektstruktur:
library set
...
book
set
author string Aho
title string Compilers...
Seminar SS2000 - Data Fusion
Folie 18
OEM als logisches Datenmodell
OEM - logisches Datenmodell auf Basis der
Prädikatenlogik erster Stufe
Betrachtung von Labels als Prädikate, die ObjektIDs mit
anderen ObjektIDs oder atomaren Werten verknüpfen.
Beispiele:
– Prädikat library(B) nimmt als Wert ObjektIDs aus „Value“-Feld an
– Prädikat book(B,X) identifiziert Menge von Paaren (b,x)
• b: ID des Buch-Objekts
• x: ObjektID aus Wertemenge von Buch
Seminar SS2000 - Data Fusion
Folie 19
MSL (Mediator Specification Language)
• erlaubt deklarative Spezifikation von Mediatoren
• logische, objektorientierte Anfragesprache für OEM
Anfragen haben Form von Regeln:
Regelkopf „:-“ Regelkorpus
Beispiel:
<booktitle X>:-<library{<book{<title X><author „Aho“>}>}>@s1
Regelkopf
Seminar SS2000 - Data Fusion
Regelkorpus
Folie 20
Aufbau von Mediatoren in TSIMMIS
Query
Logical Plan
View Expander
Logical
Matcher
Plan
Plan Generator
Source
Descriptions
Sequencer
Physical Plan
Optimizer
Execution Engine
Physical Plan
Source Queries
Seminar SS2000 - Data Fusion
Folie 21
Templates zur Beschreibung von
„Source Capabilities“
Verwendung von Templates für die Beschreibung der
„Fähigkeiten“ zur Anfragebeantwortung von Quellen
Templates für s1 und s2:
T11: X:-X:<entry {<title $T><author A><abs B>}>@s1
T21: X:-X:<entry {<title T><conf $C>}>@s2
T22: X:-X:<entry {<title $T><conf C>}>@s2
Seminar SS2000 - Data Fusion
gegeben:
T
C
T
liefert:
A,B
T
C
Folie 22
Wrapper in TSIMMIS
Wrapper bilden Schnittstellen zu den
heterogenen Datenquellen:
– Umwandlung von Anfragen in Quellanfragen
– Rückgabe von OEM Objekten
• Wrapper sind mit benutzerdefinierten Funktionen
für jedes Template ausgestattet.
• Rest der Definition wie Mediator!
Seminar SS2000 - Data Fusion
Folie 23
Generierung von Mediatoren/Wrappern
in TSIMMIS
In TSIMMIS stehen Tools für automatische
Generierung von Mediatoren/Wrappern zur
Verfügung
– Mediator Generator
– Wrapper Generator
Seminar SS2000 - Data Fusion
Folie 24
LOREL (Lightweight Object Repository
Language)
• LOREL ist OQL-basierte Anfragesprache für OEM-Modell
• In TSIMMIS end-user Anfragesprache
• Anfragesprache für das LORE lightweight Datenbanksystem zur
Speicherung von OEM-Objekten
Beispiel: Finde Bücher die von Aho verfasst wurden
SELECT library.book.title
(FROM library)
WHERE library.book.author = „Aho“
Wichtiger Unterschied zu OQL und SQL: „partial match“ Semantik
Seminar SS2000 - Data Fusion
Folie 25
Zusammenfassung von TSIMMIS
Wichtigste Merkmale von TSIMMIS:
•
•
•
•
Nutzung von OEM-Modell
Konzept von Mediatoren und Wrappern
MSL
LOREL
Seminar SS2000 - Data Fusion
Folie 26
Einschätzung des TSIMMIS Systems
TSIMMIS ist ein System zur Informationsintegration.
Vorteile:
– transparenter Zugriff auf heterogene verteilte Daten
– Verarbeitung semistrukturierter Daten
– Anfrageoptimierung
– Ausweitung der Anfragemächtigkeit
– Speicherung von Metadaten in ObjektIDs
– Anpassungfähigkeit/Erweiterbarkeit
Nachteile:
– keine Möglichkeit eines globalen Zugriffs auf lokale Optimierung
– Darstellung von semantischen Zusammenhängen kompliziert
Seminar SS2000 - Data Fusion
Folie 27
Andere Ansätze zur
Informationsintegration
Ansätze bisher:
• Ansätze zur Integration von strukturierten Datenbanken
• Abhängig von Datenmodellen mit großer „Semantik“
Alternativen zu TSIMMIS sind z.B:
• The Information Manifold
• SIMS
Unterschiede zu TSIMMIS:
• „Beurteilungsphase“ anstatt View Expander
• Capability Records anstatt Templates (bei IM)
• Wrapper schlanke Module, die nur direkte Anfragen zulassen (bei IM)
Seminar SS2000 - Data Fusion
Folie 28
Übersicht
• Motivation
• Data Fusion/Informationsfusion
– Datenintegration/ -mangement
– KDD und Data Mining
– Datenfusion
• Anwendungsfelder der Informationsfusion
• Anforderungen
• TSIMMIS - The Stanford IBM Manager of Multiple Information Sources
–
–
–
–
Das „TSIMMIS Mediation System“
Zusammenfassung von TSIMMIS
Einschätzung des TSIMMIS Systems
Andere Ansätze zur Informationsintegration
• Informationsfusion - ein Ausblick
• Literaturhinweise
Seminar SS2000 - Data Fusion
Folie 29
Informationsfusion - Ausblick
– Stetig wachsende Menge an verfügbarer Information
– Problematik der effizienten Nutzung
– Enormer Bedarf an Lösungen der intelligenten
Informationfusion
– Rege Forschungstätigkeit, erste Produkte (DataJoiner
von IBM, OLECOM von Microsoft)
Es steht zu erwarten, dass es viele innovative
Lösungsansätze oder Teillösungen auf dem Gebiet der
Informationsfusion geben wird und muss!
Seminar SS2000 - Data Fusion
Folie 30
Literatur
•
Stefan Conrad, Gunter Saake, Kai-Uwe Sattler (1999). Informationsfusion
- Herausforderungen an die Datenbanktechnologie. In: A.P. Buchmann
(Hrsg.) Datenbanksysteme in Büro, Technik und Wissenschaft, Freiburg, 1.3. März 1999, Springer, 1999. Seiten 307-316
•
Hector Garcia-Molina, Yannis Papakonstantinou, Dallan Quass, Anand
Rajaraman, Yehoshua Sagiv, Jeffrey Ullman, Vasilis Vassalos, Jennifer
Widom (1997) The TSIMMIS Approach to Mediation: Data Models and
Languages. In: Journal of Intelligent Systems, Volume 8, Number 2, March/
April 1997. Seiten 117-132.
Seminar SS2000 - Data Fusion
Folie 31
Herunterladen