Präsentation

Werbung
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Auffinden von und Zugriff auf Datenquellen
Seminar Informationsintegration und Informationsqualität
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Dragan Sunjka
TU Kaiserslautern
30. Juni 2006
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Gliederung
Autonome Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische Klassifikation von Hidden-Web-Quellen
Beispiel
Data Management in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Autonomie
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Verteilung führt zu
Autonomie...
I
Intra-Organisation: historisch
I
Inter-Organisation: Internet
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Autonomie
I
Grad zu dem verschiedene DBMS unabhängig operieren
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Autonomieklassen
I
Entwurfsautonomie
I
Kommunikationsautonomie
I
Ausführungsautonomie
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Autonomieklassen
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Entwurfsautonomie
I
Datenmodell, Schema
Kommunikationsautonomie:
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
I
Wahl mit welchen Systemen wann was kommuniziert
wird, Anfragesprache
Ausführungsautonomie
I
Wahl wann und wie Anfragen ausgeführt werden
I
Wahl der Scheduling- und Optimierungs-Strategie
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Autonomie führt zu Heterogenität
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Autonomie als Ursache für Heterogenität:
Autonome Systeme
I
Gestaltungsfreiheit
⇒ unterschiedliche Entscheidungen
⇒ Heterogenität
I
technisch, logisch, semantisch
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Gliederung
Autonome Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische Klassifikation von Hidden-Web-Quellen
Beispiel
Data Management in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Mediation
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Mediation (2)
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Funktionen der Mediation
I
Suche und Auswahl von relevanten Datenquellen
I
Transformation der Daten anhand von Metadaten
I
Integration der transformierten Daten
I
Zusammenfassung zur Präsentation
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
⇒ Transformation von Daten zu Informationen
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Wrapper
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
I
I
Vermittlung zwischen Mediator und Datenquelle
jeweils spezialisiert auf eine Ausprägung autonomer,
heterogener Datenquellen
Auffinden von und
Zugriff auf
Datenquellen
Wrapper (2)
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Vorteile des Wrappings
I
überwinden
Heterogenitäten
I
Wiederverwendbarkeit
I
Unabhängigkeit der
Datenquellen
Nachteile des Wrappings
I
i.A. schlechtere Leistung
I
Aktualität der Wrapper
notwendig
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
XML Wrapper in IBM DB2 II
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
XML Wrapper in IBM DB2 II (2)
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Gliederung
Autonome Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische Klassifikation von Hidden-Web-Quellen
Beispiel
Data Management in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Surface Web vs. Hidden Web
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Surface Web
Hidden Web
I
Linkstruktur
I
keine Linkstruktur
I
zum Crawlen geeignet
I
Dokumente versteckt in
DBMS
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Hidden Web
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Statistiken zum Hidden Web
I
550 mal größer als das Surface Web
I
7500 Terabyte im Hidden Web
I
ca. 84% sind auf Textdokumente spezialisiert
I
ca. 95% des Hidden Web ist öffentlich verfügbar
I
am schnellsten wachsende Kategorie neuer
Informationen im Internet
Herausforderungen
I
I
Auffinden von relevanten Hidden-Web-Quellen
→ Klassifikation
Zugriff auf Hidden-Web-Quellen
→ Anfragesprache lernen
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Überblick
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Klassifikation: Zuordnung zu Kategorien in einer
Hierarchie
I
Manuell
I
I
Yahoo!, InvisibleWeb, SearchEngineGuide
Automatisch
Zwei Arten von Klassifikation
Coverage (Abdeckung)-basierte Klassifikation
I
#docs über das Thema
Specifity (Spezifizität)-basierte Klassifikation
I
#docs/|DB|
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Query Probing
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Classifier Learning
I
I
Input: Menge von bereits klassifizierten Dokumenten
Output: Menge von Klassifikationsregeln
I
I
I
I
IF
IF
IF
IF
linux THEN Computers
ibm AND intel THEN Computers
jordan AND bulls THEN Sports
diabetes THEN Health
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Query Probing
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Classifier Learning
I
I
Input: Menge von bereits klassifizierten Dokumenten
Output: Menge von Klassifikationsregeln
I
I
I
I
IF
IF
IF
IF
linux THEN Computers → +linux
ibm AND intel THEN Computers → +ibm +intel
jordan AND bulls THEN Sports → +jordan +bulls
diabetes THEN Health → +diabetes
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Query Probing
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Classifier Learning
I
I
Input: Menge von bereits klassifizierten Dokumenten
Output: Menge von Klassifikationsregeln
I
I
I
I
IF
IF
IF
IF
linux THEN Computers → +linux
ibm AND intel THEN Computers → +ibm +intel
jordan AND bulls THEN Sports → +jordan +bulls
diabetes THEN Health → +diabetes
Query Probing
I
Schicke Anfragen an die Datenbank
I
Hole (parse) Anzahl der Ergebnisse
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Klassifikation einer Datenbank
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
1. Schicke Anfragen für Top-Level-Kategorien
2. Hole Anzahl der Treffer für jede Anfrage
3. Berechne geschätzte Spezifizität und Abdeckung für
jede Kategorie
4. Bewege die Datenbank in die sich qualifizierenden
Kategorien (mit Spezifizität ≥ Ts, Abdeckung ≥ Tc)
5. Wiederhole für alle sich qualifizierenden Subkategorien
6. Gib alle Kategorien zurück, die sich qualfiziert haben
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Beispiel: ACM Digital Library (Tc=100, Ts=0.5)
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Gliederung
Autonome Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische Klassifikation von Hidden-Web-Quellen
Beispiel
Data Management in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Begriffsklärung: Grid
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Grid-Paradigma: Virtualisierung von Ressourcen
I
Ursprüngliche Idee: Rechenleistung aus der Steckdose
I
Ziel: High Performance Super-Computing
I
CPU-Rechenleisung und Arbeitsspeicher als einzige
Ressourcen im Grid
Data Grids
I
anfangs: Datentransfer nur dateibasiert,
Input/Output-Dateien
I
später: Speicherplatz als Ressource
I
heute: (semi-)strukturierte Daten als Ressourcen
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
OGSA-DAI
Open Grid Services Architecture - Data Access and
Integration
I
I
I
ein in Java entwickeltes Framework für den Zugriff auf
Datenbanken
Ziel: einheitliche Schnittstelle zum Zugriff auf
heterogene Datenbanken
versucht nicht, die Kluft zwischen SQL und XML zu
überbrücken
⇒ Überwindung technischer Heterogenität
Anfragen an Quellen
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
I
erfolgen mittels XML-basierten Perform-Dokumenten
I
Basisaktivitäten (Anfragen, Transformationen,
Übertragung)
Interaktion von Komponenten
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Herausforderungen
I
Common Data Model?
I
SQL vs. XML
I
XML WebRowSet ist flexibel aber ineffizient
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Dynamische Integration in Grid-Umgebungen
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Dynamische Integration heterogener,
autonomer, verteilter Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Merkmale
I
Zum Zeitpunkt der Anfrage gibt es kein globales
Schema
I
automatische Integration von neuen Quellen
I
OGSA-DAI als Infrastruktur
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
DynaGrid Architektur
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Zusammenfassung
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
I
viele Varianten klassischer
Mediator/Wrapper-Architektur
I
Wrapping zur Überbrückung der Heterogenität
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
I
Hidden Web wächst schnell
I
I
I
Wie findet man solche Eintrittspunkte?
Semantic Web?
zahlreiche autonome Datenquellen und schnell
wechselnde Benutzeranforderungen
I
dynamische Discovery und flexible
Schema-Matching-Verfahren
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Vielen Dank für die Aufmerksamkeit
Auffinden von und
Zugriff auf
Datenquellen
Dragan Sunjka
Autonome
Datenquellen
Autonomieklassen
Folgen der Autonomie
Mediatorbasierte
Systeme
Mediation
Wrapper
Fragen?
Hidden Web
Einleitung
Automatische
Klassifikation von
Hidden-Web-Quellen
Beispiel
Data Management
in Grids
Einleitung
OGSA-DAI
DynaGrid
Zusammenfassung
Herunterladen