Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Auffinden von und Zugriff auf Datenquellen Seminar Informationsintegration und Informationsqualität Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Dragan Sunjka TU Kaiserslautern 30. Juni 2006 Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Gliederung Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Autonomie Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Verteilung führt zu Autonomie... I Intra-Organisation: historisch I Inter-Organisation: Internet Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Autonomie I Grad zu dem verschiedene DBMS unabhängig operieren Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Autonomieklassen I Entwurfsautonomie I Kommunikationsautonomie I Ausführungsautonomie Einleitung OGSA-DAI DynaGrid Zusammenfassung Autonomieklassen Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Entwurfsautonomie I Datenmodell, Schema Kommunikationsautonomie: Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web I Wahl mit welchen Systemen wann was kommuniziert wird, Anfragesprache Ausführungsautonomie I Wahl wann und wie Anfragen ausgeführt werden I Wahl der Scheduling- und Optimierungs-Strategie Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Autonomie führt zu Heterogenität Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Autonomie als Ursache für Heterogenität: Autonome Systeme I Gestaltungsfreiheit ⇒ unterschiedliche Entscheidungen ⇒ Heterogenität I technisch, logisch, semantisch Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Gliederung Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Mediation Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Mediation (2) Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Funktionen der Mediation I Suche und Auswahl von relevanten Datenquellen I Transformation der Daten anhand von Metadaten I Integration der transformierten Daten I Zusammenfassung zur Präsentation Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids ⇒ Transformation von Daten zu Informationen Einleitung OGSA-DAI DynaGrid Zusammenfassung Wrapper Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung I I Vermittlung zwischen Mediator und Datenquelle jeweils spezialisiert auf eine Ausprägung autonomer, heterogener Datenquellen Auffinden von und Zugriff auf Datenquellen Wrapper (2) Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Vorteile des Wrappings I überwinden Heterogenitäten I Wiederverwendbarkeit I Unabhängigkeit der Datenquellen Nachteile des Wrappings I i.A. schlechtere Leistung I Aktualität der Wrapper notwendig Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung XML Wrapper in IBM DB2 II Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung XML Wrapper in IBM DB2 II (2) Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Gliederung Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Surface Web vs. Hidden Web Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Surface Web Hidden Web I Linkstruktur I keine Linkstruktur I zum Crawlen geeignet I Dokumente versteckt in DBMS Einleitung OGSA-DAI DynaGrid Zusammenfassung Hidden Web Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Statistiken zum Hidden Web I 550 mal größer als das Surface Web I 7500 Terabyte im Hidden Web I ca. 84% sind auf Textdokumente spezialisiert I ca. 95% des Hidden Web ist öffentlich verfügbar I am schnellsten wachsende Kategorie neuer Informationen im Internet Herausforderungen I I Auffinden von relevanten Hidden-Web-Quellen → Klassifikation Zugriff auf Hidden-Web-Quellen → Anfragesprache lernen Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Überblick Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Klassifikation: Zuordnung zu Kategorien in einer Hierarchie I Manuell I I Yahoo!, InvisibleWeb, SearchEngineGuide Automatisch Zwei Arten von Klassifikation Coverage (Abdeckung)-basierte Klassifikation I #docs über das Thema Specifity (Spezifizität)-basierte Klassifikation I #docs/|DB| Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Query Probing Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Classifier Learning I I Input: Menge von bereits klassifizierten Dokumenten Output: Menge von Klassifikationsregeln I I I I IF IF IF IF linux THEN Computers ibm AND intel THEN Computers jordan AND bulls THEN Sports diabetes THEN Health Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Query Probing Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Classifier Learning I I Input: Menge von bereits klassifizierten Dokumenten Output: Menge von Klassifikationsregeln I I I I IF IF IF IF linux THEN Computers → +linux ibm AND intel THEN Computers → +ibm +intel jordan AND bulls THEN Sports → +jordan +bulls diabetes THEN Health → +diabetes Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Query Probing Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Classifier Learning I I Input: Menge von bereits klassifizierten Dokumenten Output: Menge von Klassifikationsregeln I I I I IF IF IF IF linux THEN Computers → +linux ibm AND intel THEN Computers → +ibm +intel jordan AND bulls THEN Sports → +jordan +bulls diabetes THEN Health → +diabetes Query Probing I Schicke Anfragen an die Datenbank I Hole (parse) Anzahl der Ergebnisse Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Klassifikation einer Datenbank Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen 1. Schicke Anfragen für Top-Level-Kategorien 2. Hole Anzahl der Treffer für jede Anfrage 3. Berechne geschätzte Spezifizität und Abdeckung für jede Kategorie 4. Bewege die Datenbank in die sich qualifizierenden Kategorien (mit Spezifizität ≥ Ts, Abdeckung ≥ Tc) 5. Wiederhole für alle sich qualifizierenden Subkategorien 6. Gib alle Kategorien zurück, die sich qualfiziert haben Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Beispiel: ACM Digital Library (Tc=100, Ts=0.5) Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Gliederung Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Begriffsklärung: Grid Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Grid-Paradigma: Virtualisierung von Ressourcen I Ursprüngliche Idee: Rechenleistung aus der Steckdose I Ziel: High Performance Super-Computing I CPU-Rechenleisung und Arbeitsspeicher als einzige Ressourcen im Grid Data Grids I anfangs: Datentransfer nur dateibasiert, Input/Output-Dateien I später: Speicherplatz als Ressource I heute: (semi-)strukturierte Daten als Ressourcen Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung OGSA-DAI Open Grid Services Architecture - Data Access and Integration I I I ein in Java entwickeltes Framework für den Zugriff auf Datenbanken Ziel: einheitliche Schnittstelle zum Zugriff auf heterogene Datenbanken versucht nicht, die Kluft zwischen SQL und XML zu überbrücken ⇒ Überwindung technischer Heterogenität Anfragen an Quellen Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung I erfolgen mittels XML-basierten Perform-Dokumenten I Basisaktivitäten (Anfragen, Transformationen, Übertragung) Interaktion von Komponenten Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Herausforderungen I Common Data Model? I SQL vs. XML I XML WebRowSet ist flexibel aber ineffizient Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Dynamische Integration in Grid-Umgebungen Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Dynamische Integration heterogener, autonomer, verteilter Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Merkmale I Zum Zeitpunkt der Anfrage gibt es kein globales Schema I automatische Integration von neuen Quellen I OGSA-DAI als Infrastruktur Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung DynaGrid Architektur Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Zusammenfassung Auffinden von und Zugriff auf Datenquellen Dragan Sunjka I viele Varianten klassischer Mediator/Wrapper-Architektur I Wrapping zur Überbrückung der Heterogenität Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper I Hidden Web wächst schnell I I I Wie findet man solche Eintrittspunkte? Semantic Web? zahlreiche autonome Datenquellen und schnell wechselnde Benutzeranforderungen I dynamische Discovery und flexible Schema-Matching-Verfahren Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung Vielen Dank für die Aufmerksamkeit Auffinden von und Zugriff auf Datenquellen Dragan Sunjka Autonome Datenquellen Autonomieklassen Folgen der Autonomie Mediatorbasierte Systeme Mediation Wrapper Fragen? Hidden Web Einleitung Automatische Klassifikation von Hidden-Web-Quellen Beispiel Data Management in Grids Einleitung OGSA-DAI DynaGrid Zusammenfassung