1 FIX: Feature-based Indexing Technique for XML Documents Martin Schloms Seminar Datenbanken und Information Retrieval Vortrag1 am 30.03.2007 Betreuer: Dipl.-Inform. Christian Goldberg, Dr. rer. nat. Alexander Hinneburg Lehrstuhl Datenbanken und Informationssysteme, Institut für Informatik Martin-Luther-Universität Halle-Wittenberg http://dbs.informatik.uni-halle.de/ 1 A powered by L T X Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Übersicht 1 2 3 4 Einleitung FIX Experimente mit FIX Zusammenfassung 2 Einleitung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph FIX Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung Experimente mit FIX Zusammenfassung Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Hintergrund Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 3 XML exibel strukturiert validierbar von Mensch und Maschine lesbar selbstbeschreibend (Tags) plattformübergreifend XPath dient der Formulierung von Pfadausdrücken adressiert Teile eines XML-Dokumentes Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Hintergrund Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 3 XML exibel strukturiert validierbar von Mensch und Maschine lesbar selbstbeschreibend (Tags) plattformübergreifend XPath dient der Formulierung von Pfadausdrücken adressiert Teile eines XML-Dokumentes Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Beispiel: XML Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 4 Figure: XML-Baum [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Hintergrund Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 5 normierter Eigenwert für (n × n)-Matrix M existiert ein Vektor v so dass: M ∗ v = λv < v , v >= 1 Pn < v , v >= v T v = n=1 vi ∗ vi für jede (n × n)-Matrix existieren n solcher λv , müssen aber nicht paarweise verschieden sein Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Twig Query Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 6 Teilmenge der Pfadausdrücke Achsen können nur mit / oder // gekennzeichnet sein /-Achse: zwischen zwei Knoten //-Achse: nur die erste Achse kann so gekennzeichnet werden kein "KindTest" im Ausdruck Erweiterung: Twig Query mit Werten Vergleiche zwischen Attributen oder Elementenamen und Werten in den Verzweigungsprädikaten Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Match Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph match zwischen twig query Q und XML-Baum X Abbildung f von NameTest von Q auf die Knoten von folgenden Bedingungen 7 X mit Wurzel der twig query matches immer den Wurzelknoten von X (dem Wurzelknoten des XML-Dokumentes) für alle NameTest von q ∈ Q gilt: label (q) = label (f (q)) wenn zwei NameTest u und u0 ∈ Q durch /-Achse verbunden, so ist f (u) Vater von f (u0 ) wenn zwei NameTest u und u0 ∈ Q durch //-Achse verbunden, so ist f (u) Vorfahre von f (u0 ) Match kann nur aussagen, ob überhaupt ein Knoten existiert der die Anfrage erfüllt, nicht welcher. Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Bisimulation Graph Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 8 XML-Baum T (Vt , Et ) und markierter Graph G (Vg , Eg ) Knoten u ∈ Vt ist "bisimilar" (∼ =) zu v ∈ Vg wenn gilt: gleiche Label wenn Kante (u, u0 ) ∈ Et , so auch (v , v 0 ) ∈ Eg , unter der Bedingung u0 ∼ = v0 wenn Kante (v , v 0 ) ∈ Eg , so auch (u, u0 ) ∈ Et , unter der Bedingung v 0 ∼ = u0 G ist bisimilar, wenn jeder Knoten von G zu einem Knoten von T bisimilar ist. zyklenfreier Graph, da sonst der Baum zyklisch sein müsste. viel kleiner als XML-Baum alle Stukturinformationen bleiben erhalten Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Beispiel: Bisimulation Graph Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 9 Figure: Bisimulation Graph [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung F&B Bisimulation Graph Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph 10 Forward & Backward Bisimulation Graph erweiterte Bedingungen im Vergleich zu Bisimulation Graph Vorfahren müssen zusätzlich gleich sein Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Hintergrund Twig Query Matches Bisimulation Graph F&B Bisimulation Graph Beispiel: F&B Bisimulation Graph 11 Figure: F&B Bisimulation Graph [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Features Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 12 minimaler Eigenwert λmin maximaler Eigenwert λmax Wurzel Label r Theorem Gegeben sind die Graphen gilt: G und H. Ist H ein Teilgraph von G so λmin (G ) ≤ λmin (H ) ≤ λmax (H ) ≤ λmax (G ) Q an Datenstruktur D λmin (D ) ≤ λmin (Q ) ≤ λmax (Q ) ≤ λmax (D ) Bedingung für eine positive Antwort und r (Q ) = r (D ) Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Features Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 12 minimaler Eigenwert λmin maximaler Eigenwert λmax Wurzel Label r Theorem Gegeben sind die Graphen gilt: G und H. Ist H ein Teilgraph von G so λmin (G ) ≤ λmin (H ) ≤ λmax (H ) ≤ λmax (G ) Q an Datenstruktur D λmin (D ) ≤ λmin (Q ) ≤ λmax (Q ) ≤ λmax (D ) Bedingung für eine positive Antwort und r (Q ) = r (D ) Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Features Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 12 minimaler Eigenwert λmin maximaler Eigenwert λmax Wurzel Label r Theorem Gegeben sind die Graphen gilt: G und H. Ist H ein Teilgraph von G so λmin (G ) ≤ λmin (H ) ≤ λmax (H ) ≤ λmax (G ) Q an Datenstruktur D λmin (D ) ≤ λmin (Q ) ≤ λmax (Q ) ≤ λmax (D ) Bedingung für eine positive Antwort und r (Q ) = r (D ) Martin Schloms FIX: Feature-based Indexing Technique for XML Documents die Matrix Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 13 Figure: Konstruktion der anti-symmetrischen Matrix [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Verschiedene Datenmengen Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 14 kleine Dokumente Dokumente mit geringerer Tiefe als das Limit k komplett in Bisimulations Graphen umgewandelt daraus Erzeugung der anti-symmetischen Matrix Berechung der Eigenwerte groÿe Dokumente Nummerierung der Teilstrukturen unterhalb der Tiefe k Bisimulations Graph aus allem oberhalb der Tiefe k generieren Anfragen nur bis zur Tiefe k möglich Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Verschiedene Datenmengen Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 14 kleine Dokumente Dokumente mit geringerer Tiefe als das Limit k komplett in Bisimulations Graphen umgewandelt daraus Erzeugung der anti-symmetischen Matrix Berechung der Eigenwerte groÿe Dokumente Nummerierung der Teilstrukturen unterhalb der Tiefe k Bisimulations Graph aus allem oberhalb der Tiefe k generieren Anfragen nur bis zur Tiefe k möglich Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Construct-Index Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 15 Figure: Construct-Index [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Construct-Entries Figure: Construct-Entries [1] BTree-Insert Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 17 Figure: BTree-Insert [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Gen-Subpattern Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 18 Figure: Gen-Subpattern [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Anfrageverarbeitung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 19 zwei Schritte der Verarbeitung 1. bearbeiten der Eingabe und Finden möglicher Kandidaten als Ergebnis 2. Verfeinerung der Suche mit einem Anfrageprozessor Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Algorithmus Einleitung FIX Experimente mit FIX Zusammenfassung Features Erstellung Algorithmus für Indexerstellung Anfrageverarbeitung 20 Figure: Index-Processor [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Verschieden Benchmarks - XMark 21 Figure: XMark [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Verschieden Benchmarks - TreeBank 22 Figure: Treebank [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Verschieden Benchmarks - DBLP 23 Figure: DBLP [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Verschieden Benchmarks - Average 24 Figure: Durchschnittliche Selektivität, Reduzierungsleistung und False-Positive Rate [1] Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Einleitung FIX Experimente mit FIX Zusammenfassung Zusammenfassung 25 Verfahren für die Indizierung von einem oder mehreren XML-Dokumenten beherrscht Verarbeitung der Strukturen und der Werte arbeitet in Verbindung mit einem Anfrageprozessor sehr gute Performance auf stark strukturierten Daten schlechter bei einfachen Strukturen Martin Schloms FIX: Feature-based Indexing Technique for XML Documents Quellen Quellen 26 FIX: Feature-based Indexing Technique for XML Documents Ning Zhang, M.Tamer Özsu, Ihab F. Ilyas, Ashraf Aboulnaga; 2006; University of Waterloo I I FIX: Feature-based Indexing Technique for XML Documents Ning Zhang; 2006; Univerity of Waterloo Vorlesung: Extensible Markup Language (XML) http://www.jeckle.de/vorlesung/xml/index.html Mario Jeckle; 2004 Index Structures for XML Documents Sara Schmidt, Benedikt Fies, Alexander Walz; 2003; Universität des Saarlandes Martin Schloms FIX: Feature-based Indexing Technique for XML Documents