FIX: Feature-based Indexing Technique for XML Documents

Werbung
1
FIX: Feature-based Indexing Technique for XML
Documents
Martin Schloms
Seminar Datenbanken und Information Retrieval
Vortrag1 am 30.03.2007
Betreuer: Dipl.-Inform. Christian Goldberg, Dr. rer. nat. Alexander Hinneburg
Lehrstuhl Datenbanken und Informationssysteme, Institut für Informatik
Martin-Luther-Universität Halle-Wittenberg
http://dbs.informatik.uni-halle.de/
1
A
powered by L T X
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Übersicht
1
2
3
4
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
2
Einleitung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
FIX
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
Experimente mit FIX
Zusammenfassung
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Hintergrund
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
3
XML
exibel
strukturiert
validierbar
von Mensch und Maschine lesbar
selbstbeschreibend (Tags)
plattformübergreifend
XPath
dient der Formulierung von Pfadausdrücken
adressiert Teile eines XML-Dokumentes
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Hintergrund
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
3
XML
exibel
strukturiert
validierbar
von Mensch und Maschine lesbar
selbstbeschreibend (Tags)
plattformübergreifend
XPath
dient der Formulierung von Pfadausdrücken
adressiert Teile eines XML-Dokumentes
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Beispiel: XML
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
4
Figure: XML-Baum [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Hintergrund
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
5
normierter Eigenwert
für (n × n)-Matrix M existiert ein Vektor v so dass:
M ∗ v = λv
< v , v >= 1
Pn
< v , v >= v T v = n=1 vi ∗ vi
für jede (n × n)-Matrix existieren n solcher λv , müssen aber
nicht paarweise verschieden sein
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Twig Query
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
6
Teilmenge der Pfadausdrücke
Achsen können nur mit / oder // gekennzeichnet sein
/-Achse: zwischen zwei Knoten
//-Achse: nur die erste Achse kann so gekennzeichnet werden
kein "KindTest" im Ausdruck
Erweiterung: Twig Query mit Werten
Vergleiche zwischen Attributen oder Elementenamen und
Werten in den Verzweigungsprädikaten
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Match
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
match zwischen twig query Q und XML-Baum X
Abbildung f von NameTest von Q auf die Knoten von
folgenden Bedingungen
7
X
mit
Wurzel der twig query matches immer den Wurzelknoten von
X (dem Wurzelknoten des XML-Dokumentes)
für alle NameTest von q ∈ Q gilt: label (q) = label (f (q))
wenn zwei NameTest u und u0 ∈ Q durch /-Achse verbunden,
so ist f (u) Vater von f (u0 )
wenn zwei NameTest u und u0 ∈ Q durch //-Achse verbunden,
so ist f (u) Vorfahre von f (u0 )
Match kann nur aussagen, ob überhaupt ein Knoten existiert
der die Anfrage erfüllt, nicht welcher.
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Bisimulation Graph
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
8
XML-Baum T (Vt , Et ) und markierter Graph G (Vg , Eg )
Knoten u ∈ Vt ist "bisimilar" (∼
=) zu v ∈ Vg wenn gilt:
gleiche Label
wenn Kante (u, u0 ) ∈ Et , so auch (v , v 0 ) ∈ Eg , unter der
Bedingung u0 ∼
= v0
wenn Kante (v , v 0 ) ∈ Eg , so auch (u, u0 ) ∈ Et , unter der
Bedingung v 0 ∼
= u0
G ist bisimilar, wenn jeder Knoten von G zu einem Knoten von
T bisimilar ist.
zyklenfreier Graph, da sonst der Baum zyklisch sein müsste.
viel kleiner als XML-Baum
alle Stukturinformationen bleiben erhalten
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Beispiel: Bisimulation Graph
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
9
Figure: Bisimulation Graph [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
F&B Bisimulation Graph
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
10
Forward & Backward Bisimulation Graph
erweiterte Bedingungen im Vergleich zu Bisimulation Graph
Vorfahren müssen zusätzlich gleich sein
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Hintergrund
Twig Query
Matches
Bisimulation Graph
F&B Bisimulation Graph
Beispiel: F&B Bisimulation Graph
11
Figure: F&B Bisimulation Graph [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Features
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
12
minimaler Eigenwert λmin
maximaler Eigenwert λmax
Wurzel Label r
Theorem
Gegeben sind die Graphen
gilt:
G
und
H.
Ist
H ein Teilgraph von G
so
λmin (G ) ≤ λmin (H ) ≤ λmax (H ) ≤ λmax (G )
Q an Datenstruktur D
λmin (D ) ≤ λmin (Q ) ≤ λmax (Q ) ≤ λmax (D )
Bedingung für eine positive Antwort
und
r (Q ) = r (D )
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Features
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
12
minimaler Eigenwert λmin
maximaler Eigenwert λmax
Wurzel Label r
Theorem
Gegeben sind die Graphen
gilt:
G
und
H.
Ist
H ein Teilgraph von G
so
λmin (G ) ≤ λmin (H ) ≤ λmax (H ) ≤ λmax (G )
Q an Datenstruktur D
λmin (D ) ≤ λmin (Q ) ≤ λmax (Q ) ≤ λmax (D )
Bedingung für eine positive Antwort
und
r (Q ) = r (D )
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Features
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
12
minimaler Eigenwert λmin
maximaler Eigenwert λmax
Wurzel Label r
Theorem
Gegeben sind die Graphen
gilt:
G
und
H.
Ist
H ein Teilgraph von G
so
λmin (G ) ≤ λmin (H ) ≤ λmax (H ) ≤ λmax (G )
Q an Datenstruktur D
λmin (D ) ≤ λmin (Q ) ≤ λmax (Q ) ≤ λmax (D )
Bedingung für eine positive Antwort
und
r (Q ) = r (D )
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
die Matrix
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
13
Figure: Konstruktion der anti-symmetrischen Matrix [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Verschiedene Datenmengen
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
14
kleine Dokumente
Dokumente mit geringerer Tiefe als das Limit k
komplett in Bisimulations Graphen umgewandelt
daraus Erzeugung der anti-symmetischen Matrix
Berechung der Eigenwerte
groÿe Dokumente
Nummerierung der Teilstrukturen unterhalb der Tiefe k
Bisimulations Graph aus allem oberhalb der Tiefe k generieren
Anfragen nur bis zur Tiefe k möglich
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Verschiedene Datenmengen
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
14
kleine Dokumente
Dokumente mit geringerer Tiefe als das Limit k
komplett in Bisimulations Graphen umgewandelt
daraus Erzeugung der anti-symmetischen Matrix
Berechung der Eigenwerte
groÿe Dokumente
Nummerierung der Teilstrukturen unterhalb der Tiefe k
Bisimulations Graph aus allem oberhalb der Tiefe k generieren
Anfragen nur bis zur Tiefe k möglich
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Construct-Index
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
15
Figure: Construct-Index [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Construct-Entries
Figure: Construct-Entries [1]
BTree-Insert
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
17
Figure: BTree-Insert [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Gen-Subpattern
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
18
Figure: Gen-Subpattern [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Anfrageverarbeitung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
19
zwei Schritte der Verarbeitung
1. bearbeiten der Eingabe und Finden möglicher Kandidaten als
Ergebnis
2. Verfeinerung der Suche mit einem Anfrageprozessor
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Algorithmus
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Features
Erstellung
Algorithmus für Indexerstellung
Anfrageverarbeitung
20
Figure: Index-Processor [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Verschieden Benchmarks - XMark
21
Figure: XMark [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Verschieden Benchmarks - TreeBank
22
Figure: Treebank [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Verschieden Benchmarks - DBLP
23
Figure: DBLP [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Verschieden Benchmarks - Average
24
Figure: Durchschnittliche Selektivität, Reduzierungsleistung und
False-Positive Rate [1]
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Einleitung
FIX
Experimente mit FIX
Zusammenfassung
Zusammenfassung
25
Verfahren für die Indizierung von einem oder mehreren
XML-Dokumenten
beherrscht Verarbeitung der Strukturen und der Werte
arbeitet in Verbindung mit einem Anfrageprozessor
sehr gute Performance auf stark strukturierten Daten
schlechter bei einfachen Strukturen
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Quellen
Quellen
26
FIX: Feature-based Indexing Technique for XML Documents
Ning Zhang, M.Tamer Özsu, Ihab F. Ilyas, Ashraf Aboulnaga;
2006; University of Waterloo
I
I
FIX: Feature-based Indexing Technique for XML Documents
Ning Zhang; 2006; Univerity of Waterloo
Vorlesung: Extensible Markup Language (XML)
http://www.jeckle.de/vorlesung/xml/index.html
Mario Jeckle; 2004
Index Structures for XML Documents
Sara Schmidt, Benedikt Fies, Alexander Walz; 2003;
Universität des Saarlandes
Martin Schloms
FIX: Feature-based Indexing Technique for XML Documents
Herunterladen