A Unifying Approach to HTML Wrapper Representation and Learning Gunter Grieser, Klaus P.Jantke, Steffen Lange, Bernd Thomas Seminarvortrag - Informationsextraktion (1/2003) 1.Motivation und Zielsetzung • HTML ist Standardformat für Information aus dem Internet • Informationsextraktion aus HTML kommerziell lohnend • Ansatz auf beliebig formatierte Texte übertragbar • Konstruktiver (algorithmischer) Beitrag zu bestehenden Theorien • Existenz von Testumgebungen (http://Lexikon.dfki.de) 21.01.2003 Seminarvortrag Informationsextraktion 2 1.1 Information - eingebettet in HTML <ul> <li>Vortrag über: Line Eikvil (1999) Information extraction from the World Wide Web (Stephan Birkmann) (<a href="birkmann.ppt">ppt</a>/ <a href="birkmann.pdf">pdf</a>) </li> <li>Vortrag über: Ralph Grishman (1997) &quot;Information Extraction: Techniques and Challenges&quot; (Felix Jungermann) (<a href="jungermann.ppt">ppt</a>/ <a href="jungermann.pdf">pdf</a>) </li> <li> Vortrag über: Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen (2000) &quot;Unsupervised Discovery of Scenario-Level Patterns for Information Extraction&quot; (Bianca Selzam) (<a href="selzam.ppt">ppt</a>/ <a href="selzam.pdf">pdf</a>) </li> <li> Vortrag über: Karsten Winkler, Myra Spiliopoulou &quot; Structuring Domain-Specific Text Archives by Deriving a Probabilistic XML DTD&quot;<br>(Andrea Schweer) (<a href="AndreaSchweer-SeminarFolien-20021217.pdf">pdf</a>) </li> </ul> Automatische Extraktion der Namen der Referenten !? 21.01.2003 Seminarvortrag Informationsextraktion 3 2. Einordnung dieses Ansatzes Informationsextraktion • Wrapper • Natürlichsprachlich Lernmodelle • Gold („in the limit“) • PAC-Modell Prädikatenlogik • Logikprogramme • EFS, AEFS Rekursionstheorie (+KT) 21.01.2003 Seminarvortrag Informationsextraktion 4 3. Syntax/Semantik formaler Systeme Grundlegende Definitionen : Endliche Menge von Zeich en : Endliche Menge von Prädikaten : Menge von Variablen : Endliche Menge von Regeln Pattern : Elemente aus ( ) Atom : p( 1 ,...., n ) (auch : " ground Atom" ) Regel : A B1 ,...., Bn (auch : " ground Instance" ) Substituti on : : 21.01.2003 Seminarvortrag Informationsextraktion 5 3.1 Elementary Formal Systems (EFS) Definition: S (, , ) ist EFS B(S) : Menge aller ground Atoms (Herbrand Basis) G(S) : Menge aller ground Instances Semantik: TS ( I ) : I ( I B( S ) ) 0 TS n 1 ( I ) : TS ( I ) { A | A B1 ,...., Bk G(S) , i : Bi I } Somit : TS n n 1 ( I ) : TS (TS ( I )) und Sem( S ) : nN TSn () n Smullyan (1961), Theory of Formal Systems 21.01.2003 Seminarvortrag Informationsextraktion 6 3.2 Advanced Elementary Formal Systems Definition: S ': (, ' , ' ) sei EFS S1 : (, 1 , 1 ), S 2 : (, 2 , 2 ) seien AEFS Dann: 1. S S ' ist AEFS. Sem( S ) Sem( S ' ) 2. Falls 1 2 , dann S (, 1 2 , 1 2 ) ist AEFS, Sem(S) Sem(S1) Sem(S2 ) 3. Seien p 1 und q 1 Prädikate der Stelligkei t n. Dann S (, 1 { p}, 1 { p( x1 ,..., xn ) not q( x1 ,..., xn )}) ist AEFS Sem( S ) Sem( S1 ) { p( s1 ,..., sn ) | s1 ,..., sn , q( s1 ,..., sn ) Sem( S1 )} 4. Sei head (' ) , dann S (, ' , ' ) ist AEFS Sem( S ) T ( Sem( S )) 1 nN n S' 1 1 1 Vorteil: Negation as Failure 21.01.2003 Seminarvortrag Informationsextraktion 7 3.3 Formale Systeme-Formale Sprachen Zusätzliche Definitionen für formale Systeme: : Menge aller EFS : Menge aller AEFS vb A : Menge aller " variable - bounded" AEFS lb A : Menge aller " length - bounded" AEFS Übergang zu formalen Sprachen (->Wrapper): 1. Sei S (, , ) ein AEFS und p einstellig es Prädikat. Dann sei L( S , p ) : {s | p ( s ) Sem( S )} 2. Sei M A . Dann ist L( M ) die Menge von Sprachen, die durch AEFS aus M definiert werden können. -> Formale Sprachen sind durch formale Systeme definierbar 21.01.2003 Seminarvortrag Informationsextraktion 8 3.4 Ausdrucksfähigkeit von AEFS Einordnung von formalen Systemen: 1. Lrekursivaufzählbar L( A ) 2. Lkontextsensitiv L(lb A ) 3. Lrekursivaufzählbar L(vb ) 4. Lkontextsensitiv L(lb ) Ausserdem: 1. Semantik von allgemeinen EFS nicht entscheidbar 2. Semantik von „length-bounded“ AEFS entscheidbar 21.01.2003 Seminarvortrag Informationsextraktion 9 4. Lernen und Identifizieren Abstraktes Modell einer Identifikation (Gold, 1967): Sei eine Menge von Objekten 1. Definition von Lernbarkei t 2. Methoden zur Informatio nspräsenta tion 3. Namensgebu ng von Objekten Zusammenhang zwischen Identifikation von Objekten und Lernen von Sprachen (z.b Wrapper) 21.01.2003 Seminarvortrag Informationsextraktion 10 4.1 Lernbarkeit Zu jedem Zeitpunkt erfolgt ein Identifikationsversuch: gt G (i1 ,...., it ) G : „Guessing function“ gt : „Guess“ zum Zeitpunkt t „Language Identification in the Limit“: Nach endlicher Zeit treten keine falschen „guesses“ mehr auf -> Existenz zahlreicher Variationen des Lernmodells Beispiel: zusätzliche Monotonierestriktionen 21.01.2003 Seminarvortrag Informationsextraktion 11 4.2 Informationspräsentation 1. Text : Ausschließlich Positive Information Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Recursive: Sequenz wird bestimmt durch rekursive Funktion 2. Informant: Positive und Negative Information Arbitrary: Sequenz wird bestimmt durch beliebige Funktion Methodical: Sequenz wird durch Aufzählung bestimmt Request: Sequenz wird bestimmt in Abhängigkeit der schon bestehenden Sequenz 21.01.2003 Seminarvortrag Informationsextraktion 12 4.3 Namensgebung Namensgebung mittels einer Funktion: : Menge von Objekten (Sprachen) N : Menge von Namen f : N Für theoretische Untersuchungen üblich: 1. Tester : Entscheidungsalgorithmus für eine Sprache 2. Generatoren: Aufzählung aller Wörter einer Sprache 21.01.2003 Seminarvortrag Informationsextraktion 13 4.4 Erkenntnisse zur Lernbarkeit 21.01.2003 Seminarvortrag Informationsextraktion 14 4.5 Lernbarkeit von AEFS Theorem 1: 1. L(vb A ) ist nicht lernbar durch "informant" 2. L(lb A ) ist lernbar durch "informant" Theorem 2: 1. Für k 2, L(lb A k ) ist nicht lernbar durch " text" 2. L(lb A 1 ) ist lernbar durch " text" 21.01.2003 Seminarvortrag Informationsextraktion 15 4.6 Beweisidee zu Theorem 2 (1) Definition: : {a} L0 : {a} , L j L0 \ {a j } S0 : (,{ p},{ p( x) ) : {L j | j N } mit L(lb A 2 ) S j : (,{ p, q},{q(a j ) , p( x) not q( x)}) Idee: Konstruktion eines Textes für L0, sodaß Identifizierung unmöglich wird. Start mit x : 1, Sequenz (Text) wird gebildet durch : 1. Lexikograp hische Reihenfolg e startend mit a x1 2. Nach Erkennung von L x , Präsentati on von a x 3. Fortsetzun g der Lexikograp hischen Reihenfolg e 3. Nach Erkennung von L0 (zum Zeitpunkt t), setze x : t 1 und weiter bei 1 -> „Subset-Principle“ 21.01.2003 Seminarvortrag Informationsextraktion 16 5. Wrapper für HTML-Dokumente Semantik und Interpretation von Dokumenten: Sei D ein Dokument. S : (( ) n ) heißt Semantik unter Interpreta tion I, gdw : Für alle Dokumente D, erfüllt ( s1 ,..., s n ) S(D) die Bedingunge n : 1. ( p1 ,..., pn ) I (( s1 ,..., sn ), D) gibt die Startposit ionen der ( si ) an 2. si 1 beginnt in D nach Ende von si Semantik eines Dokumentes ist Tupel aus Wörtern des Dokumentes 21.01.2003 Seminarvortrag Informationsextraktion 17 5.1 „Marked Text“ (1.Erweiterung) Definition: Eine Sequenz t ( Di , Pi ) heißt " marked text" , gdw : 1. Di ist Dokument aus 2. Pi ( s, p), wobei s S ( D) und p I ( s, D) (Interpret ation) 3. Sequenz enthält für jedes Dokument D jegliche Tupel s S ( D) Lernen von Wrappern durch Vorlage einer Sequenz von markierten Dokumenten 21.01.2003 Seminarvortrag Informationsextraktion 18 5.2 Island Wrapper Island Wrapper <-> Kombination von mehreren AEFS w(V1 ,...,Vn , X 1L1V1R1... X n LnVn Rn X n1 ) p1 ( L1 ), nc pr1 (V1 ), pr1 ( R1 ), nc p 2 ( X 2 ), p 2 ( L2 ), nc pr2 (V2 ), pr2 ( R2 ),...., nc p n ( X n ), p n ( Ln ), nc prn (Vn ), prn ( Rn ). nc pi ( X ) not c p i ( X ) c p i ( X ) p i ( X ). c p i ( XY ) p i ( X ). c p i ( XY ) p i (Y ). nc pr i ( X ) not c pri ( X ) c pri ( X ) pri ( X ). c pri ( XY ) pri ( X ). c pri ( XY ) pri (Y ). Gesucht sind Ankersprachen: L i L( S i , p i ), Lri L( Sri , pri ) 21.01.2003 Seminarvortrag Informationsextraktion 19 5.3 Wrapper Learner (2.Erweiterung) Anwendung des Wrappers auf ein Dokument: Sei Siw ein Island Wrapper (AEFS) view( Siw , D) : {( s1 ,..., sn ) | w( s1 ,..., sn , D) Sem( Siw )} Ein Wrapper (AEFS Siw) beschreibt Semantik S, gdw: view(Siw,D) = S(D) 1. Ein Wrapper-Learner (WIM) lernt Semantik S aus „marked Text“, falls nach endlicher Zeit der Wrapper diese Semantik beschreibt 2. Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern, falls er jegliche Semantiken lernen kann, die durch Wrapper aus C beschrieben werden können 21.01.2003 Seminarvortrag Informationsextraktion 20 5.4 Lernen mit Island Wrappern Definition: A iw : Menge aller " length - bounded" Island Wrapper (AEFS) k A iw : Menge aller " length - bounded" Island Wrapper mit Card ( L) k für Ankersprac hen L Theorem 3: Die Klasse A iw ist nicht lernbar durch " marked text" Theorem 4: Die Klasse A iwk ist lernbar durch " marked text" für alle k 1 Lernalgorithmus ? 21.01.2003 Seminarvortrag Informationsextraktion 21 6.1 Lernalgorithmus (Teil I) 21.01.2003 Seminarvortrag Informationsextraktion 22 6.2 Lernalgorithmus (Teil II) 21.01.2003 Seminarvortrag Informationsextraktion 23 6.3 Lernalgorithmus (Teil III) 21.01.2003 Seminarvortrag Informationsextraktion 24 7. Praxisrelevanz und Bewertung • Algorithmus wurde bereits implementiert und an HTML getestet • http://LExIKON.dfki.de • Basisprinzip der Wrapper-Induction auch in diesem Ansatz vorhanden • Theorie zeigt das Potential des gewählten Ansatzes • Vorgestellte Wrapper-Induction bisher nur in der Praxis evaluiert 21.01.2003 Seminarvortrag Informationsextraktion 25