timmer

Werbung
A Unifying Approach to HTML
Wrapper Representation and
Learning
Gunter Grieser, Klaus P.Jantke,
Steffen Lange, Bernd Thomas
Seminarvortrag - Informationsextraktion (1/2003)
1.Motivation und Zielsetzung
• HTML ist Standardformat für Information aus dem Internet
• Informationsextraktion aus HTML kommerziell lohnend
• Ansatz auf beliebig formatierte Texte übertragbar
• Konstruktiver (algorithmischer) Beitrag zu bestehenden Theorien
• Existenz von Testumgebungen (http://Lexikon.dfki.de)
21.01.2003
Seminarvortrag Informationsextraktion
2
1.1 Information - eingebettet in HTML
<ul>
<li>Vortrag über: Line Eikvil (1999) Information extraction from the World Wide Web (Stephan Birkmann) (<a href="birkmann.ppt">ppt</a>/
<a href="birkmann.pdf">pdf</a>)
</li>
<li>Vortrag über: Ralph Grishman (1997) "Information Extraction: Techniques and Challenges" (Felix Jungermann)
(<a href="jungermann.ppt">ppt</a>/
<a href="jungermann.pdf">pdf</a>)
</li>
<li>
Vortrag über: Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen (2000)
"Unsupervised Discovery of Scenario-Level Patterns for Information Extraction" (Bianca Selzam) (<a href="selzam.ppt">ppt</a>/
<a href="selzam.pdf">pdf</a>)
</li>
<li>
Vortrag über: Karsten Winkler, Myra Spiliopoulou " Structuring Domain-Specific
Text Archives by Deriving a Probabilistic XML DTD"<br>(Andrea Schweer)
(<a href="AndreaSchweer-SeminarFolien-20021217.pdf">pdf</a>)
</li>
</ul>
Automatische Extraktion der Namen der Referenten !?
21.01.2003
Seminarvortrag Informationsextraktion
3
2. Einordnung dieses Ansatzes
Informationsextraktion
• Wrapper
• Natürlichsprachlich
Lernmodelle
• Gold („in the limit“)
• PAC-Modell
Prädikatenlogik
• Logikprogramme
• EFS, AEFS
Rekursionstheorie (+KT)
21.01.2003
Seminarvortrag Informationsextraktion
4
3. Syntax/Semantik formaler Systeme
Grundlegende Definitionen
 : Endliche Menge von Zeich en
 : Endliche Menge von Prädikaten
 : Menge von Variablen
 : Endliche Menge von Regeln
Pattern : Elemente aus (  ) 
Atom : p( 1 ,....,  n ) (auch : " ground Atom" )
Regel : A 
 B1 ,...., Bn (auch : " ground Instance" )
Substituti on :  :  
  
21.01.2003
Seminarvortrag Informationsextraktion
5
3.1 Elementary Formal Systems (EFS)
Definition:
S  (, , ) ist EFS
B(S) : Menge aller ground Atoms (Herbrand Basis)
G(S) : Menge aller ground Instances
Semantik:
TS ( I ) : I ( I  B( S ) )
0
TS
n 1
( I ) : TS ( I )  { A | A 
 B1 ,...., Bk  G(S) , i : Bi  I }
Somit : TS
n
n 1
( I ) : TS (TS ( I )) und Sem( S ) : nN TSn ()
n
Smullyan (1961), Theory of Formal Systems
21.01.2003
Seminarvortrag Informationsextraktion
6
3.2 Advanced Elementary Formal Systems
Definition:
S ': (,  ' , ' ) sei EFS
S1 : (, 1 , 1 ), S 2 : (,  2 , 2 ) seien AEFS
Dann:
1. S  S ' ist AEFS. Sem( S )  Sem( S ' )
2. Falls 1  2  , dann S  (, 1  2 , 1  2 ) ist AEFS, Sem(S)  Sem(S1)  Sem(S2 )
3. Seien p  1 und q  1 Prädikate der Stelligkei t n.
Dann S  (, 1  { p}, 1  { p( x1 ,..., xn ) 
 not q( x1 ,..., xn )}) ist AEFS
Sem( S )  Sem( S1 )  { p( s1 ,..., sn ) | s1    ,..., sn    , q( s1 ,..., sn )  Sem( S1 )}
4. Sei head (' )    , dann S  (,  ' , ' ) ist AEFS
Sem( S )   T ( Sem( S ))
1
nN
n
S'
1
1
1
Vorteil: Negation as Failure
21.01.2003
Seminarvortrag Informationsextraktion
7
3.3 Formale Systeme-Formale Sprachen
Zusätzliche Definitionen für formale Systeme:
 : Menge aller EFS
 : Menge aller AEFS
vb  A : Menge aller " variable - bounded" AEFS
lb  A : Menge aller " length - bounded" AEFS
Übergang zu formalen Sprachen (->Wrapper):
1. Sei S (, , ) ein AEFS und p   einstellig es Prädikat.
Dann sei L( S , p ) : {s | p ( s )  Sem( S )}
2.
Sei M  A . Dann ist L( M ) die Menge von Sprachen,
die durch AEFS aus M definiert werden können.
-> Formale Sprachen sind durch formale Systeme definierbar
21.01.2003
Seminarvortrag Informationsextraktion
8
3.4 Ausdrucksfähigkeit von AEFS
Einordnung von formalen Systemen:
1. Lrekursivaufzählbar  L( A )
2. Lkontextsensitiv  L(lb  A )
3. Lrekursivaufzählbar  L(vb   )
4. Lkontextsensitiv  L(lb   )
Ausserdem:
1. Semantik von allgemeinen EFS nicht entscheidbar
2. Semantik von „length-bounded“ AEFS entscheidbar
21.01.2003
Seminarvortrag Informationsextraktion
9
4. Lernen und Identifizieren
Abstraktes Modell einer Identifikation (Gold, 1967):
Sei  eine Menge von Objekten
1. Definition von Lernbarkei t
2. Methoden zur Informatio nspräsenta tion
3. Namensgebu ng von Objekten
Zusammenhang zwischen Identifikation von Objekten
und Lernen von Sprachen (z.b Wrapper)
21.01.2003
Seminarvortrag Informationsextraktion
10
4.1 Lernbarkeit
Zu jedem Zeitpunkt erfolgt ein Identifikationsversuch:
gt  G (i1 ,...., it )
G : „Guessing function“
gt : „Guess“ zum Zeitpunkt t
„Language Identification in the Limit“:
Nach endlicher Zeit treten keine falschen „guesses“ mehr auf
-> Existenz zahlreicher Variationen des Lernmodells
Beispiel: zusätzliche Monotonierestriktionen
21.01.2003
Seminarvortrag Informationsextraktion
11
4.2 Informationspräsentation
1. Text :
Ausschließlich Positive Information
Arbitrary: Sequenz wird bestimmt durch beliebige Funktion
Recursive: Sequenz wird bestimmt durch rekursive Funktion
2. Informant:
Positive und Negative Information
Arbitrary: Sequenz wird bestimmt durch beliebige Funktion
Methodical: Sequenz wird durch Aufzählung bestimmt
Request: Sequenz wird bestimmt in Abhängigkeit der schon
bestehenden Sequenz
21.01.2003
Seminarvortrag Informationsextraktion
12
4.3 Namensgebung
Namensgebung mittels einer Funktion:
 : Menge von Objekten (Sprachen)
N : Menge von Namen
f :
 N
Für theoretische Untersuchungen üblich:
1. Tester : Entscheidungsalgorithmus für eine Sprache
2. Generatoren: Aufzählung aller Wörter einer Sprache
21.01.2003
Seminarvortrag Informationsextraktion
13
4.4 Erkenntnisse zur Lernbarkeit
21.01.2003
Seminarvortrag Informationsextraktion
14
4.5 Lernbarkeit von AEFS
Theorem 1:
1. L(vb  A ) ist nicht lernbar durch "informant"
2. L(lb  A ) ist lernbar durch "informant"
Theorem 2:
1. Für k  2, L(lb  A k ) ist nicht lernbar durch " text"
2. L(lb  A 1 ) ist lernbar durch " text"
21.01.2003
Seminarvortrag Informationsextraktion
15
4.6 Beweisidee zu Theorem 2 (1)
Definition:
 : {a}
L0 : {a} , L j  L0 \ {a j }
S0 : (,{ p},{ p( x) 
 )
 : {L j | j  N } mit   L(lb  A 2 )
S j : (,{ p, q},{q(a j ) 
 , p( x) 
 not q( x)})
Idee: Konstruktion eines Textes für L0, sodaß Identifizierung
unmöglich wird.
Start mit x : 1, Sequenz (Text) wird gebildet durch :
1. Lexikograp hische Reihenfolg e startend mit a x1
2. Nach Erkennung von L x , Präsentati on von a x
3. Fortsetzun g der Lexikograp hischen Reihenfolg e
3. Nach Erkennung von L0 (zum Zeitpunkt t),
setze x : t  1 und weiter bei 1
-> „Subset-Principle“
21.01.2003
Seminarvortrag Informationsextraktion
16
5. Wrapper für HTML-Dokumente
Semantik und Interpretation von Dokumenten:
Sei D    ein Dokument.
S :  
((  ) n ) heißt Semantik unter Interpreta tion I, gdw :
Für alle Dokumente D, erfüllt ( s1 ,..., s n )  S(D) die Bedingunge n :
1. ( p1 ,..., pn )  I (( s1 ,..., sn ), D) gibt die Startposit ionen der ( si ) an
2. si 1 beginnt in D nach Ende von si
Semantik eines Dokumentes ist Tupel aus
Wörtern des Dokumentes
21.01.2003
Seminarvortrag Informationsextraktion
17
5.1 „Marked Text“ (1.Erweiterung)
Definition:
Eine Sequenz t  ( Di , Pi ) heißt " marked text" , gdw :
1. Di ist Dokument aus  
2. Pi  ( s, p), wobei s  S ( D) und p  I ( s, D) (Interpret ation)
3. Sequenz enthält für jedes Dokument D jegliche Tupel s  S ( D)
Lernen von Wrappern durch Vorlage einer Sequenz von
markierten Dokumenten
21.01.2003
Seminarvortrag Informationsextraktion
18
5.2 Island Wrapper
Island Wrapper <-> Kombination von mehreren AEFS
w(V1 ,...,Vn , X 1L1V1R1... X n LnVn Rn X n1 ) 

p1 ( L1 ), nc  pr1 (V1 ), pr1 ( R1 ),
nc  p 2 ( X 2 ), p 2 ( L2 ), nc  pr2 (V2 ), pr2 ( R2 ),....,
nc  p n ( X n ), p n ( Ln ), nc  prn (Vn ), prn ( Rn ).
nc  pi ( X ) 
 not c  p i ( X )
c  p i ( X ) 
 p i ( X ). c  p i ( XY ) 
 p i ( X ). c  p i ( XY ) 
 p i (Y ).
nc  pr i ( X ) 
 not c  pri ( X )
c  pri ( X ) 
 pri ( X ). c  pri ( XY ) 
 pri ( X ). c  pri ( XY ) 
 pri (Y ).
Gesucht sind Ankersprachen: L i  L( S i , p i ), Lri  L( Sri , pri )
21.01.2003
Seminarvortrag Informationsextraktion
19
5.3 Wrapper Learner (2.Erweiterung)
Anwendung des Wrappers auf ein Dokument:
Sei Siw ein Island Wrapper (AEFS)
view( Siw , D) : {( s1 ,..., sn ) | w( s1 ,..., sn , D)  Sem( Siw )}
Ein Wrapper (AEFS Siw) beschreibt Semantik S, gdw:
view(Siw,D) = S(D)
1. Ein Wrapper-Learner (WIM) lernt Semantik S aus „marked Text“,
falls nach endlicher Zeit der Wrapper diese Semantik beschreibt
2. Ein Wrapper-Learner (WIM) lernt eine Klasse C von Wrappern,
falls er jegliche Semantiken lernen kann, die durch Wrapper aus C
beschrieben werden können
21.01.2003
Seminarvortrag Informationsextraktion
20
5.4 Lernen mit Island Wrappern
Definition:
A iw : Menge aller " length - bounded" Island Wrapper (AEFS)
k
A iw
: Menge aller " length - bounded" Island Wrapper mit Card ( L)  k für Ankersprac hen L
Theorem 3:
Die Klasse A iw ist nicht lernbar durch " marked text"
Theorem 4:
Die Klasse A iwk ist lernbar durch " marked text" für alle k  1
Lernalgorithmus ?
21.01.2003
Seminarvortrag Informationsextraktion
21
6.1 Lernalgorithmus (Teil I)
21.01.2003
Seminarvortrag Informationsextraktion
22
6.2 Lernalgorithmus (Teil II)
21.01.2003
Seminarvortrag Informationsextraktion
23
6.3 Lernalgorithmus (Teil III)
21.01.2003
Seminarvortrag Informationsextraktion
24
7. Praxisrelevanz und Bewertung
• Algorithmus wurde bereits implementiert und an HTML getestet
• http://LExIKON.dfki.de
• Basisprinzip der Wrapper-Induction auch in diesem Ansatz vorhanden
• Theorie zeigt das Potential des gewählten Ansatzes
• Vorgestellte Wrapper-Induction bisher nur in der Praxis evaluiert
21.01.2003
Seminarvortrag Informationsextraktion
25
Herunterladen