Teil 1

Werbung
Entitäten Extraktion
Einführung
Petra Maier
WS 05/06
Begriffe
Information Retrieval
Entity Extraction
Information Extraction
Text Understanding
Data Mining
Begriffe
• Information Retrieval:
– Finde relevante Dokumente für Anfrage
• Information Extraction
– Extrahiere beliebige Information aus Dokumenten
• Entitäten
• Relationen
• Fakten
• Entity Extraction:
– Extrahiere speziell Entitäten aus Dokumenten
• Data Mining
– Benutze Ergebnisse der Informations Extraktion aus einer gesamten
Dokumentenkollektion, um neue Information zu erhalten
• Text Understanding
– Vollständige automatische Erfassung des Inhalts (semantische Analyse)
– Beinhaltet aus Summarization
Arten von Entitäten
•
Named Entities“
– Personen
– Geos
•
•
•
•
Länder
Städte
Berge
etc
– Organisationen
•
•
•
•
•
Universitäten
Parteien
Firmen
Vereine
Etc
– Ereignisse
• Sportereignisse (z.B. Tour de
France)
• Kulturelle Ereignisse (z.B.
Bayreuther Festspiele)
• Historische Ereignisse
• Etc.
•
Andere Entitäten
–
–
–
–
–
–
–
–
Terminologie, Keywords
Datums- und Zeitangaben
Preise
URLS
Adressen
Massausdrücke
ISBN Nummern
Etc.
Warum Entitäten Extraktion?
•
•
•
•
Grundlage für Informations Extraktion
Verbesserung der Retrievalqualität
Einzelne Wörter enthalten zu wenig Information
Basis für weiterfürhrende Techniken (
Vektorraum Modell)
–
–
–
–
Clustering
Summarization
Automatische Klassifikation
Navigation
Beispiel
• Wikipedia Suche: Search
Methoden
• Regel-/Lexikonbasiert
• Statistisch
• Mischformen
Regel-/Lexikonbasierte Verfahren
• Rein Lexikonbasiert (Gazetters):
– Listen von berühmten Persönlichkeiten
– Listen von geographischen Entitäten
– Listen von Parteien, Firmen
• Regelbasiert
– Einfache reguläre Ausdrücke
• URLS, Preise, Datum, etc
– Lokale Grammatiken
• Personen, Firmen etc.
– Syntaktische Muster
• Terminologe, Keywords
Statistische Verfahren
• 2 Aufgaben:
– Identifikation von Kandidaten für Entitäten
• Syntaktische Muster (NN, etc)
• Simple Heuristiken: Großgeschriebene Sequenzen
– Bestimmung des Typs
• Methoden des Machine Learning
• Einbeziehung des Kontexts
Probleme
• Ambiguitäten:
– Washington
– Apple, Sun
• Normalisierung:
– George Bush – George W. Bush – George Bush jr - ..
• Groß-/Kleinschreibung
Herunterladen