Entitäten Extraktion Einführung Petra Maier WS 05/06 Begriffe Information Retrieval Entity Extraction Information Extraction Text Understanding Data Mining Begriffe • Information Retrieval: – Finde relevante Dokumente für Anfrage • Information Extraction – Extrahiere beliebige Information aus Dokumenten • Entitäten • Relationen • Fakten • Entity Extraction: – Extrahiere speziell Entitäten aus Dokumenten • Data Mining – Benutze Ergebnisse der Informations Extraktion aus einer gesamten Dokumentenkollektion, um neue Information zu erhalten • Text Understanding – Vollständige automatische Erfassung des Inhalts (semantische Analyse) – Beinhaltet aus Summarization Arten von Entitäten • Named Entities“ – Personen – Geos • • • • Länder Städte Berge etc – Organisationen • • • • • Universitäten Parteien Firmen Vereine Etc – Ereignisse • Sportereignisse (z.B. Tour de France) • Kulturelle Ereignisse (z.B. Bayreuther Festspiele) • Historische Ereignisse • Etc. • Andere Entitäten – – – – – – – – Terminologie, Keywords Datums- und Zeitangaben Preise URLS Adressen Massausdrücke ISBN Nummern Etc. Warum Entitäten Extraktion? • • • • Grundlage für Informations Extraktion Verbesserung der Retrievalqualität Einzelne Wörter enthalten zu wenig Information Basis für weiterfürhrende Techniken ( Vektorraum Modell) – – – – Clustering Summarization Automatische Klassifikation Navigation Beispiel • Wikipedia Suche: Search Methoden • Regel-/Lexikonbasiert • Statistisch • Mischformen Regel-/Lexikonbasierte Verfahren • Rein Lexikonbasiert (Gazetters): – Listen von berühmten Persönlichkeiten – Listen von geographischen Entitäten – Listen von Parteien, Firmen • Regelbasiert – Einfache reguläre Ausdrücke • URLS, Preise, Datum, etc – Lokale Grammatiken • Personen, Firmen etc. – Syntaktische Muster • Terminologe, Keywords Statistische Verfahren • 2 Aufgaben: – Identifikation von Kandidaten für Entitäten • Syntaktische Muster (NN, etc) • Simple Heuristiken: Großgeschriebene Sequenzen – Bestimmung des Typs • Methoden des Machine Learning • Einbeziehung des Kontexts Probleme • Ambiguitäten: – Washington – Apple, Sun • Normalisierung: – George Bush – George W. Bush – George Bush jr - .. • Groß-/Kleinschreibung