Modelle zur Repräsentation natürlichsprachlicher Dokumente

Werbung
Referat zum Hauptseminar: Nichrelationale Datenbanken
Rositsa Fidanova
Modelle zur Repräsentation
natürlichsprachlicher Dokumente
Ontologie-basiertes InformationFiltering und –Retrieval mit
relationalen Datenbanken
Problemstellung

Informationsüberflutung
Einer Studie zu Folge enthält das WWW im Jahre 2000 ca. 2,5
Milliarden statische und ca. 550 Milliarden dynamische Webseiten,
die zu 95% öffentlich zugänglich sind. Ähnlich hohe Anzahlen von
Dokumenten können auch für andere Bereiche der
computergestützten Kommunikation, wie z.B. E-Mail, aufgestellt
werden. Heutzutage stehen jeder Person in den Industrieländern
quantitativ sehr viele Informationen für die Problemlösung und die
Entscheidungsfindung zur Verfügung, ein Großteil dieser
Informationen kann aber aufgrund der beschränkten
Verarbeitungskapazität nicht adäquat verarbeitet werden. Somit
können die relevanten Informationen nicht mehr in einem
ausreichenden Ausmaß gefunden werden. Manchmal behindert sogar
diese „Flut von Informationen“ die Arbeit.
Problemstellung


Information- Retrieval und Information- Filtering
Man bemüht sich um die Entwicklung von geeigneten Methoden
und Werkzeugen für die Suche und die Filterung von
natürlichsprachlichen Informationen (z.B. Werkzeuge zum
Filtern oder zielgruppengerechtes Verteilen von digitalen
Dokumenten und insbesondere von E-Mails).
Hohe Komplexität der natürlichen Sprachen und noch nicht
ausreichende Rechenkapazität von Rechnern
Bis heute können lediglich Heuristiken zur Lösung des Problems
eingesetzt werden (Grundlage ist dabei immer ein (formales)
Modell)). Bei den meisten in der Praxis eingesetzten Heuristiken
werden natürlichsprachliche Dokumente als eine Menge von
voneinander unabhängigen Wörtern modelliert. Die komplexe
Realität der natürlichen Sprachen wird durch ein stark
vereinfachtes Modell abgebildet.
Problemstellung
Solche Heuristiken scheitern dann, wenn das gesuchte
Dokument anstatt der angegebenen Wortkombination eine
andere, äquivalente oder bedeutungsähnliche Wortkombination
enthält.
Im Unterschied zu den formalen Sprachen zeichnen sich
natürliche Sprachen, die von Information- Retrieval und –
Filtering Werkzeugen verarbeitet werden müssen, u.a. durch
Redundanzen und Ambiguitäten aus. Die Wahrscheinlichkeit
dafür, dass zwei Personen denselben Begriff zur Beschreibung
der selben Sache verwenden, ist kleiner als 20 Prozent.
Ziel


Im Modell zur Repräsentation von Dokumenten sollen
verschiedene linguistische Phänomene und Zusammenhänge
zwischen Wörtern hinreichend abgebildet werden. Näher geht
es um die Redundanz und die Ambiguitäten der natürlichen
Sprachen.
Das im Buch dargestellte Modell ist in der Lage thematische
Zusammenhänge zwischen verschiedenen Wörtern zu
berücksichtigen. Da einfache statistische Verfahren zur
Erkennung derartiger Zusammenhänge nicht funktionieren,
enthält weder das Modell noch die auf dem Modell aufbauende
Heuristik keine solchen Verfahren. Das Modell bietet eine Art
Schnittstelle an, mit der thematische Zusammenhänge zwischen
Wörtern von außen vorgegeben werden können (z.B. durch von
Linguisten erstellte Ontologien, die Wissen über die
linguistischen und thematischen Zusammenhänge zwischen
Wörtern enthalten). Auf dieser Weise sehen das InformationFiltering und - Retrieval viel „inteligenter“ aus.
Information- Filtering und - Retrieval

Information- Retrieval
Die Aufgabe von IR- Systemen ist es, den Benutzer zu denjenigen
Dokumenten zu führen, die seinen Bedarf an Informationen befriedigen.
IR- Systeme verarbeiten ausschließlich in Textform vorliegende
Schriftdokumente. Im Gegensatz dazu verarbeiten die gängigen
Datenbanksysteme Daten, die üblicherweise bis ins Detail über
Datentypen, Attribute und Relationen strukturiert, bzw. gültige Sätze
einer formalen Sprache sind.
Allgemeines Modell zum Information- Retrieval
Autoren
erstellen
Dokumente
werden repräsentiert
durch
DokumentenRepräsentationen basieren auf
ggf. Modifikationen
Anwender mit Zielen, Aufgaben
haben
Informationsbedarfe
werden formuliert
als
Modell der
Anfragen
Repräsentation basieren auf
Abgleich
gefundene
Dokumente
Anwendung und
Bewertung
Bewertungen zu
den Dokumenten
ggf. Modifikationen
basierend auf
Modell der Interaktion
Allgemeines Modell zum Information- Filtering
Autoren
erstellen
verbreiten
Dokumente
werden repräsentiert
durch
DokumentenRepräsentationen basieren auf
IF- Systeme verarbeiten
ebenso ausschließlich in
Textform vorliegende digitale
Schriftdokumente. Es liegt
eine große strukturelle
Ähnlichkeit zwischen den
beiden Aufgaben (IR und IF).
Anwender mit Interessen
haben
langfristige Infobedarfe
werden formuliert
als
Modell der
Profile
Repräsentation basieren auf
Abgleich
gefundene
Dokumente
lesen und
bewerten
Bewertungen zu ggf. Modifikationen vornehmen
den Dokumenten
basierend auf
Modell der Interaktion
Unterschiede zwischen IF und IR
• IR- Systeme dienen zur Befriedigung eines kurzfristigen
Informationsbedarfs, meistens mit dem Ziel eine akute Aufgabe
zu lösen. IF- Systeme werden hingegen eingesetzt um ein
langfristiges Ziel zu erreichen.
• Aus Sicht der vom Benutzer formulierten Anfrage ist der
Dokumentenbestand bei einem IR- System statisch- der
Dokumentenbestand ändert sich zum Zeitpunkt der Anfrage
normalerweise nicht. Aus Sicht des Profils ist der
Dokumentenbestand bei einem IF- System dynamisch- es
kommen laufend neue Dokumente dazu.
• Die zeitnahe Weitergabe von Dokumenten an den Benutzer ist
wichtig für ein IF- System. Neue Dokumente werden möglichst
zeitnah evaluiert und an den Benutzer weiterleitet. Bei IRSystemen ist das nicht der Fall.
• IR- Systeme- weniger Wert auf Vertraulichkeit zumal die
Anfragen häufig relativ anonym gestellt werden können.
IF- Systeme- über die langfristige Profilbildung stark an einen
Anwender oder eine Anwendergruppe gebunden, lässt sich nur
schwer anonymisieren. Zusätzlich enthalten die Anwenderprofile
Informationen über die Anwender, weshalb die Profildaten vor
unberechtigtem Zugriff geschützt werden müssen.
Computerlinguistik
• Morphologie
Flexion, Komposition und Derivation
Stemming (Normalisierung)
Definition: Das Zurückführen einer Wortform auf einen Wortstamm
(Strong- Stemming) oder das Zurückführen der Wortform auf das
jeweilige Wort in Grundform (Lemmatisierung oder Weak- Stemming).
Es gibt drei Möglichkeiten, ein Verfahren für die Normalisierung zu
konzipieren: Lexikon- basiert, Algorithmen- basiert und
kombiniert.
- Lexikon- basiert= eine Tabelle wird angelegt, die in jeder Zeile einer
Wortform das passende Wort bzw. den passenden Wortstamm
zuordnet. Sehr einfach, aber manuell zu pflegen, was sehr aufwändig
ist.
- Algorithmen- basiert= Ersetzungsregeln werden definiert, die (ggf. in
mehreren Durchläufen) auf einer Wortform angewandt werden. Die
Regeln sind sprachabhängig zu definieren und bei Sprachen mit
anspruchsvoller Morphologie schwer aufzustellen (z.B. Häuser).
Ausserdem führen solche Regeln in Sprachen, wo Worte unregelmäßig
gebeugt werden, zu einem Over- Stemming bzw. Under- Stemming (die
zu normalisierende Wortform hat gegenüber dem eigentlichen Wort
entweder zu viele oder zu wenige Buchstaben).
- kombiniertes Verfahren= zuerst wird überprüft, ob ein passender
Eintrag im Lexikon vorhanden ist. Wenn nicht, dann wird die Wortform
unter Anwendung von Regeln normalisiert. Unregelmäßig gebeugte
Wörter werden im Lexikon erfasst, und die regelmäßig gebeugten
werden über das Regelwerk normalisiert. Ein bekanntes kombiniertes
Lemmatisierungsverfahren für die deutsche Sprache ist Morphy.
Syntax
Die Syntax von Sätzen wird bei gängigen IF- und IR- Systemen nicht
berücksichtigt. Unter Syntax wird in diesem Zusammenhang ein System
von Regeln verstanden, die beschreiben, wie aus einem Inventar von
Grundelementen durch spezifische (syntaktische) Mittel alle
wohlgeformten Sätze einer Sprache abgeleitet werden können.
Syntax- Parsing- automatische Analyse sprachlicher Ausdrücke im
Bezug auf ihre Syntax, z.B. die Ableitung eines Syntax- Baumes
basierend auf einer kontextfreien Grammatik.
Bei dem Syntax- Parsing von natürlichen Sprachen treten drei
Probleme auf:
Ambiguität=
Time flies like an arrow
Interpretationen: Zeit fliegt wie ein Pfeil./ Zeitfliegen mögen einen
Pfeil./ Bestimme die Geschwindigkeit von Fliegen so, wie es ein Pfeil
tut.
Abdeckung= Abdeckungsgrad der in Syntax- Parsern verwendeten
Grammatiken.
Effizienz= Das Parsing eines kurzen Artikels nimmt mehrere Minuten in
Anspruch.

Semantik
Teildisziplin der Sprachwissenschaft, die sich mit der Analyse
und Beschreibung der „wörtlichen“ Bedeutung von sprachlichen
Ausdrücken beschäftigt.
Satzsemantik- versucht die Bedeutung von
natürlichsprachlichen Sätzen zu erfassen.
Diskurssemantik- beschäftigt sich mit der Bedeutung von
ganzen Dokumenten (Diskursen)
Satz- und Diskurssemantik werden aus der syntaktischen
Analyse abgeleitet. Die Anwendung von Syntax- Parsern im
Bereich des IF und IR ist aber, wie gerade festgestellt, nicht
praktikabel.
Lexikalische Semantik- welche Bedeutung liegt einzelne
Wörtern zu Grunde. Für einzelne Interpretationen
(Bedeutungen) kann es mehrere Wörter (Synonymie) geben und
für einzelne Wörter mehrere Interpretationen (Polysemie,
Homonymie, Metonymie).
Verhältnis von Wörtern und Interpretationen in ERM- Notation.
(0,n)
Wort
-
-
(0,n)
Zuordn.
Interpretation
Es gibt Wörter, die keine explizite lexikalische Bedeutung
haben, z.B. die bestimmten Artikel im Deutschen (der, die, das).
Sie werden in vielen IR- und IF- Systemen bei der Verarbeitung
ignoriert. Mit Hilfe von Stoppwortlisten werden sie identifiziert
und aus den Dokumenten entfernt.
Umgekehrt ist es möglich, dass zu einer Interpretation noch kein
Wort existiert. Solche Objekte müssen umschrieben werden.
- Folgende semantische Phänomene können in Ontologien
abgebildet und mit ihrer Hilfe erkannt werden. Dadurch können
solche Phänomene von IF- und IR- Systemen verarbeitet
werden.
Synonymie= mehrere Wörter haben dieselbe Interpretation
(Bedeutung), z.B. Auto, Automobil, Wagen. Ein Problem für IRund IF- Systeme. Bei IR wird die Anfrage ‚suche Dokumente
zum Thema Auto‘ nicht korrekt beantwortet, weil z.B.
Dokumente, in denen nur von ‚Wagen‘ gesprochen wird, dem
Benutzer nicht zurückgeliefert werden.
Polysemie und Homonymie= Unter Polysemie wird die
Eigenschaft von Wörtern bezeichnet, auf verschiedene Entitäten
zu referenzieren, die aber semantisch zueinander in Bezug
stehen (z.B. Schule als Institution, Schule als Gebäude).
Unter Homonymie versteht man Wörter, die sich hinsichtlich
ihrer Orthographie (Homographe) und Aussprache
(Homophone) gleichen und die mehrere unterschiedliche
Interpretationen haben, die in keinem semantischen
Zusammenhang zueinander stehen (Bank, Maus).
Für IR- und IF- Systeme ist lediglich die Orthographie wichtig.
Der Begriff Homographie wird folgendermaßen definiert:
Homographie liegt dann vor, wenn einem Wort mehr als eine
Interpretation zugeordnet ist. Ein Homograph hat demnach
mindestens zwei verschiedene Interpretationen. Eine
Unterscheidung zwischen Polysemen und Homographen wird
nicht vorgenommen. Disambiguierung nennt man ein
Verfahren, das unterscheiden kann, welche der verschiedenen
Interpretationen eines Homographen im jeweiligen Kontext
gemeint ist.
Metonymie= eine nicht wörtliche Verschiebung der begrifflichen
Interpretation (Teil- Ganzes und Verursacher- Effekt Relationen).
Beispiele:
Das Institut hat mich angerufen. (Institut anstelle des Namen der
konkreten Person)
Peter hört gerne Bach. (Verursacher- Effekt Relation)
Homographie und Metonymie bereiten ebenfalls Probleme für
IR-und IF- Systeme.
-
Antonymie Hyponymie und Meronymie= Als Antonymie bezeichnet
man die semantische Gegensatzrelation(z.B. heiß-kalt). Als Hyponymie wird
die semantische Relation der Unterordnung (Subordination) bezeichnet
(‚Apfel‘ und ‚Birne‘ sind Hyponym zum Oberbegriff ‚Frucht‘). Meronymie
bezieht sich auf die semantische Teil- Ganzes Relation (‚Reifen‘ und ‚Motor‘
sind Meronyme von ‚Auto‘).
•
Pragmatik= der Bereich der Linguistik, der sich mit dem sprachlichen
Handeln beschäftigt. Im Unterschied zur Semantik betrachtet die Pragmatik
die Bedeutungsaspekte, die über reine Wahrheitsbedingungen
hinausgehen.
Benutzermodellierung= ein Nebenbereich der Pragmatik, wichtig für IF
und IR. Dadurch werden interaktive Software-Systeme in die Lage versetzt,
ihr Verhalten an ihren jeweiligen Benutzer anzupassen.Dabei wird ein
Benutzermodell erstellt, das die Eigenschaften des Benutzers beinhaltet.
Insbesondere beim IF spielt die Benutzermodellierung eine große Rolle: das
Benutzerprofil, anhand dessen ein IF- System die Relevanz von
Nachrichten bewertet, ist ein Benutzermodell. Eine schnelle Erstellbarkeit
und eine hohe Robustheit von Benutzerprofilen bei IF- Systemen ist sehr
wichtig.
Fazit
Moderne IF- und IR- Systeme sollten folgende Aspekte der
Linguistik berücksichtigen: Morphologie (Flexion,
Komposition, Derivation), lexikalische Semantik (Synonymie,
Homographie, Metonymie, Hyponymie und Meronymie) und
Pragmatik (Benutzermodellierung).
Ontologien

-
Definition
ursprünglich in der Philosophie entstanden
Wird in vielen Teilbereichen der Informatik benutzt, z.B.
Wissensverarbeitung, Wissensmanagement, Verarbeitung
natürlicher Sprache usw.
Eine Ontologie ist ein Modell von sprachlichen
Ausdrucksmitteln, auf die sich mehrere Akteure
(Subjekte) geeinigt haben und die für eine
Kommunikation zwischen den Akteuren benutzt werden.

Ontologie- Modellierungssprachen
Zur Formulierung einer Ontologie bedarf es einer
Modellierungssprache. Sie legt über eine Syntax fest, wie die
verschiedenen Elemente miteinander verbunden werden können
und welche Bedeutung diese Verbindung hat. Es handelt sich
dabei immer um eine formale Sprache., deswegen sind
natürlichsprachliche Modelle, z.B. Enzyklopädien, keine
Ontologien im Sinne der Informatik.
Taxonomien, Klassifikationen und Systematiken
Insbesondere in den Naturwissenschaften zur Klassifikation von
Objekten zu verwenden. Dabei geht es um eine strikt hierarchische
Klassifikation. Das heißt: zu jeder Subklasse gibt es maximal eine
Superklasse (oder umgekehrt).
Thesauren und Wortnetze
Keine strikt hierarchische Klassifikation von Objekten und somit eine
höhere Ausdruckskraft und Komplexität. Solche Modellierungssprachen
erlauben zwischen Objekten beliebige Beziehungen, wobei auch
unterschiedliche Beziehungstypen verwendet werden können. Zu den
konkreten Ontologien, die mit den genannten Sprachen entwickelt
wurden, gehört z.B. das WordNet. Dieses Netz bildet die Bedeutungen
und Beziehungen (Synonyme, Homographen,…) zwischen Wörtern der
englischen Sprache ab. Zwei deutsche Projekte mit ähnlichem Ziel sind
GermaNet der Universität Tübingen und das Wortschatzlexikon der
Universität Leipzig.
Logisch-mathematische Repräsentationen und semiotische
Thesauren
Notationsformen der Logik oder Mathematik, Formalismen. Bekannte
Modellierungssprachen in dieser Klasse sind u.a. KIF, GOL, OIL, RDF
und Ontolingua. Bekannte Ontologien- FIPA Agent Management
Ontology, die als Kommunikationsstandart eine wichtige Rolle bei der
Inter- Agentenkommunikation spielt.
Ein Beispiel für eine logisch-mathematische Repräsentation einer
Ontologie:
ist_ein(Auto, Fahrzeug);
ist_ein(Motorrad, Fahrzeug);
ist_ein(BMW, Firma);
ist_ein(Audi, Firma);
produziert(BMW, Auto);
produtziert(Audi, Auto);
hat_ mindestens(Auto, 4, Räder);
hat_genau(Motorrad, 2, Räder);
ist_ein(x, y) := ist_ein(y, Auto)
UND ist_ein(x, Firma)
UND produziert(x, Auto);
X ist ein Auto, wenn X eine Firma ist,
Die Autos produziert. Daraus folgt z.B.:
Audi ist ein Auto.
synonym(Auto, Wagen);
synonym(Wagen, Automobil);
synonym(x, y) := synonym(y, x);
Wenn X ein Synonym zu Y ist,
dann ist auch Y ein Synonym zu X.
synonym(x, z) := synonym(x, y)
UND synonym(y, z);
Transitivität: Wenn X ein Synonym zu
Y und Y ein Synonym zu Z ist, dann
ist X auch ein Synonym zu Z. Daraus
folgt z.B.: Auto ist ein Synonym zu
Automobil.
Zwei Probleme, die einer Integration von Ontologien in IF und IR
Systeme im Wege stehen können: der Aufwand einer OntologieErstellung und der Rechenaufwand bei der Ontologie- Anwendung.
Deswegen verwendet man möglichst vorhandene Ontologien und
versucht sie fachspezifisch zu erweitern (GermaNet und
Wortschatzlexikon für deutschsprachige Dokumente und WordNet
für englischsprachige Dokumente). Aufgrund ihres hohen
Rechenaufwands erscheinen logisch- mathematische Ontologien
nur bedingt geeignet für IR- und IF- Systeme.
Gängige IF/IR- Modelle
Drei verschiedene Modellkategorien bezüglich ihres
mathematischen Fundamentes:
1.
Mengentheoretische Modelle- natürlichsprachliche Dokumente
werden auf Mengen abgebildet und die
Ähnlichkeitsbestimmungen von Dokumenten (in erster Linie)
auf die Anwendung von Mengenoperationen zurückgeführt.
2.
Algebraische Modelle- stellen Dokumente und Anfragen als
Vektoren, Matrizen oder Tupel dar. Sie werden zur
Berechnung von paarweisen Ähnlichkeiten über eine endliche
Anzahl algebraischer Rechenoperationen in ein
eindimensionales Ähnlichkeitsmaß überführt.
3.
Probabilistische Modelle- das Verarbeiten von Dokumenten
wird als ein Zufallsexperiment angesehen. Zur Abbildung von
Dokumentenähnlichkeiten wird daher auf
Wahrscheinlichkeiten und probabilistische Theoreme
zurückgegriffen.
Klassifikation der Modelle bezüglich ihrer modellinhärenten
Eigenschaften der Terminterdependenzen:
1.
Modelle ohne Terminterdependenzen.
2.
Modelle mit Terminterdependenzen:
- mit immanenten Terminterdependenzen
- mit transzendenten Terminterdependenzen
Fundamentale Konzepte
Alle Verfahren zur Verarbeitung von natürlichsprachlicher
Dokumente zerstückeln diese Dokumente in einzelne Terme als
atomare Bestandteile eines Dokuments: ein Parser untersucht die
Zeichenkette des Dokuments systematisch Zeichen für Zeichen,
entfernt alle evtl. vorhandene Formatierungen(HTML- Befehle)
und Sonderzeichen (z.B.: .;!?:) und ersetzt diese durch
Leerzeichen. So entsteht eine Vielzahl von durch Leerstellen
getrennten Wörtern, die als Terme bezeichnet werden. Wir
unterscheiden so folgende Variablen:
D= die Menge aller Dokumente
T= die Menge aller Terme, die in den Dokumenten aus D vorkommen
αd,t ∈ z≥0 ist die Anzahl des Vorkommens des Terms t ∈ T in dem
Dokument d ∈ D. Sollte der Term t im Dokument d nicht
vorkommen, dann ist αd,t = 0.
Anwendung von Stoppwortlisten
Zur Anwendung einer Stoppwortliste Tø ist folgendes Vorgehen
erforderlich: Allen Vorkommen von Termen in Dokumenten, die
Stoppwörter betreffen, wird vor der weiteren Verarbeitung der
Wert Null zugewiesen (wodurch der alte Wert überschrieben
wird).
αd,t := 0 für jedes d ∈ D, t ∈ Tø
Zusätzlich ist es sinnvoll, alle Stoppwörter aus der Menge der
Terme T zu löschen, um die Verarbeitungsgeschwindigkeit zu
erhöhen:
T := T\Tø
Durchführen des Stemming (der Normalisierung)
Wörter werden auf ihre Stammform zurückgeführt. Man definiert
eine Stemming- Funktion ⊥(t) = t ⊥,die zu jedem beliebigen
Term t ∈ T den dazugehörigen Wortstamm t ⊥ ∈ T⊥ aus der
Menge aller Wortstämme T⊥ ⊆ T liefert. Zusätzlich liefert die
Funktion zu einem Wortstamm den eingegebenen Wortstamm
zurück:
⊥(t ⊥) = t ⊥ für jedes t⊥∈ T⊥
Beim Aufstellen der Stemmingfunktion kann es (in Abhängigkeit
von der Sprache der Dokumente) vorkommen, dass ein Term zu
mehreren Wortstämmen gehört. Da dieser Fall bei den meisten
Sprachen selten ist, wird dieses Problem in der Praxis ignoriert.
Man trifft willkürlich eine Entscheidung, so dass die Funktion ⊥()
eindeutig ist.
Das Stemming wird umgesetzt, indem alle Terme, die keine
Wortstämme sind, durch ihren Wortstamm ersetzt werden und alle
Nicht- Wortstämme aus der Menge der Terme gelöscht werden.
Anwendung von Synonymersetzungen
Seltener angewandt als die anderen Verfahren. Ersetzen von
synonymen Begriffen durch einen führenden Begriff. Da
üblicherweise eine totale Synonymie unterstellt wird, ist dieses
Vorgehen analog zu dem Vorgehen beim Stemming. Man definiert
eine Funktion S(t) = ts , die zu jedem Term t ∈ T (z.B. Auto,
Automobil, Wagen) den dazu passenden, synonymen und
führenden Term ts aus der Menge der führenden Terme Ts ⊆ T
Liefert (z.B. Wagen). Dann gilt:
S(ts) = ts für jedes ts ∈ Ts
Eine gängige Methode zur Implementierung der
Synonymersetzungsfunktion ist die Verwendung einer Tabelle, wo
die einzelnen Tabelleneinträge Term und führender Term sind.
Bestimmung von Ähnlichkeiten
Bei IR gibt der Anwender eine Anfrage q vor. Es ist erforderlich
für alle Dokumente d ∈ D, die Ähnlichkeit sim(d, q) zwischen
den Dokumenten und der Anfrage zu berechnen, um die
Dokumente gemäß dieser Ähnlichkeit zu ordnen und dem
Benutzer zu präsentieren.
Bei IF ist ein anderes Vorgehen erforderlich: neue Dokumente
werden vom System in verschiedene Klassen eingeordnet (z.B.
‚relevant‘ und ‚nicht relevant‘). Dazu ist es erforderlich, ein
neues Dokument d ∈ D mit den Profilen der einzelnen Klassen
zu vergleichen.
Modelle ohne Terminterdependenzen
- zeichnen sich dadurch aus, dass jeweils zwei verschiedene
Terme als vollkommen unterschiedlich und in keiner Weise
miteinander verbunden angesehen werden. Dieser Sachverhalt
nennt man Orthogonalität von Termen- bei einer grafischen
Interpretation wie bei den algebraischen Modellen- bzw.
Unabhängigkeit von Termen.
- eine starke Vereinfachung gegenüber der Realität der
natürlichen Sprachen. Morphologische und lexikalisch- semantische
Zusammenhänge zwischen Termen können nicht erfasst werden
(z.B. Derivationsbeziehungen, Komposita- Beziehungen, sowie
Metonymie, Hyponymie und Meronymie).
- Beispiele für solche Modelle sind: Standart Boolean Model (SBM),
Vector Space Model (VSM), Binary Independence Retrieval (BIR)
(die drei Klassiker), Inference Network Model (INM), Belief Network
Model (BNM) und Extended Boolean Model (EBM).
Vector Space Model (VSM)
- das VSM ist 1968 vorgestellt worden und gehört zu den Klassikern
unter den algebraischen IF/IR- Modelle, das sich bis heute einer
großen Beliebtheit in der Praxis erfreut.
- Abgestufte Ähnlichkeitswerte und eine geometrische
Interpretation von Dokumenten, die leicht zu vermitteln und
anzuwenden ist.
- das Modell repräsentiert alle Dokumente d ∈ D über einen
Dokumentenvektor d ∈ R #T. Jede Dimension des Vektors
entspricht dabei einem Term t i ∈ T. Da alle Dimensionen
zueinander orthogonal sind, werden die Terme beim VSM somit als
frei von Interdependenzen modelliert. Die Ausprägung einer jeden
Dimension eines Dokumentenvektors ist über das Gewicht
festgelegt:
d = (wd,t1, wd,t2, …, wd,t #T) mit t i ∈ T
Zur Berechnung von Gewichten gibt es viele Verfahren, darunter
die tf- idf (term frequency-inverse document frequency) Verfahren.
Gewichtungsschema: siehe auf den Kopien!
- die Ähnlichkeit zwischen zwei Dokumenten di, dj ∈ D wird beim
VSM üblicherweise unter Anwendung des normierten
Skalaproduktes als der Kosinus des Winkels zwischen den Vektoren
di und dj der beiden Dokumente berechnet: siehe auf den Kopien!
- die Berechnung der Ähnlichkeit zwischen einem Dokument und
einer Anfrage q verläuft analog zur Berechnung der Ähnlichkeit
Zwischen zwei Dokumenten. Eine Anfrage wird beim VSM als
virtuelles Dokument aufgefasst, das lediglich die in der Anfrage
enthaltenen Terme hat, und bei dem die Gewichte analog zu den
realen Dokumenten bestimmt werden. Dieses Modell erlaubt keine
Verknüpfungsoperationen zwischen den Termen bei Anfragen. Da
das VSM sowohl die Berechnung von Ähnlichkeiten zwischen
Dokumenten als auch die Berechnung von Ähnlichkeiten zwischen
Dokumenten und Anfragen unterstützt, kann das VSM problemlos
für IF und IR verwendet werden.
- bei der Berechnung von Ähnlichkeiten werden alle Terme der
betroffenen Dokumente einbezogen. Daher ist die Anwendung von
Stoppwortlisten und Stemming unumgänglich. Zur Behandlung von
Synonymen sollte eine Synonymersetzung Verwendung finden, oder es
sollten alternativ für das IF Query- Expansion- Methoden benutzt werden.
Dabei werden Anfragen vor oder während der Verarbeitung um zusätzliche
synonyme Terme erweitert.
Modelle mit immanentenTerminterdependenzen
- solche Modelle berücksichtigen vorhandene Interdependenzen
zwischen Termen, d.h. Terme werden hier nicht als orthogonal
bzw. unabhängig voneinander behandelt. Im Unterschied zu den
Modellen mit transzendenten Terminterdependenzen, wird bei
diesen Modellen das Ausmaß einer Interdependenz zwischen zwei
Termen aus dem Dokumentenbestand, in einer vom Modell
bestimmten Weise, abgeleitet (also dem Modell immanent).
- die Interdependenz zwischen zwei Termen wird direkt oder
indirekt aus der Co- Occurrenz der beiden Terme abgeleitet.
Darunter versteht man das gemeinsame Auftreten zweier Terme in
einem Dokument. D.h. zwei Terme sind zueinander interdependent
wenn sie häufig gemeinsam in Dokumenten vorkommen. Bei den
linguistischen Phänomenen der Flexion, Synonymie, Komposition,
Hyponymie und Meronymie tendieren die Co- Occurrenz- basierten
Ähnlichkeitsmaße dazu, die Ähnlichkeiten zwischen zwei Termen
stark zu unterschätzen. Bei Wortgruppen wird hingegen die
Ähnlichkeit überschätzt. (s. Co- Occurrenzen einiger Terme in WWW)
Gründe dafür:
1. Flexion: Verschiedene Flexionsformen eines Nomens (Auto,
Autos) sollten dem linguistischen Verständnis nach eine sehr
große Ähnlichkeit haben. In der Praxis findet man aber
gerade in kürzeren Dokumenten nur eines der beiden Wörter.
Deswegen wird eine Ähnlichkeit erkannt, diese liegt aber
deutlich unter dem aus linguistischer Sicht zu erwartenden
Wert. Aus diesem Grund sollte man bei Modellen mit
immanenten Terminterdependenzen nicht auf die gängigen
Stemming- Verfahren verzichten.
2. Synonymie: Aus linguistischer Sicht erwartet man eine sehr
hohe Termähnlichkeit. In der Praxis ist die Erkennung von
Synonymen mit Hilfe von Co- Occurrenz- Maßen stark von
der Art der Dokumente abhängig. Wenn in einem Text
Synonyme häufig vorkommen, ist die Chance sehr gut sie
unter Verwendung von Co- Occurrenz- Maßen zu erkennen.
Anderseits ist die unbegründete Verwendung von Synonymen
in wissenschaftlichen Texten eher weniger gerne gesehen.
Besteht der Dokumentenkorpus überwiegend aus solchen
Dokumenten, dann ist die Erkennung von Synonymen auf
Basis von Co- Occurrenz- Maßen stark gefährdet.
3.
4.
5.
Komposition: Aus linguistischer Sicht muss der Begriff ‚Gartenzwerg‘
(ein Kompositum) eine Ähnlichkeit zu dem Begriff ‚Zwerg‘ aufweisen
(als Spezialfall). Ebenfalls eine thematische Ähnlichkeit zu ‚Garten‘.
Zudem sollte ‚Gartenzwerg‘ bedeutungsidentisch mit der Wortfolge
‚ein Zwerg für den Garten‘ sein und somit eine hohe Ähnlichkeit zu
der Wortfolge haben. Autoren von Dokumenten geben dem kürzeren
Kompositum häufig den Vorzug gegenüber der längeren Wortfolge.
Dadurch ist die Wahrscheinlichkeit, dass in kürzeren Texten sowohl
das Kompositum als auch die Wortfolge vorkommt, relativ gering.
Das hat zur Folge, dass die Ähnlichkeit zwischen den drei
genannten Worten mit Co- Occurrenz- Verfahren systematisch
unterschätzt wird.
Hyponymie und Meronymie: In Dokumenten werden normalerweise
nicht alle Bestandteile oder Über- und Unterbegriffe eines Wortes
aufgezählt. Dementsprechend ist die Co- Occurrenz zweier Worte,
die über Hyponymie oder Meronymie miteinander verbunden sind,
eher gering und entspricht nicht der linguistisch motivierten
Erwartung.
Wortgruppen: Wortgruppen, die sehr bekannte Eigennamen
repräsentiren, z.B. New York, kommen in vielen Dokumenten vor.
Somit ergibt sich gemäß der Co- Occurrenz eine hohe Ähnlichkeit
zwischen den beiden Worten, die aus linguistischer Sicht nicht
existiert.
Fazit: Einfache auf Co- Occurrenz basierende statistische
Verfahren sind nicht immer in der Lage, Terminterdependenzen
gemäß dem linguistischen Verständnis korrekt abzuleiten. Insofern
kann die erwartete Qualitätssteigerung von Modellen mit
immanenten Terminterdependenzen gegenüber den Modellen ohne
Terminterdependenzen trotz des höheren Rechenaufwands nicht
beobachtet werden.
Beispiele für Modelle mit immanenten Terminterdependenzen:
Generalized Vector Space Modell (GVSM), Modell des Latent
Semantic Index (LSI) und Spreading Activation Neuronal Network
(SANN).
-
Modelle mit transzendentenTerminterdependenzen
keine Annahme über die Orthogonalität oder Unabhängigkeit
von Termen. Im Unterschied zu den Modellen mit immanenten
Terminterdependenzen können die Interdependenzen bei diesen
Modellen nicht ausschließlich aus dem Dokumentenbestand und
dem Modell abgeleitet werden. D.h., dass die den
Terminterdependenzen zugrunde liegende Logik als über das
Modell hinausgehend (transzendent), modelliert wird.
Das Vorhandensein von Terminterdependenzen wird explizit
modelliert, die konkrete Ausprägung einer Terminterdependenz
wird aber direkt oder indirekt von außerhalb (z.B. von einem
Menschen) vorgegeben.
- direkt bei dem Topic-based Vector Space
Model (TVSM), bei der in diesem Buch vorgestellten Erweiterung
sowie das Retrieval by Logical Imaging (RbLI). Dabei werden die
konkreten Ausprägungen der Terminterdependenzen direkt, z.B. in
Form einer Tabelle, Matrix oder einer Ontologie von außen
vorgegeben.
-
-
-
-
indirekt- Modelle, bei denen die Interdependenzen indirekt
vorgegeben werden, greifen auf Lernverfahren der künstlichen
Intelligenz, um die indirekten Interdependenzinformationen in
eine nutzbare Form umzuwandeln. Das Backpropagation
Neuronal Network (BNN) z.B. erlernt die Interdependenzen
anhand von Trainingsdaten. Bei dem Fuzzy Set Model handelt es
sich um ein Mischverfahren: zuerst direkte Vorgabe für
Terminterdependenzen, die später mit Trainingsdaten (indirekte
Vorgaben) verfeinert wird.
diese Modelle können durch die externe Vorgabe von
Terminterdependenzen die linguistischen Phänomene besser
erfassen, sofern die Vorgabe geeignet ist. Im Extremfall können
die Terminterdependenzen von menschlichen Experten
vorgegeben bzw. geprüft werden, um eine hohe Qualität der
Vorgabe sicher zu stellen.
Nachteil- höherer Aufwand bei der Generierung der
Terminterdependenzen und der für die explizite Speicherung der
Terminterdependenzen notwendige Speicherplatzbedarf.
Bewertung der gängigen Modelle (s. Kopie)
-- Kriterien für die Bewertung sind:
1. morphologische Kriterien
2. lexikalisch-semantische Kriterien
3. Wortgewichte- in wie weit ist ein Modell in der Lage, einzelnen
Termen ein Gewicht zuzuweisen. Worte ohne Themenbezug (wie
z.B. Präpositionen) sind beim IF und IR hinderlich. Sie werden
üblicherweise über Stoppwortlisten entfernt. In einem IF/IRModell sollten idealerweise einzelnen Termen individuelle
Termgewichte zugewiesen werden
4. Wortgruppen (New York, Windows XP) können spezielle
Bedeutungen haben, die sich nicht alleine aus den einzelnen
Worten ableiten lassen. Deswegen sollten Wortgruppen in einem
IF/IR- Modell explizit berücksichtigt werden.
Topic-based Vector Space Model (TVSM)
-- das Modell wurde 2003 zum ersten Mal vorgestellt. Es ist ein Vektorbasiertes Modell, das eine Erweiterung und Verallgemeinerung des
VSM und des GVSM ist.
-- dem TVSM liegen zwei Ideen zugrunde:
1.
Alle Terme werden mit einem Gewicht versehen, welche die Eignung
eines Terms widerspiegeln, den thematischen Bezug eines
Dokuments zu erschließen.
2.
Verschiedene linguistische Phänomene können durch Ähnlichkeiten
von Termen in Bezug auf das ihnen zugrunde liegende Thema
abgebildet werden. Es handelt sich konkret um folgende
Phänomene:
- Flexion: verschiedene Flexionsformen eines Wortes haben
maximale Termähnlichkeit
- Komposition: das Kompositum weist ein gewisses Maß an
Ähnlichkeit mit den Einzelworten des Kompositums auf
- Derivation: zwischen dem Derivat und dem ursprünglichen Wort liegt
hohe Ähnlichkeit vor
- Synonymie: maximale Termähnlichkeit zwischen den Synonymen
- Hyponymie und Metonymie: alle Wortbeziehungen vom Typ ist-ein,
besteht-aus, etc. lassen sich durch Termähnlichkeiten ausdrücken
(Term BMW soll eine sehr hohe Ähnlichkeit mit dem Term Auto
haben).
Veranschaulichung der Interpretation des TVSM- Vektorraums (s.
Kopie). Fundamentale Annahme.
Existenz eines Vektorraums, der in jeder Dimension nur positive
Achsenabschnitte aufweist. Jede Dimension bzw. jeder
Achsenabschnitt repräsentiert ein elementares Themengebiet.
Diese Gebiete sind zueinander orthogonal. Jeder Term wird im
Vektorraum durch einen Termvektor repräsentiert, wobei die Länge
(der Betrag) des Termvektors auf einen maximalen Wert von eins
beschränkt ist. Ein Term wird somit über den Termvektor einem
oder mehreren Themengebieten zugeordnet. Die drei Stoppwörter
der, die, das haben einen Betrag von Null, weil sie keinen
Themenbezug haben. Als Maß für Ähnlichkeit zwischen zwei
Termen ist bei TVSM der Kosinus des Winkels zwischen den beiden
Termen definiert. Da der Vektorraum auf positive Achsenabschnitte
eingeschränkt ist, sind Winkel von 0° bis 90° möglich,
Termähnlichkeiten (Kosinus) von 0 bis 1 einschließlich.
Implementierung mit einer relationalen Datenbank
Anzahl
Dokument
(1,n)
(0,n)
DT_ZO
Skalarpr
(0,n)
Wert
Term
(0,n)
ID, Text, Betrag
ID, Text
Die Dokumentenmenge wird bei der Umsetzung im ERM durch den
Entitytyp Dokument und die Termmenge durch Term repräsentiert.
Die Vorkommenshäufigkeit eines bestimmten Terms in einem
Dokument ist beim Einfügen eines jeden Dokuments, für jeden
Term einmalig, im Attribut Anzahl des Relationshiptyps DT_ZO zu
speichern. Dieser Relationshiptyp sollte nur diejenigen DokumentTerm- Kombinationen beinhalten, bei denen ein Term mindestens
einmal im Dokument vorkommt (das Attribut Anzahl größer als Null
ist).
Die Termvektorlängen und der Winkel zwischen jeweils zwei
verschiedenen Termvektoren werden lediglich durch die
Termskalaprodukte repräsentiert. Die Berechnung der
Dokumentähnlichkeiten basiert auf den Skalaprodukten und den in
den Dokumenten vorkommenden Termen (Skalaprodukten werden
durch den Relationshiptyp Skalaprodukt repräsentiert). Die
gespeicherten Termskalaprodukte sollten größer als Null sein.
Beim Einfügen eines neuen Dokuments in die Datenbank ist der
Betrag des dazugehörigen Dokumentenvektors im Attribut Betrag
des Entitytypen Dokument zu hinterlegen. Der einmal berechnete
Betrag eines Dokuments braucht nicht erneut berechnet zu
werden, solange nicht ein Termskalaprodukt eines im Dokument
enthaltenen Terms zu einem beliebigen anderen im Dokument
enthaltenen Term geändert wird. Die Termskalaprodukte sind als
Relativ stabil anzusehen, deswegen ist eine nachträgliche
Anpassung der Beträge der Dokumentenvektoren als eher selten
anzunehmen.
Der folgende in SQL formulierte Quelltextauszug zeigt die für die
Implementierung des TVSM in einer relationalen Datenbank
notwendigen Tabellen:
CREATE TABLE Dokument (
ID
INTEGER,
Text
TEXT NOT NULL,
Betrag
DOUBLE PRECISION,
PRIMARY KEY (ID));
CREATE TABLE Term (
ID
INTEGER,
Text
TEXT UNIQUE NOT NULL,
PRIMARY KEY (ID));
CREATE TABLE DT_ZO (
DokID
INTEGER NOT NULL REFERENCES Dokument (ID),
TermID
INTEGER NOT NULL REFERENCES Term (ID),
Anzahl
INTEGER NOT NULL,
PRIMARY KEY (DokID, TermID));
CREATE TABLE Skalaprodukt (
Term1
INTEGER NOT NULL REFERENCES Term (ID),
Term2
INTEGER NOT NULL REFERENCES term (ID),
Wert
DOUBLE PRECISION NOT NULL,
PRIMARY KEY (Term1, Term2));
Einstellen neuer Dokumente/ Durchführen von Anfragen
-- das TVSM integriert Stoppwörter und Flexionsformen, indem der
Termvektorbetrag für Stoppwörter gleich Null gesetzt wird und der
Winkel zwischen den Termvektoren verschiedener Flexionsformen
eines Wortes als 0° definiert wird. Dementsprechend kommt das
TVSM ohne externe Stoppwortlisten und Stemmingverfahren aus.
Bei Implementierung des TVSM mit einer relationalen Datenbank
muss ein Parser folgende Aufgaben durchführen, um neue
Dokumente in das Modell einzustellen:
1.
Neue Dokumente in einzelne Terme zerlegen. Vorhandene
Formatierungen, Sonderzeichen etc. entfernen.
2.
In der Tabelle Dokument ist ein neuer Eintrag zu erstellen. Die
Anzahlen der verschiedenen Terme in dem neuen Dokument sind zu
zählen und unter Verwendung von SQL- Befehlen in die Tabelle
DT_ZO einzutragen. Wenn ein Term vorkommen sollte, der noch
nicht in der Tabelle Term vorhanden ist, dann ist dieser Term
anzulegen.
3.
Dann ist der Betrag des Dokuments zu berechnen und im Attribut
Betrag der Tabelle Dokument zu dem neuen Dokument zu
hinterlegen.
-- beim Einsatz des TVSM für IR- Aufgaben werden Anfragen als
virtuelle Dokumente aufgefasst:
1.
Eine Anfrage ist in einzelne Terme zu zerlegen.
2.
Es ist ein neues Dokument in Tabelle Dokument zu erstellen,
das die Anfrage repräsentiert. Zu jedem Term der Anfrage
sind passende Einträge in DT_ZO zu erstellen. Die Terme der
Anfrage, die nicht in der Tabelle Term vorhanden sind, werden
ignoriert, wenn sie zu allen anderen Termen orthogonal sind
(unabhängig von ihnen).
3.
Der Verktorbetrag der Anfrage wird berechnet und in der
Tabelle Dokument gespeichert.
4.
Das Anfrage- Dokument wird mit den restlichen Dokumenten
verglichen und das Ergebnis wird dem Benutzer präsentiert.
Stoppwortlemma
Die gängige Vorgehensweise in der Praxis, Stoppwörter in
Dokumenten zu ignorieren. Der Betrag des Termvektors eines
jeden Stoppworts hat den Wert Null. Die Termskalaprodukte
zwischen zwei Termen sind dann genau Null, wenn einer der
beiden involvierten Terme ein Stoppwort ist.
Stemming- Lemma
Vorgehensweise, Terme auf ihre Stammformen oder Worte in
Grundform zurückzuführen und im späteren Verlauf nur mit den
Stammformen bzw. Worten in Grundform weiter zu arbeiten.
Der Winkel zwischen dem Termvektor eines Wortes und dem
Termvektor seines Wortstamms ist Null Grad.
Synonym- Lemma
Vorgehensweise, synonyme Wörter auf einen führenden Begriff
vor der weiteren Verarbeitung durch das IR/IF- System
zurückzuführen, um die Zahl der zu betarchtenden Wörter zu
reduzieren. Zwischen dem Termvektor eines Terms und dem
Termvektor des passenden führenden Terms ist der Winkel Null
Grad. Es wird angenommen, dass Terme und führende Terme
gleich gut geeignet sind, den Themenbezug eines Dokuments
festzustellen, d.h. der Betrag der beiden Termvektoren ist gleich
(beide Trmvektoren sind identisch, was Richtung und Länge
angeht). Für die Berechnung des Dokumentenbetrages sind
lediglich die führenden Terme und die aggregierte Anzahl des
jeweiligen Vorkommens aller führenden Terme im Dokument
notwendig.
Fazit
-- Das TVSM ist ein algebraisches, Vektor- basiertes Modell mit
transzendenten Terminterdependenzen. Das Modell legt seine den
Termähnlichkeiten zugrunde liegenden Annahmen explizit dar. Für
die Flexion und die Synonymie wird die Ähnlichkeit genau
vorgegeben (ein Termwinkel von Null Grad). Für die Komposition,
die Derivation, Hyponymie und Meronymie wird nur eine Angabe
gemacht, dass eine gewisse Ähnlichkeit zwischen Termen, die über
eines dieser Phänomene miteinander verknüpft sind, bestehen
muss
-- Fehlen einer Repräsentation von Homographie und Metonymie
-- Wortgruppen werden von TVSM nicht explizit berücksichtigt
Enhanced TVSM (eTVSM)
Die Entitäten und die Beziehungen des Modells und ihre
Interpretationen bzw. ihre Aufgaben sind hochgradig interdependet
zueinander und zu dem zugrunde liegenden mathematischen
Modell. Somit ist eine Entität oder Beziehung zwischen zwei
Entitäten in einigen Fällen für sich, ohne Verweis auf die anderen
Strukturen nicht nachvollziehbar. Dem eTVSM liegen folgende
Gedanken zugrunde:
1. Speichere Dokumente derart ab, dass die Berechnung von
Dokumentenähnlichkeiten mit einem geringen rechnerischen
Aufwand durchgeführt werden kann.
2. Versuche möglichst viele linguistische Phänomene zu erfassen.
3. Verwende vorgegebene Themenstrukturen zur Ableitung von
Ähnlichkeiten.
Während bei den anderen Modellen ein Dokument aus einer
gewichteten Menge von Termen besteht und Terme mit Worten
bzw. Wortstämmen gleichgesetzt werden, haben diese Begriffe (die
im Datenmodell durch jeweils eigene Entitytypen repräsentiert
werden, s. Kopie) beim eTVSM eine unterschiedliche und genau definierte
Bedeutung:
Dokument: Liste von Worten, bei der jedem Wort eine eindeutige
Position im Dokument zugewiesen wird.
Wort: Die direkten Bestandteile eines Dokuments, die nach dem
Entfernen von Formatierungen, Abbildungen sowie Satz- und
Sonderzeichen übrig bleiben.
Wortstamm: Zu jedem Wort ist ein Wortstamm definiert, der je nach
verwendetem Stemming- Verfahren entweder der Grundform des
Wortes oder dem Stamm eines Wortes entspricht.
Term: Besteht entweder aus einem einzelnen Wortstamm oder aus
einer Gruppe von mehreren Wortstämmen (New York).
Interpretation: Eine mögliche Bedeutung eines Terms. Zwei Terme
können sich eine Interpretation teilen (Rechner und Computer).
Andererseits kann ein Term wie Maus mehrere Interpretationen haben.
In diesem Fall handelt es sich um einen Homographen.
Thema: höchste Abstraktionsstufe und thematischer Bezug für
Interpretationen. Themen sind strukturiert und die ihnen zugrunde
liegende Struktur (s. Kopie) wird zur Ableitung von Ähnlichkeiten
zwischen Interpretationen verwendet. Interpretationen müssen
mindestens einem Thema zugeordnet werden. Es ist sinnvoll, einigen
speziellen Interpretationen (z.B. Homographen) mehrere Themen
zuzuordnen.
Konstrukte des eTVSM und ihr Bezug zu
linguistischen Phänomenen (s. Kopie)
-- einige linguistische Phänomene benötigen zur Abbildung mehrere
Zuordnungen und einige Zuordnungen werden zur Repräsentation
mehrerer linguistischer Phänomene verwendet. Insbesondere die
Homographie und die Metonymie erweisen sich als kompliziert.
Transaktionen und ihre Ein-/Ausgabedaten (s. Kopie)
-- die zeitlich- sachlogischen Zusammenhänge der verschiedenen
Zuordnungen und Entitäten. Zuerst werden ontologiebezogene
linguistische Daten (Themenstruktur) durch eine
Vorbereitungstransaktion zu Interpretations- Skalaprodukten
verarbeitet (entspricht dem dritten Gedanken des eTVSM). Diese
Transaktion dient der Ableitung von Ähnlichkeiten aus vorgegebenen
Themenstrukturen. Aufbauend auf diesen Ähnlichkeiten können die
Skalaprodukte für die verschiedenen Interpretationen abgeleitet
werden. Die Skalaprodukte bilden neben den DokumentInterpretation- Zuordnungen die Basis zur Berechnung von
Dokumentähnlichkeiten. Die Skalaprodukte sind streng genommen
redundant, was für eine hohe Performanz des Systems notwendig ist.
Die Vorbereitungstransaktion wird idealerweise nur einmal ausgeführt.
-
-- Über die Dokument- Einstellungstransaktionen werden möglichst viele
linguistische Phänomene beim Einlesen von neuen Dokumenten erfasst.
Diese Transaktionen verwenden linguistisches „Wissen“, das in den
verschiedenen Zuordnungen erfasst ist, um die Dokumente derart
aufzubereiten, dass diese in Form einer Dokument- InterpretationZuordnung repräsentiert werden. Diese Zuordnung ist streng
genommen redundant. Die Dokument- Einstellungstransaktionen
berechnen zusätzlich die Dokumentenbeträge analog zum TVSM.
-- Die Berechnung der Dokumentenähnlichkeiten beim eTVSM erfolgt
basierend auf den (redundanten) Dokument- InterpretationZuordnungen, den Dokumentenbeträgen und den (redundanten)
Interpretations- Skalaprodukten. Interpretationen und Skalaprodukte
dienen sla Basis für die Berechnung wegen der gewählten Umsetzung
des Synonym- Lemmas und die Erweiterung des Modells um die
Phänomene der Homographie und Metonymie. Nach eTVSM ist das
Konzept des Synonym- Lemmas ‚unschön‘, weil die Wahl des führenden
Terms willkürlich ist und weil diese Art der Umsetzung nicht den realen
Umständen entspricht. Es ist sinnvoll, das Kkonstrukt der Interpretation
einzuführen und synonymen Termen dieselbe Interpretation
zuzuordnen. Somit übernimmt die Interpretation die Aufgabe eines
führenden Begriffs. Homographie und Metonymie können so auch
berücksichtigt werden, indem einem Term mehrere Interpretationen
zugeordnet werden
Vergleich mit anderen Modellen/ Kritik
-- das eTVSM baut sichtbar auf dem TVSM auf und versucht die
Kritikpunkte an ihm zu beseitigen. Dieses geschieht dadurch,
dass das eTVSM die Termähnlichkeiten durch die Einführung von
Themen und Themenstrukturen operationalisiert und dadurch,
dass Stoppwortliste und Stemming explizit in einem eigenen
Konzept im Datenmodell berücksichtigt werden. Zusätzlich gibt
es Konzepte, durch die Wortgruppen bzw. zusammengesetzte
Terme, Homographen und Metonymie berücksichtigt werden.
-- Modell mit transzendenten Terminterdependenzen mit direkt in
Form einer Ontologie vorgegebenen Terminterdependenzen. Der
Aufwand für das Aufstellen einer expliziten Ontologie ist
geringer als der Aufwand Millionen von unterschiedlichen
Einzelbeispielen zu erstellen, die die Ontologie indirekt
beschreiben.
Fazit
1.
2.
3.
4.
Das eTVSM bringt das Potential IF- und IR- Aufgaben besser
zu lösen als die bisherigen Ansätze, weil es
Wortzusammenhänge unter Verwendung von Ontologien
berücksichtigt.
Das Modell kann entweder schrittweise um
Wortzusammenhänge erweitert werden oder an bereits
vorhandene Ontologien (z.B. WordNet oder GermaNet)
angebunden werden.
Das eTVSM kann unter Verwendung von relationalen
Datenbanken implementiert werden, wodurch eine
Massendaten- taugliche Implementierung des Verfahrens mit
einem relativ geringen Programmieraufwand möglich wird.
Zusätzlich kann es über die SQL- Schnittstelle der Datenbank
relativ leicht an andere Anwendungen angeschlossen werden.
Eine ausführliche Evaluation des eTVSM mit aufwändigen und
praxisnahen Tests steht noch aus. Versuche mit einfachen
Beispielen unter idealisierten Bedingungen sind jedoch
vielversprechend.
Ende
Literatur:
Kuropka, Dominik: Modelle zur Repräsentation
natürlichsprachlicher Dokumente. Ontologie- basiertes
Information- Filtering und –Retrieval mit relationalen
Datenbanken, Berlin, 2004.
Herunterladen