print

Werbung
3. Wissensrepräsentation für Texte
Problemstellung
Norbert Fuhr
Problemstellung
Repräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text auf
unterschiedlichste Weise formuliert werden
Lösungsansätze
Freitextsuche
informatischer Ansatz: Textretrieval als
Zeichenkettensuche
computerlinguistischer Ansatz: i.w. Normalisierung
von Wortformen
semantischer Ansatz Zuordnung von Deskriptionen zu Texten →
Dokumentationssprachen
Freitextsuche
Terminologie
Informatischer Ansatz
Computerlinguistischer Ansatz
Graphematische Verfahren
Lexikalische Verfahren
Syntaktische Verfahren
Freitextsuche I
Freitextsuche II
Terminologie
Terminologie
I
Token: einzelnes Wort im laufenden Text
I
Type: einzelnes Wort des Vokabulars
I
Morphem: kleinste bedeutungstragende Einheit in einem Wort,
z.B. Blend-e, lauf-en,
I
Flexion: Deklination, Konjugation und Komparation von
Wörtern
I
Grundform: unflektierte Wortform; für Nomen ist es der
Nominativ Singular, für Verben der Infinitv, für Adjektive die
ungesteigerte Form (Positiv).
I
Derivation: Wortbildung aus dem Wortstamm mit Hilfe von
Präfixen und Suffixen, z.B. haus: Haus – häuslich – aushäusig,
I
Stammform: (genauer: Derivationsstammform), das der
Derivation zugrunde liegende lexikalische Morphem
I
Kompositum: Bildung eines komplexen Wortes, das aus
mindestens zwei Morphemen besteht, die sonst als
selbstständige Wörter vorkommen, z.B. Dampfschiff,
schreibfaul, strapazierfähig
I
Nominalphrase: Wortgruppe im Satz, die ein Nomen als
Bezugswort hat, z.B. “Wahl des Bundeskanzlers“
Vorprozessierung
I
Textbereinigung
I
I
I
einfach bei westlichen Sprachen: Leer- und
Interpunktionszeichen als Separatoren
schwierig bei manchen asiatischen Sprachen: keine expliziten
Wortseparatoren
Stoppworteliminierung:
I
I
I
I
I
Homographen und Polyseme
Tenor: Sänger / Ausdrucksweise
Bank: Sitzgelegenheit / Geldinstitut
I
Synonyme
Banken / Sparkassen / Geldinstitute
I
Flexionsformen
Haus – (des) Hauses – Häuser
schreiben – schreibt – schrieb – geschrieben
I
Derivationsformen
Formatierung – Format – formatieren
I
Komposita (zusammengesetzte Wörter)
Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl
I
Nominalphrasen Wahl des Bundeskanzlers
information retrieval – retrieval of information – information
was retrieved
Zerlegung von Texten in Wörter (Tokenization)
I
I
Entfernen von Markup und Trennungszeichen
Probleme bei der Freitextsuche
Stoppworte = Wörter, die nicht bedeutungstragend sind
(Artikel, Konjunktionen, Präpositionen, Hilfsverben)
machen bis zu 50% der Token aus → Effizienzgewinn durch
Nichtberücksichtigung
können aber in Verbindung mit anderen Wörtern wichtig sein,
z.B. ’vitamin A’ im Englischen
Satzendeerkennung
I
I
für linguistische Analyse und “Suche im selben Satz“ (s.u.)
Problem: Unterscheidung zwischen Abkürzungs-und
Satzendepunkten
Informatischer Ansatz
Probleme bei der Freitextsuche (2)
Zeichenketten-Operatoren für die Freitextsuche
Das generelle Formulierungs-Problem bleibt ungelöst!
I
Truncation
Front-/End-Truncation,
beschränkt ($) / unbeschränkt(#)
schreib#: schreiben, schreibt, schreibst, schreibe
schreib$$: schreiben, schreibst
#schreiben: schreiben, beschreiben, anschreiben, verschreiben
$$schreiben: beschreiben, anschreiben
I
(Mitten-)Maskierung
do$umentation: documentation, Dokumentation
schr$$b#: schreiben, schrieb / schrauben
selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge
Die Fürsorge umfasst den lebenden Menschen einschließlich der
Abwicklung des gelebt habenden Menschen.
Ein Bürger soll „das Restmüllbehältervolumen entsprechend der
Menge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80
auf 120 Liter Gesamtvolumen erhöhen“
Kontextoperatoren
Truncation und Maskierung dienen dazu, Flexions- und
Derivationsformen von Wörtern zusammenzuführen
(auch für Komposita geeignet)
Vorteil: weniger Schreibarbeit als beim expliziten Aufzählen
Nachteil: möglicherweise unerwünschte Wörter dabei
zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)
information AND retrieval:
boolesche Operatoren beziehen sich nur auf das Vorkommen
irgendwo im Text!
I genauer Wortabstand ($):
retrieval $ information: retrieval of information, retrieval with
information loss
I maximaler Wortabstand (#):
text # # retrieval: text retrieval, text and fact retrieval
I Wortreihenfolge (,):
information # , retrieval: information retrieval, retrieval of
information
I gleicher Satz (.):
information # retrieval. matcht nicht
. . . this information. Retrieval of data . . .
aber auch nicht:
. . . storage of information. Its retrieval . . .
Computerlinguistischer Ansatz
Graphematische Verfahren
(für die englische Sprache)
Arten von Verfahren:
I
graphematische Verfahren auf der Analyse von Buchstabenfolgen
basierende Algorithmen, hauptsächlich zur
Zusammenführung von Flexions- oder
Derivationsformen (Morphologie)
I
lexikalische Verfahren Wörterbuch-basierte Verfahren zur
Zusammenführung von Flexions- oder
Derivationsformen sowie von mehrgliedrigen
Ausdrücken
syntaktische Verfahren zur Identifikation von mehrgliedrigen
Ausdrücken
Grundformreduktion
Zurückführen auf die Grundform, d.h.
Substantive im Nominativ Singular,
Verben im Infinitiv
I
I
lexikographische Grundform
entsteht durch Abtrennen der Flexionsendung und ggfs.
Rekodierung
applies → appl → apply
formale Grundform
nur Abtrennen von Endungen, ohne Rekodierung
activities → activit
Stammformreduktion
Entfernen der Derivationsendungen, d.h. Zurückführen auf den
Wortstamm
computer, compute, computation, computerization → comput
Lexikographische Grundformreduktion
1) IES → Y
(nach Kuhlen 77)
% alle Vokale (einschließlich Y)
∗ alle Konsonanten
/ ,oder’
B
6 Leerzeichen
→ ,zu’
← ,aus’
¬ ,nicht’
2) ES → B
6
vorangehen
3) S → B
6
wenn ∗O / CH / SH / SS / ZZ / X
wenn ∗ / E / %Y / %O / OA / EA vorangehen
4) S’ → B
6
IES’ → Y
ES’ → B
6
5) ’S → B
6
’ → B
6
6) ING → B
6
ING → E
wenn ∗∗ / % / X vorausgehen
wenn %∗ vorausgehen
7) IED → Y
8) ED → B
6
ED → E
wenn ∗∗ / % / X vorausgehen
wenn %∗ vorausgehen
Regel 2
Regel 1
IES → Y
Beispiele zu 1:
APPLIES
IDENTIFIES
ACTIVITIES
Regel 3
→
→
→
APPLY
IDENTIFY
ACTIVITY
S → B
6 , wenn ∗ / E / %Y / %O / OA /
EA vorangehen
Beispiele zu 3:
METHODS
HOUSES
BOYS
RADIOS
COCOAS
FLEAS
→
→
→
→
→
→
METHOD
HOUSE
BOY
RADIO
COCOA
FLEA
ES → B
6 , wenn ∗O / CH / SH / SS / ZZ /
X vorangehen
Beispiele zu 2:
BREACHES
PROCESSES
FISHES
COMPLEXES
TANGOES
BUZZES
Regel 4
→
→
→
→
→
→
BREACH
PROCESS
FISH
COMPLEX
TANGO
BUZZ
S’ → B
6
IES’ → Y
ES’ → B
6
Beispiele zu 4:
MOTHERS’
LADIES’
FLAMINGOES’
→
→
→
MOTHER
LADY
FLAMINGO
Regel 6
Regel 5
’S → B
6
’ → B
6
Beispiele zu 5:
MOTHER’S
CHILDREN’S
PETRUS’
→
→
→
MOTHER
CHILDREN
PETRUS
ING → B
6 , wenn ∗∗ / % / X vorausgehen
ING → E, wenn %∗ vorausgehen
Beispiele zu 6:
DISGUSTING
GOING
MIXING
LOOSING
RETRIEVING
→
→
→
→
→
DISGUST
GO
MIX
LOOSE
RETRIEVE
Lexikalische Verfahren
Regel 7
IED → Y
Beispiel zu 7:
SATISFIED
→
SATISFY
besonders für stark flektierte Sprachen (z.B. deutsch) geeignet
Relationen im Wörterbuch:
Regel 8
ED → B
6 , wenn ∗∗ / % / X vorausgehen
ED → E, wenn %∗ vorausgehen
Beispiel zu 8:
DISGUSTED
OBEYED
MIXED
BELIEVED
→
→
→
→
DISGUST
OBEY
MIX
BELIEVE
I
Flexionsform (Vollformen) — zugehörige Grundform
Hauses - Haus, ging - gehen
I
Derivationsform — zugehörige Grundformen
Lieblosigkeit — lieblos, Berechnung — rechnen
I
Komposita — zugehörige Dekomposition
Haustür — Tür, Armbanduhr — Uhr.
Beispiel: Wortschatz Uni Leipzig
Komposita-Zerlegung
Anteil der Substantivkomposita (letzte Komponente ein Substantiv)
im Deutschen:
I
< 10% der Token
I
> 50% der Types
Kompositazerlegung wichtig, um alle Vorkommen eines Suchwortes
zu finden, z.B.
I
Schweinebraten, Rinderbraten, Hirschbraten, Hühnerbraten,
...
I
Kernenergie, Solarenergie, Kohleenergie, Windenergie, . . .
Komposita-Zerlegung
Komposita-Zerlegung
Fugenelemente
Zerlegungsalgorithmus
verbinden die einzelnen Komponenten
I
-∅, -e, -en, -ens, -er, -n, -s
I
bei entlehnten Stämmen: -i, -o, -al
(Elektr-o-motor, Agr-i-kultur)
I
Bindestrich
keine allgemeingültigen Regeln:
I
Wind-energie vs. Sonne-n-ergie
I
Stadtmitte vs. Städtepartnerschaft
I
Spargelder vs. Hilfsgelder
I
Schweinebraten vs. Wildschweinbraten
finde Folge
(Substantivform Fugenmorphem)+ Substantivform
die der zu segmentierenden Wortform entspricht
Zerlegung nicht immer eindeutig:
Bausch-windel, Hafenbar-kasse, Kopfball-ast, Ster-befall,
Tau-sender, Tram-polin
Syntaktische Verfahren
(zur Behandlung von Nominalphrasen)
1. Wortklassenbestimmung
2. Parsing
3. Identifikation von Nominalphrasen
4. Head-Modifier-Strukturen
5. Matching
Wortklassenbestimmung
typische Wortklassen:
AT
BEZ
CONJ
IN
JJ
JJR
MD
NN
NNP
NNS
PERIOD
article
“is”
conjunction
preposition
adjective
comparative adjective
modal (can, have, may,...)
singular or mass noun
singular proper noun
plural noun
.:?!
PN
RB
RBR
TO
VB
VBD
VBG
VBN
VBP
VBZ
WDT
personal pronoun
adverb
comparative adverb
“to”
verb, base form
verb, past tense
verb, present participle, gerund
verb, past participle
verb, non 3rd singular present
verb, 3rd singular present
wh-determiner (what, which)
Datenquellen für die Wortklassenbestimmung
I
(Vollformen-)Wörterbuch
I
graphematische Verfahren
(insbesondere für nicht im Wörterbuch enthaltene Wörter)
Problem:
Wortklassenbestimmung in wenig flektierten Sprachen
The boys play football vs.
She saw the new play
→ zusätzliche Berücksichtigung der syntaktischen Struktur
(Bigramme, Trigramme) notwendig:
AT NNS VBP/NN NN → VBP
PN VBD AT JJ NN/VBP → NN
Beispiel:
Wortklassenbestimmung basierend auf dem Kuhlen-Algorithmus
Nr.
1
2
3
4
5
6
7
8
Regel
IES → Y
ES → B
6
S → B
6
S’ → B
6 , IES’ → Y ,
’S → B
6 , ’ → B
6
ING → B
6 , ING → E
IED → Y
ED → B
6 , ED → E
ES’ → B
6
Klasse
NNS/VBP
NNS/VBP
NNS/VBP
NNS
NN
VBG
VBD/VBN/JJ
VBD/VBN/JJ
Parsing
Wortklassenbestimmung mit deterministischem Tagger
eine einfache Grammatik:
nur 70 % korrekte Zuordungen! [Greene & Rubin 77]
aber:
die meisten Wörter kommen in einer bevorzugten Wortklasse vor
to flour a pan
to web the final report
→ seltene Verwendungen ignorieren!
90 % korrekte Zuordungen! [Charniak et al. 93]
Verbesserung:
statistische Ansätze zur Berücksichtigung der syntaktischen
Struktur (z.B. Markov-Modelle)
liefern 95. . . 97 % korrekte Zuordungen
Identifikation von Nominalphrasen
S
NP
VP
PP
→
→
→
→
→
→
→
→
NP VP
AT? JJ* NNS+
AT? JJ* NN+
NP PP
VB PP
VBZ
VBZ NP
IN NP
Beispiele:
The analysis of 25 indexing algorithms shows consistent retrieval
performance.
AT NN IN JJ NN NNS VBZ JJ NN NN
A good indexing technique for Web retrieval is manual
classification.
AT JJ NN NN IN NN NN VBZ JJ NN
Modifier-Strukturen
basierend auf der Transformation der Nominalphrasen und
Komposita in head-modifier-Strukturen:
nur bestimmte syntaktische Strukturen relevant
→ partielles parsing
einfache Muster (ohne Unterscheidung (NN/NNP/NNS):
phrase → NN NN+
→ NN+ IN JJ* NN+
Beispiele:
indexing algorithms
retrieval performance
retrieval of Web documents
retrieval of new documents
head: Nomen, das die wesentliche Bedeutung eines
Kompositums oder einer Nominalphrase ausdrückt:
Haustür, Türschloss, Schlosstür
indexing algorithm, retrieval of information
modifier: modifiziert/spezialisiert die Bedeutung des Heads
head-Modifier-Strukturen können geschachtelt auftreten
→ Darstellung als geschachtelte Listen oder Bäume
(((multimedia,document),retrieval),system)
(((Tür,Schloss), (Enteiser, Spray))
the domain of possible categories of linguistic expressions
m
h
domain
h
m
possible
m
categories
linguistic
h
h
m
m
long term parking courtesy shuttle bus
expressions
Matching-Prozess
1. Nominalphrase/Kompositum in Head-Modifier-Struktur
überführen
(Transformationsregeln basierend auf der syntaktischen
Struktur, und/oder lexikalischen Angaben)
2. Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamen
Wurzel) müssen übereinstimmen
(einzelnes Nomen = Head)
Beispiel:
(((semistructured,data), retrieval) system) wird gematcht von
I
(retrieval, system)
I
(semistructured, data)
I
(data, retrieval)
aber nicht von
I
(retrieval, data)
h
Dokumentationssprachen
Allgemeine Eigenschaften
Klassifikationen
Thesauri
Ontologien
Allgemeine Eigenschaften
formulierungsunabhängige Repräsentation von Textinhalten
durch Verwendung eines speziellen Vokabulars
I
Klassifikationen
I
Thesauri
I
Ontologien
Klassifikationen
Strukturierung eines Wissensgebietes nach einem vorgegebenen
formalen Schema
z.B. Dezimalklassifikation: Baum der Ordnung 10
Ein Dokument wird in der Regel einer oder wenigen Klassen
zugeordnet
(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur an
einem Platz stehen!)
Eigenschaften von Klassifikationssystemen
Beispiele für Klassifikationen
Monohierarchie — Polyhierarchie
Monohierarchie:
Obstbaum
I
Web-Kataloge (z.B. Yahoo!)
I
Klassifikationen in bestimmten
Fachgebieten/Anwendungsbereiche:
LCC Library of Congress Classification
DDC Dewey Decimal Classification
UDC Universal Decimal Classification
MSc Mathematics Subject Classification
CCS ACM Computing Classification system
Kernobstbaum
Apfelbaum
Birnbaum
Steinobstbaum
Kirschbaum
Pfirsichbaum
Polyhierarchie:
Obstbaum
Nutzholzbaum
Kernobstbaum
Birnbaum
Monodimensionalität — Polydimensionalität
Analytische vs. synthetische Klassifikation
Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eine
weitere Aufteilung in Unterklassen vorgenommen werden kann
aufgelöst
Polydimensionalität
Obstbaum
Kernobstbaum
synthetische Klassifikation: bottom-up
Obstbaum
niederstämmiger Obstbaum
halbstämmiger Obstbaum
Steinobstbaum
analytische Klassifikation: top-down Vorgehensweise
(wie oben)
nach Fruchart
Stein−
obstbaum
nach Stammbildung
Kern−
obstbaum
hochstämmiger Obstbaum
1. Erhebung der Merkmale der zu klassifizierenden Objekte und
Zusammenstellung im Klassifikationssystem
2. Bildung der Klassen durch Kombination der Merkmale
halbst.
Obstbaum
hochst.
Obstbaum
niederst.
Obstbaum
Facettenklassifikation
Facettenklassifikation
Beispiel: heise Preisvergleich
Beispiel:
Facettenklassifikation Obstbäume
Facette
A Fruchtart
A1 Apfel
A2 Birne
A3 Kirsche
A4 Pfirsisch
A5 Pflaume
Facette
B Stammart
B1 hochstämmig
B2 halbstämmig
B3 niederstämmig
Facette
C Erntezeit
C1 früh
C2 mittel
C3 spät
A1B3C1 = niederstämmiger Frühapfelbaum
Regeln:
I
Facetten müssen disjunkt sein
I
monodimensionale Unterteilung innerhalb einer Facette
Yahoo! – main categories
Arts & Humanities
Literature, Photography...
Business & Economy
B2B, Finance, Shopping, Jobs...
Computers & Internet
Internet, WWW, Software, Games...
Education
College and University, K-12...
Entertainment
Cool Links, Movies, Humor, Music...
Government
Elections, Military, Law, Taxes...
Health
Medicine, Diseases, Drugs, Fitness...
Yahoo! – Computers & Internet
News & Media
Full Coverage, Newspapers, TV...
Recreation & Sports
Sports, Travel, Autos, Outdoors...
Reference
Libraries, Dictionaries, Quotations...
Regional
Countries, Regions, US States...
Science
Animals, Astronomy, Engineering...
Social Science
Archaeology, Economics, Languages...
Society & Culture
People, Environment, Religion...
Yahoo!
Art@
Bibliographies (6)
Communications and
Networking (1146)
Computer Science@
Contests (26)
Conventions and
Conferences@
Countries, Cultures, and
Groups (38)
Cyberculture@
Data Formats (485)
Desktop Customization@
Desktop Publishing (53)
Dictionaries (24)
Employment@
Ethics (18)
Games@
Graphics (316)
Hardware (2355)
History (106)
Humor@
Industry Information@
Internet (6066)
Magazines@
Mobile Computing (65)
Multimedia (690)
Music@
News and Media (205)
...
ACM Computing Classification System
Ursprünglich Klassifikation in der Zeitschrift ACM Computing
Reviews,
wird vielfach als Standard-Klassifikation in der Informatik
verwendet.
I
Polyhierarchie
I
Tiefe der Hierarchie variiert
I
Dokumente können beliebigen Klassen zugeordnet werden
Elemente:
I
general terms: vorgegebene Menge von allgemeinen Begriffen
I
classification codes: dreistufige monohierarchische
Klassifikation
I
subject headings: vorgegebene Menge von
natürlichsprachlichen Bezeichnungen für jede einzelne Klasse,
die diese weiter differenzieren; außerdem alle Eigennamen
I
free terms: zusätzliche, frei wählbare Stichwörter
General terms:
Übersicht über die Hauptklassen
These apply to any elements of the tree that are relevant
ALGORITHMS
DESIGN
DOCUMENTATION
ECONOMICS
EXPERIMENTATION
HUMAN FACTORS
LANGUAGES
LEGAL ASPECTS
MANAGEMENT
MEASUREMENT
PERFORMANCE
RELIABILITY
SECURITY
STANDARDIZATION
THEORY
VERIFICATION
H.3 INFORMATION STORAGE AND RETRIEVAL
H.3.0 General
H.3.1 Content Analysis and Indexing
Abstracting methods
Dictionaries
Indexing methods
Linguistic processing
Thesauruses
H.3.2 Information Storage
File organization
Record classification
H.3.3 Information Search and Retrieval
Clustering
Query formulation
Retrieval models
Search process
Selection process
H.3.4 System and Software...
A. GENERAL LITERATURE
B. HARDWARE
C. COMPUTER SYSTEMS ORGANIZATION
D. SOFTWARE
E. DATA
F. THEORY OF COMPUTATION
G. MATHEMATICS OF COMPUTING
H. INFORMATION SYSTEMS
I. COMPUTING METHODOLOGIES
J. COMPUTER APPLICATIONS
K. COMPUTING MILIEUX
Eigenschaften der ACM-CCS
I
I
Monohierarchie
feste Tiefe (vier Ebenen)
I
I
I
Buchstaben/Ziffern-Code für Ebene 1–3
“subject heading” auf Ebene 4
Dokumente können nur der 4. Ebene zugeordnet werden
Dezimalklassifikation
Hauptklassen
Die DK-Haupttafeln umfassen die Hauptabteilungen:
Ursprung: Dewey Decimal Classification (DDC),
1876 von Melvil Dewey (USA) entwickelt
Universalklassifikation zur Aufstellung von Buchbeständen
Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)
zur Universellen Dezimalklassifikation (DK)
(im Gegensatz zur DDC kaum noch benutzt)
0 Allgemeines
1 Philosophie
2 Religion, Theologie
3 Sozialwissenschaften, Recht, Verwaltung
4 (zur Zeit nicht belegt)
5 Mathematik, Naturwissenschaften
Grundelemente der DK:
6 Angewandte Wissenschaften, Medizin, Technik
I
Hierarchisch gegliederten Klassen (130000)
7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport
I
Anhängezahlen zur Facettierung
I
Sonderzeichen zur Verknüpfung mehrerer DK-Zahlen
8 Sprachwissenschaft, Philologie, Schöne Literatur,
Literaturwissenschaft
9 Heimatkunde, Geographie, Biographien, Geschichte
Beispiel für die Untergliederung einer Hauptklasse
Beispiel:
3 Sozialwissenschaften, Recht, Verwaltung
33 Volkswirtschaft
336 Finanzen. Bank- und Geldwesen
336.7 Geldwesen. Bankwesen. Börsenwesen
336.76 Börsenwesen. Geldmarkt. Kapitalmarkt
336.763 Wertpapiere. Effekten
336.763.3 Obligationen. Schuldverschreibungen
336.763.31 Allgemeines
Facettierende Elemente
Anhängezahlen: durch spezielle Zeichen eingeleitet
allgemeine Anhängezahlen: Facetten, die überall in der DK
verwendet werden dürfen
Zeichenfolgen/Facetten:
= Sprache: =30 =
ˆ deutsch
(0...) Form: (021) =
ˆ Handbuch, 53(021)=20=30=40 =
ˆ Handbuch
der Physik in Englisch, Deutsch, Französisch
(...) Ort
(=...) Rassen und Völker
„...“ Zeit
336.763.311 Verzinsliche Schuldbriefe
.00 Gesichtspunkt
336.763.311.1 Langfristig verzinsliche Schuldbriefe
-05 Person
Verknüpfung von DK-Zahlen
Thesauri
spezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:
+ Aufzählung mehrerer Sachverhalte, z.B. 178.1+33 =
ˆ
Alkoholismus und Volkswirtschaft
: Beziehung zwischen zwei Sachverhalten, z.B. 178.1:33 =
ˆ
Auswirkung von Alkoholismus auf die Volkswirtschaft
/ Erstreckungszeichen (zur Zusammenfassung mehrerer
nebeneinanderstehender DK-Zahlen), z.B. 592/599
Systematische Zoologie: 592 bis einschließlich 599
’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte aus
der Kombination einzelner DK-Komponenten
DIN 1463:
„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren
(natürlichsprachlichen) Bezeichnungen.
Merkmale eines Thesaurus:
a) terminologische Kontrolle durch
I
I
I
Erfassung von Synonymen
Kennzeichnung von Homonymen und Polysemen
Festlegung von Vorzugsbenennungen
b) Darstellung von Beziehungen zwischen Begriffen“
+ Aufzählung mehrerer Sachverhalte
Terminologische Kontrolle
Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichen
Sprache
Synonymkontrolle
Zusammenfassung von Bezeichnungen zu Äquivalenzklassen
Arten von Synonymie:
I
I
I
Schreibweisenvarianten
Friseur — Frisör
UN — UNO — Vereinte Nationen
unterschiedliche Konnotationen, Sprachstile, Verbreitung
Telefon — Fernsprecher
Pferd — Gaul
Myopie — Kurzsichtigkeit
Quasi-Synonyme
Schauspiel — Theaterstück
Rundfunk — Hörfunk
Synonymkontrolle
Im Thesaurus werden darüber hinaus Begriffe mit geringen /
irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassen
zusammengefaßt:
I
unterschiedliche Spezifität
Sprachwissenschaft — Linguistik
I
Antonyme
Härte — Weichheit
I
zu spezieller Unterbegriff
Weizen — Winterweizen
I
Gleichsetzung von Verb und Substantiv / Tätigkeit und
Ergebnis
Wohnen — Wohnung
Polysemkontrolle
Zerlegungskontrolle
Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?
„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:
Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrere
Äquivalenzklassen
I
Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit)
I
Polyseme (Bs. Bank, Deckung)
I
Thesaurus zu umfangreich / unübersichtlich
I
nur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:
Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)
Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes
(Postkoordination)
Nachteil: größere Unschärfe beim Retrieval
Baum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromiß zwischen beiden Ansätzen
Äquivalenzklasse — Deskriptor
Beziehungsgefüge des Thesaurus
Äquivalenzrelation
Terminologische Kontrolle liefert Äquivalenzklassen von
Bezeichnungen
Darstellung dieser Äquivalenzklassen:
I
Thesaurus ohne Vorzugsbenennung:
Gleichbehandlung aller Elemente der Äquivalenzklasse
I
Thesaurus mit Vorzugsbenennung:
Auswahl eines Elementes der Äquivalenzklasse zur Benennung
=Deskriptor
(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)
zwischen Nicht-Deskriptoren und Deskriptoren
Bezeichnungen:
BS Benutze Synonym (use)
BF Benutzt für (used for, UF)
Fernsprecher BS Telefon
Telefon BF Fernsprecher
Hierarchische Relation
zwischen Deskriptoren
Bezeichnungen:
UB Unterbegriff (narrower term, NT)
OB Oberbegriff (broader term, BT)
Obstbaum UB Steinobstbaum
Steinobstbaum OB Obstbaum
Darstellung des Thesaurus
Assoziationsrelation
zwischen begriffsverwandten Deskriptoren, symmetrisch
Bezeichnung: VB verwandter Begriff (see also, SEE)
Obstbaum VB Obst
Obst VB Obstbaum
Gesamtstruktur des Thesaurus
Deskriptor-Einträge
(in gedruckter Form)
Hauptteil mit den Deskriptor-Einträgen
alphabetisch / systematisch geordnet
I
Begriffsnummer
I
Notation / Deskriptor-Klassifikation
I
Scope note / Definition
I
Synonyme
I
systematisch / alphabetisch (komplementär zum Hauptteil)
I
Oberbegriffe / Unterbegriffe
I
I
Verwandte Begriffe
I
Einführungs-/Streichungsdatum
Index für Komponenten mehrgliedriger Bezeichnungen
KWIC — keyword in context
KWOC — keyword out of context
zusätzliche Register mit Verweisen auf die Deskriptor-Einträge
Beispiel: INSPEC-Thesaurus
UF
BT
NT
RT
Information retrieval
CD-ROM searching
Data access
Document retrieval
Online literature searching
Retrieval, information
Information science
Query formulation
Query processing
Relevance feedback
Bibliographic systems
Information analysis
Information storage
Query languages
0.0050
Magnetbandkassettenlaufwerk
NO NE7
BF Magnetbandkassettengerät
BF MB-Kassettengerät
OB Datenausgabegrät
OB Dateneingabegerät
OB Datenspeichertechnik
VB Magnetbandkassette
0.0044
Magnetbandlaufwerk
NO NE7
BF Magnetbandgerät
OB Bandgerät
OB Datenausgabegerät
OB Dateneingabegerät
OB Datenspeichertechnik
VB Magnetband
0.0059
Magnetfeld
NO WD2
OB Magnetismus
0.0060
Magnetismus
NO WD2
BF Barkhausen-Effekt
BF Ferromagnetismus
Beispiel-Thesaurus
UF
BT
RT
UF
BT
BT
Query processing
Data querying
Database querying
Query optimisation
Information retrieval
Database management systems
Database theory
DATALOG
Query languages
Query formulation
Search strategies
Information retrieval
Relevance feedback
Information retrieval
0.0074
Magnetkartentelefon
NO GK72
BF Makatel
OB Kartentelefon
0 0077
Magnetplatte
NO NE82
OB Datenspeicher
OB Datenträger
VB Magnetplattenlaufwerk
BIK Datenspeicher
BFK Plattenspeicher
0.0081
Magnetplattengerät
BS Magnetplattenlaufwerk
0.0079
Magnetplattenlaufwerk
NO NE7
BF Magnetplattengerät
OB Datenausgabegerät
OB Dateneingabegerät
OB Datenspeichertechnik
VB Magnetplatte
0.0058
Magnetband
VB Magnetbandlaufwerk
0,0045
Magnetbandgerät
BS Magnetbandlaufwerk NE7
Magnetismus (Forts.)
BF Halleffekt
BF Induktion
OB Elektrodynamik
UB Magnetfeld
BIK Geophysik
BFK Erdmagnetismus
BIK Optik
BFK Faraday-Effekt
0. 0046
Magnetbandkassette
NO NE83
BF Kassette
BF MB-Kassette
OB Datenträger
VB Magnetbandkassettenlaufwerk
0.0070
Magnetkarte
NO NE87
BF Telefonkärtchen
OB Datenträger
VB Kartensystem
0.0051
Magnetbandkassettengerät
BS Magnetbandkassettenlaufwerk NE7
0.0073
Magnetkartensystem
NO ECS
OB Kartensystem
Thesauruspflege
Anpassung des Thesaurus an Veränderungen in der Anwendung
notwendig aufgrund von
I
Entwicklung des Fachgebietes
objektorientierte Datenbanken, multimediale Systeme
I
Entwicklung der Fachsprache
I
Indexierungsverhalten / Indexierungsergebnisse
I
Benutzerverhalten
I
Rechercheergebnisse
Problem: Überwachung der Konsistenz des Thesaurus
Ontologien
Ontologien: Konstrukte
I
Ursprung: semantische Netze aus der künstlichen Intelligenz
(1970er)
I
weiterentwickelt als terminologische Logiken,
Beschreibungslogiken
I
Konzepte/Klassen
I
Vererbung
I
jetzt populär “semantic Web“
I
Eigenschaften/Relationen
I
verschiedene Formalismen (Sprachen)
I
Facetten von Eigenschaften
I
OWL: Web Ontology Language
I
Instanzen
I
(Regeln)
Weiterentwicklung von Datenbankschemata und Thesauri:
I
aus Thesauri: Begriffshierarchie, Relationen zwischen Begriffen
I
aus Datenbank-Schemata: Attribute und Beziehungen,
Instanzen zu Konzepten, Datentypen
Konzepte/Klassen
I
I
I
I
Vererbung
Konzepte werden als Klassen aufgefasst
I
analog zu objektorientierter Programmierung
Klasse = Menge von Instanzen mit gleichen/ähnlichen
Eigenschaften
I
Vererbung als Teilmengenbeziehung zwischen Klassen
Beispiele:
I
I
analog zu objektorientierter Programmierung
Beispiele:
I
I
I
Student als Klasse aller Studenten
Reiseziel als Menge aller möglichen Destinationen
Information Retrieval als Menge aller möglichen IR-Themen
I
I
I
I
Bachelor-Student und Master-Student als Unterklassen von
Student
Hiwi als Unterklasse von Student und Mitarbeiter
Stadt und Strand als Unterklassen von Reiseziel
Klassifikation als Unterklasse von Information Retrieval
viele Ontologie-Sprachen erlauben keine Mehrfachvererbung
Beispiel-Klassenhierarchie
Slots: Eigenschaften/Relationen
I
ein Konzept hat i.d.R. mehrere Slots
I
ein Slot beschreibt entweder eine Eigenschaft bzw. eine
Relation
I
Instanzen eines Konzeptes unterscheiden sich in den Werten
für die Slots
I
Wert ist entweder von elementarem Datentyp oder einer Klasse
Beispiel Student:
I
I
I
Beispiel-Properties
Eigenschaften: Name: string, Matrikelnr: integer, Semester:
integer
Relation: studiert → Studiengang, hört → Vorlesung
Facetten von Slots I
I
Domain und Range
I
I
I
I
I
Domain: Konzepte, bei denen dieser Slot vorkommt
Range: Klassen/Datentypen, zu denen die Slot-Werte gehören
Bs.: Domain(Name)= {Mitarbeiter,Student},
Range(Name)=string
Bs.: Domain(studiert)={Student}, Range(studiert) =
Studiengang
Kardinalität: Anzahl möglicher Werte für diesen Slot
I
I
I
Angabe von minimaler und maximaler Anzahl
Bs.: card(Name)=(1,1)
Bs.: card(studiert)= (1,2)
Facetten von Slots II
I
Hierarchien auf Slots
I
I
I
I
Spezialisierung: Instanzen eines spezielleren Slots sind auch
Instanzen des generelleren Slots
Bs.: hört_Pflicht und hört_Wahlpflicht als Spezialisierung von
hört
speziellerer Slot kann bzgl. Domain, Range, und Kardinalität
eingeschränkt sein
Slots und Vererbung
I
Unterklasse erbt alle Slots ihrer Oberklasse
I
zusätzlich kann sie weitere Slots haben
vererbte Slots können eingeschränkt werden:
I
I
I
Default-Wert: falls kein expliziter Slot-Wert angegeben wird
Instanzen
I
bzgl. Range: Unterklasse des Range der Oberklasse
Bs.: Ingenieurstudent studiert → Ingenieurstudiengang
bzgl. Kardinalität
Bs.: Diplomand: card(hört) = (0,0)
speziellerer Slot
YAGO
Suche automatisch extrahierter Instanzen aus Wikipedia
http://www.mpi-inf.mpg.de/yago-naga/yago/demo.html
I
Füllen der Ontologie mit Werten
I
Instanz einer Klasse muss alle Bedingungen der Klasse erfüllen
Retrieval = Suche nach Instanzen einer Klasse (mit allen
Unterklassen), die zusätzlich bestimmte Wertebedingungen
erfüllen
I
I
I
Bs.: Ingenieurstudenten mit Zweitstudiengang
Bs.: Studenten mit mehr als 8 Semestern, die IR hören
YAGO Ontology Browser
Freebase
Manuell erstellte Dokumenten/Faktenbasis:
http://www.freebase.com
Freebase - Suchergebnis
Werkzeuge und Anwendungen
I
Ontologie-Editoren zur Ontologie-Entwicklung
I
überprüfen Widerspruchsfreiheit der Ontologie und Erfüllung
der Konsistenzbedingungen von Instanzen
Systeme:
I
I
I
I
I
Protegé: protege.stanford.edu
Chimaera: www.ksl.stanford.edu/software/chimaera/
Java Ontology Editor (JOE):
www.cse.sc.edu/research/cit/demos/java/joe/joeBeta-jar.html
Weitere siehe en.wikipedia.org/wiki/Ontology_editor
Wiederverwendung von Ontologien
I
Ontologie-Bibliotheken:
I
I
I
I
DAML ontology library: (www.daml.org/ontologies)
Ontolingua ontology library
(www.ksl.stanford.edu/software/ontolingua/)
Protégé ontology library (protege.stanford.edu/plugins.html)
Generelle Ontologien:
I
I
I
I
DOLCE — Descriptive Ontology for Linguistic and Cognitive
Engineering (www.loa-cnr.it/DOLCE.html)
Cyc (www.cyc.com)
DMOZ (www.dmoz.org)
WordNet (www.cogsci.princeton.edu/ wn/)
Einfache statistische Modelle
Beispiel für computerlinguistischen Ansatz
Zusammenhang zwischen Modellen und
Repräsentationen
Text:
Experiments with Indexing Methods.
The analysis of 25 indexing algorithms has not produced consistent
retrieval performance. The best indexing technique for retrieving
documents is not known.
Einfache statistische Modelle
Stoppworteliminierung:
experiments indexing methods analysis indexing algorithms
produced consistent retrieval performance best indexing technique
retrieving documents known
Stammformreduktion:
experiment index method analys index algorithm produc consistent
retriev perform best index techni retriev document know
„semantische“ Sicht
I
Multimenge von Terms
I
Formen des Vorkommens
(Ort, Sicherheit)
Modell:
I
Abbildung auf Attribute
I
Semantik durch Statistik!
Computerlinguistische Verfahren sind präziser (und
benutzerfreundlicher) als der informatische Ansatz
aber:
alle Verfahren sind mit Fehlern behaftet!
Herunterladen