Semiotische Grundlagen - Institut für Informatik

Werbung
Computerlinguistik
1
Themenübersicht Computerlinguistik
Semiotische Grundlagen und Lexikon
 Zeichen und ihre Bedeutung
 Computerlexikographie
Syntax und Morphologie






Konstituenten
Phrasenstruktur- und Kategorialgrammatik
Parsen
Morphologe
Unifikationsgrammatiken
Dependenzen und Rollen
Semantik
 Prinzipien semantischer Verarbeitung
 Referenzsemantik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
2
 Strukturalistische Semantik
Anwendungen
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
3
Computerlinguistik
Definition: Simulation sprachlicher Prozesse
auf dem Computer
Sprachliche Prozesse:
lautliche und kognitive Prozesse, die auf
linguistischen Ebenen realisiert werden
Linguistik:
algorithmische Beschreibung von Sprache
Merkmal der Computerlinguistik:
• Kognitionswissenschaftlicher Hintergrund
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
4
... auf dem Computer
Simulation:
(auf dem Computer)
sprachliche Prozesse können als
informationsverarbeitende bzw. symbolische
Prozesse implementiert werden
Annahme:
Denken ist Symbolverarbeitung
(sog. starke These der KI)
Merkmal der Computerlinguistik:
• Abgrenzung gegenüber Sprachtechnologie
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
5
Sprachliche Prozesse
Explanandum
Laute (tokens)
Lautgruppen/Äquivalenzklassen
Explanans
Phonetik
Phonem: kleinste bedeutungsunterscheidende Einheit
Gruppen von Phonemen
Morphem: kleinste bedeutungstragende Einheit
Allomorphe
Bsp.: sprech={sprech, sprich, sprach, ...}
Phonologie
Morphologie
Gruppen von Morphemen: Wortformen
(flektierte Formen eines Wortes)
Wort: Äquivalenzklasse v. Wortformen
Phrasen (Gruppen von Wörtern)
Sätze (vollständig, grammatisch)
Aussagen (wahrheitsfähig)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
Syntax
Semantik /
WS 99/00
Computerlinguistik
Sprechakte (zustandsverändernd)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
6
Pragmatik
WS 99/00
Computerlinguistik
7
Semiotische Grundlagen
Zeichen (G. Klaus):
Äquivalenzklasse aller physikalischen Signale, die auf denselben
Gegenstand, Sachverhalt usw. hinweisen (i.a. Träger v. Informationen)
zum Verständnis eines Zeichens ist ein Interpretationsschlüssel
erforderlich !
Beispiel: Karte u. Legende
Nach Ch.S. Peiree
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
8
Linguistische Ebenen bei der Zerlegung eines Satzes
1)
in eine Kette von Buchstaben:
Ü-b-e-r-d-e-m-A-t-l-a-n-t-i-k-b-e-f-a-n-d-s-i-c-h-e-i-n-b-ar-o-m-e-t-r-i-s-c-h-e-s-M-i-n-i-m-u-m
2)
in eine Kette von Silben:
über-dem-At-lan-tik-be-fand-sich-ein-ba-ro-me-tri-sches
Mi-ni-mum
3)
in eine Kette von Morphen:
über-dem-Atlant-ik-be-fand-sich-ein-bar-o-metr-isch-es
Minim-um
4)
in eine Kette von Wortformen:
Über-dem-Atlantik-befand-sich-ein-barometrisches-Minimum
5)
in eine Kette von Satzteilen:
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
9
Über dem Atlantik - befand sich - ein barometrisches Minimum
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
10
Das Zeichenmodell Ferdinand de
Saussures
Nach der Definition de Saussures ist ein sprachliches
Zeichen die Verbindung aus der Vorstellung, die
man von einem Symbol hat, und dem Lautbild, das
mit ebendiesem Symbol verbunden ist.
Beliebigkeit: die Vorstellung eines Symbols ist durch keinerlei natürliche
Beziehung mit der Lautfolge verbunden, die es bezeichnet (die Verbindung ist
arbiträr). Auf dieser Grundlage läßt sich auch das Vorhandensein mehrerer
Sprachen erklären. Nichtsdestotrotz ist diese willkürliche Verbindung zugleich
auch konventionell; jeder Sprecher einer Sprache muß sich an diese "Regel"
halten, um verstanden zu werden.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
11
Linearer Charakter: Die Bezeichnung verläuft in der Zeit und hat deshalb
ebenfalls Eigenschaften, die zeitlich bestimmt sind. Die Ausprägung dieser
Eigenschaften ist, wenn man sie aufzeichnet, fast linear.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
12
Die Veränderlichkeit der Sprache
Unveränderlichkeit
 Bezeichnungen können nicht
beliebig durch andere ersetzt
werden
 Sprache wird "weitervererbt"
 Sprache beruht auf keinerlei Norm
und kann daher auch nicht in Frage
gestellt werden
 die Zahl der Zeichen ist
unveränderbar (zu große Anzahl)
 Sprache = "Institution"
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
Veränderlichkeit
 auch Sprache wird im Laufe der Zeit
verändert, selbst wenn es sich um
einen längeren Zeitraum handelt
 Gesamtheit der sprachlichen
Gewohnheiten eines Individuums
 Ohne Sprachgemeinschaft keine
lebendige Sprache (soziale
Wirklichkeit fehlt)
WS 99/00
Computerlinguistik
13
 sowohl Sprachgemeinschaft als
auch Zeit sind für Sprachwandel
unverzichtbar!
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
14
Saussure:
Die Sprache kommt als das Ergebnis der Sprachverwendung hervor, und
sie enthält "weder Vorstellungen noch Laute, die gegenüber dem
sprachlichen System präexistent wären, sondern nur begriffliche und
lautliche Verschiedenheiten, die sich aus dem System ergeben."
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
15
Syntax
Gegenstand:
Wörter bzw. Wortformen und deren Kombination zu Sätzen
Definition (Chomsky):
„Syntax is the study of principles and processes by which sentences are
constructed in particular languages“
- Grammatik der Einzelsprachen
(z.B. Deutsch, Englisch, ...)
- Universalgrammatik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
16
Ziele:
1) Syntaktische Struktur
- welche Elemente ?
- wie kombiniert ?
2) Grammatikalität
3) Prinzipien der Universalgrammatik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
17
Die Mediziner ringen um den Erhalt des Gehörs
1) Welche Elemente ?
Wortformen (nicht Wörter)
Wörter: der Mediziner
ringen um
der Erhalt
das Gehör
2) Wie kombiniert ?
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
18
WS 99/00
Computerlinguistik
19
Tests für Konstituenten: Was sind richtige Strukturen
?
1. Ersetzungsprobe
Wortfolgen, die sich füreinander ersetzen lassen, ohne daß sich an der Grammatikalität
des Ganzen etwas ändert, sind (möglicherweise) Konstituenten.
2. Pronominalisierungstest
Pronomina: Er, sie, dort, damals ...
Was sich pronominalisieren läßt (worauf man sich mit einer Proform beziehen kann), ist
eine Konstituente.
„Der Pilot starb durch 2 Pistolenkugeln in Hildesheim“
er
dadurch
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
dort
WS 99/00
Computerlinguistik
20
„Ede will einen Pudding essen.“ Das will ich auch.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
21
Tests für Konstituenten II
3. Weglaßprobe
„der Pilot starb ...“
4. Fragetest
wer, wann, wo, wohin, wie, womit, was, warum, ...
5. Koordinierungstest (Verbindung durch „und“)
6. Verschiebeprobe
„In Hildesheim starb der Pilot durch 2 Pistolenkugeln.“
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
22
Formale Grammatik
a) Erzeugungsgrammatik
b) Erkennungsgrammatik
Chomsky - Grammatik
< s, T, N, P >
T = Mengen der Terminalen Symbole
N = Mengen der Nichtterminale
s = Startsymbol, sN
P = Produktionsregeln
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
23
(Ersetzungsregeln)
Als Vokabular V bezeichnen wir V=NT
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
24
Ersetzungsregeln
uv
Eine Kette w2 ist aus einer Kette w1 direkt ableitbar, wenn es eine Ersetzungsregel
p  q gibt und sich w2 von w1 dadurch unterscheidet, daß die Teilkette p in w1 durch
die Teilkette q in w2 ersetzt ist.
Allgemein ist wn ableitbar aus w1, wenn es eine Folge direkt ableitbarer Ketten wie
folgt gibt:
w1 ... wi ... wn
Typ 0 : unbeschränkte Ersetzungssysteme
keine Beschränkungen an die Form der Regeln
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
25
Typ 1 : kontext-sensitive Grammatik
xAy xvy
AN, x, yV*, vV+
Beschreibung: Ersetze A durch v im Kontext x, y
Beispiel
Mit einer kontext-sensitiven Grammatik läßt sich die Menge {an bn cn} ableiten.
Grammatik: T={a, b, c}, N={s, x, y, z}
Regeln:
s  abc
s  axbcy
x  axbc
x  az
cy  yc
zb  bz
cb  bc
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
26
zy  bc
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
27
Typ 2 : kontext-freie Grammatik
A  v
AN, vV*
Beispiel 1
Mit einer kontext-freien Grammatik läßt sich die Menge {an bn} ableiten.
Grammatik: T={a, b}, N={s, x}
Regeln:
s  ab
s  axb
x  ab
x  axb
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
28
Beispiel 2
Mit einer kontext- freien Grammatik läßt sich die Menge {an bk cn} ableiten.
Grammatik: T={a, b, c}, N={s, x, y}
Regeln:
s  ac
s  axc
x  axc
x  ayc
y  yb
yb
ABER
Mit einer kontext- freien Grammatik läßt sich nicht die Menge {an bn cn} ableiten.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
29
Typ 3 : reguläre Grammatik
Regeln der Form
A  a
A  B b (links-linear) bzw.
mit
A  b B (rechts-linear)
A, BN, vV*
Beispiel
Mit einer regulären Grammatik läßt sich nicht die Menge {an bn} ableiten.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
30
Frage: Was ist die “richtige” Komplexität für natürliche
Sprache?
a) unbeschränkt? ok aber wahrscheinlich zu mächtig (weil zu wenig
Struktur bzw. Beschränkung)
b) regulär ? zu schwach
Kriterien für die Beurteilung einer Grammatik:
 beobachtungsadäquat : richtige Daten
 beschreibungsadäquat : richtige Struktur
 erklärungsadäquat : richtige Struktur + richtige Theorie
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
31
Probleme
1) Richtige Daten
• Untergenerierung
• Übergenerierung
2) Richtige Struktur: Rekursivität der Sprache
Bsp.
1) Der Mann s1 liest das Buch s2
2) Das Buch ist 1957 geschrieben
3) Der Mann s3 empfiehlt das Buch s2
Die Satzvariablen s1 und s3 können die Sätze 1 und 3, s2 den Satz 2 als Wert nehmen.
Rekursive Verknüpfung der Sätze:
Der Mann,
der das Buch,
das 1957 geschrieben worden ist,
liest,
empfiehlt das Buch weiter
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
32
Das ist eine Struktur der Form an bn, also nicht regulär beschreibbar.
c) Kontextfrei: Phrasenstrukturgrammatik (Chomsky 1957, 1965)
S =
T =
N=
P =
Satzsymbol
Lexikon (Wortformen)
{S, N, V, Adj, P, NP, VP, ... Art ... }
S  NP VP
NP  (Art) N
.
.
.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
33
Einfaches Beispiel
Regeln: S  NP VP
NP  Art N
VP  V NP
PP  P NP
NP  NP PP
S
VP
NP
PP
NP
NP
Art
N
der
Bayer
V
stellt
Art
die
NP
N
Maß
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
P
auf
den
Art
N
Tisch
WS 99/00
Computerlinguistik
34
Abarbeitung (Parsing): Top-Down oder Bottom-up ???
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
35
Erzeugungsgrammatik
S  NP VP
Art N VP
der N VP
der Bayer VP
.
.
.
der Bayer stellt die ...
Probleme
1) Wortstellung
Die Maß stellt der Bayer auf den Tisch.
Auf den Tisch stellt der Bayer die Maß.
S  PP V NP NP ?
übergeneriert !!
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
36
WS 99/00
Computerlinguistik
37
Traditionelle Lösung
Phrasenstruktur liefert nur Syntax-Basis (Tiefenstruktur)
Tiefenstruktur wird transformiert in Oberflächenstruktur
Basis (PS)
Transformationen
(z.B. Passiv, Topikalisierung, Morphologie)
Satzoberfläche
2) Was steht im Lexikon ?
A) Stammformlexikon
Stammformen (nicht Wortformen)
Morphologie wird durch Transformationen angefügt
B) Vollformenlexikon
Vollformen mit Verweis auf die Grundform
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
38
3) Rektion und Kongruenz
Rektion: Abhängigkeit nachfolgender Ausdrücke von einem vorangehenden Ausdruck (z.B.
Präposition) hinsichtlich morpho-syntaktischer Kategorien (z.B. Kasus, Genus, ...)
Kongruenz: Übereinstimmung von Satzteilen/Phrasen hinsichtlich morpho-syntaktischer
Kategorien (z.B. Kasus, Numerus, Person,
Genus, ...)
Alternative: Unifikationsgrammatik
4) Thematische Rollen
inhaltliche Beschränkungen
5) Subkategorisierung
x stell y (auf z)
x schlaf
x grüßt y
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
39
6) nicht kontextfrei sondern kontextsensitiv ?
Beispiel 1
daß Hans1
Maria2
Peter3
Beate über die Brücke hat helfen3
lassen2
gehen1
liefert eine Konstruktion vom Typ
a b c c b a
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
40
Beispiel 2
Peter
bzw. Maria
bzw. Paul
a
a
a
wandern
bzw. schwimmen
bzw. fahren Fahrrad
b
b
b
nach Naumburg
bzw. an der Ostsee
bzw. im Rosenthal
c
c
c
liefert eine Konstruktion vom Typ
an bn cn
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
41
Kategorialgrammatik
Ajdukiewicz (Anwendung Logik)
Montague
Idee: Das Ganze ist mehr als Summe seiner Teile — erst die richtige
Aneinanderreihung von Ausdrücken ergibt einen Satz
(vollständiges Ganzes)
[ Peter schläft ]
n
s/n
Peter = n
schläft = s/n
tief = (s/n) / (s/n)
s
n * s/n = s
Peter
schläft
n
s/n
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
tief
(s/n) / (s/n)
WS 99/00
Computerlinguistik
42
s/n
s
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
43
Eigenschaften
1)
Grammatikalische Grundausdrücke (Basiskategiorien); andere Kategorien wurden abgeleitet
2)
Grammatische Informationen im Lexikon (komplexe Kategorien)
3)
Grammatikalische Regel : Kürze
4) Parallelität von Syntax und Semantik
ABCD
ABy
(C' (D') (A (B'))
CDx/y
A(y/x) Bx
C((x/y)/y) Dy
Syntax
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
A' (B')
C' (D')
A' B'
C' D'
Semantik
WS 99/00
Computerlinguistik
44
z.B. Peter schläft = SCHLÄFT (Peter)
Formale Präzisierung
Eine Kategorialgrammatik ist ein Quadrupel G=<VT, VA, S,F> mit
VT =
VA =
S =
F =
Terminale
Alphabet der Grundkategorien (Basisausdrücke)
Satzkategorie V A
Funktion von VT nach  (L), mit L der Menge der
(abgeleiteten) Kategorien
L wird induktiv definiert
1) Für alle x VA , x L
2) Wenn x und y in L sind, dann auch (x/y) und (x\y).
3) Nichts ist in L außer nach (1) und (2) definiert.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
45
Grammatikregeln
 (Kürze in einem Schritt)
Für alle Kategorien x,y in C und eine endliche Folge von Kategorien
x/y y   x 
y y\x   x 
(Kürze in 0 oder mehr Schritten):
reflexiver transitiver Abschluß von 

Eine Folge w VT+ wird von G generiert dann und nur dann, wenn w = w1 ... wn und es n
Kategoriensymbole L1 ... Ln gibt, so daß F(w1) = L1 (1i n) und L1 ... Ln  S.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
46
Beispiel
G = < VT, VA, S, F > mit
VT = {a,b}
VA = {S,B}
F(a) = {S/B}, F(b) = {B, S\B}
Ableitung von a3 b3
S
S/B
B
S
S\B
S/B
B
S
S/B
S\B
B
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
a
47
a
a
b
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
b
b
WS 99/00
Computerlinguistik
48
Verhältnis Kategorialgrammatik zu kontextfreien
Sprachen: schwach äquivalent
Anwendung auf Analyse natürlicher Sprache
1) Grundausdrücke
2) Phrasen, komplexe Kategorien
3) Kürzungsregeln / Formationsregeln
Montague: Proper Treatment of Quantification in Englisch (PTQ)
Alle Menschen
sind sterblich
Sokrates
Sokrates
ist ein Mensch
ist
sterblich
Universal Grammar
 Algebra der natürlichen Sprache
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
49
Statistische Verfahren zur strukturellen Analyse
Types of annotation
Certain kinds of linguistic annotation, which involve the attachment of special codes to
words in order to indicate particular features, are often known as "tagging" rather than
annotation, and the codes which are assigned to features are known as "tags". These
terms will be used in the sections which follow:




Part of Speech annotation
Lemmatisation
Parsing
Semantics
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
50
Part-of-speech Annotation
This is the most basic type of linguistic corpus annotation - the aim being to assign to
each lexical unit in the text a code indicating its part of speech. Part-of-speech annotation
is useful because it increases the specificity of data retrieval from corpora, and also forms
an esential foundation for further forms of analysis (such as syntactic parsing and semantic field annotation). Part-of-speech annotation also allows us to distinguish between
homographs.
Part-of-speech annotation was one of the first types of annotation to be formed on corpora and is the most common today. One reason for this is because it is a task that can be
carried out to a high degree of accuracy by a computer. Greene and Rubin (1971)
achieved a 71% accuracy rate of correctly tagged words with their early part-of-speech
tagging program (TAGGIT). In the early 1980s the UCREL team at Lancaster University reported a success rate of 95% using their program CLAWS.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
51
Part-of-speech Annotation: The Tags used
AJ0: general adjective
AT0: article, neutral for
number
AV0: general adverb
AVP: prepositional adverb
CJC: co-ordinating conjunction
CJS: subordinating conjunction
CJT: that conjunction
DPS: possessive determiner
DT0: singular determiner
NN0: common noun, neutral
for number
NN1: singular common noun
NN2: plural common noun
NP0: proper noun
POS: genitive marker
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
PNP:
PRF:
PRP:
PUN:
TO0:
VBI:
VM0:
VVB:
VVD:
VVG:
VVI:
VVN:
pronoun
of
prepostition
punctuation
infintive to
be
modal auxiliary
base form of lexical
verb
past tense form of
lexical verb
-ing form of lexical
verb
infinitive form of
lexical verb
past participle form
of lexical verb
WS 99/00
Computerlinguistik
52
Lemmatisation
Lemmatisation is closely allied to the identification of parts-of-speech and involves the
reduction of the words in a corpus to their respective lexemes. Lemmatisation allows the
researcher to extract and examine all the variants of a particular lexeme without having to
input all the possible variants, and to produce frequency and distribution information for
the lexeme. Although accurate software has been developed for this purpose (Beale
1987), lemmatisation has not been applied to many of the more widely available corpora.
However, the SUSANNE corpus does contain lemmatised forms of the corpus words,
along with other information. See the example below - the fourth column contains the
lemmatised words:
Example
ID/Line/Pos POS
Word
Lexeme
N12:0510g - PPHS1m
N12:0510h - VVDv
He
studied
he
study
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
N12:0510i - AT
N12:0510j - NN1c
53
the
problem
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
the
problem
WS 99/00
Computerlinguistik
54
Example
N12:0510g
N12:0510h
N12:0510i
N12:0510j
N12:0510k
N12:0510m
N12:0510n
N12:0510p
N12:0520a
N12:0520b
N12:0520c
N12:0520d
N12:0520e
N12:0520f
N12:0520g
N12:0520h
N12:0520i
N12:0520j
N12:0520k
N12:0520m
-
PPHS1m
VVDv
AT
NN1c
IF
DD221
DD222
NNT2
CC
VVDv
IO
AT1
NNc
IIb
DDQr
PPH1
VMd
VB0
VVNt
YF
He
studied
the
problem
for
a
few
seconds
and
thought
of
a
means
by
which
it
might
be
solved
+.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
he
study
the
problem
for
a
few
second
and
think
of
a
means
by
which
it
may
be
solve
WS 99/00
Computerlinguistik
55
Semantics
Two types of semantic annotation can be identified:
1.The marking of semantic relationships between items in the text, for example the agents
or patients of particular actions. This has scarcely begun to be widely accepted at the time
of writing, although some forms of parsing capture much of its import.
2.The marking of semantic features of words in the text, essentially the annotation of
word senses in one form or another. This has quite a long history, dating back to the
1960s.
There is no universal agreement about which semantic features ought to be annotated in fact in the past much of the annotation was motivated by social scientific theories of,
for instance, social interaction. However, Sedelow and Sedelow (1969) made use of Roget's Thesarus - in which words are organised into general semantic categories.
The example below (Wilson, forthcoming) is intended to give the reader an idea of the
types of categories used in semantic tagging:
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
56
WS 99/00
Computerlinguistik
57
Semantic Tagging Example
And
the
soldiers
platted
a
crown
of
thorns
and
put
it
on
his
head
and
they
put
on
him
00000000
00000000
23241000
21072000
00000000
21110400
00000000
13010000
00000000
21072000
00000000
00000000
00000000
21030000
00000000
00000000
21072000
00000000
00000000
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
a
purple
robe
00000000
31241100
21110321
WS 99/00
Computerlinguistik
Tags: 00000000
13010000
21030000
21072000
21110321
21110400
23231000
31241100
58
Low content word (and, the, a, of, on, his, they etc)
Plant life in general
Body and body parts
Object-oriented physical activity (e.g. put)
Men's clothing: outer clothing
Headgear
War and conflict: general
Colour
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
59
Sie gehen gewagte Verbindungen und Risiken ein, versuchen ihre
Möglichkeiten auszureizen.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
60
Export Format:
#BOS 2 2 899973978 1
Sie
PPER
gehen
VVFIN
gewagte
ADJA
Verbindungen
NN
und
KON
Risiken
NN
ein
PTKVZ
,
$,
versuchen
VVFIN
ihre
PPOSAT
Möglichkeiten
NN
auszureizen
VVIZU
.
$.
#500
NP
#501
NP
#502
CNP
#503
VP
#504
S
#505
S
#506
CS
3.Pl.*.Nom
3.Pl.Pres.Ind
Pos.*.Akk.Pl.St
Fem.Akk.Pl.*
-Neut.Akk.Pl.*
--3.Pl.Pres.Ind
*.Akk.Pl
Fem.Akk.Pl.*
----------
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
SB
HD
NK
NK
CD
CJ
SVP
-HD
NK
NK
HD
-CJ
OA
OA
OC
CJ
CJ
--
WS 99/00
504
504
500
500
502
502
504
0
505
501
501
503
0
502
503
504
505
506
506
0
Computerlinguistik
61
Das „Stuttgart/Tübinger Tagset’’ (STTS) I
ADJA
ADJD
attributives Adjektiv
adverbiales oder
prädikatives Adjektiv
ADV
Adverb
APPR
Präposition; Zirkumposition links
APPRART Präposition mit Artikel
APPO
Postposition
APZR
Zirkumposition rechts
ART
bestimmter oder
unbestimmter Artikel
CARD
Kardinalzahl
FM
Fremdsprachliches Material
ITJ
ORD
KOUI
KOUS
KON
KOKOM
NN
NE
PDS
Interjektion
Ordinalzahl
unterordnende Konjunktion
mit ``zu'' und Infinitiv
unterordnende Konjunktion
mit Satz
nebenordnende Konjunktion
Vergleichskonjunktion
normales Nomen
Eigennamen
substituierendes Demonstrativpronomen
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
[das] große [Haus]
[er fährt] schnell
[er ist] schnell
schon, bald, doch
in [der Stadt], ohne [mich]
im [Haus], zur [Sache]
[ihm] zufolge, [der Sache] wegen
[von jetzt] an
der, die, das,
ein, eine, ...
zwei [Männer], [im Jahre] 1994
[Er hat das mit ``]
A big fish ['' übersetzt]
mhm, ach, tja
[der] neunte [August]
um [zu leben],
anstatt [zu fragen]
weil, daß, damit,
wenn, ob
und, oder, aber
als, wie
Tisch, Herr, [das] Reisen
Hans, Hamburg, HSV
dieser, jener
WS 99/00
Computerlinguistik
62
Das „Stuttgart/Tübinger Tagset’’ (STTS) II
PDAT
PIS
PIAT
PIDAT
PPER
PPOSS
PPOSAT
PRELS
PRELAT
PRF
PWS
PWAT
PWAV
PAV
PTKZU
PTKNEG
attribuierendes Demonstrativpronomen
substituierendes Indefinitpronomen
attribuierendes Indefinitpronomen ohne Determiner
attribuierendes Indefinitpronomen mit Determiner
irreflexives Personalpronomen
substituierendes Possessivpronomen
attribuierendes Possessivpronomen
substituierendes Relativpronomen
attribuierendes Relativpronomen
reflexives Personalpronomen
substituierendes
Interrogativpronomen
attribuierendes
Interrogativpronomen
adverbiales Interrogativoder Relativpronomen
Pronominaladverb
``zu'' vor Infinitiv
Negationspartikel
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
jener [Mensch]
keiner, viele, man, niemand
kein [Mensch],
irgendein [Glas]
[ein] wenig [Wasser],
[die] beiden [Brüder]
ich, er, ihm, mich, dir
meins, deiner
mein [Buch], deine [Mutter]
[der Hund ,] der
[der Mann ,] dessen [Hund]
sich, einander, dich, mir
wer, was
welche [Farbe],
wessen [Hut]
warum, wo, wann,
worüber, wobei
dafür, dabei, deswegen, trotzdem
zu [gehen]
nicht
WS 99/00
Computerlinguistik
63
Das „Stuttgart/Tübinger Tagset’’ (STTS) III
PTKVZ
PTKANT
PTKA
SGML
SPELL
TRUNC
VVFIN
VVIMP
VVINF
VVIZU
VVPP
VAFIN
VAIMP
VAINF
VAPP
VMFIN
VMINF
VMPP
XY
\$,
\$.
\$(
abgetrennter Verbzusatz
Antwortpartikel
Partikel bei Adjektiv
oder Adverb
SGML Markup
Buchstabierfolge
Kompositions-Erstglied
finites Verb, voll
Imperativ, voll
Infinitiv, voll
Infinitiv mit ``zu'', voll
Partizip Perfekt, voll
finites Verb, aux
Imperativ, aux
Infinitiv, aux
Partizip Perfekt, aux
finites Verb, modal
Infinitiv, modal
Partizip Perfekt, modal
Nichtwort, Sonderzeichen
enthaltend
Komma
Satzbeendende Interpunktion
sonstige Satzzeichen; satzintern
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
[er kommt] an, [er fährt] rad
ja, nein, danke, bitte
am [schönsten],
zu [schnell]
S-C-H-W-E-I-K-L
An- [und Abreise]
[du] gehst, [wir] kommen [an]
komm [!]
gehen, ankommen
anzukommen, loszulassen
gegangen, angekommen
[du] bist, [wir] werden
sei [ruhig !]
werden, sein
gewesen
dürfen
wollen
gekonnt, [er hat gehen] können
3:7, H2O,
D2XW3
,
. ? ! ; :
- [,]()
WS 99/00
Computerlinguistik
64
Beispiele für Symbolfolgen
Symbolfolgen dienen in vielen Fällen als Grundlage für
semantische Aussagen.
Meßwerte aus einer kontinuierlichen
Symbolmenge
 Meßdaten für den Wetterbericht
 Blutdruckwerte
 Schallwellen
Meßwerte sind in der Regel mit Meßfehlern behaftet.
Folgen mit endlichen Symbolmengen
 verschlüsselte Texte als zu knackende Symbolfolge
 ja / nein - Meßwerte
 Text als Buchstabenfolge
 Text als Wortfolge
 gesprochener Text als Phonemfolge
Die Symbole sind in der Regel nicht fehlerhaft.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
65
Strukturen in Symbolfolgen
Kontextabhängigkeit in Symbolfolgen
Je nach dem Charakter einer Folge können benachbarte
Zeichen unabhängig voneinander sein oder es können
Abhängigkeiten bestehen, z.B. verschiedene
Aufeinanderfolgen können verboten sein.
Beispiel:
 Die Mittagstemperaturen aufeinanderfolgender Tage
werden sich um nicht mehr als 15 Grad unterscheiden.
 In einem Text als Wortfolge werden (wahrscheinlich)
nicht die Wörter schläfst und Gedankens (in dieser
Reihenfolge) nebeneinander stehen
 In einem deutschen Text als Buchstabenfolge wird nicht
die Buchstabenfolge yyy auftauchen.
Achtung: Diese Eigenschaft der Kontextabhängigkeit ist nicht
unabhängig unter Isomorphismen (z.B. Übersetzung)
Sind gewisse Aufeinanderfolgen von gewissen Symbolen
verboten, so sprechen wir von topologischen Markov-Folgen.
Übergangswahrscheinlichkeiten
Haben wir Informationen, wie häufig gewisse Symbole
unmittelbar hintereinander auftreten, so sprechen wir von
Übergangswahrscheinlichkeiten.
Übergangswahrscheinlichkeiten von Symbolpaaren
beschreiben Mengen von Symbolfolgen i.a. noch nicht
vollständig, z.B. in der natürlichen Sprache.
Ist eine vollständige Beschreibung mit
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
66
Übergangswahrscheinlichkeiten möglich, so sprechen wir von
Markov-Folgen.
Erzeugung von BernoulliFolgen
Beispiel 1
Erzeuge mit wiederholtem Münzwurf eine Folge von Nullen
und Einsen je nachdem, ob Wappen oder Zahl geworfen wird.
Beispiel 2
Erzeuge mit wiederholtem Würfeln eine Folge
bestehend aus den Symbolen 1,2,3,4,5 und 6.
Verallgemeinerung: N Symbole 1,2,...,N. Jedes Symbol n wird
mit einer Wahrscheinlichkeit pn gewürfelt.
Eigenschaften
 Wir betrachten unendlich lange Symbolfolgen. Und zwar
entweder
 zweiseitig unendlich lange Symbolfolgen (diese
haben weder Anfang noch Ende), oder
 nach rechts unendlich lange Symbolfolgen (diese
haben einen Anfang, aber kein Ende).
 Die Folgenglieder sind unabhängig voneinander, das
zuletzt erzeugte Symbol hat keinen Einfluß auf das
folgende Symbol.
 Der Symbolraum ist das (einseitige oder zweiseitige)
unendliche kartesische Produkt von Exemplaren der
Symbolmenge.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
67
 Die Wahrscheinlichkeiten erzeugen ein Maß auf dem
Produktraum.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
68
Erzeugung von Markov-Folgen
Die Aufeinanderfolge der Symbole ist nicht länger
unabhängig,
Beispiel
Über der Symbolmenge {1,2,3} wird eine Folge gebildet, so
daß auf ein Element stets mit Wahrscheinlichkeit 1/2 eines der
beiden anderen Symbole folgt.
Eine so erzeugte Folge ist z.B.
... 1 2 1 3 2 3 1 2 1 2 3 1 3
...
Eine so erzeugte Folge enthält also niemals das gleiche
Symbol zweimal unmittelbar hintereinander.
Die Übergangswahrscheinlichkeiten können durch eine
Matrix beschrieben werden:
0 1/2 1/2
1/2 0 1/2
1/2 1/2 0
Die möglichen Übergänge werden durch positive
Übergangswahrscheinlichkeiten beschrieben.
Nebenbedingung
Die Spaltensumme in jeder Spalte der Übergangsmatrix ist 1.
Die Symbolwahrscheinlichkeiten der einzelnen Symbole
ergeben sich als linker Eigenvektor der Übergangsmatrix zum
Eigenwert 1.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
69
Markov-Folgen aus nGrammen I
Markov-Folgen aus n-Grammen lassen sich durch eine
Vergrößerung der Symbolmenge auf Markov-Folgen aus
Bigrammen reduzieren:
Beispiel
Wir betrachten Folgen aus den Symbolen 0, 1 mit den
verbotenen Wörtern 000 und 111. Alle anderen
Kombinationen seien erlaubt.
Wir ordnen jetzt Wörtern der Länge 2 neue Symbole aus
{A,B,C,D} zu:
00 01 10 11
A B C D
Damit lassen sich jeder Folge über {0,1} eine Folge über
{A,B,C,D} zuordnen:
.. 0 1 1 0 1 1 0 0 1 0 0 1 ..
.. .. B D C B D C A B C D B ..
Jedem Wort der Länge 3 über {0,1} ist damit ein Wort der
Länge 2 über {A,B,C,D} zugeordnet.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
70
Markov-Folgen aus nGrammen II
Aus Kompatibilitätsgründen sind die Wörter AC, AD, BA,
BB, CC, CD, DA und DB verboten, das Verbot der
Wörter 000 und 111 liefert zusätzlich das Verbot von
AA und DD. Es ergibt sich folgende Übergangsmatrix:
A B C D
A 0 1 0 0
B 0 0 1 1
C 1 1 0 0
D 0 0 1 0
Die einzige 1 in der ersten Zeile sagt z.B., daß auf das Symbol
A nur B folgen kann, da A dem Paar 00 entspricht, das
Folgepaar also mit 0 beginnt, also nur A oder B in Frage
kommen. Da aber die Dreiergruppe 000 verboten ist, entfällt
die Kombination AA und es bleibt nur AB.
Beobachtung
Mit diesem Verfahren kommen wir nicht von Bigrammen zu
Einzelsymbolen, da die neu entstehenden
Kompatibilitätsbedingungen stets Bigramm-Bedingungen
sind.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
71
Topologische Markov-Folgen
Gibt es erlaubte und nicht erlaubte Folgen, ist aber über
Wahrscheinlichkeiten nichts bekannt, so betrachten wir
topologische Markov-Folgen:
In der Übergangsmatrix stehen jetzt jeweils 1 oder 0 je
nachdem, ob der entsprechende Übergang erlaubt ist.
Das Vorgehen entspricht dem Erklären der syntaktischen
Korrektheit einer Folge unabhängig von der tatsächlichen
Nutzungsfrequenz.
Beispiel
Über der Symbolmenge {1,2,3} wird eine Folge gebildet, so
daß auf ein Element eines der beiden anderen Symbole folgt.
Eine so erzeugte Folge ist z.B.
... 1 2 1 3 2 3 1 2 1 2 3 1 3
...
Die erlaubten Übergänge können durch eine Matrix
beschrieben werden:
0 1 1
1 0 1
1 1 0
Analog lassen sich die erlaubten Übergänge durch einen
gerichteten Graphen darstellen:
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
72
Bernoulli-Maße für
Symbolfolgen
Symbolwahrscheinlichkeiten
Für jedes der einzelnen Symbole wird eine
Symbolwahrscheinlichkeit vorgegeben.
Nebenbedingung
Die einzelnen Symbolwahrscheinlichkeiten müssen
 positiv sein (einzelne Symbole mit Wahrscheinlichkeit 0
liefern Wahrscheinlichkeit 0 auch für alle Wörter, die
dieses Symbol enthalten und werden deshalb nicht
betrachtet) und
 sich zu 1 summieren.
Das Maß eines Wortes
Das Maß eines Wortes, genauer der Menge von
Symbolfolgen, die an einer bestimmten Stelle beginnend das
gewünschte Wort enthalten, berechnet man als Produkt der
einzelnen Symbol-Wahrscheinlichkeiten.
Generierung
Die Generierung von Symbolfolgen mit diesen
Symbolwahrscheinlichkeiten erzeugt gerade die zu dieser
Wahrscheinlichkeit gehörenden Bernoulli-Folgen.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
73
Bernoulli-Maße für
Symbolfolgen
Symbolwahrscheinlichkeiten
Für jedes der einzelnen Symbole wird eine
Sybolwahrscheinlichkeit vorgegeben.
Nebenbedingung
Die einzelnen Symbolwahrscheinlichkeiten müssen
 positiv sein (einzelne Symbole mit Wahrscheinlichkeit 0
liefern Wahrscheinlichkeit 0 auch für alle Wörter, die
dieses Symbol enthalten und werden deshalb nicht
betrachtet) und
 sich zu 1 summieren.
Das Maß eines Wortes
Das Maß eines Wortes, genauer der Menge von
Symbolfolgen, die an einer bestimmten Stelle beginnend das
gewünschte Wort enthalten, berechnet man als Produkt der
einzelnen Symbol-Wahrscheinlichkeiten.
Generierung
Die Generierung von Symbolfolgen mit diesen
Symbolwahrscheinlichkeiten erzeugt gerade die zu dieser
Wahrscheinlichkeit gehörenden Bernoulli-Folgen.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
74
Textgenerierung aus
Buchstabenblöcken mit nGramm-Modellen
Mit vollständiger Information und fester Länge
(Turing (engl.), Küpfmüller (dt.), ca. 1950)
Für die Länge N (N=1,2,3 oder 4, fest) werden die
Übergangswahrscheinlichkeiten (oder im Falle N=1: die
Einzelwahrscheinlichkeiten) für alle Buchstabenblöcke der
Länge N ermittelt. (Bei 30 Buchstaben sind das 30N
Übergangswahrscheinlichkeiten).
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
75
Morphologie (Formenlehre)
Morphem: kleinste bedeutungstragende Einheit
freie Morpheme
z.B. Buch
gebundene Morpheme
z.B.
vor (Präposition, Präfix)
er (Proform, Pl )
Normalisierung
insb.:
Präfixe (z.B. vor)
Suffixe (z.B. +er)
Fugenelemente (z.B. -s-, -en-)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
76
3 Bereiche
1) Flektion
2) Derivation
3) Komposition
Wortarten
offenen
(produktiv)
geschlossene
(nicht produktiv)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
Verben Nomina Adjektive
77
Artikel Präpositionen Konjunktive
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
78
1) Flektion
a) Nomina: Deklination
Sekundärkategorien
Kasus (Nom, Gen, Dat, Akk, ...)
Genus (..., fem, neutr.)
Numerus (sg, pl, ...)
Flektionstabelle
Numerus
Kasus
sg
pl
Norm
Haus
Häus+er
Haus
Gen
Haus+es
Häus+er
Häus
(Ablaute)
Dat
Haus+le
Häus+er
Akk.
Haus
Häus+er
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
79
WS 99/00
Computerlinguistik
80
b) Verben: Konjugation
Sekundärkategorien
Person (1., 2., 3.)
Tempus (Präs., Prät., ...)
Numerus (sg, pl)
Modus (Indikativ, Konjunktiv, Imperativ, ...)
Aspekt (Abgeschlossenheit, ...)
wichtig für
• Kongruenz
• Rektion (Übereinstimmung im Kasus)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
81
2) Derivation
allg. Form eines Wortes
Präfix* - Stamm - (Fugenelement) - Suffix*
N
A
V
N
A
V









3) Komposition
Probleme der Morphologie
1) Klassifikation
lern + bar + keit
2) Auflösung von Mehrdeutigkeiten
Abt + reibung (?)
Ab + treib + ung
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
82
zu + greif + en
zug + reifen
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
83
S
[NUM: pl]
NP
Art
Die
*Das
VP
[NUM: pl]
N
Kinder
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
V
Präp
Art
[NUM: pl] [KAS: Akk]
warten
*wartet
auf
WS 99/00
den
*des
[NUM: pl]
PP
[KAS: Akk]
NP
[KAS: Akk]
N
Weihnachtsmann
--- " ---
Computerlinguistik
84
Kat: N
NUM: pl
GEN: neutr
.
.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
Kat: V
pers: 3
NUM: pl
KAS: Akk
WS 99/00
KAS
NUM: sg
KAS: Akk
Computerlinguistik
85
Unifikationsgrammatik
Probleme mit PSG:
1) Kongruenz
2) Rektion
(Subkategorisierung, thematische Rollen, ...)
Darstellung morphologischer Abhängigkeiten
Erweiterung des Lexikons durch Attribut-Wert-Matrizen (AVM)
PSG:
Kinder, N
AVM: Form : Kinder
Kat
:
Num
:
Kas
:
Gen
:
N
Pl
Nom
Neutr.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
86
.
.
.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
87
Attribut-Wert-Strukturen
d
a
b
S
pers = 3
NUM = sg
agr =
subj =
prod = Maria
VP
c
e
agr =
NP
V
obj =
pers = 3
NUM = sg
prod = Josef
pred =
lieb+t
NP
TEMPUS = präs
Maria
liebt
Josef
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
NUM = sg
WS 99/00
Computerlinguistik
88
Eine Attribut-Wert-Struktur ist ein Tripel A = < F, C, > mit
F eine Menge von Attributen (Features)
C eine Teilmenge von F (Kategorien)
 eine partielle Funktion F x F  F
Bsp.:
F = {subj, obj, pred, tempus, a,b,c,...}
C = F \ {a,b,c,d,e,f}
 :  (a, subj) = b
 (a, tempus) = präs
...
Ergebnis:
HPSG (Head-driven Phrase structure Grammar)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
89
Beispiel
F : { CAT, PLU, PER }
g : g (CAT) = {S, VP, NP, V, N ... }
g (PER) = {1,2,3 }
g (PLU) = {+,-}
S : [CAT S]
FA : {PLU, PER}
VT : {ich, schlafe, Nikolaus, Kinder ...}
Lexikon
{[CAT V] [PER 3] [PLU -]}  schläft
{[CAT V] [PER 1] [PLU -]}  schlafe
{[CAT N][PER 1]}  ich
.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
90
.
.
[CAT S]  [CAT NP] [CAT VP]
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
91
"ich schlafe"
= ([CAT S], [PER I], [PLU -]
S
NP
VP
N
V
ich
schlafe
CAT N
PER I
CAT V
PER 1
PLU -
Unifikationsgrammatiken
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
92
Problem: NP - vollständig !
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
93
Semantik: Bedeutungslehre
Definition: Darstellung von Bedeutung durch eine
Bedeutungsrepräsentationssprache
Allgemeines Schema
Semantik
Semantische
Sätze der
natürlichen
Sprache
Interpretation
--> SRS  Bedeutung
unterschiedliche Paradigmen
- prozedurale Semantik
- referentielle Semantik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
94
(Referenzsemantik)
- strukturalistische Semantik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
95
Semantisches
Paradigma
vergleichbar
Prinzip
typisches Beispiel Tradition
prozedural
operationalistische
S.
"Mini"
B. liegt
im Gebrauch
Befehle (Imperative) Wittgenstein
"Stop"
Winograd
"rot"
(Blockswelt)
referentiell
denotationale S.
B. ist das Objekt /
Sachverhalt
Eigennamen
Frege
("Kurt")
Montague
Stoffnamen ("Gold")
strukturalistisch
axiomatische S.
B. ist der
Zusammenhang der Wörter
Definition
"Ein Junggeselle ist
ein unverh. Mann"
Wortsemantik
Satzsemantik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Saussure
Katz
Schank
Computerlinguistik
96
Satzsemantische Prinzipien
1. Wenn A und B Sätze sind, u. A wahr ist u. B falsch ist, dann bedeuten A und B nicht
dasselbe.
2. Kennt eine Person wortwendige und hinreichende Bedingungen für die Wahrheit /
Falschheit eines Satzes, dann kennt diese Person auch die Bedeutung dieses Satzes.
3. Kennt eine Person die Bedeutung eines Satzes, dann sind dieser Person auch die
notwendigen u. hinreichenden Bedingungen der Wahrheit dieses Satzes bekannt.
4. Frage-Prinzip: Die Bedeutung eines ganzen Satzes ist eine Funktion der Bedeutung seiner
Teile.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
97
Faktorenanalyse
Mutter
------- =
Kind
Kuh
----Kälbchen
=
Stute
-----Fohlen
=
...
+/- erwachsen
+/- weiblich
Vater
------Kind
=
Stier
----Kälbchen
Frau
+ weiblich
+ erwachsen
+ menschlich
Mann
- weiblich
+ erwachsen
+ menschlich
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
Kind
- erwachsen
+ menschlich
WS 99/00
Computerlinguistik
Kuh
+ weiblich
+ erwachsen
- menschlich
+ Bovide
98
Stute
+ weiblich
+ erwachsen
- menschlich
+ Equide
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
99
Repräsentation von Sätzen und Stories
12 elementare Handlungen nach Schank
Physische Handlungen (belebtes Objekt wirkt auf Gegenstand ein)





PROPEL: Physische Kraft wirkt auf physischen Gegenstand
MOVE: Bewegung eines Körperteils
INGEST: Aufnehmen: Einverleiben eines Gegenstandes in ein belebtes Objekt
EXPEL: Einen Gegenstand aus einem belebten Objekt ausscheiden
GRASP: Einen Gegenstand physisch ergreifen.
Globale Handlungen (-> Zustandsänderung)
 PTRANS: Ortsveränderung eines physischen Gegenstandes
 ATRANS: Veränderung einer abstrakten Beziehung zu einem physischen Gegenstand (z. B.
Besitz, Eigentum)
Instrumentale Handlung (Verwendung bei MTRANS)
 SPEAK
 ATTEND: Ein Sinnesorgan auf einen bestimmten Reiz richten
Mentale Handlungen
 MTRANS: Informationstransfer
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
100
 CONC: Über etwas nachdenken bezüglich bereits vollzogener Konzeptionalisierungen.
 MBUILD: Bildung neuer Information durch kognitive Prozesse, Konzeptualisierung
Zusätzliche soziale Aktionen:




AUTHORIZE: erlauben
ORDER: befehlen
DISPUTE: ein Wechselgespräch führen
PETITION: erbitten
Zustände (bewertbar -10 ... +10)
POSS: Besitz, Eigentum, Verfügung
PSTATE: äußerlicher Zustand eines Physikalischen Gegenstandes
HEALTH: Gesundheit
MSTATE: mentaler Zustand, Stimmung (gebrochen - niedergeschlagen - normal - froh glücklich)
 ANTICIPATION: Erwartung, ängstlich - nervös - hoffend - sicher
 AWARENESS: Bewußtseinszustand (tot - bewußtlos - schlafend - wach - begeistert)




Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
101
Beispiele für Repräsentationen einfacher Sätze
( bezeichnet Kusalität)
 John killed Mary.
John DO

Mary HEALTH(-10)



John kicked Mary.
John PROPEL foot to Mary

foot(John) BE PHYSICAL CONTACT (Mary)
John told Mary that Bill was happy.
John MTRANS(Bill BE MSTATE(5)) to Mary
John read a book.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
102
John MTRANS(Information) to LTM(John) from book
inst(John ATTEND eyes to book)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
103
Kausale Zusammenhänge
Ein ACT kann eine STATE erzeugen / verändern (result in)
ACT
r
STATE
Ein STATE kann einen ACT bewirken (Enable)
STATE
E
ACT
Ein STATE kann einen ACT beenden (disable)
STATE
 dE
ACTION
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
104
Ein STATE (oder ACT) kann einen MSTATE erzeugen (Initiate)
STATE (or ACT)
I
MSTATE
Ein MSTATE kann ein Grund für eine ACTION sein (Reason)
MSTATE
R
ACTION
Folgende Zusammensetzungen sind möglich:


 rE: Ein ACT erzeugt einen STATE, der wiederum einen ACT bewirkt
 IR: Ein ACT (oder STATE) erzeugt einen Gedanken, der eine ACTION
bewirkt.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
105
Beispiel für einen kausalen Zusammenhang:
John gave Bill an orange for his cold.
John ATRANS orange to Bill
 rE
Bill INGEST orange to inside(Bill)
r
Bill HEALTH(POS change)
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
106
John was thirsty. He opened a can of beer
and went into the den. There he saw a new
chair. He sat down on it. Suddenly the chair
tilted over and John fell on the floor. His
beer spilled all over the chair. When his
wife heard the noise she ran into the den.
She was very angry that her new chair had
be ruined.
Mit DO ist eine unbekannte Aktion
bezeichnet.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
107
Repräsentation von Stories: Beispiel: Restaurant-Script
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
108
WS 99/00
Computerlinguistik
109
Abweichen von Scripten
Typen von Abweichungen
Weicht eine Handlung von einem Script ab, so kann das die folgenden Gründe haben:
 Hindernis: Voraussetzung für eine folgende Handlung im Script ist nicht erfüllt
 Fehler: Wurde eine Handlung anders als üblich (d.h. mit anderem Effekt) ausgeführt
oder an einem anderen Objekt?
 Rezept: Wird eine korrigierende Handlung beschrieben? Z.B., um ein Hindernis zu
umgehen.
 Wiederholung: Wird die Wiederholung einer vorangegangenen Aktion beschrieben?
Z.B. nach Fehler.
 Reaktion: Wird eine emotionale Reaktion der handelnden Person beschrieben?
 Ablenkung: Hat die handelnde Person jetzt ein anderes Ziel? Damit wird ein Abweichen
vom jetzt gültigen Script signalisiert.
 Erweiterung: Wird die Handlung durch die handelnde Person mit Absicht erweitert?
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
110
Verkettung von einzelnen Abweichungen
Folgende Abläufe sind typisch:





Hindernis – Rezept – Erfolg
Hindernis – Rezept – Mißerfolg – Rezept – Mißerfolg - ...
Hindernis – Rezept – Mißerfolg – Reaktion
Hindernis – Rezept – Mißerfolg – Reaktion - Ablenkung
Fehler – Wiederholung – Erfolg
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
111
Beispiele für Abweichungen vom Restaurant-Script
John went to a restaurant.
He sat down.
He discovered he didn’t have his magnifying glass.
He asked the waitress to read him the menu.
She agreed.
John went to a restaurant.
He odered a beer.
The weather was rather poor.
John went to a restaurant.
He sat down and signaled the waitress.
He got mad.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Computerlinguistik
112
He left.
Uwe Quasthoff, Universität Leipzig, Institut für Informatik
WS 99/00
Herunterladen