Computerlinguistik

Werbung
Skript
Computerlinguistik
Prof. Dr. phil. Dr. rer. nat. habil. M. Schenke
Inhaltsverzeichnis
1
Einleitung in die Linguistik
6
2
Einleitung in die Computerlinguistik
8
3
Geschichte der Computerlinguistik
10
4
Formale Sprachen und Grammatiken
11
5
6
4.1
Formale Sprachen
11
4.2
Grammatiken
12
4.3
Ableitungen
15
4.4
Ableitungsbäume
17
4.5
Mehrdeutigkeit
19
Parsing
24
5.1
Backtrack-Parsing
24
5.2
Chart-Parsing
27
Lexikalisch Funktionale Grammatik (LFG)
32
6.1
Defizite von kontextfreien Grammatiken
33
6.2
F-Strukturen
34
6.3
Wohlgeformtheit von F-Strukturen
35
6.4
Bildung von F-Strukturen zu grammatischen Strukturen
38
6.5
Fallstudie „das kleine grüne männchen fliegt die rakete zu dem fernen stern“
44
7
Teildisziplinen der Computerlinguistik
53
8
Teile der Grammatik
54
9
Darstellung durch endliche Automaten
55
10
Ferdinand de Saussure
55
11
Zeichentheorie C.S. Peirce
56
12
Formen von Ambiguitäten
56
13
Einführung von Syntaktischen Variablen
57
14
Pragmatik
59
14.1
15
Informationsgehalt nach Kolmogoroff
Allgemeine Anwendungen
60
61
15.1
Sprache zu Text
61
15.2
Texterzeugung
61
15.3
Übersetzung von Texten
61
15.4
Textkorrekturen
61
6
Einleitung in die
Computerlinguistik
1
Einleitung in die Linguistik
Teilgebiete der Linguistik
-
Phonetik / Phonologie
↳
Phonetik: Untersuchung von Lauten (Physik)
↳
Phonologie: Klassifizierung von Lauten und Untersuchung
↳
Artikulationsort
↳
Artikulationsart:
Plosiv,
Friktiv,
Affrikate,
Stimmlos/Stimmhaft
↳
Phonem: kleinste bedeutungsunterschiedende Einheit der
Sprache
↳
Minimalpaare: zwei sprachliche Zeichen, die sich durch eine
Einheit unterscheiden (z.B. Kopf <-> Zopf)
↳
Phonem ist eine Äquivalenzklasse von Phonen
↳
Einzelne Elemente eine Äquivalenzklasse (also eines Phonems)
heißen Allophone
-
↳
Es gibt freie Varianten der Allophone r <-> ň
↳
Es gibt gebundene Varianten der Allophone v <-> χ
Morphologie
↳
Grammatische Formenlehre
↳
1. Flexionsmorphologie: Bedeutung der Worte
↳
2. Derivationsmorphologie: Neubildung von Worten
↳
Morphem: kleinste bedeutungstragende Einheit
-
Lexik
-
Syntax
-
Semantik
-
Pragmatik
Sprachakte (nach R. Jakobson)
Essentielle Bestandteile sprachlicher Kommunikation
7
Gegenstand
Information,
referentiell
Sprache
metasprachlich
Sender
Kanal
Empfänger
(Sprecher)
(Medium)
(Hörer)
emotiv
phatisch
appellativ
Nachricht
poetisch
Abbildung 1: Sprachliche Funktionen
8
2
Einleitung in die Computerlinguistik
Computerlinguistik wird heutzutage in fast allen Lebensbereichen genutzt:
direkt am Computer, im Smartphone, bei automatischen Telefonannahmen
oder bei Servicehotlines. Computerlinguistik ein Gebiet, bei dem sich vor allem
drei Bereiche überschneiden: Linguistik, Informatik und Mathematik. Die
Linguistik,
welche
Sprache
allgemein
untersucht,
liefert
dabei
das
Grundthema, die unter Umständen tief verborgenen Strukturen in Sprachen,
die Mathematik liefert die Formalisierung dieser Strukturen, auf der dann die
Informatik aufbaut, um Algorithmen zur automatischen Verarbeitung zu
erstellen.
Man muss also die Kluft zwischen einer nicht formal definierten natürlichen
Sprache und einer formal definierten Sprache, also einem mathematischen
Objekt, überbrücken. Und nur mit mathematischen Objekten kann ein
Computer ja umgehen. Dabei steht man schon vom Grundsatz her vor
verschiedenen Problemen:
-
Der Bestand einer natürlichen Sprache ist über die Zeit nicht konstant
sondern verändert sich. Das sollten formale Sprachen nicht tun.
-
Der Bestand einer natürlichen Sprache lässt sich auch zu einem festen
Zeitpunkt nicht mathematisch präzise definieren.
-
In natürlichen Sprachen gibt es viele verschieden Varietäten: Dialekte,
Soziolekte, Stilebenen … . Diese lassen sich nur schwer mathematisch
präzise beschreiben.
-
Die Interpretation einer sprachlichen Äußerung ist abhängig von sehr
komplexen Kontexten. Im Prinzip ist hier das gesamte Weltwissen
erforderlich.
Ein Problem in der Computerlinguistik, gerade für Anfänger, rührt von ihrer
Interdisziplinarität
her:
Oft
werden
Begriffe
in
unterschiedlichen
Wissenschaften unterschiedlich verwendet. Es ist also immer eine genaue
Begriffsbestimmung nötig. So bedeutet beispielsweise ein „Zeichen“ in der
theoretischen Informatik schlicht ein Element eines Alphabets (einer
endlichen Menge). In der Linguistik wird jedoch, zurückgehend auf die
9
Zeichentheorie von C. S. Pierce, Wert auf die Einheit von Ausdruck und Inhalt
gelegt.
10
Geschichte der
Computerlinguistik
3
Geschichte der Computerlinguistik
Die ersten Schritte in Richtung auf eine Computerlinguistik wurden in den
20er und 30er Jahren des vergangenen Jahrhunderts gemacht. Ursprünglich
wurde bei Rechenmaschinen lediglich an numerische Probleme
gedacht,
allerdings erkannte man schnell das Potential auch für rein symbolische
Verarbeitungen. In der Cl wurde besonders dieser Weg gegangen.
Bereits in den 50er Jahren wurde versprochen, dass es bald möglich sein
werde, einen Text automatisch in eine andere Sprache zu übersetzen. Dass
dies nicht so einfach ist, wie es auf den ersten Blick zu sein scheint, zeigen
viele Interferenzfehler; diese können auf allen Ebenen der Sprache auftreten.
Das nachfolgende Beispiel illustriert einen idomatischen Interferenzfehler:
Deutsch →
Englisch →
Deutsch
Man sieht den Wald vor
lauter Bäumen nicht.
You can not see the forest
for the trees.
Sie können nicht sehen den
Wald vor Bäumen.
Seit den 70er Jahren wird intensiv an solchen Übersetzungsproblemen
geforscht, bisher ohne eine konkrete allgemeine Lösung. Das liegt einmal an
der Verschiedenheit der Strukturmuster in unterschiedlichen Sprachen.
Zweitens sind insbesondere die Semantik und Pragmatik für Computer nur
schwer umfassend formal zu behandeln.
Allerdings gibt es für einige begrenzte Gebiete durchaus automatische
Übersetzungen, die auch funktionsfähig sind. Das gilt insbesondere für Texte
aus
nur
einem
einzelnen
fest umgrenzten Bereich.
Wetterberichte
beispielsweise können schon sehr gut automatisch korrekt übersetzt werden
und werden auch unterstützend bei der Humanübersetzung verwendet.
11
4
Formale Sprachen und Grammatiken
Seit dem Altertum werden Sprachen und ihre Regeln und Strukturen durch
Grammatiken beschrieben. Diese werden meist als Krücken zum Erlernen
Formale Sprachen und
Grammatiken
einer Sprache betrachtet, derer man eine Zeitlang bedarf, um sie dann
irgendwann zu vergessen, sich ihrer dann entledigt und sie allenfalls noch
einmal zur Entscheidung von Zweifelsfällen heranzieht. Dabei dient eine
Grammatik meist nur der Beschreibung einer Sprache. Ob es so etwas wie
normative Grammatiken überhaupt geben sollte, ist keine philologische
sondern eher eine ideologische Frage. Jedenfalls wird durch die Verwendung
von Grammatiken ein entscheidender Schritt getan. Es wird nicht mehr eine
natürliche Sprache betrachtet sondern letztlich ein mathematisches Objekt:
die Menge der sprachlichen Äußerungen, die der Grammatik genügen. Solche
Mengen werden auch als formale Sprachen bezeichnet.
Formale Sprachen und Grammatiken sind die Grundlagen, die in diesem Skript
zunächst behandelt werden sollen.
4.1 Formale Sprachen
Formale Sprachen sind mathematische Modelle, die als Abstraktion für eine
Sprache, mathematisch: eine Wortmenge, stehen. Dadurch sind sie einer
Verarbeitung auf einem Computer zugänglich. Zu den formalen Sprachen
zählen vor allem Computersprachen aber auch Abstraktionen, wie sie in der
Computerlinguistik behandelt werden.
Werden natürliche Sprachen durch einen Computer bearbeitet, so hat die
Verwendung formaler Sprachen entscheidende Vorteile:
-
exakte Definition von zulässigen Ausdrücken und ihrer Bedeutung,
-
nur sehr beschränkt kontextabhänige Bedeutung (der formalen
Darstelllung),
-
leichte Verarbeitung durch konkrete Regeln.
Dies ermöglicht erst die präzise Verarbeitung natürlicher Sprachen, genauer:
ihrer formalen Darstelllung. Unter diesen Gesichtspunkten ist es notwendig,
einige grundlegende Begriffe zu klären, die im künftigen immer wieder
erwähnt werden.
Formale Sprachen
12
Definition
Definition:
Ein Alphabet ist eine endliche Menge. Seine Elemente werden Buchstaben oder
Zeichen genannt.
Ein Wort über einem Alphabet A ist eine endliche Folge von Elementen von A,
auch Zeichenkette genannt.
Eine Sprache über einem Alphabet A ist eine Menge von Wörtern über A.
Zunächst wird immer die Syntax einer formalen Sprache definiert, wenn nötig
später auch eine dazu passende Semantik. Eine Syntaxdefinition erfolgt durch
eine Festsetzung, welche Zeichenketten in einer Sprache zulässig sind. Man
spricht dann von Wohlgeformtheit.
Eine Definition der Wohlgeformtheit kann beispielsweise induktiv erfolgen
oder durch die Definition einer Ableitungsrelation.
Zu jeder formalen Sprache gehört ein Alphabet, aus dem die zulässigen
Zeichenketten gebildet werden. In der folgenden Tabelle werden einige
konkrete Beispiele hierfür gezeigt.
Mathematik
C++
Griechische Buchstaben , , 
In dieser Sprache nicht zulässig (kein
Bestandteil des Alphabets)
Ziffern (0,1,2, … ,9)
Zulässig
Buchstaben (a,b,…,x,y,z; A,B, …,X,Y,Z)
Zulässig
Sonderzeichen
Tabelle 4-1: kurzes Beispiel von Alphabeten
Die Tabelle ist nicht vollständig und die Unterschiede zwischen den
Sprachtypen sind wesentlich gravierender.
4.2 Grammatiken
Grammatiken
Formale Sprachen können durch formale Grammatiken beschrieben werden.
Dabei existiert eine endliche Menge von Regeln, mit der eine abzählbare
Menge von Wörtern erzeugt werden kann, welche dann wiederum die Sprache
bilden. Eine erzeugte Zeichenkette gehört dann der durch die Grammatik G
beschriebenen Sprache L(G) an, eine nicht erzeugbare Zeichenkette nicht.
13
Dabei gilt folgende
Definition:
Eine Grammatik ist ein 4-Tupel G = (N, T, P, V) mit:
N ist eine endliche Menge (Nichtterminale)
T ist eine endliche Menge (Terminale) mit N ∩ T = ∅
V ∈ N (Startsymbol)
P ⊆ (N ∪ T)∗ x (N ∪ T)∗ (Produktionsregeln)
Grammatiken
eines
so
abstrakten
Typs
werden
auch
als
Phrasenstrukturgrammatiken bezeichnet. Für die formale Beschreibung von
„Wörtern“ von L(G) wird hier eine abstrakte Phrasenstruktur eingesetzt.
Als einleitendes Beispiel soll der Satz: „Der Mann sieht die Frau.“1 in diese
Struktur
zerlegt
werden.
Die
nachfolgende
Grafik
zeigt
die
erste
Unterteilungsmöglichkeit des Satzes in eine Phrasenstruktur.
Abbildung 2: zerlegter Satz in Phrasen
Die Grammatik soll dann die folgende Struktur haben:
N={S, NP, VP, N, V, Det}. Dabei bedeuten
S- Satz, NP- Nominalphrase, VP- Verbalphrase,
N- Nomen, V- Verb, Det- Determinator
T={mann, frau, sieht, der, die}
V=S
P={SNP.VP, NPDet.N, VPV.NP, Nmann, Nfrau, Vsieht, Detder,
Detdie}
1
Damit eine möglichst einfache Betrachtung erreicht werden kann, werden künftig in allen
Beispielen durchgängig in Terminalen nur kleine Buchstaben verwendet. Nichtterminale
beginnen mit einem Großbuchstaben.
Beispiel
14
Kontextfreie Grammatik
In der Comptuerlinguistik wird mit Phrasenstrukturgrammatiken einer
besonderen Art gearbeitet: Eine Grammatik heißt kontextfreie Grammatik,
wenn ihre Produktionsregeln eine eingeschränkte Form haben.
Definition:
Eine kontextfreie Grammatik ist eine Grammatik
𝐺 = (𝑁, 𝑇, 𝑃, 𝑉) mit der zusätzlichen Bedingung
𝑃 ⊆ 𝑁 𝑥 (𝑁𝑇)∗ .
Erläuterung zur Grammatik:
T bildet die Menge der Terminale. Das sind die Zeichen, aus denen die Wörter
gebildet werden. Ein Terminalsymbol kann innerhalb einer Produktionsregel
nicht weiter zerlegt werden. Um Verwirrungen im Zusammenhang mit den
Begriffen
“Satz“,
„Buchstabe”
oder
Wort
der
natürlichen
Sprache
auszuschließen, sei hier darauf hingewiesen, dass es aufgrund der
thematischen Überlagerungen zwischen der Computer-Linguistik und der
natürlichen Sprache
bedeutungsfremde Überschneidungen gibt. Die
Buchstaben sind in diesem Zusammenhang die Wörter des Satzes: der, mann,
sieht, die, frau. Dabei bildet also etwa „der“ einen einzigen Buchstaben. Der
gesamte Satz ist in der Computer-Linguistik als ein Wort zu verstehen. Die
Grammatik beschreibt also streng genommen in Hinblick auf die ComputerLinguistik nun nicht wie man Sätze bildet, sondern wie man alle Wörter einer
Sprache erzeugen kann.
Die Menge N der Nichtterminalen sind sprachlich abstraktere Hilfskonstrukte
der Grammatik, die für Strukturen der Sprache stehen. Diese werden über eine
Produktionsregel nach und nach durch Terminale ersetzt. Innerhalb eines
Wortes finden sich daher keine Nichtterminale wieder. Aus dem Beispiel aus
Error! Reference source not found. lassen sich folgende Nichtterminale
bilden:
N={Satz, NP, VP, Det, N,V}
Die Produktionsregeln bestimmen die Strukturen. So sagt etwa die obige Regel
SNP VP, dass ein S (Satz) aus einer NP (Nominalphrase) und einer VP
(Verbalphrase) besteht.
15
Das Startsymbol der Beispielgrammatik ist S. Hier wird bestimmt, als was das
zu untersuchende Konstrukt analysiert werden soll, im Beispiel also als ein S,
ein Satz.
In der Computerlinguistik wird oft sogar mit Grammatiken gearbeitet, bei
Bemerkung
denen P eine noch weiter eingeschränkte Form hat:
𝑃 ⊆ 𝑁𝑥𝑁 ∗ ∪ 𝑁𝑥𝑇.
Dabei stehen Regeln der Form 𝑁𝑥𝑁 ∗ für eine Struktur und Regeln der Form
𝑁𝑥𝑇 beschreiben das Wortinventar.
4.3 Ableitungen
Grammatiken
Die formale Ableitungsrelation  beruht auf den Produktionsregeln:
Definition: Ein Wort 𝑤1  (N ∪ T)∗ kann in einem Schritt in ein 𝑤2  (N ∪
T)∗ abgeleitet werden, in Zeichen: 𝑤1  𝑤2, wenn 𝑤1 ein Nichtterminales N
und P eine Produktion der Form Nw enthalten, so dass 𝑤2 sich von 𝑤1 nur
dadurch unterscheidet, dass N durch w ersetzt wurde.
Will man über Ableitungen mit mehr als einem Schritt reden, so muss mit der
Relation * , der reflexiven, transitiven Hülle von  gearbeitet werden.
Die
Anwendung
einer
kontextfreien
Produktionsregel
bei
einem
Ableitungsschritt hängt also nur davon ab, ob die linke Seite der Regel, welche
ja nur aus einem Nichtterminalen besteht, in der zu bearbeitenden
Zeichenkette vorkommt. Der Kontext des Nichtterminalen spielt dabei keine
Rolle. Das erklärt den Namen „kontextfrei“.
Aus der Anwendung der Produktionsregel würde z.B. das Wort: „der mann
sieht die frau“ aus dem Anfangssymbol S folgendermaßen abgeleitet werden
können:
(*)
S  NP. VP  Det. N.VP  der. N. VP  der. mann. VP  der. mann.V.
NP  der. mann. sieht. NP  der. mann. sieht. Det. N  der. mann. sieht. die.
N  der. mann. sieht. die. frau
16
Auf diese Weise definiert jede Grammatik eine Sprache, wobei wir uns hier nur
für kontextfreie Grammatiken interessieren..
Definition: Sei G eine kontextfreie Grammatik. Die Sprache der Grammatik ist
dann definiert durch
L(G) = {w ∈ T*| V * w}.
L(G) beschreibt also die Menge aller Wörter, die sich auf diese Weise mit Hilfe
der Produktionen von G ableiten lassen.
Übungsaufgabe: Überlegen Sie sich, dass sich jede kontextfreie Sprache auch
durch eine Grammatik mit der eingeschränkten Form 𝑃 ⊆ 𝑁𝑥𝑁 ∗ ∪
𝑁𝑥𝑇 beschreiben lässt.
Wie man leicht sieht, ist die Ableitung eines Wortes nicht eindeutig. Wir hätten
im Beispiel auch wie folgt vorgehen können:
(**)
S  NP. VP  NP.V. NP  NP.V. Det.N NP.V. Det. frau  NP.V. die.
frau  NP. sieht. die. frau  Det. N. sieht. die. frau  Det. mann. sieht. die.
frau  der. mann. sieht. die. frau
Definition:
Eine
Ableitung
heißt
Linksableitung,
wenn
in
jedem
Ableitungsschritt das am weitesten links stehende Nichtterminale ersetzt
wird. Entsprechend wird eine Rechtsableitung definiert.
Neben den eben gesehenen Beispielen einer Links- und einer Rechtsableitung
gibt es in der Regel weitere Beispiele für Ableitungen eines Wortes mit Hilfe
einer Grammatik.
Übungsaufgabe: Finden Sie weitere Beispiele für Ableitungen des Wortes
„der mann sieht die frau“.
17
4.4 Ableitungsbäume
Die Ableitung eines Wortes mit Hilfe einer kontextfreien Grammatik wird im
Ableitungsbaum
allgemeinen durch einen Ableitungsbaum beschrieben. Ableitungsbäume sind
dabei nicht einem Wort zugeordnet sondern der Ableitung des Wortes.
Bäume sind zyklenfreie zusammenhängende Graphen. Ein ausgezeichneter
Knoten, in Abbildungen meistens der oberste, wird Wurzel genannt. Von der
Wurzel gibt es zu jedem Knoten genau einen Weg.
Ableitungsbäume werden folgendermaßen von der Wurzel aus konstruiert:
Sei
S=w0  w1  …  wn=w
eine Ableitung des Wortes w. Jedem wi wird induktiv ein Baum Bi zugeordnet.
Als Invariante gelte dabei, dass das Wort wi in den Blättern von Bi von links
nach rechts zu lesen ist.
Der Baum B0 besteht nur aus dem Startsymbol S.
Sei schon Bi konstruiert. Der Übergang wi  wi+1 wird dadurch realisiert, dass
wi ein Nichtterminales N enthält und es eine Produktionsregel
Nx1…xk
gibt, so dass wi+1 durch die entsprechende Ersetzung entsteht Dann entstehe Bi
aus Bi+1 dadurch, dass x1,…,xk als neue Knoten hinzugefügt werden mit einer
Kante vom entsprechenden N zu jedem der neuen xi. Entsprechend der
Konstruktion ist damit die Invariante aufrecht erhalten.
Der Prozess endet, sobald sich in den Blättern keine Nichtterminalen mehr
finden und daher keine Produktionsregeln mehr angewendet werden können.
Für Ableitungsbäume gilt gemäß Konstruktion generell:
1. Innere Knoten sind Nichtterminale.
2. Blätter sind Terminale.
3. Der analysierte Ausdruck wird in den Blättern von links nach rechts
gelesen.
Bemerkung
18
S
NP
VP
Det
N
V
der
mann
sieht
NP
Det
N
die
frau
Abbildung 3: Ableitungsbaum
Wird bei der Konstruktion des Ableitungsbaumes gemäß der Linksableitung
(*) vorgegangen, so entstehen die Knoten in Abbildung 1
in der Reihenfolge
eines „left-first-Durchlaufs“. Wie der aufmerksame Leser unschwer feststellt,
tritt bei dieser Konstruktion eines Ableitungsbaumes ein gewisser
Nichtdeterminismus auf. Wir hätten aber auch in der Reihenfolge der
Rechtsableitung (**) vorgehen können. Dann wären die Konten in Abbildung 1
in der Reihenfolge eines „right-first-Durchlaufs“ entstanden. Bei anderen
Ableitungsreihenfolgen wären auch die Knoten des Baumes in anderer
Reihenfolge entstanden. In jedem Falle wäre der Baum, den man als Ergebnis
erhält aber der gleiche.
Übungsaufgabe: Machen Sie sich genau klar, wieso diese Form des
Nichtdeterminismus, bei der nur die Reihenfolge der Ableitungsschritte sich
ändert, bei kontextfreien Grammatiken (im Gegensatz zu allgemeineren
Grammatikklassen) keine Rolle spielt. Genau hier liegt der Grund, dass
Ableitungsbäume in den allgemeineren Klassen keine Rolle spielen.
19
4.5 Mehrdeutigkeit
Wir halten einige Ergebnisse bezüglich des Nichtdeterminismus bei
Ableitungsbäumen fest:
1. Jeder Ableitung entspricht genau ein Baum.
2. Jedem Baum entsprechen im allgemeinen mehrere Ableitungen, bei
denen die gleichen Ableitungsschritte, allerdings in unterschiedlicher
Reihenfolge, angewendet werden.
3. Jedem Baum entspricht genau eine Links- und genau eine
Rechtsableitung.
4. Warnung: Es kann aber auch zwei oder mehr verschiedene Bäume für
den gleichen Ausdruck geben, dann aber auch für jeden Baum eine
Links- und eine Rechtsableitung.
5. Zwei Ableitungsbäume für einen Ausdruck sind unerwünscht
6. Vermeidungsstrategien: im Beispiel Punkt vor Strichrechnung oder
Anpassung der Grammatik
7. Diese Strategien funktionieren in natürlichen Sprachen häufig nicht
Zwei Ableitungsbäume für einen Ausdruck weisen auf unterschiedliche
Lesarten hin und sind daher unerwünscht. Das soll jetzt für ein anschauliches
Beispiel aus der Arithmetik illustriert werden:
Beispiel:
Arithmetische Ausdrücke können durch die folgende Grammatik erzeugt
werden:
Exp  Zahl |Variable |(Exp) | Exp op Exp
op  + | - | * | /
Streng genommen, müsste eine leicht erweiterte Version betrachtet werden, in
der auch noch erklärt wird, was als Zahlen und Variablen zulässig ist. Das ist in
dieser Form in der Praxis (Compilerbau) aber nicht üblich.
Der Ausdruck 1+2∙3 kann zwei Lesarten haben, die sich in zwei
Ableitungsbäumen zeigen:
Der erste Ableitungsbaum rechtfertigt sich durch die Linksableitung
Bemerkung
20
Exp  Exp op Exp  Exp op Exp op Exp  Zahl op Exp op Exp  1 op Exp op
Exp
Exp
Exp
op
Exp
Zahl
+
Zahl
1
Exp
op
Zahl
∙
3
2
Abbildung 2: Ableitungsbaum
Exp 1 + Exp op Exp  1 + Zahl op Exp  1 + 2 op Exp  1 + 2 * Exp 1 + 2 *
Zahl 1 + 2 * 3
Der zweite Ableitungsbaum entspricht einer anderen Linksableitung:
Exp
Exp
op
Zahl
+
1
Exp
Exp
Exp
Zahl
op
Zahl
2
∙
3
Abbildung 3: Ableitungsbaum
Exp  Exp op Exp  Zahl op Exp  1 op Exp 1 + Exp 1 + Exp op Exp 
1 + Zahl op Exp 1 + 2 op Exp  1 + 2 * Exp  1 + 2 * Zahl 1 + 2 * 3
Warum ist diese Mehrdeutigkeit nun unerwünscht? Die Antwort gibt das
Konzept der „attributierten Grammatik“.
21
Eine attributierte Grammatik ist eine kontextfreie Grammatik, bei der
Nichtterminale um einen Wert, das Attribut, erweitert sind. Zusätzlich gibt es
Regeln und Bedingungen für die Berechnung dieser Attribute. Für die Art, wie
Attributberechnungen erfolgen können, gibt es ausgefeilte Methoden im
Compilerbau. Wir werden uns für die Computerlinguistik in diesem und in
späteren Kapiteln auf den (einfachen) Fall beschränken, dass die Auswertung
bottom up, also induktiv, erfolgt.2
Der Induktionsanfang wird dadurch gelegt, dass der Attributwert für die
relevanten Blätter bekannt ist und es Regeln gibt, mit deren Hilfe sich der
Attributwert des Vaterknotens aus den Werten seiner Kinderknoten errechnen
lässt. In Abbildung 5 ist der Ableitungsbaum aus Abbildung 4 um ein in rot
gehaltenes Attribut, den Wert, erweitert. Hier handelt es sich um ein
Exp/9
Exp/3
Exp/1
Zahl/1
op/*
op/+
Exp/2
+/+
Zahl/2
1/1
∙/*
Exp/3
Zahl/3
3/3
2/2
Abbildung 4: Ableitungsbaum mit Attributen
synthetisches Attribut.
Übungsaufgabe: Wie sehen die Attributwerte für den Ableitungsbaum aus
Abbildung 1 aus?
Es ergeben sich also, abhängig von den Ableitungsbäumen, zwei verschiedene
Attributwerte für die Wurzel und damit für den gesamten arithmetischen
Ausdruck. Im täglichen Leben wird dies durch allgemein akzeptierte Regeln
2
Man spricht hier von synthetischen Attributen und S-attributierten Grammatiken. Eine
umfangreichere Klasse sind die im Compilerbau häufig benutzten L-attributierten
Grammatiken. Bei diesen ist eine reine bottom-up-Bearbeitung nicht mehr möglich.
22
nach Möglichkeit umgangen, es wird also intuitiv der „richtige“ Baum
ausgewählt . Beim ersten Ableitungsbaum ist etwa die mathematische Regel
„Punktrechnung geht vor Strichrechnung“ missachtet worden.
Was ist nun bei der Mehrdeutigkeit anders als beim Nichtdeterminismus des
vorhergehenden Unterkapitels? Der Vergleich der beiden Linksableitungen für
den arithmetischen Ausdruck 1+2*3 gibt die Antwort:
Beim ersten Schritt Exp  Exp op Exp sind beide Ableitungen noch identisch,
aber im folgenden Schritt wird eine Ableitung durchgeführt, die bei der jeweils
anderen Linksableitung, nie, auch nicht zu einem späteren Zeitpunkt,
vorkommt. Der Schritt Exp op Exp  Exp op Exp op Exp in der ersten
Ableitung wird dadurch bewirkt, dass das linke Exp – wir sind in einer
Linksableitung! – durch den Ausdruck Exp op Exp ersetzt wird. Bei der
zweiten Ableitung wird an dieser Stelle die Regel Exp  Zahl angewandt, was
ausschließt, dass für das erste Exp des Ausdrucks jemals die Regel Exp  Exp
op Exp benutzt werden kann, wie bei der ersten Ableitung. Also können die
beiden Ableitungen sich nicht nur in der Reihenfolge der Ableitungsschritte
unterscheiden, sondern sogar in Art der Ableitungsschritte. Dem spricht nicht
entgegen, dass auch in der zweiten Ableitung einmal die Regel Exp  Exp op
Exp herangezogen wird. Sie wird aber auf das zweite (und nicht das erste)
Vorkommen des Nichtterminalen Exp nach dem ersten Ableitungsschritt
angewandt.
Man steht also nach dem ersten Schritt Exp  Exp op Exp vor der zunächst
nur schwer zu lösenden aber mit gravierenden Konsequenzen behafteten
Frage, ob das linke Exp mit der Regel Exp  Exp op Exp oder mit der Regel
Exp  Zahl behandelt werden soll. Auch hier tritt also ein gewisser
Nichtdeterminismus auf.
Bemerkung:
Der Umgang mit dieser Art des Nichtdeterminismus unterscheidet die
Syntaxanalyse bei formalen und bei natürlichen Sprachen ganz erheblich:
1. Formale Sprachen sind setzend („normativ“) Es kann schon bei der
Definition etwa einer Programmiersprache von Anfang an darauf
geachtet werden, dass es eine Grammatik mit den gewünschten
Eigenschaften, beispielsweise der Abwesenheit von Mehrdeutigkeit,
tatsächlich gibt.
23
2. Bei den beschreibenden („deskriptiven“) Grammatiken für natürliche
Sprachen ist ein solcher Ansatz nicht möglich. Im allgemeinen ist zum
Beispiel Mehrdeutigkeit einer Grammatik gar nicht zu vermeiden. Es
gibt nun einmal für manche Sätze syntaktisch mehrere Lesarten.
Entsprechend gibt es verschiedene Strategien für den Umgang mit diesem
Nichtdeterminismus:
1. Bei formalen Sprachen wird eine Sprache gemeinsam mit einer
angemessenen Grammatik entworfen. Im Compilerbau gibt es
beispielsweise die LR(n) – Grammatiken, mit deren Hilfe durch
Betrachtung von n Eingabeelementen Mehrdeutigkeit vermieden
werden kann. S-Attribute können vernünftig ausgewertet werden.
Sollen sogar L-Attribute gut ausgewertet werden können, so müssen
die einschränkenderen LL(n) – Grammatiken verwendet werden.
2. Bei formalen Sprachen könnte der Nichtdeterminismus einfach
ignoriert und die richtige Produktion einfach geraten werden. Das
dann erforderliche Backtracking würde aber zu erheblichen Kosten im
Verlauf der praktischen Analyse führen. Ein sinnvolles Ziel ist daher
die Verringerung dieser Kosten durch intelligentere Datenstrukturen,
zum Beispiel die im nächsten Kapitel eingeführten Charts.
24
5
Parsing
Lat. Pars = Teil
Parsing
Parsing ist im Allgemeinen eine automatische Zerlegung von komplexen
Zeichenketten nach vorgegebenen Mustern.
Alle Parsing Verfahren haben dabei die folgenden Eigenschaften gemeinsam:
1. Eingabe:
↳
Formale
Beschreibung einer Sprache, meist eine
(oft
kontextfreie) Grammatik und
↳
ein sprachlicher Ausdruck, welcher zerlegt werden soll.
2. Ausgabe:
↳
Ja/Nein
als Antwort auf die Frage, ob die gegebene
Zeichenkette zur Sprache gehört oder nicht. In diesem Falle
spricht man auch von einem „recogniser“. Oder:
↳
eine Datenstruktur, etwa ein Ableitungsbaum, die zur
Grundlage weiterer Verarbeitungsschritte wird.
Ein erster Arbeitsschritt ist es, die gegebene Zeichenkette in ihre elementaren
Bestandteile, oft „token“ genannt, zu zerlegen und die gefundenen
Bestandteile möglichst schon zu klassifizieren.
Beispiel: Der Ausdruck „der mann sieht die frau“ ist für den Computer
zunächst eine einzige große Zeichenkette, die elementaren Teilzeichenketten
„der“, „mann“, „sieht“, „die“, „ frau“ zerlegt werden muss. Diese Aufgabe ist nicht
so einfach, wie es auf den ersten Blick scheinen mag. Denn das Leerzeichen ist
nicht der einzige Trenner und die Struktur der Trennzeichen kann kompliziert
sein. Ein Programm, das die Zerlegung in token bewirkt, wird „Lexer“ genannt.
Lexer arbeiten meist mit Hilfe von endlichen Automaten. Der Komplexität der
Arbeit eines Lexers entspricht es, ihn dann nach Möglichkeit auch schon zu
einer Klassifizierung der token zu verwenden.
5.1 Backtrack-Parsing
Beim Backtrack-Parsing wird zu jedem Zeitpunkt auf einer Datenstruktur der
Form (w1, w2) gearbeitet. Dabei beschreiben 𝑤1 ∈ (𝑇 ∪ 𝑁)∗ als was der Rest
25
der Eingabe analysiert werden soll und 𝑤2 ∈ 𝑇 ∗ das entsprechende Endstück
der Eingabe.
Die initiale Datenstruktur hat die Form (S,w). Dabei sind S das Startsymbol der
Grammatik und w das zu untersuchende Eingabewort.
Im Algorithmus werden dann drei Schritte immer wieder vorgenommen.
1. EXPAND
↳
Falls w1 mit einem Nichtterminalen N beginnt, wird N zu der
rechten Seite w einer Grammatik-Produktion der Form N  w
expandiert. Hier findet also ein Raten statt, welche der
Grammatik-Produktionen genommen werden muss, falls es
mehrere mit der linken Seite N gibt.
2. SCAN
↳
Falls w1 mit einem Terminalen T beginnt, wird T mit dem
ersten Symbol des Eingaberestes w2 verglichen. Steht auch dort
ein T, werden die beiden initialen Symbole T gestrichen. Steht
dort ein anderes Terminales, so wird ein Backtrack nötig.
3. Backtrack
↳
Es werden alle Schritte ungültig gemacht bis zum letzten
EXPAND, bei dem willkürlich eine Grammatik-Produktion der
Form N  w geraten und expandiert wurde. Hier wird also
einfach vermutet, dass beim letzten Mal falsch geraten wurde.
Wurden noch nicht alle Grammatik-Produktionen der Form N
 w ausprobiert, kann mit einer anderen derartigen
Grammatik-Produktion fortgefahren werden. Sonst muss noch
weiter zu einer früheren Stelle zurückgegangen werden, an der
noch die Auswahl einer bisher ungenutzten Regel möglich ist.
Das Verfahren kann mit zwei Ergebnissen enden:
1. Beim Backtrack wird keine vorhergehende Stelle gefunden, bei der
noch weitere bisher ungenutzte Produktionsregeln vorhanden sind.
Dann ist w kein Element der durch die Grammatik beschriebenen
Sprache.
26
2. Es wird die Konfiguration (ε, ε), also auf beiden Seiten das leere Wort,
erreicht. Dann ist das Wort w in der Sprache enthalten.
Es ist leicht, den Algorithmus so auszubauen, dass nebenher ein
Ableitungsbaum konstruiert wird, falls einer existiert.
Beispiel
Beispiel: Im folgenden wird davon ausgegangen, dass für die möglichen Regeln
eine feste Reihenfolge vorgegeben ist. Die EXPAND-Schritte sollen immer
genauso abgearbeitet werden.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
(S, der mann sieht die frau)
(NP VP, der mann sieht die frau)
(Det N VP, der mann sieht die frau)
(der N VP, der mann sieht die frau)
(N VP, mann sieht die frau)
(mann VP, sieht die frau)
(VP, sieht die frau)
(V NP, sieht die frau)
(sieht NP, sieht die frau)
(NP, die frau)
(Det N, die frau)
(der N, die frau)
(die N, die frau)
(N, frau)
(mann, frau)
(frau, frau)
(ε,ε)
EXPAND
EXPAND
EXPAND
SCAN
EXPAND
SCAN
EXPAND
EXPAND
SCAN
EXPAND
EXPAND
kein SCAN, backtrack
SCAN
EXPAND
kein SCAN, backtrack
SCAN
Endkonfiguration
Tabelle 5-1: Beispiel Backtrack-Parsing
Damit ist algorithmisch nachgewiesen, dass „der mann sieht die frau“  L(G)
ist.
27
5.2 Chart-Parsing
Um Mehrfachanalysen eines Satzteiles zu vermeiden, hat man das Chart-
Chart-Parsing
Parsing entwickelt. Das Chart-Parsingverfahren zeichnet sich dadurch aus,
dass es sich bereits analysierte Teile eines Satzes merkt.
Definition:
Definition
1. Ein Chart ist eine endliche Folge von Items.
2. Ein Item ist eine Struktur 𝑛1 𝑛2 𝑤1 → 𝑤2 ∙ 𝑤3 . Dabei sind 𝑛1 𝑛2 ∈ 𝑁0 ,
𝑛1 ≤ 𝑛2 , 𝑤1 → 𝑤2 𝑤3 ∈ 𝑃.
Die intuitive Bedeutung soll an einem Beispiel erläutert werden:
Bei einer Analyse von „0 der
1
mann
2
sieht
3
die
4
frau 5“ entsteht an einer
Stelle des Algorithmus das Item 𝑛1 𝑛2 𝑤1 → 𝑤2 ∙ 𝑤3 mit 𝑛1 = 0, 𝑛2 = 2. Der
Rest des Items habe die Form 𝑆 → 𝑁𝑃 ∙ 𝑉𝑃. Die Zahlen zeigen an, welche Teile
schon analysiert und bestimmt sind. Der Punkt trennt den schon analysierten
und bestimmten Teil von der Vorhersagekomponente, dem noch spekulativen
Rest. Hier würde das bedeuten, dass die von 0 bis 2 reichende Zeichenkette „0
der
1
mann 2“ bereits bestimmt ist. Und da sich links des Punktes das
Nichtterminale NP befindet, wissen wir auch, als was der Teil von 0 bis 2
analysiert worden ist: als Nominalphrase (NP). Zusätzlich wissen wir: Können
wir den Rest als VP bestimmen (soweit die Spekulation), dann ist das ganze
Konstrukt ein S, ein Satz.
Der am weitesten verbreitete Chart-Parsing- Algorithmus ist der 1970 von Jay
Earley vorgestellte Earley-Algorithmus. Er zeichnet sich besonders dadurch
aus, dass er kein Backtracking nutzt. Es werden zeitgleich alle Alternativen
verfolgt. Am Ende des Parsingvorgangs sind alle alternativen Syntaxanalysen
in der Chart.
Eingabe: Eine kontextfreie Grammatik G, ein Wort W der Länge n
Ausgabe:
ja, wenn W  ℒ(G)
nein sonst
Es ist auch leicht, den Algorithmus so zu modifizieren, dass für den Fall W 
ℒ(G) ein Ableitungsbaum für W ausgegeben wird (oder sogar alle).
Beispiel
28
Zu Anfang stehen Items eines einzigen Typs in der Chart. Dies soll jetzt für die
Zeichenkette „0 der 1 mann 2 sieht 3 die 4 frau 5“ erläutert werden: Diese soll als
ein Satz (S) analysiert werden. Für das Nichtterminale S gibt es hier nur eine
Regel S  NP VP. Zu Anfang ist alles von der 0-ten bis zur 0-ten Stelle
analysiert, also n1 = n2 = 0. Der Punkt steht anfangs ganz links, da noch nichts
sicher analysiert und der weitere Verlauf noch Spekulation ist. Am Anfang gilt
dort also S  ∙ NP VP, und damit wird das Item 0 0 S  ∙ NP VP in die Chart
eingefügt.
Im allgemeinen Fall müssen zum Start alle Items des Typs 0 0 V  ∙ w in die
Chart eingefügt werden. Dabei seien V das Startsymbol der Grammatik und V
 w alle Produktionen mit V als rechter Seite.
Im Wesentlichen besteht der Earley-Algorithmus aus drei Schritten, die immer
in einer geeigneten Reihenfolge wiederholt werden:
-
Expand oderPredict,
-
Scan,
-
Complete.
Der Algorithmus terminiert, wenn ein Item 0 𝑛 𝑉 → 𝑤 ∙ aufgefunden wird.
Alternativ kann auch nach allen Items des Typs 0 𝑛 𝑉 → 𝑤 ∙ gesucht werden.
Dabei seien n die Länge des zu untersuchenden Wortes, V das Startsymbol der
Grammatik und V  w alle Produktionen mit V als rechter Seite.
Diese Schritte des Algorithmus werden anhand eines auch später bedeutenden
Beispiels näher erklärt.
Wir versuchen wieder die Zeichenkette „der mann sieht die frau“ abzuleiten
und zwar mittels einer Grammatik mit dem Startsymbol S und den
Produktionsregeln
𝑆 → 𝑁𝑃 𝑉𝑃,
𝑁𝑃 → 𝐷𝑒𝑡 𝑁 ,
𝑉𝑃 → 𝑉 | 𝑉 𝑁𝑃 ,
𝑉 → 𝑖𝑠𝑠𝑡|𝑠𝑖𝑒ℎ𝑡 ,
𝑁 → 𝑚𝑎𝑛𝑛|𝑓𝑟𝑎𝑢 ,
𝐷𝑒𝑡 → 𝑑𝑒𝑟|𝑑𝑖𝑒.
29
Das Ergebnis des Algorithmus ist die folgende Chart. An der Existenz des
Items 30 ist zu sehen, dass die Ableitung erfolgreich war.
Danach wird
erläutert
1. welches die drei Schritte des Algorithmus genau sind, und
2. wie die Reihenfolge ihrer Anwendung gesteuert wird.
ItemBereich
Nr.
1
0 0
2
0 0
3
0 0
4
0 0
5
0 1
6
0 1
7
1 1
8
1 1
9
1 2
10
0 2
11
0 2
12
2 2
13
2 2
14
2 2
15
2 2
16
2 3
17
2 3
18
2 3
19
0 3
20
3 3
21
3 3
22
3 3
23
3 4
24
3 4
25
4 4
26
4 4
27
4 5
28
3 5
29
2 5
30
0 5
Item
Konstruiert durch
S ∙ NP VP
NP  ∙ Det N
Det  ∙ der
Det  ∙ die
Det  der ∙
NP  Det ∙ N
N  ∙ mann
N  ∙ frau
N  mann ∙
NP  Det N ∙
S  NP ∙ VP
VP  ∙ V
VP  ∙ V NP
V  ∙ isst
V  ∙ sieht
V  sieht ∙
VP  V ∙
VP  V ∙ NP
S  NP VP ∙
NP  ∙ Det N
Det  ∙ der
Det  ∙ die
Det  die ∙
NP  Det ∙ N
N  ∙ mann
N  ∙ frau
N  frau ∙
NP  Det N ∙
VP  V NP ∙
S  NP VP ∙
Initial
Expand 1
Expand 2
Expand 2
Scan 3
Complete 5 + 2
Expand 6
Expand 6
Scan 7
Complete 9+6
Complete 10+1
Expand 11
Expand 11
Expand 12+13
Expand 12+13
Scan 15
Complete 16+12
Complete 16+13
Complete 17+11
Expand 18
Expand 20
Expand 20
Scan 22
Complete 23+20
Expand 24
Expand 24
Scan 26
Complete 27+24
Complete 28+18
Complete 29+19
Tabelle 5-2: Earley-Algorithmus
Die Schritte des Verfahrens:
Verbleibender
Text
der mann sieht die frau
der mann sieht die frau
der mann sieht die frau
der mann sieht die frau
mann sieht die frau
mann sieht die frau
mann sieht die frau
mann sieht die frau
sieht die frau
sieht die frau
sieht die frau
sieht die frau
sieht die frau
sieht die frau
sieht die frau
die frau
die frau
die frau
die frau
die frau
die frau
die frau
frau
frau
frau
frau
ε
ε
ε
ε
30
Expand
Wir brauchen in der Chart ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑋 𝛾
(Predict)
mit 𝛼 ∈ 𝑁, 𝛽 ∈ (𝑁 ∪ 𝑇)∗ , 𝑥 ∈ ℕ, 𝛾 ∈ (𝑁 ∪ 𝑇)∗ und in P muss
es eine Produktionsregel X  δ geben.
Dann können wir zum Chart ein Item der Form n2 n2 X  ∙δ
hinzufügen.
Scan
Wir brauchen in der Chart ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑡 𝛾
mit ni, α, β, γ wie oben und tT; und im zu analysierenden Satz,
muss an Position n2+1 ein t stehen. Dann kann dem Chart ein
Item der Form n1 n2+1 𝛼 → 𝛽 𝑡 ∙ 𝛾 hinzugefügt werden.
Complete
Wir brauchen ein Item der Form n1 n2 𝛼 → 𝛽 ∙ und ein Item der
Form n3 n1 γ  δ ∙ α ε mit γ N, β T, α N, δ, ε  (N ∪ T)*.
Dann kann ein Item der Form n3 n2 γ  δ α ∙ε hinzugefügt
werden.
Der Ablauf des Verfahrens wird wie folgt gesteuert: Es gibt im Verlauf immer
ein aktuelles Item, das zur Produktion neuer Items benutzt wird, die dann
hinten an die Chart gehängt werden. Das Verfahren endet, wenn alle Items
schon zur Konstruktion neuer Items benutzt worden sind und kein neues
aktuelles Item gefunden werden kann.
Anfangs ist das aktuelle Item das Startitem.
In jedem Schritt gibt es drei Möglichkeiten:
1. Falls beim aktuellen Item hinter dem Punkt ein Nichtterminales n
steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑛 𝛾 vorliegt, werden
Expand-Schritte durchgeführt: Für jede Produktionsregel der Form n
 δ wird ein Item der entsprechenden Form angehängt.
2. Falls beim aktuellen Item hinter dem Punkt ein Terminales t steht, also
ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑡 𝛾 vorliegt, wird ein Scan-Schritt
versucht. Findet sich an der Stelle n2+1 im zu analysierenden Wort
ebenfalls ein t, wird ein Item der entsprechenden Form angehängt.
3. Falls beim aktuellen Item hinter dem Punkt nichts mehr steht, also ein
Item der Form n1 n2 𝛼 → 𝛽 ∙ vorliegt, wird ein Complete-Schritt
versucht. Es werden in der Chart Items der Form n3 n1 w1  δ ∙ α w2
gesucht und im Erfolgsfall die entsprechenden Items angehängt.
31
Übungsaufgabe: Wie muss der Algorithmus modifiziert werden, damit nicht
nur eine ja/nein-Entscheidung als Ergebnis herauskommt sondern ein
Ableitungsbaum?
32
6
Lexikalisch Funktionale Grammatik (LFG)
Im Folgenden wählen wir uns zwei wichtige Probleme der Computerlinguistik
aus, die im Prinzip auch mit kontextfreien Grammatiken und dem EarleyAlgorithmus gelöst werden könnten:
1. der Kongruenz,
2. der Subkategorisierung.
Kongruenz
Punkt1 bedeutet: In der deutschen Sprache besteht Kongruenz, also
Übereinstimmung zwischen den zusammengehörenden Satzteilen bezüglich
Kasus (Nominativ, Genitiv, Dativ, Akkusativ), Numerus (Singular/Plural) und
Genus (männlich/weiblich). In der Sprache des obigen Beispiels lässt sich
auch die im Rahmen der deutschen Sprache ungrammatische Nominalphrase
„die mann“ ableiten. Die Konstruktion ist ungrammatisch, weil sie gegen die
Kongruenz verstößt. Es ist ohne Kenntnis des Kontextes unklar, in welcher
Weise dies hier geschieht.
1. Es könnte sich um einen Verstoß bezüglich des Genus handeln. Richtig
wäre dann „der mann“.
2. Liegt hingegen ein Verstoß bezüglich des Numerus vor, wäre entweder
„der mann“ oder „die männer“ richtig.
Subkategorisierung
Punkt 2 bedeutet, dass einige Wörter/Phrasen Leerstellen mit bestimmten
Eigenschaften eröffnen. Diese Leerstellen müssen durch Satzteile ausgefüllt
werden.
Als Beispiel für Leerstellen seien einige mögliche Werte für die Stelligkeit der
Verben genannt: Neben der obligatorischen Forderung eines Subjekts im 1.
Fall erfordern (mit den verlangten Kasus) in Klammernh
 schlafen
(-)
 sehen
(4)
transitive Verben
 anklagen
(4,2)
transitive Verben
 geben
(3,4)
transitive Verben
 kosten
(4,4)
 gedenken
(2)
 vertrauen
(3)
33
Andere Beispiele für obligatorisch eröffnete Leerstellen sind etwa
-
Präpositionalphrasen bei Verben („Er wohnt in Berlin.“),
-
Nominalphrasen nach Präpositionen („über den Wolken.“).
6.1 Defizite von kontextfreien Grammatiken
Um die Kongruenz in Nominalphrasen zu sichern, könnte man folgenden
Ansatz versuchen:
Es gibt nicht nur das Nichtterminale NP, sondern es werden im
Nichtterminalen
gleich Indizes mit den entsprechenden Attributen
angegeben. So könnte die Nominalphrse „der mann“ erszeugt werden mit Hilfe
der Regeln
NPNom,Sg,mask  Det Nom,Sg,mask N Nom,Sg,mask
Det Nom,Sg,mask  der
N Nom,Sg,mask  mann
Wird diese Idee konsequent verfolgt, sind Konstruktionen wie „die mann“
ausgeschlossen.
Ähnlich könnte man beim Problem der Subkategorisierung vorgehen: Die
verschiedenen Ergänzungen für Verben könnten folgendermaßen ins Spiel
gebracht werden:
VP  V | V4 NP4 | V4,2 NP4 NP2 | V3,4 NP3 NP4 | …
V  schläft
V4  sieht
V4,2 beschuldigt
V3,4  gibt
NP4  NPAkk,Sg,mask | NPAkk,Sg,fem | NPAkk,Sg,neutr |NPAkk,Pl,mask | NPAkk,Pl,fem | NPAkk,Pl,neutr
Schon dieses winzige Beispiel zeigt, dass die Indizes sehr schnell über jedes
Maß an Verständlichkeit wachsen. Deshalb müssen andere Wege gegangen
werden.
34
6.2 F-Strukturen
Statt mit unübersichtlichen Indizes zu arbeiten verlagert man die
entsprechenden Informationen in eigene Strukturen aus, die im Rahmen der
LFG auch F-Strukturen genannt werden. Jedem Knoten des Ableitungsbaumes
ist dabei eine F-Struktur zugeordnet.
F-Strukturen
sind
verallgemeinerte
Funktionen
Diese
haben
Merkmalsstrukturen mit syntaktischen Funktionen (Subjekt, Prädikat,
Adjunkt). Es
werden Informationen mit verschiedenen funktionalen
Relationen zwischen Satzteilen koordiniert. Jede F-Struktur besitzt Attribute,
welche in einem spezifischen Wertebereich definiert sind.
Numerus {𝑆𝑖𝑛𝑔𝑢𝑙𝑎𝑟, 𝑃𝑙𝑢𝑟𝑎𝑙, 𝐷𝑢𝑎𝑙}
Person {1, 2, 3}
Genus {𝑀𝑎𝑠𝑘𝑢𝑙𝑖𝑛, 𝐹𝑒𝑚𝑖𝑛𝑖𝑛𝑢𝑚, 𝑁𝑒𝑢𝑡𝑟𝑢𝑚}
Kasus {𝑁𝑜𝑚𝑖𝑛𝑎𝑡𝑖𝑣, 𝐴𝑘𝑘𝑢𝑠𝑎𝑡𝑖𝑣, 𝐺𝑒𝑛𝑖𝑡𝑖𝑣, 𝐷𝑎𝑡𝑖𝑣 … }
Tempus {𝑃𝑟ä𝑠𝑒𝑛𝑠, 𝑃𝑟ä𝑡𝑒𝑟𝑖𝑡𝑢𝑚 … }
Diese Attribute können drei Arten von Werten annehmen. Dieser Wert kann
ein autonomes Symbol sein z.B. ein indikatives Merkmal [Modus Indikativ].
Ebenso kann es so genannte semantische Formen enthalten. Semantische
Formen kommen nur als Wert des Attributes PRED (predictor) vor und
werden in ′… ′ eingeschlossen. Der Wert eines Attributes kann auch ebenfalls
eine F-Struktur sein, dies gilt z.B. für die grammatischen Funktionen SUBJ, OBJ,
OBJ2 usw. In diesem Fall spricht man von subsidiären F-Strukturen.
Eine weitere Vorbemerkung ist ebenfalls nötig: Wir haben oben gesehen, dass
es in der Computerlinguistik kontextfreie Regeln von zweierlei Art gibt:
Strukturregeln und lexikalische Regeln. Das gesamte Vokabular wird dann in
einer Datensammlung verwaltet, dem Lexikon. Wird dieser Vorgang aus einer
naiven kontextfreien Perspektive betrachtet, so sind Wörter wie „siehst“,
„sieht“ oder „sehen“ nur einfach Terminale ohne eine innere Verbindung.
Damit diese Verbindung deutlich wird, bedarf es einer morphologischen
Analyse, auf die wir noch zurückkommen werden. Vorläufig bleiben wir bei
einem Lexikon, das alle grammatischen Formen eines Wortes enthält. Solche
Lexika heißen Vollformenlexika.
35
6.3 Wohlgeformtheit von F-Strukturen
Wohlgeformtheit von FZunächst müssen einige Bemerkungen zu den Gliedern eines Satzes gemacht
werden, soweit es ihre Notwendigkeit angeht, damit der Satz noch als grammatisch
richtig angesehen werden kann. So muss (im Deutschen) jeder Satz ein Prädikat und
ein Subjekt haben. Einige Satzteile werden von anderen Satzgliedern eingefordert.
Transitive Verben etwa verlangen ein Objekt im Akkusativ. Andere Verben haben
komplexere Abhängigkeiten, zum Beispiel Präpositionalphrasen. Präpositionen
verlangen eine Nominalphrase in einem vorgeschriebenen Kasus. Am Beispiel der
präpositionalen Ergänzung soll die Notwendigkeit der Satzglieder illustriert werden:
-
Die präpositionale Ergänzung kann obligatorisch durch das Verb
eingefordert werden.
Beispiel: Er wohnt in Berlin.
-
Die präpositionale Ergänzung kann fakultativ durch das Verb
hervorgerufen werden.
Beispiel: Er wartet auf Godot.
-
Sie kann völlig unabhängig vom Verb für zusätzliche Erläuterungen
benutzt werden. Dann handelt es sich um eine freie Angabe.
Beispiel: Er besucht uns nach dem Essen.
Bei freien Angaben ist die Einbettung, insbesondere bei komplexen
Wechselbeziehungen
zwischen
mehreren
Angaben
nur
schwer
zu
formalisieren. Das Potential für missverständliche Satzkonstruktionen ist
hoch.
Beispiele: Der Mann sieht die Frau mit dem Fernrohr.
Er traf sie am Bahnhof hinter der Autobahn. (Zwei PP vom gleichen Typ,
nämlich lokale Ergänzungen)
Bei fakultativen Ergänzungen zu einem Satzteil ST kann man sich damit behelfen,
dass man die Existenz von zwei Satzteilen ST1 und ST2 im Lexikon annimmt, wobei
ST1 die Ergänzung verlangt und eine F-Struktur mit einer entsprechenden Leerstelle
eröffnet, während ST2 ohne eine solche Ergänzung auskommt.
Für die Wohlgeformtheit von F-Strukturen gibt es drei Bedingungen:
1. Funktionale Eindeutigkeit
2. Vollständigkeit
3. Kohärenz
Strukturen
36
Zu erstens: Funktionale Eindeutigkeit bedeutet, dass jedes Attribut im
Definitionsbereich der F-Struktur höchstens einen Wert haben darf.
Die beiden anderen Eigenschaften werden zunächst lokal definiert und dann
auf die gesamte F-Struktur hochgehoben.
Zu zweitens: Als lokal vollständig gilt eine F-Struktur wenn alle regierbaren
(obligatorischen) grammatischen Funktionen enthalten sind.
Als global vollständig gilt eine F-Struktur wenn sie selbst und alle ihre
subsidiären F-Strukturen lokal vollständig sind.
Zu drittens: Als lokal kohärent gilt eine F-Struktur nur dann, wenn alle in ihr
enthaltenen regierbaren grammatischen Funktionen durch ein lokales
Prädikat regiert werden.
Als global kohärent gilt eine F-Struktur dann, wenn alle ihre subsidiären
Strukturen lokal kohärent sind.
Vollständigkeit bedeutet also, dass nicht zu wenige Argumente vorhanden
sind; Kohärenz verhindert, dass es zu viele Argumente gibt.
Beispiele:
Der Satz „der mann sieht“ ist unvollständig, weil das Verb „sieht“ eine
Leerstelle für ein Subjekt und eine für ein Objekt eröffnet. Die subsidiäre FStruktur für das Objekt fehlt jedoch in der zu konstruierenden F-Struktur.
Der Satz „der hund bellt die katze“ ist inkohärent, weil das Verb „bellt“ kein
Objekt erfordert.
Ein Satz kann auch unvollständig und inkohärent zugleich sein. Im der FStruktur zum Satz „der mann gibt die frau das Buch“ fehlt eine subsidiäre FStruktur für das Objekt im Dativ, was zur Unvollständigkeit führt. Stattdessen
sind inkonsistenterweise zwei Akkusativobjekte vorhanden.
Zunächst soll gezeigt werden, wie man die F-Strukturen für Wörter definieren
kann. Diese Eigenschaften gehören also zu den lexikalischen Regeln. Die FStrukturen können ins Lexikon eingetragen werden.
Beispiel für F-Strukturen in Nominalphrasen:
37
den Det
Cas
4
Num Sg
Gen m
der Det
Cas
1
2 3 2
Num Sg Sg Sg Pl
Gen
m
f
f
mann N
Cas
1 3 4
Num Sg Sg Sg
Gen m m m
frau N
Cas 2
Num Sg
Gen
f
3
Sg
f
Man kann sich die Interpretation einer F-Struktur als eine Disjunktive Normalform
vorstellen. Die F-Struktur für „der“ ist also zu lesen als
(Cas == 1 ⋀ Num == Sg ⋀Gen==m) ⋁(Cas == 2 ⋀ Num == Sg ⋀Gen==f) ⋁(Cas == 3 ⋀
Num == Sg ⋀Gen==f) ⋁(Cas == 2 ⋀ Num == PL)
Der Definitonsbereich und der Wertebereich hängen von der Sprache ab. Eine
Sprache, die keine Kasus-Unterschiede kennt, braucht natürlich dort auch nichts zu
definieren. Gibt es weitere wichtige Kategorien, so müssen diese auch thematisiert
werden. Man könnte sich zum Beispiel vorstellen, dass die Nominalphrase „der
mann“ als in der 3. Person befindlich gekennzeichnet werden könnte. Damit kann
dann später die Kongruenz bei der Verwendung von „der mann“ als Subjekt mit
einem Prädikat, das ebenfalls in der 3. Person steht, erzwungen werden.
Im Russischen könnte man noch „Belebtheit“ betrachten. Dann käme oft in den
Konjunktionstermen noch der Ausdruck „belebt == +“ oder „belebt == -“ hinzu. Wie
man an dem Beispiel für „der“ , wo im letzten Fall das Genus nicht spezifiziert ist,
sehen kann, müssen nicht alle Werte festgelegt werden. Für die Interpretation durch
eine DNF hat das keine Folgen.
Übungsaufgabe: Finden Sie die möglichen F-Strukturen für die Nominalphrase „der
händler“.
Beispiel für F-Strukturen mit Subkategorisierung:
sieht
Person
Num
Temp
Subjekt
Objekt
V
3
Sg
Präs.
Cas
Num
Gen
Cas
4
Num
Gen
Damit ist zunächst festgelegt, dass „sieht“ eine 3. Person Sg. Präsens ist. Ferner
braucht es eine Ergänzung „Subjekt“ und eine Ergänzung „Objekt“. Diese
Cas ≙ Casus
Num ≙ Numerus
Gen ≙ Genus
38
müssen durch je eine weitere F-Struktur beschrieben werden. An dieser Stelle
wird auch schon festgelegt, dass das Objekt im Akkusativ stehen muss. Man
könnte an dieser Stelle auch fordern, dass das Subjekt im Nominativ stehen
muss. Das würde zu richtigen Ergebnissen führen, aber es würde der üblichen
grammatischen Analyse widersprechen. Wir werde stattdessen später die
allgemeine grammatische Regel „Subjekte stehen im Nominativ.“ formalisieren.
6.4 Bildung von F-Strukturen zu grammatischen Strukturen
Bisher haben wir F-Strukturen nur im Zusammenhang mit Wörtern, also als Einträge
des Lexikons, kennen gelernt. Aus der Sicht der Ableitungsbäume heißt das:
Wir wissen bisher, wie den Blättern des Ableitungsbaumes F-Strukturen zugeordnet
werden können.
Künftig werden wir so vorgehen, dass wir die vorliegende Grammatik als
attributierte Grammatik mit der F-Struktur als Attribut auffassen. Durch unsere
lexikalischen Überlegungen haben wir dann schon den Induktionsanfang gelegt: Die
Attribute sind für die Blätter bekannt. Wie oben schon erwähnt, muss das Attribut
für den gesamten Satz, also das für die Wurzel des Ableitungsbaumes, jetzt induktiv
(„bottom up“) bestimmt werden. Wir haben jetzt also zwei Aufgaben:
1. Es muss ein Formalismus eingeführt werden, mit dem die vorliegende
kontextfreie Grammatik als attributierte Grammatik mit der F-Struktur als
Attribut aufgefasst werden kann.
2. Es muss ein Verfahren entwickelt werden, mit dem dann tatsächlich FStrukturen für ganze Sätze konstruiert werden können.
Bei Punkt 1 gehen wir für synthetische Attribute üblichen Weg. Die kontextfreie
Grammatik wird ergänzt durch Regeln, die bestimmen, wie das Attribut für den
Vaterknoten aus den Attributen für die Kinder berechnet werden kann. Bei der LFG
geschieht das mit Hilfe der Metavariablen ↓ und ↑. Der Begriff „Metavariable“
bedeutet hier, dass ↓ und ↑ für Variablen stehen, die ihrerseits F-Strukturen
darstellen. Dabei steht ↓ immer für den Kinder- und ↑ für den Vaterknoten. Bei
unserem Ansatz ist dann die durch ↓ bezeichnete F-Struktur bekannt, während die
durch ↑ bezeichnete F-Struktur neu konstruiert werden muss.
Anstatt dass ein allgemeiner Ansatz geschildert wird, soll an einfachen Beispielen
illustriert werden, wie bestimmte Probleme angegangen werden können:
39
1. Einfache Nominalphrasen
Zur Bildung der F-Struktur der Nominalphrase „der mann“ wird die syntaktische
Regel
NP  Det N
ergänzt um Regeln für das Attribut
NP  Det
↑= ↓
N
↑= ↓
Das =-Zeichen ist hier nicht als Gleichheit sondern als Unifikation zu lesen. Für die FStruktur der NP sollen die Eigenschaften der F-Struktur des Determinators und die
Eigenschaften der F-Struktur des Nomens gelten. Insgesamt werden also die
Strukturen für „der“ und „mann“ logisch durch eine Konjunktion verbunden. Der
gesamte Ausdruck muss dann wieder in eine Disjunktive Normalform gebracht
werden. Das Ergebnis ist hier
der mann
Cas
Num
Gen
NP
1
Sg
m
2. Komplexere Nominalphrasen
Ähnlich wird verfahren, wenn rechts mehr als zwei Ausdrücke stehen wie in
NP  Det
Adj
N
↑= ↓
↑= ↓
↑= ↓
Dann tragen alle drei F-Strukturen der rechten Seite zur F-Struktur der NP durch
Konjunktion bei.
3. Pronomina
In der Grammatik kann auch die Möglichkeit vorgesehen werden, dass
Nominalphrasen durch ein Pronomen gebildet werden. Eine einfache Regel wäre
NP  Pro
↑= ↓
Kommt auf der rechten Seite nur ein einziger Ausdruck vor, so wird die F-Struktur
der NP einfach von dem Pronomen auf der rechten Seite übernommen.
Übungsaufgabe: Wie könnten Pronomina mit einer F-Struktur versehen werden?
Um eine formal sinnvolle Behandlung von Pronomina zu ermöglichen, ist es nötig,
Schlüsse auf der semantischen Ebene zu ziehen. Insbesondere muss es dann möglich
40
sein, automatisch festzustellen, worauf sich das jeweilige Pronomen bezieht. Diese
sogenannte „Anaphern-Resolution“ ist ein großes Problem der theoretischen
Linguistik. Es erfordert nicht nur die Analyse einzelner Sätze sondern ganzer
Diskurse. Dass man bei der Anaphern-Resolution nicht um semantische
Überlegungen herumkommt, zeigt das folgende
Beispiel:
1. Die Männer ermordeten die Frauen. Drei Tage später wurden sie begraben.
2. Die Männer ermordeten die Frauen. Drei Tage später wurden sie verhaftet.
Nur durch semantische Interpretation der Verben „begraben“ und „verhaftet“ ist es
möglich, den mutmaßlichen Referenten für das Pronomen „sie“ zu bestimmen. Einen
solchen zu wissen ist beispielsweise unerlässlich, wenn das Pronomen ins
Französische übersetzt werden soll, entweder durch „elles“ im ersten Beispiel oder
durch „ils“.
Wir werden uns hier nicht mit der Anaphern-Resolution beschäftigen.
41
4. Intransitive Verben
Auch bei intransitiven Verben kommt auf der rechten Seite nur ein einziger
Ausdruck vor
VP  V
↑= ↓
Dann erfolgt ene Behandlung ähnlich den Pronomina. Die F-Struktur der VP wird
einfach von dem Verb auf der rechten Seite übernommen.
5. Transitive Verben
Es werden jedoch bei der induktiven Konstruktion nicht nur Unifikationen
durchgeführt an den Kinderknoten. Manchmal, beispielsweise beim Ausfüllen von
Leerstellen, die durch Subkategorisierung entstanden sind, werden ausgefeiltere
Methoden nötig. Als Beispiel seien hier transitive Verben genannt. Eine
entsprechende Regel könnte lauten
VP  V
↑= ↓
NP
↑. 𝑂𝑏𝑗 = ↓
Damit soll die F-Struktur für VP aus der F-Struktur für V aufgebaut werden, aber
zusätzlich soll die dort noch nicht ausgefüllte F-Struktur an der Obj-Stelle durch die
F-Struktur der Nominalphrase ausgefüllt werden.
6. Die Satzstruktur
Grammatische Regeln können ebenfalls einfach formuliert werden. Als ein Beispiel
seien hier einige Regeln für die Satzstruktur genannt:
S
NP
VP
↑. 𝑆𝑢𝑏𝑗 = ↓
↑= ↓
↓. 𝐶𝑎𝑠 = 1
↑. 𝑁𝑢𝑚 = ↓. 𝑁𝑢𝑚
↑. 𝑃𝑒𝑟𝑠𝑜𝑛 = ↓. 𝑃𝑒𝑟𝑠𝑜𝑛
Es wird hier also durch ↑= ↓ gefordert, dass die F-Struktur des Satzes aus der FStruktur der Verbalphrase konstruiert wird. Die Regeln bei NP bedeuten der Reihe
nach:
Die F-Struktur von NP wird als Wert für die Leerstelle des Subjektes in die FStruktur der Verbalphrase eingebaut.
Die zweite Aussage ist die oben schon angekündigte Regel, dass Subjekte im
Nominativ stehen.
Mit der dritten Aussage wird die Kongruenz zwischen NP und S, also eigentlich
zwischen Subjekt und Prädikat, bezüglich des Numerus eingefordert.
42
In der vierten Zeile wird die oben angesprochene Kongruenz zwischen Subjekt und
Prädikat bezüglich der Person erzwungen. Auch hier könnte das Problem anders
gelöst werden, da Nominalphrasen, die keine Pronomina enthalten, und dann auch
die entsprechenden Verbformen immer in der dritten Person stehen.
Übungsaufgabe: Wie könnte man das Problem der Kongruenz bezüglich der Person
lösen, ohne in umständlicher und unnatürlicher Weise schon die Gleichung
Person = 3
in das Lexikon schreiben zu müssen?
7. Präpositionalphrasen
Die einfachste Struktur einer Präpositionalphrase ist durch die kontextfreie Regel
PP  Präp NP
gegeben. Durch die Attributregeln muss sowohl der innere Aufbau der PP als auch
ihre Einbettung (formal und auch ihre Funktion) definiert werden.
Deshalb seien zunächst einige Bemerkungen zu präpositionalen Ergänzungen
gemacht
-
Die präpositionale Ergänzung kann obligatorisch durch das Verb
eingefordert werden.
Beispiel: Er wohnt in Berlin.
-
Die präpositionale Ergänzung kann fakultativ durch das Verb
hervorgerufen werden.
Beispiel: Er wartet auf Godot.
-
Sie kann völlig unabhängig vom Verb für zusätzliche Erläuterungen
benutzt werden. Dann handelt es sich um eine freie Angabe.
Beispiel: Er besucht uns nach dem Essen.
Bei freien Angaben ist die Einbettung nur schwer zu formalisieren. Das
Potential für missverständliche Satzkonstruktionen ist hoch.
Beispiele: Der Mann sieht die Frau mit dem Fernrohr.
Er traf sie am Bahnhof hinter der Autobahn. (Zwei PP vom gleichen Typ,
nämlich lokale Ergänzungen)
Bei fakultativen Ergänzungen kann man sich damit behelfen, dass man die Existenz
von zwei Verben im Lexikon annimmt, wobei das eine eine präpositionale Ergänzung
verlangt und eine F-Struktur mit einer entsprechenden Leerstelle eröffnet, während
das andere ohne eine solche auskommt.
43
Wir werden jetzt nur solche Verben behandeln, bei denen die entsprechende
Leerstelle eröffnet wird. Als Beispiel soll eine präpositionale Phrase dienen, die eine
Richtung bezeichnet und mit der Präposition „zu“ eingeleitet wird.
Lexikalisch wird vermerkt, dass die Präposition ein Objekt im Dativ erfordert und
innerhalb des Satzes die Rolle eins Ziels („goal“, „OblGo“) spielt
zu
Präp
Rolle OblGo
Obj
[Cas 3]
Die Konstruktionsregel lautet dann
PP  Präp
↑= ↓
NP
↑. 𝑂𝑏𝑗 = ↓
Sie besagt, dass die F-Struktur der PP aus der F-Struktur der Präposition konstruiert
wird, wobei die Leerstelle für das Objekt durch die F-Struktur der NP ausgefüllt
wird. Damit ist der innere Aufbau der F-Struktur für die PP geklärt. Ihre Einbettung
muss in der Regel für die Verbalphrase, zu der die PP gehört, definiert werden. Das
kann etwa durch die folgende Regel geschehen:
VP  V
↑= ↓
NP
PP
↑. 𝑂𝑏𝑗 = ↓
(↑ (↓. 𝑅𝑜𝑙𝑙𝑒)) = ↓
Dabei ist die Attributregel für die PP so zu verstehen, dass zuerst der Wert der Rolle
aus der F-Struktur der PP ausgelesen wird, hier also OblGo. Damit wird auch
gefordert, dass das Verb eine Leerstelle für ein OblGo eröffnet. Diese soll durch die FStruktur der PP aufgefüllt werden. Ein solches Verb könnte „fliegt“ sein, hier als
transitives Verb betrachtet.
fliegt
V
Person
3
Num
Sg
Temp
Präsens
Obj
[Cas 4]
OblGo
44
6.5 Fallstudie „das kleine grüne männchen fliegt die rakete zu
dem fernen stern“
Zunächst muss die Grammatik G so erweitert werden, dass L(G) diesen Satz enthält.
Als Strukturregeln könnten die unten genannten dienen.
Dazu kämen die hier als offensichtlich weggelassenen Lexikalischen Regeln. Einige
Erläuterungen sind angebracht:
1. Nominalphrasen können hier keine Pronomina sein. Wir werden also davon
ausgehen, dass Nomina und dann auch NP in der 3. Person vorliegen.
2. Aus Gründen der Einfachheit sind Adjektivfolgen nicht leer. Stattdessen ist
die Adjektivfolge in der NP-Regel durch { } als optional gekennzeichnet. Hier
liegen also eigentlich zwei Regeln vor.
3. Es sind hier nur Verbalphrasen mit genau einer Nominal- und genau einer
Präpositionalphrase zugelassen, eine extreme Vereinfachung.
S
NP
VP
↑. 𝑆𝑢𝑏𝑗 = ↓
↑= ↓
↓. 𝑐𝑎𝑠 = 1
↑. 𝑁𝑢𝑚 = ↓. 𝑁𝑢𝑚
↑. 𝑃𝑒𝑟𝑠𝑜𝑛 = ↓. 𝑃𝑒𝑟𝑠𝑜𝑛
NP 
AdjFolge 
Det
{ AdjFolge }
N
↑= ↓
↑= ↓
↑= ↓
Adj
↑= ↓
AdjFolge 
VP 
PP 
Adj
AdjFolge
↑= ↓
↑= ↓
V
NP
PP
↑= ↓
↑. 𝑂𝑏𝑗 = ↓
(↑ (↓. 𝑅𝑜𝑙𝑙𝑒)) = ↓
Präp
NP
↑= ↓
↑. 𝑂𝑏𝑗 = ↓
45
Zuerst liegen die F-Strukturen aus dem Lexikon vor:
das
Det
kleine /
Adj
grüne
Cas
1
4
1
1 4
1
4
1
4
Num
Sg
Sg
Sg
Sg Sg
Sg
Sg
Pl
Pl
Gen
n
n
m
f f
n
n
Pers.
3
3
3
3 3
3
3
3
3
männchen
N
Cas
1
3
4
Num
Sg
Sg
Sg
Pl
Gen
n
n
n
n
Pers.
3
3
3
3
fliegt
V
zu
Präp
Rakete
Person
3
Rolle
OblGo
Cas
Num
Sg
Obj
[Cas 3]
Num
Sg.
Temp
Präsens
Gen
f
Pers.
3
Subj
Obj
[Cas 4]
OblGo
die
Det
Cas
1
4
1
4
Num
Sg
Sg
Pl
Pl
Gen
f
f
Pers.
3
3
3
3
N
46
dem Det
fernen
Adj
Cas
3
2
3
4
2
3
2
3
Num
Sg
Sg
Sg
Sg
Sg
Sg
Sg
Sg
m
m
m
f
f
n
n
3
3
3
3
3
3
3
Gen
Pers.
m
n
3
Pl
3
stern
Cas
1
3
4
Num
Sg
Sg
Sg
Gen
m
m
m
Pers.
3
3
3
Zum besseren Verständnis zeigtn Abbildung 5 den Ableitungsbaum (ohne die
lexikalischen Einträge) mit den jeweiligen F-Strukturen als Attribute. Deren
Konstruktion wird im folgenden erklärt.
Satz/f20
NP/f14
Det/f1
Adj/f2
VP/f19
Adjfolge/f13
Adjfolge/f12
N/f4
V/f5
Det/f6
Adj/f3
Np/f15
N/f7
PP/f18
Präp/f8
Det/f9
NP/f17
Adjfolge/f16
Adj/f10
Abbildung 4: Ableitungsbaum mit Attributen
N/f11
47
Zuerst sind die lexikalischen F-Strukturen in der Reihenfolge des Auftretens im Satz
durchnumeriert: f1,…,f11 und den Blättern zugeordnet. Die Attributregeln führen
durch
Ersetzen
der
Metavariablen
↓ und ↑ durch schon
konstruierte
fi
(Instantiierung der Metavariablen) zu neuen F-Strukturen, die anderen Knoten des
Ableitungsbaumes entsprechen. Es sollen jetzt alle so entstehenden „Gleichungen“
aufgeführt werden. Dabei wird immer der am weitesten links stehende Baumknoten
betrachtet, bei dem schon alle Kinder eine F-Struktur besitzen. Es muss aber
beachtet werden, dass eine Gleichung hier eine Konstruktion durch Unifizierung
bedeutet, wie oben erklärt.
Also wird die Regel
AdjFolge 
Adj
↑= ↓
für f3 verwendet, wodurch festgestellt wird, dass „grüne“ eine Adjektivfolge ist. Es
wird eine neue Variable f10 eingeführt (für ↑). Die Metavariable ↓ wird durch f3
ersetzt. Dadurch entsteht die Gleichung
f12 = f3
Danach kommt die Regel
AdjFolge 
Adj
AdjFolge
↑= ↓
↑= ↓
Mit den Gleichungen
f13 = f2
f13 = f12
wird f13 bestimmt zu
kleine grüne
Adjfolge
Cas
1
1
Num
Sg
Gen
Pers.
4
1
4 1
4
Sg Sg
Sg
Sg Pl
Pl
m
f
f
n
n
3
3
3
3
3 3
3
Durch die Gleichung für Nominalphrasen werden f1, f13 und f4 unifiziert zu f14
48
das kleine grüne männchen
NP
Cas
1
4
Num
Sg
Sg
Gen
n
n
Pers.
3
3
Für die Analyse der Verbalphrase muss zunächst die dort existierende NP („die
rakete“) untersucht werden. Dabei wird ähnlich wie eben vorgegangen. Deshalb
folgen hier nur die Gleichungen und das Ergebnis für die gesamte NP:
f15 = f6
f15 = f7
Durch Unifikation entsteht also die F-Struktur f15.
die Rakete
NP
Cas
1
4
Num
Sg
Sg
Gen
f
f
Pers.
3
3
Um die PP analysieren zu können untersuchen wir deren NP („dem fernen stern“). Es
entstehen die Gleichungen
f16 = f10
Damit wird das einzelne Adjektiv „fernen“ zur Adjektivfolge.
f17 = f9
f17 = f16
f17 = f11
So entsteht wieder die F-Struktur der gesamten NP und f17 hat die
Form.
dem fernen Stern
NP
Cas
3
Num
Sg
Gen
m
Pers.
3
Gemäß den Gleichungen
f18 = f8
f18. 𝑂𝑏𝑗 = f17
für die gesamte PP muss f17 an der Objektstelle in f8 eingesetzt werden. Das Ergebnis
49
ist f18.
zu dem fernen Stern
PP
Rolle
OblGo
Obj
Cas
3
Num
Sg
Gen
m
Pers.
3
Die F-Struktur für die Verbalphrase f19 entsteht durch die Gleichungen
f19 = f5
f19. 𝑂𝑏𝑗 = f15
f19.( f18.Rolle) = f18
Gemäß der vorletzten Gleichung muss f15 in f19 an die Obj-Stelle eingetragen werden,
Dabei muss aber beachtet werden, dass in f5 an dieser Stelle schon der Akkusativ
gefordert ist. Damit wird nur die mit Cas = 4 unifizierte Form von f15 eingetragen.
Die letzte Gleichung ist so zu lesen, dass man f18 an der Stelle Rolle auswerten muss.
Dort steht OblGo. Also wird f18 an der Stelle OblGo in f19 eingetragen mit dem Ergebnis
50
fliegt die Rakete VP
zu dem
fernen Stern
Person
3
Num
Sg
Temp
Präsens
Subj
Obj
OblGo
die Rakete
NP
Cas
4
Num
Sg
Gen
f
Pers.
3
zu dem
PP
fernen Stern
Rolle
OblGo
Obj
Cas
3
Num Sg
Gen
m
Pers. 3
Jetzt kann endlich f20 konstruiert werden, die F-Struktur für den Satz. Damit ist der
Konstruktionsprozess beendet. Die Regeln für die Metavariablen generieren
folgende Gleichungen:
f20 = f19
f20. 𝑆𝑢𝑏𝑗 = f14
f14. 𝐶𝑎𝑠 = 1
f20. 𝑁𝑢𝑚 = f14. 𝑁𝑢𝑚
f20. 𝑃𝑒𝑟𝑠𝑜𝑛 = f14. 𝑃𝑒𝑟𝑠𝑜𝑛
Die Bedeutung der ersten beiden Gleichungen dürfte klar sein.
Die dritte Gleichung verlangt, dass zusätzlich der Ausdruck Cas=1 als Konjunkt bei
f14 eingeführt wird. Dadurch kann sich die F-Struktur erheblich verkleinern. Im
vorliegenden Fall wird nur ausgeschlossen, dass es sich bei „das kleine grüne
männchen“ um einen Akkusativ handelt. Im Extremfall wertet sich der ganze
Ausdruck logisch zu „falsch“ aus. Das würde bei inkongruenten Satzkonstruktionen
geschehen wie „des kleinen grünen männchens fliegt die rakete zu dem fernen
51
stern“.
Die beiden letzten Gleichungen dienen gleichfalls nicht der Konstruktion, sondern
nur einer Überprüfung, nämlich der auf Kongruenz bezüglich Person und Numerus.
Es gibt Autoren, die großen Wert auf den Unterschied legen, ob eine Gleichung zur
Konstruktion oder nur zur Überprüfung dient. Aus logischer Sicht ist diese
Unterscheidung unnötig, da es sich um den gleichen Mechanismus handelt.
52
das kleine,
S
grüne männchen
fliegt die Rakete
zu dem
fernen Stern
Person
3
Num
Sg
Temp
Präsens
Subj
das
NP
kleine
grüne
männchen
Obj
OblGo
Cas
1
Num
Sg
Gen
n
Pers.
3
die Rakete NP
Cas
4
Num
Sg
Gen
f
Pers.
3
zu dem
PP
fernen
Stern
Rolle
OblGo
Obj
Cas
3
Num Sg
Gen
m
Pers. 3
53
7
Teildisziplinen der Computerlinguistik
-
Übersetzerbau
-
Suche in Textdatenbanken
-
Automatische Abstraktion
-
Automatische Textgenerierung
-
Lern Software
Teildisziplinen der
Computerlinguistik
54
8
Teile der Grammatik
g-Spirantisierung
Wird ein „g“ nach einem „i“ zu einem Frikativ, wird sowohl der Prozess wie
auch das Ergebnis.
König [kØ:nɪç]
wenig [ve:nɪç]
etwaig [ɛtvaɪç]
Belag [bəla:k]
Betrug [bətru:k]
Sog [zo:k]
Auslautverhärtung
„Verwandlung eines stimmhaften auslautenden Konsonanten in einen
stimmlosen“ (– Duden)
𝑑
(
𝑡
𝑔
𝑘
𝑏 𝑧
)
𝑝 𝑠
55
9
Darstellung durch endliche Automaten
Ein endlicher Automat ist ein 7-Tupel A=(X, Y, Z, δ, λ, z0, F)
X – Eingabealphabet
Y- Ausgabealphabet
Z- Zustandsmenge
δ- Z x X  Z Nachfolgezustand
λ- Z x X  Y Ausgabefunktion
z0- Anfangszustand
F- Endzustände
Darstellung durch
endliche Automaten
t
w
a
r
t
e
s
n
t
Abbildung 4: endlicher Automat
Endliche Automaten erhalten als Eingabe ein Wort, dieses wird dann
morphemweise abgearbeitet. Erreicht der Automat einen Doppelkreis, wird
ein gültiges Wort akzeptiert.
10 Ferdinand de Saussure
Strukturalismus
Semantisches Dreieck:
Ferdinand de Saussure
56
Signifie/
„mathematische
Modell“
Sprachliche
Realie
Äußerung
Abbildung 5: semantisches Dreieck
11 Zeichentheorie C.S. Peirce
Zeichentheorie C.S. Peirce
Charles Sanders Peirce hat in seiner Zeichentheorie eine Kategorisierung
eingeführt.
Abstrakt
Willkürliche Assoziation von Zeichen und
-
Symbol
-
Index
-
Ikon
konkret
Abbild bei dem grundlegende Eigenschaften des
Bezeichnender zu erkennen sind
12 Formen von Ambiguitäten
Formen von Ambiguitäten
Ambiguität beschreibt die Mehrdeutigkeit von Zeichen. Dabei kann diese auf
mehreren Ebenen auftreten. Sowohl lexikalisch, semantisch und syntaktisch.
57
13 Einführung von Syntaktischen Variablen
𝑆 v0 →𝑘1,𝑘2
𝑇𝑔𝑟𝑎𝑚. 𝐾𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑒
ersetze „s“ durch „v0“, im weiteren Verlauf: Beim ersten
Auftreten durch k1, später k2
S  NP VP
S
NP
VP
NP  Det N
Det  jeder/ ein
N  student/ buch
VP  V NP
V  kennt
S
NP : v0
NP: v1
S: v0
→ jeder student, er
S v1 → ein buch, es ; v0 → jeder student, er
v0
VP
v
S  NP: v0
S v0  jeder student, er
S  NP: v1
S v1  ein buch, es
v1
Einführung von
Syntaktischen Variablen
58
Beispiel
„Hänsel liebt eine Frau“
Beispiel
⟦𝐻ä𝑛𝑠𝑒𝑙 𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝐻ä𝑛𝑠𝑒𝑙⟧ (⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧) = λ P.P (Hänsel)
(⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧)
⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧(⟦𝑙𝑖𝑒𝑏𝑡⟧)
= 𝜆 𝑃. ⟦𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ (𝜆𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧)(𝑄, 𝑃)
= 𝜆 𝑃. ∃ 𝑥 𝑓𝑟𝑎𝑢 (𝑥) ∧ 𝑃(𝑥)(𝜆 𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧)(𝑄, 𝑃)
= ∃𝑥 𝑓𝑟𝑎𝑢(𝑥) ∧ 𝜆𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧ (𝑄, 𝑃) = ∃𝑥 𝑓𝑟𝑎𝑢(𝑥) ∧ 𝑙𝑖𝑒𝑏𝑡 (𝑥)𝑃
⟦𝐻ä𝑛𝑠𝑒𝑙 𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧(⟦𝐻ä𝑛𝑠𝑒𝑙⟧)
= ∃𝑥 𝑓𝑟𝑎𝑢 (𝑥) ∧ 𝑙𝑖𝑒𝑏𝑡 (𝑥, 𝐻ä𝑛𝑠𝑒𝑙)
59
14 Pragmatik
Pragmatik
Die Pragmatik befasst sich mit den Bedeutungsaspekten einer
Äußerung.
Um die Pragmatik genauer zu erklären, wird als erstes das Organon-Modell
von Karl Bühler (1879-1963) vorgestellt. Natürliche Sprache ist nicht immer
eindeutig, dies wurde im Organon-Modell versucht darzustellen.
Abbildung 6: Organon-Modell
Das Modell besitzt fünf wichtige Bereiche. Dabei steht das „Z“ in der Mitte für
ein Zeichen, ein Wort oder eine Äußerung die getätigt wurde. Der Kreis der
sich um das „Z“ herum zieht, beschreibt akustische Phänomene.
Als nächsten Bestandteil wird der Sender genannt. Von diesem gehen sowohl
Wörter wie auch Äußerungen aus. Er hat damit eine Ausdrucksfunktion.
Ebenso gibt es einen Empfänger. Dieser wird zu einer Reaktion aufgefordert.
Eine Reaktion kann sowohl ein zuhören, wie auch eine Aktion sein. Hier wird
also eine Appellfunktion wahrgenommen.
Sender und Empfänger äußern sich über Gegenstände oder Sachverhalte.
60
Als letzten Bestandteil kann man die Beziehungen zwischen diesen vier
Bereichen sehen. Diese Beziehungen werden durch parallele Linien
dargestellt.
Mit diesem Modell wird eine schematische Darstellung eines Gesprächs
zwischen zwei Personen dargestellt. Äußerungen werden in Inhalte und
lautliche Anteile, also den Schall, dargestellt.
Die Pragmatik hat einen entscheidenden Vorteil gegenüber der reinen
Semantik. Sie berücksichtigt unterschiedliche kontextuelle Einflüsse auf
Interpretationen.
14.1 Informationsgehalt nach Kolmogoroff
Informationsgehalt nach
Kolmogoroff
1. Eine Information hängt von der Wahrscheinlichkeit ab.
Stetig:
𝐼(𝑒) = 𝑓 (𝑝(𝑒))
2. 𝑝(𝑒) = 1 ⟹ 𝐼(𝑒) = 0
𝑓(1) = 0
𝑝(𝑒) = 0 ⟹ 𝐼(𝑒) ⟶ ∞
3. I(e1, e2) =
𝑥 → 0 ⟹ 𝑓(𝑥) → ∞
I(e1) + I(e2)
∥
e1, e2 unabhänig
∥
𝑓(𝑝(𝑒1 , 𝑒2 ))
𝑓(𝑝(𝑒1 ) + 𝑓(𝑝(𝑒2 ))
∥
𝑓(𝑝(𝑒1 ) − 𝑝(𝑒2 ))
𝑓(𝑥 ⋅ 𝑦) = 𝑓(𝑥) + 𝑓(𝑦)
Aus 1. - 3. folgt f(x) = -log(x), also I(e) = - log (p(e))
Beispiel
Ein Heft hat 32 Seiten. Wie hoch ist die Information, dass
Seite 27 aufgeschlagen ist?
𝐼(𝑒) = − log(𝑝(𝑒)) = − log (
1
) = 5 𝑏𝑖𝑡: 11011
32
Entropie: Mittlerer Informationsgehalt eines Zeichens
𝐻(𝐸) = − ∑ 𝑝(𝑒) log(𝑝(𝑒))
𝑒
𝐻(𝐸) = −𝑝(𝑒1 ) ⋅ log(𝑝(𝑒1 )) − 𝑝( 𝑒2 ) ⋅ log 𝑝(𝑒2 )
Beispiel
61
15 Allgemeine Anwendungen
Nachdem nun einige Teilgebiete der Computerlinguistik beleuchtet wurden,
Allgemeine Anwendungen
werden hier einige Anwendungen der Computerlinguistik erläutert.
15.1 Sprache zu Text
Sprache zu Text
15.2 Texterzeugung
Texterzeugung
15.3 Übersetzung von Texten
Übersetzung von Texten
15.4 Textkorrekturen
Textkorrekturen
62
Abbildungsverzeichnis
Abbildung 1: Sprachliche Funktionen ................................................................................. 7
Abbildung 2: zerlegter Satz in Phrasen ............................................................................. 13
Abbildung 1: Ableitungsbaum .............................................................................................. 18
Abbildung 4: endlicher Automat.......................................................................................... 55
Abbildung 5: semantisches Dreieck ................................................................................... 56
Abbildung 6: Organon-Modell .............................................................................................. 59
Tabellenverzeichnis
Tabelle 4-1: kurzes Beispiel von Alphabeten.................................................................. 12
Tabelle 5-1: Beispiel Backtrack-Parsing ........................................................................... 26
Tabelle 5-2: Earley-Algorithmus .......................................................................................... 29
Herunterladen