Skript Computerlinguistik Prof. Dr. phil. Dr. rer. nat. habil. M. Schenke Inhaltsverzeichnis 1 Einleitung in die Linguistik 6 2 Einleitung in die Computerlinguistik 8 3 Geschichte der Computerlinguistik 10 4 Formale Sprachen und Grammatiken 11 5 6 4.1 Formale Sprachen 11 4.2 Grammatiken 12 4.3 Ableitungen 15 4.4 Ableitungsbäume 17 4.5 Mehrdeutigkeit 19 Parsing 24 5.1 Backtrack-Parsing 24 5.2 Chart-Parsing 27 Lexikalisch Funktionale Grammatik (LFG) 32 6.1 Defizite von kontextfreien Grammatiken 33 6.2 F-Strukturen 34 6.3 Wohlgeformtheit von F-Strukturen 35 6.4 Bildung von F-Strukturen zu grammatischen Strukturen 38 6.5 Fallstudie „das kleine grüne männchen fliegt die rakete zu dem fernen stern“ 44 7 Teildisziplinen der Computerlinguistik 53 8 Teile der Grammatik 54 9 Darstellung durch endliche Automaten 55 10 Ferdinand de Saussure 55 11 Zeichentheorie C.S. Peirce 56 12 Formen von Ambiguitäten 56 13 Einführung von Syntaktischen Variablen 57 14 Pragmatik 59 14.1 15 Informationsgehalt nach Kolmogoroff Allgemeine Anwendungen 60 61 15.1 Sprache zu Text 61 15.2 Texterzeugung 61 15.3 Übersetzung von Texten 61 15.4 Textkorrekturen 61 6 Einleitung in die Computerlinguistik 1 Einleitung in die Linguistik Teilgebiete der Linguistik - Phonetik / Phonologie ↳ Phonetik: Untersuchung von Lauten (Physik) ↳ Phonologie: Klassifizierung von Lauten und Untersuchung ↳ Artikulationsort ↳ Artikulationsart: Plosiv, Friktiv, Affrikate, Stimmlos/Stimmhaft ↳ Phonem: kleinste bedeutungsunterschiedende Einheit der Sprache ↳ Minimalpaare: zwei sprachliche Zeichen, die sich durch eine Einheit unterscheiden (z.B. Kopf <-> Zopf) ↳ Phonem ist eine Äquivalenzklasse von Phonen ↳ Einzelne Elemente eine Äquivalenzklasse (also eines Phonems) heißen Allophone - ↳ Es gibt freie Varianten der Allophone r <-> ň ↳ Es gibt gebundene Varianten der Allophone v <-> χ Morphologie ↳ Grammatische Formenlehre ↳ 1. Flexionsmorphologie: Bedeutung der Worte ↳ 2. Derivationsmorphologie: Neubildung von Worten ↳ Morphem: kleinste bedeutungstragende Einheit - Lexik - Syntax - Semantik - Pragmatik Sprachakte (nach R. Jakobson) Essentielle Bestandteile sprachlicher Kommunikation 7 Gegenstand Information, referentiell Sprache metasprachlich Sender Kanal Empfänger (Sprecher) (Medium) (Hörer) emotiv phatisch appellativ Nachricht poetisch Abbildung 1: Sprachliche Funktionen 8 2 Einleitung in die Computerlinguistik Computerlinguistik wird heutzutage in fast allen Lebensbereichen genutzt: direkt am Computer, im Smartphone, bei automatischen Telefonannahmen oder bei Servicehotlines. Computerlinguistik ein Gebiet, bei dem sich vor allem drei Bereiche überschneiden: Linguistik, Informatik und Mathematik. Die Linguistik, welche Sprache allgemein untersucht, liefert dabei das Grundthema, die unter Umständen tief verborgenen Strukturen in Sprachen, die Mathematik liefert die Formalisierung dieser Strukturen, auf der dann die Informatik aufbaut, um Algorithmen zur automatischen Verarbeitung zu erstellen. Man muss also die Kluft zwischen einer nicht formal definierten natürlichen Sprache und einer formal definierten Sprache, also einem mathematischen Objekt, überbrücken. Und nur mit mathematischen Objekten kann ein Computer ja umgehen. Dabei steht man schon vom Grundsatz her vor verschiedenen Problemen: - Der Bestand einer natürlichen Sprache ist über die Zeit nicht konstant sondern verändert sich. Das sollten formale Sprachen nicht tun. - Der Bestand einer natürlichen Sprache lässt sich auch zu einem festen Zeitpunkt nicht mathematisch präzise definieren. - In natürlichen Sprachen gibt es viele verschieden Varietäten: Dialekte, Soziolekte, Stilebenen … . Diese lassen sich nur schwer mathematisch präzise beschreiben. - Die Interpretation einer sprachlichen Äußerung ist abhängig von sehr komplexen Kontexten. Im Prinzip ist hier das gesamte Weltwissen erforderlich. Ein Problem in der Computerlinguistik, gerade für Anfänger, rührt von ihrer Interdisziplinarität her: Oft werden Begriffe in unterschiedlichen Wissenschaften unterschiedlich verwendet. Es ist also immer eine genaue Begriffsbestimmung nötig. So bedeutet beispielsweise ein „Zeichen“ in der theoretischen Informatik schlicht ein Element eines Alphabets (einer endlichen Menge). In der Linguistik wird jedoch, zurückgehend auf die 9 Zeichentheorie von C. S. Pierce, Wert auf die Einheit von Ausdruck und Inhalt gelegt. 10 Geschichte der Computerlinguistik 3 Geschichte der Computerlinguistik Die ersten Schritte in Richtung auf eine Computerlinguistik wurden in den 20er und 30er Jahren des vergangenen Jahrhunderts gemacht. Ursprünglich wurde bei Rechenmaschinen lediglich an numerische Probleme gedacht, allerdings erkannte man schnell das Potential auch für rein symbolische Verarbeitungen. In der Cl wurde besonders dieser Weg gegangen. Bereits in den 50er Jahren wurde versprochen, dass es bald möglich sein werde, einen Text automatisch in eine andere Sprache zu übersetzen. Dass dies nicht so einfach ist, wie es auf den ersten Blick zu sein scheint, zeigen viele Interferenzfehler; diese können auf allen Ebenen der Sprache auftreten. Das nachfolgende Beispiel illustriert einen idomatischen Interferenzfehler: Deutsch → Englisch → Deutsch Man sieht den Wald vor lauter Bäumen nicht. You can not see the forest for the trees. Sie können nicht sehen den Wald vor Bäumen. Seit den 70er Jahren wird intensiv an solchen Übersetzungsproblemen geforscht, bisher ohne eine konkrete allgemeine Lösung. Das liegt einmal an der Verschiedenheit der Strukturmuster in unterschiedlichen Sprachen. Zweitens sind insbesondere die Semantik und Pragmatik für Computer nur schwer umfassend formal zu behandeln. Allerdings gibt es für einige begrenzte Gebiete durchaus automatische Übersetzungen, die auch funktionsfähig sind. Das gilt insbesondere für Texte aus nur einem einzelnen fest umgrenzten Bereich. Wetterberichte beispielsweise können schon sehr gut automatisch korrekt übersetzt werden und werden auch unterstützend bei der Humanübersetzung verwendet. 11 4 Formale Sprachen und Grammatiken Seit dem Altertum werden Sprachen und ihre Regeln und Strukturen durch Grammatiken beschrieben. Diese werden meist als Krücken zum Erlernen Formale Sprachen und Grammatiken einer Sprache betrachtet, derer man eine Zeitlang bedarf, um sie dann irgendwann zu vergessen, sich ihrer dann entledigt und sie allenfalls noch einmal zur Entscheidung von Zweifelsfällen heranzieht. Dabei dient eine Grammatik meist nur der Beschreibung einer Sprache. Ob es so etwas wie normative Grammatiken überhaupt geben sollte, ist keine philologische sondern eher eine ideologische Frage. Jedenfalls wird durch die Verwendung von Grammatiken ein entscheidender Schritt getan. Es wird nicht mehr eine natürliche Sprache betrachtet sondern letztlich ein mathematisches Objekt: die Menge der sprachlichen Äußerungen, die der Grammatik genügen. Solche Mengen werden auch als formale Sprachen bezeichnet. Formale Sprachen und Grammatiken sind die Grundlagen, die in diesem Skript zunächst behandelt werden sollen. 4.1 Formale Sprachen Formale Sprachen sind mathematische Modelle, die als Abstraktion für eine Sprache, mathematisch: eine Wortmenge, stehen. Dadurch sind sie einer Verarbeitung auf einem Computer zugänglich. Zu den formalen Sprachen zählen vor allem Computersprachen aber auch Abstraktionen, wie sie in der Computerlinguistik behandelt werden. Werden natürliche Sprachen durch einen Computer bearbeitet, so hat die Verwendung formaler Sprachen entscheidende Vorteile: - exakte Definition von zulässigen Ausdrücken und ihrer Bedeutung, - nur sehr beschränkt kontextabhänige Bedeutung (der formalen Darstelllung), - leichte Verarbeitung durch konkrete Regeln. Dies ermöglicht erst die präzise Verarbeitung natürlicher Sprachen, genauer: ihrer formalen Darstelllung. Unter diesen Gesichtspunkten ist es notwendig, einige grundlegende Begriffe zu klären, die im künftigen immer wieder erwähnt werden. Formale Sprachen 12 Definition Definition: Ein Alphabet ist eine endliche Menge. Seine Elemente werden Buchstaben oder Zeichen genannt. Ein Wort über einem Alphabet A ist eine endliche Folge von Elementen von A, auch Zeichenkette genannt. Eine Sprache über einem Alphabet A ist eine Menge von Wörtern über A. Zunächst wird immer die Syntax einer formalen Sprache definiert, wenn nötig später auch eine dazu passende Semantik. Eine Syntaxdefinition erfolgt durch eine Festsetzung, welche Zeichenketten in einer Sprache zulässig sind. Man spricht dann von Wohlgeformtheit. Eine Definition der Wohlgeformtheit kann beispielsweise induktiv erfolgen oder durch die Definition einer Ableitungsrelation. Zu jeder formalen Sprache gehört ein Alphabet, aus dem die zulässigen Zeichenketten gebildet werden. In der folgenden Tabelle werden einige konkrete Beispiele hierfür gezeigt. Mathematik C++ Griechische Buchstaben , , In dieser Sprache nicht zulässig (kein Bestandteil des Alphabets) Ziffern (0,1,2, … ,9) Zulässig Buchstaben (a,b,…,x,y,z; A,B, …,X,Y,Z) Zulässig Sonderzeichen Tabelle 4-1: kurzes Beispiel von Alphabeten Die Tabelle ist nicht vollständig und die Unterschiede zwischen den Sprachtypen sind wesentlich gravierender. 4.2 Grammatiken Grammatiken Formale Sprachen können durch formale Grammatiken beschrieben werden. Dabei existiert eine endliche Menge von Regeln, mit der eine abzählbare Menge von Wörtern erzeugt werden kann, welche dann wiederum die Sprache bilden. Eine erzeugte Zeichenkette gehört dann der durch die Grammatik G beschriebenen Sprache L(G) an, eine nicht erzeugbare Zeichenkette nicht. 13 Dabei gilt folgende Definition: Eine Grammatik ist ein 4-Tupel G = (N, T, P, V) mit: N ist eine endliche Menge (Nichtterminale) T ist eine endliche Menge (Terminale) mit N ∩ T = ∅ V ∈ N (Startsymbol) P ⊆ (N ∪ T)∗ x (N ∪ T)∗ (Produktionsregeln) Grammatiken eines so abstrakten Typs werden auch als Phrasenstrukturgrammatiken bezeichnet. Für die formale Beschreibung von „Wörtern“ von L(G) wird hier eine abstrakte Phrasenstruktur eingesetzt. Als einleitendes Beispiel soll der Satz: „Der Mann sieht die Frau.“1 in diese Struktur zerlegt werden. Die nachfolgende Grafik zeigt die erste Unterteilungsmöglichkeit des Satzes in eine Phrasenstruktur. Abbildung 2: zerlegter Satz in Phrasen Die Grammatik soll dann die folgende Struktur haben: N={S, NP, VP, N, V, Det}. Dabei bedeuten S- Satz, NP- Nominalphrase, VP- Verbalphrase, N- Nomen, V- Verb, Det- Determinator T={mann, frau, sieht, der, die} V=S P={SNP.VP, NPDet.N, VPV.NP, Nmann, Nfrau, Vsieht, Detder, Detdie} 1 Damit eine möglichst einfache Betrachtung erreicht werden kann, werden künftig in allen Beispielen durchgängig in Terminalen nur kleine Buchstaben verwendet. Nichtterminale beginnen mit einem Großbuchstaben. Beispiel 14 Kontextfreie Grammatik In der Comptuerlinguistik wird mit Phrasenstrukturgrammatiken einer besonderen Art gearbeitet: Eine Grammatik heißt kontextfreie Grammatik, wenn ihre Produktionsregeln eine eingeschränkte Form haben. Definition: Eine kontextfreie Grammatik ist eine Grammatik 𝐺 = (𝑁, 𝑇, 𝑃, 𝑉) mit der zusätzlichen Bedingung 𝑃 ⊆ 𝑁 𝑥 (𝑁𝑇)∗ . Erläuterung zur Grammatik: T bildet die Menge der Terminale. Das sind die Zeichen, aus denen die Wörter gebildet werden. Ein Terminalsymbol kann innerhalb einer Produktionsregel nicht weiter zerlegt werden. Um Verwirrungen im Zusammenhang mit den Begriffen “Satz“, „Buchstabe” oder Wort der natürlichen Sprache auszuschließen, sei hier darauf hingewiesen, dass es aufgrund der thematischen Überlagerungen zwischen der Computer-Linguistik und der natürlichen Sprache bedeutungsfremde Überschneidungen gibt. Die Buchstaben sind in diesem Zusammenhang die Wörter des Satzes: der, mann, sieht, die, frau. Dabei bildet also etwa „der“ einen einzigen Buchstaben. Der gesamte Satz ist in der Computer-Linguistik als ein Wort zu verstehen. Die Grammatik beschreibt also streng genommen in Hinblick auf die ComputerLinguistik nun nicht wie man Sätze bildet, sondern wie man alle Wörter einer Sprache erzeugen kann. Die Menge N der Nichtterminalen sind sprachlich abstraktere Hilfskonstrukte der Grammatik, die für Strukturen der Sprache stehen. Diese werden über eine Produktionsregel nach und nach durch Terminale ersetzt. Innerhalb eines Wortes finden sich daher keine Nichtterminale wieder. Aus dem Beispiel aus Error! Reference source not found. lassen sich folgende Nichtterminale bilden: N={Satz, NP, VP, Det, N,V} Die Produktionsregeln bestimmen die Strukturen. So sagt etwa die obige Regel SNP VP, dass ein S (Satz) aus einer NP (Nominalphrase) und einer VP (Verbalphrase) besteht. 15 Das Startsymbol der Beispielgrammatik ist S. Hier wird bestimmt, als was das zu untersuchende Konstrukt analysiert werden soll, im Beispiel also als ein S, ein Satz. In der Computerlinguistik wird oft sogar mit Grammatiken gearbeitet, bei Bemerkung denen P eine noch weiter eingeschränkte Form hat: 𝑃 ⊆ 𝑁𝑥𝑁 ∗ ∪ 𝑁𝑥𝑇. Dabei stehen Regeln der Form 𝑁𝑥𝑁 ∗ für eine Struktur und Regeln der Form 𝑁𝑥𝑇 beschreiben das Wortinventar. 4.3 Ableitungen Grammatiken Die formale Ableitungsrelation beruht auf den Produktionsregeln: Definition: Ein Wort 𝑤1 (N ∪ T)∗ kann in einem Schritt in ein 𝑤2 (N ∪ T)∗ abgeleitet werden, in Zeichen: 𝑤1 𝑤2, wenn 𝑤1 ein Nichtterminales N und P eine Produktion der Form Nw enthalten, so dass 𝑤2 sich von 𝑤1 nur dadurch unterscheidet, dass N durch w ersetzt wurde. Will man über Ableitungen mit mehr als einem Schritt reden, so muss mit der Relation * , der reflexiven, transitiven Hülle von gearbeitet werden. Die Anwendung einer kontextfreien Produktionsregel bei einem Ableitungsschritt hängt also nur davon ab, ob die linke Seite der Regel, welche ja nur aus einem Nichtterminalen besteht, in der zu bearbeitenden Zeichenkette vorkommt. Der Kontext des Nichtterminalen spielt dabei keine Rolle. Das erklärt den Namen „kontextfrei“. Aus der Anwendung der Produktionsregel würde z.B. das Wort: „der mann sieht die frau“ aus dem Anfangssymbol S folgendermaßen abgeleitet werden können: (*) S NP. VP Det. N.VP der. N. VP der. mann. VP der. mann.V. NP der. mann. sieht. NP der. mann. sieht. Det. N der. mann. sieht. die. N der. mann. sieht. die. frau 16 Auf diese Weise definiert jede Grammatik eine Sprache, wobei wir uns hier nur für kontextfreie Grammatiken interessieren.. Definition: Sei G eine kontextfreie Grammatik. Die Sprache der Grammatik ist dann definiert durch L(G) = {w ∈ T*| V * w}. L(G) beschreibt also die Menge aller Wörter, die sich auf diese Weise mit Hilfe der Produktionen von G ableiten lassen. Übungsaufgabe: Überlegen Sie sich, dass sich jede kontextfreie Sprache auch durch eine Grammatik mit der eingeschränkten Form 𝑃 ⊆ 𝑁𝑥𝑁 ∗ ∪ 𝑁𝑥𝑇 beschreiben lässt. Wie man leicht sieht, ist die Ableitung eines Wortes nicht eindeutig. Wir hätten im Beispiel auch wie folgt vorgehen können: (**) S NP. VP NP.V. NP NP.V. Det.N NP.V. Det. frau NP.V. die. frau NP. sieht. die. frau Det. N. sieht. die. frau Det. mann. sieht. die. frau der. mann. sieht. die. frau Definition: Eine Ableitung heißt Linksableitung, wenn in jedem Ableitungsschritt das am weitesten links stehende Nichtterminale ersetzt wird. Entsprechend wird eine Rechtsableitung definiert. Neben den eben gesehenen Beispielen einer Links- und einer Rechtsableitung gibt es in der Regel weitere Beispiele für Ableitungen eines Wortes mit Hilfe einer Grammatik. Übungsaufgabe: Finden Sie weitere Beispiele für Ableitungen des Wortes „der mann sieht die frau“. 17 4.4 Ableitungsbäume Die Ableitung eines Wortes mit Hilfe einer kontextfreien Grammatik wird im Ableitungsbaum allgemeinen durch einen Ableitungsbaum beschrieben. Ableitungsbäume sind dabei nicht einem Wort zugeordnet sondern der Ableitung des Wortes. Bäume sind zyklenfreie zusammenhängende Graphen. Ein ausgezeichneter Knoten, in Abbildungen meistens der oberste, wird Wurzel genannt. Von der Wurzel gibt es zu jedem Knoten genau einen Weg. Ableitungsbäume werden folgendermaßen von der Wurzel aus konstruiert: Sei S=w0 w1 … wn=w eine Ableitung des Wortes w. Jedem wi wird induktiv ein Baum Bi zugeordnet. Als Invariante gelte dabei, dass das Wort wi in den Blättern von Bi von links nach rechts zu lesen ist. Der Baum B0 besteht nur aus dem Startsymbol S. Sei schon Bi konstruiert. Der Übergang wi wi+1 wird dadurch realisiert, dass wi ein Nichtterminales N enthält und es eine Produktionsregel Nx1…xk gibt, so dass wi+1 durch die entsprechende Ersetzung entsteht Dann entstehe Bi aus Bi+1 dadurch, dass x1,…,xk als neue Knoten hinzugefügt werden mit einer Kante vom entsprechenden N zu jedem der neuen xi. Entsprechend der Konstruktion ist damit die Invariante aufrecht erhalten. Der Prozess endet, sobald sich in den Blättern keine Nichtterminalen mehr finden und daher keine Produktionsregeln mehr angewendet werden können. Für Ableitungsbäume gilt gemäß Konstruktion generell: 1. Innere Knoten sind Nichtterminale. 2. Blätter sind Terminale. 3. Der analysierte Ausdruck wird in den Blättern von links nach rechts gelesen. Bemerkung 18 S NP VP Det N V der mann sieht NP Det N die frau Abbildung 3: Ableitungsbaum Wird bei der Konstruktion des Ableitungsbaumes gemäß der Linksableitung (*) vorgegangen, so entstehen die Knoten in Abbildung 1 in der Reihenfolge eines „left-first-Durchlaufs“. Wie der aufmerksame Leser unschwer feststellt, tritt bei dieser Konstruktion eines Ableitungsbaumes ein gewisser Nichtdeterminismus auf. Wir hätten aber auch in der Reihenfolge der Rechtsableitung (**) vorgehen können. Dann wären die Konten in Abbildung 1 in der Reihenfolge eines „right-first-Durchlaufs“ entstanden. Bei anderen Ableitungsreihenfolgen wären auch die Knoten des Baumes in anderer Reihenfolge entstanden. In jedem Falle wäre der Baum, den man als Ergebnis erhält aber der gleiche. Übungsaufgabe: Machen Sie sich genau klar, wieso diese Form des Nichtdeterminismus, bei der nur die Reihenfolge der Ableitungsschritte sich ändert, bei kontextfreien Grammatiken (im Gegensatz zu allgemeineren Grammatikklassen) keine Rolle spielt. Genau hier liegt der Grund, dass Ableitungsbäume in den allgemeineren Klassen keine Rolle spielen. 19 4.5 Mehrdeutigkeit Wir halten einige Ergebnisse bezüglich des Nichtdeterminismus bei Ableitungsbäumen fest: 1. Jeder Ableitung entspricht genau ein Baum. 2. Jedem Baum entsprechen im allgemeinen mehrere Ableitungen, bei denen die gleichen Ableitungsschritte, allerdings in unterschiedlicher Reihenfolge, angewendet werden. 3. Jedem Baum entspricht genau eine Links- und genau eine Rechtsableitung. 4. Warnung: Es kann aber auch zwei oder mehr verschiedene Bäume für den gleichen Ausdruck geben, dann aber auch für jeden Baum eine Links- und eine Rechtsableitung. 5. Zwei Ableitungsbäume für einen Ausdruck sind unerwünscht 6. Vermeidungsstrategien: im Beispiel Punkt vor Strichrechnung oder Anpassung der Grammatik 7. Diese Strategien funktionieren in natürlichen Sprachen häufig nicht Zwei Ableitungsbäume für einen Ausdruck weisen auf unterschiedliche Lesarten hin und sind daher unerwünscht. Das soll jetzt für ein anschauliches Beispiel aus der Arithmetik illustriert werden: Beispiel: Arithmetische Ausdrücke können durch die folgende Grammatik erzeugt werden: Exp Zahl |Variable |(Exp) | Exp op Exp op + | - | * | / Streng genommen, müsste eine leicht erweiterte Version betrachtet werden, in der auch noch erklärt wird, was als Zahlen und Variablen zulässig ist. Das ist in dieser Form in der Praxis (Compilerbau) aber nicht üblich. Der Ausdruck 1+2∙3 kann zwei Lesarten haben, die sich in zwei Ableitungsbäumen zeigen: Der erste Ableitungsbaum rechtfertigt sich durch die Linksableitung Bemerkung 20 Exp Exp op Exp Exp op Exp op Exp Zahl op Exp op Exp 1 op Exp op Exp Exp Exp op Exp Zahl + Zahl 1 Exp op Zahl ∙ 3 2 Abbildung 2: Ableitungsbaum Exp 1 + Exp op Exp 1 + Zahl op Exp 1 + 2 op Exp 1 + 2 * Exp 1 + 2 * Zahl 1 + 2 * 3 Der zweite Ableitungsbaum entspricht einer anderen Linksableitung: Exp Exp op Zahl + 1 Exp Exp Exp Zahl op Zahl 2 ∙ 3 Abbildung 3: Ableitungsbaum Exp Exp op Exp Zahl op Exp 1 op Exp 1 + Exp 1 + Exp op Exp 1 + Zahl op Exp 1 + 2 op Exp 1 + 2 * Exp 1 + 2 * Zahl 1 + 2 * 3 Warum ist diese Mehrdeutigkeit nun unerwünscht? Die Antwort gibt das Konzept der „attributierten Grammatik“. 21 Eine attributierte Grammatik ist eine kontextfreie Grammatik, bei der Nichtterminale um einen Wert, das Attribut, erweitert sind. Zusätzlich gibt es Regeln und Bedingungen für die Berechnung dieser Attribute. Für die Art, wie Attributberechnungen erfolgen können, gibt es ausgefeilte Methoden im Compilerbau. Wir werden uns für die Computerlinguistik in diesem und in späteren Kapiteln auf den (einfachen) Fall beschränken, dass die Auswertung bottom up, also induktiv, erfolgt.2 Der Induktionsanfang wird dadurch gelegt, dass der Attributwert für die relevanten Blätter bekannt ist und es Regeln gibt, mit deren Hilfe sich der Attributwert des Vaterknotens aus den Werten seiner Kinderknoten errechnen lässt. In Abbildung 5 ist der Ableitungsbaum aus Abbildung 4 um ein in rot gehaltenes Attribut, den Wert, erweitert. Hier handelt es sich um ein Exp/9 Exp/3 Exp/1 Zahl/1 op/* op/+ Exp/2 +/+ Zahl/2 1/1 ∙/* Exp/3 Zahl/3 3/3 2/2 Abbildung 4: Ableitungsbaum mit Attributen synthetisches Attribut. Übungsaufgabe: Wie sehen die Attributwerte für den Ableitungsbaum aus Abbildung 1 aus? Es ergeben sich also, abhängig von den Ableitungsbäumen, zwei verschiedene Attributwerte für die Wurzel und damit für den gesamten arithmetischen Ausdruck. Im täglichen Leben wird dies durch allgemein akzeptierte Regeln 2 Man spricht hier von synthetischen Attributen und S-attributierten Grammatiken. Eine umfangreichere Klasse sind die im Compilerbau häufig benutzten L-attributierten Grammatiken. Bei diesen ist eine reine bottom-up-Bearbeitung nicht mehr möglich. 22 nach Möglichkeit umgangen, es wird also intuitiv der „richtige“ Baum ausgewählt . Beim ersten Ableitungsbaum ist etwa die mathematische Regel „Punktrechnung geht vor Strichrechnung“ missachtet worden. Was ist nun bei der Mehrdeutigkeit anders als beim Nichtdeterminismus des vorhergehenden Unterkapitels? Der Vergleich der beiden Linksableitungen für den arithmetischen Ausdruck 1+2*3 gibt die Antwort: Beim ersten Schritt Exp Exp op Exp sind beide Ableitungen noch identisch, aber im folgenden Schritt wird eine Ableitung durchgeführt, die bei der jeweils anderen Linksableitung, nie, auch nicht zu einem späteren Zeitpunkt, vorkommt. Der Schritt Exp op Exp Exp op Exp op Exp in der ersten Ableitung wird dadurch bewirkt, dass das linke Exp – wir sind in einer Linksableitung! – durch den Ausdruck Exp op Exp ersetzt wird. Bei der zweiten Ableitung wird an dieser Stelle die Regel Exp Zahl angewandt, was ausschließt, dass für das erste Exp des Ausdrucks jemals die Regel Exp Exp op Exp benutzt werden kann, wie bei der ersten Ableitung. Also können die beiden Ableitungen sich nicht nur in der Reihenfolge der Ableitungsschritte unterscheiden, sondern sogar in Art der Ableitungsschritte. Dem spricht nicht entgegen, dass auch in der zweiten Ableitung einmal die Regel Exp Exp op Exp herangezogen wird. Sie wird aber auf das zweite (und nicht das erste) Vorkommen des Nichtterminalen Exp nach dem ersten Ableitungsschritt angewandt. Man steht also nach dem ersten Schritt Exp Exp op Exp vor der zunächst nur schwer zu lösenden aber mit gravierenden Konsequenzen behafteten Frage, ob das linke Exp mit der Regel Exp Exp op Exp oder mit der Regel Exp Zahl behandelt werden soll. Auch hier tritt also ein gewisser Nichtdeterminismus auf. Bemerkung: Der Umgang mit dieser Art des Nichtdeterminismus unterscheidet die Syntaxanalyse bei formalen und bei natürlichen Sprachen ganz erheblich: 1. Formale Sprachen sind setzend („normativ“) Es kann schon bei der Definition etwa einer Programmiersprache von Anfang an darauf geachtet werden, dass es eine Grammatik mit den gewünschten Eigenschaften, beispielsweise der Abwesenheit von Mehrdeutigkeit, tatsächlich gibt. 23 2. Bei den beschreibenden („deskriptiven“) Grammatiken für natürliche Sprachen ist ein solcher Ansatz nicht möglich. Im allgemeinen ist zum Beispiel Mehrdeutigkeit einer Grammatik gar nicht zu vermeiden. Es gibt nun einmal für manche Sätze syntaktisch mehrere Lesarten. Entsprechend gibt es verschiedene Strategien für den Umgang mit diesem Nichtdeterminismus: 1. Bei formalen Sprachen wird eine Sprache gemeinsam mit einer angemessenen Grammatik entworfen. Im Compilerbau gibt es beispielsweise die LR(n) – Grammatiken, mit deren Hilfe durch Betrachtung von n Eingabeelementen Mehrdeutigkeit vermieden werden kann. S-Attribute können vernünftig ausgewertet werden. Sollen sogar L-Attribute gut ausgewertet werden können, so müssen die einschränkenderen LL(n) – Grammatiken verwendet werden. 2. Bei formalen Sprachen könnte der Nichtdeterminismus einfach ignoriert und die richtige Produktion einfach geraten werden. Das dann erforderliche Backtracking würde aber zu erheblichen Kosten im Verlauf der praktischen Analyse führen. Ein sinnvolles Ziel ist daher die Verringerung dieser Kosten durch intelligentere Datenstrukturen, zum Beispiel die im nächsten Kapitel eingeführten Charts. 24 5 Parsing Lat. Pars = Teil Parsing Parsing ist im Allgemeinen eine automatische Zerlegung von komplexen Zeichenketten nach vorgegebenen Mustern. Alle Parsing Verfahren haben dabei die folgenden Eigenschaften gemeinsam: 1. Eingabe: ↳ Formale Beschreibung einer Sprache, meist eine (oft kontextfreie) Grammatik und ↳ ein sprachlicher Ausdruck, welcher zerlegt werden soll. 2. Ausgabe: ↳ Ja/Nein als Antwort auf die Frage, ob die gegebene Zeichenkette zur Sprache gehört oder nicht. In diesem Falle spricht man auch von einem „recogniser“. Oder: ↳ eine Datenstruktur, etwa ein Ableitungsbaum, die zur Grundlage weiterer Verarbeitungsschritte wird. Ein erster Arbeitsschritt ist es, die gegebene Zeichenkette in ihre elementaren Bestandteile, oft „token“ genannt, zu zerlegen und die gefundenen Bestandteile möglichst schon zu klassifizieren. Beispiel: Der Ausdruck „der mann sieht die frau“ ist für den Computer zunächst eine einzige große Zeichenkette, die elementaren Teilzeichenketten „der“, „mann“, „sieht“, „die“, „ frau“ zerlegt werden muss. Diese Aufgabe ist nicht so einfach, wie es auf den ersten Blick scheinen mag. Denn das Leerzeichen ist nicht der einzige Trenner und die Struktur der Trennzeichen kann kompliziert sein. Ein Programm, das die Zerlegung in token bewirkt, wird „Lexer“ genannt. Lexer arbeiten meist mit Hilfe von endlichen Automaten. Der Komplexität der Arbeit eines Lexers entspricht es, ihn dann nach Möglichkeit auch schon zu einer Klassifizierung der token zu verwenden. 5.1 Backtrack-Parsing Beim Backtrack-Parsing wird zu jedem Zeitpunkt auf einer Datenstruktur der Form (w1, w2) gearbeitet. Dabei beschreiben 𝑤1 ∈ (𝑇 ∪ 𝑁)∗ als was der Rest 25 der Eingabe analysiert werden soll und 𝑤2 ∈ 𝑇 ∗ das entsprechende Endstück der Eingabe. Die initiale Datenstruktur hat die Form (S,w). Dabei sind S das Startsymbol der Grammatik und w das zu untersuchende Eingabewort. Im Algorithmus werden dann drei Schritte immer wieder vorgenommen. 1. EXPAND ↳ Falls w1 mit einem Nichtterminalen N beginnt, wird N zu der rechten Seite w einer Grammatik-Produktion der Form N w expandiert. Hier findet also ein Raten statt, welche der Grammatik-Produktionen genommen werden muss, falls es mehrere mit der linken Seite N gibt. 2. SCAN ↳ Falls w1 mit einem Terminalen T beginnt, wird T mit dem ersten Symbol des Eingaberestes w2 verglichen. Steht auch dort ein T, werden die beiden initialen Symbole T gestrichen. Steht dort ein anderes Terminales, so wird ein Backtrack nötig. 3. Backtrack ↳ Es werden alle Schritte ungültig gemacht bis zum letzten EXPAND, bei dem willkürlich eine Grammatik-Produktion der Form N w geraten und expandiert wurde. Hier wird also einfach vermutet, dass beim letzten Mal falsch geraten wurde. Wurden noch nicht alle Grammatik-Produktionen der Form N w ausprobiert, kann mit einer anderen derartigen Grammatik-Produktion fortgefahren werden. Sonst muss noch weiter zu einer früheren Stelle zurückgegangen werden, an der noch die Auswahl einer bisher ungenutzten Regel möglich ist. Das Verfahren kann mit zwei Ergebnissen enden: 1. Beim Backtrack wird keine vorhergehende Stelle gefunden, bei der noch weitere bisher ungenutzte Produktionsregeln vorhanden sind. Dann ist w kein Element der durch die Grammatik beschriebenen Sprache. 26 2. Es wird die Konfiguration (ε, ε), also auf beiden Seiten das leere Wort, erreicht. Dann ist das Wort w in der Sprache enthalten. Es ist leicht, den Algorithmus so auszubauen, dass nebenher ein Ableitungsbaum konstruiert wird, falls einer existiert. Beispiel Beispiel: Im folgenden wird davon ausgegangen, dass für die möglichen Regeln eine feste Reihenfolge vorgegeben ist. Die EXPAND-Schritte sollen immer genauso abgearbeitet werden. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. (S, der mann sieht die frau) (NP VP, der mann sieht die frau) (Det N VP, der mann sieht die frau) (der N VP, der mann sieht die frau) (N VP, mann sieht die frau) (mann VP, sieht die frau) (VP, sieht die frau) (V NP, sieht die frau) (sieht NP, sieht die frau) (NP, die frau) (Det N, die frau) (der N, die frau) (die N, die frau) (N, frau) (mann, frau) (frau, frau) (ε,ε) EXPAND EXPAND EXPAND SCAN EXPAND SCAN EXPAND EXPAND SCAN EXPAND EXPAND kein SCAN, backtrack SCAN EXPAND kein SCAN, backtrack SCAN Endkonfiguration Tabelle 5-1: Beispiel Backtrack-Parsing Damit ist algorithmisch nachgewiesen, dass „der mann sieht die frau“ L(G) ist. 27 5.2 Chart-Parsing Um Mehrfachanalysen eines Satzteiles zu vermeiden, hat man das Chart- Chart-Parsing Parsing entwickelt. Das Chart-Parsingverfahren zeichnet sich dadurch aus, dass es sich bereits analysierte Teile eines Satzes merkt. Definition: Definition 1. Ein Chart ist eine endliche Folge von Items. 2. Ein Item ist eine Struktur 𝑛1 𝑛2 𝑤1 → 𝑤2 ∙ 𝑤3 . Dabei sind 𝑛1 𝑛2 ∈ 𝑁0 , 𝑛1 ≤ 𝑛2 , 𝑤1 → 𝑤2 𝑤3 ∈ 𝑃. Die intuitive Bedeutung soll an einem Beispiel erläutert werden: Bei einer Analyse von „0 der 1 mann 2 sieht 3 die 4 frau 5“ entsteht an einer Stelle des Algorithmus das Item 𝑛1 𝑛2 𝑤1 → 𝑤2 ∙ 𝑤3 mit 𝑛1 = 0, 𝑛2 = 2. Der Rest des Items habe die Form 𝑆 → 𝑁𝑃 ∙ 𝑉𝑃. Die Zahlen zeigen an, welche Teile schon analysiert und bestimmt sind. Der Punkt trennt den schon analysierten und bestimmten Teil von der Vorhersagekomponente, dem noch spekulativen Rest. Hier würde das bedeuten, dass die von 0 bis 2 reichende Zeichenkette „0 der 1 mann 2“ bereits bestimmt ist. Und da sich links des Punktes das Nichtterminale NP befindet, wissen wir auch, als was der Teil von 0 bis 2 analysiert worden ist: als Nominalphrase (NP). Zusätzlich wissen wir: Können wir den Rest als VP bestimmen (soweit die Spekulation), dann ist das ganze Konstrukt ein S, ein Satz. Der am weitesten verbreitete Chart-Parsing- Algorithmus ist der 1970 von Jay Earley vorgestellte Earley-Algorithmus. Er zeichnet sich besonders dadurch aus, dass er kein Backtracking nutzt. Es werden zeitgleich alle Alternativen verfolgt. Am Ende des Parsingvorgangs sind alle alternativen Syntaxanalysen in der Chart. Eingabe: Eine kontextfreie Grammatik G, ein Wort W der Länge n Ausgabe: ja, wenn W ℒ(G) nein sonst Es ist auch leicht, den Algorithmus so zu modifizieren, dass für den Fall W ℒ(G) ein Ableitungsbaum für W ausgegeben wird (oder sogar alle). Beispiel 28 Zu Anfang stehen Items eines einzigen Typs in der Chart. Dies soll jetzt für die Zeichenkette „0 der 1 mann 2 sieht 3 die 4 frau 5“ erläutert werden: Diese soll als ein Satz (S) analysiert werden. Für das Nichtterminale S gibt es hier nur eine Regel S NP VP. Zu Anfang ist alles von der 0-ten bis zur 0-ten Stelle analysiert, also n1 = n2 = 0. Der Punkt steht anfangs ganz links, da noch nichts sicher analysiert und der weitere Verlauf noch Spekulation ist. Am Anfang gilt dort also S ∙ NP VP, und damit wird das Item 0 0 S ∙ NP VP in die Chart eingefügt. Im allgemeinen Fall müssen zum Start alle Items des Typs 0 0 V ∙ w in die Chart eingefügt werden. Dabei seien V das Startsymbol der Grammatik und V w alle Produktionen mit V als rechter Seite. Im Wesentlichen besteht der Earley-Algorithmus aus drei Schritten, die immer in einer geeigneten Reihenfolge wiederholt werden: - Expand oderPredict, - Scan, - Complete. Der Algorithmus terminiert, wenn ein Item 0 𝑛 𝑉 → 𝑤 ∙ aufgefunden wird. Alternativ kann auch nach allen Items des Typs 0 𝑛 𝑉 → 𝑤 ∙ gesucht werden. Dabei seien n die Länge des zu untersuchenden Wortes, V das Startsymbol der Grammatik und V w alle Produktionen mit V als rechter Seite. Diese Schritte des Algorithmus werden anhand eines auch später bedeutenden Beispiels näher erklärt. Wir versuchen wieder die Zeichenkette „der mann sieht die frau“ abzuleiten und zwar mittels einer Grammatik mit dem Startsymbol S und den Produktionsregeln 𝑆 → 𝑁𝑃 𝑉𝑃, 𝑁𝑃 → 𝐷𝑒𝑡 𝑁 , 𝑉𝑃 → 𝑉 | 𝑉 𝑁𝑃 , 𝑉 → 𝑖𝑠𝑠𝑡|𝑠𝑖𝑒ℎ𝑡 , 𝑁 → 𝑚𝑎𝑛𝑛|𝑓𝑟𝑎𝑢 , 𝐷𝑒𝑡 → 𝑑𝑒𝑟|𝑑𝑖𝑒. 29 Das Ergebnis des Algorithmus ist die folgende Chart. An der Existenz des Items 30 ist zu sehen, dass die Ableitung erfolgreich war. Danach wird erläutert 1. welches die drei Schritte des Algorithmus genau sind, und 2. wie die Reihenfolge ihrer Anwendung gesteuert wird. ItemBereich Nr. 1 0 0 2 0 0 3 0 0 4 0 0 5 0 1 6 0 1 7 1 1 8 1 1 9 1 2 10 0 2 11 0 2 12 2 2 13 2 2 14 2 2 15 2 2 16 2 3 17 2 3 18 2 3 19 0 3 20 3 3 21 3 3 22 3 3 23 3 4 24 3 4 25 4 4 26 4 4 27 4 5 28 3 5 29 2 5 30 0 5 Item Konstruiert durch S ∙ NP VP NP ∙ Det N Det ∙ der Det ∙ die Det der ∙ NP Det ∙ N N ∙ mann N ∙ frau N mann ∙ NP Det N ∙ S NP ∙ VP VP ∙ V VP ∙ V NP V ∙ isst V ∙ sieht V sieht ∙ VP V ∙ VP V ∙ NP S NP VP ∙ NP ∙ Det N Det ∙ der Det ∙ die Det die ∙ NP Det ∙ N N ∙ mann N ∙ frau N frau ∙ NP Det N ∙ VP V NP ∙ S NP VP ∙ Initial Expand 1 Expand 2 Expand 2 Scan 3 Complete 5 + 2 Expand 6 Expand 6 Scan 7 Complete 9+6 Complete 10+1 Expand 11 Expand 11 Expand 12+13 Expand 12+13 Scan 15 Complete 16+12 Complete 16+13 Complete 17+11 Expand 18 Expand 20 Expand 20 Scan 22 Complete 23+20 Expand 24 Expand 24 Scan 26 Complete 27+24 Complete 28+18 Complete 29+19 Tabelle 5-2: Earley-Algorithmus Die Schritte des Verfahrens: Verbleibender Text der mann sieht die frau der mann sieht die frau der mann sieht die frau der mann sieht die frau mann sieht die frau mann sieht die frau mann sieht die frau mann sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau die frau die frau die frau die frau die frau die frau die frau frau frau frau frau ε ε ε ε 30 Expand Wir brauchen in der Chart ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑋 𝛾 (Predict) mit 𝛼 ∈ 𝑁, 𝛽 ∈ (𝑁 ∪ 𝑇)∗ , 𝑥 ∈ ℕ, 𝛾 ∈ (𝑁 ∪ 𝑇)∗ und in P muss es eine Produktionsregel X δ geben. Dann können wir zum Chart ein Item der Form n2 n2 X ∙δ hinzufügen. Scan Wir brauchen in der Chart ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑡 𝛾 mit ni, α, β, γ wie oben und tT; und im zu analysierenden Satz, muss an Position n2+1 ein t stehen. Dann kann dem Chart ein Item der Form n1 n2+1 𝛼 → 𝛽 𝑡 ∙ 𝛾 hinzugefügt werden. Complete Wir brauchen ein Item der Form n1 n2 𝛼 → 𝛽 ∙ und ein Item der Form n3 n1 γ δ ∙ α ε mit γ N, β T, α N, δ, ε (N ∪ T)*. Dann kann ein Item der Form n3 n2 γ δ α ∙ε hinzugefügt werden. Der Ablauf des Verfahrens wird wie folgt gesteuert: Es gibt im Verlauf immer ein aktuelles Item, das zur Produktion neuer Items benutzt wird, die dann hinten an die Chart gehängt werden. Das Verfahren endet, wenn alle Items schon zur Konstruktion neuer Items benutzt worden sind und kein neues aktuelles Item gefunden werden kann. Anfangs ist das aktuelle Item das Startitem. In jedem Schritt gibt es drei Möglichkeiten: 1. Falls beim aktuellen Item hinter dem Punkt ein Nichtterminales n steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑛 𝛾 vorliegt, werden Expand-Schritte durchgeführt: Für jede Produktionsregel der Form n δ wird ein Item der entsprechenden Form angehängt. 2. Falls beim aktuellen Item hinter dem Punkt ein Terminales t steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑡 𝛾 vorliegt, wird ein Scan-Schritt versucht. Findet sich an der Stelle n2+1 im zu analysierenden Wort ebenfalls ein t, wird ein Item der entsprechenden Form angehängt. 3. Falls beim aktuellen Item hinter dem Punkt nichts mehr steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ vorliegt, wird ein Complete-Schritt versucht. Es werden in der Chart Items der Form n3 n1 w1 δ ∙ α w2 gesucht und im Erfolgsfall die entsprechenden Items angehängt. 31 Übungsaufgabe: Wie muss der Algorithmus modifiziert werden, damit nicht nur eine ja/nein-Entscheidung als Ergebnis herauskommt sondern ein Ableitungsbaum? 32 6 Lexikalisch Funktionale Grammatik (LFG) Im Folgenden wählen wir uns zwei wichtige Probleme der Computerlinguistik aus, die im Prinzip auch mit kontextfreien Grammatiken und dem EarleyAlgorithmus gelöst werden könnten: 1. der Kongruenz, 2. der Subkategorisierung. Kongruenz Punkt1 bedeutet: In der deutschen Sprache besteht Kongruenz, also Übereinstimmung zwischen den zusammengehörenden Satzteilen bezüglich Kasus (Nominativ, Genitiv, Dativ, Akkusativ), Numerus (Singular/Plural) und Genus (männlich/weiblich). In der Sprache des obigen Beispiels lässt sich auch die im Rahmen der deutschen Sprache ungrammatische Nominalphrase „die mann“ ableiten. Die Konstruktion ist ungrammatisch, weil sie gegen die Kongruenz verstößt. Es ist ohne Kenntnis des Kontextes unklar, in welcher Weise dies hier geschieht. 1. Es könnte sich um einen Verstoß bezüglich des Genus handeln. Richtig wäre dann „der mann“. 2. Liegt hingegen ein Verstoß bezüglich des Numerus vor, wäre entweder „der mann“ oder „die männer“ richtig. Subkategorisierung Punkt 2 bedeutet, dass einige Wörter/Phrasen Leerstellen mit bestimmten Eigenschaften eröffnen. Diese Leerstellen müssen durch Satzteile ausgefüllt werden. Als Beispiel für Leerstellen seien einige mögliche Werte für die Stelligkeit der Verben genannt: Neben der obligatorischen Forderung eines Subjekts im 1. Fall erfordern (mit den verlangten Kasus) in Klammernh schlafen (-) sehen (4) transitive Verben anklagen (4,2) transitive Verben geben (3,4) transitive Verben kosten (4,4) gedenken (2) vertrauen (3) 33 Andere Beispiele für obligatorisch eröffnete Leerstellen sind etwa - Präpositionalphrasen bei Verben („Er wohnt in Berlin.“), - Nominalphrasen nach Präpositionen („über den Wolken.“). 6.1 Defizite von kontextfreien Grammatiken Um die Kongruenz in Nominalphrasen zu sichern, könnte man folgenden Ansatz versuchen: Es gibt nicht nur das Nichtterminale NP, sondern es werden im Nichtterminalen gleich Indizes mit den entsprechenden Attributen angegeben. So könnte die Nominalphrse „der mann“ erszeugt werden mit Hilfe der Regeln NPNom,Sg,mask Det Nom,Sg,mask N Nom,Sg,mask Det Nom,Sg,mask der N Nom,Sg,mask mann Wird diese Idee konsequent verfolgt, sind Konstruktionen wie „die mann“ ausgeschlossen. Ähnlich könnte man beim Problem der Subkategorisierung vorgehen: Die verschiedenen Ergänzungen für Verben könnten folgendermaßen ins Spiel gebracht werden: VP V | V4 NP4 | V4,2 NP4 NP2 | V3,4 NP3 NP4 | … V schläft V4 sieht V4,2 beschuldigt V3,4 gibt NP4 NPAkk,Sg,mask | NPAkk,Sg,fem | NPAkk,Sg,neutr |NPAkk,Pl,mask | NPAkk,Pl,fem | NPAkk,Pl,neutr Schon dieses winzige Beispiel zeigt, dass die Indizes sehr schnell über jedes Maß an Verständlichkeit wachsen. Deshalb müssen andere Wege gegangen werden. 34 6.2 F-Strukturen Statt mit unübersichtlichen Indizes zu arbeiten verlagert man die entsprechenden Informationen in eigene Strukturen aus, die im Rahmen der LFG auch F-Strukturen genannt werden. Jedem Knoten des Ableitungsbaumes ist dabei eine F-Struktur zugeordnet. F-Strukturen sind verallgemeinerte Funktionen Diese haben Merkmalsstrukturen mit syntaktischen Funktionen (Subjekt, Prädikat, Adjunkt). Es werden Informationen mit verschiedenen funktionalen Relationen zwischen Satzteilen koordiniert. Jede F-Struktur besitzt Attribute, welche in einem spezifischen Wertebereich definiert sind. Numerus {𝑆𝑖𝑛𝑔𝑢𝑙𝑎𝑟, 𝑃𝑙𝑢𝑟𝑎𝑙, 𝐷𝑢𝑎𝑙} Person {1, 2, 3} Genus {𝑀𝑎𝑠𝑘𝑢𝑙𝑖𝑛, 𝐹𝑒𝑚𝑖𝑛𝑖𝑛𝑢𝑚, 𝑁𝑒𝑢𝑡𝑟𝑢𝑚} Kasus {𝑁𝑜𝑚𝑖𝑛𝑎𝑡𝑖𝑣, 𝐴𝑘𝑘𝑢𝑠𝑎𝑡𝑖𝑣, 𝐺𝑒𝑛𝑖𝑡𝑖𝑣, 𝐷𝑎𝑡𝑖𝑣 … } Tempus {𝑃𝑟ä𝑠𝑒𝑛𝑠, 𝑃𝑟ä𝑡𝑒𝑟𝑖𝑡𝑢𝑚 … } Diese Attribute können drei Arten von Werten annehmen. Dieser Wert kann ein autonomes Symbol sein z.B. ein indikatives Merkmal [Modus Indikativ]. Ebenso kann es so genannte semantische Formen enthalten. Semantische Formen kommen nur als Wert des Attributes PRED (predictor) vor und werden in ′… ′ eingeschlossen. Der Wert eines Attributes kann auch ebenfalls eine F-Struktur sein, dies gilt z.B. für die grammatischen Funktionen SUBJ, OBJ, OBJ2 usw. In diesem Fall spricht man von subsidiären F-Strukturen. Eine weitere Vorbemerkung ist ebenfalls nötig: Wir haben oben gesehen, dass es in der Computerlinguistik kontextfreie Regeln von zweierlei Art gibt: Strukturregeln und lexikalische Regeln. Das gesamte Vokabular wird dann in einer Datensammlung verwaltet, dem Lexikon. Wird dieser Vorgang aus einer naiven kontextfreien Perspektive betrachtet, so sind Wörter wie „siehst“, „sieht“ oder „sehen“ nur einfach Terminale ohne eine innere Verbindung. Damit diese Verbindung deutlich wird, bedarf es einer morphologischen Analyse, auf die wir noch zurückkommen werden. Vorläufig bleiben wir bei einem Lexikon, das alle grammatischen Formen eines Wortes enthält. Solche Lexika heißen Vollformenlexika. 35 6.3 Wohlgeformtheit von F-Strukturen Wohlgeformtheit von FZunächst müssen einige Bemerkungen zu den Gliedern eines Satzes gemacht werden, soweit es ihre Notwendigkeit angeht, damit der Satz noch als grammatisch richtig angesehen werden kann. So muss (im Deutschen) jeder Satz ein Prädikat und ein Subjekt haben. Einige Satzteile werden von anderen Satzgliedern eingefordert. Transitive Verben etwa verlangen ein Objekt im Akkusativ. Andere Verben haben komplexere Abhängigkeiten, zum Beispiel Präpositionalphrasen. Präpositionen verlangen eine Nominalphrase in einem vorgeschriebenen Kasus. Am Beispiel der präpositionalen Ergänzung soll die Notwendigkeit der Satzglieder illustriert werden: - Die präpositionale Ergänzung kann obligatorisch durch das Verb eingefordert werden. Beispiel: Er wohnt in Berlin. - Die präpositionale Ergänzung kann fakultativ durch das Verb hervorgerufen werden. Beispiel: Er wartet auf Godot. - Sie kann völlig unabhängig vom Verb für zusätzliche Erläuterungen benutzt werden. Dann handelt es sich um eine freie Angabe. Beispiel: Er besucht uns nach dem Essen. Bei freien Angaben ist die Einbettung, insbesondere bei komplexen Wechselbeziehungen zwischen mehreren Angaben nur schwer zu formalisieren. Das Potential für missverständliche Satzkonstruktionen ist hoch. Beispiele: Der Mann sieht die Frau mit dem Fernrohr. Er traf sie am Bahnhof hinter der Autobahn. (Zwei PP vom gleichen Typ, nämlich lokale Ergänzungen) Bei fakultativen Ergänzungen zu einem Satzteil ST kann man sich damit behelfen, dass man die Existenz von zwei Satzteilen ST1 und ST2 im Lexikon annimmt, wobei ST1 die Ergänzung verlangt und eine F-Struktur mit einer entsprechenden Leerstelle eröffnet, während ST2 ohne eine solche Ergänzung auskommt. Für die Wohlgeformtheit von F-Strukturen gibt es drei Bedingungen: 1. Funktionale Eindeutigkeit 2. Vollständigkeit 3. Kohärenz Strukturen 36 Zu erstens: Funktionale Eindeutigkeit bedeutet, dass jedes Attribut im Definitionsbereich der F-Struktur höchstens einen Wert haben darf. Die beiden anderen Eigenschaften werden zunächst lokal definiert und dann auf die gesamte F-Struktur hochgehoben. Zu zweitens: Als lokal vollständig gilt eine F-Struktur wenn alle regierbaren (obligatorischen) grammatischen Funktionen enthalten sind. Als global vollständig gilt eine F-Struktur wenn sie selbst und alle ihre subsidiären F-Strukturen lokal vollständig sind. Zu drittens: Als lokal kohärent gilt eine F-Struktur nur dann, wenn alle in ihr enthaltenen regierbaren grammatischen Funktionen durch ein lokales Prädikat regiert werden. Als global kohärent gilt eine F-Struktur dann, wenn alle ihre subsidiären Strukturen lokal kohärent sind. Vollständigkeit bedeutet also, dass nicht zu wenige Argumente vorhanden sind; Kohärenz verhindert, dass es zu viele Argumente gibt. Beispiele: Der Satz „der mann sieht“ ist unvollständig, weil das Verb „sieht“ eine Leerstelle für ein Subjekt und eine für ein Objekt eröffnet. Die subsidiäre FStruktur für das Objekt fehlt jedoch in der zu konstruierenden F-Struktur. Der Satz „der hund bellt die katze“ ist inkohärent, weil das Verb „bellt“ kein Objekt erfordert. Ein Satz kann auch unvollständig und inkohärent zugleich sein. Im der FStruktur zum Satz „der mann gibt die frau das Buch“ fehlt eine subsidiäre FStruktur für das Objekt im Dativ, was zur Unvollständigkeit führt. Stattdessen sind inkonsistenterweise zwei Akkusativobjekte vorhanden. Zunächst soll gezeigt werden, wie man die F-Strukturen für Wörter definieren kann. Diese Eigenschaften gehören also zu den lexikalischen Regeln. Die FStrukturen können ins Lexikon eingetragen werden. Beispiel für F-Strukturen in Nominalphrasen: 37 den Det Cas 4 Num Sg Gen m der Det Cas 1 2 3 2 Num Sg Sg Sg Pl Gen m f f mann N Cas 1 3 4 Num Sg Sg Sg Gen m m m frau N Cas 2 Num Sg Gen f 3 Sg f Man kann sich die Interpretation einer F-Struktur als eine Disjunktive Normalform vorstellen. Die F-Struktur für „der“ ist also zu lesen als (Cas == 1 ⋀ Num == Sg ⋀Gen==m) ⋁(Cas == 2 ⋀ Num == Sg ⋀Gen==f) ⋁(Cas == 3 ⋀ Num == Sg ⋀Gen==f) ⋁(Cas == 2 ⋀ Num == PL) Der Definitonsbereich und der Wertebereich hängen von der Sprache ab. Eine Sprache, die keine Kasus-Unterschiede kennt, braucht natürlich dort auch nichts zu definieren. Gibt es weitere wichtige Kategorien, so müssen diese auch thematisiert werden. Man könnte sich zum Beispiel vorstellen, dass die Nominalphrase „der mann“ als in der 3. Person befindlich gekennzeichnet werden könnte. Damit kann dann später die Kongruenz bei der Verwendung von „der mann“ als Subjekt mit einem Prädikat, das ebenfalls in der 3. Person steht, erzwungen werden. Im Russischen könnte man noch „Belebtheit“ betrachten. Dann käme oft in den Konjunktionstermen noch der Ausdruck „belebt == +“ oder „belebt == -“ hinzu. Wie man an dem Beispiel für „der“ , wo im letzten Fall das Genus nicht spezifiziert ist, sehen kann, müssen nicht alle Werte festgelegt werden. Für die Interpretation durch eine DNF hat das keine Folgen. Übungsaufgabe: Finden Sie die möglichen F-Strukturen für die Nominalphrase „der händler“. Beispiel für F-Strukturen mit Subkategorisierung: sieht Person Num Temp Subjekt Objekt V 3 Sg Präs. Cas Num Gen Cas 4 Num Gen Damit ist zunächst festgelegt, dass „sieht“ eine 3. Person Sg. Präsens ist. Ferner braucht es eine Ergänzung „Subjekt“ und eine Ergänzung „Objekt“. Diese Cas ≙ Casus Num ≙ Numerus Gen ≙ Genus 38 müssen durch je eine weitere F-Struktur beschrieben werden. An dieser Stelle wird auch schon festgelegt, dass das Objekt im Akkusativ stehen muss. Man könnte an dieser Stelle auch fordern, dass das Subjekt im Nominativ stehen muss. Das würde zu richtigen Ergebnissen führen, aber es würde der üblichen grammatischen Analyse widersprechen. Wir werde stattdessen später die allgemeine grammatische Regel „Subjekte stehen im Nominativ.“ formalisieren. 6.4 Bildung von F-Strukturen zu grammatischen Strukturen Bisher haben wir F-Strukturen nur im Zusammenhang mit Wörtern, also als Einträge des Lexikons, kennen gelernt. Aus der Sicht der Ableitungsbäume heißt das: Wir wissen bisher, wie den Blättern des Ableitungsbaumes F-Strukturen zugeordnet werden können. Künftig werden wir so vorgehen, dass wir die vorliegende Grammatik als attributierte Grammatik mit der F-Struktur als Attribut auffassen. Durch unsere lexikalischen Überlegungen haben wir dann schon den Induktionsanfang gelegt: Die Attribute sind für die Blätter bekannt. Wie oben schon erwähnt, muss das Attribut für den gesamten Satz, also das für die Wurzel des Ableitungsbaumes, jetzt induktiv („bottom up“) bestimmt werden. Wir haben jetzt also zwei Aufgaben: 1. Es muss ein Formalismus eingeführt werden, mit dem die vorliegende kontextfreie Grammatik als attributierte Grammatik mit der F-Struktur als Attribut aufgefasst werden kann. 2. Es muss ein Verfahren entwickelt werden, mit dem dann tatsächlich FStrukturen für ganze Sätze konstruiert werden können. Bei Punkt 1 gehen wir für synthetische Attribute üblichen Weg. Die kontextfreie Grammatik wird ergänzt durch Regeln, die bestimmen, wie das Attribut für den Vaterknoten aus den Attributen für die Kinder berechnet werden kann. Bei der LFG geschieht das mit Hilfe der Metavariablen ↓ und ↑. Der Begriff „Metavariable“ bedeutet hier, dass ↓ und ↑ für Variablen stehen, die ihrerseits F-Strukturen darstellen. Dabei steht ↓ immer für den Kinder- und ↑ für den Vaterknoten. Bei unserem Ansatz ist dann die durch ↓ bezeichnete F-Struktur bekannt, während die durch ↑ bezeichnete F-Struktur neu konstruiert werden muss. Anstatt dass ein allgemeiner Ansatz geschildert wird, soll an einfachen Beispielen illustriert werden, wie bestimmte Probleme angegangen werden können: 39 1. Einfache Nominalphrasen Zur Bildung der F-Struktur der Nominalphrase „der mann“ wird die syntaktische Regel NP Det N ergänzt um Regeln für das Attribut NP Det ↑= ↓ N ↑= ↓ Das =-Zeichen ist hier nicht als Gleichheit sondern als Unifikation zu lesen. Für die FStruktur der NP sollen die Eigenschaften der F-Struktur des Determinators und die Eigenschaften der F-Struktur des Nomens gelten. Insgesamt werden also die Strukturen für „der“ und „mann“ logisch durch eine Konjunktion verbunden. Der gesamte Ausdruck muss dann wieder in eine Disjunktive Normalform gebracht werden. Das Ergebnis ist hier der mann Cas Num Gen NP 1 Sg m 2. Komplexere Nominalphrasen Ähnlich wird verfahren, wenn rechts mehr als zwei Ausdrücke stehen wie in NP Det Adj N ↑= ↓ ↑= ↓ ↑= ↓ Dann tragen alle drei F-Strukturen der rechten Seite zur F-Struktur der NP durch Konjunktion bei. 3. Pronomina In der Grammatik kann auch die Möglichkeit vorgesehen werden, dass Nominalphrasen durch ein Pronomen gebildet werden. Eine einfache Regel wäre NP Pro ↑= ↓ Kommt auf der rechten Seite nur ein einziger Ausdruck vor, so wird die F-Struktur der NP einfach von dem Pronomen auf der rechten Seite übernommen. Übungsaufgabe: Wie könnten Pronomina mit einer F-Struktur versehen werden? Um eine formal sinnvolle Behandlung von Pronomina zu ermöglichen, ist es nötig, Schlüsse auf der semantischen Ebene zu ziehen. Insbesondere muss es dann möglich 40 sein, automatisch festzustellen, worauf sich das jeweilige Pronomen bezieht. Diese sogenannte „Anaphern-Resolution“ ist ein großes Problem der theoretischen Linguistik. Es erfordert nicht nur die Analyse einzelner Sätze sondern ganzer Diskurse. Dass man bei der Anaphern-Resolution nicht um semantische Überlegungen herumkommt, zeigt das folgende Beispiel: 1. Die Männer ermordeten die Frauen. Drei Tage später wurden sie begraben. 2. Die Männer ermordeten die Frauen. Drei Tage später wurden sie verhaftet. Nur durch semantische Interpretation der Verben „begraben“ und „verhaftet“ ist es möglich, den mutmaßlichen Referenten für das Pronomen „sie“ zu bestimmen. Einen solchen zu wissen ist beispielsweise unerlässlich, wenn das Pronomen ins Französische übersetzt werden soll, entweder durch „elles“ im ersten Beispiel oder durch „ils“. Wir werden uns hier nicht mit der Anaphern-Resolution beschäftigen. 41 4. Intransitive Verben Auch bei intransitiven Verben kommt auf der rechten Seite nur ein einziger Ausdruck vor VP V ↑= ↓ Dann erfolgt ene Behandlung ähnlich den Pronomina. Die F-Struktur der VP wird einfach von dem Verb auf der rechten Seite übernommen. 5. Transitive Verben Es werden jedoch bei der induktiven Konstruktion nicht nur Unifikationen durchgeführt an den Kinderknoten. Manchmal, beispielsweise beim Ausfüllen von Leerstellen, die durch Subkategorisierung entstanden sind, werden ausgefeiltere Methoden nötig. Als Beispiel seien hier transitive Verben genannt. Eine entsprechende Regel könnte lauten VP V ↑= ↓ NP ↑. 𝑂𝑏𝑗 = ↓ Damit soll die F-Struktur für VP aus der F-Struktur für V aufgebaut werden, aber zusätzlich soll die dort noch nicht ausgefüllte F-Struktur an der Obj-Stelle durch die F-Struktur der Nominalphrase ausgefüllt werden. 6. Die Satzstruktur Grammatische Regeln können ebenfalls einfach formuliert werden. Als ein Beispiel seien hier einige Regeln für die Satzstruktur genannt: S NP VP ↑. 𝑆𝑢𝑏𝑗 = ↓ ↑= ↓ ↓. 𝐶𝑎𝑠 = 1 ↑. 𝑁𝑢𝑚 = ↓. 𝑁𝑢𝑚 ↑. 𝑃𝑒𝑟𝑠𝑜𝑛 = ↓. 𝑃𝑒𝑟𝑠𝑜𝑛 Es wird hier also durch ↑= ↓ gefordert, dass die F-Struktur des Satzes aus der FStruktur der Verbalphrase konstruiert wird. Die Regeln bei NP bedeuten der Reihe nach: Die F-Struktur von NP wird als Wert für die Leerstelle des Subjektes in die FStruktur der Verbalphrase eingebaut. Die zweite Aussage ist die oben schon angekündigte Regel, dass Subjekte im Nominativ stehen. Mit der dritten Aussage wird die Kongruenz zwischen NP und S, also eigentlich zwischen Subjekt und Prädikat, bezüglich des Numerus eingefordert. 42 In der vierten Zeile wird die oben angesprochene Kongruenz zwischen Subjekt und Prädikat bezüglich der Person erzwungen. Auch hier könnte das Problem anders gelöst werden, da Nominalphrasen, die keine Pronomina enthalten, und dann auch die entsprechenden Verbformen immer in der dritten Person stehen. Übungsaufgabe: Wie könnte man das Problem der Kongruenz bezüglich der Person lösen, ohne in umständlicher und unnatürlicher Weise schon die Gleichung Person = 3 in das Lexikon schreiben zu müssen? 7. Präpositionalphrasen Die einfachste Struktur einer Präpositionalphrase ist durch die kontextfreie Regel PP Präp NP gegeben. Durch die Attributregeln muss sowohl der innere Aufbau der PP als auch ihre Einbettung (formal und auch ihre Funktion) definiert werden. Deshalb seien zunächst einige Bemerkungen zu präpositionalen Ergänzungen gemacht - Die präpositionale Ergänzung kann obligatorisch durch das Verb eingefordert werden. Beispiel: Er wohnt in Berlin. - Die präpositionale Ergänzung kann fakultativ durch das Verb hervorgerufen werden. Beispiel: Er wartet auf Godot. - Sie kann völlig unabhängig vom Verb für zusätzliche Erläuterungen benutzt werden. Dann handelt es sich um eine freie Angabe. Beispiel: Er besucht uns nach dem Essen. Bei freien Angaben ist die Einbettung nur schwer zu formalisieren. Das Potential für missverständliche Satzkonstruktionen ist hoch. Beispiele: Der Mann sieht die Frau mit dem Fernrohr. Er traf sie am Bahnhof hinter der Autobahn. (Zwei PP vom gleichen Typ, nämlich lokale Ergänzungen) Bei fakultativen Ergänzungen kann man sich damit behelfen, dass man die Existenz von zwei Verben im Lexikon annimmt, wobei das eine eine präpositionale Ergänzung verlangt und eine F-Struktur mit einer entsprechenden Leerstelle eröffnet, während das andere ohne eine solche auskommt. 43 Wir werden jetzt nur solche Verben behandeln, bei denen die entsprechende Leerstelle eröffnet wird. Als Beispiel soll eine präpositionale Phrase dienen, die eine Richtung bezeichnet und mit der Präposition „zu“ eingeleitet wird. Lexikalisch wird vermerkt, dass die Präposition ein Objekt im Dativ erfordert und innerhalb des Satzes die Rolle eins Ziels („goal“, „OblGo“) spielt zu Präp Rolle OblGo Obj [Cas 3] Die Konstruktionsregel lautet dann PP Präp ↑= ↓ NP ↑. 𝑂𝑏𝑗 = ↓ Sie besagt, dass die F-Struktur der PP aus der F-Struktur der Präposition konstruiert wird, wobei die Leerstelle für das Objekt durch die F-Struktur der NP ausgefüllt wird. Damit ist der innere Aufbau der F-Struktur für die PP geklärt. Ihre Einbettung muss in der Regel für die Verbalphrase, zu der die PP gehört, definiert werden. Das kann etwa durch die folgende Regel geschehen: VP V ↑= ↓ NP PP ↑. 𝑂𝑏𝑗 = ↓ (↑ (↓. 𝑅𝑜𝑙𝑙𝑒)) = ↓ Dabei ist die Attributregel für die PP so zu verstehen, dass zuerst der Wert der Rolle aus der F-Struktur der PP ausgelesen wird, hier also OblGo. Damit wird auch gefordert, dass das Verb eine Leerstelle für ein OblGo eröffnet. Diese soll durch die FStruktur der PP aufgefüllt werden. Ein solches Verb könnte „fliegt“ sein, hier als transitives Verb betrachtet. fliegt V Person 3 Num Sg Temp Präsens Obj [Cas 4] OblGo 44 6.5 Fallstudie „das kleine grüne männchen fliegt die rakete zu dem fernen stern“ Zunächst muss die Grammatik G so erweitert werden, dass L(G) diesen Satz enthält. Als Strukturregeln könnten die unten genannten dienen. Dazu kämen die hier als offensichtlich weggelassenen Lexikalischen Regeln. Einige Erläuterungen sind angebracht: 1. Nominalphrasen können hier keine Pronomina sein. Wir werden also davon ausgehen, dass Nomina und dann auch NP in der 3. Person vorliegen. 2. Aus Gründen der Einfachheit sind Adjektivfolgen nicht leer. Stattdessen ist die Adjektivfolge in der NP-Regel durch { } als optional gekennzeichnet. Hier liegen also eigentlich zwei Regeln vor. 3. Es sind hier nur Verbalphrasen mit genau einer Nominal- und genau einer Präpositionalphrase zugelassen, eine extreme Vereinfachung. S NP VP ↑. 𝑆𝑢𝑏𝑗 = ↓ ↑= ↓ ↓. 𝑐𝑎𝑠 = 1 ↑. 𝑁𝑢𝑚 = ↓. 𝑁𝑢𝑚 ↑. 𝑃𝑒𝑟𝑠𝑜𝑛 = ↓. 𝑃𝑒𝑟𝑠𝑜𝑛 NP AdjFolge Det { AdjFolge } N ↑= ↓ ↑= ↓ ↑= ↓ Adj ↑= ↓ AdjFolge VP PP Adj AdjFolge ↑= ↓ ↑= ↓ V NP PP ↑= ↓ ↑. 𝑂𝑏𝑗 = ↓ (↑ (↓. 𝑅𝑜𝑙𝑙𝑒)) = ↓ Präp NP ↑= ↓ ↑. 𝑂𝑏𝑗 = ↓ 45 Zuerst liegen die F-Strukturen aus dem Lexikon vor: das Det kleine / Adj grüne Cas 1 4 1 1 4 1 4 1 4 Num Sg Sg Sg Sg Sg Sg Sg Pl Pl Gen n n m f f n n Pers. 3 3 3 3 3 3 3 3 3 männchen N Cas 1 3 4 Num Sg Sg Sg Pl Gen n n n n Pers. 3 3 3 3 fliegt V zu Präp Rakete Person 3 Rolle OblGo Cas Num Sg Obj [Cas 3] Num Sg. Temp Präsens Gen f Pers. 3 Subj Obj [Cas 4] OblGo die Det Cas 1 4 1 4 Num Sg Sg Pl Pl Gen f f Pers. 3 3 3 3 N 46 dem Det fernen Adj Cas 3 2 3 4 2 3 2 3 Num Sg Sg Sg Sg Sg Sg Sg Sg m m m f f n n 3 3 3 3 3 3 3 Gen Pers. m n 3 Pl 3 stern Cas 1 3 4 Num Sg Sg Sg Gen m m m Pers. 3 3 3 Zum besseren Verständnis zeigtn Abbildung 5 den Ableitungsbaum (ohne die lexikalischen Einträge) mit den jeweiligen F-Strukturen als Attribute. Deren Konstruktion wird im folgenden erklärt. Satz/f20 NP/f14 Det/f1 Adj/f2 VP/f19 Adjfolge/f13 Adjfolge/f12 N/f4 V/f5 Det/f6 Adj/f3 Np/f15 N/f7 PP/f18 Präp/f8 Det/f9 NP/f17 Adjfolge/f16 Adj/f10 Abbildung 4: Ableitungsbaum mit Attributen N/f11 47 Zuerst sind die lexikalischen F-Strukturen in der Reihenfolge des Auftretens im Satz durchnumeriert: f1,…,f11 und den Blättern zugeordnet. Die Attributregeln führen durch Ersetzen der Metavariablen ↓ und ↑ durch schon konstruierte fi (Instantiierung der Metavariablen) zu neuen F-Strukturen, die anderen Knoten des Ableitungsbaumes entsprechen. Es sollen jetzt alle so entstehenden „Gleichungen“ aufgeführt werden. Dabei wird immer der am weitesten links stehende Baumknoten betrachtet, bei dem schon alle Kinder eine F-Struktur besitzen. Es muss aber beachtet werden, dass eine Gleichung hier eine Konstruktion durch Unifizierung bedeutet, wie oben erklärt. Also wird die Regel AdjFolge Adj ↑= ↓ für f3 verwendet, wodurch festgestellt wird, dass „grüne“ eine Adjektivfolge ist. Es wird eine neue Variable f10 eingeführt (für ↑). Die Metavariable ↓ wird durch f3 ersetzt. Dadurch entsteht die Gleichung f12 = f3 Danach kommt die Regel AdjFolge Adj AdjFolge ↑= ↓ ↑= ↓ Mit den Gleichungen f13 = f2 f13 = f12 wird f13 bestimmt zu kleine grüne Adjfolge Cas 1 1 Num Sg Gen Pers. 4 1 4 1 4 Sg Sg Sg Sg Pl Pl m f f n n 3 3 3 3 3 3 3 Durch die Gleichung für Nominalphrasen werden f1, f13 und f4 unifiziert zu f14 48 das kleine grüne männchen NP Cas 1 4 Num Sg Sg Gen n n Pers. 3 3 Für die Analyse der Verbalphrase muss zunächst die dort existierende NP („die rakete“) untersucht werden. Dabei wird ähnlich wie eben vorgegangen. Deshalb folgen hier nur die Gleichungen und das Ergebnis für die gesamte NP: f15 = f6 f15 = f7 Durch Unifikation entsteht also die F-Struktur f15. die Rakete NP Cas 1 4 Num Sg Sg Gen f f Pers. 3 3 Um die PP analysieren zu können untersuchen wir deren NP („dem fernen stern“). Es entstehen die Gleichungen f16 = f10 Damit wird das einzelne Adjektiv „fernen“ zur Adjektivfolge. f17 = f9 f17 = f16 f17 = f11 So entsteht wieder die F-Struktur der gesamten NP und f17 hat die Form. dem fernen Stern NP Cas 3 Num Sg Gen m Pers. 3 Gemäß den Gleichungen f18 = f8 f18. 𝑂𝑏𝑗 = f17 für die gesamte PP muss f17 an der Objektstelle in f8 eingesetzt werden. Das Ergebnis 49 ist f18. zu dem fernen Stern PP Rolle OblGo Obj Cas 3 Num Sg Gen m Pers. 3 Die F-Struktur für die Verbalphrase f19 entsteht durch die Gleichungen f19 = f5 f19. 𝑂𝑏𝑗 = f15 f19.( f18.Rolle) = f18 Gemäß der vorletzten Gleichung muss f15 in f19 an die Obj-Stelle eingetragen werden, Dabei muss aber beachtet werden, dass in f5 an dieser Stelle schon der Akkusativ gefordert ist. Damit wird nur die mit Cas = 4 unifizierte Form von f15 eingetragen. Die letzte Gleichung ist so zu lesen, dass man f18 an der Stelle Rolle auswerten muss. Dort steht OblGo. Also wird f18 an der Stelle OblGo in f19 eingetragen mit dem Ergebnis 50 fliegt die Rakete VP zu dem fernen Stern Person 3 Num Sg Temp Präsens Subj Obj OblGo die Rakete NP Cas 4 Num Sg Gen f Pers. 3 zu dem PP fernen Stern Rolle OblGo Obj Cas 3 Num Sg Gen m Pers. 3 Jetzt kann endlich f20 konstruiert werden, die F-Struktur für den Satz. Damit ist der Konstruktionsprozess beendet. Die Regeln für die Metavariablen generieren folgende Gleichungen: f20 = f19 f20. 𝑆𝑢𝑏𝑗 = f14 f14. 𝐶𝑎𝑠 = 1 f20. 𝑁𝑢𝑚 = f14. 𝑁𝑢𝑚 f20. 𝑃𝑒𝑟𝑠𝑜𝑛 = f14. 𝑃𝑒𝑟𝑠𝑜𝑛 Die Bedeutung der ersten beiden Gleichungen dürfte klar sein. Die dritte Gleichung verlangt, dass zusätzlich der Ausdruck Cas=1 als Konjunkt bei f14 eingeführt wird. Dadurch kann sich die F-Struktur erheblich verkleinern. Im vorliegenden Fall wird nur ausgeschlossen, dass es sich bei „das kleine grüne männchen“ um einen Akkusativ handelt. Im Extremfall wertet sich der ganze Ausdruck logisch zu „falsch“ aus. Das würde bei inkongruenten Satzkonstruktionen geschehen wie „des kleinen grünen männchens fliegt die rakete zu dem fernen 51 stern“. Die beiden letzten Gleichungen dienen gleichfalls nicht der Konstruktion, sondern nur einer Überprüfung, nämlich der auf Kongruenz bezüglich Person und Numerus. Es gibt Autoren, die großen Wert auf den Unterschied legen, ob eine Gleichung zur Konstruktion oder nur zur Überprüfung dient. Aus logischer Sicht ist diese Unterscheidung unnötig, da es sich um den gleichen Mechanismus handelt. 52 das kleine, S grüne männchen fliegt die Rakete zu dem fernen Stern Person 3 Num Sg Temp Präsens Subj das NP kleine grüne männchen Obj OblGo Cas 1 Num Sg Gen n Pers. 3 die Rakete NP Cas 4 Num Sg Gen f Pers. 3 zu dem PP fernen Stern Rolle OblGo Obj Cas 3 Num Sg Gen m Pers. 3 53 7 Teildisziplinen der Computerlinguistik - Übersetzerbau - Suche in Textdatenbanken - Automatische Abstraktion - Automatische Textgenerierung - Lern Software Teildisziplinen der Computerlinguistik 54 8 Teile der Grammatik g-Spirantisierung Wird ein „g“ nach einem „i“ zu einem Frikativ, wird sowohl der Prozess wie auch das Ergebnis. König [kØ:nɪç] wenig [ve:nɪç] etwaig [ɛtvaɪç] Belag [bəla:k] Betrug [bətru:k] Sog [zo:k] Auslautverhärtung „Verwandlung eines stimmhaften auslautenden Konsonanten in einen stimmlosen“ (– Duden) 𝑑 ( 𝑡 𝑔 𝑘 𝑏 𝑧 ) 𝑝 𝑠 55 9 Darstellung durch endliche Automaten Ein endlicher Automat ist ein 7-Tupel A=(X, Y, Z, δ, λ, z0, F) X – Eingabealphabet Y- Ausgabealphabet Z- Zustandsmenge δ- Z x X Z Nachfolgezustand λ- Z x X Y Ausgabefunktion z0- Anfangszustand F- Endzustände Darstellung durch endliche Automaten t w a r t e s n t Abbildung 4: endlicher Automat Endliche Automaten erhalten als Eingabe ein Wort, dieses wird dann morphemweise abgearbeitet. Erreicht der Automat einen Doppelkreis, wird ein gültiges Wort akzeptiert. 10 Ferdinand de Saussure Strukturalismus Semantisches Dreieck: Ferdinand de Saussure 56 Signifie/ „mathematische Modell“ Sprachliche Realie Äußerung Abbildung 5: semantisches Dreieck 11 Zeichentheorie C.S. Peirce Zeichentheorie C.S. Peirce Charles Sanders Peirce hat in seiner Zeichentheorie eine Kategorisierung eingeführt. Abstrakt Willkürliche Assoziation von Zeichen und - Symbol - Index - Ikon konkret Abbild bei dem grundlegende Eigenschaften des Bezeichnender zu erkennen sind 12 Formen von Ambiguitäten Formen von Ambiguitäten Ambiguität beschreibt die Mehrdeutigkeit von Zeichen. Dabei kann diese auf mehreren Ebenen auftreten. Sowohl lexikalisch, semantisch und syntaktisch. 57 13 Einführung von Syntaktischen Variablen 𝑆 v0 →𝑘1,𝑘2 𝑇𝑔𝑟𝑎𝑚. 𝐾𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑒 ersetze „s“ durch „v0“, im weiteren Verlauf: Beim ersten Auftreten durch k1, später k2 S NP VP S NP VP NP Det N Det jeder/ ein N student/ buch VP V NP V kennt S NP : v0 NP: v1 S: v0 → jeder student, er S v1 → ein buch, es ; v0 → jeder student, er v0 VP v S NP: v0 S v0 jeder student, er S NP: v1 S v1 ein buch, es v1 Einführung von Syntaktischen Variablen 58 Beispiel „Hänsel liebt eine Frau“ Beispiel ⟦𝐻ä𝑛𝑠𝑒𝑙 𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝐻ä𝑛𝑠𝑒𝑙⟧ (⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧) = λ P.P (Hänsel) (⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧) ⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧(⟦𝑙𝑖𝑒𝑏𝑡⟧) = 𝜆 𝑃. ⟦𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ (𝜆𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧)(𝑄, 𝑃) = 𝜆 𝑃. ∃ 𝑥 𝑓𝑟𝑎𝑢 (𝑥) ∧ 𝑃(𝑥)(𝜆 𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧)(𝑄, 𝑃) = ∃𝑥 𝑓𝑟𝑎𝑢(𝑥) ∧ 𝜆𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧ (𝑄, 𝑃) = ∃𝑥 𝑓𝑟𝑎𝑢(𝑥) ∧ 𝑙𝑖𝑒𝑏𝑡 (𝑥)𝑃 ⟦𝐻ä𝑛𝑠𝑒𝑙 𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧(⟦𝐻ä𝑛𝑠𝑒𝑙⟧) = ∃𝑥 𝑓𝑟𝑎𝑢 (𝑥) ∧ 𝑙𝑖𝑒𝑏𝑡 (𝑥, 𝐻ä𝑛𝑠𝑒𝑙) 59 14 Pragmatik Pragmatik Die Pragmatik befasst sich mit den Bedeutungsaspekten einer Äußerung. Um die Pragmatik genauer zu erklären, wird als erstes das Organon-Modell von Karl Bühler (1879-1963) vorgestellt. Natürliche Sprache ist nicht immer eindeutig, dies wurde im Organon-Modell versucht darzustellen. Abbildung 6: Organon-Modell Das Modell besitzt fünf wichtige Bereiche. Dabei steht das „Z“ in der Mitte für ein Zeichen, ein Wort oder eine Äußerung die getätigt wurde. Der Kreis der sich um das „Z“ herum zieht, beschreibt akustische Phänomene. Als nächsten Bestandteil wird der Sender genannt. Von diesem gehen sowohl Wörter wie auch Äußerungen aus. Er hat damit eine Ausdrucksfunktion. Ebenso gibt es einen Empfänger. Dieser wird zu einer Reaktion aufgefordert. Eine Reaktion kann sowohl ein zuhören, wie auch eine Aktion sein. Hier wird also eine Appellfunktion wahrgenommen. Sender und Empfänger äußern sich über Gegenstände oder Sachverhalte. 60 Als letzten Bestandteil kann man die Beziehungen zwischen diesen vier Bereichen sehen. Diese Beziehungen werden durch parallele Linien dargestellt. Mit diesem Modell wird eine schematische Darstellung eines Gesprächs zwischen zwei Personen dargestellt. Äußerungen werden in Inhalte und lautliche Anteile, also den Schall, dargestellt. Die Pragmatik hat einen entscheidenden Vorteil gegenüber der reinen Semantik. Sie berücksichtigt unterschiedliche kontextuelle Einflüsse auf Interpretationen. 14.1 Informationsgehalt nach Kolmogoroff Informationsgehalt nach Kolmogoroff 1. Eine Information hängt von der Wahrscheinlichkeit ab. Stetig: 𝐼(𝑒) = 𝑓 (𝑝(𝑒)) 2. 𝑝(𝑒) = 1 ⟹ 𝐼(𝑒) = 0 𝑓(1) = 0 𝑝(𝑒) = 0 ⟹ 𝐼(𝑒) ⟶ ∞ 3. I(e1, e2) = 𝑥 → 0 ⟹ 𝑓(𝑥) → ∞ I(e1) + I(e2) ∥ e1, e2 unabhänig ∥ 𝑓(𝑝(𝑒1 , 𝑒2 )) 𝑓(𝑝(𝑒1 ) + 𝑓(𝑝(𝑒2 )) ∥ 𝑓(𝑝(𝑒1 ) − 𝑝(𝑒2 )) 𝑓(𝑥 ⋅ 𝑦) = 𝑓(𝑥) + 𝑓(𝑦) Aus 1. - 3. folgt f(x) = -log(x), also I(e) = - log (p(e)) Beispiel Ein Heft hat 32 Seiten. Wie hoch ist die Information, dass Seite 27 aufgeschlagen ist? 𝐼(𝑒) = − log(𝑝(𝑒)) = − log ( 1 ) = 5 𝑏𝑖𝑡: 11011 32 Entropie: Mittlerer Informationsgehalt eines Zeichens 𝐻(𝐸) = − ∑ 𝑝(𝑒) log(𝑝(𝑒)) 𝑒 𝐻(𝐸) = −𝑝(𝑒1 ) ⋅ log(𝑝(𝑒1 )) − 𝑝( 𝑒2 ) ⋅ log 𝑝(𝑒2 ) Beispiel 61 15 Allgemeine Anwendungen Nachdem nun einige Teilgebiete der Computerlinguistik beleuchtet wurden, Allgemeine Anwendungen werden hier einige Anwendungen der Computerlinguistik erläutert. 15.1 Sprache zu Text Sprache zu Text 15.2 Texterzeugung Texterzeugung 15.3 Übersetzung von Texten Übersetzung von Texten 15.4 Textkorrekturen Textkorrekturen 62 Abbildungsverzeichnis Abbildung 1: Sprachliche Funktionen ................................................................................. 7 Abbildung 2: zerlegter Satz in Phrasen ............................................................................. 13 Abbildung 1: Ableitungsbaum .............................................................................................. 18 Abbildung 4: endlicher Automat.......................................................................................... 55 Abbildung 5: semantisches Dreieck ................................................................................... 56 Abbildung 6: Organon-Modell .............................................................................................. 59 Tabellenverzeichnis Tabelle 4-1: kurzes Beispiel von Alphabeten.................................................................. 12 Tabelle 5-1: Beispiel Backtrack-Parsing ........................................................................... 26 Tabelle 5-2: Earley-Algorithmus .......................................................................................... 29