Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) ii) iii) iv) Worum geht es? Aufgaben und Anwendungen Mehrdeutigkeit - Das Kernproblem linguistische Grundlagen I. Der synthetische Ansatz: Muster – Antwort II. Der analytische Ansatz: Regelbasierte Methoden 1. Sprachen und (formale) Grammatiken i) ii) iii) iv) v) Grammatiken und Produktionsregeln Chomsky-Hierarchie - Komplexität vs. Expressivität Äquivalenz von Sprachen und Grammatiken Grammatiken und Automaten Das Lexikon 2. Syntax - Ein Crashkurs i) Wörter, Kategorien, Phrasen und Sätze ii) CF vs. CS und die Grenze zwischen Syntax und Semantik iii) Tree Adjoining Grammar 3. Parsing i) ii) iii) iv) v) Parsing als Suche Datenstrukturen: Bäume, Charts und Packed shared forests. Strategien des Parsing Methoden des Parsing: Earley-Parser, GLR Parser, RTN Grammar Reguläres Parsing (Shallow Parsing) 4. Morphologische Verarbeitung i) Morphologie - Ein Crashkurs ii) Verarbeitung durch Automaten iii) Zwei-Ebenen Morphologie III. Der statistische Ansatz: Korpusbasierte Methoden i) Grundlagen statistischer Methoden ii) Part-of-speech Tagging iii) Probabilistisches Parsing 5. Generierung und Sprachsynthese Sprachtechnologie Beschäftigt sich mit der automatischen Verarbeitung (Analyse und Produktion) und Bearbeitung gesprochener und geschriebener natürlicher Sprache in einer Art und Weise, die Wissen über die Funktion von Sprache, bzw. bestimmter ihrer Teilbereiche, voraussetzt. Nicht jede Bearbeitung von Text oder gesprochener Sprache beinhaltet also Sprachtechnologie. Ein einfacher Texteditor etwa kann durchaus ohne Sprachtechnologie auskommen. Ein Feld – viele Bezeichnungen: Computational Linguistics (Computerlinguistik) – Human Language Technology – Language Engineering – Language Technology (Sprachtechnologie) –Natural Language Processing – Natural Language Understanding Sprachtechnologie - Ein interdisziplinäres Fachgebiet: Analyse Nachrichtentechnik Informatik Signalverarbeitung Künstliche Intelligenz Formale Sprachen SPRACHERKENNUNG PARSING gesprochene Sprache geschriebene GENERIERUNG SPRACHSYNTHESE Philosophie Linguistik theoretische Linguistik Psycholinguistik Logik Epistemologie Synthese Anwendungsgebiete Textbearbeitende Systeme • • • • • Automatische Worttrennung Automatische Schreibfehlerkorrektur Grammatik- und Stilüberprüfung (controlled languages) Stemming bzw. Lemmatisierung OCR (Optical Character Recognition) Textanalysierende Systeme • • Textkategorisierung Informationsextraktion Textproduzierende Systeme • Erzeugen von Texten aus Wissensbasen Textanalysierende und –produzierende Systeme • • Automatisches Abstrahieren und Zusammenfassen Maschinelle und maschinenunterstützte Übersetzung Sprachbearbeitung • • Sprecherverifikation Sprecheridentifikation Spracherkennende Systeme • • Diktiersysteme (Speech Writer) Sprachsteuerung (von Computersystemen) Sprachproduzierende Systeme • • Vorlesesysteme Concept-to-Speech Dialogsysteme (geschrieben und gesprochen) • • • Beratungs- und Auskunftssysteme Schnittstellen zu Computersystemen Augmented und virtual reality Ambiguität in der natürlichen Sprache Von Wörtern z.B. Mutter • Die Mutter hält ihr Kind. • Er schraubt die Mutter fest. z.B. annehmen • Er nimmt das Geschenk gerne an. • Er nimmt an, dass er gewinnen wird. Von Wortformen z.B. meinen • Ich repariere meinen Computer. • Er versteht nicht, was wir meinen. z.B. sieben • Sie erzählt das Märchen von den sieben Zwergen. • Man muss das Mehl sieben. z.B. ihr • Er gibt ihr Geld. • Er gibt ihr Geld aus. der Referenz anaphorischer Ausdrücke. z.B. Der Mann hebt den Tisch auf den Lastwagen. • Er sieht müde aus. • Er ist sehr schwer. • Er ist schon fast voll. der Struktur von Sätzen z.B. Das Kind fällt das Raubtier an. z.B. Ich lese ein Buch mit 250 Seiten. vs. Ich lese ein Buch mit großem Interesse. z.B. The chicken are ready to eat. dem Skopus von Äußerungen z.B. Maria ist auch Schauspielerin. Als Antwort auf: a) Anna ist Schauspielerin. b) Maria ist Tänzerin. von Sprechakten z.B. Wissen Sie, wie spät es ist? Antwort: a) Es ist zehn vor elf. b) Ja, aber ich konnte nicht früher kommen. Ein Beispiel struktureller/semantischer Ambiguität 4 Lesarten des Satzes I saw the man on the hill with the telescope. Die Mehrdeutigkeiten ergeben sich: • aus den beiden Lesarten Fernrohr und Sternwarte für telescope und • aus den unterschiedlichen Anbindungen der Phrasen on the hill und with the telescope. Linguistische Beschreibungsebenen Phonetik beschäftigt sich mit den konkreten akustischen Eigenschaften von Sprache • untersucht Sprache auf einer akustischen, analogen Ebene • Sprache als dreidimensionales (Zeit, Frequenz, Intensität) analoges Signal • Beschreibung und Klassifikation von Lauten • segmentale Einheit ist das Phon (der Laut) • suprasegmentale Eigenschaften sind Intonation, Lautheit, Quantität, etc. Phonologie beschäftigt sich mit der lautlichen Struktur sprachlicher Äußerungen • abstrakt, symbolisch • Beschreibung des Lautsystems von Sprachen • Sprache als eine Abfolge distinkter, abstrakter Elemente • die kleinste bedeutungsunterscheidende Einheit ist das Phonem • Phonem wird realisiert durch ein Phon, bzw. mehrere alternative (Allo)phone Morphologie beschäftigt sich mit der Struktur und Bildung von Wörtern • kleinste bedeutungstragende Einheit ist das Morphem: – sagst = sagen + 2.Person Singular • Morpheme werden als Morphe realisiert: – sagst = sag + st • Morphologische Ebenen: – Morphophonologie: rase - rast vs. sage - sagst – Morphotaktik: wie können Morphe kombiniert werden – Morphosyntax: Kodierung syntaktischer Information • Morphologische Prozesse: – Flexion: sage, sagst, sagt, sagen,... – Derivation: machen, machbar, Machbarkeit,... – Komposition: Rotwein, Rotweinglas,... Syntax beschäftigt sich mit der Struktur sprachlicher Äußerungen • “Grammatikalitätsbedingungen” • beschrieben durch (formale) Grammatik • die syntaktische Struktur eines bestimmten Satzes wird oft durch einen Satzbaum beschrieben. Semantik beschäftigt sich mit der Bedeutung (dem Sinn) sprachlicher Einheiten (Wörter, Phrasen, Sätze) unabhängig von Intention und Kontext. • Ein wesentliches Kriterium ist die Kompositionalität, d.h. die Bedeutung einer Einheit ergibt sich aus der Kombination der Bedeutung ihrer Subeinheiten. • Wörter - lexikalische Semantik • Sätze - Satzsemantik • Textsemantik Pragmatik beschäftigt sich mit dem Gebrauch sprachlicher Äußerungen (Bedeutung im Kontext) • stellt Beziehung zwischen dem Sinn und der Referenz her • stellt die Verbindung her zwischen Sprache – als abstraktem Symbolmanipulationssystem und – als Kommunikations- und Informationsmedium Paradigmatische und syntagmatische Relationen Jede sprachliche Einheit nimmt eine bestimmte Position in einer Kette ein. Damit steht sie im Schnittpunkt zweier Relationen: • in paradigmatischer zu allen anderen sprachlichen Einheiten, die an dieser Position stehen können, • in syntagmatischer zu den vorher und nachher in der Kette stehenden. Methoden strukturaler Analyse Substitution (Ersatzprobe) zum Testen paradigmatischer Relationen B1. a. Hans begleitet Maria zu dem Vortrag. b. Hans begleitet Maria dorthin. c. Hans begleitet Maria. Es ist wichtig, darauf zu achten, dass der Kontext konstant bleibt: B2. a. viele teure Autos b. alle teuren Autos B3. a. Ich weiß mein Bekannter war dabei. b. Ich selbst war dabei. Permutation (Verschiebeprobe) zum Testen syntagmatischer Relationen B4. a. b. c. d. e. f. Hans begleitet Maria zu dem Vortrag. Hans begleitet zu dem Vortrag Maria. Maria begleitet Hans zu dem Vortrag. Maria begleitet zu dem Vortrag Hans. Zu dem Vortrag begleitet Hans Maria. Zu dem Vortrag begleitet Maria Hans. Wortarten (-klassen) • • • • • • • • • • • Kategorie Nomen o Eigennname Adjektiv Artikel Numeral Pronomen o Personalpronmen o Possessivpronemen o Indefinitpronomen o Fragepronomen o Relativpronomen Verb o Modalverb o Auxiliar o Kopula Adverb Präposition Konjunktion Partikel Interjektion Abk. Beispiele N Sessel, Kranker PN Hans, IBM, Österreich A(dj) krank, groß Art der, ein Num zehn, zehnter, zehntel Pron Pers ich, wir, sie Poss mein, dein Indef irgendein Interrog wer, was, wie Rel der, welcher V fragen, trompeten Mod wollen, müssen, lassen Aux haben, sein, werden sein werden Adv unten, heute, P(räp) an, bei, entlang Konj und, oder, weil, obwohl wohl, nicht, jedenfalls bitteschön, plumps Diese Einteilung stützt sich sowohl auf morphologische als auch auf syntaktische Eigenschaften, wodurch sie in beiden Ebenen problematisch ist. Eine rein morphologische Klassifikation erfolgt nach der Art der Flexion, also nach dem Paradigma eines Wortes, das sind die Wortformen, die zu einem Wort gehören. Danach können wir 4 große Gruppen unterscheiden: • Substantivisch flektierend • Adjektivisch flektierend • Verbal flektierend • Nicht flektierend = Partikel Die syntaktische Klassifikation ergibt sich aus der Distribution der Wörter. Wenn wir allerdings nach der tatsächlichen Distribution der Wörter gehen, erhalten wir eine wesentlich feinere Klassifikation als die obige. Betrachten wir folgende Menge an Wörtern der Klasse Nomina: {Getränk, Bier, Fanta, Gebräu} Sätze, in denen diese Wörter auftreten: • Hans bestellt Bier. • Hans trinkt das Gebräu ungern. Daraus ergeben sich folgende zwei Muster: a) PN Verb_3.P.Sg.präs _ . b) PN Verb_3.P.Sg.präs das _ Adv . In a) lässt sich {Bier, Fanta} einsetzen, in b) {Getränk, Bier, Fanta, Gebräu}. Wir erhalten also 2 unterschiedliche Distributionsklassen. Konstitutentenstruktur Analyse eines Satzes in seine unmittelbaren Konstituenten: Ludwig fährt den Wagen in die Garage Ludwig | fährt den Wagen in die Garage Ludwig | fährt den Wagen | in die Garage Ludwig | fährt | den Wagen | in die Garage Ludwig | fährt | den | Wagen | in die | Garage Klammerdarstellung: [ [Ludwig] [ [ [fährt] [ [den] [Wagen] ] ] [ [in] [ [die] [Garage] ] ] ] ] Baumdarstellung: Ludwig fährt den Wagen in die Garage Die Gruppierung der Syntagmen zu Sätzen ist ein Vorgang, der in strukturierter Weise durch Regeln angegeben werden kann, die, von den Wortkategorien ausgehend, immer größerer Konstituenten zusammenfassen. S → NPNom VP NP → Art N NP → PN PP → Präp NP VP → V NP VP → VP PP Durch Anwendung dieser Regeln erhalten wir dann auch unseren Satz in annotierter Baumdarstellung: S VP NP Nom VP NP NP Art N PN V P Art N Ludwig fährt den Wagen in die Garage Man nennt diese Art der Darstellung auch Phrasenstruktur. Dependenzstruktur Eine alternative Beschreibung der Struktur von sprachlichen Äußerungen stützt sich auf den Begriff de Dependenz (Abhängigkeit). Eine Dependenzrelation besteht dann, wenn zwei Elemente eines Syntagmas in dem Sinne ungleichberechtigt sind, dass nur eines von ihnen die Kategorie bestimmt. Dieses letztere Element ist der sogenannte strukturelle Kopf (head) des Syntagmas, alle anderen sind Dependenten. Ludwig fahrt den Wagen in die Garage Alternativ kann man die dependenzstruktur auch als Baum mit gerichteten Kanten darstellen: fährt Ludwig Wagen den in Garage die Bei den Dependenten muss man zwischen notwendigen Ergänzungen, den sogenannten Aktanten, und freien Angaben, den Zirkumstanten, unterscheiden. Valenz Unter den Dependenten eines Wortes unterscheidet man zwischen (obligaten) Ergänzungen und (freien) Angaben. Ergänzungen (oder Komplemente) zeichnen sich also dadurch aus, dass sie durch den Kopf des Syntagmas bestimmt werden. Dies bezeichnet man als die Valenz eines Wortes. Die Valenzen definieren bestimmte syntaktische (und semantische) Funktionen. Am wichtigsten ist der Begriff der Valenz bei Verben. Die wichtigsten syntaktischen Funktionen, die durch die Valenzen von Verben bestimmt werden, sind Subjekt, direktes Objekt (Akkusativobjekt) und indirektes Objekt. Auch Nomina und Adjektive (insbesondere von Verben abgeleitete) können Valenzen haben, z.B. „auf jemanden stolz“, „der von seiner Krankheit Geheilte“. Verben kann man nach der Anzahl ihrer Ergänzungen einteilen: 0 hageln, schneien, regnen Es regnet 1 Subj schlafen, schnarchen Peter schläft 2 Subj, DObj essen, kochen, sehen Peter isst Brot Subj, IObj helfen, gedenken Peter hilft dem Freund Subj, PObj warten Peter wartet auf ihn 3 Subj, DObj, IObj geben, nennen, lehren Peter gibt ihm Geld Subj, DObj, PObj erinnern Peter erinnert ihn an Hans 4 Subj, DObj, IObj, PObj vergelten Peter vergilt ihm seine Hilfe mit Dankbarkeit Eine besondere Stellung nehmen dabei die sogenannten transitiven Verben ein, das sind solche, die unter ihren Valenzen ein direktes Objekt haben. Alle transitiven Verben sind in der Form passivierbar, dass das direkte Objekt zum Subjekt des Passivsatzes wird.