Linguistische Grundlagen für die maschinelle Sprachverarbeitung Torsten Andreas unter Verwendung der Folien von Anke Lüdeling Institut für deutsche Sprache und Linguistik [email protected] http://www.linguistik.hu-berlin.de/korpuslinguistik Überblick • Was ist Linguistik? • linguistische Beschreibungsebenen (Phonetik, Phonologie, Morphologie, Syntax, Semantik, Pragmatik) Was ist Linguistik? Was ist Linguistik? • Linguistik beschäftigt sich mit – der Beschreibung und Modellierung von Sprachdaten – den zugrundeliegenden Regularitäten (Regeln, statistische Muster, Constraintmengen, ...) – menschlicher Sprachverarbeitung (mentale Prozesse), Spracherwerb, Sprachverwendung – Entwicklung und Veränderung von Sprache – Sprache als sozialem Phänomen, Kommunikation – ... Linguistik • …die Anfänge • früheste erhaltene Diskussion über • Sprache: Platon (427-347) Kratylos Zusammenhang von Wortform und Bedeutung willkürlich ? Linguistik • 19. Jhd.: Sprachvergleich (Sprachstammbäume), Beschreibung von Veränderung (Diachronie), • Beginn 20. Jhd.: Strukturalismus, Entwicklung von formalen Beschreibungsmitteln (Synchronie) • seit Chomsky 1957 generatives Paradigma – Grundgedanken Basis vieler formal unterschiedlicher Theorien (Government & Binding, Minimalismus, HeadDriven Phrase Structure Grammar, Lexical Functional Grammar, ...) Generative Linguistik • SprecherInnen einer Sprache können unendlich viele Ausdrücke (Wörter, Sätze) – also auch solche, die sie nie vorher gehört haben – produzieren und verstehen ... unendlich viele Ausdrücke ... • Rekursion ... unendlich viele Ausdrücke ... • Rekursion – Syntax der Bezug des Bettes des Hotels des Ermittlungsteams der Ursache des Absturzes des Systems ... – Morphologie Superstarauswahlveranstaltungsterminabsprachedialog systemabsturzursachenermittlungsteamhotelbettbezug • Konjunktion (Aufzählung) Am Sonntag fraß sie sich durch einen Apfel, zwei Bananen, drei Tomaten, vier Gurken, fünf Schokotörtchen, sechs .... ... unendlich viele Ausdrücke ... • Hinzufügen neuer Basiselemente z.B. durch Entlehnung (email, to go) oder Kreativität (Handy, unkaputtbar) • semantische Prozesse Generative Linguistik • SprecherInnen einer Sprache können unendlich viele Ausdrücke (Wörter, Sätze) – also auch solche, die sie nie vorher gehört haben – produzieren und verstehen • d.h., Untersuchungsgegenstand ist das zugrundeliegende Produktionssystem, das alle und nur die grammatischen Ausdrücke einer Sprache erzeugt Generative Linguistik • es gibt Sprachzentren im menschlichen Gehirn, die Produktionssysteme für menschliche Sprachen restringieren • Evidenz – Universalien – Spracherwerb • generative Produktionssysteme: kategorial (meist kontextfreie Regeln) Exkurs: Sprache und Gehirn Exkurs: Sprache und Gehirn • wo 'wohnt' Sprache? • wie entstand Sprache/Sprachfähigkeit in der Evolution des Menschen? • was macht Sprachfähigkeit aus? Ist Sprache eine exklusiv menschliche Fähigkeit? • wie restringiert das Gehirn/die körperliche Einbettung Sprache? Wo ist die Sprachfähigkeit lokalisiert? •Broca-Aphasie (motorische Aphasie): Sprachproduktion/ Spontansprache gestört, Agrammatismus •Wernicke-Aphasie (rezeptive Aphasie): Sprachverständnis gestört, Sprache flüssig, allerdings entstellt, Neologismen •in Wirklichkeit ist alles viel komplizierter ... Wo ist die Sprachfähigkeit lokalisiert? • psycholinguistische Experimente: sprachliches Verhalten lässt Rückschlüsse auf Organisation von verschiedenen 'Komponenten' der Sprachfähigkeit zu – Speicherung von Einheiten vs. Regelanwendung – ... • Imaging-Techniken (z. B. fMRI): Gehirnaktivität bei bestimmten Aufgaben (Nachsprechen eines Wortes, Beantworten einer Frage, Reaktion auf fehlerhafte Sätze, ...) wird gemessen – bei Sprachproduktion und –rezeption Aktivität in verschiedenen Bereichen des Gehirns (nicht nur Wernicke und Broca) – unterschiedliche Fehler (Syntax vs. Semantik) werden in verschiedenen Bereichen verarbeitet – ... Sprachfähigkeit angeboren? • Sprache als soziales (gelerntes) Phänomen ? • zu erklären ist – – – – – es gibt kein Volk ohne Sprache es gibt keine 'primitiven' Sprachen es gibt sprachliche Universalien Kreolisierung Sprachfähigkeit ist nicht unmittelbar korreliert mit Intelligenz (oder sozialer Klasse) Sprachfähigkeit angeboren? • Lernproblem: Spracherwerb läuft bei allen Kindern ungefähr gleich ab • Sprache ist zu komplex, als dass sie einfach gelernt werden kann, zu wenig Input, kaum negative Evidenz • Chomsky: es muss ein angeborenes Sprachlern'modul' (Language Acquisition Device) geben – Kinder lernen dann nur bestimmte 'Parameter' (Kinder 'entdecken' Grammatik) Sprache = Instinkt? • "the instinct to learn, speak and understand language" [...] "Language is not a cultural artifact that we learn the way we learn to tell time or how the federal government works. Instead it is a distinct piece of the biological makeup of our brains." (Pinker 1994, 17f) Co-Evolution von Sprache und Gehirn • Deacon (1998) – ein spezielles 'Sprachorgan' nicht nötig – Menschen haben ein ungewöhnlich großes Gehirn (Gehirn-Haut-Relation) – daher mehr Kapazität, Symbole zu verarbeiten und in Symbolen zu denken – Sprache ist ein Produkt der allgemeinen Organisation/Entwicklung des Gehirns – kritische Phase des Sprachlernens unterstützt durch korgnitive Entwicklung von Kindern – Sprache entwickelt sich so, dass sie von Kindern leichter gelernt werden kann ein Faktor für Sprachwandel ist der Filter durch Kinder Statistische Ansätze • statistische Ansätze beziehen sich im Gegensatz dazu auf die Regularitäten in großen Textsammlungen (Textkorpora) – Muster, Häufigkeiten, Verteilungen, … • Ziel: Modelle, die real vorkommenden Text möglichst genau abbilden und daraus Hypothesen für ungesehene Ereignisse ableiten Überblick • Was ist Linguistik? • linguistische Beschreibungsebenen (Phonetik, Phonologie, Morphologie, Syntax, Semantik, Pragmatik) Linguistische Beschreibungsebenen • traditionell werden (mindestens) folgende Beschreibungsebenen unterschieden – – – – – – Phonetik – Laut Phonologie – Lautsystem Morphologie – Struktur von Wörtern Syntax – Struktur von Phrasen & Sätzen Semantik – Bedeutung Pragmatik – Verwendung Phonetik • Produktion und Systematik von Sprachlauten – Phon • artikulatorische Phonetik: Laute werden anhand des Artikulationsortes und der Artikulationsart klassifiziert Phonetik • Nasenhöhle postalveolar dental alveolar palatal Nasopharynx labial velar Oropharynx Unterlippe Unterkiefer uvular pharyngal Zunge Hyoid epiglottal Epiglottis Glottis Thyroid Cricoid laryngal Sagittalschnitt durch das Ansatzrohr (dunkelgrau: knöcherne, hellgrau: knorpelige Strukturen; kursiv: Artikulationsst ellenbezeichnu ngen). Abb. aus PompinoMarschall 2003 Phonetik • Artikulationsort – bilabial [b] [p] [m] – alveolar [t] [d] [n] [s] [z] [l] [r] – ... • Artikulationsart – stimmhaft (Stimmlippen schwingen) vs. stimmlos [b] – [p], [d] – [t] – nasal (Luft entweicht auch durch die Nase) vs. oral [m] – [b] – ... Konsonanten, http://www.arts.gla.ac.uk/IPA/pulmonic.html Das Konsonantensystem im Deutschen Pompino-Marschall 2003, S. 265 Das Vokalsystem im Deutschen Pompino-Marschall 2003, S. 266 Phonologie Phonologie • Lautsystem einer Sprache – bedeutungsunterscheidende Laute innerhalb einer Sprache – Phoneme – Silbenstruktur – Prosodie Phonologie • bedeutungsunterscheidende Laute werden durch die Bildung von Minimalpaaren gefunden Hase vs. Nase, Schal vs. Schaf → [h], [n], [f], [l] sind Phoneme des Deutschen • dt. /r/: [r] oder [R] oder [χ] oder ... Varianten nicht bedeutungsunterscheidend → es wird nur ein Phonem für /r/ angenommen • Phoneminventar einer Sprache • Silbenmodelle einer Sprache • Prosodie/Betonungsmuster für die Silben Probleme für ASR (automatic speech recognition) und TTS (text-to-speech) • Segmentierung des kontinuierlichen Sprachsignals • Unterschiede zwischen SprecherInnen • Ambiguitäten • Produktivität/unbekannte Wörter • wenig Linguistik – viel Statistik Morphologie Morphologie Flexion lachte Menschen Wortbildung Derivation Häuschen, lesbar Kurzwortbildung Konversion SchlafN → schlafV Automobil → Auto Komposition ... Haustür, hellblau Morphologie • Aufbau von komplexen Wörtern Haustür → Haus•tür lachte → lach•te Unabhängigkeit → Un•ab•häng•ig•keit • Einteilung in bedeutungs- oder funktionstragende (grammatische Funktion, z.B. 1.Pers. Sg. Präsens) Elemente - Morpheme Morphologie • Morphem: – Stamm: Morphem, das auch alleine stehen kann Haus, Tür, lach, rot ... – Affix (Präfix, Suffix): Morphem, das nicht alleine stehen kann -bar, -te, -keit, -ung, ver-, ent-, un- ... (Vorsicht: Verwendung von 'Präfix' und 'Suffix' in der Linguistik unterscheidet sich von der Verwendung von 'Präfix' und 'Suffix' in der Informatik) Morphologie • nicht nur Analyse, auch Strukturbildung • Struktur abhängig von Aufbauprinzipien – spiegelt die Interpretation (Semantik) des komplexen Wortes Un•ab•häng•ig•keit ((Un•((ab•häng)•ig))•keit) Morphologie • • • • Was ist die Bedeutung von Fischfrau? LKW-Fahrer, Möbelfahrer, Geisterfahrer Kleinkunstwerk ? Apfelkuchen, Marmorkuchen, Vollkornkuchen, Hundekuchen • *Einsamheit, *Schönkeit Morphologie in der Computerlinguistik • Flexionsmorphologie zur Lemmatisierung (Rückführung auf eine Grundform – Lemma) zumeist regelbasiert: Zwei-Ebenen-Morphologie (Endliche Automaten) – einigermaßen gut gelöst für viele Sprachen • Wortbildung – Problem Produktivität (Bildung von ungesehenen Wörtern) – hohe Strukturambiguität – bisher keine richtig gute Lösung für's Deutsche Syntax Syntax • Zusammensetzung von komplexen Ausdrücken aus Wörtern • Struktur abhängig von Aufbauprinzipien, beschreibt die Interpretation eines komplexen Ausdrucks Syntax – Phrasen • Ersetzbarkeit George Bush lässt sich nicht einschüchtern Der amerikanische Präsident lässt sich nicht einschüchtern Der Präsident der Vereinigten Staaten ... Der Präsident, der von weniger als der Hälfte der amerikanischen Wähler gewählt wurde, ... *Präsident lässt sich nicht einschüchtern. *amerikanische lässt sich nicht einschüchtern (* steht für 'ungrammatisch') Syntax – Phrasen • Ersetzbarkeit George Bush lässt sich nicht einschüchtern. Der amerikanische Präsident lässt sich nicht einschüchtern. Der Präsident der Vereinigten Staaten ... Der Präsident, der von weniger als der Hälfte der amerikanischen Wähler gewählt wurde, ... • die blauen Sequenzen bilden Konstituenten desselben Typs, d.h., man kann sie durcheinander ersetzen, ohne dass der Satz ungrammatisch wird Syntax – Phrasen • solche Konstituenten werden Phrasen genannt Nominalphrase (NP) Verbalphrase (VP) Adjektivphrase (AP) ... Syntax – Phrasenstrukturbäume • Phrasen werden zu Bäumen (oder Graphen) zusammengesetzt • Aufgabe der Syntax ist es – die Art der Phrasen in einer Sprache zu finden – die interne Struktur der Phrasen zu finden – die Kombinationsmöglichkeiten für Phrasen zu finden aus dem TIGER-Korpus (Baumbank, deutsche Zeitungstexte) Ambiguität • Syntax – – – – [[alte Männer] und Frauen] [alte [Männer und Frauen]] ich sah den Mann mit dem Fernrohr ich sehe ihn laufend Ambiguität • kategorielle und strukturelle Ambiguität bedingen einander John saw her NE NE V V Possessivpron. Personalpron. duck [under the table] N PP V PP Syntax – Computerlinguistik • Ziel: automatisches Parsing (den Ausdrücken soll eine syntaktische Struktur zugewiesen werden) • Verfahren: – regelbasiert – statistisch (auf Baumbank trainiert oder untrainiert) • Problem: hohe strukturelle Ambiguität Semantik Semantik • Bedeutung von Wörtern (lexikalische Semantik) und Phrasen (kompositionelle Semantik) Semantik: lexikalische Semantik • Ziel: Formale Beschreibung von semantischen Einheiten und Beziehungen – Polysemie, Homonymie, Vagheit … – Hyponyme, Hyperonyme, … • vollständige Beschreibung der semantischen Eigenschaften des Wortschatzes einer Sprache durch Merkmalsbündel (+ Vererbung): z. B. konkret, belebt, Artefakt, ... Lexikalische Semantik • lexikalische Zerlegung in atomare Ausdrücke (semantische Primitive) X tötet Y X macht, dass es dazu kommt, dass es nicht mehr der Fall ist, dass Y lebt CAUSE(X, BECOME(NOT(ALIVE(Y)))) • semantische Eigenschaften bestimmen Kombinationsmöglichkeiten von Elementen: Verbklassen und Adverbien Hans erreicht in drei Stunden den Gipfel. #Hans erreicht drei Stunden lang den Gipfel. Hans rannte drei Stunden lang #Hans rannte in drei Stunden (aber: resultativ ok) Semantik: Textsemantik • Bedeutung von Texten (= Wörter und Sätze im Kontext) • z.B. Bedeutung von (vielen) Pronomen erst im Kontext bestimmbar • z.B. Informationsstruktur (alte vs. neue Information) Probleme • Idiome: im Eimer sein, ins Gras beißen • Kollokationen: Rede halten, Zähne putzen, starker Raucher vs. guter Esser • Zitate, Titel, Klischees, … Pragmatik Pragmatik • Das Fenster ist offen! • Ich gehe! • Dort ist die Tür! Pragmatik (entdeckt am Bücherstand der HU von E. Lang) Frauen ½ Ladenpreis Pragmatik • Grice’sche Maximen: Kooperationsprinzip – Ökonomie – Ironie • Präsupposition, Implikaturen, … Zusammenspiel der Komponenten Semantik/ Morphologie/ Phonetik/ Pragmatik Syntax Phonologie Der Mann will heute ... λx[mann(x) & ... Vielen Dank!