Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? • Fragestellung • Nachbardisziplinen • Wissensbereiche • Zur Geschichte • Forschung und Anwendungen • Semesterprogramm Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Fragestellung (I) Computerlinguistik ist der Forschungsbereich, der sich mit allen denkbaren Schnittstellen zwischen menschlicher Sprache und künstlichen Rechnersystemen beschäftigt. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Fragestellung (II) Computerlinguistik als ... Teildisziplin der Linguistik Linguistische Datenverarbeitung Maschinelle Sprachverarbeitung Sprachtechnologie Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Nachbardisziplinen (I) Linguistik CL Psycholing. Informatik Psychologie KI Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Nachbardisziplinen (II) Linguistik: Informatik: Philosophie: KI: Untersuchungsgegenstand, Termini Algorithmen und Datenstrukturen Verhältnis Sprache - Denken - Handeln Such- und Planverfahren Wissensrepräsentation Wissensverarbeitung Kognitionswissenschaft: Verhältnis zw. Sprachverarbeitung und allgemeinen Denkprozessen Mathematik: Logik – Automatentheorie und formale Sprachen – Graphentheorie – Statistik Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Wissensbereiche Horizontale Unterscheidung a) Phonetik und Phonologie: Artikulatorische Merkmale; Lautstruktur b) Morphologie: Bildung und Struktur von Wörtern c) Syntax: Strukturbildung von Sätzen, Zusammenhang von Wörtern d) Semantik: Bedeutung sprachlicher Einheiten; Kompositionalität e) Pragmatik: Zweck sprachlicher Äußerungen - ebenenübergreifende Bereiche: z.B. Prosodie Vertikale Unterscheidung a) Repräsentation von Wissen vs. Modellierung der Prozesse dieses Wissens b) Unterscheidung von Wissensebenen, Analyse (Parsing) und Produktion (Generierung) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Architektur eines natürlichsprachlichen Systems Analyse (Parsing) Formalismen und Wissensquellen Morphologie Syntax Lexikon Diskurs-/ Dialoggedächtnisse Semantik Welt- und Diskursbereichswissen Generierung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Zur Geschichte Wechselnde Vorherrschaft von symbolischer und statistischer (bisweilen subsymbolischer) Ansätze der Sprachverarbeitung Kompromiss zwischen Anspruch und Wirklichkeit (keine endgültige Lösung in Sichtweite) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Forschung und Anwendungen Theoretische Computerlinguistik: Suche nach komplexen Beschreibungsformalismen, die gleichzeitig handhabbar und effizient sind. Praktische Computerlinguistik: Entwicklung und Erforschung realitätsnaher Anwendungen -> natürlichsprachliche Kommunikation auf der Maschine Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Semesterprogramm 1. Allgemeine Einführung in die Grundbegriffe von Computerlinguistik und Sprachwissenschaft 2. Methoden der (Computer)Linguistik: Phonologie, Morphologie, Syntax, Semantik 3. Ressourcen für computerlinguistisches Arbeiten und ihre Anwendung 4. Parsing und formale Grammatikformalismen 5. Maschinelle Übersetzung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Carstensen et al. (2001): Kapitel 1 (S. 1-23) Zur Vorbereitung: Lesen Sie: Vater (1994): Kapitel 1 (S. 11-26) Die Texte finden sich in den Seminarordnern (in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im Institut) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Einführung in die Grundgedanken von Sprachwissenschaft/Linguistik Strukturalismus Sprachwissenschaft Anfang bis Mitte des 20. Jhdts Kognitivismus Linguistik Mitte bis Ende des 20. Jhdts Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Strukturalismus „Sprache als präzise erfassbares, formal exakt darstellbares relationales System von formalen Elementen“ (aus Bußmann) Hauptwerk und Begründung der modernen Sprachwissenschaft: Ferdinand de Saussure: Cours de linguistique général (1916) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Strukturalismus - Grundlegende Unterscheidungen (I) Sprache kann unter drei verschiedenen Aspekten betrachtet werden: Langue: in allen Sprecher einer Sprache gespeichertes System (Sprachsystem) Parole: aktuelle Sprachtätigkeit in bestimmten Situationen (Sprachgebrauch) Faculté de langage: generelle Fähigkeit zum Erwerb und Gebrauch von Sprache Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Strukturalismus - Grundlegende Unterscheidungen (II) Sprache im Sinne von Langue ist ein System von Zeichen (und damit Teildisziplin der Semiotik). Jedes Zeichen besteht aus zwei - sich gegenseitig bedingenden - Aspekten: Signifiant: konkreter, materieller Zeichenkörper (Ausdrucksseite - Bezeichnendes) Signifiée: begriffliches Konzept (Inhaltsseite - Bezeichnetes) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Strukturalismus - Grundlegende Unterscheidungen (III) Konzept des distiktiven Prinzips syntagmatische vs. paradigmatische Ebene Segmentierung vs. Klassifizierung synchrone vs. diachrone Sprachwissenschaft Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Kognitivismus (auch: Generative Grammatik) Sprache (besser: Sprachfähigkeit) als genetisch determiniertes (menschliches) Organ, das sich in Konfrontation mit Sprachdaten ausbildet. Abgrenzung vom Strukturalismus: Nicht nur Beobachtung und Beschreibung der menschlichen Sprache ist Gegenstand der Sprachforschung, sondern v.a. auch die mentalen Grundlagen des Spracherwerbs. Begründung der generativen Grammatik: Noam Chomsky: Syntactic Structures (1957) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Kognitivismus - Grundlegende Unterscheidungen (III) Grammatik kann als Theorie einer Sprache angesehen werden. Sie ist Beobachtungsadäquat (Ä1), wenn sie korrekte, intersubjektiv verwertbare Aufzeichnungen von Sprachdaten ermöglicht Beschreibungsadäquat (Ä2), wenn sie Ä1 und die korrekte Beschreibung der Kompetenz eines idealisierten Sprecher/Hörers ermöglicht Erklärungsadäquat (Ä3), wenn sie Ä2 und eine Möglichkeit zur Erklärung des Spracherwerbs liefert Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Kognitivismus - Grundlegende Unterscheidungen (I) Universalgrammatik (UG) - biologisch determinierter kognitiver Ausgangszustand des Sprachorgans Kompetenz - Fähigkeit eines idealisierten Sprecher/ Hörers, Sprache anzuwenden, entwickelt sich aus UG Performanz - Tatsächliche Sprachverwendung, teils fehlerhafter sprachlicher Output Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Kognitivismus - Grundlegende Unterscheidungen (II) Organisation der Universalgrammatik in Prinzipien (sprachübergreifende Wohlgeformtheitsbedingungen) und Parameter (sprachspezifische Parametrisierungen) Organisation der Kompetenz in interagierende Module: phonologisches Modul morphologisches Modul syntaktisches Modul semantisches Modul ... Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Vater (1994): Kapitel 1 (S. 11-26) Zur Vorbereitung: Lesen Sie: Vater (1994): Kapitel 2 (S. 27-68) Die Texte finden sich in den Seminarordnern (in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im Institut) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Phonetik und Phonologie Abgrenzung Phonetik Unterdiziplinen Artikulationsorte und Artikulationsarten Konsonanten und Vokale Phonologie Phoneme und Allophone Phonologische Merkmale Phonologische Prozesse Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Abgrenzung von Phonetik und Phonologie Phonetik: Untersuchung der physiologischen und physikalischen Eigenschaften von Lauten Phonologie: Untersuchung des Verhältnisses der Laute zueinander in einem Sprachsystem Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Unterdisziplinen der Phonetik Artikulatorische Phonetik: Produktion von Lauten mithilfe von Sprechwerkzeugen Akustische Phonetik: physikalische Eigenschaften von Lauten in einem Medium Auditive oder perzeptive Phonetik: Wahrnehmung von Lauten Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Klassifikation der Artikulatorischen Phonetik Zustand der Stimmbänder Weg des Luftstroms Artikulationsort Artikulationsart Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Artikulationsorte (Quelle: http://www.uni-bielefeld.de/lili/projekte/el-germling/veranstaltungen/ struktur_dt_sprache1/strukturI_WS05_06/artikulation_konsonanten.html) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Artikulationsarten Verschlußlaute (Plosive) Frikative (Reibelaute) Nasalkonsonanten Laterale Vibranten Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Konsonanten (Quelle: http://www.uni-bielefeld.de/lili/projekte/el-germling/veranstaltungen/ struktur_dt_sprache1/strukturI_WS05_06/artikulation_konsonanten.html) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Vokale (Quelle: http://www.phonetik.uni-muenchen.de/Lehre/Skripten/TRANS1/pics/vokale.gif) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Phoneme - Definition Psychologischer Ansatz - Der Ideallaut Physikalischer Ansatz - Die Lautfamilie Abstrakter Ansatz - Die Distribution Funktionaler Ansatz - Die Bedeutungsdifferenzierung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Allophone Definition - Unterschiedliche Phone - ein Phonem Unterscheidung freie Allophone regionale Allophone komplementäre Allophone Neutralisation von Oppositionen Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Phonologische Merkmale Phoneme sind zerlegbar in Merkmale Merkmale sind binär Merkmale sind artikulatorischer Art Jedes Phonem jeder Sprache lässt sich durch eine spezifische Merkmalsmatrix von anderen unterscheiden Wichtigste phonologische Merkmale: konsonantisch, sonorant, koronal, dauernd, stimmhaft, gerundet, gespannt, nasal, lateral, hinten, hoch, tief Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Merkmale deutscher Konsonanten kons son dnd kor hoch hint nas sth p + - b + + f + + - v + + + m + + + + t + + - d + + + s + + + - z + + + + n + + + + + l + + + + + r + + + + + ʃ + + + + - ç + + + - j + + + + k + + + - g + + + + x + + + + - ŋ + + + + + + R + + + + + Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Phonologische Prozesse Treten auf bei Realisierung von Phonemen in Sequenzen Diachronische vs. synchronische Prozesse Arten phonologischer Prozesse: Assimilation Dissimilation Metathese Tilgung (Ellipse) Insertion (Epithese) Allgemeines Regelschema: A → B / X_Y (A wird zu B nach X vor Y) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Vater (1994): Kapitel 2 (S. 27-68) Zur Vorbereitung: Lesen Sie: Vater (1994): Kapitel 3/Anfang (S. 69-80) Die Texte finden sich in den Seminarordnern (in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im Institut) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 06/07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Morphologie Wort – Morphem – Allomorph Sprachtypologie anhand der Wortstruktur Flexion und Wortbildung Morphologische Analyse Grundmodelle der generativen Morphologie Morphologie mit endlichen Automaten Morphologie mit Default-Vererbungsnetzen Referat: Lemmatisierung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Das Wort und seine Auftrittsformen lexikalisches Wort (Lexem) flexivisches Wort (Wortform) phonologisches Wort syntaktisches Wort Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Morphem, Allomorph Morpheme, funktionale Definition: kleinste bedeutungstragende Einheit einer Sprache freie vs. gebundene Morpheme Wurzelmorpheme vs. Affixe Derivationsaffixe vs. Flexive Allomorphe: Bedeutungs- und funktionsgeleiche Varianten eines Morphems Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Sprachtypologie anhand der Wortstruktur isolierende Sprachen (keine Flexive) flektierende Sprachen (Flexive mit mehreren Funktionen) agglutinierende Sprachen (Flexive mit nur einer Funktion) polysynthetische Sprachen (inkorporierend, Verschmelzung von grammatischen Einheiten zu einer Worteinheit) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Flexion Bildung flexivischer Wörter Formen: Konjugation (Verben) Deklination (Nomen und Adjektive) Komparation (Adjektive) Problematisch: Nullmorpheme Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wortbildung Bildung lexikalischer Wörter Formen: Komposition Derivation Konversion Abkürzung Amalgamierung Entlehnung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Analytische vs. generative Morphologie analytische Morphologie: Identifikation von Wörtern/ Morphemen in Äußerungen generative Morphologie: Ableitung von Wörtern aus gegebenen Input Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Morphologische Analyse Segmentierung – Zerlegung in Morphe(me) Klassifizierung – Zuordnung von Allomorphen zu Morphemen Strukturierung – Analyse des Hierarchischen Aufbaus von Morphemkomplexen Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Vater (1994): Kapitel 3 (S. 69-106) Bearbeiten Sie die Aufgaben A15 und A16 (S. 105) Zur Vorbereitung: Lesen Sie: Carstensen et al. (2001): Kapitel 3.2 (S. 175-183) Die Texte finden sich in den Seminarordnern (in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im Institut) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 06/07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Morphologie Wort – Morphem – Allomorph Sprachtypologie anhand der Wortstruktur Flexion und Wortbildung Morphologische Analyse Grundmodelle der generativen Morphologie Morphologie mit endlichen Automaten Morphologie mit Default-Vererbungsnetzen Referat: Lemmatisierer Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Grundmodelle der generativen Morphologie Morphembasierter Ansatz: Kombination von Morphemen zu vollständigen Formen Wortbasierter Ansatz: Bildung von Wörtern aus Stammformen (z.B. dem Infinitiv) Realisierungsbasierter Ansatz: Realisierung einer Wortform aus vorgegebener Form Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Morphologie mit endlichen Automaten Beispiel für morphembasierten Ansatz einfache endliche Automaten finite-state-Transducer Probleme: Nichtkonkatenative Phänomene Nichtlokale Abhängigkeiten Prosodische Phänomene Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Morphologie mit Default-Vererbungsnetzen Beispiel für realisierungsbasierten Ansatz Reichere Syntax (Typ-0-Sprache) Gebrauch von Defaultmechanismen Repräsentation des lexikalischen Wissens in Knoten, die Pfaden Werte zuweisen Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Grundlegende Syntax LERNEN: <form präs sg eins> == lerne <form präs sg zwei> == lernst (...) . Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Resolutionspfade LERNEN: <form> == <wurzel> <endung> <wurzel> == lern <endung präs sg eins> == e <endung präs sg zwei> == st <endung präs sg drei> == t <endung präs pl eins> == en <endung präs pl zwei> == t <endung präs pl drei> == en . Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Redundanzen LERNEN: <form> == <wurzel> <endung> <wurzel> == lern <endung präs sg eins> == e <endung präs sg zwei> == st <endung präs sg drei> == t <endung präs pl eins> == en <endung präs pl zwei> == t <endung präs pl drei> == en Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Defaults und Neutralisierung LERNEN: <form> == <wurzel> <endung> <wurzel> == lern <endung sg> == e <endung sg zwei> == st <endung präs sg drei> == t <endung pl> == en <endung pl zwei> == t <endung präs> == <endung> <endung prät> == t <endung> Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Verallgemeinerung VERB: <form> == <wurzel> <endung> <endung sg> == e <endung sg zwei> == st <endung präs sg drei> == t <endung pl> == en (...). LERNEN: <> == VERB <wurzel> == lern. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Behandlung nichtlokaler Abhängigkeiten VERB: <form> == <wurzel> <endung> <form part> == ge <wurzel> <endung part> <endung part> == t . Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Behandl. nichtkonkatenativer Phänomene VERBKLASSE 1: <> == STARKE_VERBEN <wurzel> == <w_anf> <w_vok> <w_end>. RATEN: <> == VERBKLASSE 1 <w_anf> == r <w_end> == t <w_vok> == a <w_vok präs sg zwei> == ä <w_vok prät> == ie. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Carstensen et al. (2001): Kapitel 3.2 (S. 190-202) Entwerfen Sie einen jeweils einen Finite-State-Transducer und eine DATR-Repräsentation für die Präsens- und Präteritumformen der Verben „bleiben“ und „holen“. Wieweit Sie jeweils ins Detail gehen, bleibt Ihnen überlassen. Zur Vorbereitung: Lesen Sie: Ramers (2000): Kapitel 1 (S. 11-34) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 06/07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Morphologie Wort – Morphem – Allomorph Sprachtypologie anhand der Wortstruktur Flexion und Wortbildung Morphologische Analyse Grundmodelle der generativen Morphologie Morphologie mit endlichen Automaten Morphologie mit Default-Vererbungsnetzen Referat: Lemmatisierer Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Grundmodelle der generativen Morphologie Morphembasierter Ansatz: Kombination von Morphemen zu vollständigen Formen Wortbasierter Ansatz: Bildung von Wörtern aus Stammformen (z.B. dem Infinitiv) Realisierungsbasierter Ansatz: Realisierung einer Wortform aus vorgegebener Form Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Morphologie mit endlichen Automaten Beispiel für morphembasierten Ansatz einfache endliche Automaten finite-state-Transducer Probleme: Nichtkonkatenative Phänomene Nichtlokale Abhängigkeiten Prosodische Phänomene Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Morphologie mit Default-Vererbungsnetzen Beispiel für realisierungsbasierten Ansatz Reichere Syntax (Typ-0-Sprache) Gebrauch von Defaultmechanismen Repräsentation des lexikalischen Wissens in Knoten, die Pfaden Werte zuweisen Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Grundlegende Syntax LERNEN: <form präs sg eins> == lerne <form präs sg zwei> == lernst (...) . Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Resolutionspfade LERNEN: <form> == <wurzel> <endung> <wurzel> == lern <endung präs sg eins> == e <endung präs sg zwei> == st <endung präs sg drei> == t <endung präs pl eins> == en <endung präs pl zwei> == t <endung präs pl drei> == en . Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Redundanzen LERNEN: <form> == <wurzel> <endung> <wurzel> == lern <endung präs sg eins> == e <endung präs sg zwei> == st <endung präs sg drei> == t <endung präs pl eins> == en <endung präs pl zwei> == t <endung präs pl drei> == en Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Defaults und Neutralisierung LERNEN: <form> == <wurzel> <endung> <wurzel> == lern <endung sg> == e <endung sg zwei> == st <endung präs sg drei> == t <endung pl> == en <endung pl zwei> == t <endung präs> == <endung> <endung prät> == t <endung> Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Verallgemeinerung VERB: <form> == <wurzel> <endung> <endung sg> == e <endung sg zwei> == st <endung präs sg drei> == t <endung pl> == en (...). LERNEN: <> == VERB <wurzel> == lern. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Behandlung nichtlokaler Abhängigkeiten VERB: <form> == <wurzel> <endung> <form part> == ge <wurzel> <endung part> <endung part> == t . Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Wissensrepräsentation in DATR: Behandl. nichtkonkatenativer Phänomene VERBKLASSE 1: <> == STARKE_VERBEN <wurzel> == <w_anf> <w_vok> <w_end>. RATEN: <> == VERBKLASSE 1 <w_anf> == r <w_end> == t <w_vok> == a <w_vok präs sg zwei> == ä <w_vok prät> == ie. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Carstensen et al. (2001): Kapitel 3.2 (S. 190-202) Entwerfen Sie einen jeweils einen Finite-State-Transducer und eine DATR-Repräsentation für die Präsens- und Präteritumformen der Verben „bleiben“ und „holen“. Wieweit Sie jeweils ins Detail gehen, bleibt Ihnen überlassen. Zur Vorbereitung: Lesen Sie: Ramers (2000): Kapitel 1 (S. 11-34) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Syntax Grammatik – Satz – Phrase Konstituenten – Ermittlung und Klassifikation Phrasenstrukturregeln Das X-bar-Schema Kanonische Satzstruktur Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Zielsetzungen der generativen Grammatik Universalität: Alle Phrasentypen aller natürlichen Sprachen müssen erfasst werden Lernbarkeit: Die postulierten Phrasenstrukturen können im Spracherwerb gelernt werden Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Das X-bar Modell der Phrasenstruktur Kopfprinzip (Prinzip der Endozentrizität): Alle Phrasen sind Expansionen eines Kerns mit gleicher kategorialer Prägung: (XP → ... X ...) Ebenenprinzip: Phrasen sind auf mehr als zwei Ebenen gegliedert (X´- Ebene) Phrasenprinzip: Ergänzungen zu syntaktischen Wörtern oder ihren Projektionen sind immer Phrasen Verzweigungsprinzip: Knoten verzweigen entweder unär oder binär Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Schema des X-bar-Modells Spezifiziererregel: X´´ → Spezifizierer X´ Komplementregel: X´ → Komplement X° Adjunktregeln (rekursiv): X´ → Adjunkt X´ X´´ → Adjunkt X´´ Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Auxiliare, Finitheit und der Nominativ (I) Der Frosch sitzt auf der Rose. Der Frosch hat auf der Rose gesessen. Der Storch sieht *der/den Frosch auf der Rose sitzen. Es ist schön, (*der Frosch) auf der Rose zu sitzen. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Auxiliare, Finitheit und der Nominativ (II) Der Frosch sitzt auf der Rose. Der Frosch hat auf der Rose gesessen. Der Storch sieht *der/den Frosch auf der Rose sitzen. Es ist schön, (*der Frosch) auf der Rose zu sitzen. → Nominativ tritt nur auf, wenn sich im Satz ein finiter Bestandteil (Auxiliar oder Vollverb) findet. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Inflektionsphrase, die erste I´´ SpecI I´ (Subjekt) I° V´´ (fin. Verb) V´ KompV V° (Objekt) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Das topologische Feldermodell Hauptsätze Der Frosch hat auf der Rose gesessen. Nebensätze ... weil der Frosch auf der Rose gesessen hat. Entscheidungsfragesätze Hat der Frosch auf der Rose gesessen? W-Fragesätze Worauf hat der Frosch gesessen? Wer hat auf der Rose gesessen? → Vorfeld – linke SK – Mittelfeld – rechte SK – Nachfeld Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Das CP-IP-Modell C'' SpecC C' C° I'' SpecI I' V'' I° V' Komp Vorfeld LK Mittelfeld V° RK Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Lesen Sie: Ramers (2000): Kapitel 2 und 3 (S. 35-76) bearbeiten Sie auch die Übungsaufgaben 2 und 3 jeweils a) bis c) und ß) (S. 55) Zur Vorbereitung: Lesen Sie: Schwarz/Chur (1996): Kapitel 1 (S. 13-36) Frohes Fest und einen guten Start ins neue Jahr! Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Semantik Einführung Wortsemantik (lexikalische Semantik) Merkmaltheorie Prototypentheorie Semantische Relationen Satzsemantik Semantik und Sprachverarbeitung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Semantik - Einführung Inhalt/Bedeutung geknüpft an Ausdruck bezieht sich auf steht für Referent Mentales Lexikon: Teil des Langzeitgedächtnisses Konzepte: Bausteine unseres Wissens, basierend auf Erfahrungen Kategorienkonzepte (Types): Repräsentanten von Informationen über Klassen - Äquivalenz Partikularkonzepte (Token): Repräsentanten von Informationen über Einzelnes - Identität Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Wortsemantik vs. Satzsemantik Lexikalische (Wort-) Semantik: Kontextunabhängige Bedeutung von Wörtern Relationen zwischen Bedeutungen (Sinnrelationen) Satzsemantik: Prinzip der Kompositionalität: Wortbedeutung + Art der Zusammensetzung = Satzbedeutung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Merkmalsemantik Merkmalhypothese: Bedeutung sind nicht ganzheitlich, sondern aus elementaren Inhaltselementen (semantische Merkmale – Seme) zusammengesetzt. Merkmalbündel: Innere Struktur von Bedeutungen Semantische Opposition: Gegenüberstellung distinktiver Bedeutungsmerkmale Kriterium der Notwendigkeit: Ermittlung wesentlicher Merkmale Probleme: Relationale Merkmale – Verben – kognitive Plausibilität Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Prototypensemantik Prototypenhypothese: Prototypen sind mentale Repräsentationen von Kategorien, die nicht klar umgrenzt werden können – Kontinuum der Kategoriezugehörigkeit. Entstehung von Prototypen: Fequentialität und Relevanz Mentale Bilder oder abstrakte Informationseinheiten? Keine Alternative, sondern Ergänzung zur Merkmalsemantik Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Semantische Relationen Synonymie: Bedeutungsgleichheit - gleiche semantischdenotative, evtl. verschiedene konnotative Merkmale Referenzidentität: gleicher Referent, evtl. verschiedene Bedeutungen Ambiguität: Verschiedene Bedeutungen einer Wortform – Polysemie vs. Homonymie; Homophonie vs. Homographie Vagheit: Bedeutungs- oder Konzeptfamilie Hyponymie (Unterordnung) vs. Hyperonymie (Überordnung) Kohyponymie: Inkompatible Schwestern in Taxonymie Kontradiktion (-Zwischenstufen, -steigerbar) vs. Antonymie (+Zwischenstufen, +steigerbar) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Schwarz/Chur (1996): bis einschl. Kap. 2.2 (S.13-60) Zur Vorbereitung: Schwarz/Chur (1996): Kap. 5 bis einschl. Kap. 6.2 (S. 115-162) Görz et al. (1993): Kapitel 5.3.1 (S. 425-428) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Semantik Einführung Wortsemantik (lexikalische Semantik) Satzsemantik Semantische Relationen Aussagenlogik Prädikatenlogik Semantik und Sprachverarbeitung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Satzsemantik - Einführung Prinzip der Kompositionalität Die Bedeutung eines Satzes zu kennen, heißt angeben zu können, in welchen Situationen er wahr/falsch ist. Ziel: Darstellung natürlichsprachlicher Ausdrücke in einem formalen Semantikmodell (mittels Logik). Problem: Forschung beschränkt sich auf Aussagesätze. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Semantische Relationen zwischen Sätzen semantische Satzrelationen Kompatibilität Subkontrarität Inkompatibilität Kontrarität Paraphrase Kontradiktion Implikation Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Aussagenlogik - Grundbegriffe Satzvariablen: p, q, r, s Konnektoren/Junktoren: Negation: ¬ Konjunktion: ∧ (&) Disjunktion: ∨ Implikation: → Äquivalenz: ↔ Wahrheitswerte: w (1), f (0) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Schwarz/Chur (1996): Kap. 5 bis einschl. Kap. 6.1 (S.115-141) Zur Vorbereitung: Schwarz/Chur (1996): Kap. 6.2 (S.142-162) Görz et al. (1993): Kapitel 5.3.1 (S. 425-428) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 07/08 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Semantik Einführung Wortsemantik (lexikalische Semantik) Satzsemantik Semantische Relationen Aussagenlogik Prädikatenlogik Semantik und Sprachverarbeitung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Prädikatenlogik - Grundbegriffe Individuenkonstanten (Kleinbuchstaben) Prädikatskonstanten (Großbuchstaben) Variablen und bindende Quantoren: Existenzquantor ∃ (Teilsätze verbunden durch ∧) Allquantor ∀ (Teilsätze verbunden durch →) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Prädikatenlogik - Erweiterungen Quantoren: ein, kein, alle, nicht alle Quantorenskopus und verschiedene Lesarten Lambda-Kalkül: Abstraktion und Konversion Typentheorie: Individuenkonstanten, wahrheitswertfähige Ausdrücke und Komplexes → Ziel des Ganzen: Ermittlung der Bedeutung elementarer Ausdrücke und Berechnung ihrer zusammengesetzten Bedeutung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Prädikatenlogik - Erweiterungen Ziel der Semantikkonstruktion durch die Prädikatenlogik: Jeder Satz einer natürlichen Sprache sollte in formale Sprache übersetzt werden können. angemessene Repräsentation Prinzip der Kompositionalität Strukturisomorphie Mittel der erweiterten Prädikatenlogik: Generalisierte Quantoren Lambda-Kalkül und Typentheorie Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Semantik und Sprachverarbeitung Konkurrierende Entwicklungen: KI-Forschung: Anwendungsorientiert → Theorie der konzeptuellen Dependenz (CD-Theorie) Theoretische Sprachforschung: Logische Semantik natürlicher Sprachen → Montague-Grammatik Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Schichten des Bedeutungsbegriffs Semantisches Potential: Information basierend ausschließlich auf linguistischem Wissen (syntaktische Determination) Aktueller semantischer Wert: bestimmter gegebener Äußerungskontext beseitigt Mehrdeutigkeit. Relevante Äußerungsinformation: wird weitestgehend durch Weltwissen gewonnen. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Aufgaben für die semantische Verarbeitung Semantikkonstruktion (semantische Komposition) durch linguistisches Wissen (Auswertung lexikalischer und syntaktischer Information) Semantische Resolution durch Klassifikation geeigneter kontextuell gegebener Referenzobjekte durch Kontextwissen. Semantische Auswertung der relevanten Äußerungsinformation durch u.a. Weltwissen (episodisches Wissen und Regelwissen) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Literatur / Hausaufgabe Zur Nachbereitung: Schwarz/Chur (1996): Kap. 6.2 (S.142-162) Görz et al. (1993): Kapitel 5.3.1 (S. 425-428) Zur Vorbereitung: Carstensen et al. (2001): Kapitel 4 und 4.2 (S. 361 und 369-376) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Ressourcen Einführung Korpora Baumbanken und Wortnetze Lexika Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Korpustypen Textkorpora: geschriebene oder trankribierte gesprochene Texte; Grundeinheit Token Sprachkorpora: Audioaufnahmen evtl. mit phonetischen und linguistischen Annotationen Multimodale Korpora: Sprachkorpora mit Annotationen von Prosodien, Mimik, Gestik u.a. Baumbanken: syntaktisch analysierte Sätze; Grundeinheit: Satz Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Korpora - Eigenschaften Maschinenlesbare Textsammlung Ausgewogen und repräsentativ (?) Metainformation / Annotation Begrenzte Größe Zusammensetzung: Textsorte / Domaine / Alter; homogen vs. heterogen; fest vs. wechselnd Das Web als Korpus? Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Erstellung eines Korpus Struktur- und Metainformationen erkennen Umwandlung in definiertes Format Tokenisierung (Segmentierung): Aufspaltung des Textes Satzgrenzenerkennung: Disambiguierung von Satztrennzeichen Korpusrepräsentation: standardisiertes Format: Corpus Encoding Standard (CES) Hinzufügen linguistischer Information (Annotation): Part of speech (POS) tagging – Lemmatisierer – Chunking – Parsing Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Abfrage eines Korpus Konkordanzsuche: KWIC-Format (key word in context) Musterbasierte Suche: Abfrage über reguläre Ausdrücke Statistische Analyse: Suche nach wiederholt auftretenden Wortformen (Kookkurenzen, Kollokationen), Wortarten (Kolligationen), Wortclustern (wiederholte Folge von Lexemen) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Carstensen et al. (2001): Kapitel 4 bis 4.2 (S. 361-376) Zur Vorbereitung: Carstensen et al. (2001): Kapitel 4.5 (S. 394-401) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parser Begriffe, Anwendungen, Strategien, Überblick Elementare Parsingalgorithmen Top-Down-Parser Bottom-Up-Parser Komplexere Parser Chart-Parser Marcus-Parser Konnektionistische Parser Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Parsing – Begriffe und Motivation (I) Parsing ist ein algorithmisches Verfahren, bei dem eine natürlichsprachliche Eingabekette auf eine strukturelle Beschreibung in einer formalen Repräsentationssprache abgebildet wird (vs. Recognizer) Motivation für Parsing in der Computerlinguistik ist eine theoretisch fundierte und algorithmisch präzise Rekonstruktion des Sprachverstehens Wissensquellen für Parser sind die Wissensquellen eines natürlichsprachlichen Systems Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Parsing – Begriffe und Motivation (II) Komplexität von Parsern: Zeit- und Raumbedarf der zugrundeliegenden Algorithmen. Kontextfreie bzw. schwach kontextsensitive Grammatiken gelten als effizient berechenbar und genügend ausdrucksstark. Hauptproblem für Parser ist die Disambiguierung auf lexikalischer, syntaktischer, semantischer und pragmatischer Ebene. Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Anwendungsgebiete für Parser Compilerbau: Quellcode → Compilierung → Objektcode (syntaktische & semantische Analyse) Kognitive Psychologie: Interaktion syntaktischer und semantischer Prozesse Computerlinguistik: Wohlgeformtheitsüberprüfung; Disambiguierung; Strukturbeschreibungsaufbau; Identifikation und Korrektur der Eingabe Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Abfrage eines Korpus Zufällige(r) Text(e) Konkordanzsuche: KWIC-Format (key word in context) Musterbasierte Suche: Abfrage über reguläre Ausdrücke Statistische Analyse: Suche nach wiederholt auftretenden Wortformen (Kookkurenzen, Kollokationen), Wortarten (Kolligationen), Wortclustern (wiederholte Folge von Lexemen) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Baumbanken Grundlegende Einheit: in Baumstrukturen kodierte Sätze Erstellung: Durch Parser, Nachbearbeitung nötig Anwendung: Parserentwicklung, Extraktion lexikalischer Information, phänomenbasiertes Retrieval Qualitätsmerkmale: Annotation, Dokumentation, Wiederverwertbarkeit, Korrektheit, Konsistenz Beispiele: Penn-Treebank, TIGER-Korpus Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Lexikalisch-semantische Wortnetze Konzeptknoten: Abbildung der (wichtigsten) Wörter einer Sprache und deren bedeutungstragenden Beziehungen zu anderen Wörtern Synset: zugrundeliegende Repräsentationseinheit, die Synonyme zu Konzeptknoten zusammenfaßt Beispiele: GermaNet, WordNet Anwendungsperspektiven: Lesartendisambiguierung, Informationserschließung, Semantische Annotierung Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Überblick über die gängisten Parser Elementare Parser: Top-Down, Bottom-Up, Left-Corner Chart-Parser Earley-Algorithmus (Earley 1970) Active Chart Parsing (Winograd 1983) Deterministische Parser PARSIFAL (Marcus 1980) generalisiertes LR-Parsing (Tomita 1985) Stochastische Parser Konnektionistische Parser Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Parsing-Strategien Analyserichtung: top-down vs. bottom-up Suchstrategien: breadth-first (parallel) vs. depth-first (sequenziell) vs. best-first (heuristisch) Verfahrensweise: deterministisch vs. nicht-deterministisch Verarbeitungsrichtung: uni- vs. bidirektional Kommunikation: online vs. offline Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Analyserichtungen Top-Down-Parsing zielgesteuert, von oben nach unten Regelexpansion: linke Regelseite → rechte Regelseite terminiert, wenn abgeleiteter Ausdruck dem Eingabesatz entspricht Probleme: Erzeugung evtl. nicht-terminierbarer Knoten; keine linksbzw. rechtsrekursiven Regeln zugelassen Bottom-Up-Parsing datengesteuert, von unten nach oben Regelreduktion: rechte Regelseite → linke Regelseite terminiert, wenn abgeleiteter Ausdruck dem Startsymbol entspricht Probleme: Bildung evtl. nicht reduzierbarer Konstituenten; keine Tilgungsregeln zugelassen Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Suchstrategien Breadth-First: parallel: mehrere Alternativen der Regelanwendung werden simultan verfolgt Depth-First: sequenzielles Abarbeiten der Alternativen mit Protokoll der Auswahlentscheidungen und eventuellem Zurücksetzen „Best-First“: Heuristisches Parsen Aufwandsreduktion, Analysenrobustheit Typen: partielles Parsing – Insel-Parsing – Skimming Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Verfahrensweise Nichtdeterministisches Parsen: Grammatiken erlauben mehrere Alternativen Suchstrategien erforderlich Deterministisches Parsen: In jedem Zustand ist nur ein einziger Ableitungsschritt möglich Verwendet v.a. im Compilerbau Bei Einsatz für natürliche Sprache: Aufschieben der Entscheidung (look-ahead; wait & see) Vertreter: PARSIFAL, Tomita-Algorithmus Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Top-Down Recognizer Daten: Lexikon und kontextfreie Syntax Eingabe: Satz (w) mit der Länge n>=0 Ausgabe: TRUE/FALSE Arbeitsstrukturen: nächstes Wort (Anfangswert: 1) Struktur (Anfangswert: Startsymbol [S]) Methode MAIN: WENN Ableitung leer und Wort==n+1 →Return TRUE SONST Reduziere(Expandiere(Ableitung)) PROZEDUR Expandiere: Wende Regel an, übergebe Ableitung PROZEDUR Reduziere: Ersetze lexikalische Kategorien, gehe zum nächstem Wort Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Top-Down Parser Daten: Lexikon und kontextfreie Syntax Eingabe: Satz (w) mit der Länge n>=0 Ausgabe: Strukturbeschreibung für w Arbeitsstrukturen: Wort (Anfangswert 1) Struktur (Anfangswert Startsymbol S) Position (Anfangswert 1) Methode MAIN: WENN Struktur==w liefere sie zurück SONST Reduziere(Expandiere(Struktur)) PROZEDUR Reduziere: Ändere Variable Position PROZEDUR Expandiere: Ändere Variablen Struktur & Position Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Bottom-Up Recognizer Daten: Lexikon und kontextfreie Syntax Eingabe: STACK1([Eingabesatz w]) mit n>=1 STACK2([ ]) Ausgabe: TRUE/FALSE Methode MAIN: WENN STACK2[ ] DANN Reduce(STACK2) SONST WENN STACK1 [ ] DANN Shift(STACK1,STACK2) SONST Return TRUE/FALSE PROZEDUR Shift: Schreibe Elemente von STACK1 in STACK2 PROZEDUR Reduce: Ersetze Elemente in STACK2 nach Regeln der Syntax Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Naumann, Langer (1994): Kapitel 1 und 2 (S. 3-36) Zur Vorbereitung: Naumann, Langer (1994): Chart-Parsing (S. 102-106) und Suchen Sie im WWW nach „PARSIFAL“, dem Parser von Marcus (1980) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parser Begriffe, Anwendungen, Strategien, Überblick Elementare Parsingalgorithmen Komplexere Parser Chart-Parser Marcus-Parser Konnektionistische Parser Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Chart-Parser Aufgabe: Lösung des Problems der Mehrfachanalysen durch Speicherung der Teilergebnisse in einer Chart. Kanten (In der Chart gespeicherte Objekte; aktiv vs. passiv): kategorialer Typ der repräsentierten Konstituente Satzabschnitt, über den sich die Kante erstreckt (nur aktive Kanten) Spezifikation des erkannten und des nicht erkannten Teils Operationen: Eintrag der Kanten in die Chart Erzeugung neuer Kanten in Abhängigkeit von der Chart und vom syntaktischen Wissen. Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Earley-Algorithmus (Earley 1970) Datenstruktur: Chart-Matrix mit Teilungspunkt. Operationen: prädikative Erweiterung (predictor-Schritt) lexikalische Konsumption (scanner-Schritt) Konstituentenvervollständigung (completer-Schritt) Analyserichtung: Top-Down (predictor-Schritt) Bottom-Up (completer-Schritt) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Active Chart Parsing (Winograd 1983) basierend auf dem Earley-Algorithmus, verwendet allerdings statt geteilter Produktion einen Graphen mit aktiven und passiven Kanten passive Kanten: vollständig erkannte Konstituenten; feste Verbindung zweier Chartknoten aktive Kanten: partiell erkannte Konstituenten; Quellknoten sucht anhand der gegebenen Grammatik den Zielknoten Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Naumann, Langer (1994): Chart-Parsing (S. 102-106) Parsen Sie den Satz „Der Hund pinkelt auf den Gehweg“ in Top-Down und in Bottom-Up-Richtung. Zeichnen Sie dazu zwei Charts (eine in Tabellenform, eine als Graphen), in die jeweils alle passiven Kanten eingetragen werden sollen. Zur Vorbereitung: Strube (1996): PARSIFAL (S. 460-461) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parser Begriffe, Anwendungen, Strategien, Überblick Elementare Parsingalgorithmen Komplexere Parser Chart-Parser Marcus-Parser Konnektionistische Parser Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Deterministisches Parsing In jedem Zustand ist nur ein einziger Ableitungsschritt möglich Verwendet v.a. im Compilerbau Bei Einsatz für natürliche Sprache: Aufschieben der Entscheidung (look-ahead; wait & see) Vertreter: PARSIFAL, Tomita-Algorithmus Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 PARSIFAL (Marcus 1980) I Grundlegende Entwurfsannahme: Determinismushypothese kein Backtracking keine parallelen Strukturen keine verborgenen Zustände Umsetzung: Stack aktiver Knoten Puffer fertiger Teilstrukturen Regelaufbau: Bedingungsteil (Anwendungskriterium) Handlungsteil (Konsequenzen der Anwendung) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 PARSIFAL (Marcus 1980) II Regelpaketorganisation: indiziert und aktiviert durch Konstituententypen Architektur: datengesteuert (Bottom-Up): Aktivierung der Regeln durch lexik. Elemente oder Teilstrukturen im Puffer erwartungsorientiert (Top-Down): Ausführung der Regeln durch aktive Pakete (fortsetzungsreguliert) vorrausschauend: Transparenz und Längenrestriktionen des Puffers erlauben sichere Entscheidung über korrekte Regelauswahl. Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Strube (1996): „PARSIFAL“ (S. 460-461) und „Parsing natürlicher Sprache“ (S. 461 ff) Parsen Sie den Satz „Der Hund pinkelt auf den Gehweg“ mittels eines Marcus-Parsers (Stack und Queue). In welchem Schritt befinden sich die meisten Elemente auf dem Stack? Wieviele sind es? Zur Vorbereitung: Dorffner (1991): Konnektionismus, Kapitel 1 (S. 2-14) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parser Begriffe, Anwendungen, Strategien, Überblick Elementare Parsingalgorithmen Komplexere Parser Chart-Parser Marcus-Parser Konnektionistische Parser Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Kognitivismus vs. Konnektionismus Kognitivismus: Explizite Darstellung des Wissens Nutzung logischer Konzepte Streng deterministisch Symboldarstellung von Objekten, Beziehungen und Ereignissen auf der kognitiven Ebene Konnektionismus: Impliziter Erwerb von Wissen Mustererkennung, -klassifikation, -vervollständigung Fehlertoleranz Symbole sind keine Bestandteile, sondern Abstraktionen über die subsymbolisch arbeitende kognitive Ebene Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Konnektionismus Arbeitsweise neuronaler Netzwerke Informationsverarbeitung durch eine relativ große Anzahl von Prozessoren ( keine CPU), die lokal arbeiten und über Signale über Verbindungen kommunizieren Aufbau: Input – Hidden – Output Units Lokale vs. Verteilte Repräsentation Lernalgorithmus: Hebb‘sches Prinzip (beruhend auf Backpropagation) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Eigenschaften neuronaler Netzwerke Parallelität: Keine zentrale Steuerungseinheit Distribuiertheit: Wissen des Systems ist nicht auf einzelne Units beschränkt, sondern über das Netz verteilt Fehlertoleranz: Ausfälle einzelner Units sind für das System verkraftbar Besonders geeignet für Mustererkennung (Assoziation) Musterabbildung (Klassifikation) Mustervervollständigung (bei fehlerhaftem Input) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Dorffner (1991): Konnektionismus, Kapitel 1 (S. 2-14) Strube (1996): „Parsing natürlicher Sprache“ (S. 461 ff) Verdeutlichen Sie sich nochmals die vorgestellten ParsingVorgänge (Bottom-Up, Top-Down, Chart, Marcus) und parsen Sie damit einen Satz ihrer Wahl. Zur Vorbereitung: Wiederholen Sie das Kapitel Syntax aus dem ersten Semester (inklusive der drei Kapitel aus dem „Syntax“Buch von Ramers) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Grammatikformalismen Einführung Unifikationsgrammatiken PATRII LFG Prinzipien- und Parameter-Theorie Government & Binding Anwendung: VisualGBX Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Einführung Beschreibung der grammatischen Kompetenz Syntax, Morphologie, Lexikon, Phonologie, Semantik... Grammatikformalismus (-modell) besteht aus Grammatiktheorie und Symbolsystem Grammatiktheorie (formale): Mathematische Modelle zur Beschreibung (Aufzählung) von Sprachen → Chomsky-Hierarchie Symbolsystem: Repräsentation von Kategorien und Strukturen für grammatische Einheiten Regeln, Prinzipien, Beschränkungen zur Erkennung/ Produktion von wohlgeformten Sätzen Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 PATRII – Grundlegende Begriffe Merkmalstrukturen Gleichheit vs. Identität Subsumption und Extension Unifikation Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Merkmalsstrukturen Atomare Einheiten: numerus:singular Einfache Merkmalstrukturen: numerus: singular genus: maskulin Geschachtelte Merkmalstrukturen: agreement: numerus: singular person: 3 Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Gleichheit kategorie: S subj: kategorie: NP agreement: $1 numerus: singular genus: maskulin obj: kategorie: NP agreement: numerus:singular genus: neutrum kopf: tempus: praesens agreement: $1 Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Identität kategorie: S subj: kategorie: NP agreement: $1 obj: numerus: singular genus: maskulin kategorie: NP agreement: numerus:singular genus: neutrum kopf: tempus: praesens agreement: $1 Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Subsumption und Extension S u E b x s kategorie:NP u t e m kategorie:NP n p agreement: numerus:singular s t person: 3 i o o n n Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Unifikation Die Unifikation von 2 Strukturen D1 und D2 ergibt die kleinste Struktur D, welche eine Extension sowohl von D1 als auch von D2 bildet. Existiert diese Struktur nicht, dann scheitert die Unifikation (Ergebnis = fail). kategorie: NP agreement: + kategorie: numerus: singular genus: feminin NP agreement: numerus: singular person: 3 ergibt unifiziert kategorie: NP agreement: numerus: singular person: 3 genus: feminin Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Shieber (1986): Elementare Unifikationsformalismen (S. 11-36) Entwerfen Sie für den Satz „Die Kinder schlafen“ ein Beispiellexikon und eine Beispielgrammatik in PATRII anhand derer Sie den Satz bottom-up parsen. Zur Vorbereitung: Shieber (1986): Erweiterte Unifikationsformalismen (S. 38-51) Butt et al. (1999): Kapitel 1 (S. 1-14) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Grammatikformalismen Einführung Unifikationsgrammatiken PATRII LFG Prinzipien- und Parameter-Theorie Government & Binding Anwendung: VisualGBX Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 LFG-Grundbegriffe Lexikalisch-Funktionale Grammatik Funktionale Strukturen werden als mathematische Funktionen betrachtet Spachliche Phänomene werden durch lexikalische Regeln charakterisiert Zentrale Begriffe: Repräsentationen in der LFG: c-Struktur und f-Struktur Functional Projection Function als verbindendes Element zwischen diesen Strukturen Wohlgeformtheitsregeln über f-Strukturen Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 C-Struktur und F-Struktur C-Struktur (Konstituentenstruktur): Baumdiagramm, aufgebaut durch kontextfreie Regeln; enthält Informationen über phrasale Dominanz und Präzedenz. F-Struktur (Funktionale Struktur): Merkmalstruktur, die Informationen z.B. über Prädikat-Argument-Struktur und morphosyntaktische Kategorien (Tempus, Agreement etc.) enthält. Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 C-Struktur und F-Struktur Verbindung zwischen den Repräsentationen durch Mapping (Abgleich) der enthaltenen Informationen durch angereicherte Phrasenstrukturregeln: kontextfreie Regeln plus beschränkende constraints. ↑ und ↓ bezeichnen f-Strukturen in korrespondierenden cStruktur-Positionen: ↑ bezeichnet dabei das Attribut des Mutterknotens ↓ bezeichnet dabei das Attribut des Knotens selbst Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Wohlgeformtheitsregeln über F-Strukturen Functional Uniqueness: Attribute dürfen maximal einen Wert haben. Completeness: Alle vom Prädikat geforderten grammatischen Funktoren müssen vorhanden und belegt sein. Coherence: Alle grammatischen Funktoren müssen vom Prädikat gefordert werden. Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Literatur / Hausaufgabe Zur Nachbereitung: Shieber (1986): Erweiterte Unifikationsformalismen (S. 38-51) Butt et al. (1999): Kapitel 1 (S. 1-14) Entwerfen Sie die fertigen c- und f-Strukturen für den Satz „Bart guckt Fernsehen“ Zur Vorbereitung: Ramers (2001): Kapitel 3 (S. 59-76) Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 06/07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Grammatikformalismen Einführung Unifikationsgrammatiken PATRII LFG Prinzipien- und Parameter-Theorie Government & Binding X-bar-Schema, CP-IP-Struktur (Wh) Module sprachlichen Wissens Anwendung: VisualGBX Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Zielsetzungen der generativen Grammatik Universalität: Alle Phrasentypen aller natürlichen Sprachen müssen erfasst werden Lernbarkeit: Die postulierten Phrasenstrukturen können im Spracherwerb gelernt werden Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Das X-bar Modell der Phrasenstruktur Kopfprinzip (Prinzip der Endozentrizität): Alle Phrasen sind Expansionen eines Kerns mit gleicher kategorialer Prägung: (XP → ... X ...) Ebenenprinzip: Phrasen sind auf mehr als zwei Ebenen gegliedert (X´- Ebene) Phrasenprinzip: Ergänzungen zu syntaktischen Wörtern oder ihren Projektionen sind immer Phrasen Verzweigungsprinzip: Knoten verzweigen entweder unär oder binär Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Schema des X-bar-Modells Spezifiziererregel: X´´ → Spezifizierer X´ Komplementregel: X´ → Komplement X° Adjunktregeln (rekursiv): X´ → Adjunkt X´ X´´ → Adjunkt X´´ Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Auxiliare, Finitheit und der Nominativ (I) Der Frosch sitzt auf der Rose. Der Frosch hat auf der Rose gesessen. Der Storch sieht *der/den Frosch auf der Rose sitzen. Es ist schön, (*der Frosch) auf der Rose zu sitzen. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Auxiliare, Finitheit und der Nominativ (II) Der Frosch sitzt auf der Rose. Der Frosch hat auf der Rose gesessen. Der Storch sieht *der/den Frosch auf der Rose sitzen. Es ist schön, (*der Frosch) auf der Rose zu sitzen. → Nominativ tritt nur auf, wenn sich im Satz ein finiter Bestandteil (Auxiliar oder Vollverb) findet. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Inflektionsphrase, die erste I´´ SpecI I´ (Subjekt) I° V´´ (fin. Verb) V´ KompV V° (Objekt) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Das topologische Feldermodell Hauptsätze Der Frosch hat auf der Rose gesessen. Nebensätze ... weil der Frosch auf der Rose gesessen hat. Entscheidungsfragesätze Hat der Frosch auf der Rose gesessen? W-Fragesätze Worauf hat der Frosch gesessen? Wer hat auf der Rose gesessen? → Vorfeld – linke SK – Mittelfeld – rechte SK – Nachfeld Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Das CP-IP-Modell C'' SpecC C' C° I'' SpecI I' V'' I° V' Komp Vorfeld LK Mittelfeld V° RK Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Government & Binding Theory Rektions- und Bindungstheorie (seit ca. 1981) Abgelöst (?) durch Minimalist Program (ca. 1995) Modulare Organisation der Kompetenz Grundlegend: X-bar-Modell (inkl. CP-IP-Struktur) Ineinandergreifende Module: Kasustheorie Thetatheorie Rektionstheorie Bindungstheorie ... Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Kasustheorie Morphologischer vs. abstrakter Kasus Kasusfilter: Eine NP, die keinen Kasus zugewiesen bekommt, ist ungrammatisch. Kasusrektion: Kasuszuweiser kann Kasusrezipienten in bestimmter Konfiguration Kasus zuweisen. Konfigurationen für Kasuszuweisung: Head-Spec und Head - Komp Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Thetatheorie Relation zwischen Verb und Argumenten Theta-Raster im Lexikon mit bestimmten Rollen: AGENS, PATIENS, INSTRUMENT, ORT etc. Theta-Kriterium: Jede Theta-Rolle muss genau eine Argument zugewiesen werden und jedes Argument benötigt genau eine Theta-Rolle. Linking lexikalischer Information auf syntaktische Konfiguration Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Literatur / Hausaufgabe Zur Nachbereitung: Ramers (2001): Kapitel 5 (S. 89-117) Zur Vorbereitung: Lesen Sie: Schwarz/Chur (1996): Kapitel 1 (S. 13-36) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 06/07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Grammatikformalismen Einführung Unifikationsgrammatiken PATRII LFG Prinzipien- und Parameter-Theorie Government & Binding Anwendung: VisualGBX Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Das System VisualGBX Formalisierung von linguistischem Wissen in einer definierten Programmiersprache (LPS-Prolog) Mögliche Anwendungsbereiche: Evaluation linguistischer (Sub-)Theorien Erstellen von Strukturbäumen Persistieren von Strukturbäumen (Datenbank) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Beispiel für ein GBX-File C" (* Fussball.gbx *) D" C'':- D ["~Klose", h2] C'; 'Klose' C' C':- C°["~traf", g3] I''; I":- D"[h1] I'; C° 'traf' I':- V" I°[g2]; V":- V'; I" D" I' V" I° V':- D"["~das Tor"] V°[g1]. V' D" 'das Tor' V° Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Syntax eines Klassenmoduls CLASSMODULE Modulname; CLASS Klassenname2 | [attributwertliste]; END; (* Attributwerte können zur Laufzeit belegt werden*) CLASS Klassenname3 < Modulname.Klassenname4; END; (* Klasse3 erbt aus Klasse4 *) CLASS Klassenname5; methodenname(Parameterliste); END; (* Methodenaufruf *) END Modulname. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Beispiel für ein Klassenmodul CLASSMODULE FK; (* Funktionale Klassen: C,I,D *) CLASS D | [Kasus, Numerus, Person]; END; CLASS D < D; END; CLASS D < D; END; CLASS D° < D; END; CLASS D [subject] < D , Agreement.SubjectAgreement; END; ... Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Methodenspezifikationsmodul Syntax METHODMODULE Modulname; methodenname(Parameterliste):Methodenkörper. END Modulname. Beispiel METHODMODULE Agreement; agreement(Subject, Finitum):UnifyValues(Subject, Finitum, Person ), UnifyValues(Subject, Finitum, Numerus ). END Agreement. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Bindung der Methoden an Klassen CLASSMODULE Agreement; (* Kongruenzabgleich zwischen Subjekt und Finitum *) CLASS SubjectAgreement; agreement(Self,Other); END; CLASS FinitumAgreement; agreement(Other,Self); END; END Agreement. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Überblick über die verwendeten Dateiformate gff General File of Files mit Verweisen auf das einzulesende linguistische Wissen atv Attribute-Value-List, in der alle Attribute zusammen mit den Werten, die sie annehmen können, aufgelistet sind lex Lexikon mit lexikalischer Information cff Class File of Files mit Verweisen auf die einzulesenden Module linguistischen Wissens cls Classes-Modul mit einzelnen Klassen linguistischen Wissens msp Methodenspezifikationsdatei mit den den entsprechenden Klassenmodulen zugeordneten Methoden gbx Baumbeschreibungsdateien mit "Produktionsregeln" wmf Dargestellte Bäume als Graphik exportiert. Importierbar in andere Dateiformate. Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Hierarchie der verwendeten Dateiformate Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Literatur / Hausaufgabe Zur Nachbereitung: Hermes (2001): Kapitel 4.1: LPS-Prolog (S. 49-56) Lalande (1998): VisualGBX (S. 189-203) Laden Sie sich das GBX-System herunter, richten Sie es nach Anleitung ein und machen Sie sich mit dem System vertraut. Zur Vorbereitung: Seewald (1995): Antibabylonisch (S. 88-103) Carstensen et al. (2001): Kapitel 5.14 (S. 514-522) Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 07 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelle Übersetzung Referat: MÜ-Überblick MÜ-Systeme VerbMobil und Eurotra LPS Zusammenfassung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Maschinelle Übersetzung - Ansätze Direkte Übersetzung: lediglich morphologische, keine syntaktische und semantische Analyse; Einsatz von bilingualen Wörterbüchern (Wort-zu-Wort); Qualität des Ergebnisses relativ schlecht. Transfer: Syntaktisch-semanisch-analytisch erstellte abstrakte Repräsentation der Quellsprache wird transferiert in eine ebensolche der Zielsprache. Problem: 2 Transferkomponenten pro Sprachpaar Interlingua: Übersetzung in eine sprachunabhängige Zwischenrepräsentation, Übersetzung von dieser in die Zielsprache. Problem: Sprachneutralität überhaupt möglich? Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 MÜ-Ansätze: Überblick Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 MÜ-Begriffe ALPAC-Report (1966): Propagierte grundsätzliche Unrealisierbarkeit der MÜ Translation Memories: Speicherung von hoch frequenten Sätzen/Satzteilen in einer Datenbank HAMT (Human-Aided-Machine-Translation) und MAHT (Machine-Aided-Human Translation) statt einer rein maschinellen Übersetzung Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07 Literatur / Hausaufgabe Zur Nachbereitung: Seewald (1995): Antibabylonisch (S. 88-103) Carstensen et al. (2001): Kapitel 5.14 (S. 514-522) Schöne Ferien! Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07