Fünf Wissensbereiche ! Maschinelle Übersetzung ! ! ! (Computer-) linguistische Grundlagen ! Wissen über Quellsprache Wissen über Zielsprache Wissen über Beziehungen zwischen QS und ZS Wissen über die Domäne/Sachgebiet + Weltwissen Wissen über kulturelle und soziale Konventionen der Sprecher der QS/ZS 2. Sitzung Diese Informationen müssen für die Übersetzung identifiziert werden und so repräsentiert werden, dass sie für die MÜ verarbeitbar sind. © Anke Holler 2005 Einführung in die maschinelle Übersetzung 2 Linguistisches Wissen ! Welches Wissen braucht man? Phonologisches " Morphologisches " Syntaktisches " Semantisches " Pragmatisches " Linguistische Aspekte © Anke Holler 2005 Einführung in die maschinelle Übersetzung 3 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 4 Syntax ! Kategorien " ! ! N, Det, A, Adv, V, S, P Lexikalische Kategorien (Major / open class categories ) Neue Wörter im MÜ-Lexikon " Gut generalisierbare Syntax " Unbekannte Wörter im Text als lexikalisch analysieren Konstituenten " ! Lexikon " NP, VP, PP, AP, CP/IP etc. Grammatische Relationen Abfolge (Sequenz) " Abhängigkeit (Dependenz) " Konstituenz " ! Funktionale Kategorien (Minor/closed class categories) Finite Menge von Wörtern " Eher idiosynkratische Syntax " © Anke Holler 2005 Einführung in die maschinelle Übersetzung 5 Syntax ! b) ! " " 6 Grammatische Funktionen ! Die Jungen [plur] rennen. Der Junge [sing] rennt. a) b) a) Obligatorisch in Phrase Bestimmt syntaktische Eigenschaften der Phrase Selektion / Subkategorisierung b) c) ! The man gave the book to the girl. The man gave the girl the book. Deep and surface structure ! Kopf (Head, Governor) einer Phrase " Einführung in die maschinelle Übersetzung Syntax Syntaktische Merkmale a) © Anke Holler 2005 Die Römer haben die Stadt zerstört. Die Stadt wurde von den Römern zerstört. Die Zerstörung der Stadt durch die Römer. Prädikat-Argument-Struktur zerstören (die Römer, die Stadt) © Anke Holler 2005 Einführung in die maschinelle Übersetzung 7 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 8 Semantik ! ! Vererbungshierarchien Semantische Merkmale Vererbungshierarchien Sitzmöbel • Ontologien ! Sitzfläche Semantische Netze Lehne • WordNet ! Semantische Felder Stuhl Bank • Die Verben der Bewegung Drehstuhl Einführung in die maschinelle Übersetzung © Anke Holler 2005 9 Lexikalisch-Semantische Wortnetze © Anke Holler 2005 Kinderstuhl Parkbank Gartenbank Einführung in die maschinelle Übersetzung 10 Beispiel GermaNet futtern wandeln_4 verändern_2 dinieren speisen Klappstuhl öffnen_1 aufgehen_1 Hyperonymie schließen_7 essen Antonymie Kausalität öffnen_3 aufmachen_2 Antonymie zumachen_2 Hyponymie spachteln mampfen aufstoßen_2 aufbrechen_1 tafeln © Anke Holler 2005 Einführung in die maschinelle Übersetzung aufsperren_1 11 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 12 Assoziative Wortnetze Textrelationen NT Novell Web-Server ! Thema-Rhema, given-new Engl. durch Artikel " Russisch durch Wortstellung " Cash-Management ! Netzwerk ! Ethernet Informationsstruktur Deixis & Anaphorische Beziehungen TCP/IP Wir waren im Restaurant. Das Essen war ausgezeichnet. DNA LAN © Anke Holler 2005 Einführung in die maschinelle Übersetzung 13 Repräsentationen ! ! ! 14 Kontextfreie Grammatiken " Generativ: " Deklarativ • Anwendung von Rewrite Rules generiert Repräsentation Dependenzbaum Phrasenstruktur " Merkmalsbasierte Repräsentationen " Logische Form " • Formale Beziehung zwischen Texten und Repräsentationen • Unabhängig von der Anwendungsrichtung " Einführung in die maschinelle Übersetzung Einführung in die maschinelle Übersetzung Formale Grammatiken Formale Grammatik definiert die Menge der wohlgeformten Repräsentationen Repräsentationsformen: © Anke Holler 2005 © Anke Holler 2005 15 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 16 Formale Grammatiken ! Formale Grammatiken Valenzgrammatiken ! Basierend auf Prädikat-Argument-Strukturen Syntaktische + semantische Eigenschaften der Argumente abgebildet " Brauchbar in der MÜ " GPSG, LFG, HPSG, Kategorialgrammatik " Repräsentation: Attribut-Wert-Paare (=Merkmalsrepräsentationen) " Operation: Mengenvereinigung (U) (=Merkmalsunifikation) " Zusammenführung von Merkmalsstrukturen erlaubt, wenn " " ! Kasusgrammatiken Tiefenkasus, Semantische Rolle, Theta-Rolle Problem: Was ist die Menge der Rollen? " Vorteil für die MÜ: Semantische Funktion in Sprachen oft gleich, auch wenn syntaktische Funktion verschieden " " © Anke Holler 2005 Einführung in die maschinelle Übersetzung Unifikationsgrammatiken • Keine gemeinsamen Attribute • Gemeinsame Attribute haben gleichen bzw. „kompatiblen“ Wert 17 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 18 Rekapitulieren: ! Formale Grundlagen: Chomsky Hierarchie " Endliche Automaten " © Anke Holler 2005 Einführung in die maschinelle Übersetzung Computationelle Aspekte 19 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 20 Anforderungen ! Systemdesign Trennung von Daten und Algorithmen Linguistische Information = deklarativ " Algorithmische Verarbeitung = prozedural " ! ! Ist das System robust? Debugging Tools (auch für Linguisten) " Rapid Prototyping " Modularität „Miniprogramme“ " Linguistisch motivierte Teilaufgaben! " Schnittstellen festlegen (Interfaces) " Entscheidung über passende Datenstruktur " ! " ! © Anke Holler 2005 Einführung in die maschinelle Übersetzung 21 Input - Output in der MÜ ! Usability-Bewertung Ist das System gut wartbar? © Anke Holler 2005 Einführung in die maschinelle Übersetzung 22 Text Processing Laden von Programmen, Lexika, Grammatiken " Ist das System benutzerfreundlich? Computergesteuert Ziel: Erhaltung des Formats ! WYSIWYG-Editor • Kopie des AT wird überschrieben ! Quell- und Zieltext ! - mindestens eine „Fremdsprache“ - möglicherweise interaktiv " Textextraktion und Wiedereinsetzung • Extraktion von textuellen und nicht-textuellen Daten in verschiedene Dateien Anwendergesteuert She has a <b> red </b> car. Formatierung: <{0}> <b> <{1}> </b> <{2}> Text <{0}> She has a <{1}> red <{2}> car • Übersetzung der textuellen Daten • Wiedereinsetzen des übersetzen Textes in Formatskelett © Anke Holler 2005 Einführung in die maschinelle Übersetzung 23 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 24 Text Processing ! Character Sets & Typographie Textextraktion und Wiedereinsetzung • Risiko: ungewollte Formatänderungen, vergessener Text Daher: Prozess möglichst automatisieren • Schwierigkeiten: gewollte Verschiebungen von Formatierungen in der Übersetzung: ! Arabisch, Hebräisch " Japanisch, Chinesisch (Kanji hat 1945 Buchstaben.) " ! She has a <b> red </b> car. / Ella tiene un coche <b> rojo </b> ! 25 Griechisch, Russisch Abweichungen vom Englischen " • erfordert hervorgehobene und schreibgestützte Formatierungen Einführung in die maschinelle Übersetzung Anderes Alphabet " ! Übersetzung im Rohtext © Anke Holler 2005 Komplett andere Schreibsysteme ß, Akzente, Diakritische Zeichen, Ligaturen etc. © Anke Holler 2005 Einführung in die maschinelle Übersetzung Sprachdaten Frühe Techniken Lexikalische Ressourcen Übersetzung von much und many ins Russische: 1 (2,3) Is preceding word how? 2(0) skol‘ko (Numeral, invariabel) 3(4,5) Is preceding word as? 4(0) skol‘ko ˇze (Numeral, variabel) 5(7,9) Is current word much? 6(0) Not to be translated (adverb) 7(6,11) Is preceding word very? 8(0) mnogii (Adjektiv) 9(8,12) Is preceding word a preposition and following word a noun? 10(0) mnogo (adverb) 11(12,10) Is following word a noun? 12(0) mnogo Aufgabe der Computerlexikographie " Lexika können sehr groß werden (>15.000 Einträgen) " Konsequenzen: Speicherung, Zugriff, Wartung wichtig MÜ-Systeme meist mit einmaliger Look-up-Phase " Aufwändige Kompilation " Konsistenz und Vollständigkeit sicherstellen " " © Anke Holler 2005 Einführung in die maschinelle Übersetzung 27 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 26 28 Heutige Techniken ! Heutige Techniken Verfahren der computationellen Morphologie ! Parsing syntaktische Analyse eines Satzes " Inputstring + Regelwerk liefert Repräsentationen (Strukturen) " MÜ-Daten: Grammatik + Lexikon " Input: Text / Output: Struktur des Textes " Parsingstrategien: " Two-level Morphologie " Implementierung kontextsensitiver Aspekte z.B. Plural: foxes/*foxs vs. cats/*cates + ---> e / x _ s + ---> 0 " " • Top-Down • Bottom-Up Finite-State-Transducer (FST) © Anke Holler 2005 Einführung in die maschinelle Übersetzung 29 Heutige Techniken ! Generierung mit folgenden Teilaufgaben nach Reiter & Dale (1997) " " " " " " Festlegung des zu generierenden Inhalts (messages) Planung der Diskursstruktur (Hierarchie von messages) Aggregation der Sätze (messages werden in ggf. komplexe Sätze umgesetzt) Lexikalisierung Generierung referierender Ausdrücke MÜLinguistische Realisierung relevant © Anke Holler 2005 Einführung in die maschinelle Übersetzung 31 © Anke Holler 2005 Einführung in die maschinelle Übersetzung 30