Probleme der Übersetzung durch Mensch und Maschine: Probleme der Analyse Morphologische Probleme Lexikalische Ambiguität Strukturelle Ambiguität Anaphernauflösung Mehrdeutigkeiten im Quantorenskopus Morphologische Probleme Vollformen-Wörterbuch: keine morphologische Analyse Spart Analysezeit Bringt Vorteile bei unregelmäßigen Formen Nachteil: benötigt viel Speicherplatz Stammwörterbuch: morphologische Analyse Spart Speicherplatz ermöglicht Wortartbestimmung und Erkennung grammatischer Relationen (Subjekt, Objekt etc.) auch bei unbekannten Wörtern im Englischen bezeichnet das Suffix -ize gewöhnlich ein Verb deutsche Wörter auf -ung sind gewöhnlich Nomina. Synkretismus führt zu massiver Ambiguität, Beispiel -en Mögliche Interpretationen von -en im Deutschen Nomen Plural (Pflaumen) Nomen Dativ Plural (den Tagen) schwaches Nomen Singular nicht-Nominativ starke Deklination Maskulin Singular Akkusativ starke Deklination Dativ Plural Adjektiv nicht-Nominativ Maskulin Singular nach definitem Artikel Adjektiv Dativ oder Genitiv Feminin oder Neutrum Singular nach bestimmtem Artikel Adjektiv Akkusativ oder Genitiv Maskulin Singular ohne Artikel Adjektiv Genitiv Neutrum Singular ohne Artikel Adjektiv Dativ Plural ohne Artikel Verb Infinitiv Verb 1. oder 3. Person Plural Verb Partizip (starkes Verb) Ein Wort, das zufällig auf -en endet (Regen) Probleme bei zusammengesetzten Wörtern steam engine, steam hammer; steamship Dampfmaschine, Dampfhammer, Dampfschiff Silberlöffel, Suppenlöffel, Schaumlöffel Produktivität (Dampfschiffahrtsgesellschaft) fehlende Kompositionalität der Bedeutung Probleme bei zusammengesetzten Wörtern Beileid Kulturgeschichte Uranbrenner Wachtraum Bei + Leid ‚condolence‘ Beil + Eid ‚hatchet oath‘ Kultur + Geschichte ‚history of culture‘ Kult + Urgeschichte ‚pre-history of worship‘ Uran + Brenner ‚uranium pile‘ Ur + Anbrenner ‚primitive kindler‘ Wach + Traum ‚day-dream‘ Wacht + Raum ‚guard-room‘ Lexikalische Ambiguität Kategoriale Ambiguität light: N, V, A; control: N, V Konversion: fast jedes Nomen kann als Verb fungieren Fast jedes Nomen kann als Adjektiv fungieren: stone wall Ein extremes aber nicht seltenes Beispiel ist round in den folgenden Sätzen: Es ist Nomen (1), Verb (2), Adjektiv (3), Präposition (4), Partikel (5) und Adverb (6). 1. 2. 3. 4. 5. 6. Liverpool were eliminated in the first round. The cowboy started to round up the cattle. I want to buy a round table. We are going on a cruise round the world. A bucket of cold water soon brought him round. The tree measured six feet round. N V A P Prt Adv Kategoriale Ambiguität Gas pump prices rose last time oil stocks fell. N N N N N N N N N V V V V V V V V V (A) A Adv Zapfsäulenpreise stiegen letztes Mal an, Ölvorräte fielen Kategoriale Ambiguität (1) Foot heads arms body. (2) British left waffles on Falklands Homographie und Homophonie Homographe sind zwei (oder mehrere) ‘Wörter' mit deutlich verschiedener Bedeutung, die die gleiche Schreibung aufweisen. Beispiele: club (Waffe, Institution), bank (Ufer, Institution), dt. Bank (Sitzgelegenheit, Institution) light (Antonym dark oder heavy) Schloß (Gebäude, Schließvorrichtung) Homophone sind Wörter, die gleich ausgesprochen aber verschieden geschrieben werden (z.B. hair und hare). Aber da MÜ hauptsächlich geschriebene Texte betrifft, spielen sie hier kaum eine Rolle. Polysemie (Mehrdeutigkeit) Polyseme sind Wörter, die ein breites aber zusammenhängendes Bedeutungsspektrum aufweisen, z.B. durch metaphorische Erweiterungen und Übertragungen: mouth of a river, branch of a bank, flow of ideas, channel of communication, tide of opinion, etc.. Wenn sich die Erweiterung zu sehr vom Ursprung entfernt, werden Polyseme zu Homographen. Das Wort crane im Sinne von ‘Kran’ mag aus einer metaphorischen Übertragung der Bedeutung ‘Kranich’ entstanden sein, aber die Wörter crane ‘Kran’ und crane ‘Kranich’ werden nicht mehr als Polyseme verstanden, sondern als Homographe. Strukturelle Ambiguität Während lexikalische Mehrdeutigkeiten zu Problemen bei der Analyse einzelner Wörter und beim Transfer ihrer Bedeutungen führen, involviert eine strukturelle Ambiguität Probleme mit der syntaktischen Strukturen von Sätzen und deren Repräsentation. Eine strukturelle Ambiguität liegt vor, wenn es mehr als eine Möglichkeit gibt, die zugrunde liegende Struktur eines Satzes auf der Grundlage der vom System verwendeten Grammatik zu analysieren. Die beiden Einschränkungen "eines Satzes" und “auf der Grundlage der vom System verwendeten Grammatik" sind wichtig. Die meisten MÜ Systeme beschränken sich auf die sequentielle Analyse einzelner Sätze; sie behandeln im Allgemeinen keine größeren Übersetzungseinheiten wie z.B Absätze. Es werden zwar einzelne Versuche unternommen, sprachliche Elemente, durch die Sätze zu Texten verknüpft werden zu berücksichten (z.B. Pronomina, Thema-Rheme Struktur), sind die meisten dieser Systeme über ein Experimentierstadium nicht hinausgekommen. Die zweite Einschränkung ist eine Hinweis, dass kein Parser über die Grenzen der implementierten Grammatik hinausgehen kann. Strukturelle Ambiguität Wenn die Grammatik Unterscheidungen, die ein menschlicher Leser machen würde, nicht macht, dann wird auch der Parser nicht in der Lage sein, zwischen alternativen Analysen zu entscheiden. Mit anderen Worten: es ist die Grammatik, die bestimmt, ob eine bestimmte Struktur mehr als eine zulässige Interpretation hat und daher mehrdeutig ist. Es ist folglich gerechtfertigt, zu unterscheiden zwischen ‘echten' Mehrdeutigkeiten, für die auch ein Mensch mehrere Interpretationen finden könnte, 'System‘-Mehrdeutigkeiten, die der menschliche Leser nicht unbedingt erkennen würde. Echte Strukturelle Ambiguität Linguisten verwenden gerne echte strukturelle Ambiguitäten, um alternative syntaktische Interpretationen zu demonstrieren, die von der formalen Analyse nahegelegt werden. Typische Beispiele dafür sind die folgenden: (1) Flying planes can be dangerous. (2) Time flies like an arrow. (3) The man saw the girl with the telescope. Echte Strukturelle Ambiguität (1) Flying planes can be dangerous. a. It can be dangerous to fly planes. b. Planes which are flying can be dangerous. (2) Time flies like an arrow. a. The passage of time is as quick as an arrow. b. A species of flies called 'time flies' enjoy an arrow. (3) The man saw the girl with the telescope. a. The man saw the girl who possessed the telescope. b. The man saw the girl with the aid of the telescope. Strukturelle Ambiguität Menschen fällt es oft schwer, strukturelle Mehrdeutigkeiten in solchen Sätzen zu erkennen und im Kontext - in einer besonderen Situation oder in einem bestimmten Text - kann es sein, dass die Sätze ziemlich eindeutig erscheinen. Wenn (3) zum Beispiel im Kontext einer Geschichte vorkommt, ist vermutlich aus dem Verlauf der Geschichte klar, wer denn im Besitz des Teleskops ist, der Mann oder das Mädchen. Da jedoch MÜ-Systeme diese kontextuellen Anhaltspunkte im Allgemeinen nicht oder nur in sehr begrenztem Maße benutzen können, sind die Sätze effektiv mehrdeutig. In diesen Fällen fallen die 'System‘Mehrdeutigkeiten mit ‚echten' Mehrdeutigkeiten zusammen. „Zufällige“ strukturelle Ambiguität Nicht-systematische strukturelle Mehrdeutigkeiten können entstehen durch eine zufällige Kombination von Wörtern, die kategorial Mehrdeutig sind (Nomen, Verb, Adjektiv), aufgrund alternativer grammatischer Funktionen von syntaktischen Konstituenten oder aufgrund verschiedener Kombinationsmöglichkeiten von syntaktischen Konstituenten. Die Arten von strukturellen Mehrdeutigkeiten, die auftreten können, unterscheiden sich von Sprache zu Sprache und insbesondere von Grammatik zu Grammatik. Sie sollen hier anhand englischer Beispiele exemplifiziert werden. „Zufällige“ strukturelle Ambiguität Viele Mehrdeutigkeiten ergeben sich aus der Tatsache, dass ein einzelnes Wort in verschiedenen Funktionen innerhalb desselben syntaktischen Kontexts dienen kann. Dies ist eine mögliche Folge der kategorialen Ambiguität. Diese Mehrdeutigkeiten korrelieren mit verschiedenen strukturellen Interpretationen desselben Satzes. Im Sinne der generativen Grammatik von Chomsky handelt es sich um tiefenstrukturelle Mehrdeutigkeiten. Es gibt verschiedene 'Tiefenstrukturen' für dieselben 'Oberflächenstrukturen'. (1) He noticed her shaking hands (2) I like swimming (3) They complained to the guide that they could not hear. Strukturelle Ambiguität Das Präsentspartizip shaking in (1) kann als Adjektiv fungieren wie tiny in a., oder als Gerundivum wie watching in a. He noticed her tiny feet. b. He noticed her watching television. Das Präsenspartizip (2) kann auch mit einer Mehrdeutigkeit zwischen seiner Verwendung als ein (verbales) Nomen (vgl. a) und als ein Gerundivum (b) verbunden sein: a. I like tennis. b. I like getting up late. Das Wort that in (3) kann eines sein ein Relativpronomen (wie whom in a.) oder eine Konjunktion wie in b. a. They complained to the guide whom they could not hear. b. They complained to the guide that they could not hear him. Strukturelle Ambiguität Ein letztes Beispiel für eine tiefenstrukturelle Mehrdeutigkeit finden wir bei der Interpretation einer Folge von Nomina entweder als eine einzelne Konstituente, d.h. als ein zusammengesetztes Nomen, oder mit einer Konstituentengrenze dazwischen. Dies ist besonder problematisch im Englischen, weil dort in restriktiven Relativsätzen das Relativpronomen weggelassen werden kann: (1) The mathematics students sat their examinations. (2) The mathematics students study today is very complex. Da im Englischen solche Nominalkomposita sehr häufig sind verbunden mit der Häufigkeit von kategorialen Ambiguitäten ist in dieser Sprache diese Art struktureller Mehrdeutigkeit sehr verbreitet. Strukturelle Ambiguität: weitere Beispiele (1) Have you seen the story about the air crash in the paper? (2) Have you seen the story about the air crash in the jungle? (3) John mentioned the book I sent to Susan. (4) John mentioned the book I sent him to Susan. (5) John mentioned the book I sent to Susan to his brother. (6) I told everyone concerned about the strike. (7) I told everyone concerned about the strike not to worry. (8) I told everyone about the strike. Auflösung struktureller Ambiguität Wenn die syntaktische Analyse mehr als eine mögliche Interpretation für einen Satz produziert, muss ein Weg gefunden werden, die richtige zu wählen. Das ist notwendig, weil zwar nicht immer, aber doch sehr häufig, die Übersetzung in die Zielsprache je nach der gewählten Interpretation anders ausfallen wird. Bei der Übersetzung von The man saw the girl with the telescope ins Japanische zum Beispiel muss die Mehrdeutigkeit aufgelöst werden: Otoko wa BOENKYO WO MOITE IRU onnanoko wo mita. MAN subj TELESCOPE obj HOLDING GIRL obj SAW 'The man saw the girl who was holding the telescope'. Otoko wa BOENKYO DE onnanoko wo mita. MAN subj TELESCOPE inst GIRL obj SAW 'The man, using the telescope, saw the girl.' Auflösung struktureller Ambiguität Die Mehrdeutigkeit von that in They complained to the guide that they could not hear muss bei der Übersetzung ins Deutsche ebenfalls aufgelöst werden. Sie beklagten sich bei dem Reiseführer, DEN sie nicht hören konnten. Sie beklagten sich bei dem Reiseführer, DASS sie nicht hören konnten. Auflösung struktureller Ambiguität Es gibt eine Anzahl von Optionen, die für Auflösung von Mehrdeutigkeit verfügbar sind: die Verwendung semantischer oder anderer linguistischer Information, des Verwendung kontextueller Anhaltspunkte, dem Verwendung von außerlinguistischem 'Weltwissen‚ Interaktive Befragung Eine weitere Möglichkeit besteht darin, die Mehrdeutigkeit einfach zu ignorieren und darauf zu bauen, dass in der Zielsprache die gleiche Ambiguität vorliegt. Linguistisches Wissen Oft können potentiell mehrdeutige Sätze unter Bezug auf linguistisches Wissen disambiguiert werden. Mann kann verschiedene Arten von sprachlichem Wissen unterscheiden. Sie alle haben gemeinsam, dass sie Informationen über Wörter und die Art sie zu kombinieren benutzen und nicht über die über die Ereignisse im wirklichen Leben, welche die Sätze beschreiben. Ein Verfahren besteht darin, Parsern (Analsyseprogrammen) Informationen über Vorkommensbeschränkungen zur Verfügung zu stellen, d.h. Hinweise darauf, wie das Vorhandensein bestimmter Elemente in einer Struktur die Vorkommensmöglichkeiten anderer Elemente beeinflusst. Linguistisches Wissen Ein typisches Beispiel dafür ist die Verwendung von Subkategorisierungsrahmen für Verben. Diese zeigen an, welche Arten von Ergänzungen von einem bestimmten Verb 'erwartet' werden. Ein Verb wie give zum Beispiel, erwartet als Subjekt ein Nomen, das sich auf einen 'Geber' bezieht, als direktes Objekt ein Nomen, das sich auf das 'gegebene' Ding bezieht, und als indirektes Objekt ein Nomen, das auf einen 'Empfänger' referiert. Weiterhin können wir in einem gewissen Rahmen bestimmen, mit welchen Arten von Nomina diese syntaktischen Rollen gefüllt werden können, z.B. durch die Verwendung von semantischen Merkmalen: der 'Geber' sollte belebt usw. sein. Linguistisches Wissen Auf diese Weise kann der Parser für ein potentiell mehrdeutiges Satzpaar wie unten die richtigen Interpretationen produzieren, wenn er die Information hat, dass read von einer Präpositionalphrase mit in modifiziert werden kann, wenn das betroffene Nomen zu einer Klasse von Nomina gehört, die als 'lesbar' gekennzeichnet sind (z.B. book, magazine, newspaper, usw.) (1) I read about the air crash in France. (2) I read about the air crash in the paper. Linguistisches Wissen Diese Art von Information kann auch auf einer allgemeineren Ebene durch Konzepte wie Valenz und Kasus im Sinne der Kasusgrammatik behandelt werden. Durch die Valenz werden Verben nach der Anzahl und Art der Ergänzungen charakterisiert, die mit ihnen entweder assoziiert sein müssen oder dürfen. In der Kasusgrammatik werden die Rollen von abhängigen Ergänzungen z.B. als Agent, Patient (oder Object) Instrument, Manner, Accompanier, Location, usw. identifiziert. Eine typische Verallgemeinerung ist, dass die Subjekte von transitiven Verben Agenten sind, die normalerweise 'belebt', ‚potent', usw. sind. Für give wären die erwarteten Kasusrollen Agent, Recipient und Patient. Linguistisches Wissen Die folgenden Beispielsätze werden richtig analysiert, wenn der Parser über die Information verfügt, dass write eine instrumentale with-Phrase zu sich nimmt und dass das Instrument ein physisches Objekt sein sollte. (1) He wrote the letter with a fountain-pen. cf. He wrote the letter with the parcel. Der Accompanier von visit und ähnliche Verben sollte belebt sein; und tell nimmt eine with-Phrase der Art und Weise zu sich, mit einem beschränkten Bereich von möglichen Füllseln (stutter, accent, usw.). (2) He visited the museum with his brother. cf. He visited the museum with the Elgin marbles. (3) He told the story with a funny accent. cf. He told the story with a funny ending Kontextwissen In der Praxis sind sehr wenige Sätze wirklich mehrdeutig: in Abwesenheit anderer Disambiguierungskriterien wird normalerweise der Kontext, in dem der Satz auftritt, entscheiden welche von mehreren Lesarten zu bevorzugen ist. Allerdings sind nur sehr wenige MÜ-Systeme in der Lage, solches kontextuelles Wissen zu benutzen. Der Grund dafür ist, dass es sehr schwer ist Regeln zu dafü formulieren, wo man das 'Wissen' finden kann, das in einem konkreten Fall zur Disambiguierung dienen könnte. Zudem müsste die Information, die während des Übersetzungsprozesses anfällt, gespeichert werden. Weltwissen Der dritte Ansatz zur Auflösung von Mehrdeutigkeiten, wenn die syntaktische Analyse dafür nicht ausreicht, besteht darin, allgemeines Weltwissen einzubeziehn. Ein Beispiel für eine strukturelle Mehrdeutigkeit, die durch Verwendung von Weltwissen aufgelöst wird, liefert der folgende Satz : (1) The man saw the horse with the telescope. Die Grenze zwischen Weltwissen und sprachlichem Wissen ist keineswegs klar gezogen. (2) We will meet the man you told us about yesterday. (3) We will meet the man you told us about tomorrow. Anaphorische Referenz Neben der Auflösung von Mehrdeutigkeiten, die oft als das wichtigste linguistische Problem für die MÜ betrachtet wird, ist eine andere Hauptschwierigkeit die Auflösung von pronominalen Verweisen (anaphora resolution). 'Anapher' ist der linguistische Fachausdruck für einen indirekte Bezug auf eine Entität, die an einer anderen Textstelle explizit erwähnt wird. Das häufigste linguistische Mittel dafür ist die Verwendung von Personalpronomina wie es, er, sie, usw., Demonstratpronomina wie dies, dieser, diese etc. oder Phrasen wie der (die, das) Letztere. Die Identifizierung von Pronomina schließt deshalb die Identifizierung einer vorangegangen Nominalphrase ein, auf die sie sich beziehen. Dieses Bezugselement wird Antezedens genannt. Anaphorische Referenz Die Ermittlung des Antezedens von Anaphern ist sehr oft von entscheidender Wichtigkeit für die richtige Übersetzung. Wenn in Sprachen übersetzt wird, in denen die Pronomina genusmarkiert sind, ist es unerläßlich, die anaphorischen Beziehungen aufzulösen. (1) The monkey ate the banana because it was hungry. (2) The monkey ate the banana because it was ripe. (3) The monkey ate the banana because it was tea-time. Anaphorische Referenz In jedem dieser Beispiele bezieht sich das Pronomen it jeweils auf etwas Anderes: in (1) auf monkey, in (2) auf banana, und in (3) auf die Ereigniszeit. Für die Übersetzung ins Deutsche, wo die Pronomina im Genus mit dem Antezedens kongruieren, müssen die entsprechenden Bezüge explizit gemacht werden. Da Affe maskulin ist, ist das entsprechende Pronomen er; Banane ist feminin und das entsprechende Pronomen muß sie sein; und das entsprechende Pronomen für (3) ist es. (1) Der Affe hat die Banane gefressen, weil er Hunger hatte. (2) Der Affe hat die Banane gefressen, weil sie reif war. (3) Der Affe hat die Banane gefressen, weil es die Teestunde war. Anaphorische Referenz Die korrekte Auflösung von anaphorischen Bezügen involviert dieselben Wissensarten wie bei der Auflösung von Mehrdeutigkeiten. In der Tat können Anaphern als eine Art von Mehrdeutigkeit betrachtet werden. Wie bei der Auflösung von Mehrdeutigkeiten reicht das linguistische Wissen manchmal für die richtige Analyse nicht aus. Wenn man die folgenden Sätze ins Französische übersetzen will, muß man wissen, ob some of them sich auf soldiers (maskulin) oder auf women (feminin) bezieht: (1) The soldiers shot at the women and some of them fell. (2) The soldiers shot at the women and some of them missed. (3) Les soldats ont tiré sur les femmes et quelques-unes sont tombées. (4) Les soldats ont tire sur les femmes et quelques-uns ont raté. Quantorenskopus Als letztes Problem soll die Mehrdeutigkeit im Geltungsbereich (Skopus) von Quantoren erörtert. Dieses Problem ist im Kontext von natürlichsprachlichen Dialogsystemen intensiv untersucht worden, wo es wahrscheinlich entscheidender ist als in der MÜ. Diese Art der Mehrdeutigkeit tritt auf, wenn der Geltungsbereich oder Skopus eines Quantors wie some, all, none unklar ist. Im Englischen insbesondere gibt es ein syntaktischen Phänomen namens 'Quantorenanhebung‚ (quantifier raising), das die Position des Quantors im Satz verschiebt. Quantorenskopus (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) I don't think he'll come. I think he won't come. All women don't like fur coats. Not all women like fur coats, only some do. There are no women who like fur coats. All wires are attached to a pin. There is one (large) pin to which all wires are attached. Each wire is attached to its own pin. No smoking seats are available on domestic flights. There are no seats where you may smoke on domestic flights. There are "no smoking" sections on domestic flights.