Probleme der Analyse

Werbung
Probleme der Übersetzung durch Mensch und
Maschine: Probleme der Analyse





Morphologische Probleme
Lexikalische Ambiguität
Strukturelle Ambiguität
Anaphernauflösung
Mehrdeutigkeiten im Quantorenskopus
Morphologische Probleme
Vollformen-Wörterbuch: keine morphologische Analyse
 Spart Analysezeit
 Bringt Vorteile bei unregelmäßigen Formen
 Nachteil: benötigt viel Speicherplatz
Stammwörterbuch: morphologische Analyse
 Spart Speicherplatz
 ermöglicht Wortartbestimmung und Erkennung grammatischer
Relationen (Subjekt, Objekt etc.) auch bei unbekannten Wörtern
 im Englischen bezeichnet das Suffix -ize gewöhnlich ein Verb
deutsche Wörter auf -ung sind gewöhnlich Nomina.
 Synkretismus führt zu massiver Ambiguität, Beispiel -en
Mögliche Interpretationen von -en im Deutschen














Nomen Plural (Pflaumen)
Nomen Dativ Plural (den Tagen)
schwaches Nomen Singular nicht-Nominativ
starke Deklination Maskulin Singular Akkusativ
starke Deklination Dativ Plural
Adjektiv nicht-Nominativ Maskulin Singular nach definitem Artikel
Adjektiv Dativ oder Genitiv Feminin oder Neutrum Singular nach
bestimmtem Artikel
Adjektiv Akkusativ oder Genitiv Maskulin Singular ohne Artikel
Adjektiv Genitiv Neutrum Singular ohne Artikel
Adjektiv Dativ Plural ohne Artikel
Verb Infinitiv
Verb 1. oder 3. Person Plural
Verb Partizip (starkes Verb)
Ein Wort, das zufällig auf -en endet (Regen)
Probleme bei zusammengesetzten Wörtern





steam engine, steam hammer; steamship
Dampfmaschine, Dampfhammer, Dampfschiff
Silberlöffel, Suppenlöffel, Schaumlöffel
Produktivität (Dampfschiffahrtsgesellschaft)
fehlende Kompositionalität der Bedeutung
Probleme bei zusammengesetzten Wörtern
Beileid
Kulturgeschichte
Uranbrenner
Wachtraum
Bei + Leid
‚condolence‘
Beil + Eid
‚hatchet oath‘
Kultur + Geschichte
‚history of culture‘
Kult + Urgeschichte
‚pre-history of worship‘
Uran + Brenner
‚uranium pile‘
Ur + Anbrenner
‚primitive kindler‘
Wach + Traum
‚day-dream‘
Wacht + Raum
‚guard-room‘
Lexikalische Ambiguität
Kategoriale Ambiguität
 light: N, V, A; control: N, V
 Konversion: fast jedes Nomen kann als Verb fungieren
 Fast jedes Nomen kann als Adjektiv fungieren: stone wall
 Ein extremes aber nicht seltenes Beispiel ist round in den
folgenden Sätzen: Es ist Nomen (1), Verb (2), Adjektiv (3),
Präposition (4), Partikel (5) und Adverb (6).
1.
2.
3.
4.
5.
6.
Liverpool were eliminated in the first round.
The cowboy started to round up the cattle.
I want to buy a round table.
We are going on a cruise round the world.
A bucket of cold water soon brought him round.
The tree measured six feet round.
N
V
A
P
Prt
Adv
Kategoriale Ambiguität
Gas pump prices rose last time
oil
stocks fell.
N
N
N
N
N
N
N
N
N
V
V
V
V
V
V
V
V
V
(A)
A
Adv
Zapfsäulenpreise stiegen letztes Mal an, Ölvorräte fielen
Kategoriale Ambiguität
(1) Foot heads arms body.
(2) British left waffles on Falklands
Homographie und Homophonie
Homographe sind zwei (oder mehrere) ‘Wörter' mit deutlich
verschiedener Bedeutung, die die gleiche Schreibung aufweisen.
Beispiele:




club (Waffe, Institution),
bank (Ufer, Institution), dt. Bank (Sitzgelegenheit, Institution)
light (Antonym dark oder heavy)
Schloß (Gebäude, Schließvorrichtung)
Homophone sind Wörter, die gleich ausgesprochen aber
verschieden geschrieben werden (z.B. hair und hare). Aber da MÜ
hauptsächlich geschriebene Texte betrifft, spielen sie hier kaum
eine Rolle.
Polysemie (Mehrdeutigkeit)
Polyseme sind Wörter, die ein breites aber zusammenhängendes
Bedeutungsspektrum aufweisen, z.B. durch metaphorische
Erweiterungen und Übertragungen:





mouth of a river,
branch of a bank,
flow of ideas,
channel of communication,
tide of opinion, etc..
Wenn sich die Erweiterung zu sehr vom Ursprung entfernt, werden
Polyseme zu Homographen. Das Wort crane im Sinne von ‘Kran’
mag aus einer metaphorischen Übertragung der Bedeutung
‘Kranich’ entstanden sein, aber die Wörter crane ‘Kran’ und crane
‘Kranich’ werden nicht mehr als Polyseme verstanden, sondern als
Homographe.
Strukturelle Ambiguität
 Während lexikalische Mehrdeutigkeiten zu Problemen bei der Analyse
einzelner Wörter und beim Transfer ihrer Bedeutungen führen, involviert
eine strukturelle Ambiguität Probleme mit der syntaktischen Strukturen von
Sätzen und deren Repräsentation.
 Eine strukturelle Ambiguität liegt vor, wenn es mehr als eine Möglichkeit
gibt, die zugrunde liegende Struktur eines Satzes auf der Grundlage der
vom System verwendeten Grammatik zu analysieren.
 Die beiden Einschränkungen "eines Satzes" und “auf der Grundlage der
vom System verwendeten Grammatik" sind wichtig.
 Die meisten MÜ Systeme beschränken sich auf die sequentielle Analyse
einzelner Sätze; sie behandeln im Allgemeinen keine größeren
Übersetzungseinheiten wie z.B Absätze. Es werden zwar einzelne
Versuche unternommen, sprachliche Elemente, durch die Sätze zu Texten
verknüpft werden zu berücksichten (z.B. Pronomina, Thema-Rheme
Struktur), sind die meisten dieser Systeme über ein Experimentierstadium
nicht hinausgekommen.
 Die zweite Einschränkung ist eine Hinweis, dass kein Parser über die
Grenzen der implementierten Grammatik hinausgehen kann.
Strukturelle Ambiguität
 Wenn die Grammatik Unterscheidungen, die ein menschlicher
Leser machen würde, nicht macht, dann wird auch der Parser
nicht in der Lage sein, zwischen alternativen Analysen zu
entscheiden. Mit anderen Worten: es ist die Grammatik, die
bestimmt, ob eine bestimmte Struktur mehr als eine zulässige
Interpretation hat und daher mehrdeutig ist. Es ist folglich
gerechtfertigt, zu unterscheiden zwischen
 ‘echten' Mehrdeutigkeiten, für die auch ein Mensch mehrere
Interpretationen finden könnte,
 'System‘-Mehrdeutigkeiten, die der menschliche Leser nicht
unbedingt erkennen würde.
Echte Strukturelle Ambiguität

Linguisten verwenden gerne echte strukturelle Ambiguitäten,
um alternative syntaktische Interpretationen zu demonstrieren,
die von der formalen Analyse nahegelegt werden. Typische
Beispiele dafür sind die folgenden:
(1) Flying planes can be dangerous.
(2) Time flies like an arrow.
(3) The man saw the girl with the telescope.
Echte Strukturelle Ambiguität
(1)
Flying planes can be dangerous.
a. It can be dangerous to fly planes.
b. Planes which are flying can be dangerous.
(2)
Time flies like an arrow.
a. The passage of time is as quick as an arrow.
b. A species of flies called 'time flies' enjoy an arrow.
(3)
The man saw the girl with the telescope.
a. The man saw the girl who possessed the telescope.
b. The man saw the girl with the aid of the telescope.
Strukturelle Ambiguität
 Menschen fällt es oft schwer, strukturelle Mehrdeutigkeiten in
solchen Sätzen zu erkennen und im Kontext - in einer
besonderen Situation oder in einem bestimmten Text - kann es
sein, dass die Sätze ziemlich eindeutig erscheinen.
 Wenn (3) zum Beispiel im Kontext einer Geschichte vorkommt, ist
vermutlich aus dem Verlauf der Geschichte klar, wer denn im
Besitz des Teleskops ist, der Mann oder das Mädchen. Da jedoch
MÜ-Systeme diese kontextuellen Anhaltspunkte im Allgemeinen
nicht oder nur in sehr begrenztem Maße benutzen können, sind
die Sätze effektiv mehrdeutig. In diesen Fällen fallen die 'System‘Mehrdeutigkeiten mit ‚echten' Mehrdeutigkeiten zusammen.
„Zufällige“ strukturelle Ambiguität
 Nicht-systematische strukturelle Mehrdeutigkeiten können
entstehen durch eine zufällige Kombination von Wörtern, die
kategorial Mehrdeutig sind (Nomen, Verb, Adjektiv), aufgrund
alternativer grammatischer Funktionen von syntaktischen
Konstituenten oder aufgrund verschiedener Kombinationsmöglichkeiten von syntaktischen Konstituenten.
 Die Arten von strukturellen Mehrdeutigkeiten, die auftreten
können, unterscheiden sich von Sprache zu Sprache und
insbesondere von Grammatik zu Grammatik. Sie sollen hier
anhand englischer Beispiele exemplifiziert werden.
„Zufällige“ strukturelle Ambiguität
 Viele Mehrdeutigkeiten ergeben sich aus der Tatsache, dass ein
einzelnes Wort in verschiedenen Funktionen innerhalb
desselben syntaktischen Kontexts dienen kann. Dies ist eine
mögliche Folge der kategorialen Ambiguität.
 Diese Mehrdeutigkeiten korrelieren mit verschiedenen
strukturellen Interpretationen desselben Satzes. Im Sinne der
generativen Grammatik von Chomsky handelt es sich um
tiefenstrukturelle Mehrdeutigkeiten. Es gibt verschiedene
'Tiefenstrukturen' für dieselben 'Oberflächenstrukturen'.
(1) He noticed her shaking hands
(2) I like swimming
(3) They complained to the guide that they could not hear.
Strukturelle Ambiguität
Das Präsentspartizip shaking in (1) kann als Adjektiv fungieren wie
tiny in a., oder als Gerundivum wie watching in
a. He noticed her tiny feet.
b. He noticed her watching television.
Das Präsenspartizip (2) kann auch mit einer Mehrdeutigkeit
zwischen seiner Verwendung als ein (verbales) Nomen (vgl. a) und
als ein Gerundivum (b) verbunden sein:
a. I like tennis.
b. I like getting up late.
Das Wort that in (3) kann eines sein ein Relativpronomen (wie
whom in a.) oder eine Konjunktion wie in b.
a. They complained to the guide whom they could not hear.
b. They complained to the guide that they could not hear him.
Strukturelle Ambiguität
Ein letztes Beispiel für eine tiefenstrukturelle Mehrdeutigkeit finden
wir bei der Interpretation einer Folge von Nomina entweder als eine
einzelne Konstituente, d.h. als ein zusammengesetztes Nomen,
oder mit einer Konstituentengrenze dazwischen. Dies ist besonder
problematisch im Englischen, weil dort in restriktiven Relativsätzen
das Relativpronomen weggelassen werden kann:
(1) The mathematics students sat their examinations.
(2) The mathematics students study today is very complex.
Da im Englischen solche Nominalkomposita sehr häufig sind
verbunden mit der Häufigkeit von kategorialen Ambiguitäten ist in
dieser Sprache diese Art struktureller Mehrdeutigkeit sehr
verbreitet.
Strukturelle Ambiguität: weitere Beispiele
(1) Have you seen the story about the air crash in the paper?
(2) Have you seen the story about the air crash in the jungle?
(3) John mentioned the book I sent to Susan.
(4) John mentioned the book I sent him to Susan.
(5) John mentioned the book I sent to Susan to his brother.
(6) I told everyone concerned about the strike.
(7) I told everyone concerned about the strike not to worry.
(8) I told everyone about the strike.
Auflösung struktureller Ambiguität
Wenn die syntaktische Analyse mehr als eine mögliche Interpretation
für einen Satz produziert, muss ein Weg gefunden werden, die richtige
zu wählen. Das ist notwendig, weil zwar nicht immer, aber doch sehr
häufig, die Übersetzung in die Zielsprache je nach der gewählten
Interpretation anders ausfallen wird.
Bei der Übersetzung von The man saw the girl with the telescope ins
Japanische zum Beispiel muss die Mehrdeutigkeit aufgelöst werden:
 Otoko wa
BOENKYO WO
MOITE IRU
onnanoko wo mita.
MAN subj
TELESCOPE obj HOLDING
GIRL obj
SAW
'The man saw the girl who was holding the telescope'.
 Otoko wa
BOENKYO DE
onnanoko wo mita.
MAN subj
TELESCOPE inst GIRL obj
SAW
'The man, using the telescope, saw the girl.'
Auflösung struktureller Ambiguität
Die Mehrdeutigkeit von that in They complained to the guide that
they could not hear muss bei der Übersetzung ins Deutsche
ebenfalls aufgelöst werden.
 Sie beklagten sich bei dem Reiseführer, DEN sie nicht hören
konnten.
 Sie beklagten sich bei dem Reiseführer, DASS sie nicht hören
konnten.
Auflösung struktureller Ambiguität
 Es gibt eine Anzahl von Optionen, die für Auflösung von
Mehrdeutigkeit verfügbar sind:
 die Verwendung semantischer oder anderer linguistischer
Information,
 des Verwendung kontextueller Anhaltspunkte,
 dem Verwendung von außerlinguistischem 'Weltwissen‚
 Interaktive Befragung
 Eine weitere Möglichkeit besteht darin, die Mehrdeutigkeit
einfach zu ignorieren und darauf zu bauen, dass in der
Zielsprache die gleiche Ambiguität vorliegt.
Linguistisches Wissen
 Oft können potentiell mehrdeutige Sätze unter Bezug auf
linguistisches Wissen disambiguiert werden. Mann kann
verschiedene Arten von sprachlichem Wissen unterscheiden. Sie
alle haben gemeinsam, dass sie Informationen über Wörter und die
Art sie zu kombinieren benutzen und nicht über die über die
Ereignisse im wirklichen Leben, welche die Sätze beschreiben.
 Ein Verfahren besteht darin, Parsern (Analsyseprogrammen)
Informationen über Vorkommensbeschränkungen zur Verfügung zu
stellen, d.h. Hinweise darauf, wie das Vorhandensein bestimmter
Elemente in einer Struktur die Vorkommensmöglichkeiten anderer
Elemente beeinflusst.
Linguistisches Wissen
 Ein typisches Beispiel dafür ist die Verwendung von Subkategorisierungsrahmen für Verben. Diese zeigen an, welche Arten von
Ergänzungen von einem bestimmten Verb 'erwartet' werden.
 Ein Verb wie give zum Beispiel, erwartet als Subjekt ein Nomen, das
sich auf einen 'Geber' bezieht, als direktes Objekt ein Nomen, das sich
auf das 'gegebene' Ding bezieht, und als indirektes Objekt ein Nomen,
das auf einen 'Empfänger' referiert.
 Weiterhin können wir in einem gewissen Rahmen bestimmen, mit
welchen Arten von Nomina diese syntaktischen Rollen gefüllt werden
können, z.B. durch die Verwendung von semantischen Merkmalen: der
'Geber' sollte belebt usw. sein.
Linguistisches Wissen
 Auf diese Weise kann der Parser für ein potentiell mehrdeutiges
Satzpaar wie unten die richtigen Interpretationen produzieren, wenn
er die Information hat, dass read von einer Präpositionalphrase mit
in modifiziert werden kann, wenn das betroffene Nomen zu einer
Klasse von Nomina gehört, die als 'lesbar' gekennzeichnet sind
(z.B. book, magazine, newspaper, usw.)
(1) I read about the air crash in France.
(2) I read about the air crash in the paper.
Linguistisches Wissen
 Diese Art von Information kann auch auf einer allgemeineren
Ebene durch Konzepte wie Valenz und Kasus im Sinne der
Kasusgrammatik behandelt werden.
 Durch die Valenz werden Verben nach der Anzahl und Art der
Ergänzungen charakterisiert, die mit ihnen entweder assoziiert sein
müssen oder dürfen.
 In der Kasusgrammatik werden die Rollen von abhängigen
Ergänzungen z.B. als Agent, Patient (oder Object) Instrument,
Manner, Accompanier, Location, usw. identifiziert.
 Eine typische Verallgemeinerung ist, dass die Subjekte von
transitiven Verben Agenten sind, die normalerweise 'belebt',
‚potent', usw. sind. Für give wären die erwarteten Kasusrollen
Agent, Recipient und Patient.
Linguistisches Wissen
 Die folgenden Beispielsätze werden richtig analysiert, wenn der
Parser über die Information verfügt, dass write eine instrumentale
with-Phrase zu sich nimmt und dass das Instrument ein physisches
Objekt sein sollte.
(1) He wrote the letter with a fountain-pen.
cf. He wrote the letter with the parcel.
 Der Accompanier von visit und ähnliche Verben sollte belebt sein;
und tell nimmt eine with-Phrase der Art und Weise zu sich, mit
einem beschränkten Bereich von möglichen Füllseln (stutter,
accent, usw.).
(2) He visited the museum with his brother.
cf. He visited the museum with the Elgin marbles.
(3) He told the story with a funny accent.
cf. He told the story with a funny ending
Kontextwissen
 In der Praxis sind sehr wenige Sätze wirklich mehrdeutig: in
Abwesenheit anderer Disambiguierungskriterien wird
normalerweise der Kontext, in dem der Satz auftritt, entscheiden
welche von mehreren Lesarten zu bevorzugen ist.
 Allerdings sind nur sehr wenige MÜ-Systeme in der Lage,
solches kontextuelles Wissen zu benutzen. Der Grund dafür ist,
dass es sehr schwer ist Regeln zu dafü formulieren, wo man
das 'Wissen' finden kann, das in einem konkreten Fall zur
Disambiguierung dienen könnte. Zudem müsste die Information,
die während des Übersetzungsprozesses anfällt, gespeichert
werden.
Weltwissen
 Der dritte Ansatz zur Auflösung von Mehrdeutigkeiten, wenn die
syntaktische Analyse dafür nicht ausreicht, besteht darin,
allgemeines Weltwissen einzubeziehn.
 Ein Beispiel für eine strukturelle Mehrdeutigkeit, die durch
Verwendung von Weltwissen aufgelöst wird, liefert der folgende
Satz :
(1) The man saw the horse with the telescope.
 Die Grenze zwischen Weltwissen und sprachlichem Wissen ist
keineswegs klar gezogen.
(2) We will meet the man you told us about yesterday.
(3) We will meet the man you told us about tomorrow.
Anaphorische Referenz
 Neben der Auflösung von Mehrdeutigkeiten, die oft als das
wichtigste linguistische Problem für die MÜ betrachtet wird, ist
eine andere Hauptschwierigkeit die Auflösung von
pronominalen Verweisen (anaphora resolution).
 'Anapher' ist der linguistische Fachausdruck für einen indirekte
Bezug auf eine Entität, die an einer anderen Textstelle explizit
erwähnt wird. Das häufigste linguistische Mittel dafür ist die
Verwendung von Personalpronomina wie es, er, sie, usw.,
Demonstratpronomina wie dies, dieser, diese etc. oder Phrasen
wie der (die, das) Letztere.
 Die Identifizierung von Pronomina schließt deshalb die
Identifizierung einer vorangegangen Nominalphrase ein, auf die
sie sich beziehen. Dieses Bezugselement wird Antezedens
genannt.
Anaphorische Referenz
Die Ermittlung des Antezedens von Anaphern ist sehr oft von
entscheidender Wichtigkeit für die richtige Übersetzung. Wenn in
Sprachen übersetzt wird, in denen die Pronomina genusmarkiert sind,
ist es unerläßlich, die anaphorischen Beziehungen aufzulösen.
(1) The monkey ate the banana because it was hungry.
(2) The monkey ate the banana because it was ripe.
(3) The monkey ate the banana because it was tea-time.
Anaphorische Referenz
In jedem dieser Beispiele bezieht sich das Pronomen it jeweils auf
etwas Anderes: in (1) auf monkey, in (2) auf banana, und in (3) auf die
Ereigniszeit.
Für die Übersetzung ins Deutsche, wo die Pronomina im Genus mit
dem Antezedens kongruieren, müssen die entsprechenden Bezüge
explizit gemacht werden. Da Affe maskulin ist, ist das entsprechende
Pronomen er; Banane ist feminin und das entsprechende Pronomen
muß sie sein; und das entsprechende Pronomen für (3) ist es.
(1) Der Affe hat die Banane gefressen, weil er Hunger hatte.
(2) Der Affe hat die Banane gefressen, weil sie reif war.
(3) Der Affe hat die Banane gefressen, weil es die Teestunde war.
Anaphorische Referenz
Die korrekte Auflösung von anaphorischen Bezügen involviert
dieselben Wissensarten wie bei der Auflösung von Mehrdeutigkeiten.
In der Tat können Anaphern als eine Art von Mehrdeutigkeit betrachtet
werden.
Wie bei der Auflösung von Mehrdeutigkeiten reicht das linguistische
Wissen manchmal für die richtige Analyse nicht aus. Wenn man die
folgenden Sätze ins Französische übersetzen will, muß man wissen,
ob some of them sich auf soldiers (maskulin) oder auf women (feminin)
bezieht:
(1) The soldiers shot at the women and some of them fell.
(2) The soldiers shot at the women and some of them missed.
(3) Les soldats ont tiré sur les femmes et quelques-unes sont tombées.
(4) Les soldats ont tire sur les femmes et quelques-uns ont raté.
Quantorenskopus
 Als letztes Problem soll die Mehrdeutigkeit im Geltungsbereich
(Skopus) von Quantoren erörtert.
 Dieses Problem ist im Kontext von natürlichsprachlichen
Dialogsystemen intensiv untersucht worden, wo es
wahrscheinlich entscheidender ist als in der MÜ. Diese Art der
Mehrdeutigkeit tritt auf, wenn der Geltungsbereich oder Skopus
eines Quantors wie some, all, none unklar ist. Im Englischen
insbesondere gibt es ein syntaktischen Phänomen namens
'Quantorenanhebung‚ (quantifier raising), das die Position des
Quantors im Satz verschiebt.
Quantorenskopus
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
I don't think he'll come.
I think he won't come.
All women don't like fur coats.
Not all women like fur coats, only some do.
There are no women who like fur coats.
All wires are attached to a pin.
There is one (large) pin to which all wires are attached.
Each wire is attached to its own pin.
No smoking seats are available on domestic flights.
There are no seats where you may smoke on domestic
flights.
There are "no smoking" sections on domestic flights.
Herunterladen