Maschinelle Übersetzung Fünf Wissensbereiche

Werbung
Fünf Wissensbereiche
!
Maschinelle Übersetzung
!
!
!
(Computer-)
linguistische Grundlagen
!
Wissen über Quellsprache
Wissen über Zielsprache
Wissen über Beziehungen zwischen QS und ZS
Wissen über die Domäne/Sachgebiet + Weltwissen
Wissen über kulturelle und soziale Konventionen der
Sprecher der QS/ZS
2. Sitzung
Diese Informationen müssen für die Übersetzung
identifiziert werden und so repräsentiert werden, dass
sie für die MÜ verarbeitbar sind.
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
2
Linguistisches Wissen
!
Welches Wissen braucht man?
Phonologisches
" Morphologisches
" Syntaktisches
" Semantisches
" Pragmatisches
"
Linguistische Aspekte
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
3
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
4
Syntax
!
Kategorien
"
!
!
N, Det, A, Adv, V, S, P
Lexikalische Kategorien (Major / open class
categories )
Neue Wörter im MÜ-Lexikon
" Gut generalisierbare Syntax
" Unbekannte Wörter im Text als lexikalisch
analysieren
Konstituenten
"
!
Lexikon
"
NP, VP, PP, AP, CP/IP etc.
Grammatische Relationen
Abfolge (Sequenz)
" Abhängigkeit (Dependenz)
" Konstituenz
"
!
Funktionale Kategorien (Minor/closed class
categories)
Finite Menge von Wörtern
" Eher idiosynkratische Syntax
"
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
5
Syntax
!
b)
!
"
"
6
Grammatische Funktionen
!
Die Jungen [plur] rennen.
Der Junge [sing] rennt.
a)
b)
a)
Obligatorisch in Phrase
Bestimmt syntaktische Eigenschaften der Phrase
Selektion / Subkategorisierung
b)
c)
!
The man gave the book to the girl.
The man gave the girl the book.
Deep and surface structure
!
Kopf (Head, Governor) einer Phrase
"
Einführung in die maschinelle
Übersetzung
Syntax
Syntaktische Merkmale
a)
© Anke Holler 2005
Die Römer haben die Stadt zerstört.
Die Stadt wurde von den Römern zerstört.
Die Zerstörung der Stadt durch die Römer.
Prädikat-Argument-Struktur
zerstören (die Römer, die Stadt)
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
7
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
8
Semantik
!
!
Vererbungshierarchien
Semantische Merkmale
Vererbungshierarchien
Sitzmöbel
• Ontologien
!
Sitzfläche
Semantische Netze
Lehne
• WordNet
!
Semantische Felder
Stuhl
Bank
• Die Verben der Bewegung
Drehstuhl
Einführung in die maschinelle
Übersetzung
© Anke Holler 2005
9
Lexikalisch-Semantische Wortnetze
© Anke Holler 2005
Kinderstuhl
Parkbank
Gartenbank
Einführung in die maschinelle
Übersetzung
10
Beispiel GermaNet
futtern
wandeln_4
verändern_2
dinieren
speisen
Klappstuhl
öffnen_1
aufgehen_1
Hyperonymie
schließen_7
essen
Antonymie
Kausalität
öffnen_3
aufmachen_2 Antonymie
zumachen_2
Hyponymie
spachteln
mampfen
aufstoßen_2
aufbrechen_1
tafeln
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
aufsperren_1
11
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
12
Assoziative Wortnetze
Textrelationen
NT
Novell
Web-Server
!
Thema-Rhema, given-new
Engl. durch Artikel
" Russisch durch Wortstellung
"
Cash-Management
!
Netzwerk
!
Ethernet
Informationsstruktur
Deixis & Anaphorische Beziehungen
TCP/IP
Wir waren im Restaurant. Das Essen war ausgezeichnet.
DNA
LAN
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
13
Repräsentationen
!
!
!
14
Kontextfreie Grammatiken
"
Generativ:
"
Deklarativ
• Anwendung von Rewrite Rules generiert Repräsentation
Dependenzbaum
Phrasenstruktur
" Merkmalsbasierte Repräsentationen
" Logische Form
"
• Formale Beziehung zwischen Texten und Repräsentationen
• Unabhängig von der Anwendungsrichtung
"
Einführung in die maschinelle
Übersetzung
Einführung in die maschinelle
Übersetzung
Formale Grammatiken
Formale Grammatik definiert die Menge der
wohlgeformten Repräsentationen
Repräsentationsformen:
© Anke Holler 2005
© Anke Holler 2005
15
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
16
Formale Grammatiken
!
Formale Grammatiken
Valenzgrammatiken
!
Basierend auf Prädikat-Argument-Strukturen
Syntaktische + semantische Eigenschaften der
Argumente abgebildet
" Brauchbar in der MÜ
"
GPSG, LFG, HPSG, Kategorialgrammatik
" Repräsentation: Attribut-Wert-Paare
(=Merkmalsrepräsentationen)
" Operation: Mengenvereinigung (U)
(=Merkmalsunifikation)
" Zusammenführung von Merkmalsstrukturen erlaubt,
wenn
"
"
!
Kasusgrammatiken
Tiefenkasus, Semantische Rolle, Theta-Rolle
Problem: Was ist die Menge der Rollen?
" Vorteil für die MÜ: Semantische Funktion in
Sprachen oft gleich, auch wenn syntaktische
Funktion verschieden
"
"
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
Unifikationsgrammatiken
• Keine gemeinsamen Attribute
• Gemeinsame Attribute haben gleichen bzw. „kompatiblen“
Wert
17
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
18
Rekapitulieren:
!
Formale Grundlagen:
Chomsky Hierarchie
" Endliche Automaten
"
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
Computationelle Aspekte
19
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
20
Anforderungen
!
Systemdesign
Trennung von Daten und Algorithmen
Linguistische Information = deklarativ
" Algorithmische Verarbeitung = prozedural
"
!
!
Ist das System robust?
Debugging Tools (auch für Linguisten)
" Rapid Prototyping
"
Modularität
„Miniprogramme“
" Linguistisch motivierte Teilaufgaben!
" Schnittstellen festlegen (Interfaces)
" Entscheidung über passende Datenstruktur
"
!
"
!
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
21
Input - Output in der MÜ
!
Usability-Bewertung
Ist das System gut wartbar?
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
22
Text Processing
Laden von Programmen, Lexika, Grammatiken
"
Ist das System benutzerfreundlich?
Computergesteuert
Ziel: Erhaltung des Formats
!
WYSIWYG-Editor
• Kopie des AT wird überschrieben
!
Quell- und Zieltext
!
- mindestens eine „Fremdsprache“
- möglicherweise interaktiv
"
Textextraktion und Wiedereinsetzung
• Extraktion von textuellen und nicht-textuellen Daten in
verschiedene Dateien
Anwendergesteuert
She has a <b> red </b> car.
Formatierung: <{0}> <b> <{1}> </b> <{2}>
Text <{0}> She has a
<{1}> red
<{2}> car
• Übersetzung der textuellen Daten
• Wiedereinsetzen des übersetzen Textes in Formatskelett
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
23
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
24
Text Processing
!
Character Sets & Typographie
Textextraktion und Wiedereinsetzung
• Risiko:
ungewollte Formatänderungen, vergessener Text
Daher: Prozess möglichst automatisieren
• Schwierigkeiten:
gewollte Verschiebungen von Formatierungen in der
Übersetzung:
!
Arabisch, Hebräisch
" Japanisch, Chinesisch (Kanji hat 1945 Buchstaben.)
"
!
She has a <b> red </b> car. / Ella tiene un coche <b> rojo </b>
!
25
Griechisch, Russisch
Abweichungen vom Englischen
"
• erfordert hervorgehobene und schreibgestützte
Formatierungen
Einführung in die maschinelle
Übersetzung
Anderes Alphabet
"
!
Übersetzung im Rohtext
© Anke Holler 2005
Komplett andere Schreibsysteme
ß, Akzente, Diakritische Zeichen, Ligaturen etc.
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
Sprachdaten
Frühe Techniken
Lexikalische Ressourcen
Übersetzung von much und many ins Russische:
1 (2,3) Is preceding word how?
2(0)
skol‘ko (Numeral, invariabel)
3(4,5) Is preceding word as?
4(0)
skol‘ko ˇze (Numeral, variabel)
5(7,9) Is current word much?
6(0)
Not to be translated (adverb)
7(6,11) Is preceding word very?
8(0)
mnogii (Adjektiv)
9(8,12) Is preceding word a preposition and following word a noun?
10(0)
mnogo (adverb)
11(12,10)
Is following word a noun?
12(0)
mnogo
Aufgabe der Computerlexikographie
" Lexika können sehr groß werden
(>15.000 Einträgen)
"
Konsequenzen:
Speicherung, Zugriff, Wartung wichtig
MÜ-Systeme meist mit einmaliger Look-up-Phase
" Aufwändige Kompilation
" Konsistenz und Vollständigkeit sicherstellen
"
"
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
27
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
26
28
Heutige Techniken
!
Heutige Techniken
Verfahren der computationellen Morphologie
!
Parsing
syntaktische Analyse eines Satzes
" Inputstring + Regelwerk liefert Repräsentationen
(Strukturen)
" MÜ-Daten: Grammatik + Lexikon
" Input: Text / Output: Struktur des Textes
" Parsingstrategien:
"
Two-level Morphologie
" Implementierung kontextsensitiver Aspekte
z.B. Plural: foxes/*foxs vs. cats/*cates
+ ---> e / x _ s
+ ---> 0
"
"
• Top-Down
• Bottom-Up
Finite-State-Transducer (FST)
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
29
Heutige Techniken
!
Generierung mit folgenden Teilaufgaben nach Reiter & Dale (1997)
"
"
"
"
"
"
Festlegung des zu generierenden Inhalts (messages)
Planung der Diskursstruktur
(Hierarchie von messages)
Aggregation der Sätze
(messages werden in ggf. komplexe Sätze umgesetzt)
Lexikalisierung
Generierung referierender Ausdrücke
MÜLinguistische Realisierung
relevant
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
31
© Anke Holler 2005
Einführung in die maschinelle
Übersetzung
30
Herunterladen