Entwicklung und Einsatz von Lokalisierungswerkzeugen (Web-TCM) Informatik-, Computerlinguistik-, Fachsprachenkompetenz Uta Seewald-Heeg „Interdisziplinäre Zusammenarbeit in der Medieninformatik“ Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef Klöditz Köthen, 22. November 2001 Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee Lokalisierung • Anpassung, d.h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten • Sprachliche und kulturelle Anpassung von Web-Seiten Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee Lokalisierungsprozess (nach Microsoft) Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen • Internationalisierung (I18N) • Globalisierung (G11N) – (Sprach-, Kultur- und PlattformUnabhängigkeit von Produkten) • Lokalisierung (L10N) Internationalisierung Bsp.: Sortierroutinen Codierungssysteme Codepages • • • • Zuordnung von Byte-Werten auf Buchstaben eines Alphabets Byte-Werte (auch: Code-Points) sind Indizes in einer Codepage Bis zum Code 0x7F (127) werden Code-Points von allen Codepages auf die gleichen Buchstaben abgebildet (ASCII7-Bit-Zeichensatz) Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0x80 (128) und 0xFF (255) Byte String Hex Dez 0xD6 214 0xFF 252 Windows Codepage 1252 Windows Codepage 1253 (W. European) (Cyrillic) Ö Ц ü ь Locales (Variablen mit sprach- bzw. marktabhängig unterschiedlichen Werten) encoding: #UTF_8 • • • • • • • • • Zeichenketten Datumsformate Kalender, Zeitformate Währungsformate Maßeinheiten Grafiken Farben Schreibstile Produktverpackung catalog: #labels cacheSize: 113 Hardcopy = 'Print' Cancel = 'Cancel' Help = 'Help' tryAgain = 'Retry' Icon = 'Button' Hardcopy = 'Drucken' encoding:inspect #UTF_8 = 'Inspect' Cancel = 'Abbruch' catalog: #labels Action = 'Switch Window' Help = 'Hilfe' cacheSize: 113 tryAgain = 'Neuer Versuch' Icon = 'Ikone' Hardcopy = 'Печатать' inspect = 'Untersuchen' Cancel = 'Прерывание' encoding: #UTF_8 catalog: #labels cacheSize: 113 Helpumschalten' = 'Помощь' Action = 'Fenster tryAgain = 'Новая попытка' VisualWorks 5.i Icon = 'Пиктограмма' inspect = 'Исследовать' Action = 'Окно переключить' Datumsformate 22. November 2001 22.11.2001 22/11/2001 2001-11-22 Deutsch EU 11/22/2001 November 22, 2001 22 November 2001 Amerikanisch 22/11/2001 22 novembre 2001 Französisch Feldlängen ! Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee Kompetenz beim Einsatz von Lokalisierungswerkzeugen Maschinelle Übersetzungssysteme Translation-Memory-Systeme Programme zur Bearbeitung von Online-Hilfen Programme zur Lokalisierung von Software-Quelldateien Kompetenz beim Einsatz von Lokalisierungswerkzeugen • Kulturkompetenz • Textsortenkompetenz • IT-Kompetenz Kulturkompetenz Navigationsleiste „Laufschrift“ von links nach rechts laufend Datumsangaben Textsortenkompetenz • Textsorten – Handbücher – Online-Hilfe-Texte (i.d.R. HTML-Dateien) – Benutzerschnittstelle (Menüs, Benutzerdialoge, Schaltflächen, Fensterinhalte, Icons) – Fehlermeldungen – Schulungsmaterial – Lizenzverträge • Textsorteneigenschaften • Technische Realisierung, Formate Benutzerschnittstelle Interne Repräsentation von Textelementen Menü in einem Windows-Programm Entsprechung in der Quelldatei (Resource File) 6 MENU FIXED IMPURE BEGIN POPUP "&DATEI" BEGIN MENUITEM "&NEU...\tSTRG+N" MENUITEM "Ö&ffnen...\tSTRG+O" MENUITEM "S&chließen" MENUITEM SEPARATOR MENUITEM "S&peichern\tSTRG+S" MENUITEM "&Speichern &unter..." MENUITEM "Als Websei&te speichern..." MENUITEM MENUITEM MENUITEM MENUITEM MENUITEM "Pac&k & Go..." SEPARATOR "&Webseitenvorschau" SEPARATOR "Seite einr&ichten" Tastenkombinationen IT-Kompetenz Aufbau und Funktionsweise von Lokalisierungswerkzeugen PASSOLO erkennt typische Lokalisierungsfehler wie abgeschnittene Beschriftungen von Schaltflächen Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee Entwicklung des Lokalisierungswerkzeugs Web-TCM • Web-TCM: Web Translation & Content Management • Kooperationsprojekt – Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen) – Firma Georg Heeg Web-TCM Smalltalk Programmierwerkzeug des Web-TCM Web Translation & Content Management • Web Translation – Lokalisieren, Übersetzen • Content Management – Verwalten von Inhalten bzw. Änderungen auf einer WWW-Seite (in einer beliebigen Sprache) Web-TCM Fachübersetzen <!doctype ....> <html> <head> <title> Fachübersetzen</title> </head> <body> ... <body> </html> Segmentierung Extraktion der Textblöcke Nummerierung der Textblöcke HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke 1 2 3 . . . . n Deutsch Fachübersetzen English Français Traduction specialisée Русский технический перевод Memory Web-TCM Memory (TM) Nr. DE EN FR RU 1 Sprache language langue язык 2 Fachübersetzen Traduction spécialisée 3 . . n HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke <!doctype ....> <html> <head> <title><%=tm at: 2%></title> </head> <body> ... <body> </html> Sprachparameter (lang=de) in der URL de fr Web-TCM <!doctype ....> <html> <head> <title>Fachübersetzen</title> </head> <body> <h1>Fachübersetzen</h1> <body> </html> <!doctype ....> <html> <head> <title>Traduction spécialisée</title> </head> <body> <h1>Traduction spécialisée</h1> <body> </html> Fachübersetzen Traduction spécialisée URL URL http://fue.htm?lang=de Fachübersetzen http://fue.htm?lang=fr Traduction spécialisée Web-TCM Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – HTML Tidy (www.w3.org) 2. HTML-Dateien in XHTML-Dateien konvertieren – Jede Datei beginnt mit einer DTD – Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> – Alle HTML-Bestandteile werden klein geschrieben. – Substitution bestimmter Tags, z.B. <b> <strong> Web-TCM XHTML <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta name="generator" content="HTML Tidy, see www.w3.org" /> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>Fach&uuml;bersetzen</title> </head> ... Web-TCM Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – HTML Tidy (www.w3w.org) 2. HTML-Dateien in XHTML-Dateien konvertieren – – – – Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> 3. Segmentierung der HTML-Dateien – – – – – *.htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TMSegmente) Generierung der ssp-Dateien (*.ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Web-TCM SSP Smalltalk Server Pages <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <%lang := request anyParameterValueAt: 'lang'. tm := Heeg.Translator.TM new: lang.%> <html> <head> <meta name="generator" content="HTML Tidy, see www.w3.org"/> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title> <%=tm at: 158%> Web-TCM Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – HTML Tidy (www.w3w.org) 2. HTML-Dateien in XHTML-Dateien konvertieren – – – – Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> 3. Segmentierung der HTML-Dateien – – – – – *.htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TMSegmente) Generierung der ssp-Dateien (*.ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM 4. Resegmentieren Web-TCM Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – 2. HTML-Dateien in XHTML-Dateien konvertieren – – – – 3. Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z.B. <br></br>, kurz: </br> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z.B. <b> <strong> Segmentierung der HTML-Dateien – – – – – 4. 5. HTML Tidy (www.w3w.org) *.htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) Generierung der ssp-Dateien (*.ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Resegmentieren Übersetzen – Translation Memory in allen Zielsprachen Web-TCM Export in kommerzielle TM-Systeme TMX-Austauschformat <?xml version="1.0"?> <!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd"> <tmx version="1.1"> <body> <tu tuid="1"> <header <tuv lang="de"> creationtool="Web-TCM" <seg>Sprach- und Sachfachangebot</seg> creationtoolversion="0.55" </tuv> datatype="HTML" <tuv lang="en"> <seg>Languages and application domains</seg> o-tmf="Web-TCM" </tuv> segtype="sentence" <tuv lang="fr"> adminlang="en-us" <seg>Langues et disciplines srclang="DE" sp&#233;cialis&#233;es</seg> </tuv> o-encoding="utf-8"> <tuv lang="ru"> </header> <seg>&#1071;&#1079;&#1099;&#1082;&#1072; &#1080; &#1076;&#1080;&#1089;&#1094;&#1080;&#1087;&#1083; &#1080;&#1085;&#1072;</seg> </tuv> </tu> ... </body> Entwicklungsaufwand • Zwei Arbeitswochen • Interaktive Weiterentwicklung während der Nutzung ROBUST Web-TCM Web-TCM Vergleich mit kommerziellen TM-basierten Lokalisierungswerkzeugen • Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstützt Bei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer • Passwort-geschützter Zugang • https (http mit Verschlüsselung) • Kombiniert Translation-Memory-Technologie mit ContentManagement • Unterstützt Export in kommerzielle TM-Systeme (TMX-Austauschformat) • Unterstützt Export statischer Web-Seiten in allen verfügbaren Sprachen Kompetenz für das Lokalisierungsprojekt und den Einsatz von Web-TCM Sprachdatenverarbeitung „Grundlagen der Lokalisierungstechnologie“ • • • • Codierungssysteme Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM Dynamische Web-Seiten, HTML, XML Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R) – Projektorganisation • Projektmanager • Übersetzungsteams • „Proofreading”, Qualitätskontrolle – Arbeitsschritte • • • • • Extraktion von Textelementen aus Grafiken Vorbereitung der Terminologie Übersetzung der Webseiten „Proofreading“ Übergabe • Lokalisierungswerkzeug (Web-TCM) SS 2001 Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee Resümee • Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen: – Informatik – Computerlinguistik – Sprachmittlung, Fachsprachen • Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung • FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend