LokalisierungmitWeb-TCM

Werbung
Entwicklung und Einsatz von
Lokalisierungswerkzeugen
(Web-TCM)
Informatik-, Computerlinguistik-,
Fachsprachenkompetenz
Uta Seewald-Heeg
„Interdisziplinäre Zusammenarbeit in der Medieninformatik“
Kolloquium zu Ehren von Prof. Dr.-Ing. Detlef Klöditz
Köthen, 22. November 2001
Entwicklung und Einsatz von
Lokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von
Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von
Lokalisierungswerkzeugen
4. Entwicklung des Lokalisierungswerkzeugs
Web-TCM
5. Resümee
Lokalisierung
•
Anpassung, d.h. Übersetzung eines
Software-Produkts an einen lokalen Markt
mit seinen sprachlichen und kulturellen
Besonderheiten
•
Sprachliche und kulturelle Anpassung von
Web-Seiten
Entwicklung und Einsatz von
Lokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von
Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von
Lokalisierungswerkzeugen
4. Entwicklung des Lokalisierungswerkzeugs
Web-TCM
5. Resümee
Lokalisierungsprozess
(nach Microsoft)
Kompetenzen bei der
Entwicklung von Software und
Lokalisierungswerkzeugen
• Internationalisierung (I18N)
• Globalisierung (G11N)
– (Sprach-, Kultur- und PlattformUnabhängigkeit von Produkten)
• Lokalisierung (L10N)
Internationalisierung
Bsp.: Sortierroutinen
Codierungssysteme
Codepages
•
•
•
•
Zuordnung von Byte-Werten auf Buchstaben eines Alphabets
Byte-Werte (auch: Code-Points) sind Indizes in einer
Codepage
Bis zum Code 0x7F (127) werden Code-Points von allen
Codepages auf die gleichen Buchstaben abgebildet (ASCII7-Bit-Zeichensatz)
Unterscheidung in der Zuordnung der Buchstaben für Codes
zwischen 0x80 (128) und 0xFF (255)
Byte String
Hex
Dez
0xD6 214
0xFF 252
Windows Codepage 1252
Windows Codepage 1253
(W. European)
(Cyrillic)
Ö
Ц
ü
ь
Locales
(Variablen mit sprach- bzw. marktabhängig
unterschiedlichen Werten) encoding: #UTF_8
•
•
•
•
•
•
•
•
•
Zeichenketten
Datumsformate
Kalender, Zeitformate
Währungsformate
Maßeinheiten
Grafiken
Farben
Schreibstile
Produktverpackung
catalog: #labels
cacheSize: 113
Hardcopy = 'Print'
Cancel = 'Cancel'
Help = 'Help'
tryAgain = 'Retry'
Icon = 'Button'
Hardcopy = 'Drucken'
encoding:inspect
#UTF_8
= 'Inspect'
Cancel = 'Abbruch'
catalog: #labels
Action = 'Switch Window'
Help = 'Hilfe' cacheSize:
113
tryAgain = 'Neuer Versuch'
Icon = 'Ikone' Hardcopy = 'Печатать'
inspect = 'Untersuchen'
Cancel = 'Прерывание'
encoding: #UTF_8
catalog: #labels
cacheSize: 113
Helpumschalten'
= 'Помощь'
Action = 'Fenster
tryAgain = 'Новая попытка'
VisualWorks 5.i
Icon = 'Пиктограмма'
inspect = 'Исследовать'
Action = 'Окно переключить'
Datumsformate
22. November 2001
22.11.2001
22/11/2001
2001-11-22
Deutsch
EU
11/22/2001
November 22, 2001
22 November 2001
Amerikanisch
22/11/2001
22 novembre 2001
Französisch
Feldlängen
!
Entwicklung und Einsatz von
Lokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von
Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von
Lokalisierungswerkzeugen
4. Entwicklung des Lokalisierungswerkzeugs
Web-TCM
5. Resümee
Kompetenz beim Einsatz von
Lokalisierungswerkzeugen
Maschinelle
Übersetzungssysteme
Translation-Memory-Systeme
Programme zur Bearbeitung
von Online-Hilfen
Programme zur Lokalisierung
von Software-Quelldateien
Kompetenz beim Einsatz von
Lokalisierungswerkzeugen
• Kulturkompetenz
• Textsortenkompetenz
• IT-Kompetenz
Kulturkompetenz
Navigationsleiste
„Laufschrift“
von links nach
rechts laufend
Datumsangaben
Textsortenkompetenz
• Textsorten
– Handbücher
– Online-Hilfe-Texte (i.d.R. HTML-Dateien)
– Benutzerschnittstelle (Menüs, Benutzerdialoge,
Schaltflächen, Fensterinhalte, Icons)
– Fehlermeldungen
– Schulungsmaterial
– Lizenzverträge
• Textsorteneigenschaften
• Technische Realisierung, Formate
Benutzerschnittstelle
Interne Repräsentation von Textelementen

Menü in einem
Windows-Programm
Entsprechung in der Quelldatei
(Resource File)
6 MENU FIXED IMPURE
BEGIN
POPUP "&DATEI"
BEGIN
MENUITEM "&NEU...\tSTRG+N"
MENUITEM "Ö&ffnen...\tSTRG+O"
MENUITEM "S&chließen"
MENUITEM SEPARATOR
MENUITEM "S&peichern\tSTRG+S"
MENUITEM "&Speichern &unter..."
MENUITEM "Als Websei&te
speichern..."
MENUITEM
MENUITEM
MENUITEM
MENUITEM
MENUITEM
"Pac&k & Go..."
SEPARATOR
"&Webseitenvorschau"
SEPARATOR
"Seite einr&ichten"
Tastenkombinationen
IT-Kompetenz
Aufbau und Funktionsweise von
Lokalisierungswerkzeugen
PASSOLO
erkennt typische
Lokalisierungsfehler wie
abgeschnittene
Beschriftungen
von
Schaltflächen
Entwicklung und Einsatz von
Lokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von
Software und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von
Lokalisierungswerkzeugen
4. Entwicklung des Lokalisierungswerkzeugs
Web-TCM
5. Resümee
Entwicklung des
Lokalisierungswerkzeugs
Web-TCM
• Web-TCM: Web Translation & Content Management
• Kooperationsprojekt
– Fachbereich Informatik der Hochschule Anhalt
(Studiengang Fachübersetzen)
– Firma Georg Heeg
Web-TCM
Smalltalk
Programmierwerkzeug des
Web-TCM
Web Translation
& Content Management
• Web Translation
– Lokalisieren, Übersetzen
• Content Management
– Verwalten von Inhalten bzw. Änderungen
auf einer WWW-Seite (in einer beliebigen
Sprache)
Web-TCM
 Fachübersetzen
<!doctype ....>
<html>
<head>
<title> Fachübersetzen</title>
</head>
<body>
...
<body>
</html>
Segmentierung
Extraktion der
Textblöcke
Nummerierung der
Textblöcke
HTML-Seite mit
Zugriffsfunktion
über die Nummern
der Textblöcke
1
2
3
.
.
.
.
n
Deutsch
Fachübersetzen
English
Français
Traduction specialisée
Русский
технический перевод
Memory
Web-TCM
Memory (TM)
Nr.
DE
EN
FR
RU
1
Sprache
language
langue
язык
2
Fachübersetzen
Traduction
spécialisée
3
.
.
n
HTML-Seite mit
Zugriffsfunktion
über die Nummern
der Textblöcke
<!doctype ....>
<html>
<head>
<title><%=tm at: 2%></title>
</head>
<body>
...
<body>
</html>
Sprachparameter (lang=de) in der URL
de
fr
Web-TCM
<!doctype ....>
<html>
<head>
<title>Fachübersetzen</title>
</head>
<body>
<h1>Fachübersetzen</h1>
<body>
</html>
<!doctype ....>
<html>
<head>
<title>Traduction spécialisée</title>
</head>
<body>
<h1>Traduction spécialisée</h1>
<body>
</html>
 Fachübersetzen
 Traduction spécialisée
URL
URL
http://fue.htm?lang=de
Fachübersetzen
http://fue.htm?lang=fr
Traduction spécialisée
Web-TCM
Workflow
einsprachig → mehrsprachig
1. HTML-Dateien bereitstellen
– HTML Tidy (www.w3.org)
2. HTML-Dateien in XHTML-Dateien konvertieren
– Jede Datei beginnt mit einer DTD
– Jedes Tag muss beendet werden, z.B. <br></br>,
kurz: <br />
– Alle HTML-Bestandteile werden klein geschrieben.
– Substitution bestimmter Tags, z.B. <b>  <strong>
Web-TCM
XHTML
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="generator" content="HTML Tidy, see www.w3.org" />
<meta http-equiv="Content-Type"
content="text/html; charset=utf-8" />
<title>Fachübersetzen</title>
</head>
...
Web-TCM
Workflow
einsprachig → mehrsprachig
1. HTML-Dateien bereitstellen
–
HTML Tidy (www.w3w.org)
2. HTML-Dateien in XHTML-Dateien konvertieren
–
–
–
–
Jede Datei beginnt mit einer DTD
Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br />
Alle HTML-Bestandteile werden klein geschrieben.
Substitution bestimmter Tags, z.B. <b>  <strong>
3. Segmentierung der HTML-Dateien
–
–
–
–
–
*.htm (XHTML)
XML-Parser in Smalltalk (Parse-Tree)
Segmentierer in Smalltalk (Baumtransformation, TMSegmente)
Generierung der ssp-Dateien (*.ssp)
Ablegen der AS-Segmente (hier: deutsch) in das TM
Web-TCM
SSP
Smalltalk Server Pages
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<%lang := request anyParameterValueAt: 'lang'.
tm := Heeg.Translator.TM new: lang.%>
<html>
<head>
<meta name="generator" content="HTML Tidy, see www.w3.org"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>
<%=tm at: 158%>
Web-TCM
Workflow
einsprachig → mehrsprachig
1. HTML-Dateien bereitstellen
–
HTML Tidy (www.w3w.org)
2. HTML-Dateien in XHTML-Dateien konvertieren
–
–
–
–
Jede Datei beginnt mit einer DTD
Jedes Tag muss beendet werden, z.B. <br></br>, kurz: <br />
Alle HTML-Bestandteile werden klein geschrieben.
Substitution bestimmter Tags, z.B. <b>  <strong>
3. Segmentierung der HTML-Dateien
–
–
–
–
–
*.htm (XHTML)
XML-Parser in Smalltalk (Parse-Tree)
Segmentierer in Smalltalk (Baumtransformation, TMSegmente)
Generierung der ssp-Dateien (*.ssp)
Ablegen der AS-Segmente (hier: deutsch) in das TM
4. Resegmentieren
Web-TCM
Workflow
einsprachig → mehrsprachig
1.
HTML-Dateien bereitstellen
–
2.
HTML-Dateien in XHTML-Dateien konvertieren
–
–
–
–
3.
Jede Datei beginnt mit einer DTD
Jedes Tag muss beendet werden, z.B. <br></br>, kurz: </br>
Alle HTML-Bestandteile werden klein geschrieben.
Substitution bestimmter Tags, z.B. <b>  <strong>
Segmentierung der HTML-Dateien
–
–
–
–
–
4.
5.
HTML Tidy (www.w3w.org)
*.htm (XHTML)
XML-Parser in Smalltalk (Parse-Tree)
Segmentierer in Smalltalk (Baumtransformation, TM-Segmente)
Generierung der ssp-Dateien (*.ssp)
Ablegen der AS-Segmente (hier: deutsch) in das TM
Resegmentieren
Übersetzen
–
Translation Memory in allen Zielsprachen
Web-TCM
Export in kommerzielle TM-Systeme
TMX-Austauschformat
<?xml version="1.0"?>
<!DOCTYPE tmx PUBLIC "-//LISA OSCAR:1997//DTD for Translation Memory
eXchange//EN" "http://www.lisa.org/tmx/tmx11.dtd">
<tmx version="1.1">
<body>
<tu tuid="1">
<header
<tuv lang="de">
creationtool="Web-TCM"
<seg>Sprach- und Sachfachangebot</seg>
creationtoolversion="0.55"
</tuv>
datatype="HTML"
<tuv lang="en">
<seg>Languages and application domains</seg>
o-tmf="Web-TCM"
</tuv>
segtype="sentence"
<tuv lang="fr">
adminlang="en-us"
<seg>Langues et disciplines
srclang="DE"
spécialisées</seg>
</tuv>
o-encoding="utf-8">
<tuv lang="ru">
</header>
<seg>Языка и
дисципл
ина</seg>
</tuv>
</tu>
... </body>
Entwicklungsaufwand
• Zwei Arbeitswochen
• Interaktive Weiterentwicklung während der
Nutzung
ROBUST
Web-TCM
Web-TCM
Vergleich mit kommerziellen TM-basierten
Lokalisierungswerkzeugen
• Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit
real unterstützt
Bei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert
werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer
• Passwort-geschützter Zugang
• https (http mit Verschlüsselung)
• Kombiniert Translation-Memory-Technologie mit ContentManagement
• Unterstützt Export in kommerzielle TM-Systeme
(TMX-Austauschformat)
• Unterstützt Export statischer Web-Seiten in allen
verfügbaren Sprachen
Kompetenz für das Lokalisierungsprojekt
und den Einsatz von Web-TCM
Sprachdatenverarbeitung
„Grundlagen der Lokalisierungstechnologie“
•
•
•
•
Codierungssysteme
Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM
Dynamische Web-Seiten, HTML, XML
Lokalisierungsprojekt: Web-Site-Lokalisierung (D  E, F, R)
– Projektorganisation
• Projektmanager
• Übersetzungsteams
• „Proofreading”, Qualitätskontrolle
– Arbeitsschritte
•
•
•
•
•
Extraktion von Textelementen aus Grafiken
Vorbereitung der Terminologie
Übersetzung der Webseiten
„Proofreading“
Übergabe
• Lokalisierungswerkzeug (Web-TCM)
SS 2001
Entwicklung und Einsatz von
Lokalisierungswerkzeugen
1. Lokalisierung
2. Kompetenzen bei der Entwicklung von
Software
und Lokalisierungswerkzeugen
3. Kompetenzen beim Einsatz von
Lokalisierungswerkzeugen
4. Entwicklung des Lokalisierungswerkzeugs
Web-TCM
5. Resümee
Resümee
• Sowohl Entwicklung als auch Einsatz von
Lokalisierungswerkzeugen erfordern Kompetenzen
aus den drei Bereichen:
– Informatik
– Computerlinguistik
– Sprachmittlung, Fachsprachen
• Einrichtung der Vertiefungsrichtung
„Softwarelokalisierung“ im Diplomstudiengang
Fachübersetzen am Fachbereich Informatik trägt
dieser Interdisziplinarität Rechnung
• FB Informatik der HS Anhalt (FH) damit in der
Hochschulausbildung wegweisend
Herunterladen