Diplomarbeit / Masterarbeit Vorhersage der Qualität synthetischer

Am Quality and Usability Lab der Deutschen Telekom Laboratories, einem An-Institut der TU Berlin,
ist eine
Diplomarbeit / Masterarbeit
zu folgendem Thema zu vergeben:
Vorhersage der Qualität synthetischer Sprache
mittels eines signalbasierten Maßes
Synthetische – d.h. von einem Computer generierte – Sprache (sog. Text-to-Speech, TTS) hat in den
vergangenen Jahren ein Qualitätsniveau erreicht, dass sie geeignet für verschiedene Anwendungen
erscheinen lässt. So wird TTS derzeit in Sprachdialogdiensten mit unbeschränktem Wortschatz
eingesetzt, bspw. bei E-Mail-Vorlesediensten oder für Smart-Home-Systeme. Dennoch gibt es
deutliche Unterschiede zur Qualität natürlicher Sprache; Methoden zur Messung der Qualität sind
deshalb von großer Bedeutung für die Implementierung und Optimierung solcher Dienste.
Zur Messung der Qualität synthetischer Sprache ist im Allgemeinen eine Beurteilung durch
menschliche Hörer unerlässlich. In einem auditiven Test werden Versuchspersonen daher
unterschiedliche Proben synthetischer Sprache vorgespielt und von diesen bezüglich verschiedener
Qualitätsaspekte beurteilt. Der Aufwand solcher auditiver Messungen ist allerdings beträchtlich; es
besteht daher ein großes Interesse an instrumentellen Messverfahren zur Schätzung oder
Vorhersage der Qualität synthetischer Sprache.
In einer vorangegangenen Bachelorarbeit (Heimansberg, 2006) wurde erstmalig versucht,
unterschiedliche signalbasierte Maße zur Schätzung von TTS-Qualität einzusetzen. Die Ergebnisse,
die damit erzielt wurden, waren durchaus beachtlich und mündeten in eine Veröffentlichung (Möller
und Heimansberg, 2006), sind aber noch nicht optimal. Dies liegt vor allem daran, dass die
verwendeten Maße für gänzlich andere Anwendungsszenarien entwickelt wurden. Es ist daher davon
auszugehen, dass es hier noch ein recht großes Optimierungspotential gibt.
Ziel der Diplomarbeit:
Im Rahmen dieser Diplom- oder Masterarbeit soll ein spezielles signalbasiertes Verfahren für TTS
optimiert werden, welches direkt aus dem synthetischen Sprachsignal einen Qualitätsschätzwert
ableiten. Dieses Verfahren wurde von der International Telecommunication Union (ITU-T)
standardisiert (ITU-T Rec. P.563, 2003), allerdings zur Vorhersage der Qualität von
Übertragungskanälen, nicht für TTS. Zur Optimierung stehen verschiedene Datenbanken mit
(natürlichen und synthetischen) Sprachdateien und zugehörigen auditiv ermittelten
Qualitätsmesswerten zur Verfügung. Daneben ist es möglich, Daten aus einer laufenden
internationalen Kampagne zur Bestimmung von TTS-Qualität (sog. Blizzard-Challenge) zur
Optimierung oder zur Validierung des Verfahrens heranzuziehen. Abschließend sollen die
Ergebnisse der Validierung dokumentiert und u.U. im Rahmen der ITU-T oder auf einer
wissenschaftlichen Konferenz veröffentlicht werden.
Aufgaben und ungefährer Zeitplan:

Einarbeitung in das Thema, Literaturstudium (0.75 Monate)
Installation der vorhandenen instrumentellen Schätzverfahren, Formatierung der Datenbasis
(0.5 Monate)
Anwendung des Verfahrens auf bestehende Datenbanken und Analyse von Schwachstellen
(1 Monat)
Optimierung des Verfahrens und Re-Test (1.25 Monate)
Validierung auf einer unabhängigen Datenbank und Analyse der Ergebnisse (1 Monat)
Finale Optimierung (0.5 Monate)
Schriftliche Ausarbeitung (1 Monat)
Voraussetzungen:

Grundkenntnisse der Signalverarbeitung
Programmierkenntnisse in C oder C++
Spaß und Interesse an interdisziplinärer Arbeit
Ansprechpartner:
Sebastian Möller, E-Mail: [email protected]