Am Quality and Usability Lab der Deutschen Telekom Laboratories, einem An-Institut der TU Berlin, ist eine Diplomarbeit / Masterarbeit zu folgendem Thema zu vergeben: Vorhersage der Qualität synthetischer Sprache mittels eines signalbasierten Maßes Synthetische – d.h. von einem Computer generierte – Sprache (sog. Text-to-Speech, TTS) hat in den vergangenen Jahren ein Qualitätsniveau erreicht, dass sie geeignet für verschiedene Anwendungen erscheinen lässt. So wird TTS derzeit in Sprachdialogdiensten mit unbeschränktem Wortschatz eingesetzt, bspw. bei E-Mail-Vorlesediensten oder für Smart-Home-Systeme. Dennoch gibt es deutliche Unterschiede zur Qualität natürlicher Sprache; Methoden zur Messung der Qualität sind deshalb von großer Bedeutung für die Implementierung und Optimierung solcher Dienste. Zur Messung der Qualität synthetischer Sprache ist im Allgemeinen eine Beurteilung durch menschliche Hörer unerlässlich. In einem auditiven Test werden Versuchspersonen daher unterschiedliche Proben synthetischer Sprache vorgespielt und von diesen bezüglich verschiedener Qualitätsaspekte beurteilt. Der Aufwand solcher auditiver Messungen ist allerdings beträchtlich; es besteht daher ein großes Interesse an instrumentellen Messverfahren zur Schätzung oder Vorhersage der Qualität synthetischer Sprache. In einer vorangegangenen Bachelorarbeit (Heimansberg, 2006) wurde erstmalig versucht, unterschiedliche signalbasierte Maße zur Schätzung von TTS-Qualität einzusetzen. Die Ergebnisse, die damit erzielt wurden, waren durchaus beachtlich und mündeten in eine Veröffentlichung (Möller und Heimansberg, 2006), sind aber noch nicht optimal. Dies liegt vor allem daran, dass die verwendeten Maße für gänzlich andere Anwendungsszenarien entwickelt wurden. Es ist daher davon auszugehen, dass es hier noch ein recht großes Optimierungspotential gibt. Ziel der Diplomarbeit: Im Rahmen dieser Diplom- oder Masterarbeit soll ein spezielles signalbasiertes Verfahren für TTS optimiert werden, welches direkt aus dem synthetischen Sprachsignal einen Qualitätsschätzwert ableiten. Dieses Verfahren wurde von der International Telecommunication Union (ITU-T) standardisiert (ITU-T Rec. P.563, 2003), allerdings zur Vorhersage der Qualität von Übertragungskanälen, nicht für TTS. Zur Optimierung stehen verschiedene Datenbanken mit (natürlichen und synthetischen) Sprachdateien und zugehörigen auditiv ermittelten Qualitätsmesswerten zur Verfügung. Daneben ist es möglich, Daten aus einer laufenden internationalen Kampagne zur Bestimmung von TTS-Qualität (sog. Blizzard-Challenge) zur Optimierung oder zur Validierung des Verfahrens heranzuziehen. Abschließend sollen die Ergebnisse der Validierung dokumentiert und u.U. im Rahmen der ITU-T oder auf einer wissenschaftlichen Konferenz veröffentlicht werden. Aufgaben und ungefährer Zeitplan: Einarbeitung in das Thema, Literaturstudium (0.75 Monate) Installation der vorhandenen instrumentellen Schätzverfahren, Formatierung der Datenbasis (0.5 Monate) Anwendung des Verfahrens auf bestehende Datenbanken und Analyse von Schwachstellen (1 Monat) Optimierung des Verfahrens und Re-Test (1.25 Monate) Validierung auf einer unabhängigen Datenbank und Analyse der Ergebnisse (1 Monat) Finale Optimierung (0.5 Monate) Schriftliche Ausarbeitung (1 Monat) Voraussetzungen: Grundkenntnisse der Signalverarbeitung Programmierkenntnisse in C oder C++ Spaß und Interesse an interdisziplinärer Arbeit Ansprechpartner: Sebastian Möller, E-Mail: [email protected]