Spracherkennung auf Wienerisch

Erster Computer, der Wienerisch spricht

Bei der Kommunikation zwischen Mensch und Computer hapert vor allem wenn es um gesprochene Sprache geht. In einem bisher einzigartigen Projekt haben Forscher nun eine ganz besondere synthetische Stimme hergestellt: Ihr Computer spricht Wiener Dialekt.

Hanno Pöschl - natürlich und synthetisch

Seit März des Jahres 2007 arbeitet eine Forschergruppe um Michael Pucher vom Forschungszentrum Telekommunikation Wien daran, sowohl Pöschl-Wienerisch als auch drei weitere Österreichische Sprachvarianten per Computer herzustellen.

Für die Ö1 Sendung "matrix - computer und neue medien" haben die Forscher erstmals Audioproben des computergenerierten Hanno Pöschl öffentlich zur Verfügung gestellt.

Keine eindeutige Verschriftung und Rechtschreibung

Die Ausgangslage für die Wienerisch-Software ist nicht ganz einfach. Die üblichen Methoden der Sprachsynthese beruhen auf vorhandenen Daten. Genau darin besteht aber das Problem bei Soziolekten und Dialekten: Gleichgültig ob auf Wienerisch oder Tirolerisch - es besteht keine eindeutige Datenlage, d.h. es gibt keine eindeutige Verschriftung und Rechtschreibung der Sprache.

Wie man etwa das Wort "Fetzenschädel" richtig betont oder richtig schreibt, dafür gibt es kein einschlägiges Regelwerk. Um dennoch Daten zu bekommen, haben die Forscher Hanno Pöschl ein paar Wienerisch-Klassiker zum Lesen gegeben: unter anderem "Med ana schwoazn Dintn" und eine Asterix-Ausgabe von HC Artmann.

Aus dem Wienerisch-Vokabular der Texte wird in einigen Schritten eine Datenbank aufgebaut. Diese Datenbank beinhaltet Folgen von Phonemen - also von den kleinsten Einheiten der Sprache.

Datenbank plus Lexikon

Neben dieser Datenbank braucht es für die künstliche Herstellung des Wienerischen auch noch ein entsprechendes Lexikon. Es beinhaltet neben der Rechtschreibung auch noch die phonetische Verschriftung der Worte. Derzeit umfasst das Wienerisch-Lexikon einige Tausend Wörter.

Mit seiner Hilfe lassen sich Regeln ableiten. Diese sogenannten "Letter to Sound Rules" verraten, wie man von der Orthografie zur Phonemfolge kommt. Auch wenn ein Wort nicht im Lexikon steht, weiß der Computer durch diese Regeln, wie man es ausspricht.

Phoneme werden zusammengestoppelt

Und das ist bereits der letzte Schritt vor der eigentlichen Sprachsynthese, erklärt Michael Pucher: "Unsere Methode nennt sich Unit Selection, d.h. man sucht Einheiten, die man dann zusammenstoppelt. Ausgehend von der Orthografie erzeugt man einen Phonemstring und dann sucht man aus der Datenbank jene Sequenz von Phonemen, die am besten zusammenpasst. Und die wird dann einfach zusammengehängt: Das ist die Synthese."

Open-Source für Wiener Bezirksführer

Als Software verwenden die Forscher um Michael Pucher "Festival": ein Open-Source-System, mit dem man synthetische Stimmen bauen kann. Die Forscher haben vor, ihre Stimmen nach Projektende frei zur Verfügung zu stellen.

Damit sollte es in Zukunft leichter sein, auch andere deutschsprachige Dialekte herzustellen - gleichgültig ob Berlinerisch, Tirolerisch oder Wienerisch.

Das Projekt am Forschungszentrum Telekommunikation Wien läuft noch bis zum Frühjahr 2009. Bis dahin soll eine erste Anwendung entwickelt werden: ein Bezirksführer für Wien samt GPS-Lokalisierung, der bezirksspezifische Informationen liefert - und zwar im jeweils passenden Soziolekt.

Hör-Tipp
Matrix, Sonntag, 22. Juni 2008, 22:30 Uhr

Links
Forschungszentrum Telekommunikation Wien
Hanno Pöschl
Software Festival
Wikipedia - Sprachsynthese

Übersicht