Computern das Sprechen lehren

Wiener Künstliche-Intelligenz-Forscher verbessern die Fähigkeit von Computern, gesprochene Sätze zu erkennen und Texte richtig auszusprechen, denn heutige Systeme zur Spracherkennung sind nicht gerade perfekt.

(c) Bilderbox

Computer sind ungeheuer leistungsfähig. Doch bei manchen Dingen tun sie sich schwer. Und zwar viel schwerer als wir Menschen. Zum Beispiel beim Sprechen und beim Verstehen von gesprochenen Sätzen. „Das Schwierige dabei ist die enorme Mehrdeutigkeit von Sprache“, sagt Harald Trost, Informatiker an der Medizin-Uni Wien und Leiter der Sprachtechnologiegruppe am Forschungsinstitut für Artificial Intelligence (ÖFAI).

Dennoch lockt die Sache: Mit dem Computer so zu kommunizieren wie man es mit Menschen tut – und nicht umständlich über Tastatur und Maus – ist eine interessante Vision. Und es gibt jetzt schon Anwendungen, wo Computersprache dringend benötigt wird: einerseits z.B. bei Navigationssystemen, die einem voll ausgelasteten Lenker per Sprache Informationen geben, andererseits bei Diktaten, wie sie etwa in der Juristerei oder der Medizin Tagesgeschäft sind. Heutige Systeme zur Spracherkennung sind alles andere als perfekt. Allerdings sind schon Trefferquoten von 80 oder 90 Prozent in der Praxis eine große Erleichterung. Trost: „Das zu verbessern ist langfristige Knochenarbeit.“


Maschinell verarbeitbar machen.
„Man muss Sprache so beschreiben, dass sie maschinell verarbeitet werden kann“, erläutert der Forscher. Und das ist ein weiter Weg, der erst durch leistungsfähige Computer möglich wurde. Aus den aufgenommenen Schallwellen muss in einem ersten Schritt herausgefunden werden, um welche Laute es sich handeln könnte. Dann versucht das System, diese Informationen mit Nachbarlauten – die ebenfalls hypothetisch sind – zu sinnvollen Silben oder Wörtern zusammenzubauen. Und da die Spracherkenner während des Trainings gelernt haben, welche Wörter häufig aufeinanderfolgen, werden aus diesen Bausteinen schließlich ganze Sätze zusammengesetzt.

In allen Schritten spielt die enorme Komplexität von Sprache eine Rolle. Laute werden von verschiedenen Sprechern – vor allem in Dialekten – sehr unterschiedlich ausgesprochen. Am Acoustics Research Institute (ARI) der Akademie der Wissenschaften (ÖAW) – einem langjährigen Kooperationspartner Trosts – wurden z. B. in einem eigenen Forschungsprojekt die Laute „e“ und „i“ in der Wiener Umgangssprache im Detail studiert. Probleme machen auch grammatikalische Abwandlungen der Wörter, und vieles hängt bei der Spracherkennung vom Kontext der gesprochenen Sätze ab.

„Die Spracherkenner konstruieren einen Baum von Möglichkeiten und wählen die aus ihrer Lernerfahrung beste aus“, so Trost. Das muss aber nicht automatisch die richtige Möglichkeit sein, denn das System hat z.B. nicht das Wissen von Fachleuten. So stellte sich etwa bei einer Untersuchung von 123 medizinischen Diktaten heraus, dass ein Drittel der Namen von Pharmazeutika oder deren Dosierungen falsch erkannt wurden. Die Forscher haben daraufhin eine Datenbank von Medikamentennamen der Spracherkennung nachgeschaltet, mit diesem Expertenwissen wurde in den „Baum von Möglichkeiten“ eingegriffen – und in immerhin einem Viertel der Fälle wurden die richtigen Worte gefunden.


Drei virtuelle Wiener.
An einer anderen Front ist den Sprachforschern um Trost vor einigen Jahren eine publicityträchtige Innovation geglückt: Sie haben drei künstliche Stimmen konstruiert, die Wiener Dialekt sprechen. Konkret: Ein in Hochdeutsch geschriebener Text kann vom Computer in klassischem Wienerisch, in Schönbrunner Deutsch oder in Wiener Jugendsprache vorgelesen werden.

Mittel für die Weiterentwicklung dieses „virtuellen Wieners“ hat Trost nun beim WWTF-Call „ICT 2010“ bekommen – als eines von zehn prämierten Projekten. In den nächsten drei Jahren soll die Entwicklung von neuen Stimmen stärker automatisiert werden, zum anderen sollen die Methoden auch für andere Sprachen mit wenigen Sprechern – etwa für italienische Dialekte – nutzbar gemacht werden.

Das Hauptproblem dabei ist, dass es für „kleinere“ Sprachen bzw. Dialekte im Gegensatz zu den Hochsprachen keine großen „Corpora“ (Datenbanken mit Texten) gibt, die zum Trainieren der Spracherkennungssysteme notwendig sind. Die erwarteten neuen Erkenntnisse und Methoden sollen zum einen der besseren Sprachsynthese dienen. Zum anderen ergeben sich aber auch Verbesserungen beim Trainieren von Erkennern. Womit sich der Kreis wieder schließt.

("Die Presse", Print-Ausgabe, 28.11.2010)

Kommentar zu Artikel:

Computern das Sprechen lehren

Sie sind zur Zeit nicht angemeldet.
Um auf DiePresse.com kommentieren zu können, müssen Sie sich anmelden ›.

Meistgelesen