Innovationen

Sprachsteuerung: Alles hört auf mein Kommando

Sprachsteuerung Alles hoert mein (c) REUTERS (MARK BLINCH)

20.10.2016 um 16:16

Drucken

Der Hype um Apples iPhone-Assistenten Siri belebt eine alte Technologie: die Sprachsteuerung, die heuer auch Einzug in das Wohnzimmer hält. Bald wird man dem DVD-Rekorder nur noch sagen müssen, was er aufnehmen soll.

Als der Computer anfängt, die Menschen zu verstehen, beginnen die Probleme. In Arthur C. Clarkes (*zur Erklärung der Kursivtexte siehe unten stehenden Bericht) „2001: Odyssee im Weltraum“ unterhält sich HAL recht angeregt mit den Menschen, bis die irgendwann das Falsche sagen, und der Computer beschließt, die Besatzung des Raumschiffes zu töten. Er kann erst gestoppt werden, als man ihm den Strom abdreht.

Die Programmierer des iPhone 4S haben Humor bewiesen: Fragt man das Handy mit seiner neuartigen Spracherkennung nach HAL, antwortet die Software betrübt: „Jeder weiß, was mit HAL passiert ist. Ich möchte lieber nicht darüber sprechen.“

Das Bestreben, Siri – so heißt die Spracherkennung des iPhone – abzuschalten, hat derzeit aber ohnehin niemand. Ganz im Gegenteil. Seit das Handy Ende vergangenen Jahres auf den Markt kam, ist das Internet voll von Dialogen mit der Software und deren mehr oder weniger lustigen Antworten. Etwa auf einen Heiratsantrag („In meinem Endnutzerlizenzvertrag steht nichts über Ehe“), die Frage nach dem Sinn des Lebens („42“, nach dem Buch „Per Anhalter durch die Galaxis“) oder eine Liebeserklärung („Ich liebe dich“ – „Ich wette, das sagst du zu all deinen Apple-Produkten).

Alte Technik, neuer Hype. Spracherkennungssoftware gibt es seit 40Jahren, aber erst Apple hat es geschafft, den Massenmarkt dafür zu begeistern. Siri ist eine Kombination aus Spracherkennung und einem gut programmierten Suchprogramm, das künstliche Intelligenz nützt, um die Wünsche des Sprechers zu erkennen. Der Hype, den Siri ausgelöst hat, wird sich bald in vielen neuen Produkten niederschlagen. „Sprachgesteuertes TV; DVD-Rekorder, denen man sagt, was sie im Fernsehen aufnehmen sollen; MP3-Spieler, durch die man sich nicht mehr klicken muss, sondern die das spielen, was man ihnen sagt; eine Heizung, die auf Befehl die Temperatur ändert; ein Herd, der sich sprachgesteuert bedienen lässt.“

All das wird man heuer noch nicht sehen – „aber einiges“, verrät Reimund Schmald von der Firma Nuance Communications, dem weltweit führenden Anbieter von Sprachsoftware. Ende vergangener Woche stellte Nuance „Dragon TV“ vor, das erlaubt, TV-Geräte oder Set-Top-Boxen durch Sprache zu bedienen („Schalte um auf ARD“; „Was läuft heute um neun auf ORF“; „Suche Filme mit Götz George“). Auch das neue Apple-TV soll auf Sprache reagieren. Was sonst noch kommt, will Schmald nicht sagen, um die Konkurrenz nicht aufmerksam zu machen. Nur so viel: „Unsere Programmierer konzentrieren sich seit acht Monaten auf die Spracherkennung im Wohnbereich. Das sehen wir als wichtigsten Wachstumsmarkt.“

Maschinen, die aufs Wort folgen, verspricht man zwar seit vielen Jahren. Diesmal aber dürfte es tatsächlich so weit sein. „Natürliche Sprache wird Teil jeder Anwendung“, verkündete Microsoft-Chef Steve Ballmer Ende vergangenen Jahres, als er eine Xbox-Spielkonsole vorstellte, die sich per Sprache steuern lässt. Das Softwareunternehmen hat erst kürzlich einen Konkurrenten von Nuance übernommen und investiert Millionen in die Technik. Ebenso wie Google, das schon vor Apple Spracherkennung auf seinen Android-Handys anbot, Apple und selbst der Onlinehändler Amazon.

In vielen Nischenbereichen wird Spracherkennung längst erfolgreich eingesetzt. In Arztpraxen etwa: In den Niederlanden verwenden 80Prozent der Röntgenärzte eine Spracherkennungssoftware, um ihre Befunde zu diktieren. Auch in Rechtsanwaltskanzleien gehört Software, die Sprache in Text umsetzt, zur Grundausstattung. Der ORF setzt seit eineinhalb Jahren Spracherkennungssoftware ein, um Untertitel zu Parlamentssendungen oder Sportübertragungen für hörbehinderte Menschen zu machen (ein Re-Speaker, auf den das System programmiert ist, wiederholt dabei simultan das Gesprochene).

Dass sich die Programme auf dem Massenmarkt nie durchgesetzt haben, hat damit zu tun, „dass sie unausgereift waren und die Menschen von den Ergebnissen der Spracherkennung frustriert waren“, sagt Gernot Kubin, Leiter des Instituts für Signalverarbeitung und Sprachkommunikation an der TU Graz. Mittlerweile aber sind die Programme und vor allem die Rechenleistung der Prozessoren besser geworden. Genügt die nicht, etwa beim Handy, werden die Daten wie beim iPhone über das Internet an einen leistungsstarken Rechner geschickt und dort verarbeitet.

Geschichte ist auch das langwierige Trainieren der Software, damit sie die Sprache der jeweiligen Person erkennt. Neue Programme lassen sich nach wenigen Minuten verwenden, teilweise funktionieren sie sogar sprecherunabhängig, wie die Systeme der Wiener Firma Sail Labs Technology.

Spracherkennung gegen Pandemie. Das Unternehmen ist führend bei Softwarelösungen für die Medienbeobachtung. Der Media Mining Indexer transkribiert Fernsehsendungen in 15 Sprachen, die Sendungen lassen sich anschließend nach Stichworten durchsuchen. Gibt man beispielsweise „Merkel“ und „Euro“ ein, erhält man je nach Suchvorgabe alle Videos, in denen entweder die deutsche Bundeskanzlerin über den Euro spricht oder Sendungen, in denen die beiden Worte verwendet wurden .

Die Software wird unter anderem von Pandemie-Krisenzentren eingesetzt, die so weltweit die TV-Nachrichten nach Berichten über bestimmte Krankheiten durchsuchen können. Dass Geheimdienste die Software von Sail Labs einsetzen, um abgehörte Telefonate nach bestimmten Schlagworten zu durchsuchen, dementiert Vorstand Christoph Prinz. Aber: „US-Firmen haben ähnliche Systeme im Einsatz, und was die können, das lässt sich nur ahnen.“

Eine 100-prozentige Trefferrate erreichen diese sprecherunabhängigen Programme nicht. Für den Massenmarkt sind aber ohnehin andere Anwendungen interessanter, die nur wenige Worte erkennen müssen. „Ein Drittel unseres Umsatzes kommt von Programmen, die im Auto oder auf dem Handy eingesetzt werden“, berichtet Schmald. Ford bietet beispielsweise ein Feature an, mit dem sich das Navi, das Mobiltelefon, die Klimaanlage sowie Audio- und Unterhaltungsfunktionen im Auto durch Sprache steuern lassen.

Wohin das alles führen wird, ist für Kubin klar: „Die Zukunft sind intelligente Heime für alte oder behinderte Menschen.“ In ein paar Jahren werde man die gesamte Infrastruktur einer Wohnung oder eines Hauses mit gesprochenen Befehlen steuern können.

In der Steiermark setzt das in Teilen bereits ein kleiner Verein namens Simon listens (in Anlehnung an das Kinderspiel Simon says) um: Er bietet eine Sprachsteuerung (Simon), mit deren Hilfe körperlich beeinträchtigte Menschenfernsehen, im Internet surfen,Zeitunglesen, via Skype telefonieren oder auch Videos und Fotos anschauen können.

Hilfe für Behinderte. „Der Anstoß für „Simon“ war meine Arbeit als Sprachtherapeut mit spastisch gelähmten Kindern“, erzählt Projektleiter Franz Stieger. Diese Kinder können aufgrund ihrer Behinderung Geräte nur bedingt bedienen. Mithilfe der HTBLA Kaindorf und Kubins Institut programmierte der Verein Sprachsoftware so um, dass die Kinder den Computer steuern und mit ihm Anwendungen nutzen können. „Wir kommen mit wenigen Befehlen aus, dafür benötigt man auch keine große Rechenleistung.“ Simon läuft bereits auf einem PC mit Windows XP. In Kombination mit Apples Siri könnten sich „einmalige Möglichkeiten“ für bewegungseingeschränkte Menschen ergeben, meint Stieger.

Das hat auch Nuance erkannt. Dort arbeitet man intensiv an intelligenten Assistenten, die wie Siri sprachgesteuert nach Lösungen suchen. Doch statt nach dem Wetter von morgen zu fragen, sollen beispielsweise Ärzte Symptome in den Computer sprechen, der dann blitzschnell in verschiedenen, aktuellen Datenbanken nach möglichen Diagnosen sucht.

Eine große Herausforderung für die Systeme bleiben die unterschiedlichen Dialekte der Sprecher. Der Computer sollte einen Tiroler ebenso erkennen wie einen Wiener oder einen Kärntner. Wie schwierig das ist, erfuhr Nuance, als es eine Spracherkennung für Fahrplanabfragen in Nürnberg einrichtete: Die Erkennungsrate war katastrophal. Also brachte man dem System Fränkisch bei. Aus „Nämbärch“ wird „Nürnberg“, aus „ercherdwos“ „irgendwas“, aus „Dooch“ „Tag“. Jetzt muss man allerdings etwas Fränkisch können, wenn man in Nürnberg nach dem nächsten Zug fragen will.

Wie der obige Artikel zustande kam:
Wer noch vor zehn Jahren versuchte, mittels Software Sprache in Text umzusetzen, musste entweder eine sehr, sehr hohe Frustrationsgrenze haben – oder ein wirklich miserabler Maschinschreiber sein. Man musste die Programme erst lange auf den Sprecher trainieren und nach jedem gesprochenen Wort eine kurze Pause machen. Die Erkennungsraten waren trotzdem katastrophal schlecht.

Mittlerweile haben die Spracherkennungsprogramme einen Quantensprung gemacht. Der Bericht „Alles hört auf mein Kommando“ wurde in die Nuance-Software „Dragon Naturally Speaking“ in der Version 11.5 (Premium) diktiert. Das Programm kostet ab 110Euro, eine „Home“-Version gibt es für 75Euro.

Zur Grundeinstellung genügt es, einen Text von wenigen Minuten vorzulesen. Später „lernt“ die Software durch die Korrekturen falsch erkannter Wörter. Voraussetzung für eine hohe Erkennungsrate ist ein gutes Mikrofon und die Ausschaltung von Nebengeräuschen. Spielende Kinder bringen die Software beispielsweise durcheinander.

Der Bericht wurde flüssig diktiert, allerdings wurde nach jedem Satz auf die fertige Transkription gewartet. Die Worte, die die Software falsch erkannt hat, sind im Text kursiv gestellt. Teilweise sind es Eigennamen (aus „Kubin“ machte das Programm „Rubin“), teilweise wurden zwei Worte als eines verstanden („bei einem“ wurde zu „deinem“), teilweise war es das falsche von ähnlich klingenden Wörtern („aufmerksam“ wurde als „aufwachsen“ erkannt).

("Die Presse", Print-Ausgabe, 15.01.2012)

Lesen Sie mehr zu diesen Themen: