Trendthema Sprachsteuerung

Warum Siri und Co. die Zukunft gehört

21.06.2013
Von Tobias Wendehost

Zwei Arten für die Realisierung

Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist "Voice Remote Control". Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung "Licht an" diktieren.

Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe ServerServer haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem. Alles zu Server auf CIO.de

Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert - zum Beispiel "Navigieren nach München, AllianzAllianz Arena" oder "System XY, Licht anschalten". Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden. Top-500-Firmenprofil für Allianz

Cloud-basierte Systeme

Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.

Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: "Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später." Der ODP-Server erkennt das Wort "E-Mail" und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.

Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.

Zur Startseite