Die Frauenstimme am Telefon wirkt freundlich: "Bitte sagen Sie eines der folgenden Stichworte: Nachrichten, Sport, Wetter, Aktienkurse." Auf "Aktienkurse" reagiert die Stimme mit der Frage: "Welches Unternehmen?" Die Antwort "Microsoft" entlockt ihr den aktuellen Kursstand und: "Für weitere Informationen über diese Firma sagen Sie bitte 'Nachrichten'."
Solche computergesteuerten Sprachdialog-Systeme sind heute gang und gäbe. Die Bahn setzt sie ebenso ein wie die Deutsche Bank, die Lufthansa oder Behörden für die Bürgerauskunft. Einschränkungen auf bestimmte Bereiche gibt es kaum. Interactive Voice Response (IVR), so der Fachausdruck, lässt sich in nahezu allen Unternehmen für standardisierte Anfragen einsetzen: Produktauskünfte, Statusabfragen bei Bestellungen und Lieferungen, Übermitteln von Nachrichten oder Überweisungen und Buchungen.
Die Gründe dafür liegen auf der Hand. "Mit Sprachapplikationen können Unternehmen einen besseren Service anbieten - bei gleichzeitig geringeren Kosten", sagt Jens Klemann von der Strateco GmbH. Das Bad Homburger Beratungsunternehmen hat eine aktuelle Studie über die Akzeptanz und Verbreitung von Sprachdialogsystemen im Enterprise-Markt erstellt. 80 Prozent der befragten 220 deutschen Unternehmen, die Sprachanwendungen benutzen, erklärten, gute bis sehr gute Erfahrungen gemacht zu haben. Auch die Kunden würden - im Gegensatz zum verbreiteten Klischee - die computergestützten Systeme schätzen.
Wachstum von jährlich über 30 Prozent
Die einschlägigen Marktforschungsinstitute bestätigen den Trend. Die meisten stimmen darin überein, dass Sprachtechnologie ein erhebliches Wachstumspotenzial besitzt. Nach einer Studie von Datamonitor wird der europäische Markt für Sprachsysteme im Jahr 2008 die Marke von einer Milliarde Dollar überwinden. Weltweit beziffern die Analysten den Markt für Voice Business bis 2008 auf 3,1 Milliarden Dollar bei einer jährlichen Wachstumsrate von 30 Prozent.
Laut der Gartner-Technologie-Analyse vom Juli 2004 hat die Spracherkennung für Telefonie und Call-Center den Hype weit hinter sich gelassen und rangiert auf dem "Plateau of Productivity". Zu einem ähnlichen Ergebnis kommt auch Frost & Sullivan: "Die Märkte für Sprachtechnologie und Sprachlösungen kommen aus der Frühphase und treten in die Phase des Masseneinsatzes ein", heißt es im Papier der Analysten.
Für die Zukunft betrachtet Frost & Sullivan die zunehmende Verbreitung von Sprachtechnologie als einen sich selbst verstärkenden Prozess: Immer mehr Nutzer erkennen die Vorteile, wodurch sich wiederum die Nachfrage erhöht. Durch Standardisierung, fallende Preise und die immer leistungsfähiger werdende Sprachsoftware wird diese Entwicklung beschleunigt.
Den Grund für den Aufschwung der Sprachtechnologie sehen Marktbeobachter in deren technischen Reife. Die Software versteht inzwischen Akzente oder Dialekte, ohne vorher trainiert werden zu müssen. Neue Erkennungssysteme erlauben darüber hinaus eine benutzerfreundliche Gestaltung des Sprachdialogs: die Möglichkeit des freien Inputs, Unterbrechungsoptionen ("Barge in"), kontinuierliche Schlüsselworterkennung ("Word Spotting") und Filtermechanismen für Hintergrundgeräusche.
Auch das Erzeugen gesprochener Worte aus Texten, die Sprachsynthese, hat sich positiv entwickelt. Hierfür gibt es zwei unterschiedliche Ansätze:
- Man verwendet gestückelte, im Voraus aufgenommene Audiodateien, die im Live-Betrieb wieder zusammengebaut werden. Und zwar mit verschiedenen Betonungen, sodass der Anrufer es kaum merkt.
- Die Text-to-Speech-Lösungen nehmen ihre Texte aus einer Datenbank und setzen sie synthetisch über gespeicherte Stimmmuster zusammen.
Erkennung gut, Ausgabe roboterhaft
Lars Müller, Sprachexperte am Münchener Fraunhofer-Institut, sieht hier jedoch noch Verbesserungspotenzial: "Die Spracherkennung ist zwar im Allgemeinen gut. Was für die Nutzer aber manchmal noch ärgerlich ist, ist die Sprachsynthese", gibt er zu bedenken. "Zusammengestückelten Audiodateien fehlen oft der Fluss und die Betonung, und die synthetischen Roboterstimmen sind für das Ohr des Menschen nicht deutlich besser geworden."
Zugelegt hat auch die Standardisierung in der Systementwicklung und bei den Dialogbeschreibungssprachen. "Die Entwicklung von Sprachapplikationen ist viel einfacher geworden", sagt Christoph Pfeiffer, Vorstandsvorsitzender des Sprachportalspezialisten Clarity AG. "Es gibt heute schon Komplettangebote, die der Kunde von der Hardware über Software, Datenbanken und Sprachausgabe bis hin zum Dialogmanagement für 500 bis 600 Euro pro Monat bekommt."
Standardisierung eröffnet zusammen mit der Automatisierung der Sprachkommunikation ein hohes Einsparpotenzial für Unternehmen. "Call-Center-Kosten lassen sich in den wenigsten Fällen auf unter 40 Cent pro Minute senken", erklärt Pfeiffer. "Mit automatisierten Sprachdialogsystemen kann man die Kosten hingegen auf unter fünf Cent pro Minute reduzieren."
Entsprechend liegt der ROI für Sprachapplikationen im Bereich von nur wenigen Monaten. Die gemeinsame Forschungseinrichtung der Clarity AG mit der Universität Frankfurt am Main, der Fachhochschule Gießen-Friedberg, der Technologiestiftung Hessen und dem europäischen Branchenverband für Voice Commerce hat eine Untersuchung durchgeführt, derzufolge sich die Investition in eine automatische sprachgesteuerte Vermittlung innerhalb von fünf bis neun Monaten bezahlt macht. Größter Faktor war die Entlastung der Telefonzentrale. Sie kann durch den Einsatz von Sprachtechnologie deutlich reduziert werden.
93 Prozent der Anrufe sind automatisierbar
Dennoch muss man differenzieren. Im Allgemeinen gilt: Je mehr Anrufer und je weniger komplex das Projekt ist, desto schneller rechnet sich die Automatisierung. "Sprachautomation lohnt sich besonders bei 'High Volume Low Value Calls', dann also, wenn es viele Anrufe mit geringem Transaktionswert gibt", sagt Strateco-Berater Klemann. Das ist bei 93 Prozent der Calls in Banken der Fall, denn sie sind automatisierbar, wie eine Clarity-Analyse feststellte. Darunter fallen Anfragen nach Kontostand, Öffnungszeiten, Filialen oder dem Standort von Geldautomaten.
Neben der einfachen Entwicklung und dem hohen Einsparpotenzial sieht Clarity-Vorstand Pfeiffer noch einen dritten entscheidenden Faktor, der für den Einsatz von Voice-Anwendungen spricht: die Verbesserung des Service. "In Deutschland haben wir etwa 30 Sekunden durchschnittliche Wartezeit in Call-Centern, 30 Prozent der Anrufe werden sogar überhaupt nicht angenommen", sagt Pfeiffer. Diese Nachteile erübrigen sich mit Sprachautomatisierung: Der Anrufer wird sofort durchgestellt, verloren gegangene Anrufer gibt es nicht mehr.