Kommando-Systeme

Gute Zuhörer

08.07.2002 von Horst Ellermann
Bei Lekkerland-Tobaccoland testen die Lagerarbeiter Spracherkennung. Ein einfaches Kommando-System versteht ihre Angaben trotz ausländischer Akzente. Das Packen geht schneller, und die Fehlerquote sinkt.

Waldemar Bogoslaw packt mit beiden Händen zu. Der Lagerarbeiter bei Lekkerland-Tobaccoland zieht ein Achterpack Wasserflaschen aus dem Regal und diktiert die Warennummer in sein Headset. Ein Funksender am Gürtel überträgt die Daten per Wireless Local Area Network (WLAN) an die Spracherkennung auf dem zentralen Server. Die Software fragt nach, falls die Nummer nicht verstanden wurde, speist die Daten in die Lagerverwaltung PMS von Agiplan ein und spricht die nächste Packanweisung aus. Bogoslaw lobt die Kooperation: "Sie brauchen kein Papier und keinen Kugelschreiber mehr in der Hand zu halten."

Mehr Spaß an der Arbeit hat auch Andreas Jiménez, Geschäftsleiter der Niederlassung Frechen, in der Bogoslaw und 30 Kollegen Pick by Voice testen. Er misst seit zwei Monaten die Produktivität im Pilotprojekt und kann jetzt die ersten Erfolge vorweisen. Bei vier Prozent mehr Leistung lägen die Lagerarbeiter inzwischen. "Ich rechne damit, dass wir zehn Prozent erreichen", erklärt Jiménez. Eine Mitarbeiterin liege sogar schon bei 17 Prozent.

Stabile Anwendungen im Alltag

Kommando-Systeme, wie sie hier im Einsatz sind, steuern an anderer Stelle Fahrstühle und Getränkeautomaten; sie helfen bei der Navigation in der S-Klasse oder in PDAs von Compaq und führen zum richtigen Zug, Flugzeug oder Kinofilm. Die wortkargen Anwendungen laufen im Alltag so stabil, dass sie Wissenschaftler kaum noch interessieren. Robert Porzel, Computerlinguist am European Media Laboratory in Heidelberg, unterscheidet zwischen Dialog-, Diktier- und Kommando-Systemen. "Letztere haben mit Sprachverstehen wenig zu tun", sagt Porzel. "Da müssen einfach nur Wörter erkannt werden."

Dasselbe gilt auch für Diktiersysteme, von denen das menschliche Gegenüber keine Reaktion, sondern nur eine saubere Mitschrift erwartet. René Werth aus der Abteilung Spracherkennung bei IBM sagt, dass vor allem Rechtsanwälte und Mediziner diese Lösungen nutzten. Er will im vergangenen Jahr aber auch bei Bankern einen Trend erkannt haben, Diktiersysteme wie Via Voice von IBM einzusetzen, für das es mittlerweile mehr als 70 Fachvokabulare gibt. Diese Zahl zeigt, dass weiterhin Fortschritte in der Spracherkennung gemacht werden. Allerdings sind sie kleiner als noch in den 90er-Jahren. Linguist Porzel ist überzeugt, dass sich die Fehlerquote bei den Computerdiktaten bestenfalls um 0,4 Prozent jährlich senken lasse. 100-prozentige Korrektheit sei mit derzeitigen Mitteln nicht zu erreichen. Größere Fortschritte gebe es dagegen bei mobilen Dialogsystemen: "Die Übertragung über GSM oder Voice over IP zeigt, wie robust die Systeme mittlerweile sind", sagt Porzel.

Akzeptanzprobleme zu Beginn

Genau daran zweifelte Niederlassungsleiter Jiménez, als die Produktivität kurz nach Einführung von Pick by Voice einbrach. Eine Stunde lang musste jeder Lagerarbeiter mit dem System plaudern, bevor es die Zahlen Null bis Neun und rund zehn Schlüsselwörter verstanden hatte; Hersteller Topsystem setzt eine Trainingszeit von 15 bis 30 Minuten voraus. Zudem gab es Akzeptanzprobleme. So legt Pick by Voice fest, dass etwa die Cola-Flaschen vor dem Mineralwasser auf den Hubwagen gestapelt werden; früher konnten die Arbeiter darüber selbst bestimmen.

Zwei Wochen nach Einführung des Systems lag die Produktivität bei nur 97 Prozent der Zettel-und-Bleistift-Lösung. Lagerarbeiter Bogoslaw berichtet, dass er damals rund drei- bis fünfmal am Tag Zahlen wiederholen musste. Das ist heute anders, denn das System hat von selbst gelernt. Nachhilfe hatte Pick by Voice auch beim Funken nötigt. "Nasse Waren dämpfen die Strahlung", erklärt Dietmar Bothe von Topsystem die Empfangsprobleme im WLAN. Besonders bei den Lagerplätzen der so genannten Schnelldreher, den Produkten, die nicht lange liegen, stockte der Funkverkehr, weil zu viele Mitarbeiter ihre Daten gleichzeitig an Empfänger in der Nähe geschickt haben. "Das haben wir unterschätzt", gibt Jiménez zu. Mit zusätzlichen Access Points konnten die Netzwerk-techniker das Funkloch schließen.

Technologie nicht aufzuhalten

Dennoch schlägt der Spott über Misserfolge immer erst den Spracherkennern entgegen - die enttäuschten Erwartungen aus dem Medien-Hype der 90er-Jahre wirken nach. Die Anbieter wehren sich: Sie haben auf der diesjährigen Cebit den Branchenverband Voice Applications Standards Committee e.V. - kurz: Vascom - gegründet. "Vascom soll deutlich machen, wie selbstverständlich Sprachportale heute schon sind", sagt der Vorsitzende, Christoph Pfeiffer. Bis zu 20000 Wörter könnten Dialogsysteme unabhängig vom Sprecher erkennen; gerade im Mobilbereich ließe sich die Technik kaum noch aufhalten. Die Prognosen von Forrester, Meta Group und IDC geben Pfeiffer Recht: Für die nächsten drei Jahre sollen Sprachtechnologien zweistellige Wachstumsraten erreichen - die verstehenden ebenso wie die sprechenden Systeme.

Vascom soll außerdem der Standardisierung dienen. Auf der Internet-World in Berlin haben die Mitglieder - darunter IBM, Lufthansa Systems, Philips, Samsung und zahlreiche kleinere Spracherkenner - erstmals über die Vereinheitlichung der Dialogsysteme nachgedacht. Davon würden in erster Linie die Kunden von Callcentern profitieren, die sich heute mit dummen Maschinen unterhalten müssen. Mit stets gleichen Befehlen wie "weiter" oder "zurück" könnten sie sich einheitlich durch die Menüs navigieren oder einen menschlichen Mitarbeiter anfordern. Bislang gibt es unterschiedliche Menüführungen und Befehle. Kunden wie Lekkerland-Tobaccoland bestimmen die Kommissionieranleitung und somit ihre zehn Kommandos selbst.

Jiménez geht davon aus, dass sich die Mühe mit Pick by Voice gelohnt hat und sich die Anschaffungskosten bald amortisieren. Lekkerland-Geschäftsführer Ludwig Zeus prognostiziert: "In knapp über zwei Jahren wird sich das Ganze für uns rechnen." Ausgegeben hat Zeus bisher eine überschaubare Summe. Mit 3000 bis 4000 Euro gibt der Hersteller den Preis für ein Gerät inklusive Sprachlizenz an. Hinzu kommen die Access Points für das WLAN und zentrale Server, die jeweils 15 bis 20 Sprach-erkenner bedienen. Die Absehbarkeit des Return on Investment begründet Zeus unter anderem durch einen Qualitätszuwachs bei den Packarbeiten: "Wir haben die Fehlerquote beim Kommissionieren halbiert."

Sollten die Gespräche mit dem Betriebsrat positiv verlaufen und die weiteren Ergebnisse der Testphase die Erwartungen bestätigen, so plant Zeus, noch in diesem Jahr drei weitere Geschäftsstellen mit Pick by Voice auszustatten. Bislang habe man sich nur auf eine vorläufige Vereinbarung geeinigt, bei der die Lagerarbeiter den Durchschnitt ihrer letzten zwölf Monatsprämien als Leistungskomponente zugesichert bekamen. Zeus ist jedoch zuversichtlich, sich mit den Arbeitnehmervertretern auch über einen Rollout einigen zu können: "Die Mitarbeiter haben dem System die Note zwei gegeben." Lediglich eine Kollegin habe geäußert, dass sie lieber herkömmlich weiterpacken wolle.