Die Technologie ist zwar kein umfassender Ersatz für traditionelle Interaktionsverfahren, aber sie öffnet neue Möglichkeiten, um Computer aus der Ferne zu bedienen oder zu beeinflussen. Ob Knopf, Schalter, Tastatur, Maus und Touchdisplay - der Mensch hat über Jahrzehnte gelernt, Maschinen mit der Kraft seiner Finger zu steuern. Als Drücker, Dreher oder Wischer setzte er Zeichen, nach denen sich die Geräte richten mussten.
Mit der Gestensteuerung bietet sich nun die Gelegenheit, der Mensch-Maschine-Interaktion eine weitere Dimension hinzuzufügen: die berührungsfreie Steuerung aus der Distanz. Gartner bezeichnet sie als "Lean-back Zone". Vergleichbares war auch schon mit der Sprachsteuerung versucht worden, ohne dass allerdings der erhoffte Durchbruch auf breiter Front erreicht wurde.
Rasanter technischer Fortschritt
Durch den rasanten technischen Fortschritt bei Sensoren und Kameras, die besser, kleiner und billiger wurden, lässt sich die Gestenerkennung auch mit Embedded Software umsetzen, die plattform- und kameraunabhängig einsetzbar ist und nur wenig Energie benötigt. Dadurch kann die Technik heute in Mobiltelefonen, Tablets oder Navigationssystemen zum Einsatz kommen.
Die Gestensteuerung teilt sich auf in einen geräte- und einen kamerabasierenden Zweig. "Zwar können mit Mäusen oder Multi-Touch-Panels auch Gesten erkannt werden, dennoch sind bei der Gestensteuerung in erster Linie Bewegungen gemeint, die mit der Hand oder dem Kopf ausgeführt werden", erläutert Christian Knecht vom Institut für Arbeitswissenschaft und Technologiemanagement (IAT) der Universität Stuttgart.
Die ersten Vertreter der gerätebasierenden Gestensteuerung waren Nintendos 3D-Controller "Wii", der in der Hand getragen wird, sowie der Datenhandschuh als Pionier. Dieser erfasst Gesten der Hand und der Finger durch mechanische (Exoskelett), optische (Lichtwellenleiter) oder auch elektrische (Widerstand) Verfahren. Aktuelles Beispiel für den Ansatz ist das Armband "Myo" der Firma Thalmic Labs, das die Kontraktionen von Armmuskeln bei Bewegungen analysieren kann. Alle Daten werden via Bluetooth an Computer oder Geräte gesendet, wo sie Anwendungen von der Drohne bis zum Fernseher steuern. Mitte des Jahres soll das Armband für 150 Dollar auf den Markt kommen.
"Aufgrund der Tatsache, dass ein Gerät immer am Körper getragen werden muss, eignet sich der Ansatz nicht für jedes Einsatzszenario", sagt der Stuttgarter Wissenschaftler Knecht. Daher sind die gerätebasierenden Systeme in eine Nische geraten, während die kamerabasierenden Verfahren wichtiger wurden. Auch hier kam der Durchbruch über eine Spielekonsole, Microsofts "Xbox" mit der Hardware "Kinect", die die Bewegung der Spieler in Signale zur Steuerung des Avatars auf dem Bildschirm umrechnet. Microsoft Research arbeitet an einem ähnlichen System auf Basis von Schallwellen, das den Dopplereffekt nutzt. Mit "Leap Motion" vom gleichnamigen Anbieter gibt es zudem einen Controller für Mac und PC, der Fingergesten zur Steuerung des Rechners erkennt. Erste Hardwarehersteller wie Hewlett-Packard wollen den Kurzstreckensensor in ihre Geräte einbauen.
Dass sich Gestensteuerung im Massenmarkt zumindest als alternatives Eingabeverfahren etabliert, darf als sicher gelten. "Die wesentlichen Gründe für die Entwicklung sind die hohe Intuitivität und Natürlichkeit dieses Bedienkonzepts", sagt Jens Neuhüttler vom Fraunhofer-Institut für Arbeitswirtschaft und Organisation (IAO) in Stuttgart. Zum anderen seien inzwischen funktionsfähige und auch preisgünstige Lösungen am Markt erhältlich, von denen manche über Software-Development-Kits (SDKs) auch für Forscher und Privatpersonen geöffnet werden, um neue Einsatzfelder zu schaffen und Anwendungsbeispiele zu entwickeln. Exemplarisch für den Trend in die Breite sind die Apps "Flutter" (gekauft von Google) und "Eyesight", die beide die On-Board-Kamera von Notebooks nutzen.
Technisch noch nicht am Ziel
"Die bestehenden Systeme weisen gewisse Einschränkungen auf und sind größtenteils für einen engen Anwendungsbereich mit bestimmten Lichtverhältnissen ausgelegt", sagt Knecht. In jedem Fall müssen der menschliche Körper oder Teile davon vom Hintergrund sowie anderen Objekten im Sichtbereich der Kamera getrennt werden. Für diese Segmentierung gibt es hardware- und softwareseitig unterschiedliche Verfahren, die ihre Vor- und Nachteile haben.
Kopferkennung
"Günstige Lösungen wie monokulare 2D-Farbkameras ermitteln Silhouetten von Objekten anhand vorher festgelegter Farbeigenschaften", schildert Knecht. So kann zur Erkennung eines Kopfes ein Regelsatz definiert werden, der unter anderem die RGB-Werte (Rot, Grün, Blau) der Hautfarbe umfasst. Allerdings erschweren "variable Lichtverhältnisse oder Bewegungen im Hintergrund bei dieser Lösung die Segmentierung und demnach auch die Genauigkeit der Erkennung". Eine alternative monokulare Tracking-Methode ist die "Background Subtraction", bei der Objekte im Vordergrund vom Hintergrund "abgezogen" werden. Dabei vergleicht der Rechner aktuelle Aufnahmen mit einem Referenzbild, wobei die Differenz als Objekt interpretiert wird. Angewendet wird das Verfahren zur Verkehrsüberwachung.
Teurere Lösungen wie 3D-Tiefenkameras reagieren empfindlich auf Sonnenlicht und andere IR-Lichtquellen und haben meist eine begrenzte Reichweite. Dadurch, dass es bei ihnen zu jedem Pixel neben dem Farbwert auch noch einen Tiefenwert gibt, wird die Segmentierung hingegen einfacher. Die Verarbeitungsgeschwindigkeit erhöht sich und somit auch die Echtzeitfähigkeit. Knecht: "Zudem ermöglicht der Tiefenwert neue Arten von Gesten wie die Bestätigung einer Funktion durch Bewegung der Hand in Richtung der Kamera."
Abgleich mit erlernten Mustern
Zwei Beispiele für Verfahren, die mit 3D-Tiefenkameras arbeiten, sind Time of Flight (ToF) und Structured Light. Bei ToF-Kameras wird vom Sensor Licht ausgestrahlt, das von den Objekten im Raum reflektiert wird. Für jeden Bildpunkt wird die Zeit gemessen, die das Licht bis zum Objekt und wieder zurück benötigt. Bei dem Structured-Light-Verfahren, mit dem die Spielehardware Kinect arbeitet, wird ein großflächiges Muster aus Infrarotpunkten in den Raum projiziert, und eine Kamera empfängt die reflektierten Infrarotstrahlen. Anhand eines Abgleichs mit vorher gelernten Mustern (Referenz) kann der Tiefenwert bestimmt werden. Für die Hardware besteht bei allen Lösungen noch eine weitere Herausforderung: Sehr schnelle Bewegungen beispielsweise der Finger sind aufgrund der relativ niedrigen Kamerafrequenzen schwer zu erfassen.
Visuelle Gestenerkennung
Auch softwareseitig gibt es bei der visuellen Gestenerkennung unterschiedliche Herangehensweisen. In modellbasierten Methoden wird die Struktur des Körpers oder der Hand über das Kamerabild erfasst und auf ein in der Software hinterlegtes Körpermodell übertragen. Mit Hilfe der Gelenke (englisch Joints) können dynamische Gesten erfasst werden. "Jede gespeicherte Geste besteht aus der Ausgangsposition des Körpers sowie den Winkeländerungen aller Joints bis zum Ende der Gestenbewegung", analysiert Knecht. Aussagen über die Körperhaltung und die damit verbundenen Gesten lassen sich auch noch treffen, wenn im Kamerabild Verdeckungen auftreten.
Bei modellfreien Methoden werden nur einige ausgewählte Eigenschaften der Hand oder des Körpers betrachtet, wie zum Beispiel die Position der Fingerspitzen. Über einen festgelegten Regelsatz schließt der Computer dann unmittelbar auf die ausgeführte Geste. Ein Deskriptor extrahiert Eigenschaften (Features) aus dem Kamerabild, die sich dann klassifizieren lassen. Bei diesem Verfahren müssen Verdeckungssituationen vermieden werden, da eine Gestenerkennung sonst nicht mehr möglich ist. "Außerdem ist diese Lösung sehr rechenintensiv, und die Erstellung der Datenbank zur Klassifizierung ist sehr aufwendig", sagt Knecht.
Die am Markt erhältlichen Technologien erkennen meist nur ausladendere Hand- oder Fingergesten. Knecht geht aber davon aus, dass unter anderem durch höhere Auflösungen viele kleinräumigere Bewegungen und feinere Gesten auch des Gesichts erkannt werden und die Gestensteuerung somit zusätzlich an Bedeutung gewinnt. Und das Potenzial der Gestenerkennung ist immens, denn es ist längst nicht auf Rechner, Smartphones und Fernseher begrenzt. "Prinzipiell ergibt sich das Potenzial einer bestimmten Mensch-Maschine-Interaktionsform immer aus ihrer Möglichkeit, Prozessverbesserungen wie Zeit- und Kostenersparnis zu erlangen oder bestimmte Vorgänge erst zu ermöglichen", sagt Gestenexperte Neuhüttler vom Fraunhofer IAO.
Vorteil Natürlichkeit
So könnten Mitarbeiter in einem Reinraum ihre Bedienpanels ohne physischen Kontakt steuern und Verunreinigungen vermeiden. Notwendige Unterbrechungen durch Betreten und Verlassen des Reinraums und Reinigungsprozesse würden reduziert. Gleiches gilt für den Einsatz in hygienisch sensiblen Bereichen eines Krankenhauses. Hier können die Chirurgen und Krankenschwestern während einer Operation die Krankenakte und medizinische Vorgeschichte des Patienten einsehen, ohne den sterilen Bereich zu verlassen und sich danach wieder desinfizieren zu müssen. Auch bei Fahrkartenautomaten, die von vielen Menschen berührt werden und daher eine hohe Gefahr der Übertragung von Bakterien und Viren mit sich bringen, lässt sich die Gestensteuerung als Alternative einsetzen.
Ein weiterer Vorteil liegt in der Natürlichkeit der Gestensteuerung, die grundlegende Befehle in der Regel leichter erlernbar macht. "Daher eignet sie sich besonders für ältere Menschen mit kognitiven Einschränkungen, für die eine weniger intuitive Bedienform eventuell zu komplex wäre", sagt Neuhüttler. Gleichzeitig könnten ältere Menschen durch die Gestensteuerung motiviert werden, leichte Bewegungsabläufe oder Rehabilitationsübungen auszuführen. Ein industrielles Beispiel für diesen Vorteil ist die Steuerung von Roboterarmen. Ergeben sich Änderungen im Arbeits- und Produktionsablauf, müssen Mitarbeiter den Roboterarm übergangsweise per Joystick bedienen. Könnte der Mitarbeiter jedoch einfach per Hand die Bewegungen des Roboterarms vorgeben, ließe sich die Bedienung stark vereinfachen, argumentiert der Forscher vom Fraunhofer IAO.
Interaktive Videowände ("Digital Signage") im Einzelhandel, vor denen Menschen per Geste neue Kleidungsstücke "anprobieren" können, oder Fahrzeuge, deren Radio mit einer Handbewegung lauter gestellt wird, sind technisch möglich, aber noch längst nicht serienreif. Zudem muss nicht nur die Technik dazulernen, sondern auch der Mensch. Schließlich kann er sich bei jedem Verfahren und in jeder Situation auf neue Gesten einstellen, denn eine standardisierte "Gestensprache" wird es vorerst nicht geben. Der Aufwand ist zwar ärgerlich, aber beileibe kein Manko allein der Gestensteuerung: Kurse zum Zehn-Finger-Schreiben oder zum Tastschreiben gibt es auch heute noch an jeder Volkshochschule, und auch die Gebärdensprache muss mühsam erlernt werden. Wenn der Einstieg jedoch geschafft ist, hat auch die Gestensteuerung das Potenzial, eine intuitive und natürliche Form der Mensch-Maschine-Interaktion zu werden.