Mensch-Maschine-Interaktion

Kleine Geste, große Wirkung

24.04.2014 von Moritz Iversen

Gestensteuerung erobert die Schnittstelle von der Maschine zum Menschen, immer mehr Geräte reagieren auf einen Fingerzeig.

Die Technologie ist zwar kein umfassender Ersatz für traditionelle Interaktionsverfahren, aber sie öffnet neue Möglichkeiten, um Computer aus der Ferne zu bedienen oder zu beeinflussen. Ob Knopf, Schalter, Tastatur, Maus und Touchdisplay - der Mensch hat über Jahrzehnte gelernt, Maschinen mit der Kraft seiner Finger zu steuern. Als Drücker, Dreher oder Wischer setzte er Zeichen, nach denen sich die Geräte richten mussten.

Mit der Gestensteuerung bietet sich nun die Gelegenheit, der Mensch-Maschine-Interaktion eine weitere Dimension hinzuzufügen: die berührungsfreie Steuerung aus der Distanz. Gartner bezeichnet sie als "Lean-back Zone". Vergleichbares war auch schon mit der Sprachsteuerung versucht worden, ohne dass allerdings der erhoffte Durchbruch auf breiter Front erreicht wurde.

Spannende neue Eingabemethoden
Gestensteuerung erobert die Schnittstelle von der Maschine zum Menschen, immer mehr Geräte reagieren auf einen Fingerzeig.

Myo
Das Armband "Myo" der Firma Thalmic analysiert die Kontraktionen von Armmuskeln bei Bewegungen. Alle Daten werden via Bluetooth an Computer oder Geräte gesendet, wo sie Anwendungen von der Drohne bis zum Fernseher steuern. Mitte des Jahres soll das Armband für 150 Dollar auf den Markt kommen.

Leap Motion
Mit "Leap Motion" vom gleichnamigen Anbieter gibt es einen Controller für Mac und PC, der Fingergesten zur Steuerung des Rechners erkennt. Erste Hardwarehersteller wie Hewlett-Packard wollen den Kurzstreckensensor in ihre Geräte einbauen.

Eyesight
Dass sich Gestensteuerung im Massenmarkt zumindest als alternatives Eingabeverfahren etabliert, darf als sicher gelten. ...

Flutter
Exemplarisch für den Trend in die Breite sind die Apps "Flutter" (gekauft von Google) und "Eyesight", die beide die On-Board-Kamera von Notebooks nutzen.

Jollaphone

Startup Myestro

Gesten mit den Augen

Rasanter technischer Fortschritt

Durch den rasanten technischen Fortschritt bei Sensoren und Kameras, die besser, kleiner und billiger wurden, lässt sich die Gestenerkennung auch mit Embedded Software umsetzen, die plattform- und kameraunabhängig einsetzbar ist und nur wenig Energie benötigt. Dadurch kann die Technik heute in Mobiltelefonen, Tablets oder Navigationssystemen zum Einsatz kommen.

Die Gestensteuerung teilt sich auf in einen geräte- und einen kamerabasierenden Zweig. "Zwar können mit Mäusen oder Multi-Touch-Panels auch Gesten erkannt werden, dennoch sind bei der Gestensteuerung in erster Linie Bewegungen gemeint, die mit der Hand oder dem Kopf ausgeführt werden", erläutert Christian Knecht vom Institut für Arbeitswissenschaft und Technologiemanagement (IAT) der Universität Stuttgart.

Die ersten Vertreter der gerätebasierenden Gestensteuerung waren Nintendos 3D-Controller "Wii", der in der Hand getragen wird, sowie der Datenhandschuh als Pionier. Dieser erfasst Gesten der Hand und der Finger durch mechanische (Exoskelett), optische (Lichtwellenleiter) oder auch elektrische (Widerstand) Verfahren. Aktuelles Beispiel für den Ansatz ist das Armband "Myo" der Firma Thalmic Labs, das die Kontraktionen von Armmuskeln bei Bewegungen analysieren kann. Alle Daten werden via Bluetooth an Computer oder Geräte gesendet, wo sie Anwendungen von der Drohne bis zum Fernseher steuern. Mitte des Jahres soll das Armband für 150 Dollar auf den Markt kommen.

"Aufgrund der Tatsache, dass ein Gerät immer am Körper getragen werden muss, eignet sich der Ansatz nicht für jedes Einsatzszenario", sagt der Stuttgarter Wissenschaftler Knecht. Daher sind die gerätebasierenden Systeme in eine Nische geraten, während die kamerabasierenden Verfahren wichtiger wurden. Auch hier kam der Durchbruch über eine Spielekonsole, Microsofts "Xbox" mit der Hardware "Kinect", die die Bewegung der Spieler in Signale zur Steuerung des Avatars auf dem Bildschirm umrechnet. Microsoft Research arbeitet an einem ähnlichen System auf Basis von Schallwellen, das den Dopplereffekt nutzt. Mit "Leap Motion" vom gleichnamigen Anbieter gibt es zudem einen Controller für Mac und PC, der Fingergesten zur Steuerung des Rechners erkennt. Erste Hardwarehersteller wie Hewlett-Packard wollen den Kurzstreckensensor in ihre Geräte einbauen.

Dass sich Gestensteuerung im Massenmarkt zumindest als alternatives Eingabeverfahren etabliert, darf als sicher gelten. "Die wesentlichen Gründe für die Entwicklung sind die hohe Intuitivität und Natürlichkeit dieses Bedienkonzepts", sagt Jens Neuhüttler vom Fraunhofer-Institut für Arbeitswirtschaft und Organisation (IAO) in Stuttgart. Zum anderen seien inzwischen funktionsfähige und auch preisgünstige Lösungen am Markt erhältlich, von denen manche über Software-Development-Kits (SDKs) auch für Forscher und Privatpersonen geöffnet werden, um neue Einsatzfelder zu schaffen und Anwendungsbeispiele zu entwickeln. Exemplarisch für den Trend in die Breite sind die Apps "Flutter" (gekauft von Google) und "Eyesight", die beide die On-Board-Kamera von Notebooks nutzen.

Technisch noch nicht am Ziel

"Die bestehenden Systeme weisen gewisse Einschränkungen auf und sind größtenteils für einen engen Anwendungsbereich mit bestimmten Lichtverhältnissen ausgelegt", sagt Knecht. In jedem Fall müssen der menschliche Körper oder Teile davon vom Hintergrund sowie anderen Objekten im Sichtbereich der Kamera getrennt werden. Für diese Segmentierung gibt es hardware- und softwareseitig unterschiedliche Verfahren, die ihre Vor- und Nachteile haben.

Mensch-Maschine-Interaktion
In der Mensch-Maschine-Interaktion tut sich was. Hier finden Sie einige neue und bemerkenswerte Entwicklungen, die zum Teil schon dem Forschungsstadium entwachsen sind.

Der virtuelle Supermarkt
Tesco Homeplus – Im virtuellen Store der britischen Supermarktkette lässt sich der Einkauf erledigen während man auf die U-Bahn wartet. Lebensgroße Produkte mit dem Smartphone scannen und bestellen. Der Einkauf wird an die Haustür geliefert.

Gesichtserkennung
Die Software SHORE vom Fraunhofer-Institut für Integrierte Schaltungen (IIS) erkennt das Geschlecht und ein ungefähres Alter. Zusätzlich werden Gesichtsausdrücke wie fröhlich, erstaunt, wütend und traurig erkannt.

Intelligente Heizungssteuerung
Die Geo-Location App und das Thermostat vom Münchner Start-up Tado ersetzt das bestehende Heizungsthermostat durch eine intelligente Geodaten-basierende Lösung.

Gestensteuerung
Der Controller von Leap Motion erkennt Hände und Finger. Man kann dadurch steuern, ohne eine Benutzeroberfläche zu berühren.

Gestensteuerung mit dem Unterarm
Das Wearable-Device MYO von Thalmic Labs soll positionsunabhängige Gestensteuerung erlauben. Das System erkennt Kontraktionen der Muskeln und schließt dadurch auf Gesten wie zum Beispiel Fingerschnippen.

Touch der nächsten Dimension
Touche (Disney Research) ermöglicht Touch und Gestenerkennung auf Menschen, Displays, Flüssigkeiten und zahlreichen Alltagsobjekten.

Ganzkörper-Tracking
Ganzkörper-Tracking mit einer Standard-RGB-Kamera (Rot, Grün, Blau). Die Software Extreme Motion errechnet in Echtzeit die Bewegungen.

Gestenerkennung
Die Software SigmaNIL erkennt natürliche User-Interaktionen, stellt sie auf dem Bildschirm dar und ergänzt bei Bedarf um grafische Elemente (hier ein Star-Wars-Schwert).

Digitalisierte Bewegungen
Mit dem V Motion Project werden Musik und Bilder durch Bewegung lebendig. Das Video zeigte einen Tänzer, dessen digitales Abbild auf eine große Fläche projiziert wird.

Augen steuern Mauszeiger
Mit den Augen eine Benutzeroberfläche steuern: Die Soft- und Hardwarelösung Tobii REX trackt die Augen des Users und steuert damit den Mauszeiger. Die Lösung ist unter anderem als Touch-Ersatz gedacht, wenn etwas sehr kleine Bildschirmelementen angesteuert werden sollen.

Radar-Touch
Der Laser erkennt Bewegungen auf großen Screens auch aus großer Entfernung. Ein Radius bis zu 60 Meter ist hier möglich. Das Video zeigt, wie die Bewegungen der Menschen vor dem Screen mit der Darstellung des Schildes auf dem Screen synchronisiert werden.

Neue Spielzeugwelten
Cars 2 AppMATes verbindet die physikalische und digitale Welt. Hier fährt ein Kind mit einem realen Spielzeugauto über eine virtuelle Rennstrecke auf dem iPad.

Holografische Darstellung
Mit einem Heliodisplay sind beliebige Projektionen auf Luft machbar.

Microsoft Kinect in der Medizin
Mit Kinect und via Brain Scans werden 3D Patientendaten auf den Menschen augmentiert. Röntgendaten lassen sich beispielsweise mit dem Bewegtbild eines Kopfes überlagern. Damit ergibt sich ein vermeintlicher in das Innere des Schädels.

Virtual Reality
Durch fremde Welten fliegen: Mit dem System "Oculus Rift Immersive Virtual Reality", einem Headset, wird das zum Kinderspiel.

Projection Mapping im großen Stil
Das Projekt Visual Drugstore Projection Mapping zeigt am Beispiel der Alten Pinakothek in München, wie sich Fassaden mittels Lasertechnik verfremden und gestalten lassen.

Intelligentes Glas
Der Film „Corning – A Day Made of Glass 2“ zeigt visionäre Gedanken über den Alltag der Zukunft mit Glas-Technologien.

Messung von Gehirnströmen
Die Software mico erkennt im Zusammenspiel mit einem Kopfhörer die Stimmung des Nutzers. Dazu integriert der Kopfhörer einen Sensor, der die Gehirnströme messen soll. Je nach Verfassung des Nutzers spielt die Software passende Musik.

Kopferkennung

"Günstige Lösungen wie monokulare 2D-Farbkameras ermitteln Silhouetten von Objekten anhand vorher festgelegter Farbeigenschaften", schildert Knecht. So kann zur Erkennung eines Kopfes ein Regelsatz definiert werden, der unter anderem die RGB-Werte (Rot, Grün, Blau) der Hautfarbe umfasst. Allerdings erschweren "variable Lichtverhältnisse oder Bewegungen im Hintergrund bei dieser Lösung die Segmentierung und demnach auch die Genauigkeit der Erkennung". Eine alternative monokulare Tracking-Methode ist die "Background Subtraction", bei der Objekte im Vordergrund vom Hintergrund "abgezogen" werden. Dabei vergleicht der Rechner aktuelle Aufnahmen mit einem Referenzbild, wobei die Differenz als Objekt interpretiert wird. Angewendet wird das Verfahren zur Verkehrsüberwachung.

Teurere Lösungen wie 3D-Tiefenkameras reagieren empfindlich auf Sonnenlicht und andere IR-Lichtquellen und haben meist eine begrenzte Reichweite. Dadurch, dass es bei ihnen zu jedem Pixel neben dem Farbwert auch noch einen Tiefenwert gibt, wird die Segmentierung hingegen einfacher. Die Verarbeitungsgeschwindigkeit erhöht sich und somit auch die Echtzeitfähigkeit. Knecht: "Zudem ermöglicht der Tiefenwert neue Arten von Gesten wie die Bestätigung einer Funktion durch Bewegung der Hand in Richtung der Kamera."

Abgleich mit erlernten Mustern

Zwei Beispiele für Verfahren, die mit 3D-Tiefenkameras arbeiten, sind Time of Flight (ToF) und Structured Light. Bei ToF-Kameras wird vom Sensor Licht ausgestrahlt, das von den Objekten im Raum reflektiert wird. Für jeden Bildpunkt wird die Zeit gemessen, die das Licht bis zum Objekt und wieder zurück benötigt. Bei dem Structured-Light-Verfahren, mit dem die Spielehardware Kinect arbeitet, wird ein großflächiges Muster aus Infrarotpunkten in den Raum projiziert, und eine Kamera empfängt die reflektierten Infrarotstrahlen. Anhand eines Abgleichs mit vorher gelernten Mustern (Referenz) kann der Tiefenwert bestimmt werden. Für die Hardware besteht bei allen Lösungen noch eine weitere Herausforderung: Sehr schnelle Bewegungen beispielsweise der Finger sind aufgrund der relativ niedrigen Kamerafrequenzen schwer zu erfassen.

Visuelle Gestenerkennung

Auch softwareseitig gibt es bei der visuellen Gestenerkennung unterschiedliche Herangehensweisen. In modellbasierten Methoden wird die Struktur des Körpers oder der Hand über das Kamerabild erfasst und auf ein in der Software hinterlegtes Körpermodell übertragen. Mit Hilfe der Gelenke (englisch Joints) können dynamische Gesten erfasst werden. "Jede gespeicherte Geste besteht aus der Ausgangsposition des Körpers sowie den Winkeländerungen aller Joints bis zum Ende der Gestenbewegung", analysiert Knecht. Aussagen über die Körperhaltung und die damit verbundenen Gesten lassen sich auch noch treffen, wenn im Kamerabild Verdeckungen auftreten.

Bei modellfreien Methoden werden nur einige ausgewählte Eigenschaften der Hand oder des Körpers betrachtet, wie zum Beispiel die Position der Fingerspitzen. Über einen festgelegten Regelsatz schließt der Computer dann unmittelbar auf die ausgeführte Geste. Ein Deskriptor extrahiert Eigenschaften (Features) aus dem Kamerabild, die sich dann klassifizieren lassen. Bei diesem Verfahren müssen Verdeckungssituationen vermieden werden, da eine Gestenerkennung sonst nicht mehr möglich ist. "Außerdem ist diese Lösung sehr rechenintensiv, und die Erstellung der Datenbank zur Klassifizierung ist sehr aufwendig", sagt Knecht.

Die am Markt erhältlichen Technologien erkennen meist nur ausladendere Hand- oder Fingergesten. Knecht geht aber davon aus, dass unter anderem durch höhere Auflösungen viele kleinräumigere Bewegungen und feinere Gesten auch des Gesichts erkannt werden und die Gestensteuerung somit zusätzlich an Bedeutung gewinnt. Und das Potenzial der Gestenerkennung ist immens, denn es ist längst nicht auf Rechner, Smartphones und Fernseher begrenzt. "Prinzipiell ergibt sich das Potenzial einer bestimmten Mensch-Maschine-Interaktionsform immer aus ihrer Möglichkeit, Prozessverbesserungen wie Zeit- und Kostenersparnis zu erlangen oder bestimmte Vorgänge erst zu ermöglichen", sagt Gestenexperte Neuhüttler vom Fraunhofer IAO.

Vorteil Natürlichkeit

So könnten Mitarbeiter in einem Reinraum ihre Bedienpanels ohne physischen Kontakt steuern und Verunreinigungen vermeiden. Notwendige Unterbrechungen durch Betreten und Verlassen des Reinraums und Reinigungsprozesse würden reduziert. Gleiches gilt für den Einsatz in hygienisch sensiblen Bereichen eines Krankenhauses. Hier können die Chirurgen und Krankenschwestern während einer Operation die Krankenakte und medizinische Vorgeschichte des Patienten einsehen, ohne den sterilen Bereich zu verlassen und sich danach wieder desinfizieren zu müssen. Auch bei Fahrkartenautomaten, die von vielen Menschen berührt werden und daher eine hohe Gefahr der Übertragung von Bakterien und Viren mit sich bringen, lässt sich die Gestensteuerung als Alternative einsetzen.

Ein weiterer Vorteil liegt in der Natürlichkeit der Gestensteuerung, die grundlegende Befehle in der Regel leichter erlernbar macht. "Daher eignet sie sich besonders für ältere Menschen mit kognitiven Einschränkungen, für die eine weniger intuitive Bedienform eventuell zu komplex wäre", sagt Neuhüttler. Gleichzeitig könnten ältere Menschen durch die Gestensteuerung motiviert werden, leichte Bewegungsabläufe oder Rehabilitationsübungen auszuführen. Ein industrielles Beispiel für diesen Vorteil ist die Steuerung von Roboterarmen. Ergeben sich Änderungen im Arbeits- und Produktionsablauf, müssen Mitarbeiter den Roboterarm übergangsweise per Joystick bedienen. Könnte der Mitarbeiter jedoch einfach per Hand die Bewegungen des Roboterarms vorgeben, ließe sich die Bedienung stark vereinfachen, argumentiert der Forscher vom Fraunhofer IAO.

Interaktive Videowände ("Digital Signage") im Einzelhandel, vor denen Menschen per Geste neue Kleidungsstücke "anprobieren" können, oder Fahrzeuge, deren Radio mit einer Handbewegung lauter gestellt wird, sind technisch möglich, aber noch längst nicht serienreif. Zudem muss nicht nur die Technik dazulernen, sondern auch der Mensch. Schließlich kann er sich bei jedem Verfahren und in jeder Situation auf neue Gesten einstellen, denn eine standardisierte "Gestensprache" wird es vorerst nicht geben. Der Aufwand ist zwar ärgerlich, aber beileibe kein Manko allein der Gestensteuerung: Kurse zum Zehn-Finger-Schreiben oder zum Tastschreiben gibt es auch heute noch an jeder Volkshochschule, und auch die Gebärdensprache muss mühsam erlernt werden. Wenn der Einstieg jedoch geschafft ist, hat auch die Gestensteuerung das Potenzial, eine intuitive und natürliche Form der Mensch-Maschine-Interaktion zu werden.