Für die erste Gestensteuerung mit Kinect 1 von Microsoft

MYESTRO Interactive GmbH, Haid-und-Neu-Straße 7, D-76131 Karlsruhe
31.10.2015
+49 (0) 721 2048 2823
+49 (0) 721 2048 2832
[email protected]
www.myestro.com
Ansprechpartner:
Jens Schick
Tel:
Fax:
Gestensteuerung – eine Übersicht
Inhalt
1
Gesten ................................................................................................................................................... 2
1.1
Bedienung von Geräten ................................................................................................................ 2
1.1.1
Haptische Werkzeuge (Tools) ............................................................................................... 2
1.1.2
Berührungslose Systeme....................................................................................................... 3
1.2
Steuerung über Geste – der Bewegung eines menschlichen Körperteils ..................................... 4
1.2.1
Entdecken durch Bewegung ................................................................................................. 4
1.2.2
Missverständnis Pose ............................................................................................................ 4
1.2.3
Gesten im Alltag .................................................................................................................... 5
1.3
Sensoren ....................................................................................................................................... 5
1.3.1
Passiver E-Feld Sensor........................................................................................................... 5
1.3.2
Passive Mono-Kamera .......................................................................................................... 6
1.3.3
Aktive Tiefensensoren........................................................................................................... 6
1.3.4
Passive Tiefensensoren mit integrierter Bewegungsmessung ............................................. 8
1.3.5
Reine Bewegungssensoren ................................................................................................... 8
1.4
Rückmeldung mit und ohne Monitor............................................................................................ 9
1.4.1
Monitordarstellung mit Hand-Finger-Rekonstruktion .......................................................... 9
1.4.2
Monitordarstellung mit Avatar-Hand ................................................................................. 10
1.4.3
Browser basierte Ansteuerung für Point-of-Sale (POS) Systeme ....................................... 12
1.4.4
Rückmeldung für Industrie und Automotive ...................................................................... 12
1.4.5
Rückmeldung ohne Monitor mit Gesten-Sensor ................................................................ 12
Document1
1/13
MYESTRO
1 Gesten
Die berührungslose Bedienung von Geräten ist komfortabler (Fernsteuerung), hygienischer
(Touchscreen) und behindertenfreundlicher (Augenbewegung). In diesem Kapitel soll gezeigt werden,
wie die berührungslose Bedienung von Geräten durch Gesten einzuordnen und welche Art von Sensoren
notwendig ist. Dabei wird festgestellt, dass die Gestensteuerung keine ausschließliche, aber trotzdem
unverzichtbare Lösung der Aufgabe zur Bedienung von Geräten ist. Die Kosten der notwendigen
Hardware für die komplexe Steuerung über Gesten bleiben dabei strukturell niedrig.
1.1 Bedienung von Geräten
Die Entwicklung von technischen Geräten ist von Anfang an verbunden mit der Bedienung durch die
Menschen. Wegen fehlender Elektronik musste die Bedienung mechanisch bleiben. Aber mechanische
Fernsteuerungen sind durchaus bekannt. Hochhängende Wasserbehälter nutzen die potentielle Energie
um mit Schwung die Toilette zu spülen. Der Wasserstrom aus diesen Wasserbehältern wurde über einen
Griff an einer Kette durch Zug ausgelöst. Diese Herleitung der Bedienung von Geräten wird mit der
Verfügbarkeit der elektrischen Energie begonnen.
1.1.1 Haptische Werkzeuge (Tools)
Schalter: Die früheste Form der Bedienung von elektrischen Geräten ist der Schalter. Über einen Hebel
wird ein elektrischer Kontakt hergestellt, so dass der Strom über eine unter Umständen lange Leitung zu
dem Gerät gestartet wird um eine Funktion ferngesteuert auszuführen. Laternen mussten noch in der
Lampe entzündet werden, jetzt reicht ein Schalter für unzählige Lampen. Die Schalter wurden verfeinert
und dienten lange in den Mobiletelefonen als alleinige Form der Bedienung.
Touchscreen: Die Bedienung von Monitoren stellte die Notwendig von Tasten (Schaltern) infrage. Es ist
in der Regel kein Tisch vor dem Monitor, auf den die Tastatur gelegt werden kann. Außerdem werden
externe Fernsteuerungen wegen Vandalismus vermieden. Integrierte Tastenfelder kommen nach wie
vor häufig vor, sie sind aber empfindlich und der Bezug zu dem Inhalt auf dem Monitor ist nur indirekt
herstellbar. Der Touchscreen erlaubt die Bedienung direkt oberhalb des Inhaltes, so dass der Bezug
unmittelbar hergestellt ist. Durch die Dicke des Touchscreens ist der berührende Finger aber leicht
oberhalb des zu bedienenden Objektes, so dass der kleine Parallaxeneffekt bereits ausreicht leicht
neben das Objekt zu tasten.
Smartphones: Mit Einführung des Smartphones wurde die Anzahl der Schalter deutlich reduziert.
Anfangs wurden weiter Schalter als Tastenfeld als notwendig erachtet (Blackberry), durch die
verbesserte Qualität der Touchscreens und entsprechender Software wurden die in Mobiltelefonen
integrierten Tastenfelder weitestgehend verdrängt. Durch die Arbeit von Steve Jobs wurde die Software
so verfeinert, so dass die Graphik auf den Touchscreens quasi physikalische Wirkung entfaltet
(Schwungeffekt) und somit für den Anwender immer komfortabler wurde.
Ein Vorteil aller haptischen Eingabegeräte ist die direkte Kontaktaufnahme des Anwenders mit dem
Gerät. Die Aufmerksamkeit des Gerätes wird dabei bereits mit dem Schalten hergestellt.
Document1
2/13
MYESTRO
1.1.2 Berührungslose Systeme
Die berührungslose Bedienung hat den Vorteil, dass der Anwender das Gerät nicht kontaktieren muss.
Er kann es über größere Entfernungen bedienen, selbst wenn er keine Finger frei zur Verfügung hat, sei
es, weil er etwas in der Hand hat oder behindert ist. Allerdings muss er die Aufmerksamkeit des Gerätes
erlangen, bevor er eine Nachricht übermitteln kann. In [Kristian Kroschel, Statistische
Nachrichtentheorie, Springer-Verlag, ISBN-13: 978-3-540-17153-9] unter Aufgaben der statistischen
Nachrichtentheorie werden zwei Phasen identifiziert:
Phase 1: Detektion (Signalerkennung)
Phase 2: Estimation (Signal-, Parameterschätzung)
Natürlich können Nachrichten ständig wiederholt werden bis das Gerät dieses Signal detektiert und,
über eine statistische Auswertung der wiederholt übertragenen Signale, den Inhalt identifiziert. Ein
Mensch wird sicherlich nicht die Geduld aufbringen solange das Signal auszusenden bis das Gerät es
erkennt und diese Erkenntnis zurückspiegelt.
Deswegen ist es vorteilhaft das Detektionssignal von dem Inhaltssignal getrennt zu senden. Das
Detektionssignal sollte dabei so kurz und einfach sein, dass eine sichere Auswahl des Signal-Gebenden
durch das Gerät möglich ist. Mit Auswahl ist tatsächlich ein Filter gemeint, der nachfolgende Signale von
anderen Signal-Gebern sicher trennen kann.
Sprache: Bei der Fernsteuerung über Sprache ist die Lösung über Code-Wörter gewählt worden. Mit
„OK-Google“ wird die Aufmerksamkeit einer Google-Sprachsteuerung an sich gezogen. Ähnlich geht
auch Apple Siri vor. Allerdings wird die Richtung des ankommenden Sprachsignals nicht festgestellt, so
dass ein Anwender, der die Aufmerksamkeit errungen hat, auch durch einen anderen Sprecher
nachfolgend den Inhalt übertragen kann. Würde das Gerät ein Mikrophon besitzen, das die Richtung der
zu detektierenden Sprache ermitteln kann (Doppelmikrofon mit Phasenerkennung), kann eine andere
Person (oder ein Lautsprecher in der Nähe), die Information nicht mehr übertragen. Der Inhalt der
Nachrichten kann dann so komplex werden, wie die Sprache komplex ist. Grenzen sind nur durch
phonetische Details gesetzt.
Gesten: Neben der akustischen Übertragung von Signalen bietet sich natürlich die optische Übertragung
von Signalen. Bei der optischen Übertragung ist das Richtungsproblem gelöst. Was ein Vorteil für die
Sprache ist, das sie aus allen Richtungen kommen darf, und zugleich ihr Nachteil, dass die Richtung
optimaler Weise festgestellt werden sollte, ist es bei der Geste umgekehrt: Der Sensor muss auf die
Quelle des Signals ausgerichtet sein um sie empfangen zu können, wenn sie aber empfangen wird kann
sie die nachfolgenden Signale der Position des Detektionssignals zuordnen. Optische Empfänger können
sogar die Quelle bei Bewegung verfolgen und so die Zuordnung kontinuierlich sicherstellen. Um eine
Rundum-Erkennung zu ermöglichen brauchen optische Sensoren auch eine Rundum-Messung. Natürlich
kann bei Gesten auch auf die Detektionsphase verzichtet werden, wenn der Ort der Signalübertragung
a-priori bekannt ist. Ein einfaches Wischen vor der Kamera als Signal-Inhalt ist bereits eine erste
Document1
3/13
MYESTRO
einfache, aber zielführende Gestensteuerung. Aber eine große wischartige Bewegung weiter entfernt
kann dann ebenfalls den Signal-Inhalt übertragen.
1.2 Steuerung über Geste – der Bewegung eines menschlichen Körperteils
Was ist überhaupt eine Geste? Wie so oft kann der allgemeinsprachliche Umgang mit dem Wort Geste
Verwirrung stiften. In diesem Kapitel wird die Geste von der Pose abgegrenzt. Die Geste ist eine
Bewegung, die Pose ist eher statisch.
1.2.1 Entdecken durch Bewegung
Oft werden Posen genutzt um über sogenannte Gestensteuerungen Geräte zu kontrollieren. So wird die
stillstehende, offene Hand vor die Kamera als Signalgeber detektiert (PointGrab) und ein Cursor auf dem
Monitor dargestellt. Wird die Hand an eine andere Position gesetzt, wandert der Cursor entsprechend.
Weil die Detektion der Handstruktur wegen Irritationen durch ähnliche Texturen im Hintergrund
unsicher ist, hat Samsung mit ihrem SmartTV eine leichte Wink-Bewegung eingeführt um die Hand
schneller und sicherer zu entdecken. Suchen ein Mensch eine Person in einer großen Menschenmenge
hilft ein Winken und seine Aufmerksamkeit wird in diese Richtung gelenkt. Dazu benutzt der Mensch das
Reptiliengehirn (Stammhirn, Chemiehirn, Mittelhirn), mit dem er seinerzeit sicher Gefahren entgangen
ist. Bekannt ist dieser Effekt auch bei Vögeln, die bei Entdeckung von Bewegung automatisch fliehen.
Auch mit Computern benutzt der Mensch die Fähigkeit: Wenn der Zeiger der Computer-Maus in den
Texturen des Monitorinhaltes nicht erkennbar ist, bewegen wir die Maus um eine Bewegung des
Mauszeigers zu provozieren, so dass wir sie schnell entdecken.
1.2.2 Missverständnis Pose
Für die erste Gestensteuerung mit Kinect 1 von Microsoft musste sich der Anwender in einer Pose,
breitbeinig mit hochgestreckten Armen, vor die Kamera stellen, damit die Arme und Beine vermessen
werden konnten (Inverse Kinematik). Diese Detektion wird nachfolgend genutzt um die Lage von Armen
(Händen), Kopf und Beinen zu verfolgen. Diese Verfolgung wird über eine wiederholte 3D-Vemessung
des Körpers erreicht, wobei die Trajektorien der sich ergebenen Gliedmaße zur Gestensteuerung
ausgewertet worden. Nach der Definition
Posture (http://dictionary.reference.com/browse/posture)
the position of the limbs or the carriage of the body as a whole:poor posture; a sitting posture.
wurden eine Folge von Posen vermessen um daraus eine Bewegungs-Bahn abzuleiten. Hinter diesen
Posen steht in diesem Fall ein Modell zur Berechnung der Parameter der inversen Kinematik.
Kann der Umweg über die Posen vermieden werden, also die Bewegung unmittelbar gemessen werden
ohne ein (Posen-)Modell benutzen zu müssen, kann trotzdem eine Bewegungs-Bahn ermittelt werden.
Die Anforderungen an die Struktur des Anwenders können dabei geringer werden. Nach der Definition
Gesture (http://dictionary.reference.com/browse/gesture?s=t )
Document1
4/13
MYESTRO
a movement or position of the hand, arm, body, head, or face that is expressive of an idea,
opinion, emotion, etc.:the gestures of an orator; a threatening gesture.
muss nur die Bewegung gemessen werden um eine Geste zu erkennen. Es ist dabei nicht wichtig
welcher Körperteil es ist. Eine Kreis-Gesten-Bewegung kann dann sowohl mit der Hand gemacht werden
als auch mit dem Kopf.
1.2.3 Gesten im Alltag
Gesten zur Steuerung von Geräten begleiten uns seit Langem im Alltag. Flugzeuge werden über die
Einweiser an die Parkposition geführt. Für eine unaufgeregte Kommunikation verwenden die Einweiser
Posen, d. h. sie verharren in einer Pose um die aktuelle Bewegung des Flugzeugs aufrecht zu erhalten.
Wollen sie aber eine dringende Bewegungsänderung hervorrufen unterstreichen sie die Pose mit einer
Geste. Ebenso verstärken Menschen ihre Wünsche mit Posen, in dringenden Fällen mit Gesten. Eine
Geste ist aber seit der Einführung der elektrischen Energie im Alltag bekannt: Die Tipp-Bewegung um
eine elektrischen Schalter umzulegen, also eine haptische Geste.
1.3 Sensoren
Hier geht es um die Detektion und Auswertung von Gesten. Um die Bewegung zu messen, werden
Sensoren verwendet. Sie müssen nicht auf optischen Phänomenen beruhen. Solange eine Bewegung
eines menschlichen Körperteils eine Änderung von physikalisch messbaren Größen hervorruft sind die
Sensoren, die diese physikalische Größe messen können, geeignet eine Geste zu vermessen. Da
Menschen zum Beispiel das umgebende elektrische Feld verändern können, kann diese Veränderung
auch als Geste wahrgenommen werden.
Bei Sensoren kann zwischen aktiven und passiven System unterschieden werden. Aktive Sensoren
strahlen dabei eine strukturierte Energie aus, deren Echo ausgewertet wird. Die Struktur hilft dabei aus
dem Echo die Information herauszufiltern. Die Struktur kann sowohl örtlichen verteilt sein (textured
light) oder auch zeitlich (time-of-flight). In beiden Fällen können Sensoren mit Nachbarsensoren
interferieren und müssen ihre Energie gegenüber der Sonnenstrahlung durchsetzen. Passive Sensoren
müssen dem gegenüber alle Informationen aus den natürlichen Bildern herausfiltern.
1.3.1 Passiver E-Feld Sensor
Ein passiver, nicht optischer Sensor zur Vermessung von Gesten ist der GestIC von Microchip
(http://www.microchip.com/pagehandler/en_us/technology/gestic). E vermisst das elektrische Feld mit
typischerweise vier Elektroden und errechnet daraus die Position der Hand. Der Abstand der Elektroden
und der Hand sollten dabei nicht 15cm überschreiten, weil sonst Feldveränderungen der Umgebung die
Messung verfälschen. Die Detektion in seinem VOI erreicht dabei die 95%-Zuverlässigkeit, ein Maß für
die Akzeptanz bei Anwendern. Diese Technologie ist sehr kostengünstig und kann auch als Erweiterung
eines kleinen Touch-Feldes genutzt werden. Für einen Einsatz als weiträumige Gestensteuerung ist diese
Technologie allerdings nicht geeignet.
Document1
5/13
MYESTRO
1.3.2 Passive Mono-Kamera
Der einfachste optische Sensor ist die Kamera. Sie ist weit verbreitet und kann wegen der hohe
Fertigungszahlen zu sehr niedrigen Kosten hergestellt (<2$). In Verbindung mit einem Prozessor können
ihre Bildfolgen ausgewertet werden um Gesten abzuleiten. Eine Tiefenauswertung gibt das Bild einer
stehenden Kamera nicht her, bewegte Sensoren (Bewegungs-Stereo) sollen hier nicht weiter betrachtet
werden.
Verfahren zur Posen-Vermessung wie offene oder geschlossene Hände sind von PointGrab bekannt.
Dabei werden trainierte Muster mit Bildausschnitten verglichen. Wird eine Übereinstimmung gefunden
gilt das trainierte Muster wie eine offene Hand als entdeckt. Es gibt unterschiedliche Hände in
unterschiedlichen Farben und Größen und auch Posen. Alle diese Muster müssen trainiert werden.
Fehlen Finger oder sind sie verdeckt, weil die Hand ein Objekt trägt oder einen Fausthandschuh, ist die
Entdeckung deutlich erschwert bis unmöglich. Ist die Hand aber entdeckt worden ist eine Verfolgung der
Hand von Bild zu Bild über den Vergleich aufeinanderfolgender Bildausschnitte vergleichsweise einfach
und somit robust. Samsung hat im SmartTV eine Wink-Bewegung eingeführt um die Entdeckung der
Hand zu vereinfachen. Die Detektion wird neuerdings also über eine Geste (Winken) erreicht, die
Informationsübertragung mittels Bewegungs-Bahn über eine Folge von Posen. Außerdem werden Events
ausgelöst durch die Änderung der Pose. Eine Änderung von einer „offenen Hand“ zu einer
„geschlossenen Hand“ löst ein Click aus. Weil der SmartTV in der Regel in geschlossenen Räumen
verwendet wird sind wenig störende Hände zu erwarten. Auch komplexe Texturen auf Tapeten werden
bei der Erwartung einer Wink-Bewegung zur Detektion diskriminiert.
1.3.3 Aktive Tiefensensoren
Ziel der aktiven Tiefensensoren ist die Vermessung von Objekten in einem Bereich vor dem Sensor. Die
Reichweite der Sensoren kann bis zu mehrere Meter betragen, auch teilweise abhängig von der
umgebenden Sonnenstrahlung. Die Messung der Tiefenkarten kann heute als stabil bezeichnet werden.
Ultraschall, Radar, Lidar: Tiefensensoren, die auf Radar oder Ultraschall basieren, sind ebenso robust,
aktuelle Ausführungen sind allerdings nicht bildgebend, allenfalls haben sie wenige Messkegel. Zur
Vermessung von Gesten sind sie deshalb weniger geeignet. Das Lidar als Tiefensensor kann über eine
Scanbewegung auch ein Tiefenbild generieren, dabei muss die Scanbewegung schnell genug sein damit
Bewegungen in der Szene nicht zu starken Verfälschungen der Messung führen. Die
Umgebungserfassung mittels Lidar ist im Automobilbau bekannt, Systeme zur Gestensteuerung mittels
Lidar nicht.
Strukturiertes Licht: Mit der Kinect 1, eine Technologie wie die von PrimeSense, ist ein Sensor zur
Tiefenvermessung auf dem Markt erschienen. Über die Vermessung von Posen werden aus deren Folge
Gesten abgeleitet. Das strukturierte Licht wird allerdings leicht durch die Sonnenstrahlung überstrahlt,
dass diese Systeme im Außenbereich schlecht eingesetzt werden können. Eine jüngstes Produkt dieser
Technologie ist mit Intel Realsense F200 auf den Markt gekommen.
Architektur F200 zeigt:
Document1
6/13
MYESTRO
http://image.slidesharecdn.com/firststepswithintelrealsensesdk-150325122815-conversiongate01/95/first-steps-with-intel-realsense-sdk-by-xavier-hallade-4-638.jpg?cb=1427286602
Time-Of-Flight: Mit der Kinect 2, eine Technologie wie die von PDM oder Texas Instruments, ist ein
Sensor zur Tiefenvermessung auf dem Markt erschienen, der deutlich unempfindlicher gegen
Sonnenstrahlung ist. Dazu werden Lichtimpulse ausgesendet und die Zeit bis zum Erscheinen des
reflektierten Lichtes über Phasen-Messungen in den Pixeln eines ToF-Imagers über die
Lichtgeschwindigkeit als Entfernung pro Pixel umgerechnet um ein Tiefenbild zu ermitteln. Ein ToFSystem besteht aus einem Lichtsender, dem ToF-Sensor und, in der Regel, aus einem zusätzlichen
Farbbildsensor. Die Auflösungen der besonderen ToF-Sensoren sind wegen der aufwändigeren PixelElektronik kleiner als normale Bildsensoren und liefern weniger kontrastreiche Bilder.
Beschreibung des Texas Instruments TOF Sensors
http://www.google.de/imgres?imgurl=http%3A%2F%2F4.bp.blogspot.com%2FK5BnWvwqKLY%2FVZRM-GlHrI%2FAAAAAAAAMvI%2FY1Eq93zRsCk%2Fs400%2FSoftkinetic%25252BCamera.GIF&imgrefurl=http%
3A%2F%2Fsensors243.rssing.com%2Fchan-7348601%2Fall_p76.html&h=189&w=400&tbnid=17hmC8AvgzOgM%3A&docid=QSTEJ_h5lM3otM&ei=AU4jVovgK8uuUayLp9gE&tbm=isch&iact=rc&uact=3&dur=6
168&page=1&start=0&ndsp=15&ved=0CDgQrQMwCWoVChMIy-SmqMPLyAIVS1cUCh2sxQlL
Texturiertes Licht: Im Unterschied zum strukturierten Licht werden mit dem texturierten Licht keine
Informationen abgestrahlt, die von dem Empfänger zur Rekonstruktion genutzt werden. Diese Textur
dient ausschließlich zur Erzeugung von Kontrasten auf der Oberfläche insbesondere nicht texturierter
Oberflächen, typischerweise bei industriellen Objekten. Die Kontraste werden von zwei Kameras
gleichzeitig aufgenommen und über die Disparitäten pro Pixel zu Tiefenbildern umgerechnet
(Stereoskopie). Die beiden Stereo-Kameras sind mit NIR-Pass-Filtern (Nah-Infrarot) versehen und
nehmen die reflektierte, texturierte NIR-Strahlung zur Disparitätsberechnung auf. Eine dritte Kamera mit
NIR-Cut-Filter nimmt die sichtbare Farbgebung auf und kann das Tiefenbild mit der Farbtextur belegen.
Ein jüngstes Produkt dieser Technologie ist mit Intel Realsense R200 auf den Markt gekommen.
Gegenüberstellung R200 gegen F200 zeigt:
http://www.google.de/imgres?imgurl=http%3A%2F%2F1.bp.blogspot.com%2FZS3t4K_eajQ%2FVKBSBwjgGRI%2FAAAAAAAAK_I%2F0458rW5IwV4%2Fs1600%2FIntel%25252BRear%25
252BRealsense.JPG&imgrefurl=http%3A%2F%2Fimage-sensorsworld.blogspot.com%2F2014%2F12%2Fintel-realsensecameras.html&h=556&w=1100&tbnid=sApwlptgrGL2nM%3A&docid=ovGsvocARevNpM&ei=FE0jVuzIB8
mAUYi1vbAK&tbm=isch&iact=rc&uact=3&dur=1856&page=1&start=0&ndsp=20&ved=0CCcQrQMwA2o
VChMI7KKBt8LLyAIVSUAUCh2IWg-m
Document1
7/13
MYESTRO
Eine unmittelbare Bewegungsmessung ist mit diesen aktiven Technologien direkt nicht möglich, weil die
objektfesten Texturen auf der Oberfläche der vermessenen Objekte nicht genutzt werden. Erst in
Kombination mit einem üblichen Bild-Sensor ist eine Bewegungsmessung möglich.
1.3.4 Passive Tiefensensoren mit integrierter Bewegungsmessung
Passive Tiefensensoren haben gegenüber den aktiven Tiefensensoren den Vorteil, dass sie nicht
miteinander interferieren und dass heller Sonnenschein sogar förderlich ist. Größere nicht texturierte
Oberflächen können von dem Sensor nicht gemessen werden, diese Bereiche werden interpoliert, was
zu Artefakten führen kann.
Allerdings können die Sensoren unmittelbar zur Bewegungsmessung genutzt werden. Die Gliedmaße
von Menschen haben immer genügend Kontraste, selbst wenn sie glatte Chirurgen-Handschuhe tragen.
Diese Kontraste können einerseits zur Tiefenmessung und gleichzeitig zur Bewegungsmessung
verwendet werden.
Das MYESTRO-Kiosk-System verwendet diese Technologie zur Messung von Gesten zur Steuerung von
Retail-Systemen.
Eine Anwendung des MYESTRO-Kiosk-Systems in
http://myestro.de/de/interaktives-schaufenster/
1.3.5 Reine Bewegungssensoren
Wenn die Bewegung der Kern der Steuerung durch Gesten ist, kann dann eventuell nicht auf die
Tiefenmessung verzichtet werden? Kann auf die Messung der Tiefenbewegung eventuell verzichtet
werden? Die Steuerung eines Zeigers auf einem Monitor ist eine 2D-Bewegung, ein gewünschtes Signal
muss nicht unbedingt durch eine Tiefenbewegung ausgelöst werden, eine Mindeststillstandzeit kann das
gewünschte Signal ebenfalls auslösen.
Bewegungsmelder: Nicht bildgebende Sensoren, wie handelsübliche Bewegungssensoren, messen nur
die Existenz von Bewegung, sie sind nicht zur Gesten-Steuerung geeignet. Allerdings können sie
herangezogen werden um die eigentliche Gestensteuerung bei Bewegung aufzuwecken, damit für die
Dauer der Szenen ohne Bewegung der Energieverbrauch gering bleiben kann.
AirPointr: Gelingt es effizient aus zwei aufeinanderfolgenden Bildern einen dichtes
Merkmalskorrespondenzfeld herauszufinden, nicht zwingend den Bildfluss, können über statistische
Methoden Schwärme von Merkmalen herausgefiltert werden, deren Bewegungs-Bahn als Geste
interpretiert werden kann. Für dieses Verfahren ist kein Training mit annotierten Bildern notwendig und
wird deshalb modellfrei bezeichnet. Für modellfreie Bewegungsmessungen ist es vollkommen
gleichgültig wie das Objekt aussieht, ob etwas in der bewegten Hand gehalten wird, ob der Kopf oder
das Knie bewegt wird. Mit der unmittelbaren Vermessung der Bewegung ist das Problem der
Document1
8/13
MYESTRO
Diskriminierung von bestimmten Szenen gelöst, solange genügend Merkmale auf dem Gestenobjekt
vorkommen.
Reine Bewegungsmessungen können stabilisiert werden, indem entfernungsabhängige Effekte genutzt
werden. Die Kamera kann mit einem NIR-Strahler und NIR-Pass-Filter ausgestattet werden. Die
Reichweite der Beleuchtung ist zugleich die Reichweite des Gestensensors. Durch Verstellung des
Schärfentiefenbereiches in den Nahbereich können die Objekte im Fernbereich so unscharf werden,
dass deren Textur nicht ausreichend vermessen und damit auch nicht entdeckt werden können. Ein
weiteres Indiz für die Entfernung kann auch die Größe des vermessenen Schwarms sein, es werden nur
Objekte einer bestimmten Größe akzeptiert. Zu große Objekte, einerseits Fahrzeuge im Hintergrund
oder Hände unmittelbar vor der Kamera werden ignoriert, zu kleine Objekte, also Hände im Fernbereich
werden ebenfalls ignoriert. Gelingt es aber mit einem einfachen Verfahren die Entfernung auf dem
Gestenobjekt zu messen (z.B. schnelle Schärfenregelung) können irrelevante Objekte verworfen werden.
1.4 Rückmeldung mit und ohne Monitor
Der Schalter als Eingabemittel liefert unmittelbare Rückmeldungen über das Einrasten im neuen
Schaltzustand. Ein Taster, also ein nicht haltender Schalter, hat diese Möglichkeit nicht. Deswegen wird
das zu schaltende Gerät selber als Rückmeldemittel verwendet. Es ist leicht zu erkennen, ob das Licht an
oder aus ist. Wird aber ein Gerät, das selbst keine unmittelbare Rückmeldung liefert wie die Heizung,
über einen Taster bedient, ist der Anwender sofort unsicher, ob er die Heizung tatsächlich eingeschaltet
hat. Wenn in solchen Fällen ein Taster verwendet wird sollte deshalb eine Signalisierung (LED) zur
Anzeige des Zustandes des Gerätes eingesetzt werden.
Sollen komplexe Informationen eingegeben und zurückgemeldet werden, dann eignet sich ein Monitor
als Rückmeldemittel. Dort können die Schaltzustände leicht durch veränderte Bildinhalte repräsentiert
werden und die virtuellen Schaltmittel über die Touch-Funktion ausgelöst werden. Soll der Monitor
berührungslos gesteuert werden, muss zur Rückmeldung der Position der menschlichen Hand ein
bewegliches Symbol in das Bild eingeblendet werden, das der menschlichen Hand folgt.
1.4.1 Monitordarstellung mit Hand-Finger-Rekonstruktion
Ein abstrakter Mauszeiger zur Repräsentation einer menschlichen Hand ist wenig intuitiv und führt oft
zu der Suche nach einer Maus als Eingabegerät. Wird anstelle des Zeigers eine Comic-Hand eingeblendet
wird diese bereits als Repräsentant der eigenen Hand interpretiert. Noch intuitiver ist die Darstellung
einer virtuellen Hand, deren Finger sich wie die Finger der menschlichen Hand bewegen. Jede Bewegung
der menschlichen Hand wird dann sofort als Bewegung der virtuellen Hand übersetzt. Mit den virtuellen
Fingern können dann Objekte im Bild angeklickt oder sogar gegriffen werden.
Verdeckte Finger: Die direkte Form der fingertreuen Darstellung ist nur scheinbar zielführend. Trägt der
Anwender Handschuhe sind seine Finger nicht mehr sichtbar, fehlen sie ihm, wird das System sogar als
diskriminierend empfunden. Hat der Anwender alle Finger verfügbar und trägt er etwas in der Hand ist
es ihm wieder nicht möglich die Finger zur Steuerung des Systems zu verwenden.
Document1
9/13
MYESTRO
Sensorposition: Ein weiterer Punkt muss zur Messung der Finger berücksichtigt werden. Der Sensor
muss so angebracht werden, dass er alle Finger sieht. Finger, die er nicht sieht, muss er modellieren
ohne die Kenntnis über deren Ausrichtung. Damit wird die virtuelle Hand nicht immer der menschlichen
Hand folgen. Ein Position der Kamera, von der sie die Finger gut beobachten kann, ist idealerweise
gegenüber dem Anwender. Wird die Kamera seitlich befestigt, sind die abgewandten Finger verdeckt.
Wird die Kamera oberhalb angebracht, können alle Finger gemessen werden, wenn die Hand horizontal
gehalten wird, bei einer vertikal gehaltenen Hand wieder nicht. Die Forderung nach einer bestimmten
Handhaltung ist eine Einschränkung der Intuitivität der Bedienung.
Auflösung: Um Finger sicher zu messen muss die Auflösung der Kamera groß genug sein. Sie muss sogar
so groß sein, dass sie gleichzeitig den gesamten Bereich vor dem Monitor erfassen kann. Ist die
Auflösung der Kamera nicht groß genug, müssen mehrere Kameras eingesetzt werden, was die Kosten
für Kamera und zusätzliche Rechner erhöht.
Abstand zum Monitor: Ist die Kamera geschickt genug angeordnet und reicht ihre Auflösung zur
Vermessung der Finger kann die Hand vollständig modelliert werden. Diese virtuelle Hand wird jetzt
über den Monitor geführt um eine Taste zu bedienen. Mit der Darstellung der Hand muss die
Darstellung der Höhe der Hand über dem virtuellen Bedienfeld einhergehen. Wird der Abstand
versehentlich unterschätzt kann es zu ungewollten Aktionen kommen. Der Anwender muss jetzt darauf
achten, dass er den Abstand zu der virtuellen Bedienfläche, für ihn also zum Monitor, einhält.
Greifen: Um ein virtuelles Objekt zu greifen, muss der Anwender die Hand öffnen und das Objekt von
beiden Seiten nahezu gleichzeitig berühren. Die Gleichzeitigkeit ist notwendig, wenn er keine haptische
Rückmeldung beim Berühren des virtuellen Objektes bekommt, andernfalls wird er das virtuelle Objekt
verschieben bis er es gegriffen hat. Das Greifen von virtuellen Objekten, insbesondere ohne haptische
Rückmeldung, bedeutet Übung für den Anwender, sie ist also wenig intuitiv.
Die Repräsentation der menschlichen Hand durch eine fingertreue virtuelle Hand ist nur auf den ersten
Blick intuitiv. Eine Laufkundschaft ohne die notwendige Übung und Fingerfertigkeit wird sich von dem
System wahrscheinlich wegen Frustrationen abwenden.
1.4.2 Monitordarstellung mit Avatar-Hand
Wird auf die fingertreue Darstellung der Hand verzichtet verliert das System an Intuitivität, weil sich die
Finger der Hand anders bewegen als die der menschlichen Hand. Andererseits können die Finger dann
von dem Bildschirminhalt selbst gesteuert werden. Als Eingabeparameter dienen in diesem Fall die
Position und die Geschwindigkeit der gesamten Hand parallel zur Bildebene. Mit einer
Übertragungsfunktion dieser Parameter und den Bildinhalten in der Nähe der virtuellen Hand
kontrolliert das System die Fingerbewegung.
Anstelle einer steifen virtuellen Hand wird diese Avatar-Hand wie eine Fahne hinter der Messposition
hergeführt (http://webuser.hs-furtwangen.de/~mch/Fusee/Hand/FuseeOverPyramid.html). Der
Abstand der menschlichen Hand zum Monitor wird ignoriert. Befindet sich die Avatar-Hand über einem
Tastenfeld und die menschliche Hand steht länger still, öffnet sich die Avatar-Hand mit dem Zeigerfinger
Document1
10/13
MYESTRO
zeigend und nähert sich zielgenau der Taste. Bleibt die menschliche Hand weiterhin still klickt die
Avatar-Hand die virtuelle Taste und zieht sich zurück. Der Anwender muss die virtuelle Taste also nicht
mehr genau anfahren. Möchte der Anwender diese Taste nicht auslösen zieht er seine Hand
unwillkürlich von der Position weg, der Näherungsprozess der Avatar-Hand wird dann unterbrochen.
Selbst das Greifen wird zu einer leichten Übung. Wenn die Avatar-Hand über ein zu greifendes Objekt
geführt wird und die menschliche Hand dann unbewegt bleibt, beginnt die Avatar-Hand das Objekt zu
greifen. Weil Avatar-Hand und Greifobjekt Teil des Bildinhaltes sind, kann der Entwickler des Bildinhaltes
diesen Greifprozess vollständig kontrollieren. Damit ergibt sich eine Erweiterung des Aufgabenfeldes für
Content-Entwickler. Der Greifvorgang kann auch hier durch eine Bewegung der menschlichen Hand
jederzeit unterbrochen werden.
Das gegriffene Objekt befindet sich nach dem Greifen in der Avatar-Hand. Die Gestaltung dieser Hand
mit Greifobjekt ist wieder dem Content-Entwickler überlassen. Diese Avatar-Hand mit Greifobjekt wird
durch den Anwender zu einem Ort auf dem Bildschirm geführt, wo das Greifobjekt wieder losgelassen
werden soll. Solange der Anwender seine menschliche Hand still hält legt die Avatar-Hand das
Greifobjekt, wieder vollständig unter Kontrolle des Content-Entwicklers, auf das Zielobjekt ab. Auch der
Ablege-Vorgang kann durch eine Bewegung der menschlichen Hand unterbrochen werden.
Weil der Content-Entwickler die Klick-, Greif- und Ablege-Vorgänge vollständig kontrolliert, kann der
Anwender scheinbar komplexe Abläufe allein durch Stillhalten seiner menschlichen Hand beeinflussen.
Eine Laufkundschaft erleidet keine Frustrationen, sie ist eher neugierig auf die Möglichkeiten der AvatarHand, die sich Content-Entwickler in der Zukunft noch einfallen lassen.
In Abgrenzung zu der Rekonstruktion der Hand mit Finger kann Folgendes festgehalten werden:
Verdeckte Finger: Finger werden nicht mehr gemessen, somit kann der Anwender bei der Bedienung
Objekte in der Hand behalten.
Sensorposition: Weil nur noch die gesamte Hand und nicht auch noch die Finger gemessen werden,
reicht eine Sensorposition neben dem Monitor, von aus die Hand vermessen wird.
Auflösung: Die Vermessung der Hand bei gleichzeitiger Abdeckung des gesamten Bereichs vor dem
Monitor ist mit einfachen Bildsensoren und somit kostengünstig möglich.
Abstand zum Monitor: Weil für die Steuerung der Avatar-Hand nur die Koordinaten parallel zum
Monitor verwendet werden, ist es gleichgültig wie nahe sich die menschliche Hand am Monitor
befindet. Außerdem kann bei geeigneter Lage des Sensors im Prinzip auf die Tiefenmessung verzichtet
werden.
Greifen: Das Klicken, Greifen und Loslassen liegt allein in der Hand des Content-Entwicklers. Seine
Virtuosität bestimmt ausschließlich die Virtuosität der Avatar-Hand und weckt dadurch die Neugierde
und Spaß des Anwenders.
Document1
11/13
MYESTRO
Die Avatar-Hand mit Übertragungsfunktion scheint nur auf dem ersten Blick weniger intuitiv als die
Rekonstruktion der menschlichen Hand. Weil die Anforderungen an die Fingerfertigkeit des Anwenders
gering gehalten werden, aber trotzdem die Avatar-Hand als Abbild seiner menschlichen Hand
empfunden wird, kann dieses Verfahren als intuitiv betrachtet werden.
1.4.3 Browser basierte Ansteuerung für Point-of-Sale (POS) Systeme
Für eine deutliche Reduzierung der Entwicklungsaufwände zur Steuerung mittels Gesten können die
Inhalte auch innerhalb einer Browser-Umgebung programmiert sein. MYESTRO stellt eine Software zur
Verfügung, die wie eine Maus-Steuerung die aktivierbaren Elemente im Browser ansteuern kann und
durch Verweilen über aktiven Elementen auch auslösen. In diesem Fall benötigt der Content-Anbieter
keine Software-Programmierer, er kann seine Kapazitäten vollständig auf die Wertschöpfung durch
Content-Entwicklung konzentrieren. Mit diesem Verfahren kann jeder POS-Systemhersteller durch die
Anbindung einer USB-Kamera an den Content-PC und eines Steuerungsprogramms per Download
kurzfristig den Einsatzbereich seiner POS-Systeme deutlich vergrößern.
1.4.4 Rückmeldung für Industrie und Automotive
Die komfortable Rückmeldung über Monitore mit Avatar-Hand dient der Unterhaltung des Anwenders
während der Benutzung der Gestensteuerung. Ist die Gestensteuerung ein Werkzeug zur Erfüllung von
Aufgaben, sei es während der Führung eines Fahrzeugs oder der Steuerung von Industriegeräten, sollte
die Rückmeldung deutlich vereinfacht werden. Ein gutes Beispiel gibt dazu der IT-Markt. Die Einführung
der Icons für Apps oder auch die Kacheldarstellung der neuesten Windows-Betriebssysteme führt
unmittelbar zur Benutzerschnittstelle. Anstelle des Antippens eines App-Icons wird die Hand ohne
Zeigerdarstellung über das Icon geführt, so dass es leicht größer wird. Entweder durch Verweilen über
dem Icon, besser aber noch durch eine kurze Nach-Unten-Nach-Oben-Bewegung (entspricht einer
Haken-Bewegung), wird die App angewählt. Neben den Funktions-Icons wird es natürlich auch Icons zur
Veränderung des Menüs geben (wie Return und Home).
In der Automotive-Anwendung eignet sich diese Icon-Repräsentation sehr gut zur Darstellung im HeadUp-Display. Der Fahrer lässt zur Steuerung der Icons seinen rechten Arm bequem auf der
Mittelarmlehne und bewegt nur seinen Unterarm. Die Position des Unterarms führt unmittelbar zur
Anwahl des Icons und eine Haken-Bewegung dann zur Aktivierung. Der Blick des Fahrers verweilt
während des gesamten Vorgangs dabei auf dem Verkehrsgeschehen.
Der Aufwand für die Installation einer Bewegungs-basierten Gestensteuerung bleibt dabei gering.
Entweder wird eine einfache Kamera an den Graphik-Controller des Infotainment-Systems
angeschlossen oder direkt die Kamera eines im Dashboard integrierten SmartPhones verwendet.
1.4.5 Rückmeldung ohne Monitor mit Gesten-Sensor
Die Gestensteuerung muss nicht immer mit der Rückmeldung über einen Monitor verbunden sein.
Natürlich bietet der Monitor ein hohes Maß an Informationen, er ist aber mit hohem finanziellem
Aufwand verbunden. Gelingt es auf den Monitor zu verzichten, können Gestensteuerungen in viele
Alltagsartikel integriert werden.
Document1
12/13
MYESTRO
Um sich dem Gesten-Sensor zu nähern wird noch einmal auf die Theorie der Nachrichtenübertragung
eingegangen. Wenn die Position der Nachrichtenquelle nicht bekannt ist muss zuerst die Nachricht
detektiert werden um ihre Position zu ermitteln. Weil alle Nachrichten in Form von Gesten ausgeführt
werden sollen, soll die Detektion auch über eine Detektions-Geste erfolgen.
Die einfachste Form der Detektions-Gesten ist das Winken. In einer großen Menschenmenge kann eine
winkende Person schnell gefunden werden. Ein Wischen reicht nicht, da ihre Bewegung zu kurz ist. Das
Winken ist eine Begrüßungsgeste, die in vielen Kulturen verbreitet ist. Der Schwerpunkt der WinkBewegung kann als Zentrum, die Amplitude als Dimension des Bildbereichs aufgefasst werden, in dem
die Nachrichten übertragen werden. Weil aber gerade das Winken oft als Begrüßungsgeste verwendet
wird, können ungewollt Gestensteuerungen aktiviert werden.
Eine Kreisbewegung eignet sich auch als Aktivierungsgeste. Der Mittelpunkt ist dann das Zentrum, der
Radius die Dimension des Bildbereichs. Diese Geste wird nicht so häufig ausgeführt, so dass es nicht so
oft zum zufälligen Aktivieren eines Gesten-Sensors kommt. Im Zweifel muss der Kreis zweimal
beschrieben werden.
Sind mehrere Gesten-Sensoren in einem Raum (auch von unterschiedlichen Herstellern), wird die
Kreisbewegung von mehreren Sensoren erfasst. Sie können sich aber gegenseitig informieren, wer die
geringste elliptische Verformung entdeckt hat und diesem Sensor die Nachrichtenentgegennahme
überlassen.
Ist eine Detektions-Geste erkannt werden nachfolgende Gesten als Nachrichten interpretiert. Wird ein
Kreis als Detektions-Geste verwendet, sollte der Kreis nahtlos wie beim iPod-Shuffle auch als
Nachrichtenübermittler dienen. Der Kreis lässt sich insbesondere auch zur Rückmeldung der Eingabe
verwenden. Kreisförmig angeordnete LEDs signalisieren einerseits die Lage des Zeigers, anderseits
können ihre Animationen auch die Nachrichtenübermittlungen bestätigen.
In der aktuellen Arbeit wird ein Raspberry Pi2 als Gesten-Sensor programmiert, der die Kreisbewegung
als Detektionsgeste verwendet um einen Bildausschnitt zu wählen, über den die Nachrichten zum
Anwender übertragen werden. Am Beispiel eines Dimmers wird die Funktion dargestellt. Anstelle eines
Dimmers können dann speziell entwickelte kompakte Gesten-Sensoren in unterschiedlichste
Alltagsgegenstände wie Lampen, Jalousien, Heizung… integriert werden. Mit einem Gesten-Sensor kann
nicht nur das ihn integrierende Gerät gesteuert werden, sondern auch alle verbundenen Geräte können
über Bluetooth ferngesteuert werden. Somit eignet sich diese Art von Gesten-Sensor als IoT-System
(Internet of things) neben Chemie, Chirurgie … besonders in einem Smart Home.
Document1
13/13
MYESTRO