MYESTRO Interactive GmbH, Haid-und-Neu-Straße 7, D-76131 Karlsruhe 31.10.2015 +49 (0) 721 2048 2823 +49 (0) 721 2048 2832 [email protected] www.myestro.com Ansprechpartner: Jens Schick Tel: Fax: Gestensteuerung – eine Übersicht Inhalt 1 Gesten ................................................................................................................................................... 2 1.1 Bedienung von Geräten ................................................................................................................ 2 1.1.1 Haptische Werkzeuge (Tools) ............................................................................................... 2 1.1.2 Berührungslose Systeme....................................................................................................... 3 1.2 Steuerung über Geste – der Bewegung eines menschlichen Körperteils ..................................... 4 1.2.1 Entdecken durch Bewegung ................................................................................................. 4 1.2.2 Missverständnis Pose ............................................................................................................ 4 1.2.3 Gesten im Alltag .................................................................................................................... 5 1.3 Sensoren ....................................................................................................................................... 5 1.3.1 Passiver E-Feld Sensor........................................................................................................... 5 1.3.2 Passive Mono-Kamera .......................................................................................................... 6 1.3.3 Aktive Tiefensensoren........................................................................................................... 6 1.3.4 Passive Tiefensensoren mit integrierter Bewegungsmessung ............................................. 8 1.3.5 Reine Bewegungssensoren ................................................................................................... 8 1.4 Rückmeldung mit und ohne Monitor............................................................................................ 9 1.4.1 Monitordarstellung mit Hand-Finger-Rekonstruktion .......................................................... 9 1.4.2 Monitordarstellung mit Avatar-Hand ................................................................................. 10 1.4.3 Browser basierte Ansteuerung für Point-of-Sale (POS) Systeme ....................................... 12 1.4.4 Rückmeldung für Industrie und Automotive ...................................................................... 12 1.4.5 Rückmeldung ohne Monitor mit Gesten-Sensor ................................................................ 12 Document1 1/13 MYESTRO 1 Gesten Die berührungslose Bedienung von Geräten ist komfortabler (Fernsteuerung), hygienischer (Touchscreen) und behindertenfreundlicher (Augenbewegung). In diesem Kapitel soll gezeigt werden, wie die berührungslose Bedienung von Geräten durch Gesten einzuordnen und welche Art von Sensoren notwendig ist. Dabei wird festgestellt, dass die Gestensteuerung keine ausschließliche, aber trotzdem unverzichtbare Lösung der Aufgabe zur Bedienung von Geräten ist. Die Kosten der notwendigen Hardware für die komplexe Steuerung über Gesten bleiben dabei strukturell niedrig. 1.1 Bedienung von Geräten Die Entwicklung von technischen Geräten ist von Anfang an verbunden mit der Bedienung durch die Menschen. Wegen fehlender Elektronik musste die Bedienung mechanisch bleiben. Aber mechanische Fernsteuerungen sind durchaus bekannt. Hochhängende Wasserbehälter nutzen die potentielle Energie um mit Schwung die Toilette zu spülen. Der Wasserstrom aus diesen Wasserbehältern wurde über einen Griff an einer Kette durch Zug ausgelöst. Diese Herleitung der Bedienung von Geräten wird mit der Verfügbarkeit der elektrischen Energie begonnen. 1.1.1 Haptische Werkzeuge (Tools) Schalter: Die früheste Form der Bedienung von elektrischen Geräten ist der Schalter. Über einen Hebel wird ein elektrischer Kontakt hergestellt, so dass der Strom über eine unter Umständen lange Leitung zu dem Gerät gestartet wird um eine Funktion ferngesteuert auszuführen. Laternen mussten noch in der Lampe entzündet werden, jetzt reicht ein Schalter für unzählige Lampen. Die Schalter wurden verfeinert und dienten lange in den Mobiletelefonen als alleinige Form der Bedienung. Touchscreen: Die Bedienung von Monitoren stellte die Notwendig von Tasten (Schaltern) infrage. Es ist in der Regel kein Tisch vor dem Monitor, auf den die Tastatur gelegt werden kann. Außerdem werden externe Fernsteuerungen wegen Vandalismus vermieden. Integrierte Tastenfelder kommen nach wie vor häufig vor, sie sind aber empfindlich und der Bezug zu dem Inhalt auf dem Monitor ist nur indirekt herstellbar. Der Touchscreen erlaubt die Bedienung direkt oberhalb des Inhaltes, so dass der Bezug unmittelbar hergestellt ist. Durch die Dicke des Touchscreens ist der berührende Finger aber leicht oberhalb des zu bedienenden Objektes, so dass der kleine Parallaxeneffekt bereits ausreicht leicht neben das Objekt zu tasten. Smartphones: Mit Einführung des Smartphones wurde die Anzahl der Schalter deutlich reduziert. Anfangs wurden weiter Schalter als Tastenfeld als notwendig erachtet (Blackberry), durch die verbesserte Qualität der Touchscreens und entsprechender Software wurden die in Mobiltelefonen integrierten Tastenfelder weitestgehend verdrängt. Durch die Arbeit von Steve Jobs wurde die Software so verfeinert, so dass die Graphik auf den Touchscreens quasi physikalische Wirkung entfaltet (Schwungeffekt) und somit für den Anwender immer komfortabler wurde. Ein Vorteil aller haptischen Eingabegeräte ist die direkte Kontaktaufnahme des Anwenders mit dem Gerät. Die Aufmerksamkeit des Gerätes wird dabei bereits mit dem Schalten hergestellt. Document1 2/13 MYESTRO 1.1.2 Berührungslose Systeme Die berührungslose Bedienung hat den Vorteil, dass der Anwender das Gerät nicht kontaktieren muss. Er kann es über größere Entfernungen bedienen, selbst wenn er keine Finger frei zur Verfügung hat, sei es, weil er etwas in der Hand hat oder behindert ist. Allerdings muss er die Aufmerksamkeit des Gerätes erlangen, bevor er eine Nachricht übermitteln kann. In [Kristian Kroschel, Statistische Nachrichtentheorie, Springer-Verlag, ISBN-13: 978-3-540-17153-9] unter Aufgaben der statistischen Nachrichtentheorie werden zwei Phasen identifiziert: Phase 1: Detektion (Signalerkennung) Phase 2: Estimation (Signal-, Parameterschätzung) Natürlich können Nachrichten ständig wiederholt werden bis das Gerät dieses Signal detektiert und, über eine statistische Auswertung der wiederholt übertragenen Signale, den Inhalt identifiziert. Ein Mensch wird sicherlich nicht die Geduld aufbringen solange das Signal auszusenden bis das Gerät es erkennt und diese Erkenntnis zurückspiegelt. Deswegen ist es vorteilhaft das Detektionssignal von dem Inhaltssignal getrennt zu senden. Das Detektionssignal sollte dabei so kurz und einfach sein, dass eine sichere Auswahl des Signal-Gebenden durch das Gerät möglich ist. Mit Auswahl ist tatsächlich ein Filter gemeint, der nachfolgende Signale von anderen Signal-Gebern sicher trennen kann. Sprache: Bei der Fernsteuerung über Sprache ist die Lösung über Code-Wörter gewählt worden. Mit „OK-Google“ wird die Aufmerksamkeit einer Google-Sprachsteuerung an sich gezogen. Ähnlich geht auch Apple Siri vor. Allerdings wird die Richtung des ankommenden Sprachsignals nicht festgestellt, so dass ein Anwender, der die Aufmerksamkeit errungen hat, auch durch einen anderen Sprecher nachfolgend den Inhalt übertragen kann. Würde das Gerät ein Mikrophon besitzen, das die Richtung der zu detektierenden Sprache ermitteln kann (Doppelmikrofon mit Phasenerkennung), kann eine andere Person (oder ein Lautsprecher in der Nähe), die Information nicht mehr übertragen. Der Inhalt der Nachrichten kann dann so komplex werden, wie die Sprache komplex ist. Grenzen sind nur durch phonetische Details gesetzt. Gesten: Neben der akustischen Übertragung von Signalen bietet sich natürlich die optische Übertragung von Signalen. Bei der optischen Übertragung ist das Richtungsproblem gelöst. Was ein Vorteil für die Sprache ist, das sie aus allen Richtungen kommen darf, und zugleich ihr Nachteil, dass die Richtung optimaler Weise festgestellt werden sollte, ist es bei der Geste umgekehrt: Der Sensor muss auf die Quelle des Signals ausgerichtet sein um sie empfangen zu können, wenn sie aber empfangen wird kann sie die nachfolgenden Signale der Position des Detektionssignals zuordnen. Optische Empfänger können sogar die Quelle bei Bewegung verfolgen und so die Zuordnung kontinuierlich sicherstellen. Um eine Rundum-Erkennung zu ermöglichen brauchen optische Sensoren auch eine Rundum-Messung. Natürlich kann bei Gesten auch auf die Detektionsphase verzichtet werden, wenn der Ort der Signalübertragung a-priori bekannt ist. Ein einfaches Wischen vor der Kamera als Signal-Inhalt ist bereits eine erste Document1 3/13 MYESTRO einfache, aber zielführende Gestensteuerung. Aber eine große wischartige Bewegung weiter entfernt kann dann ebenfalls den Signal-Inhalt übertragen. 1.2 Steuerung über Geste – der Bewegung eines menschlichen Körperteils Was ist überhaupt eine Geste? Wie so oft kann der allgemeinsprachliche Umgang mit dem Wort Geste Verwirrung stiften. In diesem Kapitel wird die Geste von der Pose abgegrenzt. Die Geste ist eine Bewegung, die Pose ist eher statisch. 1.2.1 Entdecken durch Bewegung Oft werden Posen genutzt um über sogenannte Gestensteuerungen Geräte zu kontrollieren. So wird die stillstehende, offene Hand vor die Kamera als Signalgeber detektiert (PointGrab) und ein Cursor auf dem Monitor dargestellt. Wird die Hand an eine andere Position gesetzt, wandert der Cursor entsprechend. Weil die Detektion der Handstruktur wegen Irritationen durch ähnliche Texturen im Hintergrund unsicher ist, hat Samsung mit ihrem SmartTV eine leichte Wink-Bewegung eingeführt um die Hand schneller und sicherer zu entdecken. Suchen ein Mensch eine Person in einer großen Menschenmenge hilft ein Winken und seine Aufmerksamkeit wird in diese Richtung gelenkt. Dazu benutzt der Mensch das Reptiliengehirn (Stammhirn, Chemiehirn, Mittelhirn), mit dem er seinerzeit sicher Gefahren entgangen ist. Bekannt ist dieser Effekt auch bei Vögeln, die bei Entdeckung von Bewegung automatisch fliehen. Auch mit Computern benutzt der Mensch die Fähigkeit: Wenn der Zeiger der Computer-Maus in den Texturen des Monitorinhaltes nicht erkennbar ist, bewegen wir die Maus um eine Bewegung des Mauszeigers zu provozieren, so dass wir sie schnell entdecken. 1.2.2 Missverständnis Pose Für die erste Gestensteuerung mit Kinect 1 von Microsoft musste sich der Anwender in einer Pose, breitbeinig mit hochgestreckten Armen, vor die Kamera stellen, damit die Arme und Beine vermessen werden konnten (Inverse Kinematik). Diese Detektion wird nachfolgend genutzt um die Lage von Armen (Händen), Kopf und Beinen zu verfolgen. Diese Verfolgung wird über eine wiederholte 3D-Vemessung des Körpers erreicht, wobei die Trajektorien der sich ergebenen Gliedmaße zur Gestensteuerung ausgewertet worden. Nach der Definition Posture (http://dictionary.reference.com/browse/posture) the position of the limbs or the carriage of the body as a whole:poor posture; a sitting posture. wurden eine Folge von Posen vermessen um daraus eine Bewegungs-Bahn abzuleiten. Hinter diesen Posen steht in diesem Fall ein Modell zur Berechnung der Parameter der inversen Kinematik. Kann der Umweg über die Posen vermieden werden, also die Bewegung unmittelbar gemessen werden ohne ein (Posen-)Modell benutzen zu müssen, kann trotzdem eine Bewegungs-Bahn ermittelt werden. Die Anforderungen an die Struktur des Anwenders können dabei geringer werden. Nach der Definition Gesture (http://dictionary.reference.com/browse/gesture?s=t ) Document1 4/13 MYESTRO a movement or position of the hand, arm, body, head, or face that is expressive of an idea, opinion, emotion, etc.:the gestures of an orator; a threatening gesture. muss nur die Bewegung gemessen werden um eine Geste zu erkennen. Es ist dabei nicht wichtig welcher Körperteil es ist. Eine Kreis-Gesten-Bewegung kann dann sowohl mit der Hand gemacht werden als auch mit dem Kopf. 1.2.3 Gesten im Alltag Gesten zur Steuerung von Geräten begleiten uns seit Langem im Alltag. Flugzeuge werden über die Einweiser an die Parkposition geführt. Für eine unaufgeregte Kommunikation verwenden die Einweiser Posen, d. h. sie verharren in einer Pose um die aktuelle Bewegung des Flugzeugs aufrecht zu erhalten. Wollen sie aber eine dringende Bewegungsänderung hervorrufen unterstreichen sie die Pose mit einer Geste. Ebenso verstärken Menschen ihre Wünsche mit Posen, in dringenden Fällen mit Gesten. Eine Geste ist aber seit der Einführung der elektrischen Energie im Alltag bekannt: Die Tipp-Bewegung um eine elektrischen Schalter umzulegen, also eine haptische Geste. 1.3 Sensoren Hier geht es um die Detektion und Auswertung von Gesten. Um die Bewegung zu messen, werden Sensoren verwendet. Sie müssen nicht auf optischen Phänomenen beruhen. Solange eine Bewegung eines menschlichen Körperteils eine Änderung von physikalisch messbaren Größen hervorruft sind die Sensoren, die diese physikalische Größe messen können, geeignet eine Geste zu vermessen. Da Menschen zum Beispiel das umgebende elektrische Feld verändern können, kann diese Veränderung auch als Geste wahrgenommen werden. Bei Sensoren kann zwischen aktiven und passiven System unterschieden werden. Aktive Sensoren strahlen dabei eine strukturierte Energie aus, deren Echo ausgewertet wird. Die Struktur hilft dabei aus dem Echo die Information herauszufiltern. Die Struktur kann sowohl örtlichen verteilt sein (textured light) oder auch zeitlich (time-of-flight). In beiden Fällen können Sensoren mit Nachbarsensoren interferieren und müssen ihre Energie gegenüber der Sonnenstrahlung durchsetzen. Passive Sensoren müssen dem gegenüber alle Informationen aus den natürlichen Bildern herausfiltern. 1.3.1 Passiver E-Feld Sensor Ein passiver, nicht optischer Sensor zur Vermessung von Gesten ist der GestIC von Microchip (http://www.microchip.com/pagehandler/en_us/technology/gestic). E vermisst das elektrische Feld mit typischerweise vier Elektroden und errechnet daraus die Position der Hand. Der Abstand der Elektroden und der Hand sollten dabei nicht 15cm überschreiten, weil sonst Feldveränderungen der Umgebung die Messung verfälschen. Die Detektion in seinem VOI erreicht dabei die 95%-Zuverlässigkeit, ein Maß für die Akzeptanz bei Anwendern. Diese Technologie ist sehr kostengünstig und kann auch als Erweiterung eines kleinen Touch-Feldes genutzt werden. Für einen Einsatz als weiträumige Gestensteuerung ist diese Technologie allerdings nicht geeignet. Document1 5/13 MYESTRO 1.3.2 Passive Mono-Kamera Der einfachste optische Sensor ist die Kamera. Sie ist weit verbreitet und kann wegen der hohe Fertigungszahlen zu sehr niedrigen Kosten hergestellt (<2$). In Verbindung mit einem Prozessor können ihre Bildfolgen ausgewertet werden um Gesten abzuleiten. Eine Tiefenauswertung gibt das Bild einer stehenden Kamera nicht her, bewegte Sensoren (Bewegungs-Stereo) sollen hier nicht weiter betrachtet werden. Verfahren zur Posen-Vermessung wie offene oder geschlossene Hände sind von PointGrab bekannt. Dabei werden trainierte Muster mit Bildausschnitten verglichen. Wird eine Übereinstimmung gefunden gilt das trainierte Muster wie eine offene Hand als entdeckt. Es gibt unterschiedliche Hände in unterschiedlichen Farben und Größen und auch Posen. Alle diese Muster müssen trainiert werden. Fehlen Finger oder sind sie verdeckt, weil die Hand ein Objekt trägt oder einen Fausthandschuh, ist die Entdeckung deutlich erschwert bis unmöglich. Ist die Hand aber entdeckt worden ist eine Verfolgung der Hand von Bild zu Bild über den Vergleich aufeinanderfolgender Bildausschnitte vergleichsweise einfach und somit robust. Samsung hat im SmartTV eine Wink-Bewegung eingeführt um die Entdeckung der Hand zu vereinfachen. Die Detektion wird neuerdings also über eine Geste (Winken) erreicht, die Informationsübertragung mittels Bewegungs-Bahn über eine Folge von Posen. Außerdem werden Events ausgelöst durch die Änderung der Pose. Eine Änderung von einer „offenen Hand“ zu einer „geschlossenen Hand“ löst ein Click aus. Weil der SmartTV in der Regel in geschlossenen Räumen verwendet wird sind wenig störende Hände zu erwarten. Auch komplexe Texturen auf Tapeten werden bei der Erwartung einer Wink-Bewegung zur Detektion diskriminiert. 1.3.3 Aktive Tiefensensoren Ziel der aktiven Tiefensensoren ist die Vermessung von Objekten in einem Bereich vor dem Sensor. Die Reichweite der Sensoren kann bis zu mehrere Meter betragen, auch teilweise abhängig von der umgebenden Sonnenstrahlung. Die Messung der Tiefenkarten kann heute als stabil bezeichnet werden. Ultraschall, Radar, Lidar: Tiefensensoren, die auf Radar oder Ultraschall basieren, sind ebenso robust, aktuelle Ausführungen sind allerdings nicht bildgebend, allenfalls haben sie wenige Messkegel. Zur Vermessung von Gesten sind sie deshalb weniger geeignet. Das Lidar als Tiefensensor kann über eine Scanbewegung auch ein Tiefenbild generieren, dabei muss die Scanbewegung schnell genug sein damit Bewegungen in der Szene nicht zu starken Verfälschungen der Messung führen. Die Umgebungserfassung mittels Lidar ist im Automobilbau bekannt, Systeme zur Gestensteuerung mittels Lidar nicht. Strukturiertes Licht: Mit der Kinect 1, eine Technologie wie die von PrimeSense, ist ein Sensor zur Tiefenvermessung auf dem Markt erschienen. Über die Vermessung von Posen werden aus deren Folge Gesten abgeleitet. Das strukturierte Licht wird allerdings leicht durch die Sonnenstrahlung überstrahlt, dass diese Systeme im Außenbereich schlecht eingesetzt werden können. Eine jüngstes Produkt dieser Technologie ist mit Intel Realsense F200 auf den Markt gekommen. Architektur F200 zeigt: Document1 6/13 MYESTRO http://image.slidesharecdn.com/firststepswithintelrealsensesdk-150325122815-conversiongate01/95/first-steps-with-intel-realsense-sdk-by-xavier-hallade-4-638.jpg?cb=1427286602 Time-Of-Flight: Mit der Kinect 2, eine Technologie wie die von PDM oder Texas Instruments, ist ein Sensor zur Tiefenvermessung auf dem Markt erschienen, der deutlich unempfindlicher gegen Sonnenstrahlung ist. Dazu werden Lichtimpulse ausgesendet und die Zeit bis zum Erscheinen des reflektierten Lichtes über Phasen-Messungen in den Pixeln eines ToF-Imagers über die Lichtgeschwindigkeit als Entfernung pro Pixel umgerechnet um ein Tiefenbild zu ermitteln. Ein ToFSystem besteht aus einem Lichtsender, dem ToF-Sensor und, in der Regel, aus einem zusätzlichen Farbbildsensor. Die Auflösungen der besonderen ToF-Sensoren sind wegen der aufwändigeren PixelElektronik kleiner als normale Bildsensoren und liefern weniger kontrastreiche Bilder. Beschreibung des Texas Instruments TOF Sensors http://www.google.de/imgres?imgurl=http%3A%2F%2F4.bp.blogspot.com%2FK5BnWvwqKLY%2FVZRM-GlHrI%2FAAAAAAAAMvI%2FY1Eq93zRsCk%2Fs400%2FSoftkinetic%25252BCamera.GIF&imgrefurl=http% 3A%2F%2Fsensors243.rssing.com%2Fchan-7348601%2Fall_p76.html&h=189&w=400&tbnid=17hmC8AvgzOgM%3A&docid=QSTEJ_h5lM3otM&ei=AU4jVovgK8uuUayLp9gE&tbm=isch&iact=rc&uact=3&dur=6 168&page=1&start=0&ndsp=15&ved=0CDgQrQMwCWoVChMIy-SmqMPLyAIVS1cUCh2sxQlL Texturiertes Licht: Im Unterschied zum strukturierten Licht werden mit dem texturierten Licht keine Informationen abgestrahlt, die von dem Empfänger zur Rekonstruktion genutzt werden. Diese Textur dient ausschließlich zur Erzeugung von Kontrasten auf der Oberfläche insbesondere nicht texturierter Oberflächen, typischerweise bei industriellen Objekten. Die Kontraste werden von zwei Kameras gleichzeitig aufgenommen und über die Disparitäten pro Pixel zu Tiefenbildern umgerechnet (Stereoskopie). Die beiden Stereo-Kameras sind mit NIR-Pass-Filtern (Nah-Infrarot) versehen und nehmen die reflektierte, texturierte NIR-Strahlung zur Disparitätsberechnung auf. Eine dritte Kamera mit NIR-Cut-Filter nimmt die sichtbare Farbgebung auf und kann das Tiefenbild mit der Farbtextur belegen. Ein jüngstes Produkt dieser Technologie ist mit Intel Realsense R200 auf den Markt gekommen. Gegenüberstellung R200 gegen F200 zeigt: http://www.google.de/imgres?imgurl=http%3A%2F%2F1.bp.blogspot.com%2FZS3t4K_eajQ%2FVKBSBwjgGRI%2FAAAAAAAAK_I%2F0458rW5IwV4%2Fs1600%2FIntel%25252BRear%25 252BRealsense.JPG&imgrefurl=http%3A%2F%2Fimage-sensorsworld.blogspot.com%2F2014%2F12%2Fintel-realsensecameras.html&h=556&w=1100&tbnid=sApwlptgrGL2nM%3A&docid=ovGsvocARevNpM&ei=FE0jVuzIB8 mAUYi1vbAK&tbm=isch&iact=rc&uact=3&dur=1856&page=1&start=0&ndsp=20&ved=0CCcQrQMwA2o VChMI7KKBt8LLyAIVSUAUCh2IWg-m Document1 7/13 MYESTRO Eine unmittelbare Bewegungsmessung ist mit diesen aktiven Technologien direkt nicht möglich, weil die objektfesten Texturen auf der Oberfläche der vermessenen Objekte nicht genutzt werden. Erst in Kombination mit einem üblichen Bild-Sensor ist eine Bewegungsmessung möglich. 1.3.4 Passive Tiefensensoren mit integrierter Bewegungsmessung Passive Tiefensensoren haben gegenüber den aktiven Tiefensensoren den Vorteil, dass sie nicht miteinander interferieren und dass heller Sonnenschein sogar förderlich ist. Größere nicht texturierte Oberflächen können von dem Sensor nicht gemessen werden, diese Bereiche werden interpoliert, was zu Artefakten führen kann. Allerdings können die Sensoren unmittelbar zur Bewegungsmessung genutzt werden. Die Gliedmaße von Menschen haben immer genügend Kontraste, selbst wenn sie glatte Chirurgen-Handschuhe tragen. Diese Kontraste können einerseits zur Tiefenmessung und gleichzeitig zur Bewegungsmessung verwendet werden. Das MYESTRO-Kiosk-System verwendet diese Technologie zur Messung von Gesten zur Steuerung von Retail-Systemen. Eine Anwendung des MYESTRO-Kiosk-Systems in http://myestro.de/de/interaktives-schaufenster/ 1.3.5 Reine Bewegungssensoren Wenn die Bewegung der Kern der Steuerung durch Gesten ist, kann dann eventuell nicht auf die Tiefenmessung verzichtet werden? Kann auf die Messung der Tiefenbewegung eventuell verzichtet werden? Die Steuerung eines Zeigers auf einem Monitor ist eine 2D-Bewegung, ein gewünschtes Signal muss nicht unbedingt durch eine Tiefenbewegung ausgelöst werden, eine Mindeststillstandzeit kann das gewünschte Signal ebenfalls auslösen. Bewegungsmelder: Nicht bildgebende Sensoren, wie handelsübliche Bewegungssensoren, messen nur die Existenz von Bewegung, sie sind nicht zur Gesten-Steuerung geeignet. Allerdings können sie herangezogen werden um die eigentliche Gestensteuerung bei Bewegung aufzuwecken, damit für die Dauer der Szenen ohne Bewegung der Energieverbrauch gering bleiben kann. AirPointr: Gelingt es effizient aus zwei aufeinanderfolgenden Bildern einen dichtes Merkmalskorrespondenzfeld herauszufinden, nicht zwingend den Bildfluss, können über statistische Methoden Schwärme von Merkmalen herausgefiltert werden, deren Bewegungs-Bahn als Geste interpretiert werden kann. Für dieses Verfahren ist kein Training mit annotierten Bildern notwendig und wird deshalb modellfrei bezeichnet. Für modellfreie Bewegungsmessungen ist es vollkommen gleichgültig wie das Objekt aussieht, ob etwas in der bewegten Hand gehalten wird, ob der Kopf oder das Knie bewegt wird. Mit der unmittelbaren Vermessung der Bewegung ist das Problem der Document1 8/13 MYESTRO Diskriminierung von bestimmten Szenen gelöst, solange genügend Merkmale auf dem Gestenobjekt vorkommen. Reine Bewegungsmessungen können stabilisiert werden, indem entfernungsabhängige Effekte genutzt werden. Die Kamera kann mit einem NIR-Strahler und NIR-Pass-Filter ausgestattet werden. Die Reichweite der Beleuchtung ist zugleich die Reichweite des Gestensensors. Durch Verstellung des Schärfentiefenbereiches in den Nahbereich können die Objekte im Fernbereich so unscharf werden, dass deren Textur nicht ausreichend vermessen und damit auch nicht entdeckt werden können. Ein weiteres Indiz für die Entfernung kann auch die Größe des vermessenen Schwarms sein, es werden nur Objekte einer bestimmten Größe akzeptiert. Zu große Objekte, einerseits Fahrzeuge im Hintergrund oder Hände unmittelbar vor der Kamera werden ignoriert, zu kleine Objekte, also Hände im Fernbereich werden ebenfalls ignoriert. Gelingt es aber mit einem einfachen Verfahren die Entfernung auf dem Gestenobjekt zu messen (z.B. schnelle Schärfenregelung) können irrelevante Objekte verworfen werden. 1.4 Rückmeldung mit und ohne Monitor Der Schalter als Eingabemittel liefert unmittelbare Rückmeldungen über das Einrasten im neuen Schaltzustand. Ein Taster, also ein nicht haltender Schalter, hat diese Möglichkeit nicht. Deswegen wird das zu schaltende Gerät selber als Rückmeldemittel verwendet. Es ist leicht zu erkennen, ob das Licht an oder aus ist. Wird aber ein Gerät, das selbst keine unmittelbare Rückmeldung liefert wie die Heizung, über einen Taster bedient, ist der Anwender sofort unsicher, ob er die Heizung tatsächlich eingeschaltet hat. Wenn in solchen Fällen ein Taster verwendet wird sollte deshalb eine Signalisierung (LED) zur Anzeige des Zustandes des Gerätes eingesetzt werden. Sollen komplexe Informationen eingegeben und zurückgemeldet werden, dann eignet sich ein Monitor als Rückmeldemittel. Dort können die Schaltzustände leicht durch veränderte Bildinhalte repräsentiert werden und die virtuellen Schaltmittel über die Touch-Funktion ausgelöst werden. Soll der Monitor berührungslos gesteuert werden, muss zur Rückmeldung der Position der menschlichen Hand ein bewegliches Symbol in das Bild eingeblendet werden, das der menschlichen Hand folgt. 1.4.1 Monitordarstellung mit Hand-Finger-Rekonstruktion Ein abstrakter Mauszeiger zur Repräsentation einer menschlichen Hand ist wenig intuitiv und führt oft zu der Suche nach einer Maus als Eingabegerät. Wird anstelle des Zeigers eine Comic-Hand eingeblendet wird diese bereits als Repräsentant der eigenen Hand interpretiert. Noch intuitiver ist die Darstellung einer virtuellen Hand, deren Finger sich wie die Finger der menschlichen Hand bewegen. Jede Bewegung der menschlichen Hand wird dann sofort als Bewegung der virtuellen Hand übersetzt. Mit den virtuellen Fingern können dann Objekte im Bild angeklickt oder sogar gegriffen werden. Verdeckte Finger: Die direkte Form der fingertreuen Darstellung ist nur scheinbar zielführend. Trägt der Anwender Handschuhe sind seine Finger nicht mehr sichtbar, fehlen sie ihm, wird das System sogar als diskriminierend empfunden. Hat der Anwender alle Finger verfügbar und trägt er etwas in der Hand ist es ihm wieder nicht möglich die Finger zur Steuerung des Systems zu verwenden. Document1 9/13 MYESTRO Sensorposition: Ein weiterer Punkt muss zur Messung der Finger berücksichtigt werden. Der Sensor muss so angebracht werden, dass er alle Finger sieht. Finger, die er nicht sieht, muss er modellieren ohne die Kenntnis über deren Ausrichtung. Damit wird die virtuelle Hand nicht immer der menschlichen Hand folgen. Ein Position der Kamera, von der sie die Finger gut beobachten kann, ist idealerweise gegenüber dem Anwender. Wird die Kamera seitlich befestigt, sind die abgewandten Finger verdeckt. Wird die Kamera oberhalb angebracht, können alle Finger gemessen werden, wenn die Hand horizontal gehalten wird, bei einer vertikal gehaltenen Hand wieder nicht. Die Forderung nach einer bestimmten Handhaltung ist eine Einschränkung der Intuitivität der Bedienung. Auflösung: Um Finger sicher zu messen muss die Auflösung der Kamera groß genug sein. Sie muss sogar so groß sein, dass sie gleichzeitig den gesamten Bereich vor dem Monitor erfassen kann. Ist die Auflösung der Kamera nicht groß genug, müssen mehrere Kameras eingesetzt werden, was die Kosten für Kamera und zusätzliche Rechner erhöht. Abstand zum Monitor: Ist die Kamera geschickt genug angeordnet und reicht ihre Auflösung zur Vermessung der Finger kann die Hand vollständig modelliert werden. Diese virtuelle Hand wird jetzt über den Monitor geführt um eine Taste zu bedienen. Mit der Darstellung der Hand muss die Darstellung der Höhe der Hand über dem virtuellen Bedienfeld einhergehen. Wird der Abstand versehentlich unterschätzt kann es zu ungewollten Aktionen kommen. Der Anwender muss jetzt darauf achten, dass er den Abstand zu der virtuellen Bedienfläche, für ihn also zum Monitor, einhält. Greifen: Um ein virtuelles Objekt zu greifen, muss der Anwender die Hand öffnen und das Objekt von beiden Seiten nahezu gleichzeitig berühren. Die Gleichzeitigkeit ist notwendig, wenn er keine haptische Rückmeldung beim Berühren des virtuellen Objektes bekommt, andernfalls wird er das virtuelle Objekt verschieben bis er es gegriffen hat. Das Greifen von virtuellen Objekten, insbesondere ohne haptische Rückmeldung, bedeutet Übung für den Anwender, sie ist also wenig intuitiv. Die Repräsentation der menschlichen Hand durch eine fingertreue virtuelle Hand ist nur auf den ersten Blick intuitiv. Eine Laufkundschaft ohne die notwendige Übung und Fingerfertigkeit wird sich von dem System wahrscheinlich wegen Frustrationen abwenden. 1.4.2 Monitordarstellung mit Avatar-Hand Wird auf die fingertreue Darstellung der Hand verzichtet verliert das System an Intuitivität, weil sich die Finger der Hand anders bewegen als die der menschlichen Hand. Andererseits können die Finger dann von dem Bildschirminhalt selbst gesteuert werden. Als Eingabeparameter dienen in diesem Fall die Position und die Geschwindigkeit der gesamten Hand parallel zur Bildebene. Mit einer Übertragungsfunktion dieser Parameter und den Bildinhalten in der Nähe der virtuellen Hand kontrolliert das System die Fingerbewegung. Anstelle einer steifen virtuellen Hand wird diese Avatar-Hand wie eine Fahne hinter der Messposition hergeführt (http://webuser.hs-furtwangen.de/~mch/Fusee/Hand/FuseeOverPyramid.html). Der Abstand der menschlichen Hand zum Monitor wird ignoriert. Befindet sich die Avatar-Hand über einem Tastenfeld und die menschliche Hand steht länger still, öffnet sich die Avatar-Hand mit dem Zeigerfinger Document1 10/13 MYESTRO zeigend und nähert sich zielgenau der Taste. Bleibt die menschliche Hand weiterhin still klickt die Avatar-Hand die virtuelle Taste und zieht sich zurück. Der Anwender muss die virtuelle Taste also nicht mehr genau anfahren. Möchte der Anwender diese Taste nicht auslösen zieht er seine Hand unwillkürlich von der Position weg, der Näherungsprozess der Avatar-Hand wird dann unterbrochen. Selbst das Greifen wird zu einer leichten Übung. Wenn die Avatar-Hand über ein zu greifendes Objekt geführt wird und die menschliche Hand dann unbewegt bleibt, beginnt die Avatar-Hand das Objekt zu greifen. Weil Avatar-Hand und Greifobjekt Teil des Bildinhaltes sind, kann der Entwickler des Bildinhaltes diesen Greifprozess vollständig kontrollieren. Damit ergibt sich eine Erweiterung des Aufgabenfeldes für Content-Entwickler. Der Greifvorgang kann auch hier durch eine Bewegung der menschlichen Hand jederzeit unterbrochen werden. Das gegriffene Objekt befindet sich nach dem Greifen in der Avatar-Hand. Die Gestaltung dieser Hand mit Greifobjekt ist wieder dem Content-Entwickler überlassen. Diese Avatar-Hand mit Greifobjekt wird durch den Anwender zu einem Ort auf dem Bildschirm geführt, wo das Greifobjekt wieder losgelassen werden soll. Solange der Anwender seine menschliche Hand still hält legt die Avatar-Hand das Greifobjekt, wieder vollständig unter Kontrolle des Content-Entwicklers, auf das Zielobjekt ab. Auch der Ablege-Vorgang kann durch eine Bewegung der menschlichen Hand unterbrochen werden. Weil der Content-Entwickler die Klick-, Greif- und Ablege-Vorgänge vollständig kontrolliert, kann der Anwender scheinbar komplexe Abläufe allein durch Stillhalten seiner menschlichen Hand beeinflussen. Eine Laufkundschaft erleidet keine Frustrationen, sie ist eher neugierig auf die Möglichkeiten der AvatarHand, die sich Content-Entwickler in der Zukunft noch einfallen lassen. In Abgrenzung zu der Rekonstruktion der Hand mit Finger kann Folgendes festgehalten werden: Verdeckte Finger: Finger werden nicht mehr gemessen, somit kann der Anwender bei der Bedienung Objekte in der Hand behalten. Sensorposition: Weil nur noch die gesamte Hand und nicht auch noch die Finger gemessen werden, reicht eine Sensorposition neben dem Monitor, von aus die Hand vermessen wird. Auflösung: Die Vermessung der Hand bei gleichzeitiger Abdeckung des gesamten Bereichs vor dem Monitor ist mit einfachen Bildsensoren und somit kostengünstig möglich. Abstand zum Monitor: Weil für die Steuerung der Avatar-Hand nur die Koordinaten parallel zum Monitor verwendet werden, ist es gleichgültig wie nahe sich die menschliche Hand am Monitor befindet. Außerdem kann bei geeigneter Lage des Sensors im Prinzip auf die Tiefenmessung verzichtet werden. Greifen: Das Klicken, Greifen und Loslassen liegt allein in der Hand des Content-Entwicklers. Seine Virtuosität bestimmt ausschließlich die Virtuosität der Avatar-Hand und weckt dadurch die Neugierde und Spaß des Anwenders. Document1 11/13 MYESTRO Die Avatar-Hand mit Übertragungsfunktion scheint nur auf dem ersten Blick weniger intuitiv als die Rekonstruktion der menschlichen Hand. Weil die Anforderungen an die Fingerfertigkeit des Anwenders gering gehalten werden, aber trotzdem die Avatar-Hand als Abbild seiner menschlichen Hand empfunden wird, kann dieses Verfahren als intuitiv betrachtet werden. 1.4.3 Browser basierte Ansteuerung für Point-of-Sale (POS) Systeme Für eine deutliche Reduzierung der Entwicklungsaufwände zur Steuerung mittels Gesten können die Inhalte auch innerhalb einer Browser-Umgebung programmiert sein. MYESTRO stellt eine Software zur Verfügung, die wie eine Maus-Steuerung die aktivierbaren Elemente im Browser ansteuern kann und durch Verweilen über aktiven Elementen auch auslösen. In diesem Fall benötigt der Content-Anbieter keine Software-Programmierer, er kann seine Kapazitäten vollständig auf die Wertschöpfung durch Content-Entwicklung konzentrieren. Mit diesem Verfahren kann jeder POS-Systemhersteller durch die Anbindung einer USB-Kamera an den Content-PC und eines Steuerungsprogramms per Download kurzfristig den Einsatzbereich seiner POS-Systeme deutlich vergrößern. 1.4.4 Rückmeldung für Industrie und Automotive Die komfortable Rückmeldung über Monitore mit Avatar-Hand dient der Unterhaltung des Anwenders während der Benutzung der Gestensteuerung. Ist die Gestensteuerung ein Werkzeug zur Erfüllung von Aufgaben, sei es während der Führung eines Fahrzeugs oder der Steuerung von Industriegeräten, sollte die Rückmeldung deutlich vereinfacht werden. Ein gutes Beispiel gibt dazu der IT-Markt. Die Einführung der Icons für Apps oder auch die Kacheldarstellung der neuesten Windows-Betriebssysteme führt unmittelbar zur Benutzerschnittstelle. Anstelle des Antippens eines App-Icons wird die Hand ohne Zeigerdarstellung über das Icon geführt, so dass es leicht größer wird. Entweder durch Verweilen über dem Icon, besser aber noch durch eine kurze Nach-Unten-Nach-Oben-Bewegung (entspricht einer Haken-Bewegung), wird die App angewählt. Neben den Funktions-Icons wird es natürlich auch Icons zur Veränderung des Menüs geben (wie Return und Home). In der Automotive-Anwendung eignet sich diese Icon-Repräsentation sehr gut zur Darstellung im HeadUp-Display. Der Fahrer lässt zur Steuerung der Icons seinen rechten Arm bequem auf der Mittelarmlehne und bewegt nur seinen Unterarm. Die Position des Unterarms führt unmittelbar zur Anwahl des Icons und eine Haken-Bewegung dann zur Aktivierung. Der Blick des Fahrers verweilt während des gesamten Vorgangs dabei auf dem Verkehrsgeschehen. Der Aufwand für die Installation einer Bewegungs-basierten Gestensteuerung bleibt dabei gering. Entweder wird eine einfache Kamera an den Graphik-Controller des Infotainment-Systems angeschlossen oder direkt die Kamera eines im Dashboard integrierten SmartPhones verwendet. 1.4.5 Rückmeldung ohne Monitor mit Gesten-Sensor Die Gestensteuerung muss nicht immer mit der Rückmeldung über einen Monitor verbunden sein. Natürlich bietet der Monitor ein hohes Maß an Informationen, er ist aber mit hohem finanziellem Aufwand verbunden. Gelingt es auf den Monitor zu verzichten, können Gestensteuerungen in viele Alltagsartikel integriert werden. Document1 12/13 MYESTRO Um sich dem Gesten-Sensor zu nähern wird noch einmal auf die Theorie der Nachrichtenübertragung eingegangen. Wenn die Position der Nachrichtenquelle nicht bekannt ist muss zuerst die Nachricht detektiert werden um ihre Position zu ermitteln. Weil alle Nachrichten in Form von Gesten ausgeführt werden sollen, soll die Detektion auch über eine Detektions-Geste erfolgen. Die einfachste Form der Detektions-Gesten ist das Winken. In einer großen Menschenmenge kann eine winkende Person schnell gefunden werden. Ein Wischen reicht nicht, da ihre Bewegung zu kurz ist. Das Winken ist eine Begrüßungsgeste, die in vielen Kulturen verbreitet ist. Der Schwerpunkt der WinkBewegung kann als Zentrum, die Amplitude als Dimension des Bildbereichs aufgefasst werden, in dem die Nachrichten übertragen werden. Weil aber gerade das Winken oft als Begrüßungsgeste verwendet wird, können ungewollt Gestensteuerungen aktiviert werden. Eine Kreisbewegung eignet sich auch als Aktivierungsgeste. Der Mittelpunkt ist dann das Zentrum, der Radius die Dimension des Bildbereichs. Diese Geste wird nicht so häufig ausgeführt, so dass es nicht so oft zum zufälligen Aktivieren eines Gesten-Sensors kommt. Im Zweifel muss der Kreis zweimal beschrieben werden. Sind mehrere Gesten-Sensoren in einem Raum (auch von unterschiedlichen Herstellern), wird die Kreisbewegung von mehreren Sensoren erfasst. Sie können sich aber gegenseitig informieren, wer die geringste elliptische Verformung entdeckt hat und diesem Sensor die Nachrichtenentgegennahme überlassen. Ist eine Detektions-Geste erkannt werden nachfolgende Gesten als Nachrichten interpretiert. Wird ein Kreis als Detektions-Geste verwendet, sollte der Kreis nahtlos wie beim iPod-Shuffle auch als Nachrichtenübermittler dienen. Der Kreis lässt sich insbesondere auch zur Rückmeldung der Eingabe verwenden. Kreisförmig angeordnete LEDs signalisieren einerseits die Lage des Zeigers, anderseits können ihre Animationen auch die Nachrichtenübermittlungen bestätigen. In der aktuellen Arbeit wird ein Raspberry Pi2 als Gesten-Sensor programmiert, der die Kreisbewegung als Detektionsgeste verwendet um einen Bildausschnitt zu wählen, über den die Nachrichten zum Anwender übertragen werden. Am Beispiel eines Dimmers wird die Funktion dargestellt. Anstelle eines Dimmers können dann speziell entwickelte kompakte Gesten-Sensoren in unterschiedlichste Alltagsgegenstände wie Lampen, Jalousien, Heizung… integriert werden. Mit einem Gesten-Sensor kann nicht nur das ihn integrierende Gerät gesteuert werden, sondern auch alle verbundenen Geräte können über Bluetooth ferngesteuert werden. Somit eignet sich diese Art von Gesten-Sensor als IoT-System (Internet of things) neben Chemie, Chirurgie … besonders in einem Smart Home. Document1 13/13 MYESTRO