Hybride Kopfkamera Bildmontage von blickgesteuerter und kopffester Kamera Diplomarbeit vorgelegt von Johannes Vockeroth Dresden, den 27. Februar 2007 Technische Universität Dresden Fakultät Informatik Studiengang Medieninformatik Institut für Software- und Multimediatechnik Professur für Mediengestaltung Betreuer: Dr. Erich Schneider (LMU München) Verantwortlicher Hochschullehrer: Prof. Dr. Rainer Groh 2 Eigenständigkeitserklärung Hiermit erkläre ich, dass ich die vorliegende Arbeit selbständig verfasst und nur die erwähnten Hilfsmittel und Quellen verwendet habe. Dresden, 27. Februar 2007 3 Inhaltsverzeichnis 1. Motivation und Zielsetzung..............................................................................5 2. Stand der Technik............................................................................................... 7 2.1. Auge und Augenbewegung...................................................................... 7 2.2. Methoden zur Blickbewegungs-Messung...............................................9 2.3. Videookulographie-Systeme................................................................... 12 2.4. Subjektive Kamera und Egoperspektive............................................... 16 2.5. Blickgesteuerte Kopfkamera................................................................... 22 2.6. Hybride Perspektive - Multiperspektive...............................................26 3. Methoden........................................................................................................... 31 3.1. Einbindung in das existierende System.................................................32 3.2. Manuelle Montage in Adobe AfterEffects.............................................34 3.3. Entzerrung der Fischaugenverzeichnung............................................. 36 3.4. Hybride Darstellung der Kameras......................................................... 37 3.5. Import und Export gängiger Videoformate..........................................44 3.6. Entwicklung einer portablen Bedieneinheit......................................... 47 3.7. Evaluation der hybriden Darstellung.................................................... 52 4. Ergebnisse.......................................................................................................... 55 4.1. Darstellung von blickgesteuerten Kameras.......................................... 56 4.2. Aufnahmen mit dem portablen System................................................ 57 4.3. Blickverhalten bei der Betrachtung des aufgezeichneten Videomaterials................................................................................................. 58 5. Zusammenfassung, Bewertung und Ausblick............................................. 67 6. Literaturverzeichnis..........................................................................................71 7. Abbildungsverzeichnis.................................................................................... 73 8. Anhang............................................................................................................... 76 8.1. Vergleich von Videookulographiesystemen.........................................76 8.2. Vergleich von Kopfkamerasystemen..................................................... 78 8.3. Quelltext zur Verzeichnungskorrektur................................................. 79 8.4. Quelltext zur Darstellung des runden Blickspots................................ 80 8.5. Quelltext zur Erzeugung der Unschärfe............................................... 81 4 1. Motivation und Zielsetzung Die moderne Gesellschaft ist geprägt von Individualität. Statt Berichten über Politik und Weltgeschehen sehen wir im Fernsehen individuelle Schicksale von Auswanderen, von Hausfrauen oder von Computer- und Technikfreaks die einmal halbnackt auf der Bar tanzen wollen. Wir haben nicht nur die Wahl zwischen einem Kanal, der diese Sendung zu einer Uhrzeit sendet, sondern können aus Hunderten von Fernsehkanälen auswählen oder per Video-On-Demand und Internet die Sendung gleich zur Wunschzeit anschauen. In unzähligen Blogs erzählen Menschen im Internet ihre individuelle Geschichte, die wiederum eine von vielen ist, die sich Andere individuell zusammen stellen. Die Menschen erstellen persönliche Internetseiten auf MySpace&Co. um sich selbst darzustellen und Andere kennen zu lernen. Computer, Autos und Technik kaufen wir heute nicht in Einheitsgröße, sondern können aus einem Baukastenprinzip unendliche Kombinationen auswählen. Im Computerspiel „Second Life“ bauen wir unsere eigenen Gegenstände. Diese Welt wird uns nicht vorgeführt, wir können sie selbst betreten und uns darin umschauen. Wir produzieren individuell und wir konsumieren individuell – zumindest haben wir das Gefühl. Diese Arbeit soll das nicht stoppen. Hier wird an einem Werkzeug für diejenigen mitgearbeitet, die ihre persönliche Sicht auf die Welt darstellen wollen, die ihre Geschichte erzählen wollen, die genau das zeigen wollen, was sie mit ihren eigenen Augen gesehen haben. Dabei soll auch der Konsument selbst entscheiden, wie er das sieht – zumindest sollte er das Gefühl haben. Das Werkzeug ist eine Kopfkamera. Im Internet finden sich bereits entsprechende Filme von Mountainbikern, Skifahrern und Fallschirmspringern. Im Fernsehen gibt es Reportagen aus der Subjektive, wo sich mutige Journalisten in gefährliche Banden einschleusen und nun ihre Geschichte erzählen. Die darin verwendeten Kameras haben einen Nachteil: Sie zeigen nur, was gesehen werden konnte, aber nicht, was tatsächlich angeschaut wurde. Die hier verwendete – blickgesteuerte – Kopfkamera hat auch einen Nachteil: Sie zeigt nicht, was sonst noch gesehen werden konnte, sondern nur, was tatsächlich angeschaut wurde. Ziel dieser Arbeit ist demnach eine Kopfkamera, die sowohl zeigt, was gesehen werden konnte als auch, was tatsächlich angeschaut wurde. Sie ist dafür sowohl mit einer weitwinkligen Szenenkamera also auch mit einer blickgesteuerten Kamera ausgestattet. Hier soll untersucht werden, wie die beiden Bilder dieser Kamera zusammen geführt werden können. Was passiert, wenn das Bild der einen einfach auf das der Anderen geklebt wird? Welche 5 Optionen gibt es da? Wie wird so ein Gerät im Alltag dann bedient? Und schauen sich das die Leute überhaupt an? Das folgende Kapitel legt Grundlagen zu Augenbewegungen, zu Blickbewegungsmessung, zur Messung mit Videokameras, zur „Subjektiver Kamera“, zur Steuerung durch Blicke sowie zur hybriden Darstellung von zwei verschieden Kameras. Im dritten Kapitel wird gezeigt, wie die eigene Entwicklung auf der existierenden Software der blickgesteuerten Kamera aufgebaut, wie das Bild eines billigen Fischaugenobjektivs korrigiert wird, wie die Videos dann tatsächlich montiert werden, wie man sie in jedem Player abspielen kann, wie ein portables Aufnahmegerät aussieht und schließlich wie man rausfindet, ob sich das die Leute dann auch anschauen. Das vierte Kapitel listet die Ergebnisse auf und zeigt, was bei der Montage alles beachtet werden kann, was bei den Aufnahmen so heraus gekommen ist und was sich die Leute dann tatsächlich angeschaut haben. Schließlich gibt das fünfte Kapitel darüber Auskunft, warum sich die Arbeit gelohnt hat, warum man sich keine Sorgen über die Montage machen muss, warum sich das die Leute tatsächlich anschauen und warum in der Zukunft noch vieles besser werden kann. 6 2. Stand der Technik 2.1. Auge und Augenbewegung Um eine Kamera durch die Bewegung der Augen zu steuern, ist es wichtig, die Grundlagen über den anatomischen Aufbau der Auges zu kennen und die damit verbundenen Möglichkeiten der Augenausrichtung. Im Folgenden werden darüber hinaus die Fähigkeit des Auges zur Fixation von Blickzielen, die zwischen den Fixationen stattfindenden schnellen Blicksprünge, die Sakkaden, sowie kleine Mikrobewegungen beschrieben. Augenbewegungen können zudem durch den Gleichgewichtssinn mit dem so genannten vestibulookulären Reflex (VOR) gesteuert werden. Augenfolgebewegungen ermöglichen es, bewegten Objekten ohne Sakkaden zu folgen. Die Vergenzstellung beider Augen gibt Auskunft darüber, in welcher Entfernung ein Objekt wahrgenommen wird. Das Auge lässt sich als kugelförmiges Objekt annehmen. Von vorne sieht man eine Öffnung in den Innenraum des Auges, die Pupille. Umgeben wird die Pupille von der Iris, einer Muskelgruppe zur Kontrolle der Blendenöffnung und damit der Menge des einfallenden Lichtes. Pupille und Iris werden von der vorderen Augenkammer und einer Hornhaut, der Cornea bedeckt. Um Pupille und Iris herum befindet sich die Sclera, das sichtbare Weiße des Auges. An der Inneren Rückwand des Auges befindet sich die Retina, eine lichtempfindliche Schicht, welche ein Abbild der Umwelt in neuronale Signal umwandeln kann. Die Fovea centralis oder auch der gelbe Fleck bildet dabei die Zone des schärfsten Sehens. Hier ist die Dichte besonders der für das Farbsehen verantwortlichen Zapfen deutlich höher, so dass die Einzelheiten eines Objektes besonders gut unterschieden werden können. Zudem findet in diesem Bereich der Großteil der Farbwahrnehmung statt. Außerhalb dominieren die Stäbchen, welche nur für die Wahrnehmung der Helligkeit verantwortlich sind [Pin97]. Das gesamte Blickfeld des Auges umfasst einen Kegel von circa 100°, die Zone des schärfsten Sehens ist mit circa 1° aber deutlich kleiner. Weiter von der Fovea entfernte Objekte werden mit einer deutlich geringeren Schärfe und abnehmender Farbintensität wahrgenommen. Schon bei einer Abweichung von 3° verringert sich die Schärfe um die Hälfte. Zwischen der Fixation auf bestimmte Objekte finden Sakkaden statt, wobei sich das Auge mit bis zu 1000° pro Sekunde um einen Winkel von 60° drehen kann [JRV03]. Für die Augenbewegung und dessen Ausrichtung sind sechs Muskeln verantwortlich. Sie gruppieren sich in drei komplementäre Paare, welche den Augapfel in drei verschiedenen Freiheitsgraden rotieren können. Die jeweiligen Drehachsen stehen nicht zwangsläufig orthogonal zueinander und 7 sind auch nicht von der primären visuellen Achse abhängig [KSJ00]. Je nach vorheriger Augenstellung kommen andere Muskeln zum Einsatz. Das Auge bewegt sich, um visuelle Reize auf der Retina möglichst scharf und konstant im Bereich der Fovea abzubilden, neue Objekte im Blickfeld zu erfassen oder das Blickziel zu stablisieren. Mit Hilfe der Torsion, also dem Rollen des Auges, wird sichergestellt, dass bei Kopfbewegungen um die Rollachse dieses Bild möglichst aufrecht steht. Allerdings folgt das Auge beim Menschen einer solchen Kopfbewegung im dynamischen Fall nur zu circa 40% [TSM+94] und im statischen Fall zu 10% bis 20% [CEH+99]. Abbildung 2.1: Muskulatur des Auges Im Bild zu erkennen sind die sechs Muskeln zur Augenbewegung in drei Dimensionen. (Gray's Anatomy) Prinzipiell können kompensatorische Augenbewegungen zur Stabilisierung und zielsuchende Bewegungen zur Ausrichtung auf ein neues Blickziel unterschieden werden. Die primäre Aufgabe des Auges ist es, den Blick auf ein Objekt zu fixieren, um ein stabiles Abbild auf die Retina beider Augen zu projizieren. Die Fixation kann aber durch Bewegungen des Kopfes oder des Objektes beeinträchtigt werden. Aus diesem Grund gibt es drei Systeme, welche diese Bewegungen kompensieren. Der vestibulookuläre Reflex (VOR) bezeichnet die Verschaltung des Gleichgewichtsorgans mit der Bewegung des Auges. Er sorgt dafür, dass der Blick trotz Kopfbewegung stabil auf ein Ziel gerichtet bleibt. Dabei wird eine Änderung der Lage und der Geschwindigkeit von den Bogengängen im linken und rechten Innenohr über den so genannten DreiNeuronen-Reflexbogen an die Augenmuskulatur gesendet [Nó33]. Die Gesamtlaufzeit des VOR liegt bei circa 10 ms und reicht damit aus, trotz 8 Kopfbewegung ein stabiles Bild auf der Retina zu erzeugen. Wird eine maximale Auslenkung in einem Freiheitsgrad erreicht, macht das Auge eine schnelle Rückstellbewegung ähnlich einer Sakkade. Die Kombination aus der langsamen Folgebewegung und dem schnellen Rückstellen wird als vestibulärer Nystagmus bezeichnet. Bewegt sich nicht der Kopf, sondern das gesamte retinale Abbild, kommt es dagegen zum optokinetischen Nystagmus. Dies tritt typischerweise auf, wenn man sich in einem Zug bewegt und die Landschaft vorüber zieht. Schließlich entsteht die „smooth persuit“ genannte Augenfolgebewegung, wenn sich ein Objekt im Blickfeld bewegt. Ab einer Geschwindigkeit bis zu 80° pro Sekunde macht das Augen wiederum Sakkaden, um das Objekt einzuholen. Da die Zone des schärfsten Sehens etwa ein Grad beträgt, das Blickfeld aber etwa 100°, macht der Mensch Sakkaden gepaart mit kurzzeitigen Fixationen, um eine Vorstellung der Szene zu erreichen und neue Ziele zu suchen. Dabei passieren bei einer neuen Szene innerhalb einer Sekunde circa drei Fixationen mit einer Dauer von mindestens 100ms [YoS75], welche durch die Sakkaden unterbrochen werden. Zwischen 30-40ms vor und bis zu 120ms nach einer Sakkade ist die visuelle Wahrnehmung dabei drastisch eingeschränkt [VRW78]. In den ersten drei Sekunden der Betrachtung eines neuen Bildes, finden dabei wesentlich mehr Fixationen und deutlich größere Sakkaden satt. Mit der Zeit nehmen die Frequenz der Fixationen sowie die Amplitude der Sakkaden ab [UPJ+05]. In Laborsituationen tritt eine dritte Klasse der Augenbewegungen, so genannte Mikrobewegungen auf, welchen die Funktion zugeordnet wird, ein sich stets änderndes retinales Abbild zu erzeugen, um damit den visuellen Stimulus aufrecht zu erhalten. Neuronen reagieren in der Regel besser auf Veränderungen als auf konstante Reize [JRV03]. Allerdings ist diese These umstritten, da die Mikrobewegungen mit der gleichen Frequenz auftreten, wie normale Sakkaden, die damit ausreichen würden, den visuellen Stimulus zur erhalten. Die bisher vorgestellten Augenbewegungen treten alle konjugiert, also für beide Augen parallel auf. Ziel der Vergenzstellung des Auges ist es, ein Objekt beidseitig in der Zone des schärfsten Sehens abzubilden. Die Vergenz ist damit ein Maß für die Entfernung eines betrachteten Objektes. Sie kann sowohl als kompensatorische Bewegung, sowie bei schnellen Fixationen auftreten. 2.2. Methoden zur Blickbewegungs-Messung Die Geschichte der Messung von Augenbewegung und Blickrichtung geht bis ins 18. Jahrhundert auf Erasmus Darwin zurück. Helmholtz und Listing bestimmten 1863 die Augenbewegung mittels Nachbilder. Die 9 Testperson musste dabei längere Zeit auf einen Punkt innerhalb eines aufgezeichneten Gitters schauen. Danach wurde die Blickrichtung geändert und das nun gesehene Gitter mit dem Nachbild auf der Netzhaut verglichen. Mit dieser Methode konnte vor allem die Torsion des Auges gemessen werden [Hel1863]. Mittlerweile werden eine Vielzahl von technischen Methoden angeboten, um Stellung und Bewegung der Augen zu messen. Das Funktionsprinzip kann sich dabei grundlegend unterscheiden. So ist für die Registrierung von schnellen Augenbewegung prinzipiell eine andere Methode zu bevorzugen, als für die Bestimmung der exakten Blickrichtung, wie beim Lesen eines Buches. Je nach Anwendungsbereich können prinzipiell vier Methoden zur Messung unterschieden werden: ● Mechanisch – mittels Strohhalm und Tinte [Ohm28] ● Elektromagnetisch - mittels Spulen im Magnetfeld ● Elektrisch - durch Potentialmessung mittels Elektroden ● Optisch – durch Reflexionen am Auge Bei der elektromagnetischen „Search Coil“ Technik werden in eine Kontaktlinse kleine Spulen eingebettet und deren Anschlüsse nach außen gelegt. Die Testperson muss die Linsen einsetzen und befindet sich während des Versuchs in einem dreidimensionalen Spulensystem. [Rob63] Diese Methode ist sehr genau und bietet eine hohe zeitliche und räumliche Auflösung, hat aber den Nachteil, dass sie für den Träger unkomfortabel ist. Wegen der Gefahr eines Ödems kann sie nur für sehr kurze Perioden bis zu 30 Minuten eingesetzt werden. Abbildung 2.2: Elektromagnetische „Search Coil“ Methode mittels Kontaktlinse (Links:Timothy C Hain, Rechts: Haslwanter [Has00]) Durch die Anbringung von Hautelektroden nahe des Auges können Augenbewegungen in einem Elektrookulogramm (EOG) dargestellt werden. Dabei macht man sich den Effekt zu Nutze, dass bei Augenbewegungen zwischen Hornhaut (Cornea) und Netzhaut (Retina) eine elektrische 10 Potentialdifferenz von circa 0.4 bis 1 Volt besteht. Diese Differenz wird als cornearetinales Potential bezeichnet. Der Vorteil der Methode liegt in dem hohen Messbereich von 140°. Ein Nachteil ist die Störempfindlichkeit gegenüber den Potentialen der Augenmuskulatur. [YoS75] Abbildung 2.3: Elektrookulographisches EOG System mit Szenenkamera (Shackel 1960) Optische Methoden machen sich die Reflektionseigenschaften des Auges zu Nutze. Werden die Augen zum Beispiel mit infrarotem Licht beleuchtet, so entstehen durch die verschiedenen optischen Grenzflächen die so genannten Purkinjebilder, welche mit Photodioden, Zeilenkameras oder Videokameras aufgezeichnet werden können. Das erste Purkinjebild ist die Hornhautreflekion, das Vierte entsteht durch den Übergang zwischen Linse und Augeninnenraum. Durch die Bewegung des Auges verändert sich das Verhältnis der Abbilder und lässt damit die Berechnung der Blickrichtung zu. Der Vorteil des Systems liegt in der hohen örtlichen und zeitlichen Auflösung. Nachteilig ist der geringe Kontrast des vierten Bildes. Abbildung 2.4: Purkinjebilder (fourward.com) 11 Bei der Infrarotokulographie (IROG) bedient man sich nur der Hornhautreflektion (Corneareflex). Da die Cornea einen anderen Krümmungsradius als der übrige Augapfel besitzt, bleibt ein durch Photodioden oder Kameras aufgezeichneter Reflex einer Punktlichtquelle nicht starr an einem Ort, sondern wandert mit der Drehung des Auges. Die Anordnung zwischen Lichtquelle, Kopf und Sensoren muss dabei sehr genau und stabil eingestellt werden, da schon kleine Änderungen als Augenbewegung interpretiert werden könnten. Mit der Methode lassen sich vertikale und horizontale Bewegungen des Auges innerhalb eines Bereiches von circa 15° aufzeichnen. Innerhalb dieses Bereiches wird eine Genauigkeit von 0.1° erreicht. Die zeitliche Auflösung kann bis zu 1000 Hz betragen. [opt07] Abbildung 2.5: Apparaturen zur Messung mittels Infrarotokulographie (Links: optom.de, Mitte, Rechts: eyemove.com) 2.3. Videookulographie-Systeme Während sich Purkinjebilder oder Corneareflex bequem und in hoher zeitlicher Auflösung mittels Photodioden oder Zeilenkameras aufzeichnen lässt, wird bei der Videookulographie (VOG) ein Bild des gesamten Auges aufgenommen und ausgewertet. Dazu ist eine mathematische Modellierung der Abbildung des Auges, sowie eine aufwendige Auswertung mittels Bildverarbeitung auf einem Computer nötig. Analoge Videokameras haben dazu eine zu geringe zeitliche Auflösung von lediglich 60Hz. Aus diesem Grund waren Videookulographiesysteme in der Vergangenheit eher die Ausnahme. Durch die rasante Entwicklung der digitalen Kamera- und Computertechnik können heutige Systeme aber eine sehr hohe zeitliche und räumliche Auflösung aufweisen. Zudem können mit entsprechenden Algorithmen alle drei Freiheitsgrade der Augenbewegung gemessen werden. VOG-Systeme können prinzipiell durch die Anbringung der Kamera unterscheiden werden. Wird die Kamera stationär im Raum fixiert, besteht die Aufgabe darin, den Kopf und das darin befindliche Auge zu finden und 12 daraus die Blickrichtung zu bestimmen. Diese Systeme eigenen sich insbesondere dafür, Blickziele im Raum zu bestimmen, zum Beispiel eine bestimmte Bildschirmkoordinate. Die Bandbreite dieser Systeme reicht vom einfachen Set aus Webcam und Infrarotbeleuchtung als Mausersatz bis zu komplexen Systemen mit sehr hoher zeitlicher Auflösung für medizinischwissenschaftliche Anwendungen. Dabei unterscheiden sich stationäre Systeme darin, ob der Nutzer den Kopf während der Sitzung frei im Raum bewegen kann, oder ob er fest fixiert wird. In der Regel geht es bei Produkten für Mausersatz und Analyse von Bildern eher darum, komfortabel zu sein, wobei bei zeitlich hoch aufgelösten wissenschaftlichen Geräten eine hohe Präzision von Bedeutung ist. Abbildung 2.6: Anwendung und Beispiele für stationäre VOG-Systeme Bewegungsfreiheit für den Kopf (Links: eyetechds.com, Mitte: seeingmachines.com, Rechts: eyeresponse.com) Bei einer kopffesten Systemen werden Augenbewegungen bezüglich des Kopfes gemessen. Aus diesem Grund lässt sich ohne Weiteres keine Aussage über das Blickziel treffen. Basis aller Systeme ist eine Kopfhalterung, meist eine Brille, ein Strinband oder ein Helm. Daran werden im monokulären – also nur ein Auge betrachtenden – Betrieb eine Kamera zur Überwachung eines Auges, im binokulären Betrieb zwei Kameras befestigt. Dabei wird das Auge entweder direkt gefilmt oder die Abbildung über einen für sichtbares Licht transparenten Infrarotspiegel umgeleitet. Die meisten Systeme basieren darauf, das Auge mit einer Infrarotlichtquelle zu beleuchten. Damit ist das System zum Einen unabhängig von der übrigen Beleuchtung und funktioniert auch bei Dunkelheit, zum Anderen lassen sich durch das Wissen um die Lichtquelle auch Effekte wie Purkinjebilder oder Corneareflektionen bei der Auswertung nutzen. Die Beleuchtung kann dabei entweder zentral, möglichst nah an der Linse der Kamera oder peripher angebracht werden. Zentrale Systeme leuchten direkt in die Pupille, wodurch das Licht an der Netzhaut reflektiert wird und die Pupille im Abbild hell erscheinen lässt – ähnlich dem Rote-Augen-Effekt beim Blitz eines Fotoapparats. Wird die Beleuchtung nun mit einer bestimmten Signatur an- und ausgeschaltet, kann die Pupille so leicht gefunden werden. Zudem vereinfacht achsennahes Anbringen der Beleuchtung die Nutzung der Reflektionen zur Berechnung von Verschiebungen der Kopfbefestigung 13 gegenüber des Auges. Mit einer peripheren Beleuchtung kann sicher gestellt werden, dass die Pupille der dunkelste Bereich des Bildes ist. Zudem können komplexere Modelle mit Hilfe der Reflexe berechnet werden. Abbildung 2.7: Typisches Bild einer Augenkamera. Zur Kalibration befindet sich an den Systemen ein Laser, zum Beispiel ein Punktegitter mit einem bestimmten Winkel. In einer Kalibrationsprozedur muss die Testperson vorher festgelegte Punkte anschauen, zu denen jeweils die Pupillenposition gemessen wird. Nach der Kalibration kann so eine Aussage über den Blickwinkel gemacht werden. Anstelle oder ergänzend zum Laser verfügen einige Systeme über eine kopffeste Kamera, wie schon in Shackels EOG System von 1960. Im Videobild der Kamera können nach einer Kalibration genau die Bereiche markiert werden, welche von der Testperson angeschaut wurden. Abbildung 2.8: Aufbau eines kopffesten Videookulographiesystems Dieses kopffeste VOG System besteht aus zwei Kameras, welche die Augen filmen. Dabei wird das Bild über einen für sichtbares Licht transparenten Infrarotspiegel umgeleitet. Die Infrarot-Beleuchtung ist zentral an den Kameras und peripher an der Brille befestigt. Zur Kalibration des Systems befindet sich ein Laser mit einem Kalibrationsgitter an der Kopfhalterung. Das System kann durch eine Szenenkamera ergänzt werden. 14 Die so genannte Video-Nystagmographie (VNG) ist ein Hauptanwendungsbereich für kopffeste Systeme, wobei eine Aussage über die Geschwindigkeit des Auges in Pixel/Sekunde oder die absolute Position in Pixel von Interesse ist. VNG-Systeme haben ein extrem eingeschränktes Blickfeld und in der Regel eine Möglichkeit zur kompletten Verdunklung. Eine hohe Abtastfrequenz spielt bei dieser Anwendung keine besondere Rolle, aus diesem Grund kommen in der Regel analoge Kameras mit 60 Hz zum Einsatz. Abbildung 2.9: Systeme zur Videonystagmographie (Rechts: smi.de, Mitte: gnotometrics.com, Rechts: difra.de) Zur Bestimmung der Blickrichtung relativ zum Kopf eignen sich kopffeste mobile VOG-Systeme. Dabei soll eine Aussage über den Blickwinkel in Grad, Geschwindigkeiten in Grad/Sekunde oder die Fähigkeit zum Fixieren auf ein Blickziel getroffen werden. Dafür ist in der Regel eine Kalibration nötig. Die Systeme verfügen über ein möglichst uneingeschränktes Blickfeld und nutzen aus diesem Grund Umlenkspiegel, um keine störenden Kameras im Blickfeld zu platzieren. Da sie auch zur Untersuchung von schnellen Augenbewegungen wie Sakkaden eingesetzt werden, ist eine hohe zeitliche Auflösung zwischen 200 und 500 Hz nötig. Der Zusammenhang mit Zielen im Raum kann optional über eine weitere kopffeste Szenenkamera erreicht werden, welche das gesamte Blickfeld abfilmt. Abbildung 2.10: Kopffeste VOG-Systeme mit HochgeschwindigkeitsKameras (Links: a-s-l.com, Links oben: chronos-vision.de, Links unten: forbias.de) 15 Schließlich liegt bei portablen Systemen der Fokus auf der Szenenkamera und der Markierung des Blickziels innerhalb dieses Videobilds. Diese Systeme werden zum Beispiel für psychologische Studien eingesetzt, um etwa das natürliche Blickverhalten im Straßenverkehr oder gegenüber Plakatwänden zu untersuchen. Für diese Aufgabe ist es wichtig, kleine, leichte Kameras und Brillen zu verwenden. Die Abtastfrequenz der meist analogen Kameras liegt bei 30-60 Hz. Abbildung 2.11: Portables VOG-System mit tragbarem Videorecorder. (a-s-l.com) Im Anhang findet sich ein tabellarische Überblick, von stationären Systemen mit und ohne Möglichkeit zur freien Kopfbewegung, kopffesten Systemen für die Nystagmographie, kopffesten Systeme mit Hochgeschwindigkeitskameras sowie portablen Systeme. 2.4. Subjektive Kamera und Egoperspektive Während bei der Messung von Blickbewegungen eine kopffeste Szenenkamera zu Referenz- und Markierungszwecken eingesetzt wird, hat die Idee der Darstellung einer streng subjektiven Sicht ihre Wurzeln im Spielfilm – im so genannten „point of view shot“ POV. Darüber hinaus entwickelt sich für Kopf- und Helmkameras eine starke Subkultur, wobei Szenen aus Sport und Freizeit mittels einfacher und leichter Kameras für den privaten Gebrauch aufgezeichnet werden. Im Bereich des Internets hilft die subjektive Sicht die ohnehin sehr durch persönliche Meinung geprägte Blog-Kultur, durch entsprechende POV shots visuell zu untermalen. In Computerspielen bekommt der Nutzer mit der „Egoperspektive“ die Möglichkeit, sich frei und autonom zu orientieren. Der Begriff des „Point of View“ kann aus zwei Richtungen betrachtet werden. Aus der Literatur kommt die erzählerische Ich-Perspektive, welche den Leser mit dem Protagonisten identifizieren soll. Auch im Film wird diese Erzählform genutzt. Um dem Zuschauer einen subjektiven Eindruck zu verschaffen ist also keine besondere Kameraeinstellung nötig, so wird beispielsweise bei der Berichterstattung von Nachrichten ein betont subjektives Erlebnis eines Reportes allein durch den Text vermittelt [Hip00]. Für diese Art des subjektiv geprägten Autorenfilms gibt es den Begriff des „first person 16 cinema“, welcher 1953 von Bruce Conner und Stan Brakhage geprägt wurde. [Ifs07] Klassische Filmszenen, welche einen subjektiven Eindruck eines Protagonisten darstellen, bestehen in der Regel aus einer Einstellung, welche den Protagonisten und seinen Blick zeigen gefolgt von einer Einstellung, welche das angeschaute Objekt zeigen. Edward Branigan nennt das auch „point/glance“ shot sowie „point/object“ shot. Eine formalere Herangehensweise an den Begriff bezieht sich auf eine Einstellung, die genau das zeigt, was eine Person sieht: „The POV shot is a shot in which the camera assumes the position of a subject in order to show us what the subject sees“ [Bra85] In vielen Filmen wird daher komplett auf die äußere Darstellung der Person verzichtet. So wird in Horror- und Kriminalfilmen oft der Blick des Mörders durch eine Subjektive dargestellt (zum Beispiel hinter einem Busch hervor schauend). Das soll beim Zuschauer ein Gefühl der Unsicherheit und des Ausgeliefertseins erzeugen, ein Beispiel dafür ist der Film „Predator“. Abbildung 2.12: Klassiker der subjektiven Kamera "Dr. Jekyll and Mr. Hyde" (1931) gilt als einer der Ersten, „You and Robert Montgomery“ in the „Lady in the Lake“ (1947) ist komplett subjektiv, „Dark Passage“ (1947) hatte dank Humphrey Bogart großen Erfolg. Fast die komplette erste Hälfte zeigt die Subjektive Bogarts, bis zu seiner Gesichtsoperation. Die Darstellung des Gesehenen lässt den Zuschauer erleben, was der jeweilige Protagonist fühlt und erlebt. Einer der ersten Filme, der sich die subjektive Kamera zu Nutze macht, ist ist der 1931 erschienene „Dr. Jekyll and Mr. Hyde“ von Rouben Mamoulians. Zu Beginn des Filmes sieht der Zuschauer die ganze Welt aus der Sicht des Wissenschaftlers Dr. Jekyll. Erst in einer Vorlesung sieht man ihn dann von außen. Der Wissenschaftler ist beseelt von der Idee, das Gute und das Böse im Menschen voneinander trennen zu 17 können und entwickelt aus diesem Grund ein Elixier, welches die böse Seite der Persönlichkeit hervor treten lässt. Beim ersten Selbstversuch schlüpft der Zuschauer wieder in die Rolle des Dr. Jekyll und erlebt mit ihm den skurrilen Einfluss der Droge und die Verwandlung in Mr. Hyde. Oft sind subjektive Darstellungen mit optischen Effekten verbunden, zum Beispiel mit Unschärfe oder stark wackelnden Kameras. Der Film „The Russian Ark“ (2002) von Alexander Sokurow erzählt die Reise eines ungenannten Protagonisten durch 300 Jahre russische Geschichte. Begleitet von einem französischen Adligen, durchschreitet er die Sankt Petersburger Eremitage. Durch die Erzählung des Protagonisten, der subjektiven Sicht und unterstützt durch das Teils unhöfliche Verhalten des ihn begleitenden Franzosen, kann sich der Zuschauer schnell mit dem Protagonisten identifizieren. Die Besonderheit des Filmes liegt auch darin, dass die kompletten 90 Minuten an einem Stück vom Berliner Kameramann und Experten für Steadycams Tilmann Büttner gedreht wurde. Abbildung 2.13: Der komplett subjektive Film "Russian Ark" (2002). Rechts: Der Protagonist im Diskurs mit dem französichen Adligen, Rechts: Der ganze Film wurde an einem Stück mit einer für subjektive Kamera typischen Steadycam aufgezeichnet. (Fotos: Alexander BELENKIY) Klassiker wie "Dr. Jekyll and Mr. Hyde" (1931), „Lady in the Lake“ (1947) oder „Dark Passage“ aus den 30er und 40er Jahren und auch moderne Filme wie „Beeing John Malkovich“ (1999), „Mission Impossible“ (1996) oder eben „Russian Ark“ (2002) nutzen zur Umsetzung der subjektiven Sicht so genannte Steady Cams, mit der ein ruhiges und flüssiges Bild erzeugt werden kann, in dem die Trägheit der Kamera durch Gewichte erhöht wird. Manchmal werden die Bilder künstlich mit Effekten verfremdet oder mit zusätzlich Elementen wie Sucher, Ferngläser, Brillen oder Aufnahme-Lampe erweitert. Ein anderer Ansatz Subjektivität zu zeigen, ist der Einsatz von „wackeligen“ Handkameras oder Schulterkameras. Dabei entsteht im Wesentlichen der „god point of view“ oder „nobody POV“, wie er auch charakteristisch für Hitchcocks „Die Vögel“ war. Die „Wackelkamera“ identifiziert den Zuschauer mit dem Kameramann, einem unabhängigen Dritten. So versetzen Filme wie „Blair Witch Project“ durch ihren suggerierten Dokumentations- und Reportagecharakter den 18 Zuschauer in das Geschehen. Auch das durch den Regisseur Lars von Trier und seinen Kollegen initiierte „Dogma 95“ Manifest erzeugt dank Beschränkung auf Handkameras, natürliche Umgebungsgeräusche- und Licht, sowie den Verzicht auf Spezialeffekte und Filter einen entsprechenden Eindruck. Abbildung 2.14: Authentizität mittels subjektiver Handkameras „Blair Witch Project" (1999) Dank fortschreitender Technik und Miniaturisierung der Kameratechnik entstehen inzwischen immer mehr Videofilme und Fernsehbeiträge direkt mit einer kopffesten Kamera. So wurden Berichte von Sportevents wie Ski, Mountainbike oder Extremsport auch gerne mit entsprechendem Videomaterial angereichert. Insbesondere die Möglichkeit einer versteckten Kamera machen die Technik für investigativen Journalismus perfekt. So erscheinen Kopfkameras immer häufiger in Reportagen über illegale Aktivitäten, wie Schlepperbanden, Sextouristen oder Betrüger. Auch die Naivität der Bevölkerung wird mit solchen Kameras auf die Probe gestellt. Mittlerweile gilt eine Brillenkamera dafür als bestes Mittel. Abbildung 2.15: Versteckte Kamera im Fernsehen Das RTL-Magazin "Explosiv" enttarnt einen Zuhälter für Kinderprostitution in Bukarest. Die breite Anwendung von Minikameras im Spionage- und Detektivbereich machen diese Technik auch für Hobby-Videofilmer interessant und erschwinglich. Vor allem Extremsportler und Fallschirmspringer konnten dank ihres Helms schnell gute Videokameras nutzen. Im Internet ist die Gruppe der Motorradfahrer sehr aktiv, die sich in Foren wie 19 helmetcameracentral.com über geeignete Kameras und Aufbauten austauschen. Auf der Videoplattform YouTube.com finden sich subjektive Filme von Skitouren, Mountainbike, Motorad, Fallschirmspringern und vieles mehr. Mittlerweile bieten auch viele Seiten spezielle Sets für Helme an. Der deutsche Hersteller BLACKEYE erhielt für seine Helmkamera kürzlich den EUROBIKE AWARD 2006. ARCHOS, ein großer Hersteller von portablen MP3- und Videogeräten hat eine entsprechende Helmkamera in sein reguläres Sortiment aufgenommen. Zur Expo 2000 startete das ZDF mit Axel Mengewein als „Cyporter“ ein Online-Angebot, wobei Zuschauer im Internet Videos von der Kopfkamera des Reporters anschauen können. Dem ZDF wurde für diesen Vorstoß im Online-Journalismus auch der Prix Italia 2000 in Bologna überreicht, der Dienst wurde aber wenig später wieder eingestellt. Auch der Fernsehsender SAT.1 hatte eine ähnliches Angebot – die Netzreporter. Doch die Sender waren ihrer Zeit voraus. Derzeit gibt es für solch subjektiv geprägten Onlinejournalismus das Phänomen der Weblogs, oder kurz Blog. Dabei berichten Nutzer von ihren alltäglichen Erlebnissen und Einstellungen in einer tief subjektiven Art und Weise. Audioblogs oder nach dem Produkt iPod des Hestellers Apple getaufte Podcasts erweitern das Blogging auf gesprochene Audiobeiträge. Beim so genannte Videoblogging sieht man in der Regel den Sprecher. Selbst Bundeskanzlerin Angela Merkel veröffentlichte 2006 ihren ersten VideoPodcast. Das Videoblogging ist somit die moderne Form des first person cinemas. Eine subjektive Kamera könnte das Videoblogging sinnvoll erweitern. Abbildung 2.16: Videopodcast der Bundeskanzlerin Angela Merkel (bundeskanzlerin.de) Mit einer ganz anderen Art der subjektiven Kamera werden Computerspiele-Nutzer von so genannten First-Person-Shootern oder Egoshootern konfrontiert. Der „point of view shot“ wird bei diesem Genre in „first person view“ bzw. „Egoperspektive“ umgetauft. Die Spiele haben durch ihre Perspektive eine enorm immersive Wirkung, der Spieler kann sich sehr gut in das Spielgeschehen hinein versetzen. In der Regel haben die Kameras einen Öffnungswinkel von 90°, was fast dem natürlichen Blickfeld entspricht. Der Spieler sieht von sich selbst nur Waffen oder seine Füße. Zusätzlich 20 werden in einem, mit den Militärflugzeugen der 40er Jahre entstandenen und im Computerspiel übernommenen, „head up display“ (HUD) weitere Informationen angezeigt. Dem Nutzer wird anders als im Film ein hoher Grad an Interaktion bei der Orientierung ermöglicht. In der Regel kann der Blick mit der Maus, aber auch mit entsprechenden „head mounted displays“ (HMD) gesteuert werden. Durch die „Eigenregie“ wirken die Bilder auf den Spieler nicht so störend. Es sind wesentlich schnellere Blicksprünge möglich, als dies beispielsweise bei der klassischen subjektiven Kamera des Films möglich ist. Die Egoperspektive kam in 3D-Spielen auf, wie dem 1992 entwickelten „Castle Wolfenstein 3D“ oder „Doom“ aus dem Jahre 1993, was damals eine revolutionäre Neuerung der Spielegrafik darstellte. Der 2005 erschienene Film zum Spiel Doom zeigt gegen Ende eine fünfeinhalbminütige Sequenz in der Egoperspektive. Abbildung 2.17: Der first person shooter "Doom" (1993) Links: Egoperspektive inklusive Waffe und „head up display“. Rechts: Die Verfilmung von 2005 nutzt ebenfalls die subjektive Einstellung als Stilmittel. (Links: idsoftware.com, Rechts: doommovie.com) Schließlich insbesondere im liegen weitere Bereich der Anwendungbereiche Sicherheitstechnik, für zum Kopfkameras Beispiel zur Überwachung oder zur Dokumentation von Kriegs- und Polizeieinsätzen. So stattet der britische Hersteller Second Sight Surveillance polizeiliche Behörden mit einem Kopfkamerasystem aus, um Berichte zu vereinfachen. Für Ausbildungszwecke eignet sich der unverstellte Blick auf ein Objekt um Live einem ganzen Vorlesungssaal die Handhabung eines bestimmten Teils zu demonstrieren, unter Umständen über mehrere Kilometer Entfernung. Auch die Fernwartung ist ein typischer Anwendungsbereich für diese Art von Kameras, wobei ein Experte das Blickbild eines weit entfernten Monteurs überwachen und entsprechende Hinweise geben kann. Im medizinischen Bereich können mit Kopfkameras unverstellte Videos zur lückenlosen Dokumentation von Operationen estellt werden. Experimentelle MedienkunstProjekte wie der Tele-Actor, übernehmen die Metapher des Egoshooters und lassen mit Kameras ausgestattete Schauspieler durch das Publikum fern 21 steuern. Dabei moderieren einige Mittelsmänner die Wünsche der Zuschauer über das Internet und geben die Kommandos an die Darsteller weiter. Abbildung 2.18: Kopfkameras bei der Polizei Kameras könnten bei Sicherheitsbehörden bald zur Standardausstattung gehören (doublevisionsystems.com) Ein tabellarischer Kopfkamerasysteme, angeschlossen Überblick welche werden im direkt können, Anhang an sowie eigene vergleicht aktuelle Aufnahmesysteme Komplettgeräte inklusive Aufnahmegerät. 2.5. Blickgesteuerte Kopfkamera Kopffeste Videookulographiesysteme nutzen die Daten aus der Pupillensuche um im Videobild einer Szenenkamera das aktuelle Blickziel zu markieren. Die Idee einer blickgesteuerten Kopfkamera besteht darin, die gesamte Kamera aufgrund der VOG-Daten auf das Blickziel zu richten. Damit entspricht das aufgezeichnete Video viel mehr dem natürlichen Blickverhalten des Menschen. Darüber hinaus kann die Kamera über das gesamte Gesichtsfeld bewegt werden, also einen wesentlich größeren Bereich erfassen. Kopffeste Kameras sind in der Regel auf eine bestimmte Richtung festgelegt, alternativ kann ein Objektiv mit einem Öffnungswinkel weit jenseits der 100° des natürlichen Blickfeldes genutzt werden. Dies verringert jedoch die Detailschärfe des Bildes oder verlangt nach einer Kamera mit einer wesentlich höheren Auflösung. Wird die Latenz zwischen Bilderfassung des Auges und Bewegung einer blickgesteuerten Kamera minimiert, lassen sich Effekte wie der vestibulookuläre Reflex dazu nutzen, das Videobild zu stabilisieren. Das Forschungsprojekt „FORBIAS“ am Klinikum der Universität München hat solch eine blickgesteuerte Kopfkamera entwickelt [Sch+05]. Diese Kamera bildet die Grundlage der vorliegenden Diplomarbeit. 22 Abbildung 2.19: Funktionsprinzip der blickgesteuerten Kopfkamera Das Auge wird über einen Infrarotspiegel mit einer Videokamera gefilmt. Am Computer werden die Pupillenposition im Videobild gefunden und die Steuersignale berechnet. Die Motorsteuerung sorgt für die Bewegung der Kopfkamera über ein Kardangelenk. Das finale Videosignal kann mit einem handelsüblichen Videorecorder oder dem Computer aufgezeichnet werden. Um einen Stabilisierungseffekt zu erreichen ist eine Minimierung der einzelnen Latenzen des Systemes nötig. Der vestibulookuläre Reflex bringt dabei eine Verzögerung von circa 10 ms mit, die zwischen Registrierung einer Kopfbewegung im Innenohr und der entsprechenden Stellbewegung der Augen liegt. Danach wird die Augenbewegung in diesem System von einer 100 Hz Digitalkamera erfasst, was eine weitere Latenz von 10 ms erzeugt. Das Videosignal wird an den Rechner weiter geleitet und dort innerhalb von 1-3 ms die Pupillenposition berechnet. Die Dauer der Pupillendetektion richtet sich nach der Rechenleistung des Computers. Bei optimalen Bedingungen einer sinusförmigen Bewegung des Auges liegt die Zeit zwischen berechneter Servoposition und der tatsächlichen Ausrichtung der Kamera bei circa 36 ms. Bei schnellen Blicksprüngen und je nach Qualität der verwendeten Servomotoren kann dieser Wert aber stark steigen. Dagegen kann durch eine weitere Optimierung der Motoren sowie der Nutzung von derzeit aktuellen 500 Hz Kameras die Gesamtlatenz auch noch deutlich reduziert werden. Die blickgesteuerte Videookulographiesystem Kopfkamera und einer ist Einheit prinzipiell aus aus Servomotoren einem und Videokamera aufgebaut. Dabei dient eine Schwimmbrille als Kopfbefestigung, welche das VOG und die Videokamera verbindet. Prinzipiell könnte mit einer Kalibration des VOG-Systems – also dem Ergebnis der Pupillensuche als Blickrichtung in Grad – und Kenntnis über ein mathematisches Modell der Architektur die Kopfkamera betrieben werden. Die Kamera ist über ein Kardangelenk befestigt und kann sich so um zwei Freiheitsgrade drehen. Die Drehung der verwendeten Servomotoren entspricht dabei nicht den einzelnen Freiheitsgraden, sondern bildet ein nichtlineares System. Zudem kann sich die Kamera je nach Beschaffenheit des Kopfes verstellen. Aus diesem Grund wurde ein neues Kalibrationsverfahren entwickelt, wobei eine nichtlineare Übertragungsfunktion direkt aus den Pupillenkoordinaten die entsprechende Servoposition berechnet. Dazu wurde eine zweidimensionale Funktion dritten Grades benutzt. Während der Kalibrationsprozedur dreht sich die Kamera in 23 25 vorher festgelegte Richtungen. An der Kamera ist ein Laserpointer befestigt, welcher vom Benutzer angeschaut wird. Die erkannte Pupillenposition sowie die Stellkommandos für die Servomotoren fließen in das Gleichungssystem ein. Die Lösung des Systems sind die 10 Parameter der Übertragungsfunktion. z x , y =a 1a 2 x a 3 ya 4 xy...a 8 xy 2a9 x 3a 10 y 3 Abbildung 2.20: Kalibrationsprozedur der blickgesteuerten Kopfkamera Ein Kalibrationsmuster aus 25 aufeinander folgenden Punkten steuert die beiden Servomotoren. Diese bewegen die blickgesteuerte Kamera und den Laserpointer. Beim Anschauen des Laserpunkts wird das Auge über einen Infrarotspiegel abgefilmt. Die X- und Y-Koordinate der erkannten Pupille, sowie die Stellkommandos der Motoren gehen in die Berechnung der Übertragungsfunktion ein. Statt eines normalen Notebooks zur Auswertung und Steuerung wurde ein weiteres mobiles System entwickelt, wobei Verarbeitung sowie Aufnahme in einem tragbaren Computer stattfinden. Der Rechner wurde um eine zusätzliche Firewire-Schnittstelle erweitert, an die zwei Analog/DigitalKonverter angeschlossen wurden. Damit wurde es möglich, neben der blickgesteuerten Kamera eine zusätzliche kopffeste Szenenkamera aufzuzeichnen. Der Rechner verfügt über eine WLAN-Schnittstelle, womit die normale Programmoberfläche drahtlos auf ein weiteres Notebook übertragen werden kann. Somit ist es möglich, Parameter der Blickbewegungsmessung anzupassen sowie die Aufnahme der Blick- und Szenenkamera fernzusteuern. Das System wurde im Rahmen dieser Diplomarbeit um eine komplett neue Programmoberfläche erweitert, welche die autonome Bedienung mit einem umgebauten Videodisplay ermöglicht. 24 Abbildung 2.21: Blockdiagramm der mobilen blickgesteuerten Kopfkamera An den tragbaren Computer wird die Motorsteuerung der beweglichen Kamera, die blickgesteuerte und kopffeste Kamera, die linke Augenkamera sowie eine Batterie angeschlossen. Über WLAN wir das System mit einem entfernten Computer ferngesteuert. Der tragbare Computer besteht aus einem normalen Mini-ITX Mainboard, an dem zwei unabhängige Festplatten, ein WLAN-Modul und eine zusätzliche Firewire-Karte angeschlossen sind. Zwei Analog-Digital-Konverter wandeln das analoge Audio- und Videosignal der Kameras in ein DV-Signal um. Zur Bedienung kann ebenfalls ein umgebautes Videodisplay mit Maustasten an den Videoausgang und einen USB-Port angeschlossen werden, welches aber erst im Rahmen dieser Diplomarbeit entwickelt wurde. Die „Qlotz“ genannte Software der blickgesteuerten Kopfkamera gliedert sich in einen Teil zur Bildverarbeitung in der Programmiersprache C und einen Teil für die grafische Benutzeroberfläche GUI in der Sprache C++. Die Programmierung der Oberfläche basiert auf dem QT-Framework der Firma Trolltech. Damit wird auch für das GUI versucht, möglichst plattformunabhängig zu sein. Die Darstellung der Kameras, der grafischen Plots sowie das Einzeichnen von Markierungen im Videobild geschieht mit der Grafikbibliothek OpenGL. Die Sprache C soll es ermöglichen, die 25 Pupillenerkennung sowie die Servosteuerung später auf einem eingebetteten System auszuführen. Ansonsten wird das Projekt gelegentlich auf der Windows-Plattform und hauptsächlich unter Linux kompiliert, genauer der SuSE Distribution mit KDE als Desktop Umgebung. Als Entwicklungsumgebung kommt das KDE eigene KDevelop zum Einsatz. Abbildung 2.22: Oberfläche der Kopfkamera-Software "Qlotz" Das Programm ist im Wesentlichen in Tabulatoren organisiert, wobei in der obersten Ebene die Wahl zwischen der eigentlichen Arbeitsumgebung „Work“ und Tabs zum Betrachten der Kameras fällt. Die Software unterstützt neben der Analyse eines einzigen Eyetrackers auch den binokulären Betrieb. Im Arbeitbereich sieht man das Bild der Augenkamera, kann Einstellungen, wie die „region of interest“ zur Begrenzung der Pupillensuche vornehmen und bekommt verschiedene Plots wie die aktuell detektierte Pupillenposition, ein Histogramm, die Blickgeschwindigkeit oder Latenzen der Bildverarbeitung. Schließlich können die Paramtersätze der Kalibration gewählt oder neu erstellt und die Aufnahme der Daten gestartet werden. 2.6. Hybride Perspektive - Multiperspektive Moderne Videokameras, Fotoapparate und computergraphische Darstellungen eifern in ihrem Prinzip der bereits im 13. Jahrhundert beschriebenen Lochkamera – der Camera Obscura nach. Diese Kamera ermöglicht eine Projektion in der Zentralperspektive, wobei sich alle Strahlen 26 in einem gemeinsames Zentrum treffen. Nach dem gleichen Prinzip funktioniert das menschliche Auge. Die Zentralperspektive ist in der Geschichte der Malerei aber nicht die einzige Form der Perspektive. So werden bei der umgekehrten Perspektive, wie sie in der byzantinischen Ikonenmalerei angewendet wurde, Objekte gleichzeitig von mehreren Seiten dargestellt. Im Mittelalter und auch in der altägyptischen Kunst wurden in der Bedeutungsperspektive Größe und Ausrichtung von Personen und Gegenständen nach deren gesellschaftlicher Stellung gewählt. Wichtige Protagonisten wurden groß, weniger wichtige klein dargestellt, auch wenn sie räumlich vor der anderen Person standen. [Wik07p] Die Objekte besitzen alle ihren eigenen Blickpunkt und werden nach Meinung des Kunstwissenschaftler Erwin Panofsky in einem „Aggregatraum“ zusammen gebracht. Mit der Wiederentdeckung der bereits in der Antike genutzten Phänomene der Zentralperspektive, ihrer mathematischen Beschreibung und der Erfindung der Lochkamera dominiert dann mit der Renaissance der „Systemraum“. Bilder werden als „Durchschnitt durch die so genannte Sehpyramide“ gezeichnet. [Pan85] Einer der bekanntesten Maler, der seine Bilder mit Hilfe der Camera obscura malte war Bernardo Bellotto (30.1.1720 - 17.10.1780). Er war der Neffe des italienischen Malers Antonio da Canale (genannt Canaletto). Unterwegs auf Reisen benutzte er die "Zeichenkamera" um reizvolle Ansichten maßstäblich und perspektivisch richtig aufs Papier zu bringen. Bellotto alias Canaletto arbeitet mit dieser Methode in Mailand, Rom, London, Wien und München, aber am meisten in Dresden und Warschau. [Ill07] Abbildung 2.23: "Der Neumarkt zu Dresden von der Moritzstraße aus" (Canaletto 1749-1751) Analysiert man die photographisch anmutenden Gemälde, die ab der Renaissance entstanden sind, lässt sich allerdings feststellen, dass der Schnitt 27 durch die Sehpyramide nicht wirklich durchgängig geklappt hat. Viele Gemälde zeigen zur Unterstützung des perspektivischen Eindrucks gekachelte Böden, die sich zum Rand des Bildes erwartungsgemäß verzerren. Auf dem Boden platzierte Runde Säulen gliedern sich aber nicht in die perspektivische Verzerrung ein, sondern wirken als Ovale wie aufgeklebt. Canalettos Szene am Dresdner Neumarkt müsste nach einer computergraphischen Rekonstruktion eigentlich eine Frauenkirche mit stark verzerrter elliptischer Form haben, erscheint aber genau so, wie ein Betrachter sie sehen würde, der sich an Ort und Stelle zu ihr wendet. Abbildung 2.24: Markierung der beiden geometrischen Mitten im Bild von Canaletto Modellierung der Szene als 3D-Grafik mit perspektivisch deutlich verzerrter Frauenkirche; Darstellung in hybrider Perspektive aus zwei Ansichten ähnlich dem Bild Canalettos (Oben: [Gro05], Unten: [Fra05]) Bei näherer Betrachtung erkennt man, dass die Frauenkirche eine eigene geometrische Mitte besitzt, eine Art „Binnenperspektive“. Canaletto hat die bedeutsame Kirche heraus gelöst und auf den stark geometrischen Platz in 28 einer Sonderbildebene neu eingeordnet. Zwar verstößt er damit gegen eine zentralperspektivisch korrekte Darstellung, „doch liegt es in der Natur der Menschen, sich [..] spontan der signifikanten Figur zuzuwenden“ [Gro05]. Die Hinwendung basiert scheinbar auf einer Art „dialogischen Charakter“ der Objekte. Der Dialog fordert den Künstler auf, das Objekt in die Sonderbildebene in einer eigenen Perspektive zu platzieren. Gleichfalls unterstützt die eigene geometrische Mitte den Dialog mit dem Betrachter des Bildes. „Hybridität im Bildaufbau begründet nicht nur Dialoge und Interaktivität, sie ist auch Folge und (im erweiterten Sinne) Abbild von dialogischen und interaktiven Situationen“. [Gro05] Zeichnet man die Augenbewegungen eines Betrachters auf, kann man deutlich feststellen, welch magische Anziehung das Gebäude der Frauenkirche hat. Es bleibt aber fraglich, ob dieser „Dialog“ des Betrachters mit der Frauenkirche aber an deren Auslösung und Einordnung in die Sonderbildebene oder an ihrer Komplexität und Schönheit liegt. Abbildung 2.25: Aufzeichnung der Augenbewegung eines Betrachters Während sich der Aggregatraum die Bedeutungsperspektive zu Nutze macht, durch Größe wichtet, markiert der Systemraum Bedeutung mittels „hybrider Perspektive“, es wird durch Richtung gewichtet. [Fra05]. Groh präzisiert den von Panofsky für diese Epoche geschaffenen Ausdruck des Systemraums: Der Systemraum beruht auf der Dualität einer Basis orthogonalisierter, monoperspektivisch dargestellter Objekte zu einer Ebene interaktiver, multiperspektivisch dargestellter Objekte. [Gro05] Die Herauslösung von Objekten aus der „reinen“ Zentralperspektive und ihre Montage in einer hybriden Perspektive hat aber Geschichte und kann in modernen computergraphischen Darstellungen der Interaktion förderlich sein. Letztlich ist dieses Phänomen eine Art Kontrast, der im flogenden Text als 29 „Perspektivkontrast“ bezeichnet wird und gleichberechtigt neben Größenkontrast, Kalt-Warm-Kontrast und Qualitätskontrast. Die hybride Perspektive reiht sich entsprechend neben die Bedeutungsperspektive, Farbperspektive und Luftperspektive. 30 3. Methoden Im Rahmen dieser Diplomarbeit ein wurde Demonstrator entwickelt, welcher die Bilder der blickgesteuerten Kopfkamera mit denen einer kopffesten Kamera verbindet. Das Wissen um den Perspektivkontrast sollte dabei als Motivation dienen. Das Bild der blickgesteuerten Kamera sollte so in ein weitwinkliges Bild der Szenenkamera eingebettet werden. Dadurch könnte, ähnlich dem natürlichen Sehen, die effektive Bildauflösung am Punkt des Interesses erhöht werden, so dass im Prinzip zwei niedrig aufgelöste Kameras, ein ausreichend hoch aufgelöstes Gesamtbild erzeugen. Eine exakte Einbettung des Blickbildes in die Zentralperspektive der Szenenkamera wäre nicht zwingend nötig, da die oben beschriebenen Prinzipien der hybriden Perspektive keine Verschlechterung der Wahrnehmung, sondern vielleicht sogar eine Verbesserung erwirken. Ein eingebettetes Blickbild mit einer eigenen geometrischen Mitte könnte so die Aufmerksamkeit nochmals erhöhen und den Blick eines Betrachters auf sich lenken. Im Gegensatz zu einem Video einer Blickkamera, mit ihren schnell wechselnden Inhalten, bekommt der Betrachter in der hybriden Darstellung eine gewisse Autonomie, selbst entscheiden zu können, wohin sein Blick führt, ähnlich der Situation in einem Computerspiel. Durch die dargestellte Gesamtszene bekommt der Zuschauer ein Verständnis für den Kontext eines konkreten Blickbildes. Er kann Veränderungen in der Peripherie des Bildes wahrnehmen und versteht so die Motivation für einen Blicksprung. Die hybride Darstellung hätte gegenüber einer einfachen Kopfkamera also den Vorteil, eine höhere Auflösung an den wichtigen Punkten zu haben und diese zu markieren. Gegenüber einer reinen blickgesteuerten Kamera ermöglicht sie dem Zuschauer mehr Autonomie und Verständnis gegenüber dem Blickverhalten des Kameramanns. Das bestehende System der LMU München diente als Grundlage. Die ursprünglich zu Referenzzwecken eingesetzte Szenenkamera wurde mit einem Weitwinkelobjektiv und die Blickkamera mit einem Teleobjektiv ausgestattet. Um das mögliche Ergebnis und die Anforderungen an die Montage einzugrenzen wurde zu Beginn ein Beispielvideo von Hand im Programm Adobe AfterEffects gesetzt. Das Verzeichnung des verwendeten Weitwinkelobjektivs wurde koorigiert und Funktionen zur automatischen Darstellung in hybrider Perspektive in die bestehende Software integriert. Damit ist sowohl eine Livedarstellung in Echtzeit, sowie eine nachträgliche Analyse und Bearbeitung der Videodaten möglich. Die Software wurde um Funktionen zum Import und Export von gängigen Videoformaten erweitert. Darüber hinaus wurde das bereits vorgestellte portable Kopfkamerasystem durch eine neue Bedieneinheit erweitert. Die Bedienung erfolgt nunmehr mit einem umgebauten Videodisplay über dessen „Jog-Dail“ in einem einfachen Menü. Mit diesem Gerät wurden zahlreiche Testaufnahmen gemacht, die in 31 einem letzten Schritt evaluiert wurden. Dazu wurde die verwendete Videookulographie-Brille auf einen Monitor kalibriert und die Blickrichtungen von 10 Testpersonen untersucht. 3.1. Einbindung in das existierende System Als Grundlage dient das bereits an der LMU München entwickelte System zur Messung der Augenbewegung und Steuerung der Kamera. Dabei stellte sich die Wahl eines neu entwickelten Programms zur Darstellung oder der Verwendung und Weiterentwicklung der existierenden Software. Der wichtigste Grund für die Weiterentwicklung war dabei die Tatsache, dass die Bereitstellung von Live-Kamerabildern sowie die zeitlich synchronisierte Ausgabe von aufgezeichneten Videobildern im Programm bereits vorhanden war. Das heißt die Beschaffung von Videodaten musste nicht weiter implementiert werden, sondern konnte über eine Schnittstelle abgerufen werden. Die vorhandene blickgesteuerte Kopfkamera war bereits für einen anderen Versuch mit einer zusätzlichen kopffesten Szenenkamera ausgestattet worden. Für diesen Versuch wurde auch ein portables Aufnahmesystem entwickelt, mit der Möglichkeit zur synchronen Aufzeichnung beider Kameras sowie der gemessenen Augenbewegungsdaten in eine einzige verschachtelte DV-Datei, wobei sich die beiden Kamerabilder jeweils abwechseln. Die Klasse zum Lesen der DV-Videodaten war bis dahin allerdings nur für eine Kamera ausgelegt und musste im Rahmen dieser Arbeit entsprechend auf zwei Kameras erweitert werden. Ein weiterer Grund für die Arbeit an der existierenden Software war die vorhandene Oberfläche, welche mit der QT Bibliothek der Firma Trolltech in der Sprache C++ programmiert wurde. Die Oberfläche war prinzipiell in so genannte Reiter eingeteilt, wobei es sehr leicht war, einen weiteren Reiter für die Implementierung der hybriden Darstellung zuzufügen. Die Implementierung der nötigen Funktionalität konnte in einer eigenen Klasse erledigt werden, ohne dabei das bestehende System regelmäßig verändern zu müssen. In der Oberfläche war ebenfalls schon eine Möglichkeit zur Anzeige der Videodaten mit Hilfe der OpenGL-Graphikbibliothek. Dieser Programmcode konnte als Start in das eigene System übernommen werden. Die Farbinformationen des Videobildes lagen allerdings im für PAL-Kameras typischen YUV-Format vor und wurde durch einen Filter auf der CPU in RGB konvertiert. Dieser Konvertierungsvorgang ist trotz angewendeter IntegerArithmetik sehr rechenintensiv. Aus diesem Grund wurde auch eine Methode mittels OpenGL erprobt [Zie01]. Dabei werden die YUV Daten vorerst wie RGB an den Grafiktreiber übergeben. Die Konvertierung erfolgt dann über 32 eine so genannte „Color Matrix“ im Idealfall direkt auf der Grafikkarte. Die Methode erwies sich aber auf der benutzten Hardware nicht als performanter und wurde wieder verworfen. Eine Alternative ist die Konvertierung innerhalb eines Fragment Shaders, wobei die darzustellenden Bildpunkte (Fragment) auf der Grafikkarte verändert werden können. Dazu kann die so genannte OpenGL Shading Language GLSL eingesetzt werden, die effektiv aber erst in OpenGL-Implementierung ab Version 1.5 unterstützt wird und auf den verwendeten Linux-Systemen somit noch nicht vorhanden war. Über eine weitere Schnittstelle konnten die Daten von Augenposition bzw. der wesentlich wichtigeren Stellung der Servomotoren abgerufen werden und damit auch die Auskunft über die aktuelle Kameraausrichtung. Zwar war das Auslesen der gespeicherten Ergebnisdaten aus dem Audiobereich der DVVideodateien noch nicht implementiert, konnte aber ebenfalls problemlos erledigt und die Daten an die entsprechende Schnittstelle gesendet werden. Die im Programm enthaltene Zuordnung der Augenstellung auf die Servoposition diente als Vorlage für eine eigene Kalibration der Zuordnungsfunktionen von Servopositionen auf die Bildschirmkoordinaten. Abbildung 3.1: Vorhandene blickgesteuerte Kopfkamera mit zusätzlicher Szenenkamera. Die Objektive hatten zuvor gleiche Brennweiten und wurden im Rahmen der Arbeit durch ein Teleobjektiv und ein Weitwinkelobjektiv ausgewechselt. 33 3.2. Manuelle Montage in Adobe AfterEffects Im Rahmen der Münchner Wissenschafttage erfolgte eine Einladung zur Fernsendung „Die Schöne und der Freak“ innerhalb des Boulevardmagazins TAFF auf dem Sender Pro7. Deshalb wurde schon vor der spontanen Einsatzfähigkeit des portablen Systems und vor der Entwicklung von Einstellmöglichkeiten in der hybriden Darstellung ein Film aufgezeichnet. Es handelt sich um einen circa eine Minute dauernden Ausschnitt, in dem ein bis dahin fremder Raum in einem Hotel betreten wird. Im Raum befinden sich zwei junge Frauen und ein Kamerateam. Nach einer kurzen Orientierungsphase und der Begrüßung durch Handschlag folgt das Hinsetzen und ein kurzes Gespräch, wobei die Frauen sichtlich erfreut über die bewegte Kamera sind. Den Abschluss bildet ein kurzes „Abscannen“ der beiden Frauen. Dies war die einzige absichtliche Blickbewegung, der Anfang war aufgrund der ungewohnten Situation sehr natürlich. Abbildung 3.2: Manuelle Montage in Adobe AfterEffects 34 Auf Grund der intensiven Beschäftigung mit dem Material konnten einige Beobachtungen und Schlussfolgerungen für die eigene und für die zukünftige Arbeit gemacht werden. Zunächst konnte schnell erkannt werden, dass der Blickfilm in Form eines Kreises in das Szenenbild montiert werden muss, da durch die Anordnung der Servomotoren regelmäßig die Drehung des Blickbildes notwendig wurde. Die dadurch deutlich sichtbare Drehung des Rechtecks innerhalb des Gesamtrahmens fiel unangenehm auf und war durch die technische Ursache auf den ersten Blick nicht verständlich. Der Übergang zwischen Blick und Szene musste fließend gestaltet werden, um die Aufmerksamkeit vom Zittern des Bildes, welches durch die harte Kante visuell unterstützt wurde, zu kaschieren. Lediglich eine scharfe Abbildung des Blickes innerhalb der etwas unschärferen Szene war für die geringe Fernsehauflösung unerheblich und erzeugte zu wenig Kontrast. Zur Kontrastverstärkung eigneten sich die Änderung der Größe des Blickpunktes entsprechend der Bedeutungsperspektive, sowie eine Einfärbung des Hintergrundes. Entgegen späterer Erkenntnisse wurde eine warme Farbe für den Hintergrund gewählt, die ihn im Sinne des Farbperspektive aber in den Vordergrund bringt. Bei der Montage haben sich zudem zwei grundsätzliche Vorgehensweisen heraus kristallisiert. Entweder dominierte der Inhalt des Blickes oder der Inhalt der Szene. So wurde im ersten Fall darauf geachtet, dass der Inhalt des Blickbildes stabil und verwacklungsfrei im gesamten Rahmen liegt. Dazu wurden, wie in der Abbildung noch sichtbar, Referenzvierecke an wichtigen Kanten im Blickbild gezeichnet. In den folgenden Bildern wurden daran zum Beispiel die Augen der Frau ausgerichtet. Kleine Änderungen im Szenenbild, wie Wackeln oder Zittern, blieben dabei unbeachtet. Es wurde einfach davon ausgegangen, dass der Blick eine so hohe Attraktivität hat, dass die Szene bedeutungslos ist. Bei größeren Kopfbewegung dominierte allerdings das Szenenbild. In diesem Fall wurde darauf geachtet, das Blickbild möglichst flüssig mit der Kopfbewegung mitzuführen oder lediglich zur Markierung des Blickziels zu nutzen. Im Video wurde entsprechend bei der Begrüßungsszene der Spot verkleinert und damit dessen Bedeutung reduziert. 35 Abbildung 3.3: Komplexen Szene mit schnellen Augenbewegungen Reduzierung des Spots auf die Markierung des Blickziels (Hand) 3.3. Entzerrung der Fischaugenverzeichnung Beide Kameras hatten anfangs zu Referenzzwecken die gleichen Objektive. Für das Ziel einer hybriden Darstellung des Blickbildes in dem Szenenbild war diese Konfiguration aber gänzlich ungeeignet, wie erste Tests mit dem vorhandenen Videomaterial schnell zeigten. Aus diesem Grund wurde die Szenenkamera mit einem preiswerten 110°-Weitwinkelobjektiv mit einer typischen Fischaugen-Verzeichnung ausgestattet. Um eine möglichst zentralsperspektivische Ansicht zu erreichen, musste das Bild entsprechend entzerrt werden. Dazu wurde auf eine Methode zur nichtlinearen Linsenverzerrung zurück gegriffen [Bou00]. Dabei wird der Hauptpunkt der Abbildung ermittelt, in diesem Fall vereinfacht der Mittelpunkt des Bildes. Vom Hauptpunkt aus wird zum Radius r o jedes einzelnen Punktes des Ausgabebildes der entsprechende Radius r i im Eingangsbild über eine Übertragungsfunktion berechnet. In der Anwendung wurde dafür nach anfänglichen Versuchen mit allgemeineren Polynomen der Arkustangens genutzt, welcher sich durch Ausprobieren als beste Funktion behauptet hatte, da damit das verwendete Referenzgitter am besten korrigiert wurde. Zudem wurde die Funktion mit einem Entzerrungfaktor w gewichtet. Somit ist es im Programm möglich den Einfluss der Entzerrung je nach Objektiv an einem Schieberegler einzustellen. Darüber hinaus wird sichergestellt das die Funktion beim Radius Eins ebenfalls einen Einsdurchgang hat, das Bild wird also (zumindest entlang der horizontalen Mittellinie) nicht vergrößert oder verkleinert. r i= f r o , w=atan r o w/atan w 36 Wie in [Bou00] beschrieben, erfolgt die Entzerrung nicht auf Pixelebene in einer Schleife des Hauptprogramms sondern mittels OpenGL auf der Grafikhardware. Die einzelnen Bilder wurden ohnehin als Textur auf ein Viereck gezeichnet. Der Ansatz zerteilt dieses Viereck in ein Raster, in diesem Fall 50 * 50 Felder. Für jeden einzelnen Punkt des Rasters (Ausgabebild) wird eine entsprechende Texturkoordinate im Videobild bestimmt. Die Anzahl der Felder wurde auch in diesem Fall empirisch ermittelt, ein Raster von 20x20 Feldern ist dabei bereits ausreichend, um keine sichtbaren Artefakte zu erkennen. Da die Berechnung der insgesamt circa 2500 Punkte zu aufwendig für jedes Bild ist, entstand die Idee einer Art Lookup-Table, wobei die Koordinaten bei jeder Änderung des Entzerrungsfaktors neu berechnet wurden. Spätere Abrufe der dann ohnehin immer gleichen Daten konnten über die Lookup-Table geschehen. Der Ansatz wurde aber letztlich verworfen, als zu einem späteren Zeitpunkt OpenGL-Displaylisten eingeführt wurden. Dabei wird der Grafikkarte einmalig eine Abfolge bestimmter Befehle gesendet, in diesem Fall die Eckpunkte und die zugehörigen Texturkoordinaten. Zu einem späteren Zeitpunkt kann die komplette Befehlsfolge durch einen einzigen Aufruf stattfinden, damit entfällt auch der Transport der Daten von CPU bzw. Hauptspeicher in die Grafikkarte. Die Entzerrung der Linse ist somit in Echtzeit ohne spürbare Verzögerung anwendbar. Ein Beispielquellcode befindet sich auf Seite 79. Abbildung 3.4: Korrektur der Fischaugenverzeichnung Referenzgitter vor der Verzerrung; Für dieses Objektiv optimaler Entzerrungsfaktor von w=1.7 ; Entzerrung um Faktor w=5 mit deutlich sichtbaren Beschränkung der Bildformates in der Vertikalen. Da sich die Funktion eigentlich auf ein quadratisches Bild bezieht, kann bei einem 4:3 Videobild nur die breitere Seite erhalten bleiben. Auf der schmalen Seite können Radien erreicht werden, die außerhalb des Bildrandes liegen. In Abbildung 3.4 ist dies beim Entzerrungsfaktor w=5 deutlich zu erkennen. Bei Verwendung von 16:9 als Seitenverhältnis des Ausgabebildes, werden diese Beschränkungen beim verwendeten Faktor abgeschnitten. 3.4. Hybride Darstellung der Kameras Die hybride Darstellung einer kopffesten Szenenkamera und einer Blickgesteuerten hat gegenüber einer einfachen Kamera den Vorteil, eine höhere Auflösung an den wichtigen Punkten zu haben. Gegenüber einer rein 37 blickgesteuerten Kamera ermöglicht sie dem Zuschauer mehr Autonomie und Verständnis gegenüber dem Blickverhalten des Kameramanns. Durch den Einsatz von Weitwinkel- und Teleobjektiv in der hier verwendeten Konfiguration passt das Bild der Blickkamera etwas zehn mal in das Szenenbild, wenn beide Kameras die Objekte im Gesamtbild in der gleichen Größe abbilden sollen. Die Blickkamera hat damit eine wesentlich höhere Auflösung relativ zur anderen Kamera. Beides sind analoge PALKameras mit einer effektiven Größe von 704x288 Pixeln je verwendetem Halbbild im Format 4:3. Nimmt man allein die Höhe des Blickbildes von 288 Pixeln so ergibt sich für die Szenenkamera eine theoretische Höhe von 2880 Pixeln, wenn die Blickkamera alle Zeilen darstellen soll. Selbst bei doppelter Größe des Blickbildes würde die gesamte Montage bequem in ein 1080 Zeilen hohes HDTV-Bild (1080p25) passen. Das Anzeigefenster kann aus diesem Grund auf die für Computerdisplays noch verträglichen HDTV-Auflösungen von 1280x720 (720p25) sowie 960x720 (anamorphotisch), die SDTV- Auflösungen 1024x576 (PALplus), 720x576 (PALplus anamorphotisch), 853x480 (NTSC 16:9) sowie 640x360 eingestellt werden. In diesen Formaten können die Videos dann auch – wie später noch beschrieben – exportiert werden. Darüber hinaus wurde für alle Videoanzeigen der Software ein Vollbildmodus implementiert. Größtes Qualitätshindernis sind damit nicht die Auflösungen der einzelnen Kameras sondern ihre analoge Übertragung und die damit verbundenen Bildstörungen. Verfahren, die eine höhere Gesamtauflösung durch die Kombination von zwei niedrig aufgelösten Kameras erstellen sind schon länger beschrieben, zum Beispiel in [BTh98]. Um die Blickkamera an die korrekte Position innerhalb des entzerrten Bildes der Szenenkamera zu positionieren wurde eine Kalibration nötig. Die gemessene Blickrichtung und die Daten zur Stellung der Servomotoren reichten allein nicht aus, das Bild zu positionieren, wenn auch – wie sich später heraus stellte – innerhalb eines ideal entzerrten Szenenbildes zwischen Stellkommando und Positionierung des Blickbildes ein annähernd linearer Zusammenhang besteht. Dies gilt jedoch nicht für die torsionelle Verkippung des Blickbildes, welches durch die Geometrie der kardanischen Kameraaufhängung zustande kommt. Der Einfluss der Verschiebung der beiden Kameras ist außerhalb des Nahbereichs kaum von Bedeutung, es könnte also angenommen werden, dass sich beide Kameras am gleichen Ort befinden. Allerdings sind Tätigkeiten im Bereich der Arme, also innerhalb des Nahbereiches, leider keine Ausnahme. Die Entfernung des betrachteten Objektes wurde jedoch bisher nicht in der Software berechnet. Dazu wäre eine Auswertung der binokulären Daten aus beiden Augen notwendig. Die Vergenzstellung der Augen gäbe Auskunft über die Entfernung des Objekts. 38 Analog zur Kalibrationsprozedur zwischen Blickrichtung und Servostellung wurde eine neue interaktive Prozedur entwickelt. Dabei steuert die Kamera selbstständig 25 festgelegte Punkte an und macht für jede Kamera jeweils zwei Bilder. Das erste Bild ohne, das Zweite mit angeschaltetem Kalibrationslaser. Aus beiden Bildern wird ein Differenzbild erzeugt, so dass nur noch der Laser sichtbar ist. Der Laserpunkt wurde in diesem Fall durch ein Kreuzmuster ersetzt. Der Nutzer muss nun für alle 25 abgebildeten Kalibrationskreuze vertikale und horizontale Position auf dem Bildschirm, Größe und Rotation in Übereinstimmung bringen. Die vier eingestellten Werte fließen mit den vorgegebenen Servopositionen ebenfalls in ein lineares Gleichungssystem ein, dessen Lösung jeweils 10 Parameter für ein zweidimensionales Polynom dritten Grades sind. Somit lässt sich für jede Servostellung die Position auf dem Bildschirm berechnen. Die Prozedur muss einmal für jedes neue Kamerasetup, also bei anderen Linsen und bei einer Verstellung der Kameras wiederholt werden. In der Praxis wurde es aber ein einziges Mal gemacht. Die daraus resultierte Voreinstellung war in fast allen Anwendungen ausreichend. Abbildung 3.5: Kalibrationsprozedur für die hybride Darstellung. Der Nutzer muss für eine neue Kameraanordnung 25 Kreuze in möglichst gute Übereinstimmung bringen. Das geschilderte Verfahren ist zur möglichst genauen Übereinstimmung der Kreuze geeignet. Prinzipiell könnte sich dieses Verfahren mit entsprechender Bildverarbeitung auch automatisieren lassen. Ein Nachteil besteht darin, dass die Verkippung nur im geringen Umfang korrigiert wird. 39 Dazu wäre es besser, zum Beispiel die Bilder des Referenzgitters aus Abbildung 3.5 in Übereinstimmung zu bringen. Dabei würde schnell die Entscheidung getroffen werden müssen, ob das Blickbild eher aufrecht, also an den Vertikalen orientiert, oder primär horizontal ausgerichtet werden soll. Abbildung 3.6: Kalibration am Referenzgitter Sichtbaren Konflikt zwischen horizontaler und vertikaler Ausrichtung In der Praxis hat sich ebenfalls gezeigt, dass oft Servostellungen eintreten, die nicht durch die getätigte Kalibration abgedeckt werden. In diesem Fall stimmt die berechnete Bildposition nicht mit der tatsächlichen Kamerarichtung überein. Die ist insbesondere sichtbar, wenn Objekte am Bildrand erscheinen, die Kalibration aber lediglich 60% des Szenenbilds abgedeckt hat. Diesem Fehler lässt sich durch eine größere Kalibrationsfläche begegenen. Manchmal liegen die Stellkommandos auch nicht im Wertebereich des Servos. Dem Algorithmus aber stehen nur die Kommandos, nicht aber der tatsächliche Wert der Servoposition zur Verfügung. Damit wird das Bild entprechend der Kalibration außerhalb des Szenenbildes angezeigt, obwohl sich der fixierte Punkt noch innerhalb befinden würde. Diesen beiden 40 Problemen wurde aktuell noch nicht Rechnung getragen, es wurde allerdings schon mit der Sammlung zumindest aller in einer Videodatei enthaltenen Servostellungen begonnen, so dass für einen Film eine explizite Kalibration für typische Stellungen vorgenommen werden kann. Ein weiterer Fehler tritt auf, wenn der Servo ein Stellkommando bekommt, welches weit von der aktuellen Stellung entfernt ist, zum Beispiel bei einer Sakkade. Dann kommt es zu einer Verzögerung, da das aktuell vorliegende Kommando nicht mit der tatsächlichen Position übereinstimmt. Das Bild wandert schon an eine neue Position, bevor sich der Videoinhalt entsprechend ändert. Dieser Effekt liegt in der Praxis bei einer Verzögerung von circa 3-4 Einzelbildern. Allerdings ist der Fehler von der zurück zu legenden Entfernung und des Alters der verwendeten Motoren abhängig. Zur Kompensierung wurde ein Ringpuffer eingebaut, der die letzten 20 Servostellungen beinhaltet. So kann der Nutzer einstellen, zum Beispiel immer das Stellkommando von vor 4 Bildern zu nutzen. Der sichtbare Fehler bei schnellen Bewegungen konnte damit minimiert werden. Für langsame und ruhige Bewegungen ist es fast nicht von Belang, wie alt die Servostellung ist. Bei kleinen schnellen Bewegungen entsteht dadurch allerdings ein neuer Fehler, der bis jetzt nicht berücksichtigt wird. Zur Lösung diese Problems würde erstens eine lineare Interpolation zwischen den Servokommandos praktisch sein, um auch eine Verzögerung von 3,5 Bildern zu ermöglichen, zweitens sollte die Verzögerung von der Geschwindigkeit abhängig gemacht werden können. Die Beste Lösung besteht allerdings in der Verwendung von Servomotoren, die über ihre aktuelle Position Auskunft geben können. Abbildung 3.7: Anpassung des Servo-Delays. Das gepeicherte Stellkommando für die Servomotoren hat bei schnellen Blickbewegungen einen Vorlauf von 3-4 Bildern Die Kalibration der torisonellen Kippung des Blickbildes, hervorgerufen durch die Mechanik der Kameraaufhängung, motiviert gleichzeitig die 41 Darstellung des Blickes als runden Kreis. Damit kann die nachträgliche Korrektur kaschiert werden. Darüber hinaus entspricht eine runde Zone des schärfsten Sehens eher dem Vorbild der Natur. Das runde Blickbild wurde zudem mit einem weichen Übergang an der Kante versehen. So können Antialiasing-Effekte wie Stufenbildung, sowie Kompressionsartefakte unterdrückt werden. Eine harte Kante fällt zudem unangenehm auf, könnte aber auch bewusst als Kontrast verwendet werden. Auch der weiche Übergang entspricht eher dem natürlichen Vorbild der Netzhaut, die einen graduellen Übergang der Rezeptordichte von Fovea zur Peripherie aufweist. Die Breite des Übergangs hängt direkt mit der Größe des gesamten Bildes zusammen. Zur Realisierung wurde ähnlich dem Szenenbild ein Raster in OpenGL verwendet, allerdings in Form eines so genannten „Triangle Fan“, also einer Gruppe von Dreiecken, die sich einen gemeinsamen Mittelpunkt teilen. Für den weichen Übergang wurde um den damit gezeichneten Kreis noch ein Kranz aus Dreiecken gelegt, so dass eine Art Rosette entstand. Den inneren Punkten wurde dabei ein Alphawert von 1, den Äußeren 0 zugeordnet, sodass OpenGL den Übergang dank Blend-Funktion interpolieren konnte. Für eine angemessene Darstellung hat sich in der Praxis eine Segmentierung des Kreises in 72 5°-Stücke bewährt. Für jeden der 1+72+72 Knotenpunkte dieses runden Rasters wurde dann die entsprechende Texturkoordinate berechnet. Da sich die berechneten Daten pro Bild nicht unterscheiden, konnten für die nachträgliche Zeichnung ebenfalls Displaylisten genutzt werden. Die Zeichnung des Kreises ist damit auf eine Translation und Rotation sowie den Aufruf der Liste reduziert. Ein Beispielquellcode findet sich auf Seite 80. Abbildung 3.8: Verwendete Raster in der OpenGL-Darstellung Um den Faktor 4 vereinfachte Darstellung. Die Größes des Blickbildes wurde verdoppelt und die Farbsättigung des Hintergrundes um den Faktor 4 verringert. Zudem ist der Hintergrund mit einem Filterradius von 3 Pixeln weich gezeichnet. 42 Auf ähnliche Weise kann auch eine radiale Verzerrung, genauer eine elliptische Verzerrung des Blickbildes in Abhängikeit von Radius und Winkel zum Mittelpunkt des Szenenbildes berechnet werden. Damit könnte eine perspektivische Einordnung in das Szenenbild, also eine monoperspektivische Darstellung angenähert werden. Allerdings ist die Nutzung von Displaylisten damit nicht mehr möglich, da für jeden Radius und jeden Winkel neue Texturkoordinaten berechnet werden müssen. Neben dem „Perspektivkontrast“ der durch die Montage der beiden Videobilder entstanden ist und dem Schärfekontrast durch die unterschiedlichen Auflösungen, wurden weitere Attribute eingeführt, um die beiden Bilder voneinander zu unterscheiden. Zunächst kann die Größe unabhängig von der Kalibration um einen Faktor erhöht werden, um eine Art Lupeneffekt zu erzeugen. Zudem kann für jede Kamera die Farbsättigung, eine Art Farbtemperatur sowie eine Helligkeitsverstärkung eingestellt werden. Die Szenenkamera kann zudem in der ganzen Fläche oder radial um den Blickpunkt unschärfer gemacht werden. Die Möglichkeit zur Größenänderung begründet sich zum Einen aus der Tatsache, dass auf diese Weise Fehler am Bildrand, zum Beispiel durch falsche Positionierung oder durch die Verwendung der eigenen Geometrie, kaschiert werden können. Zudem wird die sonst viel zu hohe Auflösung des Blickbildes bei kleinen Gesamtdarstellungen gemildert. Wie oben bereits erwähnt, müsste das Ausgabebild der größten HDTV-Norm entsprechen, um überhaupt alle Pixel des Blickbildes darstellen zu können. Letztlich ist das Blickbild von solcher Bedeutung, dass diese auch durch die Größe „bedeutungsperspektivisch“ gewürdigt werden kann. Die Änderung von Farbsättigung, Farbtemperatur und der Helligkeitskomponente passiert während der Umwandlung des YUVVideobildes in RGB. Die Änderung der Sättigung ist insbesondere zur Reduzierung von Bildstörungen des Szenenbilds gedacht. Zudem erhält das Blickbild durch die erhöhte Farbigkeit eine weitere Bedeutung. Mit einer Art Farbtemperatur kann das Bild zwischen einer Skala von Orange und Türkis eingefärbt werden. Damit kann eine gewisse Farbperspektive erzeugt werden, um das Blickbild in den Vordergrund zu rücken. Die Möglichkeit zur Änderung der Helligkeit ist aus einem ähnlichen Grund eingeführt worden. In ausreichend ausgeleuchteten Szenen, kann die Präsenz des Blickes gestärkt werden, wobei der Hintergrund nur zur groben Orientierung genutzt wird. Bei schwach ausgeleuchteten Szenen fungiert die Helligkeitsänderung als Verstärker. Primär um Bildstörungen vor allem am Rand der Szene zu glätten wurde ein Weichzeichner für die Szenenkamera eingeführt. Dabei wurde bisher ein einfacher Rechteckfilter mit variabler Breite auf das Bild 43 angewendet. Die Realisierung erfolgte ebenfalls in OpenGL mit Hilfe des „Accumulation Buffers“. Diese Technik ermöglicht das „Stapeln“ von gerenderten Bildern in einem extra Puffer. Bei Beendigung der Operationen kann der Puffer als Frontpuffer zu Darstellung verwendet werden. Der Accumulation Buffer ist eine gängige Art in OpenGL Unschärfe zu simulieren, allerdings ist die Performanz gering, so dass ab einem Filter von 3x3 Pixeln die Bildwiederholrate spürbar einbricht. Zur Markierung und Hervorhebung des aktuell betrachteten Bereiches im Szenenbild wurde zudem ein radialer Weichzeichner auf ähnliche Weise realisiert. Dabei wird das Bild nicht je nach Filterbreite verschoben, sondern jeweils um einen bestimmten Anteil um den aktuellen Blickpunkt gedreht. Da sich der Wert nicht wie beim vorher beschriebenen Filter multipliziert (also 3x3 = 9 Bilder), ist der radiale Weichzeichner etwas performanter. Die Impelementierung der Weichzeichner befindet sich auf Seite 81. Abbildung 3.9: Radialer Weichzeichner um den Blickpunkt 3.5. Import und Export gängiger Videoformate Dank der existierenden Echtzeit-Software war die Entwicklung einer hybriden Livedarstellung der beiden Kameras einfach möglich. Durch eine Implementierung der Methoden zum Lesen der abgespeicherten DV-Daten, konnten auch Filme nachträglich wiedergegeben werden, welche zuvor mit dem tragbaren Computer aufgezeichnet wurden. Zum Export der erzeugten Darstellung von Live-Videos oder aufgezeichneten Filmen wurde die Software entsprechend erweitert. Dabei konnte auf die libquicktime-Bibliothek zurück gegriffen werden. Dies ermöglichte letzten Endes auch die Implementierung eines Plugins, um beliebige AVI- und Quicktime-Dateien als virtuelle Kamera in die bestehende Software zu laden und Daten der Videograbber in dieses Dateiformat zu speichern. Nebenbei konnte auch die Funktionalität zum Exportieren von Standbildern aus allen Videoanzeigen erstellt werden. 44 OpenGL bietet mit der glReadPixels-Methode die Möglichkeit den Inhalt eines Bildpuffers von der Grafikkarte in den Hauptspeicher des Systems zu kopieren. Auf diese Weise konnte die aktuell angezeigte Darstellung ausgelesen werden. Die Bilddaten wurden dabei nicht mit den seinerzeit in der Software enthaltenen Methoden gespeichert, sondern aufbauend auf der libquicktime-Bibliothek eine neue Speicherung entwickelt. Der Vorteil der Bibliothek lag Erstens in den bereits integrierten Codecs wie MotionJPEG oder basierend auf der libdv der DV-Codec. Darüber hinaus kann die Bibliothek Dateien entweder ins Quicktime-Containerformat .MOV oder in den RIFFContainer .AVI speichern. Die Einstellungen konnten sehr komfortabel über die Programmierschnittstelle vorgenommen werden. Libquicktime kümmert sich dabei selbstständig um nötige Farbraumkonvertierungen und den Schreibprozess. Durch Installation der Codec-Bibliothek ffmpeg konnte zusätzlich der MPEG4 Codec unterstützt werden. Die Videos konnten auf diese Weise platzsparend in den bereits erwähnten Auflösungen exportiert werden. Abbildung 3.10: Export des komponierten Videos in eine AVI-Datei mit MPEG4-Codec Da die glReadPixel-Methode sehr lange zum Kopieren des Bildpuffers braucht, eignet sich diese Methode nicht, um Livevideos in Echtzeit zu exportieren. Dabei ist die Gefahr von verlorenen Bildern zu hoch. Für die Konvertierung bereits aufgezeichneter DV-Dateien ist dies aber auch gar nicht nötig. Für diese Zwecke konnte auf die in der Software bereits integrierten Methoden zum Bildweisen durchlaufen der Offline-Dateien zurück gegriffen werden. Dabei wurde auch eine Funktion zum vorherigen Setzen von In- und 45 Out-Points entwickelt. Dem Nutzer ist es somit möglich, in einem Video erst Anfang und Ende der zu exportierenden Szene zu markieren und anschließend die Szene zu rendern. Beim Bild-für-Bild-Export betrug die Bildrate zum Vergleich circa 5 fps. Da die in dieser Arbeit verwendete libquicktime-Bibliothek den Vorteil des einfachen Lesens und Schreibens von .MOV und .AVI-Dateien in beliebigen Codecs hat, konnte auch in die bis dahin in der Software entstandene Plugin-Architektur für Dateiformate ein entsprechendes Plugin eingebunden werden. Damit wurde die Software nun auch in die Lage versetzt, üblichere Dateiformate zu verarbeiten. Beim Schreiben ist dabei nicht die Verwendung von OpenGL notwendig, da der Bildpuffer direkt vom Videograbber kommt. Letztlich können auf diese Weise Videodaten einer Livekamera in Echtzeit als MJPEG oder MPEG4-Strom in eine AVI-Datei gespeichert und als virtuelle Kamera wieder geöffnet werden. Als Nebenprodukt vom Auslesen des OpenGL-Bildpuffers konnte ebenfalls eine Funktion implementiert werden, mit der jede Videoanzeige des Programms, mit all ihren Einzeichnungen wie Pupillenposition oder 3DModell des Auges, in eine PNG-Bilddatei gespeichert werden kann. Funktionalität zum Komprimieren und Speichern der Bilder konnte aus dem verwendeten QT-Framework entnommen werden. Abbildung 3.11: Alle Einstellmöglichkeiten der hybriden Darstellung Realisierung als Kontextmenü. Eigenschaften wie Saturation, Lens Correction oder Delay lassen sich über Schieberegler einstellen. 46 3.6. Entwicklung einer portablen Bedieneinheit Ausgehend vom vorhandenen Aufnahmesystem, welches sich über WLAN durch ein Notebook fern steuern ließ, wurde eine portable Bedieneinheit entwickelt. Damit kann eine autonome Bedienung allein durch den Kameramann gewährleistet werden. Die Oberfläche der Bedieneinheit wurde ebenfalls auf Basis der vorhandenen Software mit dem GUI-Framework QT und OpenGL entwickelt. Dabei wurde Wert auf ein Einfaches und im Funktionsumfang stark reduziertes Bedienkonzept gelegt. Grundlage der Arbeit war, wie bereits mehrfach erwähnt, ein portables Aufnahmesystem, wobei das Videosignal von zwei analogen Kameras über Analog-/DV-Konverter umgewandelt und als DV-Datei aufgezeichnet wurde. Der für diese Zwecke entwickelte tragbare Computer war neben den Konvertern mit einer WLAN-Schnittstelle ausgestattet. Damit konnte das Gerät auf einem zweiten Notebook mit installiertem X-Server drahtlos bedient werden. So konnte die komplette Oberfläche des Systems einfach auf das Notebook umgeleitet werden. Dies hat den Vorteil, dass eine Testperson lediglich den Computer tragen muss und der Experimentleiter als Fachmann alle Einstellungen vornehmen kann. Damit Reporter oder Kameramänner auch ohne fremde Hilfe autonom Aufnahmen machen können, bedarf es einer einfacheren Bedieneinheit. Im Wesentlichen müssen Funktionen wie die Kontrolle des Videobildes, das Starten der Kalibrationsprozedur, Start und Stop der Videoaufzeichnung sowie kleinere Einstellungen unterstützt werden. Anforderungen an die Bedieneinheit sind also die Fähigkeit Videos oder Standbilder darzustellen sowie einfache Knöpfe zur Auswahl der Funktionen. Eine einfache Lösung wäre es, die klassische Oberfläche auf einem tragbaren Touchscreen darzustellen. Entsprechende Versuche sind aber daran gescheitert, dass diese Bildschirme zu groß sind, zu viel Strom verbrauchen, eine zu geringe Auflösung für die komplexe Oberfläche haben oder einfach keine Treiber für das verwendete Linux-System zur Verfügung standen. Wie die meisten Mainboards verfügt auch der verwendete tragbare Computer über einen klassischen Videoausgang, wobei die Anzeige der Grafikkarte statt an den Monitor an ein angeschlossenes PAL oder NTSCVideogerät umgeleitet werden kann. Beim verwendeten Mainboard ist dies sogar ohne entsprechende Treiberunterstützung (bzw. trotz fehlender Unterstützung) möglich gewesen, da die Einstellung direkt im BIOS transparent zum Betriebssystem vorgenommen werden konnte. Die Grafikkarte nahm auch entsprechende Skalierungen vor, so dass im Betriebssystem nach wie vor die ideale Auflösung von 1280x1024 Pixel eingestellt blieb. So war es schließlich möglich, die komplette Anzeige und die alte Oberfläche auf einem vorhandenen Videodisplay anzuzeigen. Das Display 47 selbst hatte einen geringen Stromverbrauch, der Anschluss war allein über das dünne Videokabel möglich. Allerdings wurde die ohnehin durch PAL enorm reduzierte Auflösung nochmal auf die knapp 320x240 Pixel des Displays reduziert. Die Elemente der originalen Software sowie der weiterhin nötige Mauszeiger konnten kaum erkannt werden. Abbildung 3.12: Anzeige der ursprüngliche Software auf dem verwendeten Videodisplay (Auflösung der Grafikkarte: 800x600 Pixel) Aus diesem Grund wurde eine gesonderte Oberfläche für die Anzeige auf dem Videodisplay entworfen. Dabei konnte ebenfalls auf die existierende Software aufgebaut werden. Die Architektur des Systems wurde schon früh darauf ausgelegt, Anzeige von eigentlicher Bildverarbeitung zu trennen. Ziel des Projektes war es unter anderem, die Bildverarbeitung künftig in ein eingebettetes System auszulagern. Aus diesem Grund ist entsprechender Quelltext auch in der Sprache C geschrieben. Die Entwicklung der neuen graphischen Oberfläche konnte aber ebenfalls in der Sprache C++ erfolgen. Statt andere Frameworks zur Programmierung einer neuen Oberfläche zu benutzen, wurde eine Implementierung mit Hilfe des zuvor verwendeten QTFrameworks und dem Einsatz von OpenGL bevorzugt. QT unterstützt allerdings lediglich nur Erzeugung von Oberflächen im Design des verwendeten Fenstermanagers, beziehungsweise des Betriebssystems. Handy-, PDA- oder Spielekonsolenähnliche Oberflächen können mit QT nicht ohne Weiteres programmiert werden. In dieser Arbeit dient QT dabei der Eventsteuerung, wie der Erfassung von Mausereignissen, 48 Tastatureingaben und Taktgebern sowie der Definition der verwendeten Menüstruktur als Popup-Menü. Die Darstellung des Menüs wurde wiederum in OpenGL implementiert. Zusätzlich konnten die bereits implementieren Videoanzeigen und die hybride Darstellung einfach eingebunden werden. Beispiel für die Gestaltung der Oberfläche waren Produkte wie das portable Audioabspielgerät iPod der Firma Apple, oder klassische Menüs von Mobiltelefonen, wie man sie von der Firma Nokia kennt. Im Extremfall sind deren Bedienung mit lediglich zwei Tasten möglich. Dabei erfolgt die Navigation vorrangig in einem einfachen Menü, von dem jeweils eine Auswahl von Einträgen einer Ebene übereinander angezeigt werden. Es sind Bewegungen sowohl aufwärts und abwärts möglich, wobei prinzipiell auch nur die Abwärtsbewegung ausreicht, wenn die Markierung des aktuellen Eintrags am Ende wie in bei einem Ring wieder nach oben springt. Im hier realisierten ringförmigen Menü wurden wie bei fast allen aktuellen Handys beide Richtungen mit zwei Tasten ermöglicht. Oft erfolgt der Übergang vom Ende zum Anfang nicht spürbar, beim hier realisierten fünfzeiligen Menü wurde der letzte Eintrag allerdings am unteren Bildschirmrand, der Erste am Oberen dargestellt. Die Auswahl eines in diesem Fall mit einer Kontrastfarbe markierten Menüpunkts erfolgt über eine dritte Taste. Dabei gelangt der Nutzer entweder in eine tiefere Untermenü-Ebene oder aktiviert eine Funktion. Um aus der aktuellen Ebene wieder zurück zu gelangen haben viele Mobiltelefone eine vierte Taste. Allerdings ist der Rückweg bei manchen alten Handys und bei vielen Menüs anderer Multimediageräte ein extra Eintrag, der ebenso ausgewählt werden kann. Um die Anzahl der Tasten möglichst gering zu halten, wurde in diesem Fall ebenfalls ein Menüpunkt „Back“ eingerichtet. Die Ebenen wurden analog zum iPod „nebeneinander“ angeordnet, dass heißt das vorherige Menü kann man sich als Ring links des aktuellen Menüs vorstellen, das untergeordnete Menü rechts. Beim iPod wird der Übergang zwischen den Menüs zur Unterstützung dieser Vorstellung animiert dargestellt. Bezieht sich der Eintrag auf den Wechsel der Menüebene, wurde ein Pfeil links bzw. rechts des Eintrags angezeigt. Erfolgt die Nutzung des Menüs über die Tastatur, so ist die linke Pfeiltaste zusätzlich mit der ZurückFunktion belegt. Die rechte Taste sowie Enter sind die Auswahltasten, die obere und untere Pfeiltaste entsprechend zur Bewegung. Bei der Nutzung eines Mausrads (Jog-Dail) kann intuitiv nach oben und nach unten navigiert werden, die mittlere Taste wählt einen Punkt aus. Speziell für dieses Menü wurden die linke und rechte Maustaste zur Auf- und Abwärtsbwegung genutzt. 49 Abbildung 3.13: Fünfzeiliges Menü speziell für den mobilen Einsatz. Die Hervorhebung des gewählten Menüpunkts erfolgt durch eine Akzentfarbe. Mit „Back“ als Extraeintrag gelangt man zurück zum übergeordneten Menü, bzw. zur Anzeige der aktuell gewählten Kamera. Bezieht sich ein Eintrag auf ein Untermenü wird ein Pfeil nach rechts dargestellt. Es wurde versucht das Menü auf fünf Punkte je Ebene zu reduzieren. Um die Nutzung einer zusätzlichen Tastatur oder einer Maus zu vermeiden wurde das hier genutzte Videodisplay umgebaut. Dabei wurde auf die zahlreichen Zusatzfunktionen, wie MP3-Player oder MPEG4 Videorekorder verzichtet und lediglich der Menüpunkt zur Anzeige des Videobildes belassen. Das Display verfügte über eine Art „Jog-Dail“, welches ähnlich einem Mausrad eine Bewegung in zwei Richtung und die Auswahl durch einfachen Druck zulässt. Allerdings kann das Bedienelement nicht wie bei einem richtigen Jog-Dail durchgängig gedreht werden, sondern es erfolgt lediglich ein Tastendruck nach Links oder Rechts. Die Batterie des Displays wurde sodann entfernt und in den frei gewordenen Schacht eine auf die Hauptplatine und den Anschluss der drei Maustasten reduzierte USB-Maus eingeführt. Die Tasten des Jog-Dail konnten mit den Anschlüssen der Maus verbunden werden. Die 5 Volt Stormversorgung über USB konnte dabei gleich als Quelle für das Videodisplay genutzt werden. Am Ende ist ein Gerät entstanden, welches an den Videoausgang und an den USB-Port angeschlossen werden kann. 50 Abbildung 3.14: Bedieneinheit des tragbaren Computers. Die Batterie eines portablen Videodisplays wurde entfernt und in den leeren Schacht die Hauptplatine einer optischen USB-Maus eingebaut. Die drei Tasten des Jog-Dails wurden auf die drei Maustasten umgeleitet. Das Gerät bezieht den Strom über die USB-Schnittstelle der Maus und kann an den Videoausgang des tragbaren Computers angeschlossen werden. Im Menü können alle angeschlossenen Kameras zur Ansicht ausgewählt werden. Beim Verlassen des Hauptmenüs kommt der Nutzer ebenfalls zu dieser Ansicht zurück. Zur Realisierung dieser Funktion konnte auf die bisherigen Videoanzeigen zurück gegriffen werden. Außerdem kann die hybride Ansicht mit entzerrter Szenenkamera und integrierter Blickkamera ausgewählt werden. Dazu wurde ebenfalls einfach die bereits implementierte Klasse eingefügt. In einem Optionsmenü können zudem die beiden Kameras vertauscht werden, falls die Stecker am tragbaren Computer verwechselt wurden oder die Software die jeweiligen Kameras in falscher Reihenfolge initialisiert hat. Zudem kann die so genannte Slippage-Korrektur aktiviert werden, die mehr Robustheit gegenüber dem Verrutschen der Kopfkamera erzeugt. Letztlich können eine Reihe von Filtern gewählt werden, welche die Bewegungen des Servomotors glätten oder predizieren. Abbildung 3.15: Menüstruktur der portablen Bedieneinheit 51 3.7. Evaluation der hybriden Darstellung Mit dem tragbaren Computer und der entwickelten Bedieneinheit wurden zahlreiche Aufnahmen in der Straßenbahn, der Fußgängerzone, in Büros oder in der Natur erstellt. Diese Videos wurden danach im zuvor beschriebenen System zur hybriden Darstellung zusammen gesetzt und als Videodatei exportiert. Dabei wurde die Blickposition in der Tonspur gespeichert. Aus dem Videomaterial wurden mehrere charakteristische Szenen ausgewählt und in einem fünfminütigen Video zusammen gestellt. In einer Evaluation sollte dann untersucht werden, ob Betrachter dem Blick folgen. Dazu wurde eine Versuchsumgebung entwickelt, wobei der Blick der Probanden auf Versuchsaufbau Bildschirmkoordinaten bedingte kalibriert Verschiebungen konnten wurde. durch Durch den regelmäßige Fixationen auf den Bildschirmmittelpunkt später mit Hilfe der MathematikSoftware MatLab in den Ergebnisdaten korrigiert werden. Die Daten wurden schließlich ebenfalls in MatLab ausgewertet. Zudem wurde der ursprüngliche Film mit den Blickpositionen aller zehn Probanden überlagert und ebenfalls in einer Videodatei ausgegeben. Prinzipiell wäre es möglich gewesen die Blickbewegung von Probanden während der Darstellung des ursprünglich aufgezeichneten DV-Materials zu messen. Allerdings lag die Bildrate durch die Dekodierung beider DV-Ströme bereits unter 25 fps. Dabei erfolgte ein andauerender Festplattenzugriff mit 50 Mbit/Sekunde. Beim Start der Aufzeichnung der Blickdaten brach die Bildwiederholrate zusammen und die sonst bei 1-2ms liegende Zeit für die Pupillenerkennung stieg deutlich an. Aus diesen Gründen fiel die Entscheidung für einen vorherigen Export des montierten DV-Materials in ein anderes Videoformat wie MPEG4, welches lediglich eine Datenrate 8 Mbit für eine ähnliche Bildqualität benötigte und zur Dekompression den Prozessor kaum belastete. Allerdings ging mit dem Export in eine AVI-Datei die Information über die aktuelle Position des Blickbildes in OpenGL-Koordinaten verloren. Deshalb wurde dieses Datum zu jedem Bild in die Tonspur der Videodatei gespeichert. Das in diesem Zusammenhang entwickelte ImportPlugin von AVI-Dateien in die bestehende Software, wurde entsprechend um die Möglichkeit erweitert, diese Daten wieder aus der Audiospur auszulesen und an den entsprechenden Schnittstellen zur Verfügung zu stellen. Damit wurde es schließlich möglich die zuvor berechneten und in zu geringer Bildrate dargestellten DV-Filme als virtuelle Kamera innerhalb einer AVI-Datei ohne hohe CPU-Belastung einzulesen und in voller Geschwindigkeit abzuspielen. Die Pupillenerkennung konnte entsprechend konfliktfrei arbeiten. Der gemessene Blickpunkt und die aufgezeichnete Position des Blickbildes in der Szene konnten so gemeinsam in eine Log-Datei geschrieben werden. 52 Abbildung 3.16: Versuchsaufbau bei der Evaluation. Nach der Kalibartionsprozedur konnten die 25 Punkte überprüft werden. Die Kalibrationspunkte waren im Gegensatz zu dieser Darstellung lediglich 2x2 Pixel groß. Danach folgte die Anzeige des Filmes. Der entstandene Offset und die Drift wurde später korrigiert. Der gemessene Blickpunkt bezog sich bis dahin aber nicht auf den Bildschirm sondern entsprach Videookulographie-Brille. Aus der Pupillenposition diesem Grund relativ musste zur eine Kalibrationsprozedur entwickelt werden, womit gemessene Pupillenposition und Punkte auf dem Bildschirm in Zusammenhang gebracht werden konnten. Dafür wurde wiederum analog zur Kalibrationsprozedur zwischen Pupillenposition und Servostellung ein Verfahren entwickelt. Der Proband musste dazu seinen Kopf in etwa einem halben Meter Entfernung vom Monitor aufstützen und nacheinander 25 Punkte fixieren, welche auf dem Bildschirm nacheinander angezeigt wurden. Die Punkte waren dabei lediglich 2x2 Pixel groß. Aus diesem Grund blitzten sie beim Ändern der Position kurz auf, damit der Proband sie auch in der Peripherie wahrnehmen konnte. Die gemessene Pupillenposition und die OpenGL-Koordinaten des angezeigten Punktes bildeten wiederum die Eingabe zur Lösung eines Gleichungssystems. Schließlich konnte aus der gemessenen Pupille der Blickpunkt auf dem Monitor berechnet werden. Am Ende der Kalibrationsprozedur wurden noch einmal alle 25 Punkte sowie der eigene Blick dargestellt, um die Qualität der Kalibration beurteilen zu können. Selbst durch den Einsatz einer Kopfstütze konnte nach der Kalibration mit Hilfe dieser Darstellung festgestellt werden, dass eine konstante Abweichung, ein so genannter Offset, auftrat, der sich im Laufe der Zeit änderte (so genannte Drift). Zur Korrektur dieses Fehlers musste der Proband zu Beginn des Films und dann alle 1500 Bilder (1 Minute) auf einen Punkt in der Mitte des Bildschirms schauen. Damit konnte sichergestellt werden, dass 53 es regelmäßig ein Datum gibt, wo der Sollwert und der gemessene Istwert übereinstimmen sollten. Aus den beiden aufgezeichneten Fixierungen rund um einen Filmblock wurde jeweils ein Stück vom Ende genommen und die dazwischen liegenden Daten mit einem linear interpolierten Offset korrigiert. Aus diesem Grund und zur Erhöhung des Komforts konnte schließlich komplett auf die Kopfstütze verzichtet werden und den Probanden wurde die Instruktion gegeben, möglichst in einer Haltung zu verharren und ihren Kopf mit den Händen zu stützen. Abbildung 3.17: Gemessene horizontale Blickposition eines Probanden. Im Intervall von 1 Minute musste ein Punkt in der Bildschirmmitte fixiert werden. Diese Daten konnten dann zur Korrektur des entstandenen Offsets und der Drift zwischen den Fixationen genutzt werden. Am Ende der Untersuchung lagen Daten von 10 Probanden vor, welche jeweils den ein Sollwert des Blickspots und ein Ist-Wert korrigierten Blicks beinhalteten. Abbildung 3.18: Position des Blickbildes (Soll-Wert) und um Offset und Drift korrigierter Blick eines Probanden 54 4. Ergebnisse Im Rahmen der Arbeit wurde ein weitwinkliges Bild einer kopffesten Szenenkamera mit dem Bild einer blickgesteuerten Kopfkamera in einer hybriden Darstellung vereinigt. Diese bietet die Möglichkeit die Kameras jeweils in ihrer eigenen Zentralperspektive zu einem multiperspektivischen Bild zusammen zu stellen. Neben dem „Perspektivkontrast“ wurden Attribute wie Schärfe, Größe, Farbsättigung, Farbtemperatur und Helligkeit als Kontrastmittel eingesetzt. Zwar ist die Technik primär für zwei Kameras entwickelt worden, lässt sich aber auch mit einer einzigen blickgesteuerten Kamera nutzen. Die automatische Montage geschieht in Echtzeit entweder mit Livekameras oder mit virtuellen Kameras aus einer beliebigen DV, Microsoft AVI oder Quicktime MOV-Datei. Dabei ist ein Export der Montage in eine AVI-Datei mit diversen Codecs und der Speicherung der Blickposition in der Tonspur möglich. Zur autonomen Aufzeichnung von Videos durch Redakteure oder Kameramänner wurde eine Bedieneinheit und eine spezielle Oberfläche entwickelt. Bei der Nutzung und Aufnahme diverser Videofilme wurden Erfahrung in der Benutzung und der Fehleranfälligkeit des Systems gesammelt. Auch konnte der überwiegend positive Eindruck getestet werden, den solch ein System in der Umwelt hinterlässt. In einer Evaluation wurde das aufgenommene Videomaterial von zehn Probanden angeschaut und deren Blickverhalten relativ zum vorgegebenen Blickspot gemessen. Aus den insgesamt fünf Minuten des präsentierten Films wurden wiederum vier charakteristische Szenen von je fünf Sekunden ausgewählt. Darunter eine Szene mit einer kontinuierlichen Augenfolgebewegung, der die meisten Probanden folgten, eine Szene mit wenig peripheren Objekten, wobei ein Großteil der Probanden abgewichen ist, um die Handlungen einer peripheren Person zu verfolgen, eine Szene in der Fußgängerzone sowie in der Straßenbahn, wo die Komplexität der Peripherie so hoch war, dass praktisch kaum ein Proband dem vorgegebenen Blick gefolgt ist. Es konnte festgestellt werden, dass bei Blicksprüngen zu interessanten Zielen innerhalb von 8 Frames eine entsprechende Sakkade des Betrachters folgt, um den Blick wieder einzufangen. Diese umgerechnet circa 300ms entsprechen der visuellen Reaktionszeit. Prinzipiell wurde eine Folgebereitschaft beobachtet, wobei Gesichter und Personen eine höhere Attraktivität besitzen. Zuschauer verlangen danach, dass ihre (meist ähnliche) Erwartung erfüllt wird. Dies muss von Kameraleuten entsprechend bedient werden. Ruhige Augenbewegungen laden den Zuschauer zum Folgen ein, schnelle Sakkadenfolgen oder komplexe Szenen sorgen für, das der Betrachter dem Spot nicht mehr folgt. In diesem Fall sollte auf die Darstellung des Blickbildes verzichtet werden. 55 4.1. Darstellung von blickgesteuerten Kameras Bei der manuellen Montage der Kameramaterials konnte schnell erkannt werden, dass der Blickfilm in Form eines Kreises in das Szenenbild montiert werden muss, da durch die Anordnung der Servomotoren regelmäßig die Drehung des Blickbildes notwendig wurde. Die dadurch deutlich sichtbare Drehung des Rechtecks innerhalb des Gesamtrahmens fiel unangenehm auf und konnte war durch die technische Ursache auf den ersten Blick nicht verständlich. Der Übergang zwischen Blick und Szene musste fließend gestaltet werden, um die Aufmerksamkeit vom Zittern des Bildes, welches durch die harte Kante visuell unterstützt wurde, zu kaschieren. Die erhoffte Wirkung des Perspektivkontrastes, also der Ausnutzung der hybriden Darstellung der zwei geometrischen Mitten, blieb leider aus. Lediglich bei starken Seitwärtsbewegungen trat überhaupt ein Effekt auf. Diese waren im gesamten Film jedoch sehr selten und sehr kurz. In der Regel wurde der Kopf direkt nachgeführt. Dadurch wurde aber ebenfalls deutlich, dass eine monoperspektivische Einordnung der Blickbildes in das Szenenbild nicht erforderlich ist, da die meisten Blicke ohnehin in der Bildmitte platziert sind und damit der Perspektivkontrast kaum ins Gewicht fällt. Dabei handelt es sich um das typische Verhalten eines so genannten „head movers“, wobei der Kopf schon bei Augenauslenkungen von 10°-20° der Bewegung nachgeführt wird. Im Gegensatz dazu bewegen die „non head movers“ ihren Kopf erst ab 20°-30°. Beide Gruppen sind gleichberechtigt vertreten [AAG86]. Zur Kontrastverstärkung eigneten sich die Änderung der Größe des Blickpunktes entsprechend der Bedeutungsperspektive, sowie eine Einfärbung des Hintergrundes. Zudem wurde eine Dominanz des Blickbildes und des Szenenbildes gefunden. Für den Fall der Blickdominanz, wie sie zum Beispiel bei Augenfolgebewegungen oder beim vestibulookulären Reflex der Fall sind, sollte versucht werden, das Blickbild, besser dessen Inhalt stabil zu halten und die Szene wenn möglich nach zu führen. Bei Sakkaden und Blicksprüngen zum Beispiel während der Orientierung und Umschau in neuen Räumen und komplexen Szenen, sollte das Szenenbild dominieren und das Blickbild lediglich zur Markierung des Blickziels eingesetzt werden. Im Video wurde entsprechend bei der Begrüßungsszene der Spot verkleinert und damit dessen Bedeutung reduziert. Bei der Entwicklung der automatischen Darstellung ist das Blickbild rund und kann entsprechend zur Kompensierung gedreht werden. Der fließende Übergang verhindert Aliasing-Effekte und die störende Dominanz der harten Kante bei schnellen Bewegungen. Allerdings könnte auch dieser Kontrast variabel gestaltet werden. Zur Nutzung der vorhanden Auflösung und um der Bedeutung des Blickes Rechnung zu tragen, kann das Bild in der 56 Größe geändert werden. Die ist ebenfalls nötig um am Szenenrand aufgrund der zentralperspektivischen Darstellung den Blick entsprechend zu vergrößern. Zur Unterstützung des Farbkontrastes können Sättigung und eine Art Farbtemperatur für jede Kamera eingestellt werden. Zudem kann die Helligkeit verstärkt werden. Diese drei Faktoren sind in der Praxis sehr hilfreich. Bei der Nutzung der hybriden Darstellung hat sich eher zufällig herausgestellt, dass ein Verschieben des blickgesteuerten Bildes analog zur Augenposition auf schwarzem Hintergrund ebenfalls das Verständnis für die Gesamtszene fördert. Bei kleinen Kopfbewegungen kann so die Topographie der Umgebung im Kopf rekonstruiert werden. Zudem fördert die Bewegung der Anzeige das Verständnis für die zum Teil schnellen Blicksprünge. Der Betrachter erhält ebenfalls eine gewisse Autonomie über sein eigenes Blickverhalten. Dem Spot zu folgen, wird zu einer freiwilligen Tat, die man dann scheinbar gerne tut. Ein wichtiges Ergebnis dieser Arbeit ist die Möglichkeit, die in Echtzeit generierten hybriden Darstellungen zusätzlich in weit verbreiteten Videoformaten wie AVI oder MOV mit modernen Codecs wie MPEG4 zu exportieren. Diese Filme können zudem durch das Programm reimportiert werden, um sie in Messungen als visuellen Stimulus zu verwenden. 4.2. Aufnahmen mit dem portablen System Im Rahmen der Arbeit wurde der bereits vorhandene tragbare Computer zur Aufnahme von zwei Videosignalen um eine kleine Bedieneinheit Benutzeroberfläche samt erweitert. neuer Mit diesem Komplettsystem wurden diverse Aufnahmen in der freien Natur, in der Straßenbahn, in Büros und in der Fußgängerzone gemacht. Dabei konnte der Computer wie eine Umhängetasche am Rücken getragen werden. Prinzipiell wäre auch das Verstauen in einer solchen Tasche denkbar gewesen, der seitlich angebrachte Lüfter hätte dann aber seine Wirkung verloren. Das Display konnte in Hosenwerden, oder Jackentasche sodass letztlich untergebracht nur die blickgesteuerte Kopfkamera direkt sichtbar war. Diese hat bei einigen Menschen zwar etwas Erstaunen verursacht, entsprechende 57 Reaktionen fanden aber meist „hinter dem Rücken“ statt, sodass auf dem aufgezeichneten Videomaterial lediglich der oft fassungslose, natürliche Blick der Menschen beobachtet werden konnte. Die Bedieneinheit konnte auch bequem in der Hand gehalten werden. Bei Interessenten kam dann schnell der Eindruck auf, dass allein dieses Gerät die Verarbeitung und Speicherung aller nötigen Daten vornimmt. Der tragbare Computer ist dabei komplett in den Hintergrund der Aufmerksamkeit gerückt. Die Bediensoftware bietet zudem die Möglichkeit, durch eine Bewegung nach rechts schnell durch die Anzeige aller Kameras zu wechseln, und mit einer Bewegung nach links ein Videobild fest zu halten und anschließend zu vergrößern. Damit war es intuitiv möglich eine Kontrolle der korrekten Augenerfassung und der kürzlich aufgezeichneten Szene zu machen und gegebenenfalls neu zu kalibrieren oder den Fokus des Teleobjektivs anzupassen. Durch das Fehlen eines extra „Zurück“ Knopfes am Gerät war die Navigation im Menü zuweilen recht mühselig. Die Bezeichnung des Menüpunktes „Calibrate & Record“ manchmal irreführend, konnte aber wie andere Hürden schnell entsprechen korrigeirt werden. Insgesamt waren aber die wichtigsten Funktionen vorhanden. Nachteilig war insbesondere der hohe Stromverbrauch des Systems, wobei ein Akku eine Laufzeit von circa einer Stunde ermöglichte. Das System kann zwar über die Oberfläche herunter gefahren werden, der Start nimmt jedoch erneut circa eine Minute in Anspruch. Ein zuvor kalibriertes System kann dann aber weiter verwendet werden. Ein Nachteil des gesamten Systems lag in der fehlenden Bestimmung der Entfernung eines Objektes. So entsteht bei den recht häufigen Wechseln zwischen Nah- und Fernbereich (zum Beispiel bei Einstellungen am Display) ein Offset. Das Blickbild zeigt dann über das eigentliche Blickziel. Dabei ist auch der falsche Fokus auffällig. 4.3. Blickverhalten bei der Betrachtung des aufgezeichneten Videomaterials Als dritter Teil wurde in der Arbeit eine Umgebung zur Blickbewegungsmessung beim Betrachten eines Videos entwickelt. Dabei wird zu jedem Videobild, beziehungsweise entsprechend der zeitlichen Auflösung des Videookulographiesystems, der anvisierte Blickpunkt ausgegeben. Beispielhaft wurde eine Auswahl der aufgenommenen Szenen als Videodatei exportiert um daran das Blickverhalten der Zuschauer zu analysieren. Die Messung sollte eine Aussage darüber treffen, wie hoch die Bereitschaft ist, dem vorgegebenen Blickpunkt zu folgen. Dabei wurden keine Vergleiche zwischen den unterschiedlichen Darstellungsmöglichkeiten getroffen. Alle Videos hatten gemein, dass das Blickbild dem eineinhalbfachen seiner kalibrierten Größe 58 entsprach. Die Sättigung des Hintergrundvideos wurde verringert. Alle Videos haben eine eingestellte Servoverzögerung von vier Bildern, wobei oft schon die Intention einer Bewegung im letzten Bild durch eine entsprechende Bewegungsunschärfe erkennbar war. Zunächst wurde jeder der 14 Probanden und Probandinnen (im Folgenden: der Proband) aufgefordert eine für die folgenden 10 Minuten bequeme Haltung einzunehmen und dabei den Kopf möglichst mit den Händen abzustützen. Der Proband saß in etwa einem halben Meter Abstand vor einem 17“ TFT-Monitor. In der Bildschirmmitte war ein Punkt eingezeichnet. Es folgte eine Kalibrationsprozedur, wobei nacheinander 25 Punkte fixiert werden mussten. Die Güte der Kalibration konnte danach sofort visuell geprüft werden. Der Proband wurde instruiert, den Punkt in der Bilschirmmitte immer dann anzuschauen, sobald dieser das folgende Video unterbrach. Die Referenz diente der Offset- und Driftkorrektur der Daten. Die Aufgabe bestand darin, das Video zu betrachten. Dabei konnte der Proband stets frei wählen, wo er hinschaute. Es folgten fünf Mal eine Minute Video. Danach war das Experiment beendet. Nach der Offset- und Driftkorrektur der Daten, wurden die Ergebnisse von vier Probanden verworfen, da die Blickmessung aufgrund von Schminke oder ungeeigneter Augenfarbe zu sehr gestört wurde. Übrig blieben die Datensätze von acht männlichen und zwei weiblichen Probanden. Das gezeigte Video wurde mit allen gemessenen Blickpositionen überlagert, um einen schnellen visuellen Eindruck über das Ergebnis zu erlangen. Dabei wurden in jedem Videobild alle Blicke durch ein 4x4 Pixel großes oranges Viereck markiert. Die fünf vergangenen Blickpositionen wurden zudem verkleinert dargestellt. Um diese Daten zu quantifizieren, wurde als Maß die Entfernung des Blickes eines Probanden vom gezeigten Blickspot eingeführt. Die Entfernung wurde in dem von OpenGL genutzten Koordinatensystem angegeben. Dabei liegt der Ursprung in der Bildmitte, die Bildränder haben jeweils einen Abstand von 1. Das gesamte Bild ist demnach 2 Einheiten breit. Der Blickspot hat dabei einen Radius von 0.17, bedeckt also 17% der Breite des Bildes. Die Entfernung wurde vom Spotmittelpunkt berechnet, womit alle Werte kleiner 0.17 noch innerhalb des Blickbildes liegen. 59 Abbildung 4.1: Markierung der Blicke aller zehn Probanden im gezeigten Film. Die kleinen Punkte entsprechen jeweils den letzten fünf Bildern. In diesem Bild ist deutlich die „Blickautonomie“ bei komplexen Szenen mit vielen Gesichtern zu erkennen. Während ein Großteil der Probanden noch dem aktuellen Spot folgt, suchen andere schon seit einigen Bildern die neuen Blickziele. Ausgehend von der Entfernung vom Blickspot wurden drei Klassen gebildet. Dabei beschreibt die erste Klasse eine Entfernung von maximal 0.17, also Blicke die im Innere des gezeigten Spots landeten. Die zweite Klasse beschreibt die Bewegung in Richtung des Spots. Dabei wurde aus dem letzten Blickpunkt des Probanden und dem Rand des Spots ein Dreieck gebildet und geprüft, ob sich der aktuelle Blickpunkt innerhalb dieses Dreiecks befindet. Die letzte Klasse bezieht sich damit auf Blicke außerhalb des Spots, welche sich auch nicht in dessen Richtung bewegten. Wobei anzumerken ist, dass durch minimale Kopfbewegungen in die Richtung des Spots diese eigentliche Hinbewegung fälschlicherweise der dritten Klasse zugeordnet werden konnte. Für das komplette gezeigte Video ergab diese Klassenbildung das Ergebnis, dass sich im Durchschnitt 53% der Blicke innerhalb des Spots befinden, sowie 22% der Bewegungen in dessen Richtung zeigen. Die restlichen 25% lagen außerhalb des Spots und bewegen sich auch nicht in dessen Richtung. Trotz der Aufgabe, ein beliebiges Ziel in dem Video zu betrachten, war dieser Anteil von 75% „Folgebewegungen“ ein Hinweis dafür, dass diese Darstellung ein hohes Maß an Akzeptanz genoss. 60 Abbildung 4.2: Markierung der vier charkteristischen Szenen Der gesamte Bildschirm ist 2 Einheiten breit, der Radius des Blickspot beträgt 0.17. Das überlagerte Video motivierte die Auswahl von vier charakteristischen Szenen aus den gesamten fünf Minuten Videomaterial, um dieses Ergebnis weiter zu verfeineren. Dazu wurden die Daten aller Probanden zusammen gefasst und für jedes Bild ein Mittelwert über deren Entfernung vom gezeigten Spot berechnet (Siehe Abbildung 4.2). In der ersten Szene befinden sich fast alle Blicke innerhalb des Spots. Dabei handelt es sich um die Verfolgung eines Radfahrers inmitten einer leeren Landschaft. In der zweiten Szene liegt der mittlere Abstand mit 0.26 knapp außerhalb des Spots. Bei dieser Szene wird ein kleines Mädchen verfolgt. Der Blickspot wandert dann aber woanders hin, während fast alle Probanden weiter den Handlungen des Mädchens folgen. In der dritten Szene gibt es mit 0.5 eine deutliche mittlere Abweichung vom Spot. Die Szene am Dresdner „Fürstenzug“ beginnt mit der Verfolgung eines Mopedfahrers. Während eine weitere Frau das Bild betritt, wechselt der Blickspot auf einen belanglosen Regenwassereinlauf und wieder hoch zur Frauenkirche. Die Zuschauer sind gespalten und zwischen Frauen, Einlauf und Kirche hin und her gerissen. Schließlich ist die Abweichung mit 0.45 in der vierten Szene ebenfalls sehr hoch. Dabei handelt es sich um das Betreten einer Straßenbahn. Der Blickspot wandert dabei von den Füßen über einen Fahrgast zur Videoanzeige. Alle Probanden haben allerdings nur Augen für die Begleitung. 61 Szene 1 Szene 2 Szene 3 Szene 4 Abbildung 4.3: Vier ausgewähle Szenen. Der Plot zeigt die mittlere Entfernung aller Probanden vom dargestellten Blickspot innerhalb der fünf Sekunden dauernden Szene. Die durchschnittlichen Anteile der drei eingeführten Klassen wurden im Folgenden auf alle vier Szenen verfeinert. Dabei konnte berechnet werden, dass in der ersten Szene im Schnitt 88% der Probanden dem Spot folgen oder zumindest in seine Richtung blicken. In der zweiten Szene waren es nur noch 62 65%. Trotz der zum kurzeitig hohen Entfernung vom Spot folgten in der dritten Szene im Mittel 78% der Probanden dem Spot, in der StraßenbahnSzene war er aber lediglich für 41% attraktiv genug. Abbildung 4.4: Anteil der drei definierten Klassen in den einzelnen Szenen In Abbildung 4.4 wird zum Teil eine deutliche Varianz in den einzelnen Klassen deutlich. Aus diesem Grund wurde weiterhin untersucht, wie hoch die Folgebereitschaft der einzelnen Probanden in den vier Szenen war. Dabei wurde deutlich, dass es einige Probanden gab, die genau in diesen Szenen stark dazu tendierten, sich vom Spot zu entfernen, obwohl sie im Schnitt über den gesamten Film eher den Blick auf den Spot gerichtet hatten. Auf der anderen Seite gab es Probanden, die genau in den gewählten Szenen, deutlich oft auf den Spot schauten, obwohl sie im übrigen Film eher „Abweichler“ waren. Abbildung 4.5: Anteil der „Abweichler“ unter den Probanden Proband 6 sorgt in den untersuchten Szenen für die hohe Varianz, obwohl er im gesamten Film eher zum Durchschnitt gehört. Proband 1 ist hier durchschnittlich, führt diese Klasse im gesamten Film jedoch an. 63 Abbildung 4.6: Charakteristische Einzelbilder der dritten Szene Die Blicksprünge am Anfang der Szene hatten bereits zu einer hohen Abweichung von 0.3 zum Mittelpunkt Blickspots (Radius 0.17 Einheiten) geführt. Das Erscheinen des Mopeds am Bildrand und die ruhige Folgebewegung motivierte aber viele Probanden, dem Spot zu folgen. Einige sind dem Blicksprung gar voraus geeilt und hatten ihren Blick damit bereits 3 64 Bilder nach dem Erscheinen des Mopeds auf dem Spot. In der Regel betrug die Zeit bis zu einer Sakkade zur neuen Spotposition 8 Einzelbilder (Vergleiche Abbildung 4.7). Das Blickbild der Moped-Folgebewegung kreuzte zwei Frauen, die einige Probanden zur Fixation bewegten. Mittlerweile betrat die dritte Frau die Szene, womit erneut viele Probanden vom Spot abwichen. Auch ein Sprung auf den Regenwassereinlauf am unteren Bildschirmrand konnte nur die wenigsten Probanden davon abbringen die Frauen zu beobachten. Bei Proband 10 war in diesem Moment aber deutlich die typische Reaktionszeit von 300 ms zu erkennen. Der Proband verlässt den Spot aber schnell wieder und wendet sich wieder den Personen zu, auch als der Spot wieder auf die Frauenkirche springt. Die meisten Probanden sind dann aber wieder in der Nähe des Blickbildes. Abbildung 4.7: Blickbewegung von Proband 10 in der dritten Szene. Gut erkennbar ist die typische visuelle Reaktionszeit beim Blicksprung zum Einlauf von regelmäßig beobachteten 8 Einzelbildern (circa 300ms). Prinzipiell konnte in dem Versuch eine Folgebereitschaft von durchschnittlich 75% beobachtet werden, wobei die Probanden mit 53% ihrer Blicke direkt im gezeigten Spot waren und 22% dem Spot folgten. Dabei sind wurde deutlich, dass die Zuschauer besonders auf Personen und menschliche Gesichter schauen. Die Erwartungshaltung an die Darstellung von Personen und Gesichter sollte von Kameraleuten beim Filmen mit der blickgesteuerten Kopfkamera bedient werden. Kommentare einiger Probanden deuteten auch in diese Richtung. Sie waren manchmal nicht mit dem angebotenen Blickbild zufrieden und wünschten sich eine Verschiebung des Spots in ihre Blickrichtung. Eine ruhige Kopfhaltung war selbstverständlich förderlich. Eine Augenfolgebewegung von bewegten Objekten erzeugte eine hohe Attraktivität. In komplexen Szenen mit vielen optischen Reizen scheint der Spot zu stören und für manche Zuschauer interessante Dinge zu verdecken. Bei hohen Frequenzen des Blickes, zum Beispiel bei schnellen Rückstellbewegungen des Auges, während der Straßenbahnfahrt konnten nur 65 wenige Probanden dem Blick folgen. Entspricht die Bewegung des Blickspots aber der Erwartung, zeigt er also auf Gesichter und Personen, sowie Objekte, die in die Bildperipherie eintreten, kann sie sehr förderlich sein. 66 5. Zusammenfassung, Bewertung und Ausblick Ziel der Arbeit war die Konzeption und Realisierung eines Demonstrators zur Montage von Filmmaterial einer kopffesten Szenenkamera mit Material einer blickgesteuerten Kopfkamera. Dazu wurden die Grundlagen zur Blicksteuerung, also der Aufbau und die Bewegungen des Auges und die Methoden zur Messung dieser Bewegungen dargestellt. Der Bereich der modernen Videookulographie wurde näher erläutert und aktuelle Systeme vorgestellt. „Kopffeste Kamera“ und „blickgesteuerte Kopfkamera“ fallen in die Domäne der so genannten „subjektiven Kamera“, dem „point of view shot“. Aus diesem Grund wurde der geschichtliche Hintergrund dieses filmischen Mittels angedeutet und weiter auf die aktuellen Entwicklungen im Internet und der dort in „Videoblogs“ stattfindenden Renaissance des „first person cinema“ eingegangen. In der Spielewelt entwickelt sich zudem mit dem „first person view“ eine ganz neue Filmästhetik, die den sicheren Umgang und das Verständnis mit diesen Bildwelten beim Zuschauer schult und gleichzeitig einen Bedarf entwickelt. Die „Blickautonomie“ der Spieler zeigt aber auch, dass die Zuschauer selbst bestimmen möchten, wohin geschaut wird. Noch kein aktuelles Kamerasystem vermag diese Ästhetik im Film umzusetzen. Es wurde gezeigt, dass „Kopfkameras“ und „Helmkameras“ bereits etablierte Produkte sind, die in Fernsehen, Medizin, Sicherheit und Freizeit Anwendung finden. Einige aktuelle Produkte wurden ebenfalls vorgestellt. Weiterhin wurde die Theorie der „hybriden Perspektive“, respektive „Multiperspektive“ vorgestellt, die Produkt und Initiator von „Dialogen“ mit den Bildobjekten ist. Das Phänomen der Herauslösung von Objekten aus ihrem zentralperspektivischen „Systemraum“ und die Montage in einer „Sonderbildebene“ mit eigener geometrischer Mitte wurden im Folgenden auch als „Perspektivkontrast“ bezeichnet. Die Montage von Blickbildern in das Bild der Szenenkamera basierte auf dieser Idee. Das Blickbild sollte durch den Perspektivkontrast an Bedeutung gewinnen. Zum Anderen sollte es die fehlende monoperspektivische Einordnung des Blickbildes in die zentralperspektivische Szene motivieren. Schließlich stellte sich heraus, dass der Anteil der Blicke in die Peripherie des Szenenbilds so gering sind, dass sich weder die monoperspektivische Einordnung lohnt, noch eine besondere Bedeutung durch einen Perspektivkontrast erzielt wird. Schließlich wurden andere Kontraste zur Hervorhebung des Blickbildes genutzt, wie der Größenkontrast im Sinne der Bedeutungsperspektive, der Qualitäts-Kontrast im Sinne der Luftperspektive oder der Kalt-Warm-Kontrast im Sinne der Farbperspektive. 67 Die Arbeit basiert auf der blickgesteuerten Kopfkamera, die an der LMU München entwickelt wurde. Aus diesem Grund wurde das verwendete System näher erläutert, insbesondere deren Kalibrationsmethode, welche im Verlauf der Arbeit mehrfach adaptiert wurde. Die Kamera hat die theoretische Eigenschaft, stabilisierte Filme aufzuzeichnen, da sie sich den natürlichen vestibulookulären Reflex zu Nutze macht. In diese Software wurde die eigene Funktionalität zur hybriden Darstellung eingebaut. Dabei konnte die Software um allgemein nützliche Funktionen zum Im- und Export von Videodateien in gängige Formate erweitert werden. Zur Korrektur der Verzeichnung der weitwinkligen Bilder der Szenenkamera wurde eine Methode zur Entzerrung implementiert. Diese sollte dazu dienen ein möglichst zentralperspektivisches Bild zu erzeugen. Ein manuell gesetzter Film hatte diese Entzerrung noch nicht. Die Möglichkeit zum stufenloses Regeln der Verzeichnungskorrektur in laufenden Filmen, lässt allerdings Zweifel aufkommen, ob die Abkehr vom flächentreuen „Fischauge“ hin zum zentralperspektivisch, „gnomonisch“ korrekten Bild für subjektive Kameras wirklich richtig ist. Durch die korrigierte Darstellung gewinnt die Peripherie des Bildes an Bedeutung. Was bei Architekturfotos anregt bringt bei Kopfbewegungen große Unruhen. Beim Fischauge bleibt die Peripherie unauffällig und die Bildmitte wird betont. Zudem entsteht der beste Raumeindruck. Für einen Perspektivkontrast sollte es egal sein, welchen Abbildungsgesetzen die monoperspektivische Basis folgt. Im Gegensatz zu einem Video, welches nur die Blickkamera mit ihren schnell wechselnden Inhalten zeigt, bekommt der Betrachter in der hybriden Darstellung eine gewisse Autonomie, selbst Entscheiden zu können, wohin sein Blick führt, ähnlich der Situation in einem Computerspiel. Durch die dargestellte Gesamtszene bekommt der Zuschauer ein Verständnis für den Kontext eines konkreten Blickbildes. Er kann Veränderungen in der Peripherie des Bildes wahrnehmen und versteht so die Motivation für einen Blicksprung. Die hybride Darstellung hat gegenüber einer einfachen Kopfkamera also den Vorteil, eine höhere Auflösung an den wichtigen Punkten zu haben und diese zu markieren. Gegenüber einer puren blickgesteuerten Kamera ermöglicht sie dem Zuschauer mehr Autonomie und Verständnis gegenüber dem Blickverhalten des Kameramanns. Diese Phänomen konnte auch beim Fehlen der Szenenkamera beobachtet werden, wenn sich der Blickspot auf schwarzem Grund bewegt und damit eine Art Nachbild zeichnet. Das Wanderen des Blickes lädt zum Folgen ein. Neben der blickgesteuerten Kamera wurde auch ein portables System erklärt, dass auf einem tragbaren Computer zwei Videosignale aufzeichnen kann. In dieser Arbeit konnte das portable System um eine neue Bedieneinheit auf Basis eines Videodisplays erweitert werden. Dafür wurde eine eigenen 68 Benutzeroberfläche entwickelt. Die Oberfläche orientierte sich an einfachen Handymenüs und stellte lediglich die wichtigsten Funktionen zur portablen Aufnahme zur Verfügung. Schließlich konnten ohne fremde Hilfe Aufnahmen in natürlicher Umgebung erstellt werden. Dabei konnten gute Erfahrungen gesammelt werden, die zu weiteren Aufnahmen motivieren. Allerdings wurden auch praktische Probleme wie die fehlende Entfernungsbestimmung deutlich, die in neuen Versionen der Software aber behoben werden können. Bei den Aufnahmen in natürlicher Umgebung wurde auch die Erkenntnis gewonnen, dass sich der Großteil der Blicke in einem mittleren Bereich befindet. In einer Evaluation wurde das aufgenommene Videomaterial von zehn Probanden angeschaut und deren Blickverhalten relativ zum vorgegebenen Blickspot gemessen. Aus den insgesamt fünf Minuten des präsentierten Films wurden wiederum vier charakteristische Szenen von je fünf Sekunden ausgewählt. Es konnte eine hohe Folgebereitschaft beobachtet, wobei Gesichter und Personen eine besonders hohe Attraktivität besitzen. Zuschauer verlangen danach, dass ihre Erwartung erfüllt wird. Dies muss von Kameraleuten entsprechend bedient werden. Ruhige Augenbewegungen laden den Zuschauer zum Folgen ein, schnelle Nystagmen oder komplexe Szenen sorgen für eine Abkehr des Nutzers. In diesem Fall sollte auf die Darstellung des Blickbildes verzichtet werden. In der zukünftigen Arbeit sollte es die Möglichkeit geben, den Perspektivkontrast, genau wie alle anderen Kontraste stufenlos auf Null zu reduzieren. Eine umfangreiche Evaluation könnte den Einfluss der verschiedenen Darstellungsoptionen der hybriden Darstellung, wie die Kontraste in Perspektive, Größe, Helligkeit, Farbe und Schärfe untersuchen. Zudem könnte der Effekt eines bewegten Blickbildes auf schwarzem Grund evaluiert werden. Dabei sollten allerdings Kontrollgruppen die Ergebnisse relativieren. Mit der entwickelten Umgebung könnten solche Untersuchungen gemacht werden. In dieser Arbeit ging es um die prinzipielle Kombination der Bilder mit dem bisherigen Ergebnis, dass ein Perspektivkontrast kaum eine Rolle spielt, unter der Prämisse, dass ein Kontrast erzeugt werden soll. Um den Kontrast möglichst gering zu halten, beziehungsweise nur auf die Bildschärfe zu reduzieren reichen die gemessene Augenposition und das daraus resultierende Stellkommando für die Servos. Diese Daten könnten höchstens den Suchraum für eine weitere Bildverarbeitung einschränken, welche das Blickbild dann wirklich monoperspektivisch in die Szene integriert. Die Trennung in zwei Kameras ist ein guter Ansatz, da festgestellt werden konnte, dass es jeweils eine Dominanz von Szenenbild oder Blickbild gibt, wobei ein Bild die Ausrichtung des Anderen bestimmen könnte. Durch 69 Analyse der Augenbewegungen und der Auswertung der physikalisch gemessenen Beschleunigungen des Kopfes, könnte die jeweiligen Dominanz automatisch bestimmt und damit ein durchgängig stabiles Bild erzeugt werden. Beim vestibulookulären Reflex dominiert das Augenbild, in diesem Fall müsste die wackelnde Szenenkamera nachgeführt werden. Bei Sakkaden liegt eine deutliche Dominanz im Szenenbild, die Blicksprünge würden darin nur markiert werden. Eine Augenfolgebewegung stellt einen Mischfall dar. Zwar gibt es ein eigentlich ruhiges Blickbild, jedoch sollte die Bewegungsrichtung auch in der Szene dargestellt werden. Um die Erwartungen der Computerspieler zu erfüllen wäre es schließlich wünschenswert, wenn die eingeführte „Blickautonomie“ noch erweitert werden könnte. So wäre es vorstellbar, einen noch größeren Bereich des Gesichtfeldes, aufzuzeichnen, in dem sich ein Zuschauer wie bei der Egoperspektive selbst orientieren könnte. Gäbe es eine solche „Umschau“ könnte auch eine „Steady-Cam“ simuliert werden, die einen besonders ruhigen Fahrt durch die Subjektive macht. Der durch Schärfe markierte Blick des Kameramanns ist dann lediglich eine Motivation zum Schauen und könnte beim „Steady-Cam“-Pfad einer von vielen Stützpunkte einer Bezierkurve sein. 70 6. Literaturverzeichnis [AAG86] Afanador AJ, Aitsebaono P, Gertsman DR, Eye and head contribution to gaze at near throughmultifocals: the usable field of view., 1986 [Bou00] Paul Bourke, Nonlinear Lens Distortion, 2000, http://local.wasp.uwa.edu.au/~pbourke/projection/lenscorre ction/ [Bra85] Edward Branigan, The point of view shot, 1985 [BTh98] Braim S. P., Thomas M. W., Imaging Systems, Patent GB2323231, 1998, [CEH+99] Clarke AH, Engelhron A, Hamann C et al, Measuring the Otolith-Ocular Response by Means of Unilateral Radial Acceleration, 1999 [Fra05] Ingmar Franke, Ordnungsbasiertes Verfahren zur Generierung von hybriden Perspektiven an einem computergrafischen Beispiel, 2005 http://web.inf.tudresden.de/mg/_downloads/_files/Franke3D_NordOst_2005-Fullpaper.pdf [Gro05] Rainer Groh, Das Interaktions-Bild - Theorie und Methodik der Interfacegestaltung, 2005 [Has00] Haslwanter T., Computational and Experimental Aspects of Rotary Eye Movements in Three Directions, 2000, http://ecollection.ethbib.ethz.ch/ecol-pool/habil/habil_6.pdf [Hel1863] Helmholtz, H., Ueber die normalen Bewegungen des menschlichen Auges, 1863 [Hip00] Klemens Hippel, Prolegomena zu einer pragmatischen Fernsehtheorie, 2000, http://www.diss.fuberlin.de/2000/37/index.html [Ifs07] internationalfilmseries.com, First Person Cinema, 2007, http://www.internationalfilmseries.com/first_person_cinema/ [Ill07] Siegfried Illgen, Camera obscura - eine Touristenattraktion, 2007, http://www.sachsen-freizeit.de/CO/camera.html [JRV03] Joos, M., Rötting, M. & Velichkovsky, B.M., Die Bewegungen des menschlichen Auges: Fakten, Methoden, innovative Anwendungen, 2003 http://rcswww.urz.tudresden.de/~cogsci/pdf/joos02.pdf [KSJ00] Kandel, Eric R.; Schwartz, James H., Jessel, Thomas M., Principles od Neural Science, 2000 [Nó33] Lorente de Nó , Vestibulo-ocular reflex arc, 1933, 71 [Ohm28] Ohm J., Die Hebelnystagmographie, 1928 [opt07] Optomotor Laboratory, Express Eye - Eye Tracker, 2007, http://optom.de/english/exe-tr.htm [Pan85] Panofsky, Erwin, Die Perspektive als symbolische Form, 1985 [Pin97] Pinel, John P.J., Biopsycholgie - Eine Einführung, 1997 [Rob63] Robinson D A, A method of measuring eye movement using a cleral search coil in a magnetic field, 1963 [Sch+05] Schneider, E. et al., Eye Movement Driven Head-Mounted Camera: It Looks Where the Eyes Look, 2005 [TSM+94] Tweed D, Sievering D, Misslich H et al., Rotational kinematics of the human vestibuloocular reflex. I. Gain matrices, 1994 [UPJ+05] Unema, P., Pannasch, S., Joos, M. & Velichkovsky, B.M., Timecourse of information processing during scene perception: The relationship between saccade amplitude and fixation duration, 2005, http://rcswww.urz.tudresden.de/~cogsci/pdf/unema2005.pdf [VRW78] Volkmann, F.C., Riggs, L.A. & White, K.D., Central and peripheral determinants of saccadic suppression, 1978 [Wik07p] Wikipedia, Perspektive, 2007, http://de.wikipedia.org/w/index.php?title=Perspektive&oldi d=27363117 [YoS75] Young, L.R., Sheena, D., Survey of eye movement recording methods, 1975 [Zie01] Gernot Ziegler, YUV texture upload, 2001, http://oss.sgi.com/projects/performer/mail/infoperformer/perf-01-06/0017.html Alle angegebenen Internetadressen wurden am 25.02.2007 noch einmal auf ihre Konsitenz geprüft und abgespeichert. 72 7. Abbildungsverzeichnis Abbildung 2.1: Muskulatur des Auges................................................................8 Abbildung 2.2: Elektromagnetische „Search Coil“ Methode mittels Kontaktlinse (Links:Timothy C Hain, Rechts: Haslwanter [Has00]).......................................................................................10 Abbildung 2.3: Elektrookulographisches EOG System mit Szenenkamera (Shackel 1960)............................................................................ 11 Abbildung 2.4: Purkinjebilder (fourward.com)................................................11 Abbildung 2.5: Apparaturen zur Messung mittels Infrarotokulographie (Links: optom.de, Mitte, Rechts: eyemove.com)...................12 Abbildung 2.6: Anwendung und Beispiele für stationäre VOG-Systeme.... 13 Abbildung 2.7: Typisches Bild einer Augenkamera........................................ 14 Abbildung 2.8: Aufbau eines kopffesten Videookulographiesystems..........14 Abbildung 2.9: Systeme zur Videonystagmographie .....................................15 Abbildung 2.10: Kopffeste VOG-Systeme mit HochgeschwindigkeitsKameras ..................................................................................... 15 Abbildung 2.11: Portables VOG-System mit tragbarem Videorecorder. (a-s-l.com)................................................................................... 16 Abbildung 2.12: Klassiker der subjektiven Kamera.........................................17 Abbildung 2.13: Der komplett subjektive Film "Russian Ark" (2002)........... 18 Abbildung 2.14: Authentizität mittels subjektiver Handkameras ................19 Abbildung 2.15: Versteckte Kamera im Fernsehen..........................................19 Abbildung 2.16: Videopodcast der Bundeskanzlerin Angela Merkel (bundeskanzlerin.de)................................................................ 20 Abbildung 2.17: Der first person shooter "Doom" (1993) ...............................21 Abbildung 2.18: Kopfkameras bei der Polizei.................................................. 22 Abbildung 2.19: Funktionsprinzip der blickgesteuerten Kopfkamera......... 23 Abbildung 2.20: Kalibrationsprozedur der blickgesteuerten Kopfkamera.. 24 Abbildung 2.21: Blockdiagramm der mobilen blickgesteuerten Kopfkamera ......................................................................................................25 Abbildung 2.22: Oberfläche der Kopfkamera-Software "Qlotz".................... 26 Abbildung 2.23: "Der Neumarkt zu Dresden von der Moritzstraße aus".... 27 73 Abbildung 2.24: Markierung der beiden geometrischen Mitten im Bild von Canaletto.....................................................................................28 Abbildung 2.25: Aufzeichnung der Augenbewegung eines Betrachters......29 Abbildung 3.1: Vorhandene blickgesteuerte Kopfkamera mit zusätzlicher Szenenkamera. ..........................................................................33 Abbildung 3.2: Manuelle Montage in Adobe AfterEffects............................. 34 Abbildung 3.3: Komplexen Szene mit schnellen Augenbewegungen.......... 36 Abbildung 3.4: Korrektur der Fischaugenverzeichnung................................ 37 Abbildung 3.5: Kalibrationsprozedur für die hybride Darstellung. ............ 39 Abbildung 3.6: Kalibration am Referenzgitter..................................................40 Abbildung 3.7: Anpassung des Servo-Delays. .................................................41 Abbildung 3.8: Verwendete Raster in der OpenGL-Darstellung...................42 Abbildung 3.9: Radialer Weichzeichner um den Blickpunkt......................... 44 Abbildung 3.10: Export des komponierten Videos in eine AVI-Datei mit MPEG4-Codec........................................................................... 45 Abbildung 3.11: Alle Einstellmöglichkeiten der hybriden Darstellung....... 46 Abbildung 3.12: Anzeige der ursprüngliche Software auf dem verwendeten Videodisplay.............................................................................. 48 Abbildung 3.13: Fünfzeiliges Menü speziell für den mobilen Einsatz......... 50 Abbildung 3.14: Bedieneinheit des tragbaren Computers..............................51 Abbildung 3.15: Menüstruktur der portablen Bedieneinheit......................... 51 Abbildung 3.16: Versuchsaufbau bei der Evaluation. .................................... 53 Abbildung 3.17: Gemessene horizontale Blickposition eines Probanden.....54 Abbildung 3.18: Position des Blickbildes (Soll-Wert) und um Offset und Drift korrigierter Blick eines Probanden................................54 Abbildung 4.1: Markierung der Blicke aller zehn Probanden im gezeigten Film. ............................................................................................60 Abbildung 4.2: Markierung der vier charkteristischen Szenen......................61 Abbildung 4.3: Vier ausgewähle Szenen. ......................................................... 62 Abbildung 4.4: Anteil der drei definierten Klassen in den einzelnen Szenen ......................................................................................................63 Abbildung 4.5: Anteil der „Abweichler“ unter den Probanden.................... 63 74 Abbildung 4.6: Charakteristische Einzelbilder der dritten Szene..................64 Abbildung 4.7: Blickbewegung von Proband 10 in der dritten Szene. ........ 65 75 8. Anhang 8.1. Vergleich von Videookulographiesystemen Hersteller EyeGaze EyeGaze ERICA LC MetroVision Tobii Frequenz 60 Hz 250 Hz 60 Hz 60 Hz 60 Hz 60 Hz URL eyegaze.com eyegaze.com eyeresponse.com lctinc.ocm metrovision.fr tobii.com Tabelle 1: Stationäre Systeme für freie Kopfhaltung mit Monitor Hersteller EyeTech EyeTech SeeingMachines Tobii Frequenz 60 Hz 60 Hz 60 Hz 60 Hz URL eyetechds.com eyetechds.com seeingmachines.com tobii.com Tabelle 2: Stationäre Systeme für freie Kopfhaltung ohne Monitor Hersteller Eyelink Eyelink SMI CRS Frequenz 1000-2000 Hz 1000-2000 Hz 1250 Hz 250 Hz URL eyelinkinfo.com eyelinkinfo.com smi.de crsltd.com Tabelle 3: Stationäre Systeme mit fixiertem Kopf 76 Hersteller SMI Micro-medical Neuro kinetics Intellinetix VDVS Kameras 1/2 1/2 1/2 2 1/2 Laser - - o - - Frequenz 60 Hz 60 Hz 200 Hz 60 Hz 60 Hz URL smi.de micromedical.com neuro-kinetics.com intellinetx.com vdvs.ru Tabelle 4: Kopffeste Systeme für Nystagmographie 1 Hersteller Synapsis Gnotometrics EST Homoth Difra Kameras 1 (binok.) 2 2 1 1 Frequenz 200 Hz 60 Hz 60 Hz 60 Hz 60 Hz URL sysnapsis.fr gnotometrics.com est-med.de homoth.de difra.de Tabelle 5: Kopffeste Systeme für Nystagmographie 2 Hersteller ASL LMU Chronos Vision Eyelink Kameras 1/2 1/2 2 1/2 Frequenz 360 Hz 500 Hz 400 Hz 500 Hz Szene o - - URL a-s-l.com forbias.de chronos-vision.de eyelinkinfo.com Tabelle 6: Kopffeste Systeme mit Hochgeschindigkeitskameras 77 Hersteller Arrignton Research ASL Open Eyes SMI Kameras 1/2 1 1 1/2 Frequenz 30 Hz 30 Hz 30 Hz 60 Hz Spiegel o - - o URL arringtonresearch.com a-s-l.com hcvl.hci.iastate.edu smi.de Tabelle 7: Portable Systeme mit Szenenkamera 8.2. Vergleich von Kopfkamerasystemen Hersteller Rent-a-Cop Kopfkamera.de URL s p i o n a g e - kopfkamera.de ueberwachungstechnik.de Blackeye Oregon Scientific blackeyeusa.com oregonscientific.com Tabelle 8: Reine Kopfkamera-Systeme Hersteller ARCHOS Helmkamera.at Second Surveilance Sight Faseroptik Henning URL archos.com helmkamera.at doublevisionsystems.com faseroptik-henning.de Tabelle 9: Kopfkamera-Systeme mit Rekorder 78 8.3. Quelltext zur Verzeichnungskorrektur void radialDist(double xout, double yout, double *xin, double *yin) { double ro, ri, angle, lens, a, b, c; // distortion level (w) lens = tex[GUI_SCENE_HEAD].lens; if (lens == 0.) { *xin = xout; *yin = yout; } else // no correction { // calculate radius and angle from current grid box ro = sqrt(xout*xout + yout*yout*9./16.); angle = atan2(yout*3./4.,xout); // apply radial distortion function ri = atan( ro * lens) / atan( lens ); // calculate distorted texture vertex points for current grid *xin = ri * cos( angle ); *yin = ri * sin( angle ); } return; } ... unsigned int gl_list[SCENE_GL_HEAD] = glGenLists( 1 ); glNewList( gl_list[SCENE_GL_HEAD], GL_COMPILE ); { struct double_coord *t; double xo, yo, d, x1, y1, x2, y2, hw, hh, xc, yc, xi, yi; glEnable( GL_TEXTURE_2D ); glBindTexture( GL_TEXTURE_2D, tex[GUI_SCENE_HEAD].tex_id ); // abbr. to texture coordinates t = tex[GUI_SCENE_HEAD].tex_coord; // step length (distance between grid points) minimum .02 d = .04; // vertex point of an rectangle! subtexture x1 = t[3].x; y1 = t[3].y; x2 = t[1].x; y2 = t[1].y; // half width and height hw = (x2 - x1) / 2.; hh = (y2 - y1) / 2.; // center of rectangle xc = x1 + hw; yc = y1 + hh; // display grid for (yo=-1.;yo<1.;yo+=d) for (xo=-1.;xo<1.;xo+=d) { glBegin( GL_QUADS ); radialDist( xo , yo + d, &xi, &yi); glTexCoord2d( xc + hw*xi, yc + hh*yi); glVertex2d( xo , yo + d ); radialDist( xo + d, yo + d, &xi, &yi); glTexCoord2d( xc + hw*xi, yc + hh*yi); glVertex2d( xo + d, yo + d ); radialDist( xo + d, yo , &xi, &yi); glTexCoord2d( xc + hw*xi, yc + hh*yi); glVertex2d( xo + d, yo ); radialDist( xo , yo , &xi, &yi); glTexCoord2d( xc + hw*xi yc + hh*yi); glVertex2d( xo , yo ); glEnd(); } glDisable( GL_TEXTURE_2D ); } glEndList(); ... glCallList(gl_list[SCENE_GL_HEAD]); 79 8.4. Quelltext zur Darstellung des runden Blickspots unsigned int gl_list[SCENE_GL_GAZE_ROUND] = glGenLists( 1 ); glNewList( gl_list[SCENE_GL_GAZE_ROUND], GL_COMPILE ); { double theta = 0.; float radius = tex[GUI_SCENE_GAZE].radius; struct double_coord *t; t = tex[GUI_SCENE_GAZE].tex_coord; glEnable( GL_TEXTURE_2D ); glBindTexture( GL_TEXTURE_2D, tex[GUI_SCENE_GAZE].tex_id ); { glColor4f(1., 1., 1., 1.); glTexCoord2d( t[4].x, t[4].y ); glVertex2f(0., 0.); glBegin (GL_TRIANGLE_FAN); for (theta = 0.; theta <= 2.*M_PI; theta += M_PI/36.) { float x = sin(theta) * .9; float y = cos(theta) * .9; glTexCoord2d( t[4].x + radius*x * 16./9., t[4].y - radius*y ); glVertex2f( x, y); } glEnd(); glBegin (GL_TRIANGLE_STRIP); for (theta = 0.; theta <= 2.*M_PI; theta += M_PI/36.) { glColor4f(1., 1., 1., 1.); float x = sin(theta) * .9; float y = cos(theta) * .9; glTexCoord2d( t[4].x + radius*x * 16./9., t[4].y - radius*y ); glVertex2f( x, y); glColor4f(1., 1., 1., 0.); x = sin(theta+M_PI/72.); y = cos(theta+M_PI/72.); glTexCoord2d( t[4].x + radius*x * 16./9., t[4].y - radius*y ); glVertex2f( x, y); } glEnd(); } glDisable( GL_TEXTURE_2D ); } glEndList(); ... glEnable( GL_BLEND ); glBlendFunc(GL_SRC_ALPHA, GL_ONE_MINUS_SRC_ALPHA); glTranslatef( transformation.translate.x, transformation.translate.y, 0.); glScalef(transformation.scale, transformation.scale, 1.); glRotatef(transformation.rotate, 0., 0., 1.); glCallList(gl_list[SCENE_GL_GAZE_ROUND]); 80 8.5. Quelltext zur Erzeugung der Unschärfe // apply blur filtering glClear(GL_ACCUM_BUFFER_BIT); for (y=0; y<size; y++) // filter width for general blurring in pixel { for (x=0; x<size; x++) { for (r=0; r<radial_size; r++) // filter width for radial blur { glCallList(gl_list[SCENE_GL_HEAD]); glAccum(GL_ACCUM, 1./(radial_size*size*size)); glTranslatef(transformation.translate.x, transformation.translate.y,0.); glRotatef(.3, 0., 0., 1.); glTranslatef(-transformation.translate.x, -transformation.translate.y,0.); } glTranslatef(transformation.translate.x, transformation.translate.y,0.); glRotatef(-radial_size*.3, 0., 0., 1.); glTranslatef(-transformation.translate.x, -transformation.translate.y,0.); glTranslatef(2./width(), 0., 0.); } glTranslatef(- size*2./width(), 2./height() * 3./4., 0.); } glAccum(GL_RETURN, 1.); 81