Hybride Kopfkamera - Professur Mediengestaltung

Werbung
Hybride Kopfkamera Bildmontage von blickgesteuerter
und kopffester Kamera
Diplomarbeit
vorgelegt von Johannes Vockeroth
Dresden, den 27. Februar 2007
Technische Universität Dresden
Fakultät Informatik
Studiengang Medieninformatik
Institut für Software- und Multimediatechnik
Professur für Mediengestaltung
Betreuer: Dr. Erich Schneider (LMU München)
Verantwortlicher Hochschullehrer: Prof. Dr. Rainer Groh
2
Eigenständigkeitserklärung
Hiermit erkläre ich, dass ich die vorliegende Arbeit selbständig verfasst
und nur die erwähnten Hilfsmittel und Quellen verwendet habe.
Dresden, 27. Februar 2007
3
Inhaltsverzeichnis
1. Motivation und Zielsetzung..............................................................................5
2. Stand der Technik............................................................................................... 7
2.1. Auge und Augenbewegung...................................................................... 7
2.2. Methoden zur Blickbewegungs-Messung...............................................9
2.3. Videookulographie-Systeme................................................................... 12
2.4. Subjektive Kamera und Egoperspektive............................................... 16
2.5. Blickgesteuerte Kopfkamera................................................................... 22
2.6. Hybride Perspektive - Multiperspektive...............................................26
3. Methoden........................................................................................................... 31
3.1. Einbindung in das existierende System.................................................32
3.2. Manuelle Montage in Adobe AfterEffects.............................................34
3.3. Entzerrung der Fischaugenverzeichnung............................................. 36
3.4. Hybride Darstellung der Kameras......................................................... 37
3.5. Import und Export gängiger Videoformate..........................................44
3.6. Entwicklung einer portablen Bedieneinheit......................................... 47
3.7. Evaluation der hybriden Darstellung.................................................... 52
4. Ergebnisse.......................................................................................................... 55
4.1. Darstellung von blickgesteuerten Kameras.......................................... 56
4.2. Aufnahmen mit dem portablen System................................................ 57
4.3. Blickverhalten bei der Betrachtung des aufgezeichneten
Videomaterials................................................................................................. 58
5. Zusammenfassung, Bewertung und Ausblick............................................. 67
6. Literaturverzeichnis..........................................................................................71
7. Abbildungsverzeichnis.................................................................................... 73
8. Anhang............................................................................................................... 76
8.1. Vergleich von Videookulographiesystemen.........................................76
8.2. Vergleich von Kopfkamerasystemen..................................................... 78
8.3. Quelltext zur Verzeichnungskorrektur................................................. 79
8.4. Quelltext zur Darstellung des runden Blickspots................................ 80
8.5. Quelltext zur Erzeugung der Unschärfe............................................... 81
4
1. Motivation und Zielsetzung
Die moderne Gesellschaft ist geprägt von Individualität. Statt Berichten
über Politik und Weltgeschehen sehen wir im Fernsehen individuelle
Schicksale von Auswanderen, von Hausfrauen oder von Computer- und
Technikfreaks die einmal halbnackt auf der Bar tanzen wollen. Wir haben nicht
nur die Wahl zwischen einem Kanal, der diese Sendung zu einer Uhrzeit
sendet, sondern können aus Hunderten von Fernsehkanälen auswählen oder
per Video-On-Demand und Internet die Sendung gleich zur Wunschzeit
anschauen. In unzähligen Blogs erzählen Menschen im Internet ihre
individuelle Geschichte, die wiederum eine von vielen ist, die sich Andere
individuell
zusammen
stellen.
Die
Menschen
erstellen
persönliche
Internetseiten auf MySpace&Co. um sich selbst darzustellen und Andere
kennen zu lernen. Computer, Autos und Technik kaufen wir heute nicht in
Einheitsgröße, sondern können aus einem Baukastenprinzip unendliche
Kombinationen auswählen. Im Computerspiel „Second Life“ bauen wir unsere
eigenen Gegenstände. Diese Welt wird uns nicht vorgeführt, wir können sie
selbst betreten und uns darin umschauen. Wir produzieren individuell und
wir konsumieren individuell – zumindest haben wir das Gefühl.
Diese Arbeit soll das nicht stoppen. Hier wird an einem Werkzeug für
diejenigen mitgearbeitet, die ihre persönliche Sicht auf die Welt darstellen
wollen, die ihre Geschichte erzählen wollen, die genau das zeigen wollen, was
sie mit ihren eigenen Augen gesehen haben. Dabei soll auch der Konsument
selbst entscheiden, wie er das sieht – zumindest sollte er das Gefühl haben.
Das Werkzeug ist eine Kopfkamera. Im Internet finden sich bereits
entsprechende
Filme
von
Mountainbikern,
Skifahrern
und
Fallschirmspringern. Im Fernsehen gibt es Reportagen aus der Subjektive, wo
sich mutige Journalisten in gefährliche Banden einschleusen und nun ihre
Geschichte erzählen.
Die darin verwendeten Kameras haben einen Nachteil: Sie zeigen nur,
was gesehen werden konnte, aber nicht, was tatsächlich angeschaut wurde.
Die hier verwendete – blickgesteuerte – Kopfkamera hat auch einen Nachteil:
Sie zeigt nicht, was sonst noch gesehen werden konnte, sondern nur, was
tatsächlich angeschaut wurde.
Ziel dieser Arbeit ist demnach eine Kopfkamera, die sowohl zeigt, was
gesehen werden konnte als auch, was tatsächlich angeschaut wurde. Sie ist
dafür sowohl mit einer weitwinkligen Szenenkamera also auch mit einer
blickgesteuerten Kamera ausgestattet. Hier soll untersucht werden, wie die
beiden Bilder dieser Kamera zusammen geführt werden können. Was passiert,
wenn das Bild der einen einfach auf das der Anderen geklebt wird? Welche
5
Optionen gibt es da? Wie wird so ein Gerät im Alltag dann bedient? Und
schauen sich das die Leute überhaupt an?
Das folgende Kapitel legt Grundlagen zu Augenbewegungen, zu
Blickbewegungsmessung, zur Messung mit Videokameras, zur „Subjektiver
Kamera“, zur Steuerung durch Blicke sowie zur hybriden Darstellung von
zwei verschieden Kameras.
Im dritten Kapitel wird gezeigt, wie die eigene Entwicklung auf der
existierenden Software der blickgesteuerten Kamera aufgebaut, wie das Bild
eines billigen Fischaugenobjektivs korrigiert wird, wie die Videos dann
tatsächlich montiert werden, wie man sie in jedem Player abspielen kann, wie
ein portables Aufnahmegerät aussieht und schließlich wie man rausfindet, ob
sich das die Leute dann auch anschauen.
Das vierte Kapitel listet die Ergebnisse auf
und zeigt, was bei der
Montage alles beachtet werden kann, was bei den Aufnahmen so heraus
gekommen ist und was sich die Leute dann tatsächlich angeschaut haben.
Schließlich gibt das fünfte Kapitel darüber Auskunft, warum sich die
Arbeit gelohnt hat, warum man sich keine Sorgen über die Montage machen
muss, warum sich das die Leute tatsächlich anschauen und warum in der
Zukunft noch vieles besser werden kann.
6
2. Stand der Technik
2.1. Auge und Augenbewegung
Um eine Kamera durch die Bewegung der Augen zu steuern, ist es
wichtig, die Grundlagen über den anatomischen Aufbau der Auges zu kennen
und die damit verbundenen Möglichkeiten der Augenausrichtung. Im
Folgenden werden darüber hinaus die Fähigkeit des Auges zur Fixation von
Blickzielen,
die
zwischen
den
Fixationen
stattfindenden
schnellen
Blicksprünge, die Sakkaden, sowie kleine Mikrobewegungen beschrieben.
Augenbewegungen können zudem durch den Gleichgewichtssinn mit dem so
genannten
vestibulookulären
Reflex
(VOR)
gesteuert
werden.
Augenfolgebewegungen ermöglichen es, bewegten Objekten ohne Sakkaden
zu folgen. Die Vergenzstellung beider Augen gibt Auskunft darüber, in
welcher Entfernung ein Objekt wahrgenommen wird.
Das Auge lässt sich als kugelförmiges Objekt annehmen. Von vorne sieht
man eine Öffnung in den Innenraum des Auges, die Pupille. Umgeben wird
die Pupille von der Iris, einer Muskelgruppe zur Kontrolle der Blendenöffnung
und damit der Menge des einfallenden Lichtes. Pupille und Iris werden von
der vorderen Augenkammer und einer Hornhaut, der Cornea bedeckt. Um
Pupille und Iris herum befindet sich die Sclera, das sichtbare Weiße des Auges.
An der Inneren Rückwand des Auges befindet sich die Retina, eine
lichtempfindliche Schicht, welche ein Abbild der Umwelt in neuronale Signal
umwandeln kann. Die Fovea centralis oder auch der gelbe Fleck bildet dabei
die Zone des schärfsten Sehens. Hier ist die Dichte besonders der für das
Farbsehen verantwortlichen Zapfen deutlich höher, so dass die Einzelheiten
eines Objektes besonders gut unterschieden werden können. Zudem findet in
diesem Bereich der Großteil der Farbwahrnehmung statt. Außerhalb
dominieren die Stäbchen, welche nur für die Wahrnehmung der Helligkeit
verantwortlich sind [Pin97].
Das gesamte Blickfeld des Auges umfasst einen Kegel von circa 100°, die
Zone des schärfsten Sehens ist mit circa 1° aber deutlich kleiner. Weiter von
der Fovea entfernte Objekte werden mit einer deutlich geringeren Schärfe und
abnehmender Farbintensität wahrgenommen. Schon bei einer Abweichung
von 3° verringert sich die Schärfe um die Hälfte. Zwischen der Fixation auf
bestimmte Objekte finden Sakkaden statt, wobei sich das Auge mit bis zu
1000° pro Sekunde um einen Winkel von 60° drehen kann [JRV03].
Für die Augenbewegung und dessen Ausrichtung sind sechs Muskeln
verantwortlich. Sie gruppieren sich in drei komplementäre Paare, welche den
Augapfel in drei verschiedenen Freiheitsgraden rotieren können. Die
jeweiligen Drehachsen stehen nicht zwangsläufig orthogonal zueinander und
7
sind auch nicht von der primären visuellen Achse abhängig [KSJ00]. Je nach
vorheriger Augenstellung kommen andere Muskeln zum Einsatz. Das Auge
bewegt sich, um visuelle Reize auf der Retina möglichst scharf und konstant
im Bereich der Fovea abzubilden, neue Objekte im Blickfeld zu erfassen oder
das Blickziel zu stablisieren. Mit Hilfe der Torsion, also dem Rollen des Auges,
wird sichergestellt, dass bei Kopfbewegungen um die Rollachse dieses Bild
möglichst aufrecht steht. Allerdings folgt das Auge beim Menschen einer
solchen Kopfbewegung im dynamischen Fall nur zu circa 40% [TSM+94] und
im statischen Fall zu 10% bis 20% [CEH+99].
Abbildung 2.1: Muskulatur des Auges
Im Bild zu erkennen sind die sechs Muskeln zur Augenbewegung in drei
Dimensionen. (Gray's Anatomy)
Prinzipiell
können
kompensatorische
Augenbewegungen
zur
Stabilisierung und zielsuchende Bewegungen zur Ausrichtung auf ein neues
Blickziel unterschieden werden.
Die primäre Aufgabe des Auges ist es, den Blick auf ein Objekt zu
fixieren, um ein stabiles Abbild auf die Retina beider Augen zu projizieren. Die
Fixation kann aber durch Bewegungen des Kopfes oder des Objektes
beeinträchtigt werden. Aus diesem Grund gibt es drei Systeme, welche diese
Bewegungen kompensieren. Der vestibulookuläre Reflex (VOR) bezeichnet die
Verschaltung des Gleichgewichtsorgans mit der Bewegung des Auges. Er sorgt
dafür, dass der Blick trotz Kopfbewegung stabil auf ein Ziel gerichtet bleibt.
Dabei wird eine Änderung der Lage und der Geschwindigkeit von den
Bogengängen im linken und rechten Innenohr über den so genannten DreiNeuronen-Reflexbogen an die Augenmuskulatur gesendet [Nó33]. Die
Gesamtlaufzeit des VOR liegt bei circa 10 ms und reicht damit aus, trotz
8
Kopfbewegung ein stabiles Bild auf der Retina zu erzeugen. Wird eine
maximale Auslenkung in einem Freiheitsgrad erreicht, macht das Auge eine
schnelle Rückstellbewegung ähnlich einer Sakkade. Die Kombination aus der
langsamen Folgebewegung und dem schnellen Rückstellen wird als
vestibulärer Nystagmus bezeichnet. Bewegt sich nicht der Kopf, sondern das
gesamte retinale Abbild, kommt es dagegen zum optokinetischen Nystagmus.
Dies tritt typischerweise auf, wenn man sich in einem Zug bewegt und die
Landschaft vorüber zieht. Schließlich entsteht die „smooth persuit“ genannte
Augenfolgebewegung, wenn sich ein Objekt im Blickfeld bewegt. Ab einer
Geschwindigkeit bis zu 80° pro Sekunde macht das Augen wiederum
Sakkaden, um das Objekt einzuholen.
Da die Zone des schärfsten Sehens etwa ein Grad beträgt, das Blickfeld
aber etwa 100°, macht der Mensch Sakkaden gepaart mit kurzzeitigen
Fixationen, um eine Vorstellung der Szene zu erreichen und neue Ziele zu
suchen. Dabei passieren bei einer neuen Szene innerhalb einer Sekunde circa
drei Fixationen mit einer Dauer von mindestens 100ms [YoS75], welche durch
die Sakkaden unterbrochen werden. Zwischen 30-40ms vor und bis zu 120ms
nach einer Sakkade
ist
die visuelle Wahrnehmung
dabei drastisch
eingeschränkt [VRW78]. In den ersten drei Sekunden der Betrachtung eines
neuen Bildes, finden dabei wesentlich mehr Fixationen und deutlich größere
Sakkaden satt. Mit der Zeit nehmen die Frequenz der Fixationen sowie die
Amplitude der Sakkaden ab [UPJ+05].
In Laborsituationen tritt eine dritte Klasse der Augenbewegungen, so
genannte Mikrobewegungen auf, welchen die Funktion zugeordnet wird, ein
sich stets änderndes retinales Abbild zu erzeugen, um damit den visuellen
Stimulus aufrecht zu erhalten. Neuronen reagieren in der Regel besser auf
Veränderungen als auf konstante Reize [JRV03]. Allerdings ist diese These
umstritten, da die Mikrobewegungen mit der gleichen Frequenz auftreten, wie
normale Sakkaden, die damit ausreichen würden, den visuellen Stimulus zur
erhalten.
Die bisher vorgestellten Augenbewegungen treten alle konjugiert, also
für beide Augen parallel auf. Ziel der Vergenzstellung des Auges ist es, ein
Objekt beidseitig in der Zone des schärfsten Sehens abzubilden. Die Vergenz
ist damit ein Maß für die Entfernung eines betrachteten Objektes. Sie kann
sowohl als kompensatorische Bewegung, sowie bei schnellen Fixationen
auftreten.
2.2. Methoden zur Blickbewegungs-Messung
Die Geschichte der Messung von Augenbewegung und Blickrichtung
geht bis ins 18. Jahrhundert auf Erasmus Darwin zurück. Helmholtz und
Listing bestimmten 1863 die Augenbewegung mittels Nachbilder. Die
9
Testperson musste dabei längere Zeit auf einen Punkt innerhalb eines
aufgezeichneten Gitters schauen. Danach wurde die Blickrichtung geändert
und das nun gesehene Gitter mit dem Nachbild auf der Netzhaut verglichen.
Mit dieser Methode konnte vor allem die Torsion des Auges gemessen werden
[Hel1863].
Mittlerweile werden eine Vielzahl von technischen Methoden angeboten,
um Stellung und Bewegung der Augen zu messen. Das Funktionsprinzip kann
sich dabei grundlegend unterscheiden. So ist für die Registrierung von
schnellen Augenbewegung prinzipiell eine andere Methode zu bevorzugen, als
für die Bestimmung der exakten Blickrichtung, wie beim Lesen eines Buches.
Je nach Anwendungsbereich können prinzipiell vier Methoden zur
Messung unterschieden werden:
●
Mechanisch – mittels Strohhalm und Tinte [Ohm28]
●
Elektromagnetisch - mittels Spulen im Magnetfeld
●
Elektrisch - durch Potentialmessung mittels Elektroden
●
Optisch – durch Reflexionen am Auge
Bei der elektromagnetischen „Search Coil“ Technik werden in eine
Kontaktlinse kleine Spulen eingebettet und deren Anschlüsse nach außen
gelegt. Die Testperson muss die Linsen einsetzen und befindet sich während
des Versuchs in einem dreidimensionalen Spulensystem. [Rob63] Diese
Methode ist sehr genau und bietet eine hohe zeitliche und räumliche
Auflösung, hat aber den Nachteil, dass sie für den Träger unkomfortabel ist.
Wegen der Gefahr eines Ödems kann sie nur für sehr kurze Perioden bis zu 30
Minuten eingesetzt werden.
Abbildung 2.2: Elektromagnetische „Search Coil“ Methode mittels
Kontaktlinse (Links:Timothy C Hain, Rechts: Haslwanter [Has00])
Durch die Anbringung von Hautelektroden nahe des Auges können
Augenbewegungen in einem Elektrookulogramm (EOG) dargestellt werden.
Dabei macht man sich den Effekt zu Nutze, dass bei Augenbewegungen
zwischen Hornhaut (Cornea) und Netzhaut (Retina) eine elektrische
10
Potentialdifferenz von circa 0.4 bis 1 Volt besteht. Diese Differenz wird als
cornearetinales Potential bezeichnet. Der Vorteil der Methode liegt in dem
hohen Messbereich von 140°. Ein Nachteil ist die Störempfindlichkeit
gegenüber den Potentialen der Augenmuskulatur. [YoS75]
Abbildung 2.3: Elektrookulographisches EOG System mit Szenenkamera
(Shackel 1960)
Optische Methoden machen sich die Reflektionseigenschaften des Auges
zu Nutze. Werden die Augen zum Beispiel mit infrarotem Licht beleuchtet, so
entstehen durch die verschiedenen optischen Grenzflächen die so genannten
Purkinjebilder, welche mit Photodioden, Zeilenkameras oder Videokameras
aufgezeichnet
werden
können.
Das
erste
Purkinjebild
ist
die
Hornhautreflekion, das Vierte entsteht durch den Übergang zwischen Linse
und Augeninnenraum. Durch die Bewegung des Auges verändert sich das
Verhältnis der Abbilder und lässt damit die Berechnung der Blickrichtung zu.
Der Vorteil des Systems liegt in der hohen örtlichen und zeitlichen Auflösung.
Nachteilig ist der geringe Kontrast des vierten Bildes.
Abbildung 2.4: Purkinjebilder (fourward.com)
11
Bei der Infrarotokulographie (IROG) bedient man sich nur der
Hornhautreflektion
(Corneareflex).
Da
die
Cornea
einen
anderen
Krümmungsradius als der übrige Augapfel besitzt, bleibt ein durch
Photodioden oder Kameras aufgezeichneter Reflex einer Punktlichtquelle nicht
starr an einem Ort, sondern wandert mit der Drehung des Auges. Die
Anordnung zwischen Lichtquelle, Kopf und Sensoren muss dabei sehr genau
und
stabil
eingestellt
werden,
da
schon
kleine
Änderungen
als
Augenbewegung interpretiert werden könnten. Mit der Methode lassen sich
vertikale und horizontale Bewegungen des Auges innerhalb eines Bereiches
von circa 15° aufzeichnen. Innerhalb dieses Bereiches wird eine Genauigkeit
von 0.1° erreicht. Die zeitliche Auflösung kann bis zu 1000 Hz betragen.
[opt07]
Abbildung 2.5: Apparaturen zur Messung mittels Infrarotokulographie
(Links: optom.de, Mitte, Rechts: eyemove.com)
2.3. Videookulographie-Systeme
Während sich Purkinjebilder oder Corneareflex bequem und in hoher
zeitlicher Auflösung mittels Photodioden oder Zeilenkameras aufzeichnen
lässt, wird bei der Videookulographie (VOG) ein Bild des gesamten Auges
aufgenommen und ausgewertet. Dazu ist eine mathematische Modellierung
der Abbildung des Auges, sowie eine aufwendige Auswertung mittels
Bildverarbeitung auf einem Computer nötig. Analoge Videokameras haben
dazu eine zu geringe zeitliche Auflösung von lediglich 60Hz. Aus diesem
Grund waren Videookulographiesysteme in der Vergangenheit eher die
Ausnahme. Durch die rasante Entwicklung der digitalen Kamera- und
Computertechnik können heutige Systeme aber eine sehr hohe zeitliche und
räumliche Auflösung
aufweisen. Zudem
können
mit
entsprechenden
Algorithmen alle drei Freiheitsgrade der Augenbewegung gemessen werden.
VOG-Systeme können prinzipiell durch die Anbringung der Kamera
unterscheiden werden. Wird die Kamera stationär im Raum fixiert, besteht die
Aufgabe darin, den Kopf und das darin befindliche Auge zu finden und
12
daraus die Blickrichtung zu bestimmen. Diese Systeme eigenen sich
insbesondere dafür, Blickziele im Raum zu bestimmen, zum Beispiel eine
bestimmte Bildschirmkoordinate. Die Bandbreite dieser Systeme reicht vom
einfachen Set aus Webcam und Infrarotbeleuchtung als Mausersatz bis zu
komplexen Systemen mit sehr hoher zeitlicher Auflösung für medizinischwissenschaftliche Anwendungen. Dabei unterscheiden sich stationäre Systeme
darin, ob der Nutzer den Kopf während der Sitzung frei im Raum bewegen
kann, oder ob er fest fixiert wird. In der Regel geht es bei Produkten für
Mausersatz und Analyse von Bildern eher darum, komfortabel zu sein, wobei
bei zeitlich hoch aufgelösten wissenschaftlichen Geräten eine hohe Präzision
von Bedeutung ist.
Abbildung 2.6: Anwendung und Beispiele für stationäre VOG-Systeme
Bewegungsfreiheit für den Kopf (Links: eyetechds.com, Mitte:
seeingmachines.com, Rechts: eyeresponse.com)
Bei einer kopffesten Systemen werden Augenbewegungen bezüglich des
Kopfes gemessen. Aus diesem Grund lässt sich ohne Weiteres keine Aussage
über das Blickziel treffen. Basis aller Systeme ist eine Kopfhalterung, meist eine
Brille, ein Strinband oder ein Helm. Daran werden im monokulären – also nur
ein Auge betrachtenden – Betrieb eine Kamera zur Überwachung eines Auges,
im binokulären Betrieb zwei Kameras befestigt. Dabei wird das Auge entweder
direkt gefilmt oder die Abbildung über einen für sichtbares Licht
transparenten Infrarotspiegel umgeleitet.
Die
meisten
Systeme
basieren
darauf,
das
Auge
mit
einer
Infrarotlichtquelle zu beleuchten. Damit ist das System zum Einen unabhängig
von der übrigen Beleuchtung und funktioniert auch bei Dunkelheit, zum
Anderen lassen sich durch das Wissen um die Lichtquelle auch Effekte wie
Purkinjebilder oder Corneareflektionen bei der Auswertung nutzen. Die
Beleuchtung kann dabei entweder zentral, möglichst nah an der Linse der
Kamera oder peripher angebracht werden. Zentrale Systeme leuchten direkt in
die Pupille, wodurch das Licht an der Netzhaut reflektiert wird und die
Pupille im Abbild hell erscheinen lässt – ähnlich dem Rote-Augen-Effekt beim
Blitz eines Fotoapparats. Wird die Beleuchtung nun mit einer bestimmten
Signatur an- und ausgeschaltet, kann die Pupille so leicht gefunden werden.
Zudem vereinfacht achsennahes Anbringen der Beleuchtung die Nutzung der
Reflektionen zur Berechnung von Verschiebungen der Kopfbefestigung
13
gegenüber des Auges. Mit einer peripheren Beleuchtung kann sicher gestellt
werden, dass die Pupille der dunkelste Bereich des Bildes ist. Zudem können
komplexere Modelle mit Hilfe der Reflexe berechnet werden.
Abbildung 2.7: Typisches Bild einer Augenkamera.
Zur Kalibration befindet sich an den Systemen ein Laser, zum Beispiel
ein Punktegitter mit einem bestimmten Winkel. In einer Kalibrationsprozedur
muss die Testperson vorher festgelegte Punkte anschauen, zu denen jeweils
die Pupillenposition gemessen wird. Nach der Kalibration kann so eine
Aussage über den Blickwinkel gemacht werden. Anstelle oder ergänzend zum
Laser verfügen einige Systeme über eine kopffeste Kamera, wie schon in
Shackels EOG System von 1960. Im Videobild der Kamera können nach einer
Kalibration genau die Bereiche markiert werden, welche von der Testperson
angeschaut wurden.
Abbildung 2.8: Aufbau eines kopffesten Videookulographiesystems
Dieses kopffeste VOG System besteht aus zwei Kameras, welche die Augen
filmen. Dabei wird das Bild über einen für sichtbares Licht transparenten
Infrarotspiegel umgeleitet. Die Infrarot-Beleuchtung ist zentral an den
Kameras und peripher an der Brille befestigt. Zur Kalibration des Systems
befindet sich ein Laser mit einem Kalibrationsgitter an der Kopfhalterung.
Das System kann durch eine Szenenkamera ergänzt werden.
14
Die
so
genannte
Video-Nystagmographie
(VNG)
ist
ein
Hauptanwendungsbereich für kopffeste Systeme, wobei eine Aussage über die
Geschwindigkeit des Auges in Pixel/Sekunde oder die absolute Position in
Pixel von Interesse ist. VNG-Systeme haben ein extrem eingeschränktes
Blickfeld und in der Regel eine Möglichkeit zur kompletten Verdunklung. Eine
hohe Abtastfrequenz spielt bei dieser Anwendung keine besondere Rolle, aus
diesem Grund kommen in der Regel analoge Kameras mit 60 Hz zum Einsatz.
Abbildung 2.9: Systeme zur Videonystagmographie
(Rechts: smi.de, Mitte: gnotometrics.com, Rechts: difra.de)
Zur Bestimmung der Blickrichtung relativ zum Kopf eignen sich
kopffeste mobile VOG-Systeme. Dabei soll eine Aussage über den Blickwinkel
in Grad, Geschwindigkeiten in Grad/Sekunde oder die Fähigkeit zum Fixieren
auf ein Blickziel getroffen werden. Dafür ist in der Regel eine Kalibration nötig.
Die Systeme verfügen über ein möglichst uneingeschränktes Blickfeld und
nutzen aus diesem Grund Umlenkspiegel, um keine störenden Kameras im
Blickfeld zu platzieren. Da sie auch zur Untersuchung von schnellen
Augenbewegungen wie Sakkaden eingesetzt werden, ist eine hohe zeitliche
Auflösung zwischen 200 und 500 Hz nötig. Der Zusammenhang mit Zielen im
Raum kann optional über eine weitere kopffeste Szenenkamera erreicht
werden, welche das gesamte Blickfeld abfilmt.
Abbildung 2.10: Kopffeste VOG-Systeme mit HochgeschwindigkeitsKameras
(Links: a-s-l.com, Links oben: chronos-vision.de, Links unten: forbias.de)
15
Schließlich liegt bei portablen Systemen der Fokus auf der Szenenkamera
und der Markierung des Blickziels innerhalb dieses Videobilds. Diese Systeme
werden zum Beispiel für psychologische Studien eingesetzt, um etwa das
natürliche Blickverhalten im Straßenverkehr oder gegenüber Plakatwänden zu
untersuchen. Für diese Aufgabe ist es wichtig, kleine, leichte Kameras und
Brillen zu verwenden. Die Abtastfrequenz der meist analogen Kameras liegt
bei 30-60 Hz.
Abbildung 2.11: Portables VOG-System mit tragbarem Videorecorder.
(a-s-l.com)
Im Anhang findet sich ein tabellarische Überblick, von stationären
Systemen mit und ohne Möglichkeit zur freien Kopfbewegung, kopffesten
Systemen
für
die
Nystagmographie,
kopffesten
Systeme
mit
Hochgeschwindigkeitskameras sowie portablen Systeme.
2.4. Subjektive Kamera und Egoperspektive
Während bei der Messung von Blickbewegungen eine kopffeste
Szenenkamera zu Referenz- und Markierungszwecken eingesetzt wird, hat die
Idee der Darstellung einer streng subjektiven Sicht ihre Wurzeln im Spielfilm –
im so genannten „point of view shot“ POV. Darüber hinaus entwickelt sich für
Kopf- und Helmkameras eine starke Subkultur, wobei Szenen aus Sport und
Freizeit mittels einfacher und leichter Kameras für den privaten Gebrauch
aufgezeichnet werden. Im Bereich des Internets hilft die subjektive Sicht die
ohnehin sehr durch persönliche Meinung geprägte Blog-Kultur, durch
entsprechende POV shots visuell zu untermalen. In Computerspielen
bekommt der Nutzer mit der „Egoperspektive“ die Möglichkeit, sich frei und
autonom zu orientieren.
Der Begriff des „Point of View“ kann aus zwei Richtungen betrachtet
werden. Aus der Literatur kommt die erzählerische Ich-Perspektive, welche
den Leser mit dem Protagonisten identifizieren soll. Auch im Film wird diese
Erzählform genutzt. Um dem Zuschauer einen subjektiven Eindruck zu
verschaffen ist also keine besondere Kameraeinstellung nötig, so wird
beispielsweise bei der Berichterstattung von Nachrichten ein betont subjektives
Erlebnis eines Reportes allein durch den Text vermittelt [Hip00]. Für diese Art
des subjektiv geprägten Autorenfilms gibt es den Begriff des „first person
16
cinema“, welcher 1953 von Bruce Conner und Stan Brakhage geprägt wurde.
[Ifs07]
Klassische Filmszenen, welche einen subjektiven Eindruck eines
Protagonisten darstellen, bestehen in der Regel aus einer Einstellung, welche
den Protagonisten und seinen Blick zeigen gefolgt von einer Einstellung,
welche das angeschaute Objekt zeigen. Edward Branigan nennt das auch
„point/glance“
shot
sowie
„point/object“
shot.
Eine
formalere
Herangehensweise an den Begriff bezieht sich auf eine Einstellung, die genau
das zeigt, was eine Person sieht:
„The POV shot is a shot in which the camera assumes the position of
a subject in order to show us what the subject sees“ [Bra85]
In vielen Filmen wird daher komplett auf die äußere Darstellung der
Person verzichtet. So wird in Horror- und Kriminalfilmen oft der Blick des
Mörders durch eine Subjektive dargestellt (zum Beispiel hinter einem Busch
hervor schauend). Das soll beim Zuschauer ein Gefühl der Unsicherheit und
des Ausgeliefertseins erzeugen, ein Beispiel dafür ist der Film „Predator“.
Abbildung 2.12: Klassiker der subjektiven Kamera
"Dr. Jekyll and Mr. Hyde" (1931) gilt als einer der Ersten, „You and
Robert Montgomery“ in the „Lady in the Lake“ (1947) ist komplett
subjektiv, „Dark Passage“ (1947) hatte dank Humphrey Bogart großen
Erfolg. Fast die komplette erste Hälfte zeigt die Subjektive Bogarts, bis zu
seiner Gesichtsoperation.
Die Darstellung des Gesehenen lässt den Zuschauer erleben, was der
jeweilige Protagonist fühlt und erlebt. Einer der ersten Filme, der sich die
subjektive Kamera zu Nutze macht, ist ist der 1931 erschienene „Dr. Jekyll and
Mr. Hyde“ von
Rouben Mamoulians. Zu Beginn des Filmes sieht der
Zuschauer die ganze Welt aus der Sicht des Wissenschaftlers Dr. Jekyll. Erst in
einer Vorlesung sieht man ihn dann von außen. Der Wissenschaftler ist beseelt
von der Idee, das Gute und das Böse im Menschen voneinander trennen zu
17
können und entwickelt aus diesem Grund ein Elixier, welches die böse Seite
der Persönlichkeit hervor treten lässt. Beim ersten Selbstversuch schlüpft der
Zuschauer wieder in die Rolle des Dr. Jekyll und erlebt mit ihm den skurrilen
Einfluss der Droge und die Verwandlung in Mr. Hyde. Oft sind subjektive
Darstellungen mit optischen Effekten verbunden, zum Beispiel mit Unschärfe
oder stark wackelnden Kameras.
Der Film „The Russian Ark“ (2002) von Alexander Sokurow erzählt die
Reise eines ungenannten Protagonisten durch 300 Jahre russische Geschichte.
Begleitet von einem französischen Adligen, durchschreitet er die Sankt
Petersburger Eremitage. Durch die Erzählung des Protagonisten, der
subjektiven Sicht und unterstützt durch das Teils unhöfliche Verhalten des ihn
begleitenden Franzosen, kann sich der Zuschauer schnell mit dem
Protagonisten identifizieren. Die Besonderheit des Filmes liegt auch darin, dass
die kompletten 90 Minuten an einem Stück vom Berliner Kameramann und
Experten für Steadycams Tilmann Büttner gedreht wurde.
Abbildung 2.13: Der komplett subjektive Film "Russian Ark" (2002).
Rechts: Der Protagonist im Diskurs mit dem französichen Adligen, Rechts:
Der ganze Film wurde an einem Stück mit einer für subjektive Kamera
typischen Steadycam aufgezeichnet. (Fotos: Alexander BELENKIY)
Klassiker wie "Dr. Jekyll and Mr. Hyde" (1931), „Lady in the Lake“ (1947)
oder „Dark Passage“ aus den 30er und 40er Jahren und auch moderne Filme
wie „Beeing John Malkovich“ (1999), „Mission Impossible“ (1996) oder eben
„Russian Ark“ (2002) nutzen zur Umsetzung der subjektiven Sicht so genannte
Steady Cams, mit der ein ruhiges und flüssiges Bild erzeugt werden kann, in
dem die Trägheit der Kamera durch Gewichte erhöht wird. Manchmal werden
die Bilder künstlich mit Effekten verfremdet oder mit zusätzlich Elementen
wie Sucher, Ferngläser, Brillen oder Aufnahme-Lampe erweitert. Ein anderer
Ansatz Subjektivität zu zeigen, ist der Einsatz von „wackeligen“ Handkameras
oder Schulterkameras. Dabei entsteht im Wesentlichen der „god point of view“
oder „nobody POV“, wie er auch charakteristisch für Hitchcocks „Die Vögel“
war. Die „Wackelkamera“ identifiziert den Zuschauer mit dem Kameramann,
einem unabhängigen Dritten. So versetzen Filme wie „Blair Witch Project“
durch ihren suggerierten Dokumentations- und Reportagecharakter den
18
Zuschauer in das Geschehen. Auch das durch den Regisseur Lars von Trier
und
seinen
Kollegen initiierte „Dogma
95“
Manifest
erzeugt
dank
Beschränkung auf Handkameras, natürliche Umgebungsgeräusche- und Licht,
sowie den Verzicht auf Spezialeffekte und Filter einen entsprechenden
Eindruck.
Abbildung 2.14: Authentizität mittels subjektiver Handkameras
„Blair Witch Project" (1999)
Dank fortschreitender Technik und Miniaturisierung der Kameratechnik
entstehen inzwischen immer mehr Videofilme und Fernsehbeiträge direkt mit
einer kopffesten Kamera. So wurden Berichte von Sportevents wie Ski,
Mountainbike
oder
Extremsport
auch
gerne
mit
entsprechendem
Videomaterial angereichert. Insbesondere die Möglichkeit einer versteckten
Kamera machen die Technik für investigativen Journalismus perfekt. So
erscheinen Kopfkameras immer häufiger in Reportagen über illegale
Aktivitäten, wie Schlepperbanden, Sextouristen oder Betrüger. Auch die
Naivität der Bevölkerung wird mit solchen Kameras auf die Probe gestellt.
Mittlerweile gilt eine Brillenkamera dafür als bestes Mittel.
Abbildung 2.15: Versteckte Kamera im Fernsehen
Das RTL-Magazin "Explosiv" enttarnt einen Zuhälter für
Kinderprostitution in Bukarest.
Die
breite
Anwendung
von
Minikameras
im
Spionage-
und
Detektivbereich machen diese Technik auch für Hobby-Videofilmer interessant
und erschwinglich. Vor allem Extremsportler und Fallschirmspringer konnten
dank ihres Helms schnell gute Videokameras nutzen. Im Internet ist die
Gruppe
der
Motorradfahrer
sehr
aktiv,
die
sich
in
Foren
wie
19
helmetcameracentral.com
über
geeignete
Kameras
und
Aufbauten
austauschen. Auf der Videoplattform YouTube.com finden sich subjektive
Filme von Skitouren, Mountainbike, Motorad, Fallschirmspringern und vieles
mehr. Mittlerweile bieten auch viele Seiten spezielle Sets für Helme an. Der
deutsche Hersteller BLACKEYE erhielt für seine Helmkamera kürzlich den
EUROBIKE AWARD 2006. ARCHOS, ein großer Hersteller von portablen
MP3- und Videogeräten hat eine entsprechende Helmkamera in sein reguläres
Sortiment aufgenommen.
Zur Expo 2000 startete das ZDF mit Axel Mengewein als „Cyporter“
ein Online-Angebot, wobei Zuschauer im Internet Videos von der Kopfkamera
des Reporters anschauen können. Dem ZDF wurde für diesen Vorstoß im
Online-Journalismus auch der Prix Italia 2000 in Bologna überreicht, der Dienst
wurde aber wenig später wieder eingestellt. Auch der Fernsehsender SAT.1
hatte eine ähnliches Angebot – die Netzreporter. Doch die Sender waren ihrer
Zeit voraus. Derzeit gibt es für solch subjektiv geprägten Onlinejournalismus
das Phänomen der Weblogs, oder kurz Blog. Dabei berichten Nutzer von ihren
alltäglichen Erlebnissen und Einstellungen in einer tief subjektiven Art und
Weise. Audioblogs oder nach dem Produkt iPod des Hestellers Apple getaufte
Podcasts erweitern das Blogging auf gesprochene Audiobeiträge. Beim so
genannte Videoblogging sieht man in der Regel den Sprecher. Selbst
Bundeskanzlerin Angela Merkel veröffentlichte 2006 ihren ersten VideoPodcast. Das Videoblogging ist somit die moderne Form des first person
cinemas. Eine subjektive Kamera könnte das Videoblogging sinnvoll erweitern.
Abbildung 2.16: Videopodcast der Bundeskanzlerin Angela Merkel
(bundeskanzlerin.de)
Mit einer ganz anderen Art der subjektiven Kamera werden
Computerspiele-Nutzer
von
so
genannten
First-Person-Shootern
oder
Egoshootern konfrontiert. Der „point of view shot“ wird bei diesem Genre in
„first person view“ bzw. „Egoperspektive“ umgetauft. Die Spiele haben durch
ihre Perspektive eine enorm immersive Wirkung, der Spieler kann sich sehr
gut in das Spielgeschehen hinein versetzen. In der Regel haben die Kameras
einen Öffnungswinkel von 90°, was fast dem natürlichen Blickfeld entspricht.
Der Spieler sieht von sich selbst nur Waffen oder seine Füße. Zusätzlich
20
werden in einem, mit den Militärflugzeugen der 40er Jahre entstandenen und
im Computerspiel übernommenen, „head up display“ (HUD) weitere
Informationen angezeigt. Dem Nutzer wird anders als im Film ein hoher Grad
an Interaktion bei der Orientierung ermöglicht. In der Regel kann der Blick
mit der Maus, aber auch mit entsprechenden „head mounted displays“ (HMD)
gesteuert werden. Durch die „Eigenregie“ wirken die Bilder auf den Spieler
nicht so störend. Es sind wesentlich schnellere Blicksprünge möglich, als dies
beispielsweise bei der klassischen subjektiven Kamera des Films möglich ist.
Die Egoperspektive kam in 3D-Spielen auf, wie dem 1992 entwickelten „Castle
Wolfenstein 3D“ oder „Doom“ aus dem Jahre 1993, was damals eine
revolutionäre Neuerung der Spielegrafik darstellte. Der 2005 erschienene Film
zum Spiel Doom zeigt gegen Ende eine fünfeinhalbminütige Sequenz in der
Egoperspektive.
Abbildung 2.17: Der first person shooter "Doom" (1993)
Links: Egoperspektive inklusive Waffe und „head up display“. Rechts: Die
Verfilmung von 2005 nutzt ebenfalls die subjektive Einstellung als
Stilmittel. (Links: idsoftware.com, Rechts: doommovie.com)
Schließlich
insbesondere
im
liegen
weitere
Bereich
der
Anwendungbereiche
Sicherheitstechnik,
für
zum
Kopfkameras
Beispiel
zur
Überwachung oder zur Dokumentation von Kriegs- und Polizeieinsätzen. So
stattet der britische Hersteller Second Sight Surveillance polizeiliche Behörden
mit einem Kopfkamerasystem aus, um Berichte zu vereinfachen. Für
Ausbildungszwecke eignet sich der unverstellte Blick auf ein Objekt um Live
einem ganzen Vorlesungssaal die Handhabung eines bestimmten Teils zu
demonstrieren, unter Umständen über mehrere Kilometer Entfernung. Auch
die Fernwartung ist ein typischer Anwendungsbereich für diese Art von
Kameras, wobei ein Experte das Blickbild eines weit entfernten Monteurs
überwachen und entsprechende Hinweise geben kann. Im medizinischen
Bereich können mit Kopfkameras unverstellte Videos zur lückenlosen
Dokumentation von Operationen estellt werden. Experimentelle MedienkunstProjekte wie der Tele-Actor, übernehmen die Metapher des Egoshooters und
lassen mit Kameras ausgestattete Schauspieler durch das Publikum fern
21
steuern. Dabei moderieren einige Mittelsmänner die Wünsche der Zuschauer
über das Internet und geben die Kommandos an die Darsteller weiter.
Abbildung 2.18: Kopfkameras bei der Polizei
Kameras könnten bei Sicherheitsbehörden bald zur Standardausstattung
gehören (doublevisionsystems.com)
Ein
tabellarischer
Kopfkamerasysteme,
angeschlossen
Überblick
welche
werden
im
direkt
können,
Anhang
an
sowie
eigene
vergleicht
aktuelle
Aufnahmesysteme
Komplettgeräte
inklusive
Aufnahmegerät.
2.5. Blickgesteuerte Kopfkamera
Kopffeste Videookulographiesysteme nutzen die Daten aus der
Pupillensuche um im Videobild einer Szenenkamera das aktuelle Blickziel zu
markieren. Die Idee einer blickgesteuerten Kopfkamera besteht darin, die
gesamte Kamera aufgrund der VOG-Daten auf das Blickziel zu richten. Damit
entspricht das aufgezeichnete Video viel mehr dem natürlichen Blickverhalten
des Menschen. Darüber hinaus kann die Kamera über das gesamte
Gesichtsfeld bewegt werden, also einen wesentlich größeren Bereich erfassen.
Kopffeste Kameras sind in der Regel auf eine bestimmte Richtung festgelegt,
alternativ kann ein Objektiv mit einem Öffnungswinkel weit jenseits der 100°
des natürlichen Blickfeldes genutzt werden. Dies verringert jedoch die
Detailschärfe des Bildes oder verlangt nach einer Kamera mit einer wesentlich
höheren Auflösung. Wird die Latenz zwischen Bilderfassung des Auges und
Bewegung einer blickgesteuerten Kamera minimiert, lassen sich Effekte wie
der vestibulookuläre Reflex dazu nutzen, das Videobild zu stabilisieren. Das
Forschungsprojekt „FORBIAS“ am Klinikum der Universität München hat
solch eine blickgesteuerte Kopfkamera entwickelt [Sch+05]. Diese Kamera
bildet die Grundlage der vorliegenden Diplomarbeit.
22
Abbildung 2.19: Funktionsprinzip der blickgesteuerten Kopfkamera
Das Auge wird über einen Infrarotspiegel mit einer Videokamera gefilmt.
Am Computer werden die Pupillenposition im Videobild gefunden und die
Steuersignale berechnet. Die Motorsteuerung sorgt für die Bewegung der
Kopfkamera über ein Kardangelenk. Das finale Videosignal kann mit einem
handelsüblichen Videorecorder oder dem Computer aufgezeichnet werden.
Um einen Stabilisierungseffekt zu erreichen ist eine Minimierung der
einzelnen Latenzen des Systemes nötig. Der vestibulookuläre Reflex bringt
dabei eine Verzögerung von circa 10 ms mit, die zwischen Registrierung einer
Kopfbewegung im Innenohr und der entsprechenden Stellbewegung der
Augen liegt. Danach wird die Augenbewegung in diesem System von einer
100 Hz Digitalkamera erfasst, was eine weitere Latenz von 10 ms erzeugt. Das
Videosignal wird an den Rechner weiter geleitet und dort innerhalb von 1-3
ms die Pupillenposition berechnet. Die Dauer der Pupillendetektion richtet
sich nach der Rechenleistung des Computers. Bei optimalen Bedingungen
einer sinusförmigen Bewegung des Auges liegt die Zeit zwischen berechneter
Servoposition und der tatsächlichen Ausrichtung der Kamera bei circa 36 ms.
Bei schnellen Blicksprüngen und je nach Qualität der verwendeten
Servomotoren kann dieser Wert aber stark steigen. Dagegen kann durch eine
weitere Optimierung der Motoren sowie der Nutzung von derzeit aktuellen
500 Hz Kameras die Gesamtlatenz auch noch deutlich reduziert werden.
Die
blickgesteuerte
Videookulographiesystem
Kopfkamera
und
einer
ist
Einheit
prinzipiell
aus
aus
Servomotoren
einem
und
Videokamera aufgebaut. Dabei dient eine Schwimmbrille als Kopfbefestigung,
welche das VOG und die Videokamera verbindet. Prinzipiell könnte mit einer
Kalibration des VOG-Systems – also dem Ergebnis der
Pupillensuche als
Blickrichtung in Grad – und Kenntnis über ein mathematisches Modell der
Architektur die Kopfkamera betrieben werden. Die Kamera ist über ein
Kardangelenk befestigt und kann sich so um zwei Freiheitsgrade drehen. Die
Drehung der verwendeten Servomotoren entspricht dabei nicht den einzelnen
Freiheitsgraden, sondern bildet ein nichtlineares System. Zudem kann sich die
Kamera je nach Beschaffenheit des Kopfes verstellen. Aus diesem Grund
wurde ein neues Kalibrationsverfahren entwickelt, wobei eine nichtlineare
Übertragungsfunktion direkt aus den Pupillenkoordinaten die entsprechende
Servoposition berechnet. Dazu wurde eine zweidimensionale Funktion dritten
Grades benutzt. Während der Kalibrationsprozedur dreht sich die Kamera in
23
25 vorher festgelegte Richtungen. An der Kamera ist ein Laserpointer befestigt,
welcher vom Benutzer angeschaut wird. Die erkannte Pupillenposition sowie
die Stellkommandos für die Servomotoren fließen in das Gleichungssystem
ein. Die Lösung des Systems sind die 10 Parameter der Übertragungsfunktion.
z  x , y =a 1a 2 x a 3 ya 4 xy...a 8 xy 2a9 x 3a 10 y 3
Abbildung 2.20: Kalibrationsprozedur der blickgesteuerten Kopfkamera
Ein Kalibrationsmuster aus 25 aufeinander folgenden Punkten steuert die
beiden Servomotoren. Diese bewegen die blickgesteuerte Kamera und den
Laserpointer. Beim Anschauen des Laserpunkts wird das Auge über einen
Infrarotspiegel abgefilmt. Die X- und Y-Koordinate der erkannten Pupille,
sowie die Stellkommandos der Motoren gehen in die Berechnung der
Übertragungsfunktion ein.
Statt eines normalen Notebooks zur Auswertung und Steuerung wurde
ein weiteres mobiles System entwickelt, wobei Verarbeitung sowie Aufnahme
in einem tragbaren Computer stattfinden. Der Rechner wurde um eine
zusätzliche Firewire-Schnittstelle erweitert, an die zwei Analog/DigitalKonverter angeschlossen wurden. Damit wurde es möglich, neben der
blickgesteuerten
Kamera
eine
zusätzliche
kopffeste
Szenenkamera
aufzuzeichnen. Der Rechner verfügt über eine WLAN-Schnittstelle, womit die
normale Programmoberfläche drahtlos auf ein weiteres Notebook übertragen
werden kann. Somit ist es möglich, Parameter der Blickbewegungsmessung
anzupassen sowie die Aufnahme der Blick- und Szenenkamera fernzusteuern.
Das System wurde im Rahmen dieser Diplomarbeit um eine komplett neue
Programmoberfläche erweitert, welche die autonome Bedienung mit einem
umgebauten Videodisplay ermöglicht.
24
Abbildung 2.21: Blockdiagramm der mobilen blickgesteuerten Kopfkamera
An den tragbaren Computer wird die Motorsteuerung der beweglichen
Kamera, die blickgesteuerte und kopffeste Kamera, die linke Augenkamera
sowie eine Batterie angeschlossen. Über WLAN wir das System mit einem
entfernten Computer ferngesteuert. Der tragbare Computer besteht aus
einem normalen Mini-ITX Mainboard, an dem zwei unabhängige
Festplatten, ein WLAN-Modul und eine zusätzliche Firewire-Karte
angeschlossen sind. Zwei Analog-Digital-Konverter wandeln das analoge
Audio- und Videosignal der Kameras in ein DV-Signal um. Zur Bedienung
kann ebenfalls ein umgebautes Videodisplay mit Maustasten an den
Videoausgang und einen USB-Port angeschlossen werden, welches aber
erst im Rahmen dieser Diplomarbeit entwickelt wurde.
Die „Qlotz“ genannte Software der blickgesteuerten Kopfkamera
gliedert sich in einen Teil zur Bildverarbeitung in der Programmiersprache C
und einen Teil für die grafische Benutzeroberfläche GUI in der Sprache C++.
Die Programmierung der Oberfläche basiert auf dem QT-Framework der
Firma Trolltech. Damit wird auch für das GUI versucht, möglichst
plattformunabhängig zu sein. Die Darstellung der Kameras, der grafischen
Plots sowie das Einzeichnen von Markierungen im Videobild geschieht mit der
Grafikbibliothek
OpenGL.
Die
Sprache
C
soll
es
ermöglichen,
die
25
Pupillenerkennung sowie die Servosteuerung später auf einem eingebetteten
System auszuführen. Ansonsten wird das Projekt gelegentlich auf der
Windows-Plattform und hauptsächlich unter Linux kompiliert, genauer der
SuSE
Distribution
mit
KDE
als
Desktop
Umgebung.
Als
Entwicklungsumgebung kommt das KDE eigene KDevelop zum Einsatz.
Abbildung 2.22: Oberfläche der Kopfkamera-Software "Qlotz"
Das Programm ist im Wesentlichen in Tabulatoren organisiert, wobei in
der obersten Ebene die Wahl zwischen der eigentlichen Arbeitsumgebung
„Work“ und Tabs zum Betrachten der Kameras fällt. Die Software
unterstützt neben der Analyse eines einzigen Eyetrackers auch den
binokulären Betrieb. Im Arbeitbereich sieht man das Bild der Augenkamera,
kann Einstellungen, wie die „region of interest“ zur Begrenzung der
Pupillensuche vornehmen und bekommt verschiedene Plots wie die aktuell
detektierte Pupillenposition, ein Histogramm, die Blickgeschwindigkeit oder
Latenzen der Bildverarbeitung. Schließlich können die Paramtersätze der
Kalibration gewählt oder neu erstellt und die Aufnahme der Daten gestartet
werden.
2.6. Hybride Perspektive - Multiperspektive
Moderne
Videokameras,
Fotoapparate
und
computergraphische
Darstellungen eifern in ihrem Prinzip der bereits im 13. Jahrhundert
beschriebenen Lochkamera – der Camera Obscura nach. Diese Kamera
ermöglicht eine Projektion in der Zentralperspektive, wobei sich alle Strahlen
26
in einem gemeinsames Zentrum treffen. Nach dem gleichen Prinzip
funktioniert das menschliche Auge.
Die Zentralperspektive ist in der Geschichte der Malerei aber nicht die
einzige Form der Perspektive. So werden bei der umgekehrten Perspektive,
wie sie in der byzantinischen Ikonenmalerei angewendet wurde, Objekte
gleichzeitig von mehreren Seiten dargestellt. Im Mittelalter und auch in der
altägyptischen
Kunst wurden in der Bedeutungsperspektive Größe und
Ausrichtung von Personen und Gegenständen nach deren gesellschaftlicher
Stellung gewählt. Wichtige Protagonisten wurden groß, weniger wichtige klein
dargestellt, auch wenn sie räumlich vor der anderen Person standen. [Wik07p]
Die Objekte besitzen alle ihren eigenen Blickpunkt und werden nach Meinung
des
Kunstwissenschaftler
Erwin
Panofsky
in
einem
„Aggregatraum“
zusammen gebracht. Mit der Wiederentdeckung der bereits in der Antike
genutzten
Phänomene
der
Zentralperspektive,
ihrer
mathematischen
Beschreibung und der Erfindung der Lochkamera dominiert dann mit der
Renaissance der „Systemraum“. Bilder werden als „Durchschnitt durch die so
genannte Sehpyramide“ gezeichnet. [Pan85]
Einer der bekanntesten Maler, der seine Bilder mit Hilfe der Camera
obscura malte war Bernardo Bellotto (30.1.1720 - 17.10.1780). Er war der Neffe
des italienischen Malers Antonio da Canale (genannt Canaletto). Unterwegs
auf Reisen benutzte er die "Zeichenkamera" um reizvolle Ansichten
maßstäblich und perspektivisch richtig aufs Papier zu bringen. Bellotto alias
Canaletto arbeitet mit dieser Methode in Mailand, Rom, London, Wien und
München, aber am meisten in Dresden und Warschau. [Ill07]
Abbildung 2.23: "Der Neumarkt zu Dresden von der Moritzstraße aus"
(Canaletto 1749-1751)
Analysiert man die photographisch anmutenden Gemälde, die ab der
Renaissance entstanden sind, lässt sich allerdings feststellen, dass der Schnitt
27
durch die Sehpyramide nicht wirklich durchgängig geklappt hat. Viele
Gemälde zeigen zur Unterstützung des perspektivischen Eindrucks gekachelte
Böden, die sich zum Rand des Bildes erwartungsgemäß verzerren. Auf dem
Boden platzierte Runde Säulen gliedern sich aber nicht in die perspektivische
Verzerrung ein, sondern wirken als Ovale wie aufgeklebt. Canalettos Szene am
Dresdner Neumarkt müsste nach einer computergraphischen Rekonstruktion
eigentlich eine Frauenkirche mit stark verzerrter elliptischer Form haben,
erscheint aber genau so, wie ein Betrachter sie sehen würde, der sich an Ort
und Stelle zu ihr wendet.
Abbildung 2.24: Markierung der beiden geometrischen Mitten im Bild von
Canaletto
Modellierung der Szene als 3D-Grafik mit perspektivisch deutlich
verzerrter Frauenkirche; Darstellung in hybrider Perspektive aus zwei
Ansichten ähnlich dem Bild Canalettos (Oben: [Gro05], Unten: [Fra05])
Bei näherer Betrachtung erkennt man, dass die Frauenkirche eine eigene
geometrische Mitte besitzt, eine Art „Binnenperspektive“. Canaletto hat die
bedeutsame Kirche heraus gelöst und auf den stark geometrischen Platz in
28
einer Sonderbildebene neu eingeordnet. Zwar verstößt er damit gegen eine
zentralperspektivisch korrekte Darstellung, „doch liegt es in der Natur der
Menschen, sich [..] spontan der signifikanten Figur zuzuwenden“ [Gro05].
Die Hinwendung basiert scheinbar auf einer Art „dialogischen
Charakter“ der Objekte. Der Dialog fordert den Künstler auf, das Objekt in die
Sonderbildebene in einer eigenen Perspektive zu platzieren. Gleichfalls
unterstützt die eigene geometrische Mitte den Dialog mit dem Betrachter des
Bildes. „Hybridität im Bildaufbau begründet nicht nur Dialoge und Interaktivität, sie
ist auch Folge und (im erweiterten Sinne) Abbild von dialogischen und interaktiven
Situationen“. [Gro05]
Zeichnet man die Augenbewegungen eines Betrachters auf, kann man
deutlich feststellen, welch magische Anziehung das Gebäude der Frauenkirche
hat. Es bleibt aber fraglich, ob dieser „Dialog“ des Betrachters mit der
Frauenkirche
aber
an
deren
Auslösung
und
Einordnung
in
die
Sonderbildebene oder an ihrer Komplexität und Schönheit liegt.
Abbildung 2.25: Aufzeichnung der Augenbewegung eines Betrachters
Während sich der Aggregatraum die Bedeutungsperspektive zu Nutze
macht, durch Größe wichtet, markiert der Systemraum Bedeutung mittels
„hybrider Perspektive“, es wird durch Richtung gewichtet. [Fra05]. Groh
präzisiert den von Panofsky für diese Epoche geschaffenen Ausdruck des
Systemraums:
Der Systemraum beruht auf der Dualität einer Basis
orthogonalisierter, monoperspektivisch dargestellter Objekte zu einer
Ebene interaktiver, multiperspektivisch dargestellter Objekte. [Gro05]
Die Herauslösung von Objekten aus der „reinen“ Zentralperspektive
und ihre Montage in einer hybriden Perspektive hat aber Geschichte und kann
in modernen computergraphischen Darstellungen der Interaktion förderlich
sein. Letztlich ist dieses Phänomen eine Art Kontrast, der im flogenden Text als
29
„Perspektivkontrast“
bezeichnet
wird
und
gleichberechtigt
neben
Größenkontrast, Kalt-Warm-Kontrast und Qualitätskontrast. Die hybride
Perspektive reiht sich entsprechend neben die Bedeutungsperspektive,
Farbperspektive und Luftperspektive.
30
3. Methoden
Im Rahmen dieser Diplomarbeit ein wurde Demonstrator entwickelt,
welcher die Bilder der blickgesteuerten Kopfkamera mit denen einer
kopffesten Kamera verbindet. Das Wissen um den Perspektivkontrast sollte
dabei als Motivation dienen. Das Bild der blickgesteuerten Kamera sollte so in
ein weitwinkliges Bild der Szenenkamera eingebettet werden. Dadurch könnte,
ähnlich dem natürlichen Sehen, die effektive Bildauflösung am Punkt des
Interesses erhöht werden, so dass im Prinzip zwei niedrig aufgelöste Kameras,
ein ausreichend hoch aufgelöstes Gesamtbild erzeugen. Eine exakte Einbettung
des Blickbildes in die Zentralperspektive der Szenenkamera wäre nicht
zwingend nötig, da die oben beschriebenen Prinzipien der hybriden
Perspektive keine Verschlechterung der Wahrnehmung, sondern vielleicht
sogar eine Verbesserung erwirken. Ein eingebettetes Blickbild mit einer
eigenen geometrischen Mitte könnte so die Aufmerksamkeit nochmals erhöhen
und den Blick eines Betrachters auf sich lenken. Im Gegensatz zu einem Video
einer Blickkamera, mit ihren schnell wechselnden Inhalten, bekommt der
Betrachter in der hybriden Darstellung eine gewisse Autonomie, selbst
entscheiden zu können, wohin sein Blick führt, ähnlich der Situation in einem
Computerspiel. Durch die dargestellte Gesamtszene bekommt der Zuschauer
ein Verständnis für den Kontext eines konkreten Blickbildes. Er kann
Veränderungen in der Peripherie des Bildes wahrnehmen und versteht so die
Motivation für einen Blicksprung. Die hybride Darstellung hätte gegenüber
einer einfachen Kopfkamera also den Vorteil, eine höhere Auflösung an den
wichtigen Punkten zu haben und diese zu markieren. Gegenüber einer reinen
blickgesteuerten Kamera ermöglicht sie dem Zuschauer mehr Autonomie und
Verständnis gegenüber dem Blickverhalten des Kameramanns.
Das bestehende System der LMU München diente als Grundlage. Die
ursprünglich zu Referenzzwecken eingesetzte Szenenkamera wurde mit einem
Weitwinkelobjektiv und die Blickkamera mit einem Teleobjektiv ausgestattet.
Um das mögliche Ergebnis und die Anforderungen an die Montage
einzugrenzen wurde zu Beginn ein Beispielvideo von Hand im Programm
Adobe
AfterEffects
gesetzt.
Das
Verzeichnung
des
verwendeten
Weitwinkelobjektivs wurde koorigiert und Funktionen zur automatischen
Darstellung in hybrider Perspektive in die bestehende Software integriert.
Damit ist sowohl eine Livedarstellung in Echtzeit, sowie eine nachträgliche
Analyse und Bearbeitung der Videodaten möglich. Die Software wurde um
Funktionen zum Import und Export von gängigen Videoformaten erweitert.
Darüber hinaus wurde das bereits vorgestellte portable Kopfkamerasystem
durch eine neue Bedieneinheit erweitert. Die Bedienung erfolgt nunmehr mit
einem umgebauten Videodisplay über dessen „Jog-Dail“ in einem einfachen
Menü. Mit diesem Gerät wurden zahlreiche Testaufnahmen gemacht, die in
31
einem letzten Schritt evaluiert wurden. Dazu wurde die verwendete
Videookulographie-Brille auf einen Monitor kalibriert und die Blickrichtungen
von 10 Testpersonen untersucht.
3.1. Einbindung in das existierende System
Als Grundlage dient das bereits an der LMU München entwickelte
System zur Messung der Augenbewegung und Steuerung der Kamera. Dabei
stellte sich die Wahl eines neu entwickelten Programms zur Darstellung oder
der Verwendung und Weiterentwicklung der existierenden Software. Der
wichtigste Grund für die Weiterentwicklung war dabei die Tatsache, dass die
Bereitstellung von Live-Kamerabildern sowie die zeitlich synchronisierte
Ausgabe von aufgezeichneten Videobildern im Programm bereits vorhanden
war. Das heißt die Beschaffung von Videodaten musste nicht weiter
implementiert werden, sondern konnte über eine Schnittstelle abgerufen
werden.
Die vorhandene blickgesteuerte Kopfkamera war bereits für einen
anderen Versuch mit einer zusätzlichen kopffesten Szenenkamera ausgestattet
worden. Für diesen Versuch wurde auch ein portables Aufnahmesystem
entwickelt, mit der Möglichkeit zur synchronen Aufzeichnung beider Kameras
sowie der gemessenen Augenbewegungsdaten in eine einzige verschachtelte
DV-Datei, wobei sich die beiden Kamerabilder jeweils abwechseln. Die Klasse
zum Lesen der DV-Videodaten war bis dahin allerdings nur für eine Kamera
ausgelegt und musste im Rahmen dieser Arbeit entsprechend auf zwei
Kameras erweitert werden.
Ein weiterer Grund für die Arbeit an der existierenden Software war die
vorhandene Oberfläche, welche mit der QT Bibliothek der Firma Trolltech in
der Sprache C++ programmiert wurde. Die Oberfläche war prinzipiell in so
genannte Reiter eingeteilt, wobei es sehr leicht war, einen weiteren Reiter für
die
Implementierung
der
hybriden
Darstellung
zuzufügen.
Die
Implementierung der nötigen Funktionalität konnte in einer eigenen Klasse
erledigt werden, ohne dabei das bestehende System regelmäßig verändern zu
müssen.
In der Oberfläche war ebenfalls schon eine Möglichkeit zur Anzeige der
Videodaten mit Hilfe der OpenGL-Graphikbibliothek. Dieser Programmcode
konnte
als
Start
in
das
eigene
System
übernommen
werden.
Die
Farbinformationen des Videobildes lagen allerdings im für PAL-Kameras
typischen YUV-Format vor und wurde durch einen Filter auf der CPU in RGB
konvertiert. Dieser Konvertierungsvorgang ist trotz angewendeter IntegerArithmetik sehr rechenintensiv. Aus diesem Grund wurde auch eine Methode
mittels OpenGL erprobt [Zie01]. Dabei werden die YUV Daten vorerst wie
RGB an den Grafiktreiber übergeben. Die Konvertierung erfolgt dann über
32
eine so genannte „Color Matrix“ im Idealfall direkt auf der Grafikkarte. Die
Methode erwies sich aber auf der benutzten Hardware nicht als performanter
und wurde wieder verworfen. Eine Alternative ist die Konvertierung
innerhalb eines Fragment Shaders, wobei die darzustellenden Bildpunkte
(Fragment) auf der Grafikkarte verändert werden können. Dazu kann die so
genannte OpenGL Shading Language GLSL eingesetzt werden, die effektiv
aber erst in OpenGL-Implementierung ab Version 1.5 unterstützt wird und auf
den verwendeten Linux-Systemen somit noch nicht vorhanden war.
Über eine weitere Schnittstelle konnten die Daten von Augenposition
bzw. der wesentlich wichtigeren Stellung der Servomotoren abgerufen werden
und damit auch die Auskunft über die aktuelle Kameraausrichtung. Zwar war
das Auslesen der gespeicherten Ergebnisdaten aus dem Audiobereich der DVVideodateien noch nicht implementiert, konnte aber ebenfalls problemlos
erledigt und die Daten an die entsprechende Schnittstelle gesendet werden.
Die im Programm enthaltene Zuordnung der Augenstellung auf die
Servoposition
diente
als
Vorlage
für
eine
eigene
Kalibration
der
Zuordnungsfunktionen von Servopositionen auf die Bildschirmkoordinaten.
Abbildung 3.1: Vorhandene blickgesteuerte Kopfkamera mit zusätzlicher
Szenenkamera.
Die Objektive hatten zuvor gleiche Brennweiten und wurden im Rahmen
der Arbeit durch ein Teleobjektiv und ein Weitwinkelobjektiv
ausgewechselt.
33
3.2. Manuelle Montage in Adobe AfterEffects
Im Rahmen der Münchner Wissenschafttage erfolgte eine Einladung zur
Fernsendung „Die Schöne und der Freak“ innerhalb des Boulevardmagazins
TAFF auf dem Sender Pro7. Deshalb wurde schon vor der spontanen
Einsatzfähigkeit des portablen Systems und vor der Entwicklung von
Einstellmöglichkeiten in der hybriden Darstellung ein Film aufgezeichnet. Es
handelt sich um einen circa eine Minute dauernden Ausschnitt, in dem ein bis
dahin fremder Raum in einem Hotel betreten wird. Im Raum befinden sich
zwei
junge
Frauen
und
ein
Kamerateam.
Nach
einer
kurzen
Orientierungsphase und der Begrüßung durch Handschlag folgt das Hinsetzen
und ein kurzes Gespräch, wobei die Frauen sichtlich erfreut über die bewegte
Kamera sind. Den Abschluss bildet ein kurzes „Abscannen“ der beiden
Frauen. Dies war die einzige absichtliche Blickbewegung, der Anfang war
aufgrund der ungewohnten Situation sehr natürlich.
Abbildung 3.2: Manuelle Montage in Adobe AfterEffects
34
Auf Grund der intensiven Beschäftigung mit dem Material konnten
einige Beobachtungen und Schlussfolgerungen für die eigene und für die
zukünftige Arbeit gemacht werden. Zunächst konnte schnell erkannt werden,
dass der Blickfilm in Form eines Kreises in das Szenenbild montiert werden
muss, da durch die Anordnung der Servomotoren regelmäßig die Drehung des
Blickbildes notwendig wurde. Die dadurch deutlich sichtbare Drehung des
Rechtecks innerhalb des Gesamtrahmens fiel unangenehm auf und war durch
die technische Ursache auf den ersten Blick nicht verständlich. Der Übergang
zwischen Blick und Szene musste fließend gestaltet werden, um die
Aufmerksamkeit vom Zittern des Bildes, welches durch die harte Kante visuell
unterstützt wurde, zu kaschieren.
Lediglich eine scharfe Abbildung des Blickes innerhalb der etwas
unschärferen Szene war für die geringe Fernsehauflösung unerheblich und
erzeugte zu wenig Kontrast. Zur Kontrastverstärkung eigneten sich die
Änderung
der
Größe
des
Blickpunktes
entsprechend
der
Bedeutungsperspektive, sowie eine Einfärbung des Hintergrundes. Entgegen
späterer Erkenntnisse wurde eine warme Farbe für den Hintergrund gewählt,
die ihn im Sinne des Farbperspektive aber in den Vordergrund bringt.
Bei
der
Montage
haben
sich
zudem
zwei
grundsätzliche
Vorgehensweisen heraus kristallisiert. Entweder dominierte der Inhalt des
Blickes oder der Inhalt der Szene. So wurde im ersten Fall darauf geachtet,
dass der Inhalt des Blickbildes stabil und verwacklungsfrei im gesamten
Rahmen liegt. Dazu wurden, wie in der Abbildung noch sichtbar,
Referenzvierecke an wichtigen Kanten im Blickbild gezeichnet. In den
folgenden Bildern wurden daran zum Beispiel die Augen der Frau
ausgerichtet. Kleine Änderungen im Szenenbild, wie Wackeln oder Zittern,
blieben dabei unbeachtet. Es wurde einfach davon ausgegangen, dass der Blick
eine so hohe Attraktivität hat, dass die Szene bedeutungslos ist. Bei größeren
Kopfbewegung dominierte allerdings das Szenenbild. In diesem Fall wurde
darauf geachtet, das Blickbild möglichst flüssig mit der Kopfbewegung
mitzuführen oder lediglich zur Markierung des Blickziels zu nutzen. Im Video
wurde entsprechend bei der Begrüßungsszene der Spot verkleinert und damit
dessen Bedeutung reduziert.
35
Abbildung 3.3: Komplexen Szene mit schnellen Augenbewegungen
Reduzierung des Spots auf die Markierung des Blickziels (Hand)
3.3. Entzerrung der Fischaugenverzeichnung
Beide Kameras hatten anfangs zu Referenzzwecken die gleichen Objektive. Für
das Ziel einer hybriden Darstellung des Blickbildes in dem Szenenbild war
diese Konfiguration aber gänzlich ungeeignet, wie erste Tests mit dem
vorhandenen Videomaterial schnell zeigten. Aus diesem Grund wurde die
Szenenkamera mit einem preiswerten 110°-Weitwinkelobjektiv mit einer
typischen
Fischaugen-Verzeichnung
ausgestattet.
Um
eine
möglichst
zentralsperspektivische Ansicht zu erreichen, musste das Bild entsprechend
entzerrt
werden.
Dazu
wurde
auf
eine
Methode
zur
nichtlinearen
Linsenverzerrung zurück gegriffen [Bou00]. Dabei wird der Hauptpunkt der
Abbildung ermittelt, in diesem Fall vereinfacht der Mittelpunkt des Bildes.
Vom Hauptpunkt aus wird zum Radius r o jedes einzelnen Punktes des
Ausgabebildes der entsprechende Radius r i im Eingangsbild über eine
Übertragungsfunktion berechnet. In der Anwendung wurde dafür nach
anfänglichen Versuchen mit allgemeineren Polynomen der Arkustangens
genutzt, welcher sich durch Ausprobieren als beste Funktion behauptet hatte,
da damit das verwendete Referenzgitter am besten korrigiert wurde. Zudem
wurde die Funktion mit einem Entzerrungfaktor w gewichtet. Somit ist es
im Programm möglich den Einfluss der Entzerrung je nach Objektiv an einem
Schieberegler einzustellen. Darüber hinaus wird sichergestellt das die Funktion
beim Radius Eins ebenfalls einen Einsdurchgang hat, das Bild wird also
(zumindest entlang der horizontalen Mittellinie) nicht vergrößert oder
verkleinert.
r i= f r o , w=atan r o w/atan  w
36
Wie in [Bou00] beschrieben, erfolgt die Entzerrung nicht auf Pixelebene
in einer Schleife des Hauptprogramms sondern mittels OpenGL auf der
Grafikhardware. Die einzelnen Bilder wurden ohnehin als Textur auf ein
Viereck gezeichnet. Der Ansatz zerteilt dieses Viereck in ein Raster, in diesem
Fall 50 * 50 Felder. Für jeden einzelnen Punkt des Rasters (Ausgabebild) wird
eine entsprechende Texturkoordinate im Videobild bestimmt. Die Anzahl der
Felder wurde auch in diesem Fall empirisch ermittelt, ein Raster von 20x20
Feldern ist dabei bereits ausreichend, um keine sichtbaren Artefakte zu
erkennen. Da die Berechnung der insgesamt circa 2500 Punkte zu aufwendig
für jedes Bild ist, entstand die Idee einer Art Lookup-Table, wobei die
Koordinaten bei jeder Änderung des Entzerrungsfaktors neu berechnet
wurden. Spätere Abrufe der dann ohnehin immer gleichen Daten konnten über
die Lookup-Table geschehen. Der Ansatz wurde aber letztlich verworfen, als
zu einem späteren Zeitpunkt OpenGL-Displaylisten eingeführt wurden. Dabei
wird der Grafikkarte einmalig eine Abfolge bestimmter Befehle gesendet, in
diesem Fall die Eckpunkte und die zugehörigen Texturkoordinaten. Zu einem
späteren Zeitpunkt kann die komplette Befehlsfolge durch einen einzigen
Aufruf stattfinden, damit entfällt auch der Transport der Daten von CPU bzw.
Hauptspeicher in die Grafikkarte. Die Entzerrung der Linse ist somit in
Echtzeit ohne spürbare Verzögerung anwendbar.
Ein Beispielquellcode
befindet sich auf Seite 79.
Abbildung 3.4: Korrektur der Fischaugenverzeichnung
Referenzgitter vor der Verzerrung; Für dieses Objektiv optimaler
Entzerrungsfaktor von w=1.7 ; Entzerrung um Faktor w=5 mit
deutlich sichtbaren Beschränkung der Bildformates in der Vertikalen.
Da sich die Funktion eigentlich auf ein quadratisches Bild bezieht, kann
bei einem 4:3 Videobild nur die breitere Seite erhalten bleiben. Auf der
schmalen Seite können Radien erreicht werden, die außerhalb des Bildrandes
liegen. In Abbildung 3.4 ist dies beim Entzerrungsfaktor
w=5 deutlich zu
erkennen. Bei Verwendung von 16:9 als Seitenverhältnis des Ausgabebildes,
werden diese Beschränkungen beim verwendeten Faktor abgeschnitten.
3.4. Hybride Darstellung der Kameras
Die hybride Darstellung einer kopffesten Szenenkamera und einer
Blickgesteuerten hat gegenüber einer einfachen Kamera den Vorteil, eine
höhere Auflösung an den wichtigen Punkten zu haben. Gegenüber einer rein
37
blickgesteuerten Kamera ermöglicht sie dem Zuschauer mehr Autonomie und
Verständnis gegenüber dem Blickverhalten des Kameramanns.
Durch den Einsatz von Weitwinkel- und Teleobjektiv in der hier
verwendeten Konfiguration passt das Bild der Blickkamera etwas zehn mal in
das Szenenbild, wenn beide Kameras die Objekte im Gesamtbild in der
gleichen Größe abbilden sollen. Die Blickkamera hat damit eine wesentlich
höhere Auflösung relativ zur anderen Kamera. Beides sind analoge PALKameras mit einer effektiven Größe von 704x288 Pixeln je verwendetem
Halbbild im Format 4:3. Nimmt man allein die Höhe des Blickbildes von 288
Pixeln so ergibt sich für die Szenenkamera eine theoretische Höhe von 2880
Pixeln, wenn die Blickkamera alle Zeilen darstellen soll. Selbst bei doppelter
Größe des Blickbildes würde die gesamte Montage bequem in ein 1080 Zeilen
hohes HDTV-Bild (1080p25) passen. Das Anzeigefenster kann aus diesem
Grund auf die für Computerdisplays noch verträglichen HDTV-Auflösungen
von
1280x720
(720p25)
sowie
960x720
(anamorphotisch),
die
SDTV-
Auflösungen 1024x576 (PALplus), 720x576 (PALplus anamorphotisch),
853x480 (NTSC 16:9) sowie 640x360 eingestellt werden. In diesen Formaten
können die Videos dann auch – wie später noch beschrieben – exportiert
werden. Darüber hinaus wurde für alle Videoanzeigen der Software ein
Vollbildmodus implementiert. Größtes Qualitätshindernis sind damit nicht die
Auflösungen der einzelnen Kameras sondern ihre analoge Übertragung und
die
damit
verbundenen
Bildstörungen.
Verfahren,
die
eine
höhere
Gesamtauflösung durch die Kombination von zwei niedrig aufgelösten
Kameras erstellen sind schon länger beschrieben, zum Beispiel in [BTh98].
Um die Blickkamera an die korrekte Position innerhalb des entzerrten
Bildes der Szenenkamera zu positionieren wurde eine Kalibration nötig. Die
gemessene Blickrichtung und die Daten zur Stellung der Servomotoren
reichten allein nicht aus, das Bild zu positionieren, wenn auch – wie sich später
heraus stellte – innerhalb eines ideal entzerrten Szenenbildes zwischen
Stellkommando und Positionierung des Blickbildes ein annähernd linearer
Zusammenhang besteht. Dies gilt jedoch nicht für die torsionelle Verkippung
des
Blickbildes,
welches
durch
die
Geometrie
der
kardanischen
Kameraaufhängung zustande kommt. Der Einfluss der Verschiebung der
beiden Kameras ist außerhalb des Nahbereichs kaum von Bedeutung, es
könnte also angenommen werden, dass sich beide Kameras am gleichen Ort
befinden. Allerdings sind Tätigkeiten im Bereich der Arme, also innerhalb des
Nahbereiches, leider keine Ausnahme. Die Entfernung des betrachteten
Objektes wurde jedoch bisher nicht in der Software berechnet. Dazu wäre eine
Auswertung der binokulären Daten aus beiden Augen notwendig. Die
Vergenzstellung der Augen gäbe Auskunft über die Entfernung des Objekts.
38
Analog
zur
Kalibrationsprozedur
zwischen
Blickrichtung
und
Servostellung wurde eine neue interaktive Prozedur entwickelt. Dabei steuert
die Kamera selbstständig 25 festgelegte Punkte an und macht für jede Kamera
jeweils zwei Bilder. Das erste Bild ohne, das Zweite mit angeschaltetem
Kalibrationslaser. Aus beiden Bildern wird ein Differenzbild erzeugt, so dass
nur noch der Laser sichtbar ist. Der Laserpunkt wurde in diesem Fall durch ein
Kreuzmuster ersetzt. Der Nutzer muss nun für alle 25 abgebildeten
Kalibrationskreuze vertikale und horizontale Position auf dem Bildschirm,
Größe und Rotation in Übereinstimmung bringen. Die vier eingestellten Werte
fließen mit den vorgegebenen Servopositionen ebenfalls in ein lineares
Gleichungssystem ein, dessen Lösung jeweils 10 Parameter für ein
zweidimensionales Polynom dritten Grades sind. Somit lässt sich für jede
Servostellung die Position auf dem Bildschirm berechnen. Die Prozedur muss
einmal für jedes neue Kamerasetup, also bei anderen Linsen und bei einer
Verstellung der Kameras wiederholt werden. In der Praxis wurde es aber ein
einziges Mal gemacht. Die daraus resultierte Voreinstellung war in fast allen
Anwendungen ausreichend.
Abbildung 3.5: Kalibrationsprozedur für die hybride Darstellung.
Der Nutzer muss für eine neue Kameraanordnung 25 Kreuze in möglichst
gute Übereinstimmung bringen.
Das geschilderte Verfahren ist zur möglichst genauen Übereinstimmung
der
Kreuze
geeignet.
Prinzipiell
könnte
sich
dieses
Verfahren
mit
entsprechender Bildverarbeitung auch automatisieren lassen. Ein Nachteil
besteht darin, dass die Verkippung nur im geringen Umfang korrigiert wird.
39
Dazu wäre es besser, zum Beispiel die Bilder des Referenzgitters aus
Abbildung 3.5 in Übereinstimmung zu bringen. Dabei würde schnell die
Entscheidung getroffen werden müssen, ob das Blickbild eher aufrecht, also an
den Vertikalen orientiert, oder primär horizontal ausgerichtet werden soll.
Abbildung 3.6: Kalibration am Referenzgitter
Sichtbaren Konflikt zwischen horizontaler und vertikaler Ausrichtung
In der Praxis hat sich ebenfalls gezeigt, dass oft Servostellungen
eintreten, die nicht durch die getätigte Kalibration abgedeckt werden. In
diesem Fall stimmt die berechnete Bildposition nicht mit der tatsächlichen
Kamerarichtung überein. Die ist insbesondere sichtbar, wenn Objekte am
Bildrand erscheinen, die Kalibration aber lediglich 60% des Szenenbilds
abgedeckt hat. Diesem Fehler lässt sich durch eine größere Kalibrationsfläche
begegenen. Manchmal liegen die Stellkommandos auch nicht im Wertebereich
des Servos. Dem Algorithmus aber stehen nur die Kommandos, nicht aber der
tatsächliche Wert der Servoposition zur Verfügung. Damit wird das Bild
entprechend der Kalibration außerhalb des Szenenbildes angezeigt, obwohl
sich der fixierte Punkt noch innerhalb befinden würde. Diesen beiden
40
Problemen wurde aktuell noch nicht Rechnung getragen, es wurde allerdings
schon mit der Sammlung zumindest aller in einer Videodatei enthaltenen
Servostellungen begonnen, so dass für einen Film eine explizite Kalibration für
typische Stellungen vorgenommen werden kann.
Ein weiterer Fehler tritt auf, wenn der Servo ein Stellkommando
bekommt, welches weit von der aktuellen Stellung entfernt ist, zum Beispiel
bei einer Sakkade. Dann kommt es zu einer Verzögerung, da das aktuell
vorliegende Kommando nicht mit der tatsächlichen Position übereinstimmt.
Das Bild wandert schon an eine neue Position, bevor sich der Videoinhalt
entsprechend ändert. Dieser Effekt liegt in der Praxis bei einer Verzögerung
von circa 3-4 Einzelbildern. Allerdings ist der Fehler von der zurück zu
legenden Entfernung und des Alters der verwendeten Motoren abhängig. Zur
Kompensierung wurde ein Ringpuffer eingebaut, der die letzten 20
Servostellungen beinhaltet. So kann der Nutzer einstellen, zum Beispiel immer
das Stellkommando von vor 4 Bildern zu nutzen. Der sichtbare Fehler bei
schnellen Bewegungen konnte damit minimiert werden. Für langsame und
ruhige Bewegungen ist es fast nicht von Belang, wie alt die Servostellung ist.
Bei kleinen schnellen Bewegungen entsteht dadurch allerdings ein neuer
Fehler, der bis jetzt nicht berücksichtigt wird. Zur Lösung diese Problems
würde erstens eine lineare Interpolation zwischen den Servokommandos
praktisch sein, um auch eine Verzögerung von 3,5 Bildern zu ermöglichen,
zweitens sollte die Verzögerung von der Geschwindigkeit abhängig gemacht
werden können. Die Beste Lösung besteht allerdings in der Verwendung von
Servomotoren, die über ihre aktuelle Position Auskunft geben können.
Abbildung 3.7: Anpassung des Servo-Delays.
Das gepeicherte Stellkommando für die Servomotoren hat bei schnellen
Blickbewegungen einen Vorlauf von 3-4 Bildern
Die Kalibration der torisonellen Kippung des Blickbildes, hervorgerufen
durch die Mechanik der Kameraaufhängung, motiviert gleichzeitig die
41
Darstellung des Blickes als runden Kreis. Damit kann die nachträgliche
Korrektur kaschiert werden. Darüber hinaus entspricht eine runde Zone des
schärfsten Sehens eher dem Vorbild der Natur. Das runde Blickbild wurde
zudem mit einem weichen Übergang an der Kante versehen. So können
Antialiasing-Effekte
wie
Stufenbildung,
sowie
Kompressionsartefakte
unterdrückt werden. Eine harte Kante fällt zudem unangenehm auf, könnte
aber auch bewusst als Kontrast verwendet werden. Auch der weiche Übergang
entspricht eher dem natürlichen Vorbild der Netzhaut, die einen graduellen
Übergang der Rezeptordichte von Fovea zur Peripherie aufweist. Die Breite
des Übergangs hängt direkt mit der Größe des gesamten Bildes zusammen.
Zur Realisierung wurde ähnlich dem Szenenbild ein Raster in OpenGL
verwendet, allerdings in Form eines so genannten „Triangle Fan“, also einer
Gruppe von Dreiecken, die sich einen gemeinsamen Mittelpunkt teilen. Für
den weichen Übergang wurde um den damit gezeichneten Kreis noch ein
Kranz aus Dreiecken gelegt, so dass eine Art Rosette entstand. Den inneren
Punkten wurde dabei ein Alphawert von 1, den Äußeren 0 zugeordnet, sodass
OpenGL den Übergang dank Blend-Funktion interpolieren konnte. Für eine
angemessene Darstellung hat sich in der Praxis eine Segmentierung des
Kreises in 72 5°-Stücke bewährt. Für jeden der 1+72+72 Knotenpunkte dieses
runden Rasters wurde dann die entsprechende Texturkoordinate berechnet.
Da sich die berechneten Daten pro Bild nicht unterscheiden, konnten für die
nachträgliche Zeichnung
ebenfalls
Displaylisten
genutzt
werden.
Die
Zeichnung des Kreises ist damit auf eine Translation und Rotation sowie den
Aufruf der Liste reduziert. Ein Beispielquellcode findet sich auf Seite 80.
Abbildung 3.8: Verwendete Raster in der OpenGL-Darstellung
Um den Faktor 4 vereinfachte Darstellung. Die Größes des Blickbildes
wurde verdoppelt und die Farbsättigung des Hintergrundes um den Faktor
4 verringert. Zudem ist der Hintergrund mit einem Filterradius von 3
Pixeln weich gezeichnet.
42
Auf ähnliche Weise kann auch eine radiale Verzerrung, genauer eine
elliptische Verzerrung des Blickbildes in Abhängikeit von Radius und Winkel
zum Mittelpunkt des Szenenbildes berechnet werden. Damit könnte eine
perspektivische Einordnung in das Szenenbild, also eine monoperspektivische
Darstellung angenähert werden. Allerdings ist die Nutzung von Displaylisten
damit nicht mehr möglich, da für jeden Radius und jeden Winkel neue
Texturkoordinaten berechnet werden müssen.
Neben dem „Perspektivkontrast“ der durch die Montage der beiden
Videobilder
entstanden
ist
und
dem
Schärfekontrast
durch
die
unterschiedlichen Auflösungen, wurden weitere Attribute eingeführt, um die
beiden Bilder voneinander zu unterscheiden. Zunächst kann die Größe
unabhängig von der Kalibration um einen Faktor erhöht werden, um eine Art
Lupeneffekt zu erzeugen. Zudem kann für jede Kamera die Farbsättigung, eine
Art Farbtemperatur sowie eine Helligkeitsverstärkung eingestellt werden. Die
Szenenkamera kann zudem in der ganzen Fläche oder radial um den
Blickpunkt unschärfer gemacht werden.
Die Möglichkeit zur Größenänderung begründet sich zum Einen aus der
Tatsache, dass auf diese Weise Fehler am Bildrand, zum Beispiel durch falsche
Positionierung oder durch die Verwendung der eigenen Geometrie, kaschiert
werden können. Zudem wird die sonst viel zu hohe Auflösung des Blickbildes
bei kleinen Gesamtdarstellungen gemildert. Wie oben bereits erwähnt, müsste
das Ausgabebild der größten HDTV-Norm entsprechen, um überhaupt alle
Pixel des Blickbildes darstellen zu können. Letztlich ist das Blickbild von
solcher
Bedeutung,
dass
diese
auch
durch
die
Größe
„bedeutungsperspektivisch“ gewürdigt werden kann.
Die
Änderung
von
Farbsättigung,
Farbtemperatur
und
der
Helligkeitskomponente passiert während der Umwandlung des YUVVideobildes in RGB. Die Änderung der Sättigung ist insbesondere zur
Reduzierung von Bildstörungen des Szenenbilds gedacht. Zudem erhält das
Blickbild durch die erhöhte Farbigkeit eine weitere Bedeutung. Mit einer Art
Farbtemperatur kann das Bild zwischen einer Skala von Orange und Türkis
eingefärbt werden. Damit kann eine gewisse Farbperspektive erzeugt werden,
um das Blickbild in den Vordergrund zu rücken. Die Möglichkeit zur
Änderung der Helligkeit ist aus einem ähnlichen Grund eingeführt worden. In
ausreichend ausgeleuchteten Szenen, kann die Präsenz des Blickes gestärkt
werden, wobei der Hintergrund nur zur groben Orientierung genutzt wird. Bei
schwach ausgeleuchteten Szenen fungiert die Helligkeitsänderung als
Verstärker.
Primär um Bildstörungen vor allem am Rand der Szene zu glätten
wurde ein Weichzeichner für die Szenenkamera eingeführt. Dabei wurde
bisher ein einfacher Rechteckfilter mit variabler Breite auf das Bild
43
angewendet. Die Realisierung erfolgte ebenfalls in OpenGL mit Hilfe des
„Accumulation Buffers“. Diese Technik ermöglicht das „Stapeln“ von
gerenderten Bildern in einem extra Puffer. Bei Beendigung der Operationen
kann der Puffer als Frontpuffer zu Darstellung verwendet werden. Der
Accumulation Buffer ist eine gängige Art in OpenGL Unschärfe zu simulieren,
allerdings ist die Performanz gering, so dass ab einem Filter von 3x3 Pixeln die
Bildwiederholrate spürbar einbricht.
Zur Markierung und Hervorhebung des aktuell betrachteten Bereiches
im Szenenbild wurde zudem ein radialer Weichzeichner auf ähnliche Weise
realisiert. Dabei wird das Bild nicht je nach Filterbreite verschoben, sondern
jeweils um einen bestimmten Anteil um den aktuellen Blickpunkt gedreht. Da
sich der Wert nicht wie beim vorher beschriebenen Filter multipliziert (also 3x3
= 9 Bilder), ist der radiale Weichzeichner etwas performanter. Die
Impelementierung der Weichzeichner befindet sich auf Seite 81.
Abbildung 3.9: Radialer Weichzeichner um den Blickpunkt
3.5. Import und Export gängiger Videoformate
Dank der existierenden Echtzeit-Software war die Entwicklung einer
hybriden Livedarstellung der beiden Kameras einfach möglich. Durch eine
Implementierung der Methoden zum Lesen der abgespeicherten DV-Daten,
konnten auch Filme nachträglich wiedergegeben werden, welche zuvor mit
dem tragbaren Computer aufgezeichnet wurden. Zum Export der erzeugten
Darstellung von Live-Videos oder aufgezeichneten Filmen wurde die Software
entsprechend erweitert. Dabei konnte auf die libquicktime-Bibliothek zurück
gegriffen werden. Dies ermöglichte letzten Endes auch die Implementierung
eines Plugins, um beliebige AVI- und Quicktime-Dateien als virtuelle Kamera
in die bestehende Software zu laden und Daten der Videograbber in dieses
Dateiformat zu speichern. Nebenbei konnte auch die Funktionalität zum
Exportieren von Standbildern aus allen Videoanzeigen erstellt werden.
44
OpenGL bietet mit der glReadPixels-Methode die Möglichkeit den Inhalt
eines Bildpuffers von der Grafikkarte in den Hauptspeicher des Systems zu
kopieren. Auf diese Weise konnte die aktuell angezeigte Darstellung
ausgelesen werden. Die Bilddaten wurden dabei nicht mit den seinerzeit in der
Software enthaltenen Methoden gespeichert, sondern aufbauend auf der
libquicktime-Bibliothek eine neue Speicherung entwickelt. Der Vorteil der
Bibliothek lag Erstens in den bereits integrierten Codecs wie MotionJPEG oder
basierend auf der libdv der DV-Codec. Darüber hinaus kann die Bibliothek
Dateien entweder ins Quicktime-Containerformat .MOV oder in den RIFFContainer .AVI speichern. Die Einstellungen konnten sehr komfortabel über
die Programmierschnittstelle vorgenommen werden. Libquicktime kümmert
sich dabei selbstständig um nötige Farbraumkonvertierungen und den
Schreibprozess. Durch Installation der Codec-Bibliothek ffmpeg konnte
zusätzlich der MPEG4 Codec unterstützt werden. Die Videos konnten auf
diese Weise platzsparend in den bereits erwähnten Auflösungen exportiert
werden.
Abbildung 3.10: Export des komponierten Videos in eine AVI-Datei mit
MPEG4-Codec
Da die glReadPixel-Methode sehr lange zum Kopieren des Bildpuffers
braucht, eignet sich diese Methode nicht, um Livevideos in Echtzeit zu
exportieren. Dabei ist die Gefahr von verlorenen Bildern zu hoch. Für die
Konvertierung bereits aufgezeichneter DV-Dateien ist dies aber auch gar nicht
nötig. Für diese Zwecke konnte auf die in der Software bereits integrierten
Methoden zum Bildweisen durchlaufen der Offline-Dateien zurück gegriffen
werden. Dabei wurde auch eine Funktion zum vorherigen Setzen von In- und
45
Out-Points entwickelt. Dem Nutzer ist es somit möglich, in einem Video erst
Anfang und Ende der zu exportierenden Szene zu markieren und
anschließend die Szene zu rendern. Beim Bild-für-Bild-Export betrug die
Bildrate zum Vergleich circa 5 fps.
Da die in dieser Arbeit verwendete libquicktime-Bibliothek den Vorteil
des einfachen Lesens und Schreibens von .MOV und .AVI-Dateien in
beliebigen Codecs hat, konnte auch in die bis dahin in der Software
entstandene Plugin-Architektur für Dateiformate ein entsprechendes Plugin
eingebunden werden. Damit wurde die Software nun auch in die Lage
versetzt, üblichere Dateiformate zu verarbeiten. Beim Schreiben ist dabei nicht
die Verwendung von OpenGL notwendig, da der Bildpuffer direkt vom
Videograbber kommt. Letztlich können auf diese Weise Videodaten einer
Livekamera in Echtzeit als MJPEG oder MPEG4-Strom in eine AVI-Datei
gespeichert und als virtuelle Kamera wieder geöffnet werden.
Als Nebenprodukt vom Auslesen des OpenGL-Bildpuffers konnte
ebenfalls eine Funktion implementiert werden, mit der jede Videoanzeige des
Programms, mit all ihren Einzeichnungen wie Pupillenposition oder 3DModell des Auges, in eine PNG-Bilddatei gespeichert werden kann.
Funktionalität zum Komprimieren und Speichern der Bilder konnte aus dem
verwendeten QT-Framework entnommen werden.
Abbildung 3.11: Alle Einstellmöglichkeiten der hybriden Darstellung
Realisierung als Kontextmenü. Eigenschaften wie Saturation, Lens
Correction oder Delay lassen sich über Schieberegler einstellen.
46
3.6. Entwicklung einer portablen Bedieneinheit
Ausgehend vom vorhandenen Aufnahmesystem, welches sich über
WLAN durch ein Notebook fern steuern ließ, wurde eine portable
Bedieneinheit entwickelt. Damit kann eine autonome Bedienung allein durch
den Kameramann gewährleistet werden. Die Oberfläche der Bedieneinheit
wurde ebenfalls auf Basis der vorhandenen Software mit dem GUI-Framework
QT und OpenGL entwickelt. Dabei wurde Wert auf ein Einfaches und im
Funktionsumfang stark reduziertes Bedienkonzept gelegt.
Grundlage der Arbeit war, wie bereits mehrfach erwähnt, ein portables
Aufnahmesystem, wobei das Videosignal von zwei analogen Kameras über
Analog-/DV-Konverter umgewandelt und als DV-Datei aufgezeichnet wurde.
Der für diese Zwecke entwickelte tragbare Computer war neben den
Konvertern mit einer WLAN-Schnittstelle ausgestattet. Damit konnte das Gerät
auf einem zweiten Notebook mit installiertem X-Server drahtlos bedient
werden. So konnte die komplette Oberfläche des Systems einfach auf das
Notebook umgeleitet werden. Dies hat den Vorteil, dass eine Testperson
lediglich den Computer tragen muss und der Experimentleiter als Fachmann
alle Einstellungen vornehmen kann.
Damit Reporter oder Kameramänner auch ohne fremde Hilfe autonom
Aufnahmen machen können, bedarf es einer einfacheren Bedieneinheit. Im
Wesentlichen müssen Funktionen wie die Kontrolle des Videobildes, das
Starten der Kalibrationsprozedur, Start und Stop der Videoaufzeichnung sowie
kleinere
Einstellungen
unterstützt
werden.
Anforderungen
an
die
Bedieneinheit sind also die Fähigkeit Videos oder Standbilder darzustellen
sowie einfache Knöpfe zur Auswahl der Funktionen. Eine einfache Lösung
wäre es, die klassische Oberfläche auf einem tragbaren Touchscreen
darzustellen. Entsprechende Versuche sind aber daran gescheitert, dass diese
Bildschirme zu groß sind, zu viel Strom verbrauchen, eine zu geringe
Auflösung für die komplexe Oberfläche haben oder einfach keine Treiber für
das verwendete Linux-System zur Verfügung standen.
Wie die meisten Mainboards verfügt auch der verwendete tragbare
Computer über einen klassischen Videoausgang, wobei die Anzeige der
Grafikkarte statt an den Monitor an ein angeschlossenes PAL oder NTSCVideogerät umgeleitet werden kann. Beim verwendeten Mainboard ist dies
sogar ohne entsprechende Treiberunterstützung (bzw. trotz fehlender
Unterstützung) möglich gewesen, da die Einstellung direkt im BIOS
transparent
zum
Betriebssystem
vorgenommen
werden
konnte.
Die
Grafikkarte nahm auch entsprechende Skalierungen vor, so dass im
Betriebssystem nach wie vor die ideale Auflösung von 1280x1024 Pixel
eingestellt blieb. So war es schließlich möglich, die komplette Anzeige und die
alte Oberfläche auf einem vorhandenen Videodisplay anzuzeigen. Das Display
47
selbst hatte einen geringen Stromverbrauch, der Anschluss war allein über das
dünne Videokabel möglich. Allerdings wurde die ohnehin durch PAL enorm
reduzierte Auflösung nochmal auf die knapp 320x240 Pixel des Displays
reduziert. Die Elemente der originalen Software sowie der weiterhin nötige
Mauszeiger konnten kaum erkannt werden.
Abbildung 3.12: Anzeige der ursprüngliche Software auf dem verwendeten
Videodisplay
(Auflösung der Grafikkarte: 800x600 Pixel)
Aus diesem Grund wurde eine gesonderte Oberfläche für die Anzeige
auf dem Videodisplay entworfen. Dabei konnte ebenfalls auf die existierende
Software aufgebaut werden. Die Architektur des Systems wurde schon früh
darauf ausgelegt, Anzeige von eigentlicher Bildverarbeitung zu trennen. Ziel
des Projektes war es unter anderem, die Bildverarbeitung künftig in ein
eingebettetes System auszulagern. Aus diesem Grund ist entsprechender
Quelltext auch in der Sprache C geschrieben. Die Entwicklung der neuen
graphischen Oberfläche konnte aber ebenfalls in der Sprache C++ erfolgen.
Statt andere Frameworks zur Programmierung einer neuen Oberfläche zu
benutzen, wurde eine Implementierung mit Hilfe des zuvor verwendeten QTFrameworks und dem Einsatz von OpenGL bevorzugt.
QT unterstützt allerdings lediglich nur Erzeugung von Oberflächen im
Design
des
verwendeten
Fenstermanagers,
beziehungsweise
des
Betriebssystems. Handy-, PDA- oder Spielekonsolenähnliche Oberflächen
können mit QT nicht ohne Weiteres programmiert werden. In dieser Arbeit
dient QT dabei der Eventsteuerung, wie der Erfassung von Mausereignissen,
48
Tastatureingaben und Taktgebern sowie der Definition der verwendeten
Menüstruktur als Popup-Menü. Die Darstellung des Menüs wurde wiederum
in OpenGL implementiert. Zusätzlich konnten die bereits implementieren
Videoanzeigen und die hybride Darstellung einfach eingebunden werden.
Beispiel für die Gestaltung der Oberfläche waren Produkte wie das
portable Audioabspielgerät iPod der Firma Apple, oder klassische Menüs von
Mobiltelefonen, wie man sie von der Firma Nokia kennt. Im Extremfall sind
deren Bedienung mit lediglich zwei Tasten möglich. Dabei erfolgt die
Navigation vorrangig in einem einfachen Menü, von dem jeweils eine
Auswahl von Einträgen einer Ebene übereinander angezeigt werden. Es sind
Bewegungen sowohl aufwärts und abwärts möglich, wobei prinzipiell auch
nur die Abwärtsbewegung ausreicht, wenn die Markierung des aktuellen
Eintrags am Ende wie in bei einem Ring wieder nach oben springt. Im hier
realisierten ringförmigen Menü wurden wie bei fast allen aktuellen Handys
beide Richtungen mit zwei Tasten ermöglicht. Oft erfolgt der Übergang vom
Ende zum Anfang nicht spürbar, beim hier realisierten fünfzeiligen Menü
wurde der letzte Eintrag allerdings am unteren Bildschirmrand, der Erste am
Oberen dargestellt. Die Auswahl eines in diesem Fall mit einer Kontrastfarbe
markierten Menüpunkts erfolgt über eine dritte Taste. Dabei gelangt der
Nutzer entweder in eine tiefere Untermenü-Ebene oder aktiviert eine Funktion.
Um aus der aktuellen Ebene wieder zurück zu gelangen haben viele
Mobiltelefone eine vierte Taste. Allerdings ist der Rückweg bei manchen alten
Handys und bei vielen Menüs anderer Multimediageräte ein extra Eintrag, der
ebenso ausgewählt werden kann. Um die Anzahl der Tasten möglichst gering
zu halten, wurde in diesem Fall ebenfalls ein Menüpunkt „Back“ eingerichtet.
Die Ebenen wurden analog zum iPod „nebeneinander“ angeordnet, dass heißt
das vorherige Menü kann man sich als Ring links des aktuellen Menüs
vorstellen, das untergeordnete Menü rechts. Beim iPod wird der Übergang
zwischen den Menüs zur Unterstützung dieser Vorstellung animiert
dargestellt. Bezieht sich der Eintrag auf den Wechsel der Menüebene, wurde
ein Pfeil links bzw. rechts des Eintrags angezeigt. Erfolgt die Nutzung des
Menüs über die Tastatur, so ist die linke Pfeiltaste zusätzlich mit der ZurückFunktion belegt. Die rechte Taste sowie Enter sind die Auswahltasten, die
obere und untere Pfeiltaste entsprechend zur Bewegung. Bei der Nutzung
eines Mausrads (Jog-Dail) kann intuitiv nach oben und nach unten navigiert
werden, die mittlere Taste wählt einen Punkt aus. Speziell für dieses Menü
wurden die linke und rechte Maustaste zur Auf- und Abwärtsbwegung
genutzt.
49
Abbildung 3.13: Fünfzeiliges Menü speziell für den mobilen Einsatz.
Die Hervorhebung des gewählten Menüpunkts erfolgt durch eine
Akzentfarbe. Mit „Back“ als Extraeintrag gelangt man zurück zum
übergeordneten Menü, bzw. zur Anzeige der aktuell gewählten Kamera.
Bezieht sich ein Eintrag auf ein Untermenü wird ein Pfeil nach rechts
dargestellt. Es wurde versucht das Menü auf fünf Punkte je Ebene zu
reduzieren.
Um die Nutzung einer zusätzlichen Tastatur oder einer Maus zu
vermeiden wurde das hier genutzte Videodisplay umgebaut. Dabei wurde auf
die
zahlreichen
Zusatzfunktionen,
wie
MP3-Player
oder
MPEG4
Videorekorder verzichtet und lediglich der Menüpunkt zur Anzeige des
Videobildes belassen. Das Display verfügte über eine Art „Jog-Dail“, welches
ähnlich einem Mausrad eine Bewegung in zwei Richtung und die Auswahl
durch einfachen Druck zulässt. Allerdings kann das Bedienelement nicht wie
bei einem richtigen Jog-Dail durchgängig gedreht werden, sondern es erfolgt
lediglich ein Tastendruck nach Links oder Rechts. Die Batterie des Displays
wurde sodann entfernt und in den frei gewordenen Schacht eine auf die
Hauptplatine und den Anschluss der drei Maustasten reduzierte USB-Maus
eingeführt. Die Tasten des Jog-Dail konnten mit den Anschlüssen der Maus
verbunden werden. Die 5 Volt Stormversorgung über USB konnte dabei gleich
als Quelle für das Videodisplay genutzt werden. Am Ende ist ein Gerät
entstanden, welches an den Videoausgang und an den USB-Port angeschlossen
werden kann.
50
Abbildung 3.14: Bedieneinheit des tragbaren Computers.
Die Batterie eines portablen Videodisplays wurde entfernt und in den leeren
Schacht die Hauptplatine einer optischen USB-Maus eingebaut. Die drei
Tasten des Jog-Dails wurden auf die drei Maustasten umgeleitet. Das Gerät
bezieht den Strom über die USB-Schnittstelle der Maus und kann an den
Videoausgang des tragbaren Computers angeschlossen werden.
Im Menü können alle angeschlossenen Kameras zur Ansicht ausgewählt
werden. Beim Verlassen des Hauptmenüs kommt der Nutzer ebenfalls zu
dieser Ansicht zurück. Zur Realisierung dieser Funktion konnte auf die
bisherigen Videoanzeigen zurück gegriffen werden. Außerdem kann die
hybride Ansicht mit entzerrter Szenenkamera und integrierter Blickkamera
ausgewählt werden. Dazu wurde ebenfalls einfach die bereits implementierte
Klasse eingefügt. In einem Optionsmenü können zudem die beiden Kameras
vertauscht werden, falls die Stecker am tragbaren Computer verwechselt
wurden oder die Software die jeweiligen Kameras in falscher Reihenfolge
initialisiert hat. Zudem kann die so genannte Slippage-Korrektur aktiviert
werden, die mehr Robustheit gegenüber dem Verrutschen der Kopfkamera
erzeugt. Letztlich können eine Reihe von Filtern gewählt werden, welche die
Bewegungen des Servomotors glätten oder predizieren.
Abbildung 3.15: Menüstruktur der portablen Bedieneinheit
51
3.7. Evaluation der hybriden Darstellung
Mit dem tragbaren Computer und der entwickelten Bedieneinheit
wurden zahlreiche Aufnahmen in der Straßenbahn, der Fußgängerzone, in
Büros oder in der Natur erstellt. Diese Videos wurden danach im zuvor
beschriebenen System zur hybriden Darstellung zusammen gesetzt und als
Videodatei exportiert. Dabei wurde die Blickposition in der Tonspur
gespeichert. Aus dem Videomaterial wurden mehrere charakteristische Szenen
ausgewählt und in einem fünfminütigen Video zusammen gestellt. In einer
Evaluation sollte dann untersucht werden, ob Betrachter dem Blick folgen.
Dazu wurde eine Versuchsumgebung entwickelt, wobei der Blick der
Probanden
auf
Versuchsaufbau
Bildschirmkoordinaten
bedingte
kalibriert
Verschiebungen
konnten
wurde.
durch
Durch
den
regelmäßige
Fixationen auf den Bildschirmmittelpunkt später mit Hilfe der MathematikSoftware MatLab in den Ergebnisdaten korrigiert werden. Die Daten wurden
schließlich ebenfalls in MatLab ausgewertet. Zudem wurde der ursprüngliche
Film mit den Blickpositionen aller zehn Probanden überlagert und ebenfalls in
einer Videodatei ausgegeben.
Prinzipiell wäre es möglich gewesen die Blickbewegung von Probanden
während der Darstellung des ursprünglich aufgezeichneten DV-Materials zu
messen. Allerdings lag die Bildrate durch die Dekodierung beider DV-Ströme
bereits unter 25 fps. Dabei erfolgte ein andauerender Festplattenzugriff mit 50
Mbit/Sekunde. Beim Start der Aufzeichnung der Blickdaten brach die
Bildwiederholrate zusammen und die sonst bei 1-2ms liegende Zeit für die
Pupillenerkennung
stieg
deutlich an. Aus
diesen Gründen fiel
die
Entscheidung für einen vorherigen Export des montierten DV-Materials in ein
anderes Videoformat wie MPEG4, welches lediglich eine Datenrate 8 Mbit für
eine ähnliche Bildqualität benötigte und zur Dekompression den Prozessor
kaum belastete. Allerdings ging mit dem Export in eine AVI-Datei die
Information über die aktuelle Position des Blickbildes in OpenGL-Koordinaten
verloren. Deshalb wurde dieses Datum zu jedem Bild in die Tonspur der
Videodatei gespeichert. Das in diesem Zusammenhang entwickelte ImportPlugin von AVI-Dateien in die bestehende Software, wurde entsprechend um
die Möglichkeit erweitert, diese Daten wieder aus der Audiospur auszulesen
und an den entsprechenden Schnittstellen zur Verfügung zu stellen. Damit
wurde es schließlich möglich die zuvor berechneten und in zu geringer
Bildrate dargestellten DV-Filme als virtuelle Kamera innerhalb einer AVI-Datei
ohne hohe CPU-Belastung einzulesen und in voller Geschwindigkeit
abzuspielen. Die Pupillenerkennung konnte entsprechend konfliktfrei arbeiten.
Der gemessene Blickpunkt und die aufgezeichnete Position des Blickbildes in
der Szene konnten so gemeinsam in eine Log-Datei geschrieben werden.
52
Abbildung 3.16: Versuchsaufbau bei der Evaluation.
Nach der Kalibartionsprozedur konnten die 25 Punkte überprüft werden.
Die Kalibrationspunkte waren im Gegensatz zu dieser Darstellung lediglich
2x2 Pixel groß. Danach folgte die Anzeige des Filmes. Der entstandene
Offset und die Drift wurde später korrigiert.
Der gemessene Blickpunkt bezog sich bis dahin aber nicht auf den
Bildschirm
sondern
entsprach
Videookulographie-Brille.
Aus
der
Pupillenposition
diesem
Grund
relativ
musste
zur
eine
Kalibrationsprozedur entwickelt werden, womit gemessene Pupillenposition
und Punkte auf dem Bildschirm in Zusammenhang gebracht werden konnten.
Dafür
wurde
wiederum
analog
zur
Kalibrationsprozedur
zwischen
Pupillenposition und Servostellung ein Verfahren entwickelt. Der Proband
musste dazu seinen Kopf in etwa einem halben Meter Entfernung vom
Monitor aufstützen und nacheinander 25 Punkte fixieren, welche auf dem
Bildschirm nacheinander angezeigt wurden. Die Punkte waren dabei lediglich
2x2 Pixel groß. Aus diesem Grund blitzten sie beim Ändern der Position kurz
auf, damit der Proband sie auch in der Peripherie wahrnehmen konnte. Die
gemessene Pupillenposition und die OpenGL-Koordinaten des angezeigten
Punktes bildeten wiederum die Eingabe zur Lösung eines Gleichungssystems.
Schließlich konnte aus der gemessenen Pupille der Blickpunkt auf dem
Monitor berechnet werden. Am Ende der Kalibrationsprozedur wurden noch
einmal alle 25 Punkte sowie der eigene Blick dargestellt, um die Qualität der
Kalibration beurteilen zu können.
Selbst durch den Einsatz einer Kopfstütze konnte nach der Kalibration
mit Hilfe dieser Darstellung festgestellt werden, dass eine konstante
Abweichung, ein so genannter Offset, auftrat, der sich im Laufe der Zeit
änderte (so genannte Drift). Zur Korrektur dieses Fehlers musste der Proband
zu Beginn des Films und dann alle 1500 Bilder (1 Minute) auf einen Punkt in
der Mitte des Bildschirms schauen. Damit konnte sichergestellt werden, dass
53
es regelmäßig ein Datum gibt, wo der Sollwert und der gemessene Istwert
übereinstimmen sollten.
Aus den beiden aufgezeichneten Fixierungen rund um einen Filmblock
wurde jeweils ein Stück vom Ende genommen und die dazwischen liegenden
Daten mit einem linear interpolierten Offset korrigiert. Aus diesem Grund und
zur Erhöhung des Komforts konnte schließlich komplett auf die Kopfstütze
verzichtet werden und den Probanden wurde die Instruktion gegeben,
möglichst in einer Haltung zu verharren und ihren Kopf mit den Händen zu
stützen.
Abbildung 3.17: Gemessene horizontale Blickposition eines Probanden.
Im Intervall von 1 Minute musste ein Punkt in der Bildschirmmitte fixiert
werden. Diese Daten konnten dann zur Korrektur des entstandenen Offsets
und der Drift zwischen den Fixationen genutzt werden.
Am Ende der Untersuchung lagen Daten von 10 Probanden vor, welche
jeweils den ein Sollwert des Blickspots und ein Ist-Wert korrigierten Blicks
beinhalteten.
Abbildung 3.18: Position des Blickbildes (Soll-Wert) und um Offset und
Drift korrigierter Blick eines Probanden
54
4. Ergebnisse
Im Rahmen der Arbeit wurde ein weitwinkliges Bild einer kopffesten
Szenenkamera mit dem Bild einer blickgesteuerten Kopfkamera in einer
hybriden Darstellung vereinigt. Diese bietet die Möglichkeit die Kameras
jeweils in ihrer eigenen Zentralperspektive zu einem multiperspektivischen
Bild zusammen zu stellen. Neben dem „Perspektivkontrast“ wurden Attribute
wie Schärfe, Größe, Farbsättigung, Farbtemperatur und Helligkeit als
Kontrastmittel eingesetzt. Zwar ist die Technik primär für zwei Kameras
entwickelt worden, lässt sich aber auch mit einer einzigen blickgesteuerten
Kamera nutzen. Die automatische Montage geschieht in Echtzeit entweder mit
Livekameras oder mit virtuellen Kameras aus einer beliebigen DV, Microsoft
AVI oder Quicktime MOV-Datei. Dabei ist ein Export der Montage in eine
AVI-Datei mit diversen Codecs und der Speicherung der Blickposition in der
Tonspur möglich.
Zur autonomen Aufzeichnung von Videos durch Redakteure oder
Kameramänner wurde eine Bedieneinheit und eine spezielle Oberfläche
entwickelt. Bei der Nutzung und Aufnahme diverser Videofilme wurden
Erfahrung in der Benutzung und der Fehleranfälligkeit des Systems
gesammelt. Auch konnte der überwiegend positive Eindruck getestet werden,
den solch ein System in der Umwelt hinterlässt.
In einer Evaluation wurde das aufgenommene Videomaterial von zehn
Probanden angeschaut und deren Blickverhalten relativ zum vorgegebenen
Blickspot gemessen. Aus den insgesamt fünf Minuten des präsentierten Films
wurden wiederum vier charakteristische Szenen von je fünf Sekunden
ausgewählt.
Darunter
eine
Szene
mit
einer
kontinuierlichen
Augenfolgebewegung, der die meisten Probanden folgten, eine Szene mit
wenig peripheren Objekten, wobei ein Großteil der Probanden abgewichen ist,
um die Handlungen einer peripheren Person zu verfolgen, eine Szene in der
Fußgängerzone sowie in der Straßenbahn, wo die Komplexität der Peripherie
so hoch war, dass praktisch kaum ein Proband dem vorgegebenen Blick
gefolgt ist. Es konnte festgestellt werden, dass bei Blicksprüngen zu
interessanten Zielen innerhalb von 8 Frames eine entsprechende Sakkade des
Betrachters folgt, um den Blick wieder einzufangen. Diese umgerechnet circa
300ms entsprechen der visuellen Reaktionszeit. Prinzipiell wurde eine
Folgebereitschaft beobachtet, wobei Gesichter und Personen eine höhere
Attraktivität besitzen. Zuschauer verlangen danach, dass ihre (meist ähnliche)
Erwartung erfüllt wird. Dies muss von Kameraleuten entsprechend bedient
werden. Ruhige Augenbewegungen laden den Zuschauer zum Folgen ein,
schnelle Sakkadenfolgen oder komplexe Szenen sorgen für, das der Betrachter
dem Spot nicht mehr folgt. In diesem Fall sollte auf die Darstellung des
Blickbildes verzichtet werden.
55
4.1. Darstellung von blickgesteuerten Kameras
Bei der manuellen Montage der Kameramaterials konnte schnell erkannt
werden, dass der Blickfilm in Form eines Kreises in das Szenenbild montiert
werden muss, da durch die Anordnung der Servomotoren regelmäßig die
Drehung des Blickbildes notwendig wurde. Die dadurch deutlich sichtbare
Drehung des Rechtecks innerhalb des Gesamtrahmens fiel unangenehm auf
und konnte war durch die technische Ursache auf den ersten Blick nicht
verständlich. Der Übergang zwischen Blick und Szene musste fließend
gestaltet werden, um die Aufmerksamkeit vom Zittern des Bildes, welches
durch die harte Kante visuell unterstützt wurde, zu kaschieren.
Die erhoffte Wirkung des Perspektivkontrastes, also der Ausnutzung der
hybriden Darstellung der zwei geometrischen Mitten, blieb leider aus.
Lediglich bei starken Seitwärtsbewegungen trat überhaupt ein Effekt auf.
Diese waren im gesamten Film jedoch sehr selten und sehr kurz. In der Regel
wurde der Kopf direkt nachgeführt. Dadurch wurde aber ebenfalls deutlich,
dass eine monoperspektivische Einordnung der Blickbildes in das Szenenbild
nicht erforderlich ist, da die meisten Blicke ohnehin in der Bildmitte platziert
sind und damit der Perspektivkontrast kaum ins Gewicht fällt. Dabei handelt
es sich um das typische Verhalten eines so genannten „head movers“, wobei
der Kopf schon bei Augenauslenkungen von 10°-20° der Bewegung
nachgeführt wird. Im Gegensatz dazu bewegen die „non head movers“ ihren
Kopf erst ab 20°-30°. Beide Gruppen sind gleichberechtigt vertreten [AAG86].
Zur Kontrastverstärkung eigneten sich die Änderung der Größe des
Blickpunktes entsprechend der Bedeutungsperspektive, sowie eine Einfärbung
des Hintergrundes.
Zudem wurde eine Dominanz des Blickbildes und des Szenenbildes
gefunden. Für den Fall der Blickdominanz, wie sie zum Beispiel bei
Augenfolgebewegungen oder beim vestibulookulären Reflex der Fall sind,
sollte versucht werden, das Blickbild, besser dessen Inhalt stabil zu halten und
die Szene wenn möglich nach zu führen. Bei Sakkaden und Blicksprüngen zum
Beispiel während der Orientierung und Umschau in neuen Räumen und
komplexen Szenen, sollte das Szenenbild dominieren und das Blickbild
lediglich zur Markierung des Blickziels eingesetzt werden. Im Video wurde
entsprechend bei der Begrüßungsszene der Spot verkleinert und damit dessen
Bedeutung reduziert.
Bei der Entwicklung der automatischen Darstellung ist das Blickbild
rund und kann entsprechend zur Kompensierung gedreht werden. Der
fließende Übergang verhindert Aliasing-Effekte und die störende Dominanz
der harten Kante bei schnellen Bewegungen. Allerdings könnte auch dieser
Kontrast variabel gestaltet werden. Zur Nutzung der vorhanden Auflösung
und um der Bedeutung des Blickes Rechnung zu tragen, kann das Bild in der
56
Größe geändert werden. Die ist ebenfalls nötig um am Szenenrand aufgrund
der
zentralperspektivischen
Darstellung
den
Blick
entsprechend
zu
vergrößern. Zur Unterstützung des Farbkontrastes können Sättigung und eine
Art Farbtemperatur für jede Kamera eingestellt werden. Zudem kann die
Helligkeit verstärkt werden. Diese drei Faktoren sind in der Praxis sehr
hilfreich.
Bei der Nutzung der hybriden Darstellung hat sich eher zufällig
herausgestellt, dass ein Verschieben des blickgesteuerten Bildes analog zur
Augenposition auf schwarzem Hintergrund ebenfalls das Verständnis für die
Gesamtszene fördert. Bei kleinen Kopfbewegungen kann so die Topographie
der Umgebung im Kopf rekonstruiert werden. Zudem fördert die Bewegung
der Anzeige das Verständnis für die zum Teil schnellen Blicksprünge. Der
Betrachter erhält ebenfalls eine gewisse Autonomie über sein eigenes
Blickverhalten. Dem Spot zu folgen, wird zu einer freiwilligen Tat, die man
dann scheinbar gerne tut.
Ein wichtiges Ergebnis dieser Arbeit ist die Möglichkeit, die in Echtzeit
generierten
hybriden
Darstellungen
zusätzlich
in
weit
verbreiteten
Videoformaten wie AVI oder MOV mit modernen Codecs wie MPEG4 zu
exportieren. Diese Filme können zudem durch das Programm reimportiert
werden, um sie in Messungen als visuellen Stimulus zu verwenden.
4.2. Aufnahmen mit dem portablen System
Im Rahmen der Arbeit wurde der
bereits vorhandene tragbare Computer zur
Aufnahme von zwei Videosignalen um eine
kleine
Bedieneinheit
Benutzeroberfläche
samt
erweitert.
neuer
Mit
diesem
Komplettsystem wurden diverse Aufnahmen
in der freien Natur, in der Straßenbahn, in
Büros und in der Fußgängerzone gemacht.
Dabei konnte der Computer wie eine
Umhängetasche am Rücken getragen werden.
Prinzipiell wäre auch das Verstauen in einer
solchen Tasche denkbar gewesen, der seitlich
angebrachte Lüfter hätte dann aber seine
Wirkung verloren. Das Display konnte in
Hosenwerden,
oder
Jackentasche
sodass
letztlich
untergebracht
nur
die
blickgesteuerte Kopfkamera direkt sichtbar
war. Diese hat bei einigen Menschen zwar
etwas Erstaunen verursacht, entsprechende
57
Reaktionen fanden aber meist „hinter dem Rücken“ statt, sodass auf dem
aufgezeichneten Videomaterial lediglich der oft fassungslose, natürliche Blick
der Menschen beobachtet werden konnte. Die Bedieneinheit konnte auch
bequem in der Hand gehalten werden. Bei Interessenten kam dann schnell der
Eindruck auf, dass allein dieses Gerät die Verarbeitung und Speicherung aller
nötigen Daten vornimmt. Der tragbare Computer ist dabei komplett in den
Hintergrund der Aufmerksamkeit gerückt.
Die Bediensoftware bietet zudem die Möglichkeit, durch eine Bewegung
nach rechts schnell durch die Anzeige aller Kameras zu wechseln, und mit
einer Bewegung nach links ein Videobild fest zu halten und anschließend zu
vergrößern. Damit war es intuitiv möglich eine Kontrolle der korrekten
Augenerfassung und der kürzlich aufgezeichneten Szene zu machen und
gegebenenfalls neu zu kalibrieren oder
den Fokus des Teleobjektivs
anzupassen. Durch das Fehlen eines extra „Zurück“ Knopfes am Gerät war die
Navigation im Menü zuweilen recht mühselig. Die Bezeichnung des
Menüpunktes „Calibrate & Record“ manchmal irreführend, konnte aber wie
andere Hürden schnell entsprechen korrigeirt werden. Insgesamt waren aber
die wichtigsten Funktionen vorhanden. Nachteilig war insbesondere der hohe
Stromverbrauch des Systems, wobei ein Akku eine Laufzeit von circa einer
Stunde ermöglichte. Das System kann zwar über die Oberfläche herunter
gefahren werden, der Start nimmt jedoch erneut circa eine Minute in
Anspruch. Ein zuvor kalibriertes System kann dann aber weiter verwendet
werden.
Ein Nachteil des gesamten Systems lag in der fehlenden Bestimmung der
Entfernung eines Objektes. So entsteht bei den recht häufigen Wechseln
zwischen Nah- und Fernbereich (zum Beispiel bei Einstellungen am Display)
ein Offset. Das Blickbild zeigt dann über das eigentliche Blickziel. Dabei ist
auch der falsche Fokus auffällig.
4.3. Blickverhalten bei der Betrachtung des
aufgezeichneten Videomaterials
Als
dritter
Teil
wurde
in
der
Arbeit
eine
Umgebung
zur
Blickbewegungsmessung beim Betrachten eines Videos entwickelt. Dabei wird
zu jedem Videobild, beziehungsweise entsprechend der zeitlichen Auflösung
des
Videookulographiesystems,
der
anvisierte
Blickpunkt
ausgegeben.
Beispielhaft wurde eine Auswahl der aufgenommenen Szenen als Videodatei
exportiert um daran das Blickverhalten der Zuschauer zu analysieren. Die
Messung sollte eine Aussage darüber treffen, wie hoch die Bereitschaft ist, dem
vorgegebenen Blickpunkt zu folgen. Dabei wurden keine Vergleiche zwischen
den unterschiedlichen Darstellungsmöglichkeiten getroffen. Alle Videos hatten
gemein, dass das Blickbild dem eineinhalbfachen seiner kalibrierten Größe
58
entsprach. Die Sättigung des Hintergrundvideos wurde verringert. Alle Videos
haben eine eingestellte Servoverzögerung von vier Bildern, wobei oft schon die
Intention einer Bewegung im letzten Bild durch eine entsprechende
Bewegungsunschärfe erkennbar war.
Zunächst wurde jeder der 14 Probanden und Probandinnen (im
Folgenden: der Proband) aufgefordert eine für die folgenden 10 Minuten
bequeme Haltung einzunehmen und dabei den Kopf möglichst mit den
Händen abzustützen. Der Proband saß in etwa einem halben Meter Abstand
vor einem 17“ TFT-Monitor. In der Bildschirmmitte war ein Punkt
eingezeichnet. Es folgte eine Kalibrationsprozedur, wobei nacheinander 25
Punkte fixiert werden mussten. Die Güte der Kalibration konnte danach sofort
visuell geprüft werden. Der Proband wurde instruiert, den Punkt in der
Bilschirmmitte immer dann anzuschauen, sobald dieser das folgende Video
unterbrach. Die Referenz diente der Offset- und Driftkorrektur der Daten. Die
Aufgabe bestand darin, das Video zu betrachten. Dabei konnte der Proband
stets frei wählen, wo er hinschaute. Es folgten fünf Mal eine Minute Video.
Danach war das Experiment beendet.
Nach der Offset- und Driftkorrektur der Daten, wurden die Ergebnisse
von vier Probanden verworfen, da die Blickmessung aufgrund von Schminke
oder ungeeigneter Augenfarbe zu sehr gestört wurde. Übrig blieben die
Datensätze von acht männlichen und zwei weiblichen Probanden.
Das gezeigte Video wurde mit allen gemessenen Blickpositionen
überlagert,
um einen schnellen visuellen Eindruck über das Ergebnis zu
erlangen. Dabei wurden in jedem Videobild alle Blicke durch ein 4x4 Pixel
großes oranges Viereck markiert. Die fünf vergangenen Blickpositionen
wurden zudem verkleinert dargestellt.
Um diese Daten zu quantifizieren, wurde als Maß die Entfernung des
Blickes eines Probanden vom gezeigten Blickspot eingeführt. Die Entfernung
wurde in dem von OpenGL genutzten Koordinatensystem angegeben. Dabei
liegt der Ursprung in der Bildmitte, die Bildränder haben jeweils einen
Abstand von 1. Das gesamte Bild ist demnach 2 Einheiten breit. Der Blickspot
hat dabei einen Radius von 0.17, bedeckt also 17% der Breite des Bildes. Die
Entfernung wurde vom Spotmittelpunkt berechnet, womit alle Werte kleiner
0.17 noch innerhalb des Blickbildes liegen.
59
Abbildung 4.1: Markierung der Blicke aller zehn Probanden im gezeigten
Film.
Die kleinen Punkte entsprechen jeweils den letzten fünf Bildern. In diesem
Bild ist deutlich die „Blickautonomie“ bei komplexen Szenen mit vielen
Gesichtern zu erkennen. Während ein Großteil der Probanden noch dem
aktuellen Spot folgt, suchen andere schon seit einigen Bildern die neuen
Blickziele.
Ausgehend von der Entfernung vom Blickspot wurden drei Klassen
gebildet. Dabei beschreibt die erste Klasse eine Entfernung von maximal 0.17,
also Blicke die im Innere des gezeigten Spots landeten. Die zweite Klasse
beschreibt die Bewegung in Richtung des Spots. Dabei wurde aus dem letzten
Blickpunkt des Probanden und dem Rand des Spots ein Dreieck gebildet und
geprüft, ob sich der aktuelle Blickpunkt innerhalb dieses Dreiecks befindet. Die
letzte Klasse bezieht sich damit auf Blicke außerhalb des Spots, welche sich
auch nicht in dessen Richtung bewegten. Wobei anzumerken ist, dass durch
minimale Kopfbewegungen in die
Richtung des Spots diese eigentliche
Hinbewegung fälschlicherweise der dritten Klasse zugeordnet werden konnte.
Für das komplette gezeigte Video ergab diese Klassenbildung das
Ergebnis, dass sich im Durchschnitt 53% der Blicke innerhalb des Spots
befinden, sowie 22% der Bewegungen in dessen Richtung zeigen. Die
restlichen 25% lagen außerhalb des Spots und bewegen sich auch nicht in
dessen Richtung. Trotz der Aufgabe, ein beliebiges Ziel in dem Video zu
betrachten, war dieser Anteil von 75% „Folgebewegungen“ ein Hinweis dafür,
dass diese Darstellung ein hohes Maß an Akzeptanz genoss.
60
Abbildung 4.2: Markierung der vier charkteristischen Szenen
Der gesamte Bildschirm ist 2 Einheiten breit, der Radius des Blickspot
beträgt 0.17.
Das
überlagerte
Video
motivierte
die
Auswahl
von
vier
charakteristischen Szenen aus den gesamten fünf Minuten Videomaterial, um
dieses Ergebnis weiter zu verfeineren. Dazu wurden die Daten aller Probanden
zusammen gefasst und für jedes Bild ein Mittelwert über deren Entfernung
vom gezeigten Spot berechnet (Siehe Abbildung 4.2). In der ersten Szene
befinden sich fast alle Blicke innerhalb des Spots. Dabei handelt es sich um die
Verfolgung eines Radfahrers inmitten einer leeren Landschaft. In der zweiten
Szene liegt der mittlere Abstand mit 0.26 knapp außerhalb des Spots. Bei dieser
Szene wird ein kleines Mädchen verfolgt. Der Blickspot wandert dann aber
woanders hin, während fast alle Probanden weiter den Handlungen des
Mädchens folgen. In der dritten Szene gibt es mit 0.5 eine deutliche mittlere
Abweichung vom Spot. Die Szene am Dresdner „Fürstenzug“ beginnt mit der
Verfolgung eines Mopedfahrers. Während eine weitere Frau das Bild betritt,
wechselt der Blickspot auf einen belanglosen Regenwassereinlauf und wieder
hoch zur Frauenkirche. Die Zuschauer sind gespalten und zwischen Frauen,
Einlauf und Kirche hin und her gerissen. Schließlich ist die Abweichung mit
0.45 in der vierten Szene ebenfalls sehr hoch. Dabei handelt es sich um das
Betreten einer Straßenbahn. Der Blickspot wandert dabei von den Füßen über
einen Fahrgast zur Videoanzeige. Alle Probanden haben allerdings nur Augen
für die Begleitung.
61
Szene 1
Szene 2
Szene 3
Szene 4
Abbildung 4.3: Vier ausgewähle Szenen.
Der Plot zeigt die mittlere Entfernung aller Probanden vom dargestellten
Blickspot innerhalb der fünf Sekunden dauernden Szene.
Die durchschnittlichen Anteile der drei eingeführten Klassen wurden im
Folgenden auf alle vier Szenen verfeinert. Dabei konnte berechnet werden,
dass in der ersten Szene im Schnitt 88% der Probanden dem Spot folgen oder
zumindest in seine Richtung blicken. In der zweiten Szene waren es nur noch
62
65%. Trotz der zum kurzeitig hohen Entfernung vom Spot folgten in der
dritten Szene im Mittel 78% der Probanden dem Spot, in der StraßenbahnSzene war er aber lediglich für 41% attraktiv genug.
Abbildung 4.4: Anteil der drei definierten Klassen in den einzelnen Szenen
In Abbildung 4.4 wird zum Teil eine deutliche Varianz in den einzelnen
Klassen deutlich. Aus diesem Grund wurde weiterhin untersucht, wie hoch die
Folgebereitschaft der einzelnen Probanden in den vier Szenen war. Dabei
wurde deutlich, dass es einige Probanden gab, die genau in diesen Szenen
stark dazu tendierten, sich vom Spot zu entfernen, obwohl sie im Schnitt über
den gesamten Film eher den Blick auf den Spot gerichtet hatten. Auf der
anderen Seite gab es Probanden, die genau in den gewählten Szenen, deutlich
oft auf den Spot schauten, obwohl sie im übrigen Film eher „Abweichler“
waren.
Abbildung 4.5: Anteil der „Abweichler“ unter den Probanden
Proband 6 sorgt in den untersuchten Szenen für die hohe Varianz, obwohl
er im gesamten Film eher zum Durchschnitt gehört. Proband 1 ist hier
durchschnittlich, führt diese Klasse im gesamten Film jedoch an.
63
Abbildung 4.6: Charakteristische Einzelbilder der dritten Szene
Die Blicksprünge am Anfang der Szene hatten bereits zu einer hohen
Abweichung von 0.3 zum Mittelpunkt Blickspots (Radius 0.17 Einheiten)
geführt. Das Erscheinen des Mopeds am Bildrand und die ruhige
Folgebewegung motivierte aber viele Probanden, dem Spot zu folgen. Einige
sind dem Blicksprung gar voraus geeilt und hatten ihren Blick damit bereits 3
64
Bilder nach dem Erscheinen des Mopeds auf dem Spot. In der Regel betrug die
Zeit bis zu einer Sakkade zur neuen Spotposition 8 Einzelbilder (Vergleiche
Abbildung 4.7). Das Blickbild der Moped-Folgebewegung kreuzte zwei
Frauen, die einige Probanden zur Fixation bewegten. Mittlerweile betrat die
dritte Frau die Szene, womit erneut viele Probanden vom Spot abwichen. Auch
ein Sprung auf den Regenwassereinlauf am unteren Bildschirmrand konnte
nur die wenigsten Probanden davon abbringen die Frauen zu beobachten. Bei
Proband 10 war in diesem Moment aber deutlich die typische Reaktionszeit
von 300 ms zu erkennen. Der Proband verlässt den Spot aber schnell wieder
und wendet sich wieder den Personen zu, auch als der Spot wieder auf die
Frauenkirche springt. Die meisten Probanden sind dann aber wieder in der
Nähe des Blickbildes.
Abbildung 4.7: Blickbewegung von Proband 10 in der dritten Szene.
Gut erkennbar ist die typische visuelle Reaktionszeit beim Blicksprung zum
Einlauf von regelmäßig beobachteten 8 Einzelbildern (circa 300ms).
Prinzipiell
konnte
in
dem
Versuch
eine
Folgebereitschaft
von
durchschnittlich 75% beobachtet werden, wobei die Probanden mit 53% ihrer
Blicke direkt im gezeigten Spot waren und 22% dem Spot folgten. Dabei sind
wurde deutlich, dass die Zuschauer besonders auf Personen und menschliche
Gesichter schauen. Die Erwartungshaltung an die Darstellung von Personen
und Gesichter sollte von Kameraleuten beim Filmen mit der blickgesteuerten
Kopfkamera bedient werden. Kommentare einiger Probanden deuteten auch in
diese Richtung. Sie waren manchmal nicht mit dem angebotenen Blickbild
zufrieden und wünschten sich eine Verschiebung des Spots in ihre
Blickrichtung. Eine ruhige Kopfhaltung war selbstverständlich förderlich. Eine
Augenfolgebewegung
von
bewegten
Objekten
erzeugte
eine
hohe
Attraktivität. In komplexen Szenen mit vielen optischen Reizen scheint der
Spot zu stören und für manche Zuschauer interessante Dinge zu verdecken.
Bei
hohen
Frequenzen
des
Blickes,
zum
Beispiel
bei
schnellen
Rückstellbewegungen des Auges, während der Straßenbahnfahrt konnten nur
65
wenige Probanden dem Blick folgen. Entspricht die Bewegung des Blickspots
aber der Erwartung, zeigt er also auf Gesichter und Personen, sowie Objekte,
die in die Bildperipherie eintreten, kann sie sehr förderlich sein.
66
5. Zusammenfassung, Bewertung und Ausblick
Ziel
der
Arbeit
war
die
Konzeption
und
Realisierung
eines
Demonstrators zur Montage von Filmmaterial einer kopffesten Szenenkamera
mit
Material
einer
blickgesteuerten
Kopfkamera.
Dazu
wurden
die
Grundlagen zur Blicksteuerung, also der Aufbau und die Bewegungen des
Auges und die Methoden zur Messung dieser Bewegungen dargestellt. Der
Bereich der modernen Videookulographie wurde näher erläutert und aktuelle
Systeme vorgestellt.
„Kopffeste Kamera“ und „blickgesteuerte Kopfkamera“ fallen in die
Domäne der so genannten „subjektiven Kamera“, dem „point of view shot“.
Aus diesem Grund wurde der geschichtliche Hintergrund dieses filmischen
Mittels angedeutet und weiter auf die aktuellen Entwicklungen im Internet
und der dort in „Videoblogs“ stattfindenden Renaissance des „first person
cinema“ eingegangen. In der Spielewelt entwickelt sich zudem mit dem „first
person view“ eine ganz neue Filmästhetik, die den sicheren Umgang und das
Verständnis mit diesen Bildwelten beim Zuschauer schult und gleichzeitig
einen Bedarf entwickelt. Die „Blickautonomie“ der Spieler zeigt aber auch,
dass die Zuschauer selbst bestimmen möchten, wohin geschaut wird. Noch
kein aktuelles Kamerasystem vermag diese Ästhetik im Film umzusetzen. Es
wurde gezeigt, dass „Kopfkameras“ und „Helmkameras“ bereits etablierte
Produkte sind, die in Fernsehen, Medizin, Sicherheit und Freizeit Anwendung
finden. Einige aktuelle Produkte wurden ebenfalls vorgestellt.
Weiterhin wurde die Theorie der „hybriden Perspektive“, respektive
„Multiperspektive“ vorgestellt, die Produkt und Initiator von „Dialogen“ mit
den Bildobjekten ist. Das Phänomen der Herauslösung von Objekten aus ihrem
zentralperspektivischen
„Systemraum“
und
die
Montage
in
einer
„Sonderbildebene“ mit eigener geometrischer Mitte wurden im Folgenden
auch als „Perspektivkontrast“ bezeichnet. Die Montage von Blickbildern in das
Bild der Szenenkamera basierte auf dieser Idee. Das Blickbild sollte durch den
Perspektivkontrast an Bedeutung gewinnen. Zum Anderen sollte es die
fehlende
monoperspektivische
Einordnung
des
Blickbildes
in
die
zentralperspektivische Szene motivieren. Schließlich stellte sich heraus, dass
der Anteil der Blicke in die Peripherie des Szenenbilds so gering sind, dass sich
weder die monoperspektivische Einordnung lohnt, noch eine besondere
Bedeutung durch einen Perspektivkontrast erzielt wird. Schließlich wurden
andere Kontraste zur Hervorhebung des Blickbildes genutzt, wie der
Größenkontrast im Sinne der Bedeutungsperspektive, der Qualitäts-Kontrast
im Sinne der Luftperspektive oder der Kalt-Warm-Kontrast im Sinne der
Farbperspektive.
67
Die Arbeit basiert auf der blickgesteuerten Kopfkamera, die an der LMU
München entwickelt wurde. Aus diesem Grund wurde das verwendete System
näher erläutert, insbesondere deren Kalibrationsmethode, welche im Verlauf
der Arbeit mehrfach adaptiert wurde. Die Kamera hat die theoretische
Eigenschaft, stabilisierte Filme aufzuzeichnen, da sie sich den natürlichen
vestibulookulären Reflex zu Nutze macht. In diese Software wurde die eigene
Funktionalität zur hybriden Darstellung eingebaut. Dabei konnte die Software
um allgemein nützliche Funktionen zum Im- und Export von Videodateien in
gängige Formate erweitert werden.
Zur Korrektur der Verzeichnung der weitwinkligen Bilder der
Szenenkamera wurde eine Methode zur Entzerrung implementiert. Diese sollte
dazu dienen ein möglichst zentralperspektivisches Bild zu erzeugen. Ein
manuell gesetzter Film hatte diese Entzerrung noch nicht. Die Möglichkeit
zum stufenloses Regeln der Verzeichnungskorrektur in laufenden Filmen, lässt
allerdings Zweifel aufkommen, ob die Abkehr vom flächentreuen „Fischauge“
hin zum zentralperspektivisch, „gnomonisch“ korrekten Bild für subjektive
Kameras wirklich richtig ist. Durch die korrigierte Darstellung gewinnt die
Peripherie des Bildes an Bedeutung. Was bei Architekturfotos anregt bringt bei
Kopfbewegungen große Unruhen. Beim Fischauge bleibt die Peripherie
unauffällig und die Bildmitte wird betont. Zudem entsteht der beste
Raumeindruck. Für einen Perspektivkontrast sollte es egal sein, welchen
Abbildungsgesetzen die monoperspektivische Basis folgt.
Im Gegensatz zu einem Video, welches nur die Blickkamera mit ihren
schnell wechselnden Inhalten zeigt, bekommt der Betrachter in der hybriden
Darstellung eine gewisse Autonomie, selbst Entscheiden zu können, wohin
sein Blick führt, ähnlich der Situation in einem Computerspiel. Durch die
dargestellte Gesamtszene bekommt der Zuschauer ein Verständnis für den
Kontext eines konkreten Blickbildes. Er kann Veränderungen in der Peripherie
des Bildes wahrnehmen und versteht so die Motivation für einen Blicksprung.
Die hybride Darstellung hat gegenüber einer einfachen Kopfkamera also den
Vorteil, eine höhere Auflösung an den wichtigen Punkten zu haben und diese
zu markieren. Gegenüber einer puren blickgesteuerten Kamera ermöglicht sie
dem
Zuschauer
mehr
Autonomie
und
Verständnis
gegenüber
dem
Blickverhalten des Kameramanns. Diese Phänomen konnte auch beim Fehlen
der Szenenkamera beobachtet werden, wenn sich der Blickspot auf schwarzem
Grund bewegt und damit eine Art Nachbild zeichnet. Das Wanderen des
Blickes lädt zum Folgen ein.
Neben der blickgesteuerten Kamera wurde auch ein portables System
erklärt, dass auf einem tragbaren Computer zwei Videosignale aufzeichnen
kann. In dieser Arbeit konnte das portable System um eine neue Bedieneinheit
auf Basis eines Videodisplays erweitert werden. Dafür wurde eine eigenen
68
Benutzeroberfläche entwickelt. Die Oberfläche orientierte sich an einfachen
Handymenüs und stellte lediglich die wichtigsten Funktionen zur portablen
Aufnahme zur Verfügung. Schließlich konnten ohne fremde Hilfe Aufnahmen
in natürlicher Umgebung erstellt werden. Dabei konnten gute Erfahrungen
gesammelt werden, die zu weiteren Aufnahmen motivieren. Allerdings
wurden auch praktische Probleme wie die fehlende Entfernungsbestimmung
deutlich, die in neuen Versionen der Software aber behoben werden können.
Bei den Aufnahmen in natürlicher Umgebung wurde auch die Erkenntnis
gewonnen, dass sich der Großteil der Blicke in einem mittleren Bereich
befindet.
In einer Evaluation wurde das aufgenommene Videomaterial von zehn
Probanden angeschaut und deren Blickverhalten relativ zum vorgegebenen
Blickspot gemessen. Aus den insgesamt fünf Minuten des präsentierten Films
wurden wiederum vier charakteristische Szenen von je fünf Sekunden
ausgewählt. Es konnte eine hohe Folgebereitschaft beobachtet, wobei Gesichter
und Personen eine besonders hohe Attraktivität besitzen. Zuschauer verlangen
danach, dass ihre Erwartung erfüllt wird. Dies muss von Kameraleuten
entsprechend
bedient
werden.
Ruhige
Augenbewegungen
laden
den
Zuschauer zum Folgen ein, schnelle Nystagmen oder komplexe Szenen sorgen
für eine Abkehr des Nutzers. In diesem Fall sollte auf die Darstellung des
Blickbildes verzichtet werden.
In der zukünftigen Arbeit sollte es die Möglichkeit geben, den
Perspektivkontrast, genau wie alle anderen Kontraste stufenlos auf Null zu
reduzieren.
Eine
umfangreiche
Evaluation
könnte
den
Einfluss
der
verschiedenen Darstellungsoptionen der hybriden Darstellung, wie die
Kontraste in Perspektive, Größe, Helligkeit, Farbe und Schärfe untersuchen.
Zudem könnte der Effekt eines bewegten Blickbildes auf schwarzem Grund
evaluiert werden. Dabei sollten allerdings Kontrollgruppen die Ergebnisse
relativieren. Mit der entwickelten Umgebung könnten solche Untersuchungen
gemacht werden.
In dieser Arbeit ging es um die prinzipielle Kombination der Bilder mit
dem bisherigen Ergebnis, dass ein Perspektivkontrast kaum eine Rolle spielt,
unter der Prämisse, dass ein Kontrast erzeugt werden soll. Um den Kontrast
möglichst gering zu halten, beziehungsweise nur auf die Bildschärfe zu
reduzieren reichen die gemessene Augenposition und das daraus resultierende
Stellkommando für die Servos. Diese Daten könnten höchstens den Suchraum
für eine weitere Bildverarbeitung einschränken, welche das Blickbild dann
wirklich monoperspektivisch in die Szene integriert.
Die Trennung in zwei Kameras ist ein guter Ansatz, da festgestellt
werden konnte, dass es jeweils eine Dominanz von Szenenbild oder Blickbild
gibt, wobei ein Bild die Ausrichtung des Anderen bestimmen könnte. Durch
69
Analyse der Augenbewegungen und der Auswertung der physikalisch
gemessenen Beschleunigungen des Kopfes, könnte die jeweiligen Dominanz
automatisch bestimmt und damit ein durchgängig stabiles Bild erzeugt
werden. Beim vestibulookulären Reflex dominiert das Augenbild, in diesem
Fall müsste die wackelnde Szenenkamera nachgeführt werden. Bei Sakkaden
liegt eine deutliche Dominanz im Szenenbild, die Blicksprünge würden darin
nur markiert werden. Eine Augenfolgebewegung stellt einen Mischfall dar.
Zwar
gibt
es
ein
eigentlich
ruhiges
Blickbild,
jedoch
sollte
die
Bewegungsrichtung auch in der Szene dargestellt werden.
Um die Erwartungen der Computerspieler zu erfüllen wäre es
schließlich wünschenswert, wenn die eingeführte „Blickautonomie“ noch
erweitert werden könnte. So wäre es vorstellbar, einen noch größeren Bereich
des Gesichtfeldes, aufzuzeichnen, in dem sich ein Zuschauer wie bei der
Egoperspektive selbst orientieren könnte. Gäbe es eine solche „Umschau“
könnte auch eine „Steady-Cam“ simuliert werden, die einen besonders
ruhigen Fahrt durch die Subjektive macht. Der durch Schärfe markierte Blick
des Kameramanns ist dann lediglich eine Motivation zum Schauen und könnte
beim „Steady-Cam“-Pfad einer von vielen Stützpunkte einer Bezierkurve sein.
70
6. Literaturverzeichnis
[AAG86]
Afanador AJ, Aitsebaono P, Gertsman DR, Eye and head
contribution to gaze at near throughmultifocals: the usable field
of view., 1986
[Bou00]
Paul Bourke, Nonlinear Lens Distortion, 2000,
http://local.wasp.uwa.edu.au/~pbourke/projection/lenscorre
ction/
[Bra85]
Edward Branigan, The point of view shot, 1985
[BTh98]
Braim S. P., Thomas M. W., Imaging Systems, Patent
GB2323231, 1998,
[CEH+99] Clarke AH, Engelhron A, Hamann C et al, Measuring the
Otolith-Ocular Response by Means of Unilateral Radial
Acceleration, 1999
[Fra05]
Ingmar Franke, Ordnungsbasiertes Verfahren zur Generierung
von hybriden Perspektiven an einem computergrafischen
Beispiel, 2005 http://web.inf.tudresden.de/mg/_downloads/_files/Franke3D_NordOst_2005-Fullpaper.pdf
[Gro05]
Rainer Groh, Das Interaktions-Bild - Theorie und Methodik der
Interfacegestaltung, 2005
[Has00]
Haslwanter T., Computational and Experimental Aspects of
Rotary Eye Movements in Three Directions, 2000, http://ecollection.ethbib.ethz.ch/ecol-pool/habil/habil_6.pdf
[Hel1863] Helmholtz, H., Ueber die normalen Bewegungen des
menschlichen Auges, 1863
[Hip00]
Klemens Hippel, Prolegomena zu einer pragmatischen
Fernsehtheorie, 2000, http://www.diss.fuberlin.de/2000/37/index.html
[Ifs07]
internationalfilmseries.com, First Person Cinema, 2007,
http://www.internationalfilmseries.com/first_person_cinema/
[Ill07]
Siegfried Illgen, Camera obscura - eine Touristenattraktion,
2007, http://www.sachsen-freizeit.de/CO/camera.html
[JRV03]
Joos, M., Rötting, M. & Velichkovsky, B.M., Die Bewegungen
des menschlichen Auges: Fakten, Methoden, innovative
Anwendungen, 2003 http://rcswww.urz.tudresden.de/~cogsci/pdf/joos02.pdf
[KSJ00]
Kandel, Eric R.; Schwartz, James H., Jessel, Thomas M.,
Principles od Neural Science, 2000
[Nó33]
Lorente de Nó , Vestibulo-ocular reflex arc, 1933,
71
[Ohm28]
Ohm J., Die Hebelnystagmographie, 1928
[opt07]
Optomotor Laboratory, Express Eye - Eye Tracker, 2007,
http://optom.de/english/exe-tr.htm
[Pan85]
Panofsky, Erwin, Die Perspektive als symbolische Form, 1985
[Pin97]
Pinel, John P.J., Biopsycholgie - Eine Einführung, 1997
[Rob63]
Robinson D A, A method of measuring eye movement using a
cleral search coil in a magnetic field, 1963
[Sch+05]
Schneider, E. et al., Eye Movement Driven Head-Mounted
Camera: It Looks Where the Eyes Look, 2005
[TSM+94] Tweed D, Sievering D, Misslich H et al., Rotational kinematics
of the human vestibuloocular reflex. I. Gain matrices, 1994
[UPJ+05]
Unema, P., Pannasch, S., Joos, M. & Velichkovsky, B.M., Timecourse of information processing during scene perception: The
relationship between saccade amplitude and fixation duration,
2005, http://rcswww.urz.tudresden.de/~cogsci/pdf/unema2005.pdf
[VRW78]
Volkmann, F.C., Riggs, L.A. & White, K.D., Central and
peripheral determinants of saccadic suppression, 1978
[Wik07p]
Wikipedia, Perspektive, 2007,
http://de.wikipedia.org/w/index.php?title=Perspektive&oldi
d=27363117
[YoS75]
Young, L.R., Sheena, D., Survey of eye movement recording
methods, 1975
[Zie01]
Gernot Ziegler, YUV texture upload, 2001,
http://oss.sgi.com/projects/performer/mail/infoperformer/perf-01-06/0017.html
Alle angegebenen Internetadressen wurden am 25.02.2007 noch einmal auf ihre
Konsitenz geprüft und abgespeichert.
72
7. Abbildungsverzeichnis
Abbildung 2.1: Muskulatur des Auges................................................................8
Abbildung 2.2: Elektromagnetische „Search Coil“ Methode mittels
Kontaktlinse (Links:Timothy C Hain, Rechts: Haslwanter
[Has00]).......................................................................................10
Abbildung 2.3: Elektrookulographisches EOG System mit Szenenkamera
(Shackel 1960)............................................................................ 11
Abbildung 2.4: Purkinjebilder (fourward.com)................................................11
Abbildung 2.5: Apparaturen zur Messung mittels Infrarotokulographie
(Links: optom.de, Mitte, Rechts: eyemove.com)...................12
Abbildung 2.6: Anwendung und Beispiele für stationäre VOG-Systeme.... 13
Abbildung 2.7: Typisches Bild einer Augenkamera........................................ 14
Abbildung 2.8: Aufbau eines kopffesten Videookulographiesystems..........14
Abbildung 2.9: Systeme zur Videonystagmographie .....................................15
Abbildung 2.10: Kopffeste VOG-Systeme mit HochgeschwindigkeitsKameras ..................................................................................... 15
Abbildung 2.11: Portables VOG-System mit tragbarem Videorecorder.
(a-s-l.com)................................................................................... 16
Abbildung 2.12: Klassiker der subjektiven Kamera.........................................17
Abbildung 2.13: Der komplett subjektive Film "Russian Ark" (2002)........... 18
Abbildung 2.14: Authentizität mittels subjektiver Handkameras ................19
Abbildung 2.15: Versteckte Kamera im Fernsehen..........................................19
Abbildung 2.16: Videopodcast der Bundeskanzlerin Angela Merkel
(bundeskanzlerin.de)................................................................ 20
Abbildung 2.17: Der first person shooter "Doom" (1993) ...............................21
Abbildung 2.18: Kopfkameras bei der Polizei.................................................. 22
Abbildung 2.19: Funktionsprinzip der blickgesteuerten Kopfkamera......... 23
Abbildung 2.20: Kalibrationsprozedur der blickgesteuerten Kopfkamera.. 24
Abbildung 2.21: Blockdiagramm der mobilen blickgesteuerten Kopfkamera
......................................................................................................25
Abbildung 2.22: Oberfläche der Kopfkamera-Software "Qlotz".................... 26
Abbildung 2.23: "Der Neumarkt zu Dresden von der Moritzstraße aus".... 27
73
Abbildung 2.24: Markierung der beiden geometrischen Mitten im Bild von
Canaletto.....................................................................................28
Abbildung 2.25: Aufzeichnung der Augenbewegung eines Betrachters......29
Abbildung 3.1: Vorhandene blickgesteuerte Kopfkamera mit zusätzlicher
Szenenkamera. ..........................................................................33
Abbildung 3.2: Manuelle Montage in Adobe AfterEffects............................. 34
Abbildung 3.3: Komplexen Szene mit schnellen Augenbewegungen.......... 36
Abbildung 3.4: Korrektur der Fischaugenverzeichnung................................ 37
Abbildung 3.5: Kalibrationsprozedur für die hybride Darstellung. ............ 39
Abbildung 3.6: Kalibration am Referenzgitter..................................................40
Abbildung 3.7: Anpassung des Servo-Delays. .................................................41
Abbildung 3.8: Verwendete Raster in der OpenGL-Darstellung...................42
Abbildung 3.9: Radialer Weichzeichner um den Blickpunkt......................... 44
Abbildung 3.10: Export des komponierten Videos in eine AVI-Datei mit
MPEG4-Codec........................................................................... 45
Abbildung 3.11: Alle Einstellmöglichkeiten der hybriden Darstellung....... 46
Abbildung 3.12: Anzeige der ursprüngliche Software auf dem verwendeten
Videodisplay.............................................................................. 48
Abbildung 3.13: Fünfzeiliges Menü speziell für den mobilen Einsatz......... 50
Abbildung 3.14: Bedieneinheit des tragbaren Computers..............................51
Abbildung 3.15: Menüstruktur der portablen Bedieneinheit......................... 51
Abbildung 3.16: Versuchsaufbau bei der Evaluation. .................................... 53
Abbildung 3.17: Gemessene horizontale Blickposition eines Probanden.....54
Abbildung 3.18: Position des Blickbildes (Soll-Wert) und um Offset und
Drift korrigierter Blick eines Probanden................................54
Abbildung 4.1: Markierung der Blicke aller zehn Probanden im gezeigten
Film. ............................................................................................60
Abbildung 4.2: Markierung der vier charkteristischen Szenen......................61
Abbildung 4.3: Vier ausgewähle Szenen. ......................................................... 62
Abbildung 4.4: Anteil der drei definierten Klassen in den einzelnen Szenen
......................................................................................................63
Abbildung 4.5: Anteil der „Abweichler“ unter den Probanden.................... 63
74
Abbildung 4.6: Charakteristische Einzelbilder der dritten Szene..................64
Abbildung 4.7: Blickbewegung von Proband 10 in der dritten Szene. ........ 65
75
8. Anhang
8.1. Vergleich von Videookulographiesystemen
Hersteller
EyeGaze
EyeGaze
ERICA
LC
MetroVision
Tobii
Frequenz
60 Hz
250 Hz
60 Hz
60 Hz
60 Hz
60 Hz
URL
eyegaze.com
eyegaze.com
eyeresponse.com lctinc.ocm
metrovision.fr
tobii.com
Tabelle 1: Stationäre Systeme für freie Kopfhaltung mit Monitor
Hersteller
EyeTech
EyeTech
SeeingMachines
Tobii
Frequenz
60 Hz
60 Hz
60 Hz
60 Hz
URL
eyetechds.com
eyetechds.com
seeingmachines.com
tobii.com
Tabelle 2: Stationäre Systeme für freie Kopfhaltung ohne Monitor
Hersteller
Eyelink
Eyelink
SMI
CRS
Frequenz
1000-2000 Hz
1000-2000 Hz
1250 Hz
250 Hz
URL
eyelinkinfo.com
eyelinkinfo.com
smi.de
crsltd.com
Tabelle 3: Stationäre Systeme mit fixiertem Kopf
76
Hersteller
SMI
Micro-medical
Neuro kinetics
Intellinetix
VDVS
Kameras
1/2
1/2
1/2
2
1/2
Laser
-
-
o
-
-
Frequenz
60 Hz
60 Hz
200 Hz
60 Hz
60 Hz
URL
smi.de
micromedical.com
neuro-kinetics.com
intellinetx.com
vdvs.ru
Tabelle 4: Kopffeste Systeme für Nystagmographie 1
Hersteller
Synapsis
Gnotometrics
EST
Homoth
Difra
Kameras
1 (binok.)
2
2
1
1
Frequenz
200 Hz
60 Hz
60 Hz
60 Hz
60 Hz
URL
sysnapsis.fr
gnotometrics.com
est-med.de
homoth.de
difra.de
Tabelle 5: Kopffeste Systeme für Nystagmographie 2
Hersteller
ASL
LMU
Chronos Vision
Eyelink
Kameras
1/2
1/2
2
1/2
Frequenz
360 Hz
500 Hz
400 Hz
500 Hz
Szene
o
-
-
URL
a-s-l.com
forbias.de
chronos-vision.de
eyelinkinfo.com
Tabelle 6: Kopffeste Systeme mit Hochgeschindigkeitskameras
77
Hersteller
Arrignton Research
ASL
Open Eyes
SMI
Kameras
1/2
1
1
1/2
Frequenz
30 Hz
30 Hz
30 Hz
60 Hz
Spiegel
o
-
-
o
URL
arringtonresearch.com
a-s-l.com
hcvl.hci.iastate.edu
smi.de
Tabelle 7: Portable Systeme mit Szenenkamera
8.2. Vergleich von Kopfkamerasystemen
Hersteller
Rent-a-Cop
Kopfkamera.de
URL
s p i o n a g e - kopfkamera.de
ueberwachungstechnik.de
Blackeye
Oregon Scientific
blackeyeusa.com
oregonscientific.com
Tabelle 8: Reine Kopfkamera-Systeme
Hersteller
ARCHOS
Helmkamera.at
Second
Surveilance
Sight Faseroptik Henning
URL
archos.com
helmkamera.at
doublevisionsystems.com
faseroptik-henning.de
Tabelle 9: Kopfkamera-Systeme mit Rekorder
78
8.3. Quelltext zur Verzeichnungskorrektur
void radialDist(double xout, double yout, double *xin, double *yin)
{
double ro, ri, angle, lens, a, b, c;
// distortion level (w)
lens = tex[GUI_SCENE_HEAD].lens;
if (lens == 0.)
{
*xin = xout; *yin = yout;
}
else // no correction
{
// calculate radius and angle from current grid box
ro = sqrt(xout*xout + yout*yout*9./16.);
angle = atan2(yout*3./4.,xout);
// apply radial distortion function
ri = atan( ro * lens) / atan( lens );
// calculate distorted texture vertex points for current grid
*xin = ri * cos( angle );
*yin = ri * sin( angle );
}
return;
}
...
unsigned int gl_list[SCENE_GL_HEAD] = glGenLists( 1 );
glNewList( gl_list[SCENE_GL_HEAD], GL_COMPILE );
{
struct double_coord *t;
double xo, yo, d, x1, y1, x2, y2, hw, hh, xc, yc, xi, yi;
glEnable( GL_TEXTURE_2D );
glBindTexture( GL_TEXTURE_2D, tex[GUI_SCENE_HEAD].tex_id );
// abbr. to texture coordinates
t = tex[GUI_SCENE_HEAD].tex_coord;
// step length (distance between grid points) minimum .02
d = .04;
// vertex point of an rectangle! subtexture
x1 = t[3].x; y1 = t[3].y; x2 = t[1].x; y2 = t[1].y;
// half width and height
hw = (x2 - x1) / 2.; hh = (y2 - y1) / 2.;
// center of rectangle
xc = x1 + hw; yc = y1 + hh;
// display grid
for (yo=-1.;yo<1.;yo+=d)
for (xo=-1.;xo<1.;xo+=d)
{
glBegin( GL_QUADS );
radialDist( xo
, yo + d, &xi, &yi);
glTexCoord2d( xc + hw*xi, yc + hh*yi);
glVertex2d( xo
, yo + d );
radialDist( xo + d, yo + d, &xi, &yi);
glTexCoord2d( xc + hw*xi, yc + hh*yi);
glVertex2d( xo + d, yo + d );
radialDist( xo + d, yo
, &xi, &yi);
glTexCoord2d( xc + hw*xi, yc + hh*yi);
glVertex2d( xo + d, yo
);
radialDist( xo
, yo
, &xi, &yi);
glTexCoord2d( xc + hw*xi yc + hh*yi);
glVertex2d( xo
, yo
);
glEnd();
}
glDisable( GL_TEXTURE_2D );
}
glEndList();
...
glCallList(gl_list[SCENE_GL_HEAD]);
79
8.4. Quelltext zur Darstellung des runden Blickspots
unsigned int gl_list[SCENE_GL_GAZE_ROUND] = glGenLists( 1 );
glNewList( gl_list[SCENE_GL_GAZE_ROUND], GL_COMPILE );
{
double theta = 0.;
float radius = tex[GUI_SCENE_GAZE].radius;
struct double_coord *t;
t = tex[GUI_SCENE_GAZE].tex_coord;
glEnable( GL_TEXTURE_2D );
glBindTexture( GL_TEXTURE_2D, tex[GUI_SCENE_GAZE].tex_id );
{
glColor4f(1., 1., 1., 1.);
glTexCoord2d( t[4].x, t[4].y );
glVertex2f(0., 0.);
glBegin (GL_TRIANGLE_FAN);
for (theta = 0.; theta <= 2.*M_PI; theta += M_PI/36.) {
float x = sin(theta) * .9;
float y = cos(theta) * .9;
glTexCoord2d( t[4].x + radius*x * 16./9., t[4].y - radius*y );
glVertex2f( x, y);
}
glEnd();
glBegin (GL_TRIANGLE_STRIP);
for (theta = 0.; theta <= 2.*M_PI; theta += M_PI/36.) {
glColor4f(1., 1., 1., 1.);
float x = sin(theta) * .9;
float y = cos(theta) * .9;
glTexCoord2d( t[4].x + radius*x * 16./9., t[4].y - radius*y );
glVertex2f( x, y);
glColor4f(1., 1., 1., 0.);
x = sin(theta+M_PI/72.);
y = cos(theta+M_PI/72.);
glTexCoord2d( t[4].x + radius*x * 16./9., t[4].y - radius*y );
glVertex2f( x, y);
}
glEnd();
}
glDisable( GL_TEXTURE_2D );
}
glEndList();
...
glEnable( GL_BLEND );
glBlendFunc(GL_SRC_ALPHA, GL_ONE_MINUS_SRC_ALPHA);
glTranslatef( transformation.translate.x,
transformation.translate.y, 0.);
glScalef(transformation.scale, transformation.scale, 1.);
glRotatef(transformation.rotate, 0., 0., 1.);
glCallList(gl_list[SCENE_GL_GAZE_ROUND]);
80
8.5. Quelltext zur Erzeugung der Unschärfe
// apply blur filtering
glClear(GL_ACCUM_BUFFER_BIT);
for (y=0; y<size; y++) // filter width for general blurring in pixel
{
for (x=0; x<size; x++)
{
for (r=0; r<radial_size; r++) // filter width for radial blur
{
glCallList(gl_list[SCENE_GL_HEAD]);
glAccum(GL_ACCUM, 1./(radial_size*size*size));
glTranslatef(transformation.translate.x,
transformation.translate.y,0.);
glRotatef(.3, 0., 0., 1.);
glTranslatef(-transformation.translate.x,
-transformation.translate.y,0.);
}
glTranslatef(transformation.translate.x,
transformation.translate.y,0.);
glRotatef(-radial_size*.3, 0., 0., 1.);
glTranslatef(-transformation.translate.x,
-transformation.translate.y,0.);
glTranslatef(2./width(), 0., 0.);
}
glTranslatef(- size*2./width(), 2./height() * 3./4., 0.);
}
glAccum(GL_RETURN, 1.);
81
Herunterladen